Spaces:

allenai
/

reward-bench

Running

App Files Files Community

natolambert commited on Mar 7

Commit

31bff5a

•

1 Parent(s): 6b2b055

major imporvements

Browse files

Files changed (4) hide show

README.md +1 -0
app.py +104 -67
src/logo.png +0 -0
src/md.py +3 -1

README.md CHANGED Viewed

@@ -6,6 +6,7 @@ colorTo: blue
 sdk: gradio
 sdk_version: 4.12.0
 app_file: app.py
 pinned: false
 license: apache-2.0
 ---

 sdk: gradio
 sdk_version: 4.12.0
 app_file: app.py
+header: mini
 pinned: false
 license: apache-2.0
 ---

app.py CHANGED Viewed

@@ -12,17 +12,17 @@ import numpy as np
 api = HfApi()
 COLLAB_TOKEN = os.environ.get("COLLAB_TOKEN")
-evals_repo = "ai2-adapt-dev/HERM-Results"
-eval_set_repo = "ai2-adapt-dev/rm-benchmark-dev"
-repo_dir_herm = "./evals/herm/"
 def restart_space():
-    api.restart_space(repo_id="ai2-adapt-dev/rm-benchmark-viewer", token=COLLAB_TOKEN)
 print("Pulling evaluation results")
 repo = snapshot_download(
-    local_dir=repo_dir_herm,
     ignore_patterns=["pref-sets-scores/*", "eval-set-scores/*"],
     repo_id=evals_repo,
     use_auth_token=COLLAB_TOKEN,
@@ -32,7 +32,7 @@ repo = snapshot_download(
 )
-def avg_over_herm(dataframe_core, dataframe_prefs):
     """
     Averages over the subsets alpacaeval, mt-bench, llmbar, refusals, hep and returns dataframe with only these columns.
@@ -96,7 +96,7 @@ def expand_subsets(dataframe):
 def length_bias_check(dataframe):
     """
-    Takes the raw herm dataframe and splits the data into new buckets according to length_categories.
     Then, take the average of the three buckets as "average"
     """
     new_df = dataframe.copy()
@@ -130,16 +130,16 @@ def length_bias_check(dataframe):
-herm_data = load_all_data(repo_dir_herm, subdir="eval-set").sort_values(by='average', ascending=False)
-herm_data_length = length_bias_check(herm_data).sort_values(by='Terse Bias', ascending=False)
-prefs_data = load_all_data(repo_dir_herm, subdir="pref-sets").sort_values(by='average', ascending=False)
 # prefs_data_sub = expand_subsets(prefs_data).sort_values(by='average', ascending=False)
-herm_data_avg = avg_over_herm(herm_data, prefs_data).sort_values(by='average', ascending=False)
-col_types_herm = ["markdown"] + ["str"] + ["number"] * (len(herm_data.columns) - 1)
-col_types_herm_avg = ["markdown"]+ ["str"] + ["number"] * (len(herm_data_avg.columns) - 1)
-cols_herm_data_length = ["markdown"] + ["number"] * (len(herm_data_length.columns) - 1)
 col_types_prefs = ["markdown"] + ["number"] * (len(prefs_data.columns) - 1)
 # col_types_prefs_sub = ["markdown"] + ["number"] * (len(prefs_data_sub.columns) - 1)
@@ -170,72 +170,105 @@ def regex_table(dataframe, regex, filter_button):
     regex_list = [x.strip() for x in regex.split(",")]
     # Join the list into a single regex pattern with '|' acting as OR
     combined_regex = '|'.join(regex_list)
     # if filter_button, remove all rows with "ai2" in the model name
-    if (not filter_button) and ("ai2" not in regex):
-        dataframe = dataframe[~dataframe["model"].str.contains("ai2", case=False, na=False)]
     # Filter the dataframe such that 'model' contains any of the regex patterns
     return dataframe[dataframe["model"].str.contains(combined_regex, case=False, na=False)]
 with gr.Blocks() as app:
-    # create tabs for the app, moving the current table to one titled "HERM" and the benchmark_text to a tab called "About"
     with gr.Row():
         with gr.Column(scale=3):
             gr.Markdown(TOP_TEXT)
-        with gr.Column(scale=2):
-            search = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
-            filter_button = gr.Checkbox(label="Include AI2 training runs (or type ai2 above).", interactive=True)
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("HERM Eval Set - Overview"):
             with gr.Row():
                 # reference data
-                herm_table_hidden = gr.Dataframe(
-                    herm_data_avg.values,
-                    datatype=col_types_herm_avg,
-                    headers=herm_data_avg.columns.tolist(),
                     visible=False,
                 )
-                herm_table = gr.Dataframe(
-                    regex_table(herm_data_avg.copy(), "", False).values,
-                    datatype=col_types_herm_avg,
-                    headers=herm_data_avg.columns.tolist(),
-                    elem_id="herm_dataframe_avg",
                     height=1000,
                 )
-        with gr.TabItem("HERM Eval Set - Detailed"):
             with gr.Row():
                 # ref data
-                herm_table_detailed_hidden = gr.Dataframe(
-                    herm_data.values,
-                    datatype=col_types_herm,
-                    headers=herm_data.columns.tolist(),
                     visible=False,
                 )
-                herm_table_detailed = gr.Dataframe(
-                    regex_table(herm_data.copy(), "", False).values,
-                    datatype=col_types_herm,
-                    headers=herm_data.columns.tolist(),
-                    elem_id="herm_dataframe",
                     height=1000,
                 )
-        with gr.TabItem("HERM Eval Set - Length Bias"):
             with gr.Row():
-                # backup
-                herm_table_len_hidden = gr.Dataframe(
-                    herm_data_length.values,
-                    datatype=cols_herm_data_length,
-                    headers=herm_data_length.columns.tolist(),
-                    visible=False,
-                )
-                herm_table_len = gr.Dataframe(
-                    regex_table(herm_data_length.copy(), "", False).values,
-                    datatype=cols_herm_data_length,
-                    headers=herm_data_length.columns.tolist(),
-                    elem_id="herm_dataframe_length",
-                    height=1000,
-                )
-        with gr.TabItem("Known Pref. Sets"):
             with gr.Row():
                 PREF_SET_TEXT = """
                 For more information, see the [dataset](https://huggingface.co/datasets/allenai/pref-test-sets).
@@ -250,7 +283,7 @@ with gr.Blocks() as app:
                     visible=False,
                 )
                 pref_sets_table = gr.Dataframe(
-                    regex_table(prefs_data.copy(), "", False).values,
                     datatype=col_types_prefs,
                     headers=prefs_data.columns.tolist(),
                     elem_id="prefs_dataframe",
@@ -276,21 +309,25 @@ with gr.Blocks() as app:
         # removed plot because not pretty enough
         # with gr.TabItem("Model Correlation"):
         #     with gr.Row():
-        #         plot = plot_avg_correlation(herm_data_avg, prefs_data)
         #         gr.Plot(plot)
-    search.change(regex_table, inputs=[herm_table_hidden, search, filter_button], outputs=herm_table)
-    search.change(regex_table, inputs=[herm_table_detailed_hidden, search, filter_button], outputs=herm_table_detailed)
-    search.change(regex_table, inputs=[herm_table_len_hidden, search, filter_button], outputs=herm_table_len)
-    search.change(regex_table, inputs=[pref_sets_table_hidden, search, filter_button], outputs=pref_sets_table)
 # Load data when app starts, TODO make this used somewhere...
 # def load_data_on_start():
-#     data_herm = load_all_data(repo_dir_herm)
-#     herm_table.update(data_herm)
-#     data_herm_avg = avg_over_herm(repo_dir_herm)
-#     herm_table.update(data_herm_avg)
 #     data_prefs = load_all_data(repo_dir_prefs)
 #     pref_sets_table.update(data_prefs)

 api = HfApi()
 COLLAB_TOKEN = os.environ.get("COLLAB_TOKEN")
+evals_repo = "allenai/reward-bench-results"
+eval_set_repo = "allenai/reward-bench"
+repo_dir_rewardbench = "./evals/rewardbench/"
 def restart_space():
+    api.restart_space(repo_id="allenai/reward-bench", token=COLLAB_TOKEN)
 print("Pulling evaluation results")
 repo = snapshot_download(
+    local_dir=repo_dir_rewardbench,
     ignore_patterns=["pref-sets-scores/*", "eval-set-scores/*"],
     repo_id=evals_repo,
     use_auth_token=COLLAB_TOKEN,
 )
+def avg_over_rewardbench(dataframe_core, dataframe_prefs):
     """
     Averages over the subsets alpacaeval, mt-bench, llmbar, refusals, hep and returns dataframe with only these columns.
 def length_bias_check(dataframe):
     """
+    Takes the raw rewardbench dataframe and splits the data into new buckets according to length_categories.
     Then, take the average of the three buckets as "average"
     """
     new_df = dataframe.copy()
+rewardbench_data = load_all_data(repo_dir_rewardbench, subdir="eval-set").sort_values(by='average', ascending=False)
+rewardbench_data_length = length_bias_check(rewardbench_data).sort_values(by='Terse Bias', ascending=False)
+prefs_data = load_all_data(repo_dir_rewardbench, subdir="pref-sets").sort_values(by='average', ascending=False)
 # prefs_data_sub = expand_subsets(prefs_data).sort_values(by='average', ascending=False)
+rewardbench_data_avg = avg_over_rewardbench(rewardbench_data, prefs_data).sort_values(by='average', ascending=False)
+col_types_rewardbench = ["markdown"] + ["str"] + ["number"] * (len(rewardbench_data.columns) - 1)
+col_types_rewardbench_avg = ["markdown"]+ ["str"] + ["number"] * (len(rewardbench_data_avg.columns) - 1)
+cols_rewardbench_data_length = ["markdown"] + ["number"] * (len(rewardbench_data_length.columns) - 1)
 col_types_prefs = ["markdown"] + ["number"] * (len(prefs_data.columns) - 1)
 # col_types_prefs_sub = ["markdown"] + ["number"] * (len(prefs_data_sub.columns) - 1)
     regex_list = [x.strip() for x in regex.split(",")]
     # Join the list into a single regex pattern with '|' acting as OR
     combined_regex = '|'.join(regex_list)
     # if filter_button, remove all rows with "ai2" in the model name
+    if isinstance(filter_button, list) or isinstance(filter_button, str):
+        if "AI2 Experiments" not in filter_button and ("ai2" not in regex):
+            dataframe = dataframe[~dataframe["model"].str.contains("ai2", case=False, na=False)]
+        if "Seq. Classifiers" not in filter_button:
+            dataframe = dataframe[~dataframe["model_type"].str.contains("Seq. Classifier", case=False, na=False)]
+        if "DPO" not in filter_button:
+            dataframe = dataframe[~dataframe["model_type"].str.contains("DPO", case=False, na=False)]
+        if "Custom Classifiers" not in filter_button:
+            dataframe = dataframe[~dataframe["model_type"].str.contains("Custom Classifier", case=False, na=False)]
     # Filter the dataframe such that 'model' contains any of the regex patterns
     return dataframe[dataframe["model"].str.contains(combined_regex, case=False, na=False)]
 with gr.Blocks() as app:
+    # create tabs for the app, moving the current table to one titled "rewardbench" and the benchmark_text to a tab called "About"
     with gr.Row():
+        with gr.Column(scale=2.2):
+            # search = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
+            # filter_button = gr.Checkbox(label="Include AI2 training runs (or type ai2 above).", interactive=True)
+            # img = gr.Image(value="https://private-user-images.githubusercontent.com/10695622/310698241-24ed272a-0844-451f-b414-fde57478703e.png", width=500)
+            gr.Markdown("""
+                        ![](file/src/logo.png)
+                        """)
         with gr.Column(scale=3):
             gr.Markdown(TOP_TEXT)
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.TabItem("🏆 RewardBench Leaderboard"):
+            with gr.Row():
+                search_1 = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
+                model_types_1 = gr.CheckboxGroup(["Seq. Classifiers", "DPO", "Custom Classifiers", "AI2 Experiments"],
+                                                 value=["Seq. Classifiers", "DPO", "Custom Classifiers"],
+                                                 label="Model Types",
+                                                #  info="Which model types to include.",
+                                                 )
             with gr.Row():
                 # reference data
+                rewardbench_table_hidden = gr.Dataframe(
+                    rewardbench_data_avg.values,
+                    datatype=col_types_rewardbench_avg,
+                    headers=rewardbench_data_avg.columns.tolist(),
                     visible=False,
                 )
+                rewardbench_table = gr.Dataframe(
+                    regex_table(rewardbench_data_avg.copy(), "", ["Seq. Classifiers", "DPO", "Custom Classifiers"]).values,
+                    datatype=col_types_rewardbench_avg,
+                    headers=rewardbench_data_avg.columns.tolist(),
+                    elem_id="rewardbench_dataframe_avg",
                     height=1000,
                 )
+        with gr.TabItem("🔍 RewardBench - Detailed"):
+            with gr.Row():
+                search_2 = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
+                model_types_2 = gr.CheckboxGroup(["Seq. Classifiers", "DPO", "Custom Classifiers", "AI2 Experiments"],
+                                                 value=["Seq. Classifiers", "DPO", "Custom Classifiers"],
+                                                 label="Model Types",
+                                                #  info="Which model types to include."
+                                                 )
             with gr.Row():
                 # ref data
+                rewardbench_table_detailed_hidden = gr.Dataframe(
+                    rewardbench_data.values,
+                    datatype=col_types_rewardbench,
+                    headers=rewardbench_data.columns.tolist(),
                     visible=False,
                 )
+                rewardbench_table_detailed = gr.Dataframe(
+                    regex_table(rewardbench_data.copy(), "", ["Seq. Classifiers", "DPO", "Custom Classifiers"]).values,
+                    datatype=col_types_rewardbench,
+                    headers=rewardbench_data.columns.tolist(),
+                    elem_id="rewardbench_dataframe",
                     height=1000,
                 )
+        # with gr.TabItem("rewardbench Eval Set - Length Bias"):
+        #     with gr.Row():
+        #         # backup
+        #         rewardbench_table_len_hidden = gr.Dataframe(
+        #             rewardbench_data_length.values,
+        #             datatype=cols_rewardbench_data_length,
+        #             headers=rewardbench_data_length.columns.tolist(),
+        #             visible=False,
+        #         )
+        #         rewardbench_table_len = gr.Dataframe(
+        #             regex_table(rewardbench_data_length.copy(), "", False).values,
+        #             datatype=cols_rewardbench_data_length,
+        #             headers=rewardbench_data_length.columns.tolist(),
+        #             elem_id="rewardbench_dataframe_length",
+        #             height=1000,
+        #         )
+        with gr.TabItem("Existing Test Sets"):
             with gr.Row():
+                search_3 = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
+                model_types_3 = gr.CheckboxGroup(["Seq. Classifiers", "DPO", "Custom Classifiers", "AI2 Experiments"],
+                                                 value=["Seq. Classifiers", "DPO", "Custom Classifiers"],
+                                                 label="Model Types",
+                                                #  info="Which model types to include.",
+                                                 )
             with gr.Row():
                 PREF_SET_TEXT = """
                 For more information, see the [dataset](https://huggingface.co/datasets/allenai/pref-test-sets).
                     visible=False,
                 )
                 pref_sets_table = gr.Dataframe(
+                    regex_table(prefs_data.copy(), "", ["Seq. Classifiers", "DPO", "Custom Classifiers"]).values,
                     datatype=col_types_prefs,
                     headers=prefs_data.columns.tolist(),
                     elem_id="prefs_dataframe",
         # removed plot because not pretty enough
         # with gr.TabItem("Model Correlation"):
         #     with gr.Row():
+        #         plot = plot_avg_correlation(rewardbench_data_avg, prefs_data)
         #         gr.Plot(plot)
+    search_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, model_types_1], outputs=rewardbench_table)
+    search_2.change(regex_table, inputs=[rewardbench_table_detailed_hidden, search_2, model_types_2], outputs=rewardbench_table_detailed)
+    # search.change(regex_table, inputs=[rewardbench_table_len_hidden, search, filter_button], outputs=rewardbench_table_len)
+    search_3.change(regex_table, inputs=[pref_sets_table_hidden, search_3, model_types_3], outputs=pref_sets_table)
+    model_types_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, model_types_1], outputs=rewardbench_table)
+    model_types_2.change(regex_table, inputs=[rewardbench_table_detailed_hidden, search_2, model_types_2], outputs=rewardbench_table_detailed)
+    model_types_3.change(regex_table, inputs=[pref_sets_table_hidden, search_3, model_types_3], outputs=pref_sets_table)
 # Load data when app starts, TODO make this used somewhere...
 # def load_data_on_start():
+#     data_rewardbench = load_all_data(repo_dir_rewardbench)
+#     rewardbench_table.update(data_rewardbench)
+#     data_rewardbench_avg = avg_over_rewardbench(repo_dir_rewardbench)
+#     rewardbench_table.update(data_rewardbench_avg)
 #     data_prefs = load_all_data(repo_dir_prefs)
 #     pref_sets_table.update(data_prefs)

src/logo.png ADDED Viewed

src/md.py CHANGED Viewed

@@ -78,9 +78,11 @@ For more details, see the [dataset](https://huggingface.co/datasets/ai2-rlhf-col
 """
 TOP_TEXT = """
-# Holistic Evaluation of Reward Models (HERM) from AI2
 Evaluating the capabilities, safety, and pitfalls of reward models.
 [Code](https://github.com/allenai/herm) | [Eval. Dataset](https://huggingface.co/datasets/ai2-adapt-dev/rm-benchmark-dev) | [Existing Test Sets](https://huggingface.co/datasets/allenai/pref-test-sets) | [Results](https://huggingface.co/datasets/ai2-adapt-dev/HERM-Results) | Paper (coming soon)
 """

 """
 TOP_TEXT = """
+# RewardBench from AI2
 Evaluating the capabilities, safety, and pitfalls of reward models.
 [Code](https://github.com/allenai/herm) | [Eval. Dataset](https://huggingface.co/datasets/ai2-adapt-dev/rm-benchmark-dev) | [Existing Test Sets](https://huggingface.co/datasets/allenai/pref-test-sets) | [Results](https://huggingface.co/datasets/ai2-adapt-dev/HERM-Results) | Paper (coming soon)
+All models are evaluated in fp16 expect for Starling-7B, which is evaluated in fp32.
 """