Spaces:

allenai
/

reward-bench

Running

App Files Files Community

natolambert commited on Feb 23

Commit

06fd8bd

•

1 Parent(s): faa2dab

updates

Browse files

Files changed (2) hide show

app.py +43 -35
src/utils.py +17 -13

app.py CHANGED Viewed

@@ -130,7 +130,7 @@ def random_sample(r: gr.Request, subset):
 subsets = eval_set.unique("subset")
-def regex_table(dataframe, regex):
     """
     Takes a model name as a regex, then returns only the rows that has that in it.
     """
@@ -138,6 +138,9 @@ def regex_table(dataframe, regex):
     regex_list = [x.strip() for x in regex.split(",")]
     # Join the list into a single regex pattern with '|' acting as OR
     combined_regex = '|'.join(regex_list)
     # Filter the dataframe such that 'model' contains any of the regex patterns
     return dataframe[dataframe["model"].str.contains(combined_regex, case=False, na=False)]
@@ -145,50 +148,47 @@ def regex_table(dataframe, regex):
 with gr.Blocks() as app:
     # create tabs for the app, moving the current table to one titled "HERM" and the benchmark_text to a tab called "About"
     with gr.Row():
-        gr.Markdown(TOP_TEXT)
-        search = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("HERM Eval Set - Overview"):
             with gr.Row():
-                herm_table = gr.Dataframe(
                     herm_data_avg.values,
                     datatype=col_types_herm_avg,
                     headers=herm_data_avg.columns.tolist(),
-                    elem_id="herm_dataframe_avg",
-                    height=1000,
                 )
-                # backup reference data
-                herm_table_hidden = gr.Dataframe(
-                    herm_data_avg.values,
                     datatype=col_types_herm_avg,
                     headers=herm_data_avg.columns.tolist(),
-                    visible=False,
                 )
         with gr.TabItem("HERM Eval Set - Detailed"):
             with gr.Row():
-                herm_table_detailed = gr.Dataframe(
                     herm_data.values,
                     datatype=col_types_herm,
                     headers=herm_data.columns.tolist(),
-                    elem_id="herm_dataframe",
-                    height=1000,
                 )
-                # backup
-                herm_table_detailed_hidden = gr.Dataframe(
-                    herm_data.values,
                     datatype=col_types_herm,
                     headers=herm_data.columns.tolist(),
-                    visible=False,
                 )
         with gr.TabItem("HERM Eval Set - Length Bias"):
             with gr.Row():
-                herm_table_len = gr.Dataframe(
-                    herm_data_length.values,
-                    datatype=cols_herm_data_length,
-                    headers=herm_data_length.columns.tolist(),
-                    elem_id="herm_dataframe_length",
-                    height=1000,
-                )
                 # backup
                 herm_table_len_hidden = gr.Dataframe(
                     herm_data_length.values,
@@ -196,6 +196,13 @@ with gr.Blocks() as app:
                     headers=herm_data_length.columns.tolist(),
                     visible=False,
                 )
         with gr.TabItem("Known Pref. Sets"):
             with gr.Row():
                 PREF_SET_TEXT = """
@@ -203,13 +210,6 @@ with gr.Blocks() as app:
                 """
                 gr.Markdown(PREF_SET_TEXT)
             with gr.Row():
-                pref_sets_table = gr.Dataframe(
-                    prefs_data.values,
-                    datatype=col_types_prefs,
-                    headers=prefs_data.columns.tolist(),
-                    elem_id="prefs_dataframe",
-                    height=1000,
-                )
                 # backup
                 pref_sets_table_hidden = gr.Dataframe(
                     prefs_data.values,
@@ -217,6 +217,14 @@ with gr.Blocks() as app:
                     headers=prefs_data.columns.tolist(),
                     visible=False,
                 )
         with gr.TabItem("About"):
             with gr.Row():
@@ -239,10 +247,10 @@ with gr.Blocks() as app:
         #         plot = plot_avg_correlation(herm_data_avg, prefs_data)
         #         gr.Plot(plot)
-    search.change(regex_table, inputs=[herm_table_hidden, search], outputs=herm_table)
-    search.change(regex_table, inputs=[herm_table_detailed_hidden, search], outputs=herm_table_detailed)
-    search.change(regex_table, inputs=[herm_table_len_hidden, search], outputs=herm_table_len)
-    search.change(regex_table, inputs=[pref_sets_table_hidden, search], outputs=pref_sets_table)
 # Load data when app starts, TODO make this used somewhere...
 # def load_data_on_start():

 subsets = eval_set.unique("subset")
+def regex_table(dataframe, regex, filter_button):
     """
     Takes a model name as a regex, then returns only the rows that has that in it.
     """
     regex_list = [x.strip() for x in regex.split(",")]
     # Join the list into a single regex pattern with '|' acting as OR
     combined_regex = '|'.join(regex_list)
+    # if filter_button, remove all rows with "ai2" in the model name
+    if (not filter_button) and ("ai2" not in regex):
+        dataframe = dataframe[~dataframe["model"].str.contains("ai2", case=False, na=False)]
     # Filter the dataframe such that 'model' contains any of the regex patterns
     return dataframe[dataframe["model"].str.contains(combined_regex, case=False, na=False)]
 with gr.Blocks() as app:
     # create tabs for the app, moving the current table to one titled "HERM" and the benchmark_text to a tab called "About"
     with gr.Row():
+        with gr.Column(scale=3):
+            gr.Markdown(TOP_TEXT)
+        with gr.Column(scale=2):
+            search = gr.Textbox(label="Model Search (delimit with , )", placeholder="Regex search for a model")
+            filter_button = gr.Checkbox(label="Include AI2 training runs (or type ai2 above).", interactive=True)
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("HERM Eval Set - Overview"):
             with gr.Row():
+                # reference data
+                herm_table_hidden = gr.Dataframe(
                     herm_data_avg.values,
                     datatype=col_types_herm_avg,
                     headers=herm_data_avg.columns.tolist(),
+                    visible=False,
                 )
+                herm_table = gr.Dataframe(
+                    regex_table(herm_data_avg.copy(), "", False).values,
                     datatype=col_types_herm_avg,
                     headers=herm_data_avg.columns.tolist(),
+                    elem_id="herm_dataframe_avg",
+                    height=1000,
                 )
         with gr.TabItem("HERM Eval Set - Detailed"):
             with gr.Row():
+                # ref data
+                herm_table_detailed_hidden = gr.Dataframe(
                     herm_data.values,
                     datatype=col_types_herm,
                     headers=herm_data.columns.tolist(),
+                    visible=False,
                 )
+                herm_table_detailed = gr.Dataframe(
+                    regex_table(herm_data.copy(), "", False).values,
                     datatype=col_types_herm,
                     headers=herm_data.columns.tolist(),
+                    elem_id="herm_dataframe",
+                    height=1000,
                 )
         with gr.TabItem("HERM Eval Set - Length Bias"):
             with gr.Row():
                 # backup
                 herm_table_len_hidden = gr.Dataframe(
                     herm_data_length.values,
                     headers=herm_data_length.columns.tolist(),
                     visible=False,
                 )
+                herm_table_len = gr.Dataframe(
+                    regex_table(herm_data_length.copy(), "", False).values,
+                    datatype=cols_herm_data_length,
+                    headers=herm_data_length.columns.tolist(),
+                    elem_id="herm_dataframe_length",
+                    height=1000,
+                )
         with gr.TabItem("Known Pref. Sets"):
             with gr.Row():
                 PREF_SET_TEXT = """
                 """
                 gr.Markdown(PREF_SET_TEXT)
             with gr.Row():
                 # backup
                 pref_sets_table_hidden = gr.Dataframe(
                     prefs_data.values,
                     headers=prefs_data.columns.tolist(),
                     visible=False,
                 )
+                pref_sets_table = gr.Dataframe(
+                    regex_table(prefs_data.copy(), "", False).values,
+                    datatype=col_types_prefs,
+                    headers=prefs_data.columns.tolist(),
+                    elem_id="prefs_dataframe",
+                    height=1000,
+                )
         with gr.TabItem("About"):
             with gr.Row():
         #         plot = plot_avg_correlation(herm_data_avg, prefs_data)
         #         gr.Plot(plot)
+    search.change(regex_table, inputs=[herm_table_hidden, search, filter_button], outputs=herm_table)
+    search.change(regex_table, inputs=[herm_table_detailed_hidden, search, filter_button], outputs=herm_table_detailed)
+    search.change(regex_table, inputs=[herm_table_len_hidden, search, filter_button], outputs=herm_table_len)
+    search.change(regex_table, inputs=[pref_sets_table_hidden, search, filter_button], outputs=pref_sets_table)
 # Load data when app starts, TODO make this used somewhere...
 # def load_data_on_start():

src/utils.py CHANGED Viewed

@@ -72,6 +72,23 @@ def load_all_data(data_repo, subdir:str, subsubsets=False):    # use HF api to p
         cols.remove("model_beaker")
         df = df.drop(columns=["model_beaker"])
     # round
     df[cols] = df[cols].round(2)
     avg = np.nanmean(df[cols].values,axis=1).round(2)
@@ -92,17 +109,4 @@ def load_all_data(data_repo, subdir:str, subsubsets=False):    # use HF api to p
         cols.insert(1, cols.pop(cols.index('model_type')))
         df = df.loc[:, cols]
-    # remove column xstest (outdated data)
-    # if xstest is a column
-    if "xstest" in df.columns:
-        df = df.drop(columns=["xstest"])
-    if "ref_model" in df.columns:
-        df = df.drop(columns=["ref_model"])
-    # remove column anthropic and summarize_prompted (outdated data)
-    if "anthropic" in df.columns:
-        df = df.drop(columns=["anthropic"])
-    if "summarize_prompted" in df.columns:
-        df = df.drop(columns=["summarize_prompted"])
     return df

         cols.remove("model_beaker")
         df = df.drop(columns=["model_beaker"])
+    # remove column xstest (outdated data)
+    # if xstest is a column
+    if "xstest" in cols:
+        df = df.drop(columns=["xstest"])
+        cols.remove("xstest")
+    if "ref_model" in df.columns:
+        df = df.drop(columns=["ref_model"])
+    # remove column anthropic and summarize_prompted (outdated data)
+    if "anthropic" in cols:
+        df = df.drop(columns=["anthropic"])
+        cols.remove("anthropic")
+    if "summarize_prompted" in cols:
+        df = df.drop(columns=["summarize_prompted"])
+        cols.remove("summarize_prompted")
     # round
     df[cols] = df[cols].round(2)
     avg = np.nanmean(df[cols].values,axis=1).round(2)
         cols.insert(1, cols.pop(cols.index('model_type')))
         df = df.loc[:, cols]
     return df