open-r1-eval-leaderboard

Build error

App Files Files Community

vwxyzjn commited on Jun 25, 2024

Commit

8cc933f

verified ·

1 Parent(s): 8ee0069

Make different aggs run faster (#5)

Browse files

- Make different aggs run faster (d59694170093223a311cd5b6c35dd522ed75d5bd)

Files changed (1) hide show

app.py +12 -18

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ Evaluation of H4 and community models across a diverse range of benchmarks from
 BENCHMARKS_TO_SKIP = ["math", "mini_math", "aimo_math_integer_lvl4-5"]
-def get_leaderboard_df(agg: str = "max"):
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
@@ -128,6 +128,12 @@ def get_leaderboard_df(agg: str = "max"):
     # Strip off date from model name
     df["Model"] = df["Model"].apply(lambda x: x.rsplit("_", 1)[0])
     # Drop date and aggregate results by model name
     df = df.drop("Date", axis=1).groupby("Model").agg(agg).reset_index()
@@ -136,20 +142,12 @@ def get_leaderboard_df(agg: str = "max"):
     # Convert all values to percentage
     df[df.select_dtypes(include=["number"]).columns] *= 100.0
     df = df.sort_values(by=["Average"], ascending=False)
     return df
-leaderboard_df = get_leaderboard_df()
-def refresh(agg: str = "max"):
-    return get_leaderboard_df(agg=agg)
 # Function to update the table based on search query
-def filter_and_search(cols: list[str], search_query: str):
     df = leaderboard_df
     if len(search_query) > 0:
         search_terms = search_query.split(";")
         search_terms = [term.strip().lower() for term in search_terms]
@@ -189,19 +187,15 @@ with demo:
                 info="Select columns to display",
             )
         with gr.Group():
-            # leaderboard_df = get_leaderboard_df()
             leaderboard_table = gr.Dataframe(
                 value=leaderboard_df,
                 wrap=True,
                 height=1000,
                 column_widths=[400, 110] + [(260 + len(c)) for c in leaderboard_df.columns[1:]],
             )
-        with gr.Row():
-            refresh_button = gr.Button("Refresh")
-    cols_bar.change(filter_and_search, inputs=[cols_bar, search_bar], outputs=[leaderboard_table])
-    agg.change(refresh, inputs=[agg], outputs=[leaderboard_table])
-    search_bar.submit(filter_and_search, inputs=[cols_bar, search_bar], outputs=[leaderboard_table])
-    refresh_button.click(refresh, inputs=[], outputs=[leaderboard_table])
 demo.launch()

 BENCHMARKS_TO_SKIP = ["math", "mini_math", "aimo_math_integer_lvl4-5"]
+def get_leaderboard_df():
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
     # Strip off date from model name
     df["Model"] = df["Model"].apply(lambda x: x.rsplit("_", 1)[0])
+    return df
+leaderboard_df = get_leaderboard_df()
+def agg_df(df, agg: str = "max"):
+    df = df.copy()
     # Drop date and aggregate results by model name
     df = df.drop("Date", axis=1).groupby("Model").agg(agg).reset_index()
     # Convert all values to percentage
     df[df.select_dtypes(include=["number"]).columns] *= 100.0
     df = df.sort_values(by=["Average"], ascending=False)
     return df
 # Function to update the table based on search query
+def filter_and_search(cols: list[str], search_query: str, agg: str):
     df = leaderboard_df
+    df = agg_df(df, agg)
     if len(search_query) > 0:
         search_terms = search_query.split(";")
         search_terms = [term.strip().lower() for term in search_terms]
                 info="Select columns to display",
             )
         with gr.Group():
             leaderboard_table = gr.Dataframe(
                 value=leaderboard_df,
                 wrap=True,
                 height=1000,
                 column_widths=[400, 110] + [(260 + len(c)) for c in leaderboard_df.columns[1:]],
             )
+    cols_bar.change(filter_and_search, inputs=[cols_bar, search_bar, agg], outputs=[leaderboard_table])
+    agg.change(filter_and_search, inputs=[cols_bar, search_bar, agg], outputs=[leaderboard_table])
+    search_bar.submit(filter_and_search, inputs=[cols_bar, search_bar, agg], outputs=[leaderboard_table])
 demo.launch()