asta-bench-leaderboard

Running

App Files Files Community

Amber Tanaka commited on Jul 15

Commit

0b78abd

unverified ·

1 Parent(s): 94497d7

Fix test data display (#6)

Browse files

Files changed (6) hide show

c_and_e.py +27 -4
data_analysis.py +26 -4
e2e.py +25 -4
leaderboard_transformer.py +13 -1
literature_understanding.py +27 -4
ui_components.py +1 -3

c_and_e.py CHANGED Viewed

@@ -12,13 +12,16 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
-    if validation_tag_map:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation"):
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -40,7 +43,7 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test"):
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
@@ -57,4 +60,24 @@ with gr.Blocks() as demo:
                     category_name=CATEGORY_NAME
                 )
             else:
-                gr.Markdown("No data available for test split.")

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
+        create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
+        with gr.Tab("Results: Test") as test_tab:
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
                     category_name=CATEGORY_NAME
                 )
             else:
+                gr.Markdown("No data available for test split.")
+    show_validation_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'block';
+        document.getElementById('test_nav_container').style.display = 'none';
+    }
+    """
+    # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
+    show_test_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'none';
+        document.getElementById('test_nav_container').style.display = 'block';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
+    }
+    """
+    # Assign the pure JS functions to the select events. No Python `fn` is needed.
+    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
+    test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)

data_analysis.py CHANGED Viewed

@@ -12,12 +12,14 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
-    if validation_tag_map:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation"):
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -39,7 +41,7 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test"):
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
@@ -56,4 +58,24 @@ with gr.Blocks() as demo:
                     category_name=CATEGORY_NAME
                 )
             else:
-                gr.Markdown("No data available for test split.")

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
+        create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
+        with gr.Tab("Results: Test") as test_tab:
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
                     category_name=CATEGORY_NAME
                 )
             else:
+                gr.Markdown("No data available for test split.")
+    show_validation_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'block';
+        document.getElementById('test_nav_container').style.display = 'none';
+    }
+    """
+    # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
+    show_test_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'none';
+        document.getElementById('test_nav_container').style.display = 'block';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
+    }
+    """
+    # Assign the pure JS functions to the select events. No Python `fn` is needed.
+    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
+    test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)

e2e.py CHANGED Viewed

@@ -12,12 +12,14 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
-    if validation_tag_map:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation"):
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -39,7 +41,7 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test"):
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
@@ -56,4 +58,23 @@ with gr.Blocks() as demo:
                     category_name=CATEGORY_NAME
                 )
             else:
-                gr.Markdown("No data available for test split.")

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(PLACEHOLDER_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
+        create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
+        with gr.Tab("Results: Test") as test_tab:
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
                     category_name=CATEGORY_NAME
                 )
             else:
+                gr.Markdown("No data available for test split.")
+    show_validation_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'block';
+        document.getElementById('test_nav_container').style.display = 'none';
+    }
+    """
+    # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
+    show_test_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'none';
+        document.getElementById('test_nav_container').style.display = 'block';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
+    }
+    """
+    # Assign the pure JS functions to the select events. No Python `fn` is needed.
+    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
+    test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)

leaderboard_transformer.py CHANGED Viewed

@@ -14,7 +14,7 @@ INFORMAL_TO_FORMAL_NAME_MAP = {
     "code": "Code Execution",
     "discovery": "Discovery",
-    # Long Raw Names
     "arxivdigestables_validation": "Arxivdigestables Validation",
     "sqa_dev": "Sqa Dev",
     "litqa2_validation": "Litqa2 Validation",
@@ -24,6 +24,18 @@ INFORMAL_TO_FORMAL_NAME_MAP = {
     "ds1000_validation": "DS1000 Validation",
     "e2e_discovery_validation": "E2E Discovery Validation",
     "super_validation": "Super Validation",
 }

     "code": "Code Execution",
     "discovery": "Discovery",
+    # Validation Names
     "arxivdigestables_validation": "Arxivdigestables Validation",
     "sqa_dev": "Sqa Dev",
     "litqa2_validation": "Litqa2 Validation",
     "ds1000_validation": "DS1000 Validation",
     "e2e_discovery_validation": "E2E Discovery Validation",
     "super_validation": "Super Validation",
+    # Test Names
+    "paper_finder_test": "Paper Finder Test",
+    "paper_finder_litqa2_test": "Paper Finder Litqa2 Test",
+    "sqa_test": "Sqa Test",
+    "arxivdigestables_test": "Arxivdigestables Test",
+    "litqa2_test": "Litqa2 Test",
+    "discoverybench_test": "Discoverybench Test",
+    "core_bench_test": "Core Bench Test",
+    "ds1000_test": "DS1000 Test",
+    "e2e_discovery_test": "E2E Discovery Test",
+    "e2e_discovery_hard_test": "E2E Discovery Hard Test",
+    "super_test": "Super Test",
 }

literature_understanding.py CHANGED Viewed

@@ -13,12 +13,15 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(LIT_DESCRIPTION, elem_id="category-intro")
-    if validation_tag_map:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation"):
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -40,7 +43,7 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test"):
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
@@ -57,4 +60,24 @@ with gr.Blocks() as demo:
                     category_name=CATEGORY_NAME
                 )
             else:
-                gr.Markdown("No data available for test split.")

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(LIT_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
+        create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
+        with gr.Tab("Results: Test") as test_tab:
             # Repeat the process for the "test" split
             test_df, test_tag_map = get_full_leaderboard_data("test")
                     category_name=CATEGORY_NAME
                 )
             else:
+                gr.Markdown("No data available for test split.")
+    show_validation_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'block';
+        document.getElementById('test_nav_container').style.display = 'none';
+    }
+    """
+    # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
+    show_test_js = """
+    () => {
+        document.getElementById('validation_nav_container').style.display = 'none';
+        document.getElementById('test_nav_container').style.display = 'block';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
+    }
+    """
+    # Assign the pure JS functions to the select events. No Python `fn` is needed.
+    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
+    test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)

ui_components.py CHANGED Viewed

@@ -28,7 +28,7 @@ from content import (
 # --- Constants and Configuration  ---
 LOCAL_DEBUG = not (os.environ.get("system") == "spaces")
-CONFIG_NAME = "1.0.0-dev2" # This corresponds to 'config' in LeaderboardViewer
 IS_INTERNAL = os.environ.get("IS_INTERNAL", "false").lower() == "true"
 OWNER = "allenai"
@@ -213,7 +213,6 @@ def get_full_leaderboard_data(split: str) -> tuple[pd.DataFrame, dict]:
     Loads and transforms the complete dataset for a given split.
     This function handles caching and returns the final "pretty" DataFrame and tag map.
     """
-    # This reuses your existing robust caching logic
     viewer_or_data, raw_tag_map = get_leaderboard_viewer_instance(split)
     if isinstance(viewer_or_data, (LeaderboardViewer, DummyViewer)):
@@ -291,7 +290,6 @@ def create_benchmark_details_display(
     # 2. Loop through each benchmark and create its UI components
     for benchmark_name in benchmark_names:
-        with gr.Blocks():
             gr.Markdown(f"### {benchmark_name}", header_links=True)
             # 3. Prepare the data for this specific benchmark's table and plot

 # --- Constants and Configuration  ---
 LOCAL_DEBUG = not (os.environ.get("system") == "spaces")
+CONFIG_NAME = "1.0.0-dev1" # This corresponds to 'config' in LeaderboardViewer
 IS_INTERNAL = os.environ.get("IS_INTERNAL", "false").lower() == "true"
 OWNER = "allenai"
     Loads and transforms the complete dataset for a given split.
     This function handles caching and returns the final "pretty" DataFrame and tag map.
     """
     viewer_or_data, raw_tag_map = get_leaderboard_viewer_instance(split)
     if isinstance(viewer_or_data, (LeaderboardViewer, DummyViewer)):
     # 2. Loop through each benchmark and create its UI components
     for benchmark_name in benchmark_names:
             gr.Markdown(f"### {benchmark_name}", header_links=True)
             # 3. Prepare the data for this specific benchmark's table and plot