Spaces:

nvidia
/

ProfBench

Running

App Files Files Community

zhilinw commited on 2 days ago

Commit

a1ef422

verified ·

1 Parent(s): 5fe96e3

Upload 2 files

Browse files

Files changed (2) hide show

app.py +1 -1
report_generation.jsonl +2 -0

app.py CHANGED Viewed

@@ -111,7 +111,7 @@ with gr.Blocks(theme=theme) as app:
         with gr.TabItem("Report Generation"):
             with gr.Row():
                 with gr.Column(scale=7):
-                    gr.Markdown("Report Generation Leaderboard: LLMs generate reports with just the prompt, which are then evaluated by gpt-oss-120b (mixed) judge with the lite dataset (160 samples) \nEvaluation and cost estimation last performed on 5 Feb 2026.")
             with gr.Tabs(elem_id="inner-tabs", elem_classes="tabs-small") as tabs:
                 with gr.TabItem("Leaderboard"):

         with gr.TabItem("Report Generation"):
             with gr.Row():
                 with gr.Column(scale=7):
+                    gr.Markdown("Report Generation Leaderboard: LLMs generate reports with just the prompt, which are then evaluated by gpt-oss-120b (mixed) judge with the lite dataset (160 samples) \nEvaluation and cost estimation last performed on 11 Feb 2026.")
             with gr.Tabs(elem_id="inner-tabs", elem_classes="tabs-small") as tabs:
                 with gr.TabItem("Leaderboard"):

report_generation.jsonl CHANGED Viewed

@@ -54,3 +54,5 @@
 {"Model": "Anthropic/claude-opus-4.6 (Thinking)", "Category": "Closed-source Reasoning", "Overall": 58.8, "Physics": 44.4, "Chemistry": 72.4, "Finance": 47.3, "Consulting": 70.9, "Extraction": 53.7, "Reasoning": 60.0, "Style": 60.7, "Response Characters": 20434, "Input Tokens": 531, "Output Tokens": 8029, "Cost": 32.54}
 {"Model": "MoonshotAI/Kimi-K2.5 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 51.8, "Physics": 32.4, "Chemistry": 65.3, "Finance": 39.7, "Consulting": 69.6, "Extraction": 43.8, "Reasoning": 51.9, "Style": 60.2, "Response Characters": 6240, "Input Tokens": 466, "Output Tokens": 17300, "Cost": 6.95}
 {"Model": "MoonshotAI/Kimi-K2.5", "Category": "Open-weight Instruct", "Overall": 50.4, "Physics": 32.4, "Chemistry": 62.0, "Finance": 37.4, "Consulting": 69.7, "Extraction": 42.6, "Reasoning": 50.7, "Style": 55.6, "Response Characters": 6173, "Input Tokens": 468, "Output Tokens": 14104, "Cost": 5.68}

 {"Model": "Anthropic/claude-opus-4.6 (Thinking)", "Category": "Closed-source Reasoning", "Overall": 58.8, "Physics": 44.4, "Chemistry": 72.4, "Finance": 47.3, "Consulting": 70.9, "Extraction": 53.7, "Reasoning": 60.0, "Style": 60.7, "Response Characters": 20434, "Input Tokens": 531, "Output Tokens": 8029, "Cost": 32.54}
 {"Model": "MoonshotAI/Kimi-K2.5 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 51.8, "Physics": 32.4, "Chemistry": 65.3, "Finance": 39.7, "Consulting": 69.6, "Extraction": 43.8, "Reasoning": 51.9, "Style": 60.2, "Response Characters": 6240, "Input Tokens": 466, "Output Tokens": 17300, "Cost": 6.95}
 {"Model": "MoonshotAI/Kimi-K2.5", "Category": "Open-weight Instruct", "Overall": 50.4, "Physics": 32.4, "Chemistry": 62.0, "Finance": 37.4, "Consulting": 69.7, "Extraction": 42.6, "Reasoning": 50.7, "Style": 55.6, "Response Characters": 6173, "Input Tokens": 468, "Output Tokens": 14104, "Cost": 5.68}
+{"Model": "Z-AI/GLM-5 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 43.3, "Physics": 22.4, "Chemistry": 56.6, "Finance": 27.8, "Consulting": 66.3, "Extraction": 36.1, "Reasoning": 41.4, "Style": 53.1, "Response Characters": 5395, "Input Tokens": 461, "Output Tokens": 19499, "Cost": 10.06}
+{"Model": "Z-AI/GLM-5", "Category": "Open-weight Instruct", "Overall": 42.6, "Physics": 25.7, "Chemistry": 52.2, "Finance": 26.6, "Consulting": 65.9, "Extraction": 33.2, "Reasoning": 41.0, "Style": 53.1, "Response Characters": 5497, "Input Tokens": 459, "Output Tokens": 17179, "Cost": 8.87}