WebWalkerQALeaderboard

Running

App Files Files Community

callanwu commited on Sep 8

Commit

13f10a4

1 Parent(s): 3c48f70

add deep search benchmark

Browse files

Files changed (2) hide show

app.py +28 -1
deepsearch_result.jsonl +16 -0

app.py CHANGED Viewed

@@ -3,6 +3,8 @@ import pandas as pd
 import gradio as gr
 from content import *
 from css import *
 NONE_COL = "Ranking"
@@ -90,6 +92,26 @@ rag_df = pd.DataFrame.from_records(rag_df, columns=RAG_COLS)
 rag_df = rag_df.sort_values(by=["Ranking"], ascending=False)
 rag_df = rag_df[RAG_COLS]
 demo = gr.Blocks(css=CUSTOM_CSS)
 with demo:
     gr.HTML(TITLE)
@@ -97,7 +119,12 @@ with demo:
     gr.Markdown(HOW_TO, elem_classes="markdown-text")
     gr.Markdown("## Leaderboard")
     with gr.Group():
-        with gr.Tab("Results: Agent 🤖️"):
             leaderboard_table_test = gr.components.Dataframe(
                 value=agent_df, datatype=AGENT_TYPES, interactive=False,
                 column_widths = ["20%"] * len(agent_df.columns)

 import gradio as gr
 from content import *
 from css import *
+def model_hyperlink(link, model_name):
+    return f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
 NONE_COL = "Ranking"
 rag_df = rag_df.sort_values(by=["Ranking"], ascending=False)
 rag_df = rag_df[RAG_COLS]
+deep_search_ranking = []
+with open("deepsearch_result.jsonl", "r") as f:
+    for line in f:
+        item = json.loads(line)
+        deep_search_ranking.append([item["method"], item["model"], item["overall"]])
+deep_search_ranking = sorted(deep_search_ranking, key=lambda x: x[2], reverse=False)
+ranking_dict = {}
+for i, (method, model, score) in enumerate(deep_search_ranking):
+    ranking_dict[score] = i
+deep_search_df = []
+with open("deepsearch_result.jsonl", "r") as f:
+    for line in f:
+        item = json.loads(line)
+        deep_search_df.append([item["org"], item["method"], item["model"], f"{item['overall'] * 100:.2f}", item["link"],  ranking_dict[item["overall"]]])
+deep_search_df = pd.DataFrame.from_records(deep_search_df, columns=["Organisation","Method", "Backbone", "Overall", "Link", NONE_COL])
+deep_search_df = deep_search_df.sort_values(by=["Overall"], ascending=False)
+deep_search_df = deep_search_df[["Organisation", "Method", "Backbone", "Overall", "Link", NONE_COL]]
 demo = gr.Blocks(css=CUSTOM_CSS)
 with demo:
     gr.HTML(TITLE)
     gr.Markdown(HOW_TO, elem_classes="markdown-text")
     gr.Markdown("## Leaderboard")
     with gr.Group():
+        with gr.Tab("Results: Deep Search Agent 🤖🔎"):
+            leaderboard_table_test = gr.components.Dataframe(
+                value=deep_search_df, datatype=AGENT_TYPES, interactive=False,
+                column_widths = ["10%", "18%", "18%", "10%"]
+            )
+        with gr.Tab("Results: Web Traversal Agent 🤖️"):
             leaderboard_table_test = gr.components.Dataframe(
                 value=agent_df, datatype=AGENT_TYPES, interactive=False,
                 column_widths = ["20%"] * len(agent_df.columns)

deepsearch_result.jsonl ADDED Viewed

	@@ -0,0 +1,16 @@

+{"org": "RUC","link": "https://github.com/RUC-NLPIR/WebThinker","method": "WebThinker-Base", "model": "qwq-32B", "overall": 0.419}
+{"org": "RUC","link": "https://github.com/RUC-NLPIR/WebThinker","method": "WebThinker-RL", "model": "qwq-32B", "overall": 0.465}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebDancer", "model": "qwen2.5-7b-instruct", "overall": 0.36}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebDancer", "model": "qwen2.5-32b-instruct", "overall": 0.384}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebDancer", "model": "qwq-32b", "overall": 0.479}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebShaper", "model": "qwen2.5-32b-instruct", "overall": 0.514}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebShaper", "model": "qwq-32b", "overall": 0.497}
+{"org": "Alibaba","link": "https://github.com/Alibaba-NLP/WebAgent/","method": "WebShaper", "model": "qwen2.5-72b-instruct", "overall": 0.522}
+{"org": "Tencent","link": "https://github.com/TencentCloudADP/youtu-agent","method": "Youtu-agent", "model": "deepseek-v3.1", "overall": 0.7147}
+{"org": "Miromind","link": "https://github.com/MiroMindAI/MiroThinker","method": "MiroThinker-SFT-v0.1", "model": "qwen3-8b", "overall": 0.413}
+{"org": "Miromind","link": "https://github.com/MiroMindAI/MiroThinker","method": "MiroThinker-DPO-v0.1", "model": "qwen3-8b", "overall": 0.457}
+{"org": "Miromind","link": "https://github.com/MiroMindAI/MiroThinker","method": "MiroThinker-SFT-v0.1", "model": "qwen3-32b", "overall": 0.457}
+{"org": "Miromind","link": "https://github.com/MiroMindAI/MiroThinker","method": "MiroThinker-DPO-v0.1", "model": "qwen3-32b", "overall": 0.493}
+{"org": "OPPO","link": "https://github.com/OPPO-PersonalAI/Agent_Foundation_Models","method": "AFM-SFT", "model": "qwen2.5-32b-instruct", "overall": 0.615}
+{"org": "OPPO","link": "https://github.com/OPPO-PersonalAI/Agent_Foundation_Models","method": "AFM-RL", "model": "qwen2.5-32b-instruct", "overall": 0.630}
+{"org": "OPPO","link": "https://github.com/OPPO-PersonalAI/Agent_Foundation_Models","method": "AFM-RL", "model": "qwen2.5-7b-instruct", "overall": 0.556}