Spaces:

felixz
/

meta_open_llm_leaderboard

Sleeping

App Files Files Community

felix commited on Dec 2, 2023

Commit

5d6c941

1 Parent(s): 0f541ca

add arena

Browse files

Files changed (1) hide show

app.py +17 -5

app.py CHANGED Viewed

@@ -111,12 +111,14 @@ if compare_mode:
     hf_llm_diagrams = extract_images('hf_llm_diagram', imgs)
     bigcode_diagrams = extract_images('bigcode', imgs)
-    mt_bench_diagrams = extract_images('mt_bench_leaderboard', imgs)
     opencompass_diagrams = extract_images('opencompass_leaderboard', imgs)
     compare_hf_llm_diagrams = extract_images('hf_llm_diagram', compare_imgs)
     compare_bigcode_diagrams = extract_images('bigcode', compare_imgs)
-    compare_mt_bench_diagrams = extract_images('mt_bench_leaderboard', compare_imgs)
     compare_opencompass_diagrams = extract_images('opencompass_leaderboard', compare_imgs)
     # Display each category side by side
@@ -136,6 +138,9 @@ if compare_mode:
     # Displaying MT-Bench Models Leaderboard
     display_side_by_side(mt_bench_diagrams, compare_mt_bench_diagrams, "MT-Bench Models Leaderboard")
     # Displaying OpenCompass Models Leaderboard
     display_side_by_side(opencompass_diagrams, compare_opencompass_diagrams, "OpenCompass Models Leaderboard")
@@ -168,11 +173,12 @@ else:
     # Extracting images that start with "hf_llm_diagram"
     hf_llm_diagrams = [img for img in imgs if 'hf_llm_diagram' in os.path.basename(img)]
     bigcode_diagrams = [img for img in imgs if 'bigcode' in os.path.basename(img)]
-    mt_bench_diagrams = [img for img in imgs if 'mt_bench_leaderboard' in os.path.basename(img)]
     opencompass_diagrams = [img for img in imgs if 'opencompass_leaderboard' in os.path.basename(img)]
     # Getting the remaining images
-    remaining_imgs = list(set(imgs) - set(hf_llm_diagrams) - set(bigcode_diagrams) - set(mt_bench_diagrams) - set(opencompass_diagrams))
     st.subheader("HuggingFace Open LLM leaderboard by Model Size", divider=True)
     cols = st.columns(2)
@@ -213,6 +219,12 @@ else:
     print_model_list(mt_bench_diagrams[0],st,True)
     st.subheader("OpenCompass Models Leaderboard", divider=True)
     cols = st.columns(2)
     cols[0].image(opencompass_diagrams[0], use_column_width="auto")
@@ -238,7 +250,7 @@ st.write(
     <p>Leaderboards tracked:</p>
      <ul>
         <li><a href="https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard">Hugging Face Open LLM</a></li>
-        <li><a href="https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard">MT-Bench</a> GPT4 judged evaluation of models</li>
         <li><a href="https://tatsu-lab.github.io/alpaca_eval/">AlpacaEval</a> GPT4 judged evaluation of models</li>
         <li><a href="https://www.mosaicml.com/llm-evaluation">MosaicML</a> Balanced set of static benchmarks</li>
         <li><a href="https://opencompass.org.cn/leaderboard-llm">OpenCompass</a> Balanced set of static benchmarks</li>

     hf_llm_diagrams = extract_images('hf_llm_diagram', imgs)
     bigcode_diagrams = extract_images('bigcode', imgs)
+    mt_bench_diagrams = extract_images('lmsys_leaderboard_mt_bench', imgs)
+    arena_diagrams = extract_images('lmsys_leaderboard_arena', imgs)
     opencompass_diagrams = extract_images('opencompass_leaderboard', imgs)
     compare_hf_llm_diagrams = extract_images('hf_llm_diagram', compare_imgs)
     compare_bigcode_diagrams = extract_images('bigcode', compare_imgs)
+    compare_mt_bench_diagrams = extract_images('lmsys_leaderboard_mt_bench', compare_imgs)
+    compare_arena_diagrams = extract_images('lmsys_leaderboard_arena', compare_imgs)
     compare_opencompass_diagrams = extract_images('opencompass_leaderboard', compare_imgs)
     # Display each category side by side
     # Displaying MT-Bench Models Leaderboard
     display_side_by_side(mt_bench_diagrams, compare_mt_bench_diagrams, "MT-Bench Models Leaderboard")
+    # Displaying Arena Models Leaderboard
+    display_side_by_side(arena_diagrams, compare_arena_diagrams, "LMSYS Arena Elo Models Leaderboard")
     # Displaying OpenCompass Models Leaderboard
     display_side_by_side(opencompass_diagrams, compare_opencompass_diagrams, "OpenCompass Models Leaderboard")
     # Extracting images that start with "hf_llm_diagram"
     hf_llm_diagrams = [img for img in imgs if 'hf_llm_diagram' in os.path.basename(img)]
     bigcode_diagrams = [img for img in imgs if 'bigcode' in os.path.basename(img)]
+    mt_bench_diagrams = [img for img in imgs if 'lmsys_leaderboard_mt_bench' in os.path.basename(img)]
+    arena_diagrams = [img for img in imgs if 'lmsys_leaderboard_arena' in os.path.basename(img)]
     opencompass_diagrams = [img for img in imgs if 'opencompass_leaderboard' in os.path.basename(img)]
     # Getting the remaining images
+    remaining_imgs = list(set(imgs) - set(hf_llm_diagrams) - set(bigcode_diagrams) - set(mt_bench_diagrams) - set(arena_diagrams) - set(opencompass_diagrams))
     st.subheader("HuggingFace Open LLM leaderboard by Model Size", divider=True)
     cols = st.columns(2)
     print_model_list(mt_bench_diagrams[0],st,True)
+    st.subheader("LMSYS Arena Elo Models Leaderboard", divider=True)
+    cols = st.columns(2)
+    cols[0].image(arena_diagrams[0], use_column_width="auto")
+    print_model_list(arena_diagrams[0],st,True)
     st.subheader("OpenCompass Models Leaderboard", divider=True)
     cols = st.columns(2)
     cols[0].image(opencompass_diagrams[0], use_column_width="auto")
     <p>Leaderboards tracked:</p>
      <ul>
         <li><a href="https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard">Hugging Face Open LLM</a></li>
+        <li><a href="https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard">MT-Bench and Arena Elo</a>MT-Bench is GPT4 judged evaluation of models, Arena Elo is users ranking outputs between models.</li>
         <li><a href="https://tatsu-lab.github.io/alpaca_eval/">AlpacaEval</a> GPT4 judged evaluation of models</li>
         <li><a href="https://www.mosaicml.com/llm-evaluation">MosaicML</a> Balanced set of static benchmarks</li>
         <li><a href="https://opencompass.org.cn/leaderboard-llm">OpenCompass</a> Balanced set of static benchmarks</li>