TogetherAI commited on
Commit
5b97e1e
1 Parent(s): 3081286

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -9
app.py CHANGED
@@ -18,19 +18,18 @@ leader_component_values = [None] * 5
18
 
19
  def make_leaderboard_md(elo_results):
20
  leaderboard_md = f"""
21
- # Leaderboard
22
- | [Vote](https://chat.lmsys.org/?arena) | [Blog](https://lmsys.org/blog/2023-05-03-arena/) | [GitHub](https://github.com/lm-sys/FastChat) | [Paper](https://arxiv.org/abs/2306.05685) | [Dataset](https://github.com/lm-sys/FastChat/blob/main/docs/dataset_release.md) | [Twitter](https://twitter.com/lmsysorg) | [Discord](https://discord.gg/HSWAKCrnFx) |
23
-
24
- 🏆 This leaderboard is based on the following three benchmarks.
25
- - [Chatbot Arena](https://chat.lmsys.org/?arena) - a crowdsourced, randomized battle platform. We use 130K+ user votes to compute Elo ratings.
26
- - [MT-Bench](https://arxiv.org/abs/2306.05685) - a set of challenging multi-turn questions. We use GPT-4 to grade the model responses.
27
- - [MMLU](https://arxiv.org/abs/2009.03300) (5-shot) - a test to measure a model's multitask accuracy on 57 tasks.
28
-
29
- 💻 Code: The Arena Elo ratings are computed by this [notebook]({notebook_url}). The MT-bench scores (single-answer grading on a scale of 10) are computed by [fastchat.llm_judge](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge). The MMLU scores are mostly computed by [InstructEval](https://github.com/declare-lab/instruct-eval). Higher values are better for all benchmarks. Empty cells mean not available. Last updated: November, 2023.
30
  """
31
  return leaderboard_md
32
 
33
 
 
34
  def make_leaderboard_md_live(elo_results):
35
  leaderboard_md = f"""
36
  # Leaderboard
 
18
 
19
  def make_leaderboard_md(elo_results):
20
  leaderboard_md = f"""
21
+ # Rangliste
22
+ | [Abstimmen](https://chat.lmsys.org/?arena) | [Blog](https://lmsys.org/blog/2023-05-03-arena/) | [GitHub](https://github.com/lm-sys/FastChat) | [Paper](https://arxiv.org/abs/2306.05685) | [Datensatz](https://github.com/lm-sys/FastChat/blob/main/docs/dataset_release.md) | [Twitter](https://twitter.com/lmsysorg) | [Discord](https://discord.gg/HSWAKCrnFx) |
23
+ 🏆 Diese Rangliste basiert auf den folgenden drei Benchmarks.
24
+ - [Chatbot Arena](https://chat.lmsys.org/?arena) - eine crowdsourcingbasierte, zufällige Kampfplattform. Wir verwenden über 130.000 Nutzerabstimmungen, um die Elo-Bewertungen zu berechnen.
25
+ - [MT-Bench](https://arxiv.org/abs/2306.05685) - eine Reihe von anspruchsvollen Mehrfach-Dreh-Fragen. Wir verwenden GPT-4, um die Modellantworten zu bewerten.
26
+ - [MMLU](https://arxiv.org/abs/2009.03300) (5-Shot) - ein Test, um die Multitasking-Genauigkeit eines Modells bei 57 Aufgaben zu messen.
27
+ 💻 Code: Die Arena-Elo-Bewertungen werden durch dieses [Notebook]({notebook_url}) berechnet. Die MT-Bench-Ergebnisse (Einzelfragen-Bewertung auf einer Skala von 10) werden durch [fastchat.llm_judge](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge) berechnet. Die MMLU-Ergebnisse werden größtenteils durch [InstructEval](https://github.com/declare-lab/instruct-eval) berechnet. Höhere Werte sind für alle Benchmarks besser. Leere Zellen bedeuten nicht verfügbar. Zuletzt aktualisiert: November 2023.
 
 
28
  """
29
  return leaderboard_md
30
 
31
 
32
+
33
  def make_leaderboard_md_live(elo_results):
34
  leaderboard_md = f"""
35
  # Leaderboard