guerra-llm-ai-leaderboard

Running

App Files Files Community

luisrguerra commited on Jun 19, 2024

Commit

6cdb996

verified ·

1 Parent(s): eebc6ea

Update index.html

Browse files

Files changed (1) hide show

index.html +18 -3

index.html CHANGED Viewed

@@ -46,21 +46,27 @@
     <div id="tableBenchMark"></div>
     <h4>Best models for solving math problems:</h4>
     <ul>
       <li>gpt-4-0125-preview (turbo)</li>
       <li>gpt-4-1106-preview (turbo)</li>
       <li>gpt-4-0613</li>
       <li>gpt-4-0314</li>
       <li>Gemini Ultra 1.0</li>
       <li>Gemini Pro 1.5</li>
       <li>Claude 3 Opus</li>
       <li>Claude 3 Sonnet</li>
     </ul>
     <h4>Best models for large text:</h4>
     <ul>
       <li>gpt-4-0125-preview (turbo)</li>
       <li>gpt-4-1106-preview (turbo)</li>
-      <li>Gemini Ultra</li>
       <li>Gemini Pro 1.5</li>
       <li>Claude 3 Opus</li>
       <li>Claude 3 Sonnet</li>
       <li>Claude 3 Haiku</li>
@@ -69,6 +75,7 @@
     </ul>
     <h4>Models with the best cost benefit:</h4>
     <ul>
       <li>Gemini Pro 1.5</li>
       <li>gpt-3.5-turbo-0125</li>
       <li>gpt-3.5-turbo-0613</li>
@@ -98,10 +105,11 @@
     <ul>
       <li>Mixtral 8x7B Instruct</li>
       <li>Mistral 7B</li>
       <li>Yi 34B</li>
       <li>Grok 1</li>
       <li>DBRX Instruct</li>
-      <li>Llama 2 7-70B</li>
       <li>Gemma 2-7B</li>
     </ul>
     <h4>Can be trained in online service:</h4>
@@ -112,6 +120,7 @@
     </ul>
     <h4>Can be trained locally:</h4>
     <ul>
       <li>Mixtral 8x7B Instruct</li>
       <li>Yi 34B</li>
     </ul>
@@ -137,8 +146,9 @@
     </ul>
     <h4>Models with the same level of GPT-4 but lower than GPT-4 Turbo:</h4>
     <ul>
-      <li>Gemini Ultra</li>
       <li>Gemini Pro 1.5</li>
       <li>Gemini Pro (Bard/Online)</li>
       <li>Claude 3 Sonnet</li>
     </ul>
@@ -155,6 +165,8 @@
     </ul>
     <h4>Versions of models already surpassed by fine-tune, new versions or new architectures:</h4>
     <ul>
       <li>Gemini Pro 1.0</li>
       <li>Grok 1</li>
       <li>Phi-2</li>
@@ -167,6 +179,7 @@
       <li>gpt-4-0314</li>
       <li>Claude 2-2.1</li>
       <li>Claude Instant 1-1.2</li>
       <li>Falcon 180B</li>
       <li>Llama 1 and Llama 2</li>
       <li>Guanaco 65B</li>
@@ -174,6 +187,8 @@
       <li>Dolly V2</li>
       <li>Alpaca</li>
       <li>CodeLlama-34b-Instruct-hf</li>
       <li>Mistral-7B-v0.1</li>
       <li>MythoMax-L2</li>
       <li>Zephyr 7B Alpha and Beta</li>

     <div id="tableBenchMark"></div>
     <h4>Best models for solving math problems:</h4>
     <ul>
+      <li>gpt-4o-2024-05-13</li>
+      <li>gpt-4-Turbo-2024-04-09</li>
       <li>gpt-4-0125-preview (turbo)</li>
       <li>gpt-4-1106-preview (turbo)</li>
       <li>gpt-4-0613</li>
       <li>gpt-4-0314</li>
       <li>Gemini Ultra 1.0</li>
       <li>Gemini Pro 1.5</li>
+      <li>Gemini Advanced</li>
       <li>Claude 3 Opus</li>
       <li>Claude 3 Sonnet</li>
     </ul>
     <h4>Best models for large text:</h4>
     <ul>
+      <li>gpt-4o-2024-05-13</li>
+      <li>gpt-4-Turbo-2024-04-09</li>
       <li>gpt-4-0125-preview (turbo)</li>
       <li>gpt-4-1106-preview (turbo)</li>
+      <li>Gemini Ultra 1.0</li>
       <li>Gemini Pro 1.5</li>
+      <li>Gemini Advanced</li>
       <li>Claude 3 Opus</li>
       <li>Claude 3 Sonnet</li>
       <li>Claude 3 Haiku</li>
     </ul>
     <h4>Models with the best cost benefit:</h4>
     <ul>
+      <li>gpt-4o-2024-05-13</li>
       <li>Gemini Pro 1.5</li>
       <li>gpt-3.5-turbo-0125</li>
       <li>gpt-3.5-turbo-0613</li>
     <ul>
       <li>Mixtral 8x7B Instruct</li>
       <li>Mistral 7B</li>
+      <li>Phi-3</li>
       <li>Yi 34B</li>
       <li>Grok 1</li>
       <li>DBRX Instruct</li>
+      <li>Llama 3 8-70B</li>
       <li>Gemma 2-7B</li>
     </ul>
     <h4>Can be trained in online service:</h4>
     </ul>
     <h4>Can be trained locally:</h4>
     <ul>
+      <li>Llama 3 8-70B</li>
       <li>Mixtral 8x7B Instruct</li>
       <li>Yi 34B</li>
     </ul>
     </ul>
     <h4>Models with the same level of GPT-4 but lower than GPT-4 Turbo:</h4>
     <ul>
+      <li>Gemini Ultra 1.0</li>
       <li>Gemini Pro 1.5</li>
+      <li>Gemini Advanced</li>
       <li>Gemini Pro (Bard/Online)</li>
       <li>Claude 3 Sonnet</li>
     </ul>
     </ul>
     <h4>Versions of models already surpassed by fine-tune, new versions or new architectures:</h4>
     <ul>
+      <li>gpt-4-0613</li>
+      <li>gpt-4-0314</li>
       <li>Gemini Pro 1.0</li>
       <li>Grok 1</li>
       <li>Phi-2</li>
       <li>gpt-4-0314</li>
       <li>Claude 2-2.1</li>
       <li>Claude Instant 1-1.2</li>
+      <li>Qwen 1.0</li>
       <li>Falcon 180B</li>
       <li>Llama 1 and Llama 2</li>
       <li>Guanaco 65B</li>
       <li>Dolly V2</li>
       <li>Alpaca</li>
       <li>CodeLlama-34b-Instruct-hf</li>
+      <li>SOLAR-10.7B-Instruct-v1.0</li>
+      <li>Mistral-7B-v0.2</li>
       <li>Mistral-7B-v0.1</li>
       <li>MythoMax-L2</li>
       <li>Zephyr 7B Alpha and Beta</li>