Spaces:

arcee-ai
/

Benchmarks

Running

Julien Simon commited on Sep 11, 2024

Commit

10d93f3

1 Parent(s): 5716310

Update on SuperNova and SuperNova Lite

Files changed (4) hide show

results.py CHANGED Viewed

@@ -8,6 +8,7 @@ from results_arcee_scribe import results_arcee_scribe
 from results_arcee_spark import results_arcee_spark
 from results_arcee_supernova import results_arcee_supernova
 from results_llama_spark import results_llama_spark
 instance_type_mappings = {
     "g5.xlarge": {
@@ -149,5 +150,6 @@ results = {
         results_arcee_spark,
         results_arcee_lite,
         results_arcee_scribe,
     ]
 }

 from results_arcee_spark import results_arcee_spark
 from results_arcee_supernova import results_arcee_supernova
 from results_llama_spark import results_llama_spark
+from results_llama_supernova_lite import results_llama_supernova_lite
 instance_type_mappings = {
     "g5.xlarge": {
         results_arcee_spark,
         results_arcee_lite,
         results_arcee_scribe,
+        results_llama_supernova_lite,
     ]
 }

results_arcee_supernova.py CHANGED Viewed

@@ -33,18 +33,44 @@ results_arcee_supernova = {
         },
         {
             "instanceType": "inf2.48xlarge",
-            "quantization": "none",
-            "container": "transformers-neuronx",
-            "status": "OK",
-            "tokensPerSecond": "28.4",
-            "notes": "bs=4,seqlen=4096",
         },
         {
             "instanceType": "p4d.24xlarge",
             "quantization": "none",
             "container": "TGI 2.2.0",
             "status": "OK",
-            "tokensPerSecond": "38",
             "notes": "",
         },
     ],

         },
         {
             "instanceType": "inf2.48xlarge",
+            "configurations": [
+                {
+                    "quantization": "none",
+                    "container": "transformers-neuronx",
+                    "status": "OK",
+                    "tokensPerSecond": "28",
+                    "notes": "bs=4,seqlen=4096",
+                },
+                {
+                    "quantization": "none",
+                    "container": "transformers-neuronx",
+                    "status": "OK",
+                    "tokensPerSecond": "24",
+                    "notes": "bs=2,seqlen=8192",
+                },
+                {
+                    "quantization": "none",
+                    "container": "transformers-neuronx",
+                    "status": "?",
+                    "tokensPerSecond": "KO",
+                    "notes": "OOM bs=2,seqlen=16384",
+                },
+            ],
         },
         {
             "instanceType": "p4d.24xlarge",
             "quantization": "none",
             "container": "TGI 2.2.0",
             "status": "OK",
+            "tokensPerSecond": "30",
+            "notes": "",
+        },
+        {
+            "instanceType": "p5.48xlarge",
+            "quantization": "none",
+            "container": "TGI 2.2.0",
+            "status": "?",
+            "tokensPerSecond": "?",
             "notes": "",
         },
     ],

results_llama_spark.py CHANGED Viewed

@@ -108,6 +108,7 @@ results_llama_spark = {
         {
             "instanceType": "inf2.2xlarge",
             "container": "transformers-neuronx 0.11.351",
             "status": "OK",
             "tokensPerSecond": "24",
             "notes": "Neuron SDK 2.19.1",

         {
             "instanceType": "inf2.2xlarge",
             "container": "transformers-neuronx 0.11.351",
+            "quantization": "none",
             "status": "OK",
             "tokensPerSecond": "24",
             "notes": "Neuron SDK 2.19.1",

results_llama_supernova_lite.py ADDED Viewed

+"""Module containing performance results for the Llama-3-Supernova-Lite model."""
+results_llama_supernova_lite = {
+    "name": "Llama-3.1-SuperNova-Lite",
+    "modelType": "Llama 3.1 8B",
+    "configurations": [
+        {},
+    ],
+}