Update README.md

Browse files

Files changed (1) hide show

README.md +89 -71

README.md CHANGED Viewed

@@ -7,8 +7,8 @@ library_name: transformers
 pipeline_tag: text-generation
 ---
-![SauerkrautLM](images/hero.png "SauerkrautLM-7b-HerO-multilingual")
-## VAGO solutions SauerkrautLM
 Introducing SauerkrautLM-v1 - Your German Language Powerhouse!
 We are thrilled to unveil our **very first release**, **SauerkrautLM-v1**. This remarkable creation marks a significant milestone as it is specifically **tailored for the German-speaking community**. In a landscape where German language models are scarce, we are proud to offer a solution that fills this void.
@@ -62,80 +62,98 @@ Bitte erkläre mir, wie die Zusammenführung von Modellen durch bestehende Spitz
 ```
 ## Evaluation
 **MT-Bench (German)**
- ![First Turn](images/de-1turn.png "First Turn")
- ![Second Turn](images/de-2turn.png "Second Turn")
- ![Average](images/de-avg.png "Average")
 **MT-Bench (English)**
- ![First Turn](images/eng-1turn.png "First Turn")
- ![Second Turn](images/eng-2turn.png "Second Turn")
- ![Average](images/eng-avg.png "Average")
 **Language Model evaluation Harness**
-```
-|arc_challenge       |      0|acc     | 0.5555|±  |0.0145|
-|                    |       |acc_norm| 0.5956|±  |0.0143|
-|arc_easy            |      0|acc     | 0.8388|±  |0.0075|
-|                    |       |acc_norm| 0.8262|±  |0.0078|
-|boolq               |      1|acc     | 0.8725|±  |0.0058|
-|copa                |      0|acc     | 0.9100|±  |0.0288|
-|hellaswag           |      0|acc     | 0.6285|±  |0.0048|
-|                    |       |acc_norm| 0.8125|±  |0.0039|
-|lambada_openai_mt_de|      0|ppl     |45.7314|±  |2.8280|
-|                    |       |acc     | 0.4141|±  |0.0069|
-|lambada_standard    |      0|ppl     | 3.5467|±  |0.0779|
-|                    |       |acc     | 0.6922|±  |0.0064|
-|multirc             |      1|acc     | 0.1459|±  |0.0114|
-|openbookqa          |      0|acc     | 0.3640|±  |0.0215|
-|                    |       |acc_norm| 0.4600|±  |0.0223|
-|piqa                |      0|acc     | 0.8123|±  |0.0091|
-|                    |       |acc_norm| 0.8281|±  |0.0088|
-|race                |      1|acc     | 0.4507|±  |0.0154|
-|rte                 |      0|acc     | 0.7040|±  |0.0275|
-|truthfulqa_mc       |      1|mc1     | 0.3329|±  |0.0165|
-|                    |       |mc2     | 0.4915|±  |0.0150|
-|webqs               |      0|acc     | 0.1924|±  |0.0087|
-|wic                 |      0|acc     | 0.5752|±  |0.0196|
-|winogrande          |      0|acc     | 0.7301|±  |0.0125|
-|wsc                 |      0|acc     | 0.6154|±  |0.0479|
-|drop                |      1|em      | 0.2140|±  |0.0042|
-|                    |       |f1      | 0.4011|±  |0.0041|
-|triviaqa            |      3|em      | 0.6259|±  |0.0036|
-|wmt16-de-en         |      0|bleu    |39.2043|±  |0.3982|
-|                    |       |chrf    | 0.6316|±  |0.0029|
-|                    |       |ter     | 0.4816|±  |0.0054|
-|wmt16-en-de         |      0|bleu    |25.5745|±  |0.3492|
-|                    |       |chrf    | 0.5331|±  |0.0030|
-|                    |       |ter     | 0.6463|±  |0.0039|
-|xnli_de             |      0|acc     | 0.4547|±  |0.0070|
-|xnli_en             |      0|acc     | 0.5595|±  |0.0070|
-```
 **BBH**
-```
-|                      Task                      |Version|       Metric        |Value |   |Stderr|
-|------------------------------------------------|------:|---------------------|-----:|---|-----:|
-|bigbench_causal_judgement                       |      0|multiple_choice_grade|0.6053|±  |0.0356|
-|bigbench_date_understanding                     |      0|multiple_choice_grade|0.6992|±  |0.0239|
-|bigbench_disambiguation_qa                      |      0|multiple_choice_grade|0.3721|±  |0.0302|
-|bigbench_geometric_shapes                       |      0|multiple_choice_grade|0.1671|±  |0.0197|
-|                                                |       |exact_str_match      |0.1003|±  |0.0159|
-|bigbench_logical_deduction_five_objects         |      0|multiple_choice_grade|0.2540|±  |0.0195|
-|bigbench_logical_deduction_seven_objects        |      0|multiple_choice_grade|0.2043|±  |0.0152|
-|bigbench_logical_deduction_three_objects        |      0|multiple_choice_grade|0.4667|±  |0.0289|
-|bigbench_movie_recommendation                   |      0|multiple_choice_grade|0.3700|±  |0.0216|
-|bigbench_navigate                               |      0|multiple_choice_grade|0.4970|±  |0.0158|
-|bigbench_reasoning_about_colored_objects        |      0|multiple_choice_grade|0.6965|±  |0.0103|
-|bigbench_ruin_names                             |      0|multiple_choice_grade|0.4152|±  |0.0233|
-|bigbench_salient_translation_error_detection    |      0|multiple_choice_grade|0.1443|±  |0.0111|
-|bigbench_snarks                                 |      0|multiple_choice_grade|0.6464|±  |0.0356|
-|bigbench_sports_understanding                   |      0|multiple_choice_grade|0.6846|±  |0.0148|
-|bigbench_temporal_sequences                     |      0|multiple_choice_grade|0.3150|±  |0.0147|
-|bigbench_tracking_shuffled_objects_five_objects |      0|multiple_choice_grade|0.2168|±  |0.0117|
-|bigbench_tracking_shuffled_objects_seven_objects|      0|multiple_choice_grade|0.1537|±  |0.0086|
-|bigbench_tracking_shuffled_objects_three_objects|      0|multiple_choice_grade|0.4667|±  |0.0289|
-```
 ## Disclaimer

 pipeline_tag: text-generation
 ---
+![SauerkrautLM](images/hero.png "SauerkrautLM-7b-HerO")
+## VAGO solutions SauerkrautLM-7b-HerO
 Introducing SauerkrautLM-v1 - Your German Language Powerhouse!
 We are thrilled to unveil our **very first release**, **SauerkrautLM-v1**. This remarkable creation marks a significant milestone as it is specifically **tailored for the German-speaking community**. In a landscape where German language models are scarce, we are proud to offer a solution that fills this void.
 ```
 ## Evaluation
 **MT-Bench (German)**
+```
+########## First turn ##########
+                                                           score
+model                                              turn
+SauerkrautLM-70b-v1                                1     7.25000
+SauerkrautLM-7b-HerO                               1     6.96875
+SauerkrautLM-7b-v1-mistral                         1     6.30625
+leo-hessianai-13b-chat                             1     6.18750
+SauerkrautLM-13b-v1                                1     6.16250
+leo-mistral-hessianai-7b-chat                      1     6.15625
+Llama-2-70b-chat-hf                                1     6.03750
+vicuna-13b-v1.5                                    1     5.80000
+SauerkrautLM-7b-v1                                 1     5.65000
+leo-hessianai-7b-chat                              1     5.52500
+vicuna-7b-v1.5                                     1     5.42500
+Mistral-7B-v0.1                                    1     5.37500
+SauerkrautLM-3b-v1                                 1     3.17500
+Llama-2-7b                                         1     1.28750
+open_llama_3b_v2                                   1     1.68750
+########## Second turn ##########
+                                                           score
+model                                              turn
+SauerkrautLM-70b-v1                                2     6.83125
+SauerkrautLM-7b-HerO                               2     6.30625
+vicuna-13b-v1.5                                    2     5.63125
+SauerkrautLM-13b-v1                                2     5.34375
+SauerkrautLM-7b-v1-mistral                         2     5.26250
+leo-mistral-hessianai-7b-chat                      2     4.99375
+SauerkrautLM-7b-v1                                 2     4.73750
+leo-hessianai-13b-chat                             2     4.71250
+vicuna-7b-v1.5                                     2     4.67500
+Llama-2-70b-chat-hf                                2     4.66250
+Mistral-7B-v0.1                                    2     4.53750
+leo-hessianai-7b-chat                              2     2.65000
+SauerkrautLM-3b-v1                                 2     1.98750
+open_llama_3b_v2                                   2     1.22500
+Llama-2-7b                                         2     1.07500
+########## Average ##########
+                                                       score
+model
+SauerkrautLM-70b-v1                                 7.040625
+SauerkrautLM-7b-HerO                                6.637500
+SauerkrautLM-7b-v1-mistral                          5.784375
+SauerkrautLM-13b-v1                                 5.753125
+vicuna-13b-v1.5                                     5.715625
+leo-mistral-hessianai-7b-chat                       5.575000
+leo-hessianai-13b-chat                              5.450000
+Llama-2-70b-chat-hf                                 5.350000
+SauerkrautLM-v1-7b                                  5.193750
+vicuna-7b-v1.5                                      5.050000
+Mistral-7B-v0.1                                     4.956250
+leo-hessianai-7b-chat                               4.087500
+SauerkrautLM-3b-v1                                  2.581250
+open_llama_3b_v2                                    1.456250
+Llama-2-7b                                          1.181250
+```
 **MT-Bench (English)**
+```
+########## First turn ##########
+                                                           score
+model                                              turn
+OpenHermes-2.5-Mistral-7B                          1     8.21875
+SauerkrautLM-7b-HerO                               1     8.03125
+Mistral-7B-OpenOrca                                1     7.65625
+neural-chat-7b-v3-1                                1     7.22500
+########## Second turn ##########
+                                                          score
+model                                              turn
+OpenHermes-2.5-Mistral-7B                          2     7.1000
+SauerkrautLM-7b-HerO                               2     6.7875
+neural-chat-7b-v3-1                                2     6.4000
+Mistral-7B-OpenOrca                                2     6.1750
+########## Average ##########
+                                                       score
+model
+OpenHermes-2.5-Mistral-7B                           7.659375
+SauerkrautLM-7b-HerO                                7.409375
+Mistral-7B-OpenOrca                                 6.915625
+neural-chat-7b-v3-1                                 6.812500
+```
 **Language Model evaluation Harness**
+![Harness](images/luminouscompare.PNG "SauerkrautLM-7b-HerO Harness")
+*compared to Aleph Alpha Luminous Models
 **BBH**
+![BBH](images/bbh.PNG "SauerkrautLM-7b-HerO BBH")
 ## Disclaimer