JuncaiL
/

llama-265m

Text Generation

Model card Files Files and versions Community

JuncaiL commited on Mar 25

Commit

a26cc97

•

1 Parent(s): 1f3f5eb

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -48,7 +48,7 @@ print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))
 | Model               | #Experts | #Activated Experts | #Params | # Activated Params | Flops(T) per sample （se q=2048） | Model Weights                                                |
 | ------------------- | -------- | ------------------ | ------- | ------------------ | --------------------------------- | ------------------------------------------------------------ |
 | 265M                | -        | -                  | 265M    | 265M               | 0.48                              | [🤗 llama-265m](https://huggingface.co/JuncaiL/llama-265m)    |
-| 8 $\times$ 265M MoE | 2        | 8                  | 970M    | 332M               | 0.76                              | [🤗 llama-8x265m-moe](https://huggingface.co/JuncaiL/llama-8x265m-moe) |
 | llama-7b            | -        | -                  | 7B      | 7B                 | 25.29                             |                                                              |
 **Model Evaluation**

 | Model               | #Experts | #Activated Experts | #Params | # Activated Params | Flops(T) per sample （se q=2048） | Model Weights                                                |
 | ------------------- | -------- | ------------------ | ------- | ------------------ | --------------------------------- | ------------------------------------------------------------ |
 | 265M                | -        | -                  | 265M    | 265M               | 0.48                              | [🤗 llama-265m](https://huggingface.co/JuncaiL/llama-265m)    |
+| 8 $\times$ 265M MoE | 8        | 2                  | 970M    | 332M               | 0.76                              | [🤗 llama-8x265m-moe](https://huggingface.co/JuncaiL/llama-8x265m-moe) |
 | llama-7b            | -        | -                  | 7B      | 7B                 | 25.29                             |                                                              |
 **Model Evaluation**