flyingfishinwater
/

chinese-baby-llama2

Text2Text Generation

text-generation

text-generation-inference

Model card Files Files and versions Community

Qi Wang commited on Sep 29, 2023

Commit

983603d

·

1 Parent(s): 0b1ba65

Update README.md

Files changed (1) hide show

README.md +10 -10

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ pipeline_tag: text2text-generation
 [English](./readme_en.md) [简体中文](./readme.md)
-这是一个参数量58M左右的超微型小模型，采用Llama2架构，这里上传的版本是预训练版本，尚未进行SFT。近期将会推出SFT后的聊天版本。
 这个超微型模型开发的目标是：
@@ -28,10 +28,10 @@ pipeline_tag: text2text-generation
 训练参数：
-1. 最长行(Max Sentence Length): 4096
-2. 词汇量(Vocab Size): 65534
-3. 正则化规则(Normalization Rule): nfkc
-4. 覆盖率(Character coverage): 0.99
 和标准的Llama2分词器比较如下：
@@ -56,11 +56,11 @@ Llama2分词器是32000个token，针对英文字符进行了优化；而Baby LL
 在单卡3090机器上进行预训练，模型model采用了llama2的架构，训练参数如下：
-1. max_seq_len = 512
-2. dim = 512
-3. n_headers = 8
-4. n_layers = 8
-5. n_kv_headers = 8
 ## 演示

 [English](./readme_en.md) [简体中文](./readme.md)
+这是一个参数量115M左右的超微型小模型，采用Llama2架构，这里上传的版本是预训练版本，尚未进行SFT。近期将会推出SFT后的聊天版本。
 这个超微型模型开发的目标是：
 训练参数：
+1. 最长行(Max Sentence Length): 2657
+2. 词汇量(Vocab Size): 32000
+3. 正则化规则(Normalization Rule): identity
+4. 覆盖率(Character coverage): 0.9995
 和标准的Llama2分词器比较如下：
 在单卡3090机器上进行预训练，模型model采用了llama2的架构，训练参数如下：
+1. max_seq_len = 1024
+2. dim = 768
+3. n_headers = 12
+4. n_layers = 12
+5. n_kv_headers = 12
 ## 演示