charent commited on
Commit
a5f918f
1 Parent(s): a2dc15a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -2
README.md CHANGED
@@ -11,7 +11,9 @@ pipeline_tag: text-generation
11
  ---
12
  # Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
13
 
14
- **本项目为实验项目,开源代码及模型权重,预训练数据较少,如果需要效果更好的中文小模型,可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
 
 
15
 
16
  # 1. ⚗️数据清洗
17
  代码:[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
@@ -36,7 +38,7 @@ tokenizer训练非常吃内存:
36
  # 3. ⛏️CLM因果模型预训练
37
  代码:[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
38
 
39
- 用大量文本进行无监督预训练,我这里除了基本的数据集外,还加入`wiki`百科的数据。
40
 
41
  数据集格式:一个样本一句话,太长的可以截断分为多个样本。
42
 
 
11
  ---
12
  # Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
13
 
14
+ **本项目为实验项目,开源代码及模型权重,预训练数据较少,如果需要效果更好的中文小模型,可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
15
+
16
+ **Github仓库地址:[Phi2-mini-Chinese](https://github.com/charent/Phi2-mini-Chinese)**
17
 
18
  # 1. ⚗️数据清洗
19
  代码:[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
 
38
  # 3. ⛏️CLM因果模型预训练
39
  代码:[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
40
 
41
+ 用大量文本进行无监督预训练,主要使用`bell open source`的数据集[BELLE](https://github.com/LianjiaTech/BELLE)。
42
 
43
  数据集格式:一个样本一句话,太长的可以截断分为多个样本。
44