Update README.md
Browse files
README.md
CHANGED
@@ -11,7 +11,9 @@ pipeline_tag: text-generation
|
|
11 |
---
|
12 |
# Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
|
13 |
|
14 |
-
**本项目为实验项目,开源代码及模型权重,预训练数据较少,如果需要效果更好的中文小模型,可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
|
|
|
|
|
15 |
|
16 |
# 1. ⚗️数据清洗
|
17 |
代码:[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
|
@@ -36,7 +38,7 @@ tokenizer训练非常吃内存:
|
|
36 |
# 3. ⛏️CLM因果模型预训练
|
37 |
代码:[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
|
38 |
|
39 |
-
|
40 |
|
41 |
数据集格式:一个样本一句话,太长的可以截断分为多个样本。
|
42 |
|
|
|
11 |
---
|
12 |
# Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
|
13 |
|
14 |
+
**本项目为实验项目,开源代码及模型权重,预训练数据较少,如果需要效果更好的中文小模型,可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
|
15 |
+
|
16 |
+
**Github仓库地址:[Phi2-mini-Chinese](https://github.com/charent/Phi2-mini-Chinese)**
|
17 |
|
18 |
# 1. ⚗️数据清洗
|
19 |
代码:[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
|
|
|
38 |
# 3. ⛏️CLM因果模型预训练
|
39 |
代码:[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
|
40 |
|
41 |
+
用大量文本进行无监督预训练,主要使用`bell open source`的数据集[BELLE](https://github.com/LianjiaTech/BELLE)。
|
42 |
|
43 |
数据集格式:一个样本一句话,太长的可以截断分为多个样本。
|
44 |
|