charent
/

Phi2-Chinese-0.2B

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

charent commited on Dec 27, 2023

Commit

a5f918f

·

1 Parent(s): a2dc15a

Update README.md

Files changed (1) hide show

README.md +4 -2

README.md CHANGED Viewed

@@ -11,7 +11,9 @@ pipeline_tag: text-generation
 ---
 # Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
-**本项目为实验项目，开源代码及模型权重，预训练数据较少，如果需要效果更好的中文小模型，可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
 # 1. ⚗️数据清洗
 代码：[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
@@ -36,7 +38,7 @@ tokenizer训练非常吃内存：
 # 3. ⛏️CLM因果模型预训练
 代码：[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
-用大量文本进行无监督预训练，我这里除了基本的数据集外，还加入`wiki`百科的数据。
 数据集格式：一个样本一句话，太长的可以截断分为多个样本。

 ---
 # Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
+**本项目为实验项目，开源代码及模型权重，预训练数据较少，如果需要效果更好的中文小模型，可以参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)**
+**Github仓库地址：[Phi2-mini-Chinese](https://github.com/charent/Phi2-mini-Chinese)**
 # 1. ⚗️数据清洗
 代码：[dataset.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/0.dataset.ipynb)。
 # 3. ⛏️CLM因果模型预训练
 代码：[pretrain.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/2.pretrain.ipynb)
+用大量文本进行无监督预训练，主要使用`bell open source`的数据集[BELLE](https://github.com/LianjiaTech/BELLE)。
 数据集格式：一个样本一句话，太长的可以截断分为多个样本。