quincyqiang
commited on
Commit
•
55360a0
1
Parent(s):
75d55d8
Update README.md
Browse files
README.md
CHANGED
@@ -28,7 +28,7 @@ tags:
|
|
28 |
|
29 |
[GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
|
30 |
|
31 |
-
## step1:训练分词器
|
32 |
|
33 |
[🐱怎么从零到一训练一个LLM分词器](https://github.com/yanqiangmiffy/how-to-train-tokenizer)
|
34 |
|
@@ -57,11 +57,11 @@ tags:
|
|
57 |
|
58 |
```
|
59 |
|
60 |
-
## step2:二次预训练
|
61 |
|
62 |
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练
|
63 |
|
64 |
-
## step3: 有监督微调
|
65 |
|
66 |
- belle数据:120k数据 v1
|
67 |
- stanford_alapca:52k数据 v2
|
|
|
28 |
|
29 |
[GoGPT-Github](https://github.com/yanqiangmiffy/GoGPT)
|
30 |
|
31 |
+
## 🚀step1:训练分词器
|
32 |
|
33 |
[🐱怎么从零到一训练一个LLM分词器](https://github.com/yanqiangmiffy/how-to-train-tokenizer)
|
34 |
|
|
|
57 |
|
58 |
```
|
59 |
|
60 |
+
## 🚀step2:二次预训练
|
61 |
|
62 |
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练
|
63 |
|
64 |
+
## 🚀step3: 有监督微调
|
65 |
|
66 |
- belle数据:120k数据 v1
|
67 |
- stanford_alapca:52k数据 v2
|