Update README.md
Browse files
README.md
CHANGED
@@ -38,11 +38,12 @@ print(response)
|
|
38 |
|
39 |
# 训练过程
|
40 |
### 1.模型结构修改
|
41 |
-
将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子s,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
|
|
|
42 |
### 2.预训练
|
43 |
-
使用[yuyijiong/LongData-Corpus](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)数据,Qlora方法,数据切分为32k文本长度,对Qwen模型进行增量预训练。
|
44 |
### 3.指令微调
|
45 |
-
使用[yuyijiong/Long-Instruction-Chinese]https://huggingface.co/datasets/yuyijiong/Long-Instruction-Chinese)数据,Qlora方法,对Qwen模型进行微调。
|
46 |
|
47 |
|
48 |
# 问答例子
|
@@ -141,6 +142,7 @@ print(response)
|
|
141 |
|
142 |
模型回答
|
143 |
<pre><code>根据文档-[16]的原文“自养的生物吸收无机碳,转化成有机物的过程。”可知,生物固碳是指自养的生物吸收无机碳,将其转化为有机物的过程。这种过程通常涉及到多种生物体,如植物、蓝细菌、藻类、紫色细菌和一些变形菌门等。其中,最普遍的CO2固定途径是卡尔文循环,而其他类型的固碳途径如3HP4HB循环、3HP循环、DC4HB循环则较少见。
|
|
|
144 |
</code></pre>
|
145 |
|
146 |
</details>
|
|
|
38 |
|
39 |
# 训练过程
|
40 |
### 1.模型结构修改
|
41 |
+
* 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子s,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
|
42 |
+
* 在训练时强制设置use_dynamic_ntk=True
|
43 |
### 2.预训练
|
44 |
+
* 使用[yuyijiong/LongData-Corpus](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)数据,Qlora方法,数据切分为32k文本长度,对Qwen模型进行增量预训练。
|
45 |
### 3.指令微调
|
46 |
+
* 使用[yuyijiong/Long-Instruction-Chinese]https://huggingface.co/datasets/yuyijiong/Long-Instruction-Chinese)数据,Qlora方法,对Qwen模型进行微调。
|
47 |
|
48 |
|
49 |
# 问答例子
|
|
|
142 |
|
143 |
模型回答
|
144 |
<pre><code>根据文档-[16]的原文“自养的生物吸收无机碳,转化成有机物的过程。”可知,生物固碳是指自养的生物吸收无机碳,将其转化为有机物的过程。这种过程通常涉及到多种生物体,如植物、蓝细菌、藻类、紫色细菌和一些变形菌门等。其中,最普遍的CO2固定途径是卡尔文循环,而其他类型的固碳途径如3HP4HB循环、3HP循环、DC4HB循环则较少见。
|
145 |
+
|
146 |
</code></pre>
|
147 |
|
148 |
</details>
|