yuyijiong
/

Qwen-14b-chat-yarn-32k

Text Generation

Model card Files Files and versions Community

yuyijiong commited on Dec 14, 2023

Commit

54cfa4b

•

1 Parent(s): 71ba403

Update README.md

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -38,11 +38,12 @@ print(response)
 # 训练过程
 ### 1.模型结构修改
-将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子s，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
 ### 2.预训练
-使用[yuyijiong/LongData-Corpus](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)数据，Qlora方法，数据切分为32k文本长度，对Qwen模型进行增量预训练。
 ### 3.指令微调
-使用[yuyijiong/Long-Instruction-Chinese]https://huggingface.co/datasets/yuyijiong/Long-Instruction-Chinese)数据，Qlora方法，对Qwen模型进行微调。
 # 问答例子
@@ -141,6 +142,7 @@ print(response)
 模型回答
 <pre><code>根据文档-[16]的原文“自养的生物吸收无机碳，转化成有机物的过程。”可知，生物固碳是指自养的生物吸收无机碳，将其转化为有机物的过程。这种过程通常涉及到多种生物体，如植物、蓝细菌、藻类、紫色细菌和一些变形菌门等。其中，最普遍的CO2固定途径是卡尔文循环，而其他类型的固碳途径如3HP4HB循环、3HP循环、DC4HB循环则较少见。
 </code></pre>
 </details>

 # 训练过程
 ### 1.模型结构修改
+* 将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子s，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
+* 在训练时强制设置use_dynamic_ntk=True
 ### 2.预训练
+* 使用[yuyijiong/LongData-Corpus](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)数据，Qlora方法，数据切分为32k文本长度，对Qwen模型进行增量预训练。
 ### 3.指令微调
+* 使用[yuyijiong/Long-Instruction-Chinese]https://huggingface.co/datasets/yuyijiong/Long-Instruction-Chinese)数据，Qlora方法，对Qwen模型进行微调。
 # 问答例子
 模型回答
 <pre><code>根据文档-[16]的原文“自养的生物吸收无机碳，转化成有机物的过程。”可知，生物固碳是指自养的生物吸收无机碳，将其转化为有机物的过程。这种过程通常涉及到多种生物体，如植物、蓝细菌、藻类、紫色细菌和一些变形菌门等。其中，最普遍的CO2固定途径是卡尔文循环，而其他类型的固碳途径如3HP4HB循环、3HP循环、DC4HB循环则较少见。
 </code></pre>
 </details>