quincyqiang commited on
Commit
e5b6b00
1 Parent(s): 55360a0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -1
README.md CHANGED
@@ -59,14 +59,21 @@ tags:
59
 
60
  ## 🚀step2:二次预训练
61
 
62
- > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练
63
 
64
  ## 🚀step3: 有监督微调
65
 
66
  - belle数据:120k数据 v1
67
  - stanford_alapca:52k数据 v2
 
68
  - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
69
 
 
 
 
 
 
 
70
  ## 免责声明
71
 
72
  本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。
 
59
 
60
  ## 🚀step2:二次预训练
61
 
62
+ > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新
63
 
64
  ## 🚀step3: 有监督微调
65
 
66
  - belle数据:120k数据 v1
67
  - stanford_alapca:52k数据 v2
68
+ - stanford_alapca_gpt4_zh:52k数据 v2
69
  - [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
70
 
71
+ 根据长度(输出长度大约500)采样之后,筛选出11万指令数据进行sft训练
72
+
73
+
74
+ ## 测试效果
75
+
76
+
77
  ## 免责声明
78
 
79
  本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。