fzmnm commited on
Commit
0e99e7d
1 Parent(s): da09e37

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -2
README.md CHANGED
@@ -2,7 +2,6 @@
2
  license: cc
3
  datasets:
4
  - adam89/TinyStoriesChinese
5
- - fzmnm/TinyStoriesChinese-110M
6
  - fzmnm/tiny-books-zh
7
  language:
8
  - zh
@@ -21,7 +20,7 @@ widget:
21
 
22
  ### 思考
23
 
24
- 1. 数据集太小,多样化程度太窄。其实100M级别的模型已经可以拥有多模态的智能了。我可以考虑加入一些理科的元素,尤其是十万个为什么之类的常识性说明到培训数据里,不要只局限于文科名著。之前我是考虑到模型的大小故意避免了任何数学和理科的训练资料。
25
 
26
  2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难,会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive(前面文本有足够信息帮助模型推断下一句话)性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。
27
 
 
2
  license: cc
3
  datasets:
4
  - adam89/TinyStoriesChinese
 
5
  - fzmnm/tiny-books-zh
6
  language:
7
  - zh
 
20
 
21
  ### 思考
22
 
23
+ 1. 数据集太小,多样化程度太窄。其实100M级别的模型已经可以拥有多模态的智能了([mobileLLM](https://arxiv.org/abs/2402.14905))。我可以考虑加入一些理科的元素,尤其是十万个为什么之类的常识性说明到培训数据里,不要只局限于文科名著。之前我是考虑到模型的大小故意避免了任何数学和理科的训练资料。
24
 
25
  2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难,会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive(前面文本有足够信息帮助模型推断下一句话)性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。
26