fzmnm
/

tinybooks-110M-idiot-iter1000

Text Generation

text-generation-inference

Model card Files Files and versions Community

fzmnm commited on Jun 10, 2024

Commit

0e99e7d

·

verified ·

1 Parent(s): da09e37

Update README.md

Files changed (1) hide show

README.md +1 -2

README.md CHANGED Viewed

@@ -2,7 +2,6 @@
 license: cc
 datasets:
 - adam89/TinyStoriesChinese
-- fzmnm/TinyStoriesChinese-110M
 - fzmnm/tiny-books-zh
 language:
 - zh
@@ -21,7 +20,7 @@ widget:
 ### 思考
-1. 数据集太小，多样化程度太窄。其实100M级别的模型已经可以拥有多模态的智能了。我可以考虑加入一些理科的元素，尤其是十万个为什么之类的常识性说明到培训数据里，不要只局限于文科名著。之前我是考虑到模型的大小故意避免了任何数学和理科的训练资料。
 2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难，会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive（前面文本有足够信息帮助模型推断下一句话）性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。

 license: cc
 datasets:
 - adam89/TinyStoriesChinese
 - fzmnm/tiny-books-zh
 language:
 - zh
 ### 思考
+1. 数据集太小，多样化程度太窄。其实100M级别的模型已经可以拥有多模态的智能了([mobileLLM](https://arxiv.org/abs/2402.14905))。我可以考虑加入一些理科的元素，尤其是十万个为什么之类的常识性说明到培训数据里，不要只局限于文科名著。之前我是考虑到模型的大小故意避免了任何数学和理科的训练资料。
 2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难，会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive（前面文本有足够信息帮助模型推断下一句话）性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。