Mxode
/

SmolLM-Chinese-180M

Text Generation

Model card Files Files and versions Community

Mxode commited on Sep 18, 2024

Commit

e6fd1bd

·

verified ·

1 Parent(s): d723b4f

Update README.md

Files changed (1) hide show

README.md +3 -1

README.md CHANGED Viewed

@@ -37,7 +37,9 @@ Tokenizer 选用了 [Yi-1.5-9B-Chat](https://huggingface.co/01-ai/Yi-1.5-9B-Chat
 不同于 SmolLM 在最后 20% 的步骤开始衰减学习率，这里梯形调度的衰减步骤占比达到了 30%，采用和 MiniCPM 一致的指数衰减，最低衰减至最大学习率的 1%。
-在非常多的训练集上进行了训练，有些数据集做了进一步筛选和过滤。列举了部分主要数据集，整体比例大约为中文：英文：代码 = 4：4：2 的比例。同时中英文中均混合了一定的指令数据。
 **尚未进行任何基准测试。**

 不同于 SmolLM 在最后 20% 的步骤开始衰减学习率，这里梯形调度的衰减步骤占比达到了 30%，采用和 MiniCPM 一致的指数衰减，最低衰减至最大学习率的 1%。
+在非常多的开源数据集上进行了训练，并做了进一步筛选和过滤，因此仅列举了部分主要数据集。
+训练数据整体比例大约为中文：英文：代码 = 4：4：2，同时中英文中均混合了一定的指令数据。
 **尚未进行任何基准测试。**