Update README.md
Browse files
README.md
CHANGED
@@ -1,8 +1,8 @@
|
|
1 |
-
#
|
2 |
-
|
3 |
|
4 |
## 项目简介
|
5 |
项目地址:[Firefly(流萤):中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
|
|
|
6 |
|
7 |
**Firefly(流萤)** 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。
|
8 |
在训练中,我们使用了更小的模型参数量,以及更少的计算资源。
|
@@ -63,9 +63,7 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
|
|
63 |
|
64 |
## 数据集
|
65 |
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
|
66 |
-
|
67 |

|
68 |
-
|
69 |
在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
|
70 |
```json
|
71 |
{
|
@@ -76,12 +74,9 @@ Bloom是个多语言模型,由于需要兼容多语言,所以词表有25w之
|
|
76 |
```
|
77 |
|
78 |
训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
|
79 |
-
|
80 |

|
81 |
|
82 |
|
83 |
-
|
84 |
-
|
85 |
## 训练细节
|
86 |
|
87 |
在训练时,对于每条样本,我们将input与target处理成如下格式,然后输出模型中。
|
|
|
1 |
+
# Firefly(流萤): 中文对话式大语言模型
|
|
|
2 |
|
3 |
## 项目简介
|
4 |
项目地址:[Firefly(流萤):中文对话式大语言模型](https://github.com/yangjianxin1/Firefly)
|
5 |
+

|
6 |
|
7 |
**Firefly(流萤)** 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。
|
8 |
在训练中,我们使用了更小的模型参数量,以及更少的计算资源。
|
|
|
63 |
|
64 |
## 数据集
|
65 |
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万,形成训练集[firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 。数据分布如下图所示:
|
|
|
66 |

|
|
|
67 |
在此基础上,我们添加了[Belle-train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) ,最终得到165万的训练数据。每条数据的格式如下,包含任务类型、输入、目标输出:
|
68 |
```json
|
69 |
{
|
|
|
74 |
```
|
75 |
|
76 |
训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
|
|
|
77 |

|
78 |
|
79 |
|
|
|
|
|
80 |
## 训练细节
|
81 |
|
82 |
在训练时,对于每条样本,我们将input与target处理成如下格式,然后输出模型中。
|