Update README.md
Browse files
README.md
CHANGED
@@ -5,14 +5,19 @@ license: apache-2.0
|
|
5 |
|
6 |
这个模型是基于 [uer/gpt2-chinese-cluecorpussmall](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall) 模型在 [qgyd2021/few_shot_intent_sft](https://huggingface.co/datasets/qgyd2021/few_shot_intent_sft) 数据集上微调的结果.
|
7 |
|
8 |
-
|
|
|
|
|
|
|
|
|
|
|
9 |
|
10 |
最终的模型大约是在训练了 0.6 个 epoch 时保存的结果。
|
11 |
|
12 |
你可以在此处体验该模型 [qgyd2021/gpt2_chat](https://huggingface.co/spaces/qgyd2021/gpt2_chat)。
|
13 |
|
14 |
|
15 |
-
Eval Loss 见下图:
|
16 |
|
17 |
![eval_loss.jpg](docs/pictures/eval_loss.jpg)
|
18 |
|
|
|
5 |
|
6 |
这个模型是基于 [uer/gpt2-chinese-cluecorpussmall](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall) 模型在 [qgyd2021/few_shot_intent_sft](https://huggingface.co/datasets/qgyd2021/few_shot_intent_sft) 数据集上微调的结果.
|
7 |
|
8 |
+
```text
|
9 |
+
(1)因为 [qgyd2021/few_shot_intent_sft](https://huggingface.co/datasets/qgyd2021/few_shot_intent_sft) 数据集的 `*_prompt` 子集是动态生成的,因此首先,生成 3 个 epoch 的数据作为训练集和验证集。
|
10 |
+
(2)3 个 epoch 的数据在训练时算 1 个 epoch。训练到大约 0.32 个 epoch 时(即 11000 steps)处 Early Stop。 (训练时的 0.32 个 epoch,相当于原始数据 3 个 epoch 的 1 个 epoch)。
|
11 |
+
(3)此处保存的是 checkpoint-6000 (6000 steps)的权重。
|
12 |
+
|
13 |
+
```
|
14 |
|
15 |
最终的模型大约是在训练了 0.6 个 epoch 时保存的结果。
|
16 |
|
17 |
你可以在此处体验该模型 [qgyd2021/gpt2_chat](https://huggingface.co/spaces/qgyd2021/gpt2_chat)。
|
18 |
|
19 |
|
20 |
+
**Eval Loss** 见下图:
|
21 |
|
22 |
![eval_loss.jpg](docs/pictures/eval_loss.jpg)
|
23 |
|