Update README.md
Browse files
README.md
CHANGED
@@ -35,15 +35,19 @@ license: apache-2.0
|
|
35 |
|
36 |
(1)最优解在不到 1 个 epoch 处得到。
|
37 |
|
38 |
-
这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
39 |
|
40 |
-
模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
41 |
|
42 |
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
43 |
|
44 |
-
即只优化 response 部分的损失以提升识别结果与 prompt
|
45 |
|
46 |
-
|
|
|
|
|
|
|
|
|
47 |
|
48 |
|
49 |
|
|
|
35 |
|
36 |
(1)最优解在不到 1 个 epoch 处得到。
|
37 |
|
38 |
+
* 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
39 |
|
40 |
+
* 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
41 |
|
42 |
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
43 |
|
44 |
+
* 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
|
45 |
|
46 |
+
(3)模型使用中的体会。
|
47 |
+
|
48 |
+
* 如果在使用过程中,模型生成 response 不在 prompt 中给定的选项,这可能说明模型已经过拟合了。
|
49 |
+
|
50 |
+
* 如果模型生成 response 在 prompt 中,但答案不正确,则说明模型已学习到生成的表层模型,而没有学习到意图识别的目的。则建议在此模型基础上进一步优化 response 部分的损失。
|
51 |
|
52 |
|
53 |
|