qgyd2021 commited on
Commit
fbf7e35
1 Parent(s): 26fd56b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -4
README.md CHANGED
@@ -35,15 +35,19 @@ license: apache-2.0
35
 
36
  (1)最优解在不到 1 个 epoch 处得到。
37
 
38
- 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
39
 
40
- 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
41
 
42
  (2)后续应考虑针对 prompt-response 中 response 部分进行训练。
43
 
44
- 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
45
 
46
- 当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
 
 
 
 
47
 
48
 
49
 
 
35
 
36
  (1)最优解在不到 1 个 epoch 处得到。
37
 
38
+ * 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
39
 
40
+ * 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
41
 
42
  (2)后续应考虑针对 prompt-response 中 response 部分进行训练。
43
 
44
+ * 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
45
 
46
+ (3)模型使用中的体会。
47
+
48
+ * 如果在使用过程中,模型生成 response 不在 prompt 中给定的选项,这可能说明模型已经过拟合了。
49
+
50
+ * 如果模型生成 response 在 prompt 中,但答案不正确,则说明模型已学习到生成的表层模型,而没有学习到意图识别的目的。则建议在此模型基础上进一步优化 response 部分的损失。
51
 
52
 
53