qgyd2021 commited on
Commit
26fd56b
1 Parent(s): 4f6421c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -2
README.md CHANGED
@@ -35,9 +35,15 @@ license: apache-2.0
35
 
36
  (1)最优解在不到 1 个 epoch 处得到。
37
 
38
- * 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
39
 
40
- * 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
 
 
 
 
 
 
41
 
42
 
43
 
 
35
 
36
  (1)最优解在不到 1 个 epoch 处得到。
37
 
38
+ 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
39
 
40
+ 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
41
+
42
+ (2)后续应考虑针对 prompt-response 中 response 部分进行训练。
43
+
44
+ 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
45
+
46
+ 当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
47
 
48
 
49