Update README.md
Browse files
README.md
CHANGED
@@ -35,9 +35,15 @@ license: apache-2.0
|
|
35 |
|
36 |
(1)最优解在不到 1 个 epoch 处得到。
|
37 |
|
38 |
-
|
39 |
|
40 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
41 |
|
42 |
|
43 |
|
|
|
35 |
|
36 |
(1)最优解在不到 1 个 epoch 处得到。
|
37 |
|
38 |
+
这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
39 |
|
40 |
+
模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
41 |
+
|
42 |
+
(2)后续应考虑针对 prompt-response 中 response 部分进行训练。
|
43 |
+
|
44 |
+
即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
|
45 |
+
|
46 |
+
当前的训练有可能只是使模型拟合了 few shot 数据的格式,而并没有拟合到意图识别的目的。
|
47 |
|
48 |
|
49 |
|