Update README.md
Browse files
README.md
CHANGED
@@ -24,7 +24,9 @@ license: apache-2.0
|
|
24 |
|
25 |
(1)最优解在不到 1 个 epoch 处得到。
|
26 |
|
27 |
-
这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
|
|
|
|
28 |
|
29 |
|
30 |
|
|
|
24 |
|
25 |
(1)最优解在不到 1 个 epoch 处得到。
|
26 |
|
27 |
+
* 这可能说明 GPT2 模型大小,相对于任务复杂度来说太小了。
|
28 |
+
|
29 |
+
* 模型进入到局部最终解而无法跳出,应考虑使用较大的学习率,或更换学习率调度器。
|
30 |
|
31 |
|
32 |
|