qgyd2021
/

few_shot_intent_gpt2_base

Text Generation

text-generation-inference

Model card Files Files and versions Community

qgyd2021 commited on Mar 25, 2024

Commit

fbf7e35

·

verified ·

1 Parent(s): 26fd56b

Update README.md

Files changed (1) hide show

README.md +8 -4

README.md CHANGED Viewed

@@ -35,15 +35,19 @@ license: apache-2.0
 （1）最优解在不到 1 个 epoch 处得到。
-这可能说明 GPT2 模型大小，相对于任务复杂度来说太小了。
-模型进入到局部最终解而无法跳出，应考虑使用较大的学习率，或更换学习率调度器。
 （2）后续应考虑针对 prompt-response 中 response 部分进行训练。
-即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。
-当前的训练有可能只是使模型拟合了 few shot 数据的格式，而并没有拟合到意图识别的目的。

 （1）最优解在不到 1 个 epoch 处得到。
+* 这可能说明 GPT2 模型大小，相对于任务复杂度来说太小了。
+* 模型进入到局部最终解而无法跳出，应考虑使用较大的学习率，或更换学习率调度器。
 （2）后续应考虑针对 prompt-response 中 response 部分进行训练。
+* 即只优化 response 部分的损失以提升识别结果与 prompt 之间的注意力机制。当前的训练有可能只是使模型拟合了 few shot 数据的格式，而并没有拟合到意图识别的目的。
+（3）模型使用中的体会。
+* 如果在使用过程中，模型生成 response 不在 prompt 中给定的选项，这可能说明模型已经过拟合了。
+* 如果模型生成 response 在 prompt 中，但答案不正确，则说明模型已学习到生成的表层模型，而没有学习到意图识别的目的。则建议在此模型基础上进一步优化 response 部分的损失。