生成了很多原文中不存在的词

#2
by Lucas510 - opened

你好,我使用这个模型给新闻做摘要,发现生成结果里有很多不相干的词,请问如何改进?

原文:
假设她根本没有任何外交职务的历练,甚至没有出任过任何公职,而直接担任驻保加利亚大使,是不是会上媒体头条? 或许主要会有两种意见:一种认为她完全没有资格直接担任大使,应该从低级别外交官做起;还有一种,大约会认为既然是俄乌冲突状态,当局可能不拘一格降人才。 但奥列西娅·伊拉舒克除了在外交官履历上是一张白纸以外,更大的问题在于——她原本的职业是性学专家和高级珠宝饰品专家。 在当地时间12月22日至26日于基辅和尼古拉耶夫举行的“世界战争和新视野”会议上,奥列西娅·伊拉舒克被媒体拍摄到以驻保加利亚大使身份与会,并经证实已得到泽连斯基任命后,媒体哗然。 哪怕泽连斯基之竞选成功,背后有种种推手,起码从乌克兰总统选举的程序上说,他是合法的。 02

同为乌克兰媒体,《欧洲真理报》还披露了一个重要信息——据乌克兰外交使团的知情人员透露,这位性学专家被任命为大使的事,与乌克兰外交部无关。 从乌克兰外交部公开披露的观点看,该部认为,任命非职业外交官为驻外大使,是“国际通行的做法”。 从国际上看,譬如俄罗斯总统普京就曾于2021年任命娜塔莉亚·波克隆斯卡娅为俄罗斯驻佛得角大使。 但波克隆斯卡娅最后向普京提出,“因个人原因无法到任”,普京就重新安排她担任俄罗斯侨民与国际人道主义合作署副署长。 03

在伊拉舒克被任命为驻保加利亚大使之际,乌克兰还正在发生另一个与女性人物有关的事件。

Randeng生成摘要:
乌克兰外交官身份成谜,普京任大使?俄乌冲突或将加剧!(附视频)| 新闻早报2016-10-24 星期五。[社会万象] @ 光明网(图) . . . . . .

Fengshenbang-LM org
edited Jan 6, 2023

可以尝试 《Towards Improving Faithfulness in Abstractive Summarization》 这篇论文提到的方法,我们调研发现,目前主流的去解决摘要忠实度的问题方法基于 QA 模块的去做的比较多。
我们内部使用实体过滤数据的方法也做过一版摘要的优化,在一定程度上解决了这个问题,针对这个 case,生成的是“性学专家被任命为驻保加利亚大使与乌克兰外交部无关”

QA方法可能不太适合我现在的使用场景,不过谢谢你的建议~
我想用自己的数据finetune一下试试,请问按照通用的生成式摘要模型finetune方法可以吗?(https://github.com/huggingface/transformers/tree/main/examples/pytorch/summarization)
还是需要特别的finetune方法?

Fengshenbang-LM org

通用的摘要生成模型进行 finetune 是可以的,也可以在我们只进行过预训练的模型上进行 finetune,如 IDEA-CCNL/Randeng-Pegasus-238M-Chinese . 只进行过预训练的模型对于原文的忠实度是最高的

dongxq changed discussion status to closed

Sign up or log in to comment