VL-Chat测试中学物理试卷识别胡说八道

#18
by william0014 - opened

请问, 有人使用过这个模型做过图片的内容识别和推理么, 我用这个版本测试了一页初中物理试卷, 内容识别完全是胡说八道啊. 我招的demo做的, 唯一就是把query 换成 text: “图片22题讲了什么内容.” 模型输出的内容和图片完全没有关系.

VL模型先完成文字识别,然后再调用LLM生成答案。Qwen-vl 中文识别能力不错,但这么小的模型显然不可能有很强的数学和推理能力。你可以试试他们的Qwen-VL-Max, 但这个模型不开源的。

VL模型先完成文字识别,然后再调用LLM生成答案。Qwen-vl 中文识别能力不错,但这么小的模型显然不可能有很强的数学和推理能力。你可以试试他们的Qwen-VL-Max, 但这个模型不开源的。

我使用的query“图片22题讲了什么内容.” 目的就是希望VL模型把识别的内容整理出来, 但是它回复的和试卷上的文字一点关系都没有,我不是让它做题,我也知道它做不了题。 是我的prompt不对么, 你有什么好的建议么,如何让开源的VL识别出文字并输出?

我测试过这个模型的OCR能力。我的提示词是“请识别图上的文字,不要加任何解读和评论。”同时,把temperature 的值调低一点,我设置成了0.2

我测试过这个模型的OCR能力。我的提示词是“请识别图上的文字,不要加任何解读和评论。”同时,把temperature 的值调低一点,我设置成了0.2

好的, 非常感谢,我试一下.

按照你的prompt测试了一下,还是不能获取图片里面完整的文本内容。我感觉这个VL-CHAT主要作用就是看这个图片大概是什么, 涉及到里面的文字,大部分都识别不对,是我使用姿势不对么?

Sign up or log in to comment