在实际应用场景中,还可能会只做文本问答,不需要输入图片,这种场景是否可以满足?

#23
by jackleef - opened

视觉提问是其中一个场景,实际场景可能有时不用视觉提问,只要文本问答。

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

这个模型是VQA模型,不输入图片可以回答但是效果就没那么好

那说明这还是针对特定的应用场景了,纯文本问答泛化性会受影响。另外,能否使用glm-4-9b-chat的demo把glm-4v-9b跑起来?

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

不能,这是两个不同的demo,请在我们的github中查看demo

没看到有纯文本问答glm-4v-9b的demo

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

trans_cli_vision_demo.py 这个,不传入图像

jackleef changed discussion status to closed

Sign up or log in to comment