在实际应用场景中，还可能会只做文本问答，不需要输入图片，这种场景是否可以满足？

#23

by jackleef - opened about 1 month ago

about 1 month ago

视觉提问是其中一个场景，实际场景可能有时不用视觉提问，只要文本问答。

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org about 1 month ago

这个模型是VQA模型，不输入图片可以回答但是效果就没那么好

about 1 month ago

那说明这还是针对特定的应用场景了，纯文本问答泛化性会受影响。另外，能否使用glm-4-9b-chat的demo把glm-4v-9b跑起来？

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org about 1 month ago

不能，这是两个不同的demo，请在我们的github中查看demo

about 1 month ago

没看到有纯文本问答glm-4v-9b的demo

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org about 1 month ago

trans_cli_vision_demo.py 这个，不传入图像

about 1 month ago

感谢

jackleef changed discussion status to closed 29 days ago

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment