使用多图输入，模型并不能区分每一张图片，而是把它当作了一张拼接的图片？

#17

by jamestang0219 - opened 25 days ago

25 days ago

似乎从代码上看，处理vit到llm的embedding是这样的。那是否说明模型其实并不能理解哪些token属于一张图片？

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment