Visual Question Answering
Transformers
TensorBoard
Safetensors
internvl_chat
feature-extraction
custom_code

使用多图输入,模型并不能区分每一张图片,而是把它当作了一张拼接的图片?

#17
by jamestang0219 - opened

似乎从代码上看,处理vit到llm的embedding是这样的。那是否说明模型其实并不能理解哪些token属于一张图片?

Sign up or log in to comment