可以直接用这个模型分析图片吗,能不能提供一个小白用的例子
这个模型是Pretrain阶段的ViT,不能直接分析图片,要接上一个语言模型一起训练之后才可以分析图片。或者像传统感知任务那样,作为backbone使用
分析图片可以用这个模型:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
感谢耐心解惑
· Sign up or log in to comment