MMAlaya / README.md
bingwork's picture
Update README.md
f47bc6d verified
|
raw
history blame
No virus
1.05 kB
metadata
license: apache-2.0
pipeline_tag: image-to-text

MMAlaya

MMAlaya是基于大语言模型Alaya的多模态模型,模型权重文件在DataCanvas/MMAlaya

MMAlaya包含以下三个模块:
1,大语言模型Alaya-7B-Chat
2,图像文本特征编码器来自blip2-opt-2.7b的EVA-G。
3,图像文本特征到大预言模型的连接器,使用的是来自blip2-opt-2.7b的Qformer和线性投影器。

模型的训练主要基于LLaVA架构

OpenCompass 评测榜单,均分41.1,排名25名。
MMBench 评测榜单,开源开放的模型,中文测试集,均分58.6,排名25名。

推理可以参考 inference.py