metadata

license: apache-2.0
pipeline_tag: image-to-text

MMAlaya

MMAlaya是基于大语言模型Alaya的多模态模型。

MMAlaya包含以下三个模块：
1，大语言模型Alaya。
2，图像文本特征编码器来自blip2-opt-2.7b的Qformer。
3，图像文本特征到大预言模型的线性投影器。

模型的训练主要基于LLaVA架构

2024.01.23 最终在MMBench线上测试中文测试集分数为56.9，英文测试集分数为59.8。

推理可以参考 inference.py