Upload README.md
Browse files
README.md
CHANGED
@@ -1,17 +1,13 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
pipeline_tag: image-to-text
|
4 |
-
---
|
5 |
# MMAlaya
|
6 |
MMAlaya是基于大语言模型[Alaya](https://github.com/DataCanvasIO/Alaya)的多模态模型。
|
7 |
|
8 |
MMAlaya包含以下三个模块:
|
9 |
<br>1,大语言模型Alaya。
|
10 |
-
<br>2
|
11 |
<br>3,图像文本特征到大预言模型的线性投影器。
|
12 |
|
13 |
模型的训练主要基于[LLaVA](https://github.com/haotian-liu/LLaVA)架构
|
14 |
|
15 |
2024.01.23 最终在[MMBench](https://mmbench.opencompass.org.cn)线上测试中文测试集分数为56.9,英文测试集分数为59.8。
|
16 |
|
17 |
-
推理可以参考 [inference.py](https://github.com/bingwork/MMAlaya/blob/inference/inference.py)
|
|
|
|
|
|
|
|
|
|
|
1 |
# MMAlaya
|
2 |
MMAlaya是基于大语言模型[Alaya](https://github.com/DataCanvasIO/Alaya)的多模态模型。
|
3 |
|
4 |
MMAlaya包含以下三个模块:
|
5 |
<br>1,大语言模型Alaya。
|
6 |
+
<br>2,图像文本特征编码器来自[blip2-opt-2.7b](https://huggingface.co/Salesforce/blip2-opt-2.7b)的Qformer。
|
7 |
<br>3,图像文本特征到大预言模型的线性投影器。
|
8 |
|
9 |
模型的训练主要基于[LLaVA](https://github.com/haotian-liu/LLaVA)架构
|
10 |
|
11 |
2024.01.23 最终在[MMBench](https://mmbench.opencompass.org.cn)线上测试中文测试集分数为56.9,英文测试集分数为59.8。
|
12 |
|
13 |
+
推理可以参考 [inference.py](https://github.com/bingwork/MMAlaya/blob/inference/inference.py)
|