metadata
language:
- zh
- en
tags:
- chatglm
- blip2
Model Card for {{ model_id | default("Model ID", true) }}
Model Details
Model Description
blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。
- blip2 base model bert-base-chinese
- Vision encoder eva-clip-vit-g
- Language model chatglm-6b
Model Sources
- Training Code: blip2训练代码,基于LAVIS
- webui: 一个由gradio实现的webui
- api: 一个由fastapi实现的api服务,可以部署在本地,同时也支持一些其他类型的本地可部署语言模型。
Uses
模型参数不包含chatglm的参数,需要事先下载chatglm并安装其对应的依赖。
加载模型及推理可以参考api的实现
一些example
Limitations
受限于中文数据集,目前图像理解能力依然有限,会产生无关或者错误的内容。 目前没有引入多轮对话训练以及指令微调。多轮对话可能会受到上下文的干扰。 并且同样受限于chatglm-6b本身的对话效果。
Training Details
Training Data
- laion-2b-chinese: 我们仅选取了其中clip分数较高的670k图文对。
- coco-zh
- flickr8k-zh
Training Procedure
基于blip2的两阶段训练方法
Evaluation
TODO