shwu commited on
Commit
35e0244
1 Parent(s): 769e287

docs: add demos

Browse files
Files changed (4) hide show
  1. README.md +10 -5
  2. imgs/demo1.png +0 -0
  3. imgs/demo2.png +0 -0
  4. imgs/demo3.png +0 -0
README.md CHANGED
@@ -13,7 +13,10 @@ tags:
13
 
14
  ### Model Description
15
 
16
- blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。
 
 
 
17
 
18
  - **blip2 base model**: [bert-base-chinese](https://huggingface.co/bert-base-chinese)
19
  - **Vision encoder**: eva-clip-vit-g
@@ -27,7 +30,7 @@ blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。
27
 
28
  ## Uses
29
 
30
- 模型参数包含了图像编码器和blip2,但是不包含chatglm的参数,需要事先下载[chatglm](https://huggingface.co/THUDM/chatglm-6b)([commit](https://huggingface.co/THUDM/chatglm-6b/commit/9324de70a93207c9a310cf99d5d6261791489691))并安装其对应的依赖。
31
 
32
  加载模型及推理可以参考[api](https://github.com/XiPotatonium/chatbot-api/blob/main/src/model/blip2chatglm/__init__.py)的实现
33
 
@@ -43,7 +46,7 @@ blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。
43
 
44
  ### Training Data
45
 
46
- * [laion-2b-chinese](https://huggingface.co/datasets/IDEA-CCNL/laion2B-multi-chinese-subset): 我们仅选取了其中clip分数较高的670k图文对。
47
  * [coco-zh](https://github.com/li-xirong/coco-cn)
48
  * [flickr8k-zh](http://lixirong.net/datasets/flickr8kcn)
49
 
@@ -51,6 +54,8 @@ blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。
51
 
52
  基于blip2的两阶段训练方法
53
 
54
- ## Evaluation
55
 
56
- TODO
 
 
 
13
 
14
  ### Model Description
15
 
16
+ blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。具有基本的图像理解能力。
17
+ 由于blip2的训练方式不会对语言模型进行微调,因此在纯文本对话中的行为可以保持和原始chatglm一致。
18
+
19
+ 注意:由于目前模型仅经过blip2两阶段图文对齐预训练,没有包括vqa或者指令微调等具体下游任务的训练,因此依然容易生成不符合预期的内容。
20
 
21
  - **blip2 base model**: [bert-base-chinese](https://huggingface.co/bert-base-chinese)
22
  - **Vision encoder**: eva-clip-vit-g
 
30
 
31
  ## Uses
32
 
33
+ 模型参数包含了图像编码器,blip2chatglm-6b
34
 
35
  加载模型及推理可以参考[api](https://github.com/XiPotatonium/chatbot-api/blob/main/src/model/blip2chatglm/__init__.py)的实现
36
 
 
46
 
47
  ### Training Data
48
 
49
+ * [laion-2b-chinese](https://huggingface.co/datasets/IDEA-CCNL/laion2B-multi-chinese-subset): 我们仅选取了其中clip分数较高的670k图文对并采样了部分数据进行训练。
50
  * [coco-zh](https://github.com/li-xirong/coco-cn)
51
  * [flickr8k-zh](http://lixirong.net/datasets/flickr8kcn)
52
 
 
54
 
55
  基于blip2的两阶段训练方法
56
 
57
+ ## Demos
58
 
59
+ ![](imgs/demo1.png)
60
+ ![](imgs/demo2.png)
61
+ ![](imgs/demo3.png)
imgs/demo1.png ADDED
imgs/demo2.png ADDED
imgs/demo3.png ADDED