Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,103 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
datasets:
|
4 |
+
- REILX/chinese-meme-description-dataset
|
5 |
+
- SWHL/ChineseOCRBench
|
6 |
+
- priyank-m/chinese_text_recognition
|
7 |
+
- fly0331/ChineseTest
|
8 |
+
- liuhaotian/LLaVA-Pretrain
|
9 |
+
- Lin-Chen/ShareGPT4V
|
10 |
+
- REILX/Chinese-Image-Text-Corpus-dataset
|
11 |
+
language:
|
12 |
+
- zh
|
13 |
+
pipeline_tag: image-text-to-text
|
14 |
+
tags:
|
15 |
+
- llava
|
16 |
+
- qwen2
|
17 |
+
- CLIP
|
18 |
+
- zh
|
19 |
+
---
|
20 |
+
|
21 |
+
# llava-Qwen2-7B-Instruct-Chinese-CLIP-v3
|
22 |
+
|
23 |
+
<img src="./images/llava_qwen_2b_chinese-clip.jpg" alt="logo" width="300" height="300" style="display: block; margin: 0 auto;">
|
24 |
+
|
25 |
+
## 模型简介
|
26 |
+
|
27 |
+
本模型扩大了中文图文训练数据集,并改用 OFA-Sys/chinese-clip-vit-huge-patch14,增强了中文文字识别能力和图像识别能力。
|
28 |
+
|
29 |
+
## 1. 模型结构
|
30 |
+
|
31 |
+
llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-huge-patch14
|
32 |
+
|
33 |
+
## 2. 微调训练过程
|
34 |
+
|
35 |
+
模型分三阶段训练,每次都对以下两模块进行微调:
|
36 |
+
- vision_tower 和 language_model 的 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj 模块进行 lora 训练
|
37 |
+
- mmp 层全量训练
|
38 |
+
|
39 |
+
### 阶段1:
|
40 |
+
|
41 |
+
- **数据集**: REILX/chinese-meme-description-dataset、SWHL/ChineseOCRBench、priyank-m/chinese_text_recognition、fly0331/ChineseTest、liuhaotian/LLaVA-Pretrain、Lin-Chen/ShareGPT4V
|
42 |
+
- **微调参数**:
|
43 |
+
- lora_r=32, lora_alpha=64, num_train_epochs=2, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=1e-3, low_lr=2e-5, model_max_length=2048
|
44 |
+
- **设备**: 8 * A800
|
45 |
+
- **训练时长**: 84小时02分钟
|
46 |
+
|
47 |
+
### 阶段2:
|
48 |
+
|
49 |
+
- **数据集**: REILX/Chinese-Image-Text-Corpus-dataset
|
50 |
+
- **微调参数**:
|
51 |
+
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
|
52 |
+
- **设备**: 8 * A800
|
53 |
+
- **训练时长**: 36小时56分钟
|
54 |
+
|
55 |
+
### 阶段3:
|
56 |
+
|
57 |
+
- **数据集**: REILX/chinese-meme-description-dataset 中的 ChineseBQB-Claude-3-5-sonnet-20240620.jsonl 和 emo-visual-data-Claude-3-5-sonnet-20240620.jsonl,仅使用质量最高的 Claude-3-5-sonnet-20240620 模型输出进行最后的微调
|
58 |
+
- **微调参数**:
|
59 |
+
- lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
|
60 |
+
- **设备**: 8 * A800
|
61 |
+
- **训练时长**: 1小时04分钟
|
62 |
+
|
63 |
+
**3阶段共耗时**: 122小时
|
64 |
+
|
65 |
+
## 3. 数据集
|
66 |
+
|
67 |
+
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP
|
68 |
+
- 图像总大小: 1.8G
|
69 |
+
- 图片数量: 约10,835张中文表情包图片
|
70 |
+
- 文字总量: 41.6Mb
|
71 |
+
- 图像文本对: 约24,332个描述信息
|
72 |
+
|
73 |
+
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v2
|
74 |
+
#### 阶段1:
|
75 |
+
- 图像总大小: 4.45G
|
76 |
+
- 图片数量: 约520,492张
|
77 |
+
- 文字总量: 249.93Mb
|
78 |
+
- 图像文本对: 约533,989个描述信息
|
79 |
+
|
80 |
+
#### 阶段2:
|
81 |
+
- 图像总大小: 1.8G
|
82 |
+
- 图片数量: 约10,835张中文表情包图片
|
83 |
+
- 文字总量: 57.34Mb
|
84 |
+
- 图像文本对: 约33,762个描述信息
|
85 |
+
|
86 |
+
### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3
|
87 |
+
#### 阶段1:
|
88 |
+
- 图像总大小: 41G
|
89 |
+
- 图片数量: 约1,056,501张
|
90 |
+
- 文字总量: 487.82Mb
|
91 |
+
- 图像文本对: 约1,112,369个描述信息
|
92 |
+
|
93 |
+
#### 阶段2:
|
94 |
+
- 图像总大小: 1.5G
|
95 |
+
- 图片数量: 约325,503张
|
96 |
+
- 文字总量: 107.79Mb
|
97 |
+
- 图像文本对: 约325,503个描述信息
|
98 |
+
|
99 |
+
#### 阶段3:
|
100 |
+
- 图像总大小: 1.8G
|
101 |
+
- 图片数量: 约10,835张
|
102 |
+
- 文字总量: 15.28Mb
|
103 |
+
- 图像文本对: 约9,430个描述信息
|