REILX commited on
Commit
3168b86
·
verified ·
1 Parent(s): 6fc5f98

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +103 -3
README.md CHANGED
@@ -1,3 +1,103 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - REILX/chinese-meme-description-dataset
5
+ - SWHL/ChineseOCRBench
6
+ - priyank-m/chinese_text_recognition
7
+ - fly0331/ChineseTest
8
+ - liuhaotian/LLaVA-Pretrain
9
+ - Lin-Chen/ShareGPT4V
10
+ - REILX/Chinese-Image-Text-Corpus-dataset
11
+ language:
12
+ - zh
13
+ pipeline_tag: image-text-to-text
14
+ tags:
15
+ - llava
16
+ - qwen2
17
+ - CLIP
18
+ - zh
19
+ ---
20
+
21
+ # llava-Qwen2-7B-Instruct-Chinese-CLIP-v3
22
+
23
+ <img src="./images/llava_qwen_2b_chinese-clip.jpg" alt="logo" width="300" height="300" style="display: block; margin: 0 auto;">
24
+
25
+ ## 模型简介
26
+
27
+ 本模型扩大了中文图文训练数据集,并改用 OFA-Sys/chinese-clip-vit-huge-patch14,增强了中文文字识别能力和图像识别能力。
28
+
29
+ ## 1. 模型结构
30
+
31
+ llava-Qwen2-7B-Instruct-Chinese-CLIP-v3 = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-huge-patch14
32
+
33
+ ## 2. 微调训练过程
34
+
35
+ 模型分三阶段训练,每次都对以下两模块进行微调:
36
+ - vision_tower 和 language_model 的 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj 模块进行 lora 训练
37
+ - mmp 层全量训练
38
+
39
+ ### 阶段1:
40
+
41
+ - **数据集**: REILX/chinese-meme-description-dataset、SWHL/ChineseOCRBench、priyank-m/chinese_text_recognition、fly0331/ChineseTest、liuhaotian/LLaVA-Pretrain、Lin-Chen/ShareGPT4V
42
+ - **微调参数**:
43
+ - lora_r=32, lora_alpha=64, num_train_epochs=2, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=1e-3, low_lr=2e-5, model_max_length=2048
44
+ - **设备**: 8 * A800
45
+ - **训练时长**: 84小时02分钟
46
+
47
+ ### 阶段2:
48
+
49
+ - **数据集**: REILX/Chinese-Image-Text-Corpus-dataset
50
+ - **微调参数**:
51
+ - lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
52
+ - **设备**: 8 * A800
53
+ - **训练时长**: 36小时56分钟
54
+
55
+ ### 阶段3:
56
+
57
+ - **数据集**: REILX/chinese-meme-description-dataset 中的 ChineseBQB-Claude-3-5-sonnet-20240620.jsonl 和 emo-visual-data-Claude-3-5-sonnet-20240620.jsonl,仅使用质量最高的 Claude-3-5-sonnet-20240620 模型输出进行最后的微调
58
+ - **微调参数**:
59
+ - lora_r=32, lora_alpha=64, num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, high_lr=5e-4, low_lr=1e-5, model_max_length=2048
60
+ - **设备**: 8 * A800
61
+ - **训练时长**: 1小时04分钟
62
+
63
+ **3阶段共耗时**: 122小时
64
+
65
+ ## 3. 数据集
66
+
67
+ ### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP
68
+ - 图像总大小: 1.8G
69
+ - 图片数量: 约10,835张中文表情包图片
70
+ - 文字总量: 41.6Mb
71
+ - 图像文本对: 约24,332个描述信息
72
+
73
+ ### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v2
74
+ #### 阶段1:
75
+ - 图像总大小: 4.45G
76
+ - 图片数量: 约520,492张
77
+ - 文字总量: 249.93Mb
78
+ - 图像文本对: 约533,989个描述信息
79
+
80
+ #### 阶段2:
81
+ - 图像总大小: 1.8G
82
+ - 图片数量: 约10,835张中文表情包图片
83
+ - 文字总量: 57.34Mb
84
+ - 图像文本对: 约33,762个描述信息
85
+
86
+ ### REILX/llava-Qwen2-7B-Instruct-Chinese-CLIP-v3
87
+ #### 阶段1:
88
+ - 图像总大小: 41G
89
+ - 图片数量: 约1,056,501张
90
+ - 文字总量: 487.82Mb
91
+ - 图像文本对: 约1,112,369个描述信息
92
+
93
+ #### 阶段2:
94
+ - 图像总大小: 1.5G
95
+ - 图片数量: 约325,503张
96
+ - 文字总量: 107.79Mb
97
+ - 图像文本对: 约325,503个描述信息
98
+
99
+ #### 阶段3:
100
+ - 图像总大小: 1.8G
101
+ - 图片数量: 约10,835张
102
+ - 文字总量: 15.28Mb
103
+ - 图像文本对: 约9,430个描述信息