yuanzhoulvpi
/

vit-gpt2-image-chinese-captioning

Image-Text-to-Text

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

yuanzhoulvpi commited on Mar 2, 2023

Commit

b10bfb6

·

1 Parent(s): 1da63f7

Update README.md

Files changed (1) hide show

README.md +16 -0

README.md CHANGED Viewed

@@ -6,6 +6,22 @@ tags:
 - gpt2
 - vit
 ---

 - gpt2
 - vit
 ---
+# 模型介绍
+![](https://ankur3107.github.io/assets/images/vision-encoder-decoder.png)
+1. vit对图像做encoder，然后再用gpt2做decoder
+2. vit模型使用的是`google/vit-base-patch16-224`, gpt2使用的是`yuanzhoulvpi/gpt2_chinese`
+3. 本模型支持中文
+# 训练代码
+[https://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/vit-gpt2-image-chinese-captioning](https://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/vit-gpt2-image-chinese-captioning)