Abdou
/

vit-swin-base-224-gpt2-image-captioning

vision-encoder-decoder

image-text-to-text

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

vit-swin-base-224-gpt2-image-captioning

2 contributors

History: 16 commits

Abdou's picture

SFconvertbot's picture

Adding `safetensors` variant of this model (#1)

e6a0e92 almost 2 years ago