Abdou
/

vit-swin-base-224-gpt2-image-captioning

vision-encoder-decoder

image-text-to-text

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

vit-swin-base-224-gpt2-image-captioning

2 contributors

History: 16 commits

SFconvertbot's picture

Adding `safetensors` variant of this model

1e1565d over 1 year ago