sections/intro.md · flax-community/multilingual-image-captioning at 28fc71439efcd6aafc031cb423913ea19ba4decd

This demo uses CLIP-mBART50 model checkpoint to predict caption for a given image in 4 languages (English, French, German, Spanish). Training was done using image encoder (CLIP-ViT) and text decoder (mBART50) with approximately 5 million image-text pairs taken from the Conceptual 12M dataset translated using MarianMT.

For more details, click on Usage 🤗 above.