sections/intro.md · flax-community/spanish-image-captioning at 6c2a73b4adf946d9dfd1c062cc4cd36083c61432

This demo uses CLIP-Vision-Marian model checkpoint to predict caption for a given image in Spanish. Training was done using image encoder and text decoder with approximately 2.5 million image-text pairs taken from the Conceptual 12M dataset with captions translated using Marian.

For more details, click on Usage or Article 🤗 below.