Visual instruction datasets for visual language models

VictorSanh 's Collections

updated Nov 21, 2023

Collections of multimodal (image+text) instruction finetuning datasets tailored for visual language models like LlaVA, Fuyu, or IDEFICS.