Vision-Language Modeling - a deepvk Collection

deepvk 's Collections

Sentence Encoders

Vision-Language Modeling

Vision-Language Modeling

updated Nov 25, 2024

Our datasets and models for Visual-Language Modeling

deepvk/llava-saiga-8b

Image-Text-to-Text • Updated Aug 13, 2024 • 113 • 14

Note VLM model based on Saiga-8b and tuned in LLaVA setup
deepvk/llava-gemma-2b-lora

Image-Text-to-Text • Updated Aug 13, 2024 • 93 • 8

Note VLM model based on Gemma-2b and tuned with LoRA in LLaVA setup
deepvk/LLaVA-Instruct-ru

Viewer • Updated May 22, 2024 • 144k • 70 • 8

Note GPT-based instruction dataset for LLaVA-style training
deepvk/GQA-ru

Viewer • Updated Aug 14, 2024 • 80.1k • 63 • 5

Note Translated version of GQA benchmark
deepvk/MMBench-ru

Viewer • Updated Aug 14, 2024 • 3.91k • 1k • 6

Note Translated version of MMBench benchmark