Multimodal RAG - a merve Collection

merve 's Collections

Nov 15 Releases 🍂

MIT Talk 31/10 Papers

October 25 Releases

New Depth Models

BRAVE Models 🦁

Computer Vision Backbones 🧩

Image Classification Models 🐶 🐱

Object Detection Models 🥥

Image Segmentation Models 💜

Zero-shot Image Classification Models 🖼️

Image-to-Image Models 🎨

Video Classification Models 📺

Image-to-Text Models 📝

Text-to-Image Models 🥑

Foundation Models for Vision 🧩

Segment Anything Model

OWL-series 🦉

SigLIP

Awesome Document AI

SegGPT

Vision Language Models Papers 🖼️💬📝

Depth Anything v2 Release

Document VLM Papers

Vision Language Leaderboards

Video Language Models

SAM2

NVEagle

Zero-shot Segmentation

Multimodal RAG

updated Sep 5