Khang Doan's picture

Khang Doan

KhangHatto

·

AI & ML interests

None yet

Recent Activity

liked a dataset about 21 hours ago

CohereForAI/AyaVisionBench

liked a Space 4 days ago

lmms-lab/Multimodal-SAE

liked a Space 5 days ago

multimodalart/LLaDA

View all activity

Organizations

KhangHatto's activity

upvoted a paper 18 days ago

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published 26 days ago • 130

upvoted 2 papers 3 months ago

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Paper • 2412.05271 • Published Dec 6, 2024 • 138

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Paper • 2412.05237 • Published Dec 6, 2024 • 47

upvoted a paper 4 months ago

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Paper • 2411.10440 • Published Nov 15, 2024 • 115

upvoted a paper 7 months ago

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Paper • 2408.12480 • Published Aug 22, 2024 • 23

upvoted a collection 7 months ago

InternVL2.0

Expanding Performance Boundaries of Open-Source MLLM • 15 items • Updated Jan 10 • 91

upvoted 2 collections 8 months ago

ViHateT5 - Vietnamese Hate Speech Detection with T5

5 items • Updated Jul 16, 2024 • 3

LLaVA - Visual Question Answering

35 items • Updated Jan 27 • 9