Multimodal - a pranay-j Collection

pranay-j 's Collections

LLM_architectures

NLP Parameter Efficient Finetuning

Text to Speech Architectures

Automatic Speech Recognition Architectures

graident optimization

Memory efficient training

Instruction tuning datasets

Language Model Pretraining Dataset

reward model dataset

positional encoding Language models

Domain adaption of dense retrieval

Datasets: For training Embedding Models

audio-language-model-architecture

Multimodal

updated Nov 6

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Paper • 2403.09611 • Published Mar 14 • 124
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Paper • 2306.16527 • Published Jun 21, 2023 • 47
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Paper • 2404.12387 • Published Apr 18 • 38
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

Paper • 2404.16790 • Published Apr 25 • 7
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Paper • 2407.08083 • Published Jul 10 • 27
PaLI: A Jointly-Scaled Multilingual Language-Image Model

Paper • 2209.06794 • Published Sep 14, 2022 • 2
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Paper • 2410.13848 • Published Oct 17 • 30
Aria: An Open Multimodal Native Mixture-of-Experts Model

Paper • 2410.05993 • Published Oct 8 • 107
Roadmap towards Superhuman Speech Understanding using Large Language Models

Paper • 2410.13268 • Published Oct 17 • 33
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Paper • 2410.11190 • Published Oct 15 • 20
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Paper • 2408.16725 • Published Aug 29 • 52