lmms-lab
/

LLaVA-OneVision-1.5-8B-Instruct

Image-Text-to-Text

feature-extraction

Model card Files Files and versions

Metrics Training metrics Community

Yin-Xie commited on Sep 16

Commit

5351272

·

verified ·

1 Parent(s): cc55440

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ base_model:
 A family of fully open-source large multimodal models demonstrating **superior performance** across multiple multimodal benchmarks, **outperforming Qwen2.5-VL** in most evaluation tasks.
 2. **High-Quality Data at Scale**
-Meticulously curated **pre-training and SFT data** with rigorous filtering and quality control, achieving **superior data efficiency** with only **5B tokens** (1.2% of Qwen2.5-VL's training data).
 - Concept-balanced, highly diverse, high-quality caption data
 - Comprehensive instruction fine-tuning data covering a wide range of tasks
@@ -29,7 +29,7 @@ Complete end-to-end training framework designed for maximum efficiency:
 - Optimized codebase for cost-effective scaling
 4. **Fully Open Framework** for community access and reproducibility:
-- ✅ High-quality pre-training & SFT data
 - ✅ Complete training framework & code
 - ✅ Training recipes & configurations
 - ✅ Base & instruct model checkpoints
@@ -38,7 +38,7 @@ Complete end-to-end training framework designed for maximum efficiency:
 ## Dataset
 | Description | Link |
 |-------------|------|
-| Pretrain data for LLaVA-OneVision-1.5 | [🤗 Download (Uploading!)](https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M) |
 | SFT data for LLaVA-OneVision-1.5 | [🤗 Download (Uploading!)](https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Insturct-26M) |
 ## Evaluation Results

 A family of fully open-source large multimodal models demonstrating **superior performance** across multiple multimodal benchmarks, **outperforming Qwen2.5-VL** in most evaluation tasks.
 2. **High-Quality Data at Scale**
+Meticulously curated **mid-training and SFT data** with rigorous filtering and quality control, achieving **superior data efficiency** with only **5B tokens** (1.2% of Qwen2.5-VL's training data).
 - Concept-balanced, highly diverse, high-quality caption data
 - Comprehensive instruction fine-tuning data covering a wide range of tasks
 - Optimized codebase for cost-effective scaling
 4. **Fully Open Framework** for community access and reproducibility:
+- ✅ High-quality mid-training & SFT data
 - ✅ Complete training framework & code
 - ✅ Training recipes & configurations
 - ✅ Base & instruct model checkpoints
 ## Dataset
 | Description | Link |
 |-------------|------|
+| Mid-training data for LLaVA-OneVision-1.5 | [🤗 Download (Uploading!)](https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M) |
 | SFT data for LLaVA-OneVision-1.5 | [🤗 Download (Uploading!)](https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Insturct-26M) |
 ## Evaluation Results