File size: 1,759 Bytes
62e5199 c135d9e 62e5199 c135d9e 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 8afa9a1 62e5199 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 |
---
language:
- zh
- en
license: apache-2.0
library_name: transformers
pipeline_tag: feature-extraction
tags:
- pdf-to-markdown
- feature-extraction
---
# MinerU PDF to Markdown Model
这个模型可以将PDF文档转换为Markdown格式。
## Model Description
MinerU使用多模型组合架构:
- Layout: 文档布局分析 (Detectron2)
- MFD: 数学公式检测 (PyTorch)
- MFR: 数学公式识别 (BERT-based)
- TabRec: 表格识别与重建 (T5-based)
## Intended Uses
本模型用于将PDF文档自动转换为Markdown格式,支持:
- 文本布局分析
- 数学公式识别
- 表格结构重建
## Usage
```python
from transformers import pipeline
converter = pipeline("document-conversion", model="kitjesen/MinerU")
markdown = converter("document.pdf")
```
## Limitations and Bias
- 最大支持页数:100页
- PDF文件大小限制:50MB
- 支持语言:中文、英文
## Training Data
模型使用以下数据训练:
- 学术论文数据集
- 教材文档数据集
- 技术文档数据集
## Training Procedure
使用多阶段训练流程:
1. 预训练各个子模型
2. 联合训练优化
3. 端到端微调
## Evaluation Results
- 文本识别准确率:95%
- 公式识别准确率:90%
- 表格重建准确率:85%
## Environmental Impact
- 硬件要求:GPU with 8GB+ VRAM
- 推理时间:~2s/页
## Technical Specifications
**Model Architecture**
- Layout: Detectron2 (FasterRCNN)
- MFD: Custom CNN
- MFR: BERT-based
- TabRec: T5-based
**Hardware Requirements**
- RAM: 16GB+
- GPU: 8GB+ VRAM
- Storage: 5GB
**Software Requirements**
- Python >= 3.7
- PyTorch >= 1.9.0
- transformers >= 4.28.0
- detectron2 |