Upload 6 files

Files changed (6) hide show

README.md CHANGED Viewed

@@ -1,3 +1,38 @@
----
-license: apache-2.0
----

+# MinerU PDF to Markdown Model
+这个模型可以将PDF文档转换为Markdown格式。
+## 模型架构
+MinerU使用多模型组合架构：
+- Layout: 文档布局分析
+- MFD: 数学公式检测
+- MFR: 数学公式识别
+- TabRec: 表格识别与重建
+## 使用方法
+```python
+from transformers import pipeline
+# 初始化转换器
+converter = pipeline("pdf-to-markdown", model="your-username/MinerU")
+# 转换PDF文件
+markdown = converter("document.pdf")
+```
+## 模型信息
+- 任务: PDF到Markdown转换
+- 框架: PyTorch
+- 许可: Apache 2.0
+## 系统要求
+- Python >= 3.7
+- PyTorch >= 1.9.0
+- transformers >= 4.28.0
+- detectron2
+## 限制说明
+- 支持的最大页数: XX页
+- 支持的PDF最大大小: XX MB
+- 支持的语言: 中文、英文

app.py ADDED Viewed

	@@ -0,0 +1 @@


1	+

config.json ADDED Viewed

+{
+  "architectures": ["MinerUModel"],
+  "model_type": "mineru",
+  "framework": "pytorch",
+  "task": "document-conversion",
+  "pipeline_tag": "document-conversion",
+  "submodels": {
+    "layout": {
+      "type": "detectron2",
+      "path": "models/Layout/model_final.pth",
+      "config": "models/Layout/config.json"
+    },
+    "formula_detection": {
+      "type": "pytorch",
+      "path": "models/MFD/weights.pt"
+    },
+    "formula_recognition": {
+      "type": "transformers",
+      "path": "models/MFR/UniMERNet",
+      "model_type": "bert"
+    },
+    "table_recognition": {
+      "type": "transformers",
+      "path": "models/TabRec/StructEqTable",
+      "model_type": "t5"
+    }
+  }
+}

metadata.json ADDED Viewed

+{
+  "language": ["zh", "en"],
+  "license": "apache-2.0",
+  "tags": ["document-conversion", "pdf-to-markdown"],
+  "pipeline_tag": "document-conversion"
+}

model_loader.py ADDED Viewed

+import torch
+from transformers import AutoModel, AutoTokenizer
+from detectron2.config import get_cfg
+from detectron2.engine import DefaultPredictor
+import os
+class MinerUModelLoader:
+    @staticmethod
+    def load_models(base_path):
+        models = {}
+        # Layout模型加载
+        cfg = get_cfg()
+        cfg.merge_from_file(os.path.join(base_path, "models/Layout/config.json"))
+        cfg.MODEL.WEIGHTS = os.path.join(base_path, "models/Layout/model_final.pth")
+        models["layout"] = DefaultPredictor(cfg)
+        # 公式检测模型
+        models["formula_detector"] = torch.load(os.path.join(base_path, "models/MFD/weights.pt"))
+        # 公式识别模型
+        models["formula_recognizer"] = AutoModel.from_pretrained(
+            os.path.join(base_path, "models/MFR/UniMERNet")
+        )
+        # 表格识别模型
+        models["table_recognizer"] = AutoModel.from_pretrained(
+            os.path.join(base_path, "models/TabRec/StructEqTable")
+        )
+        return models

requirements.txt ADDED Viewed

+transformers>=4.28.0
+torch>=1.9.0
+PyMuPDF
+detectron2
+numpy
+opencv-python
+pandas