Spaces:

ignaciaginting
/

extract_from_doc

Build error

App Files Files Community

extract_from_doc / PDF-Extract-Kit /docs /zh_cn /project /pdf_extract.rst

ignaciaginting

Upload 396 files

230c9a6 verified 13 days ago

raw

history blame contribute delete

4.13 kB

	=================
	文档内容提取项目
	=================

	简介
	====================

	文档内容提取是利用布局检测，公式检测，公式识别，OCR等模型，提取文档中的信息，并转换为markdown文本。


	项目使用
	====================

	在配置好环境的情况下，直接执行 ``project/pdf2markdown/scripts/run_project.py`` 即可运行文档内容提取项目。

	.. code:: shell

	$ python project/pdf2markdown/scripts/run_project.py --config project/pdf2markdown/configs/pdf2markdown.yaml


	项目配置
	--------------------

	.. code:: yaml

	inputs: assets/demo/formula_detection
	outputs: outputs/pdf2markdown
	visualize: True
	merge2markdown: True
	tasks:
	layout_detection:
	model: layout_detection_yolo
	model_config:
	img_size: 1024
	conf_thres: 0.25
	iou_thres: 0.45
	model_path: models/Layout/YOLO/doclayout_yolo_ft.pt
	formula_detection:
	model: formula_detection_yolo
	model_config:
	img_size: 1280
	conf_thres: 0.25
	iou_thres: 0.45
	batch_size: 1
	model_path: models/MFD/YOLO/yolo_v8_ft.pt
	formula_recognition:
	model: formula_recognition_unimernet
	model_config:
	batch_size: 128
	cfg_path: pdf_extract_kit/configs/unimernet.yaml
	model_path: models/MFR/unimernet_tiny
	ocr:
	model: ocr_ppocr
	model_config:
	lang: ch
	show_log: True
	det_model_dir: models/OCR/PaddleOCR/det/ch_PP-OCRv4_det
	rec_model_dir: models/OCR/PaddleOCR/rec/ch_PP-OCRv4_rec
	det_db_box_thresh: 0.3

	- inputs/outputs: 分别定义输入文件路径和输出路径
	- visualize: 是否对模型结果进行可视化，可视化结果会保存在outputs目录下。
	- merge2markdown: 是否将结果合并为markdown文档，这里只支持简单的单栏文本从上往下进行拼接，更复杂布局文档的markdown转换请参考 `MinerU <https://github.com/opendatalab/MinerU>`_
	- tasks: 定义任务类型，PDF文档提取包含了布局检测、公式检测、公式识别、OCR等任务
	- 具体每个任务和模型的参数含义请参考各任务的教程文档


	多样化输入支持
	--------------------

	PDF文档内容提取支持 ``单个图像/PDF文件`` 、 ``包含图像/PDF文件的目录`` 等输入形式。


	输出结果
	--------------------

	PDF文档提取的结果以json形式保存在 ``outputs`` 路径下，json的格式如下所示：

	.. code:: json

	[
	{
	"layout_dets": [
	{
	"category_type": "text",
	"poly": [
	380.6792698635707,
	159.85058512958923,
	765.1419999999998,
	159.85058512958923,
	765.1419999999998,
	192.51073013642917,
	380.6792698635707,
	192.51073013642917
	],
	"text": "this is an example text",
	"score": 0.97
	},
	...
	],
	"page_info": {
	"page_no": 0,
	"height": 2339,
	"width": 1654,
	}
	},
	...
	]

	- layout_dets: 单页PDF或图片的内容提取结果
	- category_type: 单个内容块的所属内别，比如标题、图片、行内公式等等
	- poly: 单个内容块的位置坐标
	- text: 该文本块的文本内容
	- score: 检测的置信度
	- page_info: 页面信息，包含页码和页面尺寸
	- page_no: 页码，从0开始计数
	- height: 页面尺寸: 高
	- width: 页面尺寸: 宽

	如果 ``merge2markdown`` 参数为True的话，则会额外保存一个markdown文件。