# 360LayoutAnalysis [English](./README_EN.md) ## 一、背景 在当今数字化时代,**文档版式分析**是信息提取和文档理解的关键步骤之一。文档版式分析,也称为文档图像分析或文档布局分析,是指从扫描的文档图像中识别和提取文本、图像、表格和其他元素的过程。这项技术在自动化文档处理、电子数据交换、历史文档数字化等领域有着广泛的应用。传统的文档版式分析模型往往难以准确区分文档中的段落和其他布局元素,这限制了文档信息的进一步处理和利用。深度学习和模式识别技术的发展为文档版式分析带来了新的机遇。通过训练数据集,可以提高模型对文档结构的理解能力。高质量的标注数据集是训练有效模型的基础。在文档版式分析中,精细化的标注非常有必要,其中:**段落**的标注尤其关键,因为它直接影响到文本的语义理解和信息提取。 我们团队针对不同场景,构建了多个含有段落标注的中文文档数据集,这包括了**不同类型的文档**,以确保模型的泛化能力。例如:在**论文**场景中,以往的开源数据集如:CDLA(A Chinese document layout analysis),缺乏对段落信息的标注;在**研报**场景中,我们弥补了对于研报场景的空白。利用这些标注数据集,训练了多个全新的中文文档版式分析模型。这个模型旨在能够识别文档中的段落边界,并准确区分文本、图像、表格、公式等其他元素。 本次,我们开源了论文场景和研报场景的版面分析模型权重及相应的标签体系。 ## 二、使用 - 权重下载地址:[🤗LINK](https://huggingface.co/qihoo360) - 使用方式: 开源权重使用`yolov8`进行训练,预测方式如下: ```python from ultralytics import YOLO image_path = '' # 待预测图片路径 model_path = '' # 权重路径 model = YOLO(model_path) result = model(image_path, save=True, conf=0.5, save_crop=False, line_width=2) print(result) ``` ## 三、版面分析 ### 3.1 论文场景 - 标签类别 | 元素 | 名称 | | -------------- | ------------ | | Text | 正文(段落) | | Title | 标题 | | Figure | 图片 | | Figure caption | 图片标题 | | Table | 表格 | | Table caption | 表格标题 | | Header | 页眉 | | Footer | 页脚 | | Reference | 注释 | | Equation | 公式 | - 示例