[English](./README.md) | 简体中文 # *Deep*Doc - [*Deep*Doc](#deepdoc) - [1. 介绍](#1-介绍) - [2. 视觉处理](#2-视觉处理) - [3. 解析器](#3-解析器) - [简历](#简历) ## 1. 介绍 对于来自不同领域、具有不同格式和不同检索要求的大量文档,准确的分析成为一项极具挑战性的任务。*Deep*Doc 就是为了这个目的而诞生的。到目前为止,*Deep*Doc 中有两个组成部分:视觉处理和解析器。如果您对我们的OCR、布局识别和TSR结果感兴趣,您可以运行下面的测试程序。 ```bash python deepdoc/vision/t_ocr.py -h usage: t_ocr.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR] options: -h, --help show this help message and exit --inputs INPUTS Directory where to store images or PDFs, or a file path to a single image or PDF --output_dir OUTPUT_DIR Directory where to store the output images. Default: './ocr_outputs' ``` ```bash python deepdoc/vision/t_recognizer.py -h usage: t_recognizer.py [-h] --inputs INPUTS [--output_dir OUTPUT_DIR] [--threshold THRESHOLD] [--mode {layout,tsr}] options: -h, --help show this help message and exit --inputs INPUTS Directory where to store images or PDFs, or a file path to a single image or PDF --output_dir OUTPUT_DIR Directory where to store the output images. Default: './layouts_outputs' --threshold THRESHOLD A threshold to filter out detections. Default: 0.5 --mode {layout,tsr} Task mode: layout recognition or table structure recognition ``` HuggingFace为我们的模型提供服务。如果你在下载HuggingFace模型时遇到问题,这可能会有所帮助!! ```bash export HF_ENDPOINT=https://hf-mirror.com ``` ## 2. 视觉处理 作为人类,我们使用视觉信息来解决问题。 - **OCR(Optical Character Recognition,光学字符识别)**。由于许多文档都是以图像形式呈现的,或者至少能够转换为图像,因此OCR是文本提取的一个非常重要、基本,甚至通用的解决方案。 ```bash python deepdoc/vision/t_ocr.py --inputs=path_to_images_or_pdfs --output_dir=path_to_store_result ``` 输入可以是图像或PDF的目录,或者单个图像、PDF文件。您可以查看文件夹 `path_to_store_result` ,其中有演示结果位置的图像,以及包含OCR文本的txt文件。