Spaces:

nanoapple
/

LangmyOCR

Sleeping

App Files Files Community

LangmyOCR / README.md

nanoapple's picture

Update README.md

e4d3eeb verified 29 days ago

|

history blame contribute delete

936 Bytes

metadata

title: LangmyOCR
emoji: 📄
colorFrom: indigo
colorTo: blue
sdk: docker
pinned: false

LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用，允许用户上传最多 5 页的 PDF 文件（可为扫描件），自动进行 OCR 识别（使用 OCRmyPDF）并调用 LangExtract 执行结构化信息提取，适用于法律、医疗、评估等场景中的文档智能处理。

✨ 功能特色

自动为 PDF 添加不可见文本图层（支持扫描件）
中文 + 英文 OCR（Tesseract）
使用 LangExtract 提取人名、角色、事件等结构化内容
JSON 结构化输出，支持下载
免费部署，开源可复用

📦 技术栈

Python 3.10
Streamlit
OCRmyPDF
Tesseract OCR（支持 eng + chi_sim）
LangExtract（通过 Gemini API 或本地模型）

🔐 环境变量（可选）

如果使用 LangExtract 的 Gemini 模型，请在 Hugging Face 设置中添加 secret：