metadata
title: LangmyOCR
emoji: 📄
colorFrom: indigo
colorTo: blue
sdk: docker
pinned: false
LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用,允许用户上传最多 5 页的 PDF 文件(可为扫描件),自动进行 OCR 识别(使用 OCRmyPDF)并调用 LangExtract 执行结构化信息提取,适用于法律、医疗、评估等场景中的文档智能处理。
✨ 功能特色
- 自动为 PDF 添加不可见文本图层(支持扫描件)
- 中文 + 英文 OCR(Tesseract)
- 使用 LangExtract 提取人名、角色、事件等结构化内容
- JSON 结构化输出,支持下载
- 免费部署,开源可复用
📦 技术栈
- Python 3.10
- Streamlit
- OCRmyPDF
- Tesseract OCR(支持 eng + chi_sim)
- LangExtract(通过 Gemini API 或本地模型)
🔐 环境变量(可选)
如果使用 LangExtract 的 Gemini 模型,请在 Hugging Face 设置中添加 secret: