LangmyOCR / README.md
nanoapple's picture
Update README.md
e4d3eeb verified
metadata
title: LangmyOCR
emoji: 📄
colorFrom: indigo
colorTo: blue
sdk: docker
pinned: false

LangmyOCR 是一个基于 Streamlit 的简洁 Web 应用,允许用户上传最多 5 页的 PDF 文件(可为扫描件),自动进行 OCR 识别(使用 OCRmyPDF)并调用 LangExtract 执行结构化信息提取,适用于法律、医疗、评估等场景中的文档智能处理。

✨ 功能特色

  • 自动为 PDF 添加不可见文本图层(支持扫描件)
  • 中文 + 英文 OCR(Tesseract)
  • 使用 LangExtract 提取人名、角色、事件等结构化内容
  • JSON 结构化输出,支持下载
  • 免费部署,开源可复用

📦 技术栈

  • Python 3.10
  • Streamlit
  • OCRmyPDF
  • Tesseract OCR(支持 eng + chi_sim)
  • LangExtract(通过 Gemini API 或本地模型)

🔐 环境变量(可选)

如果使用 LangExtract 的 Gemini 模型,请在 Hugging Face 设置中添加 secret: