Spaces:

nanoapple
/

LangmyOCR

Sleeping

File size: 11,998 Bytes

import os
import json
import tempfile
import subprocess
from pathlib import Path

# 统一把 HOME 指到 /tmp
os.environ["HOME"] = "/tmp"
Path("/tmp").mkdir(parents=True, exist_ok=True)

# 再确保所有 streamlit 相关路径也指向 /tmp
os.environ["XDG_CACHE_HOME"] = "/tmp"
os.environ["STREAMLIT_CACHE_DIR"] = "/tmp"
os.environ["STREAMLIT_GLOBAL_DATA_DIR"] = "/tmp"
os.environ["STREAMLIT_RUNTIME_DIR"] = "/tmp"
os.environ["STREAMLIT_CONFIG_DIR"] = "/tmp/.streamlit"
Path("/tmp/.streamlit").mkdir(parents=True, exist_ok=True)

# 可选：关掉使用统计
os.environ["STREAMLIT_BROWSER_GATHER_USAGE_STATS"] = "false"
os.environ.setdefault("STREAMLIT_SERVER_ENABLE_CORS", "false")
os.environ.setdefault("STREAMLIT_SERVER_ENABLE_XSRF_PROTECTION", "false")

import streamlit as st
import langextract as lx  # pip: langextract[openai]

# 你的原始页面设置
st.set_page_config(page_title="LangmyOCR (Streamlit)", layout="wide")
st.title("LangmyOCR: OCRmyPDF + LangExtract (Streamlit Demo)")
st.caption("先 OCR，后（可选）结构化抽取与交互式复核。数据仅用于会话处理。")

# ---------------- Utilities ----------------
def has_bin(name: str) -> bool:
    return subprocess.run(["bash", "-lc", f"command -v {name} >/dev/null 2>&1"]).returncode == 0

def run_ocr(pdf_file, langs: str, rotate_pages: bool, deskew: bool, clean: bool,
            optimize_level: int, force_ocr: bool, skip_text: bool, export_sidecar: bool):
    if pdf_file is None:
        st.error("请先上传 PDF。")
        return None, None, None

    if not has_bin("ocrmypdf"):
        st.error("系统未检测到 ocrmypdf，可检查 Docker/依赖安装。")
        return None, None, None

    # 修复：重置文件指针到开头，然后读取内容
    try:
        pdf_file.seek(0)  # 重置文件指针
        pdf_content = pdf_file.read()
        if not pdf_content:
            st.error("PDF 文件内容为空。")
            return None, None, None
    except Exception as e:
        st.error(f"读取 PDF 文件失败：{e}")
        return None, None, None

    # 保存上传文件到临时路径
    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp:
        tmp.write(pdf_content)  # 使用读取到的内容
        in_path = Path(tmp.name)

    work = Path(tempfile.mkdtemp(prefix="ocr_"))
    out_pdf = work / "output_ocr.pdf"
    sidecar = work / "out.txt"

    cmd = ["ocrmypdf", "-l", langs, str(in_path), str(out_pdf)]
    # 选项（插入到命令靠前位置，保持可读）
    if rotate_pages: cmd.insert(1, "--rotate-pages")
    if deskew:       cmd.insert(1, "--deskew")
    if clean:        cmd.insert(1, "--clean")
    cmd[1:1] = ["--optimize", str(optimize_level)]
    if skip_text:    cmd.insert(1, "--skip-text")
    if force_ocr:    cmd.insert(1, "--force-ocr")
    if export_sidecar: cmd[1:1] = ["--sidecar", str(sidecar)]
    cmd[1:1] = ["--output-type", "pdfa"]  # 归档友好

    with st.status("正在执行 OCR …", expanded=False) as s:
        proc = subprocess.run(cmd, capture_output=True, text=True)
        if proc.returncode != 0:
            s.update(label="OCR 失败", state="error")
            st.error(f"OCR 失败（退出码 {proc.returncode}）")
            st.code(proc.stderr[-2000:], language="bash")
            return None, None, None
        s.update(label="OCR 完成", state="complete")

    preview = ""
    sidecar_path = None
    if export_sidecar and sidecar.exists():
        sidecar_path = str(sidecar)
        try:
            preview = sidecar.read_text(encoding="utf-8", errors="ignore")[:3000]
        except Exception:
            preview = "(sidecar 文本预览读取失败)"

    return str(out_pdf), sidecar_path, preview


def run_extract(sidecar_text: str, provider: str, model_id: str, prompt: str):
    if not sidecar_text:
        return None, None, "没有可供抽取的文本。"
    if provider == "None":
        return None, None, "未选择模型，跳过抽取。"

    # 1) 读取 Key，并统一默认打开 fence_output
    fence_output = True               # << 对 Gemini 也打开
    use_schema_constraints = False    # 先不启 Schema（必要时再开）
    if provider == "Gemini":
        api_key = os.environ.get("LANGEXTRACT_API_KEY")
        if not api_key:
            return None, None, "未检测到 Gemini API Key（LANGEXTRACT_API_KEY）。"
    elif provider == "OpenAI":
        api_key = os.environ.get("OPENAI_API_KEY")
        if not api_key:
            return None, None, "未检测到 OpenAI API Key（OPENAI_API_KEY）。"
    else:
        return None, None, "未知的 provider。"

    # 2) 收紧提示语（覆盖面向法律的 schema），严格要求“只返回 JSON 数组”
    strict_prompt = (
        "You are an information extraction engine. "
        "Extract legal entities, events, relationships, and evidence anchors from the input text. "
        "Return ONLY a JSON array, no prose, no markdown, no comments. "
        "Schema per item: {"
        "\"class\": one of [\"party\",\"event\",\"date\",\"relation\",\"evidence\"], "
        "\"text\": string (exact span), "
        "\"attributes\": object (key-value), "
        "\"source_hint\": string (optional page/line) "
        "}."
    )

    # 3) 精简可运行的 few-shot（与法律场景贴近）
    examples = [
        lx.data.ExampleData(
            text="On 15 February 2022, Dr Gavin Soo completed a medicolegal report to Walker Law Group.",
            extractions=[
                lx.data.Extraction(
                    extraction_class="party",
                    extraction_text="Walker Law Group",
                    attributes={"role": "law_firm"},
                ),
                lx.data.Extraction(
                    extraction_class="event",
                    extraction_text="completed a medicolegal report",
                    attributes={"actor": "Dr Gavin Soo"},
                ),
                lx.data.Extraction(
                    extraction_class="date",
                    extraction_text="15 February 2022",
                    attributes={}
                ),
            ],
        )
    ]

    # 4) 先跑一次；若解析失败，再以更强硬提示重试一次
    work = Path(tempfile.mkdtemp(prefix="lx_"))
    jsonl_path = work / "extractions.jsonl"
    html_path = work / "review.html"
    raw_path1 = work / "raw_attempt1.txt"
    raw_path2 = work / "raw_attempt2.txt"

    def _try_extract(prompt_text):
        # LangExtract 没有公开 raw 输出参数，我们用 try/except 捕获并让其保存在日志（同时缩短输入验证）
        return lx.extract(
            text_or_documents=sidecar_text[:15000],  # 先限长，避免超长触发安全策略
            prompt_description=prompt_text.strip(),
            examples=examples,
            model_id=model_id.strip(),
            api_key=api_key,
            fence_output=fence_output,
            use_schema_constraints=use_schema_constraints,
        )

    with st.status("正在进行结构化抽取 …", expanded=False) as s:
        try:
            result = _try_extract(strict_prompt)
        except Exception as e1:
            # 第一次失败：很可能是返回了非 JSON。我们把提示再加强，强调 “only JSON array”
            hard_prompt = strict_prompt + " Output must be a compact JSON array. Do not include any other text."
            try:
                result = _try_extract(hard_prompt)
            except Exception as e2:
                s.update(label="抽取失败", state="error")
                return None, None, f"LangExtract 抽取失败：{e2}"

        # 保存结果并可视化
        try:
            lx.io.save_annotated_documents([result], output_name=str(jsonl_path))
            html_content = lx.visualize(str(jsonl_path))
            html_path.write_text(html_content, encoding="utf-8")
        except Exception as e:
            s.update(label="可视化失败", state="error")
            return None, None, f"可视化失败：{e}"

        s.update(label="抽取完成", state="complete")

    return str(html_path), str(jsonl_path), "抽取成功。"


# ---------------- UI ----------------
with st.sidebar:
    st.header("参数")

    # 用 form 把"上传 + 参数 + 提交"打包，避免按钮重跑导致 file_uploader 丢值
    with st.form("run_form", clear_on_submit=False):
        pdf = st.file_uploader("上传扫描 PDF", type=["pdf"], accept_multiple_files=False, key="pdf_uploader")

        langs = st.text_input("OCR 语言（Tesseract 语法）", value="eng+chi_sim")
        col_a, col_b, col_c = st.columns(3)
        with col_a:
            rotate_pages = st.checkbox("自动旋转校正", value=True)
        with col_b:
            deskew = st.checkbox("去偏斜", value=True)
        with col_c:
            clean = st.checkbox("清理底噪/污渍", value=True)

        optimize_level = st.select_slider("优化级别", options=[0,1,2], value=1)
        skip_text = st.checkbox("跳过已有文本层 (--skip-text)", value=True)
        force_ocr = st.checkbox("强制重做文本层 (--force-ocr) [谨慎]", value=False)
        export_sidecar = st.checkbox("导出 sidecar 文本", value=True)

        st.markdown("---")
        provider = st.selectbox("抽取提供方", ["None", "Gemini", "OpenAI"], index=0)
        model_id = st.text_input("模型 ID", value="gemini-2.5-flash")
        prompt = st.text_area(
            "抽取任务描述（建议按你的法律场景定制）",
            value=("Extract legal entities, events, relationships, and evidence anchors. "
                   "Return JSON objects with fields: {party, role, event, date, relation, citation, quote}. "
                   "Preserve exact source spans for traceability."),
            height=160,
        )

        submitted = st.form_submit_button("运行 OCR（+可选抽取）", type="primary")

    
col1, col2 = st.columns([1,1])
with col1:
    st.subheader("OCR 结果")
    ocr_pdf_slot = st.empty()
    sidecar_slot = st.empty()
    preview_slot = st.empty()

with col2:
    st.subheader("抽取与复核")
    html_slot = st.empty()
    jsonl_slot = st.empty()
    status_slot = st.empty()

# 辅助：显示文件已被接收（提交前就可见，便于确认）
if "pdf_uploader" in st.session_state and st.session_state["pdf_uploader"]:
    st.sidebar.success(f"已选择：{st.session_state['pdf_uploader'].name} "
                       f"({st.session_state['pdf_uploader'].size/1024:.1f} KB)")

if submitted:
    # 添加调试信息
    if pdf is None:
        st.error("PDF 为 None - 检查文件上传")
    else:
        st.info(f"PDF 文件信息：名称={pdf.name}, 大小={pdf.size} bytes")
    
    out_pdf, sidecar_path, preview = run_ocr(
        pdf, langs, rotate_pages, deskew, clean, optimize_level,
        force_ocr, skip_text, export_sidecar
    )
    if out_pdf:
        with open(out_pdf, "rb") as f:
            ocr_pdf_slot.download_button("下载 OCR 后 PDF", f, file_name="output_ocr.pdf")
    if sidecar_path:
        with open(sidecar_path, "rb") as f:
            sidecar_slot.download_button("下载 sidecar 文本", f, file_name="out.txt")
        preview_slot.text_area("sidecar 文本预览（前 3000 字）", value=preview, height=240)

    if sidecar_path and provider != "None":
        txt = Path(sidecar_path).read_text(encoding="utf-8", errors="ignore")
        html_path, jsonl_path, status = run_extract(txt, provider, model_id, prompt)
        status_slot.info(status)
        if html_path and Path(html_path).exists():
            html_content = Path(html_path).read_text(encoding="utf-8", errors="ignore")
            st.components.v1.html(html_content, height=650, scrolling=True)
        if jsonl_path and Path(jsonl_path).exists():
            with open(jsonl_path, "rb") as f:
                jsonl_slot.download_button("下载抽取结果 JSONL", f, file_name="extractions.jsonl")