Spaces:

SissiFeng
/

HaneYomi

Sleeping

App Files Files Community

SissiFeng commited on Aug 6

Commit

ce1fe0f

verified ·

1 Parent(s): 1bb018f

Upload 3 files

Browse files

Files changed (3) hide show

app.py +107 -0
packages.txt +2 -0
requirements.txt +6 -0

app.py ADDED Viewed

	@@ -0,0 +1,107 @@

+import gradio as gr
+from gtts import gTTS
+import tempfile, os, re
+from pykakasi import kakasi
+from fugashi import Tagger
+import pytesseract
+import cv2
+import numpy as np
+# ===== Utilities =====
+tagger = Tagger()  # uses unidic-lite in requirements
+kk = kakasi()
+kk.setMode("J","H")  # Kanji -> Hiragana
+kk.setMode("K","H")  # Katakana -> Hiragana
+kk.setMode("H","H")  # Hiragana -> Hiragana
+conv = kk.getConverter()
+def normalize_text(t:str)->str:
+    t = t.replace("\u3000", " ").strip()
+    t = re.sub(r"[ \t]+", " ", t)
+    return t
+def to_furigana_html(text:str)->str:
+    # very simple token-level ruby using fugashi + pykakasi
+    tokens = tagger(text)
+    parts = []
+    for tok in tokens:
+        surf = tok.surface
+        # reading: try feature; fallback to kakasi
+        reading = tok.feature.dict.get("reading")
+        if not reading:
+            reading = conv.do(surf)
+        # if kana same as reading, no ruby
+        if reading and reading != surf:
+            parts.append(f"<ruby>{surf}<rt>{reading}</rt></ruby>")
+        else:
+            parts.append(surf)
+    return "<p style='line-height:2.0;font-size:1.2em'>" + "".join(parts) + "</p>"
+def explain(text:str):
+    text = normalize_text(text)
+    if not text:
+        return "", None, "请输入日文文本。"
+    # TTS (gTTS online, fast)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
+        gTTS(text, lang="ja").save(fp.name)
+        audio_path = fp.name
+    # Furigana HTML
+    furigana_html = to_furigana_html(text)
+    # Simple token table: surface, lemma, pos, reading
+    rows = []
+    for tok in tagger(text):
+        rows.append({
+            "词形": tok.surface,
+            "原形": tok.feature.lemma if hasattr(tok.feature, "lemma") else tok.surface,
+            "词性": tok.feature.part_of_speech if hasattr(tok.feature, "part_of_speech") else "",
+            "读音": tok.feature.dict.get("reading") or conv.do(tok.surface)
+        })
+    # Build HTML table (Gradio Markdown friendly)
+    header = "| 词形 | 原形 | 词性 | 读音 |\n|---|---|---|---|\n"
+    body = "\n".join([f"| {r['词形']} | {r['原形']} | {r['词性']} | {r['读音']} |" for r in rows]) or "|  |  |  |  |"
+    table_md = header + body
+    tips = "提示：朗读使用 gTTS（联网）。截图识别用 Tesseract（日语）。如遇识别不准，可先手动粘贴文本。"
+    return furigana_html, audio_path, tips
+# ----- OCR from screenshot -----
+def ocr_image(img: np.ndarray):
+    if img is None:
+        return ""
+    # convert to gray & binarize to help OCR
+    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
+    gray = cv2.threshold(gray, 0, 255, cv2.THRESH_OTSU | cv2.THRESH_BINARY)[1]
+    config = "--oem 3 --psm 6 -l jpn"
+    text = pytesseract.image_to_string(gray, config=config)
+    return normalize_text(text)
+# ===== UI =====
+with gr.Blocks(css="footer {visibility: hidden}") as demo:
+    gr.Markdown("## 🈺 Paste‑to‑Speak 日语朗读助手 (MVP)\n粘贴文本或粘贴网页截图，生成**假名注音**并**朗读**。")
+    with gr.Tab("文本朗读"):
+        inp = gr.Textbox(label="粘贴日文文本", lines=6, placeholder="ここに日本語を貼り付けてください。")
+        btn = gr.Button("生成 朗读 + 注音")
+        furigana = gr.HTML()
+        audio = gr.Audio(label="朗读", autoplay=False)
+        note = gr.Markdown()
+        btn.click(explain, inputs=inp, outputs=[furigana, audio, note])
+    with gr.Tab("截图 → OCR → 朗读"):
+        img = gr.Image(label="粘贴或拖拽网页截图（含日文）", type="numpy")
+        ocr_btn = gr.Button("识别文字")
+        ocr_text = gr.Textbox(label="识别结果（可编辑）", lines=6)
+        go_btn = gr.Button("对识别结果 朗读 + 注音")
+        furigana2 = gr.HTML()
+        audio2 = gr.Audio(label="朗读", autoplay=False)
+        note2 = gr.Markdown()
+        ocr_btn.click(ocr_image, inputs=img, outputs=ocr_text)
+        go_btn.click(explain, inputs=ocr_text, outputs=[furigana2, audio2, note2])
+    gr.Markdown("— v0.1 · Gradio on Hugging Face Spaces · 作者：Sissi 内测版")
+if __name__ == "__main__":
+    demo.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ tesseract-ocr
2	+ tesseract-ocr-jpn

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio==4.44.0
+gTTS==2.5.1
+pykakasi==2.2.1
+fugashi[unidic-lite]==1.3.2
+pytesseract==0.3.13
+opencv-python-headless==4.10.0.84