Spaces:

Yermek68
/

eroha-agentapi

Sleeping

App Files Files Community

Yermek68 commited on Dec 2, 2025

Commit

11a33db

verified ·

1 Parent(s): 7b6676b

Update app.py

Browse files

Files changed (1) hide show

app.py +94 -52

app.py CHANGED Viewed

@@ -1,13 +1,12 @@
 import gradio as gr
 from transformers import pipeline
 import pdfplumber
-import os
 # OCR
 try:
     import pytesseract
     from pdf2image import convert_from_path
-    from PIL import Image
     OCR_AVAILABLE = True
 except ImportError:
     OCR_AVAILABLE = False
@@ -16,11 +15,19 @@ except ImportError:
 from docx import Document
 from fpdf import FPDF
-# ---------- МОДЕЛЬ ----------
 summarizer = None
-def load_model():
     global summarizer
     if summarizer is None:
         summarizer = pipeline(
@@ -29,10 +36,11 @@ def load_model():
         )
     return summarizer
 # ---------- ЧТЕНИЕ ФАЙЛА ----------
 def extract_pdf_text(path: str):
-    """Пытаемся вытащить текст из PDF. Если текста нет – пробуем OCR."""
     text = ""
     # 1) обычный текстовый PDF
@@ -48,10 +56,11 @@ def extract_pdf_text(path: str):
     if text.strip():
         return text, None
-    # 2) если текст не найден – пробуем OCR
     if not OCR_AVAILABLE:
-        return "", "PDF выглядит как скан (изображение). Для OCR нужно pytesseract + tesseract-ocr."
     try:
         images = convert_from_path(path, dpi=200)
         ocr_text = ""
@@ -65,10 +74,10 @@ def extract_pdf_text(path: str):
 def read_file(path: str):
     if not path:
         return "", "Файл не передан."
-    path = str(path).strip()
     lower = path.lower()
     if lower.endswith(".pdf"):
@@ -81,6 +90,7 @@ def read_file(path: str):
     except Exception as e:
         return "", f"Ошибка при чтении TXT: {e}"
 # ---------- ЧАНКИНГ ТЕКСТА ----------
 def chunk_text(text: str, max_chars: int = 2500):
@@ -93,85 +103,117 @@ def chunk_text(text: str, max_chars: int = 2500):
             cut = cut[:last_dot + 1]
         chunks.append(cut)
         text = text[len(cut):]
-    chunks.append(text)
     return chunks
-# ---------- СОХРАНЕНИЕ РЕЗЮМЕ В DOCX/PDF ----------
 def save_docx(summary: str) -> str:
     doc = Document()
     doc.add_heading("Eroha Summarizer – Резюме документа", level=1)
     for paragraph in summary.split("\n"):
         doc.add_paragraph(paragraph)
-    path = "/tmp/summary.docx"
-    doc.save(path)
-    return path
 def save_pdf(summary: str) -> str:
     pdf = FPDF()
     pdf.add_page()
-    pdf.set_auto_page_break(auto=True, margin=15)
-    pdf.set_font("Arial", size=12)
     for line in summary.split("\n"):
-        # multi_cell сам переносит строки
-        pdf.multi_cell(0, 8, line)
-    path = "/tmp/summary.pdf"
-    pdf.output(path)
-    return path
-# ---------- ОСНОВНАЯ ФУНКЦИЯ ----------
-def summarize_file(path: str):
-    text, err = read_file(path)
     if err:
         return f"⚠️ {err}", None, None
     if not text.strip():
         return "⚠️ Не удалось извлечь текст из файла.", None, None
-    # Модель
-    model = load_model()
-    # Чанкинг
-    chunks = chunk_text(text, max_chars=2500)
-    partial_summaries = []
-    for chunk in chunks:
-        if not chunk.strip():
-            continue
-        try:
-            summary = model(
-                chunk,
-                max_length=180,
-                min_length=60,
-                do_sample=False
-            )
-            partial_summaries.append(summary[0]["summary_text"])
-        except Exception as e:
-            partial_summaries.append(f"[Ошибка в блоке суммаризации: {e}]")
-    if not partial_summaries:
-        return "⚠️ Не удалось создать резюме.", None, None
-    final_summary = "\n\n".join(partial_summaries)
-    # Файлы экспорта
-    docx_path = save_docx(final_summary)
-    pdf_path = save_pdf(final_summary)
     return final_summary, docx_path, pdf_path
 # ---------- ИНТЕРФЕЙС GRADIO ----------
 with gr.Blocks() as demo:
     gr.Markdown("# Eroha Summarizer 🧠")
-    gr.Markdown("Загрузите документ (PDF или TXT), и модель создаст краткое резюме с возможностью скачивания DOCX и PDF.")
     with gr.Row():
-        file_input = gr.File(type="filepath", label="Загрузите файл (.pdf или .txt)")
         with gr.Column():
-            summary_output = gr.Textbox(label="Результат суммаризации", lines=20)
             docx_output = gr.File(label="Скачать DOCX")
             pdf_output = gr.File(label="Скачать PDF")

+import os
 import gradio as gr
 from transformers import pipeline
 import pdfplumber
 # OCR
 try:
     import pytesseract
     from pdf2image import convert_from_path
     OCR_AVAILABLE = True
 except ImportError:
     OCR_AVAILABLE = False
 from docx import Document
 from fpdf import FPDF
+# ---------- НАСТРОЙКИ ----------
+# Имя файла шрифта в корне Space
+FONT_PATH = "DejaVuSans.ttf"
+# Глобальная модель (ленивая загрузка)
 summarizer = None
+# ---------- МОДЕЛЬ ----------
+def get_summarizer():
     global summarizer
     if summarizer is None:
         summarizer = pipeline(
         )
     return summarizer
 # ---------- ЧТЕНИЕ ФАЙЛА ----------
 def extract_pdf_text(path: str):
+    """Пытаемся вытащить текст из PDF. Если нет текста — пробуем OCR (если доступен)."""
     text = ""
     # 1) обычный текстовый PDF
     if text.strip():
         return text, None
+    # 2) если текста нет и OCR недоступен
     if not OCR_AVAILABLE:
+        return "", "PDF выглядит как скан. Для OCR нужен pytesseract + pdf2image + tesseract-ocr."
+    # 3) OCR по картинкам
     try:
         images = convert_from_path(path, dpi=200)
         ocr_text = ""
 def read_file(path: str):
+    """Чтение PDF или текстового файла по пути."""
     if not path:
         return "", "Файл не передан."
     lower = path.lower()
     if lower.endswith(".pdf"):
     except Exception as e:
         return "", f"Ошибка при чтении TXT: {e}"
 # ---------- ЧАНКИНГ ТЕКСТА ----------
 def chunk_text(text: str, max_chars: int = 2500):
             cut = cut[:last_dot + 1]
         chunks.append(cut)
         text = text[len(cut):]
+    if text:
+        chunks.append(text)
     return chunks
+def summarize_long_text(text: str) -> str:
+    model = get_summarizer()
+    parts = []
+    for chunk in chunk_text(text, max_chars=2500):
+        if not chunk.strip():
+            continue
+        summary = model(
+            chunk,
+            max_length=180,
+            min_length=60,
+            do_sample=False
+        )
+        parts.append(summary[0]["summary_text"])
+    return "\n\n".join(parts)
+# ---------- ЭКСПОРТ В DOCX / PDF ----------
 def save_docx(summary: str) -> str:
     doc = Document()
     doc.add_heading("Eroha Summarizer – Резюме документа", level=1)
     for paragraph in summary.split("\n"):
         doc.add_paragraph(paragraph)
+    out_path = "/tmp/summary.docx"
+    doc.save(out_path)
+    return out_path
 def save_pdf(summary: str) -> str:
     pdf = FPDF()
     pdf.add_page()
+    # Подключаем Unicode-шрифт
+    try:
+        pdf.add_font("DejaVu", "", FONT_PATH, uni=True)
+        pdf.set_font("DejaVu", size=12)
+    except Exception:
+        # Фоллбек – латинский Arial (кириллица может не сохраниться, но ошибок не будет)
+        pdf.set_font("Arial", size=12)
     for line in summary.split("\n"):
+        try:
+            pdf.multi_cell(0, 8, line)
+        except Exception:
+            # Если шрифт не поддерживает символы – пропускаем проблемную строку
+            continue
+    out_path = "/tmp/summary.pdf"
+    pdf.output(out_path)
+    return out_path
+# ---------- ОСНОВНАЯ ФУНКЦИЯ ДЛЯ GRADIO ----------
+def summarize_file(file_path: str):
+    text, err = read_file(file_path)
     if err:
         return f"⚠️ {err}", None, None
     if not text.strip():
         return "⚠️ Не удалось извлечь текст из файла.", None, None
+    if len(text.strip()) < 80:
+        return "⚠️ Слишком мало текста для суммаризации.", None, None
+    # Суммаризация с чанкингом
+    try:
+        final_summary = summarize_long_text(text)
+    except Exception as e:
+        return f"⚠️ Ошибка суммаризации: {e}", None, None
+    # Экспорт в DOCX / PDF
+    try:
+        docx_path = save_docx(final_summary)
+    except Exception as e:
+        docx_path = None
+        final_summary += f"\n\n[Предупреждение: ошибка сохранения DOCX: {e}]"
+    try:
+        pdf_path = save_pdf(final_summary)
+    except Exception as e:
+        pdf_path = None
+        final_summary += f"\n\n[Предупреждение: ошибка сохранения PDF: {e}]"
     return final_summary, docx_path, pdf_path
 # ---------- ИНТЕРФЕЙС GRADIO ----------
 with gr.Blocks() as demo:
     gr.Markdown("# Eroha Summarizer 🧠")
+    gr.Markdown(
+        "Загрузите документ (**PDF или TXT**), и модель создаст краткое резюме "
+        "с возможностью скачивания **DOCX** и **PDF**."
+    )
     with gr.Row():
+        file_input = gr.File(
+            type="filepath",
+            label="Загрузите файл (.pdf или .txt)"
+        )
         with gr.Column():
+            summary_output = gr.Textbox(
+                label="Результат суммаризации",
+                lines=20
+            )
             docx_output = gr.File(label="Скачать DOCX")
             pdf_output = gr.File(label="Скачать PDF")