Spaces:

MiakOnline
/

RecToTextPro

Sleeping

App Files Files Community

MiakOnline commited on Mar 14

Commit

a53d6d2

verified ·

1 Parent(s): a270792

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -24

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import tempfile
 import os
 import re
 import time
-import torch
 from pydub import AudioSegment
 from transformers import pipeline
 from openpyxl import Workbook
@@ -12,34 +11,35 @@ from io import BytesIO
 st.set_page_config(page_title="RecToText Pro", layout="wide")
-st.title("🎤 RecToText Pro")
-st.caption("Stable HuggingFace Build Version")
-# -------------------------
-# LOAD MODEL (HF PIPELINE)
-# -------------------------
 @st.cache_resource
 def load_asr():
     return pipeline(
         "automatic-speech-recognition",
         model="openai/whisper-base",
-        device=-1  # CPU
     )
 asr = load_asr()
-# -------------------------
-# TEXT CLEANING
-# -------------------------
 def clean_text(text):
     filler = ["um", "hmm", "acha", "matlab"]
     pattern = r'\b(?:' + '|'.join(filler) + r')\b'
     text = re.sub(pattern, "", text, flags=re.IGNORECASE)
     return re.sub(r'\s+', ' ', text).strip()
-# -------------------------
-# ROMAN URDU BASIC
-# -------------------------
 def convert_to_roman(text):
     replacements = {
         "ہے": "hai",
@@ -51,22 +51,22 @@ def convert_to_roman(text):
         text = text.replace(k, v)
     return text
-# -------------------------
-# EXCEL EXPORT
-# -------------------------
 def export_excel(text):
     wb = Workbook()
     ws = wb.active
-    ws.append(["Transcription"])
     ws.append([text])
     buffer = BytesIO()
     wb.save(buffer)
     buffer.seek(0)
     return buffer
-# -------------------------
-# WORD EXPORT
-# -------------------------
 def export_word(text):
     doc = Document()
     doc.add_heading("Lecture Transcription", level=1)
@@ -76,9 +76,9 @@ def export_word(text):
     buffer.seek(0)
     return buffer
-# -------------------------
 # FILE UPLOADER
-# -------------------------
 uploaded = st.file_uploader(
     "Upload Audio (.mp3, .wav, .m4a, .aac)",
     type=["mp3", "wav", "m4a", "aac"]
@@ -98,12 +98,17 @@ if uploaded:
         start = time.time()
-        with st.spinner("Transcribing..."):
             result = asr(temp_path)
         os.remove(temp_path)
-        text = result["text"]
         text = clean_text(text)
         if output_mode == "Roman Urdu":

 import os
 import re
 import time
 from pydub import AudioSegment
 from transformers import pipeline
 from openpyxl import Workbook
 st.set_page_config(page_title="RecToText Pro", layout="wide")
+st.title("🎤 RecToText Pro - Stable Long Audio Edition")
+st.caption("Long Lecture Supported | Word + Excel Export")
+# --------------------------------------------------
+# LOAD MODEL (CPU SAFE)
+# --------------------------------------------------
 @st.cache_resource
 def load_asr():
     return pipeline(
         "automatic-speech-recognition",
         model="openai/whisper-base",
+        device=-1,
+        return_timestamps=True  # FIX FOR LONG AUDIO
     )
 asr = load_asr()
+# --------------------------------------------------
+# CLEAN TEXT
+# --------------------------------------------------
 def clean_text(text):
     filler = ["um", "hmm", "acha", "matlab"]
     pattern = r'\b(?:' + '|'.join(filler) + r')\b'
     text = re.sub(pattern, "", text, flags=re.IGNORECASE)
     return re.sub(r'\s+', ' ', text).strip()
+# --------------------------------------------------
+# ROMAN URDU
+# --------------------------------------------------
 def convert_to_roman(text):
     replacements = {
         "ہے": "hai",
         text = text.replace(k, v)
     return text
+# --------------------------------------------------
+# EXPORT EXCEL
+# --------------------------------------------------
 def export_excel(text):
     wb = Workbook()
     ws = wb.active
+    ws.append(["Lecture Transcription"])
     ws.append([text])
     buffer = BytesIO()
     wb.save(buffer)
     buffer.seek(0)
     return buffer
+# --------------------------------------------------
+# EXPORT WORD
+# --------------------------------------------------
 def export_word(text):
     doc = Document()
     doc.add_heading("Lecture Transcription", level=1)
     buffer.seek(0)
     return buffer
+# --------------------------------------------------
 # FILE UPLOADER
+# --------------------------------------------------
 uploaded = st.file_uploader(
     "Upload Audio (.mp3, .wav, .m4a, .aac)",
     type=["mp3", "wav", "m4a", "aac"]
         start = time.time()
+        with st.spinner("Transcribing long audio safely..."):
             result = asr(temp_path)
         os.remove(temp_path)
+        # FIX: Extract text from chunks safely
+        if isinstance(result, dict) and "chunks" in result:
+            text = " ".join([chunk["text"] for chunk in result["chunks"]])
+        else:
+            text = result["text"]
         text = clean_text(text)
         if output_mode == "Roman Urdu":