ASR_API2

Sleeping

App Files Files Community

palli23 commited on Nov 30, 2025

Commit

3407dd3

1 Parent(s): 90a78b4

diarization1Mæló

Browse files

Files changed (1) hide show

app.py +41 -26

app.py CHANGED Viewed

@@ -1,12 +1,24 @@
-# app.py – Whisper-small + Mælendagreining (pyannote 3.1) – VIRKAR Á ZeroGPU
 import os
 import gradio as gr
 import spaces
-from transformers import pipeline
-from pyannote.audio import Pipeline
-import torch
 import tempfile
 from torch.serialization import safe_globals
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
@@ -15,49 +27,52 @@ def transcribe_with_diarization(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # FIX: PyTorch 2.6+ unpickling villu (ZeroGPU krefst þess)
     with safe_globals([
         torch.torch_version.TorchVersion,
-        'pyannote.audio.core.task.Specifications'
     ]):
         diarization = Pipeline.from_pretrained(
             "pyannote/speaker-diarization-3.1",
-            token=os.getenv("HF_TOKEN")
         ).to("cuda")
-    # Keyra mælendagreiningu
     dia = diarization(audio_path)
-    # Whisper-small
     asr = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
         device=0,
-        token=os.getenv("HF_TOKEN")
     )
     result = []
     for turn, _, speaker in dia.itertracks(yield_label=True):
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            dia.crop(audio_path, turn).export(f.name, format="wav")
-            segment_path = f.name
-        text = asr(segment_path)["text"].strip()
         result.append(f"[MÆLENDI {speaker}] {text}")
-        os.unlink(segment_path)
-    return "\n".join(result) or "Ekkert heyrt"
-# Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining")
-    gr.Markdown("**Whisper-small + pyannote 3.1 · Full podcast-transcript**")
-    gr.Markdown("Hladdu upp .mp3 / .wav (allt að 5 mín)")
     audio = gr.Audio(type="filepath", label="Hljóðskrá")
-    btn = gr.Button("Transcribe með mælendum", variant="primary", size="lg")
-    out = gr.Textbox(lines=35, label="Útskrift með mælendum")
     btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
-demo.launch(auth=("beta", "beta2025"))

+# app.py for HF Spaces (ZeroGPU safe pyannote)
 import os
 import gradio as gr
 import spaces
 import tempfile
+import torch
 from torch.serialization import safe_globals
+from pyannote.audio.core.model import Model
+from pyannote.audio.core.task import Task, Specifications
+from pyannote.audio.pipelines.speaker_diarization import SpeakerDiarization
+from typing import OrderedDict
+from transformers import pipeline
+from pyannote.audio import Pipeline
+# Required patches for ZeroGPU
+os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
+torch.serialization.add_safe_globals({
+    "OrderedDict": OrderedDict,
+})
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # Fix strict unpickling in torch 2.6 (ZeroGPU)
     with safe_globals([
         torch.torch_version.TorchVersion,
+        Model,
+        Task,
+        Specifications,
+        SpeakerDiarization,
+        OrderedDict,
     ]):
         diarization = Pipeline.from_pretrained(
             "pyannote/speaker-diarization-3.1",
+            use_auth_token=os.getenv("HF_TOKEN")
         ).to("cuda")
+    # Run diarization
     dia = diarization(audio_path)
+    # Whisper model
     asr = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
         device=0,
+        use_auth_token=os.getenv("HF_TOKEN"),
     )
+    # segment-by-segment ASR
     result = []
     for turn, _, speaker in dia.itertracks(yield_label=True):
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+            diarization.crop(audio_path, turn).export(f.name, format="wav")
+            chunk = f.name
+        text = asr(chunk)["text"].strip()
+        os.unlink(chunk)
         result.append(f"[MÆLENDI {speaker}] {text}")
+    return "\n".join(result) or "Enginn texti heyrðist."
 with gr.Blocks() as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining")
+    gr.Markdown("Whisper-small + pyannote 3.1 (ZeroGPU örugg útgáfa)")
     audio = gr.Audio(type="filepath", label="Hljóðskrá")
+    btn = gr.Button("Transcribe með mælendum")
+    out = gr.Textbox(lines=35, label="Úttak")
     btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
+demo.launch(auth=("beta", "beta2025"))