Spaces:

hackergeek98
/

tinyyy

Sleeping

hackergeek98 commited on Mar 24

Commit

d10f84e

verified ·

1 Parent(s): 92375a2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,6 @@
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
 from pydub import AudioSegment
 import os
@@ -11,8 +13,14 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
 processor = AutoProcessor.from_pretrained(model_id)
-# Create pipeline with correct parameter
-pipe = pipeline("automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, device=0 if torch.cuda.is_available() else -1)
 # Convert audio to WAV format
 def convert_to_wav(audio_path):
@@ -34,6 +42,13 @@ def split_audio(audio_path, chunk_length_ms=30000):  # Default: 30 sec per chunk
     return chunk_paths
 # Transcribe a long audio file
 def transcribe_long_audio(audio_path):
     wav_path = convert_to_wav(audio_path)
@@ -41,8 +56,7 @@ def transcribe_long_audio(audio_path):
     transcription = ""
     for chunk in chunk_paths:
-        result = pipe({"path": chunk})  # FIXED: Pass chunk as dict
-        transcription += result["text"] + "\n"
         os.remove(chunk)  # Remove processed chunk
     os.remove(wav_path)  # Cleanup original file

 import torch
+import torchaudio
+import numpy as np
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
 from pydub import AudioSegment
 import os
 model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id).to(device)
 processor = AutoProcessor.from_pretrained(model_id)
+# Create ASR pipeline
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    device=0 if torch.cuda.is_available() else -1,
+)
 # Convert audio to WAV format
 def convert_to_wav(audio_path):
     return chunk_paths
+# **🔹 Fixed: Read Audio Before Passing to Model**
+def transcribe_audio_chunk(chunk_path):
+    waveform, sampling_rate = torchaudio.load(chunk_path)  # Load audio
+    waveform = waveform.numpy()  # Convert to numpy
+    result = pipe({"raw": waveform, "sampling_rate": sampling_rate})  # Pass raw data
+    return result["text"]
 # Transcribe a long audio file
 def transcribe_long_audio(audio_path):
     wav_path = convert_to_wav(audio_path)
     transcription = ""
     for chunk in chunk_paths:
+        transcription += transcribe_audio_chunk(chunk) + "\n"
         os.remove(chunk)  # Remove processed chunk
     os.remove(wav_path)  # Cleanup original file