Spaces:

Eldermind
/

Ai-Transcript

Runtime error

Eldermind commited on Mar 27

Commit

fa2d48a

•

1 Parent(s): a525656

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import gradio as gr
-from pydub import AudioSegment
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import torch
@@ -10,24 +9,20 @@ model = Wav2Vec2ForCTC.from_pretrained(model_id)
 model.to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
 def transcribe(file_path):
-    # Load the audio file and process it
-    audio = AudioSegment.from_file(file_path)
-    audio_samples = audio.get_array_of_samples()
-    audio_bytes = bytes(audio_samples)
-    # Prepare the audio file for the model
-    input_values = processor(audio_bytes, return_tensors="pt", sampling_rate=audio.frame_rate).input_values
-    input_values = input_values.to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
-    # Perform the prediction
-    with torch.no_grad():
-        logits = model(input_values).logits
-    # Decode the recognized speech
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription
 # Gradio interface setup
 with gr.Blocks() as demo:
@@ -39,4 +34,4 @@ with gr.Blocks() as demo:
         audio_input.change(transcribe, inputs=audio_input, outputs=audio_output)
-demo.launch(share=True)

 import gradio as gr
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import torch
 model.to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
 def transcribe(file_path):
+    try:
+        audio_input, sampling_rate = processor.audio_file_to_array(file_path)
+        input_values = processor(audio_input, sampling_rate=sampling_rate, return_tensors="pt").input_values
+        input_values = input_values.to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
+        with torch.no_grad():
+            logits = model(input_values).logits
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = processor.batch_decode(predicted_ids)[0]
+        return transcription
+    except Exception as e:
+        print(f"Error during transcription: {e}")
+        return "Transcription error"
 # Gradio interface setup
 with gr.Blocks() as demo:
         audio_input.change(transcribe, inputs=audio_input, outputs=audio_output)
+demo.launch()