Spaces:

Merlintxu
/

Wav2Txt

Sleeping

App Files Files Community

Merlintxu commited on Jul 7

Commit

c55c408

•

1 Parent(s): 75c2204

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -15

app.py CHANGED Viewed

@@ -7,10 +7,11 @@ from langdetect import detect_langs
 import os
 import warnings
 from transformers import logging
 # Suppress warnings
-# warnings.filterwarnings("ignore")
-# logging.set_verbosity_error()
 # Updated models by language
 MODELS = {
@@ -29,7 +30,6 @@ MODELS = {
         "openai/whisper-medium",
         "jonatasgrosman/wav2vec2-large-xlsr-53-portuguese"
     ]
-    # Add more languages and models as needed
 }
 def convert_audio_to_wav(audio_path):
@@ -60,14 +60,14 @@ def detect_language(audio_path):
 def transcribe_audio_stream(audio, model_name):
     wav_audio = convert_audio_to_wav(audio)
     if "whisper" in model_name:
         processor = WhisperProcessor.from_pretrained(model_name)
         model = WhisperForConditionalGeneration.from_pretrained(model_name)
         chunk_duration = 30  # seconds
-        speech, rate = librosa.load(wav_audio, sr=16000)
-        duration = len(speech) / rate
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
@@ -77,19 +77,20 @@ def transcribe_audio_stream(audio, model_name):
             predicted_ids = model.generate(input_features)
             transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-            yield transcription
     else:
         transcriber = pipeline("automatic-speech-recognition", model=model_name)
         chunk_duration = 10  # seconds
-        speech, rate = librosa.load(wav_audio, sr=16000)
-        duration = len(speech) / rate
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
             chunk = speech[int(i * rate):int(end * rate)]
             result = transcriber(chunk)
-            yield result["text"]
 def detect_and_select_model(audio):
     wav_audio = convert_audio_to_wav(audio)
@@ -102,18 +103,22 @@ def combined_interface(audio):
         language, model_options = detect_and_select_model(audio)
         selected_model = model_options[0]
-        yield language, model_options, selected_model, ""
         full_transcription = ""
-        for partial_transcription in transcribe_audio_stream(audio, selected_model):
             full_transcription += partial_transcription + " "
-            yield language, model_options, selected_model, full_transcription.strip()
         # Clean up temporary files
         os.remove("converted_audio.wav")
     except Exception as e:
-        yield str(e), [], "", "An error occurred during processing."
 iface = gr.Interface(
     fn=combined_interface,
@@ -122,9 +127,11 @@ iface = gr.Interface(
         gr.Textbox(label="Detected Language"),
         gr.Dropdown(label="Available Models", choices=[]),
         gr.Textbox(label="Selected Model"),
-        gr.Textbox(label="Transcription", lines=10)
     ],
-    title="Multilingual Audio Transcriber with Real-time Display",
     description="Upload an audio file to detect the language, select the transcription model, and get the transcription in real-time. Optimized for Spanish, English, and Portuguese.",
     live=True
 )

 import os
 import warnings
 from transformers import logging
+import math
 # Suppress warnings
+warnings.filterwarnings("ignore")
+logging.set_verbosity_error()
 # Updated models by language
 MODELS = {
         "openai/whisper-medium",
         "jonatasgrosman/wav2vec2-large-xlsr-53-portuguese"
     ]
 }
 def convert_audio_to_wav(audio_path):
 def transcribe_audio_stream(audio, model_name):
     wav_audio = convert_audio_to_wav(audio)
+    speech, rate = librosa.load(wav_audio, sr=16000)
+    duration = len(speech) / rate
     if "whisper" in model_name:
         processor = WhisperProcessor.from_pretrained(model_name)
         model = WhisperForConditionalGeneration.from_pretrained(model_name)
         chunk_duration = 30  # seconds
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
             predicted_ids = model.generate(input_features)
             transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+            progress = min(100, (end / duration) * 100)
+            yield transcription, progress
     else:
         transcriber = pipeline("automatic-speech-recognition", model=model_name)
         chunk_duration = 10  # seconds
         for i in range(0, int(duration), chunk_duration):
             end = min(i + chunk_duration, duration)
             chunk = speech[int(i * rate):int(end * rate)]
             result = transcriber(chunk)
+            progress = min(100, (end / duration) * 100)
+            yield result["text"], progress
 def detect_and_select_model(audio):
     wav_audio = convert_audio_to_wav(audio)
         language, model_options = detect_and_select_model(audio)
         selected_model = model_options[0]
+        yield language, model_options, selected_model, "", 0, "Initializing..."
         full_transcription = ""
+        for partial_transcription, progress in transcribe_audio_stream(audio, selected_model):
             full_transcription += partial_transcription + " "
+            progress_int = math.floor(progress)
+            status = f"Transcribing... {progress_int}% complete"
+            yield language, model_options, selected_model, full_transcription.strip(), progress_int, status
         # Clean up temporary files
         os.remove("converted_audio.wav")
+        yield language, model_options, selected_model, full_transcription.strip(), 100, "Transcription complete!"
     except Exception as e:
+        yield str(e), [], "", "An error occurred during processing.", 0, "Error"
 iface = gr.Interface(
     fn=combined_interface,
         gr.Textbox(label="Detected Language"),
         gr.Dropdown(label="Available Models", choices=[]),
         gr.Textbox(label="Selected Model"),
+        gr.Textbox(label="Transcription", lines=10),
+        gr.Slider(minimum=0, maximum=100, label="Progress", interactive=False),
+        gr.Textbox(label="Status")
     ],
+    title="Multilingual Audio Transcriber with Real-time Display and Progress Indicator",
     description="Upload an audio file to detect the language, select the transcription model, and get the transcription in real-time. Optimized for Spanish, English, and Portuguese.",
     live=True
 )