Realtime-whisper-demo

Sleeping

App Files Files Community

KingNish commited on Oct 1, 2024

Commit

3845c66

verified ·

1 Parent(s): 2bf1d0a

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -15

app.py CHANGED Viewed

@@ -6,10 +6,9 @@ import tempfile
 import os
 import uuid
 import scipy.io.wavfile
-import numpy as np
 MODEL_NAME = "ylacombe/whisper-large-v3-turbo"
-BATCH_SIZE = 8
 device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
@@ -22,31 +21,34 @@ pipe = pipeline(
 @spaces.GPU
 def transcribe(inputs, previous_transcription):
     try:
         sample_rate, audio_data = inputs
-        # Convert audio data to a NumPy array of floats normalized between -1 and 1
-        audio_data = np.frombuffer(audio_data, dtype=np.int16).astype(np.float32) / 32768.0
-        # Perform transcription
-        transcription = pipe(audio_data,
-                             batch_size=BATCH_SIZE,
-                             generate_kwargs={"task": "transcribe"},
-                             return_timestamps=True)
-        # Append new transcription to previous transcription
-        previous_transcription += transcription["text"]
         return previous_transcription
     except Exception as e:
-        print(f"Error during transcription: {e}")
-        return previous_transcription
 with gr.Blocks() as demo:
     with gr.Column():
-        gr.Markdown(f"# Realtime Whisper Large V3 Turbo: Transcribe Audio\n Transcribe inputs in Realtime. This Demo uses the checkpoint [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}) and 🤗 Transformers.")
         input_audio_microphone = gr.Audio(streaming=True)
         output = gr.Textbox(label="Transcription", value="")
         input_audio_microphone.stream(transcribe, [input_audio_microphone, output], [output], time_limit=45, stream_every=2, concurrency_limit=None)
-demo.queue().launch()

 import os
 import uuid
 import scipy.io.wavfile
 MODEL_NAME = "ylacombe/whisper-large-v3-turbo"
+BATCH_SIZE = 16
 device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
 @spaces.GPU
 def transcribe(inputs, previous_transcription):
     try:
+        # Generate a unique filename Using UUID
+        filename = f"{uuid.uuid4().hex}.wav"
+        filepath = os.path.join(tempfile.gettempdir(), filename)
+        # Extract Sample Rate and Audio Data from the Tuple
         sample_rate, audio_data = inputs
+        # Save the Audio Data to the Temporary File
+        scipy.io.wavfile.write(filepath, sample_rate, audio_data)
+        # Transcribe the Audio
+        transcription = pipe(filepath, batch_size=BATCH_SIZE, generate_kwargs={"task": "transcribe"}, return_timestamps=True)["text"]
+        previous_transcription += transcription
+        # Remove the Temporary File after Transcription
+        os.remove(filepath)
         return previous_transcription
     except Exception as e:
+        print(f"Error during Transcription: {e}")
+        return previous Transcription
 with gr.Blocks() as demo:
     with gr.Column():
+        gr.Markdown(f"# Realtime Whisper Large V3 Turbo: Transcribe Audio\n Transcribe Inputs in Realtime. This Demo uses the Checkpoint [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}) and 🤗 Transformers.")
         input_audio_microphone = gr.Audio(streaming=True)
         output = gr.Textbox(label="Transcription", value="")
         input_audio_microphone.stream(transcribe, [input_audio_microphone, output], [output], time_limit=45, stream_every=2, concurrency_limit=None)
+demo.queue(). launch()