Spaces:

avfranco
/

audioqna

Running on Zero

avfranco commited on Nov 25, 2023

Commit

87f602f

•

1 Parent(s): 554a124

ASR Transcriber optimisation for CPU

- Model changed to OpenAI/Whisper-small
- Enabled better_transformer

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import gradio as gr
-import time
 import os
 from pydub import AudioSegment
@@ -12,27 +11,41 @@ def audio_converter(audio_file:str):
     return audio_wav_filename
 def asr_transcriber(audio_file):
-    from transformers import pipeline
     import torch
-    import random
     audio_file_wav = audio_converter(audio_file)
     # Check for CUDA availability (GPU)
     if torch.cuda.is_available():
         device_id = torch.device('cuda')
     else:
         device_id = torch.device('cpu')
     # Initialize the ASR pipeline
     pipe = pipeline(
         "automatic-speech-recognition",
-        model="openai/whisper-large-v3",
-        torch_dtype=torch.float32,
-        device=device_id
     )
-    ts = True
     language = None
     task = "transcribe"
@@ -51,7 +64,7 @@ with gr.Blocks() as transcriberUI:
     """
     # Ola Xara & Solange!
     Clicar no botao abaixo para selecionar o Audio a ser transcrito!
-    Ambiente Demo disponivel 24x7.
     """)
     inp = gr.File(label="Arquivo de Audio", show_label=True, file_count="single", file_types=["m4a"])
     transcribe = gr.Textbox(label="Transcricao", show_label=True, show_copy_button=True)

 import gradio as gr
 import os
 from pydub import AudioSegment
     return audio_wav_filename
 def asr_transcriber(audio_file):
+    from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
     import torch
+    import optimum
     audio_file_wav = audio_converter(audio_file)
     # Check for CUDA availability (GPU)
     if torch.cuda.is_available():
         device_id = torch.device('cuda')
     else:
         device_id = torch.device('cpu')
+    torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+    #device_id = "mps" for Mac only
+    #torch_dtype = float16
+    flash = False
+    ts = True
+    #Try to optimize when CPU and float32
+    model_id = "openai/whisper-small"
     # Initialize the ASR pipeline
     pipe = pipeline(
         "automatic-speech-recognition",
+        model=model_id,
+        torch_dtype=torch_dtype,
+        device=device_id,
     )
+    if device_id == "mps":
+        torch.mps.empty_cache()
+    elif not flash:
+        pipe.model = pipe.model.to_bettertransformer()
     language = None
     task = "transcribe"
     """
     # Ola Xara & Solange!
     Clicar no botao abaixo para selecionar o Audio a ser transcrito!
+    Ambiente de Teste: pode demorar um pouco. Nao fiquem nervosos :-)
     """)
     inp = gr.File(label="Arquivo de Audio", show_label=True, file_count="single", file_types=["m4a"])
     transcribe = gr.Textbox(label="Transcricao", show_label=True, show_copy_button=True)