Spaces:

camparchimedes
/

nb

Running

camparchimedes commited on Aug 11, 2024

Commit

e898bd8

verified ·

1 Parent(s): af8451f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,7 @@
 import time
 import os
 import spaces
 import warnings
 warnings.filterwarnings("ignore")
 from pydub import AudioSegment
@@ -21,34 +22,31 @@ def convert_to_wav(audio_file):
     return wav_file
 import torch
-from transformers import pipeline, AutoProcessor # AutoModelForSpeechSeq2Seq
-device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
-torch_dtype = torch.float32
-pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large", device=device, torch_dtype=torch_dtype)
-@spaces.GPU(queue=True)
 # Initialize processor and pipeline
 processor = AutoProcessor.from_pretrained("NbAiLabBeta/nb-whisper-large")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
 language = "no"
 task = "transcribe"
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
-    # forced_decoder_ids@the correct context
     forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)
     with torch.no_grad():
-        # CUDA@function -->
         with torch.cuda.device(device) if torch.cuda.is_available() else contextlib.nullcontext():
             output = pipe(audio_file, chunk_length_s=30, generate_kwargs={"forced_decoder_ids": forced_decoder_ids})

 import time
 import os
 import spaces
+import contextlib
 import warnings
 warnings.filterwarnings("ignore")
 from pydub import AudioSegment
     return wav_file
 import torch
+from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq
 # Initialize processor and pipeline
 processor = AutoProcessor.from_pretrained("NbAiLabBeta/nb-whisper-large")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
+pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large", device=device, torch_dtype=torch_dtype)
 language = "no"
 task = "transcribe"
+@spaces.GPU(queue=True)
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
+    # forced_decoder_ids in the correct context
     forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)
     with torch.no_grad():
+        # CUDA within the function
         with torch.cuda.device(device) if torch.cuda.is_available() else contextlib.nullcontext():
             output = pipe(audio_file, chunk_length_s=30, generate_kwargs={"forced_decoder_ids": forced_decoder_ids})