kotoba_whisper

Runtime error

aka7774 commited on Jan 16, 2024

Commit

b1927c9

verified ·

1 Parent(s): 007739a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,18 +2,19 @@ import gradio as gr
 from faster_whisper import WhisperModel
 model_size = 'large-v3'
-model = WhisperModel(model_size, device="auto", compute_type="float16")
-# or run on GPU with INT8
-# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
-# or run on CPU with INT8
-# model = WhisperModel(model_size, device="cpu", compute_type="int8")
 def speech_to_text(audio_file, _model_size):
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
-        model = WhisperModel(model_size, device="auto", compute_type="float16")
     with torch.no_grad():
         segments, info = model.transcribe(
@@ -29,10 +30,13 @@ def speech_to_text(audio_file, _model_size):
     for segment in segments:
         text += "{segment.start:.2f}\t{segment.end:.2f}\t{segment.text}\n"
 gr.Interface(
     fn=speech_to_text,
     inputs=[
-        gr.Audio(source="upload", type="filepath"),
         gr.Dropdown(value=model_size, choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3"]),
         ],
     outputs="text").launch()

 from faster_whisper import WhisperModel
 model_size = 'large-v3'
+def load_model(model_size):
+    if torch.cuda.is_available():
+        model = WhisperModel(model_size, device="cuda", compute_type="float16")
+        # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
+    else:
+        model = WhisperModel(model_size, device="cpu", compute_type="int8")
 def speech_to_text(audio_file, _model_size):
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
+        model = load_model(model_size)
     with torch.no_grad():
         segments, info = model.transcribe(
     for segment in segments:
         text += "{segment.start:.2f}\t{segment.end:.2f}\t{segment.text}\n"
+load_model(model_size)
 gr.Interface(
     fn=speech_to_text,
     inputs=[
+        gr.Audio(sources="upload", type="filepath"),
         gr.Dropdown(value=model_size, choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3"]),
         ],
     outputs="text").launch()