kotoba_whisper

Sleeping

aka7774 commited on Nov 17, 2023

Commit

659d1cf

•

1 Parent(s): 8c0f874

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,18 +1,29 @@
 import gradio as gr
 import whisper
 model_size = 'large-v3'
-model = whisper.load_model(model_size)
 def speech_to_text(audio_file, _model_size):
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
-        model = whisper.load_model(model_size)
-    result = model.transcribe(audio_file)
-    return result["text"]
 gr.Interface(
     fn=speech_to_text,

 import gradio as gr
 import whisper
+from faster_whisper import WhisperModel
 model_size = 'large-v3'
+#model = whisper.load_model(model_size)
+#model = WhisperModel(model_size, device="cuda", compute_type="float16")
+model = WhisperModel(model_size, compute_type="float16")
+# or run on GPU with INT8
+# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
+# or run on CPU with INT8
+# model = WhisperModel(model_size, device="cpu", compute_type="int8")
 def speech_to_text(audio_file, _model_size):
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
+        #model = whisper.load_model(model_size)
+        model = WhisperModel(model_size, compute_type="float16")
+    #result = model.transcribe(audio_file)
+    segments, info = model.transcribe(audio_file, beam_size=5)
+    # return result["text"]
+    return "".join([segment.text for segment in segments])
 gr.Interface(
     fn=speech_to_text,