Spaces:

innev
/

whisper-Base

Running

App Files Files Community

junzhaosun commited on Apr 19, 2023

Commit

21147ce

1 Parent(s): 3bb42a7

fixed bugs

Browse files

Files changed (2) hide show

app.py +50 -4
requirements.txt +3 -0

app.py CHANGED Viewed

@@ -1,6 +1,50 @@
 #!/usr/local/bin/python3
 #-*- coding:utf-8 -*-
 import gradio as gr
 title = "OpenAI Whisper Large v2"
@@ -40,15 +84,17 @@ examples = [
     ["examples/see_in_eyes.wav", None],
 ]
-gr.load(
-    "models/openai/whisper-large-v2",
     inputs=[
         gr.Audio(label="上传语音", source="upload", type="numpy"),
         gr.Audio(label="录制语音", source="microphone", type="numpy"),
     ],
-    outputs=gr.Text(label="识别出的文字"),
     title=title,
     description=description,
     article=article,
-    examples=examples
 ).launch()

 #!/usr/local/bin/python3
 #-*- coding:utf-8 -*-
 import gradio as gr
+import librosa
+import torch
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+checkpoint = "openai/whisper-large-v2"
+processor = AutoProcessor.from_pretrained(checkpoint)
+model = AutoModelForSpeechSeq2Seq.from_pretrained(checkpoint)
+def process_audio(sampling_rate, waveform):
+    # convert from int16 to floating point
+    waveform = waveform / 32678.0
+    # convert to mono if stereo
+    if len(waveform.shape) > 1:
+        waveform = librosa.to_mono(waveform.T)
+    # resample to 16 kHz if necessary
+    if sampling_rate != 16000:
+        waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=16000)
+    # limit to 30 seconds
+    waveform = waveform[:16000*30]
+    # make PyTorch tensor
+    waveform = torch.tensor(waveform)
+    return waveform
+def predict(audio, mic_audio=None):
+    # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))
+    if mic_audio is not None:
+        sampling_rate, waveform = mic_audio
+    elif audio is not None:
+        sampling_rate, waveform = audio
+    else:
+        return "(please provide audio)"
+    waveform = process_audio(sampling_rate, waveform)
+    inputs = processor(audio=waveform, sampling_rate=16000, return_tensors="pt")
+    predicted_ids = model.generate(**inputs, max_length=400)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
 title = "OpenAI Whisper Large v2"
     ["examples/see_in_eyes.wav", None],
 ]
+gr.Interface(
+    fn=predict,
     inputs=[
         gr.Audio(label="上传语音", source="upload", type="numpy"),
         gr.Audio(label="录制语音", source="microphone", type="numpy"),
     ],
+    outputs=[
+        gr.Text(label="识别出的文字"),
+    ],
     title=title,
     description=description,
     article=article,
+    examples=examples,
 ).launch()

requirements.txt CHANGED Viewed

	@@ -0,0 +1,3 @@

+git+https://github.com/huggingface/transformers.git
+torch
+librosa