Spaces:

nunenuh
/

whisper_simple

Runtime error

nunenuh commited on Aug 11, 2023

Commit

4b068e8

•

1 Parent(s): 80a0e95

fix: fixing error to generate text

Files changed (6) hide show

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ demo = gr.Interface(
                  choices=["indonesian","english"],
                  value="indonesian"),
         gr.Audio(label="Speak", source="microphone", type="numpy"),
-        gr.Audio(label="Upload audio", source="upload", type="numpy"),
     ],
     outputs=[gr.TextArea(label="Output Text"),],
     title="OpenAI Whisper Base",

                  choices=["indonesian","english"],
                  value="indonesian"),
         gr.Audio(label="Speak", source="microphone", type="numpy"),
+        gr.Audio(label="Upload Audio", source="upload", type="numpy"),
     ],
     outputs=[gr.TextArea(label="Output Text"),],
     title="OpenAI Whisper Base",

src/__pycache__/__init__.cpython-310.pyc ADDED Viewed

Binary file (147 Bytes). View file

src/__pycache__/infer.cpython-310.pyc ADDED Viewed

Binary file (1.14 kB). View file

src/__pycache__/utils.cpython-310.pyc ADDED Viewed

Binary file (940 Bytes). View file

src/infer.py CHANGED Viewed

@@ -3,7 +3,7 @@ from typing import *
 from src import utils
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
-model_name: str  = f"openai/whisper-base"
 processor: Any = WhisperProcessor.from_pretrained(model_name)
 model: Any = WhisperForConditionalGeneration.from_pretrained(model_name)

 from src import utils
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
+model_name: str  = f"openai/whisper-small"
 processor: Any = WhisperProcessor.from_pretrained(model_name)
 model: Any = WhisperForConditionalGeneration.from_pretrained(model_name)

src/utils.py CHANGED Viewed

@@ -7,16 +7,18 @@ sample_rate: int = 16000
 float_factor: float = 32678.0
 def preprocess_audio(sampling_rate, waveform):
-    waveform = waveform / float_factor
-    if len(waveform) > 1:
         waveform = librosa.to_mono(waveform.T)
     if sampling_rate != sample_rate:
         waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=sample_rate)
-    waveform = waveform[:sample_rate*30]
-    waveform = torch.tensor(waveform)
     return waveform

 float_factor: float = 32678.0
 def preprocess_audio(sampling_rate, waveform):
+    waveform: float = waveform / float_factor
+    if len(waveform.shape) > 1:
         waveform = librosa.to_mono(waveform.T)
     if sampling_rate != sample_rate:
         waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=sample_rate)
+    # limit to 30 seconds
+    waveform: float = waveform[:sample_rate * 30]
+    waveform: float = torch.tensor(waveform)
     return waveform