Spaces:

aadnk
/

whisper-webui

Running

App Files Files Community

ipid commited on Oct 30, 2022

Commit

8b34879

•

1 Parent(s): 8f3aedf

Add the temperature option to WebUI

Browse files

Files changed (2) hide show

app.py +9 -6
requirements.txt +0 -3

app.py CHANGED Viewed

@@ -53,7 +53,7 @@ class WhisperTranscriber:
         self.inputAudioMaxDuration = inputAudioMaxDuration
         self.deleteUploadedFiles = deleteUploadedFiles
-    def transcribe_webui(self, modelName, languageName, urlData, uploadFile, microphoneData, task, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow):
         try:
             source, sourceName = self.__get_source(urlData, uploadFile, microphoneData)
@@ -68,7 +68,7 @@ class WhisperTranscriber:
                     self.model_cache[selectedModel] = model
                 # Execute whisper
-                result = self.transcribe_file(model, source, selectedLanguage, task, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow)
                 # Write result
                 downloadDirectory = tempfile.mkdtemp()
@@ -87,7 +87,8 @@ class WhisperTranscriber:
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
-    def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         initial_prompt = decodeOptions.pop('initial_prompt', None)
@@ -96,9 +97,10 @@ class WhisperTranscriber:
             task = decodeOptions.pop('task')
         # Callable for processing an audio file
-        whisperCallable = lambda audio, segment_index, prompt, detected_language : model.transcribe(audio, \
-                 language=language if language else detected_language, task=task, \
-                 initial_prompt=self._concat_prompt(initial_prompt, prompt) if segment_index == 0 else prompt, \
                  **decodeOptions)
         # The results
@@ -239,6 +241,7 @@ def create_ui(inputAudioMaxDuration, share=False, server_name: str = None):
         gr.Audio(source="upload", type="filepath", label="Upload Audio"),
         gr.Audio(source="microphone", type="filepath", label="Microphone Input"),
         gr.Dropdown(choices=["transcribe", "translate"], label="Task"),
         gr.Dropdown(choices=["none", "silero-vad", "silero-vad-skip-gaps", "silero-vad-expand-into-gaps", "periodic-vad"], label="VAD"),
         gr.Number(label="VAD - Merge Window (s)", precision=0, value=5),
         gr.Number(label="VAD - Max Merge Size (s)", precision=0, value=30),

         self.inputAudioMaxDuration = inputAudioMaxDuration
         self.deleteUploadedFiles = deleteUploadedFiles
+    def transcribe_webui(self, modelName, languageName, urlData, uploadFile, microphoneData, task, temperature, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow):
         try:
             source, sourceName = self.__get_source(urlData, uploadFile, microphoneData)
                     self.model_cache[selectedModel] = model
                 # Execute whisper
+                result = self.transcribe_file(model, source, selectedLanguage, task, temperature, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow)
                 # Write result
                 downloadDirectory = tempfile.mkdtemp()
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
+    def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None,
+                        temperature: float = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         initial_prompt = decodeOptions.pop('initial_prompt', None)
             task = decodeOptions.pop('task')
         # Callable for processing an audio file
+        whisperCallable = lambda audio, segment_index, prompt, detected_language : model.transcribe(audio,
+                 language=language if language else detected_language, task=task,
+                 initial_prompt=self._concat_prompt(initial_prompt, prompt) if segment_index == 0 else prompt,
+                 temperature=temperature,
                  **decodeOptions)
         # The results
         gr.Audio(source="upload", type="filepath", label="Upload Audio"),
         gr.Audio(source="microphone", type="filepath", label="Microphone Input"),
         gr.Dropdown(choices=["transcribe", "translate"], label="Task"),
+        gr.Number(label="Temperature", value=0),
         gr.Dropdown(choices=["none", "silero-vad", "silero-vad-skip-gaps", "silero-vad-expand-into-gaps", "periodic-vad"], label="VAD"),
         gr.Number(label="VAD - Merge Window (s)", precision=0, value=5),
         gr.Number(label="VAD - Max Merge Size (s)", precision=0, value=30),

requirements.txt CHANGED Viewed

@@ -1,6 +1,3 @@
 git+https://github.com/openai/whisper.git
-transformers
-ffmpeg-python==0.2.0
 gradio
 yt-dlp
-torchaudio

 git+https://github.com/openai/whisper.git
 gradio
 yt-dlp