Spaces:

aadnk
/

whisper-webui

Running

App Files Files Community

Add temperature option; Allow configuration of WebUI port

by ipid - opened Oct 30, 2022

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

+22

-12

Files changed (3) hide show

app-network.py +11 -1
app.py +11 -8
requirements.txt +0 -3

app-network.py CHANGED Viewed

@@ -1,3 +1,13 @@
 # Run the app with no audio file restrictions, and make it available on the network
 from app import create_ui
-create_ui(-1, server_name="0.0.0.0")

+import sys
+server_port = None
+try:
+    if len(sys.argv) > 1:
+        server_port = int(sys.argv[1])
+except ValueError:
+    print(f'Usage: python {sys.argv[0]} <server-port>\n')
+    exit(1)
 # Run the app with no audio file restrictions, and make it available on the network
 from app import create_ui
+create_ui(-1, server_name="0.0.0.0", server_port=server_port)

app.py CHANGED Viewed

@@ -53,7 +53,7 @@ class WhisperTranscriber:
         self.inputAudioMaxDuration = inputAudioMaxDuration
         self.deleteUploadedFiles = deleteUploadedFiles
-    def transcribe_webui(self, modelName, languageName, urlData, uploadFile, microphoneData, task, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow):
         try:
             source, sourceName = self.__get_source(urlData, uploadFile, microphoneData)
@@ -68,7 +68,7 @@ class WhisperTranscriber:
                     self.model_cache[selectedModel] = model
                 # Execute whisper
-                result = self.transcribe_file(model, source, selectedLanguage, task, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow)
                 # Write result
                 downloadDirectory = tempfile.mkdtemp()
@@ -87,7 +87,8 @@ class WhisperTranscriber:
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
-    def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         initial_prompt = decodeOptions.pop('initial_prompt', None)
@@ -96,9 +97,10 @@ class WhisperTranscriber:
             task = decodeOptions.pop('task')
         # Callable for processing an audio file
-        whisperCallable = lambda audio, segment_index, prompt, detected_language : model.transcribe(audio, \
-                 language=language if language else detected_language, task=task, \
-                 initial_prompt=self._concat_prompt(initial_prompt, prompt) if segment_index == 0 else prompt, \
                  **decodeOptions)
         # The results
@@ -218,7 +220,7 @@ class WhisperTranscriber:
         return file.name
-def create_ui(inputAudioMaxDuration, share=False, server_name: str = None):
     ui = WhisperTranscriber(inputAudioMaxDuration)
     ui_description = "Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse "
@@ -239,6 +241,7 @@ def create_ui(inputAudioMaxDuration, share=False, server_name: str = None):
         gr.Audio(source="upload", type="filepath", label="Upload Audio"),
         gr.Audio(source="microphone", type="filepath", label="Microphone Input"),
         gr.Dropdown(choices=["transcribe", "translate"], label="Task"),
         gr.Dropdown(choices=["none", "silero-vad", "silero-vad-skip-gaps", "silero-vad-expand-into-gaps", "periodic-vad"], label="VAD"),
         gr.Number(label="VAD - Merge Window (s)", precision=0, value=5),
         gr.Number(label="VAD - Max Merge Size (s)", precision=0, value=30),
@@ -250,7 +253,7 @@ def create_ui(inputAudioMaxDuration, share=False, server_name: str = None):
         gr.Text(label="Segments")
     ])
-    demo.launch(share=share, server_name=server_name)
 if __name__ == '__main__':
     create_ui(DEFAULT_INPUT_AUDIO_MAX_DURATION)

         self.inputAudioMaxDuration = inputAudioMaxDuration
         self.deleteUploadedFiles = deleteUploadedFiles
+    def transcribe_webui(self, modelName, languageName, urlData, uploadFile, microphoneData, task, temperature, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow):
         try:
             source, sourceName = self.__get_source(urlData, uploadFile, microphoneData)
                     self.model_cache[selectedModel] = model
                 # Execute whisper
+                result = self.transcribe_file(model, source, selectedLanguage, task, temperature, vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow)
                 # Write result
                 downloadDirectory = tempfile.mkdtemp()
         except ExceededMaximumDuration as e:
             return [], ("[ERROR]: Maximum remote video length is " + str(e.maxDuration) + "s, file was " + str(e.videoDuration) + "s"), "[ERROR]"
+    def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None,
+                        temperature: float = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         initial_prompt = decodeOptions.pop('initial_prompt', None)
             task = decodeOptions.pop('task')
         # Callable for processing an audio file
+        whisperCallable = lambda audio, segment_index, prompt, detected_language : model.transcribe(audio,
+                 language=language if language else detected_language, task=task,
+                 initial_prompt=self._concat_prompt(initial_prompt, prompt) if segment_index == 0 else prompt,
+                 temperature=temperature,
                  **decodeOptions)
         # The results
         return file.name
+def create_ui(inputAudioMaxDuration, share=False, server_name: str = None, server_port: int = None):
     ui = WhisperTranscriber(inputAudioMaxDuration)
     ui_description = "Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse "
         gr.Audio(source="upload", type="filepath", label="Upload Audio"),
         gr.Audio(source="microphone", type="filepath", label="Microphone Input"),
         gr.Dropdown(choices=["transcribe", "translate"], label="Task"),
+        gr.Number(label="Temperature", value=0),
         gr.Dropdown(choices=["none", "silero-vad", "silero-vad-skip-gaps", "silero-vad-expand-into-gaps", "periodic-vad"], label="VAD"),
         gr.Number(label="VAD - Merge Window (s)", precision=0, value=5),
         gr.Number(label="VAD - Max Merge Size (s)", precision=0, value=30),
         gr.Text(label="Segments")
     ])
+    demo.launch(share=share, server_name=server_name, server_port=server_port)
 if __name__ == '__main__':
     create_ui(DEFAULT_INPUT_AUDIO_MAX_DURATION)

requirements.txt CHANGED Viewed

@@ -1,6 +1,3 @@
 git+https://github.com/openai/whisper.git
-transformers
-ffmpeg-python==0.2.0
 gradio
 yt-dlp
-torchaudio

 git+https://github.com/openai/whisper.git
 gradio
 yt-dlp