Spaces:

aadnk
/

whisper-webui

Running

App Files Files Community

aadnk commited on Oct 23, 2022

Commit

84fa1f8

•

1 Parent(s): 5bbbb16

Concat first prompt with initial prompt

Browse files

Files changed (2) hide show

app.py +19 -3
src/vad.py +5 -2

app.py CHANGED Viewed

@@ -89,9 +89,17 @@ class WhisperTranscriber:
     def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         # Callable for processing an audio file
-        whisperCallable = lambda audio, prompt, detected_language : model.transcribe(audio, \
-                 language=language if language else detected_language, task=task, initial_prompt=prompt, **decodeOptions)
         # The results
         if (vad == 'silero-vad'):
@@ -113,10 +121,18 @@ class WhisperTranscriber:
             result = periodic_vad.transcribe(audio_path, whisperCallable, PeriodicTranscriptionConfig(periodic_duration=vadMaxMergeSize, max_prompt_window=vadPromptWindow))
         else:
             # Default VAD
-            result = whisperCallable(audio_path, None, None)
         return result
     def _create_silero_config(self, non_speech_strategy: NonSpeechStrategy, vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1):
         # Use Silero VAD
         if (self.vad_model is None):

     def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
+        initial_prompt = decodeOptions.pop('initial_prompt', None)
+        if ('task' in decodeOptions):
+            task = decodeOptions.pop('task')
         # Callable for processing an audio file
+        whisperCallable = lambda audio, segment_index, prompt, detected_language : model.transcribe(audio, \
+                 language=language if language else detected_language, task=task, \
+                 initial_prompt=self._concat_prompt(initial_prompt, prompt) if segment_index == 0 else prompt, \
+                 **decodeOptions)
         # The results
         if (vad == 'silero-vad'):
             result = periodic_vad.transcribe(audio_path, whisperCallable, PeriodicTranscriptionConfig(periodic_duration=vadMaxMergeSize, max_prompt_window=vadPromptWindow))
         else:
             # Default VAD
+            result = whisperCallable(audio_path, 0, None, None)
         return result
+    def _concat_prompt(self, prompt1, prompt2):
+        if (prompt1 is None):
+            return prompt2
+        elif (prompt2 is None):
+            return prompt1
+        else:
+            return prompt1 + " " + prompt2
     def _create_silero_config(self, non_speech_strategy: NonSpeechStrategy, vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1):
         # Use Silero VAD
         if (self.vad_model is None):

src/vad.py CHANGED Viewed

@@ -100,7 +100,7 @@ class AbstractTranscription(ABC):
         audio: str
             The audio file.
-        whisperCallable: Callable[[Union[str, np.ndarray, torch.Tensor], str, str], dict[str, Union[dict, Any]]]
             The callback that is used to invoke Whisper on an audio file/buffer. The first parameter is the audio file/buffer,
             the second parameter is an optional text prompt, and the last is the current detected language. The return value is the result of the Whisper call.
@@ -147,8 +147,11 @@ class AbstractTranscription(ABC):
         languageCounter = Counter()
         detected_language = None
         # For each time segment, run whisper
         for segment in merged:
             segment_start = segment['start']
             segment_end = segment['end']
             segment_expand_amount = segment.get('expand_amount', 0)
@@ -169,7 +172,7 @@ class AbstractTranscription(ABC):
             print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
                   segment_duration, "expanded: ", segment_expand_amount, "prompt: ", segment_prompt, "language: ", detected_language)
-            segment_result = whisperCallable(segment_audio, segment_prompt, detected_language)
             adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)

         audio: str
             The audio file.
+        whisperCallable: Callable[[Union[str, np.ndarray, torch.Tensor], int, str, str], dict[str, Union[dict, Any]]]
             The callback that is used to invoke Whisper on an audio file/buffer. The first parameter is the audio file/buffer,
             the second parameter is an optional text prompt, and the last is the current detected language. The return value is the result of the Whisper call.
         languageCounter = Counter()
         detected_language = None
+        segment_index = -1
         # For each time segment, run whisper
         for segment in merged:
+            segment_index += 1
             segment_start = segment['start']
             segment_end = segment['end']
             segment_expand_amount = segment.get('expand_amount', 0)
             print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
                   segment_duration, "expanded: ", segment_expand_amount, "prompt: ", segment_prompt, "language: ", detected_language)
+            segment_result = whisperCallable(segment_audio, segment_index, segment_prompt, detected_language)
             adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)