whisper-webui-translate

Sleeping

avans06 commited on Jul 23, 2023

Commit

3ab1530

1 Parent(s): 9428712

When the language is set to Chinese,

the method of converting simplified Chinese to traditional Chinese is changed to using the method provided by zhconv.

When the "--merge_subtitle_with_sources" argument is enabled,
the video file extension will be appended with the subtitle language information, such as .en, .zh, .jp, etc.

The downloaded YouTube videos will be added with the format [vcodec^=avc1].

Files changed (6) hide show

app.py +15 -12
requirements-fasterWhisper.txt +2 -1
requirements-whisper.txt +2 -1
requirements.txt +2 -1
src/download.py +1 -1
src/vad.py +1 -1

app.py CHANGED Viewed

@@ -19,6 +19,7 @@ from src.hooks.subTaskProgressListener import SubTaskProgressListener
 from src.hooks.whisperProgressHook import create_progress_listener_handle
 from src.languages import _TO_LANGUAGE_CODE
 from src.languages import get_language_names
 from src.modelCache import ModelCache
 from src.prompts.jsonPromptStrategy import JsonPromptStrategy
 from src.prompts.prependPromptStrategy import PrependPromptStrategy
@@ -38,6 +39,7 @@ from src.whisper.abstractWhisperContainer import AbstractWhisperContainer
 from src.whisper.whisperFactory import create_whisper_container
 import shutil
 # Configure more application defaults in config.json5
@@ -102,14 +104,11 @@ class WhisperTranscriber:
                                          vad, vadMergeWindow, vadMaxMergeSize,
                                          word_timestamps: bool = False, highlight_words: bool = False,
                                          progress=gr.Progress()):
-        decodeOptions = dict(word_timestamps=word_timestamps)
-        if languageName == "Chinese":
-            decodeOptions.update(initial_prompt="繁體: ")
-            self.app_config.vad_initial_prompt_mode = "prepend_all_segments"
         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, self.app_config.vad_padding, self.app_config.vad_prompt_window, self.app_config.vad_initial_prompt_mode)
-        return self.transcribe_webui(modelName, languageName, urlData, multipleFiles, microphoneData, task, vadOptions, highlight_words=highlight_words, progress=progress, **decodeOptions)
     # Entry function for the full tab
     def transcribe_webui_full(self, modelName, languageName, urlData, multipleFiles, microphoneData, task,
@@ -143,10 +142,6 @@ class WhisperTranscriber:
         else:
             temperature = [temperature]
-        if languageName == "Chinese":
-            initial_prompt = "繁體: " + initial_prompt
-            self.app_config.vad_initial_prompt_mode = "prepend_all_segments"
         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow, vadInitialPromptMode)
         return self.transcribe_webui(modelName, languageName, urlData, multipleFiles, microphoneData, task, vadOptions,
@@ -163,7 +158,8 @@ class WhisperTranscriber:
             sources = self.__get_source(urlData, multipleFiles, microphoneData)
             try:
-                selectedLanguage = languageName.lower() if len(languageName) > 0 else None
                 selectedModel = modelName if modelName is not None else "base"
                 model = create_whisper_container(whisper_implementation=self.app_config.whisper_implementation,
@@ -266,13 +262,14 @@ class WhisperTranscriber:
                                 srt_path = source_download[0]
                                 save_path = os.path.join(self.app_config.output_dir, source.source_name)
                                 save_without_ext, ext = os.path.splitext(save_path)
-                                output_with_srt = save_without_ext + ".srt" + ext
                                 #ffmpeg -i "input.mp4" -i "input.srt" -c copy -c:s mov_text output.mp4
                                 input_file = ffmpeg.input(source.source_path)
                                 input_srt = ffmpeg.input(srt_path)
                                 out = ffmpeg.output(input_file, input_srt, output_with_srt, vcodec='copy', acodec='copy', scodec='mov_text')
-                                outRsult = out.run()
                             except Exception as e:
                                 # Ignore error - it's just a cleanup
                                 print("Error merge subtitle with source file: \n" + source.source_path + ", \n" + str(e), outRsult)
@@ -439,6 +436,12 @@ class WhisperTranscriber:
         srt = self.__get_subs(result["segments"], "srt", languageMaxLineWidth, highlight_words=highlight_words)
         json_result = json.dumps(result, indent=4, ensure_ascii=False)
         output_files = []
         output_files.append(self.__create_file(srt, output_dir, source_name + "-subs.srt"));
         output_files.append(self.__create_file(vtt, output_dir, source_name + "-subs.vtt"));

 from src.hooks.whisperProgressHook import create_progress_listener_handle
 from src.languages import _TO_LANGUAGE_CODE
 from src.languages import get_language_names
+from src.languages import get_language_from_name
 from src.modelCache import ModelCache
 from src.prompts.jsonPromptStrategy import JsonPromptStrategy
 from src.prompts.prependPromptStrategy import PrependPromptStrategy
 from src.whisper.whisperFactory import create_whisper_container
 import shutil
+import zhconv
 # Configure more application defaults in config.json5
                                          vad, vadMergeWindow, vadMaxMergeSize,
                                          word_timestamps: bool = False, highlight_words: bool = False,
                                          progress=gr.Progress()):
         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, self.app_config.vad_padding, self.app_config.vad_prompt_window, self.app_config.vad_initial_prompt_mode)
+        return self.transcribe_webui(modelName, languageName, urlData, multipleFiles, microphoneData, task, vadOptions,
+                                     word_timestamps=word_timestamps, highlight_words=highlight_words, progress=progress)
     # Entry function for the full tab
     def transcribe_webui_full(self, modelName, languageName, urlData, multipleFiles, microphoneData, task,
         else:
             temperature = [temperature]
         vadOptions = VadOptions(vad, vadMergeWindow, vadMaxMergeSize, vadPadding, vadPromptWindow, vadInitialPromptMode)
         return self.transcribe_webui(modelName, languageName, urlData, multipleFiles, microphoneData, task, vadOptions,
             sources = self.__get_source(urlData, multipleFiles, microphoneData)
             try:
+                langObj = get_language_from_name(languageName)
+                selectedLanguage = languageName.lower() if languageName is not None and len(languageName) > 0 else None
                 selectedModel = modelName if modelName is not None else "base"
                 model = create_whisper_container(whisper_implementation=self.app_config.whisper_implementation,
                                 srt_path = source_download[0]
                                 save_path = os.path.join(self.app_config.output_dir, source.source_name)
                                 save_without_ext, ext = os.path.splitext(save_path)
+                                lang_ext = "." + langObj.code if langObj is not None else ""
+                                output_with_srt = save_without_ext + lang_ext + ext
                                 #ffmpeg -i "input.mp4" -i "input.srt" -c copy -c:s mov_text output.mp4
                                 input_file = ffmpeg.input(source.source_path)
                                 input_srt = ffmpeg.input(srt_path)
                                 out = ffmpeg.output(input_file, input_srt, output_with_srt, vcodec='copy', acodec='copy', scodec='mov_text')
+                                outRsult = out.run(overwrite_output=True)
                             except Exception as e:
                                 # Ignore error - it's just a cleanup
                                 print("Error merge subtitle with source file: \n" + source.source_path + ", \n" + str(e), outRsult)
         srt = self.__get_subs(result["segments"], "srt", languageMaxLineWidth, highlight_words=highlight_words)
         json_result = json.dumps(result, indent=4, ensure_ascii=False)
+        if language == "zh":
+            vtt = zhconv.convert(vtt, "zh-tw")
+            srt = zhconv.convert(srt, "zh-tw")
+            text = zhconv.convert(text, "zh-tw")
+            json_result = zhconv.convert(json_result, "zh-tw")
         output_files = []
         output_files.append(self.__create_file(srt, output_dir, source_name + "-subs.srt"));
         output_files.append(self.__create_file(vtt, output_dir, source_name + "-subs.vtt"));

requirements-fasterWhisper.txt CHANGED Viewed

@@ -6,4 +6,5 @@ yt-dlp
 json5
 torch
 torchaudio
-more_itertools

 json5
 torch
 torchaudio
+more_itertools
+zhconv

requirements-whisper.txt CHANGED Viewed

@@ -6,4 +6,5 @@ gradio==3.36.0
 yt-dlp
 torchaudio
 altair
-json5

 yt-dlp
 torchaudio
 altair
+json5
+zhconv

requirements.txt CHANGED Viewed

@@ -6,4 +6,5 @@ yt-dlp
 json5
 torch
 torchaudio
-more_itertools

 json5
 torch
 torchaudio
+more_itertools
+zhconv

src/download.py CHANGED Viewed

@@ -29,7 +29,7 @@ def _perform_download(url: str, maxDuration: int = None, outputTemplate: str = N
         destinationDirectory = mkdtemp()
     ydl_opts = {
-        "format": "bestaudio/best" if onlyAudio else "bestvideo[ext=mp4]+bestaudio[ext=m4a]/best",
         'paths': {
             'home': destinationDirectory
         }

         destinationDirectory = mkdtemp()
     ydl_opts = {
+        "format": "bestaudio/best" if onlyAudio else "bestvideo[ext=mp4][vcodec^=avc1]+bestaudio[ext=m4a]/best",
         'paths': {
             'home': destinationDirectory
         }

src/vad.py CHANGED Viewed

@@ -204,7 +204,7 @@ class AbstractTranscription(ABC):
                 detected_language = languageCounter.most_common(1)[0][0] if len(languageCounter) > 0 else None
                 print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
-                    segment_duration, "expanded: ", segment_expand_amount, "prompt: ", segment_prompt, "language: ", detected_language)
                 perf_start_time = time.perf_counter()

                 detected_language = languageCounter.most_common(1)[0][0] if len(languageCounter) > 0 else None
                 print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
+                    segment_duration, "expanded: ", segment_expand_amount, ", prompt: ", segment_prompt, ", detected language: ", detected_language)
                 perf_start_time = time.perf_counter()