whisper4jav

Sleeping

App Files Files Community

drop commited on Nov 25, 2023

Commit

e6af331

•

1 Parent(s): ec5cb89

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -9

app.py CHANGED Viewed

@@ -25,6 +25,7 @@ from src.prompts.jsonPromptStrategy import JsonPromptStrategy
 from src.prompts.prependPromptStrategy import PrependPromptStrategy
 from src.source import AudioSource, get_audio_source_collection
 from src.vadParallel import ParallelContext, ParallelTranscription
 # External programs
 import ffmpeg
@@ -496,23 +497,25 @@ class WhisperTranscriber:
     def write_result(self, result: dict, source_name: str, output_dir: str, highlight_words: bool = False):
         if not os.path.exists(output_dir):
             os.makedirs(output_dir)
         text = result["text"]
         language = result["language"] if "language" in result else None
         languageMaxLineWidth = self.__get_max_line_width(language)
         print("Max line width " + str(languageMaxLineWidth))
         vtt = self.__get_subs(result["segments"], "vtt", languageMaxLineWidth, highlight_words=highlight_words)
         srt = self.__get_subs(result["segments"], "srt", languageMaxLineWidth, highlight_words=highlight_words)
         json_result = json.dumps(result, indent=4, ensure_ascii=False)
         output_files = []
-        output_files.append(self.__create_file(srt, output_dir, source_name + "-subs.srt"));
-        output_files.append(self.__create_file(vtt, output_dir, source_name + "-subs.vtt"));
-        output_files.append(self.__create_file(text, output_dir, source_name + "-transcript.txt"));
-        output_files.append(self.__create_file(json_result, output_dir, source_name + "-result.json"));
-        return output_files, text, vtt
     def clear_cache(self):
         self.model_cache.clear()

 from src.prompts.prependPromptStrategy import PrependPromptStrategy
 from src.source import AudioSource, get_audio_source_collection
 from src.vadParallel import ParallelContext, ParallelTranscription
+from src.supress import clean_string, garbage_list
 # External programs
 import ffmpeg
     def write_result(self, result: dict, source_name: str, output_dir: str, highlight_words: bool = False):
         if not os.path.exists(output_dir):
             os.makedirs(output_dir)
         text = result["text"]
+        clean_text = clean_string(text, garbage_list)
         language = result["language"] if "language" in result else None
         languageMaxLineWidth = self.__get_max_line_width(language)
         print("Max line width " + str(languageMaxLineWidth))
         vtt = self.__get_subs(result["segments"], "vtt", languageMaxLineWidth, highlight_words=highlight_words)
         srt = self.__get_subs(result["segments"], "srt", languageMaxLineWidth, highlight_words=highlight_words)
         json_result = json.dumps(result, indent=4, ensure_ascii=False)
         output_files = []
+        output_files.append(self.__create_file(srt, output_dir, source_name + "-subs.srt"))
+        output_files.append(self.__create_file(vtt, output_dir, source_name + "-subs.vtt"))
+        output_files.append(self.__create_file(clean_text, output_dir, source_name + "-transcript.txt"))  # Use clean_text here
+        output_files.append(self.__create_file(json_result, output_dir, source_name + "-result.json"))
+        return output_files, clean_text, vtt
     def clear_cache(self):
         self.model_cache.clear()