Spaces:

marquesafonso
/

multilang-asr-captioner

Sleeping

marquesafonso commited on Mar 22, 2024

Commit

2f59878

1 Parent(s): 0f91105

change model to distil-large-v3. fix cli control flow.

Files changed (2) hide show

cli.py CHANGED Viewed

@@ -36,17 +36,17 @@ def main(video_url:str,
             pbar.update(25)
             subtitler(INVIDEO_PATH, SRT_PATH, OUTVIDEO_PATH,fontsize, font, bg_color, text_color)
             pbar.update(25)
-            return
-        INVIDEO_PATH = os.path.join(INVIDEO_DIR, f"{invideo_filename}.mp4")
-        INAUDIO_PATH = os.path.join(INVIDEO_DIR, f"{invideo_filename}.m4a")
-        if not os.path.exists(INAUDIO_PATH):
-            convert_video_to_audio(INVIDEO_PATH,INAUDIO_PATH)
-        pbar.update(50)
-        if not os.path.exists(SRT_PATH):
-            transcriber(INAUDIO_PATH, SRT_PATH, max_words_per_line)
-        pbar.update(25)
-        subtitler(INVIDEO_PATH, SRT_PATH, OUTVIDEO_PATH, fontsize, font, bg_color, text_color)
-        pbar.update(25)
 if __name__ == '__main__':
     parser = ArgumentParser()

             pbar.update(25)
             subtitler(INVIDEO_PATH, SRT_PATH, OUTVIDEO_PATH,fontsize, font, bg_color, text_color)
             pbar.update(25)
+        else:
+            INVIDEO_PATH = os.path.join(INVIDEO_DIR, f"{invideo_filename}.mp4")
+            INAUDIO_PATH = os.path.join(INVIDEO_DIR, f"{invideo_filename}.m4a")
+            if not os.path.exists(INAUDIO_PATH):
+                convert_video_to_audio(INVIDEO_PATH,INAUDIO_PATH)
+            pbar.update(50)
+            if not os.path.exists(SRT_PATH):
+                transcriber(INAUDIO_PATH, SRT_PATH, max_words_per_line)
+            pbar.update(25)
+            subtitler(INVIDEO_PATH, SRT_PATH, OUTVIDEO_PATH, fontsize, font, bg_color, text_color)
+            pbar.update(25)
 if __name__ == '__main__':
     parser = ArgumentParser()

utils/transcriber.py CHANGED Viewed

@@ -37,17 +37,8 @@ def transcriber(input_path:str,
                 srt_path:str,
                 max_words_per_line:int):
-    model_size = "large-v3"
-    # Run on GPU with FP16
-    # model = WhisperModel(model_size, device="cuda", compute_type="float16")
-    # or run on GPU with INT8
-    # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
-    # or run on CPU with INT8
-    logging.info("Logging Whisper model...")
     model = WhisperModel(model_size, device="cpu", compute_type="int8")
-    logging.info("Starting transcription...")
     segments, info = model.transcribe(
         input_path,
         beam_size=5,
@@ -55,7 +46,5 @@ def transcriber(input_path:str,
         vad_parameters=dict(min_silence_duration_ms=500),
         word_timestamps=True
     )
     logging.info("Detected language '%s' with probability %f" % (info.language, info.language_probability))
-    logging.info("Writing file...")
     write_srt(segments=segments, srt_path=srt_path, max_words_per_line=max_words_per_line)

                 srt_path:str,
                 max_words_per_line:int):
+    model_size = "distil-large-v3"
     model = WhisperModel(model_size, device="cpu", compute_type="int8")
     segments, info = model.transcribe(
         input_path,
         beam_size=5,
         vad_parameters=dict(min_silence_duration_ms=500),
         word_timestamps=True
     )
     logging.info("Detected language '%s' with probability %f" % (info.language, info.language_probability))
     write_srt(segments=segments, srt_path=srt_path, max_words_per_line=max_words_per_line)