Spaces:

jhj0517
/

Whisper-WebUI

Running

jhj0517 commited on Jul 5, 2024

Commit

f6adc1d

1 Parent(s): 767d188

add util functions for files

Files changed (2) hide show

modules/utils/files_manager.py ADDED Viewed

+import os
+import fnmatch
+from gradio.utils import NamedString
+def get_media_files(folder_path, include_sub_directory=False):
+    video_extensions = ['*.mp4', '*.mkv', '*.flv', '*.avi', '*.mov', '*.wmv']
+    audio_extensions = ['*.mp3', '*.wav', '*.aac', '*.flac', '*.ogg', '*.m4a']
+    media_extensions = video_extensions + audio_extensions
+    media_files = []
+    if include_sub_directory:
+        for root, _, files in os.walk(folder_path):
+            for extension in media_extensions:
+                media_files.extend(
+                    os.path.join(root, file) for file in fnmatch.filter(files, extension)
+                    if os.path.exists(os.path.join(root, file))
+                )
+    else:
+        for extension in media_extensions:
+            media_files.extend(
+                os.path.join(folder_path, file) for file in fnmatch.filter(os.listdir(folder_path), extension)
+                if os.path.isfile(os.path.join(folder_path, file)) and os.path.exists(os.path.join(folder_path, file))
+            )
+    return media_files
+def format_gradio_files(files: list):
+    if not files:
+        return files
+    gradio_files = []
+    for file in files:
+        gradio_files.append(NamedString(file))
+    return gradio_files

modules/whisper/whisper_base.py CHANGED Viewed

@@ -12,6 +12,7 @@ from dataclasses import astuple
 from modules.utils.subtitle_manager import get_srt, get_vtt, get_txt, write_file, safe_filename
 from modules.utils.youtube_manager import get_ytdata, get_ytaudio
 from modules.whisper.whisper_parameter import *
 from modules.diarize.diarizer import Diarizer
 from modules.vad.silero_vad import SileroVAD
@@ -123,6 +124,7 @@ class WhisperBase(ABC):
     def transcribe_file(self,
                         files: list,
                         file_format: str,
                         add_timestamp: bool,
                         progress=gr.Progress(),
@@ -135,6 +137,9 @@ class WhisperBase(ABC):
         ----------
         files: list
             List of files to transcribe from gr.Files()
         file_format: str
             Subtitle File format to write from gr.Dropdown(). Supported format: [SRT, WebVTT, txt]
         add_timestamp: bool
@@ -152,6 +157,10 @@ class WhisperBase(ABC):
             Output file path to return to gr.Files()
         """
         try:
             files_info = {}
             for file in files:
                 transcribed_segments, time_for_task = self.run(

 from modules.utils.subtitle_manager import get_srt, get_vtt, get_txt, write_file, safe_filename
 from modules.utils.youtube_manager import get_ytdata, get_ytaudio
+from modules.utils.files_manager import get_media_files, format_gradio_files
 from modules.whisper.whisper_parameter import *
 from modules.diarize.diarizer import Diarizer
 from modules.vad.silero_vad import SileroVAD
     def transcribe_file(self,
                         files: list,
+                        input_folder_path: str,
                         file_format: str,
                         add_timestamp: bool,
                         progress=gr.Progress(),
         ----------
         files: list
             List of files to transcribe from gr.Files()
+        input_folder_path: str
+            Input folder path to transcribe from gr.Textbox(). If this is provided, `files` will be ignored and
+            this will be used instead.
         file_format: str
             Subtitle File format to write from gr.Dropdown(). Supported format: [SRT, WebVTT, txt]
         add_timestamp: bool
             Output file path to return to gr.Files()
         """
         try:
+            if input_folder_path:
+                files = get_media_files(input_folder_path)
+                files = format_gradio_files(files)
             files_info = {}
             for file in files:
                 transcribed_segments, time_for_task = self.run(