Spaces:

rc19477
/

dev_only_useless

Runtime error

App Files Files Community

roychao19477 commited on Jun 24

Commit

f28da5d

1 Parent(s): 6ca32b7

First commit

Browse files

Files changed (1) hide show

app.py +36 -2

app.py CHANGED Viewed

@@ -28,6 +28,9 @@ Upload or record a noisy clip and click **Enhance** to hear + see its spectrogra
 import torch
 import yaml
 import librosa
 import librosa.display
@@ -51,6 +54,23 @@ from moviepy import ImageSequenceClip
 # Load face detector
 model = YOLO("yolov8n-face.pt").cuda()  # assumes CUDA available
 @spaces.GPU
 def extract_faces(video_file):
     cap = cv2.VideoCapture(video_file)
@@ -90,8 +110,22 @@ def extract_faces(video_file):
     # Save as video
     tmpdir = tempfile.mkdtemp()
     output_path = os.path.join(tmpdir, "face_only_video.mp4")
-    clip = ImageSequenceClip([cv2.cvtColor(f, cv2.COLOR_BGR2RGB) for f in frames], fps=25)
-    clip.write_videofile(output_path, codec="libx264", audio=False)
     return output_path

 import torch
+import ffmpeg
+import torchaudio
+import torchaudio.transforms as T
 import yaml
 import librosa
 import librosa.display
 # Load face detector
 model = YOLO("yolov8n-face.pt").cuda()  # assumes CUDA available
+def extract_resampled_audio(video_path, target_sr=16000):
+    # Step 1: extract audio via torchaudio
+    # (moviepy will still extract it to wav temp file)
+    tmp_audio_path = tempfile.mktemp(suffix=".wav")
+    subprocess.run(["ffmpeg", "-y", "-i", video_path, "-vn", "-acodec", "pcm_s16le", "-ar", "44100", tmp_audio_path])
+    # Step 2: Load and resample
+    waveform, sr = torchaudio.load(tmp_audio_path)
+    if sr != target_sr:
+        resampler = T.Resample(orig_freq=sr, new_freq=target_sr)
+        waveform = resampler(waveform)
+    # Step 3: Save resampled audio
+    resampled_audio_path = tempfile.mktemp(suffix="_16k.wav")
+    torchaudio.save(resampled_audio_path, waveform, sample_rate=target_sr)
+    return resampled_audio_path
 @spaces.GPU
 def extract_faces(video_file):
     cap = cv2.VideoCapture(video_file)
     # Save as video
     tmpdir = tempfile.mkdtemp()
     output_path = os.path.join(tmpdir, "face_only_video.mp4")
+    #clip = ImageSequenceClip([cv2.cvtColor(f, cv2.COLOR_BGR2RGB) for f in frames], fps=25)
+    clip = ImageSequenceClip([cv2.cvtColor(f, cv2.COLOR_BGR2RGB) for f in frames], fps=fps)
+    clip.write_videofile(output_path, codec="libx264", audio=False, fps=25)
+    # Save audio from original, resampled to 16kHz
+    audio_path = os.path.join(tmpdir, "audio_16k.wav")
+    # Extract audio using ffmpeg-python (more robust than moviepy)
+    ffmpeg.input(video_file).output(
+        audio_path,
+        ar=16000,  # resample to 16k
+        ac=1,      # mono
+        format='wav',
+        vn=None    # no video
+    ).run(overwrite_output=True)
     return output_path