Spaces:

akhaliq
/

hubert-xlarge-ls960-ft

Runtime error

Ahsen Khaliq commited on Sep 21, 2021

Commit

c72151b

•

1 Parent(s): 5d41f4c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,8 +14,8 @@ def get_optimal_font_scale(text, width):
             return scale/10
     return 1
-processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
-model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
 def map_to_array(file):
     speech, _ = sf.read(file)
     return speech
@@ -26,6 +26,8 @@ def inference(audio, image):
     transcription = processor.decode(predicted_ids[0])
     audio_clip = AudioFileClip(audio.name)
     image_clip = ImageClip(image.name).set_duration(audio_clip.duration)
     image_clip.write_videofile("my_video.mp4", fps=len(transcription.split())/audio_clip.duration)
     videoclip = VideoFileClip("my_video.mp4")
@@ -63,8 +65,6 @@ def inference(audio, image):
     output_clip = ImageSequenceClip(frame_list, fps=len(transcription.split())/audio_clip.duration)
     output_clip.audio = new_audioclip
     output_clip.write_videofile("output6.mp4")
-    cap.release()
-    cv2.destroyAllWindows()
     return transcription, 'output6.mp4'
 title = "Hubert"

             return scale/10
     return 1
+processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
+model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
 def map_to_array(file):
     speech, _ = sf.read(file)
     return speech
     transcription = processor.decode(predicted_ids[0])
     audio_clip = AudioFileClip(audio.name)
     image_clip = ImageClip(image.name).set_duration(audio_clip.duration)
+    image_clip = image_clip.resize(height=360) # make the height 360px ( According to moviePy documenation The width is then computed so that the width/height ratio is conserved.)
     image_clip.write_videofile("my_video.mp4", fps=len(transcription.split())/audio_clip.duration)
     videoclip = VideoFileClip("my_video.mp4")
     output_clip = ImageSequenceClip(frame_list, fps=len(transcription.split())/audio_clip.duration)
     output_clip.audio = new_audioclip
     output_clip.write_videofile("output6.mp4")
     return transcription, 'output6.mp4'
 title = "Hubert"