Spaces:

akhaliq
/

hubert-xlarge-ls960-ft

Runtime error

Ahsen Khaliq commited on Sep 21, 2021

Commit

94602da

•

1 Parent(s): f7291a4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import torch
 from transformers import Wav2Vec2Processor, HubertForCTC
-import soundfile as sf
 import gradio as gr
 from moviepy.editor import *
 import cv2
 def get_optimal_font_scale(text, width):
     for scale in reversed(range(0, 60, 1)):
@@ -16,11 +16,12 @@ def get_optimal_font_scale(text, width):
 processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
 model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
-def map_to_array(file):
-    speech, _ = sf.read(file)
-    return speech
 def inference(audio, image):
-    input_values = processor(map_to_array(audio.name), return_tensors="pt").input_values  # Batch size 1
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])

 import torch
 from transformers import Wav2Vec2Processor, HubertForCTC
 import gradio as gr
 from moviepy.editor import *
 import cv2
+import librosa
 def get_optimal_font_scale(text, width):
     for scale in reversed(range(0, 60, 1)):
 processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-xlarge-ls960-ft")
 model = HubertForCTC.from_pretrained("facebook/hubert-xlarge-ls960-ft")
+#def map_to_array(file):
+    #speech, _ = sf.read(file)
+    #return speech
 def inference(audio, image):
+    y, sr = librosa.load(audio.name,sr=16000)
+    input_values = processor(y, return_tensors="pt").input_values  # Batch size 1
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.decode(predicted_ids[0])