Spaces:

facebook
/

XLS-R-300m-EN-15

Build error

App Files Files Community

patrickvonplaten commited on Dec 10, 2021

Commit

00349e4

•

1 Parent(s): 5b8b578

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -6

app.py CHANGED Viewed

@@ -2,9 +2,11 @@ import gradio as gr
 import librosa
 from transformers import AutoFeatureExtractor, AutoTokenizer, SpeechEncoderDecoderModel
-feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
-tokenizer = AutoTokenizer.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15", use_fast=False)
-model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
 def process_audio_file(file):
     data, sr = librosa.load(file)
@@ -14,11 +16,18 @@ def process_audio_file(file):
     input_values = feature_extractor(data, return_tensors="pt").input_values
     return input_values
-def transcribe(file, target_language):
     target_code = target_language.split("(")[-1].split(")")[0]
     forced_bos_token_id = MAPPING[target_code]
     input_values = process_audio_file(file)
     sequences = model.generate(input_values, forced_bos_token_id=forced_bos_token_id)
@@ -65,7 +74,8 @@ MAPPING = {
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
-        gr.inputs.Audio(source="microphone", type='filepath'),
         gr.inputs.Dropdown(target_language),
     ],
     outputs="text",

 import librosa
 from transformers import AutoFeatureExtractor, AutoTokenizer, SpeechEncoderDecoderModel
+# feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
+# tokenizer = AutoTokenizer.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15", use_fast=False)
+# model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
+feature_extractor = tokenizer = model = None
 def process_audio_file(file):
     data, sr = librosa.load(file)
     input_values = feature_extractor(data, return_tensors="pt").input_values
     return input_values
+def transcribe(file_mic, file_upload, target_language):
     target_code = target_language.split("(")[-1].split(")")[0]
     forced_bos_token_id = MAPPING[target_code]
+    if file_mic is not None and file_upload is not None:
+       print("Warning: You've uploaded an audio file and used the microphone. The recorded file from the microphone will be used and the uploaded audio will be discarded.")
+    elif file_mic is None and file_upload is None:
+       raise ValueError("You have to either use the microphone or upload an audio file")
+    file = file_mic or file_upload
     input_values = process_audio_file(file)
     sequences = model.generate(input_values, forced_bos_token_id=forced_bos_token_id)
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
+        gr.inputs.Audio(source="microphone", type='filepath_mic', optional=True),
+        gr.inputs.Audio(source="upload", type='filepath_upload', optional=True),
         gr.inputs.Dropdown(target_language),
     ],
     outputs="text",