from transformers import pipeline
import gradio as gr
import time

modelo = pipeline("automatic-speech-recognition", model = "facebook/wav2vec2-large-xlsr-53-spanish")

def transcribe(audio):
    time.sleep(2)
    text = modelo(audio)["text"]
    return text

gr.Interface(
    fn=transcribe, 
    inputs=[
        gr.Audio(source="microphone", type="filepath")
    ],
    outputs=[
        "textbox",
    ],
    live=True,).launch(share=True)