import gradio as gr
from transformers import pipeline
import numpy as np

transcriber = pipeline("automatic-speech-recognition", model="jonatasgrosman/wav2vec2-large-xlsr-53-arabic")

def transcribe(audio):
    sr, y = audio
    y = y.astype(np.float32)
    y /= np.max(np.abs(y))

    return transcriber({"sampling_rate": sr, "raw": y})["text"]


# demo = gr.Interface(
#     transcribe,
#     gr.Audio(sources=["microphone"]),
#     "text", title="S2T: Transcription automatique de l'arabe en text by PS-WADE", 
#     description="Utilisez le microphone pour parler en arabe, puis appuyez sur le bouton stop et Submit"
# )

demo = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(sources=["microphone"], label="Enregistrement Audio"),
    outputs=gr.Textbox(label="Texte en Arabe"),
    title="S2T: Transcription automatique de l'arabe en texte par PS-WADE",
    description="Utilisez le microphone pour parler en arabe, puis appuyez sur le bouton stop et Submit pour voir la transcription."
)

demo.launch(show_error=True, share=True)