Spaces:

goaicorp
/

CarrOps-Langue-Moore

Runtime error

App Files Files Community

ArissBandoss commited on Aug 2, 2024

Commit

72ee981

verified ·

1 Parent(s): ec40abc

Upload 9 files

Browse files

Files changed (9) hide show

app.py +70 -0
example1.mp3 +0 -0
example2.mp3 +0 -0
example3.mp3 +0 -0
example4.mp3 +0 -0
goai_stt.py +60 -0
goai_traduction.py +21 -0
goai_tts.py +41 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import torch
+import scipy
+import gradio as gr
+from transformers import set_seed
+from datasets import load_dataset, Audio
+import  goai_stt, goai_tts, goai_traduction
+#language_list = ['mos', 'fra', 'eng']
+device = 0 if torch.cuda.is_available() else "cpu"
+demo = gr.Blocks()
+goai_stt = gr.Interface(
+    fn = goai_stt.goai_stt,
+    inputs=[
+        gr.Audio(sources=["microphone", "upload"], type="numpy")
+    ],
+    outputs="text",
+    examples=[["./example1.mp3", "a ye ligdi"],
+              ["./example2.mp3", "zoe nimbãanega"],
+              ["./example3.mp3", "zãng-zãnga"],
+              ["./example4.mp3", "yõk foto"]
+             ],
+    title="Transcription Mooré: audio vers texte",
+    description="Démo de transcription de la parole vers le texte en langage Mooré. Enregistrez l'audio à partir de votre micro ou uploadez-le depuis votre appareil!",
+)
+goai_tts = gr.Interface(
+    fn=goai_tts.goai_tts,
+    inputs=[
+        gr.Text(label="Input text")
+    ],
+    outputs=[
+        gr.Audio(label="Generated Audio", type="numpy")
+    ],
+    examples=[["a ye ligdi"],
+              ["zoe nimbãanega "],
+              ["zãng-zãnga"],
+              ["yõk foto"]
+             ],
+    title="Synthèse vocale Mooré: texte vers audio",
+    description="Démo de synthèse vocale d'un texte en langage Mooré!",
+)
+goai_traduction = gr.Interface(
+    fn=goai_traduction.goai_traduction,
+    inputs=[
+        gr.Textbox(label="Text", placeholder="Yaa sõama"),
+        gr.Dropdown(label="Source Language", choices=["eng_Latn", "fra_Latn", "mos_Latn"]),
+        gr.Dropdown(label="Target Language", choices=["eng_Latn", "fra_Latn", "mos_Latn"])
+    ],
+    outputs=["text"],
+    examples=[["Yʋʋm a wãn la b kẽesd biig lekolle?", "mos_Latn", "fra_Latn"],
+              ["Zak-soab la kasma.", "mos_Latn", "fra_Latn"],
+              ["Le gouvernement avait pris des mesures louables par rapport à l’augmentation des prix de certaines denrées alimentaires.", "fra_Latn", "mos_Latn"],
+              ["Comme lors du match face à la Côte d’Ivoire, c’est sur un coup de pied arrêté que les Etalons encaissent leur but.", "fra_Latn", "mos_Latn"],
+    ],
+    title="Traduction du Mooré: texte vers texte",
+    description="Démo de traduction d'un texte en langage Mooré à partir de l'anglais ou du francais!",
+)
+with demo:
+    gr.TabbedInterface(
+        [goai_traduction, goai_tts, goai_stt],
+        ["Traduction", "Text-2-speech", "Speech-2-text"],
+    )
+demo.launch()

example1.mp3 ADDED Viewed

Binary file (11.1 kB). View file

example2.mp3 ADDED Viewed

Binary file (15.7 kB). View file

example3.mp3 ADDED Viewed

Binary file (11.6 kB). View file

example4.mp3 ADDED Viewed

Binary file (9.23 kB). View file

goai_stt.py ADDED Viewed

	@@ -0,0 +1,60 @@

+import torch
+import librosa
+import time
+from transformers import set_seed, Wav2Vec2ForCTC, AutoProcessor
+import numpy as np
+device = 0 if torch.cuda.is_available() else "cpu"
+def goai_stt(fichier):
+    """
+    Transcrire un fichier audio donné.
+    Paramètres
+    ----------
+    fichier: str | tuple[int, np.ndarray]
+        Le chemin d'accès au fichier audio ou le tuple contenant le taux d'échantillonnage et les données audio.
+    Return
+    ----------
+    transcript: str
+        Le texte transcrit.
+    """
+    print("Fichier entré en entréé ---------> ", fichier)
+    if fichier is None:
+        raise ValueError("Le fichier audio est manquant.")
+    ### assurer reproducibilité
+    set_seed(2024)
+    start_time = time.time()
+    ### charger le modèle de transcription
+    model_id = "anyantudre/wav2vec2-large-mms-1b-mos-V1"
+    processor = AutoProcessor.from_pretrained(model_id)
+    model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang="mos", ignore_mismatched_sizes=True).to(device)
+    if isinstance(fichier, str):
+        ### preprocessing de l'audio à partir d'un fichier
+        signal, sampling_rate = librosa.load(fichier, sr=16000)
+    else:
+        ### preprocessing de l'audio à partir d'un tableau numpy
+        sampling_rate, signal = fichier
+    # Convert the signal to float32
+    signal = signal.astype(np.float32)
+    inputs = processor(signal, sampling_rate=16000, return_tensors="pt", padding=True).to(device)
+    ### faire l'inference
+    with torch.no_grad():
+        outputs = model(**inputs).logits
+    pred_ids = torch.argmax(outputs, dim=-1)[0]
+    transcription = processor.decode(pred_ids)
+    print("Temps écoulé: ", int(time.time() - start_time), " secondes")
+    return transcription

goai_traduction.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import torch
+from transformers import pipeline
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+max_length = 512
+device = 0 if torch.cuda.is_available() else "cpu"
+model_id = "ArissBandoss/nllb-200-distilled-600M-finetuned-fr-to-mos-V1"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model     = AutoModelForSeq2SeqLM.from_pretrained(model_id)
+def goai_traduction(text, src_lang, tgt_lang):
+  trans_pipe = pipeline("translation",
+                        model=model, tokenizer=tokenizer,
+                        src_lang=src_lang, tgt_lang=tgt_lang,
+                        max_length=max_length,
+                        device=device
+                       )
+  return trans_pipe(text)[0]["translation_text"]

goai_tts.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import time
+import torch
+import numpy as np
+import scipy.io.wavfile
+from transformers import pipeline, set_seed
+device = 0 if torch.cuda.is_available() else "cpu"
+def goai_tts(texte):
+    """
+    Pour un texte donné, donner le speech en Mooré correspondant
+    Paramètres
+    ----------
+    texte: str
+        Le texte écrit.
+    Return
+    ------
+        Un tuple contenant le taux d'échantillonnage et les données audio sous forme de tableau numpy.
+    """
+    ### assurer la reproductibilité
+    set_seed(2024)
+    start_time = time.time()
+    ### charger le modèle TTS
+    model_id = "anyantudre/mms-tts-mos-V1"
+    synthesiser = pipeline("text-to-speech", model_id, device=device)
+    ### inférence
+    speech = synthesiser(texte)
+    sample_rate = speech["sampling_rate"]
+    audio_data = np.array(speech["audio"][0], dtype=float)
+    print("Temps écoulé: ", int(time.time() - start_time), " secondes")
+    return sample_rate, audio_data

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+datasets
+librosa
+pycountry
+scipy
+sentencepiece
+transformers
+torch
+gradio