dtp-asr-demo-v2

Running

App Files Files Community

anderbogia commited on Jun 28, 2023

Commit

040ebdb

1 Parent(s): be60470

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -17

app.py CHANGED Viewed

@@ -1,10 +1,8 @@
 import os
-os.system("pip install numpy==1.18.5") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
 os.system("pip install torch accelerate torchaudio datasets librosa easymms")
-#Transformers have a bug somewhere that conflicts with Numpy v1.19.0 and above.
 import gradio as gr
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
 from datasets import load_dataset, Audio, Dataset
@@ -12,14 +10,14 @@ import torch
 import librosa #For converting audio sample rate to 16k
 from easymms.models.tts import TTSModel #For TTS inference using EasyMMS
 model_id = "facebook/mms-1b-all"
 #Set target language to dtp (Kadazandusun)
 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id).to("cpu")
-processor.tokenizer.set_target_lang("dtp") #Change dtp to tih for Timugon Murut or iba for Iban
-model.load_adapter("dtp")
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
@@ -30,21 +28,18 @@ def preprocess(input): #Sets recording sampling rate to 16k and returns numpy nd
   audio_to_array = loaded_audio[0]["audio"]["array"]
   return audio_to_array
-def transcribe(input): #Gradio UI wrapper function
-    audioarray = preprocess(input) #Call preprocessor function
-    out = run(audioarray)
-    return out
-    #transcription = asr_pipeline(audioarray)
-    #return transcription["text"]
 def run(input):
-    inputs = processor(input, sampling_rate=16_000, return_tensors="pt")#.to("cuda")
     with torch.no_grad():
         outputs = model(**inputs).logits
     ids = torch.argmax(outputs, dim=-1)[0]
     transcription = processor.decode(ids)
     return transcription
 with gr.Blocks(theme = gr.themes.Soft()) as demo:
     gr.HTML(
@@ -68,7 +63,7 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
 </div></h6>
         """)
-    tts = TTSModel('dtp')
     def fn2(input):
         res = tts.synthesize(input)
@@ -87,11 +82,10 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
           """)
       with gr.Column(scale = 4):
           with gr.Tab("Rolou kumaa ginarit"):
-              #input = gr.components.Textbox(placeholder = "Potutakai suat nu hiti | Type something here")
               input = gr.components.Audio(source = "microphone", label = "Gakamai rolou nu")
               output = gr.components.Textbox(label = "Dalinsuat")
               button1 = gr.Button("Dalinsuato' | Transcribe")
-              button1.click(run, inputs = input, outputs = output)
           with gr.Tab("Ginarit kumaa rolou"):
               input = gr.components.Textbox(label = "Ginarit", placeholder = "Potutakai suat nu hiti")

 import os
+os.system("pip install numpy==1.23.0") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
 os.system("pip install torch accelerate torchaudio datasets librosa easymms")
 import gradio as gr
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
 from datasets import load_dataset, Audio, Dataset
 import librosa #For converting audio sample rate to 16k
 from easymms.models.tts import TTSModel #For TTS inference using EasyMMS
+LANG = "dtp"
 model_id = "facebook/mms-1b-all"
 #Set target language to dtp (Kadazandusun)
 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id).to("cpu")
+processor.tokenizer.set_target_lang(LANG)
+model.load_adapter(LANG)
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
   audio_to_array = loaded_audio[0]["audio"]["array"]
   return audio_to_array
 def run(input):
+    inputs = processor(input, sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
         outputs = model(**inputs).logits
     ids = torch.argmax(outputs, dim=-1)[0]
     transcription = processor.decode(ids)
     return transcription
+def transcribe(input): #Gradio UI wrapper function
+    audioarray = preprocess(input) #Call preprocessor function
+    out = run(audioarray)
+    return out
 with gr.Blocks(theme = gr.themes.Soft()) as demo:
     gr.HTML(
 </div></h6>
         """)
+    tts = TTSModel(LANG)
     def fn2(input):
         res = tts.synthesize(input)
           """)
       with gr.Column(scale = 4):
           with gr.Tab("Rolou kumaa ginarit"):
               input = gr.components.Audio(source = "microphone", label = "Gakamai rolou nu")
               output = gr.components.Textbox(label = "Dalinsuat")
               button1 = gr.Button("Dalinsuato' | Transcribe")
+              button1.click(transcribe, inputs = input, outputs = output)
           with gr.Tab("Ginarit kumaa rolou"):
               input = gr.components.Textbox(label = "Ginarit", placeholder = "Potutakai suat nu hiti")