Spaces:

camanalo1
/

MyAlexaExperiment

Sleeping

camanalo1 commited on May 1

Commit

4ba3d10

•

1 Parent(s): 581c54f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,15 +1,20 @@
 import gradio as gr
-from transformers import pipeline, VitsTokenizer, VitsModel, set_seed
 import numpy as np
 import torch
 import io
 import soundfile as sf
-# Initialize ASR pipeline
-transcriber = pipeline("automatic-speech-recognition", model="facebook/s2t-small-librispeech-asr")
 # Initialize LLM pipeline
-generator = pipeline("text-generation", model="microsoft/Phi-3-mini-128k-instruct", trust_remote_code=True)
 # Initialize TTS tokenizer and model
 tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
@@ -21,10 +26,10 @@ def transcribe_generate_and_speak(audio):
     y /= np.max(np.abs(y))
     # Transcribe audio
-    asr_output = transcriber({"sampling_rate": sr, "raw": y})["text"]
     # Generate text based on ASR output
-    generated_text = generator(asr_output, max_length=100, num_return_sequences=1)[0]['generated_text']
     # Generate audio from text
     inputs = tokenizer(text=generated_text, return_tensors="pt")

 import gradio as gr
 import numpy as np
 import torch
 import io
 import soundfile as sf
+from nemo.collections.asr.models import EncDecMultiTaskModel
+# Load the ASR model
+canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
+# Update decoding parameters
+decode_cfg = canary_model.cfg.decoding
+decode_cfg.beam.beam_size = 1
+canary_model.change_decoding_strategy(decode_cfg)
 # Initialize LLM pipeline
+generator = pipeline("text-generation", model="microsoft/Phi-3-mini-4k-instruct", trust_remote_code=True)
 # Initialize TTS tokenizer and model
 tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
     y /= np.max(np.abs(y))
     # Transcribe audio
+    asr_output = canary_model.transcribe([y], [sr])
     # Generate text based on ASR output
+    generated_text = generator(asr_output[0])[0]['generated_text']
     # Generate audio from text
     inputs = tokenizer(text=generated_text, return_tensors="pt")