Spaces:

camanalo1
/

MyAlexaExperiment

Sleeping

camanalo1 commited on May 1

Commit

e0fe085

•

1 Parent(s): 6ab814a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,18 +1,12 @@
 import gradio as gr
-import numpy as np
 from transformers import pipeline, VitsTokenizer, VitsModel, set_seed
 import torch
 import io
 import soundfile as sf
-from nemo.collections.asr.models import EncDecMultiTaskModel
-# Load the ASR model
-canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b')
-# Update decoding parameters
-decode_cfg = canary_model.cfg.decoding
-decode_cfg.beam.beam_size = 1
-canary_model.change_decoding_strategy(decode_cfg)
 # Initialize LLM pipeline
 generator = pipeline("text-generation", model="microsoft/Phi-3-mini-128k-instruct", trust_remote_code=True)
@@ -27,10 +21,10 @@ def transcribe_generate_and_speak(audio):
     y /= np.max(np.abs(y))
     # Transcribe audio
-    asr_output = canary_model.transcribe([y], [sr])
     # Generate text based on ASR output
-    generated_text = generator(asr_output[0])[0]['generated_text']
     # Generate audio from text
     inputs = tokenizer(text=generated_text, return_tensors="pt")

 import gradio as gr
 from transformers import pipeline, VitsTokenizer, VitsModel, set_seed
+import numpy as np
 import torch
 import io
 import soundfile as sf
+# Initialize ASR pipeline
+transcriber = pipeline("automatic-speech-recognition", model="facebook/s2t-small-librispeech-asr")
 # Initialize LLM pipeline
 generator = pipeline("text-generation", model="microsoft/Phi-3-mini-128k-instruct", trust_remote_code=True)
     y /= np.max(np.abs(y))
     # Transcribe audio
+    asr_output = transcriber({"sampling_rate": sr, "raw": y})["text"]
     # Generate text based on ASR output
+    generated_text = generator(asr_output, max_length=100, num_return_sequences=1)[0]['generated_text']
     # Generate audio from text
     inputs = tokenizer(text=generated_text, return_tensors="pt")