Spaces:

jmd-pintor
/

MyAlexa

Sleeping

App Files Files Community

jmd-pintor commited on May 3, 2024

Commit

e12e2bc

•

1 Parent(s): 670d9ee

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -10

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 from transformers import AutoTokenizer, VitsModel
-from transformers import pipeline
 import gradio as gr
 import torch
 import numpy as np
@@ -10,10 +10,10 @@ def talk_to_alexa(audio):
     transcribed_text = convert_speech_to_text(audio)
     # Get Alexa's response
-    alexa_response = get_alexa_response(transcribed_text)
     # Convert text to speech
-    audio_output = convert_text_to_speech(alexa_response)
     return audio_output
@@ -26,9 +26,22 @@ def convert_speech_to_text(speech_inputs):
     return transcribed_text
-def get_alexa_response(text) -> str:
-    # TODO: Complete this function
-    return text
 def convert_text_to_speech(text):
     inputs = tts_tokenizer(text, return_tensors="pt")
@@ -40,15 +53,30 @@ def convert_text_to_speech(text):
 # Speech To Text
-# TODO: Replace with whisper-large-v3 once deployed
 pipe = pipeline("automatic-speech-recognition",
             "openai/whisper-large-v3",
-            torch_dtype=torch.float16)
-# # Text to Speech
 tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 tts_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 iface = gr.Interface(fn=talk_to_alexa,
                     inputs=[gr.Audio(sources=["microphone", "upload"], type="filepath"),],
                     outputs="audio",

 from transformers import AutoTokenizer, VitsModel
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 import gradio as gr
 import torch
 import numpy as np
     transcribed_text = convert_speech_to_text(audio)
     # Get Alexa's response
+    instruction_response = get_instruction_response(transcribed_text)
     # Convert text to speech
+    audio_output = convert_text_to_speech(instruction_response)
     return audio_output
     return transcribed_text
+def get_instruction_response(text) -> str:
+    generation_args = {
+        "max_new_tokens": 500,
+        "return_full_text": False,
+        "temperature": 0.0,
+        "do_sample": False,
+    }
+    messages = [
+        {"role": "user", "content": text},
+    ]
+    output = instruction_pipe(messages, **generation_args)
+    print(output[0]['generated_text'])
+    return output[0]['generated_text']
 def convert_text_to_speech(text):
     inputs = tts_tokenizer(text, return_tensors="pt")
 # Speech To Text
 pipe = pipeline("automatic-speech-recognition",
             "openai/whisper-large-v3",
+            torch_dtype=torch.float32)
+# Instruction Resposne
+instr_model = AutoModelForCausalLM.from_pretrained(
+    "microsoft/Phi-3-mini-128k-instruct",
+    device_map="cuda",
+    torch_dtype="auto",
+    trust_remote_code=True,
+)
+instr_tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-128k-instruct")
+instruction_pipe = pipeline(
+    "text-generation",
+    model=instr_model,
+    tokenizer=instr_tokenizer,
+)
+# Text to Speech
 tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 tts_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
+# Interface
 iface = gr.Interface(fn=talk_to_alexa,
                     inputs=[gr.Audio(sources=["microphone", "upload"], type="filepath"),],
                     outputs="audio",