Spaces:

pablo-sampaio
/

futeboy

Sleeping

App Files Files Community

Pablo Sampaio commited on Apr 22

Commit

b2a1255

•

1 Parent(s): fd22ae3

Correções

Browse files

Files changed (1) hide show

app.py +25 -24

app.py CHANGED Viewed

@@ -4,16 +4,19 @@ import gradio as gr
 from openai import OpenAI
-LOAD_SHARED_KEY = True
-# Load OpenAI API key, if the file exists
-if LOAD_SHARED_KEY and os.path.exists('KEY_OPENAI'):
     with open('KEY_OPENAI', 'r') as file:
         os.environ['OPENAI_API_KEY'] = file.read().replace('\n', '')
-else:
-    LOAD_SHARED_KEY = False
-AUDIO_OUTPUT_FILE = "output"   # prefixo do nome do arquivo de áudio .wav
 TEMPLATE_SYSTEM_MESSAGE = """Sua função é entreter uma criança com idade entre 6 e 8 anos que adora futebol. Diretrizes para a conversa:
 - Seu nome é {NAME}
@@ -59,7 +62,7 @@ def respond(system_prompt, user_message, chat_history, temperature, voice="echo"
             input=assistant_msg
         )
-        output_audio_file = f"{AUDIO_OUTPUT_FILE}-{len(chat_history)+1:03}.wav"
         #response.stream_to_file(output_audio_file)
         response.write_to_file(output_audio_file)
@@ -72,7 +75,7 @@ def respond(system_prompt, user_message, chat_history, temperature, voice="echo"
 def reset_and_apply(openai_key, voice):
     global OPENAI_CLIENT
     OPENAI_CLIENT = OpenAI(api_key=openai_key)
-    return [("", "Olá, vamos falar de futebol?")], AUDIO_OUTPUT_FILE + f"-001-{voice}.wav"
 def reset_openai_client(openai_key):
     global OPENAI_CLIENT
@@ -83,31 +86,30 @@ def on_voice_change(voice):
     return TEMPLATE_SYSTEM_MESSAGE.format(NAME=voice.upper(), PERSONALITY=persona_description), persona_temperature
-USE_ASR_PIPELINE = False
-# With Pipeline (downloaded model)
-if USE_ASR_PIPELINE:
     from transformers import pipeline
     import numpy as np
     global ASR_PIPELINE
-    ASR_PIPELINE = pipeline(task="automatic-speech-recognition",
-               model="distil-whisper/distil-small.en")
 else:
     import requests
-    with open('KEY_HF', 'r') as file:
-        HF_KEY = file.read().replace('\n', '')
     global ASR_API_URL, ASR_API_HEADERS
     # Serverless API endpoint for OpenAI's Whisper model
     ASR_API_URL = "https://api-inference.huggingface.co/models/openai/whisper-large-v3"
     ASR_API_HEADERS = {"Authorization": f"Bearer {HF_KEY}"}
 def transcribe(audio_in):
-    if USE_ASR_PIPELINE:
         # sampling rate and audio data
         sr, y = audio_in
         y2 = y.astype(np.float32)
@@ -128,7 +130,6 @@ def transcribe_and_respond(audio_in, system_txtbox, user_msg_txb, *args):
     user_message = transcribe(audio_in)
     outputs = respond(system_txtbox, user_message, *args)
     return outputs
-    #return *outputs, audio_in
 OPENAI_CLIENT = None
@@ -143,10 +144,10 @@ with gr.Blocks() as demo:
     audio_out = gr.Audio(label="Escute a última mensagem", value=initial_audio, autoplay=True, interactive=False)
     user_msg_txb = gr.Textbox(label="Mensagem")
-    #if USE_ASR_PIPELINE:
-    #    audio_in = gr.Audio(label="Mensagem de Áudio", sources=['microphone'], interactive=True, type='numpy')
-    #else:
-    #    audio_in = gr.Audio(label="Mensagem de Áudio", sources=['microphone'], interactive=True, type='filepath')
     submit_btn = gr.Button("Enviar")
@@ -154,7 +155,7 @@ with gr.Blocks() as demo:
     reset_btn = gr.Button("Reiniciar")
     with gr.Accordion(label="Configurações",open=False):
-        if LOAD_SHARED_KEY:
             openai_key = gr.Textbox(label="OPENAI API Key", value=os.environ['OPENAI_API_KEY'])
         else:
             openai_key = gr.Textbox(label="OPENAI API Key", placeholder="Insert your API key here")

 from openai import OpenAI
+LOAD_KEYS_FROM_FILES = True
+if LOAD_KEYS_FROM_FILES:
+    # Load OpenAI API key
     with open('KEY_OPENAI', 'r') as file:
         os.environ['OPENAI_API_KEY'] = file.read().replace('\n', '')
+    # Hugging Face API key, used for the serverless access to ASR model
+    with open('KEY_HF', 'r') as file:
+        os.environ['HUGGINGFACE_API_KEY'] = file.read().replace('\n', '')
+AUDIO_OUT_FILE_PREFIX = "output"   # prefixo do nome do arquivo de áudio .wav
 TEMPLATE_SYSTEM_MESSAGE = """Sua função é entreter uma criança com idade entre 6 e 8 anos que adora futebol. Diretrizes para a conversa:
 - Seu nome é {NAME}
             input=assistant_msg
         )
+        output_audio_file = f"{AUDIO_OUT_FILE_PREFIX}-{len(chat_history)+1:03}.wav"
         #response.stream_to_file(output_audio_file)
         response.write_to_file(output_audio_file)
 def reset_and_apply(openai_key, voice):
     global OPENAI_CLIENT
     OPENAI_CLIENT = OpenAI(api_key=openai_key)
+    return [("", "Olá, vamos falar de futebol?")], AUDIO_OUT_FILE_PREFIX + f"-001-{voice}.wav"
 def reset_openai_client(openai_key):
     global OPENAI_CLIENT
     return TEMPLATE_SYSTEM_MESSAGE.format(NAME=voice.upper(), PERSONALITY=persona_description), persona_temperature
+USE_LOCAL_ASR_PIPELINE = True
+# With pipeline (downloaded model)
+if USE_LOCAL_ASR_PIPELINE:
     from transformers import pipeline
     import numpy as np
     global ASR_PIPELINE
+    ASR_PIPELINE = pipeline(task="automatic-speech-recognition",
+                            model="openai/whisper-large-v3")
+                            #model="distil-whisper/distil-small.en") # English only
 else:
     import requests
     global ASR_API_URL, ASR_API_HEADERS
+    HF_KEY = os.environ['HUGGINGFACE_API_KEY']
     # Serverless API endpoint for OpenAI's Whisper model
     ASR_API_URL = "https://api-inference.huggingface.co/models/openai/whisper-large-v3"
     ASR_API_HEADERS = {"Authorization": f"Bearer {HF_KEY}"}
 def transcribe(audio_in):
+    if USE_LOCAL_ASR_PIPELINE:
         # sampling rate and audio data
         sr, y = audio_in
         y2 = y.astype(np.float32)
     user_message = transcribe(audio_in)
     outputs = respond(system_txtbox, user_message, *args)
     return outputs
 OPENAI_CLIENT = None
     audio_out = gr.Audio(label="Escute a última mensagem", value=initial_audio, autoplay=True, interactive=False)
     user_msg_txb = gr.Textbox(label="Mensagem")
+    if USE_LOCAL_ASR_PIPELINE:
+        audio_in = gr.Audio(label="Mensagem de Áudio", sources=['microphone'], interactive=True, type='numpy')
+    else:
+        audio_in = gr.Audio(label="Mensagem de Áudio", sources=['microphone'], interactive=True, type='filepath')
     submit_btn = gr.Button("Enviar")
     reset_btn = gr.Button("Reiniciar")
     with gr.Accordion(label="Configurações",open=False):
+        if LOAD_KEYS_FROM_FILES:
             openai_key = gr.Textbox(label="OPENAI API Key", value=os.environ['OPENAI_API_KEY'])
         else:
             openai_key = gr.Textbox(label="OPENAI API Key", placeholder="Insert your API key here")