Spaces:

dlflannery
/

GradioTest

Running

App Files Files Community

dlflannery commited on Aug 30, 2024

Commit

f30621f

verified ·

1 Parent(s): 6519c62

Update app.py

Browse files

chunked audio output

Files changed (1) hide show

app.py +47 -12

app.py CHANGED Viewed

@@ -28,6 +28,9 @@ speak_file = dataDir + "speek.wav"
 client = OpenAI(api_key = key)
 def genUsageStats(do_reset=False):
     result = []
     ttotal4o_in = 0
@@ -176,13 +179,14 @@ def transcribe(user, pwd, fpath):
 def pause_message():
     return "Audio input is paused.  Resume or Stop as desired"
-def gen_output_audio(txt):
-    if len(txt) < 10:
-        txt = "This dialog is too short to mess with!"
-    response = client.audio.speech.create(model="tts-1", voice="fable", input=txt)
-    with open(speak_file, 'wb') as fp:
-        fp.write(response.content)
-    return speak_file
 def set_speak_button(txt):
     vis = False
@@ -190,11 +194,41 @@ def set_speak_button(txt):
         vis = True
     return gr.Button(visible=vis)
-def delete_speak_file():
     if os.path.exists(speak_file):
         os.remove(speak_file)
 with gr.Blocks() as demo:
     history = gr.State([])
     password = gr.State("")
     model = gr.State("gpt-4o-mini")
@@ -215,11 +249,11 @@ with gr.Blocks() as demo:
         clear_button = gr.Button(value="Restart Conversation")
         # gpt_chooser=gr.Radio(choices=[("GPT-3.5","gpt-3.5-turbo"),("GPT-4o","gpt-4o-mini")],
         #                      value="gpt-3.5-turbo", label="GPT Model", interactive=True)
-        submit_window = gr.Button(value="Submit Prompt/Question")
         speak_output = gr.Button(value="Speak Dialog", visible=False)
     prompt_window = gr.Textbox(label = "Prompt or Question")
     output_window = gr.Textbox(label = "Dialog")
-    submit_window.click(chat, inputs=[prompt_window, user_window, password, history, output_window, model],
                          outputs=[history, output_window, prompt_window, model])
     clear_button.click(clear, inputs=[], outputs=[prompt_window, history, output_window])
     audio_widget.stop_recording(fn=transcribe, inputs=[user_window, password, audio_widget],
@@ -227,7 +261,8 @@ with gr.Blocks() as demo:
     audio_widget.pause_recording(fn=pause_message, outputs=[prompt_window])
     reset_button.add(audio_widget)
     audio_out = gr.Audio(autoplay=True, visible=False)
-    speak_output.click(gen_output_audio, output_window, audio_out)
     output_window.change(fn=set_speak_button, inputs=output_window,outputs=speak_output)
-    demo.unload(delete_speak_file)
 demo.launch(share=True)

 client = OpenAI(api_key = key)
+words_out = []
+index = 0
 def genUsageStats(do_reset=False):
     result = []
     ttotal4o_in = 0
 def pause_message():
     return "Audio input is paused.  Resume or Stop as desired"
+# def gen_output_audio(txt):
+#     if len(txt) < 10:
+#         txt = "This dialog is too short to mess with!"
+#     response = client.audio.speech.create(model="tts-1", voice="fable", input=txt)
+#     with open(speak_file, 'wb') as fp:
+#         fp.write(response.content)
+#     return speak_file
 def set_speak_button(txt):
     vis = False
         vis = True
     return gr.Button(visible=vis)
+def clean_up():
+    global words_out, index
     if os.path.exists(speak_file):
         os.remove(speak_file)
+    words_out=[]
+    index=0
 with gr.Blocks() as demo:
+    def initial_audio_output(txt):
+        global words_out, index
+        index = 0
+        words_out = txt.strip(' .').split('.')
+        chunk = words_out[0]
+        if chunk.strip() == '':
+            return gr.Audio(sources=None)
+        response = client.audio.speech.create(model="tts-1", voice="fable", input=chunk, speed=0.8)
+        index += 1
+        with open(speak_file, 'wb') as fp:
+            fp.write(response.content)
+        return speak_file
+    def gen_output_audio():
+        global words_out, index
+        if index >= len(words_out):
+            return gr.Audio(sources=None)
+        chunk = words_out[index]
+        if chunk.strip() == '':
+            return gr.Audio(sources=None)
+        response = client.audio.speech.create(model="tts-1", voice="fable", input=chunk, speed=0.8)
+        index += 1
+        with open(speak_file, 'wb') as fp:
+            fp.write(response.content)
+        return speak_file
     history = gr.State([])
     password = gr.State("")
     model = gr.State("gpt-4o-mini")
         clear_button = gr.Button(value="Restart Conversation")
         # gpt_chooser=gr.Radio(choices=[("GPT-3.5","gpt-3.5-turbo"),("GPT-4o","gpt-4o-mini")],
         #                      value="gpt-3.5-turbo", label="GPT Model", interactive=True)
+        submit_button = gr.Button(value="Submit Prompt/Question")
         speak_output = gr.Button(value="Speak Dialog", visible=False)
     prompt_window = gr.Textbox(label = "Prompt or Question")
     output_window = gr.Textbox(label = "Dialog")
+    submit_button.click(chat, inputs=[prompt_window, user_window, password, history, output_window, model],
                          outputs=[history, output_window, prompt_window, model])
     clear_button.click(clear, inputs=[], outputs=[prompt_window, history, output_window])
     audio_widget.stop_recording(fn=transcribe, inputs=[user_window, password, audio_widget],
     audio_widget.pause_recording(fn=pause_message, outputs=[prompt_window])
     reset_button.add(audio_widget)
     audio_out = gr.Audio(autoplay=True, visible=False)
+    audio_out.stop(fn=gen_output_audio, inputs=None, outputs = audio_out)
+    speak_output.click(fn=initial_audio_output, inputs=output_window, outputs=audio_out)
     output_window.change(fn=set_speak_button, inputs=output_window,outputs=speak_output)
+    demo.unload(clean_up)
 demo.launch(share=True)