Spaces:

Siddhant
/

Voice_Assistant_Demo

Sleeping

App Files Files Community

Siddhant commited on 1 day ago

Commit

bf1337a

•

1 Parent(s): 94b0033

handle browser refresh

Browse files

Files changed (1) hide show

app.py +35 -5

app.py CHANGED Viewed

@@ -33,6 +33,9 @@ LLM_options="meta-llama/Llama-3.2-1B-Instruct,HuggingFaceTB/SmolLM2-1.7B-Instruc
 TTS_options="kan-bayashi/ljspeech_vits,kan-bayashi/libritts_xvector_vits,kan-bayashi/vctk_multi_spk_vits,ChatTTS".split(",")
 Eval_options="Latency,TTS Intelligibility,TTS Speech Quality,ASR WER,Text Dialog Metrics"
 upload_to_hub=None
 # def read_args():
 #     global access_token
 #     global ASR_name
@@ -97,8 +100,13 @@ LLM_response_arr=[]
 total_response_arr=[]
 def handle_selection(option):
     yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     global text2speech
     tag = option
     if tag=="ChatTTS":
         text2speech = ChatTTSModel()
@@ -108,17 +116,27 @@ def handle_selection(option):
     yield gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True)
 def handle_LLM_selection(option):
     yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     global LM_pipe
     LM_pipe = HuggingFaceLLM(access_token=access_token,tag = option)
     LM_pipe.warmup()
     yield gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True)
 def handle_ASR_selection(option):
-    yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     if option=="librispeech_asr":
         option="espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp"
     global s2t
     if option=="espnet/owsm_v3.1_ebf":
         s2t = OWSMModel()
     elif option=="espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp":
@@ -180,14 +198,21 @@ def handle_type_selection(option,TTS_radio,ASR_radio,LLM_radio):
         text2speech=None
         s2t=None
         LM_pipe=None
         handle_E2E_selection()
         yield (gr.Radio(visible=False),gr.Radio(visible=False),gr.Radio(visible=False),gr.Radio(visible=True),gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True),gr.Radio(visible=False),gr.Radio(visible=True, interactive=True))
 def handle_E2E_selection():
     global client
-    client =  MiniOmniE2EModel()
-    client.warmup()
 def start_warmup():
     global client
@@ -320,7 +345,7 @@ def relevant_vote4_last_response(
 import json
 import time
-def transcribe(stream, new_chunk, option, asr_option):
     sr, y = new_chunk
     global text_str
     global chat
@@ -338,6 +363,11 @@ def transcribe(stream, new_chunk, option, asr_option):
     global LLM_response_arr
     global total_response_arr
     if stream is None:
         stream=y
         chat.init_chat({"role": "system", "content": "You are a helpful and friendly AI assistant. You are polite, respectful, and aim to provide concise and complete responses of less than 15 words."})
         text_str=""
@@ -530,7 +560,7 @@ with gr.Blocks(
         diversity_response = gr.Textbox(label="diversity_response",visible=False,interactive=False)
         ip_address = gr.Textbox(label="ip_address",visible=False,interactive=False)
         callback.setup([user_audio, output_asr_text, output_text, output_audio,output_audio1,type_radio, ASR_radio, LLM_radio, radio, E2Eradio, natural_response,diversity_response,ip_address],"flagged_data_points")
-        user_audio.stream(transcribe, inputs=[state, user_audio, radio, ASR_radio], outputs=[state, output_asr_text, output_text, output_audio, output_audio1]).then(lambda *args: callback.flag(list(args)),[user_audio], None,preprocess=False)
         radio.change(fn=handle_selection, inputs=[radio], outputs=[output_asr_text, output_text, output_audio])
         LLM_radio.change(fn=handle_LLM_selection, inputs=[LLM_radio], outputs=[output_asr_text, output_text, output_audio])
         ASR_radio.change(fn=handle_ASR_selection, inputs=[ASR_radio], outputs=[output_asr_text, output_text, output_audio])

 TTS_options="kan-bayashi/ljspeech_vits,kan-bayashi/libritts_xvector_vits,kan-bayashi/vctk_multi_spk_vits,ChatTTS".split(",")
 Eval_options="Latency,TTS Intelligibility,TTS Speech Quality,ASR WER,Text Dialog Metrics"
 upload_to_hub=None
+ASR_curr_name=None
+LLM_curr_name=None
+TTS_curr_name=None
 # def read_args():
 #     global access_token
 #     global ASR_name
 total_response_arr=[]
 def handle_selection(option):
+    global TTS_curr_name
+    if TTS_curr_name is not None:
+        if option==TTS_curr_name:
+            return
     yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     global text2speech
+    TTS_curr_name=option
     tag = option
     if tag=="ChatTTS":
         text2speech = ChatTTSModel()
     yield gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True)
 def handle_LLM_selection(option):
+    global LLM_curr_name
+    if LLM_curr_name is not None:
+        if option==LLM_curr_name:
+            return
     yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     global LM_pipe
+    LLM_curr_name=option
     LM_pipe = HuggingFaceLLM(access_token=access_token,tag = option)
     LM_pipe.warmup()
     yield gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True)
 def handle_ASR_selection(option):
+    global ASR_curr_name
     if option=="librispeech_asr":
         option="espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp"
+    if ASR_curr_name is not None:
+        if option==ASR_curr_name:
+            return
+    yield gr.Textbox(visible=False),gr.Textbox(visible=False),gr.Audio(visible=False)
     global s2t
+    ASR_curr_name=option
     if option=="espnet/owsm_v3.1_ebf":
         s2t = OWSMModel()
     elif option=="espnet/simpleoier_librispeech_asr_train_asr_conformer7_wavlm_large_raw_en_bpe5000_sp":
         text2speech=None
         s2t=None
         LM_pipe=None
+        global ASR_curr_name
+        global LLM_curr_name
+        global TTS_curr_name
+        ASR_curr_name=None
+        LLM_curr_name=None
+        TTS_curr_name=None
         handle_E2E_selection()
         yield (gr.Radio(visible=False),gr.Radio(visible=False),gr.Radio(visible=False),gr.Radio(visible=True),gr.Textbox(visible=True),gr.Textbox(visible=True),gr.Audio(visible=True),gr.Radio(visible=False),gr.Radio(visible=True, interactive=True))
 def handle_E2E_selection():
     global client
+    if client is None:
+        client =  MiniOmniE2EModel()
+        client.warmup()
 def start_warmup():
     global client
 import json
 import time
+def transcribe(stream, new_chunk, TTS_option, ASR_option, LLM_option, type_option):
     sr, y = new_chunk
     global text_str
     global chat
     global LLM_response_arr
     global total_response_arr
     if stream is None:
+        # Handle user refresh
+        # import pdb;pdb.set_trace()
+        for (_,_,_,_,asr_output_box,text_box,audio_box,_,_) in handle_type_selection(type_option,TTS_option,ASR_option,LLM_option):
+            gr.Info("The models are being reloaded due to a browser refresh.")
+            yield (stream,asr_output_box,text_box,audio_box,gr.Audio(visible=False))
         stream=y
         chat.init_chat({"role": "system", "content": "You are a helpful and friendly AI assistant. You are polite, respectful, and aim to provide concise and complete responses of less than 15 words."})
         text_str=""
         diversity_response = gr.Textbox(label="diversity_response",visible=False,interactive=False)
         ip_address = gr.Textbox(label="ip_address",visible=False,interactive=False)
         callback.setup([user_audio, output_asr_text, output_text, output_audio,output_audio1,type_radio, ASR_radio, LLM_radio, radio, E2Eradio, natural_response,diversity_response,ip_address],"flagged_data_points")
+        user_audio.stream(transcribe, inputs=[state, user_audio, radio, ASR_radio, LLM_radio, type_radio], outputs=[state, output_asr_text, output_text, output_audio, output_audio1]).then(lambda *args: callback.flag(list(args)),[user_audio], None,preprocess=False)
         radio.change(fn=handle_selection, inputs=[radio], outputs=[output_asr_text, output_text, output_audio])
         LLM_radio.change(fn=handle_LLM_selection, inputs=[LLM_radio], outputs=[output_asr_text, output_text, output_audio])
         ASR_radio.change(fn=handle_ASR_selection, inputs=[ASR_radio], outputs=[output_asr_text, output_text, output_audio])