Spaces:

jiuuee
/

my-alexa

Sleeping

jiuuee commited on May 2

Commit

4ac65aa

•

1 Parent(s): e94cc77

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import gradio as gr
 import torch
 from nemo.collections.asr.models import ASRModel
 # Load the NeMo ASR model
@@ -9,30 +11,35 @@ model.eval()
 # Load the keyword spotting model
 kws_model = torch.hub.load('snakers4/silero-vad', 'silero_vad')
-def detect_trigger(audio):
-    if audio is None:
-        raise gr.InterfaceError("Please provide some input audio: either upload an audio file or use the microphone")
-    # Perform keyword spotting
-    is_triggered = kws_model(audio)  # You need to adapt this line to the actual API of your keyword spotting model
     return is_triggered
-def transcribe_triggered(audio):
-    if audio is None:
-        raise gr.InterfaceError("Please provide some input audio: either upload an audio file or use the microphone")
-    # Check if trigger word is detected
-    is_triggered = detect_trigger(audio)
-    if not is_triggered:
-        return "Trigger word not detected."
-    # Perform speech recognition
-    transcription = model.transcribe([audio])
-    return transcription[0]
-audio_input = gr.components.Audio()
-iface = gr.Interface(transcribe_triggered, audio_input, "text", title="ASR with NeMo Canary Model (Triggered by 'Hey Alexa')")
-iface.launch()

 import gradio as gr
 import torch
+import sounddevice as sd
+import numpy as np
 from nemo.collections.asr.models import ASRModel
 # Load the NeMo ASR model
 # Load the keyword spotting model
 kws_model = torch.hub.load('snakers4/silero-vad', 'silero_vad')
+# Constants
+TRIGGER_WORD = "hey alexa"
+TRIGGER_DURATION = 2  # Duration to record after trigger word is detected, in seconds
+SAMPLE_RATE = 16000  # Sample rate for recording
+def start_recording():
+    print("Recording started...")
+    audio = sd.rec(int(TRIGGER_DURATION * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=1, dtype='float32')
+    sd.wait()
+    return audio.flatten()
+def detect_trigger(audio):
+    # Perform keyword spotting
+    is_triggered = kws_model(audio, sample_rate=SAMPLE_RATE) >= 0.5
     return is_triggered
+def transcribe_triggered():
+    while True:
+        print("Listening for trigger word...")
+        # Start recording
+        recorded_audio = start_recording()
+        # Check if trigger word is detected
+        is_triggered = detect_trigger(recorded_audio)
+        if is_triggered:
+            print("Trigger word detected. Transcribing...")
+            # Perform speech recognition
+            transcription = model.transcribe([recorded_audio])
+            return transcription[0]
+iface = gr.Interface(transcribe_triggered, gr.inputs.NoInput(), "text", title="ASR with NeMo Canary Model (Triggered by 'Hey Alexa')")
+iface.launch()