Spaces:

XiaomiMiMo
/

mimo_audio_chat

Running on CPU Upgrade

yanyihan-xiaomi commited on Oct 25

Commit

457ae0e

1 Parent(s): 5a5c0e1

Refactor VAD initialization and processing logic

- Added global VAD instance and locking mechanism.
- Updated RealtimeVAD to use global VAD for processing.
- Implemented warmup procedure for VAD initialization.

Files changed (1) hide show

webrtc_vad.py +54 -8

webrtc_vad.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from dataclasses import dataclass
 from typing import Callable, Generator, override
@@ -13,11 +14,31 @@ class VADEvent:
     full_audio: tuple[int, np.ndarray] | None = None
 class RealtimeVAD:
     def __init__(
         self,
         src_sr: int = 24000,
-        hop_size: int = 256,
         start_threshold: float = 0.8,
         end_threshold: float = 0.7,
         pad_start_s: float = 0.6,
@@ -26,15 +47,13 @@ class RealtimeVAD:
     ):
         self.src_sr = src_sr
         self.vad_sr = 16000
-        self.hop_size = hop_size
         self.start_threshold = start_threshold
         self.end_threshold = end_threshold
         self.pad_start_s = pad_start_s
         self.min_positive_s = min_positive_s
         self.min_silence_s = min_silence_s
-        self.vad_model = TenVad(hop_size=hop_size)
         self.vad_buffer = np.array([], dtype=np.int16)
         """
         VAD Buffer to store audio data for VAD processing
@@ -56,9 +75,6 @@ class RealtimeVAD:
         self.sum_positive_s = 0.0
         self.silence_start_s: float | None = None
-        # Warmup
-        self.vad_model.process(np.zeros(hop_size, dtype=np.int16))
     def process(self, audio_data: np.ndarray):
         if audio_data.ndim == 2:
             # FastRTC style [channels, samples]
@@ -77,7 +93,7 @@ class RealtimeVAD:
         vad_buffer_size = self.vad_buffer.shape[0]
         def process_chunk(chunk_offset_s: float, vad_chunk: np.ndarray):
-            speech_prob, _ = self.vad_model.process(vad_chunk)
             hop_s = self.hop_size / self.vad_sr
@@ -133,6 +149,7 @@ class RealtimeVAD:
                 self.sum_positive_s = 0.0
                 self.silence_start_s = None
         for chunk_pos in range(0, vad_buffer_size - self.hop_size, self.hop_size):
             processed_samples = chunk_pos + self.hop_size
             chunk_offset_s = (self.vad_buffer_offset + chunk_pos) / self.vad_sr
@@ -143,6 +160,33 @@ class RealtimeVAD:
         self.vad_buffer_offset += processed_samples
 type StreamerGenerator = Generator[fastrtc.tracks.EmitType, None, None]
 type StreamerFn = Callable[[tuple[int, np.ndarray], str], StreamerGenerator]
@@ -164,6 +208,8 @@ class VADStreamHandler(fastrtc.StreamHandler):
         self.realtime_vad = RealtimeVAD(src_sr=input_sample_rate)
         self.generator: StreamerGenerator | None = None
     @override
     def emit(self) -> fastrtc.tracks.EmitType:
         if self.generator is None:

+import threading
 from dataclasses import dataclass
 from typing import Callable, Generator, override
     full_audio: tuple[int, np.ndarray] | None = None
+global_ten_vad: TenVad | None = None
+global_vad_lock = threading.Lock()
+def global_vad_process(audio_data: np.ndarray) -> float:
+    """
+    Process audio data (hop_size=256) with global TenVad instance.
+    Returns:
+        speech probability.
+    """
+    global global_ten_vad
+    with global_vad_lock:
+        if global_ten_vad is None:
+            global_ten_vad = TenVad()
+        prob, _ = global_ten_vad.process(audio_data)
+        return prob
 class RealtimeVAD:
     def __init__(
         self,
         src_sr: int = 24000,
         start_threshold: float = 0.8,
         end_threshold: float = 0.7,
         pad_start_s: float = 0.6,
     ):
         self.src_sr = src_sr
         self.vad_sr = 16000
+        self.hop_size = 256
         self.start_threshold = start_threshold
         self.end_threshold = end_threshold
         self.pad_start_s = pad_start_s
         self.min_positive_s = min_positive_s
         self.min_silence_s = min_silence_s
         self.vad_buffer = np.array([], dtype=np.int16)
         """
         VAD Buffer to store audio data for VAD processing
         self.sum_positive_s = 0.0
         self.silence_start_s: float | None = None
     def process(self, audio_data: np.ndarray):
         if audio_data.ndim == 2:
             # FastRTC style [channels, samples]
         vad_buffer_size = self.vad_buffer.shape[0]
         def process_chunk(chunk_offset_s: float, vad_chunk: np.ndarray):
+            speech_prob = global_vad_process(vad_chunk)
             hop_s = self.hop_size / self.vad_sr
                 self.sum_positive_s = 0.0
                 self.silence_start_s = None
+        processed_samples = 0
         for chunk_pos in range(0, vad_buffer_size - self.hop_size, self.hop_size):
             processed_samples = chunk_pos + self.hop_size
             chunk_offset_s = (self.vad_buffer_offset + chunk_pos) / self.vad_sr
         self.vad_buffer_offset += processed_samples
+def init_global_ten_vad(input_sample_rate: int = 24000):
+    """
+    Call this once at the start of the program to avoid latency on first use.
+    No-op if already initialized.
+    """
+    global global_ten_vad
+    require_warmup = False
+    with global_vad_lock:
+        if global_ten_vad is None:
+            global_ten_vad = TenVad()
+            require_warmup = True
+    if require_warmup:
+        print("[VAD] Initializing global TenVad...")
+        realtime_vad = RealtimeVAD(src_sr=input_sample_rate)
+        for _ in range(25):  # Warmup with 1 second of silence
+            for _ in realtime_vad.process(np.zeros(960, dtype=np.int16)):
+                pass
+        print("[VAD] Global VAD initialized")
 type StreamerGenerator = Generator[fastrtc.tracks.EmitType, None, None]
 type StreamerFn = Callable[[tuple[int, np.ndarray], str], StreamerGenerator]
         self.realtime_vad = RealtimeVAD(src_sr=input_sample_rate)
         self.generator: StreamerGenerator | None = None
+        init_global_ten_vad()
     @override
     def emit(self) -> fastrtc.tracks.EmitType:
         if self.generator is None: