Parakeet-TDT-0.6b-V3_multilingual_file_as_mic_sim

Paused

App Files Files Community

WJ88 commited on Oct 18

Commit

d1310ca

verified ·

1 Parent(s): eef10e9

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -25

app.py CHANGED Viewed

@@ -25,10 +25,10 @@ from nemo.utils import logging as nemo_logging
 # ----------------------------
 MODEL_NAME   = os.environ.get("PARAKEET_MODEL", "nvidia/parakeet-tdt-0.6b-v3")
 TARGET_SR    = 16_000
-BEAM_SIZE    = int(os.environ.get("PARAKEET_BEAM_SIZE", "32"))  # Increased for subtle quality gains
 OFFLINE_BATCH= int(os.environ.get("PARAKEET_BATCH", "8"))
-CHUNK_S      = float(os.environ.get("PARAKEET_CHUNK_S", "2.0"))
-FLUSH_PAD_S  = float(os.environ.get("PARAKEET_FLUSH_PAD_S", "2.0"))
 # ----------------------------
 # Logging (unified)
@@ -106,12 +106,6 @@ class ParakeetManager:
             self._base_decoding = copy.deepcopy(self.model.cfg.decoding)
         self._set_malsd_beam()
-        # Enable encoder caching for better streaming context (per NeMo docs/tutorials)
-        if hasattr(self.model.encoder, "set_default_att_context_size"):
-            self.model.encoder.set_default_att_context_size([512, 16])  # Large left for cumulative context, small right for buffering
-            logger.info("encoder_caching_enabled left=512 right=16")
         logger.info(f"model_loaded strategy=malsd_batch beam_size={BEAM_SIZE}")
     def _set_malsd_beam(self):
@@ -122,12 +116,12 @@ class ParakeetManager:
             "return_best_hypothesis": True,
             "score_norm": True,
             "allow_cuda_graphs": False,   # CPU-only
-            "max_symbols_per_step": 10,
         })
         OmegaConf.set_struct(cfg, False)
         cfg["loop_labels"] = True
-        cfg["fused_batch_size"] = -1
-        cfg["compute_timestamps"] = False
         if hasattr(cfg, "greedy"):
             cfg.greedy.use_cuda_graph_decoder = False
         self.model.change_decoding_strategy(cfg)
@@ -191,12 +185,7 @@ class StreamingSession:
             self.pending = self.pending[C:]
             try:
                 self.hyp = self.mgr.stream_step(chunk, self.hyp)
-                new_text = getattr(self.hyp, "text", "")
-                if new_text:
-                    if self.text and new_text.startswith(self.text):  # If cumulative (partial extends), replace with extended
-                        self.text = new_text
-                    else:  # Else append (handles per-chunk case)
-                        self.text += (' ' if self.text else '') + new_text
             except Exception:
                 logger.exception("mic_step failed")
                 break
@@ -207,13 +196,7 @@ class StreamingSession:
             final = np.concatenate([self.pending, pad])
             try:
                 self.hyp = self.mgr.stream_step(final, self.hyp)
-                new_text = getattr(self.hyp, "text", "")
-                if new_text:
-                    if self.text and new_text.startswith(self.text):
-                        self.text = new_text
-                    else:
-                        self.text += (' ' if self.text else '') + new_text
-                self.text += '.'  # Add period for sentence closure on flush
             except Exception:
                 logger.exception("mic_flush failed")
         self.pending = np.zeros(0, dtype=np.float32)

 # ----------------------------
 MODEL_NAME   = os.environ.get("PARAKEET_MODEL", "nvidia/parakeet-tdt-0.6b-v3")
 TARGET_SR    = 16_000
+BEAM_SIZE    = int(os.environ.get("PARAKEET_BEAM_SIZE", "16"))  # Increased for quality
 OFFLINE_BATCH= int(os.environ.get("PARAKEET_BATCH", "8"))
+CHUNK_S      = float(os.environ.get("PARAKEET_CHUNK_S", "2.0"))  # Increased for better context
+FLUSH_PAD_S  = float(os.environ.get("PARAKEET_FLUSH_PAD_S", "2.0"))  # Increased for better finalization
 # ----------------------------
 # Logging (unified)
             self._base_decoding = copy.deepcopy(self.model.cfg.decoding)
         self._set_malsd_beam()
         logger.info(f"model_loaded strategy=malsd_batch beam_size={BEAM_SIZE}")
     def _set_malsd_beam(self):
             "return_best_hypothesis": True,
             "score_norm": True,
             "allow_cuda_graphs": False,   # CPU-only
+            "max_symbols_per_step": 10,  # Added for stability in MALSD
         })
         OmegaConf.set_struct(cfg, False)
         cfg["loop_labels"] = True
+        cfg["fused_batch_size"] = -1  # Added for CPU compatibility
+        cfg["compute_timestamps"] = False  # Added to match legacy, avoid overhead
         if hasattr(cfg, "greedy"):
             cfg.greedy.use_cuda_graph_decoder = False
         self.model.change_decoding_strategy(cfg)
             self.pending = self.pending[C:]
             try:
                 self.hyp = self.mgr.stream_step(chunk, self.hyp)
+                self.text = getattr(self.hyp, "text", self.text)
             except Exception:
                 logger.exception("mic_step failed")
                 break
             final = np.concatenate([self.pending, pad])
             try:
                 self.hyp = self.mgr.stream_step(final, self.hyp)
+                self.text = getattr(self.hyp, "text", self.text)
             except Exception:
                 logger.exception("mic_flush failed")
         self.pending = np.zeros(0, dtype=np.float32)