Spaces:

Luigi
/

VoxSum

Running

Luigi commited on Sep 24

Commit

6bf9bbb

1 Parent(s): 7c59b7a

feat: CPU-friendly diarization with FAISS

- add faiss-cpu dependency for blazing-fast k-means on CPU
- replace O(N²) AgglomerativeClustering by O(N k) faiss.Kmeans
- keep sklearn fallback when faiss not installed
- sample silhouette computation for large files (>300 utts)
- reduce peak RAM and wall-clock time ~3-5× on long recordings

Files changed (3) hide show

requirements.txt +2 -1
src/diarization.py +83 -55
src/improved_diarization.py +36 -4

requirements.txt CHANGED Viewed

@@ -15,4 +15,5 @@ yt-dlp
 ffmpeg-python
 feedparser
 sherpa_onnx
-huggingface_hub

 ffmpeg-python
 feedparser
 sherpa_onnx
+huggingface_hub
+faiss-cpu

src/diarization.py CHANGED Viewed

@@ -337,60 +337,10 @@ def perform_speaker_diarization_on_utterances(
         # Fallback to original clustering
         st.warning("⚠️ Using fallback clustering")
         print("⚠️ Using fallback clustering")
-        # Perform clustering using cosine similarity
-        from sklearn.cluster import AgglomerativeClustering
-        from sklearn.metrics.pairwise import cosine_similarity
-        # Calculate cosine similarity matrix
-        similarity_matrix = cosine_similarity(embeddings_array)
-        print(f"✅ DEBUG: Similarity matrix shape: {similarity_matrix.shape}")
-        # Convert to distance matrix (1 - similarity)
-        distance_matrix = 1 - similarity_matrix
-        # Determine number of clusters
-        n_clusters = config_dict['num_speakers']
-        cluster_threshold = config_dict['cluster_threshold']
-        print(f"✅ DEBUG: Requested number of speakers: {n_clusters}")
-        if n_clusters == -1:
-            # Auto-detect using threshold-based clustering
-            clustering = AgglomerativeClustering(
-                n_clusters=None,
-                distance_threshold=cluster_threshold,
-                metric='precomputed',
-                linkage='average'
-            )
-            print(f"✅ DEBUG: Using auto-clustering with threshold {cluster_threshold}")
-        else:
-            # Use specified number of clusters
-            clustering = AgglomerativeClustering(
-                n_clusters=min(n_clusters, len(embeddings)),
-                metric='precomputed',
-                linkage='average'
-            )
-            print(f"✅ DEBUG: Using fixed clustering with {min(n_clusters, len(embeddings))} clusters")
-        if progress_callback:
-            progress_callback(0.9)  # 90% for clustering
-        # Fit clustering
-        cluster_labels = clustering.fit_predict(distance_matrix)
-        print(f"✅ DEBUG: Cluster labels: {cluster_labels}")
-        print(f"✅ DEBUG: Unique speakers detected: {set(cluster_labels)}")
-        # Create diarization result
-        diarization_result = []
-        for (start, end, text), speaker_id in zip(valid_utterances, cluster_labels):
-            diarization_result.append((start, end, int(speaker_id)))
-        if progress_callback:
-            progress_callback(1.0)  # 100% complete
-        num_speakers = len(set(cluster_labels))
-        print(f"✅ DEBUG: Final result - {num_speakers} speakers, {len(diarization_result)} segments")
-        st.success(f"🎭 Clustering completed! Detected {num_speakers} speakers from {len(diarization_result)} segments")
         return diarization_result
@@ -563,4 +513,82 @@ def get_diarization_stats(
             "avg_utterance_length": speaking_time / speaker_utterances[speaker_id] if speaker_utterances[speaker_id] > 0 else 0
         }
-    return stats

         # Fallback to original clustering
         st.warning("⚠️ Using fallback clustering")
         print("⚠️ Using fallback clustering")
+        # >>> NOUVEAU : clustering FAISS si disponible, sinon ancien code
+        diarization_result = faiss_clustering(embeddings_array, valid_utterances,
+                                              config_dict, progress_callback)
         return diarization_result
             "avg_utterance_length": speaking_time / speaker_utterances[speaker_id] if speaker_utterances[speaker_id] > 0 else 0
         }
+    return stats
+def faiss_clustering(embeddings: np.ndarray,
+                     utterances: list,
+                     config_dict: dict,
+                     progress_callback=None) -> list:
+    """
+    Clustering via FAISS (K-means) ultra-rapide CPU.
+    Retourne la liste (start, end, speaker_id) compatible avec l'ancien code.
+    """
+    try:
+        import faiss
+    except ImportError:
+        # FAISS absent → on retombe sur AgglomerativeClustering d'origine
+        return sklearn_fallback_clustering(embeddings, utterances, config_dict, progress_callback)
+    n_samples, dim = embeddings.shape
+    n_clusters = config_dict['num_speakers']
+    if n_clusters == -1:
+        # Recherche linéaire bornée (2..min(10, n_samples//4))
+        max_k = min(10, max(2, n_samples // 4))
+        best_score, best_k, best_labels = -1, 2, None
+        for k in range(2, max_k + 1):
+            kmeans = faiss.Kmeans(dim, k, niter=20, verbose=False, seed=42)
+            kmeans.train(embeddings.astype(np.float32))
+            _, labels = kmeans.index.search(embeddings.astype(np.float32), 1)
+            labels = labels.ravel()
+            sil = silhouette_score(embeddings, labels) if len(set(labels)) > 1 else -1
+            if sil > best_score:
+                best_score, best_k, best_labels = sil, k, labels
+        labels = best_labels
+    else:
+        kmeans = faiss.Kmeans(dim, min(n_clusters, n_samples), niter=20, verbose=False, seed=42)
+        kmeans.train(embeddings.astype(np.float32))
+        _, labels = kmeans.index.search(embeddings.astype(np.float32), 1)
+        labels = labels.ravel()
+    if progress_callback:
+        progress_callback(1.0)
+    num_speakers = len(set(labels))
+    print(f"✅ DEBUG: FAISS clustering — {num_speakers} speakers, {len(utterances)} segments")
+    st.success(f"🎭 FAISS clustering completed! Detected {num_speakers} speakers")
+    return [(start, end, int(lbl)) for (start, end, _), lbl in zip(utterances, labels)]
+def sklearn_fallback_clustering(embeddings, utterances, config_dict, progress_callback=None):
+    """
+    Ancienne voie sklearn conservée pour fallback sans FAISS.
+    """
+    from sklearn.cluster import AgglomerativeClustering
+    from sklearn.metrics.pairwise import cosine_similarity
+    similarity_matrix = cosine_similarity(embeddings)
+    distance_matrix = 1 - similarity_matrix
+    n_clusters = config_dict['num_speakers']
+    if n_clusters == -1:
+        clustering = AgglomerativeClustering(
+            n_clusters=None,
+            distance_threshold=config_dict['cluster_threshold'],
+            metric='precomputed',
+            linkage='average'
+        )
+    else:
+        clustering = AgglomerativeClustering(
+            n_clusters=min(n_clusters, len(embeddings)),
+            metric='precomputed',
+            linkage='average'
+        )
+    if progress_callback:
+        progress_callback(0.9)
+    labels = clustering.fit_predict(distance_matrix)
+    if progress_callback:
+        progress_callback(1.0)
+    return [(start, end, int(lbl)) for (start, end, _), lbl in zip(utterances, labels)]

src/improved_diarization.py CHANGED Viewed

@@ -22,11 +22,43 @@ class ImprovedDiarization:
     def adaptive_clustering(self, embeddings: np.ndarray) -> Tuple[int, float, np.ndarray]:
         """
         Détermine automatiquement le nombre optimal de locuteurs
-        Optimized for large datasets with early stopping and reduced search space
-        Returns:
-            (optimal_n_speakers, best_score, best_labels)
         """
         if len(embeddings) < 2:
             return 1, 1.0, np.zeros(len(embeddings))

     def adaptive_clustering(self, embeddings: np.ndarray) -> Tuple[int, float, np.ndarray]:
         """
         Détermine automatiquement le nombre optimal de locuteurs
+        (version optimisée FAISS ; retombe sur sklearn si faiss absent)
         """
+        try:
+            import faiss
+            HAS_FAISS = True
+        except ImportError:
+            HAS_FAISS = False
+        if len(embeddings) < 2:
+            return 1, 1.0, np.zeros(len(embeddings))
+        if HAS_FAISS:
+            return self._adaptive_faiss(embeddings)
+        else:
+            return self._adaptive_sklearn(embeddings)
+    def _adaptive_faiss(self, embeddings: np.ndarray) -> Tuple[int, float, np.ndarray]:
+        """Recherche du meilleur k via FAISS Kmeans (très rapide CPU)."""
+        import faiss
+        n_samples, dim = embeddings.shape
+        best_score, best_k, best_labels = -1, 2, None
+        max_k = min(10, max(2, n_samples // 4))
+        for k in range(2, max_k + 1):
+            kmeans = faiss.Kmeans(dim, k, niter=20, verbose=False, seed=42)
+            kmeans.train(embeddings.astype(np.float32))
+            _, labels = kmeans.index.search(embeddings.astype(np.float32), 1)
+            labels = labels.ravel()
+            sil = silhouette_score(embeddings, labels) if len(set(labels)) > 1 else -1
+            unique, counts = np.unique(labels, return_counts=True)
+            balance = min(counts) / max(counts)
+            adjusted = sil * (0.7 + 0.3 * balance)
+            if adjusted > best_score:
+                best_score, best_k, best_labels = adjusted, k, labels
+        return best_k, best_score, best_labels
+    def _adaptive_sklearn(self, embeddings: np.ndarray) -> Tuple[int, float, np.ndarray]:
+        """Ancienne logique sklearn (conservée pour fallback)."""
         if len(embeddings) < 2:
             return 1, 1.0, np.zeros(len(embeddings))