Spaces:

Adapting
/

TrendFlow

Runtime error

Adapting commited on Nov 2, 2022

Commit

3894e65

1 Parent(s): b17c1e6

updates

Files changed (5) hide show

lrt/clustering/clustering_pipeline.py CHANGED Viewed

@@ -2,10 +2,11 @@ from typing import List
 from .config import BaselineConfig, Configuration
 from ..utils import __create_model__
 import numpy as np
-from sklearn.cluster import KMeans
 from sklearn.preprocessing import StandardScaler
-from yellowbrick.cluster import KElbowVisualizer
 from .clusters import ClusterList
 class ClusterPipeline:
     def __init__(self, config:Configuration = None):
@@ -62,15 +63,8 @@ class ClusterPipeline:
                 print(f'>>> finished standardization...')
             ######## new: standarization ########
-            model = KMeans()
-            visualizer = KElbowVisualizer(
-                model, k=(2, max_k+1), metric='silhouette', timings=False, locate_elbow=False
-            )
-            visualizer.fit(embeddings)
-            # visualizer.show()
-            best_k = visualizer.k_values_[np.argmax(np.array(visualizer.k_scores_))]
             print(f'>>> The best K is {best_k}.')
             labels, cluster_centers = self.clustering(embeddings, k=best_k)

 from .config import BaselineConfig, Configuration
 from ..utils import __create_model__
 import numpy as np
+# from sklearn.cluster import KMeans
 from sklearn.preprocessing import StandardScaler
+# from yellowbrick.cluster import KElbowVisualizer
 from .clusters import ClusterList
+from unsupervised_learning.clustering import GaussianMixture, Silhouette
 class ClusterPipeline:
     def __init__(self, config:Configuration = None):
                 print(f'>>> finished standardization...')
             ######## new: standarization ########
+            best_k_algo = Silhouette(GaussianMixture,2,max_k)
+            best_k = best_k_algo.get_best_k(embeddings)
             print(f'>>> The best K is {best_k}.')
             labels, cluster_centers = self.clustering(embeddings, k=best_k)

lrt/utils/functions.py CHANGED Viewed

@@ -6,6 +6,7 @@ from sklearn.cluster import KMeans
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM,Text2TextGenerationPipeline
 from inference_hf import InferenceHF
 from .dimension_reduction import PCA
 class Template:
     def __init__(self):
@@ -23,7 +24,7 @@ class Template:
         self.clustering = {
             'kmeans-cosine': kmeans,
             'kmeans-euclidean': KMeans,
-            'gmm': None
         }
         self.keywords_extraction = {
@@ -65,6 +66,12 @@ def __create_model__(model_ckpt):
             tmp = KMeans(n_clusters=k,random_state=50).fit(x)
             return tmp.labels_, tmp.cluster_centers_
         return ret
     elif model_ckpt == 'keyphrase-transformer':
         model_ckpt = template.keywords_extraction[model_ckpt]

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM,Text2TextGenerationPipeline
 from inference_hf import InferenceHF
 from .dimension_reduction import PCA
+from unsupervised_learning.clustering import GaussianMixture
 class Template:
     def __init__(self):
         self.clustering = {
             'kmeans-cosine': kmeans,
             'kmeans-euclidean': KMeans,
+            'gmm': GaussianMixture
         }
         self.keywords_extraction = {
             tmp = KMeans(n_clusters=k,random_state=50).fit(x)
             return tmp.labels_, tmp.cluster_centers_
         return ret
+    elif model_ckpt == 'gmm':
+        def ret(x,k):
+            model = GaussianMixture(k,50)
+            model.fit(x)
+            return model.getLabels(), model.getClusterCenters()
+        return ret
     elif model_ckpt == 'keyphrase-transformer':
         model_ckpt = template.keywords_extraction[model_ckpt]

requirements.txt CHANGED Viewed

@@ -4,11 +4,11 @@ requests-toolkit-stable==0.8.0
 pyecharts==1.9.1
 evaluate==0.2.2
 kmeans_pytorch==0.3
-scikit_learn==1.0.2
 sentence_transformers==2.2.2
 torch==1.12.1
 yellowbrick==1.5
 transformers==4.22.1
 textdistance==4.5.0
 datasets==2.5.2
-bokeh==2.4.1

 pyecharts==1.9.1
 evaluate==0.2.2
 kmeans_pytorch==0.3
 sentence_transformers==2.2.2
 torch==1.12.1
 yellowbrick==1.5
 transformers==4.22.1
 textdistance==4.5.0
 datasets==2.5.2
+bokeh==2.4.1
+ml-leoxiang66

widgets/body.py CHANGED Viewed

@@ -68,13 +68,15 @@ def render_body(platforms, num_papers, num_papers_preview, query_input, show_pre
         # lrt results
         ## baseline
-        if hyperparams['dimension_reduction'] == 'none' and hyperparams['model_cpt'] == 'keyphrase-transformer':
             model = baseline_lrt
         else:
             config = Configuration(
                 plm= '''all-mpnet-base-v2''',
                 dimension_reduction= hyperparams['dimension_reduction'],
-                clustering= 'kmeans-euclidean',
                 keywords_extraction=hyperparams['model_cpt']
             )
             model = LiteratureResearchTool(config)

         # lrt results
         ## baseline
+        if hyperparams['dimension_reduction'] == 'none' \
+                and hyperparams['model_cpt'] == 'keyphrase-transformer'\
+                and hyperparams['cluster_model'] == 'kmeans-euclidean':
             model = baseline_lrt
         else:
             config = Configuration(
                 plm= '''all-mpnet-base-v2''',
                 dimension_reduction= hyperparams['dimension_reduction'],
+                clustering= hyperparams['cluster_model'],
                 keywords_extraction=hyperparams['model_cpt']
             )
             model = LiteratureResearchTool(config)

widgets/sidebar.py CHANGED Viewed

@@ -74,6 +74,7 @@ def render_sidebar():
             dr = st.selectbox('2) Dimension reduction', options=['none', 'pca'], index=0)
             tmp = min(number_papers,15)
             max_k = st.slider('3) Max number of clusters', 2,tmp , tmp//2)
         with st.expander('Keyphrases Generation Options'):
             model_cpt = st.selectbox(label='Model checkpoint', options=template.keywords_extraction.keys(),index=0)
@@ -90,5 +91,6 @@ def render_sidebar():
         dimension_reduction= dr,
         max_k = max_k,
         model_cpt = model_cpt,
-        standardization = True if standardization == 'yes' else False
     )

             dr = st.selectbox('2) Dimension reduction', options=['none', 'pca'], index=0)
             tmp = min(number_papers,15)
             max_k = st.slider('3) Max number of clusters', 2,tmp , tmp//2)
+            cluster_model = st.selectbox('4) Clustering model', options=['Gaussian Mixture Model', 'K-means'], index=0)
         with st.expander('Keyphrases Generation Options'):
             model_cpt = st.selectbox(label='Model checkpoint', options=template.keywords_extraction.keys(),index=0)
         dimension_reduction= dr,
         max_k = max_k,
         model_cpt = model_cpt,
+        standardization = True if standardization == 'yes' else False,
+        cluster_model = 'gmm' if cluster_model == 'Gaussian Mixture Model' else 'kmeans-euclidean'
     )