Add BERTopic model
Browse files- README.md +162 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
@@ -0,0 +1,162 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# BERTopic_sahinozkan0
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("sdantonio/BERTopic_sahinozkan0")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 93
|
34 |
+
* Number of training documents: 10011
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | alıs - kılıc - ıktı - abd - yas | 10 | -1_alıs_kılıc_ıktı_abd |
|
42 |
+
| 0 | alıs - ıktı - abd - tutuklandı - kars | 4944 | 0_alıs_ıktı_abd_tutuklandı |
|
43 |
+
| 1 | yakalandı - alıs - bırakıldı - tutuklandı - ıktı | 755 | 1_yakalandı_alıs_bırakıldı_tutuklandı |
|
44 |
+
| 2 | alıs - mayıs - kılıc - layacag - giderse | 436 | 2_alıs_mayıs_kılıc_layacag |
|
45 |
+
| 3 | gittiler - kanlıg - kılıc - sesleniyorum - ins | 293 | 3_gittiler_kanlıg_kılıc_sesleniyorum |
|
46 |
+
| 4 | lkemizdeki - lkemizde - kanlıg - faizi - detaylar | 206 | 4_lkemizdeki_lkemizde_kanlıg_faizi |
|
47 |
+
| 5 | ahıslara - ıkarıldı - idrarını - mayıs - kapattıg | 166 | 5_ahıslara_ıkarıldı_idrarını_mayıs |
|
48 |
+
| 6 | tehlikeli - aracın - yakalandı - tutarı - tedbirleri | 142 | 6_tehlikeli_aracın_yakalandı_tutarı |
|
49 |
+
| 7 | yakalandı - bilezikleri - askıya - arptırıldı - yayımlandı | 118 | 7_yakalandı_bilezikleri_askıya_arptırıldı |
|
50 |
+
| 8 | niversiteler - yazarlarımızdan - detaylar - benzine - tanımaya | 111 | 8_niversiteler_yazarlarımızdan_detaylar_benzine |
|
51 |
+
| 9 | alıs - askerin - zamlar - halkı - bursa | 107 | 9_alıs_askerin_zamlar_halkı |
|
52 |
+
| 10 | ukraynalı - fırkateynini - kuvvetleri - vıs - yakaladı | 106 | 10_ukraynalı_fırkateynini_kuvvetleri_vıs |
|
53 |
+
| 11 | yansıdı - alıs - sayın - yasaklar - tazminat | 97 | 11_yansıdı_alıs_sayın_yasaklar |
|
54 |
+
| 12 | kaynaklarca - lamıs - alıs - ahıs - siparis | 96 | 12_kaynaklarca_lamıs_alıs_ahıs |
|
55 |
+
| 13 | gezeravcı - partisi - kars - ener - yas | 89 | 13_gezeravcı_partisi_kars_ener |
|
56 |
+
| 14 | ısıtıcıyı - cevaplamadan - diyen - karanlıg - kılarken | 87 | 14_ısıtıcıyı_cevaplamadan_diyen_karanlıg |
|
57 |
+
| 15 | alıs - kızın - yerden - ukraynalı - sattıg | 87 | 15_alıs_kızın_yerden_ukraynalı |
|
58 |
+
| 16 | yanlıları - saldırıda - mesafeden - yayınladı - lteci | 86 | 16_yanlıları_saldırıda_mesafeden_yayınladı |
|
59 |
+
| 17 | etkisiz - suriyeli - virginia - york - getirilmis | 86 | 17_etkisiz_suriyeli_virginia_york |
|
60 |
+
| 18 | karkamıs - kılıc - yerinden - halkı - ahıs | 79 | 18_karkamıs_kılıc_yerinden_halkı |
|
61 |
+
| 19 | roketimizle - artıs - anındayız - elenmeyin - etmiyoruz | 76 | 19_roketimizle_artıs_anındayız_elenmeyin |
|
62 |
+
| 20 | bataklık - kısıtlayacag - sırbistan - yazdık - kılıc | 71 | 20_bataklık_kısıtlayacag_sırbistan_yazdık |
|
63 |
+
| 21 | kırgızistan - ankırı - endonezya - mısır - osmaniye | 70 | 21_kırgızistan_ankırı_endonezya_mısır |
|
64 |
+
| 22 | benzine - cret - etin - vuru - zam | 59 | 22_benzine_cret_etin_vuru |
|
65 |
+
| 23 | anlayıs - suriyeliler - benimsemis - sıkıs - buradaki | 57 | 23_anlayıs_suriyeliler_benimsemis_sıkıs |
|
66 |
+
| 24 | taraftarları - ısrarlarına - taraftarlarını - oynanacak - ıkmamaları | 52 | 24_taraftarları_ısrarlarına_taraftarlarını_oynanacak |
|
67 |
+
| 25 | patlamamıs - burası - patlamalar - yasallas - sirenleri | 50 | 25_patlamamıs_burası_patlamalar_yasallas |
|
68 |
+
| 26 | uyuyamadı - ktecileri - adliyenin - havalimanı - fiyata | 47 | 26_uyuyamadı_ktecileri_adliyenin_havalimanı |
|
69 |
+
| 27 | fenerbahc - konyaspor - rkiye - hırvatistan - genc | 45 | 27_fenerbahc_konyaspor_rkiye_hırvatistan |
|
70 |
+
| 28 | kırpıldıktan - kısıtlamasında - atıklarını - yansıdı - koyunlar | 44 | 28_kırpıldıktan_kısıtlamasında_atıklarını_yansıdı |
|
71 |
+
| 29 | karaburun - sondakika - osmaniye - elazıg - marmaris | 43 | 29_karaburun_sondakika_osmaniye_elazıg |
|
72 |
+
| 30 | tuzlaspor - katılmaya - newcastle - oyuna - kanlıg | 43 | 30_tuzlaspor_katılmaya_newcastle_oyuna |
|
73 |
+
| 31 | yanlıs - saldıracag - saldıranlar - farketmez - tedbirler | 42 | 31_yanlıs_saldıracag_saldıranlar_farketmez |
|
74 |
+
| 32 | seviyesinden - ayın - zamlardan - yıla - ılmasıyla | 40 | 32_seviyesinden_ayın_zamlardan_yıla |
|
75 |
+
| 33 | havalimanını - lemlerini - ehirler - kapatılıyor - pınarı | 38 | 33_havalimanını_lemlerini_ehirler_kapatılıyor |
|
76 |
+
| 34 | ukraynalı - cumhuriyetlerin - kuvvetleri - ımsızlıg - ayrılıkc | 37 | 34_ukraynalı_cumhuriyetlerin_kuvvetleri_ımsızlıg |
|
77 |
+
| 35 | kanalımızdaki - topladım - ilgilenenler - katılmayanlar - katılmak | 36 | 35_kanalımızdaki_topladım_ilgilenenler_katılmayanlar |
|
78 |
+
| 36 | yansıyor - yargılandıg - hikayeler - lkesinde - neticileri | 36 | 36_yansıyor_yargılandıg_hikayeler_lkesinde |
|
79 |
+
| 37 | devleti - plerimizle - burası - yakaladıg - gazeteciden | 36 | 37_devleti_plerimizle_burası_yakaladıg |
|
80 |
+
| 38 | yansımalarını - madalyaları - vatanımda - zihniyetinin - kırılmıs | 34 | 38_yansımalarını_madalyaları_vatanımda_zihniyetinin |
|
81 |
+
| 39 | durdurdu - yaktı - ankırı - olaya - asılmıs | 33 | 39_durdurdu_yaktı_ankırı_olaya |
|
82 |
+
| 40 | yakalananlar - dondurmalardan - yitirenlerin - kesintisinden - aslanlar | 33 | 40_yakalananlar_dondurmalardan_yitirenlerin_kesintisinden |
|
83 |
+
| 41 | sınıflandırılan - ıkarılıyor - yayında - yakmayı - esenyurt | 31 | 41_sınıflandırılan_ıkarılıyor_yayında_yakmayı |
|
84 |
+
| 42 | etmeksizin - kanalıma - artıs - akaryakıt - mayıs | 30 | 42_etmeksizin_kanalıma_artıs_akaryakıt |
|
85 |
+
| 43 | cezalandırmak - yanlıları - irebileceg - elektrikler - arayı | 29 | 43_cezalandırmak_yanlıları_irebileceg_elektrikler |
|
86 |
+
| 44 | kaybedenlerin - abd - tatilinin - edilirken - rkiye | 29 | 44_kaybedenlerin_abd_tatilinin_edilirken |
|
87 |
+
| 45 | hapishanelerinde - korkmasın - yazdırmıs - havayolları - mezalimlerinden | 28 | 45_hapishanelerinde_korkmasın_yazdırmıs_havayolları |
|
88 |
+
| 46 | laboratuvarında - saldırganın - karnından - asrın - yalandan | 26 | 46_laboratuvarında_saldırganın_karnından_asrın |
|
89 |
+
| 47 | tazeledi - saldırıların - anlık - ekilecek - gerizekalı | 25 | 47_tazeledi_saldırıların_anlık_ekilecek |
|
90 |
+
| 48 | indirimleri - birkac - indirimler - indirimli - anlık | 25 | 48_indirimleri_birkac_indirimler_indirimli |
|
91 |
+
| 49 | zamlanacak - yarın - yansıyacak - geceden - zamcık | 24 | 49_zamlanacak_yarın_yansıyacak_geceden |
|
92 |
+
| 50 | roberts - hatayspor - galatasaray - johnstone - savalnieks | 24 | 50_roberts_hatayspor_galatasaray_johnstone |
|
93 |
+
| 51 | yleyebildiler - kaldırılsın - ukraynalılarındır - kınım - yakalarsam | 23 | 51_yleyebildiler_kaldırılsın_ukraynalılarındır_kınım |
|
94 |
+
| 52 | kurgulanmıs - yansıtılmadıg - giremiyor - varlıklarını - 11sırbistan | 23 | 52_kurgulanmıs_yansıtılmadıg_giremiyor_varlıklarını |
|
95 |
+
| 53 | fırlattı - saldırıda - patlamamıs - atıda - patlatıldı | 23 | 53_fırlattı_saldırıda_patlamamıs_atıda |
|
96 |
+
| 54 | kurulumlarına - istasyonda - sayımlarda - durdurulmaya - alıs | 21 | 54_kurulumlarına_istasyonda_sayımlarda_durdurulmaya |
|
97 |
+
| 55 | lkedeki - devlete - ıkarıldıg - alıs - kurtarma | 21 | 55_lkedeki_devlete_ıkarıldıg_alıs |
|
98 |
+
| 56 | ısıtmıyorum - saldırtması - sabakalarını - alıs - artıs | 20 | 56_ısıtmıyorum_saldırtması_sabakalarını_alıs |
|
99 |
+
| 57 | bankası - kurları - 317 - 2163 - 8637 | 18 | 57_bankası_kurları_317_2163 |
|
100 |
+
| 58 | acımasızca - iddetehayır - sarsıntı - varıs - buldular | 18 | 58_acımasızca_iddetehayır_sarsıntı_varıs |
|
101 |
+
| 59 | aslanın - uygurların - vakaları - darıca - hurdacı | 18 | 59_aslanın_uygurların_vakaları_darıca |
|
102 |
+
| 60 | samimiyetle - kazandırıyor - ıtılmıs - ıslak - ocukları | 18 | 60_samimiyetle_kazandırıyor_ıtılmıs_ıslak |
|
103 |
+
| 61 | uyuyakaldı - cemevlerini - partililer - ettirebildik - tanıyacag | 18 | 61_uyuyakaldı_cemevlerini_partililer_ettirebildik |
|
104 |
+
| 62 | ukraynalı - yanlısı - ukraynalılar - yolun - patlamadı | 16 | 62_ukraynalı_yanlısı_ukraynalılar_yolun |
|
105 |
+
| 63 | lemleri - kaftancıog - kaynakları - devamı - harekatının | 16 | 63_lemleri_kaftancıog_kaynakları_devamı |
|
106 |
+
| 64 | beklentiler - faizi - arttırdı - ıktı - aralıg | 16 | 64_beklentiler_faizi_arttırdı_ıktı |
|
107 |
+
| 65 | bombardımanlarından - inemeyince - hazırlandı - atılacak - ilig | 16 | 65_bombardımanlarından_inemeyince_hazırlandı_atılacak |
|
108 |
+
| 66 | devleti - saldırganı - pencerelerden - durdurdu - patlamanın | 16 | 66_devleti_saldırganı_pencerelerden_durdurdu |
|
109 |
+
| 67 | anlık - abd - usd - doları - kurları | 15 | 67_anlık_abd_usd_doları |
|
110 |
+
| 68 | ıkarıldı - uygulanan - piyasalar - faizi - enflasyonu | 15 | 68_ıkarıldı_uygulanan_piyasalar_faizi |
|
111 |
+
| 69 | piyasasındaki - mantarı - ehrimizden - mantarın - kızın | 15 | 69_piyasasındaki_mantarı_ehrimizden_mantarın |
|
112 |
+
| 70 | durmasınlar - etnisitesinden - edemeyiz - ırmasınlar - ınmacıya | 15 | 70_durmasınlar_etnisitesinden_edemeyiz_ırmasınlar |
|
113 |
+
| 71 | bombardımanı - atmasında - ukraynalı - yarıda - ımsızlıg | 15 | 71_bombardımanı_atmasında_ukraynalı_yarıda |
|
114 |
+
| 72 | kanalıma - etkilememesi - yatırımcıları - klerinize - eyler | 15 | 72_kanalıma_etkilememesi_yatırımcıları_klerinize |
|
115 |
+
| 73 | fırlattı - kaynakları - tırmanmasıyla - yayınladı - aklarınca | 14 | 73_fırlattı_kaynakları_tırmanmasıyla_yayınladı |
|
116 |
+
| 74 | ttefikleri - adıyaman - ıktı - ahıs - avm | 14 | 74_ttefikleri_adıyaman_ıktı_ahıs |
|
117 |
+
| 75 | piyasalar - yas - ethereum - yu - kararının | 14 | 75_piyasalar_yas_ethereum_yu |
|
118 |
+
| 76 | suriyeliler - sırtından - osmanlı - starbucks - etmeyecektir | 14 | 76_suriyeliler_sırtından_osmanlı_starbucks |
|
119 |
+
| 77 | zanlıları - saldırganların - dolandırıcılık - birkoc - ablası | 13 | 77_zanlıları_saldırganların_dolandırıcılık_birkoc |
|
120 |
+
| 78 | fıratdelikanlıtutuklansın - onaylamadı - ıklama - vaka - izne | 13 | 78_fıratdelikanlıtutuklansın_onaylamadı_ıklama_vaka |
|
121 |
+
| 79 | havalimanını - lgeleri - sarsılmaz - ocuklarım - yapılmayacag | 13 | 79_havalimanını_lgeleri_sarsılmaz_ocuklarım |
|
122 |
+
| 80 | yansıyacak - biralara - geceden - zyılı - mıs | 12 | 80_yansıyacak_biralara_geceden_zyılı |
|
123 |
+
| 81 | sabakalarına - kayıplar - bıktık - gereksiz - sıkıs | 12 | 81_sabakalarına_kayıplar_bıktık_gereksiz |
|
124 |
+
| 82 | harmanlandıg - hafızasındaki - lkemizin - bakanlıklarımız - ekilmiyoruz | 12 | 82_harmanlandıg_hafızasındaki_lkemizin_bakanlıklarımız |
|
125 |
+
| 83 | kocabıyık - partililer - ormanlık - ilıcalı - yoldan | 11 | 83_kocabıyık_partililer_ormanlık_ilıcalı |
|
126 |
+
| 84 | aydinlioglu - hayati - osmaniye - sıyrıklar - kırıkhan | 11 | 84_aydinlioglu_hayati_osmaniye_sıyrıklar |
|
127 |
+
| 85 | kısıtlamalarına - yansımasın - affedilmeyecek - alınmıs - kullanamadık | 11 | 85_kısıtlamalarına_yansımasın_affedilmeyecek_alınmıs |
|
128 |
+
| 86 | faizi - ın - zaltına - zam - tı | 11 | 86_faizi_ın_zaltına_zam |
|
129 |
+
| 87 | hırsızlar - yarın - duyurusu - yayınlandı - yerinden | 11 | 87_hırsızlar_yarın_duyurusu_yayınlandı |
|
130 |
+
| 88 | yaptırmamak - saldırganlıg - kapanmıs - niyetimiz - ılmamak | 10 | 88_yaptırmamak_saldırganlıg_kapanmıs_niyetimiz |
|
131 |
+
| 89 | merdivenlerden - belirlenemeyen - edilmek - vaziyette - scooter | 10 | 89_merdivenlerden_belirlenemeyen_edilmek_vaziyette |
|
132 |
+
| 90 | ilerleyen - siyahi - lkesinde - ehirlerinde - yıkıldı | 10 | 90_ilerleyen_siyahi_lkesinde_ehirlerinde |
|
133 |
+
| 91 | fırlattı - soytarılar - fırlatılan - arzına - devlette | 10 | 91_fırlattı_soytarılar_fırlatılan_arzına |
|
134 |
+
|
135 |
+
</details>
|
136 |
+
|
137 |
+
## Training hyperparameters
|
138 |
+
|
139 |
+
* calculate_probabilities: False
|
140 |
+
* language: None
|
141 |
+
* low_memory: False
|
142 |
+
* min_topic_size: 10
|
143 |
+
* n_gram_range: (1, 1)
|
144 |
+
* nr_topics: None
|
145 |
+
* seed_topic_list: None
|
146 |
+
* top_n_words: 10
|
147 |
+
* verbose: False
|
148 |
+
* zeroshot_min_similarity: 0.7
|
149 |
+
* zeroshot_topic_list: None
|
150 |
+
|
151 |
+
## Framework versions
|
152 |
+
|
153 |
+
* Numpy: 1.23.5
|
154 |
+
* HDBSCAN: 0.8.38.post1
|
155 |
+
* UMAP: 0.5.6
|
156 |
+
* Pandas: 2.2.2
|
157 |
+
* Scikit-Learn: 1.5.1
|
158 |
+
* Sentence-transformers: 3.0.1
|
159 |
+
* Transformers: 4.44.2
|
160 |
+
* Numba: 0.60.0
|
161 |
+
* Plotly: 5.24.0
|
162 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": false,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": false,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a3fa3d0df06a579beb9e87b258cd08fce5864037ac77d3cd16f77a9cc6b8a707
|
3 |
+
size 1035088
|
ctfidf_config.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:29484eb55dcacad31d5715427e1d4466fc0f88f0c71d4fdc4e45da4009d6e96d
|
3 |
+
size 381016
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|