Add BERTopic model
Browse files- README.md +140 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
@@ -0,0 +1,140 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# BERTopic_concienciagalactica
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("sdantonio/BERTopic_concienciagalactica")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 71
|
34 |
+
* Number of training documents: 6463
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | rusia - despue - informacio - deo - elon | 10 | -1_rusia_despue_informacio_deo |
|
42 |
+
| 0 | rusia - informacio - brics - elon - deo | 1537 | 0_rusia_informacio_brics_elon |
|
43 |
+
| 1 | rusia - brita - amnisti - ruso - psoe | 587 | 1_rusia_brita_amnisti_ruso |
|
44 |
+
| 2 | rusia - ruso - norteamericana - ayer - estari | 333 | 2_rusia_ruso_norteamericana_ayer |
|
45 |
+
| 3 | thetrumpist - mj_innocent - ukraine - crumbling - biden | 254 | 3_thetrumpist_mj_innocent_ukraine_crumbling |
|
46 |
+
| 4 | rusia - alianza - informacio - estari - elon | 230 | 4_rusia_alianza_informacio_estari |
|
47 |
+
| 5 | ezra - foro - despue - publico - pfizer | 209 | 5_ezra_foro_despue_publico |
|
48 |
+
| 6 | rusia - ojo - adema - ahi - mundial | 166 | 6_rusia_ojo_adema_ahi |
|
49 |
+
| 7 | homeschooling - listas - madrid - comparte - ayudas | 154 | 7_homeschooling_listas_madrid_comparte |
|
50 |
+
| 8 | pensiones - vacunas - republicano - penas - ejecuta | 154 | 8_pensiones_vacunas_republicano_penas |
|
51 |
+
| 9 | oms - ruso - deo - elon - parar | 146 | 9_oms_ruso_deo_elon |
|
52 |
+
| 10 | asesinato - barcelona - cancela - confirmando - foro | 132 | 10_asesinato_barcelona_cancela_confirmando |
|
53 |
+
| 11 | inaceptable - abascal - ruso - desconfi - accio | 125 | 11_inaceptable_abascal_ruso_desconfi |
|
54 |
+
| 12 | rusia - reino - horizontes - blablabla - deo | 111 | 12_rusia_reino_horizontes_blablabla |
|
55 |
+
| 13 | macroeconomi - forococheselectricos - ibex - johnson - aprueba | 105 | 13_macroeconomi_forococheselectricos_ibex_johnson |
|
56 |
+
| 14 | literal - bonitos - latormenta - jumm - pfff | 100 | 14_literal_bonitos_latormenta_jumm |
|
57 |
+
| 15 | colaterales - informacio - deo - comunicaciones - lotes | 93 | 15_colaterales_informacio_deo_comunicaciones |
|
58 |
+
| 16 | informacio - alianza - tecnologi - plataformas - adema | 89 | 16_informacio_alianza_tecnologi_plataformas |
|
59 |
+
| 17 | esquinas - multiverso - elitizacio - papada - voila | 83 | 17_esquinas_multiverso_elitizacio_papada |
|
60 |
+
| 18 | israeli - guerras - amnisti - destruyendo - ltimas | 82 | 18_israeli_guerras_amnisti_destruyendo |
|
61 |
+
| 19 | maniobras - rusia - calles - florida - deo | 81 | 19_maniobras_rusia_calles_florida |
|
62 |
+
| 20 | activos - ruso - france - gepard - brics | 78 | 20_activos_ruso_france_gepard |
|
63 |
+
| 21 | inocularse - multiverso - johnson - actualizacio - arabia | 74 | 21_inocularse_multiverso_johnson_actualizacio |
|
64 |
+
| 22 | rtnoticias_unc2 - thespanisharmy - patriotsligthwarriors - sntx_cosmic - generalmcnews | 61 | 22_rtnoticias_unc2_thespanisharmy_patriotsligthwarriors_sntx_cosmic |
|
65 |
+
| 23 | australianos - vladimir - washington - regiones - tarjetas | 58 | 23_australianos_vladimir_washington_regiones |
|
66 |
+
| 24 | antibalas - bajas - palestina - masiva - amnisti | 57 | 24_antibalas_bajas_palestina_masiva |
|
67 |
+
| 25 | rockefellers - agencias - computadora - blancos - mundiales | 56 | 25_rockefellers_agencias_computadora_blancos |
|
68 |
+
| 26 | francisco - encriptado - criptomonedas - tarjetas - centrales | 55 | 26_francisco_encriptado_criptomonedas_tarjetas |
|
69 |
+
| 27 | 20minutos - geolocalizacio - tumultuosa - dividido - mediaforeurope | 51 | 27_20minutos_geolocalizacio_tumultuosa_dividido |
|
70 |
+
| 28 | reinventando - desconocidos - enchufismo - paneles - albedri | 50 | 28_reinventando_desconocidos_enchufismo_paneles |
|
71 |
+
| 29 | marruecos - fuentes - madrid - psoe - marroqui | 50 | 29_marruecos_fuentes_madrid_psoe |
|
72 |
+
| 30 | impuestos - estrategias - gobiernos - tierras - genes | 49 | 30_impuestos_estrategias_gobiernos_tierras |
|
73 |
+
| 31 | insider - activos - despue - informacio - biden | 48 | 31_insider_activos_despue_informacio |
|
74 |
+
| 32 | blockscale - criptomonedas - irreconocible - microstrategy - aumentos | 48 | 32_blockscale_criptomonedas_irreconocible_microstrategy |
|
75 |
+
| 33 | fuentes - europeos - sabotaje - efectivos - montero | 43 | 33_fuentes_europeos_sabotaje_efectivos |
|
76 |
+
| 34 | aficionados - marruecos - lluvias - hiroshima - obliguen | 42 | 34_aficionados_marruecos_lluvias_hiroshima |
|
77 |
+
| 35 | sars - rusia - despue - joe - menes | 42 | 35_sars_rusia_despue_joe |
|
78 |
+
| 36 | asentamientos - minnesota - dislikes - encantados - distribuidoras | 38 | 36_asentamientos_minnesota_dislikes_encantados |
|
79 |
+
| 37 | decomisado - desheredado - extremen - otorgado - infobae | 37 | 37_decomisado_desheredado_extremen_otorgado |
|
80 |
+
| 38 | thespanisharmy - asequibles - israeli - anuncios - trasladada | 37 | 38_thespanisharmy_asequibles_israeli_anuncios |
|
81 |
+
| 39 | ejemplos - latinoamericanos - ciberseguridad - colegios - canales | 37 | 39_ejemplos_latinoamericanos_ciberseguridad_colegios |
|
82 |
+
| 40 | confirmado - uvalde - listas - pipes - involucrada | 34 | 40_confirmado_uvalde_listas_pipes |
|
83 |
+
| 41 | enfrentamientos - bombardeado - israeli - deconectado - bulgaria | 32 | 41_enfrentamientos_bombardeado_israeli_deconectado |
|
84 |
+
| 42 | cisne - hits - supuestamente - gerundio - enfriando | 32 | 42_cisne_hits_supuestamente_gerundio |
|
85 |
+
| 43 | aseguro - salidas - reuters - infobae - agresiva | 31 | 43_aseguro_salidas_reuters_infobae |
|
86 |
+
| 44 | innumerable - desconectando - encantada - verdades - condenada | 31 | 44_innumerable_desconectando_encantada_verdades |
|
87 |
+
| 45 | emplazamientos - acreedores - abogados - tasas - vidente | 30 | 45_emplazamientos_acreedores_abogados_tasas |
|
88 |
+
| 46 | eurodiputado - carreteras - rusia - supera - irlanda | 29 | 46_eurodiputado_carreteras_rusia_supera |
|
89 |
+
| 47 | superhumana - sombras - cnmc - reparte - gaza | 28 | 47_superhumana_sombras_cnmc_reparte |
|
90 |
+
| 48 | fertilizantes - felices - interesantes - empezando - confinados | 28 | 48_fertilizantes_felices_interesantes_empezando |
|
91 |
+
| 49 | francisco - israeli - aragone - pretexto - luchar | 28 | 49_francisco_israeli_aragone_pretexto |
|
92 |
+
| 50 | followerwonk - francisco - vaticano - swift - inglaterra | 27 | 50_followerwonk_francisco_vaticano_swift |
|
93 |
+
| 51 | swift - terrenos - obligada - caos - unas | 27 | 51_swift_terrenos_obligada_caos |
|
94 |
+
| 52 | tarjetas - criptomonedas - activos - transacciones - supercomputadora | 26 | 52_tarjetas_criptomonedas_activos_transacciones |
|
95 |
+
| 53 | nordstreamsabotage - exeurodiputado - contraproducentes - gazprom - respuestas | 25 | 53_nordstreamsabotage_exeurodiputado_contraproducentes_gazprom |
|
96 |
+
| 54 | impuestos - desautorizara - desconocimiento - cogidos - periferia | 24 | 54_impuestos_desautorizara_desconocimiento_cogidos |
|
97 |
+
| 55 | correlacionarse - gobiernos - hidrocarburos - extranjera - kakunas | 23 | 55_correlacionarse_gobiernos_hidrocarburos_extranjera |
|
98 |
+
| 56 | bipartidismo - monitoreados - locutor - recepcionistas - mejoras | 21 | 56_bipartidismo_monitoreados_locutor_recepcionistas |
|
99 |
+
| 57 | sudamericanas - genes - secesionismo - volverse - sudafricano | 20 | 57_sudamericanas_genes_secesionismo_volverse |
|
100 |
+
| 58 | deforman - escuelas - kilos - walker - carreteras | 19 | 58_deforman_escuelas_kilos_walker |
|
101 |
+
| 59 | primeras - cohesionado - escuchado - manzanas - caballeros | 18 | 59_primeras_cohesionado_escuchado_manzanas |
|
102 |
+
| 60 | benjamin - rebaja - carlson - espaldarazo - prefiero | 17 | 60_benjamin_rebaja_carlson_espaldarazo |
|
103 |
+
| 61 | sudafricana - marruecos - bodegas - pisos - amphibious | 17 | 61_sudafricana_marruecos_bodegas_pisos |
|
104 |
+
| 62 | operations - pentagon - weapons - ukraine - germany | 17 | 62_operations_pentagon_weapons_ukraine |
|
105 |
+
| 63 | cristine - vicepresidenciales - clasificado - estacionan - coordino | 15 | 63_cristine_vicepresidenciales_clasificado_estacionan |
|
106 |
+
| 64 | enemigosdelahumanidad - microchips - fusiles - muertes - debilitari | 14 | 64_enemigosdelahumanidad_microchips_fusiles_muertes |
|
107 |
+
| 65 | desmonetizando - dislikes - concilio - likes - logos | 13 | 65_desmonetizando_dislikes_concilio_likes |
|
108 |
+
| 66 | blancos - foro - alaska - embajadora - despue | 13 | 66_blancos_foro_alaska_embajadora |
|
109 |
+
| 67 | suministros - israeli - oms - fechas - palestina | 12 | 67_suministros_israeli_oms_fechas |
|
110 |
+
| 68 | juass - astrazeneca - tiros - barbas - creen | 10 | 68_juass_astrazeneca_tiros_barbas |
|
111 |
+
| 69 | thedros - matadero - volcanes - autopsia - encantados | 10 | 69_thedros_matadero_volcanes_autopsia |
|
112 |
+
|
113 |
+
</details>
|
114 |
+
|
115 |
+
## Training hyperparameters
|
116 |
+
|
117 |
+
* calculate_probabilities: False
|
118 |
+
* language: None
|
119 |
+
* low_memory: False
|
120 |
+
* min_topic_size: 10
|
121 |
+
* n_gram_range: (1, 1)
|
122 |
+
* nr_topics: None
|
123 |
+
* seed_topic_list: None
|
124 |
+
* top_n_words: 10
|
125 |
+
* verbose: False
|
126 |
+
* zeroshot_min_similarity: 0.7
|
127 |
+
* zeroshot_topic_list: None
|
128 |
+
|
129 |
+
## Framework versions
|
130 |
+
|
131 |
+
* Numpy: 1.23.5
|
132 |
+
* HDBSCAN: 0.8.38.post1
|
133 |
+
* UMAP: 0.5.6
|
134 |
+
* Pandas: 2.2.2
|
135 |
+
* Scikit-Learn: 1.5.1
|
136 |
+
* Sentence-transformers: 3.0.1
|
137 |
+
* Transformers: 4.44.2
|
138 |
+
* Numba: 0.60.0
|
139 |
+
* Plotly: 5.24.0
|
140 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": false,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": false,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cd0d54799347ae88dd26353dae9ac05875f45cc570dbd781e37476e2eb670032
|
3 |
+
size 1622092
|
ctfidf_config.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:42ff0fa81e0d6026c171057926fb161bc0d478fcaf0895dd279f4dbd5895ac8f
|
3 |
+
size 290904
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|