BERTopicTelegramAnalysis_small
This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
The model uses data from 32 open Telegram channels were Ukrainian Refugees exchange, we use the model to study refugee needs within Switzerland.
NOTE: only samples longer than 100 and smaller than 2500 char are used for modeling
Usage
To use this model, please install BERTopic:
pip install -U bertopic
You can use the model as follows:
from bertopic import BERTopic
topic_model = BERTopic.load("kdot/BERTopicTelegramAnalysis_small")
topic_model.get_topic_info()
Topic overview
- Number of topics: 30
- Number of training documents: 201891
Click here for an overview of all topics.
Topic ID | Topic Keywords | Topic Frequency | Label |
---|---|---|---|
-1 | это - швейцарии - статус - день - пожалуйста | 58 | -1_это_швейцарии_статус_день |
0 | беженцев - швейцарии - пожалуйста - подскажите - україни | 110510 | 0_беженцев_швейцарии_пожалуйста_подскажите |
1 | страховка - страховку - врача - врач - врачу | 31528 | 1_страховка_страховку_врача_врач |
2 | паспорт - паспорта - письмо - пришло - статус | 12883 | 2_паспорт_паспорта_письмо_пришло |
3 | мови - языка - курсы - немецкого - англійської | 5190 | 3_мови_языка_курсы_немецкого |
4 | чат - это - война - людей - войны | 4949 | 4_чат_это_война_людей |
5 | квартиру - жилье - квартиры - аренды - жилья | 4580 | 5_квартиру_жилье_квартиры_аренды |
6 | билет - билеты - поезд - sbb - квиток | 3507 | 6_билет_билеты_поезд_sbb |
7 | велосипед - размер - обувь - розмір - одежда | 2951 | 7_велосипед_размер_обувь_розмір |
8 | лагере - лагерь - лагеря - вокзале - лагерях | 2904 | 8_лагере_лагерь_лагеря_вокзале |
9 | животных - собаку - собак - собака - собаки | 2891 | 9_животных_собаку_собак_собака |
10 | info moving - moving - кік - налаштуваннях чату - кікнуто | 2821 | 10_info moving_moving_кік_налаштуваннях чату |
11 | соц - радио - налог - тв - зп | 2659 | 11_соц_радио_налог_тв |
12 | волос - парикмахер - стрижки - волосся - фотограф | 1980 | 12_волос_парикмахер_стрижки_волосся |
13 | мусора - мусор - кг - сміття - творог | 1716 | 13_мусора_мусор_кг_сміття |
14 | програмування - школу - життєвий капітал - капітал - життєвий | 1625 | 14_програмування_школу_життєвий капітал_капітал |
15 | йога - занятия - инструктор - йоги - занятие | 1329 | 15_йога_занятия_инструктор_йоги |
16 | музей - праздник - зоопарк - торт - музеи | 1224 | 16_музей_праздник_зоопарк_торт |
17 | арт - ukraine_reborn - психотерапевт - організовує_ukraine_reborn - montbrillant 52 | 1021 | 17_арт_ukraine_reborn_психотерапевт_організовує_ukraine_reborn |
18 | телефон - ноутбук - iphone - интернет - ноутбуков | 1016 | 18_телефон_ноутбук_iphone_интернет |
19 | роботи - резюме - вимоги - ресторан - знання | 1004 | 19_роботи_резюме_вимоги_ресторан |
20 | развод - дети - детей - родители - розлучення | 950 | 20_развод_дети_детей_родители |
21 | бассейн - горы - озера - пляж - озеро | 646 | 21_бассейн_горы_озера_пляж |
22 | юриста - адвокат - адвоката - юрист - юристов | 597 | 22_юриста_адвокат_адвоката_юрист |
23 | работодатель - работу - разрешение - ес - разрешение работу | 484 | 23_работодатель_работу_разрешение_ес |
24 | грибы - грибов - сигарет - сигареты - грибів | 359 | 24_грибы_грибов_сигарет_сигареты |
25 | инвалидности - инвалидность - инвалидностью - інвалідністю - инвалидов | 209 | 25_инвалидности_инвалидность_инвалидностью_інвалідністю |
26 | sem - сайте sem - sema - sem адрес - статуса sem | 131 | 26_sem_сайте sem_sema_sem адрес |
27 | господа - бог - господь - псалом - ибо | 104 | 27_господа_бог_господь_псалом |
28 | 60 сек - 1inch - 1inch network - сек - дякуємо 60 | 65 | 28_60 сек_1inch_1inch network_сек |
Training hyperparameters
- calculate_probabilities: False
- language: multilingual
- low_memory: False
- min_topic_size: 10
- n_gram_range: (1, 1)
- nr_topics: 30
- seed_topic_list: None
- top_n_words: 10
- verbose: True
Framework versions
- Numpy: 1.24.4
- HDBSCAN: 0.8.33
- UMAP: 0.5.4
- Pandas: 2.0.3
- Scikit-Learn: 1.0.2
- Sentence-transformers: 2.2.2
- Transformers: 4.33.2
- Numba: 0.58.0
- Plotly: 5.17.0
- Python: 3.8.10
- Downloads last month
- 1
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.