Edit model card

BERTopicTelegramAnalysis_small

This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.

The model uses data from 32 open Telegram channels were Ukrainian Refugees exchange, we use the model to study refugee needs within Switzerland.

NOTE: only samples longer than 100 and smaller than 2500 char are used for modeling

Usage

To use this model, please install BERTopic:

pip install -U bertopic

You can use the model as follows:

from bertopic import BERTopic
topic_model = BERTopic.load("kdot/BERTopicTelegramAnalysis_small")

topic_model.get_topic_info()

Topic overview

  • Number of topics: 30
  • Number of training documents: 201891
Click here for an overview of all topics.
Topic ID Topic Keywords Topic Frequency Label
-1 это - швейцарии - статус - день - пожалуйста 58 -1_это_швейцарии_статус_день
0 беженцев - швейцарии - пожалуйста - подскажите - україни 110510 0_беженцев_швейцарии_пожалуйста_подскажите
1 страховка - страховку - врача - врач - врачу 31528 1_страховка_страховку_врача_врач
2 паспорт - паспорта - письмо - пришло - статус 12883 2_паспорт_паспорта_письмо_пришло
3 мови - языка - курсы - немецкого - англійської 5190 3_мови_языка_курсы_немецкого
4 чат - это - война - людей - войны 4949 4_чат_это_война_людей
5 квартиру - жилье - квартиры - аренды - жилья 4580 5_квартиру_жилье_квартиры_аренды
6 билет - билеты - поезд - sbb - квиток 3507 6_билет_билеты_поезд_sbb
7 велосипед - размер - обувь - розмір - одежда 2951 7_велосипед_размер_обувь_розмір
8 лагере - лагерь - лагеря - вокзале - лагерях 2904 8_лагере_лагерь_лагеря_вокзале
9 животных - собаку - собак - собака - собаки 2891 9_животных_собаку_собак_собака
10 info moving - moving - кік - налаштуваннях чату - кікнуто 2821 10_info moving_moving_кік_налаштуваннях чату
11 соц - радио - налог - тв - зп 2659 11_соц_радио_налог_тв
12 волос - парикмахер - стрижки - волосся - фотограф 1980 12_волос_парикмахер_стрижки_волосся
13 мусора - мусор - кг - сміття - творог 1716 13_мусора_мусор_кг_сміття
14 програмування - школу - життєвий капітал - капітал - життєвий 1625 14_програмування_школу_життєвий капітал_капітал
15 йога - занятия - инструктор - йоги - занятие 1329 15_йога_занятия_инструктор_йоги
16 музей - праздник - зоопарк - торт - музеи 1224 16_музей_праздник_зоопарк_торт
17 арт - ukraine_reborn - психотерапевт - організовує_ukraine_reborn - montbrillant 52 1021 17_арт_ukraine_reborn_психотерапевт_організовує_ukraine_reborn
18 телефон - ноутбук - iphone - интернет - ноутбуков 1016 18_телефон_ноутбук_iphone_интернет
19 роботи - резюме - вимоги - ресторан - знання 1004 19_роботи_резюме_вимоги_ресторан
20 развод - дети - детей - родители - розлучення 950 20_развод_дети_детей_родители
21 бассейн - горы - озера - пляж - озеро 646 21_бассейн_горы_озера_пляж
22 юриста - адвокат - адвоката - юрист - юристов 597 22_юриста_адвокат_адвоката_юрист
23 работодатель - работу - разрешение - ес - разрешение работу 484 23_работодатель_работу_разрешение_ес
24 грибы - грибов - сигарет - сигареты - грибів 359 24_грибы_грибов_сигарет_сигареты
25 инвалидности - инвалидность - инвалидностью - інвалідністю - инвалидов 209 25_инвалидности_инвалидность_инвалидностью_інвалідністю
26 sem - сайте sem - sema - sem адрес - статуса sem 131 26_sem_сайте sem_sema_sem адрес
27 господа - бог - господь - псалом - ибо 104 27_господа_бог_господь_псалом
28 60 сек - 1inch - 1inch network - сек - дякуємо 60 65 28_60 сек_1inch_1inch network_сек

Training hyperparameters

  • calculate_probabilities: False
  • language: multilingual
  • low_memory: False
  • min_topic_size: 10
  • n_gram_range: (1, 1)
  • nr_topics: 30
  • seed_topic_list: None
  • top_n_words: 10
  • verbose: True

Framework versions

  • Numpy: 1.24.4
  • HDBSCAN: 0.8.33
  • UMAP: 0.5.4
  • Pandas: 2.0.3
  • Scikit-Learn: 1.0.2
  • Sentence-transformers: 2.2.2
  • Transformers: 4.33.2
  • Numba: 0.58.0
  • Plotly: 5.17.0
  • Python: 3.8.10
Downloads last month
1
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.