Edit model card

BERTopicTelegramAnalysis

This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.

The model uses data from 32 open Telegram channels were Ukrainian Refugees exchange, we use the model to study refugee needs within Switzerland

Usage

To use this model, please install BERTopic:

pip install -U bertopic

You can use the model as follows:

from bertopic import BERTopic
topic_model = BERTopic.load("kdot/BERTopicTelegramAnalysis")

topic_model.get_topic_info()

Topic overview

  • Number of topics: 30
  • Number of training documents: 339650
Click here for an overview of all topics.
Topic ID Topic Keywords Topic Frequency Label
-1 это - швейцарии - день - нужно - пожалуйста 50 -1_это_швейцарии_день_нужно
0 швейцарии - україни - швейцарії - украину - украины 181315 0_швейцарии_україни_швейцарії_украину
1 беженцев - лагере - лагерь - кантоне - кантона 38579 1_беженцев_лагере_лагерь_кантоне
2 страховку - страховка - страховки - соц - франков 33469 2_страховку_страховка_страховки_соц
3 квартиру - жилье - жилья - квартиры - жильё 13553 3_квартиру_жилье_жилья_квартиры
4 билет - поезд - билеты - чемодан - автобус 9189 4_билет_поезд_билеты_чемодан
5 стоматолога - зуб - врача - врач - врачу 8665 5_стоматолога_зуб_врача_врач
6 паспорт - паспорта - статус - статуса - паспорту 7180 6_паспорт_паспорта_статус_статуса
7 чат - война - войны - штраф - полицию 6898 7_чат_война_войны_штраф
8 действие - ссылку авторизации - послал ссылку - info moving - авторизации 6630 8_действие_ссылку авторизации_послал ссылку_info moving
9 магазин - магазины - caritas - магазинах - купить 4598 9_магазин_магазины_caritas_магазинах
10 языка - школу - язык - програмування - англійської 4310 10_языка_школу_язык_програмування
11 очки - парикмахера - окуляри - парикмахер - перукаря 3730 11_очки_парикмахера_окуляри_парикмахер
12 sem - письмо - адрес - почту - почте 3107 12_sem_письмо_адрес_почту
13 велосипед - коляска - велосипеда - коляску - самокат 2794 13_велосипед_коляска_велосипеда_коляску
14 пластик - мусора - мусор - пластика - молоко 2376 14_пластик_мусора_мусор_пластика
15 рождении - семьи - развод - воссоединение - свидетельство 2026 15_рождении_семьи_развод_воссоединение
16 размер - обувь - розмір - взуття - одежда 1719 16_размер_обувь_розмір_взуття
17 йога - занятия - йоги - инструктор - занятие 1470 17_йога_занятия_йоги_инструктор
18 sbb - карту - приложение - приложении - гугл 1458 18_sbb_карту_приложение_приложении
19 месяца - недели - дней - сентября - месяц 1292 19_месяца_недели_дней_сентября
20 ukraine_reborn - організовує_ukraine_reborn - массаж - сторінка facebook - montbrillant 52 1183 20_ukraine_reborn_організовує_ukraine_reborn_массаж_сторінка facebook
21 бассейн - пляж - озера - басейн - бассейны 1096 21_бассейн_пляж_озера_басейн
22 юриста - юрист - адвоката - адвокат - юристы 937 22_юриста_юрист_адвоката_адвокат
23 телефон - iphone - айфон - pro - продам 590 23_телефон_iphone_айфон_pro
24 грибы - грибов - гриби - грибів - клубнику 554 24_грибы_грибов_гриби_грибів
25 книги - бібліотеці - принтер - книжки - распечатать 342 25_книги_бібліотеці_принтер_книжки
26 60 сек - 1inch - 1inch network - сек - зазначеного вилучені 329 26_60 сек_1inch_1inch network_сек
27 господа - господь - псалом - бог - ибо 144 27_господа_господь_псалом_бог
28 sem - asylg - ст - течение квартала - нуждающееся защите 67 28_sem_asylg_ст_течение квартала

Training hyperparameters

  • calculate_probabilities: False
  • language: multilingual
  • low_memory: False
  • min_topic_size: 10
  • n_gram_range: (1, 1)
  • nr_topics: 30
  • seed_topic_list: None
  • top_n_words: 10
  • verbose: True

Framework versions

  • Numpy: 1.24.4
  • HDBSCAN: 0.8.33
  • UMAP: 0.5.4
  • Pandas: 2.0.3
  • Scikit-Learn: 1.0.2
  • Sentence-transformers: 2.2.2
  • Transformers: 4.33.2
  • Numba: 0.58.0
  • Plotly: 5.17.0
  • Python: 3.8.10
Downloads last month
0
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.