blunt-octopus commited on
Commit
c78e9ad
1 Parent(s): 33af21a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +18 -1
README.md CHANGED
@@ -10,4 +10,21 @@ pinned: false
10
  license: unlicense
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces#reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  license: unlicense
11
  ---
12
 
13
+ # Лабораторная какая-то, часть какая-то по ML-2.
14
+
15
+ ### Автор: Антон Белецкий.
16
+
17
+ Парсинг данных и обучение моделей находится в `models.ipynb`
18
+
19
+ Обученная модель состоит из файлов `config.json` и `pytorch_model.bin`.
20
+
21
+ Токенайзер также сохранен локально (так как в какой-то момент были проблемы с его автоматической сборкой).
22
+
23
+ Слайдер `Verbosity` отвечает за границу суммарной вероятности выводимых предсказаний. Если он стоит на 70, то будут выведены столько первых предсказаний, сколько потребуется чтобы их суммарная вероятность перевалила за 70. По умолчанию он стоит на 95, как и требуется в лабораторной, но с этим значением он выводит достаточно много низковероятностного мусора. Результаты выглядят гораздо приятнее если поставить слайдер на 70-80.
24
+
25
+ В процессе поиска оптимального варианта для классификации (таксономизации) статей были использованы следующие подходы:
26
+ * Стандартный `distilbert` на датасете, предоставленном нам "по умолчанию"
27
+ * Специальная версия той же архитектуры, но изначально тренировавшаяся на научных статьях в качестве текстов (`allenai/scibert_scivocab_uncased`). В том числе эта модель использует специализированный токенайзер. В итоге эта модель не дала существенного прироста в качестве, при этом ее обучение требовало почти в 2 раза больше времени на эпоху, поэтому в итоговой версии она не используется.
28
+ * Сбор дополнительных данных: использовался датасет [отсюда](https://www.kaggle.com/datasets/Cornell-University/arxiv). В итоге были использованы 100 000 статей оттуда. Эти данные отличались гораздо большим разнообразием и сбалансированностью тем, поэтому дали огромный прирост к качеству (без них классификатор обучился предсказывать `cs.AI` примерно всему).
29
+
30
+ Чтобы получить полный список тегов, используемых арксивом, я распарсил официальную страницу с таксономизацией с помощью `beautiful soup` (все это можно найти в `models.ipynb`).