SHAD_Homework / README.md
AndreyForty's picture
Update README.md
748c453 verified
metadata
title: SHAD Homework
emoji: 🚀
colorFrom: red
colorTo: red
sdk: docker
app_port: 8501
tags:
  - streamlit
pinned: false
short_description: Задание шад Моисейкин Андрей
license: mit

Реализация задания из ноутбука через streamlit и finetune модели distilbert/distilbert-base-cased для классификации научный статей

Что за файлики

  • train_distilbert.py - на датасете архива arxivData.json из кагле.
  • app.py - веб-интерфейс на streamlit, который загружает уже обученный чекпонинт
  • paper_classifier.py - общие константы, примеры

Используются поля:

  • title
  • summary
  • tag

Обучение

conda activate main
pip install -r requirements.txt
python train_distilbert.py

По умолчанию checkpoint будет сохранён в artifacts/distilbert-arxiv.

Запуск streamlit

После обучения:

conda activate main
streamlit run app.py --server.port 8080

После запуска откройте http://localhost:8080.

Как работает инференс

  • модель читает title и abstract
  • если abstract пустой, используется только название статьи
  • сервис показывает только те классы, которые суммарно набирают 95% вероятности по категориям, иначе гг.