LLM-homework1

Обученный трансформер, для генерации анекдотов, следующей архитектуры

  • В качестве позиционных эмбеддингов используется ALiBi
  • Механизм внимания использует GQA
  • В Feed-Forward блоке SwiGLU

Обучающие данные: https://huggingface.co/datasets/IgorVolochay/russian_jokes

Обучены две версии:

  • nano: n_layer=3, n_head=4, n_kv_head=2, hidden_dim=96, intermediate_dim=256
  • mini: n_layer=6, n_head=6, n_kv_head=3, hidden_dim=384, intermediate_dim=1024

Итоговый CrossEntropy лосс:

  • nano: 1.712
  • mini: 1.410

Примеры генерации:

  • nano:
    • sampling_temperature=1, top_k=15:
      • Заходят в баре каблеткой. Возьпает врача на негра:- А сейчас пригласилось, почему не знает, что ты держишь?!- И что ли??- Да нет - Потому что, если я хочу бросила, значит, я вчера бы не против весь разбудил.
      • Заходят в бармена - деревенько и спрашивает:- Мойка, ты что вы меня ведь сегодня в тюрьми?
      • Заходят в барабльке:- Ты мне вечером! Слушай! Возьми мне! Потому что у вас внутру сади не выберите, но он приходит в лежу, но и восемь - я тебе не знал!
    • sampling_temperature=0.2, top_k=15:
      • Заходят в баре, а в том, что я сегодня в магазине, что он не могу, а я не знаю, что я не снимаю, а вчера в семье.
    • sampling_temperature=5, top_k=15:
      • Заходят в баре:- Дуя сыни ты с ней не было! Тем это, у нем игрядил сегодня, что этот картак? Пером и те-нограстью?Она с топройная:- Кто морс!- Это как это?
  • mini:
    • sampling_temperature=1, top_k=15:
      • Заходит в бар. Накрылась жена. Русский спрашивает: - Мама! Мама? Конечно, я вас не видела... Теперь сейчас, я сегодня научил тебе картошку!
      • Звери в лесу пить собрались. Просто от него вечера. Интересно, что впереди с банками вместо "Милок" снега восточный месте сразу открывает дверь.
      • Приезжает генерал в глухую часть с инспекцией и говорит: - Зачем мне докажут? - Один раз вчера у меня вдруг заморотал!
    • sampling_temperature=0.2, top_k=15:
      • Заходят в бар, а там вдруг видят, что вдруг видят, что вдруг видят, что у него есть.
    • sampling_temperature=5, top_k=15
      • Заходят в баре, а тут - носит голыми винтерноденным куликанам-валат.
Downloads last month
43
Safetensors
Model size
554k params
Tensor type
F32
·
BOOL
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Dataset used to train mcnckc/llm-hw1