LLM-homework1
Обученный трансформер, для генерации анекдотов, следующей архитектуры
- В качестве позиционных эмбеддингов используется ALiBi
- Механизм внимания использует GQA
- В Feed-Forward блоке SwiGLU
Обучающие данные: https://huggingface.co/datasets/IgorVolochay/russian_jokes
Обучены две версии:
- nano:
n_layer=3, n_head=4, n_kv_head=2, hidden_dim=96, intermediate_dim=256
- mini:
n_layer=6, n_head=6, n_kv_head=3, hidden_dim=384, intermediate_dim=1024
Итоговый CrossEntropy лосс:
- nano:
1.712
- mini:
1.410
Примеры генерации:
- nano:
sampling_temperature=1, top_k=15
:- Заходят в баре каблеткой. Возьпает врача на негра:- А сейчас пригласилось, почему не знает, что ты держишь?!- И что ли??- Да нет - Потому что, если я хочу бросила, значит, я вчера бы не против весь разбудил.
- Заходят в бармена - деревенько и спрашивает:- Мойка, ты что вы меня ведь сегодня в тюрьми?
- Заходят в барабльке:- Ты мне вечером! Слушай! Возьми мне! Потому что у вас внутру сади не выберите, но он приходит в лежу, но и восемь - я тебе не знал!
sampling_temperature=0.2, top_k=15
:- Заходят в баре, а в том, что я сегодня в магазине, что он не могу, а я не знаю, что я не снимаю, а вчера в семье.
sampling_temperature=5, top_k=15
:- Заходят в баре:- Дуя сыни ты с ней не было! Тем это, у нем игрядил сегодня, что этот картак? Пером и те-нограстью?Она с топройная:- Кто морс!- Это как это?
- mini:
sampling_temperature=1, top_k=15
:- Заходит в бар. Накрылась жена. Русский спрашивает: - Мама! Мама? Конечно, я вас не видела... Теперь сейчас, я сегодня научил тебе картошку!
- Звери в лесу пить собрались. Просто от него вечера. Интересно, что впереди с банками вместо "Милок" снега восточный месте сразу открывает дверь.
- Приезжает генерал в глухую часть с инспекцией и говорит: - Зачем мне докажут? - Один раз вчера у меня вдруг заморотал!
sampling_temperature=0.2, top_k=15
:- Заходят в бар, а там вдруг видят, что вдруг видят, что вдруг видят, что у него есть.
sampling_temperature=5, top_k=15
- Заходят в баре, а тут - носит голыми винтерноденным куликанам-валат.
- Downloads last month
- 43
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.