[Легковесный трансформер для генерации текста с ALiBi, GQA и SwiGLU.]

📖 Описание

Данная модель представляет собой трансформерную архитектуру, оптимизированную для работы с короткими текстами. Она использует:

  • ALiBi для позиционного кодирования
  • GQA для эффективного механизма внимания
  • SwiGLU в Feed-Forward блоке для лучшей обработки информации

Модель обучена на [IgorVolochay/russian_jokes] и предназначена для генерации осмысленного текста в пределах контекста ≤250 токенов.


This model has been pushed to the Hub using the PytorchModelHubMixin integration:

  • Library: [More Information Needed]
  • Docs: [More Information Needed]
Downloads last month
5
Safetensors
Model size
6.21M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train bdvs/llm-course-hw1