Text Generation
Safetensors
Russian
conversational

Почему такая маленькая модель показывает такие замечательные результаты?

#4
by Regrin - opened

Здравствуйте!
Я очень удивлён, что нейросеть Мистраль и основанная на нём Сайга при таком малом числе параметров выдают такие замечательные результаты. Не могли бы вы объяснить, как этого удалось доиться? В чём секрет успеха?

Вопросы не ко мне, а ребятам из Мистраля. А у них ответ - крутая чистка данных для предобучения и хорошая архитектура (RoPE, RMSNorm, SWA, GQA).

IlyaGusev changed discussion status to closed

Sign up or log in to comment