FRED-T5-large-instruct

🚧 WIP, still training...

Модель ai-forever/FRED-T5-large, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.

Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.

Usage

Basic

from transformers import pipeline


pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')

Training

Пока что можно следить за обучением здесь на WandB.

Учится в fp32.

Data

Сконкатенировано из разных переведённых инструктивных датасетов.

Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).

Resources

Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).

d0rj
/

FRED-T5-large-instruct