Edit model card

FRED-T5-large-instruct

🚧 WIP, still training...

Модель ai-forever/FRED-T5-large, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.

Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.

Usage

Basic

from transformers import pipeline


pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')

Training

Пока что можно следить за обучением здесь на WandB.

Учится в fp32.

Data

Сконкатенировано из разных переведённых инструктивных датасетов.

Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).

Resources

Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).

Downloads last month
9
Safetensors
Model size
769M params
Tensor type
F32
·
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Finetuned from

Datasets used to train d0rj/FRED-T5-large-instruct