LLM-HW2
Collection
Коллекция моделей, обученных в процессе выполнения ДЗ
•
3 items
•
Updated
Reward model, HuggingFaceTB/SmolLM2-135M-Instruct
дообученная на датасете HumanLLMs/Human-Like-DPO-Dataset
, чтобы выдавать большую награду более эмоциональным ответам языковой модели.
Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo
Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.
num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,
Base model
HuggingFaceTB/SmolLM2-135M