Model Card for Model ID

Reward model, HuggingFaceTB/SmolLM2-135M-Instruct дообученная на датасете HumanLLMs/Human-Like-DPO-Dataset, чтобы выдавать большую награду более эмоциональным ответам языковой модели. Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo

Гиперпараметры обучения

Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.

num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,

mcnckc
/

llm-hw2-reward-model

Model Card for Model ID

Гиперпараметры обучения

Model tree for mcnckc/llm-hw2-reward-model

Dataset used to train mcnckc/llm-hw2-reward-model

Collection including mcnckc/llm-hw2-reward-model

LLM-HW2