Model Card for Model ID

Reward model, HuggingFaceTB/SmolLM2-135M-Instruct дообученная на датасете HumanLLMs/Human-Like-DPO-Dataset, чтобы выдавать большую награду более эмоциональным ответам языковой модели. Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo

Гиперпараметры обучения

Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.

num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,
Downloads last month
16
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for mcnckc/llm-hw2-reward-model

Finetuned
(118)
this model

Dataset used to train mcnckc/llm-hw2-reward-model

Collection including mcnckc/llm-hw2-reward-model