---
library_name: transformers
tags:
- trl
- reward-trainer
datasets:
- HumanLLMs/Human-Like-DPO-Dataset
language:
- en
base_model:
- HuggingFaceTB/SmolLM2-135M-Instruct
pipeline_tag: text-classification
---

# Model Card for Model ID

Reward model, `HuggingFaceTB/SmolLM2-135M-Instruct` дообученная на датасете `HumanLLMs/Human-Like-DPO-Dataset`, чтобы выдавать большую награду более эмоциональным ответам языковой модели.
Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo


## Гиперпараметры обучения
Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались.

```
num_train_epochs=1,
per_device_train_batch_size=16,
max_length=1024,
disable_dropout=True,
learning_rate=3e-4,
```