--- library_name: transformers tags: - trl - reward-trainer datasets: - HumanLLMs/Human-Like-DPO-Dataset language: - en base_model: - HuggingFaceTB/SmolLM2-135M-Instruct pipeline_tag: text-classification --- # Model Card for Model ID Reward model, `HuggingFaceTB/SmolLM2-135M-Instruct` дообученная на датасете `HumanLLMs/Human-Like-DPO-Dataset`, чтобы выдавать большую награду более эмоциональным ответам языковой модели. Использона как reward model в PPO при обучении языковой модели - https://huggingface.co/mcnckc/llm-hw2-ppo ## Гиперпараметры обучения Все параметры кроме последнего линейного слоя - головы, были заморожены и не обучались. ``` num_train_epochs=1, per_device_train_batch_size=16, max_length=1024, disable_dropout=True, learning_rate=3e-4, ```