4season
/

alignment_model_test

Text Generation

Transformers

Safetensors

English

llama

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

Edit model card

4season/model_eval_test

Introduction

This model is test version, alignment-tuned model.

We utilize state-of-the-art instruction fine-tuning methods including direct preference optimization (DPO). After DPO training, we linearly merged models to boost performance.

Downloads last month: 2,479

Safetensors

Model size

21.4B params

Tensor type

BF16