normster
/

RealGuardrails-Llama3.1-8B-Instruct-SFT-DPO

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

normster commited on 6 days ago

Commit

4cac1fd

·

verified ·

1 Parent(s): 896fdc9

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -5,11 +5,12 @@ datasets:
 base_model:
 - meta-llama/Llama-3.1-8B-Instruct
 - normster/RealGuardrails-Llama3.1-8B-Instruct-SFT
 ---
 # RealGuardrails Models
-This model was trained on the [RealGuardrails](https://huggingface.co/datasets/normster/RealGuardrails) dataset, an instruction-tuning dataset focused on improving system prompt adherence and precedence. In particular, it was trained via SFT on the `systemmix` split (150K examples) using our custom training library [torchllms](https://github.com/normster/torchllms) (yielding [normster/RealGuardrails-Llama3.1-8B-Instruct-SFT](https://huggingface.co/normster/RealGuardrails-Llama3.1-8B-Instruct-SFT)), and then trained via DPO on the `preferencemix` split (30K examples).
 ## Training Hyperparameters

 base_model:
 - meta-llama/Llama-3.1-8B-Instruct
 - normster/RealGuardrails-Llama3.1-8B-Instruct-SFT
+library_name: transformers
 ---
 # RealGuardrails Models
+This model was trained on the [RealGuardrails](https://huggingface.co/datasets/normster/RealGuardrails) dataset, an instruction-tuning dataset focused on improving system prompt adherence and precedence. In particular, it was trained via SFT on the `systemmix` split (150K examples) using our custom training library [torchllms](https://github.com/normster/torchllms) (yielding [normster/RealGuardrails-Llama3.1-8B-Instruct-SFT](https://huggingface.co/normster/RealGuardrails-Llama3.1-8B-Instruct-SFT)), and then trained via DPO on the `preferencemix` split (30K examples), and converted back to a `transformers` compatible checkpoint.
 ## Training Hyperparameters