kashif
/

stack-llama-2

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

kashif HF staff commited on Aug 8, 2023

Commit

b25009a

·

1 Parent(s): 08cf7ac

Update README.md

Files changed (1) hide show

README.md +11 -1

README.md CHANGED Viewed

@@ -24,4 +24,14 @@ Fine-tuning datasets for this model are based on [Stack Exchange Paired](https:/
 **Traditional Fine-tuning:** [https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/finetune](https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/finetune)
-**DPO Training:** [https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/rl](https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/rl)

 **Traditional Fine-tuning:** [https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/finetune](https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/finetune)
+**DPO Training:** [https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/rl](https://huggingface.co/datasets/lvwerra/stack-exchange-paired/tree/main/data/rl)
+### Training Procedure
+The model was first fine-tuned on the Stack Exchange question and answer pairs and then fine-tuned via the DPO training procedure using a Stack Exchange Reward Model.
+It is trained to respond to prompts with the following template:
+```
+Question: <Query>
+Answer: <Response>
+```