upstage
/

SOLAR-10.7B-Instruct-v1.0

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

killawhale2 commited on Dec 14, 2023

Commit

6625d6d

•

1 Parent(s): 00ae028

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -21,6 +21,8 @@ Solar 10.7B is an ideal choice for fine-tuning. SOLAR-10.7B offers robustness an
 We utilize state-of-the-art instruction fine-tuning methods including supervised fine-tuning (SFT) and direct preference optimization (DPO) [1].
 Using open source datasets with Alpaca- and OpenOrca-style and generated  synthetic datasets, we apply iterative DPO training, a proprietary alignment strategy, to maximize the performance of our resulting model.
 [1] Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C.D. and Finn, C., 2023. Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.
 # **Evaluation Results**

 We utilize state-of-the-art instruction fine-tuning methods including supervised fine-tuning (SFT) and direct preference optimization (DPO) [1].
 Using open source datasets with Alpaca- and OpenOrca-style and generated  synthetic datasets, we apply iterative DPO training, a proprietary alignment strategy, to maximize the performance of our resulting model.
+*Note:* We were careful of data contamination during SFT and DPO, e.g., removing data created using TruthfulQA's prompts.
 [1] Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C.D. and Finn, C., 2023. Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.
 # **Evaluation Results**