SurgeGlobal
/

OpenBezoar-HH-RLHF-DPO

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

chansurgeplus commited on Apr 18

Commit

ef3b1e7

•

1 Parent(s): 4e4e66b

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ The OpenBezoar-HH-RLHF-DPO is an LLM that has been fine tuned for human preferen
 ## Model Details
-- Base Model: [OpenBezoar-HH-RLHF-SFT](https://huggingface.co/SurgeGlobal/OpenBezoar-HH-RLHF-SFT) model on a subset of [Anthropic's HH-RLHF Dataset](https://huggingface.co/datasets/Anthropic/hh-rlhf)
 - Dataset used for SFT: First 100K examples of the [HH-RLHF](https://huggingface.co/datasets/Anthropic/hh-rlhf) dataset
 - Alignment Method: [Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)
 - Epochs: 1

 ## Model Details
+- Base Model: [OpenBezoar-HH-RLHF-SFT](https://huggingface.co/SurgeGlobal/OpenBezoar-HH-RLHF-SFT)
 - Dataset used for SFT: First 100K examples of the [HH-RLHF](https://huggingface.co/datasets/Anthropic/hh-rlhf) dataset
 - Alignment Method: [Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)
 - Epochs: 1