Junrulu
/

Reproduced-tulu2-dpo-13b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Junrulu commited on Mar 29, 2024

Commit

b20d809

·

verified ·

1 Parent(s): 54432cc

Update README.md

Files changed (1) hide show

README.md +1 -0

README.md CHANGED Viewed

@@ -43,3 +43,4 @@ The following hyperparameters were used during DPO training:
 - lr_scheduler_warmup_ratio: 0.1
 - Weight Decay: 0.0
 - num_epochs: 3.0

 - lr_scheduler_warmup_ratio: 0.1
 - Weight Decay: 0.0
 - num_epochs: 3.0
+- Specifically add above input format over training samples