SakanaAI
/

DiscoPOP-zephyr-7b-gemma

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

chrlu commited on Jun 12

Commit

c1a11fb

•

1 Parent(s): 2a22bc1

Update README.md

Files changed (1) hide show

README.md +27 -19

README.md CHANGED Viewed

@@ -7,30 +7,42 @@ tags:
 datasets:
 - argilla/dpo-mix-7k
 model-index:
-- name: zephyr-7b-gemma-log_ratio_modulated_loss
   results: []
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
-# zephyr-7b-gemma-log_ratio_modulated_loss
 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-gemma-sft-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-sft-v0.1) on the argilla/dpo-mix-7k dataset.
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
 ### Training hyperparameters
@@ -49,10 +61,6 @@ The following hyperparameters were used during training:
 - lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 2
-### Training results
 ### Framework versions
 - Transformers 4.40.1

 datasets:
 - argilla/dpo-mix-7k
 model-index:
+- name: DiscoPOP-zephyr-7b-gemma
   results: []
 ---
+# DiscoPOP-zephyr-7b-gemma
 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-gemma-sft-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-sft-v0.1) on the argilla/dpo-mix-7k dataset.
+See the codebase to generate it here: [https://github.com/SakanaAI/DiscoPOP](https://github.com/SakanaAI/DiscoPOP)
+## Model description
+This model is identical in training to [HuggingFaceH4/zephyr-7b-gemma-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1), except instead of using Direct Preference Optimization (DPO), it uses DiscoPOP.
+DiscoPOP is our Discovered Preference Optimization algorithm, which is defined as follows:
+```
+def log_ratio_modulated_loss(
+    self,
+    policy_chosen_logps: torch.FloatTensor,
+    policy_rejected_logps: torch.FloatTensor,
+    reference_chosen_logps: torch.FloatTensor,
+    reference_rejected_logps: torch.FloatTensor,
+) -> torch.FloatTensor:
+    pi_logratios = policy_chosen_logps - policy_rejected_logps
+    ref_logratios = reference_chosen_logps - reference_rejected_logps
+    logits = pi_logratios - ref_logratios
+    # Modulate the mixing coefficient based on the log ratio magnitudes
+    log_ratio_modulation = torch.sigmoid(logits)
+    logistic_component = -F.logsigmoid(self.beta * logits)
+    exp_component = torch.exp(-self.beta * logits)
+    # Blend between logistic and exponential component based on log ratio modulation
+    losses = logistic_component * (1 - log_ratio_modulation) + exp_component * log_ratio_modulation
+    return losses
+```
 ### Training hyperparameters
 - lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 2
 ### Framework versions
 - Transformers 4.40.1