End of training

Files changed (9) hide show

README.md CHANGED Viewed

@@ -2,10 +2,10 @@
 license: gemma
 library_name: peft
 tags:
-- trl
-- dpo
 - llama-factory
 - lora
 - generated_from_trainer
 base_model: google/gemma-7b-it
 model-index:
@@ -18,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Gemma-7B-It-ORPO
-This model is a fine-tuned version of [google/gemma-7b-it](https://huggingface.co/google/gemma-7b-it) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3471
 - Rewards/chosen: -0.1281

 license: gemma
 library_name: peft
 tags:
 - llama-factory
 - lora
+- trl
+- dpo
 - generated_from_trainer
 base_model: google/gemma-7b-it
 model-index:
 # Gemma-7B-It-ORPO
+This model is a fine-tuned version of [google/gemma-7b-it](https://huggingface.co/google/gemma-7b-it) on the dpo_mix_en dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.3471
 - Rewards/chosen: -0.1281

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": 195.72586059570312,
-    "eval_logits/rejected": 198.3043975830078,
-    "eval_logps/chosen": -4.347492694854736,
-    "eval_logps/rejected": -4.157506465911865,
-    "eval_loss": 4.426907539367676,
-    "eval_odds_ratio_loss": 0.79414963722229,
-    "eval_rewards/accuracies": 0.0,
-    "eval_rewards/chosen": -0.4347492754459381,
-    "eval_rewards/margins": -0.01899862289428711,
-    "eval_rewards/rejected": -0.415750652551651,
-    "eval_runtime": 0.2975,
-    "eval_samples_per_second": 3.361,
-    "eval_sft_loss": 4.347492694854736,
-    "eval_steps_per_second": 3.361,
-    "total_flos": 748013124648960.0,
-    "train_loss": 2.0597352981567383,
-    "train_runtime": 12.1534,
-    "train_samples_per_second": 0.741,
-    "train_steps_per_second": 0.082
 }

 {
+    "epoch": 2.997999555456768,
+    "eval_logits/chosen": 254.46791076660156,
+    "eval_logits/rejected": 254.66136169433594,
+    "eval_logps/chosen": -1.2813518047332764,
+    "eval_logps/rejected": -1.5003557205200195,
+    "eval_loss": 1.347064733505249,
+    "eval_odds_ratio_loss": 0.6571269631385803,
+    "eval_rewards/accuracies": 0.5609999895095825,
+    "eval_rewards/chosen": -0.12813518941402435,
+    "eval_rewards/margins": 0.021900387480854988,
+    "eval_rewards/rejected": -0.15003558993339539,
+    "eval_runtime": 217.2016,
+    "eval_samples_per_second": 4.604,
+    "eval_sft_loss": 1.2813518047332764,
+    "eval_steps_per_second": 2.302,
+    "total_flos": 2.0747345909474918e+18,
+    "train_loss": 1.4404786094086308,
+    "train_runtime": 22862.0738,
+    "train_samples_per_second": 1.181,
+    "train_steps_per_second": 0.074
 }

eval_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": 195.72586059570312,
-    "eval_logits/rejected": 198.3043975830078,
-    "eval_logps/chosen": -4.347492694854736,
-    "eval_logps/rejected": -4.157506465911865,
-    "eval_loss": 4.426907539367676,
-    "eval_odds_ratio_loss": 0.79414963722229,
-    "eval_rewards/accuracies": 0.0,
-    "eval_rewards/chosen": -0.4347492754459381,
-    "eval_rewards/margins": -0.01899862289428711,
-    "eval_rewards/rejected": -0.415750652551651,
-    "eval_runtime": 0.2975,
-    "eval_samples_per_second": 3.361,
-    "eval_sft_loss": 4.347492694854736,
-    "eval_steps_per_second": 3.361
 }

 {
+    "epoch": 2.997999555456768,
+    "eval_logits/chosen": 254.46791076660156,
+    "eval_logits/rejected": 254.66136169433594,
+    "eval_logps/chosen": -1.2813518047332764,
+    "eval_logps/rejected": -1.5003557205200195,
+    "eval_loss": 1.347064733505249,
+    "eval_odds_ratio_loss": 0.6571269631385803,
+    "eval_rewards/accuracies": 0.5609999895095825,
+    "eval_rewards/chosen": -0.12813518941402435,
+    "eval_rewards/margins": 0.021900387480854988,
+    "eval_rewards/rejected": -0.15003558993339539,
+    "eval_runtime": 217.2016,
+    "eval_samples_per_second": 4.604,
+    "eval_sft_loss": 1.2813518047332764,
+    "eval_steps_per_second": 2.302
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "total_flos": 748013124648960.0,
-    "train_loss": 2.0597352981567383,
-    "train_runtime": 12.1534,
-    "train_samples_per_second": 0.741,
-    "train_steps_per_second": 0.082
 }

 {
+    "epoch": 2.997999555456768,
+    "total_flos": 2.0747345909474918e+18,
+    "train_loss": 1.4404786094086308,
+    "train_runtime": 22862.0738,
+    "train_samples_per_second": 1.181,
+    "train_steps_per_second": 0.074
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_eval_loss.png ADDED Viewed

training_loss.png CHANGED Viewed

training_rewards_accuracies.png CHANGED Viewed

training_sft_loss.png CHANGED Viewed