Model save

Browse files

Files changed (13) hide show

.ipynb_checkpoints/lora_orpo-checkpoint.yaml +2 -2
README.md +1 -2
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +8 -0
lora_orpo.yaml +2 -2
train_results.json +8 -0
trainer_log.jsonl +17 -17
trainer_state.json +302 -0
training_args.bin +1 -1
training_loss.png +0 -0
training_rewards_accuracies.png +0 -0
training_sft_loss.png +0 -0

.ipynb_checkpoints/lora_orpo-checkpoint.yaml CHANGED Viewed

@@ -34,10 +34,10 @@ learning_rate: 0.000005
 num_train_epochs: 3.0
 lr_scheduler_type: cosine
 warmup_steps: 0.1
-fp16: true
 ### eval
 val_size: 0.1
-per_device_eval_batch_size: 2
 evaluation_strategy: steps
 eval_steps: 500

 num_train_epochs: 3.0
 lr_scheduler_type: cosine
 warmup_steps: 0.1
+bf16: true
 ### eval
 val_size: 0.1
+per_device_eval_batch_size: 1
 evaluation_strategy: steps
 eval_steps: 500

README.md CHANGED Viewed

@@ -38,7 +38,7 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-06
 - train_batch_size: 1
-- eval_batch_size: 2
 - seed: 42
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 16
@@ -46,7 +46,6 @@ The following hyperparameters were used during training:
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 0.1
 - num_epochs: 3.0
-- mixed_precision_training: Native AMP
 ### Training results

 The following hyperparameters were used during training:
 - learning_rate: 5e-06
 - train_batch_size: 1
+- eval_batch_size: 1
 - seed: 42
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 16
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 0.1
 - num_epochs: 3.0
 ### Training results

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "down_proj",
-    "q_proj",
-    "k_proj",
     "v_proj",
     "gate_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "q_proj",
+    "up_proj",
     "gate_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95018afb465ec344257caacc54cbc32ab167939ff6bf32d1b25aa8112a976531
 size 100059752

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc4b6acb2d98e1fe0132e7b05219cd20ebed844e661990d0b1652210733570e4
 size 100059752

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.986666666666667,
+    "total_flos": 2.2023536924295168e+17,
+    "train_loss": 1.8065733909606934,
+    "train_runtime": 5653.336,
+    "train_samples_per_second": 0.478,
+    "train_steps_per_second": 0.03
+}

lora_orpo.yaml CHANGED Viewed

@@ -34,10 +34,10 @@ learning_rate: 0.000005
 num_train_epochs: 3.0
 lr_scheduler_type: cosine
 warmup_steps: 0.1
-fp16: true
 ### eval
 val_size: 0.1
-per_device_eval_batch_size: 2
 evaluation_strategy: steps
 eval_steps: 500

 num_train_epochs: 3.0
 lr_scheduler_type: cosine
 warmup_steps: 0.1
+bf16: true
 ### eval
 val_size: 0.1
+per_device_eval_batch_size: 1
 evaluation_strategy: steps
 eval_steps: 500

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.986666666666667,
+    "total_flos": 2.2023536924295168e+17,
+    "train_loss": 1.8065733909606934,
+    "train_runtime": 5653.336,
+    "train_samples_per_second": 0.478,
+    "train_steps_per_second": 0.03
+}

trainer_log.jsonl CHANGED Viewed

@@ -1,17 +1,17 @@
-{"current_steps": 10, "total_steps": 168, "loss": 2.0742, "accuracy": 0.53125, "learning_rate": 4.957230266673969e-06, "epoch": 0.17777777777777778, "percentage": 5.95, "elapsed_time": "0:05:37", "remaining_time": "1:28:54"}
-{"current_steps": 20, "total_steps": 168, "loss": 2.1265, "accuracy": 0.543749988079071, "learning_rate": 4.828686741593921e-06, "epoch": 0.35555555555555557, "percentage": 11.9, "elapsed_time": "0:11:07", "remaining_time": "1:22:16"}
-{"current_steps": 30, "total_steps": 168, "loss": 1.9475, "accuracy": 0.5375000238418579, "learning_rate": 4.618852307232078e-06, "epoch": 0.5333333333333333, "percentage": 17.86, "elapsed_time": "0:16:57", "remaining_time": "1:17:58"}
-{"current_steps": 40, "total_steps": 168, "loss": 1.8335, "accuracy": 0.550000011920929, "learning_rate": 4.335051964269395e-06, "epoch": 0.7111111111111111, "percentage": 23.81, "elapsed_time": "0:22:23", "remaining_time": "1:11:38"}
-{"current_steps": 50, "total_steps": 168, "loss": 2.0471, "accuracy": 0.5375000238418579, "learning_rate": 3.987192750660719e-06, "epoch": 0.8888888888888888, "percentage": 29.76, "elapsed_time": "0:28:01", "remaining_time": "1:06:07"}
-{"current_steps": 60, "total_steps": 168, "loss": 1.862, "accuracy": 0.5562499761581421, "learning_rate": 3.587417902020876e-06, "epoch": 1.0666666666666667, "percentage": 35.71, "elapsed_time": "0:33:39", "remaining_time": "1:00:34"}
-{"current_steps": 70, "total_steps": 168, "loss": 1.7853, "accuracy": 0.581250011920929, "learning_rate": 3.1496829497545268e-06, "epoch": 1.2444444444444445, "percentage": 41.67, "elapsed_time": "0:39:12", "remaining_time": "0:54:52"}
-{"current_steps": 80, "total_steps": 168, "loss": 1.8004, "accuracy": 0.581250011920929, "learning_rate": 2.6892685546987724e-06, "epoch": 1.4222222222222223, "percentage": 47.62, "elapsed_time": "0:44:56", "remaining_time": "0:49:25"}
-{"current_steps": 90, "total_steps": 168, "loss": 1.647, "accuracy": 0.543749988079071, "learning_rate": 2.2222470825144806e-06, "epoch": 1.6, "percentage": 53.57, "elapsed_time": "0:50:27", "remaining_time": "0:43:44"}
-{"current_steps": 100, "total_steps": 168, "loss": 1.7403, "accuracy": 0.59375, "learning_rate": 1.7649215418673847e-06, "epoch": 1.7777777777777777, "percentage": 59.52, "elapsed_time": "0:56:04", "remaining_time": "0:38:07"}
-{"current_steps": 110, "total_steps": 168, "loss": 1.7239, "accuracy": 0.5062500238418579, "learning_rate": 1.3332564712129845e-06, "epoch": 1.9555555555555557, "percentage": 65.48, "elapsed_time": "1:01:43", "remaining_time": "0:32:32"}
-{"current_steps": 120, "total_steps": 168, "loss": 1.7291, "accuracy": 0.53125, "learning_rate": 9.423206410612498e-07, "epoch": 2.1333333333333333, "percentage": 71.43, "elapsed_time": "1:07:28", "remaining_time": "0:26:59"}
-{"current_steps": 130, "total_steps": 168, "loss": 1.6236, "accuracy": 0.5687500238418579, "learning_rate": 6.057610261367044e-07, "epoch": 2.311111111111111, "percentage": 77.38, "elapsed_time": "1:13:10", "remaining_time": "0:21:23"}
-{"current_steps": 140, "total_steps": 168, "loss": 1.5735, "accuracy": 0.5874999761581421, "learning_rate": 3.3532641026504415e-07, "epoch": 2.488888888888889, "percentage": 83.33, "elapsed_time": "1:18:30", "remaining_time": "0:15:42"}
-{"current_steps": 150, "total_steps": 168, "loss": 1.8172, "accuracy": 0.5874999761581421, "learning_rate": 1.4045725421448332e-07, "epoch": 2.6666666666666665, "percentage": 89.29, "elapsed_time": "1:24:18", "remaining_time": "0:10:07"}
-{"current_steps": 160, "total_steps": 168, "loss": 1.5534, "accuracy": 0.612500011920929, "learning_rate": 2.7956143581177874e-08, "epoch": 2.8444444444444446, "percentage": 95.24, "elapsed_time": "1:29:45", "remaining_time": "0:04:29"}
-{"current_steps": 168, "total_steps": 168, "epoch": 2.986666666666667, "percentage": 100.0, "elapsed_time": "1:34:13", "remaining_time": "0:00:00"}

+{"current_steps": 10, "total_steps": 168, "loss": 2.1168, "accuracy": 0.5249999761581421, "learning_rate": 4.957230266673969e-06, "epoch": 0.17777777777777778, "percentage": 5.95, "elapsed_time": "0:05:38", "remaining_time": "1:29:04"}
+{"current_steps": 20, "total_steps": 168, "loss": 2.1946, "accuracy": 0.543749988079071, "learning_rate": 4.828686741593921e-06, "epoch": 0.35555555555555557, "percentage": 11.9, "elapsed_time": "0:11:08", "remaining_time": "1:22:23"}
+{"current_steps": 30, "total_steps": 168, "loss": 2.0246, "accuracy": 0.53125, "learning_rate": 4.618852307232078e-06, "epoch": 0.5333333333333333, "percentage": 17.86, "elapsed_time": "0:16:57", "remaining_time": "1:18:02"}
+{"current_steps": 40, "total_steps": 168, "loss": 1.913, "accuracy": 0.5874999761581421, "learning_rate": 4.335051964269395e-06, "epoch": 0.7111111111111111, "percentage": 23.81, "elapsed_time": "0:22:22", "remaining_time": "1:11:37"}
+{"current_steps": 50, "total_steps": 168, "loss": 2.12, "accuracy": 0.5375000238418579, "learning_rate": 3.987192750660719e-06, "epoch": 0.8888888888888888, "percentage": 29.76, "elapsed_time": "0:27:59", "remaining_time": "1:06:03"}
+{"current_steps": 60, "total_steps": 168, "loss": 1.9418, "accuracy": 0.5625, "learning_rate": 3.587417902020876e-06, "epoch": 1.0666666666666667, "percentage": 35.71, "elapsed_time": "0:33:36", "remaining_time": "1:00:30"}
+{"current_steps": 70, "total_steps": 168, "loss": 1.8513, "accuracy": 0.5625, "learning_rate": 3.1496829497545268e-06, "epoch": 1.2444444444444445, "percentage": 41.67, "elapsed_time": "0:39:07", "remaining_time": "0:54:46"}
+{"current_steps": 80, "total_steps": 168, "loss": 1.8758, "accuracy": 0.574999988079071, "learning_rate": 2.6892685546987724e-06, "epoch": 1.4222222222222223, "percentage": 47.62, "elapsed_time": "0:44:51", "remaining_time": "0:49:20"}
+{"current_steps": 90, "total_steps": 168, "loss": 1.7086, "accuracy": 0.543749988079071, "learning_rate": 2.2222470825144806e-06, "epoch": 1.6, "percentage": 53.57, "elapsed_time": "0:50:22", "remaining_time": "0:43:39"}
+{"current_steps": 100, "total_steps": 168, "loss": 1.8133, "accuracy": 0.5625, "learning_rate": 1.7649215418673847e-06, "epoch": 1.7777777777777777, "percentage": 59.52, "elapsed_time": "0:55:57", "remaining_time": "0:38:03"}
+{"current_steps": 110, "total_steps": 168, "loss": 1.7876, "accuracy": 0.518750011920929, "learning_rate": 1.3332564712129845e-06, "epoch": 1.9555555555555557, "percentage": 65.48, "elapsed_time": "1:01:36", "remaining_time": "0:32:28"}
+{"current_steps": 120, "total_steps": 168, "loss": 1.7863, "accuracy": 0.53125, "learning_rate": 9.423206410612498e-07, "epoch": 2.1333333333333333, "percentage": 71.43, "elapsed_time": "1:07:20", "remaining_time": "0:26:56"}
+{"current_steps": 130, "total_steps": 168, "loss": 1.692, "accuracy": 0.5625, "learning_rate": 6.057610261367044e-07, "epoch": 2.311111111111111, "percentage": 77.38, "elapsed_time": "1:13:01", "remaining_time": "0:21:20"}
+{"current_steps": 140, "total_steps": 168, "loss": 1.6376, "accuracy": 0.606249988079071, "learning_rate": 3.3532641026504415e-07, "epoch": 2.488888888888889, "percentage": 83.33, "elapsed_time": "1:18:21", "remaining_time": "0:15:40"}
+{"current_steps": 150, "total_steps": 168, "loss": 1.8891, "accuracy": 0.574999988079071, "learning_rate": 1.4045725421448332e-07, "epoch": 2.6666666666666665, "percentage": 89.29, "elapsed_time": "1:24:09", "remaining_time": "0:10:05"}
+{"current_steps": 160, "total_steps": 168, "loss": 1.6214, "accuracy": 0.6000000238418579, "learning_rate": 2.7956143581177874e-08, "epoch": 2.8444444444444446, "percentage": 95.24, "elapsed_time": "1:29:35", "remaining_time": "0:04:28"}
+{"current_steps": 168, "total_steps": 168, "epoch": 2.986666666666667, "percentage": 100.0, "elapsed_time": "1:34:02", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,302 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.986666666666667,
+  "eval_steps": 500,
+  "global_step": 168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 1.9894839525222778,
+      "learning_rate": 4.957230266673969e-06,
+      "logits/chosen": 218.2901153564453,
+      "logits/rejected": 217.98861694335938,
+      "logps/chosen": -2.0115113258361816,
+      "logps/rejected": -2.2237343788146973,
+      "loss": 2.0742,
+      "odds_ratio_loss": 0.6265951991081238,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.20115113258361816,
+      "rewards/margins": 0.021222341805696487,
+      "rewards/rejected": -0.22237345576286316,
+      "sft_loss": 2.0115113258361816,
+      "step": 10
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 1.8634482622146606,
+      "learning_rate": 4.828686741593921e-06,
+      "logits/chosen": 220.6365509033203,
+      "logits/rejected": 220.3389129638672,
+      "logps/chosen": -2.0625388622283936,
+      "logps/rejected": -2.3297858238220215,
+      "loss": 2.1265,
+      "odds_ratio_loss": 0.6394721865653992,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.20625391602516174,
+      "rewards/margins": 0.026724692434072495,
+      "rewards/rejected": -0.23297858238220215,
+      "sft_loss": 2.0625388622283936,
+      "step": 20
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 1.5888192653656006,
+      "learning_rate": 4.618852307232078e-06,
+      "logits/chosen": 223.16909790039062,
+      "logits/rejected": 223.3883819580078,
+      "logps/chosen": -1.8862736225128174,
+      "logps/rejected": -2.1588046550750732,
+      "loss": 1.9475,
+      "odds_ratio_loss": 0.612014651298523,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.18862736225128174,
+      "rewards/margins": 0.027253109961748123,
+      "rewards/rejected": -0.21588046848773956,
+      "sft_loss": 1.8862736225128174,
+      "step": 30
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 2.911007881164551,
+      "learning_rate": 4.335051964269395e-06,
+      "logits/chosen": 219.7681884765625,
+      "logits/rejected": 220.56063842773438,
+      "logps/chosen": -1.7726600170135498,
+      "logps/rejected": -2.0512185096740723,
+      "loss": 1.8335,
+      "odds_ratio_loss": 0.6088349223136902,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.17726600170135498,
+      "rewards/margins": 0.02785584330558777,
+      "rewards/rejected": -0.20512184500694275,
+      "sft_loss": 1.7726600170135498,
+      "step": 40
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 3.1844053268432617,
+      "learning_rate": 3.987192750660719e-06,
+      "logits/chosen": 227.5769500732422,
+      "logits/rejected": 227.42721557617188,
+      "logps/chosen": -1.982785940170288,
+      "logps/rejected": -2.3187923431396484,
+      "loss": 2.0471,
+      "odds_ratio_loss": 0.6428849697113037,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.19827860593795776,
+      "rewards/margins": 0.033600639551877975,
+      "rewards/rejected": -0.23187923431396484,
+      "sft_loss": 1.982785940170288,
+      "step": 50
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 3.250999689102173,
+      "learning_rate": 3.587417902020876e-06,
+      "logits/chosen": 229.1508331298828,
+      "logits/rejected": 230.65234375,
+      "logps/chosen": -1.8027265071868896,
+      "logps/rejected": -2.109091281890869,
+      "loss": 1.862,
+      "odds_ratio_loss": 0.5927264094352722,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.1802726536989212,
+      "rewards/margins": 0.030636483803391457,
+      "rewards/rejected": -0.2109091579914093,
+      "sft_loss": 1.8027265071868896,
+      "step": 60
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "grad_norm": 2.524855375289917,
+      "learning_rate": 3.1496829497545268e-06,
+      "logits/chosen": 229.8919219970703,
+      "logits/rejected": 229.6911163330078,
+      "logps/chosen": -1.722979187965393,
+      "logps/rejected": -1.955990195274353,
+      "loss": 1.7853,
+      "odds_ratio_loss": 0.6227248311042786,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.17229792475700378,
+      "rewards/margins": 0.02330111339688301,
+      "rewards/rejected": -0.1955990493297577,
+      "sft_loss": 1.722979187965393,
+      "step": 70
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 1.4623929262161255,
+      "learning_rate": 2.6892685546987724e-06,
+      "logits/chosen": 234.3847198486328,
+      "logits/rejected": 233.77871704101562,
+      "logps/chosen": -1.7393592596054077,
+      "logps/rejected": -1.9893379211425781,
+      "loss": 1.8004,
+      "odds_ratio_loss": 0.6108058094978333,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.1739359200000763,
+      "rewards/margins": 0.02499789372086525,
+      "rewards/rejected": -0.19893380999565125,
+      "sft_loss": 1.7393592596054077,
+      "step": 80
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.540860891342163,
+      "learning_rate": 2.2222470825144806e-06,
+      "logits/chosen": 231.958251953125,
+      "logits/rejected": 232.3849334716797,
+      "logps/chosen": -1.5855820178985596,
+      "logps/rejected": -1.9024156332015991,
+      "loss": 1.647,
+      "odds_ratio_loss": 0.6140419244766235,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.158558189868927,
+      "rewards/margins": 0.03168336674571037,
+      "rewards/rejected": -0.19024157524108887,
+      "sft_loss": 1.5855820178985596,
+      "step": 90
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 1.0507925748825073,
+      "learning_rate": 1.7649215418673847e-06,
+      "logits/chosen": 235.5908203125,
+      "logits/rejected": 235.9726104736328,
+      "logps/chosen": -1.67770254611969,
+      "logps/rejected": -1.9119056463241577,
+      "loss": 1.7403,
+      "odds_ratio_loss": 0.6257372498512268,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.16777023673057556,
+      "rewards/margins": 0.0234203077852726,
+      "rewards/rejected": -0.19119055569171906,
+      "sft_loss": 1.67770254611969,
+      "step": 100
+    },
+    {
+      "epoch": 1.9555555555555557,
+      "grad_norm": 1.1329325437545776,
+      "learning_rate": 1.3332564712129845e-06,
+      "logits/chosen": 236.5535125732422,
+      "logits/rejected": 236.4635772705078,
+      "logps/chosen": -1.661228895187378,
+      "logps/rejected": -1.8796217441558838,
+      "loss": 1.7239,
+      "odds_ratio_loss": 0.6264489889144897,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.16612288355827332,
+      "rewards/margins": 0.021839287132024765,
+      "rewards/rejected": -0.18796217441558838,
+      "sft_loss": 1.661228895187378,
+      "step": 110
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 3.1466641426086426,
+      "learning_rate": 9.423206410612498e-07,
+      "logits/chosen": 234.2484130859375,
+      "logits/rejected": 235.138427734375,
+      "logps/chosen": -1.6647857427597046,
+      "logps/rejected": -1.900854468345642,
+      "loss": 1.7291,
+      "odds_ratio_loss": 0.6434910893440247,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.16647860407829285,
+      "rewards/margins": 0.02360684797167778,
+      "rewards/rejected": -0.19008544087409973,
+      "sft_loss": 1.6647857427597046,
+      "step": 120
+    },
+    {
+      "epoch": 2.311111111111111,
+      "grad_norm": 0.8913648128509521,
+      "learning_rate": 6.057610261367044e-07,
+      "logits/chosen": 234.11795043945312,
+      "logits/rejected": 233.8062744140625,
+      "logps/chosen": -1.560727834701538,
+      "logps/rejected": -1.7592264413833618,
+      "loss": 1.6236,
+      "odds_ratio_loss": 0.6284235119819641,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.15607279539108276,
+      "rewards/margins": 0.019849851727485657,
+      "rewards/rejected": -0.17592264711856842,
+      "sft_loss": 1.560727834701538,
+      "step": 130
+    },
+    {
+      "epoch": 2.488888888888889,
+      "grad_norm": 1.3135228157043457,
+      "learning_rate": 3.3532641026504415e-07,
+      "logits/chosen": 238.02099609375,
+      "logits/rejected": 237.72402954101562,
+      "logps/chosen": -1.5137670040130615,
+      "logps/rejected": -1.881291389465332,
+      "loss": 1.5735,
+      "odds_ratio_loss": 0.5971778035163879,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.15137669444084167,
+      "rewards/margins": 0.036752425134181976,
+      "rewards/rejected": -0.18812914192676544,
+      "sft_loss": 1.5137670040130615,
+      "step": 140
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 2.724855661392212,
+      "learning_rate": 1.4045725421448332e-07,
+      "logits/chosen": 238.43264770507812,
+      "logits/rejected": 238.6967010498047,
+      "logps/chosen": -1.7582404613494873,
+      "logps/rejected": -2.0160341262817383,
+      "loss": 1.8172,
+      "odds_ratio_loss": 0.5895546674728394,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.17582406103610992,
+      "rewards/margins": 0.025779366493225098,
+      "rewards/rejected": -0.20160344243049622,
+      "sft_loss": 1.7582404613494873,
+      "step": 150
+    },
+    {
+      "epoch": 2.8444444444444446,
+      "grad_norm": 1.488288402557373,
+      "learning_rate": 2.7956143581177874e-08,
+      "logits/chosen": 237.65185546875,
+      "logits/rejected": 237.43270874023438,
+      "logps/chosen": -1.4948513507843018,
+      "logps/rejected": -1.7622127532958984,
+      "loss": 1.5534,
+      "odds_ratio_loss": 0.5855392217636108,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.14948514103889465,
+      "rewards/margins": 0.026736149564385414,
+      "rewards/rejected": -0.17622129619121552,
+      "sft_loss": 1.4948513507843018,
+      "step": 160
+    },
+    {
+      "epoch": 2.986666666666667,
+      "step": 168,
+      "total_flos": 2.2023536924295168e+17,
+      "train_loss": 1.8065733909606934,
+      "train_runtime": 5653.336,
+      "train_samples_per_second": 0.478,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 168,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2.2023536924295168e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0b7bb05b10d251335d82869ccbd09daf7e20325dd66ed9ecb74474f40ee5829
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f843c7a8a89253f57fbbf07b31914c7257caaec1c6f05fbf07eff4da859d27c
 size 5176

training_loss.png ADDED Viewed

training_rewards_accuracies.png ADDED Viewed

training_sft_loss.png ADDED Viewed