Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +174 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bd1821877d7d29077d85fe04dfea93e7292825d05231ebab51a1e126697c743
 size 18915040

 version https://git-lfs.github.com/spec/v1
+oid sha256:70b4707eb6c214911672a8f3db9b0750144a4f27155736566a9396deed071d8a
 size 18915040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f41766bc78b6ec0c8e40003000365c7287487226ebb9545f086a8ab4a75b48ae
 size 2603258

 version https://git-lfs.github.com/spec/v1
+oid sha256:c15b00248d28cdc84ab89f0c61c238b907e5551894b6c2da4c580a4d0f3bf06a
 size 2603258

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8f8922c352ab63d1593bcb944e77d461472df192dcdc1202984e9e08f16a111
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ba8427ac6eea57ec5734699585fe0dd282eb1503ee998fdc4232e54bb7d6354
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c80ef793f3bbade49954a24290acb44d3ed9d4cc93da4ad48634f3740d8739a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bf6b8361429219bc23dcf3f544eb0a05c3c81c223b22ff1dbb678c4e9f08edf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.393324613571167,
-  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-12646",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 12646,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -176,13 +176,182 @@
       "eval_steps_per_second": 0.889,
       "eval_translation_length": 1439232,
       "step": 12646
     }
   ],
   "logging_steps": 500,
   "max_steps": 379380,
   "num_train_epochs": 30,
   "save_steps": 500,
-  "total_flos": 2.1666322696686797e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.3343088626861572,
+  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-25292",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 25292,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.889,
       "eval_translation_length": 1439232,
       "step": 12646
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.978533681098235e-05,
+      "loss": 2.4976,
+      "step": 13000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.976783725822707e-05,
+      "loss": 2.4559,
+      "step": 13500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 7.974965415947614e-05,
+      "loss": 2.5159,
+      "step": 14000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.97307878272682e-05,
+      "loss": 2.4853,
+      "step": 14500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 7.971123858588551e-05,
+      "loss": 2.5642,
+      "step": 15000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 7.969100677134854e-05,
+      "loss": 2.4762,
+      "step": 15500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 7.967009273141005e-05,
+      "loss": 2.4515,
+      "step": 16000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 7.964849682554919e-05,
+      "loss": 2.5239,
+      "step": 16500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 7.962621942496528e-05,
+      "loss": 2.4723,
+      "step": 17000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.96032609125715e-05,
+      "loss": 2.5052,
+      "step": 17500
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 7.957962168298823e-05,
+      "loss": 2.4817,
+      "step": 18000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 7.95553021425363e-05,
+      "loss": 2.505,
+      "step": 18500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.953030270922999e-05,
+      "loss": 2.5106,
+      "step": 19000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.950462381276989e-05,
+      "loss": 2.4658,
+      "step": 19500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 7.947826589453548e-05,
+      "loss": 2.4544,
+      "step": 20000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 7.94512294075775e-05,
+      "loss": 2.462,
+      "step": 20500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 7.942351481661027e-05,
+      "loss": 2.4447,
+      "step": 21000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 7.93951225980036e-05,
+      "loss": 2.4918,
+      "step": 21500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 7.936605323977468e-05,
+      "loss": 2.4594,
+      "step": 22000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.933630724157962e-05,
+      "loss": 2.5028,
+      "step": 22500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.93058851147049e-05,
+      "loss": 2.4924,
+      "step": 23000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.92747873820586e-05,
+      "loss": 2.4138,
+      "step": 23500
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 7.924301457816139e-05,
+      "loss": 2.4198,
+      "step": 24000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 7.921056724913732e-05,
+      "loss": 2.4524,
+      "step": 24500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 7.917744595270448e-05,
+      "loss": 2.4497,
+      "step": 25000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 2.3343088626861572,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 1439232,
+      "eval_runtime": 1578.692,
+      "eval_samples_per_second": 1.781,
+      "eval_steps_per_second": 0.891,
+      "eval_translation_length": 1439232,
+      "step": 25292
     }
   ],
   "logging_steps": 500,
   "max_steps": 379380,
   "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 4.3332645393373594e+17,
   "trial_name": null,
   "trial_params": null
 }