Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +50 -466
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "dq158/pingusPongus",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "pingusPongus",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd19122e1b6607cdb79a7016978319f5233648dfa21d17f64f4c5ed9ebfab2b1
 size 2371770

 version https://git-lfs.github.com/spec/v1
+oid sha256:29ddd9f1252dc57286ac7118b5ddd965377fcf663d8bce9811afcd2b7eac4784
 size 2371770

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20f9eff7f8c80652672f33d591daec33e74fa91afea6f63662fcce0b413fc45e
 size 990409330

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cd5ab5ffed749cadfd623aa9fd91034f5f25cd2d5186c64528e111b7e53e547
 size 990409330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b21196dd7454f3b651b63e42d3595da46748179b2ded600b1b8e0ecb74a09883
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6df0e59dd9c797f952cda2a036b91c3ecc642525cb3dda578b892770a07f726
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:429bbb7d8273481822c70b354c32cf6b2c09f778063e5299935515e96827f77b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:575617c2e41c68103ab814e88f286f7f0b21dfb482a487c336b5b023e1ada9ae
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,526 +1,110 @@
 {
-  "best_metric": 1.8215827941894531,
-  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-3162",
-  "epoch": 9.0,
   "eval_steps": 500,
-  "global_step": 28458,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
-      "learning_rate": 5e-05,
-      "loss": 1.9604,
       "step": 500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.999216501710915e-05,
-      "loss": 2.0007,
       "step": 1000
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 4.996866497939315e-05,
-      "loss": 2.0079,
       "step": 1500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 4.992951461664347e-05,
-      "loss": 2.0288,
       "step": 2000
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 4.9874738468253904e-05,
-      "loss": 2.0206,
       "step": 2500
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 4.980437086783929e-05,
-      "loss": 2.0007,
       "step": 3000
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8215827941894531,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52443,
-      "eval_runtime": 584.5964,
-      "eval_samples_per_second": 4.808,
-      "eval_steps_per_second": 0.602,
-      "eval_translation_length": 52443,
-      "step": 3162
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 4.971845592171524e-05,
-      "loss": 1.9799,
       "step": 3500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 4.961704748125239e-05,
-      "loss": 1.9853,
       "step": 4000
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 4.9500209109122444e-05,
-      "loss": 1.9636,
       "step": 4500
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 4.936801403945711e-05,
-      "loss": 1.9677,
       "step": 5000
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 4.922054513194513e-05,
-      "loss": 1.9714,
       "step": 5500
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 4.905789481989587e-05,
-      "loss": 1.9937,
       "step": 6000
     },
     {
-      "epoch": 2.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8286010026931763,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52025,
-      "eval_runtime": 580.992,
-      "eval_samples_per_second": 4.838,
-      "eval_steps_per_second": 0.606,
-      "eval_translation_length": 52025,
-      "step": 6324
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 4.888016505230231e-05,
-      "loss": 1.9751,
-      "step": 6500
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 4.868746722993951e-05,
-      "loss": 1.9371,
-      "step": 7000
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 4.847992213553878e-05,
-      "loss": 1.9736,
-      "step": 7500
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 4.82576598580812e-05,
-      "loss": 1.935,
-      "step": 8000
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 4.802081971125809e-05,
-      "loss": 1.938,
-      "step": 8500
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 4.7769550146149295e-05,
-      "loss": 1.9218,
-      "step": 9000
-    },
-    {
-      "epoch": 3.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8345717191696167,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52929,
-      "eval_runtime": 581.6683,
-      "eval_samples_per_second": 4.833,
-      "eval_steps_per_second": 0.605,
-      "eval_translation_length": 52929,
-      "step": 9486
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 4.75040086581743e-05,
-      "loss": 1.9531,
-      "step": 9500
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 4.7224361688374306e-05,
-      "loss": 1.892,
-      "step": 10000
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 4.6930784519087246e-05,
-      "loss": 1.9357,
-      "step": 10500
-    },
-    {
-      "epoch": 3.48,
-      "learning_rate": 4.662346116408098e-05,
-      "loss": 1.9117,
-      "step": 11000
-    },
-    {
-      "epoch": 3.64,
-      "learning_rate": 4.630258425321379e-05,
-      "loss": 1.9082,
-      "step": 11500
-    },
-    {
-      "epoch": 3.8,
-      "learning_rate": 4.596835491169421e-05,
-      "loss": 1.9105,
-      "step": 12000
-    },
-    {
-      "epoch": 3.95,
-      "learning_rate": 4.562098263401604e-05,
-      "loss": 1.9282,
-      "step": 12500
-    },
-    {
-      "epoch": 4.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8385423421859741,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 51997,
-      "eval_runtime": 581.4732,
-      "eval_samples_per_second": 4.834,
-      "eval_steps_per_second": 0.605,
-      "eval_translation_length": 51997,
-      "step": 12648
-    },
-    {
-      "epoch": 4.11,
-      "learning_rate": 4.526068515264746e-05,
-      "loss": 1.9217,
-      "step": 13000
-    },
-    {
-      "epoch": 4.27,
-      "learning_rate": 4.488768830155665e-05,
-      "loss": 1.9057,
-      "step": 13500
-    },
-    {
-      "epoch": 4.43,
-      "learning_rate": 4.450222587465934e-05,
-      "loss": 1.8887,
-      "step": 14000
-    },
-    {
-      "epoch": 4.59,
-      "learning_rate": 4.4104539479277104e-05,
-      "loss": 1.8943,
-      "step": 14500
-    },
-    {
-      "epoch": 4.74,
-      "learning_rate": 4.3694878384698255e-05,
-      "loss": 1.8776,
-      "step": 15000
-    },
-    {
-      "epoch": 4.9,
-      "learning_rate": 4.327349936593615e-05,
-      "loss": 1.874,
-      "step": 15500
-    },
-    {
-      "epoch": 5.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.83934485912323,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52639,
-      "eval_runtime": 583.0754,
-      "eval_samples_per_second": 4.821,
-      "eval_steps_per_second": 0.604,
-      "eval_translation_length": 52639,
-      "step": 15810
-    },
-    {
-      "epoch": 5.06,
-      "learning_rate": 4.284066654278301e-05,
-      "loss": 1.8739,
-      "step": 16000
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 4.239665121425993e-05,
-      "loss": 1.8427,
-      "step": 16500
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 4.1941731688567106e-05,
-      "loss": 1.8612,
-      "step": 17000
-    },
-    {
-      "epoch": 5.53,
-      "learning_rate": 4.147619310864058e-05,
-      "loss": 1.8802,
-      "step": 17500
-    },
-    {
-      "epoch": 5.69,
-      "learning_rate": 4.100032727342505e-05,
-      "loss": 1.8496,
-      "step": 18000
-    },
-    {
-      "epoch": 5.85,
-      "learning_rate": 4.0514432454974695e-05,
-      "loss": 1.8791,
-      "step": 18500
-    },
-    {
-      "epoch": 6.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8424808979034424,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52322,
-      "eval_runtime": 579.9659,
-      "eval_samples_per_second": 4.847,
-      "eval_steps_per_second": 0.607,
-      "eval_translation_length": 52322,
-      "step": 18972
-    },
-    {
-      "epoch": 6.01,
-      "learning_rate": 4.001881321149665e-05,
-      "loss": 1.8549,
-      "step": 19000
-    },
-    {
-      "epoch": 6.17,
-      "learning_rate": 3.9513780196454384e-05,
-      "loss": 1.8317,
-      "step": 19500
-    },
-    {
-      "epoch": 6.33,
-      "learning_rate": 3.899964996385045e-05,
-      "loss": 1.8271,
-      "step": 20000
-    },
-    {
-      "epoch": 6.48,
-      "learning_rate": 3.8476744769810936e-05,
-      "loss": 1.8169,
-      "step": 20500
-    },
-    {
-      "epoch": 6.64,
-      "learning_rate": 3.7945392370595755e-05,
-      "loss": 1.847,
-      "step": 21000
-    },
-    {
-      "epoch": 6.8,
-      "learning_rate": 3.740592581716146e-05,
-      "loss": 1.857,
-      "step": 21500
-    },
-    {
-      "epoch": 6.96,
-      "learning_rate": 3.6858683246405354e-05,
-      "loss": 1.85,
-      "step": 22000
-    },
-    {
-      "epoch": 7.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8449796438217163,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52368,
-      "eval_runtime": 581.0567,
-      "eval_samples_per_second": 4.838,
-      "eval_steps_per_second": 0.606,
-      "eval_translation_length": 52368,
-      "step": 22134
-    },
-    {
-      "epoch": 7.12,
-      "learning_rate": 3.6304007669221754e-05,
-      "loss": 1.8025,
-      "step": 22500
-    },
-    {
-      "epoch": 7.27,
-      "learning_rate": 3.574224675550324e-05,
-      "loss": 1.8139,
-      "step": 23000
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 3.517375261622165e-05,
-      "loss": 1.8069,
-      "step": 23500
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 3.459888158272534e-05,
-      "loss": 1.8264,
-      "step": 24000
-    },
-    {
-      "epoch": 7.75,
-      "learning_rate": 3.401799398339127e-05,
-      "loss": 1.7979,
-      "step": 24500
-    },
-    {
-      "epoch": 7.91,
-      "learning_rate": 3.343145391777163e-05,
-      "loss": 1.8242,
-      "step": 25000
-    },
-    {
-      "epoch": 8.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 1.8492226600646973,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 52579,
-      "eval_runtime": 581.3976,
-      "eval_samples_per_second": 4.835,
-      "eval_steps_per_second": 0.605,
-      "eval_translation_length": 52579,
-      "step": 25296
-    },
-    {
-      "epoch": 8.06,
-      "learning_rate": 3.283962902837673e-05,
-      "loss": 1.8288,
-      "step": 25500
-    },
-    {
-      "epoch": 8.22,
-      "learning_rate": 3.22428902702372e-05,
-      "loss": 1.7989,
-      "step": 26000
-    },
-    {
-      "epoch": 8.38,
-      "learning_rate": 3.164161167838985e-05,
-      "loss": 1.795,
-      "step": 26500
-    },
-    {
-      "epoch": 8.54,
-      "learning_rate": 3.103617013343307e-05,
-      "loss": 1.7786,
-      "step": 27000
-    },
-    {
-      "epoch": 8.7,
-      "learning_rate": 3.0426945125298563e-05,
-      "loss": 1.7924,
-      "step": 27500
-    },
-    {
-      "epoch": 8.86,
-      "learning_rate": 2.9814318515387547e-05,
-      "loss": 1.8087,
-      "step": 28000
-    },
-    {
-      "epoch": 9.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 1.8519303798675537,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 52432,
-      "eval_runtime": 580.9392,
-      "eval_samples_per_second": 4.839,
-      "eval_steps_per_second": 0.606,
-      "eval_translation_length": 52432,
-      "step": 28458
     }
   ],
   "logging_steps": 500,
-  "max_steps": 63240,
   "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 1.558637838068613e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.5654487609863281,
+  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-6323",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 6323,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08,
+      "learning_rate": 5e-06,
+      "loss": 1.8585,
       "step": 500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.999805607800008e-06,
+      "loss": 1.823,
       "step": 1000
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.999222461430692e-06,
+      "loss": 1.8388,
       "step": 1500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.998250651579336e-06,
+      "loss": 1.8372,
       "step": 2000
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 4.996890329375747e-06,
+      "loss": 1.8066,
       "step": 2500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 4.995141706368742e-06,
+      "loss": 1.8485,
       "step": 3000
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 4.993005054493262e-06,
+      "loss": 1.8243,
       "step": 3500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 4.990480706028073e-06,
+      "loss": 1.8278,
       "step": 4000
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 4.987569053544098e-06,
+      "loss": 1.8126,
       "step": 4500
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 4.98427054984336e-06,
+      "loss": 1.8277,
       "step": 5000
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 4.980585707888573e-06,
+      "loss": 1.8475,
       "step": 5500
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 4.976515100723365e-06,
+      "loss": 1.8441,
       "step": 6000
     },
     {
+      "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 1.5654487609863281,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 52412,
+      "eval_runtime": 683.1649,
+      "eval_samples_per_second": 4.115,
+      "eval_steps_per_second": 1.029,
+      "eval_translation_length": 52412,
+      "step": 6323
     }
   ],
   "logging_steps": 500,
+  "max_steps": 126460,
   "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 1.7318198200762368e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8eb6624817ce9b56d424478fc6d1a6e01d7373d5d6bcbca9eb534f2108fc942
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ce6df3970ff39f84beab7b635dd3c941539643a1d32dedf54263683eef40519
 size 4664