Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

checkpoint-24/model.safetensors +1 -1
checkpoint-24/optimizer.pt +1 -1
checkpoint-24/scheduler.pt +1 -1
checkpoint-24/trainer_state.json +48 -48
checkpoint-24/training_args.bin +1 -1

checkpoint-24/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7f78bc5ea7f4252d449721502cb917964df910514248d9c38bbd319537af913
 size 482171848

 version https://git-lfs.github.com/spec/v1
+oid sha256:e629d9af878b91a50f76066a24d4341b70142f260fe704ea5b38cc90d28479f4
 size 482171848

checkpoint-24/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2923b0e54a5c211188c14ba7405fa9d24db1b76d8edd86531e13abdf3457efac
 size 964412154

 version https://git-lfs.github.com/spec/v1
+oid sha256:090c04cb70716eee6c26b1fafc5f345bb9d12db84727f777cae58a27c1e41b1d
 size 964412154

checkpoint-24/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03aeece81560affa84dae04d2900877c560b5f1ad4d9ae0078fb00fadcbd9684
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c2c7ff34ed3fd287d125d27abf4fdde9643db0dadf9873052e2f40d2ceb990
 size 1064

checkpoint-24/trainer_state.json CHANGED Viewed

@@ -10,152 +10,152 @@
   "log_history": [
     {
       "epoch": 0.12,
-      "learning_rate": 9.937500000000001e-06,
       "loss": 12.7837,
       "step": 1
     },
     {
       "epoch": 0.25,
-      "learning_rate": 9.875000000000001e-06,
       "loss": 12.4595,
       "step": 2
     },
     {
       "epoch": 0.37,
-      "learning_rate": 9.8125e-06,
-      "loss": 11.9121,
       "step": 3
     },
     {
       "epoch": 0.49,
-      "learning_rate": 9.75e-06,
-      "loss": 11.6628,
       "step": 4
     },
     {
       "epoch": 0.62,
-      "learning_rate": 9.6875e-06,
-      "loss": 11.4327,
       "step": 5
     },
     {
       "epoch": 0.74,
-      "learning_rate": 9.625e-06,
-      "loss": 11.1488,
       "step": 6
     },
     {
       "epoch": 0.86,
-      "learning_rate": 9.562500000000002e-06,
-      "loss": 10.9209,
       "step": 7
     },
     {
       "epoch": 0.98,
-      "learning_rate": 9.5e-06,
-      "loss": 10.8448,
       "step": 8
     },
     {
       "epoch": 1.11,
-      "learning_rate": 9.4375e-06,
-      "loss": 10.531,
       "step": 9
     },
     {
       "epoch": 1.23,
-      "learning_rate": 9.375000000000001e-06,
-      "loss": 10.3767,
       "step": 10
     },
     {
       "epoch": 1.35,
-      "learning_rate": 9.312500000000001e-06,
-      "loss": 10.201,
       "step": 11
     },
     {
       "epoch": 1.48,
-      "learning_rate": 9.250000000000001e-06,
-      "loss": 10.1096,
       "step": 12
     },
     {
       "epoch": 1.6,
-      "learning_rate": 9.1875e-06,
-      "loss": 9.9072,
       "step": 13
     },
     {
       "epoch": 1.72,
-      "learning_rate": 9.125e-06,
-      "loss": 9.7853,
       "step": 14
     },
     {
       "epoch": 1.85,
-      "learning_rate": 9.0625e-06,
-      "loss": 9.6567,
       "step": 15
     },
     {
       "epoch": 1.97,
-      "learning_rate": 9e-06,
-      "loss": 9.4543,
       "step": 16
     },
     {
       "epoch": 2.09,
-      "learning_rate": 8.9375e-06,
-      "loss": 9.3335,
       "step": 17
     },
     {
       "epoch": 2.22,
-      "learning_rate": 8.875e-06,
-      "loss": 9.2063,
       "step": 18
     },
     {
       "epoch": 2.34,
-      "learning_rate": 8.8125e-06,
-      "loss": 9.1388,
       "step": 19
     },
     {
       "epoch": 2.46,
-      "learning_rate": 8.750000000000001e-06,
-      "loss": 8.9317,
       "step": 20
     },
     {
       "epoch": 2.58,
-      "learning_rate": 8.687500000000001e-06,
-      "loss": 8.8246,
       "step": 21
     },
     {
       "epoch": 2.71,
-      "learning_rate": 8.625000000000001e-06,
-      "loss": 8.7073,
       "step": 22
     },
     {
       "epoch": 2.83,
-      "learning_rate": 8.5625e-06,
-      "loss": 8.5972,
       "step": 23
     },
     {
       "epoch": 2.95,
-      "learning_rate": 8.5e-06,
-      "loss": 8.408,
       "step": 24
     }
   ],
   "logging_steps": 1,
-  "max_steps": 160,
-  "num_train_epochs": 20,
   "save_steps": 500,
   "total_flos": 1619109035900928.0,
   "trial_name": null,

   "log_history": [
     {
       "epoch": 0.12,
+      "learning_rate": 9.975000000000002e-06,
       "loss": 12.7837,
       "step": 1
     },
     {
       "epoch": 0.25,
+      "learning_rate": 9.950000000000001e-06,
       "loss": 12.4595,
       "step": 2
     },
     {
       "epoch": 0.37,
+      "learning_rate": 9.925e-06,
+      "loss": 11.9117,
       "step": 3
     },
     {
       "epoch": 0.49,
+      "learning_rate": 9.9e-06,
+      "loss": 11.662,
       "step": 4
     },
     {
       "epoch": 0.62,
+      "learning_rate": 9.875000000000001e-06,
+      "loss": 11.4278,
       "step": 5
     },
     {
       "epoch": 0.74,
+      "learning_rate": 9.85e-06,
+      "loss": 11.1398,
       "step": 6
     },
     {
       "epoch": 0.86,
+      "learning_rate": 9.825000000000002e-06,
+      "loss": 10.9135,
       "step": 7
     },
     {
       "epoch": 0.98,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 10.8274,
       "step": 8
     },
     {
       "epoch": 1.11,
+      "learning_rate": 9.775e-06,
+      "loss": 10.5068,
       "step": 9
     },
     {
       "epoch": 1.23,
+      "learning_rate": 9.75e-06,
+      "loss": 10.3551,
       "step": 10
     },
     {
       "epoch": 1.35,
+      "learning_rate": 9.725000000000001e-06,
+      "loss": 10.1776,
       "step": 11
     },
     {
       "epoch": 1.48,
+      "learning_rate": 9.7e-06,
+      "loss": 10.0708,
       "step": 12
     },
     {
       "epoch": 1.6,
+      "learning_rate": 9.675000000000001e-06,
+      "loss": 9.8703,
       "step": 13
     },
     {
       "epoch": 1.72,
+      "learning_rate": 9.65e-06,
+      "loss": 9.7534,
       "step": 14
     },
     {
       "epoch": 1.85,
+      "learning_rate": 9.625e-06,
+      "loss": 9.6094,
       "step": 15
     },
     {
       "epoch": 1.97,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 9.3989,
       "step": 16
     },
     {
       "epoch": 2.09,
+      "learning_rate": 9.575e-06,
+      "loss": 9.2753,
       "step": 17
     },
     {
       "epoch": 2.22,
+      "learning_rate": 9.55e-06,
+      "loss": 9.138,
       "step": 18
     },
     {
       "epoch": 2.34,
+      "learning_rate": 9.525000000000001e-06,
+      "loss": 9.0598,
       "step": 19
     },
     {
       "epoch": 2.46,
+      "learning_rate": 9.5e-06,
+      "loss": 8.8535,
       "step": 20
     },
     {
       "epoch": 2.58,
+      "learning_rate": 9.475000000000002e-06,
+      "loss": 8.7378,
       "step": 21
     },
     {
       "epoch": 2.71,
+      "learning_rate": 9.450000000000001e-06,
+      "loss": 8.6082,
       "step": 22
     },
     {
       "epoch": 2.83,
+      "learning_rate": 9.425e-06,
+      "loss": 8.4904,
       "step": 23
     },
     {
       "epoch": 2.95,
+      "learning_rate": 9.4e-06,
+      "loss": 8.2918,
       "step": 24
     }
   ],
   "logging_steps": 1,
+  "max_steps": 400,
+  "num_train_epochs": 50,
   "save_steps": 500,
   "total_flos": 1619109035900928.0,
   "trial_name": null,

checkpoint-24/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a6fef67a6d9ec40dd5de4f4428a33ef7c86345cb77990f465d9680f0009f594
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:60568d4dd0f6572abe8a02d69c2d1f0c25627e4687509d3e2f27d2eb514e2587
 size 4600