Initial commit

Browse files

Files changed (4) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
scheduler.pt +1 -1
trainer_state.json +483 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f23fe1da9d7b0d262eb827700691cf93218fcc1ab92881c019c3bf663b065d8
 size 655348487

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d55c7235936d0242cf392bec1a2ea0817b12aa635dec8779c8a4eacdb4938ed
 size 655348487

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a823b809bd0a2dff786f1c5ff0e0323d2af862b1b3dfbee9e1b34a9f48e4dda8
 size 333975623

 version https://git-lfs.github.com/spec/v1
+oid sha256:492888ed30a69737bf3290cd99f0992bde40cc710fa370b0ccded98a91f294b8
 size 333975623

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f78d7980d4c582b39ed334cb97ac267ed42b605e3763293c7f4f9ed34e3a350f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f51219b2cb4bc18c5893bf94b3f2834354e493062268fb89b16464b4a442a743
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 120.2843083652269,
-  "global_step": 440000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5286,11 +5286,491 @@
       "learning_rate": 4.3991797676008206e-05,
       "loss": 1.9818,
       "step": 440000
     }
   ],
   "max_steps": 3658000,
   "num_train_epochs": 1000,
-  "total_flos": 885711431443415040,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 131.21924548933845,
+  "global_step": 480000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.3991797676008206e-05,
       "loss": 1.9818,
       "step": 440000
+    },
+    {
+      "epoch": 120.42,
+      "learning_rate": 4.398496240601504e-05,
+      "loss": 1.9914,
+      "step": 440500
+    },
+    {
+      "epoch": 120.56,
+      "learning_rate": 4.3978127136021876e-05,
+      "loss": 1.9949,
+      "step": 441000
+    },
+    {
+      "epoch": 120.69,
+      "learning_rate": 4.397129186602871e-05,
+      "loss": 2.0031,
+      "step": 441500
+    },
+    {
+      "epoch": 120.83,
+      "learning_rate": 4.3964456596035545e-05,
+      "loss": 2.0048,
+      "step": 442000
+    },
+    {
+      "epoch": 120.97,
+      "learning_rate": 4.395762132604238e-05,
+      "loss": 2.018,
+      "step": 442500
+    },
+    {
+      "epoch": 121.1,
+      "learning_rate": 4.3950786056049215e-05,
+      "loss": 1.9803,
+      "step": 443000
+    },
+    {
+      "epoch": 121.24,
+      "learning_rate": 4.3943950786056056e-05,
+      "loss": 1.9769,
+      "step": 443500
+    },
+    {
+      "epoch": 121.38,
+      "learning_rate": 4.393711551606289e-05,
+      "loss": 1.9786,
+      "step": 444000
+    },
+    {
+      "epoch": 121.51,
+      "learning_rate": 4.393028024606972e-05,
+      "loss": 1.99,
+      "step": 444500
+    },
+    {
+      "epoch": 121.65,
+      "learning_rate": 4.3923444976076554e-05,
+      "loss": 1.9929,
+      "step": 445000
+    },
+    {
+      "epoch": 121.79,
+      "learning_rate": 4.3916609706083396e-05,
+      "loss": 2.0034,
+      "step": 445500
+    },
+    {
+      "epoch": 121.92,
+      "learning_rate": 4.390977443609023e-05,
+      "loss": 2.0121,
+      "step": 446000
+    },
+    {
+      "epoch": 122.06,
+      "learning_rate": 4.3902939166097065e-05,
+      "loss": 1.9899,
+      "step": 446500
+    },
+    {
+      "epoch": 122.2,
+      "learning_rate": 4.389610389610389e-05,
+      "loss": 1.9649,
+      "step": 447000
+    },
+    {
+      "epoch": 122.33,
+      "learning_rate": 4.3889268626110735e-05,
+      "loss": 1.9764,
+      "step": 447500
+    },
+    {
+      "epoch": 122.47,
+      "learning_rate": 4.388243335611757e-05,
+      "loss": 1.9795,
+      "step": 448000
+    },
+    {
+      "epoch": 122.61,
+      "learning_rate": 4.3875598086124404e-05,
+      "loss": 1.9988,
+      "step": 448500
+    },
+    {
+      "epoch": 122.74,
+      "learning_rate": 4.386876281613124e-05,
+      "loss": 1.9975,
+      "step": 449000
+    },
+    {
+      "epoch": 122.88,
+      "learning_rate": 4.3861927546138074e-05,
+      "loss": 2.007,
+      "step": 449500
+    },
+    {
+      "epoch": 123.02,
+      "learning_rate": 4.385509227614491e-05,
+      "loss": 2.0015,
+      "step": 450000
+    },
+    {
+      "epoch": 123.15,
+      "learning_rate": 4.3848257006151743e-05,
+      "loss": 1.9606,
+      "step": 450500
+    },
+    {
+      "epoch": 123.29,
+      "learning_rate": 4.384142173615858e-05,
+      "loss": 1.9646,
+      "step": 451000
+    },
+    {
+      "epoch": 123.43,
+      "learning_rate": 4.383458646616542e-05,
+      "loss": 1.9758,
+      "step": 451500
+    },
+    {
+      "epoch": 123.56,
+      "learning_rate": 4.382775119617225e-05,
+      "loss": 1.9893,
+      "step": 452000
+    },
+    {
+      "epoch": 123.7,
+      "learning_rate": 4.382091592617908e-05,
+      "loss": 1.9943,
+      "step": 452500
+    },
+    {
+      "epoch": 123.84,
+      "learning_rate": 4.3814080656185924e-05,
+      "loss": 1.9997,
+      "step": 453000
+    },
+    {
+      "epoch": 123.97,
+      "learning_rate": 4.380724538619276e-05,
+      "loss": 2.0071,
+      "step": 453500
+    },
+    {
+      "epoch": 124.11,
+      "learning_rate": 4.3800410116199594e-05,
+      "loss": 1.9643,
+      "step": 454000
+    },
+    {
+      "epoch": 124.25,
+      "learning_rate": 4.379357484620643e-05,
+      "loss": 1.9644,
+      "step": 454500
+    },
+    {
+      "epoch": 124.38,
+      "learning_rate": 4.378673957621326e-05,
+      "loss": 1.9718,
+      "step": 455000
+    },
+    {
+      "epoch": 124.52,
+      "learning_rate": 4.37799043062201e-05,
+      "loss": 1.9801,
+      "step": 455500
+    },
+    {
+      "epoch": 124.66,
+      "learning_rate": 4.377306903622693e-05,
+      "loss": 1.9836,
+      "step": 456000
+    },
+    {
+      "epoch": 124.79,
+      "learning_rate": 4.376623376623377e-05,
+      "loss": 1.9961,
+      "step": 456500
+    },
+    {
+      "epoch": 124.93,
+      "learning_rate": 4.37593984962406e-05,
+      "loss": 1.9996,
+      "step": 457000
+    },
+    {
+      "epoch": 125.07,
+      "learning_rate": 4.375256322624744e-05,
+      "loss": 1.9744,
+      "step": 457500
+    },
+    {
+      "epoch": 125.21,
+      "learning_rate": 4.374572795625427e-05,
+      "loss": 1.9558,
+      "step": 458000
+    },
+    {
+      "epoch": 125.34,
+      "learning_rate": 4.373889268626111e-05,
+      "loss": 1.9701,
+      "step": 458500
+    },
+    {
+      "epoch": 125.48,
+      "learning_rate": 4.373205741626795e-05,
+      "loss": 1.971,
+      "step": 459000
+    },
+    {
+      "epoch": 125.62,
+      "learning_rate": 4.372522214627478e-05,
+      "loss": 1.9868,
+      "step": 459500
+    },
+    {
+      "epoch": 125.75,
+      "learning_rate": 4.371838687628161e-05,
+      "loss": 1.9827,
+      "step": 460000
+    },
+    {
+      "epoch": 125.89,
+      "learning_rate": 4.3711551606288446e-05,
+      "loss": 1.9944,
+      "step": 460500
+    },
+    {
+      "epoch": 126.03,
+      "learning_rate": 4.370471633629529e-05,
+      "loss": 1.9864,
+      "step": 461000
+    },
+    {
+      "epoch": 126.16,
+      "learning_rate": 4.369788106630212e-05,
+      "loss": 1.9455,
+      "step": 461500
+    },
+    {
+      "epoch": 126.3,
+      "learning_rate": 4.369104579630896e-05,
+      "loss": 1.9598,
+      "step": 462000
+    },
+    {
+      "epoch": 126.44,
+      "learning_rate": 4.368421052631579e-05,
+      "loss": 1.9695,
+      "step": 462500
+    },
+    {
+      "epoch": 126.57,
+      "learning_rate": 4.367737525632263e-05,
+      "loss": 1.9791,
+      "step": 463000
+    },
+    {
+      "epoch": 126.71,
+      "learning_rate": 4.367053998632946e-05,
+      "loss": 1.9733,
+      "step": 463500
+    },
+    {
+      "epoch": 126.85,
+      "learning_rate": 4.3663704716336296e-05,
+      "loss": 1.9899,
+      "step": 464000
+    },
+    {
+      "epoch": 126.98,
+      "learning_rate": 4.365686944634314e-05,
+      "loss": 1.9975,
+      "step": 464500
+    },
+    {
+      "epoch": 127.12,
+      "learning_rate": 4.3650034176349966e-05,
+      "loss": 1.9522,
+      "step": 465000
+    },
+    {
+      "epoch": 127.26,
+      "learning_rate": 4.36431989063568e-05,
+      "loss": 1.9489,
+      "step": 465500
+    },
+    {
+      "epoch": 127.39,
+      "learning_rate": 4.3636363636363636e-05,
+      "loss": 1.961,
+      "step": 466000
+    },
+    {
+      "epoch": 127.53,
+      "learning_rate": 4.362952836637048e-05,
+      "loss": 1.9685,
+      "step": 466500
+    },
+    {
+      "epoch": 127.67,
+      "learning_rate": 4.362269309637731e-05,
+      "loss": 1.9775,
+      "step": 467000
+    },
+    {
+      "epoch": 127.8,
+      "learning_rate": 4.361585782638414e-05,
+      "loss": 1.983,
+      "step": 467500
+    },
+    {
+      "epoch": 127.94,
+      "learning_rate": 4.3609022556390975e-05,
+      "loss": 1.9919,
+      "step": 468000
+    },
+    {
+      "epoch": 128.08,
+      "learning_rate": 4.3602187286397816e-05,
+      "loss": 1.9609,
+      "step": 468500
+    },
+    {
+      "epoch": 128.21,
+      "learning_rate": 4.359535201640465e-05,
+      "loss": 1.9508,
+      "step": 469000
+    },
+    {
+      "epoch": 128.35,
+      "learning_rate": 4.3588516746411486e-05,
+      "loss": 1.9594,
+      "step": 469500
+    },
+    {
+      "epoch": 128.49,
+      "learning_rate": 4.358168147641832e-05,
+      "loss": 1.9627,
+      "step": 470000
+    },
+    {
+      "epoch": 128.62,
+      "learning_rate": 4.3574846206425156e-05,
+      "loss": 1.9675,
+      "step": 470500
+    },
+    {
+      "epoch": 128.76,
+      "learning_rate": 4.356801093643199e-05,
+      "loss": 1.9777,
+      "step": 471000
+    },
+    {
+      "epoch": 128.9,
+      "learning_rate": 4.3561175666438825e-05,
+      "loss": 1.9811,
+      "step": 471500
+    },
+    {
+      "epoch": 129.03,
+      "learning_rate": 4.355434039644567e-05,
+      "loss": 1.975,
+      "step": 472000
+    },
+    {
+      "epoch": 129.17,
+      "learning_rate": 4.3547505126452495e-05,
+      "loss": 1.9393,
+      "step": 472500
+    },
+    {
+      "epoch": 129.31,
+      "learning_rate": 4.354066985645933e-05,
+      "loss": 1.9465,
+      "step": 473000
+    },
+    {
+      "epoch": 129.44,
+      "learning_rate": 4.3533834586466164e-05,
+      "loss": 1.9567,
+      "step": 473500
+    },
+    {
+      "epoch": 129.58,
+      "learning_rate": 4.3526999316473006e-05,
+      "loss": 1.963,
+      "step": 474000
+    },
+    {
+      "epoch": 129.72,
+      "learning_rate": 4.352016404647984e-05,
+      "loss": 1.9731,
+      "step": 474500
+    },
+    {
+      "epoch": 129.85,
+      "learning_rate": 4.3513328776486675e-05,
+      "loss": 1.9787,
+      "step": 475000
+    },
+    {
+      "epoch": 129.99,
+      "learning_rate": 4.3506493506493503e-05,
+      "loss": 1.9779,
+      "step": 475500
+    },
+    {
+      "epoch": 130.13,
+      "learning_rate": 4.3499658236500345e-05,
+      "loss": 1.9351,
+      "step": 476000
+    },
+    {
+      "epoch": 130.26,
+      "learning_rate": 4.349282296650718e-05,
+      "loss": 1.9439,
+      "step": 476500
+    },
+    {
+      "epoch": 130.4,
+      "learning_rate": 4.3485987696514015e-05,
+      "loss": 1.953,
+      "step": 477000
+    },
+    {
+      "epoch": 130.54,
+      "learning_rate": 4.347915242652085e-05,
+      "loss": 1.9584,
+      "step": 477500
+    },
+    {
+      "epoch": 130.67,
+      "learning_rate": 4.3472317156527684e-05,
+      "loss": 1.9635,
+      "step": 478000
+    },
+    {
+      "epoch": 130.81,
+      "learning_rate": 4.346548188653452e-05,
+      "loss": 1.9722,
+      "step": 478500
+    },
+    {
+      "epoch": 130.95,
+      "learning_rate": 4.3458646616541354e-05,
+      "loss": 1.9806,
+      "step": 479000
+    },
+    {
+      "epoch": 131.08,
+      "learning_rate": 4.345181134654819e-05,
+      "loss": 1.9505,
+      "step": 479500
+    },
+    {
+      "epoch": 131.22,
+      "learning_rate": 4.344497607655503e-05,
+      "loss": 1.9355,
+      "step": 480000
     }
   ],
   "max_steps": 3658000,
   "num_train_epochs": 1000,
+  "total_flos": 966230618169802752,
   "trial_name": null,
   "trial_params": null
 }