Training in progress, step 20000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5622ffe46bf38388fa00b1a2200850f93d8dbe09275c8fca23027e8c8ecc914d
 size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:efef12e6736ac05b05123978b5a7ba02086375a879e1e08c05db35ff70c647a0
 size 100170757

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64b56da0bd1eae8d31f23f66326261f592bc15670d3bf8cb6c7469bc8473bee5
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:669ff7fd28968817843d8d3e735a9f1604e6f86bd0620d14ba500c796ee6cb84
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dd39757fc934e875b29f85fec3b03c133505f0c929dbd7a3fa7ae13e24256c2
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ed50c4af1d37fb0d41b85169a6f1f89705f404faa32f3817c74e84cd5180c1
 size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f9c578680b62451c8dae8ced51654d36c9069db64cb38be21beebde9b574592
 size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:60920ec13686e98f9f0d129e472adaac1417d4bc756e4485725a87068a11e2f1
 size 246897640

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.042973785990545764,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -306,11 +306,311 @@
       "learning_rate": 0.0005048929099291249,
       "loss": 5.0106,
       "step": 10000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 1.593829982208e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08594757198109153,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0005048929099291249,
       "loss": 5.0106,
       "step": 10000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005091144561900837,
+      "loss": 5.0155,
+      "step": 10200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005134183095340927,
+      "loss": 4.9817,
+      "step": 10400
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005178043944449977,
+      "loss": 4.9742,
+      "step": 10600
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005222726339638023,
+      "loss": 4.9299,
+      "step": 10800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005268229496900086,
+      "loss": 4.9208,
+      "step": 11000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005314552617829947,
+      "loss": 4.8617,
+      "step": 11200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005361694889634196,
+      "loss": 4.7952,
+      "step": 11400
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005409655485146408,
+      "loss": 4.7641,
+      "step": 11600
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005458433562841782,
+      "loss": 4.7361,
+      "step": 11800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005508028266851747,
+      "loss": 4.7023,
+      "step": 12000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000555843872697916,
+      "loss": 4.6561,
+      "step": 12200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005609664058713396,
+      "loss": 4.63,
+      "step": 12400
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0005661703363245996,
+      "loss": 4.6307,
+      "step": 12600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005714555727486404,
+      "loss": 4.5881,
+      "step": 12800
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005768220224077955,
+      "loss": 4.5489,
+      "step": 13000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005822695911414169,
+      "loss": 4.5521,
+      "step": 13200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005877981833655298,
+      "loss": 4.5165,
+      "step": 13400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005934077020745051,
+      "loss": 4.505,
+      "step": 13600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0005990980488427659,
+      "loss": 4.4863,
+      "step": 13800
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000604869123826509,
+      "loss": 4.5071,
+      "step": 14000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006107208257654633,
+      "loss": 4.4501,
+      "step": 14200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006166530519846631,
+      "loss": 4.4623,
+      "step": 14400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006226656983962468,
+      "loss": 4.4336,
+      "step": 14600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006287586595012887,
+      "loss": 4.4335,
+      "step": 14800
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000634931828391647,
+      "loss": 4.4142,
+      "step": 15000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006411850967518416,
+      "loss": 4.4145,
+      "step": 15200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006475183548609511,
+      "loss": 4.3842,
+      "step": 15400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006539314915945428,
+      "loss": 4.3748,
+      "step": 15600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006604243944266178,
+      "loss": 4.3815,
+      "step": 15800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006669969494315867,
+      "loss": 4.352,
+      "step": 16000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006736490412862749,
+      "loss": 4.3575,
+      "step": 16200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000680380553271933,
+      "loss": 4.3416,
+      "step": 16400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006871913672762998,
+      "loss": 4.341,
+      "step": 16600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006940813637956594,
+      "loss": 4.3183,
+      "step": 16800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0007010504219369541,
+      "loss": 4.3145,
+      "step": 17000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0007080984194198885,
+      "loss": 4.3065,
+      "step": 17200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0007152252325790948,
+      "loss": 4.2805,
+      "step": 17400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007224307363662818,
+      "loss": 4.2804,
+      "step": 17600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007297148043524434,
+      "loss": 4.2996,
+      "step": 17800
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007370773087300737,
+      "loss": 4.2743,
+      "step": 18000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007445181203154048,
+      "loss": 4.2621,
+      "step": 18200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007520371085506811,
+      "loss": 4.2548,
+      "step": 18400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007596341415064441,
+      "loss": 4.2643,
+      "step": 18600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007673090858838494,
+      "loss": 4.266,
+      "step": 18800
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007750618070170041,
+      "loss": 4.2503,
+      "step": 19000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007828921688753324,
+      "loss": 4.2093,
+      "step": 19200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007908000340659631,
+      "loss": 4.2449,
+      "step": 19400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0007987852638361333,
+      "loss": 4.2158,
+      "step": 19600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008068477180756314,
+      "loss": 4.202,
+      "step": 19800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0008149872553192515,
+      "loss": 4.2065,
+      "step": 20000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 3.187659964416e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64b56da0bd1eae8d31f23f66326261f592bc15670d3bf8cb6c7469bc8473bee5
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:669ff7fd28968817843d8d3e735a9f1604e6f86bd0620d14ba500c796ee6cb84
 size 146774203