Training in progress, step 60000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baae4e4a96784040ce868f96d42034bb242c904f78e226021a2e4a96a9cef3c0
 size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ceedefb856fd84795e75aee417a2889e7dfef00f9cca82e610fbafac5203514
 size 100170757

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31c53fb7b6ad0de21b811e1658611e4a33f3b1de2bf1f9601b1aaa1ab1a4a342
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c51f436fc6ff7c66c8286fca81fd6d00dc485176f29ebe17de85db28a4fa91b5
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:278efd6da406e01e44c9f984c5e1ca1bb12b34417f4813c1c41649e79e52efe7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff9803e49c54da5b93ea63a8f9cfb55e640978474df5d52e215ba5da04a71f90
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:040f5262cd15419c3551e6c0666b578c1bcd600700fb7ef85d83f816cd92b640
 size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e429486456e317e2d30183574218e6d221698c823284eb9740704ef563e5d5d
 size 246897640

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21486892995272883,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1506,11 +1506,311 @@
       "learning_rate": 0.0002800029021041788,
       "loss": 3.367,
       "step": 50000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 7.96914991104e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2578427159432746,
+  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002800029021041788,
       "loss": 3.367,
       "step": 50000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028174626854371866,
+      "loss": 3.3536,
+      "step": 50200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002834938154241324,
+      "loss": 3.3545,
+      "step": 50400
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028524551208266224,
+      "loss": 3.369,
+      "step": 50600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002870013277837379,
+      "loss": 3.3578,
+      "step": 50800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028876123171951576,
+      "loss": 3.3439,
+      "step": 51000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002905251930104192,
+      "loss": 3.3568,
+      "step": 51200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00029229318070568056,
+      "loss": 3.3605,
+      "step": 51400
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002940651637838844,
+      "loss": 3.358,
+      "step": 51600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002958411111535111,
+      "loss": 3.3603,
+      "step": 51800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00029762099165348357,
+      "loss": 3.3527,
+      "step": 52000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002994047740537128,
+      "loss": 3.3409,
+      "step": 52200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00030119242705564664,
+      "loss": 3.3495,
+      "step": 52400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00030298391929281857,
+      "loss": 3.328,
+      "step": 52600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00030477921933139823,
+      "loss": 3.3592,
+      "step": 52800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00030657829567074305,
+      "loss": 3.36,
+      "step": 53000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003083811167439507,
+      "loss": 3.3558,
+      "step": 53200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003101876509184131,
+      "loss": 3.3206,
+      "step": 53400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00031199786649637145,
+      "loss": 3.3376,
+      "step": 53600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003138117317154723,
+      "loss": 3.3242,
+      "step": 53800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003156292147493255,
+      "loss": 3.3368,
+      "step": 54000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00031745028370806165,
+      "loss": 3.3366,
+      "step": 54200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00031927490663889203,
+      "loss": 3.3267,
+      "step": 54400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00032110305152666953,
+      "loss": 3.302,
+      "step": 54600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00032293468629445007,
+      "loss": 3.3237,
+      "step": 54800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00032476977880405546,
+      "loss": 3.3207,
+      "step": 55000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00032660829685663773,
+      "loss": 3.3215,
+      "step": 55200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00032845020819324334,
+      "loss": 3.3107,
+      "step": 55400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003302954804953797,
+      "loss": 3.3153,
+      "step": 55600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00033214408138558256,
+      "loss": 3.341,
+      "step": 55800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003339959784279831,
+      "loss": 3.3183,
+      "step": 56000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00033585113912887776,
+      "loss": 3.3295,
+      "step": 56200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003377095309372985,
+      "loss": 3.3293,
+      "step": 56400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003395711212455839,
+      "loss": 3.3181,
+      "step": 56600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003414358773899506,
+      "loss": 3.3075,
+      "step": 56800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00034330376665106695,
+      "loss": 3.3213,
+      "step": 57000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003451747562546278,
+      "loss": 3.3105,
+      "step": 57200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00034704881337192784,
+      "loss": 3.2828,
+      "step": 57400
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00034892590512043947,
+      "loss": 3.3044,
+      "step": 57600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00035080599856438877,
+      "loss": 3.306,
+      "step": 57800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00035268906071533304,
+      "loss": 3.3226,
+      "step": 58000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003545750585327406,
+      "loss": 3.3227,
+      "step": 58200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003564639589245703,
+      "loss": 3.2888,
+      "step": 58400
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003583557287478512,
+      "loss": 3.2918,
+      "step": 58600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003602503348092654,
+      "loss": 3.2857,
+      "step": 58800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003621477438657296,
+      "loss": 3.324,
+      "step": 59000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00036404792262497885,
+      "loss": 3.2991,
+      "step": 59200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00036595083774615053,
+      "loss": 3.2798,
+      "step": 59400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003678564558403689,
+      "loss": 3.3164,
+      "step": 59600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003697647434713321,
+      "loss": 3.2885,
+      "step": 59800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003716756671558975,
+      "loss": 3.3157,
+      "step": 60000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 9.562979893248e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31c53fb7b6ad0de21b811e1658611e4a33f3b1de2bf1f9601b1aaa1ab1a4a342
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c51f436fc6ff7c66c8286fca81fd6d00dc485176f29ebe17de85db28a4fa91b5
 size 146774203