revert checkpoint 8500

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +213 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdd143975ad3d690151a2d6876b52021dd76600fddcf276b2fcfaf6726c29735
 size 352532601

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3d699c309551e55aea38a0695d1193822a55b4313f94d57c6dec4e6a72980f0
 size 352532601

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:017d822db885d347639f43c348f2479cb57ca865ba3977e3a340468595ffbfef
 size 688496379

 version https://git-lfs.github.com/spec/v1
+oid sha256:f21c54330bde69593dcf7dd9a914ed642190dcab5e32efc5d8e38b67978270ef
 size 688496379

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ebb5b2b28192f1263b7a83b5fd6852393d35c165b8351517043a7223b0c7ff6
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0663d71adc38c87b4ce427f03d6b812499a5b8889126cd51ab1cc868860350d
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21eae3a4696247cc4c013194b7462574deabe979fe17917077937f09ff448918
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c6747f392d5a349de5e04bff46be642d98f99cf1525c743a2c739cb62cce9c4
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.543441679213533,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -306,11 +306,221 @@
       "learning_rate": 6.456413890857548e-09,
       "loss": 1.9762,
       "step": 5000
     }
   ],
   "max_steps": 14110,
   "num_train_epochs": 10,
-  "total_flos": 3.580791724112394e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.024089983172439,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.456413890857548e-09,
       "loss": 1.9762,
       "step": 5000
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 6.385542168674698e-09,
+      "loss": 2.0763,
+      "step": 5100
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 6.31467044649185e-09,
+      "loss": 2.065,
+      "step": 5200
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 6.243798724309001e-09,
+      "loss": 2.06,
+      "step": 5300
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 6.172927002126152e-09,
+      "loss": 2.0403,
+      "step": 5400
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 6.102055279943303e-09,
+      "loss": 2.0715,
+      "step": 5500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 6.031183557760453e-09,
+      "loss": 2.0762,
+      "step": 5600
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 5.960311835577604e-09,
+      "loss": 2.0365,
+      "step": 5700
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 5.889440113394756e-09,
+      "loss": 2.0154,
+      "step": 5800
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 5.818568391211907e-09,
+      "loss": 2.0166,
+      "step": 5900
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.747696669029058e-09,
+      "loss": 2.0339,
+      "step": 6000
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 5.676824946846208e-09,
+      "loss": 2.0451,
+      "step": 6100
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 5.605953224663359e-09,
+      "loss": 2.023,
+      "step": 6200
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 5.53508150248051e-09,
+      "loss": 2.0222,
+      "step": 6300
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5.464209780297661e-09,
+      "loss": 2.0037,
+      "step": 6400
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 5.393338058114813e-09,
+      "loss": 2.0116,
+      "step": 6500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 5.322466335931963e-09,
+      "loss": 2.0236,
+      "step": 6600
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 5.251594613749114e-09,
+      "loss": 2.0302,
+      "step": 6700
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 5.180722891566265e-09,
+      "loss": 2.0236,
+      "step": 6800
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 5.109851169383416e-09,
+      "loss": 2.015,
+      "step": 6900
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 5.038979447200567e-09,
+      "loss": 2.0037,
+      "step": 7000
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 4.9681077250177184e-09,
+      "loss": 2.0319,
+      "step": 7100
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 4.897236002834869e-09,
+      "loss": 2.0271,
+      "step": 7200
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 4.82636428065202e-09,
+      "loss": 2.0337,
+      "step": 7300
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 4.755492558469171e-09,
+      "loss": 2.0305,
+      "step": 7400
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 4.684620836286322e-09,
+      "loss": 2.0261,
+      "step": 7500
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 4.613749114103473e-09,
+      "loss": 2.0234,
+      "step": 7600
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 4.542877391920624e-09,
+      "loss": 2.0209,
+      "step": 7700
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 4.472005669737775e-09,
+      "loss": 2.0166,
+      "step": 7800
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 4.401133947554926e-09,
+      "loss": 2.0268,
+      "step": 7900
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 4.330262225372077e-09,
+      "loss": 2.0199,
+      "step": 8000
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 4.259390503189228e-09,
+      "loss": 2.005,
+      "step": 8100
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 4.188518781006379e-09,
+      "loss": 2.0096,
+      "step": 8200
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.117647058823529e-09,
+      "loss": 2.0239,
+      "step": 8300
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 4.046775336640681e-09,
+      "loss": 2.0096,
+      "step": 8400
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 3.975903614457831e-09,
+      "loss": 2.0432,
+      "step": 8500
     }
   ],
   "max_steps": 14110,
   "num_train_epochs": 10,
+  "total_flos": 6.087535537968384e+17,
   "trial_name": null,
   "trial_params": null
 }