Upload 12 files

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +359 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:010cc660b5d560447c7fb8b57393b8f97dba3cba806dcec5ee0218894aebf79d
 size 995641861

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1958c3dbb04813e9cfb37dc3270d881bdb32b10faf80bc576183dadd1d67b1f
 size 995641861

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8292a97db24ad842f8357890c37607ffdb8c0abbf25b087a8cc581fd45f68c4
 size 497807197

 version https://git-lfs.github.com/spec/v1
+oid sha256:d55afad0c1ff1e9d5816f48bc770e1719f184367f8577205df45a7ada8f25d79
 size 497807197

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fbc44877a85dc9e31508ab5cdcb4b09e15e4ccd881628820393d3ed5e0b4726
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e34348f4fc7163b2cbb271bcc37ef245469192a3f7f73ffc101fcb3e6ff34188
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:272d9d323ca9bc4225a532f1ca51900b269e2ae9a9366402febf725ced99fda9
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b4432ea76e605f5a2ab91b958cd7cebdc5efaf3ebb4c8fe1d3da0e35f885a53
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 9456,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -171,13 +171,369 @@
       "learning_rate": 8.096446700507615e-06,
       "loss": 2.9722,
       "step": 9000
     }
   ],
   "logging_steps": 500,
   "max_steps": 47280,
   "num_train_epochs": 40,
   "save_steps": 9456,
-  "total_flos": 1.4819961470976e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 24.0,
   "eval_steps": 500,
+  "global_step": 28368,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.096446700507615e-06,
       "loss": 2.9722,
       "step": 9000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 3.004361391067505,
+      "eval_runtime": 6.0481,
+      "eval_samples_per_second": 42.327,
+      "eval_steps_per_second": 5.291,
+      "step": 9456
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 7.990693739424705e-06,
+      "loss": 2.9628,
+      "step": 9500
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 7.884940778341795e-06,
+      "loss": 2.9593,
+      "step": 10000
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 7.779187817258885e-06,
+      "loss": 2.9485,
+      "step": 10500
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 2.9940547943115234,
+      "eval_runtime": 6.1451,
+      "eval_samples_per_second": 41.659,
+      "eval_steps_per_second": 5.207,
+      "step": 10638
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 7.673434856175973e-06,
+      "loss": 2.9405,
+      "step": 11000
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 7.567681895093063e-06,
+      "loss": 2.943,
+      "step": 11500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 2.9857802391052246,
+      "eval_runtime": 6.2619,
+      "eval_samples_per_second": 40.882,
+      "eval_steps_per_second": 5.11,
+      "step": 11820
+    },
+    {
+      "epoch": 10.15,
+      "learning_rate": 7.461928934010153e-06,
+      "loss": 2.9243,
+      "step": 12000
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 7.356175972927243e-06,
+      "loss": 2.9228,
+      "step": 12500
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 7.2504230118443316e-06,
+      "loss": 2.9216,
+      "step": 13000
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 2.9776651859283447,
+      "eval_runtime": 6.2854,
+      "eval_samples_per_second": 40.73,
+      "eval_steps_per_second": 5.091,
+      "step": 13002
+    },
+    {
+      "epoch": 11.42,
+      "learning_rate": 7.144670050761422e-06,
+      "loss": 2.9118,
+      "step": 13500
+    },
+    {
+      "epoch": 11.84,
+      "learning_rate": 7.038917089678512e-06,
+      "loss": 2.911,
+      "step": 14000
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 2.9713006019592285,
+      "eval_runtime": 6.1107,
+      "eval_samples_per_second": 41.894,
+      "eval_steps_per_second": 5.237,
+      "step": 14184
+    },
+    {
+      "epoch": 12.27,
+      "learning_rate": 6.933164128595601e-06,
+      "loss": 2.9038,
+      "step": 14500
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 6.827411167512691e-06,
+      "loss": 2.8924,
+      "step": 15000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 2.9653375148773193,
+      "eval_runtime": 6.1162,
+      "eval_samples_per_second": 41.856,
+      "eval_steps_per_second": 5.232,
+      "step": 15366
+    },
+    {
+      "epoch": 13.11,
+      "learning_rate": 6.721658206429781e-06,
+      "loss": 2.9025,
+      "step": 15500
+    },
+    {
+      "epoch": 13.54,
+      "learning_rate": 6.61590524534687e-06,
+      "loss": 2.8886,
+      "step": 16000
+    },
+    {
+      "epoch": 13.96,
+      "learning_rate": 6.51015228426396e-06,
+      "loss": 2.8882,
+      "step": 16500
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 2.960761547088623,
+      "eval_runtime": 6.1211,
+      "eval_samples_per_second": 41.822,
+      "eval_steps_per_second": 5.228,
+      "step": 16548
+    },
+    {
+      "epoch": 14.38,
+      "learning_rate": 6.40439932318105e-06,
+      "loss": 2.8777,
+      "step": 17000
+    },
+    {
+      "epoch": 14.81,
+      "learning_rate": 6.298646362098139e-06,
+      "loss": 2.8826,
+      "step": 17500
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 2.9559221267700195,
+      "eval_runtime": 6.0998,
+      "eval_samples_per_second": 41.969,
+      "eval_steps_per_second": 5.246,
+      "step": 17730
+    },
+    {
+      "epoch": 15.23,
+      "learning_rate": 6.1928934010152285e-06,
+      "loss": 2.8796,
+      "step": 18000
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 6.0871404399323185e-06,
+      "loss": 2.8697,
+      "step": 18500
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 2.952040672302246,
+      "eval_runtime": 6.2485,
+      "eval_samples_per_second": 40.97,
+      "eval_steps_per_second": 5.121,
+      "step": 18912
+    },
+    {
+      "epoch": 16.07,
+      "learning_rate": 5.981387478849409e-06,
+      "loss": 2.8645,
+      "step": 19000
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 5.875634517766498e-06,
+      "loss": 2.8678,
+      "step": 19500
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 5.769881556683588e-06,
+      "loss": 2.8616,
+      "step": 20000
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 2.948793888092041,
+      "eval_runtime": 6.2711,
+      "eval_samples_per_second": 40.822,
+      "eval_steps_per_second": 5.103,
+      "step": 20094
+    },
+    {
+      "epoch": 17.34,
+      "learning_rate": 5.664128595600678e-06,
+      "loss": 2.8548,
+      "step": 20500
+    },
+    {
+      "epoch": 17.77,
+      "learning_rate": 5.558375634517766e-06,
+      "loss": 2.8529,
+      "step": 21000
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 2.945361614227295,
+      "eval_runtime": 6.3517,
+      "eval_samples_per_second": 40.304,
+      "eval_steps_per_second": 5.038,
+      "step": 21276
+    },
+    {
+      "epoch": 18.19,
+      "learning_rate": 5.452622673434856e-06,
+      "loss": 2.8557,
+      "step": 21500
+    },
+    {
+      "epoch": 18.61,
+      "learning_rate": 5.346869712351946e-06,
+      "loss": 2.8448,
+      "step": 22000
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 2.9428470134735107,
+      "eval_runtime": 6.2219,
+      "eval_samples_per_second": 41.145,
+      "eval_steps_per_second": 5.143,
+      "step": 22458
+    },
+    {
+      "epoch": 19.04,
+      "learning_rate": 5.241116751269036e-06,
+      "loss": 2.8458,
+      "step": 22500
+    },
+    {
+      "epoch": 19.46,
+      "learning_rate": 5.1353637901861255e-06,
+      "loss": 2.8462,
+      "step": 23000
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 5.0296108291032155e-06,
+      "loss": 2.84,
+      "step": 23500
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 2.940398693084717,
+      "eval_runtime": 6.2496,
+      "eval_samples_per_second": 40.962,
+      "eval_steps_per_second": 5.12,
+      "step": 23640
+    },
+    {
+      "epoch": 20.3,
+      "learning_rate": 4.923857868020305e-06,
+      "loss": 2.8349,
+      "step": 24000
+    },
+    {
+      "epoch": 20.73,
+      "learning_rate": 4.818104906937395e-06,
+      "loss": 2.8285,
+      "step": 24500
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 2.938441276550293,
+      "eval_runtime": 6.1601,
+      "eval_samples_per_second": 41.558,
+      "eval_steps_per_second": 5.195,
+      "step": 24822
+    },
+    {
+      "epoch": 21.15,
+      "learning_rate": 4.712351945854484e-06,
+      "loss": 2.8345,
+      "step": 25000
+    },
+    {
+      "epoch": 21.57,
+      "learning_rate": 4.606598984771574e-06,
+      "loss": 2.8302,
+      "step": 25500
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 4.500846023688664e-06,
+      "loss": 2.8266,
+      "step": 26000
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 2.9362807273864746,
+      "eval_runtime": 6.0955,
+      "eval_samples_per_second": 41.998,
+      "eval_steps_per_second": 5.25,
+      "step": 26004
+    },
+    {
+      "epoch": 22.42,
+      "learning_rate": 4.395093062605753e-06,
+      "loss": 2.819,
+      "step": 26500
+    },
+    {
+      "epoch": 22.84,
+      "learning_rate": 4.289340101522843e-06,
+      "loss": 2.8232,
+      "step": 27000
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 2.934544324874878,
+      "eval_runtime": 6.1597,
+      "eval_samples_per_second": 41.561,
+      "eval_steps_per_second": 5.195,
+      "step": 27186
+    },
+    {
+      "epoch": 23.27,
+      "learning_rate": 4.183587140439932e-06,
+      "loss": 2.8213,
+      "step": 27500
+    },
+    {
+      "epoch": 23.69,
+      "learning_rate": 4.0778341793570224e-06,
+      "loss": 2.8136,
+      "step": 28000
     }
   ],
   "logging_steps": 500,
   "max_steps": 47280,
   "num_train_epochs": 40,
   "save_steps": 9456,
+  "total_flos": 4.4459884412928e+16,
   "trial_name": null,
   "trial_params": null
 }