Training in progress, step 10000

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +348 -3
pytorch_model.bin +1 -1
runs/Apr19_22-38-31_9bb1d09d1b50/events.out.tfevents.1650407940.9bb1d09d1b50.39.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e83cc6e1e437757fcbe6ad5c4c95b8e28741bf8b91e4f0dea84b7de0f1c10c79
 size 2217183175

 version https://git-lfs.github.com/spec/v1
+oid sha256:69df7b41162843d3066d511ff7e454b174a4296f035488ece7a03ebd7da15aef
 size 2217183175

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e17634cbbb2ed9ccef9ebc23443e12f89ed528074d2eaa42eab76de45d9f4fd9
 size 1110986025

 version https://git-lfs.github.com/spec/v1
+oid sha256:77912d0e17b40469aa7bdb635e77b5ed25c78dd7b2e1af6263fb95572303bb76
 size 1110986025

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70bfc92399e2b163a64fcf0120b63f6d59c2e8d8b38d265154202cbc421b1dff
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1138e5e81505c6ff611f6e95829a5854ad3acd60d1e5975aa99a4b42e0f7266
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af56da8a85d705265aaa6e3584e91a17430bdca56bf37e86dc75a88381347c34
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:339fe610f593263fbda15028f0adf454993faebcdfef05cd5d15467b2d37e371
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89c11b0af83d6b6fed454f11aa8e321d662bdd0cdb429ad9305f7f01eb78bffc
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:765a68bdbb7550b6850d344347078b30cb0b00208e2e89de6624323f4ca4cb0a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4784151389710232,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -351,11 +351,356 @@
       "eval_samples_per_second": 15.641,
       "eval_steps_per_second": 3.913,
       "step": 5000
     }
   ],
   "max_steps": 10146,
   "num_train_epochs": 3,
-  "total_flos": 3.621264453794857e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9568302779420463,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.641,
       "eval_steps_per_second": 3.913,
       "step": 5000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.4906367041198502e-05,
+      "loss": 0.4557,
+      "step": 5100
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.441356199487483e-05,
+      "loss": 0.445,
+      "step": 5200
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.3920756948551153e-05,
+      "loss": 0.4523,
+      "step": 5300
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.342795190222748e-05,
+      "loss": 0.3584,
+      "step": 5400
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 2.2935146855903804e-05,
+      "loss": 0.4356,
+      "step": 5500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 2.244234180958013e-05,
+      "loss": 0.3989,
+      "step": 5600
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.1949536763256458e-05,
+      "loss": 0.333,
+      "step": 5700
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.145673171693278e-05,
+      "loss": 0.3701,
+      "step": 5800
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.096392667060911e-05,
+      "loss": 0.4125,
+      "step": 5900
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.0471121624285432e-05,
+      "loss": 0.3393,
+      "step": 6000
+    },
+    {
+      "epoch": 1.77,
+      "eval_cer": 0.12192614849371393,
+      "eval_loss": 0.2698688209056854,
+      "eval_runtime": 95.6778,
+      "eval_samples_per_second": 15.709,
+      "eval_steps_per_second": 3.93,
+      "step": 6000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.997831657796176e-05,
+      "loss": 0.2519,
+      "step": 6100
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.9485511531638083e-05,
+      "loss": 0.2175,
+      "step": 6200
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.899270648531441e-05,
+      "loss": 0.2418,
+      "step": 6300
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.8499901438990734e-05,
+      "loss": 0.2157,
+      "step": 6400
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.800709639266706e-05,
+      "loss": 0.2653,
+      "step": 6500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.7514291346343388e-05,
+      "loss": 0.2321,
+      "step": 6600
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.702148630001971e-05,
+      "loss": 0.1881,
+      "step": 6700
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.652868125369604e-05,
+      "loss": 0.1818,
+      "step": 6800
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.6035876207372362e-05,
+      "loss": 0.1204,
+      "step": 6900
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.554307116104869e-05,
+      "loss": 0.1077,
+      "step": 7000
+    },
+    {
+      "epoch": 2.07,
+      "eval_cer": 0.09330275954771883,
+      "eval_loss": 0.17944632470607758,
+      "eval_runtime": 96.1807,
+      "eval_samples_per_second": 15.627,
+      "eval_steps_per_second": 3.909,
+      "step": 7000
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 1.5050266114725015e-05,
+      "loss": 0.174,
+      "step": 7100
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.455746106840134e-05,
+      "loss": 0.1222,
+      "step": 7200
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.4064656022077665e-05,
+      "loss": 0.0985,
+      "step": 7300
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.357185097575399e-05,
+      "loss": 0.0946,
+      "step": 7400
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.3079045929430316e-05,
+      "loss": 0.0832,
+      "step": 7500
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.2586240883106643e-05,
+      "loss": 0.074,
+      "step": 7600
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.209343583678297e-05,
+      "loss": 0.0768,
+      "step": 7700
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.1600630790459296e-05,
+      "loss": 0.1018,
+      "step": 7800
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.1107825744135621e-05,
+      "loss": 0.0668,
+      "step": 7900
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.0615020697811946e-05,
+      "loss": 0.063,
+      "step": 8000
+    },
+    {
+      "epoch": 2.37,
+      "eval_cer": 0.06167470546374634,
+      "eval_loss": 0.13426831364631653,
+      "eval_runtime": 95.5453,
+      "eval_samples_per_second": 15.731,
+      "eval_steps_per_second": 3.935,
+      "step": 8000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.0122215651488272e-05,
+      "loss": 0.0742,
+      "step": 8100
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 9.629410605164597e-06,
+      "loss": 0.0679,
+      "step": 8200
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 9.136605558840922e-06,
+      "loss": 0.0818,
+      "step": 8300
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 8.643800512517248e-06,
+      "loss": 0.0704,
+      "step": 8400
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 8.150995466193575e-06,
+      "loss": 0.0537,
+      "step": 8500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.6581904198699e-06,
+      "loss": 0.0831,
+      "step": 8600
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.1653853735462255e-06,
+      "loss": 0.0547,
+      "step": 8700
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 6.672580327222551e-06,
+      "loss": 0.0765,
+      "step": 8800
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.179775280898876e-06,
+      "loss": 0.0408,
+      "step": 8900
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.6869702345752024e-06,
+      "loss": 0.0356,
+      "step": 9000
+    },
+    {
+      "epoch": 2.66,
+      "eval_cer": 0.06918636830868981,
+      "eval_loss": 0.0790172666311264,
+      "eval_runtime": 97.3434,
+      "eval_samples_per_second": 15.44,
+      "eval_steps_per_second": 3.863,
+      "step": 9000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.194165188251528e-06,
+      "loss": 0.059,
+      "step": 9100
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.70628819239109e-06,
+      "loss": 0.0775,
+      "step": 9200
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.213483146067416e-06,
+      "loss": 0.058,
+      "step": 9300
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 3.7206780997437416e-06,
+      "loss": 0.0327,
+      "step": 9400
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 3.227873053420067e-06,
+      "loss": 0.0378,
+      "step": 9500
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 2.7350680070963927e-06,
+      "loss": 0.0752,
+      "step": 9600
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.2422629607727185e-06,
+      "loss": 0.0269,
+      "step": 9700
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.749457914449044e-06,
+      "loss": 0.0359,
+      "step": 9800
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 1.2566528681253697e-06,
+      "loss": 0.0345,
+      "step": 9900
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.638478218016952e-07,
+      "loss": 0.0292,
+      "step": 10000
+    },
+    {
+      "epoch": 2.96,
+      "eval_cer": 0.044595556258401205,
+      "eval_loss": 0.06197139248251915,
+      "eval_runtime": 96.6477,
+      "eval_samples_per_second": 15.551,
+      "eval_steps_per_second": 3.89,
+      "step": 10000
     }
   ],
   "max_steps": 10146,
   "num_train_epochs": 3,
+  "total_flos": 7.242528907589714e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e17634cbbb2ed9ccef9ebc23443e12f89ed528074d2eaa42eab76de45d9f4fd9
 size 1110986025

 version https://git-lfs.github.com/spec/v1
+oid sha256:77912d0e17b40469aa7bdb635e77b5ed25c78dd7b2e1af6263fb95572303bb76
 size 1110986025

runs/Apr19_22-38-31_9bb1d09d1b50/events.out.tfevents.1650407940.9bb1d09d1b50.39.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9089acdf93d4be09869ff7c0fd1826236af036368f448e8bb1bc7597c05c4493
-size 90115

 version https://git-lfs.github.com/spec/v1
+oid sha256:efb0e7f076be8579051c89bd5a3dd4cf7dd657db8f2e9ed56c58a2f10987cb26
+size 99555