Training in progress, step 200

Browse files

Files changed (9) hide show

checkpoint-200/optimizer.pt +1 -1
checkpoint-200/pytorch_model.bin +1 -1
checkpoint-200/rng_state.pth +2 -2
checkpoint-200/scaler.pt +1 -1
checkpoint-200/scheduler.pt +1 -1
checkpoint-200/trainer_state.json +80 -80
checkpoint-200/training_args.bin +2 -2
pytorch_model.bin +1 -1
runs/Dec20_20-28-50_129-146-32-172/events.out.tfevents.1671568135.129-146-32-172.151517.0 +2 -2

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:138a6ddac36f3135f9ce799bc0aa0c6ee6e8510cecdd696448298fce2403ddb0
 size 1934160645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0f4f0b48abf12f4a6e8914530132e9861cac4dcdd8f87a67678ef78289aa1a3
 size 1934160645

checkpoint-200/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d091c8707cb0763632c8b311f2d581a51bd141ec488b3c948362989bfac0bdda
 size 967102601

 version https://git-lfs.github.com/spec/v1
+oid sha256:187c1d7674c7d7e27b2030f3c8b472ab80d8863925d52fe41abcfd44c6675a3a
 size 967102601

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b22328e86e2f01e3b161f44df6b51159ec6b4a940fe644d7490ef269503f585
-size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e013f097aa68e60ca0b4bcb926e5e1bd90fa0a3de8c1cd3ec746668dceec1e
+size 14575

checkpoint-200/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02ee58f3dc2c47aec3ec5dbf8581a593f6a668e46904253580e157d97de3e149
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b027835501bda1b5e4d5c8ad8afa02b3a51be5e6b8838b0f237818a9f7de87e
 size 557

checkpoint-200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e82e796ecfbb8fa98125f306d5ff56f81ebaf5a863f8fefc032c86533b2fdf8f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:3323acea994593447b66bf97429c79bdd645fca1d4f541f2568e5326da64ecc7
 size 627

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,156 +1,156 @@
 {
-  "best_metric": 139.37651331719127,
-  "best_model_checkpoint": "./checkpoint-100",
-  "epoch": 2.377581120943953,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.12,
-      "learning_rate": 3e-06,
-      "loss": 4.1495,
       "step": 10
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 6.333333333333333e-06,
-      "loss": 2.9287,
       "step": 20
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 9.666666666666667e-06,
-      "loss": 2.0462,
       "step": 30
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 9.666666666666667e-06,
-      "loss": 1.6138,
       "step": 40
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 9.296296296296296e-06,
-      "loss": 1.3862,
       "step": 50
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 8.925925925925927e-06,
-      "loss": 1.2604,
       "step": 60
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 8.555555555555556e-06,
-      "loss": 1.1436,
       "step": 70
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 8.185185185185187e-06,
-      "loss": 1.168,
       "step": 80
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 7.814814814814816e-06,
-      "loss": 1.1041,
       "step": 90
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 7.444444444444445e-06,
-      "loss": 0.9683,
       "step": 100
     },
     {
-      "epoch": 1.19,
-      "eval_cer": 131.61659035460045,
-      "eval_loss": 0.8811978697776794,
-      "eval_runtime": 593.3196,
-      "eval_samples_per_second": 0.863,
-      "eval_steps_per_second": 0.431,
-      "eval_wer": 139.37651331719127,
       "step": 100
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 7.074074074074074e-06,
-      "loss": 0.909,
       "step": 110
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 6.703703703703704e-06,
-      "loss": 0.9213,
       "step": 120
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 6.333333333333333e-06,
-      "loss": 0.9092,
       "step": 130
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 5.962962962962963e-06,
-      "loss": 0.8481,
       "step": 140
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 5.5925925925925926e-06,
-      "loss": 0.8471,
       "step": 150
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 5.2222222222222226e-06,
-      "loss": 0.8504,
       "step": 160
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 4.851851851851852e-06,
-      "loss": 0.8264,
       "step": 170
     },
     {
-      "epoch": 2.14,
-      "learning_rate": 4.481481481481482e-06,
-      "loss": 0.7236,
       "step": 180
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 4.111111111111111e-06,
-      "loss": 0.6898,
       "step": 190
     },
     {
-      "epoch": 2.38,
-      "learning_rate": 3.740740740740741e-06,
-      "loss": 0.6848,
       "step": 200
     },
     {
-      "epoch": 2.38,
-      "eval_cer": 151.33685371478225,
-      "eval_loss": 0.7542899250984192,
-      "eval_runtime": 551.6472,
-      "eval_samples_per_second": 0.928,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 145.9972760290557,
       "step": 200
     }
   ],
-  "max_steps": 300,
-  "num_train_epochs": 4,
-  "total_flos": 1.86022149046272e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 52.66343825665859,
+  "best_model_checkpoint": "./checkpoint-200",
+  "epoch": 4.752941176470588,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.24,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 4.3134,
       "step": 10
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 6e-06,
+      "loss": 2.9329,
       "step": 20
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 2.0584,
       "step": 30
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 9.829787234042554e-06,
+      "loss": 1.566,
       "step": 40
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 9.617021276595745e-06,
+      "loss": 1.3777,
       "step": 50
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 9.404255319148937e-06,
+      "loss": 1.1469,
       "step": 60
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 9.191489361702128e-06,
+      "loss": 1.0638,
       "step": 70
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 8.97872340425532e-06,
+      "loss": 0.9974,
       "step": 80
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 8.765957446808512e-06,
+      "loss": 0.9615,
       "step": 90
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 8.553191489361703e-06,
+      "loss": 0.8262,
       "step": 100
     },
     {
+      "epoch": 2.38,
+      "eval_cer": 149.33157314260887,
+      "eval_loss": 0.8188337683677673,
+      "eval_runtime": 459.9395,
+      "eval_samples_per_second": 1.113,
+      "eval_steps_per_second": 0.139,
+      "eval_wer": 146.85230024213075,
       "step": 100
     },
     {
+      "epoch": 2.61,
+      "learning_rate": 8.340425531914894e-06,
+      "loss": 0.7986,
       "step": 110
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 8.127659574468085e-06,
+      "loss": 0.7707,
       "step": 120
     },
     {
+      "epoch": 3.09,
+      "learning_rate": 7.914893617021278e-06,
+      "loss": 0.7623,
       "step": 130
     },
     {
+      "epoch": 3.33,
+      "learning_rate": 7.702127659574469e-06,
+      "loss": 0.6451,
       "step": 140
     },
     {
+      "epoch": 3.56,
+      "learning_rate": 7.48936170212766e-06,
+      "loss": 0.6205,
       "step": 150
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 7.2765957446808524e-06,
+      "loss": 0.6097,
       "step": 160
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 7.0638297872340434e-06,
+      "loss": 0.6217,
       "step": 170
     },
     {
+      "epoch": 4.28,
+      "learning_rate": 6.8510638297872344e-06,
+      "loss": 0.4584,
       "step": 180
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 6.6382978723404254e-06,
+      "loss": 0.4929,
       "step": 190
     },
     {
+      "epoch": 4.75,
+      "learning_rate": 6.425531914893618e-06,
+      "loss": 0.4843,
       "step": 200
     },
     {
+      "epoch": 4.75,
+      "eval_cer": 22.099862972494236,
+      "eval_loss": 0.6699215173721313,
+      "eval_runtime": 1062.3991,
+      "eval_samples_per_second": 0.482,
+      "eval_steps_per_second": 0.06,
+      "eval_wer": 52.66343825665859,
       "step": 200
     }
   ],
+  "max_steps": 500,
+  "num_train_epochs": 12,
+  "total_flos": 3.72044298092544e+18,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcf3a24325bb49c25270193816ed6035a253ca3ae300c31ffcec0afeb4229266
-size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:5518cd575512706c66c89476ae9c64328c1bcac98ec06151bdc9afebf6c503fb
+size 3643

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:946ddc68bfd507e62f2331943cb15a787bbdda6a4389be1fcfd25cff7522f970
 size 967102601

 version https://git-lfs.github.com/spec/v1
+oid sha256:187c1d7674c7d7e27b2030f3c8b472ab80d8863925d52fe41abcfd44c6675a3a
 size 967102601

runs/Dec20_20-28-50_129-146-32-172/events.out.tfevents.1671568135.129-146-32-172.151517.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:782028836de28c83d061b5870d65ffd6d0cfb2cf7e8386ba8180ee926b2c5967
-size 6185

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bb9fad7bb496cbe780fc5b737f82d64309e3290a5409c43485e045f47471fed
+size 8114