Training in progress, step 5000

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +252 -3
pytorch_model.bin +1 -1
runs/Jan28_23-42-14_gpu07.cyverse.org/events.out.tfevents.1674974582.gpu07.cyverse.org.94170.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cabcd18d745237ccff0ec1f82242c3cf6523964b69f61c6d491e0dcca8c96bd7
 size 12347192855

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ebdc8f8502de59db12cbd6f74f44cf507331eefc4bc7fc93ae569b26938c332
 size 12347192855

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6744d734b49bb04f2a83a82c65c40351e020bce2add378d9abffb9d286d369c7
 size 6173655480

 version https://git-lfs.github.com/spec/v1
+oid sha256:2075a86257ec508484067431dfc2b82755c9993736866d73c28a72f6c350d8ee
 size 6173655480

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9719089c9777993e0b77b3d1ee31f8b1880df71d36ecfa484ab6990dbdfc6a8
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:d17b958d3c797ddf47f3720fe16e38f3bfa12d5f3155d1ad3776ff9e233d3c79
 size 14575

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f950b784a3ad9098996d53ce7727828e81f8df26d9869581909648eda25b95a
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:f04555011d88c332ec4c78dcfb8c2b871c53c6597c7acc140e81255dc49c7e66
 size 557

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:285522fdbcf7692ca0fd2c300f90f1d4ac21d59ac64354db24bfa3599d4d3173
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3cec5ec84fec7cef7ee38ef6273b1f5107ef84969b9aa4786aa92ac2e1831ef
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": 0.7431560204762965,
   "best_model_checkpoint": "/storage/elsayedissa/whisper-large-v2-japanese-24h/checkpoint-3000",
-  "epoch": 30.53435114503817,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1002,11 +1002,260 @@
       "eval_steps_per_second": 0.164,
       "eval_wer": 0.7442688626752726,
       "step": 4000
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 39,
-  "total_flos": 4.2176792328192e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.7431560204762965,
   "best_model_checkpoint": "/storage/elsayedissa/whisper-large-v2-japanese-24h/checkpoint-3000",
+  "epoch": 38.16793893129771,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.164,
       "eval_wer": 0.7442688626752726,
       "step": 4000
+    },
+    {
+      "epoch": 30.73,
+      "learning_rate": 2.1755555555555556e-06,
+      "loss": 0.0002,
+      "step": 4025
+    },
+    {
+      "epoch": 30.92,
+      "learning_rate": 2.12e-06,
+      "loss": 0.0002,
+      "step": 4050
+    },
+    {
+      "epoch": 31.11,
+      "learning_rate": 2.064444444444445e-06,
+      "loss": 0.0002,
+      "step": 4075
+    },
+    {
+      "epoch": 31.3,
+      "learning_rate": 2.008888888888889e-06,
+      "loss": 0.0002,
+      "step": 4100
+    },
+    {
+      "epoch": 31.49,
+      "learning_rate": 1.9533333333333334e-06,
+      "loss": 0.0002,
+      "step": 4125
+    },
+    {
+      "epoch": 31.68,
+      "learning_rate": 1.8977777777777779e-06,
+      "loss": 0.0002,
+      "step": 4150
+    },
+    {
+      "epoch": 31.87,
+      "learning_rate": 1.8422222222222225e-06,
+      "loss": 0.0002,
+      "step": 4175
+    },
+    {
+      "epoch": 32.06,
+      "learning_rate": 1.7866666666666668e-06,
+      "loss": 0.0002,
+      "step": 4200
+    },
+    {
+      "epoch": 32.25,
+      "learning_rate": 1.7311111111111112e-06,
+      "loss": 0.0002,
+      "step": 4225
+    },
+    {
+      "epoch": 32.44,
+      "learning_rate": 1.675555555555556e-06,
+      "loss": 0.0002,
+      "step": 4250
+    },
+    {
+      "epoch": 32.63,
+      "learning_rate": 1.6200000000000002e-06,
+      "loss": 0.0002,
+      "step": 4275
+    },
+    {
+      "epoch": 32.82,
+      "learning_rate": 1.5644444444444446e-06,
+      "loss": 0.0002,
+      "step": 4300
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 1.5088888888888889e-06,
+      "loss": 0.0001,
+      "step": 4325
+    },
+    {
+      "epoch": 33.21,
+      "learning_rate": 1.4533333333333335e-06,
+      "loss": 0.0002,
+      "step": 4350
+    },
+    {
+      "epoch": 33.4,
+      "learning_rate": 1.397777777777778e-06,
+      "loss": 0.0002,
+      "step": 4375
+    },
+    {
+      "epoch": 33.59,
+      "learning_rate": 1.3422222222222222e-06,
+      "loss": 0.0002,
+      "step": 4400
+    },
+    {
+      "epoch": 33.78,
+      "learning_rate": 1.286666666666667e-06,
+      "loss": 0.0002,
+      "step": 4425
+    },
+    {
+      "epoch": 33.97,
+      "learning_rate": 1.2311111111111112e-06,
+      "loss": 0.0002,
+      "step": 4450
+    },
+    {
+      "epoch": 34.16,
+      "learning_rate": 1.1755555555555556e-06,
+      "loss": 0.0002,
+      "step": 4475
+    },
+    {
+      "epoch": 34.35,
+      "learning_rate": 1.12e-06,
+      "loss": 0.0002,
+      "step": 4500
+    },
+    {
+      "epoch": 34.54,
+      "learning_rate": 1.0644444444444445e-06,
+      "loss": 0.0001,
+      "step": 4525
+    },
+    {
+      "epoch": 34.73,
+      "learning_rate": 1.008888888888889e-06,
+      "loss": 0.0001,
+      "step": 4550
+    },
+    {
+      "epoch": 34.92,
+      "learning_rate": 9.533333333333335e-07,
+      "loss": 0.0002,
+      "step": 4575
+    },
+    {
+      "epoch": 35.11,
+      "learning_rate": 8.977777777777778e-07,
+      "loss": 0.0002,
+      "step": 4600
+    },
+    {
+      "epoch": 35.31,
+      "learning_rate": 8.422222222222224e-07,
+      "loss": 0.0001,
+      "step": 4625
+    },
+    {
+      "epoch": 35.5,
+      "learning_rate": 7.866666666666667e-07,
+      "loss": 0.0001,
+      "step": 4650
+    },
+    {
+      "epoch": 35.69,
+      "learning_rate": 7.311111111111112e-07,
+      "loss": 0.0002,
+      "step": 4675
+    },
+    {
+      "epoch": 35.88,
+      "learning_rate": 6.755555555555555e-07,
+      "loss": 0.0002,
+      "step": 4700
+    },
+    {
+      "epoch": 36.07,
+      "learning_rate": 6.200000000000001e-07,
+      "loss": 0.0001,
+      "step": 4725
+    },
+    {
+      "epoch": 36.26,
+      "learning_rate": 5.644444444444445e-07,
+      "loss": 0.0001,
+      "step": 4750
+    },
+    {
+      "epoch": 36.45,
+      "learning_rate": 5.088888888888889e-07,
+      "loss": 0.0002,
+      "step": 4775
+    },
+    {
+      "epoch": 36.64,
+      "learning_rate": 4.533333333333334e-07,
+      "loss": 0.0001,
+      "step": 4800
+    },
+    {
+      "epoch": 36.83,
+      "learning_rate": 3.9777777777777783e-07,
+      "loss": 0.0001,
+      "step": 4825
+    },
+    {
+      "epoch": 37.02,
+      "learning_rate": 3.422222222222223e-07,
+      "loss": 0.0001,
+      "step": 4850
+    },
+    {
+      "epoch": 37.21,
+      "learning_rate": 2.866666666666667e-07,
+      "loss": 0.0001,
+      "step": 4875
+    },
+    {
+      "epoch": 37.4,
+      "learning_rate": 2.3111111111111112e-07,
+      "loss": 0.0002,
+      "step": 4900
+    },
+    {
+      "epoch": 37.6,
+      "learning_rate": 1.7555555555555558e-07,
+      "loss": 0.0001,
+      "step": 4925
+    },
+    {
+      "epoch": 37.79,
+      "learning_rate": 1.2000000000000002e-07,
+      "loss": 0.0001,
+      "step": 4950
+    },
+    {
+      "epoch": 37.98,
+      "learning_rate": 6.444444444444445e-08,
+      "loss": 0.0001,
+      "step": 4975
+    },
+    {
+      "epoch": 38.17,
+      "learning_rate": 8.88888888888889e-09,
+      "loss": 0.0002,
+      "step": 5000
+    },
+    {
+      "epoch": 38.17,
+      "eval_loss": 0.4200145900249481,
+      "eval_runtime": 1710.8673,
+      "eval_samples_per_second": 2.621,
+      "eval_steps_per_second": 0.164,
+      "eval_wer": 0.7449365679946583,
+      "step": 5000
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 39,
+  "total_flos": 5.27162132754432e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6744d734b49bb04f2a83a82c65c40351e020bce2add378d9abffb9d286d369c7
 size 6173655480

 version https://git-lfs.github.com/spec/v1
+oid sha256:2075a86257ec508484067431dfc2b82755c9993736866d73c28a72f6c350d8ee
 size 6173655480

runs/Jan28_23-42-14_gpu07.cyverse.org/events.out.tfevents.1674974582.gpu07.cyverse.org.94170.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e6183fac4cb12f0942d286f36bbc9314f13fcf6e7786a873e26691f74d646f8
-size 30796

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8c97e6b6b1a08d10339672bd5f22c401e8fe6577ecddd03c757d8fa052ac1e4
+size 37394