Training in progress, epoch 1

Browse files

Files changed (9) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +12 -250
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:616a0a6be5a29eebf810851ed67dd6a3c318e21864fa31e058c64c7fad505b40
-size 180587

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4949bb00d7ca15f057d50fae774c2c6f9a465230ae278e77c6cdd0934a3e9fa
+size 721668101

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6ec674c1c6f40d13cb9f4f66472ae211329f893fb31cd7ff1f4fb6ad1cb74ed
 size 377649505

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b6585ff5ff973a18347ce73aae8cdfcc6753d94a283426d2b16d5f054cec33
 size 377649505

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c3d2e69352425000ce4e1001ef6ade8fbfa4e9c02b5a24d5a3554e05684c3e6
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f8be3d1844aecea40ef8c131bd79a4e8e08348c2548590172ae269a182679a2
+size 14639

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2ac061210834cca32f8f940f47b10e93dc80b0dbc17fb92570b8d7f836f0dc8
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:4584e9de52bfcb5211b8ab7e5657a1cdbdfabfbb603d0f603dec927f84c5177a
 size 557

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7de22907ced1cb54d5cd795c776d98eec139cf091efb3e0653ea4f465608104
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ac3bb5feef285af2ff3f8db67718e42884e76005d20a7c599d3dd027e85afd1
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,271 +1,33 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.0,
-  "global_step": 20085,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 9.830197578743254e-05,
-      "loss": 68.0265,
       "step": 1339
     },
     {
       "epoch": 1.0,
-      "eval_cer": 1.0,
-      "eval_loss": 3.677399158477783,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.4041,
-      "eval_samples_per_second": 24.988,
-      "eval_steps_per_second": 3.213,
       "step": 1339
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 9.128452387191448e-05,
-      "loss": 3.4235,
-      "step": 2678
-    },
-    {
-      "epoch": 2.0,
-      "eval_cer": 1.0,
-      "eval_loss": 3.696988821029663,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.3938,
-      "eval_samples_per_second": 25.018,
-      "eval_steps_per_second": 3.217,
-      "step": 2678
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 8.426707195639642e-05,
-      "loss": 3.3447,
-      "step": 4017
-    },
-    {
-      "epoch": 3.0,
-      "eval_cer": 1.0,
-      "eval_loss": 3.692437171936035,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.4383,
-      "eval_samples_per_second": 24.886,
-      "eval_steps_per_second": 3.2,
-      "step": 4017
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 7.724962004087837e-05,
-      "loss": 3.3042,
-      "step": 5356
-    },
-    {
-      "epoch": 4.0,
-      "eval_cer": 1.0,
-      "eval_loss": 3.6443004608154297,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.3107,
-      "eval_samples_per_second": 25.269,
-      "eval_steps_per_second": 3.249,
-      "step": 5356
-    },
-    {
-      "epoch": 5.0,
-      "learning_rate": 7.023216812536031e-05,
-      "loss": 3.2724,
-      "step": 6695
-    },
-    {
-      "epoch": 5.0,
-      "eval_cer": 1.0,
-      "eval_loss": 3.557971954345703,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.7787,
-      "eval_samples_per_second": 23.922,
-      "eval_steps_per_second": 3.076,
-      "step": 6695
-    },
-    {
-      "epoch": 6.0,
-      "learning_rate": 6.321471620984226e-05,
-      "loss": 3.2404,
-      "step": 8034
-    },
-    {
-      "epoch": 6.0,
-      "eval_cer": 0.9965367965367965,
-      "eval_loss": 3.4822113513946533,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.2906,
-      "eval_samples_per_second": 25.33,
-      "eval_steps_per_second": 3.257,
-      "step": 8034
-    },
-    {
-      "epoch": 7.0,
-      "learning_rate": 5.61972642943242e-05,
-      "loss": 3.2063,
-      "step": 9373
-    },
-    {
-      "epoch": 7.0,
-      "eval_cer": 0.9956709956709957,
-      "eval_loss": 3.402449607849121,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.3982,
-      "eval_samples_per_second": 25.005,
-      "eval_steps_per_second": 3.215,
-      "step": 9373
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 4.9179812378806144e-05,
-      "loss": 3.162,
-      "step": 10712
-    },
-    {
-      "epoch": 8.0,
-      "eval_cer": 0.9930735930735931,
-      "eval_loss": 3.3249175548553467,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 8.6025,
-      "eval_samples_per_second": 24.411,
-      "eval_steps_per_second": 3.139,
-      "step": 10712
-    },
-    {
-      "epoch": 9.0,
-      "learning_rate": 4.216236046328809e-05,
-      "loss": 3.106,
-      "step": 12051
-    },
-    {
-      "epoch": 9.0,
-      "eval_cer": 0.9904761904761905,
-      "eval_loss": 3.253854990005493,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.9844,
-      "eval_samples_per_second": 26.301,
-      "eval_steps_per_second": 3.382,
-      "step": 12051
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 3.514490854777003e-05,
-      "loss": 3.0482,
-      "step": 13390
-    },
-    {
-      "epoch": 10.0,
-      "eval_cer": 0.9896103896103896,
-      "eval_loss": 3.210585832595825,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.9205,
-      "eval_samples_per_second": 26.514,
-      "eval_steps_per_second": 3.409,
-      "step": 13390
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 2.812745663225198e-05,
-      "loss": 2.9975,
-      "step": 14729
-    },
-    {
-      "epoch": 11.0,
-      "eval_cer": 0.9887445887445887,
-      "eval_loss": 3.1696033477783203,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.9544,
-      "eval_samples_per_second": 26.4,
-      "eval_steps_per_second": 3.394,
-      "step": 14729
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 2.1110004716733924e-05,
-      "loss": 2.9573,
-      "step": 16068
-    },
-    {
-      "epoch": 12.0,
-      "eval_cer": 0.9887445887445887,
-      "eval_loss": 3.1518020629882812,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.8673,
-      "eval_samples_per_second": 26.693,
-      "eval_steps_per_second": 3.432,
-      "step": 16068
-    },
-    {
-      "epoch": 13.0,
-      "learning_rate": 1.409255280121587e-05,
-      "loss": 2.9287,
-      "step": 17407
-    },
-    {
-      "epoch": 13.0,
-      "eval_cer": 0.9904761904761905,
-      "eval_loss": 3.1377389430999756,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.8781,
-      "eval_samples_per_second": 26.656,
-      "eval_steps_per_second": 3.427,
-      "step": 17407
-    },
-    {
-      "epoch": 14.0,
-      "learning_rate": 7.080341701168702e-06,
-      "loss": 2.9083,
-      "step": 18746
-    },
-    {
-      "epoch": 14.0,
-      "eval_cer": 0.9904761904761905,
-      "eval_loss": 3.140259265899658,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.9649,
-      "eval_samples_per_second": 26.366,
-      "eval_steps_per_second": 3.39,
-      "step": 18746
-    },
-    {
-      "epoch": 15.0,
-      "learning_rate": 6.288978565064725e-08,
-      "loss": 2.8993,
-      "step": 20085
-    },
-    {
-      "epoch": 15.0,
-      "eval_cer": 0.9904761904761905,
-      "eval_loss": 3.1403210163116455,
-      "eval_new_wer": 1.0,
-      "eval_old_wer": 1.0,
-      "eval_runtime": 7.9302,
-      "eval_samples_per_second": 26.481,
-      "eval_steps_per_second": 3.405,
-      "step": 20085
     }
   ],
   "max_steps": 20085,
   "num_train_epochs": 15,
-  "total_flos": 1.5746037785270553e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "global_step": 1339,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 9.828625334101986e-05,
+      "loss": 11.016,
       "step": 1339
     },
     {
       "epoch": 1.0,
+      "eval_cer": 0.24761904761904763,
+      "eval_loss": 1.0964484214782715,
+      "eval_new_wer": 0.12380952380952381,
+      "eval_old_wer": 0.7619047619047619,
+      "eval_runtime": 7.9497,
+      "eval_samples_per_second": 26.416,
+      "eval_steps_per_second": 3.396,
       "step": 1339
     }
   ],
   "max_steps": 20085,
   "num_train_epochs": 15,
+  "total_flos": 1.0183925695349146e+18,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b335db8e6f2872d356dfb28f9345f3b4eb5c195a983190a4dbe94d702a39dfe5
 size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:e59e976e9cd6f81f13cc292aef25698fbfbf3bab290ae8030b707d8c8e21db2f
 size 3387

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6ec674c1c6f40d13cb9f4f66472ae211329f893fb31cd7ff1f4fb6ad1cb74ed
 size 377649505

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b6585ff5ff973a18347ce73aae8cdfcc6753d94a283426d2b16d5f054cec33
 size 377649505

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b335db8e6f2872d356dfb28f9345f3b4eb5c195a983190a4dbe94d702a39dfe5
 size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:e59e976e9cd6f81f13cc292aef25698fbfbf3bab290ae8030b707d8c8e21db2f
 size 3387