Upload 9 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +153 -30
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b8ba47c1a14520b9fcd038ff6a20628b01fa4771cb5fb74f72e5ab51d8b1b7
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fe13c82def9230cab968b5934aa6f0bcc8b78357f3b7621735f527fda41950f
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e0529c7648c521db89e680a68a1d95dc911c30720659cb12acf61bef32a3ad7
 size 1262168365

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f621c5200d8a92eb99ef0a6871e32ebf48d4916ef80959751843d842c21ca87
 size 1262168365

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1eb86c4b86a8f8830681aee2bf3f61b818687a4378530eef63dc1a0ab6dba4f3
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6ebaa40da56eb8238486a736945960ff693e5e0ef75539b04d1fe0ea16420d1
+size 14639

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92bad7b4b1284d748ee0f1976606170e2e31c52706571e4ec2ced54d5e289b2f
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:21459ca4f1dfeb8d3a2ce03a6e448827af584d3ce458be1ce9e9ef9fe422742c
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e926484f096b98b97b945304545e37eda9109685e9310eb8bbddc2a3c7471e8b
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f9a03f06b9dc92ae9cd16600ed9dad87df8b513d9229f31412efddb4e064bf6
 size 627

trainer_state.json CHANGED Viewed

@@ -1,64 +1,187 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.90727969348659,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.92,
-      "learning_rate": 9.999693232713664e-06,
-      "loss": 0.0295,
       "step": 150
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 9.998772930854655e-06,
-      "loss": 0.0272,
       "step": 300
     },
     {
-      "epoch": 2.45,
-      "eval_loss": 0.23613713681697845,
-      "eval_runtime": 411.8281,
-      "eval_samples_per_second": 11.311,
-      "eval_steps_per_second": 1.416,
-      "eval_wer": 0.15606540535913022,
       "step": 400
     },
     {
-      "epoch": 2.76,
-      "learning_rate": 9.997852628995645e-06,
-      "loss": 0.0272,
       "step": 450
     },
     {
-      "epoch": 3.68,
-      "learning_rate": 9.996932327136635e-06,
       "loss": 0.0268,
       "step": 600
     },
     {
-      "epoch": 4.6,
-      "learning_rate": 9.996012025277625e-06,
-      "loss": 0.0261,
       "step": 750
     },
     {
-      "epoch": 4.91,
-      "eval_loss": 0.2315920889377594,
-      "eval_runtime": 257.9698,
-      "eval_samples_per_second": 18.056,
-      "eval_steps_per_second": 2.26,
-      "eval_wer": 0.15478126872699255,
       "step": 800
     }
   ],
-  "max_steps": 1630000,
   "num_train_epochs": 10000,
-  "total_flos": 1.8155123522141764e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.96969696969697,
+  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.91,
+      "learning_rate": 9.999696951330385e-06,
+      "loss": 0.0297,
       "step": 150
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 9.998787805321536e-06,
+      "loss": 0.0288,
       "step": 300
     },
     {
+      "epoch": 2.42,
+      "eval_loss": 0.22611959278583527,
+      "eval_runtime": 391.6246,
+      "eval_samples_per_second": 12.034,
+      "eval_steps_per_second": 1.507,
+      "eval_wer": 0.1515768056968464,
       "step": 400
     },
     {
+      "epoch": 2.73,
+      "learning_rate": 9.997878659312687e-06,
+      "loss": 0.03,
       "step": 450
     },
     {
+      "epoch": 3.64,
+      "learning_rate": 9.996969513303838e-06,
       "loss": 0.0268,
       "step": 600
     },
     {
+      "epoch": 4.55,
+      "learning_rate": 9.996060367294988e-06,
+      "loss": 0.0288,
       "step": 750
     },
     {
+      "epoch": 4.85,
+      "eval_loss": 0.22758068144321442,
+      "eval_runtime": 253.9815,
+      "eval_samples_per_second": 18.556,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.1512800949474398,
       "step": 800
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 9.99515122128614e-06,
+      "loss": 0.0271,
+      "step": 900
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 9.99424207527729e-06,
+      "loss": 0.0254,
+      "step": 1050
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 9.993332929268441e-06,
+      "loss": 0.0279,
+      "step": 1200
+    },
+    {
+      "epoch": 7.27,
+      "eval_loss": 0.22872433066368103,
+      "eval_runtime": 254.213,
+      "eval_samples_per_second": 18.54,
+      "eval_steps_per_second": 2.321,
+      "eval_wer": 0.15200067819599863,
+      "step": 1200
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 9.992423783259593e-06,
+      "loss": 0.0275,
+      "step": 1350
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 9.991514637250743e-06,
+      "loss": 0.0264,
+      "step": 1500
+    },
+    {
+      "epoch": 9.7,
+      "eval_loss": 0.2296951413154602,
+      "eval_runtime": 261.105,
+      "eval_samples_per_second": 18.05,
+      "eval_steps_per_second": 2.26,
+      "eval_wer": 0.15102577144794846,
+      "step": 1600
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 9.990605491241893e-06,
+      "loss": 0.0264,
+      "step": 1650
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 9.989696345233046e-06,
+      "loss": 0.0266,
+      "step": 1800
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 9.988787199224195e-06,
+      "loss": 0.0261,
+      "step": 1950
+    },
+    {
+      "epoch": 12.12,
+      "eval_loss": 0.23657573759555817,
+      "eval_runtime": 260.075,
+      "eval_samples_per_second": 18.122,
+      "eval_steps_per_second": 2.269,
+      "eval_wer": 0.1510681586978637,
+      "step": 2000
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 9.987878053215348e-06,
+      "loss": 0.0261,
+      "step": 2100
+    },
+    {
+      "epoch": 13.64,
+      "learning_rate": 9.986968907206498e-06,
+      "loss": 0.0255,
+      "step": 2250
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 9.98605976119765e-06,
+      "loss": 0.0268,
+      "step": 2400
+    },
+    {
+      "epoch": 14.55,
+      "eval_loss": 0.2373363971710205,
+      "eval_runtime": 262.4635,
+      "eval_samples_per_second": 17.957,
+      "eval_steps_per_second": 2.248,
+      "eval_wer": 0.15081383519837233,
+      "step": 2400
+    },
+    {
+      "epoch": 15.45,
+      "learning_rate": 9.9851506151888e-06,
+      "loss": 0.0259,
+      "step": 2550
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 9.984247530153343e-06,
+      "loss": 0.0253,
+      "step": 2700
+    },
+    {
+      "epoch": 16.97,
+      "eval_loss": 0.2379976361989975,
+      "eval_runtime": 270.8378,
+      "eval_samples_per_second": 17.402,
+      "eval_steps_per_second": 2.178,
+      "eval_wer": 0.15098338419803323,
+      "step": 2800
     }
   ],
+  "max_steps": 1650000,
   "num_train_epochs": 10000,
+  "total_flos": 6.3104115166245315e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94603c07847669ce63931a32b056beea3d6cc76af1c8d5dd099819ea13702bd
 size 3323

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca2239b04ab2d8f9a4cd4cd382fd3ed21a0d89184c4dfe5d7b09576582207cb6
 size 3323