Upload 11 files

Browse files

Files changed (7) hide show

config.json +1 -1
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +252 -3

config.json CHANGED Viewed

@@ -43,7 +43,7 @@
   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
-  "torch_dtype": "float16",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14da2025731d949006200c34abfb6aa1be4cc2350ecc27dc6af559603a86225d
 size 4993448880

 version https://git-lfs.github.com/spec/v1
+oid sha256:156e0fd71ba8d6d1a308460a813997db7d653c1f820bd2d5995abd49692f14a1
 size 4993448880

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48b38b2d250388274dbab6a134b7ff4184cb3525599666efa7cdefed5c99d82c
 size 1180663192

 version https://git-lfs.github.com/spec/v1
+oid sha256:c05a1c27b9a9a440db979127057f5f66ec41e211bf68bb2ea3a227c4403c8e60
 size 1180663192

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8b7a6a42c8f342e4252296a6744e5aeb820e8d8de08a16c9dd10adc396c1293
 size 12333660476

 version https://git-lfs.github.com/spec/v1
+oid sha256:4da10ec2e0bf47d4b44db41bb1bfc93e007a4873e0e2ff5dbc5e667cb0168b4f
 size 12333660476

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94dabcf3aa6388cb7358095beeacf8c08e10d0c57c65e895222ff8e1688faa47
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:f584fc46b466d88dd39394bd540717b3bc1053ecc01185f34166047c3442833a
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:734304bd0e6dc36b41c4ccbd3af99b577906c8419c323945dce4562d0d94fb39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd2b4288adefddaec779eef5814fc8113ed6f29d36bcf1119544624d9b84c141
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25806451612903225,
   "eval_steps": 1000,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -256,6 +256,255 @@
       "eval_steps_per_second": 0.006,
       "eval_wer": 0.1124272786037492,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -263,7 +512,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 2.717998645248e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5161290322580645,
   "eval_steps": 1000,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.006,
       "eval_wer": 0.1124272786037492,
       "step": 1000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 5.114999999999999e-07,
+      "loss": 0.1301,
+      "step": 1025
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 5.24e-07,
+      "loss": 0.2193,
+      "step": 1050
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 5.365e-07,
+      "loss": 0.1552,
+      "step": 1075
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 5.490000000000001e-07,
+      "loss": 0.1865,
+      "step": 1100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 5.614999999999999e-07,
+      "loss": 0.1618,
+      "step": 1125
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 5.739999999999999e-07,
+      "loss": 0.2259,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 5.865e-07,
+      "loss": 0.1418,
+      "step": 1175
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 5.989999999999999e-07,
+      "loss": 0.1916,
+      "step": 1200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 6.115e-07,
+      "loss": 0.1295,
+      "step": 1225
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 6.24e-07,
+      "loss": 0.2112,
+      "step": 1250
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 6.365e-07,
+      "loss": 0.1231,
+      "step": 1275
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 6.49e-07,
+      "loss": 0.1914,
+      "step": 1300
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 6.614999999999999e-07,
+      "loss": 0.1485,
+      "step": 1325
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 6.74e-07,
+      "loss": 0.1958,
+      "step": 1350
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 6.865e-07,
+      "loss": 0.1452,
+      "step": 1375
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.989999999999999e-07,
+      "loss": 0.1624,
+      "step": 1400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 7.115e-07,
+      "loss": 0.1518,
+      "step": 1425
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 7.24e-07,
+      "loss": 0.1935,
+      "step": 1450
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 7.365e-07,
+      "loss": 0.1138,
+      "step": 1475
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 7.489999999999999e-07,
+      "loss": 0.16,
+      "step": 1500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 7.614999999999999e-07,
+      "loss": 0.1279,
+      "step": 1525
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 7.74e-07,
+      "loss": 0.1862,
+      "step": 1550
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 7.864999999999999e-07,
+      "loss": 0.1537,
+      "step": 1575
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 7.99e-07,
+      "loss": 0.1915,
+      "step": 1600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 8.115e-07,
+      "loss": 0.1303,
+      "step": 1625
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 8.24e-07,
+      "loss": 0.1967,
+      "step": 1650
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 8.365e-07,
+      "loss": 0.1418,
+      "step": 1675
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 8.489999999999999e-07,
+      "loss": 0.194,
+      "step": 1700
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 8.615e-07,
+      "loss": 0.1377,
+      "step": 1725
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 8.739999999999999e-07,
+      "loss": 0.1534,
+      "step": 1750
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.864999999999999e-07,
+      "loss": 0.1416,
+      "step": 1775
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.99e-07,
+      "loss": 0.1869,
+      "step": 1800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.115e-07,
+      "loss": 0.1507,
+      "step": 1825
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 9.24e-07,
+      "loss": 0.1571,
+      "step": 1850
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 9.365e-07,
+      "loss": 0.1348,
+      "step": 1875
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.489999999999999e-07,
+      "loss": 0.1981,
+      "step": 1900
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.615e-07,
+      "loss": 0.1324,
+      "step": 1925
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.74e-07,
+      "loss": 0.1712,
+      "step": 1950
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 9.865e-07,
+      "loss": 0.1169,
+      "step": 1975
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.989999999999999e-07,
+      "loss": 0.1654,
+      "step": 2000
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.1500108540058136,
+      "eval_runtime": 188234.7285,
+      "eval_samples_per_second": 0.05,
+      "eval_steps_per_second": 0.006,
+      "eval_wer": 0.10521978021978022,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 5.435997290496e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null