Upload 11 files

Browse files

Files changed (7) hide show

config.json +1 -1
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +252 -3

config.json CHANGED Viewed

@@ -43,7 +43,7 @@
   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
-  "torch_dtype": "float16",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e0b39e4071338e74731a0effa63b1446b76262677e458e296c53e4a9e2d7e17
 size 4993448880

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dfba4cd57cc0c415a0474adc9b1b320d884ad8357c905ef92c1c708eaffd327
 size 4993448880

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a491fb4ca03fcdcad2b02f474a905c161fe140a898b8c657fd1d4efe846b32f
 size 1180663192

 version https://git-lfs.github.com/spec/v1
+oid sha256:4283dc2b4a753c2638ada4541429e3198bfc64b380a951724208de1fe0aeed9b
 size 1180663192

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee848402158ac34bd77da476b15335a035ef60e8d19affef08148a06eb616aa0
 size 12333625252

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbd5593589333e3322395caa3030e8e5b263075832eb6787d5c626cc780f80d9
 size 12333625252

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be24b2b8420b2e62233dac0078a0eaef4fb653235f8f3ed7ac8b73067c134bdf
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c1cdbc7a9b3a0567fa5693ac92071a7d30d3f3a5c9c2b16a14a14376366643
 size 14054

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1be4d2c14c0b846fa9a00d40df56472a7bedaade8c7be6c4383842a93e02dce1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d95ef8e7babb7d58bfff83c7b6b56b9aba67067e6e698db72cb5ed722b44f24
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25806451612903225,
   "eval_steps": 1000,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -256,6 +256,255 @@
       "eval_steps_per_second": 0.007,
       "eval_wer": 0.10759534583063995,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -263,7 +512,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 2.717998645248e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5161290322580645,
   "eval_steps": 1000,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.007,
       "eval_wer": 0.10759534583063995,
       "step": 1000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.9375e-07,
+      "loss": 0.144,
+      "step": 1025
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.875e-07,
+      "loss": 0.2088,
+      "step": 1050
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.8125e-07,
+      "loss": 0.1592,
+      "step": 1075
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.75e-07,
+      "loss": 0.1775,
+      "step": 1100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.6875e-07,
+      "loss": 0.1345,
+      "step": 1125
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.624999999999999e-07,
+      "loss": 0.1857,
+      "step": 1150
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.5625e-07,
+      "loss": 0.1481,
+      "step": 1175
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.499999999999999e-07,
+      "loss": 0.1926,
+      "step": 1200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.4375e-07,
+      "loss": 0.1298,
+      "step": 1225
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.374999999999999e-07,
+      "loss": 0.193,
+      "step": 1250
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.3125e-07,
+      "loss": 0.1336,
+      "step": 1275
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.25e-07,
+      "loss": 0.1697,
+      "step": 1300
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.187499999999999e-07,
+      "loss": 0.1332,
+      "step": 1325
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.124999999999999e-07,
+      "loss": 0.1668,
+      "step": 1350
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.0625e-07,
+      "loss": 0.1425,
+      "step": 1375
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9e-07,
+      "loss": 0.1815,
+      "step": 1400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 8.9375e-07,
+      "loss": 0.1579,
+      "step": 1425
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 8.874999999999999e-07,
+      "loss": 0.1855,
+      "step": 1450
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 8.812499999999999e-07,
+      "loss": 0.1359,
+      "step": 1475
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 8.75e-07,
+      "loss": 0.1923,
+      "step": 1500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 8.687499999999999e-07,
+      "loss": 0.126,
+      "step": 1525
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 8.625e-07,
+      "loss": 0.1824,
+      "step": 1550
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 8.5625e-07,
+      "loss": 0.1286,
+      "step": 1575
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 8.499999999999999e-07,
+      "loss": 0.1776,
+      "step": 1600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 8.4375e-07,
+      "loss": 0.1408,
+      "step": 1625
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 8.375e-07,
+      "loss": 0.1684,
+      "step": 1650
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 8.3125e-07,
+      "loss": 0.1511,
+      "step": 1675
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 8.249999999999999e-07,
+      "loss": 0.1579,
+      "step": 1700
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 8.187499999999999e-07,
+      "loss": 0.1303,
+      "step": 1725
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 8.125e-07,
+      "loss": 0.1663,
+      "step": 1750
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.0625e-07,
+      "loss": 0.1466,
+      "step": 1775
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8e-07,
+      "loss": 0.1738,
+      "step": 1800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 7.937499999999999e-07,
+      "loss": 0.1324,
+      "step": 1825
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.875e-07,
+      "loss": 0.1775,
+      "step": 1850
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.812499999999999e-07,
+      "loss": 0.0969,
+      "step": 1875
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 7.75e-07,
+      "loss": 0.172,
+      "step": 1900
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.6875e-07,
+      "loss": 0.1633,
+      "step": 1925
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.624999999999999e-07,
+      "loss": 0.1695,
+      "step": 1950
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.5625e-07,
+      "loss": 0.1374,
+      "step": 1975
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 7.5e-07,
+      "loss": 0.1703,
+      "step": 2000
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.13918790221214294,
+      "eval_runtime": 176892.8221,
+      "eval_samples_per_second": 0.053,
+      "eval_steps_per_second": 0.007,
+      "eval_wer": 0.10190691661279896,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 5.435997290496e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null