marinone94 commited on Jan 20, 2023

Commit

309997b

1 Parent(s): c97f56c

End of training

Browse files

Files changed (26) hide show

all_results.json +17 -0
checkpoint-360/config.json +142 -0
checkpoint-360/optimizer.pt +3 -0
checkpoint-360/preprocessor_config.json +0 -0
checkpoint-360/pytorch_model.bin +3 -0
checkpoint-360/rng_state.pth +3 -0
checkpoint-360/scaler.pt +3 -0
checkpoint-360/scheduler.pt +3 -0
checkpoint-360/trainer_state.json +637 -0
checkpoint-360/training_args.bin +3 -0
checkpoint-400/config.json +142 -0
checkpoint-400/optimizer.pt +3 -0
checkpoint-400/preprocessor_config.json +0 -0
checkpoint-400/pytorch_model.bin +3 -0
checkpoint-400/rng_state.pth +3 -0
checkpoint-400/scaler.pt +3 -0
checkpoint-400/scheduler.pt +3 -0
checkpoint-400/trainer_state.json +706 -0
checkpoint-400/training_args.bin +3 -0
eval_results.json +7 -0
huggingface_training.py +45 -45
pytorch_model.bin +1 -1
test_results.json +8 -0
train_results.json +7 -0
trainer_state.json +721 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 9.09,
+    "eval_loss": 1.8916987180709839,
+    "eval_runtime": 96.9796,
+    "eval_samples_per_second": 4.063,
+    "eval_steps_per_second": 0.134,
+    "eval_wer": 15.494331342191881,
+    "test_loss": 0.5623113512992859,
+    "test_runtime": 121.6703,
+    "test_samples_per_second": 5.318,
+    "test_steps_per_second": 0.173,
+    "test_wer": 20.965372507869883,
+    "train_loss": 0.35074408769753995,
+    "train_runtime": 2707.3827,
+    "train_samples_per_second": 9.621,
+    "train_steps_per_second": 0.15
+}

checkpoint-360/config.json ADDED Viewed

	@@ -0,0 +1,142 @@

+{
+  "_name_or_path": "openai/whisper-tiny",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 384,
+  "decoder_attention_heads": 6,
+  "decoder_ffn_dim": 1536,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 4,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 6,
+  "encoder_ffn_dim": 1536,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 4,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": [
+    [
+      1,
+      50259
+    ],
+    [
+      2,
+      50359
+    ],
+    [
+      3,
+      50363
+    ]
+  ],
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 4,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "suppress_tokens": [
+    1,
+    2,
+    7,
+    8,
+    9,
+    10,
+    14,
+    25,
+    26,
+    27,
+    28,
+    29,
+    31,
+    58,
+    59,
+    60,
+    61,
+    62,
+    63,
+    90,
+    91,
+    92,
+    93,
+    359,
+    503,
+    522,
+    542,
+    873,
+    893,
+    902,
+    918,
+    922,
+    931,
+    1350,
+    1853,
+    1982,
+    2460,
+    2627,
+    3246,
+    3253,
+    3268,
+    3536,
+    3846,
+    3961,
+    4183,
+    4667,
+    6585,
+    6647,
+    7273,
+    9061,
+    9383,
+    10428,
+    10929,
+    11938,
+    12033,
+    12331,
+    12562,
+    13793,
+    14157,
+    14635,
+    15265,
+    15618,
+    16553,
+    16604,
+    18362,
+    18956,
+    20075,
+    21675,
+    22520,
+    26130,
+    26161,
+    26435,
+    28279,
+    29464,
+    31650,
+    32302,
+    32470,
+    36865,
+    42863,
+    47425,
+    49870,
+    50254,
+    50258,
+    50360,
+    50361,
+    50362
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 51865
+}

checkpoint-360/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:513fbc5d03bd07f32d77cf2f5dcc0d8298575b96fbda2ed1de30f1cb859889ae
+size 302183173

checkpoint-360/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-360/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48879b1ce776151b602f3a1bdf10683d776d3f0765214b322443dddb1d951006
+size 151098921

checkpoint-360/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89f9781ff6e5ab617d91036a7029d39a2832fa624ae853afb0f238fb19535016
+size 14575

checkpoint-360/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d681e2b2a56f2134611cbb1679a9f32470e4cf3a48f4a2243741f0852b30ae
+size 557

checkpoint-360/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:922e864e56c484925ddcd495d1c992405fc4f95d13329256b422ef0f40cc0891
+size 627

checkpoint-360/trainer_state.json ADDED Viewed

	@@ -0,0 +1,637 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.07862407862408,
+  "global_step": 360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 1.8118,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.6585365853658536e-07,
+      "loss": 1.8122,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.53658536585366e-07,
+      "loss": 1.8174,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.3414634146341465e-06,
+      "loss": 1.7616,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.8292682926829268e-06,
+      "loss": 1.6875,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.317073170731708e-06,
+      "loss": 1.5201,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.8048780487804884e-06,
+      "loss": 1.3982,
+      "step": 28
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.292682926829269e-06,
+      "loss": 1.3541,
+      "step": 32
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 3.780487804878049e-06,
+      "loss": 1.2092,
+      "step": 36
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.268292682926829e-06,
+      "loss": 1.1599,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.142654299736023,
+      "eval_runtime": 101.9854,
+      "eval_samples_per_second": 3.863,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 15.213946117274169,
+      "step": 40
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.75609756097561e-06,
+      "loss": 1.0124,
+      "step": 44
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 5.243902439024391e-06,
+      "loss": 0.9171,
+      "step": 48
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 5.731707317073171e-06,
+      "loss": 0.8027,
+      "step": 52
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.219512195121951e-06,
+      "loss": 0.7284,
+      "step": 56
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.707317073170733e-06,
+      "loss": 0.6185,
+      "step": 60
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.1951219512195125e-06,
+      "loss": 0.57,
+      "step": 64
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.682926829268293e-06,
+      "loss": 0.4985,
+      "step": 68
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.170731707317073e-06,
+      "loss": 0.488,
+      "step": 72
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.658536585365854e-06,
+      "loss": 0.4569,
+      "step": 76
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 9.146341463414635e-06,
+      "loss": 0.4655,
+      "step": 80
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.5613037943840027,
+      "eval_runtime": 91.9697,
+      "eval_samples_per_second": 4.284,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 17.591125198098258,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.634146341463415e-06,
+      "loss": 0.425,
+      "step": 84
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.96923076923077e-06,
+      "loss": 0.4162,
+      "step": 88
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.846153846153848e-06,
+      "loss": 0.3809,
+      "step": 92
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.723076923076924e-06,
+      "loss": 0.3533,
+      "step": 96
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.3511,
+      "step": 100
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.476923076923079e-06,
+      "loss": 0.3475,
+      "step": 104
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.353846153846155e-06,
+      "loss": 0.321,
+      "step": 108
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.2859,
+      "step": 112
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.107692307692308e-06,
+      "loss": 0.3191,
+      "step": 116
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 8.984615384615386e-06,
+      "loss": 0.2753,
+      "step": 120
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.5241264700889587,
+      "eval_runtime": 88.0526,
+      "eval_samples_per_second": 4.475,
+      "eval_steps_per_second": 0.148,
+      "eval_wer": 17.21321467755699,
+      "step": 120
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 8.861538461538463e-06,
+      "loss": 0.3104,
+      "step": 124
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 8.73846153846154e-06,
+      "loss": 0.2734,
+      "step": 128
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 8.615384615384617e-06,
+      "loss": 0.2608,
+      "step": 132
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 8.492307692307693e-06,
+      "loss": 0.2509,
+      "step": 136
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.36923076923077e-06,
+      "loss": 0.2548,
+      "step": 140
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 8.246153846153848e-06,
+      "loss": 0.2469,
+      "step": 144
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 8.123076923076924e-06,
+      "loss": 0.2231,
+      "step": 148
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2138,
+      "step": 152
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.876923076923077e-06,
+      "loss": 0.2349,
+      "step": 156
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.753846153846155e-06,
+      "loss": 0.2077,
+      "step": 160
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.5241798758506775,
+      "eval_runtime": 88.5317,
+      "eval_samples_per_second": 4.45,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 17.26197732536877,
+      "step": 160
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.630769230769232e-06,
+      "loss": 0.2322,
+      "step": 164
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 7.507692307692308e-06,
+      "loss": 0.2036,
+      "step": 168
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.384615384615386e-06,
+      "loss": 0.2058,
+      "step": 172
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.261538461538462e-06,
+      "loss": 0.1797,
+      "step": 176
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.1384615384615385e-06,
+      "loss": 0.186,
+      "step": 180
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.015384615384616e-06,
+      "loss": 0.2035,
+      "step": 184
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 6.892307692307693e-06,
+      "loss": 0.1794,
+      "step": 188
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 6.76923076923077e-06,
+      "loss": 0.1589,
+      "step": 192
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 6.646153846153846e-06,
+      "loss": 0.1879,
+      "step": 196
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 6.523076923076923e-06,
+      "loss": 0.1636,
+      "step": 200
+    },
+    {
+      "epoch": 4.09,
+      "eval_loss": 0.5289868712425232,
+      "eval_runtime": 95.5188,
+      "eval_samples_per_second": 4.125,
+      "eval_steps_per_second": 0.136,
+      "eval_wer": 17.66426916981592,
+      "step": 200
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.1767,
+      "step": 204
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 6.276923076923077e-06,
+      "loss": 0.1657,
+      "step": 208
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.1607,
+      "step": 212
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 6.030769230769231e-06,
+      "loss": 0.1458,
+      "step": 216
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 5.907692307692308e-06,
+      "loss": 0.1541,
+      "step": 220
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 5.784615384615385e-06,
+      "loss": 0.1494,
+      "step": 224
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 5.661538461538462e-06,
+      "loss": 0.144,
+      "step": 228
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 5.538461538461539e-06,
+      "loss": 0.1311,
+      "step": 232
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 5.415384615384615e-06,
+      "loss": 0.1411,
+      "step": 236
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 5.292307692307693e-06,
+      "loss": 0.1322,
+      "step": 240
+    },
+    {
+      "epoch": 5.09,
+      "eval_loss": 0.5350630283355713,
+      "eval_runtime": 92.5111,
+      "eval_samples_per_second": 4.259,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 18.2128489576984,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 5.16923076923077e-06,
+      "loss": 0.1436,
+      "step": 244
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 5.046153846153846e-06,
+      "loss": 0.1375,
+      "step": 248
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.923076923076924e-06,
+      "loss": 0.1361,
+      "step": 252
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.129,
+      "step": 256
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 4.676923076923077e-06,
+      "loss": 0.1127,
+      "step": 260
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 4.553846153846154e-06,
+      "loss": 0.1266,
+      "step": 264
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 4.430769230769232e-06,
+      "loss": 0.1193,
+      "step": 268
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 4.307692307692308e-06,
+      "loss": 0.1127,
+      "step": 272
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 4.184615384615385e-06,
+      "loss": 0.1064,
+      "step": 276
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 4.061538461538462e-06,
+      "loss": 0.123,
+      "step": 280
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 0.5429388284683228,
+      "eval_runtime": 91.5818,
+      "eval_samples_per_second": 4.302,
+      "eval_steps_per_second": 0.142,
+      "eval_wer": 18.907716689016212,
+      "step": 280
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 3.938461538461539e-06,
+      "loss": 0.1057,
+      "step": 284
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3.815384615384616e-06,
+      "loss": 0.1258,
+      "step": 288
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.1108,
+      "step": 292
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 3.5692307692307692e-06,
+      "loss": 0.1115,
+      "step": 296
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 3.4461538461538464e-06,
+      "loss": 0.0998,
+      "step": 300
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 3.323076923076923e-06,
+      "loss": 0.1106,
+      "step": 304
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.1045,
+      "step": 308
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0908,
+      "step": 312
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 2.953846153846154e-06,
+      "loss": 0.0931,
+      "step": 316
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 2.830769230769231e-06,
+      "loss": 0.1074,
+      "step": 320
+    },
+    {
+      "epoch": 7.08,
+      "eval_loss": 0.5500437021255493,
+      "eval_runtime": 104.0907,
+      "eval_samples_per_second": 3.785,
+      "eval_steps_per_second": 0.125,
+      "eval_wer": 19.054004632451544,
+      "step": 320
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 2.7076923076923076e-06,
+      "loss": 0.0937,
+      "step": 324
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 2.584615384615385e-06,
+      "loss": 0.1091,
+      "step": 328
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.0951,
+      "step": 332
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 2.3384615384615387e-06,
+      "loss": 0.1003,
+      "step": 336
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 2.215384615384616e-06,
+      "loss": 0.0836,
+      "step": 340
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 2.0923076923076926e-06,
+      "loss": 0.0907,
+      "step": 344
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.9692307692307693e-06,
+      "loss": 0.1013,
+      "step": 348
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.8461538461538465e-06,
+      "loss": 0.0891,
+      "step": 352
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 1.7230769230769232e-06,
+      "loss": 0.077,
+      "step": 356
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.1007,
+      "step": 360
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.5552565455436707,
+      "eval_runtime": 88.458,
+      "eval_samples_per_second": 4.454,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 19.310008533463368,
+      "step": 360
+    }
+  ],
+  "max_steps": 407,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 5.6288618938368e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-360/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcbca0d141969bcb1c3cd0ef5a009221139334753b899d88e4d5003bd23f4b5f
+size 3579

checkpoint-400/config.json ADDED Viewed

	@@ -0,0 +1,142 @@

+{
+  "_name_or_path": "openai/whisper-tiny",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 384,
+  "decoder_attention_heads": 6,
+  "decoder_ffn_dim": 1536,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 4,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 6,
+  "encoder_ffn_dim": 1536,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 4,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": [
+    [
+      1,
+      50259
+    ],
+    [
+      2,
+      50359
+    ],
+    [
+      3,
+      50363
+    ]
+  ],
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 4,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "suppress_tokens": [
+    1,
+    2,
+    7,
+    8,
+    9,
+    10,
+    14,
+    25,
+    26,
+    27,
+    28,
+    29,
+    31,
+    58,
+    59,
+    60,
+    61,
+    62,
+    63,
+    90,
+    91,
+    92,
+    93,
+    359,
+    503,
+    522,
+    542,
+    873,
+    893,
+    902,
+    918,
+    922,
+    931,
+    1350,
+    1853,
+    1982,
+    2460,
+    2627,
+    3246,
+    3253,
+    3268,
+    3536,
+    3846,
+    3961,
+    4183,
+    4667,
+    6585,
+    6647,
+    7273,
+    9061,
+    9383,
+    10428,
+    10929,
+    11938,
+    12033,
+    12331,
+    12562,
+    13793,
+    14157,
+    14635,
+    15265,
+    15618,
+    16553,
+    16604,
+    18362,
+    18956,
+    20075,
+    21675,
+    22520,
+    26130,
+    26161,
+    26435,
+    28279,
+    29464,
+    31650,
+    32302,
+    32470,
+    36865,
+    42863,
+    47425,
+    49870,
+    50254,
+    50258,
+    50360,
+    50361,
+    50362
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 51865
+}

checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca2f216746e89a3c2dc592e56702d375bf97996f49afe1d761ee97223c74e35c
+size 302183173

checkpoint-400/preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2f00e8aebd51836c62a6367fa1a3bad01938ccd285ac6cc2c2dd7b6e9755793
+size 151098921

checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0fee234ab8151645a0895ac4e9559fbd6bec4f70f802b8c94db562d283ad737
+size 14639

checkpoint-400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37d85a7f00fa7bae4774c70bac351a030ccefea202dbec056f5a4d44e50b132c
+size 557

checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cf1f3c596de0ecc246fc5b02e9720244273de83ebc2f79d153609594e679a82
+size 627

checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,706 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.076167076167076,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 1.8118,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.6585365853658536e-07,
+      "loss": 1.8122,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.53658536585366e-07,
+      "loss": 1.8174,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.3414634146341465e-06,
+      "loss": 1.7616,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.8292682926829268e-06,
+      "loss": 1.6875,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.317073170731708e-06,
+      "loss": 1.5201,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.8048780487804884e-06,
+      "loss": 1.3982,
+      "step": 28
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.292682926829269e-06,
+      "loss": 1.3541,
+      "step": 32
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 3.780487804878049e-06,
+      "loss": 1.2092,
+      "step": 36
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.268292682926829e-06,
+      "loss": 1.1599,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.142654299736023,
+      "eval_runtime": 101.9854,
+      "eval_samples_per_second": 3.863,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 15.213946117274169,
+      "step": 40
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.75609756097561e-06,
+      "loss": 1.0124,
+      "step": 44
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 5.243902439024391e-06,
+      "loss": 0.9171,
+      "step": 48
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 5.731707317073171e-06,
+      "loss": 0.8027,
+      "step": 52
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.219512195121951e-06,
+      "loss": 0.7284,
+      "step": 56
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.707317073170733e-06,
+      "loss": 0.6185,
+      "step": 60
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.1951219512195125e-06,
+      "loss": 0.57,
+      "step": 64
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.682926829268293e-06,
+      "loss": 0.4985,
+      "step": 68
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.170731707317073e-06,
+      "loss": 0.488,
+      "step": 72
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.658536585365854e-06,
+      "loss": 0.4569,
+      "step": 76
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 9.146341463414635e-06,
+      "loss": 0.4655,
+      "step": 80
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.5613037943840027,
+      "eval_runtime": 91.9697,
+      "eval_samples_per_second": 4.284,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 17.591125198098258,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.634146341463415e-06,
+      "loss": 0.425,
+      "step": 84
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.96923076923077e-06,
+      "loss": 0.4162,
+      "step": 88
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.846153846153848e-06,
+      "loss": 0.3809,
+      "step": 92
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.723076923076924e-06,
+      "loss": 0.3533,
+      "step": 96
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.3511,
+      "step": 100
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.476923076923079e-06,
+      "loss": 0.3475,
+      "step": 104
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.353846153846155e-06,
+      "loss": 0.321,
+      "step": 108
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.2859,
+      "step": 112
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.107692307692308e-06,
+      "loss": 0.3191,
+      "step": 116
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 8.984615384615386e-06,
+      "loss": 0.2753,
+      "step": 120
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.5241264700889587,
+      "eval_runtime": 88.0526,
+      "eval_samples_per_second": 4.475,
+      "eval_steps_per_second": 0.148,
+      "eval_wer": 17.21321467755699,
+      "step": 120
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 8.861538461538463e-06,
+      "loss": 0.3104,
+      "step": 124
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 8.73846153846154e-06,
+      "loss": 0.2734,
+      "step": 128
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 8.615384615384617e-06,
+      "loss": 0.2608,
+      "step": 132
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 8.492307692307693e-06,
+      "loss": 0.2509,
+      "step": 136
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.36923076923077e-06,
+      "loss": 0.2548,
+      "step": 140
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 8.246153846153848e-06,
+      "loss": 0.2469,
+      "step": 144
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 8.123076923076924e-06,
+      "loss": 0.2231,
+      "step": 148
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2138,
+      "step": 152
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.876923076923077e-06,
+      "loss": 0.2349,
+      "step": 156
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.753846153846155e-06,
+      "loss": 0.2077,
+      "step": 160
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.5241798758506775,
+      "eval_runtime": 88.5317,
+      "eval_samples_per_second": 4.45,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 17.26197732536877,
+      "step": 160
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.630769230769232e-06,
+      "loss": 0.2322,
+      "step": 164
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 7.507692307692308e-06,
+      "loss": 0.2036,
+      "step": 168
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.384615384615386e-06,
+      "loss": 0.2058,
+      "step": 172
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.261538461538462e-06,
+      "loss": 0.1797,
+      "step": 176
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.1384615384615385e-06,
+      "loss": 0.186,
+      "step": 180
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.015384615384616e-06,
+      "loss": 0.2035,
+      "step": 184
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 6.892307692307693e-06,
+      "loss": 0.1794,
+      "step": 188
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 6.76923076923077e-06,
+      "loss": 0.1589,
+      "step": 192
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 6.646153846153846e-06,
+      "loss": 0.1879,
+      "step": 196
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 6.523076923076923e-06,
+      "loss": 0.1636,
+      "step": 200
+    },
+    {
+      "epoch": 4.09,
+      "eval_loss": 0.5289868712425232,
+      "eval_runtime": 95.5188,
+      "eval_samples_per_second": 4.125,
+      "eval_steps_per_second": 0.136,
+      "eval_wer": 17.66426916981592,
+      "step": 200
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.1767,
+      "step": 204
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 6.276923076923077e-06,
+      "loss": 0.1657,
+      "step": 208
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.1607,
+      "step": 212
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 6.030769230769231e-06,
+      "loss": 0.1458,
+      "step": 216
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 5.907692307692308e-06,
+      "loss": 0.1541,
+      "step": 220
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 5.784615384615385e-06,
+      "loss": 0.1494,
+      "step": 224
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 5.661538461538462e-06,
+      "loss": 0.144,
+      "step": 228
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 5.538461538461539e-06,
+      "loss": 0.1311,
+      "step": 232
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 5.415384615384615e-06,
+      "loss": 0.1411,
+      "step": 236
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 5.292307692307693e-06,
+      "loss": 0.1322,
+      "step": 240
+    },
+    {
+      "epoch": 5.09,
+      "eval_loss": 0.5350630283355713,
+      "eval_runtime": 92.5111,
+      "eval_samples_per_second": 4.259,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 18.2128489576984,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 5.16923076923077e-06,
+      "loss": 0.1436,
+      "step": 244
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 5.046153846153846e-06,
+      "loss": 0.1375,
+      "step": 248
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.923076923076924e-06,
+      "loss": 0.1361,
+      "step": 252
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.129,
+      "step": 256
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 4.676923076923077e-06,
+      "loss": 0.1127,
+      "step": 260
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 4.553846153846154e-06,
+      "loss": 0.1266,
+      "step": 264
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 4.430769230769232e-06,
+      "loss": 0.1193,
+      "step": 268
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 4.307692307692308e-06,
+      "loss": 0.1127,
+      "step": 272
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 4.184615384615385e-06,
+      "loss": 0.1064,
+      "step": 276
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 4.061538461538462e-06,
+      "loss": 0.123,
+      "step": 280
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 0.5429388284683228,
+      "eval_runtime": 91.5818,
+      "eval_samples_per_second": 4.302,
+      "eval_steps_per_second": 0.142,
+      "eval_wer": 18.907716689016212,
+      "step": 280
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 3.938461538461539e-06,
+      "loss": 0.1057,
+      "step": 284
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3.815384615384616e-06,
+      "loss": 0.1258,
+      "step": 288
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.1108,
+      "step": 292
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 3.5692307692307692e-06,
+      "loss": 0.1115,
+      "step": 296
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 3.4461538461538464e-06,
+      "loss": 0.0998,
+      "step": 300
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 3.323076923076923e-06,
+      "loss": 0.1106,
+      "step": 304
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.1045,
+      "step": 308
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0908,
+      "step": 312
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 2.953846153846154e-06,
+      "loss": 0.0931,
+      "step": 316
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 2.830769230769231e-06,
+      "loss": 0.1074,
+      "step": 320
+    },
+    {
+      "epoch": 7.08,
+      "eval_loss": 0.5500437021255493,
+      "eval_runtime": 104.0907,
+      "eval_samples_per_second": 3.785,
+      "eval_steps_per_second": 0.125,
+      "eval_wer": 19.054004632451544,
+      "step": 320
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 2.7076923076923076e-06,
+      "loss": 0.0937,
+      "step": 324
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 2.584615384615385e-06,
+      "loss": 0.1091,
+      "step": 328
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.0951,
+      "step": 332
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 2.3384615384615387e-06,
+      "loss": 0.1003,
+      "step": 336
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 2.215384615384616e-06,
+      "loss": 0.0836,
+      "step": 340
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 2.0923076923076926e-06,
+      "loss": 0.0907,
+      "step": 344
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.9692307692307693e-06,
+      "loss": 0.1013,
+      "step": 348
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.8461538461538465e-06,
+      "loss": 0.0891,
+      "step": 352
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 1.7230769230769232e-06,
+      "loss": 0.077,
+      "step": 356
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.1007,
+      "step": 360
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.5552565455436707,
+      "eval_runtime": 88.458,
+      "eval_samples_per_second": 4.454,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 19.310008533463368,
+      "step": 360
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 1.476923076923077e-06,
+      "loss": 0.0849,
+      "step": 364
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 1.3538461538461538e-06,
+      "loss": 0.0971,
+      "step": 368
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 1.230769230769231e-06,
+      "loss": 0.0876,
+      "step": 372
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 1.107692307692308e-06,
+      "loss": 0.0879,
+      "step": 376
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 9.846153846153847e-07,
+      "loss": 0.0805,
+      "step": 380
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 8.615384615384616e-07,
+      "loss": 0.0888,
+      "step": 384
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 7.384615384615385e-07,
+      "loss": 0.0858,
+      "step": 388
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.153846153846155e-07,
+      "loss": 0.0825,
+      "step": 392
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 4.923076923076923e-07,
+      "loss": 0.0748,
+      "step": 396
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 3.6923076923076927e-07,
+      "loss": 0.0876,
+      "step": 400
+    },
+    {
+      "epoch": 9.08,
+      "eval_loss": 0.5568162202835083,
+      "eval_runtime": 89.7223,
+      "eval_samples_per_second": 4.391,
+      "eval_steps_per_second": 0.145,
+      "eval_wer": 19.3465805193222,
+      "step": 400
+    }
+  ],
+  "max_steps": 407,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 6.2536891981824e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcbca0d141969bcb1c3cd0ef5a009221139334753b899d88e4d5003bd23f4b5f
+size 3579

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "eval_loss": 1.8916987180709839,
+    "eval_runtime": 96.9796,
+    "eval_samples_per_second": 4.063,
+    "eval_steps_per_second": 0.134,
+    "eval_wer": 15.494331342191881
+}

huggingface_training.py CHANGED Viewed

@@ -32,8 +32,8 @@ dataset = load_dataset(dataset_id, dataset_language_code, streaming=True)
 """The first time you run this code, make sure everything works fine using a small sample and low number of training steps. Just uncomment the next cell and run it. One note: since the dataset is loaded in streaming mode, the instruction will not be executed immediately. Instead, the dataset will be subsampled only when data will be needed during training."""
-test_script = True
-# test_script = False
 ## Sample dataset for testing
 if test_script is True:
@@ -236,14 +236,14 @@ Last, we can track our training using several experiment tracking tools. I use W
 """
 ## If you don't want to track your experiment with WandB, run this!
-os.environ["WANDB_DISABLED"] = "true"
-report_to = "none"
 # If you have a wandb account, login!
 # Otherwise, edit this cell to loging with your favourite experiment tracker(s)
-# wandb.login()
-# wandb.init(project="whisper-training-post")
-# report_to = "wandb"
 # Define (and create, if missing) output directory
 output_dir = "."
@@ -264,12 +264,12 @@ eval_bs = 2 if test_script is True else 32
 # Then we infer the number of steps
 # TODO: how did I find it?
 num_training_samples = 2602
-num_epochs = 5
 max_steps_full_training = ceil(num_training_samples * num_epochs / train_bs)
 max_steps = 2 if test_script is True else max_steps_full_training
 # We don't want to evaluate too often since it slows down training a lot
-eval_steps = 1 if test_script is True else int(max_steps / 5)
 logging_steps = 1 if test_script is True else int(max_steps / 100)
 training_args = Seq2SeqTrainingArguments(
@@ -319,54 +319,54 @@ I hope you haven't left yet. If you have, bad for you, as we are ready for train
 As Whisper is a pretrained model ready to be used off-the-shelf, it is advisable to evaluate it before training on both the validation and test sets. Let's make sure we make no harm to it.
 """
-# eval_metrics = trainer.evaluate(
-#     eval_dataset=preprocessed_dataset["validation"],
-#     metric_key_prefix="eval",
-#     max_length=448,
-#     num_beams=1,
-#     # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
-# )
-# trainer.log_metrics("eval", eval_metrics)
-# trainer.save_metrics("eval", eval_metrics)
-# print(eval_metrics)
-# test_metrics = trainer.evaluate(
-#     eval_dataset=preprocessed_dataset["test"],
-#     metric_key_prefix="test",
-#     max_length=448,
-#     num_beams=1,
-#     # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
-# )
-# trainer.log_metrics("test", test_metrics)
-# trainer.save_metrics("test", test_metrics)
-# print(test_metrics)
-# train_result = trainer.train()
 trainer.save_model()
-# metrics = train_result.metrics
-# trainer.log_metrics("train", metrics)
-# trainer.save_metrics("train", metrics)
-# trainer.save_state()
-# print(metrics)
 """ADD SOMETHING ABOUT THE TRAINING.
 Now let's evaluate the
 """
-# final_metrics = trainer.evaluate(
-#     eval_dataset=preprocessed_dataset["test"],
-#     metric_key_prefix="test",
-#     max_length=448,
-#     num_beams=1,
-#     # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
-# )
-# trainer.log_metrics("test", final_metrics)
-# trainer.save_metrics("test", final_metrics)
-# print(final_metrics)
 trainer.push_to_hub()

 """The first time you run this code, make sure everything works fine using a small sample and low number of training steps. Just uncomment the next cell and run it. One note: since the dataset is loaded in streaming mode, the instruction will not be executed immediately. Instead, the dataset will be subsampled only when data will be needed during training."""
+# test_script = True
+test_script = False
 ## Sample dataset for testing
 if test_script is True:
 """
 ## If you don't want to track your experiment with WandB, run this!
+# os.environ["WANDB_DISABLED"] = "true"
+# report_to = "none"
 # If you have a wandb account, login!
 # Otherwise, edit this cell to loging with your favourite experiment tracker(s)
+wandb.login()
+wandb.init(project="whisper-training-post")
+report_to = "wandb"
 # Define (and create, if missing) output directory
 output_dir = "."
 # Then we infer the number of steps
 # TODO: how did I find it?
 num_training_samples = 2602
+num_epochs = 10
 max_steps_full_training = ceil(num_training_samples * num_epochs / train_bs)
 max_steps = 2 if test_script is True else max_steps_full_training
 # We don't want to evaluate too often since it slows down training a lot
+eval_steps = 1 if test_script is True else int(max_steps / 10)
 logging_steps = 1 if test_script is True else int(max_steps / 100)
 training_args = Seq2SeqTrainingArguments(
 As Whisper is a pretrained model ready to be used off-the-shelf, it is advisable to evaluate it before training on both the validation and test sets. Let's make sure we make no harm to it.
 """
+eval_metrics = trainer.evaluate(
+    eval_dataset=preprocessed_dataset["validation"],
+    metric_key_prefix="eval",
+    max_length=448,
+    num_beams=1,
+    # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
+)
+trainer.log_metrics("eval", eval_metrics)
+trainer.save_metrics("eval", eval_metrics)
+print(eval_metrics)
+test_metrics = trainer.evaluate(
+    eval_dataset=preprocessed_dataset["test"],
+    metric_key_prefix="test",
+    max_length=448,
+    num_beams=1,
+    # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
+)
+trainer.log_metrics("test", test_metrics)
+trainer.save_metrics("test", test_metrics)
+print(test_metrics)
+train_result = trainer.train()
 trainer.save_model()
+metrics = train_result.metrics
+trainer.log_metrics("train", metrics)
+trainer.save_metrics("train", metrics)
+trainer.save_state()
+print(metrics)
 """ADD SOMETHING ABOUT THE TRAINING.
 Now let's evaluate the
 """
+final_metrics = trainer.evaluate(
+    eval_dataset=preprocessed_dataset["test"],
+    metric_key_prefix="test",
+    max_length=448,
+    num_beams=1,
+    # gen_kwargs={"key": value}  to provide additional generation specific arguments by keyword
+)
+trainer.log_metrics("test", final_metrics)
+trainer.save_metrics("test", final_metrics)
+print(final_metrics)
 trainer.push_to_hub()

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3843686519777a4550909e8bd4961dcf7425e7183295f03d09a433a271f0887
 size 151098921

 version https://git-lfs.github.com/spec/v1
+oid sha256:21343063174657acd721a023a2780da91e0bede1cc15233f17e5468d93d0ae51
 size 151098921

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.09,
+    "test_loss": 0.5623113512992859,
+    "test_runtime": 121.6703,
+    "test_samples_per_second": 5.318,
+    "test_steps_per_second": 0.173,
+    "test_wer": 20.965372507869883
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 9.09,
+    "train_loss": 0.35074408769753995,
+    "train_runtime": 2707.3827,
+    "train_samples_per_second": 9.621,
+    "train_steps_per_second": 0.15
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,721 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.093366093366093,
+  "global_step": 407,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 1.8118,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.6585365853658536e-07,
+      "loss": 1.8122,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 8.53658536585366e-07,
+      "loss": 1.8174,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.3414634146341465e-06,
+      "loss": 1.7616,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.8292682926829268e-06,
+      "loss": 1.6875,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.317073170731708e-06,
+      "loss": 1.5201,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.8048780487804884e-06,
+      "loss": 1.3982,
+      "step": 28
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.292682926829269e-06,
+      "loss": 1.3541,
+      "step": 32
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 3.780487804878049e-06,
+      "loss": 1.2092,
+      "step": 36
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.268292682926829e-06,
+      "loss": 1.1599,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.142654299736023,
+      "eval_runtime": 101.9854,
+      "eval_samples_per_second": 3.863,
+      "eval_steps_per_second": 0.127,
+      "eval_wer": 15.213946117274169,
+      "step": 40
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.75609756097561e-06,
+      "loss": 1.0124,
+      "step": 44
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 5.243902439024391e-06,
+      "loss": 0.9171,
+      "step": 48
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 5.731707317073171e-06,
+      "loss": 0.8027,
+      "step": 52
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.219512195121951e-06,
+      "loss": 0.7284,
+      "step": 56
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.707317073170733e-06,
+      "loss": 0.6185,
+      "step": 60
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.1951219512195125e-06,
+      "loss": 0.57,
+      "step": 64
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.682926829268293e-06,
+      "loss": 0.4985,
+      "step": 68
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.170731707317073e-06,
+      "loss": 0.488,
+      "step": 72
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.658536585365854e-06,
+      "loss": 0.4569,
+      "step": 76
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 9.146341463414635e-06,
+      "loss": 0.4655,
+      "step": 80
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.5613037943840027,
+      "eval_runtime": 91.9697,
+      "eval_samples_per_second": 4.284,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 17.591125198098258,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.634146341463415e-06,
+      "loss": 0.425,
+      "step": 84
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.96923076923077e-06,
+      "loss": 0.4162,
+      "step": 88
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.846153846153848e-06,
+      "loss": 0.3809,
+      "step": 92
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.723076923076924e-06,
+      "loss": 0.3533,
+      "step": 96
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.3511,
+      "step": 100
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.476923076923079e-06,
+      "loss": 0.3475,
+      "step": 104
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.353846153846155e-06,
+      "loss": 0.321,
+      "step": 108
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.2859,
+      "step": 112
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.107692307692308e-06,
+      "loss": 0.3191,
+      "step": 116
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 8.984615384615386e-06,
+      "loss": 0.2753,
+      "step": 120
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.5241264700889587,
+      "eval_runtime": 88.0526,
+      "eval_samples_per_second": 4.475,
+      "eval_steps_per_second": 0.148,
+      "eval_wer": 17.21321467755699,
+      "step": 120
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 8.861538461538463e-06,
+      "loss": 0.3104,
+      "step": 124
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 8.73846153846154e-06,
+      "loss": 0.2734,
+      "step": 128
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 8.615384615384617e-06,
+      "loss": 0.2608,
+      "step": 132
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 8.492307692307693e-06,
+      "loss": 0.2509,
+      "step": 136
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.36923076923077e-06,
+      "loss": 0.2548,
+      "step": 140
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 8.246153846153848e-06,
+      "loss": 0.2469,
+      "step": 144
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 8.123076923076924e-06,
+      "loss": 0.2231,
+      "step": 148
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2138,
+      "step": 152
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.876923076923077e-06,
+      "loss": 0.2349,
+      "step": 156
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.753846153846155e-06,
+      "loss": 0.2077,
+      "step": 160
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.5241798758506775,
+      "eval_runtime": 88.5317,
+      "eval_samples_per_second": 4.45,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 17.26197732536877,
+      "step": 160
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.630769230769232e-06,
+      "loss": 0.2322,
+      "step": 164
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 7.507692307692308e-06,
+      "loss": 0.2036,
+      "step": 168
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.384615384615386e-06,
+      "loss": 0.2058,
+      "step": 172
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.261538461538462e-06,
+      "loss": 0.1797,
+      "step": 176
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.1384615384615385e-06,
+      "loss": 0.186,
+      "step": 180
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.015384615384616e-06,
+      "loss": 0.2035,
+      "step": 184
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 6.892307692307693e-06,
+      "loss": 0.1794,
+      "step": 188
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 6.76923076923077e-06,
+      "loss": 0.1589,
+      "step": 192
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 6.646153846153846e-06,
+      "loss": 0.1879,
+      "step": 196
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 6.523076923076923e-06,
+      "loss": 0.1636,
+      "step": 200
+    },
+    {
+      "epoch": 4.09,
+      "eval_loss": 0.5289868712425232,
+      "eval_runtime": 95.5188,
+      "eval_samples_per_second": 4.125,
+      "eval_steps_per_second": 0.136,
+      "eval_wer": 17.66426916981592,
+      "step": 200
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.1767,
+      "step": 204
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 6.276923076923077e-06,
+      "loss": 0.1657,
+      "step": 208
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.1607,
+      "step": 212
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 6.030769230769231e-06,
+      "loss": 0.1458,
+      "step": 216
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 5.907692307692308e-06,
+      "loss": 0.1541,
+      "step": 220
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 5.784615384615385e-06,
+      "loss": 0.1494,
+      "step": 224
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 5.661538461538462e-06,
+      "loss": 0.144,
+      "step": 228
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 5.538461538461539e-06,
+      "loss": 0.1311,
+      "step": 232
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 5.415384615384615e-06,
+      "loss": 0.1411,
+      "step": 236
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 5.292307692307693e-06,
+      "loss": 0.1322,
+      "step": 240
+    },
+    {
+      "epoch": 5.09,
+      "eval_loss": 0.5350630283355713,
+      "eval_runtime": 92.5111,
+      "eval_samples_per_second": 4.259,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 18.2128489576984,
+      "step": 240
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 5.16923076923077e-06,
+      "loss": 0.1436,
+      "step": 244
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 5.046153846153846e-06,
+      "loss": 0.1375,
+      "step": 248
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.923076923076924e-06,
+      "loss": 0.1361,
+      "step": 252
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.129,
+      "step": 256
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 4.676923076923077e-06,
+      "loss": 0.1127,
+      "step": 260
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 4.553846153846154e-06,
+      "loss": 0.1266,
+      "step": 264
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 4.430769230769232e-06,
+      "loss": 0.1193,
+      "step": 268
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 4.307692307692308e-06,
+      "loss": 0.1127,
+      "step": 272
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 4.184615384615385e-06,
+      "loss": 0.1064,
+      "step": 276
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 4.061538461538462e-06,
+      "loss": 0.123,
+      "step": 280
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 0.5429388284683228,
+      "eval_runtime": 91.5818,
+      "eval_samples_per_second": 4.302,
+      "eval_steps_per_second": 0.142,
+      "eval_wer": 18.907716689016212,
+      "step": 280
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 3.938461538461539e-06,
+      "loss": 0.1057,
+      "step": 284
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3.815384615384616e-06,
+      "loss": 0.1258,
+      "step": 288
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.1108,
+      "step": 292
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 3.5692307692307692e-06,
+      "loss": 0.1115,
+      "step": 296
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 3.4461538461538464e-06,
+      "loss": 0.0998,
+      "step": 300
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 3.323076923076923e-06,
+      "loss": 0.1106,
+      "step": 304
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.1045,
+      "step": 308
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0908,
+      "step": 312
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 2.953846153846154e-06,
+      "loss": 0.0931,
+      "step": 316
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 2.830769230769231e-06,
+      "loss": 0.1074,
+      "step": 320
+    },
+    {
+      "epoch": 7.08,
+      "eval_loss": 0.5500437021255493,
+      "eval_runtime": 104.0907,
+      "eval_samples_per_second": 3.785,
+      "eval_steps_per_second": 0.125,
+      "eval_wer": 19.054004632451544,
+      "step": 320
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 2.7076923076923076e-06,
+      "loss": 0.0937,
+      "step": 324
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 2.584615384615385e-06,
+      "loss": 0.1091,
+      "step": 328
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.0951,
+      "step": 332
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 2.3384615384615387e-06,
+      "loss": 0.1003,
+      "step": 336
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 2.215384615384616e-06,
+      "loss": 0.0836,
+      "step": 340
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 2.0923076923076926e-06,
+      "loss": 0.0907,
+      "step": 344
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.9692307692307693e-06,
+      "loss": 0.1013,
+      "step": 348
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.8461538461538465e-06,
+      "loss": 0.0891,
+      "step": 352
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 1.7230769230769232e-06,
+      "loss": 0.077,
+      "step": 356
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.1007,
+      "step": 360
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.5552565455436707,
+      "eval_runtime": 88.458,
+      "eval_samples_per_second": 4.454,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 19.310008533463368,
+      "step": 360
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 1.476923076923077e-06,
+      "loss": 0.0849,
+      "step": 364
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 1.3538461538461538e-06,
+      "loss": 0.0971,
+      "step": 368
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 1.230769230769231e-06,
+      "loss": 0.0876,
+      "step": 372
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 1.107692307692308e-06,
+      "loss": 0.0879,
+      "step": 376
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 9.846153846153847e-07,
+      "loss": 0.0805,
+      "step": 380
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 8.615384615384616e-07,
+      "loss": 0.0888,
+      "step": 384
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 7.384615384615385e-07,
+      "loss": 0.0858,
+      "step": 388
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.153846153846155e-07,
+      "loss": 0.0825,
+      "step": 392
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 4.923076923076923e-07,
+      "loss": 0.0748,
+      "step": 396
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 3.6923076923076927e-07,
+      "loss": 0.0876,
+      "step": 400
+    },
+    {
+      "epoch": 9.08,
+      "eval_loss": 0.5568162202835083,
+      "eval_runtime": 89.7223,
+      "eval_samples_per_second": 4.391,
+      "eval_steps_per_second": 0.145,
+      "eval_wer": 19.3465805193222,
+      "step": 400
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 2.4615384615384616e-07,
+      "loss": 0.0802,
+      "step": 404
+    },
+    {
+      "epoch": 9.09,
+      "step": 407,
+      "total_flos": 6.36398180352e+17,
+      "train_loss": 0.35074408769753995,
+      "train_runtime": 2707.3827,
+      "train_samples_per_second": 9.621,
+      "train_steps_per_second": 0.15
+    }
+  ],
+  "max_steps": 407,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 6.36398180352e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61d71f34a5c8fca893f540e362d0ae479fb1a6d77e2fa71c8da729fdb87d1f54
 size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcbca0d141969bcb1c3cd0ef5a009221139334753b899d88e4d5003bd23f4b5f
 size 3579