imvladikon commited on Jan 29, 2022

Commit

e8f3ff1

•

1 Parent(s): 8c65cf6

End of training

Browse files

Files changed (23) hide show

all_results.json +14 -0
checkpoint-4000/config.json +0 -79
checkpoint-4000/optimizer.pt +0 -3
checkpoint-4000/preprocessor_config.json +0 -9
checkpoint-4000/pytorch_model.bin +0 -3
checkpoint-4000/rng_state.pth +0 -3
checkpoint-4000/scaler.pt +0 -3
checkpoint-4000/scheduler.pt +0 -3
checkpoint-4000/trainer_state.json +0 -166
checkpoint-4000/training_args.bin +0 -3
checkpoint-4400/config.json +0 -79
checkpoint-4400/optimizer.pt +0 -3
checkpoint-4400/preprocessor_config.json +0 -9
checkpoint-4400/pytorch_model.bin +0 -3
checkpoint-4400/rng_state.pth +0 -3
checkpoint-4400/scaler.pt +0 -3
checkpoint-4400/scheduler.pt +0 -3
checkpoint-4400/trainer_state.json +0 -181
checkpoint-4400/training_args.bin +0 -3
pytorch_model.bin +1 -1
train_results.json +8 -0
trainer_state.json +655 -0
validation_results.json +9 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 20.0,
+    "eval_loss": 0.3532930910587311,
+    "eval_runtime": 297.867,
+    "eval_samples": 5076,
+    "eval_samples_per_second": 17.041,
+    "eval_steps_per_second": 2.84,
+    "eval_wer": 0.22513066847239563,
+    "train_loss": 1.3125287554224614,
+    "train_runtime": 67690.7896,
+    "train_samples": 20306,
+    "train_samples_per_second": 6.0,
+    "train_steps_per_second": 0.25
+}

checkpoint-4000/config.json DELETED Viewed

@@ -1,79 +0,0 @@
-{
-  "_name_or_path": "facebook/wav2vec2-xls-r-300m",
-  "activation_dropout": 0.0,
-  "apply_spec_augment": true,
-  "architectures": [
-    "Wav2Vec2ForCTC"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "classifier_proj_size": 256,
-  "codevector_dim": 768,
-  "contrastive_logits_temperature": 0.1,
-  "conv_bias": true,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    512
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
-  "ctc_loss_reduction": "mean",
-  "ctc_zero_infinity": false,
-  "diversity_loss_weight": 0.1,
-  "do_stable_layer_norm": true,
-  "eos_token_id": 2,
-  "feat_extract_activation": "gelu",
-  "feat_extract_dropout": 0.0,
-  "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.0,
-  "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout": 0.0,
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
-  "mask_feature_length": 10,
-  "mask_feature_prob": 0.0,
-  "mask_time_length": 10,
-  "mask_time_prob": 0.05,
-  "model_type": "wav2vec2",
-  "num_attention_heads": 16,
-  "num_codevector_groups": 2,
-  "num_codevectors_per_group": 320,
-  "num_conv_pos_embedding_groups": 16,
-  "num_conv_pos_embeddings": 128,
-  "num_feat_extract_layers": 7,
-  "num_hidden_layers": 24,
-  "num_negatives": 100,
-  "pad_token_id": 29,
-  "proj_codevector_dim": 768,
-  "torch_dtype": "float32",
-  "transformers_version": "4.11.3",
-  "use_weighted_layer_sum": false,
-  "vocab_size": 32
-}

checkpoint-4000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:052d9d1f443d1b9f67c2f7a6c2808fe922f1eb7ec26dba77c36c332395ec93d6
-size 2490321361

checkpoint-4000/preprocessor_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0.0,
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

checkpoint-4000/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:092b750aa2825af7fb89c41d0967aa326857a67ed0c101103b080ef3668b8ca5
-size 1262054897

checkpoint-4000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1bf4dfa62752c868edada56217703db94c074fedf843e434f438dfbdfd0009a0
-size 14631

checkpoint-4000/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:93d4c53e2e4d886d0eac00fb8b6e3a12d9b4941d302b762706e463005cd1e4ad
-size 559

checkpoint-4000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8a20530e63990facdbe1c575c37ff4cc0d4637f57452c1d8f3b74093a7afbf98
-size 623

checkpoint-4000/trainer_state.json DELETED Viewed

@@ -1,166 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.5759306677171558,
-  "global_step": 4000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0002388,
-      "loss": 4.5334,
-      "step": 400
-    },
-    {
-      "epoch": 0.16,
-      "eval_loss": 2.026416063308716,
-      "eval_runtime": 471.8471,
-      "eval_samples_per_second": 10.758,
-      "eval_steps_per_second": 1.346,
-      "eval_wer": 0.9800369528744665,
-      "step": 400
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00029881808566895816,
-      "loss": 1.0808,
-      "step": 800
-    },
-    {
-      "epoch": 0.32,
-      "eval_loss": 0.7069017887115479,
-      "eval_runtime": 472.368,
-      "eval_samples_per_second": 10.746,
-      "eval_steps_per_second": 1.344,
-      "eval_wer": 0.593412194448574,
-      "step": 800
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.0002972316234796404,
-      "loss": 0.7499,
-      "step": 1200
-    },
-    {
-      "epoch": 0.47,
-      "eval_loss": 0.5792935490608215,
-      "eval_runtime": 471.2762,
-      "eval_samples_per_second": 10.771,
-      "eval_steps_per_second": 1.347,
-      "eval_wer": 0.49153694225582434,
-      "step": 1200
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00029564516129032255,
-      "loss": 0.6397,
-      "step": 1600
-    },
-    {
-      "epoch": 0.63,
-      "eval_loss": 0.5181192755699158,
-      "eval_runtime": 470.1504,
-      "eval_samples_per_second": 10.797,
-      "eval_steps_per_second": 1.351,
-      "eval_wer": 0.41618705799902306,
-      "step": 1600
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0002940586991010047,
-      "loss": 0.597,
-      "step": 2000
-    },
-    {
-      "epoch": 0.79,
-      "eval_loss": 0.47279468178749084,
-      "eval_runtime": 470.9283,
-      "eval_samples_per_second": 10.779,
-      "eval_steps_per_second": 1.348,
-      "eval_wer": 0.37248072716461017,
-      "step": 2000
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00029247223691168694,
-      "loss": 0.5666,
-      "step": 2400
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 0.4448830783367157,
-      "eval_runtime": 471.0174,
-      "eval_samples_per_second": 10.777,
-      "eval_steps_per_second": 1.348,
-      "eval_wer": 0.3520292225030263,
-      "step": 2400
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0002908857747223691,
-      "loss": 0.5067,
-      "step": 2800
-    },
-    {
-      "epoch": 1.1,
-      "eval_loss": 0.421601802110672,
-      "eval_runtime": 470.0998,
-      "eval_samples_per_second": 10.798,
-      "eval_steps_per_second": 1.351,
-      "eval_wer": 0.3330855650179455,
-      "step": 2800
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0002892993125330513,
-      "loss": 0.477,
-      "step": 3200
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 0.39891988039016724,
-      "eval_runtime": 471.7321,
-      "eval_samples_per_second": 10.76,
-      "eval_steps_per_second": 1.346,
-      "eval_wer": 0.30331089260305394,
-      "step": 3200
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.00028771285034373344,
-      "loss": 0.4633,
-      "step": 3600
-    },
-    {
-      "epoch": 1.42,
-      "eval_loss": 0.41667959094047546,
-      "eval_runtime": 473.0088,
-      "eval_samples_per_second": 10.731,
-      "eval_steps_per_second": 1.342,
-      "eval_wer": 0.3046276042219721,
-      "step": 3600
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0002861263881544156,
-      "loss": 0.4606,
-      "step": 4000
-    },
-    {
-      "epoch": 1.58,
-      "eval_loss": 0.3892616033554077,
-      "eval_runtime": 473.5469,
-      "eval_samples_per_second": 10.719,
-      "eval_steps_per_second": 1.341,
-      "eval_wer": 0.29747063945462654,
-      "step": 4000
-    }
-  ],
-  "max_steps": 76140,
-  "num_train_epochs": 30,
-  "total_flos": 5.025867257304392e+18,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-4000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c4c1c368c4db40de7b0ac3ee4ff79af2d311395b8ce794d1869af91457b7e050
-size 2863

checkpoint-4400/config.json DELETED Viewed

@@ -1,79 +0,0 @@
-{
-  "_name_or_path": "facebook/wav2vec2-xls-r-300m",
-  "activation_dropout": 0.0,
-  "apply_spec_augment": true,
-  "architectures": [
-    "Wav2Vec2ForCTC"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "classifier_proj_size": 256,
-  "codevector_dim": 768,
-  "contrastive_logits_temperature": 0.1,
-  "conv_bias": true,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    512
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
-  "ctc_loss_reduction": "mean",
-  "ctc_zero_infinity": false,
-  "diversity_loss_weight": 0.1,
-  "do_stable_layer_norm": true,
-  "eos_token_id": 2,
-  "feat_extract_activation": "gelu",
-  "feat_extract_dropout": 0.0,
-  "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.0,
-  "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout": 0.0,
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
-  "mask_feature_length": 10,
-  "mask_feature_prob": 0.0,
-  "mask_time_length": 10,
-  "mask_time_prob": 0.05,
-  "model_type": "wav2vec2",
-  "num_attention_heads": 16,
-  "num_codevector_groups": 2,
-  "num_codevectors_per_group": 320,
-  "num_conv_pos_embedding_groups": 16,
-  "num_conv_pos_embeddings": 128,
-  "num_feat_extract_layers": 7,
-  "num_hidden_layers": 24,
-  "num_negatives": 100,
-  "pad_token_id": 29,
-  "proj_codevector_dim": 768,
-  "torch_dtype": "float32",
-  "transformers_version": "4.11.3",
-  "use_weighted_layer_sum": false,
-  "vocab_size": 32
-}

checkpoint-4400/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:10430c88cb27d80d4909d60b1f5b4649806024e17f499620af7b33e594972686
-size 2490321361

checkpoint-4400/preprocessor_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0.0,
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

checkpoint-4400/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9f6b19c2693a520d464d36c22f9e97cab05ee230f04af2c84cb79a18b55c8190
-size 1262054897

checkpoint-4400/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f850e9eef43b3d8d7daa339e72e185c9b03f2fbdfe48df592252aedbe1875965
-size 14567

checkpoint-4400/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4affccbe68b9032483a9a189417afa898f74547fed0e8eff9cfb5b00deb58885
-size 559

checkpoint-4400/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e11bf57746f56037dc02c0f1b9ef426c313cafb919b3099b8b7f85426ae9e2d5
-size 623

checkpoint-4400/trainer_state.json DELETED Viewed

@@ -1,181 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.733504037817609,
-  "global_step": 4400,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0002388,
-      "loss": 4.5334,
-      "step": 400
-    },
-    {
-      "epoch": 0.16,
-      "eval_loss": 2.026416063308716,
-      "eval_runtime": 471.8471,
-      "eval_samples_per_second": 10.758,
-      "eval_steps_per_second": 1.346,
-      "eval_wer": 0.9800369528744665,
-      "step": 400
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00029881808566895816,
-      "loss": 1.0808,
-      "step": 800
-    },
-    {
-      "epoch": 0.32,
-      "eval_loss": 0.7069017887115479,
-      "eval_runtime": 472.368,
-      "eval_samples_per_second": 10.746,
-      "eval_steps_per_second": 1.344,
-      "eval_wer": 0.593412194448574,
-      "step": 800
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.0002972316234796404,
-      "loss": 0.7499,
-      "step": 1200
-    },
-    {
-      "epoch": 0.47,
-      "eval_loss": 0.5792935490608215,
-      "eval_runtime": 471.2762,
-      "eval_samples_per_second": 10.771,
-      "eval_steps_per_second": 1.347,
-      "eval_wer": 0.49153694225582434,
-      "step": 1200
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00029564516129032255,
-      "loss": 0.6397,
-      "step": 1600
-    },
-    {
-      "epoch": 0.63,
-      "eval_loss": 0.5181192755699158,
-      "eval_runtime": 470.1504,
-      "eval_samples_per_second": 10.797,
-      "eval_steps_per_second": 1.351,
-      "eval_wer": 0.41618705799902306,
-      "step": 1600
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0002940586991010047,
-      "loss": 0.597,
-      "step": 2000
-    },
-    {
-      "epoch": 0.79,
-      "eval_loss": 0.47279468178749084,
-      "eval_runtime": 470.9283,
-      "eval_samples_per_second": 10.779,
-      "eval_steps_per_second": 1.348,
-      "eval_wer": 0.37248072716461017,
-      "step": 2000
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00029247223691168694,
-      "loss": 0.5666,
-      "step": 2400
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 0.4448830783367157,
-      "eval_runtime": 471.0174,
-      "eval_samples_per_second": 10.777,
-      "eval_steps_per_second": 1.348,
-      "eval_wer": 0.3520292225030263,
-      "step": 2400
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0002908857747223691,
-      "loss": 0.5067,
-      "step": 2800
-    },
-    {
-      "epoch": 1.1,
-      "eval_loss": 0.421601802110672,
-      "eval_runtime": 470.0998,
-      "eval_samples_per_second": 10.798,
-      "eval_steps_per_second": 1.351,
-      "eval_wer": 0.3330855650179455,
-      "step": 2800
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0002892993125330513,
-      "loss": 0.477,
-      "step": 3200
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 0.39891988039016724,
-      "eval_runtime": 471.7321,
-      "eval_samples_per_second": 10.76,
-      "eval_steps_per_second": 1.346,
-      "eval_wer": 0.30331089260305394,
-      "step": 3200
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.00028771285034373344,
-      "loss": 0.4633,
-      "step": 3600
-    },
-    {
-      "epoch": 1.42,
-      "eval_loss": 0.41667959094047546,
-      "eval_runtime": 473.0088,
-      "eval_samples_per_second": 10.731,
-      "eval_steps_per_second": 1.342,
-      "eval_wer": 0.3046276042219721,
-      "step": 3600
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0002861263881544156,
-      "loss": 0.4606,
-      "step": 4000
-    },
-    {
-      "epoch": 1.58,
-      "eval_loss": 0.3892616033554077,
-      "eval_runtime": 473.5469,
-      "eval_samples_per_second": 10.719,
-      "eval_steps_per_second": 1.341,
-      "eval_wer": 0.29747063945462654,
-      "step": 4000
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002845399259650978,
-      "loss": 0.4385,
-      "step": 4400
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 0.3867528438568115,
-      "eval_runtime": 471.6975,
-      "eval_samples_per_second": 10.761,
-      "eval_steps_per_second": 1.346,
-      "eval_wer": 0.3090237220464247,
-      "step": 4400
-    }
-  ],
-  "max_steps": 76140,
-  "num_train_epochs": 30,
-  "total_flos": 5.530258185352643e+18,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-4400/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c4c1c368c4db40de7b0ac3ee4ff79af2d311395b8ce794d1869af91457b7e050
-size 2863

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64b32822466e070769a1da09a87aa88cdff1e2a2734026074c4f1c075fb5c0ce
 size 3850876337

 version https://git-lfs.github.com/spec/v1
+oid sha256:76746edfd1645c596b48e8d49de9250fa4f78eb6ae4945a10266c6e82226bfbc
 size 3850876337

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 1.3125287554224614,
+    "train_runtime": 67690.7896,
+    "train_samples": 20306,
+    "train_samples_per_second": 6.0,
+    "train_steps_per_second": 0.25
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,655 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.99970457902511,
+  "global_step": 16920,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00029775,
+      "loss": 3.3587,
+      "step": 400
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.1883399486541748,
+      "eval_runtime": 298.8414,
+      "eval_samples_per_second": 16.986,
+      "eval_steps_per_second": 2.831,
+      "eval_wer": 0.8392195865162833,
+      "step": 400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00029279055690072635,
+      "loss": 1.8377,
+      "step": 800
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.8830727338790894,
+      "eval_runtime": 295.1554,
+      "eval_samples_per_second": 17.198,
+      "eval_steps_per_second": 2.866,
+      "eval_wer": 0.6852318175085172,
+      "step": 800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00028552663438256653,
+      "loss": 1.7118,
+      "step": 1200
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.8031275868415833,
+      "eval_runtime": 296.1538,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 2.857,
+      "eval_wer": 0.6565588166832427,
+      "step": 1200
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00027826271186440676,
+      "loss": 1.6741,
+      "step": 1600
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.7517648339271545,
+      "eval_runtime": 296.1537,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 2.857,
+      "eval_wer": 0.6104492456144063,
+      "step": 1600
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00027099878934624694,
+      "loss": 1.6163,
+      "step": 2000
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.6887586712837219,
+      "eval_runtime": 298.4301,
+      "eval_samples_per_second": 17.009,
+      "eval_steps_per_second": 2.835,
+      "eval_wer": 0.5590706138773092,
+      "step": 2000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0002637348668280871,
+      "loss": 1.5782,
+      "step": 2400
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.6580386161804199,
+      "eval_runtime": 296.628,
+      "eval_samples_per_second": 17.112,
+      "eval_steps_per_second": 2.852,
+      "eval_wer": 0.5164525890344288,
+      "step": 2400
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0002564709443099273,
+      "loss": 1.5548,
+      "step": 2800
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 0.6505530476570129,
+      "eval_runtime": 300.5251,
+      "eval_samples_per_second": 16.89,
+      "eval_steps_per_second": 2.815,
+      "eval_wer": 0.5184417123389128,
+      "step": 2800
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 0.00024920702179176754,
+      "loss": 1.5249,
+      "step": 3200
+    },
+    {
+      "epoch": 3.78,
+      "eval_loss": 0.6197642683982849,
+      "eval_runtime": 298.2224,
+      "eval_samples_per_second": 17.021,
+      "eval_steps_per_second": 2.837,
+      "eval_wer": 0.5028461391963095,
+      "step": 3200
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 0.00024194309927360772,
+      "loss": 1.5078,
+      "step": 3600
+    },
+    {
+      "epoch": 4.26,
+      "eval_loss": 0.5992246866226196,
+      "eval_runtime": 298.0744,
+      "eval_samples_per_second": 17.029,
+      "eval_steps_per_second": 2.838,
+      "eval_wer": 0.4932179359671583,
+      "step": 3600
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.0002346791767554479,
+      "loss": 1.4836,
+      "step": 4000
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.5705241560935974,
+      "eval_runtime": 292.5306,
+      "eval_samples_per_second": 17.352,
+      "eval_steps_per_second": 2.892,
+      "eval_wer": 0.46513743995598533,
+      "step": 4000
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.0002274152542372881,
+      "loss": 1.4505,
+      "step": 4400
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 0.5488837957382202,
+      "eval_runtime": 300.7764,
+      "eval_samples_per_second": 16.876,
+      "eval_steps_per_second": 2.813,
+      "eval_wer": 0.4507691982140212,
+      "step": 4400
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 0.00022015133171912832,
+      "loss": 1.4481,
+      "step": 4800
+    },
+    {
+      "epoch": 5.67,
+      "eval_loss": 0.5577110052108765,
+      "eval_runtime": 299.1357,
+      "eval_samples_per_second": 16.969,
+      "eval_steps_per_second": 2.828,
+      "eval_wer": 0.45624986774446114,
+      "step": 4800
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 0.0002128874092009685,
+      "loss": 1.4136,
+      "step": 5200
+    },
+    {
+      "epoch": 6.15,
+      "eval_loss": 0.5452219247817993,
+      "eval_runtime": 298.6905,
+      "eval_samples_per_second": 16.994,
+      "eval_steps_per_second": 2.832,
+      "eval_wer": 0.4370992657172482,
+      "step": 5200
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 0.00020564164648910412,
+      "loss": 1.3861,
+      "step": 5600
+    },
+    {
+      "epoch": 6.62,
+      "eval_loss": 0.510087788105011,
+      "eval_runtime": 298.7447,
+      "eval_samples_per_second": 16.991,
+      "eval_steps_per_second": 2.832,
+      "eval_wer": 0.40865903464037073,
+      "step": 5600
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 0.0001983777239709443,
+      "loss": 1.3772,
+      "step": 6000
+    },
+    {
+      "epoch": 7.09,
+      "eval_loss": 0.49333110451698303,
+      "eval_runtime": 298.2699,
+      "eval_samples_per_second": 17.018,
+      "eval_steps_per_second": 2.836,
+      "eval_wer": 0.39513722834712317,
+      "step": 6000
+    },
+    {
+      "epoch": 7.56,
+      "learning_rate": 0.00019111380145278448,
+      "loss": 1.3478,
+      "step": 6400
+    },
+    {
+      "epoch": 7.56,
+      "eval_loss": 0.4849308133125305,
+      "eval_runtime": 299.279,
+      "eval_samples_per_second": 16.961,
+      "eval_steps_per_second": 2.827,
+      "eval_wer": 0.3921747042766151,
+      "step": 6400
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.0001838498789346247,
+      "loss": 1.3394,
+      "step": 6800
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 0.4805210828781128,
+      "eval_runtime": 297.1556,
+      "eval_samples_per_second": 17.082,
+      "eval_steps_per_second": 2.847,
+      "eval_wer": 0.3891698584336712,
+      "step": 6800
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 0.00017658595641646487,
+      "loss": 1.3095,
+      "step": 7200
+    },
+    {
+      "epoch": 8.51,
+      "eval_loss": 0.48388615250587463,
+      "eval_runtime": 298.6068,
+      "eval_samples_per_second": 16.999,
+      "eval_steps_per_second": 2.833,
+      "eval_wer": 0.38335061472374465,
+      "step": 7200
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 0.00016932203389830508,
+      "loss": 1.306,
+      "step": 7600
+    },
+    {
+      "epoch": 8.98,
+      "eval_loss": 0.461063027381897,
+      "eval_runtime": 296.7161,
+      "eval_samples_per_second": 17.107,
+      "eval_steps_per_second": 2.851,
+      "eval_wer": 0.35865586050743803,
+      "step": 7600
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 0.00016205811138014526,
+      "loss": 1.2707,
+      "step": 8000
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.4544948935508728,
+      "eval_runtime": 298.2639,
+      "eval_samples_per_second": 17.018,
+      "eval_steps_per_second": 2.836,
+      "eval_wer": 0.3730241022494022,
+      "step": 8000
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 0.00015479418886198547,
+      "loss": 1.2626,
+      "step": 8400
+    },
+    {
+      "epoch": 9.93,
+      "eval_loss": 0.4515869617462158,
+      "eval_runtime": 299.4234,
+      "eval_samples_per_second": 16.953,
+      "eval_steps_per_second": 2.825,
+      "eval_wer": 0.35241339907315317,
+      "step": 8400
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 0.00014753026634382565,
+      "loss": 1.2412,
+      "step": 8800
+    },
+    {
+      "epoch": 10.4,
+      "eval_loss": 0.4314204454421997,
+      "eval_runtime": 294.8808,
+      "eval_samples_per_second": 17.214,
+      "eval_steps_per_second": 2.869,
+      "eval_wer": 0.3310197431068413,
+      "step": 8800
+    },
+    {
+      "epoch": 10.87,
+      "learning_rate": 0.00014026634382566583,
+      "loss": 1.2456,
+      "step": 9200
+    },
+    {
+      "epoch": 10.87,
+      "eval_loss": 0.4400792419910431,
+      "eval_runtime": 296.6883,
+      "eval_samples_per_second": 17.109,
+      "eval_steps_per_second": 2.851,
+      "eval_wer": 0.3458958461180354,
+      "step": 9200
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 0.00013302058111380144,
+      "loss": 1.2081,
+      "step": 9600
+    },
+    {
+      "epoch": 11.35,
+      "eval_loss": 0.4399240016937256,
+      "eval_runtime": 295.1566,
+      "eval_samples_per_second": 17.198,
+      "eval_steps_per_second": 2.866,
+      "eval_wer": 0.33563281630234676,
+      "step": 9600
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 0.00012575665859564165,
+      "loss": 1.1998,
+      "step": 10000
+    },
+    {
+      "epoch": 11.82,
+      "eval_loss": 0.41947221755981445,
+      "eval_runtime": 296.8576,
+      "eval_samples_per_second": 17.099,
+      "eval_steps_per_second": 2.85,
+      "eval_wer": 0.3215396660812155,
+      "step": 10000
+    },
+    {
+      "epoch": 12.29,
+      "learning_rate": 0.00011851089588377723,
+      "loss": 1.1826,
+      "step": 10400
+    },
+    {
+      "epoch": 12.29,
+      "eval_loss": 0.4220864474773407,
+      "eval_runtime": 296.3734,
+      "eval_samples_per_second": 17.127,
+      "eval_steps_per_second": 2.855,
+      "eval_wer": 0.3177518674482087,
+      "step": 10400
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 0.00011124697336561742,
+      "loss": 1.1573,
+      "step": 10800
+    },
+    {
+      "epoch": 12.77,
+      "eval_loss": 0.4097737967967987,
+      "eval_runtime": 297.6541,
+      "eval_samples_per_second": 17.053,
+      "eval_steps_per_second": 2.842,
+      "eval_wer": 0.3084199166261083,
+      "step": 10800
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 0.00010398305084745762,
+      "loss": 1.1416,
+      "step": 11200
+    },
+    {
+      "epoch": 13.24,
+      "eval_loss": 0.4085627496242523,
+      "eval_runtime": 296.7019,
+      "eval_samples_per_second": 17.108,
+      "eval_steps_per_second": 2.851,
+      "eval_wer": 0.3119114628520642,
+      "step": 11200
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 9.671912832929781e-05,
+      "loss": 1.1174,
+      "step": 11600
+    },
+    {
+      "epoch": 13.71,
+      "eval_loss": 0.3854358196258545,
+      "eval_runtime": 297.2728,
+      "eval_samples_per_second": 17.075,
+      "eval_steps_per_second": 2.846,
+      "eval_wer": 0.2910468290412003,
+      "step": 11600
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 8.947336561743341e-05,
+      "loss": 1.1048,
+      "step": 12000
+    },
+    {
+      "epoch": 14.18,
+      "eval_loss": 0.38590070605278015,
+      "eval_runtime": 297.414,
+      "eval_samples_per_second": 17.067,
+      "eval_steps_per_second": 2.845,
+      "eval_wer": 0.282413187464291,
+      "step": 12000
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 8.22094430992736e-05,
+      "loss": 1.0748,
+      "step": 12400
+    },
+    {
+      "epoch": 14.66,
+      "eval_loss": 0.3854171633720398,
+      "eval_runtime": 295.6597,
+      "eval_samples_per_second": 17.168,
+      "eval_steps_per_second": 2.861,
+      "eval_wer": 0.275705186533212,
+      "step": 12400
+    },
+    {
+      "epoch": 15.13,
+      "learning_rate": 7.494552058111379e-05,
+      "loss": 1.0697,
+      "step": 12800
+    },
+    {
+      "epoch": 15.13,
+      "eval_loss": 0.37401217222213745,
+      "eval_runtime": 297.4379,
+      "eval_samples_per_second": 17.066,
+      "eval_steps_per_second": 2.844,
+      "eval_wer": 0.2723829273969994,
+      "step": 12800
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 6.7681598062954e-05,
+      "loss": 1.0477,
+      "step": 13200
+    },
+    {
+      "epoch": 15.6,
+      "eval_loss": 0.3693487048149109,
+      "eval_runtime": 298.4761,
+      "eval_samples_per_second": 17.006,
+      "eval_steps_per_second": 2.834,
+      "eval_wer": 0.2642994688617559,
+      "step": 13200
+    },
+    {
+      "epoch": 16.08,
+      "learning_rate": 6.0417675544794184e-05,
+      "loss": 1.0356,
+      "step": 13600
+    },
+    {
+      "epoch": 16.08,
+      "eval_loss": 0.3726678788661957,
+      "eval_runtime": 298.583,
+      "eval_samples_per_second": 17.0,
+      "eval_steps_per_second": 2.833,
+      "eval_wer": 0.2561102058954229,
+      "step": 13600
+    },
+    {
+      "epoch": 16.55,
+      "learning_rate": 5.315375302663438e-05,
+      "loss": 1.0083,
+      "step": 14000
+    },
+    {
+      "epoch": 16.55,
+      "eval_loss": 0.36522331833839417,
+      "eval_runtime": 301.7885,
+      "eval_samples_per_second": 16.82,
+      "eval_steps_per_second": 2.803,
+      "eval_wer": 0.25007935332331716,
+      "step": 14000
+    },
+    {
+      "epoch": 17.02,
+      "learning_rate": 4.5889830508474574e-05,
+      "loss": 1.0,
+      "step": 14400
+    },
+    {
+      "epoch": 17.02,
+      "eval_loss": 0.36411818861961365,
+      "eval_runtime": 297.5091,
+      "eval_samples_per_second": 17.062,
+      "eval_steps_per_second": 2.844,
+      "eval_wer": 0.24572021076242673,
+      "step": 14400
+    },
+    {
+      "epoch": 17.49,
+      "learning_rate": 3.862590799031477e-05,
+      "loss": 0.9779,
+      "step": 14800
+    },
+    {
+      "epoch": 17.49,
+      "eval_loss": 0.35678642988204956,
+      "eval_runtime": 295.5669,
+      "eval_samples_per_second": 17.174,
+      "eval_steps_per_second": 2.862,
+      "eval_wer": 0.24089552870474215,
+      "step": 14800
+    },
+    {
+      "epoch": 17.97,
+      "learning_rate": 3.1361985472154963e-05,
+      "loss": 0.9596,
+      "step": 15200
+    },
+    {
+      "epoch": 17.97,
+      "eval_loss": 0.3557918071746826,
+      "eval_runtime": 296.6965,
+      "eval_samples_per_second": 17.108,
+      "eval_steps_per_second": 2.851,
+      "eval_wer": 0.23759443045474746,
+      "step": 15200
+    },
+    {
+      "epoch": 18.44,
+      "learning_rate": 2.4098062953995155e-05,
+      "loss": 0.946,
+      "step": 15600
+    },
+    {
+      "epoch": 18.44,
+      "eval_loss": 0.35907429456710815,
+      "eval_runtime": 295.7242,
+      "eval_samples_per_second": 17.165,
+      "eval_steps_per_second": 2.861,
+      "eval_wer": 0.23114036015828343,
+      "step": 15600
+    },
+    {
+      "epoch": 18.91,
+      "learning_rate": 1.685230024213075e-05,
+      "loss": 0.9389,
+      "step": 16000
+    },
+    {
+      "epoch": 18.91,
+      "eval_loss": 0.3540380001068115,
+      "eval_runtime": 296.3149,
+      "eval_samples_per_second": 17.13,
+      "eval_steps_per_second": 2.855,
+      "eval_wer": 0.22828364051886493,
+      "step": 16000
+    },
+    {
+      "epoch": 19.39,
+      "learning_rate": 9.588377723970942e-06,
+      "loss": 0.9173,
+      "step": 16400
+    },
+    {
+      "epoch": 19.39,
+      "eval_loss": 0.35515815019607544,
+      "eval_runtime": 296.2267,
+      "eval_samples_per_second": 17.136,
+      "eval_steps_per_second": 2.856,
+      "eval_wer": 0.2265061260765601,
+      "step": 16400
+    },
+    {
+      "epoch": 19.86,
+      "learning_rate": 2.3244552058111378e-06,
+      "loss": 0.9122,
+      "step": 16800
+    },
+    {
+      "epoch": 19.86,
+      "eval_loss": 0.353456050157547,
+      "eval_runtime": 298.3571,
+      "eval_samples_per_second": 17.013,
+      "eval_steps_per_second": 2.836,
+      "eval_wer": 0.22502486404130606,
+      "step": 16800
+    },
+    {
+      "epoch": 20.0,
+      "step": 16920,
+      "total_flos": 1.9284410553255697e+20,
+      "train_loss": 1.3125287554224614,
+      "train_runtime": 67690.7896,
+      "train_samples_per_second": 6.0,
+      "train_steps_per_second": 0.25
+    }
+  ],
+  "max_steps": 16920,
+  "num_train_epochs": 20,
+  "total_flos": 1.9284410553255697e+20,
+  "trial_name": null,
+  "trial_params": null
+}

validation_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "eval_loss": 0.3532930910587311,
+    "eval_runtime": 297.867,
+    "eval_samples": 5076,
+    "eval_samples_per_second": 17.041,
+    "eval_steps_per_second": 2.84,
+    "eval_wer": 0.22513066847239563
+}