Initial upload of fine-tuned model

Browse files

Files changed (12) hide show

added_tokens.json +4 -0
config.json +116 -0
model.safetensors +3 -0
optimizer.pt +3 -0
preprocessor_config.json +10 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +6 -0
tokenizer_config.json +40 -0
trainer_state.json +369 -0
training_args.bin +3 -0
vocab.json +42 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</s>": 41,
+  "[PAD]": 40
+}

config.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 40,
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 41,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee55bfec7db41e7ac3285da5f500b66565407b1819658c87c928bf92d0733b9b
+size 1261975580

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6f1a15abc9fb647c6dbccb3f57e21ef3afff406edeed77c4d5ff19bbcaa4788
+size 2490495926

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2Processor",
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7bfff24010ce5addc6819311c0cd527c781debae728b3dab4834c2c00f9e1e4
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac12145411f3297fd1c8f86688bb9872f0cff0af2b85faa89a991e959ebe046c
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "39": {
+      "content": "[UNK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "40": {
+      "content": "[PAD]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "41": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "processor_class": "Wav2Vec2Processor",
+  "replace_word_delimiter_char": " ",
+  "target_lang": null,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,369 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.0,
+  "eval_steps": 500,
+  "global_step": 10584,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.6613756613756614,
+      "grad_norm": 4.001740455627441,
+      "learning_rate": 0.00014879999999999998,
+      "loss": 5.2541,
+      "step": 500
+    },
+    {
+      "epoch": 0.6613756613756614,
+      "eval_cer": 0.7718660765772963,
+      "eval_loss": 2.2404534816741943,
+      "eval_runtime": 101.1138,
+      "eval_samples_per_second": 29.897,
+      "eval_steps_per_second": 3.738,
+      "step": 500
+    },
+    {
+      "epoch": 1.3227513227513228,
+      "grad_norm": 2.757023334503174,
+      "learning_rate": 0.0002988,
+      "loss": 0.9761,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3227513227513228,
+      "eval_cer": 0.15263351698359653,
+      "eval_loss": 0.45504969358444214,
+      "eval_runtime": 101.0814,
+      "eval_samples_per_second": 29.907,
+      "eval_steps_per_second": 3.74,
+      "step": 1000
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "grad_norm": 3.515296697616577,
+      "learning_rate": 0.000284474123539232,
+      "loss": 0.6318,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "eval_cer": 0.14255243759249095,
+      "eval_loss": 0.37101900577545166,
+      "eval_runtime": 100.1575,
+      "eval_samples_per_second": 30.182,
+      "eval_steps_per_second": 3.774,
+      "step": 1500
+    },
+    {
+      "epoch": 2.6455026455026456,
+      "grad_norm": 3.0831806659698486,
+      "learning_rate": 0.00026882303839732884,
+      "loss": 0.4988,
+      "step": 2000
+    },
+    {
+      "epoch": 2.6455026455026456,
+      "eval_cer": 0.13127635774978635,
+      "eval_loss": 0.33260029554367065,
+      "eval_runtime": 101.862,
+      "eval_samples_per_second": 29.677,
+      "eval_steps_per_second": 3.711,
+      "step": 2000
+    },
+    {
+      "epoch": 3.306878306878307,
+      "grad_norm": 2.1343257427215576,
+      "learning_rate": 0.00025317195325542566,
+      "loss": 0.4457,
+      "step": 2500
+    },
+    {
+      "epoch": 3.306878306878307,
+      "eval_cer": 0.12462048314146165,
+      "eval_loss": 0.3164725601673126,
+      "eval_runtime": 100.3857,
+      "eval_samples_per_second": 30.114,
+      "eval_steps_per_second": 3.765,
+      "step": 2500
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "grad_norm": 2.458252191543579,
+      "learning_rate": 0.00023752086811352254,
+      "loss": 0.4001,
+      "step": 3000
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "eval_cer": 0.11981963830393308,
+      "eval_loss": 0.29567044973373413,
+      "eval_runtime": 100.366,
+      "eval_samples_per_second": 30.12,
+      "eval_steps_per_second": 3.766,
+      "step": 3000
+    },
+    {
+      "epoch": 4.62962962962963,
+      "grad_norm": 2.29879093170166,
+      "learning_rate": 0.00022186978297161937,
+      "loss": 0.3481,
+      "step": 3500
+    },
+    {
+      "epoch": 4.62962962962963,
+      "eval_cer": 0.11847873663440629,
+      "eval_loss": 0.2806848883628845,
+      "eval_runtime": 100.2612,
+      "eval_samples_per_second": 30.151,
+      "eval_steps_per_second": 3.77,
+      "step": 3500
+    },
+    {
+      "epoch": 5.291005291005291,
+      "grad_norm": 1.4758025407791138,
+      "learning_rate": 0.0002062186978297162,
+      "loss": 0.3299,
+      "step": 4000
+    },
+    {
+      "epoch": 5.291005291005291,
+      "eval_cer": 0.1159011484510154,
+      "eval_loss": 0.27692675590515137,
+      "eval_runtime": 100.2812,
+      "eval_samples_per_second": 30.145,
+      "eval_steps_per_second": 3.769,
+      "step": 4000
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "grad_norm": 1.3598448038101196,
+      "learning_rate": 0.00019056761268781302,
+      "loss": 0.3024,
+      "step": 4500
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "eval_cer": 0.11369178715096608,
+      "eval_loss": 0.26659879088401794,
+      "eval_runtime": 100.6471,
+      "eval_samples_per_second": 30.036,
+      "eval_steps_per_second": 3.756,
+      "step": 4500
+    },
+    {
+      "epoch": 6.613756613756614,
+      "grad_norm": 1.0627385377883911,
+      "learning_rate": 0.00017491652754590985,
+      "loss": 0.273,
+      "step": 5000
+    },
+    {
+      "epoch": 6.613756613756614,
+      "eval_cer": 0.11135041998707731,
+      "eval_loss": 0.2516258955001831,
+      "eval_runtime": 100.6836,
+      "eval_samples_per_second": 30.025,
+      "eval_steps_per_second": 3.754,
+      "step": 5000
+    },
+    {
+      "epoch": 7.275132275132275,
+      "grad_norm": 2.335207223892212,
+      "learning_rate": 0.00015926544240400667,
+      "loss": 0.2573,
+      "step": 5500
+    },
+    {
+      "epoch": 7.275132275132275,
+      "eval_cer": 0.11219108890942313,
+      "eval_loss": 0.26705658435821533,
+      "eval_runtime": 100.0417,
+      "eval_samples_per_second": 30.217,
+      "eval_steps_per_second": 3.778,
+      "step": 5500
+    },
+    {
+      "epoch": 7.936507936507937,
+      "grad_norm": 2.2953412532806396,
+      "learning_rate": 0.0001436143572621035,
+      "loss": 0.2373,
+      "step": 6000
+    },
+    {
+      "epoch": 7.936507936507937,
+      "eval_cer": 0.11012068115025742,
+      "eval_loss": 0.26839447021484375,
+      "eval_runtime": 101.1747,
+      "eval_samples_per_second": 29.879,
+      "eval_steps_per_second": 3.736,
+      "step": 6000
+    },
+    {
+      "epoch": 8.597883597883598,
+      "grad_norm": 1.1853502988815308,
+      "learning_rate": 0.00012796327212020032,
+      "loss": 0.2196,
+      "step": 6500
+    },
+    {
+      "epoch": 8.597883597883598,
+      "eval_cer": 0.10729992427032022,
+      "eval_loss": 0.2642601728439331,
+      "eval_runtime": 100.6315,
+      "eval_samples_per_second": 30.04,
+      "eval_steps_per_second": 3.756,
+      "step": 6500
+    },
+    {
+      "epoch": 9.25925925925926,
+      "grad_norm": 4.087908744812012,
+      "learning_rate": 0.00011234348914858095,
+      "loss": 0.2033,
+      "step": 7000
+    },
+    {
+      "epoch": 9.25925925925926,
+      "eval_cer": 0.10725129053101096,
+      "eval_loss": 0.27656930685043335,
+      "eval_runtime": 100.8711,
+      "eval_samples_per_second": 29.969,
+      "eval_steps_per_second": 3.747,
+      "step": 7000
+    },
+    {
+      "epoch": 9.920634920634921,
+      "grad_norm": 2.103665351867676,
+      "learning_rate": 9.669240400667779e-05,
+      "loss": 0.1958,
+      "step": 7500
+    },
+    {
+      "epoch": 9.920634920634921,
+      "eval_cer": 0.10560469107154023,
+      "eval_loss": 0.2580866515636444,
+      "eval_runtime": 100.9128,
+      "eval_samples_per_second": 29.957,
+      "eval_steps_per_second": 3.746,
+      "step": 7500
+    },
+    {
+      "epoch": 10.582010582010582,
+      "grad_norm": 4.133511066436768,
+      "learning_rate": 8.104131886477462e-05,
+      "loss": 0.1758,
+      "step": 8000
+    },
+    {
+      "epoch": 10.582010582010582,
+      "eval_cer": 0.10472233608692934,
+      "eval_loss": 0.2675287127494812,
+      "eval_runtime": 100.8159,
+      "eval_samples_per_second": 29.985,
+      "eval_steps_per_second": 3.749,
+      "step": 8000
+    },
+    {
+      "epoch": 11.243386243386244,
+      "grad_norm": 1.4247872829437256,
+      "learning_rate": 6.539023372287144e-05,
+      "loss": 0.1671,
+      "step": 8500
+    },
+    {
+      "epoch": 11.243386243386244,
+      "eval_cer": 0.1042429463708809,
+      "eval_loss": 0.2661576569080353,
+      "eval_runtime": 100.6921,
+      "eval_samples_per_second": 30.022,
+      "eval_steps_per_second": 3.754,
+      "step": 8500
+    },
+    {
+      "epoch": 11.904761904761905,
+      "grad_norm": 1.5974005460739136,
+      "learning_rate": 4.9739148580968275e-05,
+      "loss": 0.1589,
+      "step": 9000
+    },
+    {
+      "epoch": 11.904761904761905,
+      "eval_cer": 0.10398588232024622,
+      "eval_loss": 0.26505181193351746,
+      "eval_runtime": 100.6474,
+      "eval_samples_per_second": 30.036,
+      "eval_steps_per_second": 3.756,
+      "step": 9000
+    },
+    {
+      "epoch": 12.566137566137566,
+      "grad_norm": 0.8991349935531616,
+      "learning_rate": 3.408806343906511e-05,
+      "loss": 0.1433,
+      "step": 9500
+    },
+    {
+      "epoch": 12.566137566137566,
+      "eval_cer": 0.10245044569348238,
+      "eval_loss": 0.2700433135032654,
+      "eval_runtime": 101.5429,
+      "eval_samples_per_second": 29.771,
+      "eval_steps_per_second": 3.723,
+      "step": 9500
+    },
+    {
+      "epoch": 13.227513227513228,
+      "grad_norm": 1.4518108367919922,
+      "learning_rate": 1.8436978297161933e-05,
+      "loss": 0.1394,
+      "step": 10000
+    },
+    {
+      "epoch": 13.227513227513228,
+      "eval_cer": 0.10264498065071943,
+      "eval_loss": 0.27115562558174133,
+      "eval_runtime": 108.9106,
+      "eval_samples_per_second": 27.757,
+      "eval_steps_per_second": 3.471,
+      "step": 10000
+    },
+    {
+      "epoch": 13.88888888888889,
+      "grad_norm": 1.4964288473129272,
+      "learning_rate": 2.817195325542571e-06,
+      "loss": 0.1318,
+      "step": 10500
+    },
+    {
+      "epoch": 13.88888888888889,
+      "eval_cer": 0.10274919580638213,
+      "eval_loss": 0.2701418697834015,
+      "eval_runtime": 100.2825,
+      "eval_samples_per_second": 30.145,
+      "eval_steps_per_second": 3.769,
+      "step": 10500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 10584,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 14,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.0915180948213604e+19,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7aa28fd00175efe967014fe4050d5f6631387ca3983cba58afca6e40e3f57ee4
+size 5304

vocab.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "[PAD]": 40,
+  "[UNK]": 39,
+  "a": 10,
+  "b": 23,
+  "d": 12,
+  "e": 21,
+  "f": 37,
+  "h": 30,
+  "i": 22,
+  "j": 0,
+  "k": 28,
+  "l": 35,
+  "m": 1,
+  "n": 6,
+  "o": 25,
+  "p": 11,
+  "s": 14,
+  "t": 18,
+  "u": 5,
+  "v": 2,
+  "w": 27,
+  "z": 20,
+  "|": 31,
+  "æ": 29,
+  "ð": 34,
+  "ŋ": 33,
+  "ɑ": 38,
+  "ɔ": 19,
+  "ə": 13,
+  "ɚ": 15,
+  "ɛ": 17,
+  "ɡ": 8,
+  "ɪ": 24,
+  "ɹ": 36,
+  "ʃ": 7,
+  "ʊ": 4,
+  "ʌ": 9,
+  "ʒ": 26,
+  "͡": 3,
+  "θ": 16
+}