first init

Browse files

Files changed (11) hide show

README.md +50 -0
config.json +76 -0
optimizer.pt +3 -0
preprocessor_config.json +8 -0
pytorch_model.bin +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
trainer_state.json +100 -0
training_args.bin +3 -0
vocab.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,50 @@

+---
+language: id
+datasets:
+- common_voice
+tags:
+- speech
+- audio
+- automatic-speech-recognition
+license: apache-2.0
+---
+## Evaluation on Common Voice NL Test
+```python
+import torchaudio
+from datasets import load_dataset, load_metric
+from transformers import (
+    Wav2Vec2ForCTC,
+    Wav2Vec2Processor,
+)
+import torch
+import re
+import sys
+model_name = "munggok/xlsr_indonesia"
+device = "cuda"
+chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605
+model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+ds = load_dataset("common_voice", "nl", split="test", data_dir="./cv-corpus-6.1-2020-12-11")
+resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
+def map_to_array(batch):
+    speech, _ = torchaudio.load(batch["path"])
+    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
+    batch["sampling_rate"] = resampler.new_freq
+    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
+    return batch
+ds = ds.map(map_to_array)
+def map_to_pred(batch):
+    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
+    input_values = features.input_values.to(device)
+    attention_mask = features.attention_mask.to(device)
+    with torch.no_grad():
+        logits = model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["predicted"] = processor.batch_decode(pred_ids)
+    batch["target"] = batch["sentence"]
+    return batch
+result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
+wer = load_metric("wer")
+print(wer.compute(predictions=result["predicted"], references=result["target"]))
+```
+**Result**: 25.7 %

config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 31,
+  "transformers_version": "4.4.0.dev0",
+  "vocab_size": 32
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c67b8f3d154b6b27f24cd73d3d78bc0e0ef5eabeda9656f8fdadb3a8a3809b1
+size 2490333205

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d065f982130fb1eacb9da082e3b302a3b32e63e36aea272745181857aecb76c
+size 1262060813

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24ef0b62cb8437196e7d6630866e06db9c28ac32a5ecf46fb1e8412c266225da
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,100 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 58.064516129032256,
+  "global_step": 3600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 9.68,
+      "learning_rate": 0.0002906832298136646,
+      "loss": 3.3346,
+      "step": 600
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.4317544102668762,
+      "eval_runtime": 130.0321,
+      "eval_samples_per_second": 14.181,
+      "eval_wer": 0.5394368823419727,
+      "step": 600
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 0.00023478260869565215,
+      "loss": 0.1371,
+      "step": 1200
+    },
+    {
+      "epoch": 19.35,
+      "eval_loss": 0.39734482765197754,
+      "eval_runtime": 130.3612,
+      "eval_samples_per_second": 14.145,
+      "eval_wer": 0.4464851762073466,
+      "step": 1200
+    },
+    {
+      "epoch": 29.03,
+      "learning_rate": 0.00017888198757763974,
+      "loss": 0.0616,
+      "step": 1800
+    },
+    {
+      "epoch": 29.03,
+      "eval_loss": 0.46754732728004456,
+      "eval_runtime": 132.7444,
+      "eval_samples_per_second": 13.891,
+      "eval_wer": 0.43147492075330973,
+      "step": 1800
+    },
+    {
+      "epoch": 38.71,
+      "learning_rate": 0.00012298136645962733,
+      "loss": 0.0415,
+      "step": 2400
+    },
+    {
+      "epoch": 38.71,
+      "eval_loss": 0.45845311880111694,
+      "eval_runtime": 133.8611,
+      "eval_samples_per_second": 13.775,
+      "eval_wer": 0.4201006899123625,
+      "step": 2400
+    },
+    {
+      "epoch": 48.39,
+      "learning_rate": 6.70807453416149e-05,
+      "loss": 0.0304,
+      "step": 3000
+    },
+    {
+      "epoch": 48.39,
+      "eval_loss": 0.47607213258743286,
+      "eval_runtime": 131.552,
+      "eval_samples_per_second": 14.017,
+      "eval_wer": 0.4080738392690658,
+      "step": 3000
+    },
+    {
+      "epoch": 58.06,
+      "learning_rate": 1.1180124223602484e-05,
+      "loss": 0.0244,
+      "step": 3600
+    },
+    {
+      "epoch": 58.06,
+      "eval_loss": 0.4667948782444,
+      "eval_runtime": 135.2111,
+      "eval_samples_per_second": 13.638,
+      "eval_wer": 0.40313257505127725,
+      "step": 3600
+    }
+  ],
+  "max_steps": 3720,
+  "num_train_epochs": 60,
+  "total_flos": 2.7090797391585608e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98bb98cc8415a567e93f2cc29652a031221c680373b22435b15d60af5c1b58a1
+size 2287

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"e": 0, "w": 1, "y": 2, "v": 3, "z": 4, "\uff01": 5, "'": 6, "t": 7, "g": 8, "r": 9, "o": 11, "k": 12, "p": 13, "d": 14, "l": 15, "h": 16, "x": 17, "\u00e9": 18, "n": 19, "u": 20, "c": 21, "\uff0c": 22, "m": 23, "a": 24, "i": 25, "j": 26, "s": 27, "f": 28, "b": 29, "\|": 10, "[UNK]": 30, "[PAD]": 31}