upload files

Browse files

Files changed (10) hide show

README.md +89 -0
config.json +78 -0
optimizer.pt +3 -0
preprocessor_config.json +8 -0
pytorch_model.bin +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
trainer_state.json +216 -0
vocab.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,89 @@

+---
+language: en
+datasets:
+- timit_asr
+tags:
+- audio
+- automatic-speech-recognition
+license: apache-2.0
+widget:
+- label: Sample 1 (from LibriSpeech)
+  src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
+---
+# Wav2Vec2-Base-TIMIT
+Fine-tuned [facebook/wav2vec2-base](https://huggingface.co/facebook/wav2vec2-base)
+on the [timit_asr dataset](https://huggingface.co/datasets/timit_asr).
+When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
+The model can be used directly (without a language model) as follows:
+```python
+import torch
+from datasets import load_dataset
+import soundfile as sf
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+model_name = "elgeish/wav2vec2-base-timit"
+processor = Wav2Vec2Processor.from_pretrained(model_name, do_lower_case=True)
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+dataset = load_dataset("timit_asr", split="test[:10]")
+def prepare_example(example):
+    example["speech"], _ = sf.read(example["file"])
+    return example
+dataset = dataset.map(prepare_example, remove_columns=["file"])
+inputs = processor(dataset["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
+with torch.no_grad():
+    predicted_ids = torch.argmax(model(inputs.input_values).logits, dim=-1)
+predicted_transcripts = processor.tokenizer.batch_decode(predicted_ids)
+for reference, predicted in zip(dataset["text"], predicted_transcripts):
+    print("reference:", reference)
+    print("predicted:", predicted)
+    print("--")
+```
+Here's the output:
+```
+reference: The bungalow was pleasantly situated near the shore.
+predicted: the bunglow was plesntly situated near the shor
+--
+reference: Don't ask me to carry an oily rag like that.
+predicted: don't ask me to carry an oily rag like that
+--
+reference: Are you looking for employment?
+predicted: are you oking for employment
+--
+reference: She had your dark suit in greasy wash water all year.
+predicted: she had your dark suit in greasy wash water all year
+--
+reference: At twilight on the twelfth day we'll have Chablis.
+predicted: at twilight on the twelfth day we'll have shiple
+--
+reference: Eating spinach nightly increases strength miraculously.
+predicted: eating spanage nightly increases strength moraculously
+--
+reference: Got a heck of a buy on this, dirt cheap.
+predicted: got a heck of a by on this dert cheep
+--
+reference: The scalloped edge is particularly appealing.
+predicted: the scaliped edge iuse particularly appeling
+--
+reference: A big goat idly ambled through the farmyard.
+predicted: a big goat idely ambled through the farmyard
+--
+reference: This group is secularist and their program tends to be technological.
+predicted: this croup is secularist and their program tens to be technological
+--
+```
+## Fine-Tuning Script
+You can find the script used to produce this model
+[here](https://github.com/elgeish/transformers/blob/f2b98f876b040bab3c3db8561ec39c1abb2c733c/examples/research_projects/wav2vec2/finetune_base_timit_asr.sh).

config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_name_or_path": "facebook/wav2vec2-base",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "final_dropout": 0.0,
+  "freeze_feat_extract_train": true,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "no_mask_channel_overlap": false,
+  "no_mask_time_overlap": false,
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "transformers_version": "4.4.0.dev0",
+  "vocab_size": 32
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ba21f66ab39aa0ef6701d053a58486d8212fcaf4c6f4b85d37041791d7a1188
+size 721695047

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5203988324b278abe0d8fdcbc4cdf6b2e0a912e88ad03bbc5ee8fe964c6c2c0a
+size 377675500

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f56f4158e38f3499657e999614fc48915e802ced981e96a330bbaae50ad7d5e7
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": true, "word_delimiter_token": "\|", "return_attention_mask": false, "do_normalize": true, "special_tokens_map_file": "special_tokens_map.json", "tokenizer_file": null, "name_or_path": "facebook/wav2vec2-base"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,216 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 17.24137931034483,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.86,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 8.2821,
+      "step": 50
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 3.7831,
+      "step": 100
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 6611.92333984375,
+      "eval_runtime": 118.2877,
+      "eval_samples_per_second": 14.203,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 2.5e-05,
+      "loss": 3.15,
+      "step": 150
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 3.0691,
+      "step": 200
+    },
+    {
+      "epoch": 3.45,
+      "eval_loss": 6203.90234375,
+      "eval_runtime": 117.1215,
+      "eval_samples_per_second": 14.344,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 4.1666666666666665e-05,
+      "loss": 3.0065,
+      "step": 250
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 5e-05,
+      "loss": 2.9693,
+      "step": 300
+    },
+    {
+      "epoch": 5.17,
+      "eval_loss": 5685.97509765625,
+      "eval_runtime": 116.8831,
+      "eval_samples_per_second": 14.373,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 5.833333333333333e-05,
+      "loss": 2.9254,
+      "step": 350
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 2.4701,
+      "step": 400
+    },
+    {
+      "epoch": 6.9,
+      "eval_loss": 3466.919677734375,
+      "eval_runtime": 117.6489,
+      "eval_samples_per_second": 14.28,
+      "eval_wer": 0.975329851566795,
+      "step": 400
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 7.5e-05,
+      "loss": 1.4256,
+      "step": 450
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.8495,
+      "step": 500
+    },
+    {
+      "epoch": 8.62,
+      "eval_loss": 1138.2066650390625,
+      "eval_runtime": 117.9419,
+      "eval_samples_per_second": 14.244,
+      "eval_wer": 0.44351291918636615,
+      "step": 500
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.5507,
+      "step": 550
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 0.0001,
+      "loss": 0.466,
+      "step": 600
+    },
+    {
+      "epoch": 10.34,
+      "eval_loss": 1504.2208251953125,
+      "eval_runtime": 118.0119,
+      "eval_samples_per_second": 14.236,
+      "eval_wer": 0.4395959318306762,
+      "step": 600
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 0.00010833333333333334,
+      "loss": 0.3447,
+      "step": 650
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 0.00011666666666666667,
+      "loss": 0.3134,
+      "step": 700
+    },
+    {
+      "epoch": 12.07,
+      "eval_loss": 814.1062622070312,
+      "eval_runtime": 118.0128,
+      "eval_samples_per_second": 14.236,
+      "eval_wer": 0.30470038482682793,
+      "step": 700
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 0.000125,
+      "loss": 0.2092,
+      "step": 750
+    },
+    {
+      "epoch": 13.79,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.1698,
+      "step": 800
+    },
+    {
+      "epoch": 13.79,
+      "eval_loss": 785.0916137695312,
+      "eval_runtime": 117.6674,
+      "eval_samples_per_second": 14.278,
+      "eval_wer": 0.27762506871907644,
+      "step": 800
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 0.00014166666666666668,
+      "loss": 0.1418,
+      "step": 850
+    },
+    {
+      "epoch": 15.52,
+      "learning_rate": 0.00015,
+      "loss": 0.1355,
+      "step": 900
+    },
+    {
+      "epoch": 15.52,
+      "eval_loss": 776.1622314453125,
+      "eval_runtime": 117.6741,
+      "eval_samples_per_second": 14.277,
+      "eval_wer": 0.25446673996701485,
+      "step": 900
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 0.00015833333333333332,
+      "loss": 0.1799,
+      "step": 950
+    },
+    {
+      "epoch": 17.24,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.1139,
+      "step": 1000
+    },
+    {
+      "epoch": 17.24,
+      "eval_loss": 801.2041015625,
+      "eval_runtime": 117.5787,
+      "eval_samples_per_second": 14.288,
+      "eval_wer": 0.24910665200659704,
+      "step": 1000
+    }
+  ],
+  "max_steps": 1740,
+  "num_train_epochs": 30,
+  "total_flos": 2.4339251400095805e+18,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "E": 5, "T": 6, "A": 7, "O": 8, "N": 9, "I": 10, "H": 11, "S": 12, "R": 13, "D": 14, "L": 15, "U": 16, "M": 17, "W": 18, "C": 19, "F": 20, "G": 21, "Y": 22, "P": 23, "B": 24, "V": 25, "K": 26, "'": 27, "X": 28, "J": 29, "Q": 30, "Z": 31}