update model

Browse files

Files changed (5) hide show

README.md +17 -10
config.json +19 -4
preprocessor_config.json +1 -0
pytorch_model.bin +2 -2
vocab.json +1 -1

README.md CHANGED Viewed

@@ -24,10 +24,10 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 13.60
        - name: Test CER
          type: cer
-         value: 4.45
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
@@ -49,7 +49,7 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 LANG_ID = "nl"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
-SAMPLES = 5
 test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
@@ -81,11 +81,16 @@ for i, predicted_sentence in enumerate(predicted_sentences):
 | Reference  | Prediction |
 | ------------- | ------------- |
-| DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË. | DE ABORIGONALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË |
-| MIJN TOETSENBORD ZIT VOL STOF | MIJN TOETSEN BORT ZIT VOL STOF. |
 | ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD. | ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD |
-| WAAR LAAT JIJ JE ONDERHOUD DOEN? | WAAR LAAT JIJ JE ONDERHOUD DOEN |
-| NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD. | NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN KWERTIETOETSENBORD |
 ## Evaluation
@@ -102,9 +107,11 @@ LANG_ID = "nl"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
 DEVICE = "cuda"
-CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                    "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
-                   "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。"]
 test_dataset = load_dataset("common_voice", LANG_ID, split="test")
@@ -156,7 +163,7 @@ In the table below I report the Word Error Rate (WER) and the Character Error Ra
 | Model | WER | CER |
 | ------------- | ------------- | ------------- |
-| jonatasgrosman/wav2vec2-large-xlsr-53-dutch | **13.60%** | **4.45%** |
 | wietsedv/wav2vec2-large-xlsr-53-dutch | 16.78% | 5.60% |
 | facebook/wav2vec2-large-xlsr-53-dutch | 20.97% | 7.24% |
 | nithinholla/wav2vec2-large-xlsr-53-dutch | 21.39% | 7.29% |

     metrics:
        - name: Test WER
          type: wer
+         value: 15.76
        - name: Test CER
          type: cer
+         value: 5.50
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
 LANG_ID = "nl"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
+SAMPLES = 10
 test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
 | Reference  | Prediction |
 | ------------- | ------------- |
+| DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË. | DE ABBORIGENALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË |
+| MIJN TOETSENBORD ZIT VOL STOF. | MIJN TOETSENBORD ZIT VOL STOF |
 | ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD. | ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD |
+| WAAR LAAT JIJ JE ONDERHOUD DOEN? | WAAR LAAT JIJ HET ONDERHOUD DOEN |
+| NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD. | NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QUERTITOETSEMBORD |
+| DE TAMPONS ZIJN OP. | DE TAPONT ZIJN OP |
+| MARIJKE KENT OLIVIER NU AL MEER DAN TWEE JAAR. | MAARRIJKEN KENT OLIEVIER NU AL MEER DAN TWEE JAAR |
+| HET VOEREN VAN BROOD AAN EENDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN. | HET VOEREN VAN BEUROT AAN EINDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN |
+| PARKET MOET JE STOFZUIGEN, TEGELS MOET JE DWEILEN. | PARKET MOET JE STOF ZUIGEN MAAR TEGELS MOET JE DWEILEN |
+| IN ONZE BUURT KENT IEDEREEN ELKAAR. | IN ONZE BUURT KENT IEDEREEN ELKAAR |
 ## Evaluation
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
 DEVICE = "cuda"
+CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                    "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
+                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
+                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
+                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]
 test_dataset = load_dataset("common_voice", LANG_ID, split="test")
 | Model | WER | CER |
 | ------------- | ------------- | ------------- |
+| jonatasgrosman/wav2vec2-large-xlsr-53-dutch | **15.76%** | **5.50%** |
 | wietsedv/wav2vec2-large-xlsr-53-dutch | 16.78% | 5.60% |
 | facebook/wav2vec2-large-xlsr-53-dutch | 20.97% | 7.24% |
 | nithinholla/wav2vec2-large-xlsr-53-dutch | 21.39% | 7.29% |

config.json CHANGED Viewed

@@ -7,6 +7,8 @@
   ],
   "attention_dropout": 0.1,
   "bos_token_id": 1,
   "conv_bias": true,
   "conv_dim": [
     512,
@@ -37,33 +39,46 @@
   ],
   "ctc_loss_reduction": "mean",
   "ctc_zero_infinity": true,
   "do_stable_layer_norm": true,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
   "feat_proj_dropout": 0.05,
-  "final_dropout": 0.1,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.05,
-  "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.05,
   "mask_feature_length": 10,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_prob": 0.05,
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
   "pad_token_id": 0,
-  "transformers_version": "4.5.0.dev0",
-  "vocab_size": 50
 }

   ],
   "attention_dropout": 0.1,
   "bos_token_id": 1,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
   "conv_bias": true,
   "conv_dim": [
     512,
   ],
   "ctc_loss_reduction": "mean",
   "ctc_zero_infinity": true,
+  "diversity_loss_weight": 0.1,
   "do_stable_layer_norm": true,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
   "feat_proj_dropout": 0.05,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.05,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
   "mask_feature_length": 10,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
   "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
+  "num_negatives": 100,
   "pad_token_id": 0,
+  "proj_codevector_dim": 768,
+  "transformers_version": "4.7.0.dev0",
+  "vocab_size": 39
 }

preprocessor_config.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "do_normalize": true,
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

 {
   "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:391fd46405658415cd0f6a93b77443052f5931cf2dca07756f7c109135feeafe
-size 1262138839

 version https://git-lfs.github.com/spec/v1
+oid sha256:f307fd2a7a323dbc4dc6fda728e97d51c0be50fed198cb4d1a14d275acb255cd
+size 1262093720

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "E": 4, "N": 5, "A": 6, "I": 7, "T": 8, "O": 9, "D": 10, "R": 11, "|": 12, "L": 13, "S": 14, "H": 15, "G": 16, "M": 17, "K": 18, "V": 19, "J": 20, "W": 21, "Z": 22, "U": 23, "B": 24, "C": 25, "P": 26, "F": 27, "Y": 28, "É": 29, "'": 30, "X": 31, "Ë": 32, "Q": 33, "-": 34, "Ê": 35, "À": 36, "Ä": 37, "È": 38~~, "Ï": 39, "Â": 40, "Û": 41, "Ö": 42, "Ô": 43, "Ü": 44, "Î": 45, "Ç": 46, "Æ": 47, "Ù": 48, "Œ": 49~~}


1	+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "'": 5, "-": 6, "A": 7, "B": 8, "C": 9, "D": 10, "E": 11, "F": 12, "G": 13, "H": 14, "I": 15, "J": 16, "K": 17, "L": 18, "M": 19, "N": 20, "O": 21, "P": 22, "Q": 23, "R": 24, "S": 25, "T": 26, "U": 27, "V": 28, "W": 29, "X": 30, "Y": 31, "Z": 32, "É": 33, "Ë": 34, "Ï": 35, "Ó": 36, "Ö": 37, "Ü": 38}