update model

Browse files

Files changed (5) hide show

README.md +13 -6
config.json +11 -4
preprocessor_config.json +1 -0
pytorch_model.bin +2 -2
vocab.json +1 -1

README.md CHANGED Viewed

@@ -24,10 +24,10 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 10.07
        - name: Test CER
          type: cer
-         value: 3.04
 ---
 # Wav2Vec2-Large-XLSR-53-Spanish
@@ -49,7 +49,7 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 LANG_ID = "es"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
-SAMPLES = 5
 test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
@@ -86,6 +86,11 @@ for i, predicted_sentence in enumerate(predicted_sentences):
 | PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN. | PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN |
 | TRES | TRES |
 | REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA. | REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA |
 ## Evaluation
@@ -102,9 +107,11 @@ LANG_ID = "es"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
 DEVICE = "cuda"
-CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                    "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
-                   "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。"]
 test_dataset = load_dataset("common_voice", LANG_ID, split="test")
@@ -156,7 +163,7 @@ In the table below I report the Word Error Rate (WER) and the Character Error Ra
 | Model | WER | CER |
 | ------------- | ------------- | ------------- |
-| jonatasgrosman/wav2vec2-large-xlsr-53-spanish | **10.07%** | **3.04%** |
 | pcuenq/wav2vec2-large-xlsr-53-es | 10.55% | 3.20% |
 | facebook/wav2vec2-large-xlsr-53-spanish | 16.99% | 5.40% |
 | mrm8488/wav2vec2-large-xlsr-53-spanish | 19.20% | 5.96% |

     metrics:
        - name: Test WER
          type: wer
+         value: 8.81
        - name: Test CER
          type: cer
+         value: 2.70
 ---
 # Wav2Vec2-Large-XLSR-53-Spanish
 LANG_ID = "es"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
+SAMPLES = 10
 test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
 | PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN. | PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN |
 | TRES | TRES |
 | REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA. | REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA |
+| EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES. | EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES |
+| SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS. | SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS |
+| SÍ | SÍ |
+| "FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ." | FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ |
+| SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR. | SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR |
 ## Evaluation
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
 DEVICE = "cuda"
+CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                    "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
+                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
+                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
+                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]
 test_dataset = load_dataset("common_voice", LANG_ID, split="test")
 | Model | WER | CER |
 | ------------- | ------------- | ------------- |
+| jonatasgrosman/wav2vec2-large-xlsr-53-spanish | **8.81%** | **2.70%** |
 | pcuenq/wav2vec2-large-xlsr-53-es | 10.55% | 3.20% |
 | facebook/wav2vec2-large-xlsr-53-spanish | 16.99% | 5.40% |
 | mrm8488/wav2vec2-large-xlsr-53-spanish | 19.20% | 5.96% |

config.json CHANGED Viewed

@@ -43,20 +43,27 @@
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
   "feat_proj_dropout": 0.05,
-  "final_dropout": 0.1,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.05,
-  "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.05,
   "mask_feature_length": 10,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
   "mask_time_prob": 0.05,
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
   "num_conv_pos_embedding_groups": 16,
@@ -64,6 +71,6 @@
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
   "pad_token_id": 0,
-  "transformers_version": "4.5.0.dev0",
-  "vocab_size": 40
 }

   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "layer",
   "feat_proj_dropout": 0.05,
+  "final_dropout": 0.0,
   "gradient_checkpointing": true,
   "hidden_act": "gelu",
   "hidden_dropout": 0.05,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
   "mask_feature_length": 10,
   "mask_feature_prob": 0.0,
   "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
   "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
   "num_conv_pos_embedding_groups": 16,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
   "pad_token_id": 0,
+  "transformers_version": "4.7.0.dev0",
+  "vocab_size": 41
 }

preprocessor_config.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "do_normalize": true,
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

 {
   "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60c878351b0f005d0575b84427412dc7500ab0090e5513dd1e3b4343cb87aa4e
-size 1262097815

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c110e55d2eac8c79486ad87dbe8f9527ed034fe087a6adf03c891eeba914c1
+size 1262101911

vocab.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "E": 5, "A": 6, "O": 7, "S": 8, "N": 9, "R": 10, "L": 11, "I": 12, "D": 13, "U": 14, "T": 15, "C": 16, "M": 17, "P": 18, "B": 19, "Q": 20, "Y": 21, "H": 22, "G": 23, "V": 24, "Í": 25, "Á": 26, "F": 27, "Ó": 28, "J": 29, "É": 30, "Z": 31, "Ñ": 32, "X": 33, "Ú": 34, "'": 35, "K": 36, "W": 37, "Ü": 38, "-": 39}


1	+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "'": 5, "-": 6, "A": 7, "B": 8, "C": 9, "D": 10, "E": 11, "F": 12, "G": 13, "H": 14, "I": 15, "J": 16, "K": 17, "L": 18, "M": 19, "N": 20, "O": 21, "P": 22, "Q": 23, "R": 24, "S": 25, "T": 26, "U": 27, "V": 28, "W": 29, "X": 30, "Y": 31, "Z": 32, "Á": 33, "É": 34, "Í": 35, "Ñ": 36, "Ó": 37, "Ö": 38, "Ú": 39, "Ü": 40}