jonatasgrosman commited on
Commit
7b5d76b
1 Parent(s): 6917703

update model

Browse files

Files changed (5) hide show
  1. README.md +9 -9
  2. config.json +10 -2
  3. preprocessor_config.json +1 -0
  4. pytorch_model.bin +2 -2
  5. vocab.json +1 -1
README.md CHANGED
@@ -24,10 +24,10 @@ model-index:
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
- value: 16.79
28
  - name: Test CER
29
  type: cer
30
- value: 3.68
31
 
32
  ---
33
 
@@ -82,15 +82,15 @@ for i, predicted_sentence in enumerate(predicted_sentences):
82
 
83
  | Reference | Prediction |
84
  | ------------- | ------------- |
85
- | ОН РАБОТАТЬ, А ЕЕ НЕ УДЕРЖАТЬ НИКАК — БЕГАЕТ ЗА КЛЁШЕМ КАЖДОГО БУЛЬВАРНИКА. | ОН РАБОТАТЬ А ЕЕ НЕ УДЕРЖАТНИКАК БЕГАЕТ ЗА КЛЕШОМ КАЖДОГО БУЛЬВАРНИКА |
86
  | ЕСЛИ НЕ БУДЕТ ВОЗРАЖЕНИЙ, Я БУДУ СЧИТАТЬ, ЧТО АССАМБЛЕЯ СОГЛАСНА С ЭТИМ ПРЕДЛОЖЕНИЕМ. | ЕСЛИ НЕ БУДЕТ ВОЗРАЖЕНИЙ Я БУДУ СЧИТАТЬ ЧТО АССАМБЛЕЯ СОГЛАСНА С ЭТИМ ПРЕДЛОЖЕНИЕМ |
87
- | ПАЛЕСТИНЦАМ НЕОБХОДИМО СНАЧАЛА УСТАНОВИТЬ МИР С ИЗРАИЛЕМ, А ЗАТЕМ ДОБИВАТЬСЯ ПРИЗНАНИЯ ГОСУДАРСТВЕННОСТИ. | ПАЛЕСТИНЦАМ НЕОБХОДИМО СНАЧАЛА УСТАНОВИТЬ С НИ МИР С ИЗРАИЛЕМ А ЗАТЕМ ДОБИВАТЬСЯ ПРИЗНАНИЯ ГОСУДАРСТВЕННОВСКИЙ |
88
- | У МЕНЯ БЫЛО ТАКОЕ ЧУВСТВО, ЧТО ЧТО-ТО ТАКОЕ ОЧЕНЬ ВАЖНОЕ Я ПРИБАВЛЯЮ. | У МЕНЯ БЫЛО ТАКОЕ ЧУВСТВО ЧТО ЧТО-ТО ТАКОЕ ОЧЕНЬ ВАЖНОЕ Е ПРЕДБАВЛЯЕТ |
89
  | ТОЛЬКО ВРЯД ЛИ ПОЙМЕТ. | ТОЛЬКО ВРЯД ЛИ ПОЙМЕТ |
90
- | ВРОНСКИЙ, СЛУШАЯ ОДНИМ УХОМ, ПЕРЕВОДИЛ БИНОКЛЬ С БЕНУАРА НА БЕЛЬ-ЭТАЖ И ОГЛЯДЫВАЛ ЛОЖИ. | ВЛАСКИ СЛУШАЮ ОДИН ОДНИМ УКА ТЫ ВОДИВ ЕРОКОЙ СПИЕВАЯ НАПЕРЕТАЧ И ОГЛЯДЫВАЛ ЛОЗУ |
91
- | К СОЖАЛЕНИЮ, СИТУАЦИЯ ПРОДОЛЖАЕТ УХУДШАТЬСЯ. | К СОЖАЛЕНИЮ СИТУАЦИЯ ПРОДОЛЖАЕТ УХУЖАТЬСЯ |
92
  | ВСЁ ЖАЛОВАНИЕ УХОДИЛО НА ДОМАШНИЕ РАСХОДЫ И НА УПЛАТУ МЕЛКИХ НЕПЕРЕВОДИВШИХСЯ ДОЛГОВ. | ВСЕ ЖАЛОВАНИЕ УХОДИЛО НА ДОМАШНИЕ РАСХОДЫ И НА УПЛАТУ МЕЛКИХ НЕ ПЕРЕВОДИВШИХСЯ ДОЛГОВ |
93
- | ТЕПЕРЬ ДЕЛО, КОНЕЧНО, ЗА ТЕМ, ЧТОБЫ ПРЕВРАТИТЬ СЛОВА В ДЕЛА. | ТЕПЕРЬ ДЕЛА КОНЕЧНО ЗА ТЕМ ЧТОБЫ ПРЕВРАТИТЬ СЛОВА В ДЕЛА |
94
  | ДЕВЯТЬ | ЛЕВЕТЬ |
95
 
96
  ## Evaluation
@@ -164,5 +164,5 @@ In the table below I report the Word Error Rate (WER) and the Character Error Ra
164
 
165
  | Model | WER | CER |
166
  | ------------- | ------------- | ------------- |
167
- | jonatasgrosman/wav2vec2-large-xlsr-53-russian | **16.79%** | **3.68%** |
168
  | anton-l/wav2vec2-large-xlsr-53-russian | 19.49% | 4.15% |
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
+ value: 13.38
28
  - name: Test CER
29
  type: cer
30
+ value: 2.86
31
 
32
  ---
33
 
82
 
83
  | Reference | Prediction |
84
  | ------------- | ------------- |
85
+ | ОН РАБОТАТЬ, А ЕЕ НЕ УДЕРЖАТЬ НИКАК — БЕГАЕТ ЗА КЛЁШЕМ КАЖДОГО БУЛЬВАРНИКА. | ОН РАБОТАТЬ А ЕЕ НЕ УДЕРЖАТ НИКАК БЕГАЕТ ЗА КЛЕШОМ КАЖДОГО БУЛЬБАРНИКА |
86
  | ЕСЛИ НЕ БУДЕТ ВОЗРАЖЕНИЙ, Я БУДУ СЧИТАТЬ, ЧТО АССАМБЛЕЯ СОГЛАСНА С ЭТИМ ПРЕДЛОЖЕНИЕМ. | ЕСЛИ НЕ БУДЕТ ВОЗРАЖЕНИЙ Я БУДУ СЧИТАТЬ ЧТО АССАМБЛЕЯ СОГЛАСНА С ЭТИМ ПРЕДЛОЖЕНИЕМ |
87
+ | ПАЛЕСТИНЦАМ НЕОБХОДИМО СНАЧАЛА УСТАНОВИТЬ МИР С ИЗРАИЛЕМ, А ЗАТЕМ ДОБИВАТЬСЯ ПРИЗНАНИЯ ГОСУДАРСТВЕННОСТИ. | ПАЛЕСТИНЦАМ НЕОБХОДИМО СНАЧАЛА УСТАНОВИТЬ С НИ МИР ФЕЗРЕЛЕМ А ЗАТЕМ ДОБИВАТЬСЯ ПРИЗНАНИЯ ГОСУДАРСТВЕНСКИ |
88
+ | У МЕНЯ БЫЛО ТАКОЕ ЧУВСТВО, ЧТО ЧТО-ТО ТАКОЕ ОЧЕНЬ ВАЖНОЕ Я ПРИБАВЛЯЮ. | У МЕНЯ БЫЛО ТАКОЕ ЧУВСТВО ЧТО ЧТО-ТО ТАКОЕ ОЧЕНЬ ВАЖНОЕ Я ПРЕДБАВЛЯЕТ |
89
  | ТОЛЬКО ВРЯД ЛИ ПОЙМЕТ. | ТОЛЬКО ВРЯД ЛИ ПОЙМЕТ |
90
+ | ВРОНСКИЙ, СЛУШАЯ ОДНИМ УХОМ, ПЕРЕВОДИЛ БИНОКЛЬ С БЕНУАРА НА БЕЛЬ-ЭТАЖ И ОГЛЯДЫВАЛ ЛОЖИ. | ЗЛАЗКИ СЛУШАЮ ОТ ОДНИМ УХАМ ТЫ ВОТИ В ВИНОКОТ СПИЛА НА ПЕРЕТАЧ И ОКЛЯДЫВАЛ БОСУ |
91
+ | К СОЖАЛЕНИЮ, СИТУАЦИЯ ПРОДОЛЖАЕТ УХУДШАТЬСЯ. | К СОЖАЛЕНИЮ СИТУАЦИИ ПРОДОЛЖАЕТ УХУЖАТЬСЯ |
92
  | ВСЁ ЖАЛОВАНИЕ УХОДИЛО НА ДОМАШНИЕ РАСХОДЫ И НА УПЛАТУ МЕЛКИХ НЕПЕРЕВОДИВШИХСЯ ДОЛГОВ. | ВСЕ ЖАЛОВАНИЕ УХОДИЛО НА ДОМАШНИЕ РАСХОДЫ И НА УПЛАТУ МЕЛКИХ НЕ ПЕРЕВОДИВШИХСЯ ДОЛГОВ |
93
+ | ТЕПЕРЬ ДЕЛО, КОНЕЧНО, ЗА ТЕМ, ЧТОБЫ ПРЕВРАТИТЬ СЛОВА В ДЕЛА. | ТЕПЕРЬ ДЕЛАЮ КОНЕЧНО ЗАТЕМ ЧТОБЫ ПРЕВРАТИТЬ СЛОВА В ДЕЛА |
94
  | ДЕВЯТЬ | ЛЕВЕТЬ |
95
 
96
  ## Evaluation
164
 
165
  | Model | WER | CER |
166
  | ------------- | ------------- | ------------- |
167
+ | jonatasgrosman/wav2vec2-large-xlsr-53-russian | **13.38%** | **2.86%** |
168
  | anton-l/wav2vec2-large-xlsr-53-russian | 19.49% | 4.15% |
config.json CHANGED
@@ -7,6 +7,8 @@
7
  ],
8
  "attention_dropout": 0.1,
9
  "bos_token_id": 1,
 
 
10
  "conv_bias": true,
11
  "conv_dim": [
12
  512,
@@ -37,12 +39,14 @@
37
  ],
38
  "ctc_loss_reduction": "mean",
39
  "ctc_zero_infinity": true,
 
40
  "do_stable_layer_norm": true,
41
  "eos_token_id": 2,
42
  "feat_extract_activation": "gelu",
43
  "feat_extract_dropout": 0.0,
44
  "feat_extract_norm": "layer",
45
  "feat_proj_dropout": 0.05,
 
46
  "final_dropout": 0.0,
47
  "gradient_checkpointing": true,
48
  "hidden_act": "gelu",
@@ -66,11 +70,15 @@
66
  "mask_time_selection": "static",
67
  "model_type": "wav2vec2",
68
  "num_attention_heads": 16,
 
 
69
  "num_conv_pos_embedding_groups": 16,
70
  "num_conv_pos_embeddings": 128,
71
  "num_feat_extract_layers": 7,
72
  "num_hidden_layers": 24,
 
73
  "pad_token_id": 0,
74
- "transformers_version": "4.5.0.dev0",
75
- "vocab_size": 48
 
76
  }
7
  ],
8
  "attention_dropout": 0.1,
9
  "bos_token_id": 1,
10
+ "codevector_dim": 768,
11
+ "contrastive_logits_temperature": 0.1,
12
  "conv_bias": true,
13
  "conv_dim": [
14
  512,
39
  ],
40
  "ctc_loss_reduction": "mean",
41
  "ctc_zero_infinity": true,
42
+ "diversity_loss_weight": 0.1,
43
  "do_stable_layer_norm": true,
44
  "eos_token_id": 2,
45
  "feat_extract_activation": "gelu",
46
  "feat_extract_dropout": 0.0,
47
  "feat_extract_norm": "layer",
48
  "feat_proj_dropout": 0.05,
49
+ "feat_quantizer_dropout": 0.0,
50
  "final_dropout": 0.0,
51
  "gradient_checkpointing": true,
52
  "hidden_act": "gelu",
70
  "mask_time_selection": "static",
71
  "model_type": "wav2vec2",
72
  "num_attention_heads": 16,
73
+ "num_codevector_groups": 2,
74
+ "num_codevectors_per_group": 320,
75
  "num_conv_pos_embedding_groups": 16,
76
  "num_conv_pos_embeddings": 128,
77
  "num_feat_extract_layers": 7,
78
  "num_hidden_layers": 24,
79
+ "num_negatives": 100,
80
  "pad_token_id": 0,
81
+ "proj_codevector_dim": 768,
82
+ "transformers_version": "4.7.0.dev0",
83
+ "vocab_size": 39
84
  }
preprocessor_config.json CHANGED
@@ -1,5 +1,6 @@
1
  {
2
  "do_normalize": true,
 
3
  "feature_size": 1,
4
  "padding_side": "right",
5
  "padding_value": 0.0,
1
  {
2
  "do_normalize": true,
3
+ "feature_extractor_type": "Wav2Vec2FeatureExtractor",
4
  "feature_size": 1,
5
  "padding_side": "right",
6
  "padding_value": 0.0,
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fd8b5c9b3abf69262eedc1de7262a43f35eff2a13da7728268682b626ee03958
3
- size 1262130647
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d1cdb1a7921de7d363f967a9b0101a713602e109dba62b6f3f9ae2e0b2df0c1c
3
+ size 1262093719
vocab.json CHANGED
@@ -1 +1 @@
1
- {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "Е": 6, "С": 7, "О": 8, "O": 9, "Г": 10, "Х": 11, "Щ": 12, "Й": 13, "Ю": 14, "": 15, "Ь": 16, "X": 17, "Д": 18, "Ё": 19, "К": 20, "У": 21, "А": 22, "З": 23, "I": 24, "Ч": 25, "E": 26, "И": 27, "Ц": 28, "Э": 29, "Ы": 30, "Н": 31, "Ъ": 32, "Ф": 33, "-": 34, "Б": 35, "Л": 36, "C": 37, "Ш": 38, "Я": 39, "Ж": 40, "Т": 41, "М": 42, "'": 43, "В": 44, "П": 45, "Р": 46, "R": 47, "F": 48}
1
+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "-": 5, "Ё": 6, "А": 7, "Б": 8, "В": 9, "Г": 10, "Д": 11, "Е": 12, "Ж": 13, "З": 14, "И": 15, "Й": 16, "К": 17, "Л": 18, "М": 19, "Н": 20, "О": 21, "П": 22, "Р": 23, "С": 24, "Т": 25, "У": 26, "Ф": 27, "Х": 28, "Ц": 29, "Ч": 30, "Ш": 31, "Щ": 32, "Ъ": 33, "Ы": 34, "Ь": 35, "Э": 36, "Ю": 37, "Я": 38}