bond005 commited on
Commit
177884f
1 Parent(s): 59b8b17

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +25 -16
README.md CHANGED
@@ -54,14 +54,23 @@ model-index:
54
  metrics:
55
  - name: Test WER
56
  type: wer
57
- value: 29.75
58
  - name: Test CER
59
  type: cer
60
- value: 8.15
61
  ---
62
  # Wav2Vec2-Large-Ru-Golos-With-LM
63
 
64
- Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on Russian using the [Sberdevices Golos](https://huggingface.co/datasets/SberDevices/Golos). The language model is based on [the Russian National Corpus](https://ruscorpora.ru/), and this model includes unigrams, bigrams and trigrams.
 
 
 
 
 
 
 
 
 
65
 
66
  ## Usage
67
 
@@ -133,16 +142,16 @@ with warnings.catch_warnings():
133
  ```text
134
  ----------------------------------------------------------------------------------------------------
135
  Reference: я беру маленький кусочек бумажки
136
- Prediction: либерман чик сочи бумажки
137
  ----------------------------------------------------------------------------------------------------
138
  Reference: о потерях пока не сообщается
139
- Prediction: о потерях пока не сообщается оооо
140
  ----------------------------------------------------------------------------------------------------
141
  Reference: ваша воля
142
- Prediction: ваша воля
143
  ----------------------------------------------------------------------------------------------------
144
  Reference: мы высоко ценим ее роль в этом отношении
145
- Prediction: урс ока цене не роль в этом отношении
146
  ----------------------------------------------------------------------------------------------------
147
  Reference: вот это вызывало у нас жуткое отторжение
148
  Prediction: от это вызвал у нас жутко отторжения
@@ -154,7 +163,7 @@ Reference: ну и положу обиделась женя
154
  Prediction: ну я положу обиделась женя
155
  ----------------------------------------------------------------------------------------------------
156
  Reference: благодарю представителя австралии за ее заявление
157
- Prediction: богатырю представитель австралии зае заявления
158
  ----------------------------------------------------------------------------------------------------
159
  Reference: для меня это не было неожиданностью
160
  Prediction: дай мне это не было неожиданностью
@@ -163,16 +172,16 @@ Reference: поздняя ночь
163
  Prediction: поздняя ночь
164
  ----------------------------------------------------------------------------------------------------
165
  Reference: тем не менее нужно вновь вычленить некоторые элементы наших политических установок
166
- Prediction: тем не менее нужно мыслить снег корыэлементанажихпалиотических установок
167
  ----------------------------------------------------------------------------------------------------
168
  Reference: мы не можем позволить себе упустить эту возможность
169
- Prediction: мы не можем под болить чи опустить эту возможность
170
  ----------------------------------------------------------------------------------------------------
171
  Reference: в предстоящие месяцы суд примет решение по ордеру на арест министра обороны хусейна
172
- Prediction: в предстоящие месяцы суд примет решение по ордеру на арест министра обороны хусейна
173
  ----------------------------------------------------------------------------------------------------
174
  Reference: валерия живет в старом панельном доме советских времен
175
- Prediction: валерия живето в старом панель тона советских времян
176
  ----------------------------------------------------------------------------------------------------
177
  Reference: я вернусь скоро
178
  Prediction: я вернусь скоро
@@ -187,7 +196,7 @@ Reference: общественные объединения равны пере
187
  Prediction: общественные объединения равны перед законом
188
  ----------------------------------------------------------------------------------------------------
189
  Reference: ну что же нету этики эстетики
190
- Prediction: ну что же не то натеки невротики
191
  ----------------------------------------------------------------------------------------------------
192
  Reference: сразу же она легла в постель
193
  Prediction: сразу же она легла в пасти
@@ -197,18 +206,18 @@ Prediction: сразу же она легла в пасти
197
  The Google Colab version of [this script](https://colab.research.google.com/drive/1SnQmrt6HmMNV-zK-UCPajuwl1JvoCqbX?usp=sharing) is available too.
198
 
199
  ## Evaluation
200
- This model was evaluated on the test subsets of [SberDevices Golos](https://huggingface.co/datasets/SberDevices/Golos) and [Common Voice 6.0](https://huggingface.co/datasets/common_voice) (Russian part), but it was trained on the train subset of SberDevices Golos only.
201
 
202
  ## Citation
203
  If you want to cite this model you can use this:
204
 
205
  ```bibtex
206
  @misc{bondarenko2022wav2vec2-large-ru-golos,
207
- title={XLSR Wav2Vec2 Russian with 3-gram Language Model by Ivan Bondarenko},
208
  author={Bondarenko, Ivan},
209
  publisher={Hugging Face},
210
  journal={Hugging Face Hub},
211
  howpublished={\url{https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm}},
212
  year={2022}
213
  }
214
- ```
 
54
  metrics:
55
  - name: Test WER
56
  type: wer
57
+ value: 25.72051
58
  - name: Test CER
59
  type: cer
60
+ value: 7.39681
61
  ---
62
  # Wav2Vec2-Large-Ru-Golos-With-LM
63
 
64
+ The Wav2Vec2 model is based on [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53), fine-tuned in Russian using [Sberdevices Golos](https://huggingface.co/datasets/SberDevices/Golos) with audio augmentations like as pitch shift, acceleration/deceleration of sound, reverberation etc.
65
+
66
+ The 2-gram language model is built on the Russian text corpus obtained from six open sources:
67
+
68
+ - random 7% subset of [Taiga](https://tatianashavrina.github.io/taiga_site)
69
+ - random 20% subset of [Russian Wikipedia](https://ru.wikipedia.org)
70
+ - random 70% subset of [Russian Wikinews](https://ru.wikinews.org)
71
+ - text annotations from the training part of [Sberdevices Golos](https://huggingface.co/datasets/SberDevices/Golos)
72
+ - text annotations from the training and validation parts of [CommonVoice 6.0 Ru](https://huggingface.co/datasets/common_voice)
73
+ - text annotations from [SOVA Dataset](https://github.com/sovaai/sova-dataset) (RuDevices and RuAudiobooks only, i.e. without RuYoutube).
74
 
75
  ## Usage
76
 
 
142
  ```text
143
  ----------------------------------------------------------------------------------------------------
144
  Reference: я беру маленький кусочек бумажки
145
+ Prediction: либерман чик кусочек бумажки
146
  ----------------------------------------------------------------------------------------------------
147
  Reference: о потерях пока не сообщается
148
+ Prediction: о потерях пока не сообщается
149
  ----------------------------------------------------------------------------------------------------
150
  Reference: ваша воля
151
+ Prediction: ваша боля
152
  ----------------------------------------------------------------------------------------------------
153
  Reference: мы высоко ценим ее роль в этом отношении
154
+ Prediction: урсокаценемиюроль об этом отношении
155
  ----------------------------------------------------------------------------------------------------
156
  Reference: вот это вызывало у нас жуткое отторжение
157
  Prediction: от это вызвал у нас жутко отторжения
 
163
  Prediction: ну я положу обиделась женя
164
  ----------------------------------------------------------------------------------------------------
165
  Reference: благодарю представителя австралии за ее заявление
166
+ Prediction: богатырю представитель австралии заеззаявления
167
  ----------------------------------------------------------------------------------------------------
168
  Reference: для меня это не было неожиданностью
169
  Prediction: дай мне это не было неожиданностью
 
172
  Prediction: поздняя ночь
173
  ----------------------------------------------------------------------------------------------------
174
  Reference: тем не менее нужно вновь вычленить некоторые элементы наших политических установок
175
+ Prediction: тем не менее нужно мыслить снегорэлемента наших политических установок
176
  ----------------------------------------------------------------------------------------------------
177
  Reference: мы не можем позволить себе упустить эту возможность
178
+ Prediction: мы не можем поболить био пустить эту возможность
179
  ----------------------------------------------------------------------------------------------------
180
  Reference: в предстоящие месяцы суд примет решение по ордеру на арест министра обороны хусейна
181
+ Prediction: в предстоящий месяц суд примет решение по ордеру на арест министра обороны хусейна
182
  ----------------------------------------------------------------------------------------------------
183
  Reference: валерия живет в старом панельном доме советских времен
184
+ Prediction: валерия живется старым панельным тон на советских времен
185
  ----------------------------------------------------------------------------------------------------
186
  Reference: я вернусь скоро
187
  Prediction: я вернусь скоро
 
196
  Prediction: общественные объединения равны перед законом
197
  ----------------------------------------------------------------------------------------------------
198
  Reference: ну что же нету этики эстетики
199
+ Prediction: ну что же не то атеистетики
200
  ----------------------------------------------------------------------------------------------------
201
  Reference: сразу же она легла в постель
202
  Prediction: сразу же она легла в пасти
 
206
  The Google Colab version of [this script](https://colab.research.google.com/drive/1SnQmrt6HmMNV-zK-UCPajuwl1JvoCqbX?usp=sharing) is available too.
207
 
208
  ## Evaluation
209
+ This model was evaluated on the test subsets of [SberDevices Golos](https://huggingface.co/datasets/SberDevices/Golos) and [Common Voice 6.0](https://huggingface.co/datasets/common_voice) (Russian part), but it was trained on the training subset of SberDevices Golos only.
210
 
211
  ## Citation
212
  If you want to cite this model you can use this:
213
 
214
  ```bibtex
215
  @misc{bondarenko2022wav2vec2-large-ru-golos,
216
+ title={XLSR Wav2Vec2 Russian with 2-gram Language Model by Ivan Bondarenko},
217
  author={Bondarenko, Ivan},
218
  publisher={Hugging Face},
219
  journal={Hugging Face Hub},
220
  howpublished={\url{https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm}},
221
  year={2022}
222
  }
223
+ ```