bond005 commited on
Commit
e6ff511
1 Parent(s): a9399bc

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +86 -75
README.md CHANGED
@@ -5,6 +5,7 @@ datasets:
5
  - bond005/sberdevices_golos_100h_farfield
6
  - common_voice
7
  - bond005/sova_rudevices
 
8
  metrics:
9
  - wer
10
  - cer
@@ -15,6 +16,7 @@ tags:
15
  - common_voice
16
  - SberDevices/Golos
17
  - sova_rudevices
 
18
  license: apache-2.0
19
  widget:
20
  - example_title: test sound with Russian speech
@@ -32,10 +34,10 @@ model-index:
32
  metrics:
33
  - name: Test WER
34
  type: wer
35
- value: 14.553
36
  - name: Test CER
37
  type: cer
38
- value: 5.327
39
  - task:
40
  name: Speech Recognition
41
  type: automatic-speech-recognition
@@ -46,10 +48,10 @@ model-index:
46
  metrics:
47
  - name: Test WER
48
  type: wer
49
- value: 21.403
50
  - name: Test CER
51
  type: cer
52
- value: 9.756
53
  - task:
54
  name: Automatic Speech Recognition
55
  type: automatic-speech-recognition
@@ -60,10 +62,10 @@ model-index:
60
  metrics:
61
  - name: Test WER
62
  type: wer
63
- value: 15.891
64
  - name: Test CER
65
  type: cer
66
- value: 6.136
67
  - task:
68
  name: Speech Recognition
69
  type: automatic-speech-recognition
@@ -74,10 +76,24 @@ model-index:
74
  metrics:
75
  - name: Test WER
76
  type: wer
77
- value: 25.771
78
  - name: Test CER
79
  type: cer
80
- value: 12.037
 
 
 
 
 
 
 
 
 
 
 
 
 
 
81
  ---
82
  # Wav2Vec2-mBART-50-Ru
83
 
@@ -89,6 +105,7 @@ Wav2Vec2-mBART-50-Ru is the [SpeechEncoderDecoderModel](https://huggingface.co/d
89
  - [the 100 hours farfield subset of SberDevices Golos](https://huggingface.co/datasets/bond005/sberdevices_golos_100h_farfield)
90
  - [the Russian subset of Common Voice 6.0](https://huggingface.co/datasets/common_voice)
91
  - [Sova RuDevices](https://huggingface.co/datasets/bond005/sova_rudevices)
 
92
 
93
  CommonVoice 6.0 contains "rich" text annotations with punctuation and capitalization, but other speech corpora includes plain texts only. Therefore, text annotations of these corpora were riched automatically using the [Silero text enhancement model](https://github.com/snakers4/silero-models#text-enhancement).
94
 
@@ -109,7 +126,7 @@ from transformers import SpeechEncoderDecoderModel, Wav2Vec2Processor
109
 
110
  LANG_ID = "ru"
111
  MODEL_ID = "bond005/wav2vec2-mbart50-ru"
112
- SAMPLES = 32
113
 
114
  num_processes = max(1, os.cpu_count())
115
 
@@ -148,101 +165,95 @@ with warnings.catch_warnings():
148
 
149
  ```text
150
  ----------------------------------------------------------------------------------------------------
151
- Reference: Я беру маленький кусочек бумажки.
152
- Prediction: Я беру маленькие кусочки бумажки.
153
- ----------------------------------------------------------------------------------------------------
154
- Reference: О потерях пока не сообщается.
155
- Prediction: А потеря их пока не сообщается.
156
- ----------------------------------------------------------------------------------------------------
157
- Reference: Ваша воля.
158
- Prediction: Ваша воля.
159
  ----------------------------------------------------------------------------------------------------
160
- Reference: Мы высоко ценим ее роль в этом отношении.
161
- Prediction: Мы высоко ценим ее роль в этом отношении.
162
  ----------------------------------------------------------------------------------------------------
163
- Reference: Вот это вызывало у нас жуткое отторжение.
164
- Prediction: Вот это вызвало у нас жуткое отвержение.
165
  ----------------------------------------------------------------------------------------------------
166
- Reference: Он положил ей букет на книгу.
167
- Prediction: Он положил ее букет на книгу.
168
  ----------------------------------------------------------------------------------------------------
169
- Reference: Ну и положу, обиделась Женя.
170
- Prediction: Ну и полож��. обиделась Женя.
171
  ----------------------------------------------------------------------------------------------------
172
- Reference: Благодарю представителя Австралии за ее заявление.
173
- Prediction: Благодарю представителя Австралии за ее заявление.
174
  ----------------------------------------------------------------------------------------------------
175
- Reference: Для меня это не было неожиданностью.
176
- Prediction: Для меня это не было неожиданностью.
177
  ----------------------------------------------------------------------------------------------------
178
- Reference: Поздняя ночь.
179
- Prediction: Поздняя ночь.
180
  ----------------------------------------------------------------------------------------------------
181
- Reference: Тем не менее нужно вновь вычленить некоторые элементы наших политических установок.
182
- Prediction: Тем не менее нужны новые обычаи принятия, которые элементарны для наших политических установок.
183
  ----------------------------------------------------------------------------------------------------
184
- Reference: Мы не можем позволить себе упустить эту возможность.
185
- Prediction: Мы не можем позволить себе упустить эту возможность.
186
  ----------------------------------------------------------------------------------------------------
187
- Reference: В предстоящие месяцы Суд примет решение по ордеру на арест министра обороны Хусейна.
188
- Prediction: В предстоящие месяцы Суд примет решение по форме нарасти на арест министра Папуа-Новой Гвинеи.
189
  ----------------------------------------------------------------------------------------------------
190
- Reference: Валерия живет в старом панельном доме советских времён.
191
- Prediction: Валерия живет в старом анальном доме советских временах.
192
  ----------------------------------------------------------------------------------------------------
193
- Reference: Я вернусь скоро.
194
- Prediction: Я вернусь скоро...
195
  ----------------------------------------------------------------------------------------------------
196
- Reference: Слово предоставляется Его Превосходительству принцу Зайду.
197
- Prediction: Слово предоставляется Его Превосходительству Пан Ги Муну.
198
  ----------------------------------------------------------------------------------------------------
199
- Reference: Ну конечно, тебе бы э��ого хотелось.
200
- Prediction: Ну, конечно, тебе бы этого хотелось.
201
  ----------------------------------------------------------------------------------------------------
202
- Reference: Общественные объединения равны перед законом.
203
- Prediction: Общественные объединения равны перед законом.
204
  ----------------------------------------------------------------------------------------------------
205
- Reference: Ну, что же, нету этики, эстетики.
206
- Prediction: Ну что же, ятаятаятаятаятаятаятаятаятаята?
207
  ----------------------------------------------------------------------------------------------------
208
- Reference: Сразу же она легла в постель.
209
- Prediction: Сразу же она двигла постель.
210
  ----------------------------------------------------------------------------------------------------
211
- Reference: Сейчас я сделаю заявление в своем национальном качестве.
212
- Prediction: Сейчас я сделаю заявление в своем национальном качестве.
213
  ----------------------------------------------------------------------------------------------------
214
- Reference: Что там сейчас происходит в Твиттере?
215
- Prediction: Что там сейчас происходит в Твиттере?
216
  ----------------------------------------------------------------------------------------------------
217
- Reference: Ну хорошо, что револьвер был заряжен холостыми.
218
- Prediction: Ну хорошо, что Ревьев был заряжен холостами.
219
  ----------------------------------------------------------------------------------------------------
220
- Reference: А потом дальше может проходить работа такая.
221
- Prediction: А потом дальше может проходить работа такая.
222
  ----------------------------------------------------------------------------------------------------
223
- Reference: Из Microsoft написали что на текущий момент у них нет открытых вакансий.
224
- Prediction: Из моих красотов написали, что на текущий момент у них нет открытых вакансий.
225
  ----------------------------------------------------------------------------------------------------
226
- Reference: Мы добились многого, но сейчас не время терять набранную динамику.
227
- Prediction: Мы добились многого, но сейчас не время терять набранную динамику.
228
  ----------------------------------------------------------------------------------------------------
229
- Reference: Мы внимательно проанализировали документ и содержащиеся в нем выводы и рекомендации.
230
- Prediction: Мы внимательно проанализировали документ, содержащийся в нем выводы рекомендаций.
231
  ----------------------------------------------------------------------------------------------------
232
- Reference: А сейчас слово имеет представитель Соединенных Штатов Америки.
233
- Prediction: А сейчас слово имеет представитель Соединенных Штатов Америки.
234
  ----------------------------------------------------------------------------------------------------
235
- Reference: Обстоятельства изменились, и мы должны учитывать это.
236
- Prediction: Обстоятельно изменились, и мы должны учитывать это.
237
  ----------------------------------------------------------------------------------------------------
238
- Reference: На этом принципе основывается и наша позиция по Фолклендским островам.
239
- Prediction: На этом принципе основывается и наша позиция по Фолклендским островам.
240
  ----------------------------------------------------------------------------------------------------
241
- Reference: А у тебя бутылка торчит из кармана.
242
- Prediction: А у тебя бутылка торчит из кармана.
243
  ----------------------------------------------------------------------------------------------------
244
- Reference: На прошлой неделе вновь обострилась ситуация в Газе.
245
- Prediction: На прошлой неделе вновь обострилась ситуация в Газе.
246
  ```
247
 
248
 
5
  - bond005/sberdevices_golos_100h_farfield
6
  - common_voice
7
  - bond005/sova_rudevices
8
+ - bond005/rulibrispeech
9
  metrics:
10
  - wer
11
  - cer
16
  - common_voice
17
  - SberDevices/Golos
18
  - sova_rudevices
19
+ - rulibrispeech
20
  license: apache-2.0
21
  widget:
22
  - example_title: test sound with Russian speech
34
  metrics:
35
  - name: Test WER
36
  type: wer
37
+ value: 13.204
38
  - name: Test CER
39
  type: cer
40
+ value: 4.157
41
  - task:
42
  name: Speech Recognition
43
  type: automatic-speech-recognition
48
  metrics:
49
  - name: Test WER
50
  type: wer
51
+ value: 17.681
52
  - name: Test CER
53
  type: cer
54
+ value: 6.773
55
  - task:
56
  name: Automatic Speech Recognition
57
  type: automatic-speech-recognition
62
  metrics:
63
  - name: Test WER
64
  type: wer
65
+ value: 14.693
66
  - name: Test CER
67
  type: cer
68
+ value: 5.765
69
  - task:
70
  name: Speech Recognition
71
  type: automatic-speech-recognition
76
  metrics:
77
  - name: Test WER
78
  type: wer
79
+ value: 22.727
80
  - name: Test CER
81
  type: cer
82
+ value: 9.183
83
+ - task:
84
+ name: Speech Recognition
85
+ type: automatic-speech-recognition
86
+ dataset:
87
+ name: Russian Librispeech
88
+ type: rulibrispeech
89
+ args: ru
90
+ metrics:
91
+ - name: Test WER
92
+ type: wer
93
+ value: 32.540
94
+ - name: Test CER
95
+ type: cer
96
+ value: 10.369
97
  ---
98
  # Wav2Vec2-mBART-50-Ru
99
 
105
  - [the 100 hours farfield subset of SberDevices Golos](https://huggingface.co/datasets/bond005/sberdevices_golos_100h_farfield)
106
  - [the Russian subset of Common Voice 6.0](https://huggingface.co/datasets/common_voice)
107
  - [Sova RuDevices](https://huggingface.co/datasets/bond005/sova_rudevices)
108
+ - 15% part of the training subset of [Russian Librispeech](https://huggingface.co/datasets/bond005/rulibrispeech)
109
 
110
  CommonVoice 6.0 contains "rich" text annotations with punctuation and capitalization, but other speech corpora includes plain texts only. Therefore, text annotations of these corpora were riched automatically using the [Silero text enhancement model](https://github.com/snakers4/silero-models#text-enhancement).
111
 
126
 
127
  LANG_ID = "ru"
128
  MODEL_ID = "bond005/wav2vec2-mbart50-ru"
129
+ SAMPLES = 30
130
 
131
  num_processes = max(1, os.cpu_count())
132
 
165
 
166
  ```text
167
  ----------------------------------------------------------------------------------------------------
168
+ Reference: Я беру маленький кусочек бумажки.
169
+ Prediction: Я беру маленькие кусочек бумажки.
 
 
 
 
 
 
170
  ----------------------------------------------------------------------------------------------------
171
+ Reference: О потерях пока не сообщается.
172
+ Prediction: А потеря их пока не сообщается.
173
  ----------------------------------------------------------------------------------------------------
174
+ Reference: Ваша воля.
175
+ Prediction: Ваша воля.
176
  ----------------------------------------------------------------------------------------------------
177
+ Reference: Мы высоко ценим ее роль в этом отношении.
178
+ Prediction: Мы высоко ценим ее роль в этом отношении.
179
  ----------------------------------------------------------------------------------------------------
180
+ Reference: Вот это вызывало у нас жуткое отторжение.
181
+ Prediction: Вот это вызвало у нас жуткое отвержение.
182
  ----------------------------------------------------------------------------------------------------
183
+ Reference: Он положил ей букет на книгу.
184
+ Prediction: Он положил ее букет на книгу.
185
  ----------------------------------------------------------------------------------------------------
186
+ Reference: Ну и положу, обиделась Женя.
187
+ Prediction: Ну и положи, обиделась Женя.
188
  ----------------------------------------------------------------------------------------------------
189
+ Reference: Благодарю представителя Австралии за ее заявление.
190
+ Prediction: Благодарю представителя Австралии за ее заявление.
191
  ----------------------------------------------------------------------------------------------------
192
+ Reference: Для меня это не было неожиданностью.
193
+ Prediction: Для меня это не было неожиданностью.
194
  ----------------------------------------------------------------------------------------------------
195
+ Reference: Поздняя ночь.
196
+ Prediction: Поздняя ночь.
197
  ----------------------------------------------------------------------------------------------------
198
+ Reference: Тем не менее нужно вновь вычленить некоторые элементы наших политических установок.
199
+ Prediction: Тем не менее нужно назвать нищие нынешние элементы наших политических устоков.
200
  ----------------------------------------------------------------------------------------------------
201
+ Reference: Мы не можем позволить себе упустить эту возможность.
202
+ Prediction: Мы не можем позволить себе упустить эту возможность.
203
  ----------------------------------------------------------------------------------------------------
204
+ Reference: В предстоящие месяцы Суд примет решение по ордеру на арест министра обороны Хусейна.
205
+ Prediction: В предстоящие месяцы Суд примет решение по оратору на орифлейм министра иностранных дел Кубы.
206
  ----------------------------------------------------------------------------------------------------
207
+ Reference: Валерия живет в старом панельном доме советских времён.
208
+ Prediction: Валерия живет в старом Баньяном, да не советских временах.
209
  ----------------------------------------------------------------------------------------------------
210
+ Reference: Я вернусь скоро.
211
+ Prediction: Я вернусь скоро...
212
  ----------------------------------------------------------------------------------------------------
213
+ Reference: Слово предоставляется Его Превосходительству принцу Зайду.
214
+ Prediction: Слово предоставляется Его Превосходительству Пан Ги Муну.
215
  ----------------------------------------------------------------------------------------------------
216
+ Reference: Ну конечно, тебе бы этого хотелось.
217
+ Prediction: Ну, конечно, тебе бы этого хотелось.
218
  ----------------------------------------------------------------------------------------------------
219
+ Reference: Общественные объединения равны перед законом.
220
+ Prediction: Общественные объединения равны перед законом.
221
  ----------------------------------------------------------------------------------------------------
222
+ Reference: Ну, что же, нету этики, эстетики.
223
+ Prediction: Ну что же, не туда зайти? Не туда зайти?
224
  ----------------------------------------------------------------------------------------------------
225
+ Reference: Сразу же она легла в постель.
226
+ Prediction: Сразу же она легла в постель.
227
  ----------------------------------------------------------------------------------------------------
228
+ Reference: Сейчас я сделаю заявление в своем национальном качестве.
229
+ Prediction: Сейчас я сделаю заявление в своем национальном качестве.
230
  ----------------------------------------------------------------------------------------------------
231
+ Reference: Что там сейчас происходит в Твиттере?
232
+ Prediction: Что там сейчас происходит в Твиттере?
233
  ----------------------------------------------------------------------------------------------------
234
+ Reference: Ну хорошо, что револьвер был заряжен холостыми.
235
+ Prediction: Ну хорошо, что Револьвер был заряжен холостыми.
236
  ----------------------------------------------------------------------------------------------------
237
+ Reference: А потом дальше может проходить работа такая.
238
+ Prediction: А потом дальше может проходить работа такая.
239
  ----------------------------------------------------------------------------------------------------
240
+ Reference: Из Microsoft написали что на текущий момент у них нет открытых вакансий.
241
+ Prediction: Из моих красотов написали, что на текущий момент у них нет открытых вакансий.
242
  ----------------------------------------------------------------------------------------------------
243
+ Reference: Мы добились многого, но сейчас не время терять набранную динамику.
244
+ Prediction: Мы добились многого, но сейчас не время терять набранную динамику.
245
  ----------------------------------------------------------------------------------------------------
246
+ Reference: Мы внимательно проанализировали документ и содержащиеся в нем выводы и рекомендации.
247
+ Prediction: Мы внимательно проанализировали документ, содержащийся в нем, выводы рекомендаций.
248
  ----------------------------------------------------------------------------------------------------
249
+ Reference: А сейчас слово имеет представитель Соединенных Штатов Америки.
250
+ Prediction: А сейчас слово имеет представитель Соединенных Штатов Америки.
251
  ----------------------------------------------------------------------------------------------------
252
+ Reference: Обстоятельства изменились, и мы должны учитывать это.
253
+ Prediction: Обстоятельно изменились и мы должны учитывать это.
254
  ----------------------------------------------------------------------------------------------------
255
+ Reference: На этом принципе основывается и наша позиция по Фолклендским островам.
256
+ Prediction: На этом принципе основывается и наша позиция по Фолклендским островам.
257
  ```
258
 
259