Update README.md
Browse files
README.md
CHANGED
@@ -5,6 +5,7 @@ datasets:
|
|
5 |
- bond005/sberdevices_golos_100h_farfield
|
6 |
- common_voice
|
7 |
- bond005/sova_rudevices
|
|
|
8 |
metrics:
|
9 |
- wer
|
10 |
- cer
|
@@ -15,6 +16,7 @@ tags:
|
|
15 |
- common_voice
|
16 |
- SberDevices/Golos
|
17 |
- sova_rudevices
|
|
|
18 |
license: apache-2.0
|
19 |
widget:
|
20 |
- example_title: test sound with Russian speech
|
@@ -32,10 +34,10 @@ model-index:
|
|
32 |
metrics:
|
33 |
- name: Test WER
|
34 |
type: wer
|
35 |
-
value:
|
36 |
- name: Test CER
|
37 |
type: cer
|
38 |
-
value:
|
39 |
- task:
|
40 |
name: Speech Recognition
|
41 |
type: automatic-speech-recognition
|
@@ -46,10 +48,10 @@ model-index:
|
|
46 |
metrics:
|
47 |
- name: Test WER
|
48 |
type: wer
|
49 |
-
value:
|
50 |
- name: Test CER
|
51 |
type: cer
|
52 |
-
value:
|
53 |
- task:
|
54 |
name: Automatic Speech Recognition
|
55 |
type: automatic-speech-recognition
|
@@ -60,10 +62,10 @@ model-index:
|
|
60 |
metrics:
|
61 |
- name: Test WER
|
62 |
type: wer
|
63 |
-
value:
|
64 |
- name: Test CER
|
65 |
type: cer
|
66 |
-
value:
|
67 |
- task:
|
68 |
name: Speech Recognition
|
69 |
type: automatic-speech-recognition
|
@@ -74,10 +76,24 @@ model-index:
|
|
74 |
metrics:
|
75 |
- name: Test WER
|
76 |
type: wer
|
77 |
-
value:
|
78 |
- name: Test CER
|
79 |
type: cer
|
80 |
-
value:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
81 |
---
|
82 |
# Wav2Vec2-mBART-50-Ru
|
83 |
|
@@ -89,6 +105,7 @@ Wav2Vec2-mBART-50-Ru is the [SpeechEncoderDecoderModel](https://huggingface.co/d
|
|
89 |
- [the 100 hours farfield subset of SberDevices Golos](https://huggingface.co/datasets/bond005/sberdevices_golos_100h_farfield)
|
90 |
- [the Russian subset of Common Voice 6.0](https://huggingface.co/datasets/common_voice)
|
91 |
- [Sova RuDevices](https://huggingface.co/datasets/bond005/sova_rudevices)
|
|
|
92 |
|
93 |
CommonVoice 6.0 contains "rich" text annotations with punctuation and capitalization, but other speech corpora includes plain texts only. Therefore, text annotations of these corpora were riched automatically using the [Silero text enhancement model](https://github.com/snakers4/silero-models#text-enhancement).
|
94 |
|
@@ -109,7 +126,7 @@ from transformers import SpeechEncoderDecoderModel, Wav2Vec2Processor
|
|
109 |
|
110 |
LANG_ID = "ru"
|
111 |
MODEL_ID = "bond005/wav2vec2-mbart50-ru"
|
112 |
-
SAMPLES =
|
113 |
|
114 |
num_processes = max(1, os.cpu_count())
|
115 |
|
@@ -148,101 +165,95 @@ with warnings.catch_warnings():
|
|
148 |
|
149 |
```text
|
150 |
----------------------------------------------------------------------------------------------------
|
151 |
-
Reference:
|
152 |
-
Prediction:
|
153 |
-
----------------------------------------------------------------------------------------------------
|
154 |
-
Reference: О потерях пока не сообщается.
|
155 |
-
Prediction: А потеря их пока не сообщается.
|
156 |
-
----------------------------------------------------------------------------------------------------
|
157 |
-
Reference: Ваша воля.
|
158 |
-
Prediction: Ваша воля.
|
159 |
----------------------------------------------------------------------------------------------------
|
160 |
-
Reference:
|
161 |
-
Prediction:
|
162 |
----------------------------------------------------------------------------------------------------
|
163 |
-
Reference:
|
164 |
-
Prediction:
|
165 |
----------------------------------------------------------------------------------------------------
|
166 |
-
Reference:
|
167 |
-
Prediction:
|
168 |
----------------------------------------------------------------------------------------------------
|
169 |
-
Reference:
|
170 |
-
Prediction:
|
171 |
----------------------------------------------------------------------------------------------------
|
172 |
-
Reference:
|
173 |
-
Prediction:
|
174 |
----------------------------------------------------------------------------------------------------
|
175 |
-
Reference:
|
176 |
-
Prediction:
|
177 |
----------------------------------------------------------------------------------------------------
|
178 |
-
Reference:
|
179 |
-
Prediction:
|
180 |
----------------------------------------------------------------------------------------------------
|
181 |
-
Reference:
|
182 |
-
Prediction:
|
183 |
----------------------------------------------------------------------------------------------------
|
184 |
-
Reference:
|
185 |
-
Prediction:
|
186 |
----------------------------------------------------------------------------------------------------
|
187 |
-
Reference:
|
188 |
-
Prediction:
|
189 |
----------------------------------------------------------------------------------------------------
|
190 |
-
Reference:
|
191 |
-
Prediction:
|
192 |
----------------------------------------------------------------------------------------------------
|
193 |
-
Reference:
|
194 |
-
Prediction:
|
195 |
----------------------------------------------------------------------------------------------------
|
196 |
-
Reference:
|
197 |
-
Prediction:
|
198 |
----------------------------------------------------------------------------------------------------
|
199 |
-
Reference:
|
200 |
-
Prediction:
|
201 |
----------------------------------------------------------------------------------------------------
|
202 |
-
Reference:
|
203 |
-
Prediction:
|
204 |
----------------------------------------------------------------------------------------------------
|
205 |
-
Reference:
|
206 |
-
Prediction:
|
207 |
----------------------------------------------------------------------------------------------------
|
208 |
-
Reference:
|
209 |
-
Prediction:
|
210 |
----------------------------------------------------------------------------------------------------
|
211 |
-
Reference:
|
212 |
-
Prediction:
|
213 |
----------------------------------------------------------------------------------------------------
|
214 |
-
Reference:
|
215 |
-
Prediction:
|
216 |
----------------------------------------------------------------------------------------------------
|
217 |
-
Reference:
|
218 |
-
Prediction:
|
219 |
----------------------------------------------------------------------------------------------------
|
220 |
-
Reference:
|
221 |
-
Prediction:
|
222 |
----------------------------------------------------------------------------------------------------
|
223 |
-
Reference:
|
224 |
-
Prediction:
|
225 |
----------------------------------------------------------------------------------------------------
|
226 |
-
Reference:
|
227 |
-
Prediction:
|
228 |
----------------------------------------------------------------------------------------------------
|
229 |
-
Reference:
|
230 |
-
Prediction:
|
231 |
----------------------------------------------------------------------------------------------------
|
232 |
-
Reference:
|
233 |
-
Prediction:
|
234 |
----------------------------------------------------------------------------------------------------
|
235 |
-
Reference:
|
236 |
-
Prediction:
|
237 |
----------------------------------------------------------------------------------------------------
|
238 |
-
Reference:
|
239 |
-
Prediction:
|
240 |
----------------------------------------------------------------------------------------------------
|
241 |
-
Reference:
|
242 |
-
Prediction:
|
243 |
----------------------------------------------------------------------------------------------------
|
244 |
-
Reference:
|
245 |
-
Prediction:
|
246 |
```
|
247 |
|
248 |
|
|
|
5 |
- bond005/sberdevices_golos_100h_farfield
|
6 |
- common_voice
|
7 |
- bond005/sova_rudevices
|
8 |
+
- bond005/rulibrispeech
|
9 |
metrics:
|
10 |
- wer
|
11 |
- cer
|
|
|
16 |
- common_voice
|
17 |
- SberDevices/Golos
|
18 |
- sova_rudevices
|
19 |
+
- rulibrispeech
|
20 |
license: apache-2.0
|
21 |
widget:
|
22 |
- example_title: test sound with Russian speech
|
|
|
34 |
metrics:
|
35 |
- name: Test WER
|
36 |
type: wer
|
37 |
+
value: 13.204
|
38 |
- name: Test CER
|
39 |
type: cer
|
40 |
+
value: 4.157
|
41 |
- task:
|
42 |
name: Speech Recognition
|
43 |
type: automatic-speech-recognition
|
|
|
48 |
metrics:
|
49 |
- name: Test WER
|
50 |
type: wer
|
51 |
+
value: 17.681
|
52 |
- name: Test CER
|
53 |
type: cer
|
54 |
+
value: 6.773
|
55 |
- task:
|
56 |
name: Automatic Speech Recognition
|
57 |
type: automatic-speech-recognition
|
|
|
62 |
metrics:
|
63 |
- name: Test WER
|
64 |
type: wer
|
65 |
+
value: 14.693
|
66 |
- name: Test CER
|
67 |
type: cer
|
68 |
+
value: 5.765
|
69 |
- task:
|
70 |
name: Speech Recognition
|
71 |
type: automatic-speech-recognition
|
|
|
76 |
metrics:
|
77 |
- name: Test WER
|
78 |
type: wer
|
79 |
+
value: 22.727
|
80 |
- name: Test CER
|
81 |
type: cer
|
82 |
+
value: 9.183
|
83 |
+
- task:
|
84 |
+
name: Speech Recognition
|
85 |
+
type: automatic-speech-recognition
|
86 |
+
dataset:
|
87 |
+
name: Russian Librispeech
|
88 |
+
type: rulibrispeech
|
89 |
+
args: ru
|
90 |
+
metrics:
|
91 |
+
- name: Test WER
|
92 |
+
type: wer
|
93 |
+
value: 32.540
|
94 |
+
- name: Test CER
|
95 |
+
type: cer
|
96 |
+
value: 10.369
|
97 |
---
|
98 |
# Wav2Vec2-mBART-50-Ru
|
99 |
|
|
|
105 |
- [the 100 hours farfield subset of SberDevices Golos](https://huggingface.co/datasets/bond005/sberdevices_golos_100h_farfield)
|
106 |
- [the Russian subset of Common Voice 6.0](https://huggingface.co/datasets/common_voice)
|
107 |
- [Sova RuDevices](https://huggingface.co/datasets/bond005/sova_rudevices)
|
108 |
+
- 15% part of the training subset of [Russian Librispeech](https://huggingface.co/datasets/bond005/rulibrispeech)
|
109 |
|
110 |
CommonVoice 6.0 contains "rich" text annotations with punctuation and capitalization, but other speech corpora includes plain texts only. Therefore, text annotations of these corpora were riched automatically using the [Silero text enhancement model](https://github.com/snakers4/silero-models#text-enhancement).
|
111 |
|
|
|
126 |
|
127 |
LANG_ID = "ru"
|
128 |
MODEL_ID = "bond005/wav2vec2-mbart50-ru"
|
129 |
+
SAMPLES = 30
|
130 |
|
131 |
num_processes = max(1, os.cpu_count())
|
132 |
|
|
|
165 |
|
166 |
```text
|
167 |
----------------------------------------------------------------------------------------------------
|
168 |
+
Reference: Я беру маленький кусочек бумажки.
|
169 |
+
Prediction: Я беру маленькие кусочек бумажки.
|
|
|
|
|
|
|
|
|
|
|
|
|
170 |
----------------------------------------------------------------------------------------------------
|
171 |
+
Reference: О потерях пока не сообщается.
|
172 |
+
Prediction: А потеря их пока не сообщается.
|
173 |
----------------------------------------------------------------------------------------------------
|
174 |
+
Reference: Ваша воля.
|
175 |
+
Prediction: Ваша воля.
|
176 |
----------------------------------------------------------------------------------------------------
|
177 |
+
Reference: Мы высоко ценим ее роль в этом отношении.
|
178 |
+
Prediction: Мы высоко ценим ее роль в этом отношении.
|
179 |
----------------------------------------------------------------------------------------------------
|
180 |
+
Reference: Вот это вызывало у нас жуткое отторжение.
|
181 |
+
Prediction: Вот это вызвало у нас жуткое отвержение.
|
182 |
----------------------------------------------------------------------------------------------------
|
183 |
+
Reference: Он положил ей букет на книгу.
|
184 |
+
Prediction: Он положил ее букет на книгу.
|
185 |
----------------------------------------------------------------------------------------------------
|
186 |
+
Reference: Ну и положу, – обиделась Женя.
|
187 |
+
Prediction: – Ну и положи, – обиделась Женя.
|
188 |
----------------------------------------------------------------------------------------------------
|
189 |
+
Reference: Благодарю представителя Австралии за ее заявление.
|
190 |
+
Prediction: Благодарю представителя Австралии за ее заявление.
|
191 |
----------------------------------------------------------------------------------------------------
|
192 |
+
Reference: Для меня это не было неожиданностью.
|
193 |
+
Prediction: Для меня это не было неожиданностью.
|
194 |
----------------------------------------------------------------------------------------------------
|
195 |
+
Reference: Поздняя ночь.
|
196 |
+
Prediction: Поздняя ночь.
|
197 |
----------------------------------------------------------------------------------------------------
|
198 |
+
Reference: Тем не менее нужно вновь вычленить некоторые элементы наших политических установок.
|
199 |
+
Prediction: Тем не менее нужно назвать нищие нынешние элементы наших политических устоков.
|
200 |
----------------------------------------------------------------------------------------------------
|
201 |
+
Reference: Мы не можем позволить себе упустить эту возможность.
|
202 |
+
Prediction: Мы не можем позволить себе упустить эту возможность.
|
203 |
----------------------------------------------------------------------------------------------------
|
204 |
+
Reference: В предстоящие месяцы Суд примет решение по ордеру на арест министра обороны Хусейна.
|
205 |
+
Prediction: В предстоящие месяцы Суд примет решение по оратору на орифлейм министра иностранных дел Кубы.
|
206 |
----------------------------------------------------------------------------------------------------
|
207 |
+
Reference: Валерия живет в старом панельном доме советских времён.
|
208 |
+
Prediction: Валерия живет в старом Баньяном, да не советских временах.
|
209 |
----------------------------------------------------------------------------------------------------
|
210 |
+
Reference: Я вернусь скоро.
|
211 |
+
Prediction: Я вернусь скоро...
|
212 |
----------------------------------------------------------------------------------------------------
|
213 |
+
Reference: Слово предоставляется Его Превосходительству принцу Зайду.
|
214 |
+
Prediction: Слово предоставляется Его Превосходительству Пан Ги Муну.
|
215 |
----------------------------------------------------------------------------------------------------
|
216 |
+
Reference: Ну конечно, тебе бы этого хотелось.
|
217 |
+
Prediction: Ну, конечно, тебе бы этого хотелось.
|
218 |
----------------------------------------------------------------------------------------------------
|
219 |
+
Reference: Общественные объединения равны перед законом.
|
220 |
+
Prediction: Общественные объединения равны перед законом.
|
221 |
----------------------------------------------------------------------------------------------------
|
222 |
+
Reference: Ну, что же, нету этики, эстетики.
|
223 |
+
Prediction: Ну что же, не туда зайти? Не туда зайти?
|
224 |
----------------------------------------------------------------------------------------------------
|
225 |
+
Reference: Сразу же она легла в постель.
|
226 |
+
Prediction: Сразу же она легла в постель.
|
227 |
----------------------------------------------------------------------------------------------------
|
228 |
+
Reference: Сейчас я сделаю заявление в своем национальном качестве.
|
229 |
+
Prediction: Сейчас я сделаю заявление в своем национальном качестве.
|
230 |
----------------------------------------------------------------------------------------------------
|
231 |
+
Reference: Что там сейчас происходит в Твиттере?
|
232 |
+
Prediction: Что там сейчас происходит в Твиттере?
|
233 |
----------------------------------------------------------------------------------------------------
|
234 |
+
Reference: Ну хорошо, что револьвер был заряжен холостыми.
|
235 |
+
Prediction: Ну хорошо, что Револьвер был заряжен холостыми.
|
236 |
----------------------------------------------------------------------------------------------------
|
237 |
+
Reference: А потом дальше может проходить работа такая.
|
238 |
+
Prediction: А потом дальше может проходить работа такая.
|
239 |
----------------------------------------------------------------------------------------------------
|
240 |
+
Reference: Из Microsoft написали что на текущий момент у них нет открытых вакансий.
|
241 |
+
Prediction: Из моих красотов написали, что на текущий момент у них нет открытых вакансий.
|
242 |
----------------------------------------------------------------------------------------------------
|
243 |
+
Reference: Мы добились многого, но сейчас не время терять набранную динамику.
|
244 |
+
Prediction: Мы добились многого, но сейчас не время терять набранную динамику.
|
245 |
----------------------------------------------------------------------------------------------------
|
246 |
+
Reference: Мы внимательно проанализировали документ и содержащиеся в нем выводы и рекомендации.
|
247 |
+
Prediction: Мы внимательно проанализировали документ, содержащийся в нем, выводы рекомендаций.
|
248 |
----------------------------------------------------------------------------------------------------
|
249 |
+
Reference: А сейчас слово имеет представитель Соединенных Штатов Америки.
|
250 |
+
Prediction: А сейчас слово имеет представитель Соединенных Штатов Америки.
|
251 |
----------------------------------------------------------------------------------------------------
|
252 |
+
Reference: Обстоятельства изменились, и мы должны учитывать это.
|
253 |
+
Prediction: Обстоятельно изменились и мы должны учитывать это.
|
254 |
----------------------------------------------------------------------------------------------------
|
255 |
+
Reference: На этом принципе основывается и наша позиция по Фолклендским островам.
|
256 |
+
Prediction: На этом принципе основывается и наша позиция по Фолклендским островам.
|
257 |
```
|
258 |
|
259 |
|