harveenchadha commited on
Commit
6f60748
1 Parent(s): b017aaa

Harveen | Adding evaluations

Browse files
evaluations/common_voice/common_voice_hi_test_eval_results.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ WER: 0.39211136890951276
2
+ CER: 0.12971414845063656
evaluations/common_voice/log.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ WER: 0.39211136890951276
2
+ CER: 0.12971414845063656
evaluations/common_voice/log_common_voice_hi_test_predictions.txt ADDED
@@ -0,0 +1,254 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 0
2
+ कांस्टबुल बन मनोज बाजपे दिखा रहे हैं तांडल
3
+ 1
4
+ वह चाय पी रहा है
5
+ 2
6
+ अब मच्छरों को मारेंगे मच्छर
7
+ 3
8
+ जेक मुझसे तीन साल बड़ा है
9
+ 4
10
+ एक पागल इनसान को अपने कि धरे के लिए जमींदार नहीं ठहराया जा सकता
11
+ 5
12
+ कौन ज्यादा तेज़ भागता है खैन या टूनी
13
+ 6
14
+ हमने उस उम्मीदवार को अपना मत दिया
15
+ 7
16
+ उन्होंने एक दूसरे को देखा
17
+ 8
18
+ अभी पौर्लैंड में क्या हो रहा है
19
+ 9
20
+ मैं सफर पर उसके साथ गया
21
+ 10
22
+ उसने मेरे स्तन पकड़ लिए
23
+ 11
24
+ क्या इसका स्वाद अच्छा है
25
+ 12
26
+ लोगों ने पुलिस टीम पर किया हमला वर्दी फाटकर जीपे सी से थोड़े
27
+ 13
28
+ हमारे पास तो बस चाय है
29
+ 14
30
+ उसे अपना स्कूल बहुत पसंद है
31
+ 15
32
+ पिछले कुछ सालों से मौसम बहुत अजीब है
33
+ 16
34
+ वह नतीजे के लिए बेचैन हैं
35
+ 17
36
+ लूई तुम्हारे दोस्त आ रहे हैं
37
+ 18
38
+ लगता है मुझे सहायता की आवश्यकता है
39
+ 19
40
+ उसने मुझे चिट्टी का जवाब न देने के लिए डाँगटा
41
+ 20
42
+ यहाँ आसपास में एक झोकड़ी हुआ करती थी
43
+ 21
44
+ गर्भवति ने मुर्गा क्या पहाना भाडक कया दंगा
45
+ 22
46
+ बच्चे बगीचे में खेल रहे हैं
47
+ 23
48
+ इस्त्री पर बहुत कम लोग रहते हैं
49
+ 24
50
+ तुम्हें थोड़ा सादा समझदार होना चाहिए
51
+ 25
52
+ तुम यहाँ सारे के सारे पेड़ का डाग देका
53
+ 26
54
+ वह मुझ पर गुस्सा हो गया
55
+ 27
56
+ उत्तरप्रदेश में चल रहे नौफर्जी विश्वविद्यालयं की जांच ऐसाइटी को
57
+ 28
58
+ कारा रंग तुम पर झचता है
59
+ 29
60
+ और शादीशुदा नहीं है
61
+ 30
62
+ आतंकवादी लक्णों को भी दे सकते हैं पटान कोटी जैसे घाओ
63
+ 31
64
+ मुझे अपने पिता की गरीभी पर शर् नहीं आती हैँ
65
+ 32
66
+ तुम गाड़ी चला सकते हो क्या
67
+ 33
68
+ तुम अंधेरे में क्यों बैठी हो
69
+ 34
70
+ वो मुझसे दो साल छोटी है
71
+ 35
72
+ मेरी नजर इन दिनों कमज़ोर हो रही है
73
+ 36
74
+ वो तीन घणटो में वापस आएगा
75
+ 37
76
+ वे पाँच बजे चाय पीती हैं
77
+ 38
78
+ महाराष्ट्र पब्लिक सर्विस कमिशन में वैकंसी
79
+ 39
80
+ उसने सब कुछ अपने आप किया
81
+ 40
82
+ दुनिया बदल गई है
83
+ 41
84
+ यह आपका फैसला नहीं है
85
+ 42
86
+ मैं सिरिया से हूँ
87
+ 43
88
+ हम अन्दर आ रहे हैं
89
+ 44
90
+ आप किसके साथ खा रहे हैं
91
+ 45
92
+ वो बहुत ऐसे वाली औरत है
93
+ 46
94
+ यह कुरसी आपकी है
95
+ 47
96
+ मैं अभी छोड़ने वाली नहीं हूँ
97
+ 48
98
+ चाय वाह कुछ लोगी
99
+ 49
100
+ उसका कहा हुआ एक शब्द भी सुनने लायक नहीं है
101
+ 50
102
+ दरवाज़ा खोलए
103
+ 51
104
+ मुझे मूर्ख बरना पसंद नहीं है
105
+ 52
106
+ हम एक सेन देख रहे हैं
107
+ 53
108
+ बोटर छोड दो
109
+ 54
110
+ मुझे एक कब चाहीचाहिए
111
+ 55
112
+ हमें नहीं पता हम कहा है
113
+ 56
114
+ पाकिस्तान ने आतंकी हाफिज शहीद के बेटे पर भी आतंकवादी हमने का खतरा
115
+ 57
116
+ मयानम के आशीर्वाद पर अकिलेश बोलेनेताजी जिन्धाबाद सिवपाल नदारग
117
+ 58
118
+ मैं स्कूल जाना नहीं चाहता हूँ
119
+ 59
120
+ आम चुनाव के लिए कांग्रेस ���तरक जाट आरक्षण से फिर वो बटोरे की कांग्रेस
121
+ 60
122
+ उसने प्रतियों के साथ सिर से जीत ली
123
+ 61
124
+ किसी ने मीरी पतम काट ली है
125
+ 62
126
+ हम सब ताम को जानते हैं
127
+ 63
128
+ अफ्रीका में कई शेर है
129
+ 64
130
+ आज के युवाओं को नहीं मालूम पहले विश्वयुद्ध की तारीख े
131
+ 65
132
+ बम्बई भारतीय राज्य महाराष्ट्रा की राज्थानी है
133
+ 66
134
+ उसने मुझे वह नीयम समझाया
135
+ 67
136
+ मेरे पापा आम तौर पर छह बजे घर लौटकर आते हैं
137
+ 68
138
+ सेंसक्स और निफ्टी भारी गिरावट के साथ बंद
139
+ 69
140
+ तूफान ने पूरे नगर को नष्ट कर दिया
141
+ 70
142
+ हम तो बस दोस्त हैं
143
+ 71
144
+ हमारी मीटिंग कभी कबार ही टाइम पर शुरू होती है
145
+ 72
146
+ वारियर ने बैक्टोरिया को हरा कर दूसरी जीज दर्ज की
147
+ 73
148
+ अम्बेटकर यूनिवर्सिटी शुरू करेगी ऑनलाइन कोर्स
149
+ 74
150
+ वे पक्ष का बाहर केजरीवाल जैसी नौटंकी पर उतरे सिवराज्
151
+ 75
152
+ वह वहाँ जाने से डरता था
153
+ 76
154
+ वाराणसी हिंसा कांग्रेस विदायक अजय राए गिरफ्तार
155
+ 77
156
+ मुझे पता है कि तुम अभी भी मेरे लिये आसू बहाते हो कभीकभी
157
+ 78
158
+ चाय वही कुछ लेंगे आप
159
+ 79
160
+ उसका निल साफ है
161
+ 80
162
+ महलाएं दुनिया बदल देती हैं
163
+ 81
164
+ दृतीय हरएक संस्कृति का एक सुंदर भागत है
165
+ 82
166
+ मुझे अंग्रेज़ी और संगीत पसंद े
167
+ 83
168
+ इंटिकेट कारोबार में आयआर सीटीसी को मिल सकती है चुनौती
169
+ 84
170
+ वो रोया और मोर रोया
171
+ 85
172
+ सब लोग हीद पर खँसे
173
+ 86
174
+ मंडे से बेहतर टेस्ट क्रिकेट र न कोलीकोच
175
+ 87
176
+ ताम का क्या हुआ है
177
+ 88
178
+ शलेवार ह्दय का आखिरे दिन होता आई
179
+ 89
180
+ मेरा साव किटाब साझा न है
181
+ 90
182
+ टाम अभी भी स्कूल में आए
183
+ 91
184
+ मुझे बस उसका नाम बता
185
+ 92
186
+ वहाँ सेव सरने लगाह
187
+ 93
188
+ वह दस साल का लड़का था
189
+ 94
190
+ मेरे लिए थोड़ी जगा बनाओगी क्या
191
+ 95
192
+ टोम को कुछ भिलाओ
193
+ 96
194
+ कुछ कुछ लोचा है मैं सनीलियौन का बिकनी लुक
195
+ 97
196
+ यह रही आपकी चाबी
197
+ 98
198
+ टाम ने आकाश की तरफ देखा
199
+ 99
200
+ मैं शहर का नक्षा खरीदना चाहता हूँ
201
+ 100
202
+ मेरी छड़ी कहाँ है
203
+ 101
204
+ इस वजह से हुआ दावते इसकी रिलीज में पैर बदल
205
+ 102
206
+ उस संस्कृति में लोग रंगविरंगी कपड़़े पहनते हैं
207
+ 103
208
+ यह सशक्त लोकपाल नहीं है लालू यादो
209
+ 104
210
+ इसलिए क्योंकि तुम लड़की हो
211
+ 105
212
+ कौन बनेगी एमज दोनी की वायी आलिया भट या श्रद्धा कपू
213
+ 106
214
+ गोहाटी हाईकोट में भैकेंसी
215
+ 107
216
+ बेकरी कहाँ है
217
+ 108
218
+ पहली बार काबनेट बिस्तापरिकर और सुरेश प्रभू होंगे मंत्रिमंडल में शामिल
219
+ 109
220
+ वह में एक बार फिर होगी आपत की बारिश अगले दो दिन काअलट
221
+ 110
222
+ वह मेरी बात नहीं सुनेगा
223
+ 111
224
+ मैं इस शोर को आर बरदाश नहीं कर सकती
225
+ 112
226
+ इससे मेरा कोई लेना देना नहीं है
227
+ 113
228
+ तुम मरोगये
229
+ 114
230
+ मैं इस ज़िं्दगी को झीकर थक गया हूँ
231
+ 115
232
+ बाद में मिलेंगे
233
+ 116
234
+ दुक���न आज खुली नहीं है
235
+ 117
236
+ वह कौनसी छिटियाँ हैं
237
+ 118
238
+ गुजरात में अमी शाह की गाड़ी के ऊपर पार्टीदारों ने फेके अंडे
239
+ 119
240
+ पेटोल के दावों में भीढ़ी से ममता नाखुश
241
+ 120
242
+ टाँव स्वार्थी था
243
+ 121
244
+ आप दोनों पीक रली हैं
245
+ 122
246
+ यह रही तेरी चाए
247
+ 123
248
+ जननी चाहता था कि रोज़ ये चलार रहे
249
+ 124
250
+ दिल्ली इंतिहार ने सुहावने मौसम के भीच टातक जाम बना लगाँ पड़िया मुसीरा
251
+ 125
252
+ महिलाओं का लि हस कपरा है
253
+ 126
254
+ बहसों तक जैसे कौनचमकती रही रहींया बाहर नीं क निकला करं पामी
evaluations/common_voice/log_common_voice_hi_test_targets.txt ADDED
@@ -0,0 +1,254 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ 0
2
+ कांस्टेबल बन मनोज बाजपेयी दिखा रहे हैं 'तांडव'
3
+ 1
4
+ वह चाय पी रहा है।
5
+ 2
6
+ अब मच्छरों को मारेंगे मच्छर
7
+ 3
8
+ जैक मुझसे तीन साल बड़ा है।
9
+ 4
10
+ एक पागल इनसान को अपने कियेधरे के लिए ज़िम्मेदार नहीं ठहराया जा सकता।
11
+ 5
12
+ कौन ज़्यादा तेज़ भागता है केन या टोनी
13
+ 6
14
+ हमने उस उम्मीदवार को अपना मत दिया।
15
+ 7
16
+ उन्होंने एकदूसरे को देखा।
17
+ 8
18
+ अभी पोलैंड में क्या हो रहा है
19
+ 9
20
+ मैं सफ़र पर उसके साथ गया।
21
+ 10
22
+ उसने मेरे स्तन पकड़ लिये।
23
+ 11
24
+ क्या इसका स्वाद अच्छा है
25
+ 12
26
+ लोगों ने पुलिस टीम पर किया हमला वर्दी फाड़कर जीप के शीशे तोड़े
27
+ 13
28
+ हमारे पास तो बस चाय है।
29
+ 14
30
+ उसे अपना स्कूल बहुत पसंद है।
31
+ 15
32
+ पिछले कुछ सालों से मौसम बहुत अजीब है।
33
+ 16
34
+ वह नतीजे के लिए बेचैन है।
35
+ 17
36
+ लुई तुम्हारे दोस्त आ रहे हैं।
37
+ 18
38
+ लगता है मुझे सहायता की आवश्यकता है।
39
+ 19
40
+ उसने मुझे चिट्ठी का जवाब न देने के लिए डाँटा।
41
+ 20
42
+ यहाँ आसपास में एक झोपड़ी हुआ करती थी।
43
+ 21
44
+ गर्भवती ने बुरका क्या पहाना भड़क गया दंगा
45
+ 22
46
+ बच्चे बगीचे में खेल रहे हैं।
47
+ 23
48
+ इस द्वीप पर बहुत कम लोग रहते हैं।
49
+ 24
50
+ तुम्हें थोड़ा ज़्यादा समझदार होना चाहिए।
51
+ 25
52
+ तुम यहाँ सारे के सारे पेड़ काट डालोगे क्या
53
+ 26
54
+ वह मुझपर गुस्सा हो गया।
55
+ 27
56
+ उत्तर प्रदेश में चल रहे नौ फर्जी विश्वविद्यालयों की जांच एसआईटी को
57
+ 28
58
+ काला रंग तुम पर जँचता है।
59
+ 29
60
+ वह शादीशुदा नहीं है।
61
+ 30
62
+ आतंकवादी लखनऊ को भी दे सकते हैं पठानकोट जैसा घाव
63
+ 31
64
+ मुझे अपने पिता की ग़रीबी पर शर्म नहीं आती है।
65
+ 32
66
+ तुम गाड़ी चला सकते हो क्या
67
+ 33
68
+ तुम अंधेरे में क्यों बैठी हो
69
+ 34
70
+ वह मुझसे दो साल छोटी है।
71
+ 35
72
+ मेरी नज़र इन दिनों कमज़ोर हो रही है।
73
+ 36
74
+ वह तीन घंटों में वापस आएगा।
75
+ 37
76
+ वे पाँच बजे चाय पीतीं हैं।
77
+ 38
78
+ महाराष्ट्र पब्लिक सर्विस कमीशन में वैकेंसी
79
+ 39
80
+ उसने सब कुछ अपनेआप किया।
81
+ 40
82
+ दुनिया बदल गई है।
83
+ 41
84
+ यह आपका फ़ैसला नहीं है।
85
+ 42
86
+ मैं सीरिया से हूँ।
87
+ 43
88
+ हम अंदर आ रहे हैं।
89
+ 44
90
+ आप किसके साथ खा रहीं हैं
91
+ 45
92
+ वह बहुत पैसेवाली औरत है।
93
+ 46
94
+ यह कुर्सी आपकी है।
95
+ 47
96
+ मैं अभी छोड़ने वाली नहीं हूँ।
97
+ 48
98
+ चायवाय कुछ लोगी
99
+ 49
100
+ उसका कहा हुआ एक शब्द भी सुनने लायक नहीं है।
101
+ 50
102
+ दरवाज़ा खोलिए।
103
+ 51
104
+ मुझे मूर्ख बनना पसंद नहीं है।
105
+ 52
106
+ हम एक फ़िल्म देख रहे हैं।
107
+ 53
108
+ बोतल छोड़ दो।
109
+ 54
110
+ मुझे एक कप चाय चाहिए।
111
+ 55
112
+ हमें नहीं पता हम कहाँ हैं।
113
+ 56
114
+ पाकिस्तान में आतंकी हाफिज सईद के बेटे पर भी आतंकवादी हमले का खतरा
115
+ 57
116
+ मुलायम के आशीर्वाद पर अखिलेश बोले न��ताजी जिंदाबाद शिवपाल नदारद
117
+ 58
118
+ मैं स्कुल जाना नहीं चाहता हूँ।
119
+ 59
120
+ आम चुनावों के लिए कांग्रेस सतर्क जाट आरक्षण से फिर वोट बटोरेगी कांग्रेस
121
+ 60
122
+ उसने प्रतियोगिता फिरसे जीत ली।
123
+ 61
124
+ किसी ने मेरी पतंग काट ली है।
125
+ 62
126
+ हम सब टॉम को जानते हैं।
127
+ 63
128
+ आफ़्रिका में कई शेर हैं।
129
+ 64
130
+ आज के युवाओं को नहीं मालूम पहले विश्वयुद्ध की तारीखें
131
+ 65
132
+ मुम्बई भारतीय राज्य महाराष्ट्र की राजधानी है।
133
+ 66
134
+ उसने मुझे वह नियम समझाया।
135
+ 67
136
+ मेरे पापा आमतौर पर छः बजे घर लौटकर आते हैं।
137
+ 68
138
+ सेंसेक्स और निफ्टी भारी गिरावट के साथ बंद
139
+ 69
140
+ तूफ़ान ने पूरे नगर को नष्ट कर दिया।
141
+ 70
142
+ हम तो बस दोस्त है।
143
+ 71
144
+ हमारी मीटिंग कभीकभार ही टाईम पर शुरू होती है।
145
+ 72
146
+ वारियर्स ने विक्टोरिया को हराकर दूसरी जीत दर्ज की
147
+ 73
148
+ अंबेडकर यूनिवर्सिटी शुरू करेगी ऑनलाइन कोर्स
149
+ 74
150
+ विपक्ष का वार केजरीवाल जैसी नौटंकी पर उतरे शिवराज
151
+ 75
152
+ वह वहाँ जाने से डरता था।
153
+ 76
154
+ वाराणसी हिंसा कांग्रेस विधायक अजय राय गिरफ्तार
155
+ 77
156
+ मुझे पता है कि तुम अभी भी मेरे लिए आंसू बहाते हो कभी कभी।
157
+ 78
158
+ चायवाय कुछ लेंगे आप
159
+ 79
160
+ उसका दिल साफ़ है।
161
+ 80
162
+ महिलाएँ दुनिया बदल देती हैं।
163
+ 81
164
+ नृत्य हर एक संस्कृति का एक सुंदर भाग होता है।
165
+ 82
166
+ मुझे अंग्रेज़ी और संगीत पसंद हैं।
167
+ 83
168
+ ईटिकट कारोबार में आईआरसीटीसी को मिल सकती है चुनौती
169
+ 84
170
+ वह रोया और और रोया।
171
+ 85
172
+ सब लोग मुझपर हँसे।
173
+ 86
174
+ वनडे से बेहतर टेस्ट क्रिकेटर है कोहली कोच
175
+ 87
176
+ टॉम को क्या हुआ है
177
+ 88
178
+ शनिवार हफ़्ते का आखिरी दिन होता है।
179
+ 89
180
+ मेरा शौक गिटार बजाना है।
181
+ 90
182
+ टॉम अभी भी स्कूल में है
183
+ 91
184
+ मुझे बस उसका नाम बता।
185
+ 92
186
+ वह सेव सड़ने लगा है।
187
+ 93
188
+ वह दस साल का लड़का था।
189
+ 94
190
+ मेरे लिए थोड़ी जगह बनाओगे क्या
191
+ 95
192
+ टॉम को कुछ पिलाओ।
193
+ 96
194
+ 'कुछ कुछ लोचा है' में सनी लियोन का बिकिनी लुक
195
+ 97
196
+ यह रही आपकी चाबी।
197
+ 98
198
+ टॉम ने आकाश की तरफ देखा।
199
+ 99
200
+ मैं शहर का नक्शा खरीदना चाहता हूँ।
201
+ 100
202
+ मेरी छड़ी कहाँ है
203
+ 101
204
+ इस वजह से हुआ दावतएइश्क की रिलीज में फेरबदल
205
+ 102
206
+ उस संस्कृति में लोग रंगबिरंगी कपड़े पहनते हैं।
207
+ 103
208
+ यह सशक्त लोकपाल नहीं हैः लालू यादव
209
+ 104
210
+ इसलिए क्योंकि तुम लड़की हो।
211
+ 105
212
+ कौन बनेगी एमएस धोनी की 'वाइफ' आलिया भट्ट या श्रद्धा कपूर
213
+ 106
214
+ गुवाहाटी हाईकोर्ट में वैकेंसी
215
+ 107
216
+ बेकरी कहाँ है
217
+ 108
218
+ पहली बारकैबिनेट विस्तार पर्रिकर और सुरेश प्रभु होंगे मंत्रिमंडल में शामिल
219
+ 109
220
+ मुंबई में एक बार फिर होगी आफत की बारिश अगले दो दिन का अलर्ट
221
+ 110
222
+ वह मेर�� बात नहीं सुनेगा।
223
+ 111
224
+ मैं इस शोर को और बर्दाश्त नहीं कर सकती।
225
+ 112
226
+ इससे मेरे कोई लेनादेना नहीं है।
227
+ 113
228
+ तुम मरोगे।
229
+ 114
230
+ मैं इस ज़िन्दगी को जीकर थक गया हूँ।
231
+ 115
232
+ बाद में मिलेंगे।
233
+ 116
234
+ दुकान आज खुली नहीं है।
235
+ 117
236
+ वह कौनसी चिड़िया है
237
+ 118
238
+ गुजरात में अमित शाह की गाड़ी के ऊपर पाटीदारों ने फेंके अंडे
239
+ 119
240
+ पेट्रोल के दामों में वृद्धि से ममता नाखुश
241
+ 120
242
+ टॉम स्वार्थी था।
243
+ 121
244
+ आप दोनों देख रही हैं।
245
+ 122
246
+ यह रही तेरी चाय।
247
+ 123
248
+ जर्मनी चाहता था कि रूस युद्ध से बाहर रहे।
249
+ 124
250
+ दिल्लीएनसीआर में सुहावने मौसम के बीच ट्रैफिक जाम बना लोगों के लिए मुसीबत
251
+ 125
252
+ महिलाओं के लिये स्ट्रिप क्लब है।
253
+ 126
254
+ बरसों तक जिसे खून समझती रही दुनिया बाद में वो निकला गर्म पानी
evaluations/common_voice_7/log.txt ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ Downloading and preparing dataset common_voice/hi to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b...
2
+ Dataset common_voice downloaded and prepared to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b. Subsequent calls will reuse this data.
3
+ WER: 0.629385694940293
4
+ CER: 0.2978412230152877
evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_predictions.txt ADDED
The diff for this file is too large to render. See raw diff
 
evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_targets.txt ADDED
The diff for this file is too large to render. See raw diff
 
evaluations/common_voice_7/mozilla-foundation_common_voice_7_0_hi_test_eval_results.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ WER: 0.629385694940293
2
+ CER: 0.2978412230152877
evaluations/common_voice_8/log.txt ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ Downloading and preparing dataset common_voice/hi to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/8.0.0/b8bc4d453193c06a43269b46cd87f075c70f152ac963b7f28f7a2760c45ec3e8...
2
+ Dataset common_voice downloaded and prepared to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/8.0.0/b8bc4d453193c06a43269b46cd87f075c70f152ac963b7f28f7a2760c45ec3e8. Subsequent calls will reuse this data.
3
+ WER: 0.6562355764792763
4
+ CER: 0.318821047152537
evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_predictions.txt ADDED
The diff for this file is too large to render. See raw diff
 
evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_targets.txt ADDED
The diff for this file is too large to render. See raw diff
 
evaluations/common_voice_8/mozilla-foundation_common_voice_8_0_hi_test_eval_results.txt ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ WER: 0.6562355764792763
2
+ CER: 0.318821047152537
evaluations/eval.py ADDED
@@ -0,0 +1,137 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ #!/usr/bin/env python3
2
+ import argparse
3
+ import re
4
+ from typing import Dict
5
+
6
+ import torch
7
+ from datasets import Audio, Dataset, load_dataset, load_metric
8
+
9
+ from transformers import AutoFeatureExtractor, pipeline
10
+
11
+
12
+ def log_results(result: Dataset, args: Dict[str, str]):
13
+ """DO NOT CHANGE. This function computes and logs the result metrics."""
14
+
15
+ log_outputs = args.log_outputs
16
+ dataset_id = "_".join(args.dataset.split("/") + [args.config, args.split])
17
+
18
+ # load metric
19
+ wer = load_metric("wer")
20
+ cer = load_metric("cer")
21
+
22
+ # compute metrics
23
+ wer_result = wer.compute(references=result["target"], predictions=result["prediction"])
24
+ cer_result = cer.compute(references=result["target"], predictions=result["prediction"])
25
+
26
+ # print & log results
27
+ result_str = f"WER: {wer_result}\n" f"CER: {cer_result}"
28
+ print(result_str)
29
+
30
+ with open(f"{dataset_id}_eval_results.txt", "w") as f:
31
+ f.write(result_str)
32
+
33
+ # log all results in text file. Possibly interesting for analysis
34
+ if log_outputs is not None:
35
+ pred_file = f"log_{dataset_id}_predictions.txt"
36
+ target_file = f"log_{dataset_id}_targets.txt"
37
+
38
+ with open(pred_file, "w") as p, open(target_file, "w") as t:
39
+
40
+ # mapping function to write output
41
+ def write_to_file(batch, i):
42
+ p.write(f"{i}" + "\n")
43
+ p.write(batch["prediction"] + "\n")
44
+ t.write(f"{i}" + "\n")
45
+ t.write(batch["target"] + "\n")
46
+
47
+ result.map(write_to_file, with_indices=True)
48
+
49
+
50
+ def normalize_text(text: str) -> str:
51
+ """DO ADAPT FOR YOUR USE CASE. this function normalizes the target text."""
52
+
53
+ chars_to_ignore_regex = '[,?.!\-\;\:"“%‘”�—’…–]' # noqa: W605 IMPORTANT: this should correspond to the chars that were ignored during training
54
+
55
+ text = re.sub(chars_to_ignore_regex, "", text.lower())
56
+
57
+ # In addition, we can normalize the target text, e.g. removing new lines characters etc...
58
+ # note that order is important here!
59
+ token_sequences_to_ignore = ["\n\n", "\n", " ", " "]
60
+
61
+ for t in token_sequences_to_ignore:
62
+ text = " ".join(text.split(t))
63
+
64
+ return text
65
+
66
+
67
+ def main(args):
68
+ # load dataset
69
+ dataset = load_dataset(args.dataset, args.config, split=args.split, use_auth_token=True)
70
+
71
+ # for testing: only process the first two examples as a test
72
+ # dataset = dataset.select(range(10))
73
+
74
+ # load processor
75
+ feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
76
+ sampling_rate = feature_extractor.sampling_rate
77
+
78
+ # resample audio
79
+ dataset = dataset.cast_column("audio", Audio(sampling_rate=sampling_rate))
80
+
81
+ # load eval pipeline
82
+ if args.device is None:
83
+ args.device = 0 if torch.cuda.is_available() else -1
84
+ asr = pipeline("automatic-speech-recognition", model=args.model_id, device=args.device)
85
+
86
+ # map function to decode audio
87
+ def map_to_pred(batch):
88
+ prediction = asr(
89
+ batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s
90
+ )
91
+
92
+ batch["prediction"] = prediction["text"]
93
+ batch["target"] = normalize_text(batch["sentence"])
94
+ return batch
95
+
96
+ # run inference on all examples
97
+ result = dataset.map(map_to_pred, remove_columns=dataset.column_names)
98
+
99
+ # compute and log_results
100
+ # do not change function below
101
+ log_results(result, args)
102
+
103
+
104
+ if __name__ == "__main__":
105
+ parser = argparse.ArgumentParser()
106
+
107
+ parser.add_argument(
108
+ "--model_id", type=str, required=True, help="Model identifier. Should be loadable with 🤗 Transformers"
109
+ )
110
+ parser.add_argument(
111
+ "--dataset",
112
+ type=str,
113
+ required=True,
114
+ help="Dataset name to evaluate the `model_id`. Should be loadable with 🤗 Datasets",
115
+ )
116
+ parser.add_argument(
117
+ "--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'` for Common Voice"
118
+ )
119
+ parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
120
+ parser.add_argument(
121
+ "--chunk_length_s", type=float, default=None, help="Chunk length in seconds. Defaults to 5 seconds."
122
+ )
123
+ parser.add_argument(
124
+ "--stride_length_s", type=float, default=None, help="Stride of the audio chunks. Defaults to 1 second."
125
+ )
126
+ parser.add_argument(
127
+ "--log_outputs", action="store_true", help="If defined, write outputs to log file for analysis."
128
+ )
129
+ parser.add_argument(
130
+ "--device",
131
+ type=int,
132
+ default=None,
133
+ help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
134
+ )
135
+ args = parser.parse_args()
136
+
137
+ main(args)