harveenchadha
commited on
Commit
•
6f60748
1
Parent(s):
b017aaa
Harveen | Adding evaluations
Browse files- evaluations/common_voice/common_voice_hi_test_eval_results.txt +2 -0
- evaluations/common_voice/log.txt +2 -0
- evaluations/common_voice/log_common_voice_hi_test_predictions.txt +254 -0
- evaluations/common_voice/log_common_voice_hi_test_targets.txt +254 -0
- evaluations/common_voice_7/log.txt +4 -0
- evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_predictions.txt +0 -0
- evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_targets.txt +0 -0
- evaluations/common_voice_7/mozilla-foundation_common_voice_7_0_hi_test_eval_results.txt +2 -0
- evaluations/common_voice_8/log.txt +4 -0
- evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_predictions.txt +0 -0
- evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_targets.txt +0 -0
- evaluations/common_voice_8/mozilla-foundation_common_voice_8_0_hi_test_eval_results.txt +2 -0
- evaluations/eval.py +137 -0
evaluations/common_voice/common_voice_hi_test_eval_results.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
WER: 0.39211136890951276
|
2 |
+
CER: 0.12971414845063656
|
evaluations/common_voice/log.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
WER: 0.39211136890951276
|
2 |
+
CER: 0.12971414845063656
|
evaluations/common_voice/log_common_voice_hi_test_predictions.txt
ADDED
@@ -0,0 +1,254 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
0
|
2 |
+
कांस्टबुल बन मनोज बाजपे दिखा रहे हैं तांडल
|
3 |
+
1
|
4 |
+
वह चाय पी रहा है
|
5 |
+
2
|
6 |
+
अब मच्छरों को मारेंगे मच्छर
|
7 |
+
3
|
8 |
+
जेक मुझसे तीन साल बड़ा है
|
9 |
+
4
|
10 |
+
एक पागल इनसान को अपने कि धरे के लिए जमींदार नहीं ठहराया जा सकता
|
11 |
+
5
|
12 |
+
कौन ज्यादा तेज़ भागता है खैन या टूनी
|
13 |
+
6
|
14 |
+
हमने उस उम्मीदवार को अपना मत दिया
|
15 |
+
7
|
16 |
+
उन्होंने एक दूसरे को देखा
|
17 |
+
8
|
18 |
+
अभी पौर्लैंड में क्या हो रहा है
|
19 |
+
9
|
20 |
+
मैं सफर पर उसके साथ गया
|
21 |
+
10
|
22 |
+
उसने मेरे स्तन पकड़ लिए
|
23 |
+
11
|
24 |
+
क्या इसका स्वाद अच्छा है
|
25 |
+
12
|
26 |
+
लोगों ने पुलिस टीम पर किया हमला वर्दी फाटकर जीपे सी से थोड़े
|
27 |
+
13
|
28 |
+
हमारे पास तो बस चाय है
|
29 |
+
14
|
30 |
+
उसे अपना स्कूल बहुत पसंद है
|
31 |
+
15
|
32 |
+
पिछले कुछ सालों से मौसम बहुत अजीब है
|
33 |
+
16
|
34 |
+
वह नतीजे के लिए बेचैन हैं
|
35 |
+
17
|
36 |
+
लूई तुम्हारे दोस्त आ रहे हैं
|
37 |
+
18
|
38 |
+
लगता है मुझे सहायता की आवश्यकता है
|
39 |
+
19
|
40 |
+
उसने मुझे चिट्टी का जवाब न देने के लिए डाँगटा
|
41 |
+
20
|
42 |
+
यहाँ आसपास में एक झोकड़ी हुआ करती थी
|
43 |
+
21
|
44 |
+
गर्भवति ने मुर्गा क्या पहाना भाडक कया दंगा
|
45 |
+
22
|
46 |
+
बच्चे बगीचे में खेल रहे हैं
|
47 |
+
23
|
48 |
+
इस्त्री पर बहुत कम लोग रहते हैं
|
49 |
+
24
|
50 |
+
तुम्हें थोड़ा सादा समझदार होना चाहिए
|
51 |
+
25
|
52 |
+
तुम यहाँ सारे के सारे पेड़ का डाग देका
|
53 |
+
26
|
54 |
+
वह मुझ पर गुस्सा हो गया
|
55 |
+
27
|
56 |
+
उत्तरप्रदेश में चल रहे नौफर्जी विश्वविद्यालयं की जांच ऐसाइटी को
|
57 |
+
28
|
58 |
+
कारा रंग तुम पर झचता है
|
59 |
+
29
|
60 |
+
और शादीशुदा नहीं है
|
61 |
+
30
|
62 |
+
आतंकवादी लक्णों को भी दे सकते हैं पटान कोटी जैसे घाओ
|
63 |
+
31
|
64 |
+
मुझे अपने पिता की गरीभी पर शर् नहीं आती हैँ
|
65 |
+
32
|
66 |
+
तुम गाड़ी चला सकते हो क्या
|
67 |
+
33
|
68 |
+
तुम अंधेरे में क्यों बैठी हो
|
69 |
+
34
|
70 |
+
वो मुझसे दो साल छोटी है
|
71 |
+
35
|
72 |
+
मेरी नजर इन दिनों कमज़ोर हो रही है
|
73 |
+
36
|
74 |
+
वो तीन घणटो में वापस आएगा
|
75 |
+
37
|
76 |
+
वे पाँच बजे चाय पीती हैं
|
77 |
+
38
|
78 |
+
महाराष्ट्र पब्लिक सर्विस कमिशन में वैकंसी
|
79 |
+
39
|
80 |
+
उसने सब कुछ अपने आप किया
|
81 |
+
40
|
82 |
+
दुनिया बदल गई है
|
83 |
+
41
|
84 |
+
यह आपका फैसला नहीं है
|
85 |
+
42
|
86 |
+
मैं सिरिया से हूँ
|
87 |
+
43
|
88 |
+
हम अन्दर आ रहे हैं
|
89 |
+
44
|
90 |
+
आप किसके साथ खा रहे हैं
|
91 |
+
45
|
92 |
+
वो बहुत ऐसे वाली औरत है
|
93 |
+
46
|
94 |
+
यह कुरसी आपकी है
|
95 |
+
47
|
96 |
+
मैं अभी छोड़ने वाली नहीं हूँ
|
97 |
+
48
|
98 |
+
चाय वाह कुछ लोगी
|
99 |
+
49
|
100 |
+
उसका कहा हुआ एक शब्द भी सुनने लायक नहीं है
|
101 |
+
50
|
102 |
+
दरवाज़ा खोलए
|
103 |
+
51
|
104 |
+
मुझे मूर्ख बरना पसंद नहीं है
|
105 |
+
52
|
106 |
+
हम एक सेन देख रहे हैं
|
107 |
+
53
|
108 |
+
बोटर छोड दो
|
109 |
+
54
|
110 |
+
मुझे एक कब चाहीचाहिए
|
111 |
+
55
|
112 |
+
हमें नहीं पता हम कहा है
|
113 |
+
56
|
114 |
+
पाकिस्तान ने आतंकी हाफिज शहीद के बेटे पर भी आतंकवादी हमने का खतरा
|
115 |
+
57
|
116 |
+
मयानम के आशीर्वाद पर अकिलेश बोलेनेताजी जिन्धाबाद सिवपाल नदारग
|
117 |
+
58
|
118 |
+
मैं स्कूल जाना नहीं चाहता हूँ
|
119 |
+
59
|
120 |
+
आम चुनाव के लिए कांग्रेस ���तरक जाट आरक्षण से फिर वो बटोरे की कांग्रेस
|
121 |
+
60
|
122 |
+
उसने प्रतियों के साथ सिर से जीत ली
|
123 |
+
61
|
124 |
+
किसी ने मीरी पतम काट ली है
|
125 |
+
62
|
126 |
+
हम सब ताम को जानते हैं
|
127 |
+
63
|
128 |
+
अफ्रीका में कई शेर है
|
129 |
+
64
|
130 |
+
आज के युवाओं को नहीं मालूम पहले विश्वयुद्ध की तारीख े
|
131 |
+
65
|
132 |
+
बम्बई भारतीय राज्य महाराष्ट्रा की राज्थानी है
|
133 |
+
66
|
134 |
+
उसने मुझे वह नीयम समझाया
|
135 |
+
67
|
136 |
+
मेरे पापा आम तौर पर छह बजे घर लौटकर आते हैं
|
137 |
+
68
|
138 |
+
सेंसक्स और निफ्टी भारी गिरावट के साथ बंद
|
139 |
+
69
|
140 |
+
तूफान ने पूरे नगर को नष्ट कर दिया
|
141 |
+
70
|
142 |
+
हम तो बस दोस्त हैं
|
143 |
+
71
|
144 |
+
हमारी मीटिंग कभी कबार ही टाइम पर शुरू होती है
|
145 |
+
72
|
146 |
+
वारियर ने बैक्टोरिया को हरा कर दूसरी जीज दर्ज की
|
147 |
+
73
|
148 |
+
अम्बेटकर यूनिवर्सिटी शुरू करेगी ऑनलाइन कोर्स
|
149 |
+
74
|
150 |
+
वे पक्ष का बाहर केजरीवाल जैसी नौटंकी पर उतरे सिवराज्
|
151 |
+
75
|
152 |
+
वह वहाँ जाने से डरता था
|
153 |
+
76
|
154 |
+
वाराणसी हिंसा कांग्रेस विदायक अजय राए गिरफ्तार
|
155 |
+
77
|
156 |
+
मुझे पता है कि तुम अभी भी मेरे लिये आसू बहाते हो कभीकभी
|
157 |
+
78
|
158 |
+
चाय वही कुछ लेंगे आप
|
159 |
+
79
|
160 |
+
उसका निल साफ है
|
161 |
+
80
|
162 |
+
महलाएं दुनिया बदल देती हैं
|
163 |
+
81
|
164 |
+
दृतीय हरएक संस्कृति का एक सुंदर भागत है
|
165 |
+
82
|
166 |
+
मुझे अंग्रेज़ी और संगीत पसंद े
|
167 |
+
83
|
168 |
+
इंटिकेट कारोबार में आयआर सीटीसी को मिल सकती है चुनौती
|
169 |
+
84
|
170 |
+
वो रोया और मोर रोया
|
171 |
+
85
|
172 |
+
सब लोग हीद पर खँसे
|
173 |
+
86
|
174 |
+
मंडे से बेहतर टेस्ट क्रिकेट र न कोलीकोच
|
175 |
+
87
|
176 |
+
ताम का क्या हुआ है
|
177 |
+
88
|
178 |
+
शलेवार ह्दय का आखिरे दिन होता आई
|
179 |
+
89
|
180 |
+
मेरा साव किटाब साझा न है
|
181 |
+
90
|
182 |
+
टाम अभी भी स्कूल में आए
|
183 |
+
91
|
184 |
+
मुझे बस उसका नाम बता
|
185 |
+
92
|
186 |
+
वहाँ सेव सरने लगाह
|
187 |
+
93
|
188 |
+
वह दस साल का लड़का था
|
189 |
+
94
|
190 |
+
मेरे लिए थोड़ी जगा बनाओगी क्या
|
191 |
+
95
|
192 |
+
टोम को कुछ भिलाओ
|
193 |
+
96
|
194 |
+
कुछ कुछ लोचा है मैं सनीलियौन का बिकनी लुक
|
195 |
+
97
|
196 |
+
यह रही आपकी चाबी
|
197 |
+
98
|
198 |
+
टाम ने आकाश की तरफ देखा
|
199 |
+
99
|
200 |
+
मैं शहर का नक्षा खरीदना चाहता हूँ
|
201 |
+
100
|
202 |
+
मेरी छड़ी कहाँ है
|
203 |
+
101
|
204 |
+
इस वजह से हुआ दावते इसकी रिलीज में पैर बदल
|
205 |
+
102
|
206 |
+
उस संस्कृति में लोग रंगविरंगी कपड़़े पहनते हैं
|
207 |
+
103
|
208 |
+
यह सशक्त लोकपाल नहीं है लालू यादो
|
209 |
+
104
|
210 |
+
इसलिए क्योंकि तुम लड़की हो
|
211 |
+
105
|
212 |
+
कौन बनेगी एमज दोनी की वायी आलिया भट या श्रद्धा कपू
|
213 |
+
106
|
214 |
+
गोहाटी हाईकोट में भैकेंसी
|
215 |
+
107
|
216 |
+
बेकरी कहाँ है
|
217 |
+
108
|
218 |
+
पहली बार काबनेट बिस्तापरिकर और सुरेश प्रभू होंगे मंत्रिमंडल में शामिल
|
219 |
+
109
|
220 |
+
वह में एक बार फिर होगी आपत की बारिश अगले दो दिन काअलट
|
221 |
+
110
|
222 |
+
वह मेरी बात नहीं सुनेगा
|
223 |
+
111
|
224 |
+
मैं इस शोर को आर बरदाश नहीं कर सकती
|
225 |
+
112
|
226 |
+
इससे मेरा कोई लेना देना नहीं है
|
227 |
+
113
|
228 |
+
तुम मरोगये
|
229 |
+
114
|
230 |
+
मैं इस ज़िं्दगी को झीकर थक गया हूँ
|
231 |
+
115
|
232 |
+
बाद में मिलेंगे
|
233 |
+
116
|
234 |
+
दुक���न आज खुली नहीं है
|
235 |
+
117
|
236 |
+
वह कौनसी छिटियाँ हैं
|
237 |
+
118
|
238 |
+
गुजरात में अमी शाह की गाड़ी के ऊपर पार्टीदारों ने फेके अंडे
|
239 |
+
119
|
240 |
+
पेटोल के दावों में भीढ़ी से ममता नाखुश
|
241 |
+
120
|
242 |
+
टाँव स्वार्थी था
|
243 |
+
121
|
244 |
+
आप दोनों पीक रली हैं
|
245 |
+
122
|
246 |
+
यह रही तेरी चाए
|
247 |
+
123
|
248 |
+
जननी चाहता था कि रोज़ ये चलार रहे
|
249 |
+
124
|
250 |
+
दिल्ली इंतिहार ने सुहावने मौसम के भीच टातक जाम बना लगाँ पड़िया मुसीरा
|
251 |
+
125
|
252 |
+
महिलाओं का लि हस कपरा है
|
253 |
+
126
|
254 |
+
बहसों तक जैसे कौनचमकती रही रहींया बाहर नीं क निकला करं पामी
|
evaluations/common_voice/log_common_voice_hi_test_targets.txt
ADDED
@@ -0,0 +1,254 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
0
|
2 |
+
कांस्टेबल बन मनोज बाजपेयी दिखा रहे हैं 'तांडव'
|
3 |
+
1
|
4 |
+
वह चाय पी रहा है।
|
5 |
+
2
|
6 |
+
अब मच्छरों को मारेंगे मच्छर
|
7 |
+
3
|
8 |
+
जैक मुझसे तीन साल बड़ा है।
|
9 |
+
4
|
10 |
+
एक पागल इनसान को अपने कियेधरे के लिए ज़िम्मेदार नहीं ठहराया जा सकता।
|
11 |
+
5
|
12 |
+
कौन ज़्यादा तेज़ भागता है केन या टोनी
|
13 |
+
6
|
14 |
+
हमने उस उम्मीदवार को अपना मत दिया।
|
15 |
+
7
|
16 |
+
उन्होंने एकदूसरे को देखा।
|
17 |
+
8
|
18 |
+
अभी पोलैंड में क्या हो रहा है
|
19 |
+
9
|
20 |
+
मैं सफ़र पर उसके साथ गया।
|
21 |
+
10
|
22 |
+
उसने मेरे स्तन पकड़ लिये।
|
23 |
+
11
|
24 |
+
क्या इसका स्वाद अच्छा है
|
25 |
+
12
|
26 |
+
लोगों ने पुलिस टीम पर किया हमला वर्दी फाड़कर जीप के शीशे तोड़े
|
27 |
+
13
|
28 |
+
हमारे पास तो बस चाय है।
|
29 |
+
14
|
30 |
+
उसे अपना स्कूल बहुत पसंद है।
|
31 |
+
15
|
32 |
+
पिछले कुछ सालों से मौसम बहुत अजीब है।
|
33 |
+
16
|
34 |
+
वह नतीजे के लिए बेचैन है।
|
35 |
+
17
|
36 |
+
लुई तुम्हारे दोस्त आ रहे हैं।
|
37 |
+
18
|
38 |
+
लगता है मुझे सहायता की आवश्यकता है।
|
39 |
+
19
|
40 |
+
उसने मुझे चिट्ठी का जवाब न देने के लिए डाँटा।
|
41 |
+
20
|
42 |
+
यहाँ आसपास में एक झोपड़ी हुआ करती थी।
|
43 |
+
21
|
44 |
+
गर्भवती ने बुरका क्या पहाना भड़क गया दंगा
|
45 |
+
22
|
46 |
+
बच्चे बगीचे में खेल रहे हैं।
|
47 |
+
23
|
48 |
+
इस द्वीप पर बहुत कम लोग रहते हैं।
|
49 |
+
24
|
50 |
+
तुम्हें थोड़ा ज़्यादा समझदार होना चाहिए।
|
51 |
+
25
|
52 |
+
तुम यहाँ सारे के सारे पेड़ काट डालोगे क्या
|
53 |
+
26
|
54 |
+
वह मुझपर गुस्सा हो गया।
|
55 |
+
27
|
56 |
+
उत्तर प्रदेश में चल रहे नौ फर्जी विश्वविद्यालयों की जांच एसआईटी को
|
57 |
+
28
|
58 |
+
काला रंग तुम पर जँचता है।
|
59 |
+
29
|
60 |
+
वह शादीशुदा नहीं है।
|
61 |
+
30
|
62 |
+
आतंकवादी लखनऊ को भी दे सकते हैं पठानकोट जैसा घाव
|
63 |
+
31
|
64 |
+
मुझे अपने पिता की ग़रीबी पर शर्म नहीं आती है।
|
65 |
+
32
|
66 |
+
तुम गाड़ी चला सकते हो क्या
|
67 |
+
33
|
68 |
+
तुम अंधेरे में क्यों बैठी हो
|
69 |
+
34
|
70 |
+
वह मुझसे दो साल छोटी है।
|
71 |
+
35
|
72 |
+
मेरी नज़र इन दिनों कमज़ोर हो रही है।
|
73 |
+
36
|
74 |
+
वह तीन घंटों में वापस आएगा।
|
75 |
+
37
|
76 |
+
वे पाँच बजे चाय पीतीं हैं।
|
77 |
+
38
|
78 |
+
महाराष्ट्र पब्लिक सर्विस कमीशन में वैकेंसी
|
79 |
+
39
|
80 |
+
उसने सब कुछ अपनेआप किया।
|
81 |
+
40
|
82 |
+
दुनिया बदल गई है।
|
83 |
+
41
|
84 |
+
यह आपका फ़ैसला नहीं है।
|
85 |
+
42
|
86 |
+
मैं सीरिया से हूँ।
|
87 |
+
43
|
88 |
+
हम अंदर आ रहे हैं।
|
89 |
+
44
|
90 |
+
आप किसके साथ खा रहीं हैं
|
91 |
+
45
|
92 |
+
वह बहुत पैसेवाली औरत है।
|
93 |
+
46
|
94 |
+
यह कुर्सी आपकी है।
|
95 |
+
47
|
96 |
+
मैं अभी छोड़ने वाली नहीं हूँ।
|
97 |
+
48
|
98 |
+
चायवाय कुछ लोगी
|
99 |
+
49
|
100 |
+
उसका कहा हुआ एक शब्द भी सुनने लायक नहीं है।
|
101 |
+
50
|
102 |
+
दरवाज़ा खोलिए।
|
103 |
+
51
|
104 |
+
मुझे मूर्ख बनना पसंद नहीं है।
|
105 |
+
52
|
106 |
+
हम एक फ़िल्म देख रहे हैं।
|
107 |
+
53
|
108 |
+
बोतल छोड़ दो।
|
109 |
+
54
|
110 |
+
मुझे एक कप चाय चाहिए।
|
111 |
+
55
|
112 |
+
हमें नहीं पता हम कहाँ हैं।
|
113 |
+
56
|
114 |
+
पाकिस्तान में आतंकी हाफिज सईद के बेटे पर भी आतंकवादी हमले का खतरा
|
115 |
+
57
|
116 |
+
मुलायम के आशीर्वाद पर अखिलेश बोले न��ताजी जिंदाबाद शिवपाल नदारद
|
117 |
+
58
|
118 |
+
मैं स्कुल जाना नहीं चाहता हूँ।
|
119 |
+
59
|
120 |
+
आम चुनावों के लिए कांग्रेस सतर्क जाट आरक्षण से फिर वोट बटोरेगी कांग्रेस
|
121 |
+
60
|
122 |
+
उसने प्रतियोगिता फिरसे जीत ली।
|
123 |
+
61
|
124 |
+
किसी ने मेरी पतंग काट ली है।
|
125 |
+
62
|
126 |
+
हम सब टॉम को जानते हैं।
|
127 |
+
63
|
128 |
+
आफ़्रिका में कई शेर हैं।
|
129 |
+
64
|
130 |
+
आज के युवाओं को नहीं मालूम पहले विश्वयुद्ध की तारीखें
|
131 |
+
65
|
132 |
+
मुम्बई भारतीय राज्य महाराष्ट्र की राजधानी है।
|
133 |
+
66
|
134 |
+
उसने मुझे वह नियम समझाया।
|
135 |
+
67
|
136 |
+
मेरे पापा आमतौर पर छः बजे घर लौटकर आते हैं।
|
137 |
+
68
|
138 |
+
सेंसेक्स और निफ्टी भारी गिरावट के साथ बंद
|
139 |
+
69
|
140 |
+
तूफ़ान ने पूरे नगर को नष्ट कर दिया।
|
141 |
+
70
|
142 |
+
हम तो बस दोस्त है।
|
143 |
+
71
|
144 |
+
हमारी मीटिंग कभीकभार ही टाईम पर शुरू होती है।
|
145 |
+
72
|
146 |
+
वारियर्स ने विक्टोरिया को हराकर दूसरी जीत दर्ज की
|
147 |
+
73
|
148 |
+
अंबेडकर यूनिवर्सिटी शुरू करेगी ऑनलाइन कोर्स
|
149 |
+
74
|
150 |
+
विपक्ष का वार केजरीवाल जैसी नौटंकी पर उतरे शिवराज
|
151 |
+
75
|
152 |
+
वह वहाँ जाने से डरता था।
|
153 |
+
76
|
154 |
+
वाराणसी हिंसा कांग्रेस विधायक अजय राय गिरफ्तार
|
155 |
+
77
|
156 |
+
मुझे पता है कि तुम अभी भी मेरे लिए आंसू बहाते हो कभी कभी।
|
157 |
+
78
|
158 |
+
चायवाय कुछ लेंगे आप
|
159 |
+
79
|
160 |
+
उसका दिल साफ़ है।
|
161 |
+
80
|
162 |
+
महिलाएँ दुनिया बदल देती हैं।
|
163 |
+
81
|
164 |
+
नृत्य हर एक संस्कृति का एक सुंदर भाग होता है।
|
165 |
+
82
|
166 |
+
मुझे अंग्रेज़ी और संगीत पसंद हैं।
|
167 |
+
83
|
168 |
+
ईटिकट कारोबार में आईआरसीटीसी को मिल सकती है चुनौती
|
169 |
+
84
|
170 |
+
वह रोया और और रोया।
|
171 |
+
85
|
172 |
+
सब लोग मुझपर हँसे।
|
173 |
+
86
|
174 |
+
वनडे से बेहतर टेस्ट क्रिकेटर है कोहली कोच
|
175 |
+
87
|
176 |
+
टॉम को क्या हुआ है
|
177 |
+
88
|
178 |
+
शनिवार हफ़्ते का आखिरी दिन होता है।
|
179 |
+
89
|
180 |
+
मेरा शौक गिटार बजाना है।
|
181 |
+
90
|
182 |
+
टॉम अभी भी स्कूल में है
|
183 |
+
91
|
184 |
+
मुझे बस उसका नाम बता।
|
185 |
+
92
|
186 |
+
वह सेव सड़ने लगा है।
|
187 |
+
93
|
188 |
+
वह दस साल का लड़का था।
|
189 |
+
94
|
190 |
+
मेरे लिए थोड़ी जगह बनाओगे क्या
|
191 |
+
95
|
192 |
+
टॉम को कुछ पिलाओ।
|
193 |
+
96
|
194 |
+
'कुछ कुछ लोचा है' में सनी लियोन का बिकिनी लुक
|
195 |
+
97
|
196 |
+
यह रही आपकी चाबी।
|
197 |
+
98
|
198 |
+
टॉम ने आकाश की तरफ देखा।
|
199 |
+
99
|
200 |
+
मैं शहर का नक्शा खरीदना चाहता हूँ।
|
201 |
+
100
|
202 |
+
मेरी छड़ी कहाँ है
|
203 |
+
101
|
204 |
+
इस वजह से हुआ दावतएइश्क की रिलीज में फेरबदल
|
205 |
+
102
|
206 |
+
उस संस्कृति में लोग रंगबिरंगी कपड़े पहनते हैं।
|
207 |
+
103
|
208 |
+
यह सशक्त लोकपाल नहीं हैः लालू यादव
|
209 |
+
104
|
210 |
+
इसलिए क्योंकि तुम लड़की हो।
|
211 |
+
105
|
212 |
+
कौन बनेगी एमएस धोनी की 'वाइफ' आलिया भट्ट या श्रद्धा कपूर
|
213 |
+
106
|
214 |
+
गुवाहाटी हाईकोर्ट में वैकेंसी
|
215 |
+
107
|
216 |
+
बेकरी कहाँ है
|
217 |
+
108
|
218 |
+
पहली बारकैबिनेट विस्तार पर्रिकर और सुरेश प्रभु होंगे मंत्रिमंडल में शामिल
|
219 |
+
109
|
220 |
+
मुंबई में एक बार फिर होगी आफत की बारिश अगले दो दिन का अलर्ट
|
221 |
+
110
|
222 |
+
वह मेर�� बात नहीं सुनेगा।
|
223 |
+
111
|
224 |
+
मैं इस शोर को और बर्दाश्त नहीं कर सकती।
|
225 |
+
112
|
226 |
+
इससे मेरे कोई लेनादेना नहीं है।
|
227 |
+
113
|
228 |
+
तुम मरोगे।
|
229 |
+
114
|
230 |
+
मैं इस ज़िन्दगी को जीकर थक गया हूँ।
|
231 |
+
115
|
232 |
+
बाद में मिलेंगे।
|
233 |
+
116
|
234 |
+
दुकान आज खुली नहीं है।
|
235 |
+
117
|
236 |
+
वह कौनसी चिड़िया है
|
237 |
+
118
|
238 |
+
गुजरात में अमित शाह की गाड़ी के ऊपर पाटीदारों ने फेंके अंडे
|
239 |
+
119
|
240 |
+
पेट्रोल के दामों में वृद्धि से ममता नाखुश
|
241 |
+
120
|
242 |
+
टॉम स्वार्थी था।
|
243 |
+
121
|
244 |
+
आप दोनों देख रही हैं।
|
245 |
+
122
|
246 |
+
यह रही तेरी चाय।
|
247 |
+
123
|
248 |
+
जर्मनी चाहता था कि रूस युद्ध से बाहर रहे।
|
249 |
+
124
|
250 |
+
दिल्लीएनसीआर में सुहावने मौसम के बीच ट्रैफिक जाम बना लोगों के लिए मुसीबत
|
251 |
+
125
|
252 |
+
महिलाओं के लिये स्ट्रिप क्लब है।
|
253 |
+
126
|
254 |
+
बरसों तक जिसे खून समझती रही दुनिया बाद में वो निकला गर्म पानी
|
evaluations/common_voice_7/log.txt
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
Downloading and preparing dataset common_voice/hi to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b...
|
2 |
+
Dataset common_voice downloaded and prepared to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/7.0.0/fe20cac47c166e25b1f096ab661832e3da7cf298ed4a91dcaa1343ad972d175b. Subsequent calls will reuse this data.
|
3 |
+
WER: 0.629385694940293
|
4 |
+
CER: 0.2978412230152877
|
evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_predictions.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
evaluations/common_voice_7/log_mozilla-foundation_common_voice_7_0_hi_test_targets.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
evaluations/common_voice_7/mozilla-foundation_common_voice_7_0_hi_test_eval_results.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
WER: 0.629385694940293
|
2 |
+
CER: 0.2978412230152877
|
evaluations/common_voice_8/log.txt
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
Downloading and preparing dataset common_voice/hi to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/8.0.0/b8bc4d453193c06a43269b46cd87f075c70f152ac963b7f28f7a2760c45ec3e8...
|
2 |
+
Dataset common_voice downloaded and prepared to /home/harveen/.cache/huggingface/datasets/mozilla-foundation___common_voice/hi/8.0.0/b8bc4d453193c06a43269b46cd87f075c70f152ac963b7f28f7a2760c45ec3e8. Subsequent calls will reuse this data.
|
3 |
+
WER: 0.6562355764792763
|
4 |
+
CER: 0.318821047152537
|
evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_predictions.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
evaluations/common_voice_8/log_mozilla-foundation_common_voice_8_0_hi_test_targets.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
evaluations/common_voice_8/mozilla-foundation_common_voice_8_0_hi_test_eval_results.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
WER: 0.6562355764792763
|
2 |
+
CER: 0.318821047152537
|
evaluations/eval.py
ADDED
@@ -0,0 +1,137 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
#!/usr/bin/env python3
|
2 |
+
import argparse
|
3 |
+
import re
|
4 |
+
from typing import Dict
|
5 |
+
|
6 |
+
import torch
|
7 |
+
from datasets import Audio, Dataset, load_dataset, load_metric
|
8 |
+
|
9 |
+
from transformers import AutoFeatureExtractor, pipeline
|
10 |
+
|
11 |
+
|
12 |
+
def log_results(result: Dataset, args: Dict[str, str]):
|
13 |
+
"""DO NOT CHANGE. This function computes and logs the result metrics."""
|
14 |
+
|
15 |
+
log_outputs = args.log_outputs
|
16 |
+
dataset_id = "_".join(args.dataset.split("/") + [args.config, args.split])
|
17 |
+
|
18 |
+
# load metric
|
19 |
+
wer = load_metric("wer")
|
20 |
+
cer = load_metric("cer")
|
21 |
+
|
22 |
+
# compute metrics
|
23 |
+
wer_result = wer.compute(references=result["target"], predictions=result["prediction"])
|
24 |
+
cer_result = cer.compute(references=result["target"], predictions=result["prediction"])
|
25 |
+
|
26 |
+
# print & log results
|
27 |
+
result_str = f"WER: {wer_result}\n" f"CER: {cer_result}"
|
28 |
+
print(result_str)
|
29 |
+
|
30 |
+
with open(f"{dataset_id}_eval_results.txt", "w") as f:
|
31 |
+
f.write(result_str)
|
32 |
+
|
33 |
+
# log all results in text file. Possibly interesting for analysis
|
34 |
+
if log_outputs is not None:
|
35 |
+
pred_file = f"log_{dataset_id}_predictions.txt"
|
36 |
+
target_file = f"log_{dataset_id}_targets.txt"
|
37 |
+
|
38 |
+
with open(pred_file, "w") as p, open(target_file, "w") as t:
|
39 |
+
|
40 |
+
# mapping function to write output
|
41 |
+
def write_to_file(batch, i):
|
42 |
+
p.write(f"{i}" + "\n")
|
43 |
+
p.write(batch["prediction"] + "\n")
|
44 |
+
t.write(f"{i}" + "\n")
|
45 |
+
t.write(batch["target"] + "\n")
|
46 |
+
|
47 |
+
result.map(write_to_file, with_indices=True)
|
48 |
+
|
49 |
+
|
50 |
+
def normalize_text(text: str) -> str:
|
51 |
+
"""DO ADAPT FOR YOUR USE CASE. this function normalizes the target text."""
|
52 |
+
|
53 |
+
chars_to_ignore_regex = '[,?.!\-\;\:"“%‘”�—’…–]' # noqa: W605 IMPORTANT: this should correspond to the chars that were ignored during training
|
54 |
+
|
55 |
+
text = re.sub(chars_to_ignore_regex, "", text.lower())
|
56 |
+
|
57 |
+
# In addition, we can normalize the target text, e.g. removing new lines characters etc...
|
58 |
+
# note that order is important here!
|
59 |
+
token_sequences_to_ignore = ["\n\n", "\n", " ", " "]
|
60 |
+
|
61 |
+
for t in token_sequences_to_ignore:
|
62 |
+
text = " ".join(text.split(t))
|
63 |
+
|
64 |
+
return text
|
65 |
+
|
66 |
+
|
67 |
+
def main(args):
|
68 |
+
# load dataset
|
69 |
+
dataset = load_dataset(args.dataset, args.config, split=args.split, use_auth_token=True)
|
70 |
+
|
71 |
+
# for testing: only process the first two examples as a test
|
72 |
+
# dataset = dataset.select(range(10))
|
73 |
+
|
74 |
+
# load processor
|
75 |
+
feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
|
76 |
+
sampling_rate = feature_extractor.sampling_rate
|
77 |
+
|
78 |
+
# resample audio
|
79 |
+
dataset = dataset.cast_column("audio", Audio(sampling_rate=sampling_rate))
|
80 |
+
|
81 |
+
# load eval pipeline
|
82 |
+
if args.device is None:
|
83 |
+
args.device = 0 if torch.cuda.is_available() else -1
|
84 |
+
asr = pipeline("automatic-speech-recognition", model=args.model_id, device=args.device)
|
85 |
+
|
86 |
+
# map function to decode audio
|
87 |
+
def map_to_pred(batch):
|
88 |
+
prediction = asr(
|
89 |
+
batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s
|
90 |
+
)
|
91 |
+
|
92 |
+
batch["prediction"] = prediction["text"]
|
93 |
+
batch["target"] = normalize_text(batch["sentence"])
|
94 |
+
return batch
|
95 |
+
|
96 |
+
# run inference on all examples
|
97 |
+
result = dataset.map(map_to_pred, remove_columns=dataset.column_names)
|
98 |
+
|
99 |
+
# compute and log_results
|
100 |
+
# do not change function below
|
101 |
+
log_results(result, args)
|
102 |
+
|
103 |
+
|
104 |
+
if __name__ == "__main__":
|
105 |
+
parser = argparse.ArgumentParser()
|
106 |
+
|
107 |
+
parser.add_argument(
|
108 |
+
"--model_id", type=str, required=True, help="Model identifier. Should be loadable with 🤗 Transformers"
|
109 |
+
)
|
110 |
+
parser.add_argument(
|
111 |
+
"--dataset",
|
112 |
+
type=str,
|
113 |
+
required=True,
|
114 |
+
help="Dataset name to evaluate the `model_id`. Should be loadable with 🤗 Datasets",
|
115 |
+
)
|
116 |
+
parser.add_argument(
|
117 |
+
"--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'` for Common Voice"
|
118 |
+
)
|
119 |
+
parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
|
120 |
+
parser.add_argument(
|
121 |
+
"--chunk_length_s", type=float, default=None, help="Chunk length in seconds. Defaults to 5 seconds."
|
122 |
+
)
|
123 |
+
parser.add_argument(
|
124 |
+
"--stride_length_s", type=float, default=None, help="Stride of the audio chunks. Defaults to 1 second."
|
125 |
+
)
|
126 |
+
parser.add_argument(
|
127 |
+
"--log_outputs", action="store_true", help="If defined, write outputs to log file for analysis."
|
128 |
+
)
|
129 |
+
parser.add_argument(
|
130 |
+
"--device",
|
131 |
+
type=int,
|
132 |
+
default=None,
|
133 |
+
help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
|
134 |
+
)
|
135 |
+
args = parser.parse_args()
|
136 |
+
|
137 |
+
main(args)
|