Spaces:

kingabzpro
/

Urdu-ASR-SOTA

Sleeping

App Files Files Community

Abid commited on Mar 10, 2022

Commit

73d6051

•

1 Parent(s): b9df364

first test

Browse files

Files changed (22) hide show

.dvc/.gitignore +3 -0
.dvc/config +0 -0
.dvc/plots/confusion.json +107 -0
.dvc/plots/confusion_normalized.json +112 -0
.dvc/plots/linear.json +116 -0
.dvc/plots/scatter.json +104 -0
.dvc/plots/simple.json +31 -0
.dvc/plots/smooth.json +39 -0
.dvcignore +3 -0
.gitignore +2 -0
Data.dvc +5 -0
Eval Results/log_mozilla-foundation_common_voice_8_0_ur_test_predictions.txt +682 -0
Eval Results/log_mozilla-foundation_common_voice_8_0_ur_test_targets.txt +682 -0
Eval Results/mozilla-foundation_common_voice_8_0_ur_test_eval_results.txt +2 -0
Model.dvc +5 -0
eval.py +153 -0
metrics.csv +14 -0
params.yml +89 -0
requirements.txt +6 -0
run.sh +32 -0
run_eval.sh +1 -0
run_speech_recognition_ctc.py +731 -0

.dvc/.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+/config.local
+/tmp
+/cache

.dvc/config ADDED Viewed

File without changes

.dvc/plots/confusion.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "facet": {
+        "field": "rev",
+        "type": "nominal"
+    },
+    "spec": {
+        "transform": [
+            {
+                "aggregate": [
+                    {
+                        "op": "count",
+                        "as": "xy_count"
+                    }
+                ],
+                "groupby": [
+                    "<DVC_METRIC_Y>",
+                    "<DVC_METRIC_X>"
+                ]
+            },
+            {
+                "impute": "xy_count",
+                "groupby": [
+                    "rev",
+                    "<DVC_METRIC_Y>"
+                ],
+                "key": "<DVC_METRIC_X>",
+                "value": 0
+            },
+            {
+                "impute": "xy_count",
+                "groupby": [
+                    "rev",
+                    "<DVC_METRIC_X>"
+                ],
+                "key": "<DVC_METRIC_Y>",
+                "value": 0
+            },
+            {
+                "joinaggregate": [
+                    {
+                        "op": "max",
+                        "field": "xy_count",
+                        "as": "max_count"
+                    }
+                ],
+                "groupby": []
+            },
+            {
+                "calculate": "datum.xy_count / datum.max_count",
+                "as": "percent_of_max"
+            }
+        ],
+        "encoding": {
+            "x": {
+                "field": "<DVC_METRIC_X>",
+                "type": "nominal",
+                "sort": "ascending",
+                "title": "<DVC_METRIC_X_LABEL>"
+            },
+            "y": {
+                "field": "<DVC_METRIC_Y>",
+                "type": "nominal",
+                "sort": "ascending",
+                "title": "<DVC_METRIC_Y_LABEL>"
+            }
+        },
+        "layer": [
+            {
+                "mark": "rect",
+                "width": 300,
+                "height": 300,
+                "encoding": {
+                    "color": {
+                        "field": "xy_count",
+                        "type": "quantitative",
+                        "title": "",
+                        "scale": {
+                            "domainMin": 0,
+                            "nice": true
+                        }
+                    }
+                }
+            },
+            {
+                "mark": "text",
+                "encoding": {
+                    "text": {
+                        "field": "xy_count",
+                        "type": "quantitative"
+                    },
+                    "color": {
+                        "condition": {
+                            "test": "datum.percent_of_max > 0.5",
+                            "value": "white"
+                        },
+                        "value": "black"
+                    }
+                }
+            }
+        ]
+    }
+}

.dvc/plots/confusion_normalized.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "facet": {
+        "field": "rev",
+        "type": "nominal"
+    },
+    "spec": {
+        "transform": [
+            {
+                "aggregate": [
+                    {
+                        "op": "count",
+                        "as": "xy_count"
+                    }
+                ],
+                "groupby": [
+                    "<DVC_METRIC_Y>",
+                    "<DVC_METRIC_X>"
+                ]
+            },
+            {
+                "impute": "xy_count",
+                "groupby": [
+                    "rev",
+                    "<DVC_METRIC_Y>"
+                ],
+                "key": "<DVC_METRIC_X>",
+                "value": 0
+            },
+            {
+                "impute": "xy_count",
+                "groupby": [
+                    "rev",
+                    "<DVC_METRIC_X>"
+                ],
+                "key": "<DVC_METRIC_Y>",
+                "value": 0
+            },
+            {
+                "joinaggregate": [
+                    {
+                        "op": "sum",
+                        "field": "xy_count",
+                        "as": "sum_y"
+                    }
+                ],
+                "groupby": [
+                    "<DVC_METRIC_Y>"
+                ]
+            },
+            {
+                "calculate": "datum.xy_count / datum.sum_y",
+                "as": "percent_of_y"
+            }
+        ],
+        "encoding": {
+            "x": {
+                "field": "<DVC_METRIC_X>",
+                "type": "nominal",
+                "sort": "ascending",
+                "title": "<DVC_METRIC_X_LABEL>"
+            },
+            "y": {
+                "field": "<DVC_METRIC_Y>",
+                "type": "nominal",
+                "sort": "ascending",
+                "title": "<DVC_METRIC_Y_LABEL>"
+            }
+        },
+        "layer": [
+            {
+                "mark": "rect",
+                "width": 300,
+                "height": 300,
+                "encoding": {
+                    "color": {
+                        "field": "percent_of_y",
+                        "type": "quantitative",
+                        "title": "",
+                        "scale": {
+                            "domain": [
+                                0,
+                                1
+                            ]
+                        }
+                    }
+                }
+            },
+            {
+                "mark": "text",
+                "encoding": {
+                    "text": {
+                        "field": "percent_of_y",
+                        "type": "quantitative",
+                        "format": ".2f"
+                    },
+                    "color": {
+                        "condition": {
+                            "test": "datum.percent_of_y > 0.5",
+                            "value": "white"
+                        },
+                        "value": "black"
+                    }
+                }
+            }
+        ]
+    }
+}

.dvc/plots/linear.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "width": 300,
+    "height": 300,
+    "layer": [
+        {
+            "encoding": {
+                "x": {
+                    "field": "<DVC_METRIC_X>",
+                    "type": "quantitative",
+                    "title": "<DVC_METRIC_X_LABEL>"
+                },
+                "y": {
+                    "field": "<DVC_METRIC_Y>",
+                    "type": "quantitative",
+                    "title": "<DVC_METRIC_Y_LABEL>",
+                    "scale": {
+                        "zero": false
+                    }
+                },
+                "color": {
+                    "field": "rev",
+                    "type": "nominal"
+                }
+            },
+            "layer": [
+                {
+                    "mark": "line"
+                },
+                {
+                    "selection": {
+                        "label": {
+                            "type": "single",
+                            "nearest": true,
+                            "on": "mouseover",
+                            "encodings": [
+                                "x"
+                            ],
+                            "empty": "none",
+                            "clear": "mouseout"
+                        }
+                    },
+                    "mark": "point",
+                    "encoding": {
+                        "opacity": {
+                            "condition": {
+                                "selection": "label",
+                                "value": 1
+                            },
+                            "value": 0
+                        }
+                    }
+                }
+            ]
+        },
+        {
+            "transform": [
+                {
+                    "filter": {
+                        "selection": "label"
+                    }
+                }
+            ],
+            "layer": [
+                {
+                    "mark": {
+                        "type": "rule",
+                        "color": "gray"
+                    },
+                    "encoding": {
+                        "x": {
+                            "field": "<DVC_METRIC_X>",
+                            "type": "quantitative"
+                        }
+                    }
+                },
+                {
+                    "encoding": {
+                        "text": {
+                            "type": "quantitative",
+                            "field": "<DVC_METRIC_Y>"
+                        },
+                        "x": {
+                            "field": "<DVC_METRIC_X>",
+                            "type": "quantitative"
+                        },
+                        "y": {
+                            "field": "<DVC_METRIC_Y>",
+                            "type": "quantitative"
+                        }
+                    },
+                    "layer": [
+                        {
+                            "mark": {
+                                "type": "text",
+                                "align": "left",
+                                "dx": 5,
+                                "dy": -5
+                            },
+                            "encoding": {
+                                "color": {
+                                    "type": "nominal",
+                                    "field": "rev"
+                                }
+                            }
+                        }
+                    ]
+                }
+            ]
+        }
+    ]
+}

.dvc/plots/scatter.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "width": 300,
+    "height": 300,
+    "layer": [
+        {
+            "encoding": {
+                "x": {
+                    "field": "<DVC_METRIC_X>",
+                    "type": "quantitative",
+                    "title": "<DVC_METRIC_X_LABEL>"
+                },
+                "y": {
+                    "field": "<DVC_METRIC_Y>",
+                    "type": "quantitative",
+                    "title": "<DVC_METRIC_Y_LABEL>",
+                    "scale": {
+                        "zero": false
+                    }
+                },
+                "color": {
+                    "field": "rev",
+                    "type": "nominal"
+                }
+            },
+            "layer": [
+                {
+                    "mark": "point"
+                },
+                {
+                    "selection": {
+                        "label": {
+                            "type": "single",
+                            "nearest": true,
+                            "on": "mouseover",
+                            "encodings": [
+                                "x"
+                            ],
+                            "empty": "none",
+                            "clear": "mouseout"
+                        }
+                    },
+                    "mark": "point",
+                    "encoding": {
+                        "opacity": {
+                            "condition": {
+                                "selection": "label",
+                                "value": 1
+                            },
+                            "value": 0
+                        }
+                    }
+                }
+            ]
+        },
+        {
+            "transform": [
+                {
+                    "filter": {
+                        "selection": "label"
+                    }
+                }
+            ],
+            "layer": [
+                {
+                    "encoding": {
+                        "text": {
+                            "type": "quantitative",
+                            "field": "<DVC_METRIC_Y>"
+                        },
+                        "x": {
+                            "field": "<DVC_METRIC_X>",
+                            "type": "quantitative"
+                        },
+                        "y": {
+                            "field": "<DVC_METRIC_Y>",
+                            "type": "quantitative"
+                        }
+                    },
+                    "layer": [
+                        {
+                            "mark": {
+                                "type": "text",
+                                "align": "left",
+                                "dx": 5,
+                                "dy": -5
+                            },
+                            "encoding": {
+                                "color": {
+                                    "type": "nominal",
+                                    "field": "rev"
+                                }
+                            }
+                        }
+                    ]
+                }
+            ]
+        }
+    ]
+}

.dvc/plots/simple.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "width": 300,
+    "height": 300,
+    "mark": {
+        "type": "line"
+    },
+    "encoding": {
+        "x": {
+            "field": "<DVC_METRIC_X>",
+            "type": "quantitative",
+            "title": "<DVC_METRIC_X_LABEL>"
+        },
+        "y": {
+            "field": "<DVC_METRIC_Y>",
+            "type": "quantitative",
+            "title": "<DVC_METRIC_Y_LABEL>",
+            "scale": {
+                "zero": false
+            }
+        },
+        "color": {
+            "field": "rev",
+            "type": "nominal"
+        }
+    }
+}

.dvc/plots/smooth.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
+    "data": {
+        "values": "<DVC_METRIC_DATA>"
+    },
+    "title": "<DVC_METRIC_TITLE>",
+    "mark": {
+        "type": "line"
+    },
+    "encoding": {
+        "x": {
+            "field": "<DVC_METRIC_X>",
+            "type": "quantitative",
+            "title": "<DVC_METRIC_X_LABEL>"
+        },
+        "y": {
+            "field": "<DVC_METRIC_Y>",
+            "type": "quantitative",
+            "title": "<DVC_METRIC_Y_LABEL>",
+            "scale": {
+                "zero": false
+            }
+        },
+        "color": {
+            "field": "rev",
+            "type": "nominal"
+        }
+    },
+    "transform": [
+        {
+            "loess": "<DVC_METRIC_Y>",
+            "on": "<DVC_METRIC_X>",
+            "groupby": [
+                "rev"
+            ],
+            "bandwidth": 0.3
+        }
+    ]
+}

.dvcignore ADDED Viewed

	@@ -0,0 +1,3 @@

+# Add patterns of files dvc should ignore, which could improve
+# the performance. Learn more at
+# https://dvc.org/doc/user-guide/dvcignore

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ /Data
2	+ /Model

Data.dvc ADDED Viewed

	@@ -0,0 +1,5 @@

+outs:
+- md5: 5bd273a994a08be9df29122164606626.dir
+  size: 74555595
+  nfiles: 2927
+  path: Data

Eval Results/log_mozilla-foundation_common_voice_8_0_ur_test_predictions.txt ADDED Viewed

	@@ -0,0 +1,682 @@

+0
+اب نے ٹپیدسون دیتے ہیں
+1
+مزدور تکے کہ علاوہ سرکاری اور کاروباری لو نو ڈر بجے کام شروع کرتے
+2
+جنگل مشرف جاتے ہیں
+3
+دلچہت پرعمبریہ ہے
+4
+یہ نہیں کہا جائے گا کہ زید کی طرف سے دی گئی ایک بک کی ٹین طلاق واقیا ہو گئی ہیں
+5
+وقت پر رقوم کبھی بھی واپس نہ کیں
+6
+آئی سی سی رینکنگ محمد اب باز کی کیریئر کی بہترین پوجیشن
+7
+مغریبی افریکا
+8
+جہاں دنیا کا سب سے اونچا
+9
+ایسا ہو گا
+10
+پھر کیا ہو گا
+11
+گورنر کا سب سے اہم پہلوں موجود رام کی اصلی ہے
+12
+حکومت رے بہت خوش نہیں تھے
+13
+اگر انچھے ملاقات ہو تو میری طرف سلام عرض کی جیئے گا
+14
+یہی خدا اور شردیوں کے مہینے ہیں
+15
+کہ ان کے اندر صورت کی روشنی پانچ ٹی رہے
+16
+ماحولیاتی آلودگی اور پوری دنیا کے بڑھتے ہوئے در جا حرارت
+17
+کال مند کوئی شاہراہ ہی کافی
+18
+عروہ اور فران برلن میں کیا کر رہے ہیں
+19
+دو ٹیمیں بنائی گئیں
+20
+میں نے سوچا مجھے اسے کسی پبلک مقام پر ملنا چاہیے
+21
+نواز شریف شاست میں کیسے کامیاب ہوئے
+22
+کہ مشروبات ٹھنڈا کرنے کلیئر افر جلیٹرز کا ماحول دشمن طریقہ در کیا جائے
+23
+کیسے آنے والی ڈاہائیوں میں صلے بی
+24
+وہاں جھڑپیچاری ہوں
+25
+آئی ایم ایف کا عرب ممالک پر اضافہ جات کم کرنے پر شور
+26
+تب سنہ ہے
+27
+سیف تیزی سے عملی صورت اختیار کر چکا ہے سرقاجمنسیز
+28
+ہمارا پروبلم کیا ہے
+29
+مل کی معیشت کی بدلتی صورتحال اور استقام کی وجوہات کیا ہیں
+30
+برصغیر کے مسلمانوں میں بھی ایسے لوگ پائے جاتے ہیں
+31
+جب جمہوریت کی بات ہوتی ہیں
+32
+وہ بھی مسلمان ملک ہیں
+33
+تو قادری صاحب کے لوگ بھریں رخنے کے لئے موجود ہیں
+34
+تو ایسی کہانی میں
+35
+اہر خانہ نے ان کی
+36
+ہم شیشے کی منڈی کو اندر سے دیکھا چاتیں نہ کے بہر سے
+37
+فنڈ کار اپنا محمول گا
+38
+تیسا تھی کو کینڈا کی مائیں
+39
+با کوئی اب بڑائی نام لے گیا
+40
+تیس پرو پی بربائکٹھا
+41
+میں شائد یہ ہی
+42
+ہا جات پہلے تالیسمحیس ایک ہو
+43
+جسٹےفائس سرد خو ب ہوگا
+44
+راوصف یہ کے جیمد ہے
+45
+ہمارے مسائل ٹھیا ہیں
+46
+تو اس میں سوجیانقاشسا
+47
+سی الفاظ میں گو ریاست کھیندربیہ جب ریاست نیک مکان کر
+48
+اس کا مطلبیہ ہے
+49
+ڈائنسانسےارج قرار دیا
+50
+نے سب سے ہی سے بات خبطی ناقص ہے
+51
+اور تھڑیناہسبککرورپ ہے
+52
+قومیاداناس کو میرا ٹھیس تیار کر رہی
+53
+تاریہنے جمود گیا فیصلس
+54
+اس سر نان گستے
+55
+خت تو ایسا نی کی شر نہ رہی
+56
+وہ جسم دی تک رہا
+57
+یہ ترس نے پہنا جاتا ہے
+58
+گویا آسمان سے آنی واریسل طاس بس تھی
+59
+ریت سانی فردوئدننمیاربت تھے
+60
+بویا یہ مقصد کی قفیت ہوتی
+61
+کیاآد کا بیشیس بایےواستہہے
+62
+وہ سوائے شکاید کے اور کچھ نہیں کرتا
+63
+اب اس تصویر پر لے دے ہو رہی ہے اور مطالکاایڈ ا
+64
+یہاں سے چلے جایں ور ناہماپکھتھپڑمآرتیں گے
+65
+آم میل جول میں نیئد ندیم سب انتہا ئے حلیم طبع اور منقصرال مزاج ہیں
+66
+یہاں عروج زوال کا کانون کیا ہے
+67
+ای خوا شکلا کی شعور کے ساتھ زندگی پزارے
+68
+اور ہونے زمین کی طرف دوبارہ خارج کر دیتے ہیں
+69
+زیادہ سے زویادہ دو بٹس کے اندر اس منصوبے کو تکمیلتت پہچانا چاہیے
+70
+پرانی طرز کا کوئی سیاست دان ہو گا
+71
+یہی جنا صاب کی ہے
+72
+بسنے مدد کی ہر پیش کش ٹکرادی
+73
+کے لیے پی اپنی عبارت گاہوں کو جا رہے ہوتے ہیں
+74
+جنوبی کوریا
+75
+قانون یہاں بھی ہے
+76
+ان کے باب میں تاریخ پر انحصار نہیں کیا جائے گا
+77
+اس میں صر فہرے استباچیہ ہیں
+78
+ایک وجہ اس دور کا سیاسی نظام تھا
+79
+ہائر لینڈ کے خلاف صرف ایک میچ
+80
+کسی کو پتا نہیں
+81
+باہر انتظار کروں
+82
+ایکس پی کا ماکٹ شر دو فیصر جب کے ونڈوز ایک کا دو فصر تھا
+83
+دو چہیتے تھے
+84
+ہو کی چیمپئنز ٹروفیبیلجیام نے پاکستان کو دو کے مقابلے میں چار گھول سے شکست دیدی
+85
+اپنے ضمیر کی آواز کو سمتا ہوں
+86
+مچ سے شروع ہو کر جون تک
+87
+سفر نامے میں یہ تعداد قلیل ہے
+88
+کیمرون
+89
+تم تو پسینے سے پورے بھی گئے
+90
+ہم صڑق پر بیٹھ کرے
+91
+مسلک دیو بند کے کام کا انداز فطری ہے
+92
+امریکی باکصر فلائیٹ میں ویدر کمائی میں سب پر با چی لے گئے
+93
+سوتی چھٹائی کی ترتیب
+94
+اس کی ہمت ان پارٹیوں میں نہیں تھی
+95
+معاملات ان سے نپٹائے نہیں جا رہے
+96
+اپنا زہن نہیں بنا سکتا
+97
+تو مرتے وقت تقت اس کو نبھانہ پڑھتا ہے
+98
+پاتھ لین بالا دستی کی کرتے ہیں
+99
+سنیل گواس کر پوری بات
+100
+روپائے کی قدر سے کامی سے مہنگائی بڑھے کی گیاس پر آچا
+101
+کچھ کرنے سے قاصر تھے
+102
+حیربارجیک کمان بیٹا
+103
+امریکہ یورپ آر
+104
+اب مقلنہ ہے تو اس نقل مکانی سے نقل پا
+105
+یہ اپروس خلط ہے
+106
+یہ نے میں اپنے س لکھا ہے
+107
+نے اس و کہتر پبیٹاہجو می حجم سے تقریب ہنا بڑا ہو گا
+108
+بھی تالیبان نے اسکا
+109
+پر منایا جانے لگا سے وائی امریکہ
+110
+اسٹوریائی
+111
+بحرت میں انتہا پسندی بھڑے تھی
+112
+آسانی کو جھانکوں میں ان بچپنے سر آرہا تھا
+113
+ہمکنگ اندیروں میں پسی ہوئی ہے
+114
+شا ور شاور ہی نازی بھرو جنوسٹی میں روشن چیمپینشیطاعنے کار
+115
+سیروچخانبادوٹ
+116
+جنوبی افریکہ میں غالبع سر پرست ہوا
+117
+جن کی کار کرتے گی کا معیار کر کیا اور اس کے علاوہ اور بھی بہت کچھ ہمارے قارئین جان سکے ہیں
+118
+پر واضح بولنے کا فیصلہ تو ہمیں خود کرنا ہوتا ہے
+119
+اسی طرحاں سماجی حوالے سے وہ ایک پدرسرانہ سماج تھا
+120
+سب کو ایک ہی برتن میں انڈیل کر پھینٹنا شروع کرتی
+121
+وہ بھی پوری ہو جائے
+122
+اسٹیلین کھلاری نے مجھے اسامہ کہ کر پکارا مئی علی کہ داغا
+123
+انہیں کی نسل میں نبوت رہی
+124
+جو اس نے کیا وہ ایسے تھا جیسے قانون کو اپنے ہاتھوں میں لینا
+125
+ہم فوجی نمازی ہو
+126
+تو انکی خلاف مقدمات کا فیصلہ کین نہیں ہو رہا
+127
+اور باز مسلمان سمجھتیں ہے
+128
+وہ بے وفا عدت ہوا
+129
+برونڈی
+130
+تو یہاں کے عوام کے دروازے ان کے لیے بھی کھلے ہیں
+131
+مجھے ٹھیک سے نہیں پتا
+132
+یہ مضعرات صدیوں سے مراقست تجلیا تو مرجع خلائق ہیں
+133
+اب تو حالات یہاں تک جا پہنچی ہے کہ عدلیہ کل
+134
+کھاری پانی کو استعمال کر قابل بنانی والا پلانٹ کا افتتاح کیا ہے
+135
+تو وہ اب ہے
+136
+اور اس قیمت کو پاکستانی روپعیاتتصبور کر سکتے ہیں
+137
+یہاں کے لوگ سی ا ہوں کو بہت پسند کرتے ہیں
+138
+میدان سیاست میں کتنے بڑے نام رہے
+139
+سائنس کی زبان میں پالا
+140
+ٹگال نے کہا تھا اصارتت فرانس ہے
+141
+عظم کی مضبوطی کے ساتھ اپنا بخت کجارو
+142
+ان تاقوں کے وابستہ ہونی سے کوئی انسان بھی مستثنی نہیں ہے
+143
+ہمی عیسی جیسا کہ ساتھ اس ماملی ہوتے کنا ہہے
+144
+ایک یک بیان کی بات کشی کی آ گئی ہے
+145
+کو یٹ مقامی ہوٹل کی جین سے تیلبحکتیراکی سکائی کئیڑےبائیفا
+146
+اور چاجن کے بار استعمال ہو وال نٹے کی صحیح ادا برتا ہیں
+147
+عذابی کہیروس کا تصکیراںہوتاہے
+148
+کسی لین بول نے ٹین پاکستان بھیج لے سے ان کہریوو
+149
+ٹحاپقامینواب صریمخان کی ایک پارٹی
+150
+فیٹ تہا
+151
+علمی پزار سمیت پاکستان میں ب سونی کی کی مت بڑ گلی
+152
+اب نئی برگر پی پسی خوروں کو کیسے سن جا تا کہ میٹھا آملیٹو نے کی لئے سنا کو ضروری چھوڑی ہے
+153
+یہی صوتحالسوشیل ہونی دیا تے
+154
+علما اسی ہے سی ایسے فکری لیتے ہیں آرمامننااسیتباح سے اسے قبول کرتے ہے
+155
+ہی پرند اور کے ساتھ سا
+156
+د کلک گائے بکری اون نےم نے اور دو دینے والی دیگر جینمرہوسحاسل ہونے وال حشر ہونے والی کوش کو سر کوش کھا جاتاہے
+157
+اس کے حمفلیرائٹ مقابل امریکہ کے سے امر گیوبکفاتکلار
+158
+سرائی چست امان کیپیتاوائر میں انصاف ہے مہنگے سرائے سے پس لی کی پیداوار می تم
+159
+انکی نظر کامال فی
+160
+پرانی وتلینا چکا اورکتوصدم جائو
+161
+جاپان چھٹ تے سحر کی سی مین
+162
+ریاست اس نی کوئی شبہ نہیں کی جدید تصور ہے
+163
+اپنے مخول کو اپنی ہیہاتوںہوتابا کنا
+164
+تو کسی کی کیا مچل کے آپ کو روتے
+165
+ایٹیکپ تیرا
+166
+اور ہو بی کیا
+167
+جب سفر کا رخی درست نام ہو تو منزہ کی امید کیسی سبا
+168
+خاس طورپر ماشیش صورتحال کیکوجاسے
+169
+ٹی ٹونٹی پر کپ میرے کے لئے کا آخری ورلڈ کپ و وہ شاہد فلک شکر ہے جاہانجھوکی کر کرتی
+170
+کابینا کا فیصلہ حکومتی فیصلہ ہوتا ہے
+171
+جینی حاصیل کرنا
+172
+کہ لیے مکمل حمایت کا عظم کیا ہے
+173
+پاکستان کو صحیح قیادت کی ضرورت ھے
+174
+آسانی سے چیزوں سے پرشان نہیں ہوتا
+175
+کیا اس بار بھی لیور شٹنگ ہو گی
+176
+ان کی باتوں میں ایک خستگی اور قراری پن ہے
+177
+اور جب ملک سے باہر ہوتے ہیں پاکستانی پاسپورٹ غائب گویا ڈبل مزہ
+178
+انگریزی کا مطالعہ زیادہ تر مبانلق میں کیا جاتا ہے
+179
+یورپی یونینیں
+180
+یوں مذہب کے علمبرداروں سے ہیر کا صدور ہو رہا ہے
+181
+ہم بھائی لینی ہے کلاس تھوریسی دین ہو جائے گی
+182
+یہ جو کچھ ہو رہا ہے
+183
+جس سے گرمی میں اضافہ ہوتا ہے
+184
+چونکہ انگریز روسیوں کے خلاف تھے
+185
+کان سے جی مت چراؤ
+186
+توانا چلا چلا کر سے پاکی کے بادل شر ہو گئے
+187
+تالین کا حملے ستیا ناف کر دیا ہے
+188
+دہماقا اسے کہتے ہیں
+189
+شب معاملہ کسی عدالت کے سامنے آ
+190
+اہنے فلسطین جتنی دینا آج ہیں پہلے کبھی نہیں تھے
+191
+بولی و بنے پاکستانی خدایت کاروں کو کویہ جانتا خالد احمد
+192
+چیزنگ ان اپنے انہوں پہ خلخاری مار چکی ہو گی
+193
+آسٹریلیا کی ویزا نام لوگ پاپاکستان کی بدی ورلڈ کاک نئی شکم کو
+194
+جب مذہب اور قومی مفاد کی تاویل کا سوال اٹھتا ہے
+195
+ایک جانا ہی پڑے گا
+196
+انہیں مضامین مٹھنے کا بھی چوک ہے
+197
+اور اس کی انصاف ادابوں نو تطابم کو بھی ہونا ہے
+198
+جزباتی لوگوں کو نہ سمجھ پا پڑا
+199
+گرمیاں آنے والی ہوں
+200
+باہمی زبابری تعصب کی شدت کو کم کر دیتے ہوں
+201
+خوش رنگ وہ خوش تبہ لوگ شرمن ہیں
+202
+پاکستان وہ رنز کی بری حاصل قالکیٹیسٹمیچ میں پتا کی دیانت رکھتی
+203
+آذربائیجان کا موسم گرما کا وقت
+204
+لو انسانیت کا وہ روک دیکھا جو چھلاح لے کل بھی ڈھونڈو
+205
+آپ نے اس غریب دلاتی کا وتیفہ تو سنا ہو گا
+206
+پور ان کے فا جو کچھ تھا
+207
+ایک بچے کی دنیا کے املوں کے گیت ھومپفی ہو
+208
+اس سے بچ کر جانے ناپا ہوں
+209
+یہ چین نا ممکن تھی
+210
+بباں کے دخل کہنا چاہیے
+211
+جسے عربی زبان نے اقاماہ کہتے ہے
+212
+اس نصب کی سیاسی تربیت سمائی نسل کی تنقاری ہے
+213
+اب تو کھیل ختم ہو چکا ہے
+214
+ان تو کیوں رکھا گیا تھا
+215
+کری ہماری بھلا تھے
+216
+مجھے یاد ہوں کے لو اسے ملی کبھی دیکھا ہو
+217
+ٹی کھے لیکن دیکھتے ہیں کیسا ہوتا ہوں
+218
+کشمیری مزاحمت کتنا عرصہ رہتی ہے
+219
+اس میں عوام کارکردگی کی بنیاد پر فیصلہ دیتے ہیں
+220
+چہری چھوڑیں کھول نو کا تو ہوں
+221
+ان سے سوچ میں وسعت پیدا ہوتی ہے
+222
+وقت کے تقئیعوں کا بہرحال قبال پیچھے
+223
+ترقخیاتی کارمو کے لیے بجت کی حتی ختم مقدس کی گئی ہے
+224
+اسٹیٹ بینک کی مانیٹر پالیسی کا اعلان آج ہو گا
+225
+بیماریوں وہ مبتلا ہو جاتے ہیں
+226
+الونییمخوائل
+227
+آپ نے امتحان کھی تیاری مکمل کر لی ہے
+228
+تو پہلے کرتے
+229
+اسٹاک مارکیٹ میں
+230
+کوچ پور سوچیں گے
+231
+تو کیا پر پائیں گے
+232
+بات نے آنا
+233
+یہ بھی پتاتی چلزیے
+234
+تو وہ کس کا قصور ہے
+235
+کوئی بات نہیں جی
+236
+بلکہ کپتان بدل دے کی بجائے نظام تبدیل کرنے کی ضرورت
+237
+ہم چلتے رہے بھاکھتے رہے گھومتے رہے جب تک ہماری ٹانگوں نے ہمارا ساتھ دیا
+238
+اسے باہر کا راستہ دکھاؤ
+239
+وہ مجھے دھار ملنے آئے
+240
+سوائے ہمیں جبار مسلمان بنانے کے
+241
+یہ تو ٹلکی بات ہے
+242
+آبا دیگا مسئلہ ایک سماجی معاملہ ہے
+243
+وہ مہت باتو نہیں ہے
+244
+اپنا وقت سے آیا کرتا ہو
+245
+آج ہفتے کا دن ہے
+246
+ان لیڈروں کو دیکھیے
+247
+کسٹومنی دورخم بارڈر پر عربوں کی کرپشن کو جوٹ کرار دی دیا
+248
+اواری
+249
+بڑی مدد چا یہ سدف کو گھر ہونے تک
+250
+اقتدار میں اسی طرح کے موضوعات پر لیکھنی کی کو ششکیع
+251
+فننے کے بعد گویا پولے
+252
+ناول میں تریخی دور پر زیادہ بحث نہیں کی گئی
+253
+یورپی لوگ پاگل ہوئے بیٹھے ہیں
+254
+آپ کتنے بہن بائی ہو
+255
+ایک سچی سیاح کی نظر سے ان مناظب کو دیکھا
+256
+کارو کاروباری لوگ بھی بڑے اچھلاق ہوتے ہیں
+257
+کہ جنگلات بہت جلد ختم ہو جائیں گے
+258
+مجھے کھانوں کی فہرست دکھائیے
+259
+مانتے ہے کہ ہر اچھائی خدا کی طرف سے ہے
+260
+ویشد اب بوریت سے ہے
+261
+باس ٹیوی چینل مسلسل نفرت کا کاروبار کر رہے ہیں
+262
+شہریار نجم سے ٹھی ہندوستان دورے پر روانا
+263
+اس بات کا لحاظ رکھنا ہے کہ کوئی جذبہ انتقام کیا
+264
+اللہ پروہ ہونہ پسند ہے
+265
+کشمیر میں اگر کچھ کرنا مطلوب ہے
+266
+اپنے جائس موققف پہ ڈٹے رہنا چاہیے
+267
+مسلن سورہ نام میں بتایا گیا ہے
+268
+افواہنی گردش کر رہی ہیں
+269
+مجھے خدشہ ہے کہ یہ معاملہ اگر مزید آگے بڑھتا ہے
+270
+ایچ پلانٹ انجینئرنگ اکائی کمپنی نے کہا
+271
+تو اچھی شام گزرے
+272
+اور منہ پھٹ تبصرہ نگار کے طار پر مستقل
+273
+اس کے مریض مختلف رنگ میں تمیز نہیں کر سکے
+274
+ایک اور بات سمجھ میں نہیں آتی
+275
+بہت کم اپنے جزباتی رت عمل کے بارے میں سوچتی ہوں
+276
+اب بھی برقرار ہے
+277
+موجودہ حکومت کو ایک جارحانہ اپوزیشن کا سامنا ہے
+278
+ان کے دوست احباب پیسے والے لوگ ہیں
+279
+اللہ کی لاٹھی بی آواز ہے
+280
+جو شخص اپنے ساتھ ہی کی ڈھال استعمال کرے
+281
+آراپاہوا
+282
+محض اپنی خفت میڈانی کی یہ کوشش ہے
+283
+پولینڈ سائیکل ریس میزبان ملک کے مائیکل کوئیٹکوس کی نے میدان ماردی
+284
+نیپرا نے گزستہ سال کی مالی اور اسٹیٹ آف دی انڈسٹری ریپورٹ چاری کردی
+285
+جو خرابیہ ہیں
+286
+روز اقبار کھولتا ہوں
+287
+خوشبو ہوا کی لہروں پر سفر کرتی ہے
+288
+ہمیں سیاہ بائیں طرف چلئے
+289
+شادی کے قلم سے کاگس پر اتارا ہے
+290
+اسے خد سے دور رکھو
+291
+روٹی اور سالن سب ختم ہو چکا ہے
+292
+وہ بھی سہی نہیں ملتا
+293
+ایشیا کپ پاکستان کو بھارت کے خلاف یک طرفہ مقابلے کے بعد شکست
+294
+نوجوان نسل کو تم
+295
+کیا وہ بھی کسی نیک مقصد کے لئے ہوالا یا زندہ ہیں
+296
+اب میں مزید اس بات کو برداشت نہیں کر سکتا
+297
+آج مگر زمینی حقیقت یہ ہے کہ زرداری صاحب ہی پیپلز پارٹی کے
+298
+اس ائی مذہب نے بھی پلٹے سی دے تو نہیں
+299
+آج کہ اس معتیت پرست معاشرے میں جانستاری کے صرف داوی کیے جاتے ہیں عمل سب کچھ کھوکلا ہے
+300
+کمرے میں تمام چیزیں بکھری پڑی تھی
+301
+آپ ایسا نہیں کر سکتے کیونکہ تو میں گھٹیا اور پست لازمی ہوں
+302
+لو
+303
+نواز شریف حق اقتدار کھو چکے ان کی حکومت نا جائز ہے
+304
+میں سانس بٹنیات میں شرع کی ایک آزاد مصنفہ ہیں
+305
+سخت سردی تھی اور اندھیرا بھی
+306
+ٹھائی
+307
+ور نہ ایسی ہی چیزیں چلتی رہیں گی
+308
+اور یہ گوار تھا
+309
+سیاسی لڑائی اسٹیٹس کو کہ مختلق طبقات میں ہوتی ہے
+310
+میرا مجموعی تاثر یہ ہے کہ اس کا کام اچھا ہے
+311
+خیالات رکھتا ہے مگر وہ حیوانات کے سات
+312
+دیکھتے ہیں
+313
+تمام پالیسیوں کا محور معاشی نشو نما ہونا چاہیے قائم مقام صدر ایل سی سی آئی
+314
+یہ مریم نواز صاحبہ کی عوامی سیاست کا پہلا دن ہے
+315
+پاکستان تو اس وقت غیر معمولی حالات سے گزر رہا ہے
+316
+کانگریس کی مسلم کش پالیسیوں سے بدل ہو کر
+317
+پاکستان نہ بنتا
+318
+اور وہ تم پر اپنا نگران مقرر رکھتا ہے
+319
+آگے کیا ہو گا
+320
+ہر بے گھر کو گھر محیط کیا جائے گا
+321
+اور اس دوران یہاں
+322
+لیکن میں ہوں
+323
+ڈنڈے والی پیر تو ہمارے ہاں بہت ہیں
+324
+چیمپنزٹرافری حا کی گرین شرٹس اب ٹا پانچ کا میچ بیلجیم کے خلاف کھیلیں گے
+325
+یہ صرف نامونا آنومائیشرہتئی ہے
+326
+ملانا امین احسان اصلاحی جو کام تفسیر ہوں
+327
+تمہاری خوشی میں میری خوشی ہے
+328
+آر پھر ایک بہادرہیرو کے ذریعے آدمی میں شکست کھاتا ہے
+329
+کل مسلم لیک نون کے دوست
+330
+میں اپنی خائیشات کو قابو میں رکھ سکتا ہوں
+331
+اس لئے کے انہیں لگتا ہے
+332
+پشاور ز علمی اسلام ان ایڈ کب فائنل ٹاقرہ کراچی میں ہو گا
+333
+ایسی صاب کے جج بی تھے
+334
+اب یہ ونگینلمہاتانکھار دل میں محفوظ کرلیا جائیں
+335
+نے نوٹ کی بکنگ اپنی انتہائی حد تک پہنچنے کے بعد بند کردی جائے گی سٹیٹ مے
+336
+جنوبی امریکا
+337
+انقلابی تحریکوں کی بنیان جزبہ انتقام پر ہوتی ہے
+338
+اور بیدلشکتائی ہزیات کی ہے
+339
+امریکہ نے ٹک ٹوک
+340
+کوئی ڈالتا ہے

Eval Results/log_mozilla-foundation_common_voice_8_0_ur_test_targets.txt ADDED Viewed

	@@ -0,0 +1,682 @@

+0
+اب نیٹ پہ سن لیتے ہیں
+1
+مزدور طبقے کے علاوہ سرکاری اور کاروباری لوگ نو دس بجے کام شروع کرتے
+2
+جنرل مشرف جاتے ہیں
+3
+دلچسپ امر یہ ہے
+4
+یہ نہیں کہا جائے گا کہ زید کی طرف سے دی گئی ایک وقت کی تین طلاقیں واقع ہو گئی ہیں
+5
+وقت پر رقوم کبھی بھی واپس نہ کیں
+6
+ائی سی سی رینکنگ محمدعباس کی کریئر کی بہترین پوزیشن
+7
+مغربی افریقہ
+8
+جہاں دنیا کا سب سے اونچا
+9
+ایسا ہو گا
+10
+پھر کیا ہو گا
+11
+گورننس کا سب سے اہم پہلو مو جود نظام کی اصلاح ہے
+12
+حکومت سے بہت خوش نہیں تھے
+13
+اگر ان سے ملاقات ہو تو میری طرف سے سلام عرض کیجیے گا
+14
+یہی خزاں اور سردیوں کے مہینے ہیں
+15
+کہ ان کے اندر سورج کی روشنی پہنچتی رہے
+16
+ماحولیاتی آلودگی اور پوری دنیا کے بڑھتے ہوئے درجہ حرارت
+17
+عقلمند کو اشارہ ہی کافی
+18
+عروہ اور فرحان برلن میں کیا کررہے ہیں
+19
+دو ٹیمیں بنائی گئیں
+20
+میں نے سوچا مجھے اسے کسی پبلک مقام پر ملنا چاہیے
+21
+نواز شریف سیاست میں کیسے کامیاب ہوئے
+22
+کہ مشروبات ٹھنڈا کرنے کے لئے ریفریجریٹرز کا ماحول دشمن طریقہ ترک کیاجائے
+23
+کیسے آنے والی دہائیوں میں صلیبی
+24
+وہاں جھڑپیں جاری ہوں
+25
+ائی ایم ایف کا عرب ممالک پر اضافی اخراجات کم کرنے پر زور
+26
+اب سنا ہے
+27
+سی پیک تیزی سے عملی صورت اختیار کرچکا ہے سرتاج عزیز
+28
+ہمارا پرابلم کیا ہے
+29
+ملکی معیشت کی بدلتی صورتحال اور استحکام کی وجوہات کیا ہیں
+30
+برصغیرکے مسلمانوں میں بھی ایسے لوگ پائے جاتے ہیں
+31
+جب جمہوریت کی بات ہوتی ہے
+32
+وہ بھی مسلمان ملک ہے
+33
+تو قادری صاحب کے لوگ بھرم رکھنے کے لیے موجود ہیں
+34
+تو ایسی کہانی میں
+35
+اہل خانہ نے ان کی
+36
+ہم شیشے کی منڈی کو اندر سے دیکھنا چاہتے ہیں نہ کہ باہر سے
+37
+فنکار اپنا معمول رکھتا ہے
+38
+ان کے ساتھی پروپیگنڈا کے ماہر ہیں
+39
+باغ تو اب برائے نام ہی رہ گیا ہے
+40
+دوسروں پر جوابی کروائئ کرتا ہوں
+41
+میں شائد یہ کروں
+42
+کہا جاتا ہے کہ ڈان لیکس محض ایک راونڈ تھا
+43
+جسک باعث اس پھل پھول کا موقعہ
+44
+نہ صرف یہ کہ جمود ہے
+45
+ہمارے مسائل کیا ہیں
+46
+تو اس میں سعودی عرب کا حصہ ہے
+47
+دوسرے الفاظ میں وہ ریاست کے اندر اپنی ایک الگ ریاست بنانے کا اعلان کر رہا ہوتا ہے
+48
+اس کا مطلب یہ ہے
+49
+دائرہ اسلام سے خارج قرار دیا ہے
+50
+ان میں سب سے اہم وژن اور اس کے بعد قوت نافذہ ہے
+51
+ووٹ چوری نہ کر سکنے کی تکلیف ان کو بہت دور تک پہنچی ہے
+52
+کیمیا دان اس دور میں حیران کن چیز تیارکررہے ہیں
+53
+تاریخ نے جمہوریت کے حق میں اپنا فیصلہ سنا دیا ہے
+54
+اصل نام یوسف پٹھان ہے
+55
+اب تک تو ان کے سامنے کوئی نقشہ ہونا چاہئے تھا
+56
+اور جسم بھی تپ رہا ہے
+57
+یہ تو اس خطے میں پہنا جاتا ہے
+58
+گویا آسمان سے آنے والی صدا اسی طرح گونجتی رہے گی
+59
+یزید ثانی کا دور بنوامیہ کا بدترین دور تھا
+60
+گویا یہ ان کی فطری کیفیت لگتی تھی
+61
+کیا آج کا ادیب ا ور شاعر اس روایت سے وابستہ ہے
+62
+وہ سوائے شکایت کے اور کچھ نہیں کرتا
+63
+اب اس تصویر پر لے دے ہو رہی ہے اور متعلقہ ایڈ ا
+64
+یہاں سے چلے جائیں ورنہ ہم اپ کو تھپڑ مار دیں گے
+65
+عام میل جول میں نیر ندیم صاحب انتہائی حلیم الطبع اور منکسر المزاج ہیں
+66
+یہاں عروج وزوال کا قانون کیا ہے
+67
+ایک خاص اخلاقی شعور کے ساتھ زندگی گزارے
+68
+اور انہیں زمین کی طرف دوبارہ سے خارج کردیتے ہیں
+69
+زیادہ سے زیادہ دو برس کے اندر اس منصوبے کو تکمیل تک پہنچانا چاہیے
+70
+پرانی طرز کا کوئی سیاست دان ہو گا
+71
+یہی جناح صاحب کی ہے
+72
+اس نے مدد کی ہر پیشکش ٹھکرادی
+73
+کے لئے اپنی اپنی عبادت گاہوں کو جا رہے ہوتے ہیں
+74
+جنوبی کوریا
+75
+قانون یہاں بھی ہے
+76
+ان کے باب میں تاریخ پر انحصار نہیں کیا جائے گا
+77
+اس میں سر فہرست بادشاہ ہیں
+78
+ایک وجہ اس دور کا سیاسی نظام تھا
+79
+آئرلینڈ کے خلاف صرف ایک میچ
+80
+کسی کو پتہ نہیں
+81
+باہر انتظار کرو
+82
+ا یکس پی کا مارکیٹ شیئر دو فی صد جبکہ ونڈوز ایٹ کا دو فی صد تھا
+83
+جو چہیتے تھے
+84
+ہاکی چیمپئنز ٹرافی بیلجیئم نے پاکستان کودو کے مقابلے میں چار گول سے شکست دے دی
+85
+اپنے ضمیر کی آواز کو سنتا ہوں
+86
+مارچ سے شروع ہوکر جون تک
+87
+سفر نامے میں یہ تعداد قلیل ہے
+88
+کیمرون
+89
+تم تو پسینے سے پورے بھیگ گئے
+90
+ہم سڑک پر بیٹھ گے
+91
+مسلک دیوبندکے کام کا انداز فطری ہے
+92
+امریکی باکسر فلوئیڈمے ویدر کمائی میں سب پر بازی لے گئے
+93
+صوتی چھٹائی کی ترتیب
+94
+اس کی ہمت ان پارٹیوں میں نہیں تھی
+95
+معاملات ان سے نمٹائے نہیں جا رہے
+96
+اپنا ذہن نہیں بنا سکتا
+97
+تو مرتے وقت تک اس کو نبھانا پڑتا ہے
+98
+بات سویلین بالا دستی کی کرتے ہیں
+99
+سنیل گواسکر پوری بات
+100
+روپے کی قدر میں کمی سے مہنگائی بڑھے گی غیاث پراچہ
+101
+کچھ کرنے سے قاصر تھے
+102
+ہر بار یہ گمان ٹوٹا
+103
+امریکا یورپ اور
+104
+اب نکلنا ہے تو اس نقل مکانی سے نکل
+105
+یہ اپروچ غلط ہے
+106
+یہ میں نے اپنے سے لکھا ہے
+107
+میں اس وقت ایک پتھر پر بیٹھا ہوں جو میرے حجم سے تقریبا گنا بڑ اہو گا
+108
+پھر طالبان نے اسکا
+109
+پر منایا جانے لگا سوائے امریکہ
+110
+اسٹوریائی
+111
+بھارت میں انتہا پسندی بڑھے گی
+112
+نجانے کیوں مجھے ان بچوں میں اپنا بچپن نظر آ رہا تھا
+113
+ہم کن اندھیروں میں پھنسے ہوئے ہیں
+114
+پشاورشہید بے نظیر بھٹو یونیورسٹی میں ووشو چیمپئن شپ کا انعقاد
+115
+سروج خان بالی وڈ
+116
+جنوبی افریقہ میں غالبا نسل پرست حکومت
+117
+جن کی کارکردگی کا معیار گرگیا اور اس کے علاوہ اور بھی بہت کچھ ہمارے قارئین جان چکے ہیں
+118
+دروازہ کھولنے کا فیصلہ تو ہمیں خود کرنا ہوتا ہے
+119
+اسی طرح سماجی حوالے سے وہ ایک پدر سرانہ سماج تھا
+120
+سب کو ایک ہی برتن میں انڈیل کر پھینٹنا شروع کردی
+121
+وہ بھی پوری ہو جائے
+122
+اسٹریلین کھلاڑی نے مجھے اسامہ کہہ کر پکارا معین علی کا دعوی
+123
+انہی کی نسل میں نبوت رہی
+124
+جو اس نے کیا وہ ایسے تھا جیسے قانون کو اپنے ہاتھوں میں لینا
+125
+عام فوجی نمازی ہو
+126
+تو ان کے خلاف مقدمات کا فیصلہ کیوں نہیں ہو رہا
+127
+اور بعض مسلمان سمجھتے ہیں
+128
+وہ بے وفا ثابت ہوا
+129
+برونڈی
+130
+تو یہاں کے عوام کے دروازے ان کے لیے بھی کھلے ہیں
+131
+مجھے ٹھیک سے نہیں پتا
+132
+یہ مزارات صدیوں سے مراکز تجلیات و مرجع خلائق ہیں
+133
+اب تو حالت یہاں تک جا پہنچی ہے کہ عدلیہ کے
+134
+کھارے پانی کو استعمال کے قابل بنانے والے پلانٹ کا افتتاح کیا ہے
+135
+تو وہ اب ہے
+136
+اور اس قیمت کو پاکستانی روپیہ تصور کر سکتے ہیں
+137
+یہاں کے لوگ سیاحوں کو بہت پسند کرتے ہیں
+138
+میدان سیاست میں کتنے بڑے نام رہے
+139
+سائنس کی زبان میں بات کریں
+140
+ڈیگال نے کہا تھا سارتر فرانس ہے
+141
+عزم کی مضبوطی کے ساتھ اپنا وقت گزارو
+142
+کہ ان طاقتوں کے وابستہ ہونے سے کوئی انسان بھی مستثنی نہیں ہے
+143
+ہمیں اسی جذبے کے ساتھ اس معاملے کو دیکھنا ہو گا
+144
+ایک بیان کے بعد کشیدگی آگئی ہے
+145
+کوئٹہ مقامی ہوٹل کی جانب سے طلبہ کو تیراکی سکھائی گئی
+146
+اور چارجنگ کے بعد استعمال ہو والے گھنٹہ کی صحیح تعداد بتا ہیں
+147
+آزادی کے ہیروزکا تذکرہ ہو تا ہے
+148
+نیوزی لینڈ کرکٹ بورڈ نے ٹیم پاکستان بھیجنے سے انکار کر دیا
+149
+ڈھاکہ میں نواب سیلم خان کی ایک پارٹی
+150
+سب ٹھیک ہے
+151
+عالمی بازار سمیت پاکستان میں بھی سونے کی قیمت پھر بڑھ گئی
+152
+اب میں ان بر گر اور پیپسی خوروں کو کیسے سمجھاتا کہ میٹھا آملیٹ ہونے کے لئے سننا کوئی ضروری تھوڑی ہے
+153
+یہی صورتحال سوشل میڈیا کی ہے
+154
+علما اسی حیثیت سے فتوی دیتے ہیں اور عوام الناس اسی اعتبار سے اسے قبول کرتے ہیں
+155
+ہی پرندوں کے ساتھ ساتھ
+156
+گائے بکرے اونٹ میمنےاور دودھ دینے والے دیگر جانوروں سے حاصل ہونے والے گوشت کو سرخ گوشت کہا جاتا ہے
+157
+اسکینگ فری رائیڈ مقابلے امریکا کے سیمی لیوبک فاتح قرار
+158
+بجلی کے نئے ذرائع کے استعمال سےپیداوار میں اضافہمہنگےذرائع سے بجلی کی پیداوار میں کمی
+159
+ان کی نظر کمال تھی
+160
+پرانے بدلے نہ چکاواور دوست بن جاو
+161
+جاپان چڑھتے سورج کی سرزمین
+162
+ریاست اس میں کوئی شبہ نہیں کہ ایک جدید تصور ہے
+163
+اپنے ماحول کو اپنے ہی ہاتھوں تباہ کرنا
+164
+تو کسی کی کیا مجال کہ آپ کو روکے
+165
+پارٹی کب دے رہے ہو
+166
+اور ہوبھی کیوں
+167
+جب سفر کا رخ ہی درست نہ ہو تو منزل کی امید کیسی
+168
+خاص طورپہ معاشی صورتحال کی وجہ سے
+169
+ٹی ٹونٹی ورلڈکپ ءمیرے کیریئر کا خری ورلڈ کپ ہو گا شاہد فریدی
+170
+کابینہ کا فیصلہ حکومتی فیصلہ ہوتا ہے
+171
+جنہیں حاصل کرنا
+172
+کے لیے مکمل حمایت کا عزم کیا ہے
+173
+پاکستان کو صحیح قیادت کی ضرورت ہے
+174
+آسانی سے چیزوں سے پریشان نہیں ہوتا
+175
+کیا اس بار بھی لوڈشیڈنگ ہوگی
+176
+ان کی باتوں میں ایک خستگی اور کرارا پن ہے
+177
+اور جب ملک سے باہر ہوتے ہیں پاکستانی پاسپورٹ غایب گویا ڈبل مزہ
+178
+انگریزی کا مطالعہ زیادہ تر ممالک میں کیا جاتا ہے
+179
+یوروپی یونین
+180
+یوں مذہب کے علمبرداروں سے خیر کا صدور ہو رہا ہے
+181
+ہا بہائی لینی ہے کلاس تھوڑی سی دیر ہو جائے گی
+182
+یہ جو کچھ ہو رہا ہے
+183
+جس سے گرمی میں اضافہ ہوتا ہے
+184
+چونکہ انگریز روسیوں کے خلاف تھے
+185
+کام سے جی مت چراو
+186
+تلوار چلا چلا کر سپاہی کے بازو شل ہوگئے
+187
+تعلیم کا ہم نے ستیاناس کر دیا ہے
+188
+دھماکہ اسے کہتے ہیں
+189
+جب معاملہ کسی عدالت کے سامنے آئے
+190
+اہل فلسطین جتنے تنہا آج ہیں پہلے کبھی نہیں تھے
+191
+بولی وڈ میں پاکستانی ہدایتکاروں کو کوئی نہیں جانتا خالد احمد
+192
+کیوی اننگز اپنے پاوں پہ کلہاڑی مار چکی ہوگی
+193
+اسٹریلیاکے ویزے نہ ملنے پر پاکستان کی کبڈی ورلڈ کپ میں شرکت مشکوک
+194
+جب مذہب اور قومی مفاد کی تاویل کا سوال اٹھتا ہے
+195
+پھر جانا ہی پڑے گا
+196
+انہیں مضامین لکھنے کا بھی شوق ہے
+197
+اوراس کے ساتھ اداروں میں تصادم کو بھی روکنا ہے
+198
+جذباتی لوگوں کو نہیں سمجھ پاتا
+199
+گرمیاں آنے والی ہیں
+200
+باہمی روابط تعصب کی شدت کو کم کر دیتے ہیں
+201
+خوش رنگ و خوش طبع لوگ جمع ہیں
+202
+پاکستان نے رنز کی برتری حاصل کر کے ٹیسٹ میچ میں فتح کی بنیاد رکھ دی
+203
+آذربائیجان کا موسم گرما کا وقت
+204
+میں نے انسانیت کا وہ روپ دیکھا جو چراغ لے کر بھی ڈھونڈو
+205
+آپ نے اس غریب دیہاتی کا وہ لطیفہ تو سنا ہو گا
+206
+اور ان کے پاس جو کچھ تھا
+207
+ایک بچے کی دنیا کھلونوں کے گرد گھومتی ہے
+208
+اسے بچ کر جانے نہ پائے
+209
+یہ چیز ناممکن تھی
+210
+ببانگ دہل کہنا چاہیے
+211
+جسے عربی زبان میں اقامہ کہتے ہیں
+212
+اس نسل کی سیاسی تربیت ہماری نسل کی ذمہ داری ہے
+213
+اب تو کھیل ختم ہوچکا ہے
+214
+ان کو کیوں رکھا گیا تھا
+215
+کرے ہماری بلا سے
+216
+مجھے یاد نہیں کہ میں نے اسے پہلے کبھی دیکھا ہو
+217
+ٹھیک ہے لیکن دیکھتے ہیں کیسا ہوتا ہے
+218
+کشمیری مزاحمت کتنا عرصہ رہتی ہے
+219
+اس میں عوام کارکردگی کی بنیاد پر فیصلہ دیتے ہیں
+220
+چہرے چھوڑیں کوئی نئے افکار تو ہوں
+221
+علم سے سوچ میں وسعت پیدا ہوتی ہے
+222
+وقت کے تغیر کا بہرحال کمال دیکھیے
+223
+ترقیاتی کاموں کے لیے بجٹ کی خطیر رقم مختص کی گئی ہے
+224
+اسٹیٹ بینک کی مانیٹری پالیسی کا اعلان اج ہوگا
+225
+بیماریوں میں مبتلا ہوجاتے ہیں
+226
+ایلومینیم فوائل
+227
+آپ نے امتحان کی تیاری مکمل کر لی ہے
+228
+تو پہلے کرتے
+229
+سٹاک مارکیٹ میں
+230
+کچھ اور سوچیں گے
+231
+تو کیا کر پائیں گے
+232
+بعد میں آنا
+233
+یہ بھی بتاتے چلیں
+234
+تو وہ کس کا قصور ہے
+235
+کوئی بات نہیں جی
+236
+بلکہ کپتان بدلنے کے بجائے نظام تبدیل کرنے کی ضرورت
+237
+ہم چلتے رہے بھاگتے رہے گھومتے رہے جب تک ہماری ٹانگوں نے ہمارا ساتھ دیا
+238
+اسے باہر کا راستہ دکھاو
+239
+وہ مجھے گھر ملنے آئے
+240
+سوائے ہمیں دوبارہ مسلمان بنانے کے
+241
+یہ تو کل کی بات ہے
+242
+آبادی کا مسئلہ ایک سماجی معاملہ ہے
+243
+وہ بہت باتونی ہے
+244
+اپنا وقت ضائع کرتا ہوں
+245
+آج ہفتے کا دن ہے
+246
+ان لیڈروں کو دیکھیے
+247
+کسٹم نے طورخم بارڈر پر اربوں کی کرپشن کو جھوٹ قرار دے دیا
+248
+اواری
+249
+بڑی مدت چاہیے صدف کو گہر ہونے تک
+250
+ابتدا میں اسی طرح کے موضوعات پر لکھنے کی کوشش کی
+251
+سننے کے بعد گویا ہوئے
+252
+ناول میں تاریخی دور پر زیادہ بحث نہیں کی گئی
+253
+یورپی لوگ پاغل ہوئے بیٹھے ہیں
+254
+آپ کتنے بہن بھائی ہو
+255
+ایک سچے سیاح کی نظر سے ان مناظر کو دیکھا
+256
+کاروباری لوگ بھی بڑے چالاک ہوتے ہیں
+257
+کہ جنگلات بہت جلدختم ہو جائیں گے
+258
+مجھے کھانوں کی فہرست دکھائیے
+259
+مانتے ہیں کہ ہر اچھائی خدا کی طرف سے ہے
+260
+وحشت اب بوریت سے ہے
+261
+بعض ٹی وی چینلز مسلسل نفرت کا کاروبار کر رہے ہیں
+262
+شہریار نجم سیٹھی ہندوستان دورے پر روانہ
+263
+اس بات کا لحاظ رکھنا ہے کہ کوئی جذبہ انتقام یا
+264
+لا پرواہ ہونا پسند ہے
+265
+کشمیر میں اگر کچھ کرنا مطلوب ہے
+266
+اپنے جائز موقف پہ ڈٹے رہنا چاہیے
+267
+مثلاً سورہ انعام میں بتایا گیا ہے
+268
+افواہیں گردش کررہی ہیں
+269
+مجھے خدشہ ہے کہ یہ معاملہ اگر مزید آگے بڑھتا ہے
+270
+ایچ پلانٹ انجینیرنگ اکائی کمپنی نے کہا
+271
+تو اچھی شام گزرے
+272
+اور منہ پھٹ تبصرہ نگار کے طور پر مستحکم
+273
+اس کے مریض مختلف رنگ میں تمیز نہیں کر سکہ
+274
+ایک اور بات سمجھ میں نہیں آتی
+275
+بہت کم اپنی جذباتی رد عمل کے بارے میں سوچتا ہوں
+276
+اب بھی برقرار ہے
+277
+موجودہ حکومت کو ایک جارحانہ اپوزیشن کا سامنا ہے
+278
+ان کے دوست احباب پیسے والے لوگ ہیں
+279
+اللہ کی لاٹھی بے آواز ہے
+280
+جو شخص اپنے ساتھی کی ڈھال استعمال کرے
+281
+اراپاہو
+282
+محض اپنی خفت مٹانے کی یہ کوشش ہے
+283
+پولینڈ سائیکل ریس میزبان ملک کے مائیکل کویٹکوسکی نے میدان مار لیا
+284
+نیپرا نے گزشتہ سال کی مالی اور اسٹیٹ اف دی انڈسٹری رپورٹ جاری کر دی
+285
+جو خرابیاں ہیں
+286
+روز اخبار کھولتا ہوں
+287
+خوشبو ہوا کی لہروں پر سفر کرتی ہے
+288
+ہمیشہ بائیں طرف چلئے
+289
+شاعری کے قلم سے کاغذ پر اتارا ہے
+290
+اسے خود سے دور رکھو
+291
+روٹی اور سالن سب ختم ہو چکا ہے
+292
+وہ بھی صحیح نہیں ملتا
+293
+ایشیا کپ پاکستان کو بھارت کے خلاف یکطرفہ مقابلے کے بعد شکست
+294
+نوجوان نسل کو تم
+295
+کیا وہ بھی کسی نیک مقصد کے لیے حو��لہ زنداں ہیں
+296
+اب میں مزیداس بات کو برداشت نہیں کرسکتا
+297
+آج مگر زمینی حقیقت یہ ہے کہ زرداری صاحب ہی پیپلزپارٹی کے
+298
+عیسائی مذہب میں بھی الٹے سیدھے تو نہیں
+299
+آج کے اس مادیت پرست معاشرے میں جاں نثاری کے صرف دعوے کیے جاتے ہیں عملاً سب کچھ کھوکھلا ہے
+300
+کمرے میں تمام چیزیں بکھری پڑی تھیں
+301
+آپ ایسا نہیں کر سکتے کیونکہ تم ایک گھٹیا اور پزدل آدمی ہو
+302
+لو
+303
+نوازشریف حق اقتدار کھو چکے ان کی حکومت ناجائز ہے
+304
+مس اینسروڈ نیو یارک میں شراب کی ایک آزاد مصنفہ ہیں
+305
+سخت سردی تھی اور اندھیرا بھی
+306
+تھائی
+307
+ورنہ ایسے ہی چیزیں چلتی رہیں گی
+308
+اور یہ گنوار تھا
+309
+سیاسی لڑائی سٹیٹس کو کے مختلف طبقات میں ہوتی ہے
+310
+میرا مجموعی تاثر یہ ہے کہ اس کا کام اچھا ہے
+311
+خیالات رکھتا ہے مگر وہ حیوانات کے ساتھ
+312
+دیکھتے ہیں
+313
+تمام پالیسیوں کا محور معاشی نشوونما ہونا چاہیے قائم مقام صدر ایل سی سی ائی
+314
+یہ مریم نواز صاحبہ کی عوامی سیاست کا پہلا دن ہے
+315
+پاکستان تو اس وقت غیر معمولی حالات سے گزر رہا ہے
+316
+کانگریس کی مسلم کش پالیسیوں سے بددل ہوکر
+317
+پاکستان نہ بنتا
+318
+اور وہ تم پر اپنے نگران مقرر رکھتا ہے
+319
+آگے کیا ہوگا
+320
+ہر بے گھر کو گھر مہیا کیا جائے گا
+321
+اور اس دوران یہاں
+322
+لیکن میں ہوں
+323
+ڈنڈے والے پیر تو ہمارے ہاں بہت ہیں
+324
+چیمپئنز ٹرافی ہاکی گرین شرٹس اپنا پانچواں میچ بیلجیئم کیخلاف کھیلیں گے
+325
+یہ صرف نمونہ اور نمائش رہ گئی ہے
+326
+مو لا نا امین احسن اصلاحی نے جو کام تفسیر میں
+327
+تمہاری خوشی میں میری خوشی ہے
+328
+اور پھر ایک بہادر ہیرو کے ذریعہ آدمی میں شکست کھاتا ہے
+329
+کل مسلم لیگ ن کے دوست
+330
+میں اپنی خواہشات کو قابو میں رکھ سکتا ہوں
+331
+اس لئے کہ انہیں لگتا ہے
+332
+پشاور زلمی اور اسلام اباد یونائیٹڈ کا فائنل ٹاکرا کراچی میں ہو گا
+333
+احتساب کے جج بھی تھے
+334
+اور یہ رنگین لمحات آنکھوں اور دل میں محفوظ کر لیا جائیں
+335
+نئے نوٹوں کی بکنگ اپنی انتہائی حد تک پہنچنے کے بعد بند کر دی جائے گی اسٹیٹ بینک
+336
+جنوبی امریکہ
+337
+انقلابی تحریکوں کی بنیاد جذبہ انتقام پر ہوتی ہے
+338
+اور بے دل شکاری حضرات کی بے
+339
+امریکہ نے ٹک ٹوک
+340
+کوئی ڈالتا ہے

Eval Results/mozilla-foundation_common_voice_8_0_ur_test_eval_results.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ WER: 0.39896373056994816
2	+ CER: 0.16700201207243462

Model.dvc ADDED Viewed

	@@ -0,0 +1,5 @@

+outs:
+- md5: 9992efe900364056bcd351f0eacf5bc1.dir
+  size: 1427872117
+  nfiles: 12
+  path: Model

eval.py ADDED Viewed

	@@ -0,0 +1,153 @@

+#!/usr/bin/env python3
+import argparse
+import re
+from typing import Dict
+import torch
+from datasets import Audio, Dataset, load_dataset, load_metric
+from transformers import AutoFeatureExtractor, pipeline
+def log_results(result: Dataset, args: Dict[str, str]):
+    """DO NOT CHANGE. This function computes and logs the result metrics."""
+    log_outputs = args.log_outputs
+    dataset_id = "_".join(args.dataset.split("/") + [args.config, args.split])
+    # load metric
+    wer = load_metric("wer")
+    cer = load_metric("cer")
+    # compute metrics
+    wer_result = wer.compute(references=result["target"], predictions=result["prediction"])
+    cer_result = cer.compute(references=result["target"], predictions=result["prediction"])
+    # print & log results
+    result_str = f"WER: {wer_result}\n" f"CER: {cer_result}"
+    print(result_str)
+    with open(f"{dataset_id}_eval_results.txt", "w") as f:
+        f.write(result_str)
+    # log all results in text file. Possibly interesting for analysis
+    if log_outputs is not None:
+        pred_file = f"log_{dataset_id}_predictions.txt"
+        target_file = f"log_{dataset_id}_targets.txt"
+        with open(pred_file, "w") as p, open(target_file, "w") as t:
+            # mapping function to write output
+            def write_to_file(batch, i):
+                p.write(f"{i}" + "\n")
+                p.write(batch["prediction"] + "\n")
+                t.write(f"{i}" + "\n")
+                t.write(batch["target"] + "\n")
+            result.map(write_to_file, with_indices=True)
+def normalize_text(text: str) -> str:
+    """DO ADAPT FOR YOUR USE CASE. this function normalizes the target text."""
+    chars_to_ignore_regex = """[\!\؛\،\٫\؟\۔\٪\"\'\:\-\‘\’]"""  # noqa: W605 IMPORTANT: this should correspond to the chars that were ignored during training
+    text = re.sub(chars_to_ignore_regex, "", text.lower())
+    text = re.sub("[،]", '', text)
+    text = re.sub("[؟]", '', text)
+    text = re.sub("['َ]", '', text)
+    text = re.sub("['ُ]", '', text)
+    text = re.sub("['ِ]", '', text)
+    text = re.sub("['ّ]", '', text)
+    text = re.sub("['ٔ]", '', text)
+    text = re.sub("['ٰ]", '', text)
+    # batch["sentence"] = re.sub("[ء]", '', batch["sentence"])
+    # batch["sentence"] = re.sub("[آ]", 'ا', batch["sentence"])
+    text = re.sub("[ۂ]", 'ہ', text)
+    text = re.sub("[ي]", "ی",text)
+    text = re.sub("[ؤ]", "و", text)
+    # batch["sentence"] = re.sub("[ئ]", 'ى', batch["sentence"])
+    text = re.sub("[ى]", 'ی', text)
+    text = re.sub("[۔]", '', text)
+    # In addition, we can normalize the target text, e.g. removing new lines characters etc...
+    # note that order is important here!
+    token_sequences_to_ignore = ["\n\n", "\n", "   ", "  "]
+    for t in token_sequences_to_ignore:
+        text = " ".join(text.split(t))
+    return text
+def main(args):
+    # load dataset
+    dataset = load_dataset(args.dataset, args.config,delimiter="\t",split=args.split, use_auth_token=True)
+    # for testing: only process the first two examples as a test
+    # dataset = dataset.select(range(10))
+    # load processor
+    feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
+    sampling_rate = feature_extractor.sampling_rate
+    # resample audio
+    dataset = dataset.cast_column("audio", Audio(sampling_rate=sampling_rate))
+    # load eval pipeline
+    if args.device is None:
+        args.device = 0 if torch.cuda.is_available() else -1
+    asr = pipeline("automatic-speech-recognition", model=args.model_id, device=args.device)
+    # map function to decode audio
+    def map_to_pred(batch):
+        prediction = asr(
+            batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s
+        )
+        batch["prediction"] = prediction["text"]
+        batch["target"] = normalize_text(batch["sentence"])
+        return batch
+    # run inference on all examples
+    result = dataset.map(map_to_pred, remove_columns=dataset.column_names)
+    # compute and log_results
+    # do not change function below
+    log_results(result, args)
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--model_id", type=str, required=True, help="Model identifier. Should be loadable with 🤗 Transformers"
+    )
+    parser.add_argument(
+        "--dataset",
+        type=str,
+        required=True,
+        help="Dataset name to evaluate the `model_id`. Should be loadable with 🤗 Datasets",
+    )
+    parser.add_argument(
+        "--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'`  for Common Voice"
+    )
+    parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
+    parser.add_argument(
+        "--chunk_length_s", type=float, default=None, help="Chunk length in seconds. Defaults to 5 seconds."
+    )
+    parser.add_argument(
+        "--stride_length_s", type=float, default=None, help="Stride of the audio chunks. Defaults to 1 second."
+    )
+    parser.add_argument(
+        "--log_outputs", action="store_true", help="If defined, write outputs to log file for analysis."
+    )
+    parser.add_argument(
+        "--device",
+        type=int,
+        default=None,
+        help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
+    )
+    args = parser.parse_args()
+    main(args)

metrics.csv ADDED Viewed

	@@ -0,0 +1,14 @@

+Name,Value,Timestamp,Step
+train_runtime,1310.619,1.64691E+12,1
+train_samples_per_second,0.618,1.64691E+12,1
+train_steps_per_second,0.019,1.64691E+12,1
+total_flos,1.03E+17,1.64691E+12,1
+train_loss,0.6416,1.64691E+12,1
+epoch,184.62,1.64691E+12,1
+eval_loss,0.9889,1.64691E+12,1
+eval_wer,0.5607,1.64691E+12,1
+eval_cer,0.237,1.64691E+12,1
+eval_runtime,119.2739,1.64691E+12,1
+eval_samples_per_second,2.859,1.64691E+12,1
+eval_steps_per_second,0.361,1.64691E+12,1
+epoch,184.62,1.64691E+12,1

params.yml ADDED Viewed

	@@ -0,0 +1,89 @@

+model: facebook/wav2vec2-xls-r-300m
+trainer:
+  _n_gpu: 1
+  adafactor: false
+  adam_beta1: 0.9
+  adam_beta2: 0.999
+  adam_epsilon: 1.0e-08
+  bf16: false
+  bf16_full_eval: false
+  dataloader_drop_last: false
+  dataloader_num_workers: 0
+  dataloader_pin_memory: true
+  ddp_bucket_cap_mb: null
+  ddp_find_unused_parameters: null
+  debug: '[]'
+  deepspeed: null
+  disable_tqdm: false
+  do_eval: true
+  do_predict: false
+  do_train: false
+  eval_accumulation_steps: null
+  eval_steps: 500
+  evaluation_strategy: steps
+  fp16: true
+  fp16_backend: auto
+  fp16_full_eval: false
+  fp16_opt_level: O1
+  gradient_accumulation_steps: 2
+  gradient_checkpointing: true
+  greater_is_better: null
+  group_by_length: true
+  half_precision_backend: amp
+  hub_model_id: null
+  hub_strategy: every_save
+  hub_token: <HUB_TOKEN>
+  ignore_data_skip: false
+  label_names: null
+  label_smoothing_factor: 0.0
+  learning_rate: 0.0001
+  length_column_name: length
+  load_best_model_at_end: false
+  local_rank: -1
+  log_level: -1
+  log_level_replica: -1
+  log_on_each_node: true
+  logging_dir: wav2vec2-large-xls-r-300m-Urdu-CV8/runs/Mar10_09-33-33_c7ab98cbc2d3
+  logging_first_step: false
+  logging_nan_inf_filter: true
+  logging_steps: 500
+  logging_strategy: steps
+  lr_scheduler_type: linear
+  max_grad_norm: 1.0
+  max_steps: -1
+  metric_for_best_model: null
+  mp_parameters: ''
+  no_cuda: false
+  num_train_epochs: 200
+  optim: adamw_hf
+  output_dir: wav2vec2-large-xls-r-300m-Urdu-CV8
+  overwrite_output_dir: false
+  past_index: -1
+  per_device_eval_batch_size: 8
+  per_device_train_batch_size: 32
+  per_gpu_eval_batch_size: null
+  per_gpu_train_batch_size: null
+  prediction_loss_only: false
+  push_to_hub: true
+  push_to_hub_model_id: null
+  push_to_hub_organization: null
+  push_to_hub_token: <PUSH_TO_HUB_TOKEN>
+  remove_unused_columns: true
+  report_to: '[''mlflow'', ''tensorboard'']'
+  resume_from_checkpoint: null
+  run_name: wav2vec2-large-xls-r-300m-Urdu-CV8
+  save_on_each_node: false
+  save_steps: 500
+  save_strategy: steps
+  save_total_limit: 1
+  seed: 42
+  sharded_ddp: '[]'
+  skip_memory_metrics: true
+  tf32: null
+  tpu_metrics_debug: false
+  tpu_num_cores: null
+  use_legacy_prediction_loop: false
+  warmup_ratio: 0.0
+  warmup_steps: 10
+  weight_decay: 0.0
+  xpu_backend: null

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+Transformers==4.17.0.dev0
+Pytorch==1.10.2+cu102
+Datasets==1.18.2.dev0
+Tokenizers==0.11.0
+https://github.com/kpu/kenlm/archive/master.zip
+pyctcdecode==0.3.0

run.sh ADDED Viewed

	@@ -0,0 +1,32 @@

+python run_speech_recognition_ctc.py \
+        --dataset_name="/Data" \
+        --model_name_or_path="facebook/wav2vec2-xls-r-300m" \
+        --dataset_config_name="ur" \
+        --output_dir="./Model" \
+        --overwrite_output_dir \
+        --num_train_epochs="200" \
+        --per_device_train_batch_size="32" \
+        --per_device_eval_batch_size="8" \
+        --gradient_accumulation_steps="2" \
+        --learning_rate="1e-4" \
+        --warmup_steps="1000" \
+	--length_column_name="input_length" \
+        --evaluation_strategy="steps" \
+        --text_column_name="sentence" \
+        --save_steps="500" \
+        --eval_steps="500" \
+        --logging_steps="500" \
+        --layerdrop="0.0" \
+        --activation_dropout="0.1" \
+        --save_total_limit="2" \
+        --freeze_feature_encoder \
+        --feat_proj_dropout="0.0" \
+        --mask_time_prob="0.75" \
+        --mask_time_length="10" \
+        --mask_feature_prob="0.25" \
+        --mask_feature_length="64" \
+	--chars_to_ignore ! ؛ ، ٫ ؟ ۔  ٪  " ' : - ‘ ’ \
+        --gradient_checkpointing \
+        --fp16 \
+        --group_by_length \
+        --do_train --do_eval

run_eval.sh ADDED Viewed

	@@ -0,0 +1 @@


1	+ ./eval.py --model_id ./Model --dataset ./Data --config ur --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

run_speech_recognition_ctc.py ADDED Viewed

	@@ -0,0 +1,731 @@

+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2021 The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+""" Fine-tuning a 🤗 Transformers CTC model for automatic speech recognition"""
+import functools
+import json
+import logging
+import os
+import re
+import sys
+import warnings
+from dataclasses import dataclass, field
+from typing import Dict, List, Optional, Union
+import datasets
+import numpy as np
+import torch
+from datasets import DatasetDict, load_dataset, load_metric
+import transformers
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModelForCTC,
+    AutoProcessor,
+    AutoTokenizer,
+    HfArgumentParser,
+    Trainer,
+    TrainingArguments,
+    Wav2Vec2Processor,
+    set_seed,
+)
+from transformers.trainer_utils import get_last_checkpoint, is_main_process
+from transformers.utils import check_min_version
+from transformers.utils.versions import require_version
+# Will error if the minimal version of Transformers is not installed. Remove at your own risks.
+check_min_version("4.16.0.dev0")
+require_version("datasets>=1.13.3", "To fix: pip install -r examples/pytorch/text-classification/requirements.txt")
+logger = logging.getLogger(__name__)
+def list_field(default=None, metadata=None):
+    return field(default_factory=lambda: default, metadata=metadata)
+@dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune from.
+    """
+    model_name_or_path: str = field(
+        metadata={"help": "Path to pretrained model or model identifier from huggingface.co/models"}
+    )
+    tokenizer_name_or_path: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to pretrained tokenizer or tokenizer identifier from huggingface.co/models"},
+    )
+    cache_dir: Optional[str] = field(
+        default=None,
+        metadata={"help": "Where do you want to store the pretrained models downloaded from huggingface.co"},
+    )
+    freeze_feature_encoder: bool = field(
+        default=True, metadata={"help": "Whether to freeze the feature encoder layers of the model."}
+    )
+    attention_dropout: float = field(
+        default=0.0, metadata={"help": "The dropout ratio for the attention probabilities."}
+    )
+    activation_dropout: float = field(
+        default=0.0, metadata={"help": "The dropout ratio for activations inside the fully connected layer."}
+    )
+    feat_proj_dropout: float = field(default=0.0, metadata={"help": "The dropout ratio for the projected features."})
+    hidden_dropout: float = field(
+        default=0.0,
+        metadata={
+            "help": "The dropout probability for all fully connected layers in the embeddings, encoder, and pooler."
+        },
+    )
+    final_dropout: float = field(
+        default=0.0,
+        metadata={"help": "The dropout probability for the final projection layer."},
+    )
+    mask_time_prob: float = field(
+        default=0.05,
+        metadata={
+            "help": "Probability of each feature vector along the time axis to be chosen as the start of the vector"
+            "span to be masked. Approximately ``mask_time_prob * sequence_length // mask_time_length`` feature"
+            "vectors will be masked along the time axis."
+        },
+    )
+    mask_time_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the time axis."},
+    )
+    mask_feature_prob: float = field(
+        default=0.0,
+        metadata={
+            "help": "Probability of each feature vector along the feature axis to be chosen as the start of the vector"
+            "span to be masked. Approximately ``mask_feature_prob * sequence_length // mask_feature_length`` feature bins will be masked along the time axis."
+        },
+    )
+    mask_feature_length: int = field(
+        default=10,
+        metadata={"help": "Length of vector span to mask along the feature axis."},
+    )
+    layerdrop: float = field(default=0.0, metadata={"help": "The LayerDrop probability."})
+    ctc_loss_reduction: Optional[str] = field(
+        default="mean", metadata={"help": "The way the ctc loss should be reduced. Should be one of 'mean' or 'sum'."}
+    )
+@dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    Using `HfArgumentParser` we can turn this class
+    into argparse arguments to be able to specify them on
+    the command line.
+    """
+    dataset_name: str = field(
+        metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: str = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    train_split_name: str = field(
+        default="train+validation",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    eval_split_name: str = field(
+        default="test",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    audio_column_name: str = field(
+        default="audio",
+        metadata={"help": "The name of the dataset column containing the audio data. Defaults to 'audio'"},
+    )
+    text_column_name: str = field(
+        default="text",
+        metadata={"help": "The name of the dataset column containing the text data. Defaults to 'text'"},
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached preprocessed datasets or not."}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of validation examples to this "
+            "value if set."
+        },
+    )
+    chars_to_ignore: Optional[List[str]] = list_field(
+        default=None,
+        metadata={"help": "A list of characters to remove from the transcripts."},
+    )
+    eval_metrics: List[str] = list_field(
+        default=["wer"],
+        metadata={"help": "A list of metrics the model should be evaluated on. E.g. `'wer cer'`"},
+    )
+    max_duration_in_seconds: float = field(
+        default=20.0,
+        metadata={
+            "help": "Filter audio files that are longer than `max_duration_in_seconds` seconds to 'max_duration_in_seconds`"
+        },
+    )
+    min_duration_in_seconds: float = field(
+        default=0.0, metadata={"help": "Filter audio files that are shorter than `min_duration_in_seconds` seconds"}
+    )
+    preprocessing_only: bool = field(
+        default=False,
+        metadata={
+            "help": "Whether to only do data preprocessing and skip training. "
+            "This is especially useful when data preprocessing errors out in distributed training due to timeout. "
+            "In this case, one should run the preprocessing in a non-distributed setup with `preprocessing_only=True` "
+            "so that the cached datasets can consequently be loaded in distributed training"
+        },
+    )
+    use_auth_token: bool = field(
+        default=False,
+        metadata={
+            "help": "If :obj:`True`, will use the token generated when running"
+            ":obj:`transformers-cli login` as HTTP bearer authorization for remote files."
+        },
+    )
+    unk_token: str = field(
+        default="[UNK]",
+        metadata={"help": "The unk token for the tokenizer"},
+    )
+    pad_token: str = field(
+        default="[PAD]",
+        metadata={"help": "The padding token for the tokenizer"},
+    )
+    word_delimiter_token: str = field(
+        default="|",
+        metadata={"help": "The word delimiter token for the tokenizer"},
+    )
+    phoneme_language: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "The target language that should be used be"
+            " passed to the tokenizer for tokenization. Note that"
+            " this is only relevant if the model classifies the"
+            " input audio to a sequence of phoneme sequences."
+        },
+    )
+@dataclass
+class DataCollatorCTCWithPadding:
+    """
+    Data collator that will dynamically pad the inputs received.
+    Args:
+        processor (:class:`~transformers.AutoProcessor`)
+            The processor used for proccessing the data.
+        padding (:obj:`bool`, :obj:`str` or :class:`~transformers.tokenization_utils_base.PaddingStrategy`, `optional`, defaults to :obj:`True`):
+            Select a strategy to pad the returned sequences (according to the model's padding side and padding index)
+            among:
+            * :obj:`True` or :obj:`'longest'`: Pad to the longest sequence in the batch (or no padding if only a single
+              sequence if provided).
+            * :obj:`'max_length'`: Pad to a maximum length specified with the argument :obj:`max_length` or to the
+              maximum acceptable input length for the model if that argument is not provided.
+            * :obj:`False` or :obj:`'do_not_pad'` (default): No padding (i.e., can output a batch with sequences of
+              different lengths).
+        max_length (:obj:`int`, `optional`):
+            Maximum length of the ``input_values`` of the returned list and optionally padding length (see above).
+        max_length_labels (:obj:`int`, `optional`):
+            Maximum length of the ``labels`` returned list and optionally padding length (see above).
+        pad_to_multiple_of (:obj:`int`, `optional`):
+            If set will pad the sequence to a multiple of the provided value.
+            This is especially useful to enable the use of Tensor Cores on NVIDIA hardware with compute capability >=
+            7.5 (Volta).
+    """
+    processor: AutoProcessor
+    padding: Union[bool, str] = "longest"
+    pad_to_multiple_of: Optional[int] = None
+    pad_to_multiple_of_labels: Optional[int] = None
+    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
+        # split inputs and labels since they have to be of different lenghts and need
+        # different padding methods
+        input_features = [{"input_values": feature["input_values"]} for feature in features]
+        label_features = [{"input_ids": feature["labels"]} for feature in features]
+        batch = self.processor.pad(
+            input_features,
+            padding=self.padding,
+            pad_to_multiple_of=self.pad_to_multiple_of,
+            return_tensors="pt",
+        )
+        with self.processor.as_target_processor():
+            labels_batch = self.processor.pad(
+                label_features,
+                padding=self.padding,
+                pad_to_multiple_of=self.pad_to_multiple_of_labels,
+                return_tensors="pt",
+            )
+        # replace padding with -100 to ignore loss correctly
+        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)
+        batch["labels"] = labels
+        return batch
+def create_vocabulary_from_data(
+    datasets: DatasetDict,
+    word_delimiter_token: Optional[str] = None,
+    unk_token: Optional[str] = None,
+    pad_token: Optional[str] = None,
+):
+    # Given training and test labels create vocabulary
+    def extract_all_chars(batch):
+        all_text = " ".join(batch["target_text"])
+        vocab = list(set(all_text))
+        return {"vocab": [vocab], "all_text": [all_text]}
+    vocabs = datasets.map(
+        extract_all_chars,
+        batched=True,
+        batch_size=-1,
+        keep_in_memory=True,
+        remove_columns=datasets["train"].column_names,
+    )
+    # take union of all unique characters in each dataset
+    vocab_set = functools.reduce(
+        lambda vocab_1, vocab_2: set(vocab_1["vocab"][0]) | set(vocab_2["vocab"][0]), vocabs.values()
+    )
+    vocab_dict = {v: k for k, v in enumerate(sorted(list(vocab_set)))}
+    # replace white space with delimiter token
+    if word_delimiter_token is not None:
+        vocab_dict[word_delimiter_token] = vocab_dict[" "]
+        del vocab_dict[" "]
+    # add unk and pad token
+    if unk_token is not None:
+        vocab_dict[unk_token] = len(vocab_dict)
+    if pad_token is not None:
+        vocab_dict[pad_token] = len(vocab_dict)
+    return vocab_dict
+def main():
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # Detecting last checkpoint.
+    last_checkpoint = None
+    if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
+        last_checkpoint = get_last_checkpoint(training_args.output_dir)
+        if last_checkpoint is None and len(os.listdir(training_args.output_dir)) > 0:
+            raise ValueError(
+                f"Output directory ({training_args.output_dir}) already exists and is not empty. "
+                "Use --overwrite_output_dir to overcome."
+            )
+        elif last_checkpoint is not None:
+            logger.info(
+                f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
+                "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
+            )
+    # Setup logging
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    logger.setLevel(logging.INFO if is_main_process(training_args.local_rank) else logging.WARN)
+    # Log on each process the small summary:
+    logger.warning(
+        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
+        f"distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
+    )
+    # Set the verbosity to info of the Transformers logger (on main process only):
+    if is_main_process(training_args.local_rank):
+        transformers.utils.logging.set_verbosity_info()
+    logger.info("Training/evaluation parameters %s", training_args)
+    # Set seed before initializing model.
+    set_seed(training_args.seed)
+    # 1. First, let's load the dataset
+    raw_datasets = DatasetDict()
+    if training_args.do_train:
+        raw_datasets["train"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.train_split_name, delimiter="\t",use_auth_token=data_args.use_auth_token
+        )
+        if data_args.audio_column_name not in raw_datasets["train"].column_names:
+            raise ValueError(
+                f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
+                "Make sure to set `--audio_column_name` to the correct audio column - one of "
+                f"{', '.join(raw_datasets['train'].column_names)}."
+            )
+        if data_args.text_column_name not in raw_datasets["train"].column_names:
+            raise ValueError(
+                f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
+                "Make sure to set `--text_column_name` to the correct text column - one of "
+                f"{', '.join(raw_datasets['train'].column_names)}."
+            )
+        if data_args.max_train_samples is not None:
+            raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
+    if training_args.do_eval:
+        raw_datasets["eval"] = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, split=data_args.eval_split_name, use_auth_token=data_args.use_auth_token
+        )
+        if data_args.max_eval_samples is not None:
+            raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
+    # 2. We remove some special characters from the datasets
+    # that make training complicated and do not help in transcribing the speech
+    # E.g. characters, such as `,` and `.` do not really have an acoustic characteristic
+    # that could be easily picked up by the model
+    chars_to_ignore_regex = (
+        f'[{"".join(data_args.chars_to_ignore)}]' if data_args.chars_to_ignore is not None else None
+    )
+    text_column_name = data_args.text_column_name
+    def remove_special_characters(batch):
+        if chars_to_ignore_regex is not None:
+            batch["target_text"] = re.sub(chars_to_ignore_regex, "", batch[text_column_name]).lower() + " "
+        else:
+            batch["target_text"] = batch[text_column_name].lower() + " "
+        return batch
+    with training_args.main_process_first(desc="dataset map special characters removal"):
+        raw_datasets = raw_datasets.map(
+            remove_special_characters,
+            remove_columns=[text_column_name],
+            desc="remove special characters from datasets",
+        )
+    # save special tokens for tokenizer
+    word_delimiter_token = data_args.word_delimiter_token
+    unk_token = data_args.unk_token
+    pad_token = data_args.pad_token
+    # 3. Next, let's load the config as we might need it to create
+    # the tokenizer
+    # load config
+    config = AutoConfig.from_pretrained(
+        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
+    )
+    # 4. Next, if no tokenizer file is defined,
+    # we create the vocabulary of the model by extracting all unique characters from
+    # the training and evaluation datasets
+    # We need to make sure that only first rank saves vocabulary
+    # make sure all processes wait until vocab is created
+    tokenizer_name_or_path = model_args.tokenizer_name_or_path
+    tokenizer_kwargs = {}
+    if tokenizer_name_or_path is None:
+        # save vocab in training output dir
+        tokenizer_name_or_path = training_args.output_dir
+        vocab_file = os.path.join(tokenizer_name_or_path, "vocab.json")
+        with training_args.main_process_first():
+            if training_args.overwrite_output_dir and os.path.isfile(vocab_file):
+                os.remove(vocab_file)
+        with training_args.main_process_first(desc="dataset map vocabulary creation"):
+            if not os.path.isfile(vocab_file):
+                os.makedirs(tokenizer_name_or_path, exist_ok=True)
+                vocab_dict = create_vocabulary_from_data(
+                    raw_datasets,
+                    word_delimiter_token=word_delimiter_token,
+                    unk_token=unk_token,
+                    pad_token=pad_token,
+                )
+                # save vocab dict to be loaded into tokenizer
+                with open(vocab_file, "w") as file:
+                    json.dump(vocab_dict, file)
+        # if tokenizer has just been created
+        # it is defined by `tokenizer_class` if present in config else by `model_type`
+        tokenizer_kwargs = {
+            "config": config if config.tokenizer_class is not None else None,
+            "tokenizer_type": config.model_type if config.tokenizer_class is None else None,
+            "unk_token": unk_token,
+            "pad_token": pad_token,
+            "word_delimiter_token": word_delimiter_token,
+        }
+    # 5. Now we can instantiate the feature extractor, tokenizer and model
+    # Note for distributed training, the .from_pretrained methods guarantee that only
+    # one local process can concurrently download model & vocab.
+    # load feature_extractor and tokenizer
+    tokenizer = AutoTokenizer.from_pretrained(
+        tokenizer_name_or_path,
+        use_auth_token=data_args.use_auth_token,
+        **tokenizer_kwargs,
+    )
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
+    )
+    # adapt config
+    config.update(
+        {
+            "feat_proj_dropout": model_args.feat_proj_dropout,
+            "attention_dropout": model_args.attention_dropout,
+            "hidden_dropout": model_args.hidden_dropout,
+            "final_dropout": model_args.final_dropout,
+            "mask_time_prob": model_args.mask_time_prob,
+            "mask_time_length": model_args.mask_time_length,
+            "mask_feature_prob": model_args.mask_feature_prob,
+            "mask_feature_length": model_args.mask_feature_length,
+            "gradient_checkpointing": training_args.gradient_checkpointing,
+            "layerdrop": model_args.layerdrop,
+            "ctc_loss_reduction": model_args.ctc_loss_reduction,
+            "pad_token_id": tokenizer.pad_token_id,
+            "vocab_size": len(tokenizer),
+            "activation_dropout": model_args.activation_dropout,
+        }
+    )
+    # create model
+    model = AutoModelForCTC.from_pretrained(
+        model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        config=config,
+        use_auth_token=data_args.use_auth_token,
+    )
+    # freeze encoder
+    if model_args.freeze_feature_encoder:
+        model.freeze_feature_encoder()
+    # 6. Now we preprocess the datasets including loading the audio, resampling and normalization
+    # Thankfully, `datasets` takes care of automatically loading and resampling the audio,
+    # so that we just need to set the correct target sampling rate and normalize the input
+    # via the `feature_extractor`
+    # make sure that dataset decodes audio with correct sampling rate
+    dataset_sampling_rate = next(iter(raw_datasets.values())).features[data_args.audio_column_name].sampling_rate
+    if dataset_sampling_rate != feature_extractor.sampling_rate:
+        raw_datasets = raw_datasets.cast_column(
+            data_args.audio_column_name, datasets.features.Audio(sampling_rate=feature_extractor.sampling_rate)
+        )
+    # derive max & min input length for sample rate & max duration
+    max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
+    min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
+    audio_column_name = data_args.audio_column_name
+    num_workers = data_args.preprocessing_num_workers
+    # `phoneme_language` is only relevant if the model is fine-tuned on phoneme classification
+    phoneme_language = data_args.phoneme_language
+    # Preprocessing the datasets.
+    # We need to read the audio files as arrays and tokenize the targets.
+    def prepare_dataset(batch):
+        # load audio
+        sample = batch[audio_column_name]
+        inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])
+        batch["input_values"] = inputs.input_values[0]
+        batch["input_length"] = len(batch["input_values"])
+        # encode targets
+        additional_kwargs = {}
+        if phoneme_language is not None:
+            additional_kwargs["phonemizer_lang"] = phoneme_language
+        batch["labels"] = tokenizer(batch["target_text"], **additional_kwargs).input_ids
+        return batch
+    with training_args.main_process_first(desc="dataset map preprocessing"):
+        vectorized_datasets = raw_datasets.map(
+            prepare_dataset,
+            remove_columns=next(iter(raw_datasets.values())).column_names,
+            num_proc=num_workers,
+            desc="preprocess datasets",
+        )
+        def is_audio_in_length_range(length):
+            return length > min_input_length and length < max_input_length
+        # filter data that is shorter than min_input_length
+        vectorized_datasets = vectorized_datasets.filter(
+            is_audio_in_length_range,
+            num_proc=num_workers,
+            input_columns=["input_length"],
+        )
+    # 7. Next, we can prepare the training.
+    # Let's use word error rate (WER) as our evaluation metric,
+    # instantiate a data collator and the trainer
+    # Define evaluation metrics during training, *i.e.* word error rate, character error rate
+    eval_metrics = {metric: load_metric(metric) for metric in data_args.eval_metrics}
+    # for large datasets it is advised to run the preprocessing on a
+    # single machine first with ``args.preprocessing_only`` since there will mostly likely
+    # be a timeout when running the script in distributed mode.
+    # In a second step ``args.preprocessing_only`` can then be set to `False` to load the
+    # cached dataset
+    if data_args.preprocessing_only:
+        logger.info(f"Data preprocessing finished. Files cached at {vectorized_datasets.cache_files}")
+        return
+    def compute_metrics(pred):
+        pred_logits = pred.predictions
+        pred_ids = np.argmax(pred_logits, axis=-1)
+        pred.label_ids[pred.label_ids == -100] = tokenizer.pad_token_id
+        pred_str = tokenizer.batch_decode(pred_ids)
+        # we do not want to group tokens when computing the metrics
+        label_str = tokenizer.batch_decode(pred.label_ids, group_tokens=False)
+        metrics = {k: v.compute(predictions=pred_str, references=label_str) for k, v in eval_metrics.items()}
+        return metrics
+    # Now save everything to be able to create a single processor later
+    if is_main_process(training_args.local_rank):
+        # save feature extractor, tokenizer and config
+        feature_extractor.save_pretrained(training_args.output_dir)
+        tokenizer.save_pretrained(training_args.output_dir)
+        config.save_pretrained(training_args.output_dir)
+    try:
+        processor = AutoProcessor.from_pretrained(training_args.output_dir)
+    except (OSError, KeyError):
+        warnings.warn(
+            "Loading a processor from a feature extractor config that does not"
+            " include a `processor_class` attribute is deprecated and will be removed in v5. Please add the following "
+            " attribute to your `preprocessor_config.json` file to suppress this warning: "
+            " `'processor_class': 'Wav2Vec2Processor'`",
+            FutureWarning,
+        )
+        processor = Wav2Vec2Processor.from_pretrained(training_args.output_dir)
+    # Instantiate custom data collator
+    data_collator = DataCollatorCTCWithPadding(processor=processor)
+    # Initialize Trainer
+    trainer = Trainer(
+        model=model,
+        data_collator=data_collator,
+        args=training_args,
+        compute_metrics=compute_metrics,
+        train_dataset=vectorized_datasets["train"] if training_args.do_train else None,
+        eval_dataset=vectorized_datasets["eval"] if training_args.do_eval else None,
+        tokenizer=feature_extractor,
+    )
+    # 8. Finally, we can start training
+    # Training
+    if training_args.do_train:
+        # use last checkpoint if exist
+        if last_checkpoint is not None:
+            checkpoint = last_checkpoint
+        elif os.path.isdir(model_args.model_name_or_path):
+            checkpoint = model_args.model_name_or_path
+        else:
+            checkpoint = None
+        train_result = trainer.train(resume_from_checkpoint=checkpoint)
+        trainer.save_model()
+        metrics = train_result.metrics
+        max_train_samples = (
+            data_args.max_train_samples
+            if data_args.max_train_samples is not None
+            else len(vectorized_datasets["train"])
+        )
+        metrics["train_samples"] = min(max_train_samples, len(vectorized_datasets["train"]))
+        trainer.log_metrics("train", metrics)
+        trainer.save_metrics("train", metrics)
+        trainer.save_state()
+    # Evaluation
+    results = {}
+    if training_args.do_eval:
+        logger.info("*** Evaluate ***")
+        metrics = trainer.evaluate()
+        max_eval_samples = (
+            data_args.max_eval_samples if data_args.max_eval_samples is not None else len(vectorized_datasets["eval"])
+        )
+        metrics["eval_samples"] = min(max_eval_samples, len(vectorized_datasets["eval"]))
+        trainer.log_metrics("eval", metrics)
+        trainer.save_metrics("eval", metrics)
+    # Write model card and (optionally) push to hub
+    config_name = data_args.dataset_config_name if data_args.dataset_config_name is not None else "na"
+    kwargs = {
+        "finetuned_from": model_args.model_name_or_path,
+        "tasks": "speech-recognition",
+        "tags": ["automatic-speech-recognition", data_args.dataset_name],
+        "dataset_args": f"Config: {config_name}, Training split: {data_args.train_split_name}, Eval split: {data_args.eval_split_name}",
+        "dataset": f"{data_args.dataset_name.upper()} - {config_name.upper()}",
+    }
+    if "common_voice" in data_args.dataset_name:
+        kwargs["language"] = config_name
+    if training_args.push_to_hub:
+        trainer.push_to_hub(**kwargs)
+    else:
+        trainer.create_model_card(**kwargs)
+    return results
+if __name__ == "__main__":
+    main()