Irpan commited on
Commit
d42db5f
1 Parent(s): 7a05dac

add more text

Browse files
Files changed (3) hide show
  1. asr.py +5 -0
  2. util.py +11 -7
  3. uyghur_texts.csv +100 -0
asr.py CHANGED
@@ -26,6 +26,11 @@ def asr(audio_data, target_rate = 16000):
26
  else:
27
  return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
28
 
 
 
 
 
 
29
  # Resample if needed
30
  if sampling_rate != target_rate:
31
  resampler = torchaudio.transforms.Resample(sampling_rate, target_rate)
 
26
  else:
27
  return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
28
 
29
+ # # Check audio duration
30
+ # duration = audio_input.shape[1] / sampling_rate
31
+ # if duration > 10:
32
+ # return f"<<ERROR: Audio duration ({duration:.2f}s) exceeds 10 seconds. Please upload a shorter audio clip.>>"
33
+
34
  # Resample if needed
35
  if sampling_rate != target_rate:
36
  resampler = torchaudio.transforms.Resample(sampling_rate, target_rate)
util.py CHANGED
@@ -3,10 +3,11 @@ from umsc import UgMultiScriptConverter
3
  import string
4
  import epitran
5
  from difflib import SequenceMatcher
6
- # For googletrans 4.0.0-rc1
7
- import httpcore
8
- setattr(httpcore, 'SyncHTTPTransport', 'AsyncHTTPProxy')
9
- from googletrans import Translator, LANGCODES
 
10
 
11
  ## Global Vars
12
  # Lists of Uyghur short and long texts
@@ -33,10 +34,13 @@ long_texts = [
33
  "ئۇ بىر كۆزگە كۆرۈنگەن ناخشىچى",
34
  "بۇ پۇتبول مۇسابىقىسىنىڭ ئاخىرلىشىشى."
35
  ]
 
 
 
36
 
37
- # Initialize the translator
38
- translator = Translator()
39
- translation_choices = [L for L in LANGCODES]
40
 
41
  # Initialize uyghur script converter
42
  ug_arab_to_latn = UgMultiScriptConverter('UAS', 'ULS')
 
3
  import string
4
  import epitran
5
  from difflib import SequenceMatcher
6
+ import pandas as pd
7
+ # # For googletrans 4.0.0-rc1
8
+ # import httpcore
9
+ # setattr(httpcore, 'SyncHTTPTransport', 'AsyncHTTPProxy')
10
+ # from googletrans import Translator, LANGCODES
11
 
12
  ## Global Vars
13
  # Lists of Uyghur short and long texts
 
34
  "ئۇ بىر كۆزگە كۆرۈنگەن ناخشىچى",
35
  "بۇ پۇتبول مۇسابىقىسىنىڭ ئاخىرلىشىشى."
36
  ]
37
+ # Load some more uyghur text to add the long text
38
+ df = pd.read_csv('uyghur_texts.csv', header=None)
39
+ long_texts += df.iloc[:, 0].tolist()
40
 
41
+ # # Initialize the translator
42
+ # translator = Translator()
43
+ # translation_choices = [L for L in LANGCODES]
44
 
45
  # Initialize uyghur script converter
46
  ug_arab_to_latn = UgMultiScriptConverter('UAS', 'ULS')
uyghur_texts.csv ADDED
@@ -0,0 +1,100 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ بىز ئۇ ئوغرىنى تازا ئەدەپلەپ قويدۇق
2
+ سەن بىكاردىن باش ئاغرىقى تېپىپ ئۆزۈڭنى قىينىما
3
+ توك كېتىپ پۈتۈن شەھەر قاراڭغۇلۇققا پاتتى
4
+ نەس باسقان ئىشنىڭ ھەممىسى ماڭا يولۇقۇپتۇ
5
+ بىزنىڭ قىسمىمىز دۈشمەننى قاتمۇقات مۇھاسىرىگە ئالدى
6
+ مەن كېسىپ ئېيتالايمەنكى ئۇ بۈگۈن كەلمەيدۇ
7
+ بىز كۆپ مىقداردا خام ماتېرىيال سېتىۋېلىشىمىز كېرەك
8
+ سۇ دېسەڭ بۇ يەردە كۆپ قانغۇچە ئىچىۋالغىن
9
+ بۇ قېتىمقى كېمە كۆمتۈرۈلۈش پەۋقۇلئاددە ۋەقەدۇر
10
+ مەن ئۆزۈم يالغۇز سىنىپقا كىرىۋىلىپ يىغلىدىم
11
+ نەس باسقان ئىشنىڭ ھەممىسى ماڭا يولۇقۇپتۇ
12
+ موما ئاستىراق مېڭىڭ يىقىلىپ چۈشۈشتىن پەخەس بۇلۇڭ
13
+ ئايدىن ئۆتسىلا ئۆرۈك نەشپۈت شاپتۇللار پىشىدۇ
14
+ بۇ ئىشنىڭ شۇ دەرىجىگە يېتىپ كېتىشى كىشىنى چۆچۈتىدۇ
15
+ زىيادە غەم ئەندىشە ئۇنى بالدۇر قېرىتىۋەتتى
16
+ موما ئاستىراق مېڭىڭ يىقىلىپ چۈشۈشتىن پەخەس بۇلۇڭ
17
+ ئۇلار قاشتېشى سودىسى بىلەن شۇغۇللىنىدۇ
18
+ ياۋايى ھايۋانلارنى تىرىشىپ قوغدىشىمىز لازىم
19
+ بۇ قېتىم ئۇرۇشقاندا ئۇ ئالدىن بىلەن قول تەگكۈزدى
20
+ ئۇ خەتنى بەك سەت يازغاچقا تونۇماق قىيىن
21
+ مەن دائىم باغچىغا بېرىپ بەدەن چېنىقتۇرىمەن
22
+ بۇ تېلېۋىزىيە تىياتىرىنى ئۇلار نەچچىسى پىلانلىغان
23
+ توقۇنۇش پەيدا بولغانىكەن ئۇنى توسۇش كېرەك
24
+ ئۇ بۇنداق خورلۇققا چىدىيالماي پەش قېقىپ كېتىپ قالدى
25
+ موما ئاستىراق مېڭىڭ يىقىلىپ چۈشۈشتىن پەخەس بۇلۇڭ
26
+ مەن ئۆگىنىش نەتىجەمىنىڭ كەينىدە قېلىشىدىن ئەنسىرەيمەن
27
+ كاتېر دولقۇن يېرىپ دېڭىزغا كىرىپ كەتتى
28
+ بۇ ئادەمنىڭ پوزىتسىيىسى تولىمۇ تەكەببۇر ئىكەن
29
+ بىئاراملىقتىن ئۇنىڭ مىجەزى تولىمۇ قوپاللىشىپ كەتتى
30
+ ئايدىن ئۆتسىلا ئۆرۈك نەشپۈت شاپتۇللار پىشىدۇ
31
+ ئۆلۈك يادلاش خاتا ئۆگىنىش ئۇسۇلىدۇر
32
+ تۈنۈگۈن كەچتە ئوقۇتقۇچى بىزنىڭ ئۆيگە راستتىنلا كەلدى
33
+ مەن بىلەن سۇ ئۈزۈشتە مۇسابىقىلىشىشكە جۈرئەت قىلالامسەن
34
+ تاغ باغرىنىڭ ھەممە يېرى چارۋىغا تولغانىدى
35
+ توك كېتىپ پۈتۈن شەھەر قاراڭغۇلۇققا پاتتى
36
+ مەن بىلەن سۇ ئۈزۈشتە مۇسابىقىلىشىشكە جۈرئەت قىلالامسەن
37
+ دەرەخ شاخلىرى توختىماي لىڭشىپ تۇراتتى
38
+ ئۇ ئۆز ئۇستازىغا ھۆرمەت نەزىرى بىلەن تىكىلىپ قارايتتى
39
+ ئۇ ۋەتەن ئۈچۈن خەلق ئۈچۈن ئۆچمەس تۆھپە ياراتتى
40
+ قارىئۆرۈك يامغۇرى مەزگىلىدە يەر يۈزى تولىمۇ نەم بولىدۇ
41
+ ئۇ باشقىلار كۆرۈپ قالماسلىقى ئۈچۈن مۆكۈنۈۋالدى
42
+ ئۆلۈك يادلاش خاتا ئۆگىنىش ئۇسۇلىدۇر
43
+ بۇ لىرىك نەسرنى ئوقۇسا كىشىنى قاتتىق تەسىرلەندۈرىدۇ
44
+ بۇ قېتىم ئۇرۇشقاندا ئۇ ئالدىن بىلەن قول تەگكۈزدى
45
+ ئۇ خەتنى بەك سەت يازغاچقا تونۇماق قىيىن
46
+ ئاپام يېقىندا خىزمىتىدىن يۆتكەلمەكچى
47
+ بۇ ئىشنىڭ شۇ دەرىجىگە يېتىپ كېتىشى كىشىنى چۆچۈتىدۇ
48
+ ئۇنىڭ ئۆزىنى كۆرسىتىشىنى كىشىلەر نەزەرگە ئېلىپ قويمىدى
49
+ بۇ ئۇششاق مەسىلىلەرگە سەن جاۋاب بەرسەڭمۇ بولىدۇ
50
+ ئوقۇتقۇچىنىڭ چىن كۆڭلى ئۇنىڭ قەلبىنى ئاخىر ئېرىتتى
51
+ مەن بۇ تومۇز يازنى دالا لاگېرى بازىسىدا ئۆتكۈزدۈم
52
+ ئۇلار قوشۇلسىلا مەكتىپىمىز تەرەپتە باشقىچە پىكىر يوق
53
+ قارىئۆرۈك يامغۇرى مەزگىلىدە يەر يۈزى تولىمۇ نەم بولىدۇ
54
+ بىز يول باشلاشقا شۇ جايدىن بىر يۇرتداشنى تاپتۇق
55
+ بۇ لىرىك نەسرنى ئوقۇسا كىشىنى قاتتىق تەسىرلەندۈرىدۇ
56
+ ئۇ چۆچۈگەن ھالدا يارىسى ئېغىرمۇ دەپ سورىدى
57
+ توقۇنۇش پەيدا بولغانىكەن ئۇنى توسۇش كېرەك
58
+ مەن بىلەن سۇ ئۈزۈشتە مۇسابىقىلىشىشكە جۈرئەت قىلالامسەن
59
+ ئۇ ياش بولغاچقا بۇ مەسىلىنى بەك ئاددىي ئويلاپتۇ
60
+ قارا ئېيىقنىڭ ھەرىكىتى قاشاڭ بولۇپ مېڭىشى تولىمۇ ئاستا
61
+ بۇ خىل ھاشارات دورىسىنىڭ كۈچى ئۇزاققىچە داۋام قىلىدۇ
62
+ بۇ كىنودىكى پېرسۇناژلار ماغدۇرسىز كۆرۈنەتتى
63
+ قانۇنسىز ئۇنسۇرلارنى قانۇن بويىچە جازالاش لازىم
64
+ ياخشى رەددىيە بەردىڭ بىز سېنى قوللايمىز
65
+ مەن دائىم باغچىغا بېرىپ بەدەن چېنىقتۇرىمەن
66
+ مەن ئۆزۈم يالغۇز سىنىپقا كىرىۋىلىپ يىغلىدىم
67
+ كومپارتىيىنىڭ مېھىر شەپقىتى دېڭىزدىنمۇ چوڭقۇر
68
+ ئۇنىڭ بۇنداق قىلىشى تامامەن ئۆز پىكرىنى يورغىلاتقانلىق
69
+ ئادەمنى پالاكەت باسقاندا نېمىلا قىلسا قاملاشمايدىكەن
70
+ مەن دائىم باغچىغا بېرىپ بەدەن چېنىقتۇرىمەن
71
+ سىز تەكشۈرگەن ئەھۋالىڭىزنى كۆپچىلىككە تونۇشتۇرۇپ ئۆتۈڭ
72
+ سىز تەكشۈرگەن ئەھۋالىڭىزنى كۆپچىلىككە تونۇشتۇرۇپ ئۆتۈڭ
73
+ ئۇ باشقىلار كۆرۈپ قالماسلىقى ئۈچۈن مۆكۈنۈۋالدى
74
+ بۇ فورمۇلانىڭ ئورنىدا بىر بەلگە ئىشلەتسە بولىدۇ
75
+ مەكتەپنىڭ ئىچى جىمجىت بىرەر شەپىمۇ يوق ئىدى
76
+ ياۋايى ھايۋانلارنى تىرىشىپ قوغدىشىمىز لازىم
77
+ بۇ قەلەمنىڭ سۈپىتى ياخشى ئەمەس ئىكەن تېگىشىپ بېرىڭ
78
+ ئىشىك تۈۋىدە ياتقان ھېلىقى ئادەم قاتتىق خورەك تارتاتتى
79
+ بۇ خىل ھاشارات دورىسىنىڭ كۈچى ئۇزاققىچە داۋام قىلىدۇ
80
+ بىخەستەلىكىمدىن شورپىغا تۇز سالدىم دەپ شېكەر ساپتىمەن
81
+ بىزنىڭ قىسمىمىز دۈشمەننى قاتمۇقات مۇھاسىرىگە ئالدى
82
+ مەن بۇ تومۇز يازنى دالا لاگېرى بازىسىدا ئۆتكۈزدۈم
83
+ بۇ ماقالىنىڭ مەزمۇنىدا نۇرغۇن جايلىرى تەكرارلانغانىكەن
84
+ كېچىدە ئاۋات بازار ئاستا ئاستا جىمجىتلىققا چۆمدى
85
+ مەن ئۆزۈم يالغۇز سىنىپقا كىرىۋىلىپ يىغلىدىم
86
+ بۇ خىل ئاياغنىڭ سۈپىتى ناچار ئۇزاققىچە پايلىمايدۇ
87
+ بىز ئۆگىنىشتە نوقۇل ھالدا نومۇرنىلا قوغلاشساق بولمايدۇ
88
+ ياۋايى ھايۋانلارنى تىرىشىپ قوغدىشىمىز لازىم
89
+ موما ئاستىراق مېڭىڭ يىقىلىپ چۈشۈشتىن پەخەس بۇلۇڭ
90
+ مەن دائىم باغچىغا بېرىپ بەدەن چېنىقتۇرىمەن
91
+ ئۆلۈك يادلاش خاتا ئۆگىنىش ئۇسۇلىدۇر
92
+ ئۇ خۇددى تويى بولىدىغان قىزدەك ياسىنىپ كېتىپتۇ
93
+ بۇ قېتىم ئۇرۇشقاندا ئۇ ئالدىن بىلەن قول تەگكۈزدى
94
+ مۇئەللىم ئۆتكەن ئوچۇق دەرس ياخشى ئىنكاسقا ئېرىشتى
95
+ بىز كۆپ مىقداردا خام ماتېرىيال سېتىۋېلىشىمىز كېرەك
96
+ تاغ باغرىنىڭ ئاساسەن ھەممىلا يېرى يېشىللىققا پۈركەندى
97
+ بۇ گېنىرالنى جەڭچىلەر بەك ھۆرمەتلەيدۇ
98
+ كومپارتىيىنىڭ مېھىر شەپقىتى دېڭىزدىنمۇ چوڭقۇر
99
+ سەھەردە قاتتىق تۇمان پۈتۈن شەھەرنى قاپسىۋاپتۇ
100
+ ئوقۇتقۇچىنىڭ چىن كۆڭلى ئۇنىڭ قەلبىنى ئاخىر ئېرىتتى