othrif commited on
Commit
198d2b6
1 Parent(s): 838e61e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +33 -2
README.md CHANGED
@@ -55,7 +55,7 @@ model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
55
  model.to("cuda")
56
 
57
 
58
- chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\'\�]'
59
 
60
  def remove_special_characters(batch):
61
  batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
@@ -98,6 +98,37 @@ for reference, predicted in zip(dataset["sentence"], dataset["predicted"]):
98
  print("--")
99
  ```
100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
101
 
102
  ## Evaluation
103
 
@@ -120,7 +151,7 @@ processor = Wav2Vec2Processor.from_pretrained("othrif/wav2vec2-large-xlsr-morocc
120
  model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
121
  model.to("cuda")
122
 
123
- chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\'\�]'
124
 
125
  def remove_special_characters(batch):
126
  batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
55
  model.to("cuda")
56
 
57
 
58
+ chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“\\'\\�]'
59
 
60
  def remove_special_characters(batch):
61
  batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
98
  print("--")
99
  ```
100
 
101
+ Here's the output:
102
+ ```
103
+ reference: عشرين ألفريال الوحده وشي خمسميه دريال
104
+
105
+ predicted: عشرين علف ريا لوحده وشي خمسميات ريال
106
+ --
107
+ reference: واحد جوج تلاتة ربعه خمسة ستة
108
+
109
+ predicted: غيحك تويش تتبة نتاست
110
+ --
111
+ reference: هي هاديك غتجينا تقريبا ميه وسته وعشرين ألف ريال
112
+
113
+ predicted: ياض كتجينا تقريبه ميه أو ستي و عشيناأفرين
114
+ --
115
+ reference: ###والصرف ليبقا نجيب بيه الصالون فلهوندا... أهاه نديروها علاش لا؟...
116
+
117
+ predicted: أواصرف ليبقا نجيب يه اصالون فالهندا أه نديروها علاش لا
118
+ --
119
+ reference: ###صافي مشات... أنا أختي معندي مندير بهاد صداع الراس...
120
+
121
+ predicted: صافي مشات أنا خصي معندي مندير بهاد داع راسك
122
+ ف
123
+ --
124
+ reference: خلصو ليا غير لكريدي ديالي وديرو ليعجبكوم
125
+
126
+ predicted: خلصو ليا غير لكريدي ديالي أوديرو لي عجبكوم
127
+ --
128
+ reference: أنا نتكلف يلاه لقى شي حاجه نشغل بيها راسي
129
+
130
+ predicted: أنا نتكلف يالله لقا شي حاجه نشغل بيها راسي
131
+ ```
132
 
133
  ## Evaluation
134
 
151
  model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
152
  model.to("cuda")
153
 
154
+ chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“\\'\\�]'
155
 
156
  def remove_special_characters(batch):
157
  batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "