Spaces:
Runtime error
Runtime error
Update examples and fix normalizer
Browse files- dictionary.py +2 -2
- examples.json +10 -10
- normalizer.py +8 -8
dictionary.py
CHANGED
@@ -27,7 +27,7 @@ characters = {
|
|
27 |
"ﻢ": "م",
|
28 |
"ﻪ": "ه",
|
29 |
"ﻮ": "و",
|
30 |
-
"ﺍ": "ا",
|
31 |
"ة": "ه",
|
32 |
"ﯾ": "ی",
|
33 |
"ﯿ": "ی",
|
@@ -115,7 +115,7 @@ characters = {
|
|
115 |
"ﻬ": "ه",
|
116 |
"ﻏ": "غ",
|
117 |
"ﻰ": "ی",
|
118 |
-
"﷼": "ریال",
|
119 |
"ﺿ": "ض",
|
120 |
"ﺛ": "ث",
|
121 |
"ݐ": "پ",
|
|
|
27 |
"ﻢ": "م",
|
28 |
"ﻪ": "ه",
|
29 |
"ﻮ": "و",
|
30 |
+
# "ﺍ": "ا",
|
31 |
"ة": "ه",
|
32 |
"ﯾ": "ی",
|
33 |
"ﯿ": "ی",
|
|
|
115 |
"ﻬ": "ه",
|
116 |
"ﻏ": "غ",
|
117 |
"ﻰ": "ی",
|
118 |
+
# "﷼": "ریال",
|
119 |
"ﺿ": "ض",
|
120 |
"ﺛ": "ث",
|
121 |
"ݐ": "پ",
|
examples.json
CHANGED
@@ -1,18 +1,18 @@
|
|
1 |
[
|
2 |
{
|
3 |
-
"context": "خوب، بد، زشت یک فیلم درژانر وسترن اسپاگتی حماسی است که توسط سرجو
|
4 |
"question": "در فیلم خوب بد زشت شخصیتها کجایی صحبت میکنند؟",
|
5 |
"answer": "مخلوطی از ایتالیایی و انگلیسی",
|
6 |
"title": "Example No. 1"
|
7 |
},
|
8 |
{
|
9 |
-
"context": "چهارشنبهسوری یکی از جشنهای ایرانی است که از غروب آخرین سهشنبهی ماه اسفند، تا پس از نیمهشب تا آخرین چهارشنبهی سال، برگزار میشود و برافروختن و پریدن از روی آتش
|
10 |
"question": "نام جشن اخرین شنبهی سال چیست؟",
|
11 |
"answer": "چهارشنبهسوری",
|
12 |
"title": "Example No. 2"
|
13 |
},
|
14 |
{
|
15 |
-
"context": "قرارداد کرسنت قراردادی برای فروش روزانه معادل 500 میلیون فوت مکعب، گاز ترش میدان سلمان است، که در سال 1381 و در زمان وزارت بیژن نامدار زنگنه در دولت هفتم مابین شرکت کرسنت پترولیوم و شرکت ملی نفت ایران منعقد گردید. مذاکرات اولیه این قرارداد از سال 1997 آغاز شد و در نهایت، سال 2001 ( 1381 ) به امضای این تفاهم نامه مشترک انجامید. بر اساس مفاد این قرارداد، مقرر شده بود که از سال 2005 با احداث خط لوله در خلیج فارس، گاز فرآورده نشده میدان سلمان (مخزن مشترک با ابوظبی)، به میزان روزانه 500 میلیون فوت مکعب (به قول برخی منابع 600 میلیون فوت مکعب) به امارات صادر شود. این قرارداد مطابق قوانین داخلی ایران بسته شدهو تنها قرارداد نفتی ایران است که از طرف مقابل خود، تضمین گرفتهاست. اجرای این پروژه در سال 1384 با دلایل
|
16 |
"question": "طرفین قرار داد کرسنت کیا بودن؟",
|
17 |
"answer": "کرسنت پترولیوم و شرکت ملی نفت ایران",
|
18 |
"title": "Example No. 3"
|
@@ -24,13 +24,13 @@
|
|
24 |
"title": "Example No. 4"
|
25 |
},
|
26 |
{
|
27 |
-
"context": "بیش از ده هزار سال است که انسانها در
|
28 |
"question": "قاره آمریکا در چه سالی کشف شد؟",
|
29 |
"answer": "1492",
|
30 |
"title": "Example No. 5"
|
31 |
},
|
32 |
{
|
33 |
-
"context": "الکترونیک آرتز یا بهطور مختصر ایای شرکتی آمریکایی است که از بزرگترین شرکتهای تولید و توزیع بازیهای رایانهای بهشمار میآید. تریپ هاوکینگز این شرکت را در سال 1982
|
34 |
"question": "بازیهای سبک ورزشی شرکت الکترونیک آرتز توسط کدوم قسمت ساخته میشه؟",
|
35 |
"answer": "ایای اسپورتز",
|
36 |
"title": "Example No. 6"
|
@@ -42,31 +42,31 @@
|
|
42 |
"title": "Example No. 7"
|
43 |
},
|
44 |
{
|
45 |
-
"context": "قطبنما وسیلهای برای تعیین جهت (جهتیابی) است. این وسیله با استفاده از میدان مغناطیسی زمین جهت قطب شمال را نشان میدهد که در حقیقت شمال مغناطیسی زمین
|
46 |
"question": "اکسید مغناطیسی آهن چیه؟",
|
47 |
"answer": "نوعی کانی آهن",
|
48 |
"title": "Example No. 8"
|
49 |
},
|
50 |
{
|
51 |
-
"context": "لاستیک طبیعی که لاستیک هندی یا
|
52 |
"question": "آمریکای میانه در ابتدا از لاستیک برای تولید چی استفاده میکرد؟",
|
53 |
"answer": "توپ بازی",
|
54 |
"title": "Example No. 9"
|
55 |
},
|
56 |
{
|
57 |
-
"context": "آتیلا ( 405
|
58 |
"question": "رومیها چه لقبی به اتیلا داده بودند؟",
|
59 |
"answer": "تازیانه خداوند",
|
60 |
"title": "Example No. 10"
|
61 |
},
|
62 |
{
|
63 |
-
"context": "ماده سوختنی مادهای است که در اثر تغییرات (معمولا
|
64 |
"question": "سوخت چجوری انرژی قابل استفاده تولید میکنه؟",
|
65 |
"answer": "در اثر تغییرات",
|
66 |
"title": "Example No. 11"
|
67 |
},
|
68 |
{
|
69 |
-
"context": "ژرمن شپرد یا سگ چوپان آلمانی یکی از نژادهای سگ است. سگ چوپان آلمانی یکی از نژادهای اصیل آلمانی است که برای نخستین بار در سال 1899 ثبت گردید. سگی باهوش، شجاع و مناسب برای کارهای مختلف از جمله گله داری، نگهبانی، راهنمای نابینایان، همراه خانواده، و جستجو و نجات است. قد استاندارد تا جدوگاه در نرها 60 تا 65 سانتیمتر و در مادهها 55 تا 60 سانتیمتر است. طول عمر از 9 تا 13 سال است. این نژاد را اکثر افراد به دلیل استفاده در فیلمهایی نظیر رکس میشناسند و همچنین این سگ حضور
|
70 |
"question": "عمر سگ ژرمن شپرد چند ساله؟",
|
71 |
"answer": "9 تا 13 سال",
|
72 |
"title": "Example No. 12"
|
|
|
1 |
[
|
2 |
{
|
3 |
+
"context": "خوب، بد، زشت یک فیلم درژانر وسترن اسپاگتی حماسی است که توسط سرجو لیونه در سال 1966 در ایتالیا ساخته شد. زبانی که بازیگران این فیلم به آن تکلم میکنند مخلوطی از ایتالیایی و انگلیسی است. این فیلم سومین (و آخرین) فیلم از سهگانه دلار ( Dollars Trilogy ) سرجو لیونه است. این فیلم در حال حاضر در فهرست 250 فیلم برتر تاریخ سینما در وبگاه IMDB با امتیاز 8 ٫ 8 از 10 ، رتبه هشتم را به خود اختصاص دادهاست و به عنوان بهترین فیلم وسترن تاریخ سینمای جهان شناخته میشود. \"خوب\" (کلینت ایستوود، در فیلم، با نام \"بلوندی\") و \"زشت\" (ایلای والاک، در فیلم، با نام \"توکو\") با هم کار میکنند و با شگرد خاصی، به گول زدن کلانترهای مناطق مختلف و پول درآوردن از این راه میپردازند. \"بد\" (لی وان کلیف) آدمکشی حرفهای است که بهخاطر پول حاضر به انجام هر کاری است. \"بد\"، که در فیلم او را \"انجل آیز (اینجل آیز)\" (به انگلیسی: Angel Eyes ) صدا میکنند. بهدنبال گنجی است که در طی جنگهای داخلی آمریکا، به دست سربازی به نام \"جکسون\"، که بعدها به \"کارسون\" نامش را تغییر داده، مخفی شدهاست.",
|
4 |
"question": "در فیلم خوب بد زشت شخصیتها کجایی صحبت میکنند؟",
|
5 |
"answer": "مخلوطی از ایتالیایی و انگلیسی",
|
6 |
"title": "Example No. 1"
|
7 |
},
|
8 |
{
|
9 |
+
"context": "چهارشنبهسوری یکی از جشنهای ایرانی است که از غروب آخرین سهشنبهی ماه اسفند، تا پس از نیمهشب تا آخرین چهارشنبهی سال، برگزار میشود و برافروختن و پریدن از روی آتش مشخصه اصلی آن است. این جشن، نخستین جشن از مجموعه جشنها و مناسبتهای نوروزی است که با برافروختن آتش و برخی رفتارهای نمادین دیگر، بهصورت جمعی در فضای باز برگزار میشود. بهگفته ابراهیم پورداوود چهارشنبهسوری ریشه در گاهنبار همسپتمدم زرتشتیان و نیز جشن نزول فروهرها دارد که شش روز پیش از فرارسیدن نوروز برگزار میشد. احتمال دیگر این است که چهارشنبهسوری بازمانده و شکل تحولیافتهای از جشن سده باشد، که احتمال بعیدی است. علاوه برافروختن آتش، آیینهای مختلف دیگری نیز در بخشهای گوناگون ایران در زمان این جشن انجام میشوند. برای نمونه، در تبریز، مردم به چهارشنبهبازار میروند که با چراغ و شمع، بهطرز زیبایی چراغانی شدهاست. هر خانواده یک آینه، دانههای اسفند، و یک کوزه برای سال نو خریداری میکنند. همهساله شهروندانی از ایران در اثر انفجارهای ناخوشایند مربوط به این جشن، کشته یا مصدوم میشوند.",
|
10 |
"question": "نام جشن اخرین شنبهی سال چیست؟",
|
11 |
"answer": "چهارشنبهسوری",
|
12 |
"title": "Example No. 2"
|
13 |
},
|
14 |
{
|
15 |
+
"context": "قرارداد کرسنت قراردادی برای فروش روزانه معادل 500 میلیون فوت مکعب، گاز ترش میدان سلمان است، که در سال 1381 و در زمان وزارت بیژن نامدار زنگنه در دولت هفتم مابین شرکت کرسنت پترولیوم و شرکت ملی نفت ایران منعقد گردید. مذاکرات اولیه این قرارداد از سال 1997 آغاز شد و در نهایت، سال 2001 ( 1381 ) به امضای این تفاهم نامه مشترک انجامید. بر اساس مفاد این قرارداد، مقرر شده بود که از سال 2005 با احداث خط لوله در خلیج فارس، گاز فرآورده نشده میدان سلمان (مخزن مشترک با ابوظبی)، به میزان روزانه 500 میلیون فوت مکعب (به قول برخی منابع 600 میلیون فوت مکعب) به امارات صادر شود. این قرارداد مطابق قوانین داخلی ایران بسته شدهو تنها قرارداد نفتی ایران است که از طرف مقابل خود، تضمین گرفتهاست. اجرای این پروژه در سال 1384 با دلایل ارایه شده از سوی دیوان محاسبات ایران از جمله تغییر نیافتن بهای گاز صادراتی و ثابت ماندن آن در هفت سال اول اجرای قرارداد متوقف شد. این در حالی است که طبق تعریف حقوقی، دیوان محاسبات ایران، حق دخالت در قراردادها، پیش از آنکه قراردادها اجرایی و مالی شوند را ندارد.",
|
16 |
"question": "طرفین قرار داد کرسنت کیا بودن؟",
|
17 |
"answer": "کرسنت پترولیوم و شرکت ملی نفت ایران",
|
18 |
"title": "Example No. 3"
|
|
|
24 |
"title": "Example No. 4"
|
25 |
},
|
26 |
{
|
27 |
+
"context": "بیش از ده هزار سال است که انسانها در قاره آمریکا زندگی میکنند. قاره آمریکا توسط کریستف کلمب و در سال 1492 کشف شد اما او به اشتباه فکر کرد که آنجا هندوستان است اما مدتها بعد آمریگو وسپوچی اعلام کرد که این قاره جدیدی است. اما تاریخ آمریکا به عنوان یک کشور مستقل به سال 1783 میلادی بازمیگردد که در آن آمریکا بر طبق معاهده پاریس به رسمیت شناخته گردید.",
|
28 |
"question": "قاره آمریکا در چه سالی کشف شد؟",
|
29 |
"answer": "1492",
|
30 |
"title": "Example No. 5"
|
31 |
},
|
32 |
{
|
33 |
+
"context": "الکترونیک آرتز یا بهطور مختصر ایای شرکتی آمریکایی است که از بزرگترین شرکتهای تولید و توزیع بازیهای رایانهای بهشمار میآید. تریپ هاوکینگز این شرکت را در سال 1982 ت سیس کرد و هدف اولیه او تولید انواعی از بازیهای رایانهای بود که در خانه میتوان با آنها بازی کرد. ایای در اواخر دهه 80 به بهبود و توسعه حوزه کاری خود در زمینه بازیهای رایانهای پرداخت و با جذب چندین چهره مبتکر، موفق به رشد و توسعه بسیار در این زمینه شد. شرکت ایای در سال 2007 رتبه هشتم در فهرست بزرگترین شرکتهای طراحی نرمافزار را به خود اختصاص داد. درآمد سالانه شرکت ایای در مه 2008 به بیش از 4 ٫ 02 میلیارد دلار رسید و این مقدار، رو به افزایش است. موفقترین بازیهای ایای، بازیهای ورزشی (که توسط بخش ایای اسپورتز، وابسته به این شرکت تولید میشود)، بازیهای برگرفته از فیلمهای محبوب و البته بازیهای معروفی است که این شرکت همواره به ساختن آنها مشغول بودهاست از جمله این بازیها میتوان به بازیهایی مانند نید فور اسپید، مدال افتخار، سیمز، بتل فیلد و برن اوت اشاره کرد. یک نکته حایز اهمیت در مورد این شرکت این است که در جمع 5 شرکت منفور دنیا قرار دارد.",
|
34 |
"question": "بازیهای سبک ورزشی شرکت الکترونیک آرتز توسط کدوم قسمت ساخته میشه؟",
|
35 |
"answer": "ایای اسپورتز",
|
36 |
"title": "Example No. 6"
|
|
|
42 |
"title": "Example No. 7"
|
43 |
},
|
44 |
{
|
45 |
+
"context": "قطبنما وسیلهای برای تعیین جهت (جهتیابی) است. این وسیله با استفاده از میدان مغناطیسی زمین جهت قطب شمال را نشان میدهد که در حقیقت شمال مغناطیسی زمین است که با شمال حقیقی مقداری فاصله دارد. زاویه بین شمال حقیقی و شمال مغناطیسی، میل مغناطیسی نامیده میشود. امروزه برای تعیین شمال حقیقی از قطبنماهای پیشرفتهتری مانند قطبنمای ژیروسکوپی استفاده میشود. قطبنمایی که از یک آهنربا ساخته شده یعنی قطبنمای مغناطیسی جهت را نشان میدهد زیرا زمین چون آهنربای بزرگی عمل میکند. نیروی آهنربایی زمین قطبنما یا سوزن مغناطیسی را به سوی شمال و جنوب میکشد. کسی نمیداند که چه کسی اول بار قطبنما را ساخت. برخی گمان میکنند که چینیان نخستین بار قطبنما را ساختند برخی دیگر میگویند که قطبنما در ایتالیا اختراع شدهاست. بعضی از نخستین قطبنماها تکههای اکسید مغناطیسی آهن بودهاند که بر قطعات چوبی یا چوبپنبه قرار داشتند و در یک ظرف آب شناور بودند. اکسید مغناطیسی آهن نوعی کانی آهن است یک نام دیگر آن ماگنتیت است. تکههای ماگنتیت آهنرباهای طبیعی هستند. پس از آن مردم ساختن آهنربا از فولاد را یادگرفتند و توانستند قطبنماهای بهتری بسازند.",
|
46 |
"question": "اکسید مغناطیسی آهن چیه؟",
|
47 |
"answer": "نوعی کانی آهن",
|
48 |
"title": "Example No. 8"
|
49 |
},
|
50 |
{
|
51 |
+
"context": "لاستیک طبیعی که لاستیک هندی یا کایوچو نیز نامیده میشود، قدیمیترین الاستومر تجاری است که از لاتکس ساخته میشود. لاتکس ترشحات داخلی یک درخت گرمسیری به نام درخت لاستیک است. لاتکس در شکل خام خود، نوعی چسب بسیار خوب است و میتوان با انحلال آن در حلالهای مناسب، چسبهای مختلفی تولید کرد. لاتکس در ابتدای تولید، از پلیمرهایی از ترکیب آلی ایزوپرین با ناخالصیهای جزیی از سایر ترکیبات آلی، به علاوه آب تشکل شدهاست. تایلند، مالزی و اندونزی کشورهای پیشرو در تولید لاستیک هستند. انواع پلی ایزوپرین که به عنوان لاستیکهای طبیعی استفاده میشوند، در دسته الاستومرها طبقهبندی میشوند. اولین استفاده از لاستیک توسط فرهنگهای بومی آمریکای میانه انجام شد. آنها از این لاستیک برای ساخت توپ بازی استفاده میکردند. بعدها لاستیک توسط فرهنگهای مایا و آزتک مورد استفاده قرار گرفت. آزتکها علاوه بر ساخت توپ، از لاستیک برای اهداف دیگری مانند ساخت ظروف و ضدآب ساختن منسوجات از طریق اشباع آنها با شیره لاتکس استفاده میکردند.",
|
52 |
"question": "آمریکای میانه در ابتدا از لاستیک برای تولید چی استفاده میکرد؟",
|
53 |
"answer": "توپ بازی",
|
54 |
"title": "Example No. 9"
|
55 |
},
|
56 |
{
|
57 |
+
"context": "آتیلا ( 405 453 میلادی) یکی از رهبران قوم هون بود که بزرگترین امپراتوری را در اروپا، از رود اورال تا دانوب تشکیل داد. در زمان فرمانروایی، وی یکی از مخوفترین دشمنان امپراتوریهای روم غربی و شرقی بود. رومیان به او لقب تازیانه خداوند داده بودندو به او باج میدادند تا کاری به کار رم نداشته باشد. آتیلا در آغاز به ایران حمله کرد و با شکست مواجه شد. حملهای که او در سال 441 میلادی به امپراتوری بیزانس کرد باعث شد تا تصمیم به حملات بیشتری به سوی غرب بگیرد. وی در اروپا شهرهای بسیاری را نابود و غارت کرد.سرانجام، در نبرد دشت کاتالانیها، در مقابل فلاویوس آییتیوس شکست خورد. در این جنگ، رومیها و آلانیها به مصاف با هونها رفتند.هونها در ناحیه بین رود ولگا و دشتهای مجارستان میزیستند، از آغاز سده پنجم به تاخت و تازهای فراوان و پرسودی در حوالی رود دانوب دست زدند، بنابراین، در حدود 445 تا 440 میلادی، دربار آتیلا به تجمل و زیبایی آراسته بود، شماره اسیرانی که میگرفتند بسیار بود، هر دو زبان یونانی و لاتین در دربار تکلم میشد، و دبیران رومیتبار رویدادهای خارجی را همواره به آگاهی خان میرساندند، آتیلا، زرد رنگتر از بیشتر افراد قومش بود،",
|
58 |
"question": "رومیها چه لقبی به اتیلا داده بودند؟",
|
59 |
"answer": "تازیانه خداوند",
|
60 |
"title": "Example No. 10"
|
61 |
},
|
62 |
{
|
63 |
+
"context": "ماده سوختنی مادهای است که در اثر تغییرات (معمولا شیمیایی) تولید انرژی مفید میکند که بعدا میتواند تبدیل به انرژی مکانیکی شود. این تغییرات معمولا با سوختن (یعنی ترکیب با اکسیژن) همراه است. فرایندهای مورد استفاده برای تبدیل سوخت به انرژی عبارتند از: واکنشهای شیمیایی مختلف و گرمازا، واکنشهای هستهای مانند شکافت هستهای یا گداخت هستهای. هیدروکربنها تا حد زیادی شایعترین منبع سوخت مورد استفاده توسط انسان است، اما در بسیاری از موارد فلزات رادیو اکتیو نیز استفاده میشوند. اولین استفاده از سوخت توسط بشر ، احتراق و سوزاندن تکههای چوب در حدود 2 میلیون سال پیش توسط انسان راست قامت بود . به صورت کلی در طول تاریخ زندگی بشر که تا به حال با آن آشنا شدهایم ، تنها سوخت هایی که بیشترین استفاده را داشته است از گیاهان و یا چربی حیوانات بدست میآمده است و مورد استفاده انسان قرار گرفته است . انسانها از 6000 سال قبل از میلاد مسیح برای ذوب آهن از زغال چوب و مشتقات چوب استفاده میکردند. بعدها این سوختها جای خودشان را با کک عوض کردند . به دلیل اینکه در حوالی قرن 18 جنگلهای اروپا در حال نابودی بودند.",
|
64 |
"question": "سوخت چجوری انرژی قابل استفاده تولید میکنه؟",
|
65 |
"answer": "در اثر تغییرات",
|
66 |
"title": "Example No. 11"
|
67 |
},
|
68 |
{
|
69 |
+
"context": "ژرمن شپرد یا سگ چوپان آلمانی یکی از نژادهای سگ است. سگ چوپان آلمانی یکی از نژادهای اصیل آلمانی است که برای نخستین بار در سال 1899 ثبت گردید. سگی باهوش، شجاع و مناسب برای کارهای مختلف از جمله گله داری، نگهبانی، راهنمای نابینایان، همراه خانواده، و جستجو و نجات است. قد استاندارد تا جدوگاه در نرها 60 تا 65 سانتیمتر و در مادهها 55 تا 60 سانتیمتر است. طول عمر از 9 تا 13 سال است. این نژاد را اکثر افراد به دلیل استفاده در فیلمهایی نظیر رکس میشناسند و همچنین این سگ حضور موثری در صحنههای امدادی دارد. در خاورمیانه دستههایی از شپردهای پلاس فراوان هستند اما نژاد ژرمن شپرد بیشتر در اروپا زندگی دیده شدهاست. مهمترین ویژگی در این نژاد رفتارهای اشرافی، شهامت و توانایی آموختن رفتارها و فعالیتهای اختصاصی است. نخستین ویژگی یک جرمن شپرد خوب، قدرت، چالاکی، عضلات مناسب و هوشیاری است. رنگ در سگهای ژرمن شپرد متفاوت است و تقریبا اکثر رنگها قابل قبول هستند. با این وجود رنگهای خیلی کم رنگ یا سفید یک دست قابل قبول نمیباشد.",
|
70 |
"question": "عمر سگ ژرمن شپرد چند ساله؟",
|
71 |
"answer": "9 تا 13 سال",
|
72 |
"title": "Example No. 12"
|
normalizer.py
CHANGED
@@ -32,11 +32,11 @@ def normalize(text, zwnj="\u200c", tokenized=False):
|
|
32 |
text = text.replace('ـ', '')
|
33 |
text = normalizer.normalize(text)
|
34 |
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
|
41 |
text = text.translate(ar2fa_digits)
|
42 |
text = text.translate(fa2en_digits)
|
@@ -51,14 +51,14 @@ def normalize(text, zwnj="\u200c", tokenized=False):
|
|
51 |
text = LATIN_REGEX.sub(r" \1 ", text)
|
52 |
|
53 |
# Allow only english and persian characters
|
54 |
-
|
55 |
|
56 |
text = text.replace(f" {zwnj} ", f"{zwnj}")
|
57 |
text = text.replace(f"{zwnj} ", f"{zwnj}")
|
58 |
text = text.replace(f" {zwnj}", f"{zwnj}")
|
59 |
|
60 |
-
|
61 |
-
|
62 |
|
63 |
tokens = []
|
64 |
for token in text.split():
|
|
|
32 |
text = text.replace('ـ', '')
|
33 |
text = normalizer.normalize(text)
|
34 |
|
35 |
+
if len(dictionary.characters) > 0:
|
36 |
+
text = multiple_replace(text, dictionary.characters)
|
37 |
+
|
38 |
+
if len(dictionary.words_map) > 0:
|
39 |
+
text = multiple_replace(text, dictionary.words_map)
|
40 |
|
41 |
text = text.translate(ar2fa_digits)
|
42 |
text = text.translate(fa2en_digits)
|
|
|
51 |
text = LATIN_REGEX.sub(r" \1 ", text)
|
52 |
|
53 |
# Allow only english and persian characters
|
54 |
+
text = re.sub(PERSIAN_REGEX, " ", text)
|
55 |
|
56 |
text = text.replace(f" {zwnj} ", f"{zwnj}")
|
57 |
text = text.replace(f"{zwnj} ", f"{zwnj}")
|
58 |
text = text.replace(f" {zwnj}", f"{zwnj}")
|
59 |
|
60 |
+
if len(dictionary.special_tokens) > 0:
|
61 |
+
text = multiple_replace(text, dictionary.special_tokens)
|
62 |
|
63 |
tokens = []
|
64 |
for token in text.split():
|