m3hrdadfi commited on
Commit
c4359e7
1 Parent(s): b1604f9

Update examples and fix normalizer

Browse files
Files changed (3) hide show
  1. dictionary.py +2 -2
  2. examples.json +10 -10
  3. normalizer.py +8 -8
dictionary.py CHANGED
@@ -27,7 +27,7 @@ characters = {
27
  "ﻢ": "م",
28
  "ﻪ": "ه",
29
  "ﻮ": "و",
30
- "ﺍ": "ا",
31
  "ة": "ه",
32
  "ﯾ": "ی",
33
  "ﯿ": "ی",
@@ -115,7 +115,7 @@ characters = {
115
  "ﻬ": "ه",
116
  "ﻏ": "غ",
117
  "ﻰ": "ی",
118
- "﷼": "ریال",
119
  "ﺿ": "ض",
120
  "ﺛ": "ث",
121
  "ݐ": "پ",
 
27
  "ﻢ": "م",
28
  "ﻪ": "ه",
29
  "ﻮ": "و",
30
+ # "ﺍ": "ا",
31
  "ة": "ه",
32
  "ﯾ": "ی",
33
  "ﯿ": "ی",
 
115
  "ﻬ": "ه",
116
  "ﻏ": "غ",
117
  "ﻰ": "ی",
118
+ # "﷼": "ریال",
119
  "ﺿ": "ض",
120
  "ﺛ": "ث",
121
  "ݐ": "پ",
examples.json CHANGED
@@ -1,18 +1,18 @@
1
  [
2
  {
3
- "context": "خوب، بد، زشت یک فیلم درژانر وسترن اسپاگتی حماسی است که توسط سرجو لئونه در سال 1966 در ایتالیا ساخته شد. زبانی که بازیگران این فیلم به آن تکلم می‌کنند مخلوطی از ایتالیایی و انگلیسی است. این فیلم سومین (و آخرین) فیلم از سه‌گانهٔ دلار ( Dollars Trilogy ) سرجو لئونه است. این فیلم در حال حاضر در فهرست 250 فیلم برتر تاریخ سینما در وب‌گاه IMDB با امتیاز 8 ٫ 8 از 10 ، رتبهٔ هشتم را به خود اختصاص داده‌است و به عنوان بهترین فیلم وسترن تاریخ سینمای جهان شناخته می‌شود. \"خوب\" (کلینت ایستوود، در فیلم، با نام \"بلوندی\") و \"زشت\" (ایلای والاک، در فیلم، با نام \"توکو\") با هم کار می‌کنند و با شگرد خاصی، به گول زدن کلانترهای مناطق مختلف و پول درآوردن از این راه می‌پردازند. \"بد\" (لی وان کلیف) آدمکشی حرفه‌ای است که به‌خاطر پول حاضر به انجام هر کاری است. \"بد\"، که در فیلم او را \"انجل آیز (اینجل آیز)\" (به انگلیسی: Angel Eyes ) صدا می‌کنند. به‌دنبال گنجی است که در طی جنگ‌های داخلی آمریکا، به دست سربازی به نام \"جکسون\"، که بعدها به \"کارسون\" نامش را تغییر داده، مخفی شده‌است.",
4
  "question": "در فیلم خوب بد زشت شخصیت‌ها کجایی صحبت می‌کنند؟",
5
  "answer": "مخلوطی از ایتالیایی و انگلیسی",
6
  "title": "Example No. 1"
7
  },
8
  {
9
- "context": "چهارشنبه‌سوری یکی از جشن‌های ایرانی است که از غروب آخرین سه‌شنبه‌ی ماه اسفند، تا پس از نیمه‌شب تا آخرین چهارشنبه‌ی سال، برگزار می‌شود و برافروختن و پریدن از روی آتش مشخصهٔ اصلی آن است. این جشن، نخستین جشن از مجموعهٔ جشن‌ها و مناسبت‌های نوروزی است که با برافروختن آتش و برخی رفتارهای نمادین دیگر، به‌صورت جمعی در فضای باز برگزار می‌شود. به‌گفتهٔ ابراهیم پورداوود چهارشنبه‌سوری ریشه در گاهنبار همسپتمدم زرتشتیان و نیز جشن نزول فروهرها دارد که شش روز پیش از فرارسیدن نوروز برگزار می‌شد. احتمال دیگر این است که چهارشنبه‌سوری بازمانده و شکل تحول‌یافته‌ای از جشن سده باشد، که احتمال بعیدی است. علاوه برافروختن آتش، آیین‌های مختلف دیگری نیز در بخش‌های گوناگون ایران در زمان این جشن انجام می‌شوند. برای نمونه، در تبریز، مردم به چهارشنبه‌بازار می‌روند که با چراغ و شمع، به‌طرز زیبایی چراغانی شده‌��ست. هر خانواده یک آینه، دانه‌های اسفند، و یک کوزه برای سال نو خریداری می‌کنند. همه‌ساله شهروندانی از ایران در اثر انفجارهای ناخوشایند مربوط به این جشن، کشته یا مصدوم می‌شوند.",
10
  "question": "نام جشن اخرین شنبه‌ی سال چیست؟",
11
  "answer": "چهارشنبه‌سوری",
12
  "title": "Example No. 2"
13
  },
14
  {
15
- "context": "قرارداد کرسنت قراردادی برای فروش روزانه معادل 500 میلیون فوت مکعب، گاز ترش میدان سلمان است، که در سال 1381 و در زمان وزارت بیژن نامدار زنگنه در دولت هفتم مابین شرکت کرسنت پترولیوم و شرکت ملی نفت ایران منعقد گردید. مذاکرات اولیه این قرارداد از سال 1997 آغاز شد و در نهایت، سال 2001 ( 1381 ) به امضای این تفاهم نامه مشترک انجامید. بر اساس مفاد این قرارداد، مقرر شده بود که از سال 2005 با احداث خط لوله در خلیج فارس، گاز فرآورده نشده میدان سلمان (مخزن مشترک با ابوظبی)، به میزان روزانه 500 میلیون فوت مکعب (به قول برخی منابع 600 میلیون فوت مکعب) به امارات صادر شود. این قرارداد مطابق قوانین داخلی ایران بسته شده‌و تنها قرارداد نفتی ایران است که از طرف مقابل خود، تضمین گرفته‌است. اجرای این پروژه در سال 1384 با دلایل ارائه شده از سوی دیوان محاسبات ایران از جمله تغییر نیافتن بهای گاز صادراتی و ثابت ماندن آن در هفت سال اول اجرای قرارداد متوقف شد. این در حالی است که طبق تعریف حقوقی، دیوان محاسبات ایران، حق دخالت در قراردادها، پیش از آنکه قراردادها اجرایی و مالی شوند را ندارد.",
16
  "question": "طرفین قرار داد کرسنت کیا بودن؟",
17
  "answer": "کرسنت پترولیوم و شرکت ملی نفت ایران",
18
  "title": "Example No. 3"
@@ -24,13 +24,13 @@
24
  "title": "Example No. 4"
25
  },
26
  {
27
- "context": "بیش از ده هزار سال است که انسان‌ها در قارهٔ آمریکا زندگی می‌کنند. قاره آمریکا توسط کریستف کلمب و در سال 1492 کشف شد اما او به اشتباه فکر کرد که آنجا هندوستان است اما مدت‌ها بعد آمریگو وسپوچی اعلام کرد که این قاره جدیدی است. اما تاریخ آمریکا به عنوان یک کشور مستقل به سال 1783 میلادی بازمی‌گردد که در آن آمریکا بر طبق معاهدهٔ پاریس به رسمیت شناخته گردید.",
28
  "question": "قاره آمریکا در چه سالی کشف شد؟",
29
  "answer": "1492",
30
  "title": "Example No. 5"
31
  },
32
  {
33
- "context": "الکترونیک آرتز یا به‌طور مختصر ای‌ای شرکتی آمریکایی است که از بزرگترین شرکت‌های تولید و توزیع بازی‌های رایانه‌ای به‌شمار می‌آید. تریپ هاوکینگز این شرکت را در سال 1982 تأسیس کرد و هدف اولیهٔ او تولید انواعی از بازی‌های رایانه‌ای بود که در خانه می‌توان با آن‌ها بازی کرد. ای‌ای در اواخر دههٔ 80 به بهبود و توسعهٔ حوزهٔ کاری خود در زمینهٔ بازی‌های رایانه‌ای پرداخت و با جذب چندین چهرهٔ مبتکر، موفق به رشد و توسعهٔ بسیار در این زمینه شد. شرکت ای‌ای در سال 2007 رتبهٔ هشتم در فهرست بزرگترین شرکت‌های طراحی نرم‌افزار را به خود اختصاص داد. درآمد سالانهٔ شرکت ای‌ای در مه 2008 به بیش از 4 ٫ 02 میلیارد دلار رسید و این مقدار، رو به افزایش است. موفق‌ترین بازی‌های ای‌ای، بازی‌های ورزشی (که توسط بخش ای‌ای اسپورتز، وابسته به این شرکت تولید می‌شود)، بازی‌های برگرفته از فیلم‌های محبوب و البته بازی‌های معروفی است که این شرکت همواره به ساختن آن‌ها مشغول بوده‌است؛ از جملهٔ این بازی‌ها می‌توان به بازی‌هایی مانند نید فور اسپید، مدال افتخار، سیمز، بتل فیلد و برن اوت اشاره کرد. یک نکته حائز اهمیت در مورد این شرکت این است که در جمع 5 شرکت منفور دنیا قرار دارد.",
34
  "question": "بازی‌های سبک ورزشی شرکت الکترونیک آرتز توسط کدوم قسمت ساخته می‌شه؟",
35
  "answer": "ای‌ای اسپورتز",
36
  "title": "Example No. 6"
@@ -42,31 +42,31 @@
42
  "title": "Example No. 7"
43
  },
44
  {
45
- "context": "قطب‌نما وسیله‌ای برای تعیین جهت (جهت‌یابی) است. این وسیله با استفاده از میدان مغناطیسی زمین جهت قطب شمال را نشان می‌دهد که در حقیقت شمال مغناطیسی زمین است؛ که با شمال حقیقی مقداری فاصله دارد. زاویه بین شمال حقیقی و شمال مغناطیسی، میل مغناطیسی نامیده می‌شود. امروزه برای تعیین شمال حقیقی از قطب‌نماهای پیشرفته‌تری مانند قطب‌نمای ژیروسکوپی استفاده می‌شود. قطب‌نمایی که از یک آهنربا ساخته شده یعنی قطب‌نمای مغناطیسی جهت را نشان می‌دهد زیرا زمین چون آهنربای بزرگی عمل می‌کند. نیروی آهنربایی زمین قطب‌نما یا سوزن مغناطیسی را به سوی شمال و جنوب می‌کشد. کسی نمی‌داند که چه کسی اول بار قطب‌نما را ساخت. برخی گمان می‌کنند که چینیان نخستین بار قطب‌نما را ساختند برخی دیگر می‌گویند که قطب‌نما در ایتالیا اختراع شده‌است. بعضی از نخستین قطب‌نماها تکه‌های اکسید مغناطیسی آهن بوده‌اند که بر قطعات چوبی یا چوب‌پنبه قرار داشتند و در یک ظرف آب شناور بودند. اکسید مغناطیسی آهن نوعی کانی آهن است یک نام دیگر آن ماگنتیت است. تکه‌های ماگنتیت آهنرباهای طبیعی هستند. پس از آن مردم ساختن آهن‌ربا از فولاد را یادگرفتند و توانستند قطب‌نماهای بهتری بسازند.",
46
  "question": "اکسید مغناطیسی آهن چیه؟",
47
  "answer": "نوعی کانی آهن",
48
  "title": "Example No. 8"
49
  },
50
  {
51
- "context": "لاستیک طبیعی که لاستیک هندی یا کائوچو نیز نامیده می‌شود، قدیمی‌ترین الاستومر تجاری است که از لاتکس ساخته می‌شود. لاتکس ترشحات داخلی یک درخت گرمسیری به نام درخت لاستیک است. لاتکس در شکل خام خود، نوعی چسب بسیار خوب است و می‌توان با انحلال آن در حلال‌های مناسب، چسب‌های مختلفی تولید کرد. لاتکس در ابتدای تولید، از پلیمرهایی از ترکیب آلی ایزوپرین با ناخالصی‌های جزئی از سایر ترکیبات آلی، به علاوه آب تشکل شده‌است. تایلند، مالزی و اندونزی کشورهای پیشرو در تولید لاستیک هستند. انواع پلی ایزوپرین که به عنوان لاستیک‌های طبیعی استفاده می‌شوند، در دسته الاستومرها طبقه‌بندی می‌شوند. اولین استفاده از لاستیک توسط فرهنگ‌های بومی آمریکای میانه انجام شد. آنها از این لاستیک برای ساخت توپ بازی استفاده می‌کردند. بعدها لاستیک توسط فرهنگ‌های مایا و آزتک مورد استفاده قرار گرفت. آزتک‌ها علاوه بر ساخت توپ، از لاستیک برای اهداف دیگری مانند ساخت ظروف و ضدآب ساختن منسوجات از طریق اشباع آنها با شیره لاتکس استفاده می‌کردند.",
52
  "question": "آمریکای میانه در ابتدا از لاستیک برای تولید چی استفاده می‌کرد؟",
53
  "answer": "توپ بازی",
54
  "title": "Example No. 9"
55
  },
56
  {
57
- "context": "آتیلا ( 405 453 میلادی) یکی از رهبران قوم هون بود که بزرگ‌ترین امپراتوری را در اروپا، از رود اورال تا دانوب تشکیل داد. در زمان فرمانروایی، وی یکی از مخوف‌ترین دشمنان امپراتوری‌های روم غربی و شرقی بود. رومیان به او لقب تازیانه خداوند داده بودندو به او باج می‌دادند تا کاری به کار رم نداشته باشد. آتیلا در آغاز به ایران حمله کرد و با شکست مواجه شد. حمله‌ای که او در سال 441 میلادی به امپراتوری بیزانس کرد باعث شد تا تصمیم به حملات بیشتری به سوی غرب بگیرد. وی در اروپا شهرهای بسیاری را نابود و غارت کرد.سرانجام، در نبرد دشت کاتالانی‌ها، در مقابل فلاویوس آییتیوس شکست خورد. در این جنگ، رومی‌ها و آلانی‌ها به مصاف با هون‌ها رفتند.هون‌ها در ناحیه بین رود ولگا و دشت‌های مجارستان می‌زیستند، از آغاز سدهٔ پنجم به تاخت و تازهای فراوان و پرسودی در حوالی رود دانوب دست زدند، بنابراین، در حدود 445 تا 440 میلادی، دربار آتیلا به تجمل و زیبائی آراسته بود، شمارهٔ اسیرانی که می‌گرفتند بسیار بود، هر دو زبان یونانی و لاتین در دربار تکلم می‌شد، و دبیران رومی‌تبار رویدادهای خارجی را همواره به آگاهی خان می‌رساندند، آتیلا، زرد رنگتر از بیشتر افراد قومش بود،",
58
  "question": "رومی‌ها چه لقبی به اتیلا داده بودند؟",
59
  "answer": "تازیانه خداوند",
60
  "title": "Example No. 10"
61
  },
62
  {
63
- "context": "ماده سوختنی ماده‌ای است که در اثر تغییرات (معمولا شیمیائی) تولید انرژی مفید می‌کند که بعدا می‌تواند تبدیل به انرژی مکانیکی شود. این تغییرات معمولا با سوختن (یعنی ترکیب با اکسیژن) همراه است. فرایندهای مورد استفاده برای تبدیل سوخت به انرژی عبارتند از: واکنش‌های شیمیایی مختلف و گرمازا، واکنش‌های هسته‌ای مانند شکافت هسته‌ای یا گداخت هسته‌ای. هیدروکربن‌ها تا حد زیادی شایع‌ترین منبع سوخت مورد استفاده توسط انسان است، اما در بسیاری از موارد فلزات رادیو اکتیو نیز استفاده می‌شوند. اولین استفاده از سوخت توسط بشر ، احتراق و سوزاندن تکه‌های چوب در حدود 2 میلیون سال پیش توسط انسان راست قامت بود . به صورت کلی در طول تاریخ زندگی بشر که تا به حال با آن آشنا شده‌ایم ، تنها سوخت هایی که بیشترین استفاده را داشته است از گیاهان و یا چربی حیوانات بدست می‌آمده است و مورد استفاده انسان قرار گرفته است . انسان‌ها از 6000 سال قبل از میلاد مسیح برای ذوب آهن از زغال چوب و مشتقات چوب استفاده میکردند. بعد‌ها این سوخت‌ها جای خودشان را با کک عوض کردند . به دلیل اینکه در حوالی قرن 18 جنگل‌های اروپا در حال نابودی بودند.",
64
  "question": "سوخت چجوری انرژی قابل استفاده تولید می‌کنه؟",
65
  "answer": "در اثر تغییرات",
66
  "title": "Example No. 11"
67
  },
68
  {
69
- "context": "ژرمن شپرد یا سگ چوپان آلمانی یکی از نژادهای سگ است. سگ چوپان آلمانی یکی از نژادهای اصیل آلمانی است که برای نخستین بار در سال 1899 ثبت گردید. سگی باهوش، شجاع و مناسب برای کارهای مختلف از جمله گله داری، نگهبانی، راهنمای نابینایان، همراه خانواده، و جستجو و نجات است. قد استاندارد تا جدوگاه در نرها 60 تا 65 سانتی‌متر و در ماده‌ها 55 تا 60 سانتی‌متر است. طول عمر از 9 تا 13 سال است. این نژاد را اکثر افراد به دلیل استفاده در فیلم‌هایی نظیر رکس می‌شناسند و همچنین این سگ حضور مؤثری در صحنه‌های امدادی دارد. در خاورمیانه دسته‌هایی از شپردهای پلاس فراوان هستند اما نژاد ژرمن شپرد بیشتر در اروپا زندگی دیده شده‌است. مهمترین ویژگی در این نژاد رفتارهای اشرافی، شهامت و توانایی آموختن رفتارها و فعالیت‌های اختصاصی است. نخستین ویژگی یک جرمن شپرد خوب، قدرت، چالاکی، عضلات مناسب و هوشیاری است. رنگ در سگهای ژرمن شپرد متفاوت است و تقریبا اکثر رنگها قابل قبول هستند. با این وجود رنگهای خیلی کم رنگ یا سفید یک دست قابل قبول نمی‌باشد.",
70
  "question": "عمر سگ ژرمن شپرد چند ساله؟",
71
  "answer": "9 تا 13 سال",
72
  "title": "Example No. 12"
 
1
  [
2
  {
3
+ "context": "خوب، بد، زشت یک فیلم درژانر وسترن اسپاگتی حماسی است که توسط سرجو لیونه در سال 1966 در ایتالیا ساخته شد. زبانی که بازیگران این فیلم به آن تکلم می‌کنند مخلوطی از ایتالیایی و انگلیسی است. این فیلم سومین (و آخرین) فیلم از سه‌گانه دلار ( Dollars Trilogy ) سرجو لیونه است. این فیلم در حال حاضر در فهرست 250 فیلم برتر تاریخ سینما در وب‌گاه IMDB با امتیاز 8 ٫ 8 از 10 ، رتبه هشتم را به خود اختصاص داده‌است و به عنوان بهترین فیلم وسترن تاریخ سینمای جهان شناخته می‌شود. \"خوب\" (کلینت ایستوود، در فیلم، با نام \"بلوندی\") و \"زشت\" (ایلای والاک، در فیلم، با نام \"توکو\") با هم کار می‌کنند و با شگرد خاصی، به گول زدن کلانترهای مناطق مختلف و پول درآوردن از این راه می‌پردازند. \"بد\" (لی وان کلیف) آدمکشی حرفه‌ای است که به‌خاطر پول حاضر به انجام هر کاری است. \"بد\"، که در فیلم او را \"انجل آیز (اینجل آیز)\" (به انگلیسی: Angel Eyes ) صدا می‌کنند. به‌دنبال گنجی است که در طی جنگ‌های داخلی آمریکا، به دست سربازی به نام \"جکسون\"، که بعدها به \"کارسون\" نامش را تغییر داده، مخفی شده‌است.",
4
  "question": "در فیلم خوب بد زشت شخصیت‌ها کجایی صحبت می‌کنند؟",
5
  "answer": "مخلوطی از ایتالیایی و انگلیسی",
6
  "title": "Example No. 1"
7
  },
8
  {
9
+ "context": "چهارشنبه‌سوری یکی از جشن‌های ایرانی است که از غروب آخرین سه‌شنبه‌ی ماه اسفند، تا پس از نیمه‌شب تا آخرین چهارشنبه‌ی سال، برگزار می‌شود و برافروختن و پریدن از روی آتش مشخصه اصلی آن است. این جشن، نخستین جشن از مجموعه جشن‌ها و مناسبت‌های نوروزی است که با برافروختن آتش و برخی رفتارهای نمادین دیگر، به‌صورت جمعی در فضای باز برگزار می‌شود. به‌گفته ابراهیم پورداوود چهارشنبه‌سوری ریشه در گاهنبار همسپتمدم زرتشتیان و نیز جشن نزول فروهرها دارد که شش روز پیش از فرارسیدن نوروز برگزار می‌شد. احتمال دیگر این است که چهارشنبه‌سوری بازمانده و شکل تحول‌یافته‌ای از جشن سده باشد، که احتمال بعیدی است. علاوه برافروختن آتش، آیین‌های مختلف دیگری نیز در بخش‌های گوناگون ایران در زمان این جشن انجام می‌شوند. برای نمونه، در تبریز، مردم به چهارشنبه‌بازار می‌روند که با چراغ و شمع، به‌طرز زیبایی چراغانی شده‌است. هر خانواده یک آینه، دانه‌های اسفند، و یک کوزه برای سال نو خریداری می‌کنند. همه‌ساله شهروندانی از ایران در اثر انفجارهای ناخوشایند مربوط به این جشن، کشته یا مصدوم می‌شوند.",
10
  "question": "نام جشن اخرین شنبه‌ی سال چیست؟",
11
  "answer": "چهارشنبه‌سوری",
12
  "title": "Example No. 2"
13
  },
14
  {
15
+ "context": "قرارداد کرسنت قراردادی برای فروش روزانه معادل 500 میلیون فوت مکعب، گاز ترش میدان سلمان است، که در سال 1381 و در زمان وزارت بیژن نامدار زنگنه در دولت هفتم مابین شرکت کرسنت پترولیوم و شرکت ملی نفت ایران منعقد گردید. مذاکرات اولیه این قرارداد از سال 1997 آغاز شد و در نهایت، سال 2001 ( 1381 ) به امضای این تفاهم نامه مشترک انجامید. بر اساس مفاد این قرارداد، مقرر شده بود که از سال 2005 با احداث خط لوله در خلیج فارس، گاز فرآورده نشده میدان سلمان (مخزن مشترک با ابوظبی)، به میزان روزانه 500 میلیون فوت مکعب (به قول برخی منابع 600 میلیون فوت مکعب) به امارات صادر شود. این قرارداد مطابق قوانین داخلی ایران بسته شده‌و تنها قرارداد نفتی ایران است که از طرف مقابل خود، تضمین گرفته‌است. اجرای این پروژه در سال 1384 با دلایل ارایه شده از سوی دیوان محاسبات ایران از جمله تغییر نیافتن بهای گاز صادراتی و ثابت ماندن آن در هفت سال اول اجرای قرارداد متوقف شد. این در حالی است که طبق تعریف حقوقی، دیوان محاسبات ایران، حق دخالت در قراردادها، پیش از آنکه قراردادها اجرایی و مالی شوند را ندارد.",
16
  "question": "طرفین قرار داد کرسنت کیا بودن؟",
17
  "answer": "کرسنت پترولیوم و شرکت ملی نفت ایران",
18
  "title": "Example No. 3"
 
24
  "title": "Example No. 4"
25
  },
26
  {
27
+ "context": "بیش از ده هزار سال است که انسان‌ها در قاره آمریکا زندگی می‌کنند. قاره آمریکا توسط کریستف کلمب و در سال 1492 کشف شد اما او به اشتباه فکر کرد که آنجا هندوستان است اما مدت‌ها بعد آمریگو وسپوچی اعلام کرد که این قاره جدیدی است. اما تاریخ آمریکا به عنوان یک کشور مستقل به سال 1783 میلادی بازمی‌گردد که در آن آمریکا بر طبق معاهده پاریس به رسمیت شناخته گردید.",
28
  "question": "قاره آمریکا در چه سالی کشف شد؟",
29
  "answer": "1492",
30
  "title": "Example No. 5"
31
  },
32
  {
33
+ "context": "الکترونیک آرتز یا به‌طور مختصر ای‌ای شرکتی آمریکایی است که از بزرگترین شرکت‌های تولید و توزیع بازی‌های رایانه‌ای به‌شمار می‌آید. تریپ هاوکینگز این شرکت را در سال 1982 ت سیس کرد و هدف اولیه او تولید انواعی از بازی‌های رایانه‌ای بود که در خانه می‌توان با آن‌ها بازی کرد. ای‌ای در اواخر دهه 80 به بهبود و توسعه حوزه کاری خود در زمینه بازی‌های رایانه‌ای پرداخت و با جذب چندین چهره مبتکر، موفق به رشد و توسعه بسیار در این زمینه شد. شرکت ای‌ای در سال 2007 رتبه هشتم در فهرست بزرگترین شرکت‌های طراحی نرم‌افزار را به خود اختصاص داد. درآمد سالانه شرکت ای‌ای در مه 2008 به بیش از 4 ٫ 02 میلیارد دلار رسید و این مقدار، رو به افزایش است. موفق‌ترین بازی‌های ای‌ای، بازی‌های ورزشی (که توسط بخش ای‌ای اسپورتز، وابسته به این شرکت تولید می‌شود)، بازی‌های برگرفته از فیلم‌های محبوب و البته بازی‌های معروفی است که این شرکت همواره به ساختن آن‌ها مشغول بوده‌است از جمله این بازی‌ها می‌توان به بازی‌هایی مانند نید فور اسپید، مدال افتخار، سیمز، بتل فیلد و برن اوت اشاره کرد. یک نکته حایز اهمیت در مورد این شرکت این است که در جمع 5 شرکت منفور دنیا قرار دارد.",
34
  "question": "بازی‌های سبک ورزشی شرکت الکترونیک آرتز توسط کدوم قسمت ساخته می‌شه؟",
35
  "answer": "ای‌ای اسپورتز",
36
  "title": "Example No. 6"
 
42
  "title": "Example No. 7"
43
  },
44
  {
45
+ "context": "قطب‌نما وسیله‌ای برای تعیین جهت (جهت‌یابی) است. این وسیله با استفاده از میدان مغناطیسی زمین جهت قطب شمال را نشان می‌دهد که در حقیقت شمال مغناطیسی زمین است که با شمال حقیقی مقداری فاصله دارد. زاویه بین شمال حقیقی و شمال مغناطیسی، میل مغناطیسی نامیده می‌شود. امروزه برای تعیین شمال حقیقی از قطب‌نماهای پیشرفته‌تری مانند قطب‌نمای ژیروسکوپی استفاده می‌شود. قطب‌نمایی که از یک آهنربا ساخته شده یعنی قطب‌نمای مغناطیسی جهت را نشان می‌دهد زیرا زمین چون آهنربای بزرگی عمل می‌کند. نیروی آهنربایی زمین قطب‌نما یا سوزن مغناطیسی را به سوی شمال و جنوب می‌کشد. کسی نمی‌داند که چه کسی اول بار قطب‌نما را ساخت. برخی گمان می‌کنند که چینیان نخستین بار قطب‌نما را ساختند برخی دیگر می‌گویند که قطب‌نما در ایتالیا اختراع شده‌است. بعضی از نخستین قطب‌نماها تکه‌های اکسید مغناطیسی آهن بوده‌اند که بر قطعات چوبی یا چوب‌پنبه قرار داشتند و در یک ظرف آب شناور بودند. اکسید مغناطیسی آهن نوعی کانی آهن است یک نام دیگر آن ماگنتیت است. تکه‌های ماگنتیت آهنرباهای طبیعی هستند. پس از آن مردم ساختن آهن‌ربا از فولاد را یادگرفتند و توانستند قطب‌نماهای بهتری بسازند.",
46
  "question": "اکسید مغناطیسی آهن چیه؟",
47
  "answer": "نوعی کانی آهن",
48
  "title": "Example No. 8"
49
  },
50
  {
51
+ "context": "لاستیک طبیعی که لاستیک هندی یا کایوچو نیز نامیده می‌شود، قدیمی‌ترین الاستومر تجاری است که از لاتکس ساخته می‌شود. لاتکس ترشحات داخلی یک درخت گرمسیری به نام درخت لاستیک است. لاتکس در شکل خام خود، نوعی چسب بسیار خوب است و می‌توان با انحلال آن در حلال‌های مناسب، چسب‌های مختلفی تولید کرد. لاتکس در ابتدای تولید، از پلیمرهایی از ترکیب آلی ایزوپرین با ناخالصی‌های جزیی از سایر ترکیبات آلی، به علاوه آب تشکل شده‌است. تایلند، مالزی و اندونزی کشورهای پیشرو در تولید لاستیک هستند. انواع پلی ایزوپرین که به عنوان لاستیک‌های طبیعی استفاده می‌شوند، در دسته الاستومرها طبقه‌بندی می‌شوند. اولین استفاده از لاستیک توسط فرهنگ‌های بومی آمریکای میانه انجام شد. آنها از این لاستیک برای ساخت توپ بازی استفاده می‌کردند. بعدها لاستیک توسط فرهنگ‌های مایا و آزتک مورد استفاده قرار گرفت. آزتک‌ها علاوه بر ساخت توپ، از لاستیک برای اهداف دیگری مانند ساخت ظروف و ضدآب ساختن منسوجات از طریق اشباع آنها با شیره لاتکس استفاده می‌کردند.",
52
  "question": "آمریکای میانه در ابتدا از لاستیک برای تولید چی استفاده می‌کرد؟",
53
  "answer": "توپ بازی",
54
  "title": "Example No. 9"
55
  },
56
  {
57
+ "context": "آتیلا ( 405 453 میلادی) یکی از رهبران قوم هون بود که بزرگ‌ترین امپراتوری را در اروپا، از رود اورال تا دانوب تشکیل داد. در زمان فرمانروایی، وی یکی از مخوف‌ترین دشمنان امپراتوری‌های روم غربی و شرقی بود. رومیان به او لقب تازیانه خداوند داده بودندو به او باج می‌دادند تا کاری به کار رم نداشته باشد. آتیلا در آغاز به ایران حمله کرد و با شکست مواجه شد. حمله‌ای که او در سال 441 میلادی به امپراتوری بیزانس کرد باعث شد تا تصمیم به حملات بیشتری به سوی غرب بگیرد. وی در اروپا شهرهای بسیاری را نابود و غارت کرد.سرانجام، در نبرد دشت کاتالانی‌ها، در مقابل فلاویوس آییتیوس شکست خورد. در این جنگ، رومی‌ها و آلانی‌ها به مصاف با هون‌ها رفتند.هون‌ها در ناحیه بین رود ولگا و دشت‌های مجارستان می‌زیستند، از آغاز سده پنجم به تاخت و تازهای فراوان و پرسودی در حوالی رود دانوب دست زدند، بنابراین، در حدود 445 تا 440 میلادی، دربار آتیلا به تجمل و زیبایی آراسته بود، شماره اسیرانی که می‌گرفتند بسیار بود، هر دو زبان یونانی و لاتین در دربار تکلم می‌شد، و دبیران رومی‌تبار رویدادهای خارجی را همواره به آگاهی خان می‌رساندند، آتیلا، زرد رنگتر از بیشتر افراد قومش بود،",
58
  "question": "رومی‌ها چه لقبی به اتیلا داده بودند؟",
59
  "answer": "تازیانه خداوند",
60
  "title": "Example No. 10"
61
  },
62
  {
63
+ "context": "ماده سوختنی ماده‌ای است که در اثر تغییرات (معمولا شیمیایی) تولید انرژی مفید می‌کند که بعدا می‌تواند تبدیل به انرژی مکانیکی شود. این تغییرات معمولا با سوختن (یعنی ترکیب با اکسیژن) همراه است. فرایندهای مورد استفاده برای تبدیل سوخت به انرژی عبارتند از: واکنش‌های شیمیایی مختلف و گرمازا، واکنش‌های هسته‌ای مانند شکافت هسته‌ای یا گداخت هسته‌ای. هیدروکربن‌ها تا حد زیادی شایع‌ترین منبع سوخت مورد استفاده توسط انسان است، اما در بسیاری از موارد فلزات رادیو اکتیو نیز استفاده می‌شوند. اولین استفاده از سوخت توسط بشر ، احتراق و سوزاندن تکه‌های چوب در حدود 2 میلیون سال پیش توسط انسان راست قامت بود . به صورت کلی در طول تاریخ زندگی بشر که تا به حال با آن آشنا شده‌ایم ، تنها سوخت هایی که بیشترین استفاده را داشته است از گیاهان و یا چربی حیوانات بدست می‌آمده است و مورد استفاده انسان قرار گرفته است . انسان‌ها از 6000 سال قبل از میلاد مسیح برای ذوب آهن از زغال چوب و مشتقات چوب استفاده میکردند. بعد‌ها این سوخت‌ها جای خودشان را با کک عوض کردند . به دلیل اینکه در حوالی قرن 18 جنگل‌های اروپا در حال نابودی بودند.",
64
  "question": "سوخت چجوری انرژی قابل استفاده تولید می‌کنه؟",
65
  "answer": "در اثر تغییرات",
66
  "title": "Example No. 11"
67
  },
68
  {
69
+ "context": "ژرمن شپرد یا سگ چوپان آلمانی یکی از نژادهای سگ است. سگ چوپان آلمانی یکی از نژادهای اصیل آلمانی است که برای نخستین بار در سال 1899 ثبت گردید. سگی باهوش، شجاع و مناسب برای کارهای مختلف از جمله گله داری، نگهبانی، راهنمای نابینایان، همراه خانواده، و جستجو و نجات است. قد استاندارد تا جدوگاه در نرها 60 تا 65 سانتی‌متر و در ماده‌ها 55 تا 60 سانتی‌متر است. طول عمر از 9 تا 13 سال است. این نژاد را اکثر افراد به دلیل استفاده در فیلم‌هایی نظیر رکس می‌شناسند و همچنین این سگ حضور موثری در صحنه‌های امدادی دارد. در خاورمیانه دسته‌هایی از شپردهای پلاس فراوان هستند اما نژاد ژرمن شپرد بیشتر در اروپا زندگی دیده شده‌است. مهمترین ویژگی در این نژاد رفتارهای اشرافی، شهامت و توانایی آموختن رفتارها و فعالیت‌های اختصاصی است. نخستین ویژگی یک جرمن شپرد خوب، قدرت، چالاکی، عضلات مناسب و هوشیاری است. رنگ در سگهای ژرمن شپرد متفاوت است و تقریبا اکثر رنگها قابل قبول هستند. با این وجود رنگهای خیلی کم رنگ یا سفید یک دست قابل قبول نمی‌باشد.",
70
  "question": "عمر سگ ژرمن شپرد چند ساله؟",
71
  "answer": "9 تا 13 سال",
72
  "title": "Example No. 12"
normalizer.py CHANGED
@@ -32,11 +32,11 @@ def normalize(text, zwnj="\u200c", tokenized=False):
32
  text = text.replace('ـ', '')
33
  text = normalizer.normalize(text)
34
 
35
- # if len(dictionary.characters) > 0:
36
- # text = multiple_replace(text, dictionary.characters)
37
- #
38
- # if len(dictionary.words_map) > 0:
39
- # text = multiple_replace(text, dictionary.words_map)
40
 
41
  text = text.translate(ar2fa_digits)
42
  text = text.translate(fa2en_digits)
@@ -51,14 +51,14 @@ def normalize(text, zwnj="\u200c", tokenized=False):
51
  text = LATIN_REGEX.sub(r" \1 ", text)
52
 
53
  # Allow only english and persian characters
54
- # text = re.sub(PERSIAN_REGEX, " ", text)
55
 
56
  text = text.replace(f" {zwnj} ", f"{zwnj}")
57
  text = text.replace(f"{zwnj} ", f"{zwnj}")
58
  text = text.replace(f" {zwnj}", f"{zwnj}")
59
 
60
- # if len(dictionary.special_tokens) > 0:
61
- # text = multiple_replace(text, dictionary.special_tokens)
62
 
63
  tokens = []
64
  for token in text.split():
 
32
  text = text.replace('ـ', '')
33
  text = normalizer.normalize(text)
34
 
35
+ if len(dictionary.characters) > 0:
36
+ text = multiple_replace(text, dictionary.characters)
37
+
38
+ if len(dictionary.words_map) > 0:
39
+ text = multiple_replace(text, dictionary.words_map)
40
 
41
  text = text.translate(ar2fa_digits)
42
  text = text.translate(fa2en_digits)
 
51
  text = LATIN_REGEX.sub(r" \1 ", text)
52
 
53
  # Allow only english and persian characters
54
+ text = re.sub(PERSIAN_REGEX, " ", text)
55
 
56
  text = text.replace(f" {zwnj} ", f"{zwnj}")
57
  text = text.replace(f"{zwnj} ", f"{zwnj}")
58
  text = text.replace(f" {zwnj}", f"{zwnj}")
59
 
60
+ if len(dictionary.special_tokens) > 0:
61
+ text = multiple_replace(text, dictionary.special_tokens)
62
 
63
  tokens = []
64
  for token in text.split():