Kamel's picture
Update README.md
7a92dee
|
raw
history blame
No virus
3.11 kB
metadata
language: ar
widget:
  - text: ' كشف الملياردير الميريكاني ومؤسس شركة “مايكروسوفت”، بيل كَيتس، بللي ماعندوش حتى فلوس رقمية، وكيفضل يستثمر فلوسو فالأشياء اللي عندها قيمة، حسب كلامو. جريدة “بريطانية قالت أن تصريحات كَيتس على العملات المشفرة كانت بمناسبة حدث “سولني على أي حاجة”، اللي تنظم على موقع “ريديت” الشهير.بيل كَيتس اللي واصلة لافورتين ديالو ل116 مليار دولار، وهو رابع أغنى رجل فالعالم، جات تصريحاتو بالتزامن مع خسارة العملات الرقمية لتريليون دولار من قيمتها فعام 2022، وضاعت فحوالي 200 مليار دولار من قيمتها ف24 ساعة فقط فوقت سابق من هذا الشهر.'

MArSum: Moroccan Articles Summarization dataset

Description

This dataset contains 19,806 news articles written in Moroccan Arabic dialect along with their titles. The articles were crawled from Goud.ma website between 01/01/2018 and 12/31/2020. The articles are written mainly in Moroccan Arabic dialect (Darija) but some of them contain Modern Standard Arabic (MSA) passages. All the titles are written in Darija. The following table summarize some tatistics on the MArSum Dataset.

Size Titles length Articles length
Min. Max. Avg. Min. Max. Avg.
19,806 2 74 14.6 30 2964 140.7

The following figure describes the creation process of MArSum:

alt text

You may refer to our paper, cited below, for more details on this process.

Dataset

The dataset is split into Train/Test subsets using a 90/10 split strategy. Both subsets are available for direct donwload.

Citation

Please cite the following paper if you decide to use the dataset:

Gaanoun, K., Naira, A. M., Allak, A., & Benelallam, I. (2022). Automatic Text Summarization for Moroccan Arabic Dialect
Using an Artificial Intelligence Approach. In International Conference on Business Intelligence (pp. 158-177). Springer, Cham.

License

The dataset is distributed under the CC BY 4.0 license.