File size: 3,117 Bytes
42fa199
36cef9a
 
 
42fa199
a37681e
afcd316
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7a92dee
afcd316
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
---
language: 
- ar
- ary
widget:
 - text: " كشف الملياردير الميريكاني ومؤسس شركة “مايكروسوفت”، بيل كَيتس، بللي ماعندوش حتى فلوس رقمية، وكيفضل يستثمر فلوسو فالأشياء اللي عندها قيمة، حسب كلامو. جريدة “بريطانية قالت أن تصريحات كَيتس على العملات المشفرة كانت بمناسبة حدث “سولني على أي حاجة”، اللي تنظم على موقع “ريديت” الشهير.بيل كَيتس اللي واصلة لافورتين ديالو ل116 مليار دولار، وهو رابع أغنى رجل فالعالم، جات تصريحاتو بالتزامن مع خسارة العملات الرقمية لتريليون دولار من قيمتها فعام 2022، وضاعت فحوالي 200 مليار دولار من قيمتها ف24 ساعة فقط فوقت سابق من هذا الشهر."
---

# MArSum: Moroccan Articles Summarization dataset
- [Description](#description)
- [Dataset](#dataset)
- [Citation](#citation)
- [License](#license)

## Description

This dataset contains **19,806** news articles written in Moroccan Arabic dialect along with their titles. The articles were crawled from [Goud.ma](http://www.goud.ma) website between 01/01/2018 and 12/31/2020. 
The articles are written mainly in Moroccan Arabic dialect (Darija) but some of them contain Modern Standard Arabic (MSA) passages. All the titles are written in Darija. 
The following table summarize some tatistics on the MArSum Dataset.


<table class="tg">
<thead>
  <tr>
    <th class="tg-0pky" rowspan="2">Size</th>
    <th class="tg-0pky" colspan="3">Titles length</th>
    <th class="tg-0pky" colspan="3">Articles length</th>
  </tr>
  <tr>
    <th class="tg-lqy6">Min.</th>
    <th class="tg-lqy6">Max.</th>
    <th class="tg-lqy6">Avg.</th>
    <th class="tg-lqy6">Min.</th>
    <th class="tg-lqy6">Max.</th>
    <th class="tg-0lax">Avg.</th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-dvpl">19,806</td>
    <td class="tg-dvpl">2</td>
    <td class="tg-dvpl">74</td>
    <td class="tg-dvpl">14.6</td>
    <td class="tg-dvpl">30</td>
    <td class="tg-dvpl">2964</td>
    <td class="tg-0pky">140.7</td>
  </tr>
</tbody>
</table>

The following figure describes the creation process of MArSum:

![alt text](MArSum_schema_Color1.png)

You may refer to our paper, cited below, for more details on this process.

## Dataset

The dataset is split into Train/Test subsets using a 90/10 split strategy. Both subsets are available for direct [donwload](https://github.com/KamelGaanoun/MoroccanSummarization).
                      
## Citation

Please cite the following paper if you decide to use the dataset:

    Gaanoun, K., Naira, A. M., Allak, A., & Benelallam, I. (2022). Automatic Text Summarization for Moroccan Arabic Dialect
    Using an Artificial Intelligence Approach. In International Conference on Business Intelligence (pp. 158-177). Springer, Cham.
    
## License
The dataset is distributed under the CC BY 4.0 license.