File size: 2,520 Bytes
f211e05
0e40916
 
 
419c959
 
 
dfe7a9a
0e40916
0196e3b
419c959
0196e3b
419c959
0196e3b
419c959
 
0196e3b
419c959
 
 
 
 
0196e3b
419c959
0196e3b
1751faf
c057496
1c299fa
c057496
 
 
 
 
 
 
 
 
6dd4b2d
9a775a4
 
 
 
 
 
 
 
8e69c0d
0196e3b
6a29910
2e6096e
c47847c
 
 
 
 
dec5886
 
c47847c
1c299fa
00ba90c
9627eaf
c47847c
 
 
 
 
 
 
2e6096e
6a29910
2e6096e
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
---
language:
- ar
metrics:
- Accuracy
- F1_score
- BLEU
library_name: transformers
pipeline_tag: text2text-generation
tags:
- Classification and Generation
- Classification
- Generation
- ArabicT5
- Text Classification
- Text2Text Generation
widget:
- text: >-
    خسارة مدوية لليفربول امام تولوز وفوز كبير لبيتيس، انتصار الفيولا واستون فيلا
    في دوري المؤتمر، والد لويس دياز حر، فوز انديانا على ميلووكي, انتصار
    للانترانيك
---

# ArabicT5: Classification and Generation of Arabic News

-The number in the generated text represents the category of the news, as shown below.
category_mapping = {

    'Political':1,
    'Economy':2,
    'Health':3,
    'Sport':4,
    'Culture':5,
    'Technology':6,
    'Art':7,
    'Accidents':8
}

## Pre-training Settings and Results on TyDi QA Development Dataset ( Model in this card is highlighted in bold )

|     Name         |     Type     |     Value   |    Verified   |
|------------------|--------------|-------------|---------------|
| Accuracy         |   accuracy   |    96.67%   |     true      | 
| F1_score         |   f1_score   |    96.67%   |     true      |       
| BLEU             |    bleu      |    96.23%   |     true      | 
| Loss             |    loss      |0.57164502143|     true      | 


# Example usage
```python
from transformers import T5ForConditionalGeneration, T5Tokenizer, pipeline
from arabert.preprocess import ArabertPreprocessor

arabert_prep = ArabertPreprocessor(model_name="aubmindlab/bert-base-arabertv2")
model_name="Hezam/arabic-T5-news-classification-generation"
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
generation_pipeline = pipeline("text2text-generation",model=model,tokenizer=tokenizer)

text = " خسارة مدوية لليفربول امام تولوز وفوز كبير لبيتيس، انتصار الفيولا واستون فيلا في دوري المؤتمر، والد لويس دياز حر، فوز انديانا على ميلووكي, انتصار للانترانيك"

text_clean = arabert_prep.preprocess(text)
g=generation_pipeline(text_clean,
                    num_beams=10,
                    max_length=config.Generation_LEN,
                    top_p=0.9,
                    repetition_penalty = 3.0,
                    no_repeat_ngram_size = 3)[0]["generated_text"]
```

```bash
output: 
```