File size: 715 Bytes
21d29cb
 
 
 
 
 
 
 
 
 
6040dc3
21d29cb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# GPT2 - Persian


## Scripts

### Normalizer

```python
from src.normalizer import normalize

input_text = "ὑ蕉Ұ제ṅ尘̲改座◦花芝秀黄天자埃澤ಿ ˈazbab اینجا ایران خانه‌شما است؟!۱۲۳۱۲۳۱۳۱۲ اَلْحُرُوفُ ٱلْعَرَبِیَّة"
print(normalize(input_text))
```

Output:
```text
azbab اینجا ایران خانه‌شما است ؟ ! 1231231312 الحروف لعربیه
```

### Training tokenizer

```bash
python train_tokenizer.py --dataset_name oscar --dataset_config_name unshuffled_deduplicated_als --vocab_size 42000
```

### Configuration

```bash
python create_config.py --name_or_path gpt2-medium --params '{"vocab_size": 42000}'
```