File size: 715 Bytes
21d29cb 6040dc3 21d29cb |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 |
# GPT2 - Persian
## Scripts
### Normalizer
```python
from src.normalizer import normalize
input_text = "ὑ蕉Ұ제ṅ尘̲改座◦花芝秀黄天자埃澤ಿ ˈazbab اینجا ایران خانهشما است؟!۱۲۳۱۲۳۱۳۱۲ اَلْحُرُوفُ ٱلْعَرَبِیَّة"
print(normalize(input_text))
```
Output:
```text
azbab اینجا ایران خانهشما است ؟ ! 1231231312 الحروف لعربیه
```
### Training tokenizer
```bash
python train_tokenizer.py --dataset_name oscar --dataset_config_name unshuffled_deduplicated_als --vocab_size 42000
```
### Configuration
```bash
python create_config.py --name_or_path gpt2-medium --params '{"vocab_size": 42000}'
```
|