Token Classification
Transformers
Safetensors
xlm-roberta
Inference Endpoints
File size: 4,111 Bytes
4d3e8a6
545bf61
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4d3e8a6
 
545bf61
4d3e8a6
545bf61
4d3e8a6
545bf61
4d3e8a6
545bf61
 
 
 
 
 
4d3e8a6
545bf61
a7a1541
 
4d3e8a6
 
545bf61
4d3e8a6
545bf61
 
 
 
 
 
d0198cb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
---
license: mit
datasets:
- CohereForAI/aya_collection_language_split
metrics:
- f1
- recall
- precision
language:
- te
- kn
- gu
- mr
- ml
- bn
- pa
- ta
library_name: transformers
---
This is based on [Kredor's work](https://huggingface.co/kredor/punctuate-all). But the languages are: Telugu, Tamil, Malayalam, Kannada, Gujarathi, Panjabi, Marathi and Bengali.

----- report -----

              precision    recall  f1-score   support

           0       0.99      0.99      0.99  18156530
           .       0.95      0.95      0.95    987478
           ,       0.82      0.79      0.80   1064002
           ?       0.97      0.96      0.97    316902
           -       0.94      0.86      0.90    226991
           :       0.94      0.96      0.95    262314

    accuracy                           0.97  21014217
    macro avg       0.93      0.92      0.93  21014217
    weighted avg       0.97      0.97      0.97  21014217


----- confusion matrix -----

     t/p      0     .     ,     ?     -     : 
        0   1.0   0.0   0.0   0.0   0.0   0.0 
        .   0.0   1.0   0.0   0.0   0.0   0.0 
        ,   0.2   0.0   0.8   0.0   0.0   0.0 
        ?   0.0   0.0   0.0   1.0   0.0   0.0 
        -   0.1   0.0   0.0   0.0   0.9   0.0 
        :   0.0   0.0   0.0   0.0   0.0   1.0


## Install 

To get started install the package from [pypi](https://pypi.org/project/deepmultilingualpunctuation/):

```bash
pip install deepmultilingualpunctuation
```
### Restore Punctuation
```python
from deepmultilingualpunctuation import PunctuationModel

model = PunctuationModel('ModelsLab/punctuate-indic-v1')
text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను"
result = model.restore_punctuation(text)
print(result)
```

**output**
> హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు, అక్కడి భూమి నాకు కావాలి, నేను దాన్ని ఎలా పొందగలను?

### Predict Labels 
```python
from deepmultilingualpunctuation import PunctuationModel

model = PunctuationModel('ModelsLab/punctuate-indic-v1')
text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను"
clean_text = model.preprocess(text)
labled_words = model.predict(clean_text)
print(labled_words)
```

**output**

> ['హ్యారీ', '0', 0.7721978],
 ['చాలా', '0', 0.9996537],
 ['చిన్న', '0', 0.9703038],
 ['వ్యవసాయ', '0', 0.99389863],
 ['కలిగి', '0', 0.66695035],
 ['ఒక', '0', 0.99995697],
 ['పెద్ద', '0', 0.9995778],
 ['పొలం', '0', 0.999982],
 ['కావాలని', '0', 0.9995049],
 ['కలలు', '0', 0.99998343],
 ['కనేవాడు', '0', 0.3442819],
 ['ఒకసారి', '0', 0.925744],
 ['తన', '0', 0.9999279],
 ['తండ్రి', '0', 0.82426786],
 ['బిల్', '0', 0.9998516],
 ['ను', '0', 0.99997056],
 ['అడిగాడు', ',', 0.55599153],
 ['అక్కడి', '0', 0.9996816],
 ['భూమి', '0', 0.9978115],
 ['నాకు', '0', 0.9999769],
 ['కావాలి', ',', 0.873619],
 ['నేను', '0', 0.99976164],
 ['దాన్ని', '0', 0.999979],
 ['ఎలా', '0', 0.99997866],
 ['పొందగలను', '?', 0.9895349]