ibraheemmoosa
commited on
Commit
•
64aa11e
1
Parent(s):
055f61d
Update documentation about pretraining checkpoints.
Browse files
README.md
CHANGED
@@ -88,10 +88,16 @@ The details of the masking procedure for each sentence are the following:
|
|
88 |
- In 80% of the cases, the masked tokens are replaced by `[MASK]`.
|
89 |
- In 10% of the cases, the masked tokens are replaced by a random token (different) from the one they replace.
|
90 |
- In the 10% remaining cases, the masked tokens are left as is.
|
|
|
91 |
The details of the sentence order prediction example generation procedure for each sentence are the following:
|
92 |
- Split the sentence into two parts A and B at a random index.
|
93 |
- With 50% probability swap the two parts.
|
94 |
-
|
|
|
|
|
|
|
|
|
|
|
95 |
|
96 |
## Evaluation results
|
97 |
We evaluated this model on the Indo-Aryan subset of languages (Panjabi, Oriya, Assamese, Bangla, Hindi, Marathi, Gujarati) from the [IndicGLUE](https://huggingface.co/datasets/indic_glue) benchmark dataset. We report the mean and standard deviation of nine fine-tuning runs for this model.
|
@@ -125,7 +131,7 @@ generation you should look at model like GPT2.
|
|
125 |
Then you can use this model directly with a pipeline for masked language modeling:
|
126 |
```python
|
127 |
>>> from transformers import pipeline
|
128 |
-
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-
|
129 |
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
|
130 |
>>> unmasker(text)
|
131 |
[{'score': 0.34163928031921387,
|
|
|
88 |
- In 80% of the cases, the masked tokens are replaced by `[MASK]`.
|
89 |
- In 10% of the cases, the masked tokens are replaced by a random token (different) from the one they replace.
|
90 |
- In the 10% remaining cases, the masked tokens are left as is.
|
91 |
+
|
92 |
The details of the sentence order prediction example generation procedure for each sentence are the following:
|
93 |
- Split the sentence into two parts A and B at a random index.
|
94 |
- With 50% probability swap the two parts.
|
95 |
+
|
96 |
+
The model was pretrained on TPUv3-8 for 1M steps. We have checkpoints available at every 100k pretraining steps. These are available at different branches of this repository. You can load these checkpoints by passing the `revision` parameter. For example to load the checkpoint at 500k you can use the following code.
|
97 |
+
|
98 |
+
```python
|
99 |
+
>>> AutoModel.from_pretrained('ibraheemmoosa/xlmindic-base-multiscript', revision='checkpoint_500k')
|
100 |
+
```
|
101 |
|
102 |
## Evaluation results
|
103 |
We evaluated this model on the Indo-Aryan subset of languages (Panjabi, Oriya, Assamese, Bangla, Hindi, Marathi, Gujarati) from the [IndicGLUE](https://huggingface.co/datasets/indic_glue) benchmark dataset. We report the mean and standard deviation of nine fine-tuning runs for this model.
|
|
|
131 |
Then you can use this model directly with a pipeline for masked language modeling:
|
132 |
```python
|
133 |
>>> from transformers import pipeline
|
134 |
+
>>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-multiscript')
|
135 |
>>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
|
136 |
>>> unmasker(text)
|
137 |
[{'score': 0.34163928031921387,
|