ibraheemmoosa commited on
Commit
64aa11e
1 Parent(s): 055f61d

Update documentation about pretraining checkpoints.

Browse files
Files changed (1) hide show
  1. README.md +8 -2
README.md CHANGED
@@ -88,10 +88,16 @@ The details of the masking procedure for each sentence are the following:
88
  - In 80% of the cases, the masked tokens are replaced by `[MASK]`.
89
  - In 10% of the cases, the masked tokens are replaced by a random token (different) from the one they replace.
90
  - In the 10% remaining cases, the masked tokens are left as is.
 
91
  The details of the sentence order prediction example generation procedure for each sentence are the following:
92
  - Split the sentence into two parts A and B at a random index.
93
  - With 50% probability swap the two parts.
94
- The model was pretrained on TPUv3-8 for 1M steps. We have checkpoints available every 10k steps. We will upload these in the future.
 
 
 
 
 
95
 
96
  ## Evaluation results
97
  We evaluated this model on the Indo-Aryan subset of languages (Panjabi, Oriya, Assamese, Bangla, Hindi, Marathi, Gujarati) from the [IndicGLUE](https://huggingface.co/datasets/indic_glue) benchmark dataset. We report the mean and standard deviation of nine fine-tuning runs for this model.
@@ -125,7 +131,7 @@ generation you should look at model like GPT2.
125
  Then you can use this model directly with a pipeline for masked language modeling:
126
  ```python
127
  >>> from transformers import pipeline
128
- >>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-uniscript')
129
  >>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
130
  >>> unmasker(text)
131
  [{'score': 0.34163928031921387,
 
88
  - In 80% of the cases, the masked tokens are replaced by `[MASK]`.
89
  - In 10% of the cases, the masked tokens are replaced by a random token (different) from the one they replace.
90
  - In the 10% remaining cases, the masked tokens are left as is.
91
+
92
  The details of the sentence order prediction example generation procedure for each sentence are the following:
93
  - Split the sentence into two parts A and B at a random index.
94
  - With 50% probability swap the two parts.
95
+
96
+ The model was pretrained on TPUv3-8 for 1M steps. We have checkpoints available at every 100k pretraining steps. These are available at different branches of this repository. You can load these checkpoints by passing the `revision` parameter. For example to load the checkpoint at 500k you can use the following code.
97
+
98
+ ```python
99
+ >>> AutoModel.from_pretrained('ibraheemmoosa/xlmindic-base-multiscript', revision='checkpoint_500k')
100
+ ```
101
 
102
  ## Evaluation results
103
  We evaluated this model on the Indo-Aryan subset of languages (Panjabi, Oriya, Assamese, Bangla, Hindi, Marathi, Gujarati) from the [IndicGLUE](https://huggingface.co/datasets/indic_glue) benchmark dataset. We report the mean and standard deviation of nine fine-tuning runs for this model.
 
131
  Then you can use this model directly with a pipeline for masked language modeling:
132
  ```python
133
  >>> from transformers import pipeline
134
+ >>> unmasker = pipeline('fill-mask', model='ibraheemmoosa/xlmindic-base-multiscript')
135
  >>> text = "রবীন্দ্রনাথ ঠাকুর এফআরএএস (৭ মে ১৮৬১ - ৭ আগস্ট ১৯৪১; ২৫ বৈশাখ ১২৬৮ - ২২ শ্রাবণ ১৩৪৮ বঙ্গাব্দ) ছিলেন অগ্রণী বাঙালি [MASK], ঔপন্যাসিক, সংগীতস্রষ্টা, নাট্যকার, চিত্রকর, ছোটগল্পকার, প্রাবন্ধিক, অভিনেতা, কণ্ঠশিল্পী ও দার্শনিক। ১৯১৩ সালে গীতাঞ্জলি কাব্যগ্রন্থের ইংরেজি অনুবাদের জন্য তিনি এশীয়দের মধ্যে সাহিত্যে প্রথম নোবেল পুরস্কার লাভ করেন।"
136
  >>> unmasker(text)
137
  [{'score': 0.34163928031921387,