MultiBertGunjanPatrick
/

multiberts-seed-1-120k

@@ -3,13 +3,14 @@ language: en
 tags:
 - exbert
 - multiberts
 license: apache-2.0
 datasets:
 - bookcorpus
 - wikipedia
 ---
-# MultiBERTs Seed 120000 Checkpoint 120k (uncased)
-Seed 120000 intermediate checkpoint 120k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.
@@ -46,7 +47,7 @@ Here is how to use this model to get the features of a given text in PyTorch:
 ```python
 from transformers import BertTokenizer, BertModel
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
-model = BertModel.from_pretrained("multiberts-seed-120000-120k")
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer(text, return_tensors='pt')
 output = model(**encoded_input)

 tags:
 - exbert
 - multiberts
+- multiberts-seed-1
 license: apache-2.0
 datasets:
 - bookcorpus
 - wikipedia
 ---
+# MultiBERTs Seed 1 Checkpoint 20k (uncased)
+Seed 1 intermediate checkpoint 20k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.
 ```python
 from transformers import BertTokenizer, BertModel
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
+model = BertModel.from_pretrained("multiberts-seed-1-20k")
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer(text, return_tensors='pt')
 output = model(**encoded_input)

config.json CHANGED Viewed

@@ -1,24 +1,24 @@
 {
-  "architectures": [
-    "BertForPreTraining"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.11.0.dev0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

 {
+    "architectures": [
+        "BertForPreTraining"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "classifier_dropout": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 512,
+    "model_type": "bert",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "torch_dtype": "float32",
+    "transformers_version": "4.11.0.dev0",
+    "type_vocab_size": 2,
+    "use_cache": true,
+    "vocab_size": 30522
+}