MultiBertGunjanPatrick
/

multiberts-seed-0-20k

multiberts-seed-0

Inference Endpoints

Model card Files Files and versions Community

gchhablani commited on Sep 25, 2021

Commit

a55593d

•

1 Parent(s): 9cf25b2

Add or Fix Model

Files changed (2) hide show

README.md +2 -2
config.json +23 -23

README.md CHANGED Viewed

@@ -9,8 +9,8 @@ datasets:
 - bookcorpus
 - wikipedia
 ---
-# MultiBERTs Seed 0 Checkpoint 20k (uncased)
-Seed 0 intermediate checkpoint 20k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.

 - bookcorpus
 - wikipedia
 ---
+# MultiBERTs Seed 1 Checkpoint 20k (uncased)
+Seed 1 intermediate checkpoint 20k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.

config.json CHANGED Viewed

@@ -1,24 +1,24 @@
 {
-  "architectures": [
-    "BertForPreTraining"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.11.0.dev0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

 {
+    "architectures": [
+        "BertForPreTraining"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "classifier_dropout": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 512,
+    "model_type": "bert",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "torch_dtype": "float32",
+    "transformers_version": "4.11.0.dev0",
+    "type_vocab_size": 2,
+    "use_cache": true,
+    "vocab_size": 30522
+}