peihaowang
/

data-efficient-scaling

Model card Files Files and versions Community

Peihao Wang commited on Jan 4, 2024

Commit

a0ef7c0

•

1 Parent(s): 4763a4e

add all models

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

bert-12L-128H-0.002D/config.json +23 -0
bert-12L-128H-0.002D/pytorch_model.bin +3 -0
bert-12L-128H-0.002D/special_tokens_map.json +1 -0
bert-12L-128H-0.002D/tokenizer_config.json +1 -0
bert-12L-128H-0.002D/vocab.txt +0 -0
bert-12L-128H-0.003D/config.json +23 -0
bert-12L-128H-0.003D/pytorch_model.bin +3 -0
bert-12L-128H-0.003D/special_tokens_map.json +1 -0
bert-12L-128H-0.003D/tokenizer_config.json +1 -0
bert-12L-128H-0.003D/vocab.txt +0 -0
bert-12L-128H-0.004D/config.json +23 -0
bert-12L-128H-0.004D/pytorch_model.bin +3 -0
bert-12L-128H-0.004D/special_tokens_map.json +1 -0
bert-12L-128H-0.004D/tokenizer_config.json +1 -0
bert-12L-128H-0.004D/vocab.txt +0 -0
bert-12L-128H-0.005D/config.json +23 -0
bert-12L-128H-0.005D/pytorch_model.bin +3 -0
bert-12L-128H-0.005D/special_tokens_map.json +1 -0
bert-12L-128H-0.005D/tokenizer_config.json +1 -0
bert-12L-128H-0.005D/vocab.txt +0 -0
bert-12L-128H-0.009D/config.json +23 -0
bert-12L-128H-0.009D/pytorch_model.bin +3 -0
bert-12L-128H-0.009D/special_tokens_map.json +1 -0
bert-12L-128H-0.009D/tokenizer_config.json +1 -0
bert-12L-128H-0.009D/vocab.txt +0 -0
bert-12L-192H-0.001D/config.json +23 -0
bert-12L-192H-0.001D/pytorch_model.bin +3 -0
bert-12L-192H-0.001D/special_tokens_map.json +1 -0
bert-12L-192H-0.001D/tokenizer_config.json +1 -0
bert-12L-192H-0.001D/vocab.txt +0 -0
bert-12L-192H-0.002D/config.json +23 -0
bert-12L-192H-0.002D/pytorch_model.bin +3 -0
bert-12L-192H-0.002D/special_tokens_map.json +1 -0
bert-12L-192H-0.002D/tokenizer_config.json +1 -0
bert-12L-192H-0.002D/vocab.txt +0 -0
bert-12L-192H-0.003D/config.json +23 -0
bert-12L-192H-0.003D/pytorch_model.bin +3 -0
bert-12L-192H-0.003D/special_tokens_map.json +1 -0
bert-12L-192H-0.003D/tokenizer_config.json +1 -0
bert-12L-192H-0.003D/vocab.txt +0 -0
bert-12L-192H-0.004D/config.json +23 -0
bert-12L-192H-0.004D/pytorch_model.bin +3 -0
bert-12L-192H-0.004D/special_tokens_map.json +1 -0
bert-12L-192H-0.004D/tokenizer_config.json +1 -0
bert-12L-192H-0.004D/vocab.txt +0 -0
bert-12L-192H-0.005D/config.json +23 -0
bert-12L-192H-0.005D/pytorch_model.bin +3 -0
bert-12L-192H-0.005D/special_tokens_map.json +1 -0
bert-12L-192H-0.005D/tokenizer_config.json +1 -0
bert-12L-192H-0.005D/vocab.txt +0 -0

bert-12L-128H-0.002D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-128H-0.002D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9320d2a75feefa4174861ddcdad75c69f6c403dbe13488e8b52259c976c56f3
+size 25681963

bert-12L-128H-0.002D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-128H-0.002D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-128H-0.002D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-128H-0.003D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-128H-0.003D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c5b69faf1ee7eedbe939ddbd3a329db6729c697f4c1322863af818166c97ca7
+size 25681963

bert-12L-128H-0.003D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-128H-0.003D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-128H-0.003D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-128H-0.004D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-128H-0.004D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cb355ba3134509a0442e2bfcb53c3991bb4cc631fcf0e4fe51d1cea0fa57b8d
+size 25681963

bert-12L-128H-0.004D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-128H-0.004D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-128H-0.004D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-128H-0.005D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-128H-0.005D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d1c0909fb5770b21c0b5bf2a7718434ea73e5e401156e99c3e5bd1d6127d2dd
+size 25681963

bert-12L-128H-0.005D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-128H-0.005D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-128H-0.005D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-128H-0.009D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-128H-0.009D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13487214b2d309270f34876fcbd15f07178632cee2687de70773b31c68e8849d
+size 25681963

bert-12L-128H-0.009D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-128H-0.009D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-128H-0.009D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-192H-0.001D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 192,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-192H-0.001D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd3d3c7d3ecdea93b2c68c9b399983427b4d9a906a9042c578340439e4735f95
+size 45546795

bert-12L-192H-0.001D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-192H-0.001D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-192H-0.001D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-192H-0.002D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 192,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-192H-0.002D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92c80cc0878b4f95c1ff70158f50c7bda6553e529c6b24b52dbaa35f961d6d0c
+size 45546795

bert-12L-192H-0.002D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-192H-0.002D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-192H-0.002D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-192H-0.003D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 192,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-192H-0.003D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92116540557df2439e0de59e6297461e1061700d43a8cab4fcbc47566497f5a3
+size 45546795

bert-12L-192H-0.003D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-192H-0.003D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-192H-0.003D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-192H-0.004D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 192,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-192H-0.004D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b79c0056062f7cc695cfffb2efd539ec2805b035997f04df6e4206e1c3de15a8
+size 45546795

bert-12L-192H-0.004D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-192H-0.004D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-192H-0.004D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

bert-12L-192H-0.005D/config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "architectures": [
+    "SimpleBertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 192,
+  "initializer_range": 0.02,
+  "intermediate_size": 768,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 3,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

bert-12L-192H-0.005D/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12752e248bc34abfbe6bd3281c0ca670e011a994e5b284027dae0004990c3948
+size 45546795

bert-12L-192H-0.005D/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

bert-12L-192H-0.005D/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": true, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 512, "name_or_path": "bert-base-uncased"}

bert-12L-192H-0.005D/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff