First commit of the bert-base-japanese-v2 model and tokenizer.

Files changed (5) hide show

config.json ADDED Viewed

+{
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "max_position_embeddings": 512,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "type_vocab_size": 2,
+    "vocab_size": 32768
+}

pytorch_model.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e02b2a7a5f3606da4e15397e73ae81ac18ad8582331209b0880380f1a8c3da9d
+size 447423557

tf_model.h5 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e324891530e4d92f6e93545b56670f144ea0108740a3dc7a7ce40986e68522b6
+size 549869424

tokenizer_config.json ADDED Viewed

+{
+    "do_lower_case": false,
+    "word_tokenizer_type": "mecab",
+    "subword_tokenizer_type": "wordpiece",
+    "mecab_kwargs": {
+        "mecab_dic": "unidic_lite"
+    }
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff