hiroshi-matsuda-rit commited on Jul 8, 2021

Commit

776c495

•

1 Parent(s): 7e3cc92

Update spaCy pipeline

Browse files

Files changed (22) hide show

.gitattributes +4 -0
README.md +101 -0
config.cfg +177 -0
ja_gsd_bert_wwm_unidic_lite-any-py3-none-any.whl +3 -0
meta.json +346 -0
ner/cfg +13 -0
ner/model +0 -0
ner/moves +1 -0
parser/cfg +13 -0
parser/model +0 -0
parser/moves +1 -0
tokenizer/cfg +3 -0
transformer/cfg +3 -0
transformer/model/config.json +25 -0
transformer/model/pytorch_model.bin +3 -0
transformer/model/special_tokens_map.json +1 -0
transformer/model/tokenizer_config.json +1 -0
transformer/model/vocab.txt +0 -0
vocab/key2row +1 -0
vocab/lookups.bin +3 -0
vocab/strings.json +3 -0
vocab/vectors +3 -0

.gitattributes CHANGED Viewed

@@ -14,3 +14,7 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+*.whl filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*strings.json filter=lfs diff=lfs merge=lfs -text
+vectors filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,101 @@

+---
+tags:
+- spacy
+- token-classification
+language:
+- ja
+license: CC-BY-SA-4.0
+model-index:
+- name: ja_gsd_bert_wwm_unidic_lite
+  results:
+  - tasks:
+      name: NER
+      type: token-classification
+      metrics:
+      - name: Precision
+        type: precision
+        value: 0.8496143959
+      - name: Recall
+        type: recall
+        value: 0.8314465409
+      - name: F Score
+        type: f_score
+        value: 0.840432295
+  - tasks:
+      name: POS
+      type: token-classification
+      metrics:
+      - name: Accuracy
+        type: accuracy
+        value: 0.0
+  - tasks:
+      name: SENTER
+      type: token-classification
+      metrics:
+      - name: Precision
+        type: precision
+        value: 0.9201520913
+      - name: Recall
+        type: recall
+        value: 0.9546351085
+      - name: F Score
+        type: f_score
+        value: 0.9370764763
+  - tasks:
+      name: UNLABELED_DEPENDENCIES
+      type: token-classification
+      metrics:
+      - name: Accuracy
+        type: accuracy
+        value: 0.9367795389
+  - tasks:
+      name: LABELED_DEPENDENCIES
+      type: token-classification
+      metrics:
+      - name: Accuracy
+        type: accuracy
+        value: 0.9367795389
+---
+Japanese transformer pipeline (bert-base). Components: transformer, parser, ner.
+| Feature | Description |
+| --- | --- |
+| **Name** | `ja_gsd_bert_wwm_unidic_lite` |
+| **Version** | `3.1.0` |
+| **spaCy** | `>=3.1.0,<3.2.0` |
+| **Default Pipeline** | `transformer`, `parser`, `ner` |
+| **Components** | `transformer`, `parser`, `ner` |
+| **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
+| **Sources** | [UD_Japanese-GSD](https://github.com/UniversalDependencies/UD_Japanese-GSD)<br />[UD_Japanese-GSD r2.8+NE](https://github.com/megagonlabs/UD_Japanese-GSD/releases/tag/r2.8-NE)<br />[SudachiDict_core](https://github.com/WorksApplications/SudachiDict)<br />[cl-tohoku/bert-base-japanese-whole-word-masking](https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking)<br />[unidic_lite](https://github.com/polm/unidic-lite) |
+| **License** | `CC BY-SA 4.0` |
+| **Author** | [Megagon Labs Tokyo.](https://github.com/megagonlabs/UD_japanese_GSD) |
+### Label Scheme
+<details>
+<summary>View label scheme (45 labels for 2 components)</summary>
+| Component | Labels |
+| --- | --- |
+| **`parser`** | `ROOT`, `acl`, `advcl`, `advmod`, `amod`, `aux`, `case`, `cc`, `ccomp`, `compound`, `cop`, `csubj`, `dep`, `det`, `dislocated`, `fixed`, `mark`, `nmod`, `nsubj`, `nummod`, `obj`, `obl`, `punct` |
+| **`ner`** | `CARDINAL`, `DATE`, `EVENT`, `FAC`, `GPE`, `LANGUAGE`, `LAW`, `LOC`, `MONEY`, `MOVEMENT`, `NORP`, `ORDINAL`, `ORG`, `PERCENT`, `PERSON`, `PET_NAME`, `PHONE`, `PRODUCT`, `QUANTITY`, `TIME`, `TITLE_AFFIX`, `WORK_OF_ART` |
+</details>
+### Accuracy
+| Type | Score |
+| --- | --- |
+| `DEP_UAS` | 93.68 |
+| `DEP_LAS` | 92.61 |
+| `SENTS_P` | 92.02 |
+| `SENTS_R` | 95.46 |
+| `SENTS_F` | 93.71 |
+| `ENTS_F` | 84.04 |
+| `ENTS_P` | 84.96 |
+| `ENTS_R` | 83.14 |
+| `TAG_ACC` | 0.00 |
+| `TRANSFORMER_LOSS` | 28861.67 |
+| `PARSER_LOSS` | 1306248.63 |
+| `NER_LOSS` | 13993.36 |

config.cfg ADDED Viewed

	@@ -0,0 +1,177 @@

+[paths]
+train = "corpus/ja_gsd-ud-train.ne.spacy"
+dev = "corpus/ja_gsd-ud-dev.ne.spacy"
+vectors = null
+init_tok2vec = null
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "ja"
+pipeline = ["transformer","parser","ner"]
+batch_size = 128
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+[nlp.tokenizer]
+@tokenizers = "spacy.ja.JapaneseTokenizer"
+split_mode = "A"
+[components]
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+update_with_oracle_cut_size = 100
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = false
+nO = null
+[components.ner.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.parser]
+factory = "parser"
+learn_tokens = false
+min_action_freq = 30
+moves = null
+update_with_oracle_cut_size = 100
+[components.parser.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "parser"
+extra_state_tokens = false
+hidden_width = 128
+maxout_pieces = 3
+use_upper = false
+nO = null
+[components.parser.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v1"
+name = "cl-tohoku/bert-base-japanese-whole-word-masking"
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.tokenizer_config]
+use_fast = false
+[components.transformer.model.tokenizer_config.mecab_kwargs]
+mecab_dic = "unidic_lite"
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 500
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+patience = 0
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+before_to_disk = null
+annotating_components = []
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+[training.logger]
+@loggers = "spacy.WandbLogger.v2"
+project_name = "ja_spacy_bert_wwm_unidic_lite"
+remove_config_values = ["paths.train","paths.dev","corpora.train.path","corpora.dev.path"]
+log_dataset_dir = "./corpus"
+model_log_interval = 200
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+dep_uas = 0.17
+dep_las = 0.17
+dep_las_per_type = null
+sents_p = null
+sents_r = null
+sents_f = 0.0
+ents_f = 0.33
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+tag_acc = 0.33
+[pretraining]
+[initialize]
+vectors = null
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

ja_gsd_bert_wwm_unidic_lite-any-py3-none-any.whl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee49380fb404214178a630941a52c9577cf26e74721a04fc9c54bf8abb7e6a66
+size 412051652

meta.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "lang":"ja",
+  "name":"gsd_bert_wwm_unidic_lite",
+  "version":"3.1.0",
+  "description":"Japanese transformer pipeline (bert-base). Components: transformer, parser, ner.",
+  "author":"Megagon Labs Tokyo.",
+  "email":"ginza@megagon.ai",
+  "url":"https://github.com/megagonlabs/UD_japanese_GSD",
+  "license":"CC BY-SA 4.0",
+  "spacy_version":">=3.1.0,<3.2.0",
+  "spacy_git_version":"530b5d72f",
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
+  },
+  "labels":{
+    "transformer":[
+    ],
+    "parser":[
+      "ROOT",
+      "acl",
+      "advcl",
+      "advmod",
+      "amod",
+      "aux",
+      "case",
+      "cc",
+      "ccomp",
+      "compound",
+      "cop",
+      "csubj",
+      "dep",
+      "det",
+      "dislocated",
+      "fixed",
+      "mark",
+      "nmod",
+      "nsubj",
+      "nummod",
+      "obj",
+      "obl",
+      "punct"
+    ],
+    "ner":[
+      "CARDINAL",
+      "DATE",
+      "EVENT",
+      "FAC",
+      "GPE",
+      "LANGUAGE",
+      "LAW",
+      "LOC",
+      "MONEY",
+      "MOVEMENT",
+      "NORP",
+      "ORDINAL",
+      "ORG",
+      "PERCENT",
+      "PERSON",
+      "PET_NAME",
+      "PHONE",
+      "PRODUCT",
+      "QUANTITY",
+      "TIME",
+      "TITLE_AFFIX",
+      "WORK_OF_ART"
+    ]
+  },
+  "pipeline":[
+    "transformer",
+    "parser",
+    "ner"
+  ],
+  "components":[
+    "transformer",
+    "parser",
+    "ner"
+  ],
+  "disabled":[
+  ],
+  "performance":{
+    "dep_uas":0.9367795389,
+    "dep_las":0.926075995,
+    "dep_las_per_type":{
+      "cc":{
+        "p":0.8863636364,
+        "r":0.8125,
+        "f":0.847826087
+      },
+      "compound":{
+        "p":0.9503214494,
+        "r":0.916572717,
+        "f":0.9331420373
+      },
+      "obl":{
+        "p":0.8710493047,
+        "r":0.8601747815,
+        "f":0.8655778894
+      },
+      "case":{
+        "p":0.9870030581,
+        "r":0.9810030395,
+        "f":0.9839939024
+      },
+      "dislocated":{
+        "p":0.6,
+        "r":0.6923076923,
+        "f":0.6428571429
+      },
+      "nsubj":{
+        "p":0.8875739645,
+        "r":0.8637236084,
+        "f":0.8754863813
+      },
+      "nmod":{
+        "p":0.9405063291,
+        "r":0.869005848,
+        "f":0.903343465
+      },
+      "root":{
+        "p":0.9119850187,
+        "r":0.9605522682,
+        "f":0.9356388088
+      },
+      "aux":{
+        "p":0.9766573296,
+        "r":0.9712163417,
+        "f":0.9739292365
+      },
+      "advcl":{
+        "p":0.7825112108,
+        "r":0.7842696629,
+        "f":0.7833894501
+      },
+      "mark":{
+        "p":0.979757085,
+        "r":0.968,
+        "f":0.9738430584
+      },
+      "fixed":{
+        "p":0.9694793537,
+        "r":0.9818181818,
+        "f":0.9756097561
+      },
+      "acl":{
+        "p":0.8984198646,
+        "r":0.8747252747,
+        "f":0.8864142539
+      },
+      "obj":{
+        "p":0.9541284404,
+        "r":0.9425981873,
+        "f":0.9483282675
+      },
+      "nummod":{
+        "p":0.9934640523,
+        "r":0.899408284,
+        "f":0.9440993789
+      },
+      "advmod":{
+        "p":0.7647058824,
+        "r":0.7428571429,
+        "f":0.7536231884
+      },
+      "amod":{
+        "p":0.935483871,
+        "r":0.7837837838,
+        "f":0.8529411765
+      },
+      "cop":{
+        "p":0.9759036145,
+        "r":0.9418604651,
+        "f":0.9585798817
+      },
+      "ccomp":{
+        "p":0.9523809524,
+        "r":0.9090909091,
+        "f":0.9302325581
+      },
+      "det":{
+        "p":1.0,
+        "r":0.9811320755,
+        "f":0.9904761905
+      },
+      "csubj":{
+        "p":0.7142857143,
+        "r":0.8333333333,
+        "f":0.7692307692
+      },
+      "dep":{
+        "p":0.4,
+        "r":0.2857142857,
+        "f":0.3333333333
+      }
+    },
+    "sents_p":0.9201520913,
+    "sents_r":0.9546351085,
+    "sents_f":0.9370764763,
+    "ents_f":0.840432295,
+    "ents_p":0.8496143959,
+    "ents_r":0.8314465409,
+    "ents_per_type":{
+      "DATE":{
+        "p":0.9814814815,
+        "r":0.9724770642,
+        "f":0.9769585253
+      },
+      "ORG":{
+        "p":0.78125,
+        "r":0.7299270073,
+        "f":0.7547169811
+      },
+      "TITLE_AFFIX":{
+        "p":0.8518518519,
+        "r":0.7666666667,
+        "f":0.8070175439
+      },
+      "PERSON":{
+        "p":0.9333333333,
+        "r":0.9064748201,
+        "f":0.9197080292
+      },
+      "GPE":{
+        "p":0.780952381,
+        "r":0.8723404255,
+        "f":0.824120603
+      },
+      "PRODUCT":{
+        "p":0.6285714286,
+        "r":0.5238095238,
+        "f":0.5714285714
+      },
+      "TIME":{
+        "p":0.6666666667,
+        "r":1.0,
+        "f":0.8
+      },
+      "QUANTITY":{
+        "p":0.8648648649,
+        "r":0.9696969697,
+        "f":0.9142857143
+      },
+      "NORP":{
+        "p":0.8846153846,
+        "r":0.71875,
+        "f":0.7931034483
+      },
+      "ORDINAL":{
+        "p":0.7391304348,
+        "r":0.7727272727,
+        "f":0.7555555556
+      },
+      "WORK_OF_ART":{
+        "p":0.6666666667,
+        "r":0.7058823529,
+        "f":0.6857142857
+      },
+      "PERCENT":{
+        "p":1.0,
+        "r":0.5714285714,
+        "f":0.7272727273
+      },
+      "CARDINAL":{
+        "p":0.0,
+        "r":0.0,
+        "f":0.0
+      },
+      "EVENT":{
+        "p":0.9565217391,
+        "r":0.8461538462,
+        "f":0.8979591837
+      },
+      "FAC":{
+        "p":0.8055555556,
+        "r":0.7837837838,
+        "f":0.7945205479
+      },
+      "LOC":{
+        "p":0.8888888889,
+        "r":0.8,
+        "f":0.8421052632
+      },
+      "MOVEMENT":{
+        "p":0.6,
+        "r":0.6,
+        "f":0.6
+      },
+      "LAW":{
+        "p":1.0,
+        "r":1.0,
+        "f":1.0
+      },
+      "MONEY":{
+        "p":1.0,
+        "r":1.0,
+        "f":1.0
+      },
+      "LANGUAGE":{
+        "p":1.0,
+        "r":1.0,
+        "f":1.0
+      }
+    },
+    "tag_acc":0.0,
+    "transformer_loss":288.6167381342,
+    "parser_loss":13062.4862750822,
+    "ner_loss":139.9335659693
+  },
+  "sources":[
+    {
+      "name":"UD_Japanese-GSD",
+      "url":"https://github.com/UniversalDependencies/UD_Japanese-GSD",
+      "license":"CC BY-SA 4.0"
+    },
+    {
+      "name":"UD_Japanese-GSD r2.8+NE",
+      "url":"https://github.com/megagonlabs/UD_Japanese-GSD/releases/tag/r2.8-NE",
+      "license":"CC BY-SA 4.0"
+    },
+    {
+      "name":"SudachiDict_core",
+      "url":"https://github.com/WorksApplications/SudachiDict",
+      "license":"Apache License 2.0"
+    },
+    {
+      "name":"cl-tohoku/bert-base-japanese-whole-word-masking",
+      "url":"https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking",
+      "license":"CC BY-SA 3.0"
+    },
+    {
+      "name":"unidic_lite",
+      "url":"https://github.com/polm/unidic-lite",
+      "license":"individually defined open software license"
+    }
+  ],
+  "parent_package":"spacy",
+  "requirements":[
+    "sudachipy>=0.5.2",
+    "sudachidict_core>=20210608",
+    "spacy-transformers>=1.0.2,<1.1.0"
+  ]
+}

ner/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

ner/model ADDED Viewed

Binary file (339 kB). View file

ner/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{},"1":{"DATE":4200,"ORG":3487,"PERSON":3042,"QUANTITY":2519,"GPE":1953,"PRODUCT":1328,"FAC":1243,"ORDINAL":1114,"WORK_OF_ART":1053,"EVENT":869,"NORP":734,"LOC":563,"MONEY":400,"TITLE_AFFIX":344,"TIME":300,"PERCENT":274,"MOVEMENT":148,"LAW":94,"LANGUAGE":82,"CARDINAL":27,"PET_NAME":20,"PHONE":4},"2":{"DATE":4200,"ORG":3487,"PERSON":3042,"QUANTITY":2519,"GPE":1953,"PRODUCT":1328,"FAC":1243,"ORDINAL":1114,"WORK_OF_ART":1053,"EVENT":869,"NORP":734,"LOC":563,"MONEY":400,"TITLE_AFFIX":344,"TIME":300,"PERCENT":274,"MOVEMENT":148,"LAW":94,"LANGUAGE":82,"CARDINAL":27,"PET_NAME":20,"PHONE":4},"3":{"DATE":4200,"ORG":3487,"PERSON":3042,"QUANTITY":2519,"GPE":1953,"PRODUCT":1328,"FAC":1243,"ORDINAL":1114,"WORK_OF_ART":1053,"EVENT":869,"NORP":734,"LOC":563,"MONEY":400,"TITLE_AFFIX":344,"TIME":300,"PERCENT":274,"MOVEMENT":148,"LAW":94,"LANGUAGE":82,"CARDINAL":27,"PET_NAME":20,"PHONE":4},"4":{"DATE":4200,"ORG":3487,"PERSON":3042,"QUANTITY":2519,"GPE":1953,"PRODUCT":1328,"FAC":1243,"ORDINAL":1114,"WORK_OF_ART":1053,"EVENT":869,"NORP":734,"LOC":563,"MONEY":400,"TITLE_AFFIX":344,"TIME":300,"PERCENT":274,"MOVEMENT":148,"LAW":94,"LANGUAGE":82,"CARDINAL":27,"PET_NAME":20,"PHONE":4,"":1},"5":{"":1}}�cfg��neg_key�

parser/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":30,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

parser/model ADDED Viewed

Binary file (754 kB). View file

parser/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves�~{"0":{"":75051},"1":{"":81581},"2":{"compound":22178,"nmod":11296,"obl":10522,"nsubj":6649,"acl":6185,"advcl":5956,"obj":4364,"nummod":2247,"advmod":1841,"punct":1169,"det":822,"cc":699,"amod":357,"ccomp":335,"dislocated":233,"csubj":139,"dep":0},"3":{"case":35390,"punct":15051,"aux":14506,"fixed":7377,"mark":6390,"cop":2079,"compound":542,"advcl":148,"dep":56},"4":{"ROOT":6810}}�cfg��neg_key�

tokenizer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "split_mode":"A"
+}

transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

transformer/model/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "tokenizer_class": "BertJapaneseTokenizer",
+  "transformers_version": "4.6.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

transformer/model/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:599a195b86b9d080cfca6788742da743f78ff0cde0bea93e28a53f929b7d8ec4
+size 442555895

transformer/model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

transformer/model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "do_lower_case": false, "do_word_tokenize": true, "do_subword_tokenize": true, "word_tokenizer_type": "mecab", "subword_tokenizer_type": "wordpiece", "never_split": null, "mecab_kwargs": {"mecab_dic": "unidic_lite"}, "model_max_length": 512, "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking"}

transformer/model/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6de34ff1760a0cca2e3da83ff530767a3711d9328fa14c612c211f27fb06b89
+size 614020

vocab/vectors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14772b683e726436d5948ad3fff2b43d036ef2ebbe3458aafed6004e05a40706
+size 128