akiFQC commited on
Commit
7d1f77e
1 Parent(s): 3038a8e

change tokenizer

Browse files
README.md CHANGED
@@ -37,7 +37,7 @@ from sentence_transformers import SentenceTransformer
37
  sentences = [
38
  "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
39
  "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
40
- "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。" 
41
  ]
42
 
43
  model = SentenceTransformer('pkshatech/simcse-ja-bert-base-clcmlp')
 
37
  sentences = [
38
  "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
39
  "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
40
+ "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
41
  ]
42
 
43
  model = SentenceTransformer('pkshatech/simcse-ja-bert-base-clcmlp')
README_JA.md CHANGED
@@ -34,7 +34,7 @@ from sentence_transformers import SentenceTransformer
34
  sentences = [
35
  "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
36
  "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
37
- "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。" 
38
  ]
39
 
40
  model = SentenceTransformer('{model_id}')
 
34
  sentences = [
35
  "PKSHA Technologyは機械学習/深層学習技術に関わるアルゴリズムソリューションを展開している。",
36
  "この深層学習モデルはPKSHA Technologyによって学習され、公開された。",
37
+ "広目天は、仏教における四天王の一尊であり、サンスクリット語の「種々の眼をした者」を名前の由来とする。",
38
  ]
39
 
40
  model = SentenceTransformer('{model_id}')
config.json CHANGED
@@ -1,10 +1,8 @@
1
  {
2
- "_name_or_path": "cl-tohoku/bert-base-japanese-v2",
3
  "architectures": [
4
- "BertModel"
5
  ],
6
  "attention_probs_dropout_prob": 0.1,
7
- "classifier_dropout": null,
8
  "hidden_act": "gelu",
9
  "hidden_dropout_prob": 0.1,
10
  "hidden_size": 768,
@@ -16,11 +14,7 @@
16
  "num_attention_heads": 12,
17
  "num_hidden_layers": 12,
18
  "pad_token_id": 0,
19
- "position_embedding_type": "absolute",
20
  "tokenizer_class": "BertJapaneseTokenizer",
21
- "torch_dtype": "float32",
22
- "transformers_version": "4.25.1",
23
  "type_vocab_size": 2,
24
- "use_cache": true,
25
  "vocab_size": 32768
26
  }
 
1
  {
 
2
  "architectures": [
3
+ "BertModel"
4
  ],
5
  "attention_probs_dropout_prob": 0.1,
 
6
  "hidden_act": "gelu",
7
  "hidden_dropout_prob": 0.1,
8
  "hidden_size": 768,
 
14
  "num_attention_heads": 12,
15
  "num_hidden_layers": 12,
16
  "pad_token_id": 0,
 
17
  "tokenizer_class": "BertJapaneseTokenizer",
 
 
18
  "type_vocab_size": 2,
 
19
  "vocab_size": 32768
20
  }
sentence_bert_config.json CHANGED
@@ -1,4 +1,4 @@
1
  {
2
  "max_seq_length": 128,
3
  "do_lower_case": false
4
- }
 
1
  {
2
  "max_seq_length": 128,
3
  "do_lower_case": false
4
+ }
special_tokens_map.json DELETED
@@ -1,7 +0,0 @@
1
- {
2
- "cls_token": "[CLS]",
3
- "mask_token": "[MASK]",
4
- "pad_token": "[PAD]",
5
- "sep_token": "[SEP]",
6
- "unk_token": "[UNK]"
7
- }
 
 
 
 
 
 
 
 
tokenizer_config.json CHANGED
@@ -1,22 +1,8 @@
1
  {
2
- "cls_token": "[CLS]",
3
  "do_lower_case": false,
4
- "do_subword_tokenize": true,
5
- "do_word_tokenize": true,
6
- "jumanpp_kwargs": null,
7
- "mask_token": "[MASK]",
8
- "mecab_kwargs": {
9
- "mecab_dic": "unidic_lite"
10
- },
11
- "model_max_length": 1000000000000000019884624838656,
12
- "name_or_path": "cl-tohoku/bert-base-japanese-v2",
13
- "never_split": null,
14
- "pad_token": "[PAD]",
15
- "sep_token": "[SEP]",
16
- "special_tokens_map_file": null,
17
  "subword_tokenizer_type": "wordpiece",
18
- "sudachi_kwargs": null,
19
- "tokenizer_class": "BertJapaneseTokenizer",
20
- "unk_token": "[UNK]",
21
- "word_tokenizer_type": "mecab"
22
  }
 
1
  {
 
2
  "do_lower_case": false,
3
+ "word_tokenizer_type": "mecab",
 
 
 
 
 
 
 
 
 
 
 
 
4
  "subword_tokenizer_type": "wordpiece",
5
+ "mecab_kwargs": {
6
+ "mecab_dic": "unidic_lite"
7
+ }
 
8
  }