retrieva-jp
/

japanese-spoken-language-bert

Model card Files Files and versions Community

Katsumata420 commited on Oct 19, 2023

Commit

bff929a

•

1 Parent(s): 825d6e6

Upload scripts

Files changed (2) hide show

download_wikipedia_bert.py +17 -0
sample_mlm.py +21 -0

download_wikipedia_bert.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from transformers import BertJapaneseTokenizer
+from transformers import BertConfig
+from transformers import BertForPreTraining
+tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
+config = BertConfig().from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
+tokenizer.save_pretrained('models/1-6_layer-wise')
+config.save_pretrained('models/1-6_layer-wise')
+tokenizer.save_pretrained('models/tapt512_60K')
+config.save_pretrained('models/tapt512_60K')
+tokenizer.save_pretrained('models/dapt128-tapt512')
+config.save_pretrained('models/dapt128-tapt512')
+# model = BertForPreTraining(config).from_pretrained('models/dapt128-tapt512')

sample_mlm.py ADDED Viewed

	@@ -0,0 +1,21 @@

+from transformers import BertJapaneseTokenizer
+from transformers import BertConfig
+from transformers import BertForMaskedLM
+from transformers import pipeline
+inputs = ['[MASK]もそう思います', '[MASK]なんというかその', 'これは[MASK]私が子供の頃の話なんですけど']
+model_name_list = ['models/1-6_layer-wise', 'models/tapt512_60K', 'models/dapt128-tapt512']
+for input_, model_name in zip(inputs, model_name_list):
+    tokenizer = BertJapaneseTokenizer.from_pretrained(model_name)
+    config = BertConfig.from_pretrained(model_name)
+    model = BertForMaskedLM.from_pretrained(model_name)
+    print('model name:',model_name)
+    print('input:',input_)
+    fill_mask = pipeline('fill-mask', model=model, tokenizer=tokenizer, config=config)
+    print('output:',fill_mask(input_))
+    print()