masato12 commited on
Commit
f9ef2f7
1 Parent(s): 76c2a8e

feat: generate tokenizer.json

Browse files
Files changed (2) hide show
  1. generate_tokenizer.py +26 -0
  2. tokenizer.json +0 -0
generate_tokenizer.py ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from tokenizers import BertWordPieceTokenizer
2
+ from pathlib import Path
3
+
4
+ # パスの設定
5
+ path_dir = "."
6
+ output_dir = Path(".")
7
+
8
+ # ファイルの設定
9
+ vocab_file = Path(path_dir) / "vocab.txt"
10
+
11
+ # トークナイザーの読み込み
12
+ tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)
13
+
14
+ # トークナイザーを保存
15
+ output_file = output_dir / "tokenizer.json"
16
+ output_dir.mkdir(parents=True, exist_ok=True)
17
+ tokenizer.save(str(output_file))
18
+
19
+ # vocab.txt ファイルを tokenizer.json にリネーム
20
+ #(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")
21
+
22
+ # tokenizer.json が作成されたことを確認
23
+ if (output_dir / "tokenizer.json").exists():
24
+ print("tokenizer.json が正常に作成されました。")
25
+ else:
26
+ print("tokenizer.json の作成に失敗しました。")
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff