feat: generate tokenizer.json

Files changed (2) hide show

generate_tokenizer.py ADDED Viewed

+from tokenizers import BertWordPieceTokenizer
+from pathlib import Path
+# パスの設定
+path_dir = "."
+output_dir = Path(".")
+# ファイルの設定
+vocab_file = Path(path_dir) / "vocab.txt"
+# トークナイザーの読み込み
+tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)
+# トークナイザーを保存
+output_file = output_dir / "tokenizer.json"
+output_dir.mkdir(parents=True, exist_ok=True)
+tokenizer.save(str(output_file))
+# vocab.txt ファイルを tokenizer.json にリネーム
+#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")
+# tokenizer.json が作成されたことを確認
+if (output_dir / "tokenizer.json").exists():
+    print("tokenizer.json が正常に作成されました。")
+else:
+    print("tokenizer.json の作成に失敗しました。")

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff