File size: 848 Bytes
f9ef2f7 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
from tokenizers import BertWordPieceTokenizer
from pathlib import Path
# パスの設定
path_dir = "."
output_dir = Path(".")
# ファイルの設定
vocab_file = Path(path_dir) / "vocab.txt"
# トークナイザーの読み込み
tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)
# トークナイザーを保存
output_file = output_dir / "tokenizer.json"
output_dir.mkdir(parents=True, exist_ok=True)
tokenizer.save(str(output_file))
# vocab.txt ファイルを tokenizer.json にリネーム
#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")
# tokenizer.json が作成されたことを確認
if (output_dir / "tokenizer.json").exists():
print("tokenizer.json が正常に作成されました。")
else:
print("tokenizer.json の作成に失敗しました。")
|