๐ค Tokenizers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ ํฌ๋์ด์ ์ฌ์ฉํ๊ธฐ
PreTrainedTokenizerFast
๋ ๐ค Tokenizers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ธฐ๋ฐํฉ๋๋ค. ๐ค Tokenizers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ ํฌ๋์ด์ ๋
๐ค Transformers๋ก ๋งค์ฐ ๊ฐ๋จํ๊ฒ ๋ถ๋ฌ์ฌ ์ ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ธ ๋ด์ฉ์ ๋ค์ด๊ฐ๊ธฐ ์ ์, ๋ช ์ค์ ์ฝ๋๋ก ๋๋ฏธ ํ ํฌ๋์ด์ ๋ฅผ ๋ง๋ค์ด ๋ณด๊ฒ ์ต๋๋ค:
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
์ฐ๋ฆฌ๊ฐ ์ ์ํ ํ์ผ์ ํตํด ์ด์ ํ์ต๋ ํ ํฌ๋์ด์ ๋ฅผ ๊ฐ๊ฒ ๋์์ต๋๋ค. ์ด ๋ฐํ์์์ ๊ณ์ ์ฌ์ฉํ๊ฑฐ๋ JSON ํ์ผ๋ก ์ ์ฅํ์ฌ ๋์ค์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํ ํฌ๋์ด์ ๊ฐ์ฒด๋ก๋ถํฐ ์ง์ ๋ถ๋ฌ์ค๊ธฐ
๐ค Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ด ํ ํฌ๋์ด์ ๊ฐ์ฒด๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
PreTrainedTokenizerFast
ํด๋์ค๋ ์ธ์คํด์คํ๋ ํ ํฌ๋์ด์ ๊ฐ์ฒด๋ฅผ ์ธ์๋ก ๋ฐ์ ์ฝ๊ฒ ์ธ์คํด์คํํ ์ ์์ต๋๋ค:
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
์ด์ fast_tokenizer
๊ฐ์ฒด๋ ๐ค Transformers ํ ํฌ๋์ด์ ์์ ๊ณต์ ํ๋ ๋ชจ๋ ๋ฉ์๋์ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๋ค! ์์ธํ ๋ด์ฉ์ ํ ํฌ๋์ด์ ํ์ด์ง๋ฅผ ์ฐธ์กฐํ์ธ์.
JSON ํ์ผ์์ ๋ถ๋ฌ์ค๊ธฐ
JSON ํ์ผ์์ ํ ํฌ๋์ด์ ๋ฅผ ๋ถ๋ฌ์ค๊ธฐ ์ํด, ๋จผ์ ํ ํฌ๋์ด์ ๋ฅผ ์ ์ฅํด ๋ณด๊ฒ ์ต๋๋ค:
>>> tokenizer.save("tokenizer.json")
JSON ํ์ผ์ ์ ์ฅํ ๊ฒฝ๋ก๋ tokenizer_file
๋งค๊ฐ๋ณ์๋ฅผ ์ฌ์ฉํ์ฌ PreTrainedTokenizerFast
์ด๊ธฐํ ๋ฉ์๋์ ์ ๋ฌํ ์ ์์ต๋๋ค:
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
์ด์ fast_tokenizer
๊ฐ์ฒด๋ ๐ค Transformers ํ ํฌ๋์ด์ ์์ ๊ณต์ ํ๋ ๋ชจ๋ ๋ฉ์๋์ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๋ค! ์์ธํ ๋ด์ฉ์ ํ ํฌ๋์ด์ ํ์ด์ง๋ฅผ ์ฐธ์กฐํ์ธ์.