为什么这个模型的vacub.json文件里没有中文?疑惑

#1
by GordonTaoHuang - opened

为什么这个模型的vacub.json文件里没有中文?疑惑

Fengshenbang-LM org

GPT模型用的BPE编码

Fengshenbang-LM org

这个模型用的是BPE的tokenizer,将中文编码成了其他的字符,这个是Magetron实现的BPE分词的一个示例,可以参考一下。
image.png

gpt是byte level的bpe,词表里虽然没有中文的,但是经过encode后再经过decode,还是可以恢复中文的,这就是b-bpe的神奇之处~~~~

Zimix changed discussion status to closed

Sign up or log in to comment