Is the tokenizer correct?

#2
by niryuu - opened

The tokenizer decodes different words for given encoded token ids.
https://colab.research.google.com/drive/1iLPyJ5SNZ4gpLXBJp6k6V9NULX14q3R7?usp=sharing

一応、出力とtokenizer.jsonのバイナリを観察した傾向を述べておきます。

  • 漢字(e3-e9から始まる3バイト)が、2バイト文字(Latin-1 Supplementなど。cから始まる)3つとマッチすることが多い。
  • 2バイト3文字(以上)になったら漢字になる。
  • 2バイト2文字と2バイト1文字になったら文字化けする。
  • いずれの場合も、最初の2バイトの2バイト目(a3-a9)が、漢字の1バイト目のe3-e9と対応することが多い。例えばe3から始まる漢字はa3になる。ならないこともある。
  • おそらく2バイト文字の2バイト目しか見ていない。2バイト目を3つ組み合わせて3バイトの漢字とマッチしている。そうでないこともある。
  • ある種2バイト文字をhackして3バイト文字のtokenizeをしているのではないか。

Anyway, it works.

niryuu changed discussion status to closed

Sign up or log in to comment