有一个困惑我许久的问题。分词器中为何没有常用汉字?

#1
by ValueFX9507 - opened

我查看分词器中,并没有常用汉字。但是我看到llama的微调中的分词器加了常用汉字。为什么?我担心的是,falcon的分词器没有常用汉字会影响性能。

OpenBuddy org

应该是Falcon分词器的问题。JSON文件里面看上去是乱码的其实对应的是汉字,可以自行encode实验一下。

哇,非常感谢您的回复。其实我尝试过encode,但是没找到常用汉字。所以以为这些汉字可能比较容易推理就没加。虽然目前模型层出不穷,但是falcon依然是我测试过最好的对话模型,感谢您提供了如此优秀的模型。爱来自中国♥。

OpenBuddy org

可以把你encode时的测试用例发来看看~

Sign up or log in to comment