tokenizer.json里面没有中文字符

#2
by rootsule - opened

大佬,中文分词全是[UNK]啊

模型采用的是字节级别的词表,所以 tokenizer.json 里面不是明文的中文字符,但是确实是覆盖了中文字符的
可以提供一下你的测试代码

Sign up or log in to comment