分词器tokenizer错误,无法识别到eos字符

#72
by zheng-nlper - opened

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
print(tokenizer._tokenize("你好"))

输出:['▁你', '好', '</', 's', '>']

错误点: 并没有把整体当成一个结束字符处理。

Sign up or log in to comment