對tokenizer增加special tokens使其能被.apply_chat_template正確轉換

#34

作者您好,之前為chatglm3添加chat_template後發現,使用tokenizer.apply_chat_template轉換成input_ids時會因為tokenizer不認識special token而導致錯誤的轉換結果,因此提出此PR進行修正(儘管chat_template是正確的)。

詳細比較與修改請參閱gist:
https://gist.github.com/p208p2002/adf1d4235b9567227d01315beb4b210e

此PR包含 :

  1. tokenizer增加四個special token ,使他們能夠被正確轉換。
tokenizer.add_tokens("<|user|>")
tokenizer.add_tokens("<|assistant|>")
tokenizer.add_tokens("[gMASK]")
tokenizer.add_tokens("sop")
  1. 移除 chat_template 額外空白

貢獻:
此PR能夠使 chatglm3 的 tokenizer 正確支援 tokenizer.apply_chat_template方法。

p208p2002 changed pull request title from Upload 3 files to 對tokenizer增加special tokens使其能被.apply_chat_template正確轉換
p208p2002 changed pull request status to closed

Sign up or log in to comment