charent commited on
Commit
a2dc15a
·
1 Parent(s): 6ae1153

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -19,7 +19,7 @@ pipeline_tag: text-generation
19
  具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
20
 
21
  # 2. 🗨️tokenizer训练
22
- 代码:[tokeinzer.ipynb](./1.tokeinzer.ipynb)
23
  本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
24
 
25
  训练完的tokenizer记得检查词表中是否有常见的特殊符号,如`\t`、`\n`等,可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符,通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小,`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。
 
19
  具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
20
 
21
  # 2. 🗨️tokenizer训练
22
+ 代码:[tokeinzer.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/1.tokeinzer.ipynb)
23
  本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
24
 
25
  训练完的tokenizer记得检查词表中是否有常见的特殊符号,如`\t`、`\n`等,可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符,通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小,`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。