Update README.md
Browse files
README.md
CHANGED
@@ -19,7 +19,7 @@ pipeline_tag: text-generation
|
|
19 |
具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
|
20 |
|
21 |
# 2. 🗨️tokenizer训练
|
22 |
-
代码:[tokeinzer.ipynb](
|
23 |
本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
|
24 |
|
25 |
训练完的tokenizer记得检查词表中是否有常见的特殊符号,如`\t`、`\n`等,可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符,通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小,`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。
|
|
|
19 |
具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
|
20 |
|
21 |
# 2. 🗨️tokenizer训练
|
22 |
+
代码:[tokeinzer.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/1.tokeinzer.ipynb)
|
23 |
本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
|
24 |
|
25 |
训练完的tokenizer记得检查词表中是否有常见的特殊符号,如`\t`、`\n`等,可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符,通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小,`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。
|