charent
/

Phi2-Chinese-0.2B

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

charent commited on Dec 25, 2023

Commit

a2dc15a

·

1 Parent(s): 6ae1153

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ pipeline_tag: text-generation
 具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
 # 2. 🗨️tokenizer训练
-代码：[tokeinzer.ipynb](./1.tokeinzer.ipynb)
 本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
 训练完的tokenizer记得检查词表中是否有常见的特殊符号，如`\t`、`\n`等，可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符，通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小，`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。

 具体的数据清洗过程请参考项目[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)。
 # 2. 🗨️tokenizer训练
+代码：[tokeinzer.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/1.tokeinzer.ipynb)
 本项目使用`byte level`的`BPE`分词器。共提供的两种分词器`char level` 和`byte level`的训练代码。
 训练完的tokenizer记得检查词表中是否有常见的特殊符号，如`\t`、`\n`等，可以尝试编一句包含特殊字符的文本`encode`、`decode`看看能不能还原。如果不包含这些特殊字符，通过`add_tokens`函数添加。使用`len(tokenizer)`获取词表大小，`tokenizer.vocab_size`不统计自己通过`add_tokens`函数添加的字符。