本章簡介
在 [第三章] (/course/chapter3) 中,我們研究瞭如何在給定任務上微調模型。 當我們這樣做時,我們需要使用與模型預訓練相同的標記器——但是當我們想從頭開始訓練模型時該怎麼辦? 不過,使用在來自其他領域或語言的語料庫上預訓練的標記器通常不是最理想的。 例如,在英語語料庫上訓練的標記器在日語文本語料庫上表現不佳,因為兩種語言中空格和標點符號的使用非常不同。
在本章中,您將學習如何在文本語料庫上訓練一個全新的標記器,然後將其用於預訓練語言模型。 這一切都將在 🤗 Tokenizers 庫的幫助下完成,該庫在 [🤗 Transformers](https://github.com /huggingface/transformers) 庫之內。 我們將仔細研究這個庫提供的功能,並探討快速標記器與“慢”版本的區別。
我們將涵蓋的主題包括:
- 如何訓練一個新的標記器,類似於給定檢查點在新的文本語料庫上使用的標記器
- 快速標記器的特殊功能
- 目前 NLP 中使用的三種主要子詞標記化算法之間的差異
- 如何使用🤗 Tokenizers 庫從頭開始構建標記器並在一些數據上對其進行訓練
本章介紹的技術將使您為 第 7 章 中的部分做好準備,在那部分中,我們著眼於為 Python 源代碼創建語言模型。 讓我們首先看一下什麼是“訓練”標記器?