NLP Course documentation

Tokenizers, kiểm tra nào!

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Tokenizers, kiểm tra nào!

Ask a Question

Chúc mừng bạn đã hoàn thành chương này!

Sau khi tìm hiểu sâu về tokenizer, bạn nên:

  • Có thể huấn luyện một tokenizer mới bằng cách sử dụng một cái cũ làm mẫu
  • Hiểu cách sử dụng hiệu số để ánh xạ vị trí của token với khoảng văn bản ban đầu của chúng
  • Biết sự khác biệt giữa BPE, WordPiece và Unigram
  • Có thể trộn và kết hợp các khối được cung cấp bởi thư viện 🤗 Tokenizers để xây dựng tokenizer của riêng bạn
  • Có thể sử dụng tokenizer đó trong thư viện 🤗 Transformers