Transformers documentation

Usa los tokenizadores de 🤗 Tokenizers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v4.40.1).
Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Usa los tokenizadores de 🤗 Tokenizers

PreTrainedTokenizerFast depende de la biblioteca 🤗 Tokenizers. Los tokenizadores obtenidos desde la biblioteca 🤗 Tokenizers pueden ser cargados de forma muy sencilla en los 🤗 Transformers.

Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas líneas:

>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace

>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)

Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecución (runtime en inglés), o puedes guardarlo en un archivo JSON para reutilizarlo en un futuro.

Cargando directamente desde el objeto tokenizador

Veamos cómo utilizar este objeto tokenizador en la biblioteca 🤗 Transformers. La clase PreTrainedTokenizerFast permite una instanciación fácil, al aceptar el objeto tokenizer instanciado como argumento:

>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)

Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la página sobre tokenizadores para más información.

Cargando desde un archivo JSON

Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador:

>>> tokenizer.save("tokenizer.json")

La localización (path en inglés) donde este archivo es guardado puede ser incluida en el método de inicialización de PreTrainedTokenizerFast utilizando el parámetro tokenizer_file:

>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")

Este objeto ya puede ser utilizado con todos los métodos compartidos por los tokenizadores de 🤗 Transformers! Visita la página sobre tokenizadores para más información.

< > Update on GitHub