🤗 Transformers

Machine Learning de última generación para PyTorch, TensorFlow y JAX.

🤗 Transformers proporciona APIs para descargar y entrenar fácilmente modelos preentrenados de última generación. El uso de modelos preentrenados puede reducir tus costos de cómputo, tu huella de carbono y ahorrarte tiempo al entrenar un modelo desde cero. Los modelos se pueden utilizar en diferentes modalidades, tales como:

📝 Texto: clasificación de texto, extracción de información, respuesta a preguntas, resumir, traducción y generación de texto en más de 100 idiomas.
🖼️ Imágenes: clasificación de imágenes, detección de objetos y segmentación.
🗣️ Audio: reconocimiento de voz y clasificación de audio.
🐙 Multimodal: respuesta a preguntas en tablas, reconocimiento óptico de caracteres, extracción de información de documentos escaneados, clasificación de videos y respuesta visual a preguntas.

Nuestra biblioteca admite una integración perfecta entre tres de las bibliotecas de deep learning más populares: PyTorch, TensorFlow y JAX. Entrena tu modelo con tres líneas de código en un framework y cárgalo para inferencia con otro. Cada arquitectura de 🤗 Transformers se define en un módulo de Python independiente para que se puedan personalizar fácilmente para investigación y experimentos.

Si estás buscando soporte personalizado del equipo de Hugging Face

Contenidos

La documentación está organizada en cuatro partes:

EMPEZAR contiene un recorrido rápido e instrucciones de instalación para comenzar a usar 🤗 Transformers.
TUTORIALES son un excelente lugar para comenzar si eres nuevo en nuestra biblioteca. Esta sección te ayudará a obtener las habilidades básicas que necesitas para comenzar a usar 🤗 Transformers.
GUÍAS PRÁCTICAS te mostrará cómo lograr un objetivo específico, cómo hacer fine-tuning a un modelo preentrenado para el modelado de lenguaje o cómo crear un cabezal para un modelo personalizado.
GUÍAS CONCEPTUALES proporciona más discusión y explicación de los conceptos e ideas subyacentes detrás de los modelos, las tareas y la filosofía de diseño de 🤗 Transformers.

La biblioteca actualmente contiene implementaciones de JAX, PyTorch y TensorFlow, pesos de modelos preentrenados, scripts de uso y utilidades de conversión para los siguientes modelos.

Modelos compatibles

ALBERT (de Google Research y el Instituto Tecnológico de Toyota en Chicago) publicado con el paper ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, por Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut.
BART (de Facebook) publicado con el paper BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension por Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov y Luke Zettlemoyer.
BARThez (de École polytechnique) publicado con el paper BARThez: a Skilled Pretrained French Sequence-to-Sequence Model por Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis.
BARTpho (de VinAI Research) publicado con el paper BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese por Nguyen Luong Tran, Duong Minh Le y Dat Quoc Nguyen.
BEiT (de Microsoft) publicado con el paper BEiT: BERT Pre-Training of Image Transformers por Hangbo Bao, Li Dong, Furu Wei.
BERT (de Google) publicado con el paper BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding por Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova.
BERTweet (de VinAI Research) publicado con el paper BERTweet: A pre-trained language model for English Tweets por Dat Quoc Nguyen, Thanh Vu y Anh Tuan Nguyen.
BERT For Sequence Generation (de Google) publicado con el paper Leveraging Pre-trained Checkpoints for Sequence Generation Tasks por Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
BigBird-RoBERTa (de Google Research) publicado con el paper Big Bird: Transformers for Longer Sequences por Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
BigBird-Pegasus (de Google Research) publicado con el paper Big Bird: Transformers for Longer Sequences por Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
Blenderbot (de Facebook) publicado con el paper Recipes for building an open-domain chatbot por Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
BlenderbotSmall (de Facebook) publicado con el paper Recipes for building an open-domain chatbot por Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
BORT (de Alexa) publicado con el paper Optimal Subarchitecture Extraction For BERT por Adrian de Wynter y Daniel J. Perry.
ByT5 (de Google Research) publicado con el paper ByT5: Towards a token-free future with pre-trained byte-to-byte models por Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel.
CamemBERT (de Inria/Facebook/Sorbonne) publicado con el paper CamemBERT: a Tasty French Language Model por Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez*, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah y Benoît Sagot.
CANINE (de Google Research) publicado con el paper CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation por Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting.
ConvNeXT (de Facebook AI) publicado con el paper A ConvNet for the 2020s por Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie.
CLIP (de OpenAI) publicado con el paper Learning Transferable Visual Models From Natural Language Supervision por Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever.
ConvBERT (de YituTech) publicado con el paper ConvBERT: Improving BERT with Span-based Dynamic Convolution por Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan.
CPM (de Universidad de Tsinghua) publicado con el paper CPM: A Large-scale Generative Chinese Pre-trained Language Model por Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun.
CTRL (de Salesforce) publicado con el paper CTRL: A Conditional Transformer Language Model for Controllable Generation por Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong y Richard Socher.
Data2Vec (de Facebook) publicado con el paper Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language por Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli.
DeBERTa (de Microsoft) publicado con el paper DeBERTa: Decoding-enhanced BERT with Disentangled Attention por Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen.
DeBERTa-v2 (de Microsoft) publicado con el paper DeBERTa: Decoding-enhanced BERT with Disentangled Attention por Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen.
Decision Transformer (de Berkeley/Facebook/Google) publicado con el paper Decision Transformer: Reinforcement Learning via Sequence Modeling por Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch.
DiT (de Microsoft Research) publicado con el paper DiT: Self-supervised Pre-training for Document Image Transformer por Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei.
DeiT (de Facebook) publicado con el paper Training data-efficient image transformers & distillation through attention por Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou.
DETR (de Facebook) publicado con el paper End-to-End Object Detection with Transformers por Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko.
DialoGPT (de Microsoft Research) publicado con el paper DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation por Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan.
DistilBERT (de HuggingFace), publicado junto con el paper DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter por Victor Sanh, Lysandre Debut y Thomas Wolf. Se ha aplicado el mismo método para comprimir GPT2 en DistilGPT2, RoBERTa en DistilRoBERTa, BERT multilingüe en DistilmBERT y una versión alemana de DistilBERT.
DPR (de Facebook) publicado con el paper Dense Passage Retrieval for Open-Domain Question Answering por Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, y Wen-tau Yih.
DPT (de Intel Labs) publicado con el paper Vision Transformers for Dense Prediction por René Ranftl, Alexey Bochkovskiy, Vladlen Koltun.
EncoderDecoder (de Google Research) publicado con el paper Leveraging Pre-trained Checkpoints for Sequence Generation Tasks por Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
ELECTRA (de Google Research/Universidad de Stanford) publicado con el paper ELECTRA: Pre-training text encoders as discriminators rather than generators por Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning.
FlauBERT (de CNRS) publicado con el paper FlauBERT: Unsupervised Language Model Pre-training for French por Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab.
FNet (de Google Research) publicado con el paper FNet: Mixing Tokens with Fourier Transforms por James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon.
Funnel Transformer (de CMU/Google Brain) publicado con el paper Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing por Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le.
GLPN (de KAIST) publicado con el paper Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth por Doyeon Kim, Woonghyun Ga, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, Junmo Kim.
GPT (de OpenAI) publicado con el paper Improving Language Understanding by Generative Pre-Training por Alec Radford, Karthik Narasimhan, Tim Salimans y Ilya Sutskever.
GPT-2 (de OpenAI) publicado con el paper Language Models are Unsupervised Multitask Learners por Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodeiy Ilya Sutskever.
GPT-J (de EleutherAI) publicado con el repositorio kingoflolz/mesh-transformer-jax por Ben Wang y Aran Komatsuzaki.
GPT Neo (de EleutherAI) publicado en el paper EleutherAI/gpt-neo por Sid Black, Stella Biderman, Leo Gao, Phil Wang y Connor Leahy.
Hubert (de Facebook) publicado con el paper HuBERT: Self-Supervised Speech Representation Learning por Masked Prediction of Hidden Units por Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed.
I-BERT (de Berkeley) publicado con el paper I-BERT: Integer-only BERT Quantization por Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer.
ImageGPT (de OpenAI) publicado con el paper Generative Pretraining from Pixels por Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, Ilya Sutskever.
LayoutLM (de Microsoft Research Asia) publicado con el paper LayoutLM: Pre-training of Text and Layout for Document Image Understanding por Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou.
LayoutLMv2 (de Microsoft Research Asia) publicado con el paper LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding por Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou.
LayoutXLM (de Microsoft Research Asia) publicado con el paper LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding por Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei.
LED (de AllenAI) publicado con el paper Longformer: The Long-Document Transformer por Iz Beltagy, Matthew E. Peters, Arman Cohan.
Longformer (de AllenAI) publicado con el paper Longformer: The Long-Document Transformer por Iz Beltagy, Matthew E. Peters, Arman Cohan.
LUKE (de Studio Ousia) publicado con el paper LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention por Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto.
mLUKE (de Studio Ousia) publicado con el paper mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models por Ryokan Ri, Ikuya Yamada, y Yoshimasa Tsuruoka.
LXMERT (de UNC Chapel Hill) publicado con el paper LXMERT: Learning Cross-Modality Encoder Representations from Transformers for Open-Domain Question Answering por Hao Tan y Mohit Bansal.
M2M100 (de Facebook) publicado con el paper Beyond English-Centric Multilingual Machine Translation por Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin.
MarianMT Modelos de traducción automática entrenados usando OPUS data por Jörg Tiedemann. El Marian Framework está siendo desarrollado por el equipo de traductores de Microsoft.
MaskFormer (de Meta y UIUC) publicado con el paper Per-Pixel Classification is Not All You Need for Semantic Segmentation por Bowen Cheng, Alexander G. Schwing, Alexander Kirillov.
MBart (de Facebook) publicado con el paper Multilingual Denoising Pre-training for Neural Machine Translation por Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer.
MBart-50 (de Facebook) publicado con el paper Multilingual Translation with Extensible Multilingual Pretraining and Finetuning por Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan.
Megatron-BERT (de NVIDIA) publicado con el paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism por Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper y Bryan Catanzaro.
Megatron-GPT2 (de NVIDIA) publicado con el paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism por Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper y Bryan Catanzaro.
MPNet (de Microsoft Research) publicado con el paper MPNet: Masked and Permuted Pre-training for Language Understanding por Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu.
MT5 (de Google AI) publicado con el paper mT5: A massively multilingual pre-trained text-to-text transformer por Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel.
Nyströmformer (de la Universidad de Wisconsin - Madison) publicado con el paper Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention por Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh.
Pegasus (de Google) publicado con el paper PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization por Jingqing Zhang, Yao Zhao, Mohammad Saleh y Peter J. Liu.
Perceiver IO (de Deepmind) publicado con el paper Perceiver IO: A General Architecture for Structured Inputs & Outputs por Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira.
PhoBERT (de VinAI Research) publicado con el paper PhoBERT: Pre-trained language models for Vietnamese por Dat Quoc Nguyen y Anh Tuan Nguyen.
PLBart (de UCLA NLP) publicado con el paper Unified Pre-training for Program Understanding and Generation por Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang.
PoolFormer (de Sea AI Labs) publicado con el paper MetaFormer is Actually What You Need for Vision por Yu, Weihao y Luo, Mi y Zhou, Pan y Si, Chenyang y Zhou, Yichen y Wang, Xinchao y Feng, Jiashi y Yan, Shuicheng.
ProphetNet (de Microsoft Research) publicado con el paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training por Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang y Ming Zhou.
QDQBert (de NVIDIA) publicado con el paper Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation por Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev y Paulius Micikevicius.
REALM (de Google Research) publicado con el paper REALM: Retrieval-Augmented Language Model Pre-Training por Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat y Ming-Wei Chang.
Reformer (de Google Research) publicado con el paper Reformer: The Efficient Transformer por Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya.
RemBERT (de Google Research) publicado con el paper Rethinking embedding coupling in pre-trained language models por Hyung Won Chung, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder.
RegNet (de META Platforms) publicado con el paper Designing Network Design Space por Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár.
ResNet (de Microsoft Research) publicado con el paper Deep Residual Learning for Image Recognition por Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.
RoBERTa (de Facebook), publicado junto con el paper RoBERTa: A Robustly Optimized BERT Pretraining Approach por Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov.
RoFormer (de ZhuiyiTechnology), publicado junto con el paper RoFormer: Enhanced Transformer with Rotary Position Embedding por Jianlin Su y Yu Lu y Shengfeng Pan y Bo Wen y Yunfeng Liu.
SegFormer (de NVIDIA) publicado con el paper SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers por Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo.
SEW (de ASAPP) publicado con el paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition por Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
SEW-D (de ASAPP) publicado con el paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition por Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
SpeechToTextTransformer (de Facebook), publicado junto con el paper fairseq S2T: Fast Speech-to-Text Modeling with fairseq por Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino.
SpeechToTextTransformer2 (de Facebook), publicado junto con el paper Large-Scale Self- and Semi-Supervised Learning for Speech Translation por Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau.
Splinter (de Universidad de Tel Aviv), publicado junto con el paper Few-Shot Question Answering by Pretraining Span Selection pory Ori Ram, Yuval Kirstain, Jonathan Berant, Amir Globerson, Omer Levy.
SqueezeBert (de Berkeley) publicado con el paper SqueezeBERT: What can computer vision teach NLP about efficient neural networks? por Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, y Kurt W. Keutzer.
Swin Transformer (de Microsoft) publicado con el paper Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo.
T5 (de Google AI) publicado con el paper Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer por Colin Raffel y Noam Shazeer y Adam Roberts y Katherine Lee y Sharan Narang y Michael Matena y Yanqi Zhou y Wei Li y Peter J. Liu.
T5v1.1 (de Google AI) publicado en el repositorio google-research/text-to-text-transfer-transformer por Colin Raffel y Noam Shazeer y Adam Roberts y Katherine Lee y Sharan Narang y Michael Matena y Yanqi Zhou y Wei Li y Peter J. Liu.
TAPAS (de Google AI) publicado con el paper TAPAS: Weakly Supervised Table Parsing via Pre-training por Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno y Julian Martin Eisenschlos.
TAPEX (de Microsoft Research) publicado con el paper TAPEX: Table Pre-training via Learning a Neural SQL Executor por Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou.
Transformer-XL (de Google/CMU) publicado con el paper Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context por Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
TrOCR (de Microsoft), publicado junto con el paper TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models por Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei.
UniSpeech (de Microsoft Research) publicado con el paper UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data por Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang.
UniSpeechSat (de Microsoft Research) publicado con el paper UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING por Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
VAN (de la Universidad de Tsinghua y la Universidad de Nankai) publicado con el paper Visual Attention Network por Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu.
ViLT (de NAVER AI Lab/Kakao Enterprise/Kakao Brain) publicado con el paper ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision por Wonjae Kim, Bokyung Son, Ildoo Kim.
Vision Transformer (ViT) (de Google AI) publicado con el paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale por Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby.
ViTMAE (de Meta AI) publicado con el paper Masked Autoencoders Are Scalable Vision Learners por Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick.
VisualBERT (de UCLA NLP) publicado con el paper VisualBERT: A Simple and Performant Baseline for Vision and Language por Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang.
WavLM (de Microsoft Research) publicado con el paper WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing por Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei.
Wav2Vec2 (de Facebook AI) publicado con el paper wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations por Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli.
Wav2Vec2Phoneme (de Facebook AI) publicado con el paper Simple and Effective Zero-shot Cross-lingual Phoneme Recognition por Qiantong Xu, Alexei Baevski, Michael Auli.
XGLM (de Facebook AI) publicado con el paper Few-shot Learning with Multilingual Language Models por Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li.
XLM (de Facebook) publicado junto con el paper Cross-lingual Language Model Pretraining por Guillaume Lample y Alexis Conneau.
XLM-ProphetNet (de Microsoft Research) publicado con el paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training por Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang y Ming Zhou.
XLM-RoBERTa (de Facebook AI), publicado junto con el paper Unsupervised Cross-lingual Representation Learning at Scale por Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer y Veselin Stoyanov.
XLM-RoBERTa-XL (de Facebook AI), publicado junto con el paper Larger-Scale Transformers for Multilingual Masked Language Modeling por Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau.
XLNet (de Google/CMU) publicado con el paper XLNet: Generalized Autoregressive Pretraining for Language Understanding por Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le.
XLSR-Wav2Vec2 (de Facebook AI) publicado con el paper Unsupervised Cross-Lingual Representation Learning For Speech Recognition por Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli.
XLS-R (de Facebook AI) publicado con el paper XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale por Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli.
YOSO (de la Universidad de Wisconsin-Madison) publicado con el paper You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling por Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh.

Frameworks compatibles

La siguiente tabla representa el soporte actual en la biblioteca para cada uno de esos modelos, ya sea que tengan un tokenizador de Python (llamado “slow”). Un tokenizador “fast” respaldado por la biblioteca 🤗 Tokenizers, ya sea que tengan soporte en Jax (a través de Flax), PyTorch y/o TensorFlow.

Modelo	Tokenizer slow	Tokenizer fast	PyTorch support	TensorFlow support	Flax Support
ALBERT	✅	✅	✅	✅	✅
BART	✅	✅	✅	✅	✅
BEiT	❌	❌	✅	❌	✅
BERT	✅	✅	✅	✅	✅
Bert Generation	✅	❌	✅	❌	❌
BigBird	✅	✅	✅	❌	✅
BigBirdPegasus	❌	❌	✅	❌	❌
Blenderbot	✅	✅	✅	✅	✅
BlenderbotSmall	✅	✅	✅	✅	✅
CamemBERT	✅	✅	✅	✅	❌
Canine	✅	❌	✅	❌	❌
CLIP	✅	✅	✅	✅	✅
ConvBERT	✅	✅	✅	✅	❌
ConvNext	❌	❌	✅	✅	❌
CTRL	✅	❌	✅	✅	❌
Data2VecAudio	❌	❌	✅	❌	❌
Data2VecText	❌	❌	✅	❌	❌
DeBERTa	✅	✅	✅	✅	❌
DeBERTa-v2	✅	❌	✅	✅	❌
Decision Transformer	❌	❌	✅	❌	❌
DeiT	❌	❌	✅	❌	❌
DETR	❌	❌	✅	❌	❌
DistilBERT	✅	✅	✅	✅	✅
DPR	✅	✅	✅	✅	❌
DPT	❌	❌	✅	❌	❌
ELECTRA	✅	✅	✅	✅	✅
Encoder decoder	❌	❌	✅	✅	✅
FairSeq Machine-Translation	✅	❌	✅	❌	❌
FlauBERT	✅	❌	✅	✅	❌
FNet	✅	✅	✅	❌	❌
Funnel Transformer	✅	✅	✅	✅	❌
GLPN	❌	❌	✅	❌	❌
GPT Neo	❌	❌	✅	❌	✅
GPT-J	❌	❌	✅	✅	✅
Hubert	❌	❌	✅	✅	❌
I-BERT	❌	❌	✅	❌	❌
ImageGPT	❌	❌	✅	❌	❌
LayoutLM	✅	✅	✅	✅	❌
LayoutLMv2	✅	✅	✅	❌	❌
LED	✅	✅	✅	✅	❌
Longformer	✅	✅	✅	✅	❌
LUKE	✅	❌	✅	❌	❌
LXMERT	✅	✅	✅	✅	❌
M2M100	✅	❌	✅	❌	❌
Marian	✅	❌	✅	✅	✅
MaskFormer	❌	❌	✅	❌	❌
mBART	✅	✅	✅	✅	✅
MegatronBert	❌	❌	✅	❌	❌
MobileBERT	✅	✅	✅	✅	❌
MPNet	✅	✅	✅	✅	❌
mT5	✅	✅	✅	✅	✅
Nystromformer	❌	❌	✅	❌	❌
OpenAI GPT	✅	✅	✅	✅	❌
OpenAI GPT-2	✅	✅	✅	✅	✅
Pegasus	✅	✅	✅	✅	✅
Perceiver	✅	❌	✅	❌	❌
PLBart	✅	❌	✅	❌	❌
PoolFormer	❌	❌	✅	❌	❌
ProphetNet	✅	❌	✅	❌	❌
QDQBert	❌	❌	✅	❌	❌
RAG	✅	❌	✅	✅	❌
Realm	✅	✅	✅	❌	❌
Reformer	✅	✅	✅	❌	❌
RegNet	❌	❌	✅	❌	❌
RemBERT	✅	✅	✅	✅	❌
ResNet	❌	❌	✅	❌	❌
RetriBERT	✅	✅	✅	❌	❌
RoBERTa	✅	✅	✅	✅	✅
RoFormer	✅	✅	✅	✅	✅
SegFormer	❌	❌	✅	❌	❌
SEW	❌	❌	✅	❌	❌
SEW-D	❌	❌	✅	❌	❌
Speech Encoder decoder	❌	❌	✅	❌	✅
Speech2Text	✅	❌	✅	✅	❌
Speech2Text2	✅	❌	❌	❌	❌
Splinter	✅	✅	✅	❌	❌
SqueezeBERT	✅	✅	✅	❌	❌
Swin	❌	❌	✅	❌	❌
T5	✅	✅	✅	✅	✅
TAPAS	✅	❌	✅	✅	❌
TAPEX	✅	✅	✅	✅	✅
Transformer-XL	✅	❌	✅	✅	❌
TrOCR	❌	❌	✅	❌	❌
UniSpeech	❌	❌	✅	❌	❌
UniSpeechSat	❌	❌	✅	❌	❌
VAN	❌	❌	✅	❌	❌
ViLT	❌	❌	✅	❌	❌
Vision Encoder decoder	❌	❌	✅	✅	✅
VisionTextDualEncoder	❌	❌	✅	❌	✅
VisualBert	❌	❌	✅	❌	❌
ViT	❌	❌	✅	✅	✅
ViTMAE	❌	❌	✅	✅	❌
Wav2Vec2	✅	❌	✅	✅	✅
WavLM	❌	❌	✅	❌	❌
XGLM	✅	✅	✅	❌	✅
XLM	✅	❌	✅	✅	❌
XLM-RoBERTa	✅	✅	✅	✅	✅
XLM-RoBERTa-XL	❌	❌	✅	❌	❌
XLMProphetNet	✅	❌	✅	❌	❌
XLNet	✅	✅	✅	✅	❌
YOSO	❌	❌	✅	❌	❌