🤗 Transformers

Machine Learning allo stato dell’arte per PyTorch, TensorFlow e JAX.

🤗 Transformers fornisce delle API per scaricare in modo semplice e allenare modelli pre-allenati allo stato dell’arte. L’utilizzo di modelli pre-allenati può ridurre i tuoi costi computazionali, l’impatto ambientale, e farti risparmiare il tempo che utilizzeresti per allenare un modello da zero. I modelli possono essere utilizzati in diverse modalità come ad esempio:

📝 Testo: classificazione del testo, estrazione delle informazioni, rispondere a domande, riassumere, traduzione e generazione del testo in più di 100 lingue.
🖼️ Immagini: classificazione di immagini, rilevazione di oggetti e segmentazione.
🗣️ Audio: riconoscimento vocale e classificazione dell’audio.
🐙 Multimodale: rispondere a domande inerenti dati tabulari, riconoscimento ottico dei caratteri, estrazione di informazioni a partire da documenti scannerizzati, classificazione di video e risposta visuale a domande.

La nostra libreria supporta un’integrazione perfetta tra tre delle librerie per il deep learning più popolari: PyTorch, TensorFlow e JAX. Allena il tuo modello in tre righe di codice in un framework, e caricalo per l’inferenza in un altro.

Ogni architettura di 🤗 Transformers è definita in un modulo Python indipendente così da poter essere personalizzata in modo semplice per la ricerca e gli esperimenti.

Se stai cercando supporto personalizzato dal team di Hugging Face

Contenuti

La documentazione è organizzata in cinque parti:

INIZIARE contiene un tour rapido e le istruzioni di installazione per cominciare ad utilizzare 🤗 Transformers.
TUTORIALS è un buon posto da cui iniziare se per te la nostra libreria è nuova. Questa sezione ti aiuterà ad acquisire le competenze basilari di cui hai bisogno per iniziare ad utilizzare 🤗 Transformers.
GUIDE PRATICHE ti mostrerà come raggiungere obiettivi specifici come fare fine-tuning di un modello pre-allenato per la modellizzazione del linguaggio o come creare una testa per un modello personalizzato.
GUIDE CONCETTUALI fornisce discussioni e spiegazioni dei concetti sottostanti alle idee dietro ai modelli, compiti, e la filosofia di progettazione di 🤗 Transformers.
API descrive ogni classe e funzione, raggruppate in:
- CLASSI PRINCIPALI per le classi principali che espongono le API importanti della libreria.
- MODELLI per le classi e le funzioni relative ad ogni modello implementato all’interno della libreria.
- HELPERS INTERNI per le classi e le funzioni che utilizziamo internamente.

La libreria attualmente contiene implementazioni in JAX, PyTorch e TensorFlow, pesi di modelli pre-allenati, script di utilizzo e strumenti di conversione per i seguenti modelli.

Modelli supportati

ALBERT (da Google Research e l’Istituto Tecnologico di Chicago) rilasciato con il paper ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, da Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut.
BART (da Facebook) rilasciato con il paper BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension da Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov e Luke Zettlemoyer.
BARThez (da politecnico di École) rilasciato con il paper BARThez: a Skilled Pretrained French Sequence-to-Sequence Model da Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis.
BARTpho (da VinAI Research) rilasciato con il paper BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese da Nguyen Luong Tran, Duong Minh Le e Dat Quoc Nguyen.
BEiT (da Microsoft) rilasciato con il paper BEiT: BERT Pre-Training of Image Transformers da Hangbo Bao, Li Dong, Furu Wei.
BERT (da Google) rilasciato con il paper BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding da Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova.
BERTweet (da VinAI Research) rilasciato con il paper BERTweet: A pre-trained language model for English Tweets da Dat Quoc Nguyen, Thanh Vu e Anh Tuan Nguyen.
BERT For Sequence Generation (da Google) rilasciato con il paper Leveraging Pre-trained Checkpoints for Sequence Generation Tasks da Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
BigBird-RoBERTa (da Google Research) rilasciato con il paper Big Bird: Transformers for Longer Sequences da Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
BigBird-Pegasus (v Google Research) rilasciato con il paper Big Bird: Transformers for Longer Sequences da Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
Blenderbot (da Facebook) rilasciato con il paper Recipes for building an open-domain chatbot da Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
BlenderbotSmall (da Facebook) rilasciato con il paper Recipes for building an open-domain chatbot da Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
BORT (da Alexa) rilasciato con il paper Optimal Subarchitecture Extraction For BERT da Adrian de Wynter e Daniel J. Perry.
ByT5 (da Google Research) rilasciato con il paper ByT5: Towards a token-free future with pre-trained byte-to-byte models da Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel.
CamemBERT (da Inria/Facebook/Sorbonne) rilasciato con il paper CamemBERT: a Tasty French Language Model da Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez*, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah e Benoît Sagot.
CANINE (da Google Research) rilasciato con il paper CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation da Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting.
ConvNeXT (da Facebook AI) rilasciato con il paper A ConvNet for the 2020s da Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie.
CLIP (da OpenAI) rilasciato con il paper Learning Transferable Visual Models From Natural Language Supervision da Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever.
ConvBERT (da YituTech) rilasciato con il paper ConvBERT: Improving BERT with Span-based Dynamic Convolution da Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan.
CPM (dalla Università di Tsinghua) rilasciato con il paper CPM: A Large-scale Generative Chinese Pre-trained Language Model da Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun.
CTRL (da Salesforce) rilasciato con il paper CTRL: A Conditional Transformer Language Model for Controllable Generation da Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong e Richard Socher.
CvT (da Microsoft) rilasciato con il paper CvT: Introducing Convolutions to Vision Transformers da Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang.
Data2Vec (da Facebook) rilasciato con il paper Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language da Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli.
DeBERTa (da Microsoft) rilasciato con il paper DeBERTa: Decoding-enhanced BERT with Disentangled Attention da Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen.
DeBERTa-v2 (da Microsoft) rilasciato con il paper DeBERTa: Decoding-enhanced BERT with Disentangled Attention da Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen.
Decision Transformer (da Berkeley/Facebook/Google) rilasciato con il paper Decision Transformer: Reinforcement Learning via Sequence Modeling da Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch.
DiT (da Microsoft Research) rilasciato con il paper DiT: Self-supervised Pre-training for Document Image Transformer da Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei.
DeiT (da Facebook) rilasciato con il paper Training data-efficient image transformers & distillation through attention da Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou.
DETR (da Facebook) rilasciato con il paper End-to-End Object Detection with Transformers da Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko.
DialoGPT (da Microsoft Research) rilasciato con il paper DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation da Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan.
DistilBERT (da HuggingFace), rilasciato assieme al paper DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter da Victor Sanh, Lysandre Debut e Thomas Wolf. La stessa tecnica è stata applicata per comprimere GPT2 in DistilGPT2, RoBERTa in DistilRoBERTa, Multilingual BERT in DistilmBERT and a German version of DistilBERT.
DPR (da Facebook) rilasciato con il paper Dense Passage Retrieval for Open-Domain Question Answering da Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, e Wen-tau Yih.
DPT (da Intel Labs) rilasciato con il paper Vision Transformers for Dense Prediction da René Ranftl, Alexey Bochkovskiy, Vladlen Koltun.
EncoderDecoder (da Google Research) rilasciato con il paper Leveraging Pre-trained Checkpoints for Sequence Generation Tasks da Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
ELECTRA (da Google Research/Stanford University) rilasciato con il paper ELECTRA: Pre-training text encoders as discriminators rather than generators da Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning.
FlauBERT (da CNRS) rilasciato con il paper FlauBERT: Unsupervised Language Model Pre-training for French da Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab.
FLAVA (da Facebook AI) rilasciato con il paper FLAVA: A Foundational Language And Vision Alignment Model da Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, e Douwe Kiela.
FNet (da Google Research) rilasciato con il paper FNet: Mixing Tokens with Fourier Transforms da James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon.
Funnel Transformer (da CMU/Google Brain) rilasciato con il paper Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing da Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le.
GLPN (da KAIST) rilasciato con il paper Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth da Doyeon Kim, Woonghyun Ga, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, Junmo Kim.
GPT (da OpenAI) rilasciato con il paper Improving Language Understanding by Generative Pre-Training da Alec Radford, Karthik Narasimhan, Tim Salimans e Ilya Sutskever.
GPT-2 (da OpenAI) rilasciato con il paper Language Models are Unsupervised Multitask Learners da Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodeie Ilya Sutskever.
GPT-J (da EleutherAI) rilasciato nel repository kingoflolz/mesh-transformer-jax da Ben Wang e Aran Komatsuzaki.
GPT Neo (da EleutherAI) rilasciato nel repository EleutherAI/gpt-neo da Sid Black, Stella Biderman, Leo Gao, Phil Wang e Connor Leahy.
GPT NeoX (da EleutherAI) rilasciato con il paper GPT-NeoX-20B: An Open-Source Autoregressive Language Model da Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, Samuel Weinbach
Hubert (da Facebook) rilasciato con il paper HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units da Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed.
I-BERT (da Berkeley) rilasciato con il paper I-BERT: Integer-only BERT Quantization da Sehoon Kim, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer.
ImageGPT (da OpenAI) rilasciato con il paper Generative Pretraining from Pixels da Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, Ilya Sutskever.
LayoutLM (da Microsoft Research Asia) rilasciato con il paper LayoutLM: Pre-training of Text and Layout for Document Image Understanding da Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou.
LayoutLMv2 (da Microsoft Research Asia) rilasciato con il paper LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding da Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou.
LayoutLMv3 (da Microsoft Research Asia) rilasciato con il paper LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking da Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei.
LayoutXLM (da Microsoft Research Asia) rilasciato con il paper LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding da Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei.
LED (da AllenAI) rilasciato con il paper Longformer: The Long-Document Transformer da Iz Beltagy, Matthew E. Peters, Arman Cohan.
Longformer (da AllenAI) rilasciato con il paper Longformer: The Long-Document Transformer da Iz Beltagy, Matthew E. Peters, Arman Cohan.
LUKE (da Studio Ousia) rilasciato con il paper LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention da Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto.
mLUKE (da Studio Ousia) rilasciato con il paper mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models da Ryokan Ri, Ikuya Yamada, e Yoshimasa Tsuruoka.
LXMERT (da UNC Chapel Hill) rilasciato con il paper LXMERT: Learning Cross-Modality Encoder Representations from Transformers for Open-Domain Question Answering da Hao Tan e Mohit Bansal.
M2M100 (da Facebook) rilasciato con il paper Beyond English-Centric Multilingual Machine Translation da Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin.
MarianMT Modello di machine learning per le traduzioni allenato utilizzando i dati OPUS di Jörg Tiedemann. Il Framework Marian è stato sviluppato dal Microsoft Translator Team.
MaskFormer (da Meta and UIUC) rilasciato con il paper Per-Pixel Classification is Not All You Need for Semantic Segmentation da Bowen Cheng, Alexander G. Schwing, Alexander Kirillov.
MBart (da Facebook) rilasciato con il paper Multilingual Denoising Pre-training for Neural Machine Translation da Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer.
MBart-50 (da Facebook) rilasciato con il paper Multilingual Translation with Extensible Multilingual Pretraining and Finetuning da Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan.
Megatron-BERT (da NVIDIA) rilasciato con il paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism da Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper e Bryan Catanzaro.
Megatron-GPT2 (da NVIDIA) rilasciato con il paper Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism da Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper e Bryan Catanzaro.
MPNet (da Microsoft Research) rilasciato con il paper MPNet: Masked and Permuted Pre-training for Language Understanding da Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu.
MT5 (da Google AI) rilasciato con il paper mT5: A massively multilingual pre-trained text-to-text transformer da Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel.
Nyströmformer (dalla Università del Wisconsin - Madison) rilasciato con il paper Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention da Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh.
OPT (da Meta AI) rilasciato con il paper OPT: Open Pre-trained Transformer Language Models da Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen et al.
Pegasus (da Google) rilasciato con il paper PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization da Jingqing Zhang, Yao Zhao, Mohammad Saleh e Peter J. Liu.
Perceiver IO (da Deepmind) rilasciato con il paper Perceiver IO: A General Architecture for Structured Inputs & Outputs da Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira.
PhoBERT (da VinAI Research) rilasciato con il paper PhoBERT: Pre-trained language models for Vietnamese da Dat Quoc Nguyen e Anh Tuan Nguyen.
PLBart (da UCLA NLP) rilasciato con il paper Unified Pre-training for Program Understanding and Generation da Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang.
PoolFormer (da Sea AI Labs) rilasciato con il paper MetaFormer is Actually What You Need for Vision da Yu, Weihao e Luo, Mi e Zhou, Pan e Si, Chenyang e Zhou, Yichen e Wang, Xinchao e Feng, Jiashi e Yan, Shuicheng.
ProphetNet (da Microsoft Research) rilasciato con il paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training da Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang e Ming Zhou.
QDQBert (da NVIDIA) rilasciato con il paper Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation da Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev e Paulius Micikevicius.
REALM (da Google Research) rilasciato con il paper REALM: Retrieval-Augmented Language Model Pre-Training da Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat e Ming-Wei Chang.
Reformer (da Google Research) rilasciato con il paper Reformer: The Efficient Transformer da Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya.
RemBERT (da Google Research) rilasciato con il paper Rethinking embedding coupling in pre-trained language models da Hyung Won Chung, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder.
RegNet (da META Platforms) rilasciato con il paper Designing Network Design Space da Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár.
ResNet (da Microsoft Research) rilasciato con il paper Deep Residual Learning for Image Recognition da Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun.
RoBERTa (da Facebook), rilasciato assieme al paper RoBERTa: A Robustly Optimized BERT Pretraining Approach da Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov.
RoFormer (da ZhuiyiTechnology), rilasciato assieme al paper RoFormer: Enhanced Transformer with Rotary Position Embedding da Jianlin Su e Yu Lu e Shengfeng Pan e Bo Wen e Yunfeng Liu.
SegFormer (da NVIDIA) rilasciato con il paper SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers da Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo.
SEW (da ASAPP) rilasciato con il paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition da Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
SEW-D (da ASAPP) rilasciato con il paper Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition da Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
SpeechToTextTransformer (da Facebook), rilasciato assieme al paper fairseq S2T: Fast Speech-to-Text Modeling with fairseq da Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino.
SpeechToTextTransformer2 (da Facebook), rilasciato assieme al paper Large-Scale Self- and Semi-Supervised Learning for Speech Translation da Changhan Wang, Anne Wu, Juan Pino, Alexei Baevski, Michael Auli, Alexis Conneau.
Splinter (dalla Università di Tel Aviv), rilasciato assieme al paper Few-Shot Question Answering by Pretraining Span Selection da Ori Ram, Yuval Kirstain, Jonathan Berant, Amir Globerson, Omer Levy.
SqueezeBert (da Berkeley) rilasciato con il paper SqueezeBERT: What can computer vision teach NLP about efficient neural networks? da Forrest N. Iandola, Albert E. Shaw, Ravi Krishna, e Kurt W. Keutzer.
Swin Transformer (da Microsoft) rilasciato con il paper Swin Transformer: Hierarchical Vision Transformer using Shifted Windows da Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo.
T5 (da Google AI) rilasciato con il paper Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer da Colin Raffel e Noam Shazeer e Adam Roberts e Katherine Lee e Sharan Narang e Michael Matena e Yanqi Zhou e Wei Li e Peter J. Liu.
T5v1.1 (da Google AI) rilasciato nel repository google-research/text-to-text-transfer-transformer da Colin Raffel e Noam Shazeer e Adam Roberts e Katherine Lee e Sharan Narang e Michael Matena e Yanqi Zhou e Wei Li e Peter J. Liu.
TAPAS (da Google AI) rilasciato con il paper TAPAS: Weakly Supervised Table Parsing via Pre-training da Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno e Julian Martin Eisenschlos.
TAPEX (da Microsoft Research) rilasciato con il paper TAPEX: Table Pre-training via Learning a Neural SQL Executor da Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou.
Trajectory Transformer (dall’Università della California a Berkeley) rilasciato con il paper Offline Reinforcement Learning as One Big Sequence Modeling Problem da Michael Janner, Qiyang Li, Sergey Levine
Transformer-XL (da Google/CMU) rilasciato con il paper Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context da Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
TrOCR (da Microsoft), rilasciato assieme al paper TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models da Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei.
UniSpeech (da Microsoft Research) rilasciato con il paper UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data da Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang.
UniSpeechSat (da Microsoft Research) rilasciato con il paper UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING da Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
VAN (dalle Università di Tsinghua e Nankai) rilasciato con il paper Visual Attention Network da Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu.
ViLT (da NAVER AI Lab/Kakao Enterprise/Kakao Brain) rilasciato con il paper ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision da Wonjae Kim, Bokyung Son, Ildoo Kim.
Vision Transformer (ViT) (da Google AI) rilasciato con il paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale da Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby.
ViTMAE (da Meta AI) rilasciato con il paper Masked Autoencoders Are Scalable Vision Learners da Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick.
VisualBERT (da UCLA NLP) rilasciato con il paper VisualBERT: A Simple and Performant Baseline for Vision and Language da Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang.
WavLM (da Microsoft Research) rilasciato con il paper WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing da Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei.
Wav2Vec2 (da Facebook AI) rilasciato con il paper wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations da Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli.
Wav2Vec2Phoneme (da Facebook AI) rilasciato con il paper Simple and Effective Zero-shot Cross-lingual Phoneme Recognition da Qiantong Xu, Alexei Baevski, Michael Auli.
XGLM (da Facebook AI) rilasciato con il paper Few-shot Learning with Multilingual Language Models da Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li.
XLM (v Facebook) rilasciato assieme al paper Cross-lingual Language Model Pretraining da Guillaume Lample e Alexis Conneau.
XLM-ProphetNet (da Microsoft Research) rilasciato con il paper ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training da Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang e Ming Zhou.
XLM-RoBERTa (da Facebook AI), rilasciato assieme al paper Unsupervised Cross-lingual Representation Learning at Scale da Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer e Veselin Stoyanov.
XLM-RoBERTa-XL (da Facebook AI), rilasciato assieme al paper Larger-Scale Transformers for Multilingual Masked Language Modeling da Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau.
XLNet (da Google/CMU) rilasciato con il paper XLNet: Generalized Autoregressive Pretraining for Language Understanding da Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le.
XLSR-Wav2Vec2 (da Facebook AI) rilasciato con il paper Unsupervised Cross-Lingual Representation Learning For Speech Recognition da Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli.
XLS-R (da Facebook AI) rilasciato con il paper XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale da Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli.
YOLOS (dalla Università della scienza e tecnologia di Huazhong) rilasciato con il paper You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection da Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu.
YOSO (dall’Università del Wisconsin - Madison) rilasciato con il paper You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling da Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh.

Framework supportati

La tabella seguente rappresenta il supporto attuale nella libreria per ognuno di questi modelli, si può identificare se questi hanno un Python tokenizer (chiamato “slow”). Un tokenizer “fast” supportato dalla libreria 🤗 Tokenizers, e se hanno supporto in Jax (via Flax), PyTorch, e/o TensorFlow.

Model	Tokenizer slow	Tokenizer fast	PyTorch support	TensorFlow support	Flax Support
ALBERT	✅	✅	✅	✅	✅
BART	✅	✅	✅	✅	✅
BEiT	❌	❌	✅	❌	✅
BERT	✅	✅	✅	✅	✅
Bert Generation	✅	❌	✅	❌	❌
BigBird	✅	✅	✅	❌	✅
BigBirdPegasus	❌	❌	✅	❌	❌
Blenderbot	✅	✅	✅	✅	✅
BlenderbotSmall	✅	✅	✅	✅	✅
CamemBERT	✅	✅	✅	✅	❌
Canine	✅	❌	✅	❌	❌
CLIP	✅	✅	✅	✅	✅
ConvBERT	✅	✅	✅	✅	❌
ConvNext	❌	❌	✅	✅	❌
CTRL	✅	❌	✅	✅	❌
CvT	❌	❌	✅	❌	❌
Data2VecAudio	❌	❌	✅	❌	❌
Data2VecText	❌	❌	✅	❌	❌
Data2VecVision	❌	❌	✅	✅	❌
DeBERTa	✅	✅	✅	✅	❌
DeBERTa-v2	✅	✅	✅	✅	❌
Decision Transformer	❌	❌	✅	❌	❌
DeiT	❌	❌	✅	❌	❌
DETR	❌	❌	✅	❌	❌
DistilBERT	✅	✅	✅	✅	✅
DPR	✅	✅	✅	✅	❌
DPT	❌	❌	✅	❌	❌
ELECTRA	✅	✅	✅	✅	✅
Encoder decoder	❌	❌	✅	✅	✅
FairSeq Machine-Translation	✅	❌	✅	❌	❌
FlauBERT	✅	❌	✅	✅	❌
Flava	❌	❌	✅	❌	❌
FNet	✅	✅	✅	❌	❌
Funnel Transformer	✅	✅	✅	✅	❌
GLPN	❌	❌	✅	❌	❌
GPT Neo	❌	❌	✅	❌	✅
GPT NeoX	❌	✅	✅	❌	❌
GPT-J	❌	❌	✅	✅	✅
Hubert	❌	❌	✅	✅	❌
I-BERT	❌	❌	✅	❌	❌
ImageGPT	❌	❌	✅	❌	❌
LayoutLM	✅	✅	✅	✅	❌
LayoutLMv2	✅	✅	✅	❌	❌
LayoutLMv3	✅	✅	✅	❌	❌
LED	✅	✅	✅	✅	❌
Longformer	✅	✅	✅	✅	❌
LUKE	✅	❌	✅	❌	❌
LXMERT	✅	✅	✅	✅	❌
M2M100	✅	❌	✅	❌	❌
Marian	✅	❌	✅	✅	✅
MaskFormer	❌	❌	✅	❌	❌
mBART	✅	✅	✅	✅	✅
MegatronBert	❌	❌	✅	❌	❌
MobileBERT	✅	✅	✅	✅	❌
MPNet	✅	✅	✅	✅	❌
mT5	✅	✅	✅	✅	✅
Nystromformer	❌	❌	✅	❌	❌
OpenAI GPT	✅	✅	✅	✅	❌
OpenAI GPT-2	✅	✅	✅	✅	✅
OPT	❌	❌	✅	❌	❌
Pegasus	✅	✅	✅	✅	✅
Perceiver	✅	❌	✅	❌	❌
PLBart	✅	❌	✅	❌	❌
PoolFormer	❌	❌	✅	❌	❌
ProphetNet	✅	❌	✅	❌	❌
QDQBert	❌	❌	✅	❌	❌
RAG	✅	❌	✅	✅	❌
Realm	✅	✅	✅	❌	❌
Reformer	✅	✅	✅	❌	❌
RegNet	❌	❌	✅	❌	❌
RemBERT	✅	✅	✅	✅	❌
ResNet	❌	❌	✅	❌	❌
RetriBERT	✅	✅	✅	❌	❌
RoBERTa	✅	✅	✅	✅	✅
RoFormer	✅	✅	✅	✅	✅
SegFormer	❌	❌	✅	❌	❌
SEW	❌	❌	✅	❌	❌
SEW-D	❌	❌	✅	❌	❌
Speech Encoder decoder	❌	❌	✅	❌	✅
Speech2Text	✅	❌	✅	✅	❌
Speech2Text2	✅	❌	❌	❌	❌
Splinter	✅	✅	✅	❌	❌
SqueezeBERT	✅	✅	✅	❌	❌
Swin	❌	❌	✅	✅	❌
T5	✅	✅	✅	✅	✅
TAPAS	✅	❌	✅	✅	❌
Trajectory Transformer	❌	❌	✅	❌	❌
Transformer-XL	✅	❌	✅	✅	❌
TrOCR	❌	❌	✅	❌	❌
UniSpeech	❌	❌	✅	❌	❌
UniSpeechSat	❌	❌	✅	❌	❌
VAN	❌	❌	✅	❌	❌
ViLT	❌	❌	✅	❌	❌
Vision Encoder decoder	❌	❌	✅	✅	✅
VisionTextDualEncoder	❌	❌	✅	❌	✅
VisualBert	❌	❌	✅	❌	❌
ViT	❌	❌	✅	✅	✅
ViTMAE	❌	❌	✅	✅	❌
Wav2Vec2	✅	❌	✅	✅	✅
Wav2Vec2-Conformer	❌	❌	✅	❌	❌
WavLM	❌	❌	✅	❌	❌
XGLM	✅	✅	✅	❌	✅
XLM	✅	❌	✅	✅	❌
XLM-RoBERTa	✅	✅	✅	✅	✅
XLM-RoBERTa-XL	❌	❌	✅	❌	❌
XLMProphetNet	✅	❌	✅	❌	❌
XLNet	✅	✅	✅	✅	❌
YOLOS	❌	❌	✅	❌	❌
YOSO	❌	❌	✅	❌	❌