course documentation
đ¤ Transformers áá˝áąá ááŻááşáááşá¸ááŹáááşáá˝áąááᯠáááşáááŻááźáąáážááşá¸ááąá¸áá˛á
đ¤ Transformers áá˝áąá ááŻááşáááşá¸ááŹáááşáá˝áąááᯠáááşáááŻááźáąáážááşá¸ááąá¸áá˛á
âTransformers áá˝áąá ááŹáá˝áąááŻááşáááŻááşáá˛áâ áážáŹ Natural Language Processing (NLP)á speech and audio, computer vision ááŻááşáááşá¸ááŹáááşáá˝áąáá˛áˇ áááşá¸áááŻáˇáá˛áˇ áĄááąá¸ááźáŽá¸áá˛áˇ áĄááŻáśá¸ááťáážáŻáá˝áąáĄááźáąáŹááşá¸ááᯠáááşáá°áá˛áˇááźáŽá¸ááŤááźáŽá ááŽá áŹááťááşáážáŹáááąáŹáˇ ááąáŹáşáááşáá˝áąá ááŽááŻááşáááşá¸ááŹáááşáá˝áąááᯠáááşáááŻááźáąáážááşá¸ááąá¸áá˛áááŻááŹááᯠáĄááąá¸á áááşááąáˇááŹááźáŽá¸á áĄáá˝ááşá¸áááŻááşá¸áážáŹ ááŹáá˝áąááźá áşááťááşááąáá˛áááŻááŹááᯠáážááşá¸ááźááąá¸áážáŹááŤá ááŻááşáááşá¸ááŹáááşáá áşááŻááᯠááźáąáážááşá¸áááŻáˇ áááşá¸áááşá¸ááťáŹá¸á á˝áŹáážáááŤáááşá áĄááťááŻáˇááąáŹáşáááşáá˝áąá áááşá¸á áá áşáĄááťááŻáˇááᯠáĄááŻáśá¸ááźáŻáááŻááşáááᯠááŻááşáááşá¸ááŹáááşááᯠááťááşá¸áááşááŻáśáĄáá áşáá áşááŻáááąááąáŹááş ááťááşá¸áááşáááŻááşááŤáááşá ááŤááąáááˇáş Transformer ááąáŹáşáááşáá˝áąáĄáá˝ááşááąáŹáˇ áĄááźáąááśáááąáŹáááŹá¸á áĄáá°áá°ááŤáá˛á áááşá¸áááŻáˇáá˛áˇ ááźáąáŹááşá¸áá˝ááşááźááşáá˝ááşáážááá˛áˇ architecture ááźáąáŹááˇáş ááąáŹáşáááşáĄááťáŹá¸á áŻáᏠencoder, decoder áááŻáˇáááŻááş encoder-decoder áá˝á˛áˇá ááşá¸ááŻáśáá˛áˇ áĄááťááŻá¸áĄá áŹá¸áá˝á˛ (variant) áá áşáᯠááźá áşááŤáááşá
ááŽá¸ááźáŹá¸ architectural variants áá˝áąáᲠááááşáááşáážáŹá ááŻááşáááşá¸ááŹáááşáĄááťáŹá¸á áŻáᏠáĄááŹá¸áá° ááŻáśá áśáá áşááŻááᯠáááŻááşááŹáááşáááŻáᏠááŹá¸áááşááŹá¸áááŻáˇ áĄááąáŹááşáĄáá°ááźá áşááŤáááşá input data ááᯠááąáŹáşáááşáááąáá áşáááˇáş ááŻááşááąáŹááşááźáŽá¸ output ááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸áá áşááŻáĄáá˝ááş áĄáááşááźááşááŤáááşá áá˝áŹááźáŹá¸ááťááşáá˝áąáááąáŹáˇ data ááᯠáááşáááŻááźááşáááşááŹá¸áá˛á áááşááąáŹáşáááş architecture variant ááᯠáĄááŻáśá¸ááźáŻááŹá¸áá˛á ááźáŽá¸ááąáŹáˇ output ááᯠáááşááᯠááŻááşááąáŹááşááŹá¸áá˛áááŻááŹáá˝áąááŤáá˛á
ááŻááşáááşá¸ááŹáááşáá˝áąááᯠáááşáááŻááźáąáážááşá¸áá˛áááŻáᏠáážááşá¸ááźáááŻáˇáĄáá˝ááş ááąáŹáşáááşáĄáá˝ááşá¸áážáŹ ááŹáá˝áąááźá áşááťááşááźáŽá¸ áĄááŻáśá¸áááşáá˛áˇ áááˇáşáážááşá¸ááťááşáá˝áąááᯠááŻááşááąá¸áá˛áááŻááŹááᯠááźááˇáşáá˝áŹá¸ááŤáááşá ááťá˝ááşááąáŹáşáááŻáˇ áĄáąáŹááşááŤááąáŹáşáááşáá˝áąáá˛áˇ áááşá¸áááŻáˇáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąááᯠááąáˇááŹááŤáááşá
- Wav2Vec2 ááᯠaudio classification áá˛áˇ automatic speech recognition (ASR) áĄáá˝ááş
- Vision Transformer (ViT) áá˛áˇ ConvNeXT ááᯠimage classification áĄáá˝ááş
- DETR ááᯠobject detection áĄáá˝ááş
- Mask2Former ááᯠimage segmentation áĄáá˝ááş
- GLPN ááᯠdepth estimation áĄáá˝ááş
- BERT ááᯠencoder áááŻáĄááŻáśá¸ááźáŻáá˛áˇ text classification, token classification áá˛áˇ question answering ááᯠNLP ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş
- GPT2 ááᯠdecoder áááŻáĄááŻáśá¸ááźáŻáá˛áˇ text generation ááᯠNLP ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş
- BART ááᯠencoder-decoder áááŻáĄááŻáśá¸ááźáŻáá˛áˇ summarization áá˛áˇ translation ááᯠNLP ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş
áááşááá˝áŹá¸áááşáážáŹ áá°áááşá¸ Transformer architecture áá˛áˇ áĄááźáąááśáĄáááááŹáĄááťááŻáˇ áážáááŹá¸áᏠááąáŹááşá¸ááŤáááşá encoders, decoders áá˛áˇ attention áá˝áą áááşáááŻáĄááŻááşááŻááşáá˛áááŻááŹááᯠááááŹá¸áááş Transformer ááąáŹáşáááşáĄááťááŻá¸ááťááŻá¸ áááşáááŻáĄááŻááşááŻááşáá˛áááŻáᏠááŹá¸áááşáááŻáˇ áĄááąáŹááşáĄáá°ááźá áşááŤááááˇáşáááşá áĄááąá¸á áááşáĄááťááşáĄáááşáá˝áąáĄáá˝ááş ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ áĄáááşáĄáááşá¸ ááᯠááąááťáŹááźááˇáşáážáŻááąá¸ááŤá
ááŹááŹá ááŹá¸áĄáá˝ááş Transformer ááąáŹáşáááşááťáŹá¸
ááŹááŹá ááŹá¸ááąáŹáşáááşáá˝áąáᏠááąááşáá áş NLP áá˛áˇ áĄááááĄááťááşáĄááťáŹáážáŹ áážáááŤáááşá áááşá¸áááŻáˇááᯠá áŹááŹá¸áá˝áąáá˛á á ááŹá¸ááŻáśá¸áá˝áą ááŤáážáááŻááş tokens áá˝áąááźáŹá¸á á áŹáááşá¸áĄááşá¸áááŻááşáᏠááŻáśá áśáá˝áąáá˛áˇ áááşáá˝ááşáážáŻáá˝áąááᯠáááşáá°ááźááşá¸ááźááˇáş áá°ááŹá¸ááŹááŹá ááŹá¸ááᯠááŹá¸áááşááźáŽá¸ áááşááŽá¸áááŻááşáĄáąáŹááş ááŽáááŻááşá¸ááŻááşááŹá¸ááŤáááşá
Transformer ááᯠáá°áá machine translation áĄáá˝ááş ááŽáááŻááşá¸ááŻááşáá˛áˇááŹááźá áşááźáŽá¸á áĄá˛ááŽáĄááťáááşááááşá¸á AI ááŻááşáááşá¸ááŹáááşáĄáŹá¸ááŻáśá¸ááᯠááźáąáážááşá¸áááŻáˇáĄáá˝ááş áĄááźáąááś architecture áá áşáᯠááźá áşááŹáá˛áˇááŤáááşá áĄááťááŻáˇááŻááşáááşá¸ááŹáááşáá˝áąá Transformer áá˛áˇ encoder áá˝á˛áˇá ááşá¸ááŻáśáá˛áˇ áááŻáááˇáşááąáŹáşááźáŽá¸ áĄááťááŻáˇáááąáŹáˇ decoder áá˛áˇ áááŻáááŻááşáááşááŤáááşá áááŻáˇááąáŹáş áĄááťááŻáˇááŻááşáááşá¸ááŹáááşáá˝áąáááąáŹáˇ Transformer áá˛áˇ encoder-decoder áá˝á˛áˇá ááşá¸ááŻáś áážá áşááŻááŻáśá¸ááᯠáĄááŻáśá¸ááźáŻááŤáááşá
ááŹááŹá ááŹá¸ááąáŹáşáááş(language models)áá˝áą áááşáááŻáĄááŻááşááŻááşáá˛á
ááŹááŹá ááŹá¸ááąáŹáşáááşáá˝áąáᏠáááşáááşá¸ááťááşáážá á ááŹá¸ááŻáśá¸áá˝áąáá˛áˇ áĄááźáąáŹááşá¸áĄáᏠ(context) ááᯠááąá¸ááŹá¸ááźáŽá¸ á ááŹá¸ááŻáśá¸áá áşááŻáśá¸áá˛áˇ ááźá áşáááŻááşááźáą (probability) ááᯠáááˇáşáážááşá¸áááŻáˇ ááąáˇááťááˇáşááąá¸ááźááşá¸ááźááˇáş áĄááŻááşááŻááşááŤáááşá ááŤá áááşá¸áááŻáˇááᯠááŹááŹá ááŹá¸ááᯠáĄááźáąááśááŹá¸áááşá áąááźáŽá¸ áĄááźáŹá¸ááŻááşáááşá¸ááŹáááşáá˝áąááŽááᯠááąááŻááť (generalize) ááŻááşáááŻááşá áąááŤáááşá
Transformer ááąáŹáşáááşáá áşááŻááᯠááąáˇááťááˇáşáááŻáˇáĄáá˝ááş áĄááá ááťááşá¸áááşááŻáśáážá áşááťááŻá¸áážáááŤáááşá
Masked language modeling (MLM): BERT ááᯠencoder ááąáŹáşáááşáá˝áą áĄááŻáśá¸ááźáŻáá˛áˇ ááŽááťááşá¸áááşááŻáśá input áážáŹáážááá˛áˇ tokens áĄááťááŻáˇááᯠááťáááşá¸ááŻáśá¸áá˝ááşááŹá¸ááźáŽá¸á áááşáááşá¸ááťááşáážá context ááąáŤáş áĄááźáąááśááźáŽá¸ áá°áááşá¸ tokens áá˝áąááᯠáááˇáşáážááşá¸áááŻáˇ ááąáŹáşáááşááᯠááąáˇááťááˇáşááąá¸ááŤáááşá ááŤá ááąáŹáşáááşááᯠáážá áşáááşá¸áá˝áŹá¸ context (ááŻáśá¸áá˝ááşááŹá¸áá˛áˇ á ááŹá¸ááŻáśá¸áá˛áˇ áĄáážáąáˇáá˛áˇ áĄááąáŹááş áážá áşáááşááŻáśá¸á á ááŹá¸ááŻáśá¸áá˝áąááᯠááźááˇáşááźááşá¸) ááᯠáááşáá°áááŻááşá áąááŤáááşá
Causal language modeling (CLM): GPT ááᯠdecoder ááąáŹáşáááşáá˝áą áĄááŻáśá¸ááźáŻáá˛áˇ ááŽááťááşá¸áááşááŻáśáááąáŹáˇ sequence áá˛áážáŹáážááá˛áˇ áĄáááş tokens áĄáŹá¸ááŻáśá¸ááąáŤáş áĄááźáąááśááźáŽá¸ ááąáŹááş token ááᯠáááˇáşáážááşá¸ááŤáááşá ááąáŹáşáááşáᏠááąáŹááş token ááᯠáááˇáşáážááşá¸áááŻáˇ áááşáááş (áĄáááş tokens) á context áááŻáᏠáĄááŻáśá¸ááźáŻáááŻááşááŤáááşá
ááŹááŹá ááŹá¸ááąáŹáşáááş áĄááťááŻá¸áĄá áŹá¸ááťáŹá¸
Transformers library áážáŹ ááŹááŹá ááŹá¸ááąáŹáşáááşáá˝áąáᏠáĄááťáŹá¸áĄáŹá¸ááźááˇáş architectural categories ááŻáśá¸ááťááŻá¸áĄáąáŹááşáážáŹ áážáááŤáááşá
Encoder-only models (BERT áá˛áˇáááŻáˇ): ááŽááąáŹáşáááşáá˝áąáᏠáážá áşáááşá¸áá˝áŹá¸ ááťááşá¸áááşááŻáśááᯠáĄááŻáśá¸ááźáŻááźáŽá¸ context ááᯠáážá áşáááşááŻáśá¸áááą ááŹá¸áááşááŤáááşá áááşá¸áááŻáˇáᏠclassification, named entity recognition áá˛áˇ question answering ááᯠá áŹááŹá¸ááᯠáááşáááşáá˛áᲠááŹá¸áááşáááŻáˇ áááŻáĄááşáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş áĄáááˇáşááąáŹáşááŻáśá¸ ááźá áşááŤáááşá
Decoder-only models (GPT, Llama áá˛áˇáááŻáˇ): ááŽááąáŹáşáááşáá˝áąáᏠá áŹááŹá¸ááᯠáááşáážááŹáááŻáˇ ááŻááşááąáŹááşááźáŽá¸ text generation ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ áĄáá°á¸ááąáŹááşá¸áá˝ááşááŤáááşá áááşá¸áááŻáˇáᏠá áŹááźáąáŹááşá¸áá˝áą ááźááˇáşá á˝ááşááŹá á áŹá áŽá áŹááŻáśá¸ááąá¸áᏠááŤáážáááŻááş prompt ááąáŤáş áĄááźáąááśááźáŽá¸ code ááąá¸ááŹááťááŻá¸áá˝áąááąáŹááş ááŻááşáááŻááşááŤáááşá
Encoder-decoder models (T5, BART áá˛áˇáááŻáˇ): ááŽááąáŹáşáááşáá˝áąáᏠááťááşá¸áááşááŻáśáážá áşááťááŻá¸ááŻáśá¸ááᯠááąáŤááşá¸á ááşááŹá¸ááŤáááşá input ááᯠááŹá¸áááşáááŻáˇ encoder ááᯠáĄááŻáśá¸ááźáŻááźáŽá¸ output ááᯠááŻááşááąá¸áááŻáˇ decoder ááᯠáĄááŻáśá¸ááźáŻááŤáááşá áááşá¸áááŻáˇáᏠtranslation, summarization áá˛áˇ question answering ááᯠsequence-to-sequence ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ áá°á¸ááťá˝ááşááŤáááşá

áĄáááşáĄáááşá¸áážáŹ áá˝áąá¸áá˝áąá¸áá˛áˇááááŻáᲠááŹááŹá ááŹá¸ááąáŹáşáááşáá˝áąááᯠááťáŹá¸ááźáŹá¸áážáá˛áˇ á áŹááŹá¸ááąááŹáá˝áąáá˛áˇ self-supervised áááşá¸áááşá¸ (human annotations áááŤáá˛) áá˛áˇ ááźááŻáááşááąáˇááťááˇáşááąáˇáážáááźáŽá¸á ááźáŽá¸ááž ááŽá¸ááźáŹá¸ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş fine-tune ááŻááşááŤáááşá transfer learning áááŻáˇááąáŤáşáá˛áˇ ááŽááťááşá¸áááşááŻáśá ááąáŹáşáááşáá˝áąááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸ááŹáááşáĄáá˝ááş áááşá¸ááŤá¸áá˛áˇ ááąááŹáááŹááá˛áˇ ááá°ááŽáá˛áˇ NLP ááŻááşáááşá¸ááŹáááşááťáŹá¸á á˝áŹááᯠáááŻááşááťáąáŹááŽáá˝áąááźá áşáĄáąáŹááş ááŻááşááąáŹááşáááŻááşá áąááŤáááşá
áĄáąáŹááşááŤáĄáááşá¸áá˝áąáážáŹááąáŹáˇ ááŽá¸ááźáŹá¸ááąáŹáşáááş architecture áá˝áąááᯠáááşáááŻáĄááŻáśá¸ááźáŻááźáŽá¸ speech, vision áá˛áˇ text domains áá˝áąáá áşááťážáąáŹááş ááŻááşáááşá¸ááŹáááşáĄááťááŻá¸ááťááŻá¸ááᯠáááşáááŻááźáąáážááşá¸áááşáááŻááŹááᯠááąáˇááŹáá˝áŹá¸ááŤáááşá
Transformer architecture áá˛áˇ áááşáĄáááŻááşá¸ (encoder, decoder ááŤáážáááŻááş áážá áşááŻááŻáśá¸) á ááŽá¸ááźáŹá¸ NLP ááŻááşáááşá¸ááŹáááşáá áşááŻáĄáá˝ááş áĄáááˇáşááąáŹáşááŻáśá¸áá˛áááŻáᏠááŹá¸áááşááŹá¸ááŹáᏠáážááşáááşáá˛áˇááąáŹáşáááşááᯠáá˝áąá¸ááťááşáááŻáˇ áĄáááááťááŤáááşá ááąááŻááťáĄáŹá¸ááźááˇáş áážá áşáááşá¸áá˝áŹá¸ context áááŻáĄááşáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąá encoders ááᯠáĄááŻáśá¸ááźáŻááźáŽá¸á text generate ááŻááşáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąá decoders ááᯠáĄááŻáśá¸ááźáŻááŹá sequence áá áşááŻááᯠááąáŹááş sequence áá áşááŻáááŻáˇ ááźáąáŹááşá¸áá˛áá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąáááąáŹáˇ encoder-decoders ááᯠáĄááŻáśá¸ááźáŻááŤáááşá
á áŹááŹá¸ áááşááŽá¸ááźááşá¸ (Text generation)
á áŹááŹá¸ áááşááŽá¸ááźááşá¸áááŻááŹá prompt ááŤáážáááŻááş input áá áşááŻáĄááąáŤáş áĄááźáąááśááźáŽá¸ áááşá ááşáážáŻáážááá˛áˇ á áŹááŹá¸áá˝áąááᯠáááşááŽá¸ááŹááᯠáááŻáááŻááŤáááşá
GPT-2 áᏠááťáŹá¸ááźáŹá¸áážáá˛áˇ á áŹááŹá¸áá˝áąáá˛áˇ ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ decoder-only ááąáŹáşáááşáá áşááŻááŤá áááşá¸áᏠprompt áá áşááŻááąá¸ááŹá¸áááş ááŻáśááźááşáááŻááşááąáŹááşáá˛áˇ (áĄááźá˛áááşá¸ááąáŹáˇ áááŻááşáá°á¸) á áŹááŹá¸áá˝áąááᯠáááşááŽá¸áááŻááşááźáŽá¸á ááąá¸áá˝ááşá¸ááźáąááŹááᯠáĄááźáŹá¸ NLP ááŻááşáááşá¸ááŹáááşáá˝áąáááŻáááşá¸ áážááşá¸áážááşá¸áááşá¸áááşá¸ ááąáˇááťááˇáşááŹá¸ááźááşá¸ááážááᲠááŻááşááąáŹááşáááŻááşááŤáááşá

GPT-2 áᏠá ááŹá¸ááŻáśá¸áá˝áąááᯠtokenize ááŻááşááźáŽá¸ token embedding áá˝áą ááŻááşááąá¸áááŻáˇáĄáá˝ááş byte pair encoding (BPE) ááᯠáĄááŻáśá¸ááźáŻááŤáááşá sequence áá˛áážáŹ token áá áşááŻááťááşá¸á áŽáá˛áˇ ááąááŹááᯠááźááááŻáˇ positional encodings áá˝áąááᯠtoken embeddings áá˝áąáážáŹ áááşáááˇáşááŤáááşá input embeddings áá˝áąááᯠdecoder blocks áĄááťáŹá¸áĄááźáŹá¸áááąááááˇáş ááźááşáááşá¸ááźáŽá¸ final hidden state áĄááťááŻáˇááᯠááŻááşááąá¸ááŤáááşá decoder block áá áşááŻá áŽáĄáá˝ááşá¸áážáŹ GPT-2 á masked self-attention layer ááᯠáĄááŻáśá¸ááźáŻááŤáááşá áááŻáááŻááŹá GPT-2 áᏠááąáŹááşááŹáááˇáş tokens áá˝áąááᯠáááźááˇáşáááŻááşááŤáá°á¸á áááşáááş (áĄáááş tokens) á tokens áá˝áąáááŻáᏠááźááˇáşáá˝ááˇáşáážáááŤáááşá ááŤá BERT áá˛áˇ [
mask] token áá˛áˇ ááá°ááŤáá°á¸á ááŹáááŻáˇáá˛áááŻááąáŹáˇ masked self-attention áážáŹ future tokens áá˝áąáĄáá˝ááş score áááŻ0áááşáážááşáááŻáˇ attention mask ááᯠáĄááŻáśá¸ááźáŻááŹá¸áááŻáˇááŤáDecoder áááą áá˝ááşááŹáá˛áˇ output ááᯠlanguage modeling head ááᯠááąá¸áááŻáˇááŤáááşá áĄá˛ááŽáááą linear transformation áá áşááŻááᯠááŻááşááąáŹááşááźáŽá¸ hidden states áá˝áąááᯠlogits áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸ááŤáááşá label áááąáŹáˇ sequence áá˛áážáŹáážááá˛áˇ ááąáŹááş token ááźá áşááźáŽá¸ logits áá˝áąááᯠááŹáááşáááŻáˇ áá áşááąáᏠáá˝ážáąáˇááźááşá¸ááźááˇáş áááşááŽá¸ááŤáááşá shifted logits áá˝áąáá˛áˇ labels áá˝áąááźáŹá¸á cross-entropy loss ááᯠáá˝ááşááťááşááźáŽá¸ ááąáŹááşááŹáááˇáş áĄááźá áşáááŻááşááŻáśá¸ token ááᯠááŻááşááąá¸ááŤáááşá
GPT-2 áá˛áˇ pretraining áááşáá˝ááşááťááşá causal language modeling ááąáŤáş áĄááźáąááśááźáŽá¸ sequence áá˛á ááąáŹááşá ááŹá¸ááŻáśá¸ááᯠáááˇáşáážááşá¸ááŹááŤá ááŤá GPT-2 ááᯠá áŹááŹá¸áááşááŽá¸ááźááşá¸áá˛áˇ áááşáááşáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ áĄáá°á¸ááąáŹááşá¸áá˝ááşá áąááŤáááşá
á áŹááŹá¸ áááşááŽá¸ááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á DistilGPT-2 ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ causal language modeling guide ááᯠááźááˇáşáážáŻááŤá
á áŹááŹá¸ áááşááŽá¸ááźááşá¸áá˛áˇ áááşáááşáá˛áˇ áĄááťááşáĄáááşáĄááťáŹá¸ááźáŽá¸áĄáá˝ááş text generation strategies guide ááᯠááźááˇáşáážáŻááŤá
á áŹááŹá¸ áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸ (Text classification)
á áŹááŹá¸ áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸áááŻáᏠá áŹááŹá¸áážááşáááşá¸áá˝áąááᯠááźááŻáááşáááşáážááşááŹá¸áá˛áˇ áĄááťááŻá¸áĄá áŹá¸áá˝áą (áĽáááŹ- sentiment analysis, topic classification, spam detection) áááŻáˇ áááşáážááşááąá¸ááŹááᯠáááŻáááŻááŤáááşá
BERT áᏠencoder-only ááąáŹáşáááşáá áşááŻááźá áşááźáŽá¸ á áŹááŹá¸ááᯠáážá áşáááşá ááŻáśá¸á á ááŹá¸ááŻáśá¸áá˝áąááᯠááźááˇáşáážáŻááźááşá¸ááźááˇáş áááŻáááŻááźá˝ááşááá˛áˇ áááŻááşá áŹá¸ááźáŻáážáŻ (representations) áá˝áąááᯠáááşáá°áááŻáˇáĄáá˝ááş deep bidirectionality ááᯠááááąáŹááşá á˝áŹ áĄááąáŹááşáĄáááşááąáŹáşáá˛áˇáá˛áˇ áááááŻáśá¸ááąáŹáşáááş ááźá áşááŤáááşá
BERT áᏠá áŹááŹá¸áá˛áˇ token embedding ááᯠááŻááşááąá¸áááŻáˇáĄáá˝ááş WordPiece tokenization ááᯠáĄááŻáśá¸ááźáŻááŤáááşá á áŹááźáąáŹááşá¸áá áşááźáąáŹááşá¸áá˛áˇ á áŹááźáąáŹááşá¸áážá áşááźáąáŹááşá¸áá˛áˇ áá˝áŹááźáŹá¸ááťááşááᯠááźáąáŹááźáááŻáˇáĄáá˝ááş áĄáá°á¸
[SEP]token áá áşááŻááᯠáá˝á˛ááźáŹá¸áááŻáˇ áááşáááˇáşááŤáááşá sequence of text áááŻááşá¸áá˛áˇ áĄá áážáŹ áĄáá°á¸[CLS]token áá áşááŻááᯠáááşáááˇáşááŤáááşá[CLS]token ááŤáá˛áˇ ááąáŹááşááŻáśá¸ output ááᯠclassification ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş classification head áá˛áˇ input áĄááźá áş áĄááŻáśá¸ááźáŻááŤáááşá BERT áᏠtoken áá áşááŻá á áŹááźáąáŹááşá¸áá áşá áŻáśáážáŹ áááá áŹááźáąáŹááşá¸ ááŤáážáááŻááş ááŻáááá áŹááźáąáŹááşá¸áážáŹ ááŤáááşáááşáááŻááŹááᯠááąáŹáşááźáááŻáˇ segment embedding áá áşááŻáááŻáááşá¸ áááşáááˇáşááŤáááşáBERT ááᯠmasked language modeling áá˛áˇ next-sentence prediction áááŻáá˛áˇ áááşáá˝ááşááťááşáážá áşááŻáá˛áˇ ááźááŻáááşááąáˇááťááˇáşááŹá¸ááŤáááşá masked language modeling áážáŹ input tokens áĄááťááŻáˇ ááŹáááŻááşáážáŻááşá¸ááᯠááťáááşá¸ááŻáśá¸áá˝ááşááŹá¸ááźáŽá¸ ááąáŹáşáááşá ááŤáá˝áąááᯠáááˇáşáážááşá¸áááŻáˇ áááŻááŤáááşá ááŤá ááąáŹáşáááşá á ááŹá¸ááŻáśá¸áĄáŹá¸ááŻáśá¸ááᯠááźááşááźáŽá¸ ááąáŹááşá ááŹá¸ááŻáśá¸ááᯠâáááˇáşáážááşá¸â áááŻááşáá˛áˇ bidirectionality ááźáżááŹááᯠááźáąáážááşá¸ááąá¸ááŤáááşá áááˇáşáážááşá¸ááŹá¸áá˛áˇ masked tokens áá˝áąáá˛áˇ final hidden states áá˝áąááᯠfeedforward network áá áşááŻááᯠááąá¸áááŻáˇááźáŽá¸ vocabulary ááąáŤáşá softmax áá˛áˇ ááŻáśá¸áá˝ááşááŹá¸áá˛áˇ á ááŹá¸ááŻáśá¸ááᯠáááˇáşáážááşá¸ááŤáááşá
ááŻááá pretraining object á next-sentence prediction ááźá áşááŤáááşá ááąáŹáşáááşáᏠá áŹááźáąáŹááşá¸ B á á áŹááźáąáŹááşá¸ A ááąáŹááşá áááŻááşáááŹá¸áááŻááŹááᯠáááˇáşáážááşá¸áááŤáááşá áĄááťáááşáá˛áˇ áááşáááşáážáŹ á áŹááźáąáŹááşá¸ B á ááąáŹááşááŹáááˇáş á áŹááźáąáŹááşá¸ááźá áşááźáŽá¸ ááťááşáááşáááşáážáŹááąáŹáˇ á áŹááźáąáŹááşá¸ B á ááťáááşá¸á áŹááźáąáŹááşá¸áá áşááźáąáŹááşá¸ ááźá áşááŤáááşá ááąáŹááşááŹáááˇáş á áŹááźáąáŹááşá¸ááŻááşáááŻááşáááŻáá˛áˇ áááˇáşáážááşá¸ááťááşááᯠfeedforward network áá áşááŻááᯠááąá¸áááŻáˇááźáŽá¸ class áážá áşáᯠ(
IsNextáá˛áˇNotNext) ááąáŤáşá softmax áá˛áˇ áá˝ááşááťááşááŤáááşáinput embeddings áá˝áąááᯠencoder layers áĄááťáŹá¸áĄááźáŹá¸áááąááááˇáş ááźááşáááşá¸ááźáŽá¸ final hidden states áĄááťááŻáˇááᯠááŻááşááąá¸ááŤáááşá
ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ ááąáŹáşáááşááᯠá áŹááŹá¸ áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇáĄáá˝ááş base BERT ááąáŹáşáááşáá˛áˇ ááááşáážáŹ sequence classification head áá áşááŻááᯠáááşáááˇáşáááŤáááşá sequence classification head á linear layer áá áşááŻááźá áşááźáŽá¸ final hidden states áá˝áąááᯠáááşááśáᏠlinear transformation áá áşááŻááᯠááŻááşááąáŹááşááźáŽá¸ áááşá¸áááŻáˇááᯠlogits áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸ááŤáááşá logits áá˝áąáá˛áˇ target áá˝áąááźáŹá¸á cross-entropy loss ááᯠáá˝ááşááťááşááźáŽá¸ áĄááźá áşáááŻááşááŻáśá¸ label ááᯠáážáŹáá˝áąááŤáááşá
á áŹááŹá¸ áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á DistilBERT ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ text classification guide ááᯠááźááˇáşáážáŻááŤá
Token classification
Token classification áááŻáᏠsequence áá áşááŻá áŽáážá token áá áşááŻá áŽááᯠlabel áá áşáᯠáááşáážááşááąá¸ááŹááᯠáááŻáááŻááŤáááşá áĽáááŹáĄáŹá¸ááźááˇáş named entity recognition áááŻáˇáááŻááş part-of-speech tagging áááŻáˇ ááźá áşááŤáááşá
BERT ááᯠnamed entity recognition (NER) ááᯠtoken classification ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇáĄáá˝ááş base BERT ááąáŹáşáááşáá˛áˇ ááááşáážáŹ token classification head áá áşááŻááᯠáááşáááˇáşáááŤáááşá token classification head á linear layer áá áşááŻááźá áşááźáŽá¸ final hidden states áá˝áąááᯠáááşááśáᏠlinear transformation áá áşááŻááᯠááŻááşááąáŹááşááźáŽá¸ áááşá¸áááŻáˇááᯠlogits áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸ááŤáááşá logits áá˝áąáá˛áˇ token áá áşááŻá áŽááźáŹá¸á cross-entropy loss ááᯠáá˝ááşááťááşááźáŽá¸ áĄááźá áşáááŻááşááŻáśá¸ label ááᯠáážáŹáá˝áąááŤáááşá
token classification ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á DistilBERT ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ token classification guide ááᯠááźááˇáşáážáŻááŤá
ááąá¸áá˝ááşá¸ááźáąááźááşá¸ (Question answering)
ááąá¸áá˝ááşá¸ááźáąááźááşá¸áááŻááŹá ááąá¸ááŹá¸áá˛áˇ context ááŤáážáááŻááş á áŹáááŻááşáá áşááŻáĄáá˝ááşá¸áážáŹ ááąá¸áá˝ááşá¸áá˛áˇáĄááźáąááᯠáážáŹáá˝áąááŹááᯠáááŻáááŻááŤáááşá
BERT ááᯠááąá¸áá˝ááşá¸ááźáąááźááşá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇáĄáá˝ááş base BERT ááąáŹáşáááşáá˛áˇ ááááşáážáŹ span classification head áá
áşááŻááᯠáááşáááˇáşáááŤáááşá áᎠlinear layer á final hidden states áá˝áąááᯠáááşááśáᏠlinear transformation áá
áşááŻááᯠááŻááşááąáŹááşááźáŽá¸ áĄááźáąáá˛áˇ áááŻááşááŽáá˛áˇ span start áá˛áˇ end logits áá˝áąááᯠáá˝ááşááťááşááąá¸ááŤáááşá logits áá˝áąáá˛áˇ label position áá˝áąááźáŹá¸á cross-entropy loss ááᯠáá˝ááşááťááşááźáŽá¸ áĄááźáąáá˛áˇ áááŻááşááŽáá˛áˇ áĄááźá
áşáááŻááşááŻáśá¸ á
áŹááŹá¸áĄáááŻááşá¸ááᯠáážáŹáá˝áąááŤáááşá
ááąá¸áá˝ááşá¸ááźáąááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á DistilBERT ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ question answering guide ááᯠááźááˇáşáážáŻááŤá
đĄ BERT ááᯠááźááŻáááşááąáˇááťááˇáşááźáŽá¸ááŹáá˛áˇ ááá°ááŽáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇ áááşááąáŹááşáá˝ááşáá°áá˛áááŻáᏠáááááŹá¸ááááŹá¸á áááşáááŻááťááşáá˛áˇ output ááᯠááážááááŻáˇáĄáá˝ááş ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ ááąáŹáşáááşáá˛áˇ ááááşáážáŹ ááŽá¸ááźáŹá¸ head áá áşááŻááᯠáááşáááˇáşáááŻáˇáᲠáááŻáĄááşááŤáááşá
áĄáážá áşááťáŻááşááźááşá¸ (Summarization)
áĄáážá áşááťáŻááşááźááşá¸áááŻááŹá áááŻáážááşáá˛áˇ á áŹááŹá¸áá áşááŻááᯠáĄááááĄááťááşáĄáááşáá˝áąáá˛áˇ áĄáááášááŹááşááᯠááááşá¸ááááşá¸ááŹá¸áááşá¸ áááŻáááŻáá˛áˇááŻáśá áśáĄááźá áş ááźáąáŹááşá¸áá˛ááŹááᯠáááŻáááŻááŤáááşá
BART áá˛áˇ T5 ááᯠencoder-decoder ááąáŹáşáááşáá˝áąááᯠsummarization ááŻááşáááşá¸ááŹáááşáá˛áˇ sequence-to-sequence ááŻáśá áśáĄáá˝ááş ááŽáááŻááşá¸ááŻááşááŹá¸ááŤáááşá ááŽáĄáááŻááşá¸áážáŹ BART áááşáááŻáĄááŻááşááŻááşáá˛áááŻááŹááᯠáážááşá¸ááźááźáŽá¸á ááźáŽá¸áááş T5 ááᯠfine-tune ááŻááşááŹááᯠáááş áááŻááşáááŻááş á ááşá¸ááźááˇáşáááŻááşááŤáááşá

BART áá˛áˇ encoder architecture á BERT áá˛áˇ áĄááąáŹáşááąá¸ áááşáá°ááźáŽá¸ á áŹááŹá¸áá˛áˇ token áá˛áˇ positional embedding ááᯠáááşááśááŤáááşá BART ááᯠinput ááᯠááťááşá áŽá¸ááźáŽá¸ decoder áá˛áˇ ááźááşáááşáááşááąáŹááşááźááşá¸ááźááˇáş ááźááŻáááşááąáˇááťááˇáşááŹá¸ááŤáááşá ááŽá¸ááźáŹá¸ corruption strategies áá˝áąááŤáá˛áˇ áĄááźáŹá¸ encoders áá˝áąáá˛áˇááá°áᲠBART á áááşááᯠcorruption áĄááťááŻá¸áĄá áŹá¸áááᯠáĄááŻáśá¸ááźáŻáááŻááşááŤáááşá áááŻáˇááąáŹáş text infilling corruption strategy á áĄááąáŹááşá¸ááŻáśá¸ áĄááŻááşááŻááşááŤáááşá text infilling áážáŹ á áŹááŹá¸áĄáááŻááşá¸áĄááťááŻáˇááᯠáá áşááŻáááşá¸ááąáŹ [
mask] token áá˛áˇ áĄá áŹá¸áááŻá¸ááŤáááşá ááŤá áĄááąá¸ááźáŽá¸ááŤáááşá ááŹáááŻáˇáá˛áááŻááąáŹáˇ ááąáŹáşáááşá ááŻáśá¸áá˝ááşááŹá¸áá˛áˇ tokens áá˝áąááᯠáááˇáşáážááşá¸ááážáŹááźá áşááźáŽá¸á ááťáąáŹááşááŻáśá¸ááąáá˛áˇ tokens áĄááąáĄáá˝ááşááᯠáááˇáşáážááşá¸áááŻáˇ ááąáŹáşáááşááᯠáááşááźáŹá¸ááąá¸ááŤáááşá input embeddings áá˛áˇ masked spans áá˝áąááᯠencoder áááąááááˇáş ááźááşáááşá¸ááźáŽá¸ final hidden states áĄááťááŻáˇááᯠááŻááşááąá¸ááŤáááşá ááŤááąáááˇáş BERT áá˛áˇááá°áᲠBART á á ááŹá¸ááŻáśá¸áá áşááŻáśá¸ááᯠáááˇáşáážááşá¸áááŻáˇ ááąáŹááşááŻáśá¸ feedforward network ááᯠáááşáááˇáşááŹá¸ááźááşá¸ ááážáááŤáá°á¸áencoder áá˛áˇ output ááᯠdecoder ááᯠááąá¸áááŻáˇááŤáááşá decoder á ááŻáśá¸áá˝ááşááŹá¸áá˛áˇ tokens áá˝áąáá˛áˇ encoder áá˛áˇ output áááą uncorrupted tokens áá˝áąááᯠáááˇáşáážááşá¸áááŤáááşá ááŤá decoder ááᯠáá°áááşá¸á áŹááŹá¸ááᯠááźááşáááşáááşááąáŹááşáááŻáˇ áĄááᯠcontext áá˝áą ááąá¸ááŤáááşá decoder áááą áá˝ááşááŹáá˛áˇ output ááᯠlanguage modeling head ááᯠááąá¸áááŻáˇááŤáááşá áĄá˛ááŽáááą linear transformation áá áşááŻááᯠááŻááşááąáŹááşááźáŽá¸ hidden states áá˝áąááᯠlogits áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸ááŤáááşá logits áá˝áąáá˛áˇ label (ááŹáááşáááŻáˇ áá˝ážáąáˇááŹá¸áá˛áˇ token) ááźáŹá¸á cross-entropy loss ááᯠáá˝ááşááťááşááŤáááşá
áĄáážá áşááťáŻááşááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á T5 ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ summarization guide ááᯠááźááˇáşáážáŻááŤá
á áŹááŹá¸ áááşááŽá¸ááźááşá¸áá˛áˇ áááşáááşáá˛áˇ áĄááťááşáĄáááşáĄááťáŹá¸ááźáŽá¸áĄáá˝ááş text generation strategies guide ááᯠááźááˇáşáážáŻááŤá
ááŹááŹááźááşááźááşá¸ (Translation)
ááŹááŹááźááşááźááşá¸áááŻáᏠá áŹááŹá¸áá áşááŻááᯠáĄááźáŹá¸ááŹááŹá ááŹá¸áá áşááŻáááŻáˇ áĄáááášááŹááşááᯠááááşá¸ááááşá¸ááŹá¸áááşá¸ ááźáąáŹááşá¸áá˛ááŹááᯠáááŻáááŻááŤáááşá ááŹááŹááźááşááźááşá¸á sequence-to-sequence ááŻááşáááşá¸ááŹáááşáá áşááŻáá˛áˇ ááąáŹááşáááşáĽáááŹáá áşáᯠááźá áşááŤáááşá áááŻáááŻááŹá BART ááŤáážáááŻááş T5 ááᯠencoder-decoder ááąáŹáşáááşááᯠáĄááŻáśá¸ááźáŻáááŻááşááŤáááşá ááŽáĄáááŻááşá¸áážáŹ BART áááşáááŻáĄááŻááşááŻááşáá˛áááŻááŹááᯠáážááşá¸ááźááźáŽá¸á ááźáŽá¸áááş T5 ááᯠfine-tune ááŻááşááŹááᯠáááş áááŻááşáááŻááş á ááşá¸ááźááˇáşáááŻááşááŤáááşá
BART áᏠsource ááŹááŹá ááŹá¸áá áşááŻááᯠtarget ááŹááŹá ááŹá¸áááŻáˇ decode ááŻááşáááŻááşáá˛áˇ input áĄááźá áş map ááŻááşáááŻáˇáĄáá˝ááş ááŽá¸ááźáŹá¸á ááťáááşá¸á áááşááŹá¸áá˛áˇ encoder áá áşááŻááᯠáááşáááˇáşááźááşá¸ááźááˇáş ááŹááŹááźááşááźááşá¸ááᯠáááŻááşááťáąáŹááŽáá˝áąááźá áşáĄáąáŹááş ááŻááşááąáŹááşááŤáááşá áᎠencoder áĄáá áşáá˛áˇ embeddings áá˝áąááᯠáá°áááşá¸ word embeddings áĄá áŹá¸ ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ encoder ááᯠááąá¸áááŻáˇááŤáááşá source encoder ááᯠááąáŹáşáááş output áááą cross-entropy loss áá˛áˇ source encoder, positional embeddings áá˛áˇ input embeddings áá˝áąááᯠupdate ááŻááşááźááşá¸ááźááˇáş ááąáˇááťááˇáşááąá¸ááŤáááşá ááŽááááĄáááˇáşáážáŹ ááąáŹáşáááş parameters áá˝áąááᯠfreeze ááŹá¸ááźáŽá¸á ááŻááááĄáááˇáşáážáŹááąáŹáˇ ááąáŹáşáááş parameters áĄáŹá¸ááŻáśá¸ááᯠáĄáá°ááá˝ ááąáˇááťááˇáşááąá¸ááŤáááşá BART áááŻááąáŹáˇ ááŹááŹááźááşááźááşá¸áĄáá˝ááş áááşáá˝ááşááźáŽá¸ ááá°ááŽáá˛áˇ ááŹááŹá ááŹá¸ááťáŹá¸á á˝áŹáá˛áˇ ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ multilingual version ááźá áşáá˛áˇ mBART á áááşááśáá˛áˇááŤáááşá
ááŹááŹááźááşááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á T5 ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ translation guide ááᯠááźááˇáşáážáŻááŤá
áᎠguide áá áşááťážáąáŹááşááŻáśá¸áážáŹ áááşáá˝áąáˇáá˛áˇááá˛áˇáĄáááŻááşá¸ ááąáŹáşáááşááťáŹá¸á á˝áŹáᏠááá°ááŽáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąááᯠááźáąáážááşá¸ááąááááşááąáŹááş áĄááŹá¸áá° ááŻáśá áśáá˝áąááᯠáááŻááşááŹááźááŤáááşá ááŽááᯠáĄááźáąááśááŻáśá áśáá˝áąááᯠááŹá¸áááşááŹá¸ááŹá ááąáŹáşáááşáĄáá áşáá˝áą áááşáááŻáĄááŻááşááŻááşáá˛áááŻááŹááᯠáĄááźááşááŹá¸áááşáááŻáˇáá˛áˇ áážáááźáŽá¸ááŹá¸ááąáŹáşáááşáá˝áąááᯠáááşáá˛áˇáááŻáĄááşááťááşáá˝áąáá˛áˇ áááŻááşááťáąáŹááŽáá˝áąááźá áşáĄáąáŹááş ááŻááşááąáŹááşáááŻáˇ áá°ááŽááąá¸áááŻááşááŤáááşá
á áŹááŹá¸ááźááşááážá Modalities ááťáŹá¸
Transformers áá˝áąáᏠá áŹááŹá¸áĄáá˝ááşáᏠáááˇáşáááşááŹá¸áᏠáááŻááşááŤáá°á¸á áááşá¸áááŻáˇááᯠspeech and audio, images áá˛áˇ video ááᯠáĄááźáŹá¸ modalities áá˝áąáážáŹáááşá¸ áĄááŻáśá¸ááźáŻáááŻááşááŤáááşá ááŽáááşáááşá¸áážáŹááąáŹáˇ ááťá˝ááşááąáŹáşáááŻáˇá á áŹááŹá¸ááᯠáĄáááááŹá¸áážáŹááźá áşááąáááˇáş áĄááźáŹá¸ modalities áá˝áąááᯠáĄáááŻááťáŻááş ááááşáááşááąá¸ááŤáááşá
á ááŹá¸ááźáąáŹáážááˇáş áĄááś (Speech and audio)
Transformer ááąáŹáşáááşáá˝áąá á áŹááŹá¸ ááŤáážáááŻááş ááŻáśáá˝áąáá˛áˇáážááşáááş áá°á¸ááźáŹá¸áá˛áˇ á áááşááąáŤáşáážáŻáá˝áąáážááá˛áˇ speech áá˛áˇ audio data áá˝áąááᯠáááşáááŻáááŻááşáá˝ááşáá˛áááŻááŹááᯠá ááąáˇááŹááĄáąáŹááşá
Whisper áᏠ680,000 ááŹááŽááźáŹ áážááşááŹá¸ááŹá¸áá˛áˇ audio data áá˝áąáá˛áˇ ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ encoder-decoder (sequence-to-sequence) transformer áá áşááŻááźá áşááŤáááşá ááŽáááŻááťáŹá¸ááźáŹá¸áá˛áˇ pretraining data áááŹáá English áá˛áˇ áĄááźáŹá¸ááŹááŹá ááŹá¸ááťáŹá¸á á˝áŹáážá audio ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ zero-shot performance ááᯠááážáá áąááŤáááşá decoder á Whisper ááᯠencoders áá˝áą áááşáá°ááŹá¸áá˛áˇ speech representations áá˝áąááᯠá áŹááŹá¸ááᯠáĄááŻáśá¸áááşáá˛áˇ outputs áá˝áąáĄááźá áş áááşááś fine-tune ááŻááşá ááŹááááŻáᲠmap ááŻááşáááŻááşá áąááŤáááşá Whisper á box áá˛áááą áááşá¸áĄááŻááşááŻááşáááŻááşááŤáááşá

ááŻáśááźááşá¸ááᯠWhisper paper ááž ááá°ááŹá¸ááŤáááşá
ááŽááąáŹáşáááşáážáŹ áĄááá áĄá áááşáĄáááŻááşá¸áážá áşáᯠááŤáááşááŤáááşá
Encoder: input audio ááᯠááŻááşááąáŹááşááąá¸ááŤáááşá áááŚá¸ audio ááᯠlog-Mel spectrogram áĄááźá áş ááźáąáŹááşá¸áá˛ááŤáááşá áᎠspectrogram ááᯠTransformer encoder network áááąááááˇáş ááźááşáááşá¸ááŤáááşá
Decoder: encoded audio representation ááᯠáá°ááźáŽá¸ áááşáááŻááşáᏠtext tokens áá˝áąááᯠautoregressively áááˇáşáážááşá¸ááŤáááşá ááŤáᏠáĄáááş tokens áá˝áąáá˛áˇ encoder output ááᯠááąá¸ááŹá¸ááźáŽá¸ ááąáŹááş text token ááᯠáááˇáşáážááşá¸áááŻáˇ ááąáˇááťááˇáşááŹá¸áá˛áˇ standard Transformer decoder áá áşááŻááŤá transcription, translation ááŤáážáááŻááş language identification ááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸ááŹáááşáá˝áąáᎠááąáŹáşáááşááᯠáŚá¸áááşá áąáááŻáˇ decoder input áá˛áˇ áĄá áážáŹ áĄáá°á¸ tokens áá˝áąááᯠáĄááŻáśá¸ááźáŻááŤáááşá
Whisper ááᯠáááşááşááž á áŻááąáŹááşá¸ááŹá¸áá˛áˇ 680,000 ááŹááŽááźáŹ áážááşááŹá¸ááŹá¸áá˛áˇ audio data ááťáŹá¸á á˝áŹáá˛áˇ ááá°ááŽáá˛áˇ dataset áá áşááŻááąáŤáşáážáŹ ááźááŻáááşááąáˇááťááˇáşááŹá¸ááŤáááşá ááŽááᯠááźáŽá¸ááŹá¸áá˛áˇá weakly supervised pretraining áᏠááá°ááŽáá˛áˇ ááŹááŹá ááŹá¸áá˝áąá ááąáá°ááąááááşá¸áá˝áąáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ task-specific finetuning áááŤáᲠáĄá á˝ááşá¸áááşáá˛áˇ zero-shot performance ááᯠááážáá áąáá˛áˇ áĄááááĄááťááşááŤá
Whisper ááᯠááźááŻáááşááąáˇááťááˇáşááźáŽá¸ááźáŽáááŻááąáŹáˇ zero-shot inference áĄáá˝ááş áááŻááşáááŻááşáĄááŻáśá¸ááźáŻáááŻááşáááᯠautomatic speech recognition ááŤáážáááŻááş speech translation ááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸ááŹáááşáá˝áąáážáŹ á á˝ááşá¸ááąáŹááşáááşáááŻáááŻááąáŹááşá¸áá˝ááşá áąáááŻáˇ áááşáá˛áˇ data ááąáŤáşáážáŹ fine-tune ááŻááşáááŻááşááŤááźáŽá
Whisper áá˛áˇ áĄááá áááşá¸áá áşááŽáá˝ááşáážáŻáááąáŹáˇ áĄááşááŹáááşáááą ááážááá˛áˇ ááá°ááŽáá˛áˇá weakly supervised audio data áá˝áąááᯠáĄá ááşáĄááŹááážááá˛áˇ áááŹááá˛áˇ ááąáˇááťááˇáşááŹá¸ááźááşá¸ ááźá áşááŤáááşá ááŤá ááá°ááŽáá˛áˇ ááŹááŹá ááŹá¸áá˝áąá ááąáá°ááąááááşá¸áá˝áąáá˛áˇ ááŻááşáááşá¸ááŹáááşáá˝áąááŽááᯠtask-specific finetuning áááŤáᲠáá°á¸áá°á¸ááźáŹá¸ááźáŹá¸ ááąáŹááşá¸áá˝ááşá á˝áŹ ááąááŻááťááŻááşááąáŹááşáááŻááşá áąááŤáááşá
áĄáááŻáĄááťáąáŹááş á ááŹá¸ááźáąáŹ áážááşááŹá¸ááźááşá¸ (Automatic speech recognition)
ááźááŻáááşááąáˇááťááˇáşááŹá¸áá˛áˇ ááąáŹáşáááşááᯠautomatic speech recognition áĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇáĄáá˝ááş áááşá¸áá˛áˇ ááźááˇáşá áŻáśáá˛áˇ encoder-decoder áá˝á˛áˇá ááşá¸ááŻáśááᯠáĄááŻáśá¸ááťáááŤáááşá encoder á audio input ááᯠááŻááşááąáŹááşááźáŽá¸ decoder áááąáŹáˇ text token áá áşááŻááťááşá¸á áŽááᯠautoregressively ááŻááşááąá¸ááŤáááşá fine-tuning ááŻááşáá˛áˇáĄá፠ááąáŹáşáááşááᯠaudio input ááąáŤáş áĄááźáąááśááźáŽá¸ áážááşáááşáá˛áˇ text tokens áá˝áąááᯠáááˇáşáážááşá¸áááŻáˇáĄáá˝ááş standard sequence-to-sequence loss (cross-entropy áá˛áˇáááŻáˇ) ááᯠáĄááŻáśá¸ááźáŻááźáŽá¸ ááąáˇááťááˇáşááąáˇáážáááŤáááşá
Fine-tuned model ááᯠinference áĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻáˇ áĄáá˝ááşááŻáśá¸áááşá¸áááşá¸áááąáŹáˇ pipeline áĄáá˝ááşá¸áážáŹáᲠááźá
áşááŤáááşá
from transformers import pipeline
transcriber = pipeline(
task="automatic-speech-recognition", model="openai/whisper-base.en"
)
transcriber("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac")
# Output: {'text': ' I have a dream that one day this nation will rise up and live out the true meaning of its creed.'}Automatic speech recognition ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á Whisper ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ automatic speech recognition guide ááᯠááźááˇáşáážáŻááŤá
Computer vision
áĄááŻááąáŹáˇ computer vision ááŻááşáááşá¸ááŹáááşáá˝áąáᎠáááşáá˝áŹá¸ááĄáąáŹááşá ááŤáá˝áąáááąáŹáˇ ááŻáśáá˝áą ááŤáážáááŻááş ááŽááŽáááŻáá˝áąáááą ááźááşáááŻááşáá˛áˇ áĄááťááşáĄáááşáá˝áąááᯠááŹá¸áááşááźáŽá¸ áĄáááşááźááşááźááşá¸áá˛áˇ áááşáááŻááşááŤáááşá
computer vision ááŻááşáááşá¸ááŹáááşáá˝áąááᯠááťááşá¸áááşáááŻáˇ áááşá¸áááşá¸áážá áşááťááŻá¸áážáááŤáááşá
- ááŻáśáá áşááŻáśááᯠpatches áĄá áŻáĄááąá¸áĄááźá áş áá˝á˛ááźááşá¸ááźáŽá¸ Transformer áá˛áˇ áá áşááźááŻááşáááşáááşá¸ ááŻááşááąáŹááşááźááşá¸á
- convolutional layers áá˝áąááᯠáĄááŻáśá¸ááźáŻááąáááˇáş ááąááşáᎠnetwork designs áá˝áąááᯠáááşááśááŹá¸áá˛áˇ ConvNeXT ááᯠááąááşáᎠCNN áá áşááŻááᯠáĄááŻáśá¸ááźáŻááźááşá¸á
ááááááťááşá¸áááşááŻáśáááąáŹáˇ Transformers áá˝áąááᯠconvolutions áá˝áąáá˛áˇ ááąáŹá ááşááźááşá¸ (áĽáááŹ- Convolutional Vision Transformer áááŻáˇáááŻááş LeViT) ááźá áşááŤáááşá ááŤáá˝áąáááŻááąáŹáˇ ááťá˝ááşááąáŹáşáááŻáˇ áá˝áąá¸áá˝áąá¸áážáŹ áááŻááşááŤáá°á¸á ááŹáááŻáˇáá˛áááŻááąáŹáˇ áááşá¸áááŻáˇáᏠááŽááąááŹáážáŹ á á áşááąá¸ááŹá¸áá˛áˇ ááťááşá¸áááşááŻáśáážá áşááŻááᯠááąáŤááşá¸á ááşááŹá¸ááŹáᲠááźá áşáááŻáˇááŤá
ViT áá˛áˇ ConvNeXT áááŻáˇáážá áşááŻááŻáśá¸ááᯠimage classification áĄáá˝ááş áĄááťáŹá¸áĄáŹá¸ááźááˇáş áĄááŻáśá¸ááźáŻááąáááˇáş object detection, segmentation áá˛áˇ depth estimation ááᯠáĄááźáŹá¸ vision ááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááşááąáŹáˇ DETR, Mask2Former áá˛áˇ GLPN áááŻáˇááᯠáĄááŽá¸ááŽá¸ ááźááˇáşáážáŻáá˝áŹá¸ááŤáááşá ááŽááąáŹáşáááşáá˝áąáááąáŹáˇ áĄá˛ááŽááŻááşáááşá¸ááŹáááşáá˝áąáĄáá˝ááş áááŻáááŻáááˇáşááťáąáŹáşááŤáááşá
ááŻááşááŻáś áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸ (Image classification)
ááŻááşááŻáś áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸á áĄááźáąááśááťáá˛áˇ computer vision ááŻááşáááşá¸ááŹáááşáá˝áąáá˛á áá áşááŻááŤá ááá°ááŽáá˛áˇ ááąáŹáşáááş architecture áá˝áąá ááŽááźáżááŹááᯠáááşáááŻááťááşá¸áááşáá˛áááŻáᏠááźááˇáşááĄáąáŹááşá
ViT áá˛áˇ ConvNeXT áááŻáˇáážá áşááŻááŻáśá¸ááᯠimage classification áĄáá˝ááş áĄááŻáśá¸ááźáŻáááŻááşááŤáááşá áĄááá áá˝áŹááźáŹá¸ááťááşáááąáŹáˇ ViT á attention mechanism ááᯠáĄááŻáśá¸ááźáŻááźáŽá¸ ConvNeXT á convolutions áá˝áąááᯠáĄááŻáśá¸ááźáŻááŹááŤáá˛á
ViT áᏠconvolutions áá˝áąááᯠTransformer architecture áááˇáşáááˇáşáá˛áˇ áĄá áŹá¸áááŻá¸ááŹá¸ááŤáááşá áá°áááşá¸ Transformer áá˛áˇ áááşá¸áážáŽá¸ááźáŽá¸ááŹá¸áááŻáááş ViT ááᯠááŹá¸áááşáááŻáˇ áĄááťáŹá¸ááźáŽá¸ ááťááşááąáŹáˇáážáŹ áááŻááşááŤáá°á¸á

ViT á ááááşáááşáá˛áˇáá˛áˇ áĄáááááźáąáŹááşá¸áá˛áážáŻá ááŻáśáá˝áąááᯠTransformer ááᯠáááşááᯠáááˇáşáá˝ááşá¸áá˛áááŻááŹááŤáá˛á
ááŻáśáá áşááŻáśááᯠááąá¸ááąáŹááˇáşáááťáĄáąáŹááş ááááşáá˛áˇ patches áá˝áąáĄááźá áş áá˝á˛ááźááşá¸ááźáŽá¸á patch áá áşááŻá áŽááᯠvector ááŤáážáááŻááş patch embedding áĄááźá áş ááźáąáŹááşá¸áá˛ááŤáááşá patch embeddings áá˝áąááᯠconvolutional 2D layer áááą ááŻááşááąá¸ááźáŽá¸ áážááşáááşáá˛áˇ input dimensions (base Transformer áĄáá˝ááş patch embedding áá áşááŻá áŽáĄáá˝ááş 768 values) ááᯠáááşááŽá¸ááąá¸ááŤáááşá 224x224 pixel ááŻáśáá áşááŻáśáážááááş 196 16x16 ááŻáś patches áá˝áąáĄááźá áş áá˝á˛ááźááşá¸áááŻááşááŤáááşá á áŹááŹá¸ááᯠá ááŹá¸ááŻáśá¸áá˝áąáĄááźá áş tokenize ááŻááşááááŻááťááŻá¸ ááŻáśáá áşááŻáśáááŻáááşá¸ patches sequence áĄááźá áş âtokenizeâ ááŻááşááŤáááşá
learnable embedding - áĄáá°á¸
[CLS]token - ááᯠBERT áááŻáᲠpatch embeddings áá˛áˇ áĄá áážáŹ áááşáááˇáşááŤáááşá[CLS]token áá˛áˇ final hidden state ááᯠáá˝á˛ááŹá¸áá˛áˇ classification head áá˛áˇ input áĄááźá áş áĄááŻáśá¸ááźáŻááźáŽá¸ áĄááźáŹá¸ outputs áá˝áąáááŻááąáŹáˇ ááťá áşááťá°áážáŻááŤáááşá áᎠtoken á ááąáŹáşáááşááᯠááŻáśáá áşááŻáśáá˛áˇ representation ááᯠáááşááᯠencode ááŻááşááááşáááŻáᏠáááşáá°áááŻáˇ áá°ááŽááąá¸ááŤáááşápatch áá˛áˇ learnable embeddings áá˝áąáážáŹ áááşáááˇáşááááˇáş ááąáŹááşááŻáśá¸áĄááŹáááąáŹáˇ position embeddings áá˝áą ááźá áşááŤáááşá ááŹáááŻáˇáá˛áááŻááąáŹáˇ ááąáŹáşáááşá image patches áá˝áąáá˛áˇ áĄá áŽáĄá ááşááᯠááááááŻáˇááŤáá˛á position embeddings áá˝áąááááşá¸ learnable ááźá áşááźáŽá¸ patch embeddings áá˝áąáá˛áˇ áĄáá˝ááşáĄá áŹá¸áá°ááŽááŤáááşá ááąáŹááşááŻáśá¸ááąáŹáˇ embeddings áĄáŹá¸ááŻáśá¸ááᯠTransformer encoder ááᯠááąá¸áááŻáˇááŤáááşá
output áááŻá áĄáá°á¸áááźááˇáş
[CLS]token ááŤáá˛áˇ output áááŻáᲠmultilayer perceptron head (MLP) ááᯠááąá¸áááŻáˇááŤáááşá ViT áá˛áˇ pretraining áááşáá˝ááşááťááşáááąáŹáˇ classification ááŤáá˛á áĄááźáŹá¸ classification heads áá˝áąáááŻáᲠMLP head á output ááᯠclass labels áá˝áąááąáŤáşá logits áĄááźá áş ááźáąáŹááşá¸áá˛ááźáŽá¸ áĄááźá áşáááŻááşááŻáśá¸ class ááᯠáážáŹáá˝áąáááŻáˇ cross-entropy loss ááᯠáá˝ááşááťááşááŤáááşá
ááŻááşááŻáś áĄááťááŻá¸áĄá áŹá¸áá˝á˛ááźáŹá¸ááźááşá¸ááᯠáááŻááşáááŻááşá ááşá¸ááźááˇáşáááŻáˇ áĄáááşáááˇáşááźá áşááźáŽááŹá¸á ViT ááᯠáááşááᯠfine-tune ááŻááşááźáŽá¸ inference áĄáá˝ááş áááşáááŻáĄááŻáśá¸ááźáŻáááá˛áááŻáᏠááąáˇááŹáááŻáˇ ááťá˝ááşááąáŹáşáááŻáˇáá˛áˇ ááźááˇáşá áŻáśáá˛áˇ image classification guide ááᯠááźááˇáşáážáŻááŤá
ViT áá˛áˇ BERT ááźáŹá¸á áá°ááŽáážáŻááᯠáááááŹá¸ááááŤááááˇáşáááşá áážá áşááŻááŻáśá¸áᏠáĄááŻáśá¸á áŻáś áááŻááşá áŹá¸ááźáŻáážáŻ (overall representation) ááᯠáááşá¸áá°áááŻáˇ áĄáá°á¸ token (
[CLS]) ááᯠáĄááŻáśá¸ááźáŻááźááźáŽá¸á áážá áşááŻááŻáśá¸á áááşá¸áááŻáˇáá˛áˇ embeddings áá˝áąáážáŹ position information ááᯠáááşáááˇáşááźááŹá áážá áşááŻááŻáśá¸á tokens/patches áá˝áąáá˛áˇ sequence ááᯠááŻááşááąáŹááşáááŻáˇ Transformer encoder ááᯠáĄááŻáśá¸ááźáŻááźááŤáááşá
ááąáŤááŹá áážááşá¸áááşá¸ááťááş (Glossary)
- Natural Language Processing (NLP): áá˝ááşááťá°ááŹáá˝áą áá°ááŹá¸ááŹááŹá ááŹá¸ááᯠááŹá¸áááşá áĄáááášááŹááşááąáŹáşááźáŽá¸á áááşááŽá¸áááŻááşáĄáąáŹááş ááŻááşááąáŹááşááąá¸áá˛áˇ Artificial Intelligence (AI) áá˛áˇ áááşáááşáá˝á˛áá áşáᯠááźá áşááŤáááşá áĽáááŹáĄáŹá¸ááźááˇáş á áŹááŹá¸áá˝á˛ááźááşá¸á áááşááźáŹááźááşá¸á ááŹááŹááźááşááźááşá¸ á áááşáááŻáˇ ááŤáááşááŤáááşá
- Large Language Models (LLMs): áá°ááŹá¸ááŹááŹá ááŹá¸ááᯠááŹá¸áááşááźáŽá¸ ááŻááşááŻááşááąá¸áááŻááşáá˛áˇ áĄáá˝ááşááźáŽá¸ááŹá¸áá˛áˇ Artificial Intelligence (AI) ááąáŹáşáááşáá˝áą ááźá áşááŤáááşá áááşá¸áááŻáˇáᏠááąááŹáĄááźáąáŹááşáĄááźáŹá¸áá˛áˇ áááşááźáŹá¸ááąáˇááťááˇáşááŹá¸ááźáŽá¸ á áŹááąá¸ááŹá ááąá¸áá˝ááşá¸ááźáąáᏠá áá˛áˇ ááŹááŹá ááŹá¸áááŻááşáᏠááŻááşáááşá¸ááťááŻá¸á áŻáśááᯠááŻááşááąáŹááşáááŻááşááŤáááşá
- Transformer Models: Natural Language Processing (NLP) áážáŹ áĄáąáŹááşááźááşáážáŻááťáŹá¸á á˝áŹááážááá˛áˇáá˛áˇ deep learning architecture áá áşááťááŻá¸ááŤá áááşá¸áááŻáˇáᏠá áŹááŹá¸áá˝áąáá˛á á ááŹá¸ááŻáśá¸áá˝áąáá˛áˇ áááşáá˝ááşáážáŻáá˝áąááᯠâattention mechanismâ ááŻáśá¸ááźáŽá¸ ááŹá¸áááşáĄáąáŹááş áááşááźáŹá¸ááąá¸ááŤáááşá
- Encoder: Transformer Architecture áá˛áˇ áĄá áááşáĄáááŻááşá¸áá áşááŻááźá áşááźáŽá¸ input data (áĽáááŹ- á áŹááŹá¸) ááᯠááŹá¸áááşááźáŽá¸ áááŻááşá áŹá¸ááźáŻáá˛áˇ áĄááťááşáĄáááş (representation) áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸ááŤáááşá
- Decoder: Transformer Architecture áá˛áˇ áĄá áááşáĄáááŻááşá¸áá áşááŻááźá áşááźáŽá¸ encoder áááą ááážááá˛áˇ áĄááťááşáĄáááş (representation) ááᯠáĄááŻáśá¸ááźáŻááźáŽá¸ output data (áĽáááŹ- ááŹááŹááźááşááŹá¸áá˛áˇ á áŹááŹá¸) ááᯠááŻááşááąá¸ááŤáááşá
- Encoder-Decoder Structure: Encoder áážááˇáş Decoder áážá áşááŻá ááŻáśá¸ ááŤáááşááąáŹ Transformer architecture áá áşááťááŻá¸ááźá áşááźáŽá¸ ááŹááŹááźááşááźááşá¸áá˛áˇáááŻáˇááąáŹ input sequence ááž output sequence áá áşááŻáááŻáˇ ááźáąáŹááşá¸áá˛ááźááşá¸ ááŻááşáááşá¸ááťáŹá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻááŤáááşá
- Architecture: Machine Learning ááąáŹáşáááşáá áşááŻá ááŽáááŻááşá¸ áááŻáˇáááŻááş áá˝á˛áˇá ááşá¸áááşááąáŹááşááŻáśá
- Input Data: ááąáŹáşáááşáá áşááŻááᯠááąá¸áá˝ááşá¸áááˇáş áĄááťááşáĄáááşááťáŹá¸á
- Output: ááąáŹáşáááşáá áşááŻááž ááŻááşááąá¸ááąáŹ ááááşááťáŹá¸á
- Predictions: ááąáŹáşáááşáá áşááŻááž áááˇáşáážááşá¸ááŹá¸ááąáŹ ááááşááťáŹá¸á
- Audio Classification: áĄááśááá°ááŹááťáŹá¸ááᯠááźááŻáááşáááşáážááşááŹá¸ááąáŹ áĄááťááŻá¸áĄá áŹá¸ááťáŹá¸áĄááźá áş áá˝á˛ááźáŹá¸ááźááşá¸á
- Automatic Speech Recognition (ASR): ááźáąáŹáááŻááąáŹ ááŹááŹá ááŹá¸ááᯠá áŹááŹá¸áĄááźá áş áĄáááŻáĄááťáąáŹááş ááźáąáŹááşá¸áá˛ááąá¸áááˇáş áááşá¸áááŹá
- Image Classification: ááŻááşááŻáśááťáŹá¸ááᯠááźááŻáááşáááşáážááşááŹá¸ááąáŹ áĄááťááŻá¸áĄá áŹá¸ááťáŹá¸áĄááźá áş áá˝á˛ááźáŹá¸ááźááşá¸á
- Object Detection: ááŻáśáá áşááŻáśáĄáá˝ááşá¸áážá áĄááŹááášááŻááťáŹá¸ááᯠáážáŹáá˝áąááąáŹáşááŻááşááźáŽá¸ áááşá¸áááŻáˇá áááşááąááŹááᯠáááşáážááşááźááşá¸á
- Image Segmentation: ááŻáśáá áşááŻáśáĄáá˝ááşá¸áážá pixel ááťáŹá¸ááᯠááŽá¸ááźáŹá¸áĄááŹááášááŻááťáŹá¸ áááŻáˇáááŻááş ááąáááťáŹá¸áĄááźá áş áá˝á˛ááźáŹá¸ááźááşá¸á
- Depth Estimation: ááŻáśáá áşááŻáśáĄáá˝ááşá¸áážá áĄááŹááášááŻááťáŹá¸á áááşáááŹáážááˇáş ááąá¸áá˝áŹááąáŹ áĄáá˝áŹáĄááąá¸ááᯠáááˇáşáážááşá¸ááźááşá¸á
- Text Classification: á áŹááŹá¸áážááşáááşá¸ááťáŹá¸ááᯠááźááŻáááşáááşáážááşááŹá¸ááąáŹ áĄááťááŻá¸áĄá áŹá¸ááťáŹá¸áĄááźá áş áá˝á˛ááźáŹá¸ááźááşá¸á
- Token Classification: á áŹááŹá¸ sequence áá áşááŻáážá token áá áşááŻá áŽááᯠlabel áá áşáᯠáááşáážááşááąá¸ááźááşá¸á
- Question Answering: ááąá¸ááŹá¸ááąáŹ á áŹááŹá¸áá áşááŻáĄáá˝ááşá¸ááž ááąá¸áá˝ááşá¸áá áşááŻá áĄááźáąááᯠáážáŹáá˝áąááźááşá¸á
- Text Generation: AI ááąáŹáşáááşááťáŹá¸ááᯠáĄááŻáśá¸ááźáŻá áá°ááŹá¸áá˛áˇáááŻáˇááąáŹ á áŹááŹá¸áĄáá áşááťáŹá¸ áááşááŽá¸ááźááşá¸á
- Summarization: áážááşááťáŹá¸ááąáŹ á áŹááŹá¸áá áşááŻááᯠáĄááááĄááťááşáĄáááşááťáŹá¸áážááˇáş áĄáááášááŹááşááᯠáááťááşá áŽá¸á áąáᲠáááŻááąáŹááşá¸áĄáąáŹááşááźáŻááŻááşááźááşá¸á
- Translation: á áŹááŹá¸ááᯠááŹááŹá ááŹá¸áá áşááŻááž áĄááźáŹá¸ááŹááŹá ááŹá¸áá áşááŻáááŻáˇ áĄáááášááŹááşáááťááş ááŹááŹááźááşááźááşá¸á
- Attention Mechanism: Transformer ááąáŹáşáááşááťáŹá¸áá˝ááş áĄááŻáśá¸ááźáŻááąáŹ áááşá¸á áá áşáá áşááŻááźá áşááźáŽá¸ input sequence á ááá°ááŽááąáŹ áĄá áááşáĄáááŻááşá¸ááťáŹá¸áĄááąáŤáş áĄáŹááŻáśá ááŻááşááźáŽá¸ áááşáá˝ááşáážáŻááťáŹá¸ááᯠáááşáá°á áąáááşá
- Language Models: áá°ááŹá¸ááŹááŹá ááŹá¸ááᯠááŹá¸áááşááźáŽá¸ ááŻááşááąá¸áááŻááşáááş ááŽáááŻááşá¸ááŻááşááŹá¸ááąáŹ Machine Learning ááąáŹáşáááşááťáŹá¸á
- Tokens: á áŹááŹá¸áá áşááŻá áĄááąá¸áááşááŻáśá¸ááąáŹ áĄá áááşáĄáááŻááşá¸ááťáŹá¸ (áĽáááŹ- á ááŹá¸ááŻáśá¸ááťáŹá¸á á áŹááŻáśá¸ááťáŹá¸)á
- Machine Translation: ááŹááŹá ááŹá¸áá áşááŻáááą áĄááźáŹá¸ááŹááŹá ááŹá¸áá áşááŻááᯠá áŹááŹá¸áá˝áą ááŤáážáááŻááş á ááŹá¸ááźáąáŹáá˝áąááᯠáĄáááŻáĄááťáąáŹááş ááŹááŹááźááşáááŻááźááşá¸á
- Bidirectional Context: á áŹááŹá¸áá áşááŻááᯠá ááŹá¸ááŻáśá¸áá áşááŻáśá¸áá˛áˇ áĄáážáąáˇáá˛áˇ áĄááąáŹááş áážá áşáááşááŻáśá¸áááą ááźááˇáşáážáŻááźáŽá¸ ááŹá¸áááşááźááşá¸á
- Masked Language Modeling (MLM): input tokens áĄááťááŻáˇááᯠááŻáśá¸áá˝ááşááŹá¸ááźáŽá¸ ááąáŹáşáááşááᯠáááşá¸áááŻáˇááᯠáááˇáşáážááşá¸á áąáááş ááąáˇááťááˇáşááąáŹ pretraining áááşá¸áááşá¸á
- Causal Language Modeling (CLM): input sequence á áĄáááş tokens ááťáŹá¸ááąáŤáş áĄááźáąááśááźáŽá¸ ááąáŹááş token ááᯠáááˇáşáážááşá¸á áąáááş ááąáŹáşáááşááᯠááąáˇááťááˇáşááąáŹ pretraining áááşá¸áááşá¸á
- Named Entity Recognition (NER): á áŹááŹá¸áá˛á áá°áĄáááşá ááąááŹáĄáááşá áĄáá˝á˛áˇáĄá ááşá¸áĄáááş á áá˛áˇ ááŽá¸ááźáŹá¸áĄáááşáá˝áąááᯠáážáŹáá˝áąááąáŹáşááŻááşááźááşá¸á
- Part-of-Speech (POS) Tagging: á áŹááźáąáŹááşá¸áá áşááŻáážá á ááŹá¸ááŻáśá¸áá áşááŻáśá¸á áŽááᯠáááşáááŻááşáᏠááášááŤáĄááťááŻá¸áĄá áŹá¸ (áĽáááŹ- ááŹááşá ááźáááŹá ááŹáááááąáá) ááᯠáááşáážááşááąá¸ááźááşá¸á
- Self-supervised: ááąááŹááťáŹá¸ááᯠáá°ááŹá¸ááťáŹá¸á áááşááźááˇáş áážááşááŹá¸ (annotate) áááş ááááŻáĄááşáᲠááąááŹáááŻááşáááŻááşáááą áááşáá°áááŻááşááąáŹ ááąáˇááťááˇáşáážáŻáááşá¸áááşá¸á
- Human Annotations: áá°ááŹá¸ááťáŹá¸á ááąááŹááťáŹá¸ááᯠáááşááźááˇáş áážááşááŹá¸ááźááşá¸ áááŻáˇáááŻááş áĄáá˝ážááşá¸áááşááźááşá¸á
- Transfer Learning: ááźááŻáááşááąáˇááťááˇáşááŹá¸ááźáŽá¸ááŹá¸ ááąáŹáşáááş (pre-trained model) áá áşááŻááᯠáĄááźáŹá¸ááŻááşáááşá¸ááŹáááşáĄáá áşáá áşááŻáĄáá˝ááş ááźááşáááşáĄááŻáśá¸ááźáŻááźááşá¸á
- Byte Pair Encoding (BPE): á áŹááŹá¸ááťáŹá¸ááᯠtokens áĄááźá áş ááźáąáŹááşá¸áá˛áááş áĄááŻáśá¸ááźáŻááąáŹ tokenization áááşá¸áááşá¸áá áşááŻá
- Token Embedding: tokens ááťáŹá¸ááᯠvector ááŻáśá áśááźááˇáş áááŻááşá áŹá¸ááźáŻááźááşá¸á
- Positional Encodings: sequence áá áşááŻáážá token áá áşááŻááťááşá¸á áŽá áááşááąáᏠáĄááťááşáĄáááşááťáŹá¸ááᯠáááşáááˇáşááąá¸ááźááşá¸á
- Decoder Blocks: Transformer decoder á áĄá áááşáĄáááŻááşá¸ááťáŹá¸á
- Masked Self-Attention: Transformer decoder áá˝ááş áĄááŻáśá¸ááźáŻááąáŹ attention mechanism áá áşááťááŻá¸ááźá áşááźáŽá¸ ááąáŹáşáááşááᯠfuture tokens ááťáŹá¸áááŻáˇ ááźááˇáşáážáŻáá˝ááˇáşáááźáŻááŤá
- Attention Mask: attention mechanism áá˝ááş áĄááťááŻáˇ tokens ááťáŹá¸ááᯠááťá áşááťá°áážáŻáááş áááŻáˇáááŻááş áááşá¸áááŻáˇá score ááᯠááŻááááşáážááşáááş áĄááŻáśá¸ááźáŻááąáŹ mask áá áşááŻá
- Language Modeling Head: ááąáŹáşáááşá hidden states ááťáŹá¸ááᯠlogits áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸áááˇáş layerá
- Linear Transformation: áááşášááťáŹáááŻááşáᏠáĄááźáąáŹááşá¸áĄáá˛áá áşááŻááźá áşááźáŽá¸ input vector ááᯠoutput vector áĄááźá áş ááźáąáŹááşá¸áá˛ááąá¸áááşá
- Logits: ááąáŹáşáááşá output ááááŻááşáᎠraw, unnormalized prediction scores ááťáŹá¸á
- Cross-Entropy Loss: classification ááŻááşáááşá¸ááŹáááşááťáŹá¸áá˝ááş áĄááŻáśá¸ááźáŻááąáŹ loss function áá áşááŻááźá áşááźáŽá¸ ááąáŹáşáááşá áááˇáşáážááşá¸ááťááşááťáŹá¸áážááˇáş áĄáážááşááááş labels ááťáŹá¸ááźáŹá¸ ááźáŹá¸ááŹá¸ááťááşááᯠáááŻááşá¸ááŹáááşá
- WordPiece: á áŹááŹá¸ááťáŹá¸ááᯠtokens áĄááźá áş ááźáąáŹááşá¸áá˛áááş BERT ááž áĄááŻáśá¸ááźáŻááąáŹ tokenization áááşá¸áááşá¸áá áşááŻá
[SEP]Token: á áŹááźáąáŹááşá¸ááťáŹá¸ááźáŹá¸ áá˝á˛ááźáŹá¸áááş áĄááŻáśá¸ááźáŻááąáŹ áĄáá°á¸ token á[CLS]Token: á áŹááźáąáŹááşá¸áá áşááŻá áĄá áá˝ááş áááˇáşáá˝ááşá¸ááźáŽá¸ á áŹááźáąáŹááşá¸áá áşááŻááŻáśá¸á áááŻááşá áŹá¸ááźáŻáážáŻááᯠáááşá¸áá°áááş áĄááŻáśá¸ááźáŻááąáŹ áĄáá°á¸ token á- Segment Embedding: token áá áşááŻá á áŹááźáąáŹááşá¸áá áşá áŻáśáážáŹ ááá áááŻáˇáááŻááş ááŻáááá áŹááźáąáŹááşá¸áážáŹ ááŤáááşáááşááᯠááąáŹáşááźááąáŹ embeddingá
- Feedforward Network: neural network áá áşááŻá áĄááźáąááś layer áá áşááŻá
- Softmax: multi-class classification áá˝ááş ááźá áşáááŻááşááźáąááťáŹá¸ááᯠáá˝ááşááťááşáááş áĄááŻáśá¸ááźáŻááąáŹ activation function áá áşááŻá
- Next-Sentence Prediction: ááąáŹáşáááşááᯠá áŹááźáąáŹááşá¸ B á á áŹááźáąáŹááşá¸ A ááąáŹááşá áááŻááşáááŹá¸áááŻáᏠáááˇáşáážááşá¸á áąáááş ááąáˇááťááˇáşááąáŹ pretraining ááŻááşáááşá¸ááŹáááşá
- Sequence Classification Head: sequence classification ááŻááşáááşá¸ááŹáááşááťáŹá¸áĄáá˝ááş ááąáŹáşáááşá output áá˝ááş áááşáááˇáşááąáŹ linear layerá
- Token Classification Head: token classification ááŻááşáááşá¸ááŹáááşááťáŹá¸áĄáá˝ááş ááąáŹáşáááşá output áá˝ááş áááşáááˇáşááąáŹ linear layerá
- Span Classification Head: question answering ááŻááşáááşá¸ááŹáááşááťáŹá¸áĄáá˝ááş ááąáŹáşáááşá output áá˝ááş áááşáááˇáşááąáŹ linear layer ááźá áşááźáŽá¸ áĄááźáąá start/end positions ááťáŹá¸ááᯠáááˇáşáážááşá¸áááşá
- Corrupting: ááąáŹáşáááşááᯠááąáˇááťááˇáşáááşáĄáá˝ááş input data áá˝ááş áááşáá˝ááşááťááşáážááážá áĄááźáąáŹááşá¸áĄáá˛ááťáŹá¸ ááźáŻááŻááşááźááşá¸á
- Text Infilling: á áŹááŹá¸áĄáááŻááşá¸áĄááťááŻáˇááᯠááŻáśá¸áá˝ááşááŹá¸ááźáŽá¸ ááąáŹáşáááşááᯠáááşá¸áááŻáˇááᯠáááˇáşáážááşá¸á áąáááş ááąáˇááťááˇáşááąáŹ corruption strategyá
- Log-Mel Spectrogram: áĄááśáĄááťááşááźáážáŻáá áşááŻá ááźáááşáážáŻááşá¸áážááˇáş áĄááťáááşáĄáááŻááş ááźáąáŹááşá¸áá˛áážáŻááťáŹá¸ááᯠááŻáśááááşáĄááźá áş áááŻááşá áŹá¸ááźáŻááźááşá¸á
- Autoregressively: áĄáááşá áááˇáşáážááşá¸ááŹá¸áá˛áˇ outputs áá˝áąááąáŤáş áĄááźáąááśááźáŽá¸ ááąáŹááş output ááᯠáááˇáşáážááşá¸áá˛áˇ ááŻááşáááşá¸á ááşá
- Zero-shot Performance: ááąáŹáşáááşáá áşááŻááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸áĄáá˝ááş ááąáˇááťááˇáşááŹá¸ááźááşá¸ááážááᲠááŻááşáááşá¸áĄáá áşáá áşááŻááᯠááŻááşááąáŹááşáááŻááşá á˝ááşá¸á
- Weakly Supervised Pretraining: áá°ááŹá¸áážááşááŹá¸áážáŻ (human annotations) áááşá¸ááŤá¸ááąáŹ áááŻáˇáááŻááş ááážáááąáŹ ááąááŹááťáŹá¸ááᯠáĄááŻáśá¸ááźáŻá ááąáŹáşáááşááᯠááźááŻáááşááąáˇááťááˇáşááźááşá¸á
- Pipeline: Hugging Face Transformers library áá˝ááş ááŤáááşááąáŹ ááŻááşááąáŹááşááťááşáá áşááŻááźá áşááźáŽá¸ ááąáŹáşáááşááťáŹá¸ááᯠááŽá¸ááźáŹá¸ááŻááşáááşá¸ááŹáááşááťáŹá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻááá˝ááşáá°á áąáááş áá°ááŽááąá¸áááşá
- Patches: ááŻáśáá áşááŻáśááᯠáá˝á˛ááźááşá¸ááŹá¸ááąáŹ ááąá¸áááşááąáŹ áĄá áááşáĄáááŻááşá¸ááťáŹá¸á
- Convolutional 2D Layer: ááŻáśááťáŹá¸ááᯠááŻááşááąáŹááşáááş áĄááŻáśá¸ááźáŻááąáŹ neural network layer áá áşááťááŻá¸á
- Multilayer Perceptron (MLP) Head: classification ááŻááşáááşá¸ááŹáááşááťáŹá¸áĄáá˝ááş áĄááŻáśá¸ááźáŻááąáŹ feedforward neural network layerá
- Convolutional Neural Network (CNN): ááŻáśááťáŹá¸áážááˇáş ááŽááŽáááŻááťáŹá¸ááᯠááŻááşááąáŹááşáááş áĄáá°á¸ááŽáááŻááşá¸ááŻááşááŹá¸ááąáŹ neural network áĄááťááŻá¸áĄá áŹá¸áá áşááŻá
- Convolutional Layers: CNN á áĄááá áĄá áááşáĄáááŻááşá¸ááťáŹá¸ááźá áşááźáŽá¸ ááŻáśááťáŹá¸ááž features ááťáŹá¸ááᯠááŻááşáá°áááş áĄááŻáśá¸ááźáŻáááşá