ahassoun's picture
Upload 3018 files
ee6e328

Transformer ๋ชจ๋ธ๊ตฐ[[the-transformer-model-family]]

2017๋…„์— ์†Œ๊ฐœ๋œ ๊ธฐ๋ณธ Transformer ๋ชจ๋ธ์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์„ ๋„˜์–ด ์ƒˆ๋กญ๊ณ  ํฅ๋ฏธ๋กœ์šด ๋ชจ๋ธ๋“ค์— ์˜๊ฐ์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ๋ฐฑ์งˆ ์ ‘ํž˜ ๊ตฌ์กฐ ์˜ˆ์ธก, ์น˜ํƒ€์˜ ๋‹ฌ๋ฆฌ๊ธฐ ํ›ˆ๋ จ, ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋“ฑ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์ด ์ƒ๊ฒจ๋‚ฌ์Šต๋‹ˆ๋‹ค. Transformer์˜ ๋ณ€ํ˜•์ด ๋„ˆ๋ฌด ๋งŽ์•„์„œ, ํฐ ๊ทธ๋ฆผ์„ ๋†“์น˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ ์žˆ๋Š” ๋ชจ๋“  ๋ชจ๋ธ์˜ ๊ณตํ†ต์ ์€ ๊ธฐ๋ณธ Trasnformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ชจ๋ธ์€ ์ธ์ฝ”๋” ๋˜๋Š” ๋””์ฝ”๋”๋งŒ ์‚ฌ์šฉํ•˜๊ณ , ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์€ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ Transformer ๋ชจ๋ธ๊ตฐ ๋‚ด ์ƒ์œ„ ๋ ˆ๋ฒจ์—์„œ์˜ ์ฐจ์ด์ ์„ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๊ฒ€ํ† ํ•˜๋ฉด ์œ ์šฉํ•œ ๋ถ„๋ฅ˜ ์ฒด๊ณ„๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด์ „์— ์ ‘ํ•ด๋ณด์ง€ ๋ชปํ•œ Transformer ๋ชจ๋ธ๋“ค ๋˜ํ•œ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ธฐ๋ณธ Transformer ๋ชจ๋ธ์— ์ต์ˆ™ํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ๋ณต์Šต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ, Hugging Face ๊ฐ•์˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋‚˜์š”? ์ฑ•ํ„ฐ๋ฅผ ํ™•์ธํ•˜์„ธ์š”.

์ปดํ“จํ„ฐ ๋น„์ „[[computer-vision]]

ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ[[convolutional-network]]

Vision Transformer๊ฐ€ ํ™•์žฅ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ•˜๊ธฐ ์ „๊นŒ์ง€ ์˜ค๋žซ๋™์•ˆ ํ•ฉ์„ฑ๊ณฑ ๋„คํŠธ์›Œํฌ(CNN)๊ฐ€ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์˜ ์ง€๋ฐฐ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ด๋™ ๋ถˆ๋ณ€์„ฑ(translation invariance)๊ณผ ๊ฐ™์€ CNN์˜ ์šฐ์ˆ˜ํ•œ ๋ถ€๋ถ„์ด ๋„๋“œ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋ช‡๋ช‡ (ํŠนํžˆ ํŠน์ • ๊ณผ์—…์—์„œ์˜) Transformer ๋ชจ๋ธ์€ ์•„ํ‚คํ…์ฒ˜์— ํ•ฉ์„ฑ๊ณฑ์„ ํ†ตํ•ฉํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ConvNeXt๋Š” ์ด๋Ÿฐ ๊ด€๋ก€๋ฅผ ๋’ค์ง‘์–ด CNN์„ ํ˜„๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด Transformer์˜ ๋””์ž์ธ์„ ์ฐจ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด ConvNeXt๋Š” ๊ฒน์น˜์ง€ ์•Š๋Š” ์Šฌ๋ผ์ด๋”ฉ ์ฐฝ(sliding window)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ํŒจ์น˜ํ™”ํ•˜๊ณ , ๋” ํฐ ์ปค๋„๋กœ ์ „์—ญ ์ˆ˜์šฉ ํ•„๋“œ(global receptive field)๋ฅผ ํ™•์žฅ์‹œํ‚ต๋‹ˆ๋‹ค. ConvNeXt๋Š” ๋˜ํ•œ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ ๋†’์ด๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ ˆ์ด์–ด ์„ค๊ณ„๋ฅผ ์„ ํƒํ•˜๊ธฐ ๋•Œ๋ฌธ์— Transformer์™€ ๊ฒฌ์ค„๋งŒํ•ฉ๋‹ˆ๋‹ค!

์ธ์ฝ”๋”[[cv-encoder]]

Vision Transformer(ViT)๋Š” ํ•ฉ์„ฑ๊ณฑ ์—†๋Š” ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์˜ ๋ง‰์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ViT๋Š” ํ‘œ์ค€ Transformer ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๊ฐ€์žฅ ํฐ ํ˜์‹ ์€ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฌธ์žฅ์„ ํ† ํฐ์œผ๋กœ ๋ถ„ํ• ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์ด๋ฏธ์ง€๋ฅผ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ํŒจ์น˜๋กœ ๋ถ„ํ• ํ•˜๊ณ , ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ViT๋Š” Transformer์˜ ํšจ์œจ์ ์ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ›ˆ๋ จ์— ๋” ์ ์€ ์ž์›์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ๋‹น์‹œ CNN์— ๋น„๊ฒฌํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ViT๋ฅผ ๋’ค์ด์–ด ๋ถ„ํ• (segmentation)๊ณผ ๊ฐ™์€ ๊ณ ๋ฐ€๋„ ๋น„์ „ ์ž‘์—…๊ณผ ํƒ์ง€ ์ž‘์—…๋„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋‹ค๋ฅธ ๋น„์ „ ๋ชจ๋ธ์ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๊ฐ€ Swin Transformer์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ž‘์€ ํฌ๊ธฐ์˜ ํŒจ์น˜์—์„œ ๊ณ„์ธต์  ํŠน์ง• ๋งต(CNN ๐Ÿ‘€๊ณผ ๊ฐ™์ง€๋งŒ ViT์™€๋Š” ๋‹ค๋ฆ„)์„ ๋งŒ๋“ค๊ณ  ๋” ๊นŠ์€ ๋ ˆ์ด์–ด์˜ ์ธ์ ‘ ํŒจ์น˜์™€ ๋ณ‘ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์–ดํ…์…˜(Attention)์€ ์ง€์—ญ ์œˆ๋„์šฐ ๋‚ด์—์„œ๋งŒ ๊ณ„์‚ฐ๋˜๋ฉฐ, ๋ชจ๋ธ์ด ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์–ดํ…์…˜ ๋ ˆ์ด์–ด ๊ฐ„์— ์œˆ๋„์šฐ๋ฅผ ์ด๋™ํ•˜๋ฉฐ ์—ฐ๊ฒฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Swin Transformer๋Š” ๊ณ„์ธต์  ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ถ„ํ• (segmentation)๊ณผ ํƒ์ง€์™€ ๊ฐ™์€ ๊ณ ๋ฐ€๋„ ์˜ˆ์ธก ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. SegFormer ์—ญ์‹œ Transformer ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์ธต์  ํŠน์ง• ๋งต์„ ๊ตฌ์ถ•ํ•˜์ง€๋งŒ, ์ƒ๋‹จ์— ๊ฐ„๋‹จํ•œ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP) ๋””์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋“  ํŠน์ง• ๋งต์„ ๊ฒฐํ•ฉํ•˜๊ณ  ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

BeIT์™€ ViTMAE์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๋น„์ „ ๋ชจ๋ธ์€ BERT์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ(objective)์—์„œ ์˜๊ฐ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. BeIT๋Š” *๋งˆ์Šคํฌ๋“œ ์ด๋ฏธ์ง€ ๋ชจ๋ธ๋ง(MIM)*์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋˜๋ฉฐ, ์ด๋ฏธ์ง€ ํŒจ์น˜๋Š” ์ž„์˜๋กœ ๋งˆ์Šคํ‚น๋˜๊ณ  ์ด๋ฏธ์ง€๋„ ์‹œ๊ฐ์  ํ† ํฐ์œผ๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค. BeIT๋Š” ๋งˆ์Šคํ‚น๋œ ํŒจ์น˜์— ํ•ด๋‹นํ•˜๋Š” ์‹œ๊ฐ์  ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ViTMAE๋„ ๋น„์Šทํ•œ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ๊ฐ€ ์žˆ์ง€๋งŒ, ์‹œ๊ฐ์  ํ† ํฐ ๋Œ€์‹  ํ”ฝ์…€์„ ์˜ˆ์ธกํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ํŠน์ดํ•œ ์ ์€ ์ด๋ฏธ์ง€ ํŒจ์น˜์˜ 75%๊ฐ€ ๋งˆ์Šคํ‚น๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค! ๋””์ฝ”๋”๋Š” ๋งˆ์Šคํ‚น๋œ ํ† ํฐ๊ณผ ์ธ์ฝ”๋”ฉ๋œ ํŒจ์น˜์—์„œ ํ”ฝ์…€์„ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ํ›ˆ๋ จ์ด ๋๋‚˜๋ฉด ๋””์ฝ”๋”๋Š” ํ๊ธฐ๋˜๊ณ  ์ธ์ฝ”๋”๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ์‚ฌ์šฉํ•  ์ค€๋น„๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

๋””์ฝ”๋”[[cv-decoder]]

๋Œ€๋ถ€๋ถ„์˜ ๋น„์ „ ๋ชจ๋ธ์€ ์ธ์ฝ”๋”์— ์˜์กดํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋””์ฝ”๋” ์ „์šฉ ๋น„์ „ ๋ชจ๋ธ์€ ๋“œ๋ญ…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ์˜ ์‚ฌ๋ก€์˜ ๊ฒฝ์šฐ, GPT-2์™€ ๊ฐ™์€ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ๋ณด์•˜๋“ฏ์ด ๋””์ฝ”๋”๊ฐ€ ๊ฐ€์žฅ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ImageGPT๋Š” GPT-2์™€ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์‹œํ€€์Šค์˜ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๋Œ€์‹  ์ด๋ฏธ์ง€์˜ ๋‹ค์Œ ํ”ฝ์…€์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ImageGPT๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

์ธ์ฝ”๋”-๋””์ฝ”๋”[[cv-encoder-decoder]]

๋น„์ „ ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ธ์ฝ”๋”(๋ฐฑ๋ณธ์œผ๋กœ๋„ ์•Œ๋ ค์ง)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘์š”ํ•œ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์ถ”์ถœํ•œ ํ›„, ์ด๋ฅผ Transformer ๋””์ฝ”๋”๋กœ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. DETR์— ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ฐฑ๋ณธ์ด ์žˆ์ง€๋งŒ, ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์œ„ํ•ด ์™„์ „ํ•œ Transformer ์ธ์ฝ”๋”-๋””์ฝ”๋” ์•„ํ‚คํ…์ฒ˜๋„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” ์ด๋ฏธ์ง€ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ๋””์ฝ”๋”์—์„œ ๊ฐ์ฒด ์ฟผ๋ฆฌ(๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ๋Š” ์ด๋ฏธ์ง€์˜ ์˜์—ญ ๋˜๋Š” ๊ฐ์ฒด์— ์ค‘์ ์„ ๋‘๊ณ  ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ)์™€ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. DETR์€ ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ์™€ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ž์—ฐ์–ด์ฒ˜๋ฆฌ[[natural-language-processing]]

์ธ์ฝ”๋”[[nlp-encoder]]

BERT๋Š” ์ธ์ฝ”๋” ์ „์šฉ Transformer๋กœ, ๋‹ค๋ฅธ ํ† ํฐ์„ ๋ณด๊ณ  ์†Œ์œ„ "๋ถ€์ • ํ–‰์œ„"๋ฅผ ์ €์ง€๋ฅด๋Š” ๊ฑธ ๋ง‰๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ์—์„œ ํŠน์ • ํ† ํฐ์„ ์ž„์˜๋กœ ๋งˆ์Šคํ‚นํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ํ›ˆ๋ จ์˜ ๋ชฉํ‘œ๋Š” ์ปจํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งˆ์Šคํ‚น๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด BERT๋Š” ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ ์ปจํ…์ŠคํŠธ๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์—ฌ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๋” ๊นŠ๊ณ  ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ BERT์˜ ์‚ฌ์ „ํ›ˆ๋ จ ์ „๋žต์—๋Š” ์—ฌ์ „ํžˆ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ๋‚จ์•„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. RoBERTa๋Š” ๋” ๊ธด ์‹œ๊ฐ„ ๋™์•ˆ ๋” ํฐ ๋ฐฐ์น˜์— ๋Œ€ํ•œ ํ›ˆ๋ จ์„ ํฌํ•จํ•˜๊ณ , ์ „์ฒ˜๋ฆฌ ์ค‘์— ํ•œ ๋ฒˆ๋งŒ ๋งˆ์Šคํ‚นํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ฐ ์—ํญ์—์„œ ํ† ํฐ์„ ์ž„์˜๋กœ ๋งˆ์Šคํ‚นํ•˜๊ณ , ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก ๋ชฉํ‘œ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ์ƒˆ๋กœ์šด ์‚ฌ์ „ํ›ˆ๋ จ ๋ฐฉ์‹์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ์ด๋ฅผ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ๊ฐœ์„ ์„ ์œ„ํ•œ ์ „๋žต์œผ๋กœ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๊ฒƒ์ด ์ง€๋ฐฐ์ ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํฐ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋ ค๋ฉด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค. ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋Š” ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ DistilBERT์™€ ๊ฐ™์ด ์ž‘์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. DistilBERT๋Š” ์••์ถ• ๊ธฐ๋ฒ•์ธ ์ง€์‹ ์ฆ๋ฅ˜(knowledge distillation)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฑฐ์˜ ๋ชจ๋“  ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋” ์ž‘์€ ๋ฒ„์ „์˜ BERT๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ Transformer ๋ชจ๋ธ์— ๋” ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์ด์–ด์กŒ๊ณ , ์ด์— ๋”ฐ๋ผ ํ›ˆ๋ จ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์— ์ค‘์ ์„ ๋‘” ์ƒˆ๋กœ์šด ๋ชจ๋ธ์ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ALBERT๋Š” ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ์ค„์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ํฐ ์–ดํœ˜๋ฅผ ๋‘ ๊ฐœ์˜ ์ž‘์€ ํ–‰๋ ฌ๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ๊ณผ ๋ ˆ์ด์–ด๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณต์œ ํ•˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. DeBERTa๋Š” ๋‹จ์–ด์™€ ๊ทธ ์œ„์น˜๋ฅผ ๋‘ ๊ฐœ์˜ ๋ฒกํ„ฐ๋กœ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ถ„๋ฆฌ๋œ(disentangled) ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์–ดํ…์…˜์€ ๋‹จ์–ด์™€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ํฌํ•จํ•˜๋Š” ๋‹จ์ผ ๋ฒกํ„ฐ ๋Œ€์‹  ์ด ๋ณ„๋„์˜ ๋ฒกํ„ฐ์—์„œ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. Longformer๋Š” ํŠนํžˆ ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธด ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, ์–ดํ…์…˜์„ ๋” ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์— ์ค‘์ ์„ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์ง€์—ญ(local) ์œˆ๋„์šฐ ์–ดํ…์…˜(๊ฐ ํ† ํฐ ์ฃผ๋ณ€์˜ ๊ณ ์ •๋œ ์œˆ๋„์šฐ ํฌ๊ธฐ์—์„œ๋งŒ ๊ณ„์‚ฐ๋˜๋Š” ์–ดํ…์…˜)๊ณผ ์ „์—ญ(global) ์–ดํ…์…˜(๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด [CLS]์™€ ๊ฐ™์€ ํŠน์ • ์ž‘์—… ํ† ํฐ์—๋งŒ ํ•ด๋‹น)์˜ ์กฐํ•ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „์ฒด(full) ์–ดํ…์…˜ ํ–‰๋ ฌ ๋Œ€์‹  ํฌ์†Œ(sparse) ์–ดํ…์…˜ ํ–‰๋ ฌ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๋””์ฝ”๋”[[nlp-decoder]]

GPT-2๋Š” ์‹œํ€€์Šค์—์„œ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋””์ฝ”๋” ์ „์šฉ Transformer์ž…๋‹ˆ๋‹ค. ํ† ํฐ์„ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๋งˆ์Šคํ‚นํ•˜์—ฌ ๋ชจ๋ธ์ด ์ด์ „ ํ† ํฐ์„ ๋ณด๊ณ  "๋ถ€์ • ํ–‰์œ„"๋ฅผ ํ•˜์ง€ ๋ชปํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. GPT-2๋Š” ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ›ˆ๋ จํ•˜์—ฌ ํ…์ŠคํŠธ๊ฐ€ ์ผ๋ถ€๋งŒ ์ •ํ™•ํ•˜๊ฑฐ๋‚˜ ์‚ฌ์‹ค์ธ ๊ฒฝ์šฐ์—๋„ ์ƒ๋‹นํžˆ ๋Šฅ์ˆ™ํ•˜๊ฒŒ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ GPT-2๋Š” BERT๊ฐ€ ์‚ฌ์ „ํ›ˆ๋ จ์—์„œ ๊ฐ–๋Š” ์–‘๋ฐฉํ–ฅ ์ปจํ…์ŠคํŠธ๊ฐ€ ๋ถ€์กฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ • ์ž‘์—…์— ์ ํ•ฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. XLNET์€ ์–‘๋ฐฉํ–ฅ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•œ permutation language modeling objective(PLM)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ BERT์™€ GPT-2์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ์— ๋Œ€ํ•œ ์žฅ์ ์„ ํ•จ๊ป˜ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

GPT-2 ์ดํ›„, ์–ธ์–ด ๋ชจ๋ธ์€ ๋”์šฑ ๊ฑฐ๋Œ€ํ•ด์กŒ๊ณ  ํ˜„์žฌ๋Š” *๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)*๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถฉ๋ถ„ํžˆ ํฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋œ LLM์€ ํ“จ์ƒท(few-shot) ๋˜๋Š” ์ œ๋กœ์ƒท(zero-shot) ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. GPT-J๋Š” 6B ํฌ๊ธฐ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๊ณ  400B ํฌ๊ธฐ์˜ ํ† ํฐ์œผ๋กœ ํ›ˆ๋ จ๋œ LLM์ž…๋‹ˆ๋‹ค. GPT-J์— ์ด์–ด ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ๊ตฐ์ธ OPT๊ฐ€ ๋“ฑ์žฅํ–ˆ์œผ๋ฉฐ, ์ด ์ค‘ ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์€ 175B ํฌ๊ธฐ์ด๊ณ  180B ํฌ๊ธฐ์˜ ํ† ํฐ์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. BLOOM์€ ๋น„์Šทํ•œ ์‹œ๊ธฐ์— ์ถœ์‹œ๋˜์—ˆ์œผ๋ฉฐ, ์ด ์ค‘ ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์€ 176B ํฌ๊ธฐ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๊ณ  46๊ฐœ์˜ ์–ธ์–ด์™€ 13๊ฐœ์˜ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋กœ ๋œ 366B ํฌ๊ธฐ์˜ ํ† ํฐ์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ธ์ฝ”๋”-๋””์ฝ”๋”[[nlp-encoder-decoder]]

BART๋Š” ๊ธฐ๋ณธ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ์œ ์ง€ํ•˜์ง€๋งŒ, ์ผ๋ถ€ ํ…์ŠคํŠธ ์ŠคํŒฌ(span)์ด ๋‹จ์ผ ๋งˆ์Šคํฌ ํ† ํฐ์œผ๋กœ ๋Œ€์ฒด๋˜๋Š” text infilling ๋ณ€ํ˜•์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ๋ฅผ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ๋ณ€ํ˜•๋˜์ง€ ์•Š์€ ํ† ํฐ(ํ–ฅํ›„ ํ† ํฐ์€ ๋งˆ์Šคํ‚น๋จ)์„ ์˜ˆ์ธกํ•˜๊ณ  ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด ์ž‘์—…์„ ๋•์Šต๋‹ˆ๋‹ค. Pegasus๋Š” BART์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, Pegasus๋Š” ํ…์ŠคํŠธ ์ŠคํŒฌ ๋Œ€์‹  ์ „์ฒด ๋ฌธ์žฅ์„ ๋งˆ์Šคํ‚นํ•ฉ๋‹ˆ๋‹ค. Pegasus๋Š” ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง ์™ธ์—๋„ gap sentence generation(GSG)๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. GSG๋Š” ๋ฌธ์„œ์— ์ค‘์š”ํ•œ ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ๋งˆ์Šคํ‚นํ•˜์—ฌ ๋งˆ์Šคํฌ ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ๋‚จ์€ ๋ฌธ์žฅ์—์„œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. T5๋Š” ํŠน์ • ์ ‘๋‘์‚ฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  NLP ์ž‘์—…์„ ํ…์ŠคํŠธ ํˆฌ ํ…์ŠคํŠธ ๋ฌธ์ œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋” ํŠน์ˆ˜ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ ‘๋‘์‚ฌ Summarize:์€ ์š”์•ฝ ์ž‘์—…์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. T5๋Š” ์ง€๋„(GLUE ๋ฐ SuperGLUE) ํ›ˆ๋ จ๊ณผ ์ž๊ธฐ์ง€๋„ ํ›ˆ๋ จ(ํ† ํฐ์˜ 15%๋ฅผ ์ž„์˜๋กœ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์ œ๊ฑฐ)์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.

์˜ค๋””์˜ค[[audio]]

์ธ์ฝ”๋”[[audio-encoder]]

Wav2Vec2๋Š” Transformer ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์›๋ณธ ์˜ค๋””์˜ค ํŒŒํ˜•(raw audio waveform)์—์„œ ์ง์ ‘ ์Œ์„ฑ ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํ—ˆ์œ„ ์Œ์„ฑ ํ‘œํ˜„ ์„ธํŠธ์—์„œ ์‹ค์ œ ์Œ์„ฑ ํ‘œํ˜„์„ ํŒ๋ณ„ํ•˜๋Š” ๋Œ€์กฐ ์ž‘์—…์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. HuBERT๋Š” Wav2Vec2์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ํ›ˆ๋ จ ๊ณผ์ •์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ํƒ€๊ฒŸ ๋ ˆ์ด๋ธ”์ด ์œ ์‚ฌํ•œ ์˜ค๋””์˜ค ์„ธ๊ทธ๋จผํŠธ๊ฐ€ ํด๋Ÿฌ์Šคํ„ฐ์— ํ• ๋‹น๋˜์–ด ์€๋‹‰ ๋‹จ์œ„(unit)๊ฐ€ ๋˜๋Š” ๊ตฐ์ง‘ํ™”(clustering) ๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์€๋‹‰ ๋‹จ์œ„๋Š” ์˜ˆ์ธก์„ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ์— ๋งคํ•‘๋ฉ๋‹ˆ๋‹ค.

์ธ์ฝ”๋”-๋””์ฝ”๋”[[audio-encoder-decoder]]

Speech2Text๋Š” ์ž๋™ ์Œ์„ฑ ์ธ์‹(ASR) ๋ฐ ์Œ์„ฑ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ์Œ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์˜ค๋””์˜ค ํŒŒํ˜•์—์„œ ์ถ”์ถœํ•œ log mel-filter bank ํŠน์ง•์„ ์ฑ„ํƒํ•˜๊ณ  ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จํ•˜์—ฌ, ์ „์‚ฌ๋ณธ ๋˜๋Š” ๋ฒˆ์—ญ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. Whisper์€ ASR ๋ชจ๋ธ์ด์ง€๋งŒ, ๋‹ค๋ฅธ ๋งŽ์€ ์Œ์„ฑ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์„ ์œ„ํ•ด ๋Œ€๋Ÿ‰์˜ โœจ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ โœจ ์˜ค๋””์˜ค ์ „์‚ฌ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํฐ ๋ฌถ์Œ์—๋Š” ์˜์–ด๊ฐ€ ์•„๋‹Œ ์–ธ์–ด๋„ ํฌํ•จ๋˜์–ด ์žˆ์–ด์„œ ์ž์›์ด ์ ์€ ์–ธ์–ด์—๋„ Whisper๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์กฐ์ ์œผ๋กœ, Whisper๋Š” Speech2Text์™€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์˜ค๋””์˜ค ์‹ ํ˜ธ๋Š” ์ธ์ฝ”๋”์— ์˜ํ•ด ์ธ์ฝ”๋”ฉ๋œ log-mel spectrogram์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ์™€ ์ด์ „ ํ† ํฐ์œผ๋กœ๋ถ€ํ„ฐ ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์œผ๋กœ ์ „์‚ฌ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ[[multimodal]]

์ธ์ฝ”๋”[[mm-encoder]]

VisualBERT๋Š” BERT ์ดํ›„์— ์ถœ์‹œ๋œ ๋น„์ „ ์–ธ์–ด ์ž‘์—…์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ BERT์™€ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๊ฐ์ฒด ํƒ์ง€ ์‹œ์Šคํ…œ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์ถ”์ถœํ•˜๊ณ , ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๊ณผ ํ•จ๊ป˜ BERT๋กœ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. VisualBERT๋Š” ๋งˆ์Šคํ‚น๋˜์ง€ ์•Š์€ ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งˆ์Šคํ‚น๋œ ํ…์ŠคํŠธ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ํ…์ŠคํŠธ๊ฐ€ ์ด๋ฏธ์ง€์™€ ์ผ์น˜ํ•˜๋Š”์ง€ ์˜ˆ์ธกํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ViT๊ฐ€ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ ๊ตฌํ•˜๋Š” ๋ฐฉ์‹์ด ๋” ์‰ฌ์› ๊ธฐ ๋•Œ๋ฌธ์—, ViT๊ฐ€ ์ถœ์‹œ๋œ ํ›„ ViLT๋Š” ์•„ํ‚คํ…์ฒ˜์— ViT๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์€ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๊ณผ ํ•จ๊ป˜ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—์„œ, ViLT๋Š” ์ด๋ฏธ์ง€ ํ…์ŠคํŠธ ๋งค์นญ, ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง, ์ „์ฒด ๋‹จ์–ด ๋งˆ์Šคํ‚น์„ ํ†ตํ•ด ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.

CLIP์€ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ (์ด๋ฏธ์ง€, ํ…์ŠคํŠธ)์˜ ์Œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. (์ด๋ฏธ์ง€, ํ…์ŠคํŠธ) ์Œ์—์„œ์˜ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด 4์–ต ๊ฐœ์˜ (์ด๋ฏธ์ง€, ํ…์ŠคํŠธ) ์Œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”(ViT)์™€ ํ…์ŠคํŠธ ์ธ์ฝ”๋”(Transformer)๋ฅผ ํ•จ๊ป˜ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ํ›ˆ๋ จ ํ›„, ์ž์—ฐ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๊ทธ ๋ฐ˜๋Œ€๋กœ ์˜ˆ์ธกํ•˜๋„๋ก CLIP์— ์ง€์‹œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. OWL-ViT๋Š” CLIP์„ ์ œ๋กœ์ƒท ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์œ„ํ•œ ๋ฐฑ๋ณธ(backbone)์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ CLIP ์ƒ์— ๊ตฌ์ถ•๋ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ํ›ˆ๋ จ ํ›„, ๊ฐ์ฒด ํƒ์ง€ ํ—ค๋“œ๊ฐ€ ์ถ”๊ฐ€๋˜์–ด (ํด๋ž˜์Šค, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค) ์Œ์— ๋Œ€ํ•œ ์ง‘ํ•ฉ(set) ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

์ธ์ฝ”๋”-๋””์ฝ”๋”[[mm-encoder-decoder]]

๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹(OCR)์€ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š” ์ „ํ†ต์ ์ธ ํ…์ŠคํŠธ ์ธ์‹ ์ž‘์—…์ž…๋‹ˆ๋‹ค. TrOCR์€ ์ข…๋‹จ๊ฐ„(end-to-end) Transformer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ„์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” ์ด๋ฏธ์ง€ ์ดํ•ด๋ฅผ ์œ„ํ•œ ViT ๋ฐฉ์‹์˜ ๋ชจ๋ธ์ด๋ฉฐ ์ด๋ฏธ์ง€๋ฅผ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ํŒจ์น˜๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋ฐ›์•„์„œ ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Donut์€ OCR ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์— ์˜์กดํ•˜์ง€ ์•Š๋Š” ๋” ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ ๋ฌธ์„œ ์ดํ•ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ Swin Transformer๋ฅผ ์ธ์ฝ”๋”๋กœ, ๋‹ค๊ตญ์–ด BART๋ฅผ ๋””์ฝ”๋”๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Donut์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ฃผ์„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ํ…์ŠคํŠธ๋ฅผ ์ฝ๋„๋ก ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๋Š” ๊ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ๋Œ€ํ•œ ํŠน์ˆ˜ ํ† ํฐ์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌธ์„œ ํŒŒ์‹ฑ(parsing)์—๋Š” ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ์™€ ๊ฒฐํ•ฉ๋˜์–ด ๋ฌธ์„œ๋ฅผ ์ •ํ˜• ์ถœ๋ ฅ ํ˜•์‹(JSON)์œผ๋กœ ํŒŒ์‹ฑํ•˜๋Š” ํŠน์ˆ˜ ํŒŒ์‹ฑ ํ† ํฐ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐ•ํ™” ํ•™์Šต[[reinforcement-learning]]

๋””์ฝ”๋”[[rl-decoder]]

Decision ๋ฐ Trajectory Transformer๋Š” ์ƒํƒœ(state), ํ–‰๋™(action), ๋ณด์ƒ(reward)์„ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ๋ฌธ์ œ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. Decision Transformer๋Š” ๊ธฐ๋Œ€ ๋ณด์ƒ(returns-to-go), ๊ณผ๊ฑฐ ์ƒํƒœ ๋ฐ ํ–‰๋™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜์˜ ์›ํ•˜๋Š” ์ˆ˜์ต(return)์œผ๋กœ ์ด์–ด์ง€๋Š” ์ผ๋ จ์˜ ํ–‰๋™์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰ K ์‹œ๊ฐ„ ์Šคํ…(timestep)์— ๋Œ€ํ•ด, ์„ธ ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋Š” ๊ฐ๊ฐ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜๋˜๊ณ  GPT์™€ ๊ฐ™์€ ๋ชจ๋ธ์— ์˜ํ•ด ์ฒ˜๋ฆฌ๋˜์–ด ๋ฏธ๋ž˜์˜ ์•ก์…˜ ํ† ํฐ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. Trajectory Transformer๋„ ์ƒํƒœ, ํ–‰๋™, ๋ณด์ƒ์„ ํ† ํฐํ™”ํ•˜์—ฌ GPT ์•„ํ‚คํ…์ฒ˜๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋ณด์ƒ ์กฐ๊ฑด์— ์ค‘์ ์„ ๋‘” Decision Transformer์™€ ๋‹ฌ๋ฆฌ Trajectory Transformer๋Š” ๋น” ์„œ์น˜(beam search)๋กœ ๋ฏธ๋ž˜ ํ–‰๋™์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.