Transformers documentation

๐Ÿค— Transformers๋กœ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•

You are viewing v4.36.1 version. A newer version v4.47.1 is available.
Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

๐Ÿค— Transformers๋กœ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•

๐Ÿค— Transformers๋กœ ํ•  ์ˆ˜ ์žˆ๋Š” ์ž‘์—…์—์„œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP), ์Œ์„ฑ ๋ฐ ์˜ค๋””์˜ค, ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—… ๋“ฑ์˜ ์ค‘์š”ํ•œ ์‘์šฉ์„ ๋ฐฐ์› ์Šต๋‹ˆ๋‹ค. ์ด ํŽ˜์ด์ง€์—์„œ๋Š” ๋ชจ๋ธ์ด ์ด๋Ÿฌํ•œ ์ž‘์—…์„ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•˜๋Š”์ง€ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ณ  ๋‚ด๋ถ€์—์„œ ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋งŽ์€ ๋ฐฉ๋ฒ•์ด ์žˆ์œผ๋ฉฐ, ์ผ๋ถ€ ๋ชจ๋ธ์€ ํŠน์ • ๊ธฐ์ˆ ์„ ๊ตฌํ˜„ํ•˜๊ฑฐ๋‚˜ ์‹ฌ์ง€์–ด ์ƒˆ๋กœ์šด ๋ฐฉ์‹์œผ๋กœ ์ž‘์—…์— ์ ‘๊ทผํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ, Transformer ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ์ผ๋ฐ˜์ ์ธ ์•„์ด๋””์–ด๋Š” ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ์œ ์—ฐํ•œ ์•„ํ‚คํ…์ฒ˜ ๋•๋ถ„์— ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์€ ์ธ์ฝ”๋”, ๋””์ฝ”๋” ๋˜๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ์˜ ๋ณ€ํ˜•์ž…๋‹ˆ๋‹ค. Transformer ๋ชจ๋ธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์šฐ๋ฆฌ์˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—๋Š” ์˜ค๋Š˜๋‚  ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋Š” ๋ช‡ ๊ฐ€์ง€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNNs)๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์šฐ๋ฆฌ๋Š” ํ˜„๋Œ€ CNN์˜ ์ž‘๋™ ๋ฐฉ์‹์— ๋Œ€ํ•ด ์„ค๋ช…ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ž‘์—…์ด ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐ๋˜๋Š”์ง€ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด, ์œ ์šฉํ•œ ์˜ˆ์ธก์„ ์ถœ๋ ฅํ•˜๊ณ ์ž ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค.

  • ์˜ค๋””์˜ค ๋ถ„๋ฅ˜ ๋ฐ ์ž๋™ ์Œ์„ฑ ์ธ์‹(ASR)์„ ์œ„ํ•œ Wav2Vec2
  • ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ Vision Transformer (ViT) ๋ฐ ConvNeXT
  • ๊ฐ์ฒด ํƒ์ง€๋ฅผ ์œ„ํ•œ DETR
  • ์ด๋ฏธ์ง€ ๋ถ„ํ• ์„ ์œ„ํ•œ Mask2Former
  • ๊นŠ์ด ์ถ”์ •์„ ์œ„ํ•œ GLPN
  • ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ํ† ํฐ ๋ถ„๋ฅ˜ ๋ฐ ์งˆ์˜์‘๋‹ต๊ณผ ๊ฐ™์€ NLP ์ž‘์—…์„ ์œ„ํ•œ BERT
  • ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ NLP ์ž‘์—…์„ ์œ„ํ•œ GPT2
  • ์ธ์ฝ”๋”-๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์š”์•ฝ ๋ฐ ๋ฒˆ์—ญ๊ณผ ๊ฐ™์€ NLP ์ž‘์—…์„ ์œ„ํ•œ BART

๋” ๋‚˜์•„๊ฐ€๊ธฐ ์ „์—, ๊ธฐ์กด Transformer ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ง€์‹์„ ์ˆ™์ง€ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ์ธ์ฝ”๋”, ๋””์ฝ”๋” ๋ฐ ์–ดํ…์…˜์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ์•Œ๋ฉด ๋‹ค์–‘ํ•œ Transformer ๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค. ์‹œ์ž‘ ๋‹จ๊ณ„๊ฑฐ๋‚˜ ๋ณต์Šต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ, ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์œ„ํ•ด ์ฝ”์Šค๋ฅผ ํ™•์ธํ•˜์„ธ์š”!

์Œ์„ฑ ๋ฐ ์˜ค๋””์˜ค

Wav2Vec2๋Š” ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋˜์ง€ ์•Š์€ ์Œ์„ฑ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋กœ, ์˜ค๋””์˜ค ๋ถ„๋ฅ˜ ๋ฐ ์ž๋™ ์Œ์„ฑ ์ธ์‹์„ ์œ„ํ•ด ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ์—๋Š” 4๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ํŠน์ง• ์ธ์ฝ”๋”(feature encoder)๋Š” ์›์‹œ ์˜ค๋””์˜ค ํŒŒํ˜•(raw audio waveform)์„ ๊ฐ€์ ธ์™€์„œ ์ œ๋กœ ํ‰๊ท  ๋ฐ ๋‹จ์œ„ ๋ถ„์‚ฐ์œผ๋กœ ํ‘œ์ค€ํ™”ํ•˜๊ณ , ๊ฐ๊ฐ 20ms ๊ธธ์ด์˜ ํŠน์ง• ๋ฒกํ„ฐ์˜ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

  2. ์˜ค๋””์˜ค ํŒŒํ˜•์€ ๋ณธ์งˆ์ ์œผ๋กœ ์—ฐ์†์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ํ…์ŠคํŠธ ์‹œํ€€์Šค๋ฅผ ๋‹จ์–ด๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ด ๋ถ„ํ• ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์–‘์žํ™” ๋ชจ๋“ˆ(quantization module)๋กœ ์ „๋‹ฌ๋˜๋Š” ํŠน์ง• ๋ฒกํ„ฐ๋Š” ์ด์‚ฐํ˜• ์Œ์„ฑ ๋‹จ์œ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์Œ์„ฑ ๋‹จ์œ„๋Š” ์ฝ”๋“œ๋ถ(codebook)(์–ดํœ˜์ง‘์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค)์ด๋ผ๋Š” ์ฝ”๋“œ๋‹จ์–ด(codewords) ์ฝœ๋ ‰์…˜์—์„œ ์„ ํƒ๋ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ๋ถ์—์„œ ์—ฐ์†์ ์ธ ์˜ค๋””์˜ค ์ž…๋ ฅ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ ๋˜๋Š” ์Œ์„ฑ ๋‹จ์œ„๊ฐ€ ์„ ํƒ๋˜์–ด ๋ชจ๋ธ์„ ํ†ต๊ณผํ•ฉ๋‹ˆ๋‹ค.

  3. ํŠน์ง• ๋ฒกํ„ฐ์˜ ์ ˆ๋ฐ˜์€ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํฌ๊ฐ€ ์ ์šฉ๋˜๋ฉฐ, ๋งˆ์Šคํฌ๋œ ํŠน์ง• ๋ฒกํ„ฐ๋Š” ์ƒ๋Œ€์  ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ์ถ”๊ฐ€ํ•˜๋Š” Transformer ์ธ์ฝ”๋”์ธ ๋ฌธ๋งฅ ๋„คํŠธ์›Œํฌ(context network)๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

  4. ๋ฌธ๋งฅ ๋„คํŠธ์›Œํฌ์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ๋Š” ๋Œ€์กฐ์  ์ž‘์—…(contrastive task)์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ž˜๋ชป๋œ ์˜ˆ์ธก ์‹œํ€€์Šค์—์„œ ๋งˆ์Šคํฌ๋œ ์˜ˆ์ธก์˜ ์‹ค์ œ ์–‘์žํ™”๋œ ์Œ์„ฑ ํ‘œํ˜„์„ ์˜ˆ์ธกํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ปจํ…์ŠคํŠธ ๋ฒกํ„ฐ์™€ ์–‘์žํ™”๋œ ์Œ์„ฑ ๋‹จ์œ„(ํƒ€๊ฒŸ ๋ ˆ์ด๋ธ”)๋ฅผ ์ฐพ๋„๋ก ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

์ด์ œ wav2vec2๊ฐ€ ์‚ฌ์ „ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฏ€๋กœ, ์˜ค๋””์˜ค ๋ถ„๋ฅ˜ ๋˜๋Š” ์ž๋™ ์Œ์„ฑ ์ธ์‹์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค!

์˜ค๋””์˜ค ๋ถ„๋ฅ˜

์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์˜ค๋””์˜ค ๋ถ„๋ฅ˜์— ์‚ฌ์šฉํ•˜๋ ค๋ฉด, ๊ธฐ๋ณธ Wav2Vec2 ๋ชจ๋ธ ์ƒ๋‹จ์— ์‹œํ€€์Šค ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜ ํ—ค๋“œ๋Š” ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ(hidden states)๋ฅผ ๋ฐ›๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด์ž…๋‹ˆ๋‹ค. ์€๋‹‰ ์ƒํƒœ๋Š” ๊ฐ๊ฐ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ์˜ค๋””์˜ค ํ”„๋ ˆ์ž„์—์„œ ํ•™์Šต๋œ ํŠน์ง•์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๊ณ ์ • ๊ธธ์ด์˜ ๋ฒกํ„ฐ ํ•˜๋‚˜๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ์€๋‹‰ ์ƒํƒœ๋Š” ๋จผ์ € ํ’€๋ง๋˜๊ณ , ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์— ๋Œ€ํ•œ ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํด๋ž˜์Šค๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ๋กœ์ง“๊ณผ ํƒ€๊ฒŸ ์‚ฌ์ด์˜ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

์˜ค๋””์˜ค ๋ถ„๋ฅ˜์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์˜ค๋””์˜ค ๋ถ„๋ฅ˜ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ Wav2Vec2๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

์ž๋™ ์Œ์„ฑ ์ธ์‹

์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ์ž๋™ ์Œ์„ฑ ์ธ์‹์— ์‚ฌ์šฉํ•˜๋ ค๋ฉด, ์—ฐ๊ฒฐ์ฃผ์˜์  ์‹œ๊ฐ„ ๋ถ„๋ฅ˜(CTC, Connectionist Temporal Classification)๋ฅผ ์œ„ํ•ด ๊ธฐ๋ณธ Wav2Vec2 ๋ชจ๋ธ ์ƒ๋‹จ์— ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ๋Š” ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋ฐ›์•„์„œ ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋กœ์ง“์€ ํ† ํฐ ํด๋ž˜์Šค(ํ† ํฐ ์ˆ˜๋Š” ์ž‘์—…์˜ ์–ดํœ˜์—์„œ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. CTC ์†์‹ค์€ ํ…์ŠคํŠธ๋กœ ๋””์ฝ”๋”ฉ๋œ ํ† ํฐ์—์„œ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ๋กœ์ง“๊ณผ ํƒ€๊ฒŸ ์‚ฌ์ด์—์„œ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

์ž๋™ ์Œ์„ฑ ์ธ์‹์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์ž๋™ ์Œ์„ฑ ์ธ์‹ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ Wav2Vec2๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

์ปดํ“จํ„ฐ ๋น„์ „

์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์— ์ ‘๊ทผํ•˜๋Š” 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์ด๋ฏธ์ง€๋ฅผ ํŒจ์น˜ ์‹œํ€€์Šค๋กœ ๋ถ„๋ฆฌํ•˜๊ณ  Transformer๋กœ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
  2. ConvNeXT์™€ ๊ฐ™์€ ํ˜„๋Œ€ CNN์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ ํ˜„๋Œ€ ๋„คํŠธ์›Œํฌ ์„ค๊ณ„๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

์„ธ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ Transformer์™€ ํ•ฉ์„ฑ๊ณฑ(์˜ˆ๋ฅผ ๋“ค์–ด, Convolutional Vision Transformer ๋˜๋Š” LeViT)์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์‚ดํŽด๋ณผ ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•๋งŒ ๊ฒฐํ•ฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๊ธฐ์„œ ์ด ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

ViT์™€ ConvNeXT๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์—์„œ ์‚ฌ์šฉ๋˜์ง€๋งŒ, ๋ฌผ์ฒด ๊ฐ์ง€, ๋ถ„ํ• , ๊นŠ์ด ์ถ”์ •๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๋น„์ „ ์ž‘์—…์—๋Š” ๊ฐ๊ฐ DETR, Mask2Former, GLPN์ด ๋” ์ ํ•ฉํ•˜๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜

ViT์™€ ConvNeXT ๋ชจ๋‘ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์ง€๋งŒ, ViT๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„, ConvNeXT๋Š” ํ•ฉ์„ฑ๊ณฑ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ฃผ๋œ ์ฐจ์ด์ž…๋‹ˆ๋‹ค.

Transformer

ViT์€ ํ•ฉ์„ฑ๊ณฑ์„ ์ „์ ์œผ๋กœ ์ˆœ์ˆ˜ Transformer ์•„ํ‚คํ…์ฒ˜๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด Transformer์— ์ต์ˆ™ํ•˜๋‹ค๋ฉด, ViT๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ๋Œ€๋ถ€๋ถ„์„ ์ด๋ฏธ ํŒŒ์•…ํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ViT๊ฐ€ ๋„์ž…ํ•œ ์ฃผ์š” ๋ณ€๊ฒฝ ์‚ฌํ•ญ์€ ์ด๋ฏธ์ง€๊ฐ€ Transformer๋กœ ์–ด๋–ป๊ฒŒ ์ „๋‹ฌ๋˜๋Š”์ง€์— ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์ด๋ฏธ์ง€๋Š” ์„œ๋กœ ์ค‘์ฒฉ๋˜์ง€ ์•Š๋Š” ์ •์‚ฌ๊ฐํ˜• ํŒจ์น˜๋กœ ๋ถ„ํ• ๋˜๊ณ , ๊ฐ ํŒจ์น˜๋Š” ๋ฒกํ„ฐ ๋˜๋Š” ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ(patch embedding)์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์€ ์ ์ ˆํ•œ ์ž…๋ ฅ ์ฐจ์›์„ ๋งŒ๋“œ๋Š” 2D ํ•ฉ์„ฑ๊ณฑ ๊ณ„์ธต์—์„œ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค(๊ธฐ๋ณธ Transformer์˜ ๊ฒฝ์šฐ ๊ฐ ํŒจ์น˜์˜ ์ž„๋ฒ ๋”ฉ๋งˆ๋‹ค 768๊ฐœ์˜ ๊ฐ’์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค). 224x224 ํ”ฝ์…€ ์ด๋ฏธ์ง€๊ฐ€ ์žˆ๋‹ค๋ฉด, 16x16 ์ด๋ฏธ์ง€ ํŒจ์น˜ 196๊ฐœ๋กœ ๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ…์ŠคํŠธ๊ฐ€ ๋‹จ์–ด๋กœ ํ† ํฐํ™”๋˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ์ด๋ฏธ์ง€๋„ ํŒจ์น˜ ์‹œํ€€์Šค๋กœ โ€œํ† ํฐํ™”โ€๋ฉ๋‹ˆ๋‹ค.

  2. ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž„๋ฒ ๋”ฉ(learnable embedding)(ํŠน์ˆ˜ํ•œ [CLS] ํ† ํฐ)์ด BERT์™€ ๊ฐ™์ด ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์˜ ์‹œ์ž‘ ๋ถ€๋ถ„์— ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. [CLS] ํ† ํฐ์˜ ๋งˆ์ง€๋ง‰ ์€๋‹‰ ์ƒํƒœ๋Š” ๋ถ€์ฐฉ๋œ ๋ถ„๋ฅ˜ ํ—ค๋“œ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋˜๊ณ , ๋‹ค๋ฅธ ์ถœ๋ ฅ์€ ๋ฌด์‹œ๋ฉ๋‹ˆ๋‹ค. ์ด ํ† ํฐ์€ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€์˜ ํ‘œํ˜„์„ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

  3. ํŒจ์น˜์™€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž„๋ฒ ๋”ฉ์— ๋งˆ์ง€๋ง‰์œผ๋กœ ์ถ”๊ฐ€ํ•  ๊ฒƒ์€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์ž…๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ํŒจ์น˜์˜ ์ˆœ์„œ๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์œ„์น˜ ์ž„๋ฒ ๋”ฉ๋„ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ๊ณผ ๋™์ผํ•œ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ, ๋ชจ๋“  ์ž„๋ฒ ๋”ฉ์ด Transformer ์ธ์ฝ”๋”์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

  4. [CLS] ํ† ํฐ์„ ํฌํ•จํ•œ ์ถœ๋ ฅ์€ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก  ํ—ค๋“œ(MLP)์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ViT์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉํ‘œ๋Š” ๋‹จ์ˆœํžˆ ๋ถ„๋ฅ˜์ž…๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ๋ถ„๋ฅ˜ ํ—ค๋“œ์™€ ๊ฐ™์ด, MLP ํ—ค๋“œ๋Š” ์ถœ๋ ฅ์„ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์— ๋Œ€ํ•ด ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํด๋ž˜์Šค๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ ViT๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

CNN

์ด ์„น์…˜์—์„œ๋Š” ํ•ฉ์„ฑ๊ณฑ์— ๋Œ€ํ•ด ๊ฐ„๋žตํ•˜๊ฒŒ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋ฏธ์ง€์˜ ๋ชจ์–‘๊ณผ ํฌ๊ธฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ดํ•ด๊ฐ€ ์žˆ๋‹ค๋ฉด ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•ฉ์„ฑ๊ณฑ์— ์ต์ˆ™ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ, fastai book์˜ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง ์ฑ•ํ„ฐ๋ฅผ ํ™•์ธํ•˜์„ธ์š”!

ConvNeXT๋Š” ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด ํ˜„๋Œ€ ๋„คํŠธ์›Œํฌ ์„ค๊ณ„๋ฅผ ์ ์šฉํ•œ CNN ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ•ฉ์„ฑ๊ณฑ์€ ์—ฌ์ „ํžˆ ๋ชจ๋ธ์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ๋†’์€ ์ˆ˜์ค€์˜ ๊ด€์ ์—์„œ ๋ณผ ๋•Œ, ํ•ฉ์„ฑ๊ณฑ์€ ์ž‘์€ ํ–‰๋ ฌ(์ปค๋„)์— ์ด๋ฏธ์ง€ ํ”ฝ์…€์˜ ์ž‘์€ ์œˆ๋„์šฐ๋ฅผ ๊ณฑํ•˜๋Š” ์—ฐ์‚ฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํŠน์ • ํ…์Šค์ณ(texture)์ด๋‚˜ ์„ ์˜ ๊ณก๋ฅ ๊ณผ ๊ฐ™์€ ์ผ๋ถ€ ํŠน์ง•์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๊ณ  ๋‹ค์Œ ํ”ฝ์…€ ์œˆ๋„์šฐ๋กœ ๋„˜์–ด๊ฐ€๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ํ•ฉ์„ฑ๊ณฑ์ด ์ด๋™ํ•˜๋Š” ๊ฑฐ๋ฆฌ๋ฅผ ๋ณดํญ(stride)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

ํŒจ๋”ฉ์ด๋‚˜ ๋ณดํญ์ด ์—†๋Š” ๊ธฐ๋ณธ ํ•ฉ์„ฑ๊ณฑ, ๋”ฅ๋Ÿฌ๋‹์„ ์œ„ํ•œ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ ๊ฐ€์ด๋“œ

์ด ์ถœ๋ ฅ์„ ๋‹ค๋ฅธ ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด์— ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ ์—ฐ์†์ ์ธ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ๋„คํŠธ์›Œํฌ๋Š” ํ•ซ๋„๊ทธ๋‚˜ ๋กœ์ผ“๊ณผ ๊ฐ™์ด ๋” ๋ณต์žกํ•˜๊ณ  ์ถ”์ƒ์ ์ธ ๊ฒƒ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด ์‚ฌ์ด์— ํ’€๋ง ๋ ˆ์ด์–ด๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์ฐจ์›์„ ์ค„์ด๊ณ  ํŠน์ง•์˜ ์œ„์น˜ ๋ณ€ํ™”์— ๋Œ€ํ•ด ๋ชจ๋ธ์„ ๋” ๊ฒฌ๊ณ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค.

ConvNeXT๋Š” CNN์„ 5๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ํ˜„๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค:

  1. ๊ฐ ๋‹จ๊ณ„์˜ ๋ธ”๋ก ์ˆ˜๋ฅผ ๋ณ€๊ฒฝํ•˜๊ณ  ๋” ํฐ ๋ณดํญ๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ์ปค๋„ ํฌ๊ธฐ๋กœ ์ด๋ฏธ์ง€๋ฅผ โ€œํŒจ์น˜ํ™”(patchify)โ€œํ•ฉ๋‹ˆ๋‹ค. ๊ฒน์น˜์ง€ ์•Š๋Š” ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ๋Š” ViT๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ํŒจ์น˜๋กœ ๋ถ„ํ• ํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ด ํŒจ์น˜ํ™” ์ „๋žต์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  2. ๋ณ‘๋ชฉ(bottleneck) ๋ ˆ์ด์–ด๋Š” ์ฑ„๋„ ์ˆ˜๋ฅผ ์ค„์˜€๋‹ค๊ฐ€ ๋‹ค์‹œ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด 1x1 ํ•ฉ์„ฑ๊ณฑ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๋” ๋น ๋ฅด๊ณ , ๊นŠ์ด๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์—ญ ๋ณ‘๋ชฉ(inverted bottlenect)์€ ์ฑ„๋„ ์ˆ˜๋ฅผ ํ™•์žฅํ•˜๊ณ  ์ถ•์†Œํ•จ์œผ๋กœ์จ ๊ทธ ๋ฐ˜๋Œ€๋กœ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ด ๋” ๋†’์Šต๋‹ˆ๋‹ค.

  3. ๋ณ‘๋ชฉ ๋ ˆ์ด์–ด์˜ ์ผ๋ฐ˜์ ์ธ 3x3 ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ ์ž…๋ ฅ ์ฑ„๋„์— ๊ฐœ๋ณ„์ ์œผ๋กœ ํ•ฉ์„ฑ๊ณฑ์„ ์ ์šฉํ•œ ๋‹ค์Œ ๋งˆ์ง€๋ง‰์— ์Œ“๋Š” ๊นŠ์ด๋ณ„ ํ•ฉ์„ฑ๊ณฑ(depthwise convolution)์œผ๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋„คํŠธ์›Œํฌ ํญ์ด ๋„“ํ˜€ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

  4. ViT๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋•๋ถ„์— ํ•œ ๋ฒˆ์— ๋” ๋งŽ์€ ์ด๋ฏธ์ง€๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋Š” ์ „์—ญ ์ˆ˜์‹  ํ•„๋“œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ConvNeXT๋Š” ์ปค๋„ ํฌ๊ธฐ๋ฅผ 7x7๋กœ ๋Š˜๋ ค ์ด ํšจ๊ณผ๋ฅผ ์žฌํ˜„ํ•˜๋ ค๊ณ  ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.

  5. ๋˜ํ•œ ConvNeXT๋Š” Transformer ๋ชจ๋ธ์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋ช‡ ๊ฐ€์ง€ ๋ ˆ์ด์–ด ์„ค๊ณ„๋ฅผ ๋ณ€๊ฒฝํ•ฉ๋‹ˆ๋‹ค. ํ™œ์„ฑํ™” ๋ฐ ์ •๊ทœํ™” ๋ ˆ์ด์–ด๊ฐ€ ๋” ์ ๊ณ , ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ReLU ๋Œ€์‹  GELU๋กœ ์ „ํ™˜๋˜๊ณ , BatchNorm ๋Œ€์‹  LayerNorm์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ฉ์„ฑ๊ณฑ ๋ธ”๋ก์˜ ์ถœ๋ ฅ์€ ๋ถ„๋ฅ˜ ํ—ค๋“œ๋กœ ์ „๋‹ฌ๋˜๋ฉฐ, ๋ถ„๋ฅ˜ ํ—ค๋“œ๋Š” ์ถœ๋ ฅ์„ ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋ ˆ์ด๋ธ”์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

๊ฐ์ฒด ํƒ์ง€

DETR, DEtection TRansformer๋Š” CNN๊ณผ Transformer ์ธ์ฝ”๋”-๋””์ฝ”๋”๋ฅผ ๊ฒฐํ•ฉํ•œ ์ข…๋‹จ๊ฐ„(end-to-end) ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  1. ์‚ฌ์ „ํ›ˆ๋ จ๋œ CNN ๋ฐฑ๋ณธ(backbone)์€ ํ”ฝ์…€ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์ ธ์™€ ์ €ํ•ด์ƒ๋„ ํŠน์ง• ๋งต์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ํŠน์ง• ๋งต์— ๋Œ€ํ•ด 1x1 ํ•ฉ์„ฑ๊ณฑ์„ ์ ์šฉํ•˜์—ฌ ์ฐจ์›์„ ์ค„์ด๊ณ , ๊ณ ์ˆ˜์ค€ ์ด๋ฏธ์ง€ ํ‘œํ˜„์„ ๊ฐ€์ง„ ์ƒˆ๋กœ์šด ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Transformer๋Š” ์‹œํ€€์Šค ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ง• ๋งต์„ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ฒฐํ•ฉ๋œ ํŠน์ง• ๋ฒกํ„ฐ์˜ ์‹œํ€€์Šค๋กœ ํ‰ํƒ„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

  2. ํŠน์ง• ๋ฒกํ„ฐ๋Š” ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ์ธ์ฝ”๋”์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ์œผ๋กœ, ์ธ์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋Š” ๋””์ฝ”๋”์—์„œ ๊ฐ์ฒด ์ฟผ๋ฆฌ์™€ ๊ฒฐํ•ฉ๋ฉ๋‹ˆ๋‹ค. ๊ฐ์ฒด ์ฟผ๋ฆฌ๋Š” ์ด๋ฏธ์ง€์˜ ๋‹ค๋ฅธ ์˜์—ญ์— ์ดˆ์ ์„ ๋งž์ถ˜ ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ํ•™์Šต๋˜๊ณ , ๊ฐ ์–ดํ…์…˜ ๋ ˆ์ด์–ด๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ ๊ฐฑ์‹ ๋ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋Š” ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ์™€ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์„ ์˜ˆ์ธกํ•˜๋Š” ์ˆœ๋ฐฉํ–ฅ ๋„คํŠธ์›Œํฌ์— ์ „๋‹ฌ๋˜๋ฉฐ, ๊ฐ์ฒด๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ no object๊ฐ€ ์ถœ๋ ฅ๋ฉ๋‹ˆ๋‹ค.

    DETR์€ ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋””์ฝ”๋”ฉํ•˜์—ฌ N ๊ฐœ์˜ ์ตœ์ข… ์˜ˆ์ธก์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ N์€ ์ฟผ๋ฆฌ ์ˆ˜์ž…๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ์š”์†Œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ, ๊ฐ์ฒด ํƒ์ง€๋Š” ํ•œ ๋ฒˆ์— N ๊ฐœ์˜ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ง‘ํ•ฉ ์˜ˆ์ธก ์ž‘์—…(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค, ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”)์ž…๋‹ˆ๋‹ค.

  3. DETR์€ ํ›ˆ๋ จ ์ค‘ ์ด๋ถ„ ๋งค์นญ ์†์‹ค(bipartite matching loss)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ์ •๋œ ์ˆ˜์˜ ์˜ˆ์ธก๊ณผ ๊ณ ์ •๋œ ์‹ค์ œ ์ •๋‹ต ๋ ˆ์ด๋ธ”(ground truth labels) ์„ธํŠธ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. N๊ฐœ์˜ ๋ ˆ์ด๋ธ” ์„ธํŠธ์— ์‹ค์ œ ์ •๋‹ต ๋ ˆ์ด๋ธ”๋ณด๋‹ค ์ ์€ ๊ฒฝ์šฐ, no object ํด๋ž˜์Šค๋กœ ํŒจ๋”ฉ๋ฉ๋‹ˆ๋‹ค. ์ด ์†์‹ค ํ•จ์ˆ˜๋Š” DETR์ด ์˜ˆ์ธก๊ณผ ์‹ค์ œ ์ •๋‹ต ๋ ˆ์ด๋ธ” ๊ฐ„ 1:1 ๋Œ€์‘์„ ์ฐพ๋„๋ก ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค. ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๋˜๋Š” ํด๋ž˜์Šค ๋ ˆ์ด๋ธ” ์ค‘ ํ•˜๋‚˜๋ผ๋„ ์ž˜๋ชป๋œ ๊ฒฝ์šฐ, ์†์‹ค์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๊ฐ์ฒด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ, ํŒจ๋„ํ‹ฐ๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด DETR์€ ์ด๋ฏธ์ง€์—์„œ ๋ˆˆ์— ์ž˜ ๋„๋Š” ๋ฌผ์ฒด ํ•˜๋‚˜์— ์ง‘์ค‘ํ•˜๋Š” ๋Œ€์‹ , ๋‹ค๋ฅธ ๊ฐ์ฒด๋ฅผ ์ฐพ๋„๋ก ๊ถŒ์žฅ๋ฉ๋‹ˆ๋‹ค.

๊ฐ์ฒด ํƒ์ง€ ํ—ค๋“œ๊ฐ€ DETR ์ƒ๋‹จ์— ์ถ”๊ฐ€๋˜์–ด ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”๊ณผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ขŒํ‘œ๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค. ๊ฐ์ฒด ํƒ์ง€ ํ—ค๋“œ์—๋Š” ๋‘ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค: ๋””์ฝ”๋” ์€๋‹‰ ์ƒํƒœ๋ฅผ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์˜ ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด ๋ฐ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•˜๋Š” MLP

๊ฐ์ฒด ํƒ์ง€์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ๊ฐ์ฒด ํƒ์ง€ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ DETR์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

์ด๋ฏธ์ง€ ๋ถ„ํ• 

Mask2Former๋Š” ๋ชจ๋“  ์œ ํ˜•์˜ ์ด๋ฏธ์ง€ ๋ถ„ํ•  ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฒ”์šฉ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์ธ ๋ถ„ํ•  ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์‹œ๋ฉ˜ํ‹ฑ(semantic) ๋˜๋Š” ํŒŒ๋†‰ํ‹ฑ(panoptic) ๋ถ„ํ• ๊ณผ ๊ฐ™์€ ์ด๋ฏธ์ง€ ๋ถ„ํ• ์˜ ํŠน์ • ํ•˜์œ„ ์ž‘์—…์— ๋งž์ถฐ ์กฐ์ •๋ฉ๋‹ˆ๋‹ค. Mask2Former๋Š” ๋ชจ๋“  ์ž‘์—…์„ ๋งˆ์Šคํฌ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์Šคํฌ ๋ถ„๋ฅ˜๋Š” ํ”ฝ์…€์„ N๊ฐœ ์„ธ๊ทธ๋จผํŠธ๋กœ ๊ทธ๋ฃนํ™”ํ•˜๊ณ , ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด N๊ฐœ์˜ ๋งˆ์Šคํฌ์™€ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด ์„น์…˜์—์„œ Mask2Former์˜ ์ž‘๋™ ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•œ ๋‹ค์Œ, ๋งˆ์ง€๋ง‰์— SegFormer๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Mask2Former์—๋Š” 3๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. Swin ๋ฐฑ๋ณธ์ด ์ด๋ฏธ์ง€๋ฅผ ๋ฐ›์•„ 3๊ฐœ์˜ ์—ฐ์†๋œ 3x3 ํ•ฉ์„ฑ๊ณฑ์—์„œ ์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  2. ํŠน์ง• ๋งต์€ ํ”ฝ์…€ ๋””์ฝ”๋”์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๋””์ฝ”๋”๋Š” ์ €ํ•ด์ƒ๋„ ํŠน์ง•์„ ๊ณ ํ•ด์ƒ๋„ ํ”ฝ์…€ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์ ์ง„์ ์œผ๋กœ ์—…์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ํ”ฝ์…€ ๋””์ฝ”๋”๋Š” ์‹ค์ œ๋กœ ์›๋ณธ ์ด๋ฏธ์ง€์˜ 1/32, 1/16, 1/8 ํ•ด์ƒ๋„์˜ ๋‹ค์ค‘ ์Šค์ผ€์ผ ํŠน์ง•(์ €ํ•ด์ƒ๋„ ๋ฐ ๊ณ ํ•ด์ƒ๋„ ํŠน์ง• ๋ชจ๋‘ ํฌํ•จ)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  3. ์ด๋Ÿฌํ•œ ์„œ๋กœ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ํŠน์ง• ๋งต์€ ๊ณ ํ•ด์ƒ๋„ ํŠน์ง•์—์„œ ์ž‘์€ ๊ฐ์ฒด๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ Transformer ๋””์ฝ”๋” ๋ ˆ์ด์–ด์— ์—ฐ์†์ ์œผ๋กœ ๊ณต๊ธ‰๋ฉ๋‹ˆ๋‹ค. Mask2Former์˜ ํ•ต์‹ฌ์€ ๋””์ฝ”๋”์˜ ๋งˆ์Šคํฌ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ „์ฒด ์ด๋ฏธ์ง€๋ฅผ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๋Š” ํฌ๋กœ์Šค ์–ดํ…์…˜(cross-attention)๊ณผ ๋‹ฌ๋ฆฌ, ๋งˆ์Šคํฌ ์–ดํ…์…˜์€ ์ด๋ฏธ์ง€์˜ ํŠน์ • ์˜์—ญ์—๋งŒ ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋ฏธ์ง€์˜ ์ง€์—ญ์  ํŠน์ง•๋งŒ์œผ๋กœ ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋น ๋ฅด๊ณ  ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.

  4. DETR๊ณผ ๊ฐ™์ด, Mask2Former๋Š” ํ•™์Šต๋œ ๊ฐ์ฒด ์ฟผ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์ด๋ฅผ ํ”ฝ์…€ ๋””์ฝ”๋”์—์„œ์˜ ์ด๋ฏธ์ง€ ํŠน์ง•๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก ์ง‘ํ•ฉ(ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”, ๋งˆ์Šคํฌ ์˜ˆ์ธก)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”์˜ ์€๋‹‰ ์ƒํƒœ๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋˜์–ด ํด๋ž˜์Šค ๋ ˆ์ด๋ธ”์— ๋Œ€ํ•œ ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๋กœ์ง“๊ณผ ํด๋ž˜์Šค ๋ ˆ์ด๋ธ” ์‚ฌ์ด์˜ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ฒƒ์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

    ๋งˆ์Šคํฌ ์˜ˆ์ธก์€ ํ”ฝ์…€ ์ž„๋ฒ ๋”ฉ๊ณผ ์ตœ์ข… ๋””์ฝ”๋” ์€๋‹‰ ์ƒํƒœ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ๋ฐ Dice ์†์‹ค์€ ๋กœ์ง“๊ณผ ์‹ค์ œ ์ •๋‹ต ๋งˆ์Šคํฌ(ground truth mask) ์‚ฌ์ด์—์„œ ๊ณ„์‚ฐ๋˜์–ด ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋งˆ์Šคํฌ๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ๋ถ„ํ• ์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ SegFormer๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

๊นŠ์ด ์ถ”์ •

GLPN, Global-Local Path Network๋Š” SegFormer ์ธ์ฝ”๋”์™€ ๊ฒฝ๋Ÿ‰ ๋””์ฝ”๋”๋ฅผ ๊ฒฐํ•ฉํ•œ ๊นŠ์ด ์ถ”์ •์„ ์œ„ํ•œ Transformer์ž…๋‹ˆ๋‹ค.

  1. ViT์™€ ๊ฐ™์ด, ์ด๋ฏธ์ง€๋Š” ํŒจ์น˜ ์‹œํ€€์Šค๋กœ ๋ถ„ํ• ๋˜์ง€๋งŒ, ์ด๋ฏธ์ง€ ํŒจ์น˜๊ฐ€ ๋” ์ž‘๋‹ค๋Š” ์ ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ด๋Š” ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์ด๋‚˜ ๊นŠ์ด ์ถ”์ •๊ณผ ๊ฐ™์€ ๋ฐ€๋„ ์˜ˆ์ธก ์ž‘์—…์— ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ํŒจ์น˜๋Š” ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜๋˜์–ด(ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์ด ์ƒ์„ฑ๋˜๋Š” ๋ฐฉ๋ฒ•์€ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ์„น์…˜์„ ์ฐธ์กฐํ•˜์„ธ์š”), ์ธ์ฝ”๋”๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

  2. ์ธ์ฝ”๋”๋Š” ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์„ ๋ฐ›์•„, ์—ฌ๋Ÿฌ ์ธ์ฝ”๋” ๋ธ”๋ก์— ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ธ”๋ก์€ ์–ดํ…์…˜ ๋ฐ Mix-FFN ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ›„์ž์˜ ๋ชฉ์ ์€ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ ์ธ์ฝ”๋” ๋ธ”๋ก์˜ ๋์—๋Š” ๊ณ„์ธต์  ํ‘œํ˜„์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํŒจ์น˜ ๋ณ‘ํ•ฉ(patch merging) ๋ ˆ์ด์–ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ธ์ ‘ํ•œ ํŒจ์น˜ ๊ทธ๋ฃน์˜ ํŠน์ง•์€ ์—ฐ๊ฒฐ๋˜๊ณ , ์—ฐ๊ฒฐ๋œ ํŠน์ง•์— ์„ ํ˜• ๋ ˆ์ด์–ด๊ฐ€ ์ ์šฉ๋˜์–ด ํŒจ์น˜ ์ˆ˜๋ฅผ 1/4์˜ ํ•ด์ƒ๋„๋กœ ์ค„์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ ์ธ์ฝ”๋” ๋ธ”๋ก์˜ ์ž…๋ ฅ์ด ๋˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์ „์ฒด ํ”„๋กœ์„ธ์Šค๋Š” 1/8, 1/16, 1/32 ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ๊ฐ€์งˆ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต๋ฉ๋‹ˆ๋‹ค.

  3. ๊ฒฝ๋Ÿ‰ ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์—์„œ ๋งˆ์ง€๋ง‰ ํŠน์ง• ๋งต(1/32 ํฌ๊ธฐ)์„ ๊ฐ€์ ธ์™€ 1/16 ํฌ๊ธฐ๋กœ ์—…์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ, ํŠน์ง•์€ ์„ ํƒ์  ํŠน์ง• ์œตํ•ฉ(SFF, Selective Feature Fusion) ๋ชจ๋“ˆ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“ˆ์€ ๊ฐ ํŠน์ง•์— ๋Œ€ํ•ด ์–ดํ…์…˜ ๋งต์—์„œ ๋กœ์ปฌ ๋ฐ ์ „์—ญ ํŠน์ง•์„ ์„ ํƒํ•˜๊ณ  ๊ฒฐํ•ฉํ•œ ๋‹ค์Œ, 1/8๋กœ ์—…์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋กœ์„ธ์Šค๋Š” ๋””์ฝ”๋”ฉ๋œ ํŠน์„ฑ์ด ์›๋ณธ ์ด๋ฏธ์ง€์™€ ๋™์ผํ•œ ํฌ๊ธฐ๊ฐ€ ๋  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต๋ฉ๋‹ˆ๋‹ค. ์ถœ๋ ฅ์€ ๋‘ ๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์นœ ๋‹ค์Œ, ์‹œ๊ทธ๋ชจ์ด๋“œ ํ™œ์„ฑํ™”๊ฐ€ ์ ์šฉ๋˜์–ด ๊ฐ ํ”ฝ์…€์˜ ๊นŠ์ด๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ž์—ฐ์–ด์ฒ˜๋ฆฌ

Transformer๋Š” ์ดˆ๊ธฐ์— ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ๊ณ , ๊ทธ ์ดํ›„๋กœ๋Š” ์‚ฌ์‹ค์ƒ ๋ชจ๋“  NLP ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์–ด๋–ค ์ž‘์—…์€ Transformer์˜ ์ธ์ฝ”๋” ๊ตฌ์กฐ์— ์ ํ•ฉํ•˜๋ฉฐ, ๋‹ค๋ฅธ ์ž‘์—…์€ ๋””์ฝ”๋”์— ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ์ž‘์—…์€ Transformer์˜ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜

BERT๋Š” ์ธ์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ์ด๋ฉฐ, ํ…์ŠคํŠธ์˜ ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์–‘๋ฐฉํ–ฅ์˜ ๋‹จ์–ด์— ์ฃผ๋ชฉํ•จ์œผ๋กœ์จ ์‹ฌ์ธต ์–‘๋ฐฉํ–ฅ์„ฑ(deep bidirectionality)์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ์ตœ์ดˆ์˜ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  1. BERT๋Š” WordPiece ํ† ํฐํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์žฅ์˜ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ผ ๋ฌธ์žฅ๊ณผ ํ•œ ์Œ์˜ ๋ฌธ์žฅ์„ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์œ„ํ•ด ํŠน์ˆ˜ํ•œ [SEP] ํ† ํฐ์ด ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ํ…์ŠคํŠธ ์‹œํ€€์Šค์˜ ์‹œ์ž‘ ๋ถ€๋ถ„์—๋Š” ํŠน์ˆ˜ํ•œ [CLS] ํ† ํฐ์ด ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. [CLS] ํ† ํฐ์ด ์žˆ๋Š” ์ตœ์ข… ์ถœ๋ ฅ์€ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ์œ„ํ•œ ๋ถ„๋ฅ˜ ํ—ค๋“œ๋กœ ์ž…๋ ฅ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. BERT๋Š” ๋˜ํ•œ ํ•œ ์Œ์˜ ๋ฌธ์žฅ์—์„œ ๊ฐ ํ† ํฐ์ด ์ฒซ ๋ฒˆ์งธ ๋ฌธ์žฅ์ธ์ง€ ๋‘ ๋ฒˆ์งธ ๋ฌธ์žฅ์— ์†ํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ(segment embedding)์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

  2. BERT๋Š” ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง๊ณผ ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก, ๋‘ ๊ฐ€์ง€ ๋ชฉ์ ์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง์—์„œ๋Š” ์ž…๋ ฅ ํ† ํฐ์˜ ์ผ๋ถ€๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚น๋˜๊ณ , ๋ชจ๋ธ์€ ์ด๋ฅผ ์˜ˆ์ธกํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๋ณด๊ณ  ๋‹ค์Œ ๋‹จ์–ด๋ฅผ โ€œ์˜ˆ์ธกโ€ํ•  ์ˆ˜ ์žˆ๋Š” ์–‘๋ฐฉํ–ฅ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก๋œ ๋งˆ์Šคํฌ ํ† ํฐ์˜ ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋Š” ์–ดํœ˜์— ๋Œ€ํ•œ ์†Œํ”„ํŠธ๋งฅ์Šค๊ฐ€ ์žˆ๋Š” ์ˆœ๋ฐฉํ–ฅ ๋„คํŠธ์›Œํฌ๋กœ ์ „๋‹ฌ๋˜์–ด ๋งˆ์Šคํฌ๋œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

    ๋‘ ๋ฒˆ์งธ ์‚ฌ์ „ํ›ˆ๋ จ ๋Œ€์ƒ์€ ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ๋ฌธ์žฅ B๊ฐ€ ๋ฌธ์žฅ A ๋‹ค์Œ์— ์˜ค๋Š”์ง€ ์˜ˆ์ธกํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์žฅ B๊ฐ€ ๋‹ค์Œ ๋ฌธ์žฅ์ธ ๊ฒฝ์šฐ์™€ ๋ฌด์ž‘์œ„ ๋ฌธ์žฅ์ธ ๊ฒฝ์šฐ ๊ฐ๊ฐ 50%์˜ ํ™•๋ฅ ๋กœ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ ๋ฌธ์žฅ์ธ์ง€ ์•„๋‹Œ์ง€์— ๋Œ€ํ•œ ์˜ˆ์ธก์€ ๋‘ ๊ฐœ์˜ ํด๋ž˜์Šค(IsNext ๋ฐ NotNext)์— ๋Œ€ํ•œ ์†Œํ”„ํŠธ๋งฅ์Šค๊ฐ€ ์žˆ๋Š” ์ˆœ๋ฐฉํ–ฅ ๋„คํŠธ์›Œํฌ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

  3. ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์€ ์—ฌ๋Ÿฌ ์ธ์ฝ”๋” ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ์„œ ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์— ์‚ฌ์šฉํ•˜๋ ค๋ฉด, ๊ธฐ๋ณธ BERT ๋ชจ๋ธ ์ƒ๋‹จ์— ์‹œํ€€์Šค ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๋ถ„๋ฅ˜ ํ—ค๋“œ๋Š” ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋ฐ›๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด์ด๋ฉฐ, ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋กœ์ง“๊ณผ ํƒ€๊ฒŸ ๊ฐ„์— ๊ณ„์‚ฐ๋˜์–ด ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋ ˆ์ด๋ธ”์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ DistilBERT๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

ํ† ํฐ ๋ถ„๋ฅ˜

๊ฐœ์ฒด๋ช… ์ธ์‹(Named Entity Recognition, NER)๊ณผ ๊ฐ™์€ ํ† ํฐ ๋ถ„๋ฅ˜ ์ž‘์—…์— BERT๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๋ฉด, ๊ธฐ๋ณธ BERT ๋ชจ๋ธ ์ƒ๋‹จ์— ํ† ํฐ ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํ† ํฐ ๋ถ„๋ฅ˜ ํ—ค๋“œ๋Š” ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋ฐ›๋Š” ์„ ํ˜• ๋ ˆ์ด์–ด์ด๋ฉฐ, ๋กœ์ง“์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋กœ์ง“๊ณผ ๊ฐ ํ† ํฐ ๊ฐ„์— ๊ณ„์‚ฐ๋˜์–ด ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋ ˆ์ด๋ธ”์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

ํ† ํฐ ๋ถ„๋ฅ˜์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ํ† ํฐ ๋ถ„๋ฅ˜ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ DistilBERT๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

์งˆ์˜์‘๋‹ต

์งˆ์˜์‘๋‹ต์— BERT๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๋ฉด, ๊ธฐ๋ณธ BERT ๋ชจ๋ธ ์œ„์— ์ŠคํŒฌ(span) ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ ํ˜• ๋ ˆ์ด์–ด๋Š” ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋ฐ›๊ณ , ๋‹ต๋ณ€์— ๋Œ€์‘ํ•˜๋Š” ์ŠคํŒฌ์˜ ์‹œ์ž‘๊ณผ ๋ ๋กœ๊ทธ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋กœ์ง“๊ณผ ๊ฐ ๋ ˆ์ด๋ธ” ์œ„์น˜ ๊ฐ„์— ๊ณ„์‚ฐ๋˜์–ด ๋‹ต๋ณ€์— ๋Œ€์‘ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํ…์ŠคํŠธ์˜ ์ŠคํŒฌ์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

์งˆ์˜์‘๋‹ต์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์งˆ์˜์‘๋‹ต ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ DistilBERT๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

๐Ÿ’ก ์‚ฌ์ „ํ›ˆ๋ จ๋œ BERT๋ฅผ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์–ผ๋งˆ๋‚˜ ์‰ฌ์šด์ง€ ์ฃผ๋ชฉํ•˜์„ธ์š”. ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์— ํŠน์ • ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด ์€๋‹‰ ์ƒํƒœ๋ฅผ ์›ํ•˜๋Š” ์ถœ๋ ฅ์œผ๋กœ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค!

ํ…์ŠคํŠธ ์ƒ์„ฑ

GPT-2๋Š” ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋””์ฝ”๋”ฉ ์ „์šฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ์–ด์ง€๋ฉด ์„ค๋“๋ ฅ ์žˆ๋Š” (ํ•ญ์ƒ ์‚ฌ์‹ค์€ ์•„๋‹ˆ์ง€๋งŒ!) ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋ช…์‹œ์ ์œผ๋กœ ํ›ˆ๋ จ๋˜์ง€ ์•Š์•˜์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์งˆ์˜์‘๋‹ต๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ NLP ์ž‘์—…์„ ์™„์ˆ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. GPT-2๋Š” ๋‹จ์–ด๋ฅผ ํ† ํฐํ™”ํ•˜๊ณ  ํ† ํฐ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ”์ดํŠธ ํŽ˜์–ด ์ธ์ฝ”๋”ฉ(BPE, byte pair encoding)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์œ„์น˜ ์ธ์ฝ”๋”ฉ์€ ์‹œํ€€์Šค์—์„œ ๊ฐ ํ† ํฐ์˜ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ํ† ํฐ ์ž„๋ฒ ๋”ฉ์— ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์€ ์—ฌ๋Ÿฌ ๋””์ฝ”๋” ๋ธ”๋ก์„ ๊ฑฐ์ณ ์ผ๋ถ€ ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋””์ฝ”๋” ๋ธ”๋ก ๋‚ด์—์„œ GPT-2๋Š” ๋งˆ์Šคํฌ๋“œ ์…€ํ”„ ์–ดํ…์…˜(masked self-attention) ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” GPT-2๊ฐ€ ์ดํ›„ ํ† ํฐ(future tokens)์— ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ผ ์ˆ˜ ์—†๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์™ผ์ชฝ์— ์žˆ๋Š” ํ† ํฐ์—๋งŒ ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์Šคํฌ๋“œ ์…€ํ”„ ์–ดํ…์…˜์—์„œ๋Š” ์–ดํ…์…˜ ๋งˆ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ดํ›„ ํ† ํฐ์— ๋Œ€ํ•œ ์ ์ˆ˜(score)๋ฅผ 0์œผ๋กœ ์„ค์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— BERT์˜ mask ํ† ํฐ๊ณผ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

  2. ๋””์ฝ”๋”์˜ ์ถœ๋ ฅ์€ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ์— ์ „๋‹ฌ๋˜๋ฉฐ, ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ๋Š” ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋กœ์ง“์œผ๋กœ ์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ ˆ์ด๋ธ”์€ ์‹œํ€€์Šค์˜ ๋‹ค์Œ ํ† ํฐ์œผ๋กœ, ๋กœ์ง“์„ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ํ•˜๋‚˜์”ฉ ์ด๋™ํ•˜์—ฌ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ์ด๋™๋œ ๋กœ์ง“๊ณผ ๋ ˆ์ด๋ธ” ๊ฐ„์— ๊ณ„์‚ฐ๋˜์–ด ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋‹ค์Œ ํ† ํฐ์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

GPT-2์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชฉ์ ์€ ์ „์ ์œผ๋กœ ์ธ๊ณผ์  ์–ธ์–ด ๋ชจ๋ธ๋ง์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ, ์‹œํ€€์Šค์—์„œ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” GPT-2๊ฐ€ ํ…์ŠคํŠธ ์ƒ์„ฑ์— ๊ด€๋ จ๋œ ์ž‘์—…์— ํŠนํžˆ ์šฐ์ˆ˜ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

ํ…์ŠคํŠธ ์ƒ์„ฑ์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์ธ๊ณผ์  ์–ธ์–ด ๋ชจ๋ธ๋ง ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ DistilGPT-2๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

ํ…์ŠคํŠธ ์ƒ์„ฑ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ „๋žต ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์„ธ์š”!

์š”์•ฝ

BART ๋ฐ T5์™€ ๊ฐ™์€ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ์€ ์š”์•ฝ ์ž‘์—…์˜ ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค ํŒจํ„ด์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์„น์…˜์—์„œ BART์˜ ์ž‘๋™ ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•œ ๋‹ค์Œ, ๋งˆ์ง€๋ง‰์— T5๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. BART์˜ ์ธ์ฝ”๋” ์•„ํ‚คํ…์ฒ˜๋Š” BERT์™€ ๋งค์šฐ ์œ ์‚ฌํ•˜๋ฉฐ ํ…์ŠคํŠธ์˜ ํ† ํฐ ๋ฐ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. BART๋Š” ์ž…๋ ฅ์„ ๋ณ€ํ˜•์‹œํ‚ค๊ณ  ๋””์ฝ”๋”๋กœ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์‚ฌ์ „ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ํŠน์ • ๋ณ€ํ˜• ๊ธฐ๋ฒ•์ด ์žˆ๋Š” ๋‹ค๋ฅธ ์ธ์ฝ”๋”์™€๋Š” ๋‹ฌ๋ฆฌ, BART๋Š” ๋ชจ๋“  ์œ ํ˜•์˜ ๋ณ€ํ˜•์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ text infilling ๋ณ€ํ˜• ๊ธฐ๋ฒ•์ด ๊ฐ€์žฅ ์ž˜ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. Text Infiling์—์„œ๋Š” ์—ฌ๋Ÿฌ ํ…์ŠคํŠธ ์ŠคํŒฌ์„ ๋‹จ์ผ mask ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋งˆ์Šคํฌ๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•ด์•ผ ํ•˜๊ณ , ๋ชจ๋ธ์— ๋ˆ„๋ฝ๋œ ํ† ํฐ์˜ ์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ๊ฐ€๋ฅด์น˜๊ธฐ ๋•Œ๋ฌธ์— ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ๊ณผ ๋งˆ์Šคํฌ๋œ ์ŠคํŒฌ์ด ์ธ์ฝ”๋”๋ฅผ ๊ฑฐ์ณ ์ตœ์ข… ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ถœ๋ ฅํ•˜์ง€๋งŒ, BERT์™€ ๋‹ฌ๋ฆฌ BART๋Š” ๋งˆ์ง€๋ง‰์— ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ˆœ๋ฐฉํ–ฅ ๋„คํŠธ์›Œํฌ๋ฅผ ์ถ”๊ฐ€ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  2. ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ์€ ๋””์ฝ”๋”๋กœ ์ „๋‹ฌ๋˜๋ฉฐ, ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ์—์„œ ๋งˆ์Šคํฌ ํ† ํฐ๊ณผ ๋ณ€ํ˜•๋˜์ง€ ์•Š์€ ํ† ํฐ์„ ์˜ˆ์ธกํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋””์ฝ”๋”๊ฐ€ ์›๋ณธ ํ…์ŠคํŠธ๋ฅผ ๋ณต์›ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ์ถ”๊ฐ€์ ์ธ ๋ฌธ๋งฅ์„ ์–ป๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”์˜ ์ถœ๋ ฅ์€ ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ์— ์ „๋‹ฌ๋˜๋ฉฐ, ์–ธ์–ด ๋ชจ๋ธ๋ง ํ—ค๋“œ๋Š” ์€๋‹‰ ์ƒํƒœ๋ฅผ ๋กœ์ง“์œผ๋กœ ์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์€ ๋กœ์ง“๊ณผ ํ† ํฐ์ด ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™๋œ ๋ ˆ์ด๋ธ” ๊ฐ„์— ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

์š”์•ฝ์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ์š”์•ฝ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ T5๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

ํ…์ŠคํŠธ ์ƒ์„ฑ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ „๋žต ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์„ธ์š”!

๋ฒˆ์—ญ

๋ฒˆ์—ญ์€ ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค ์ž‘์—…์˜ ๋˜ ๋‹ค๋ฅธ ์˜ˆ๋กœ, BART ๋˜๋Š” T5์™€ ๊ฐ™์€ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์„น์…˜์—์„œ BART์˜ ์ž‘๋™ ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•œ ๋‹ค์Œ, ๋งˆ์ง€๋ง‰์— T5๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

BART๋Š” ์›์ฒœ ์–ธ์–ด๋ฅผ ํƒ€๊ฒŸ ์–ธ์–ด๋กœ ๋””์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž…๋ ฅ์— ๋งคํ•‘ํ•˜๊ธฐ ์œ„ํ•ด ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ณ„๋„์˜ ์ธ์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฒˆ์—ญ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์ƒˆ๋กœ์šด ์ธ์ฝ”๋”์˜ ์ž„๋ฒ ๋”ฉ์€ ์›๋ณธ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๋Œ€์‹  ์‚ฌ์ „ํ›ˆ๋ จ๋œ ์ธ์ฝ”๋”๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. ์›์ฒœ ์ธ์ฝ”๋”๋Š” ๋ชจ๋ธ ์ถœ๋ ฅ์˜ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค๋กœ๋ถ€ํ„ฐ ์›์ฒœ ์ธ์ฝ”๋”, ์œ„์น˜ ์ž„๋ฒ ๋”ฉ, ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์„ ๊ฐฑ์‹ ํ•˜์—ฌ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ณ ์ •๋˜๊ณ , ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋“  ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•จ๊ป˜ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.

BART๋Š” ์ดํ›„ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์–ธ์–ด๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋‹ค๊ตญ์–ด ๋ฒ„์ „์˜ mBART๋กœ ํ™•์žฅ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฒˆ์—ญ์— ์ง์ ‘ ๋„์ „ํ•  ์ค€๋น„๊ฐ€ ๋˜์…จ๋‚˜์š”? ์™„์ „ํ•œ ๋ฒˆ์—ญ ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์—ฌ T5๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๊ณ  ์ถ”๋ก ์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜์„ธ์š”!

ํ…์ŠคํŠธ ์ƒ์„ฑ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ „๋žต ๊ฐ€์ด๋“œ๋ฅผ ํ™•์ธํ•˜์„ธ์š”!