๐Ÿงช ๋ชจ๋ธ ์ •์ œ ๋ฐ ์ตœ์ ํ™” ์‹คํ—˜ ๊ธฐ๋ก (Ablation Study)

๋ณธ ๋ชจ๋ธ์€ ์ตœ์ดˆ ๊ฒฐํ•ฉ ํ›„, ๋ณด๋‹ค ๋‚ ์นด๋กœ์šด '์ฃผ์‹ ์ „๋ฌธ์„ฑ'์„ ํ™•๋ณดํ•˜๊ณ  ์ผ๋ฐ˜ ์žก๋‹ด/ํ™˜๊ฐ(Hallucination) ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜ ๋นผ๊ธฐ ์—ฐ์‚ฐ(task_sub) ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ์— ๋”ฐ๋ฅธ ๊ฐ•๋„(SCALE)๋ณ„ ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ์ตœ์ข… ๊ฒฐ๋ก ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1. ๊ฒฐํ•ฉ ๋ฐ ์—ฐ์‚ฐ ๋Œ€์ƒ

  • Base ๋ธŒ๋ ˆ์ธ ๋ชจ๋ธ (IQ): unsloth/llama-3-8b (๋ฏธ๊ตญ Meta์‚ฌ ๊ฐœ๋ฐœ)
  • ๊ธˆ์œต/์ฃผ์‹ ์ง€์‹ ๋ชจ๋ธ: Bllossom ๊ณ„์—ด์˜ ๊ตญ์‚ฐ ๊ธˆ์œต ํŠนํ™” ๋ชจ๋ธ
  • ์‹คํ—˜ ๋ฐฉ๋ฒ•: ๋‘ ๋ชจ๋ธ์„ ํ•ฉ์‚ฐํ•œ ์›๋ณธ(My-Stock-Base-8B)์—์„œ, ์ผ๋ฐ˜ ์ƒ์‹ ๋ฐ ์žก๋‹ด ์„ธํฌ๋ฅผ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์ € ๋ชจ๋ธ(llama-3-8b)์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋นผ๋Š” task_sub ์—ฐ์‚ฐ ์ˆ˜ํ–‰.

2. ๊ฐ•๋„(SCALE)๋ณ„ ์ •์ œ ์‹คํ—˜ ๊ฒฐ๊ณผ

์‹คํ—˜ ๋‹จ๊ณ„ ์ ์šฉ ๊ฐ•๋„ (SCALE) ์ฃผ์š” ์ฆ์ƒ ๋ฐ ๊ฒฐ๊ณผ ํ‰๊ฐ€
1์ฐจ ์‹คํ—˜ SCALE = 1.0 ํ•œ๊ตญ์–ด ๋ฌธ์žฅ ์ œ์–ด ๋ฐ ๋๋งบ์Œ ํŠน์ˆ˜ ํ† ํฐ๊นŒ์ง€ ํ†ต์งธ๋กœ ํŒŒ๊ดด๋จ. LM ์ŠคํŠœ๋””์˜ค ๋กœ๋“œ ์‹œ ์™ธ๊ณ„์–ด๊ฐ€ ์ถœ๋ ฅ๋˜๊ฑฐ๋‚˜ ์—”์ง„์ด ๋‹ค์šด(HTTP 500)๋˜๋Š” ์น˜๋ช…์  ๊ฒฐํ•จ ๋ฐœ์ƒ. โŒ ์‹คํŒจ (๋‡Œ์„ธํฌ ๊ณผ๋‹ค ํŒŒ๊ดด)
2์ฐจ ์‹คํ—˜ SCALE = 0.4 ์ผ๋ฐ˜์ ์ธ ํ•œ๊ตญ์–ด ๋ฌธ์žฅ์€ ๊ตฌ์‚ฌํ•˜๋‚˜, ๋ฌธ์žฅ ์ข…๊ฒฐ ๋ธŒ๋ ˆ์ดํฌ๊ฐ€ ๊ณ ์žฅ ๋‚จ. ๊ธˆ์œต ์ „๋ฌธ ์งˆ๋ฌธ์—๋Š” ์ •์ƒ ๋‹ต๋ณ€์„ ํ•˜๋‹ค๊ฐ€๋„, "๋„ˆ ๋ˆ„๊ตฌ์•ผ?" ๊ฐ™์€ ์ผ๋ฐ˜ ์งˆ๋ฌธ ์‹œ ์˜›๋‚  ์ธํ„ฐ๋„ท ๊ด‘๊ณ  ์ŠคํŒธ ๋ฌธ์ž(๋„ค์ดํŠธ์˜จ eoqkrvldkf...)๋‚˜ ์ค‘๊ตญ์–ด๋ฅผ ๋ฌดํ•œ ๋ฐ˜๋ณต ์ถœ๋ ฅํ•˜๋Š” ํญ์ฃผ ํ˜„์ƒ ๋ฐœ์ƒ. โŒ ์‹คํŒจ (ํ•œ๊ตญ์–ด ๋ธŒ๋ ˆ์ดํฌ ํŒŒ์†)

3. ๐ŸŽฏ ์ตœ์ข… ๊ฒฐ๋ก  (๊ทธ๋ƒฅ ์ˆœ์ • ์›๋ณธ ์–‘์žํ™”)

  • ์›์ธ ๋ถ„์„: Llama-3 ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํŠน์„ฑ์ƒ, ์ˆ˜ํ•™์  ๋บ„์…ˆ ์—ฐ์‚ฐ(task_sub)์€ ์•„๋ฌด๋ฆฌ ๊ฐ•๋„๋ฅผ ๋‚ฎ์ถ”์–ด๋„ ํ•œ๊ตญ์–ด ๋ฌธ๋ฒ•์„ ํ†ต์ œํ•˜๋Š” ํ•„์ˆ˜ ํ† ํฐ(๋‡Œ์„ธํฌ)์„ ์†์ƒ์‹œ์ผœ ๋ฌดํ•œ ๋ฃจํ”„์™€ ์™ธ๊ตญ์–ด ํญ์ฃผ๋ฅผ ์œ ๋ฐœํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ตœ์ข… ์กฐ์น˜: ๋‡Œ์„ธํฌ๋ฅผ ๊นŽ์•„๋‚ด๋Š” ๋ฌด๋ฆฌํ•œ ์ •์ œ ์ž‘์—…์„ ๊ณผ๊ฐํžˆ ์ค‘๋‹จํ•˜๊ณ , ์ง€์‹๊ณผ ํ•œ๊ตญ์–ด ๋ธŒ๋ ˆ์ดํฌ๊ฐ€ 100% ์˜จ์ „ํ•˜๊ฒŒ ์‚ด์•„์žˆ๋Š” ์ˆœ์ • ์›๋ณธ ๋ชจ๋ธ(My-Stock-Base-8B)์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ตœ์ ํ™” ์ ์šฉ: ์ˆœ์ • ์›๋ณธ์˜ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ฐœ์ธ ์ปดํ“จํ„ฐ(LM ์ŠคํŠœ๋””์˜ค, ์ปค๋„ฅํŠธ AI)์—์„œ ๊ฐ€๋ณ๊ณ  ๋น ๋ฅด๊ฒŒ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋„๋ก, ๊ธ€๋กœ๋ฒŒ ํ‘œ์ค€์ธ Q4_K_M GGUF(4๋น„ํŠธ ์–‘์žํ™”) ๋ณ€ํ™˜์„ ์ตœ์ข… ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ์šฉ ํŒ: ํ™˜๊ฐ(์žก๋‹ด) ์ œ์–ด๋Š” ๋ชจ๋ธ์„ ๊นŽ์•„๋‚ด๋Š” ๋Œ€์‹ , ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ(System Prompt) ์„ค์ •์„ ํ†ตํ•ด ์™„๋ฒฝํ•˜๊ฒŒ ํ†ต์ œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
Downloads last month
165
Safetensors
Model size
8B params
Tensor type
BF16
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support