Quantization made by Richard Erkhov.
AIFT-ko-orca-plat-Yi-ko-6b-v1.2-dpo-3 - GGUF
- Model creator: https://huggingface.co/AIFT/
- Original model: https://huggingface.co/AIFT/AIFT-ko-orca-plat-Yi-ko-6b-v1.2-dpo-3/
Original model description:
license: cc-by-sa-4.0
orca-platypus - instruct-dpo-3 ๋ชจ๋ธ v1.2
<ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ> kyujinpy ๋์ด ๊ณต๊ฐํ์ KOR-OpenOrca-Platypus ๋ฐ์ดํฐ๋ฅผ ์ผ๋ถ ์ญ์ (์ํ๋ง) ๋ฐ ์ ์ ์์ ์งํํ์ฌ ํ์ฉ. ๊ทธ ์ดํ ํด๋น ๋ฐ์ดํฐ๋ค์ ๋ณด๋ฉฐ ๊ด๋ จ ํ์คํฌ๋ฅผ ์ถ์ถํ์๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด๋น ํ์คํฌ์ ๋ง์ถฐ์ NLP ๊ด๋ จ ์คํ์์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ต๋ฐ์ดํฐ๋ฅผ ์์ฒด์ ์ผ๋ก ์ญ์ฌ, ๊ณผํ, ์ํ, ๊ธฐ๊ณ๋ ํด, ๋ฆฌ๋ทฐ ๋ถ์ ๋ฌธ์ ๋ฅผ gpt๋ฅผ ํตํด์ ๊ตฌ์ถํ์๊ณ , aihub ์ผ๋ฐ์์ ๋ฐ ๊ธฐ๊ณ๋ ํด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ถ๊ฐ๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถ(ํํ์ ๊ด๋ จ, ๊ธฐ๊ณ๋ ํด ๊ด๋ จ ๋ฐ ์์ฝ) ๊ฐ์ข ๋ธ๋ก๊ทธ์์ ์ญ์ฌ ๋ฐ ์์ ํด์ฆ๋ฅผ ์ฌ๋์ด ์ง์ ํ์ต๋ฐ์ดํฐ ํํ๋ก ๋ณ๊ฒฝ AI2AI Challenge ๋ฐ์ดํฐ ํํ๋ฅผ ๋ณด๊ณ gpt๋ฅผ ํตํด ์ด๋ฑ ์์ค์ ๊ณผํ ์ํ ๋ฌธ์ ์ ํ์ ์ ์ 500๋ฌธ์ ์์ด ๋ฒ์ญ ๋ฐ์ดํฐ ์ํ/ํ์ ๋ฐ์ดํฐ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉ ์งํ ์ด ๋ฐ์ดํฐ 4๋ง๊ฐ ์ ๋ ์ฌ์ฉํ์์ต๋๋ค.
<DPOํ์ต ๋ฐ์ดํฐ> DPO ๋ฐ์ดํฐ๋ CommonGen๊ณผ TruthfulQA์ ์ด์ ์ ๋ง์ถ์ด ์ฝ 17,000๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์์ต๋๋ค.
- ko-hh-rlhf ๋ฐ์ดํฐ์์ chosen ๋ฐ์ดํฐ๋ถ๋ถ์ ChatGPT๋ฅผ ํตํด ๋ณ๊ฒฝํ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ ํ์ตํ์์ต๋๋ค.
- ko-hh-rlhf 59000์ฌ๊ฐ์ ๋ฐ์ดํฐ์ chosen ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ gpt-3.5๋ฅผ ํตํด ์ฌ์์ฑํ ํ ์ผ๋ถ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ์ญ์ ์งํํ์์ต๋๋ค.
- TruthfulQA ๊ด๋ จ ๋ฌธ์ ์ถ๊ฐ๋ฅผ ์งํํ์์ต๋๋ค.(์์ค ๊ด๋ จ ์ฐธ๊ฑฐ์ง ๋ฌธ์ )
- ๊ธฐ๊ณ๋ ํด ๊ด๋ จ ํ์ต ๋ฐ์ดํฐ๋ฅผ ChatGPT๋ฅผ ํตํด์ ๋ต๋ณ์ ์ป์ด ํ์ต
- ๋ฌธ๋ฒ๊ด๋ จ ํ์ต ๋ฐ์ดํฐ
###ํ์ต ๋ฐ์ดํฐ ํ์ผ์ ๋น๊ณต๊ฐ์
๋๋ค.
<ํ์ต>
ํ์ต์ LoRA๋ฅผ ์ฌ์ฉํ์ฌ A100 40G *2์์ ํ์ต์ ์งํํ์์ต๋๋ค.