Delete README.md
Browse files
README.md
DELETED
@@ -1,114 +0,0 @@
|
|
1 |
-
## λͺ¨λΈ κ°μ
|
2 |
-
|
3 |
-
μ΄ μ±λ΄μ λνλ―Όκ΅μμ λ°μν μλ£ μ λ¬Έ μΈλ ₯ λΆμ‘±κ³Ό μμ¬ νμ
μΌλ‘ μΈν μλ£ μκΈ°λ₯Ό λμνκΈ° μν΄ κ°λ°λμμ΅λλ€. **μ΄κ±°λ AI ν¬μ€μΌμ΄ μ§μμλ΅ λ°μ΄ν°**λ₯Ό νμ©νμ¬ μλ£ λΆμΌμ μ λ¬Έ μ§μμ ν¬ν¨ν λκ·λͺ¨ AI λͺ¨λΈμ κΈ°λ°μΌλ‘ νλ©°, νμλ€μκ² μ μνκ³ μ νν μλ£ μ 보λ₯Ό μ 곡ν©λλ€.
|
4 |
-
|
5 |
-
## λͺ¨λΈ μμΈ μ€λͺ
|
6 |
-
|
7 |
-
- **λͺ¨λΈλͺ
**: RAFT + RAG κΈ°λ° μλ£ μλ΄ μ±λ΄
|
8 |
-
- **κΈ°λ° λͺ¨λΈ**: Gemma-2-2b-it
|
9 |
-
- **νμ΅ λ°©λ²**: GPT 4o-miniλ₯Ό νμ©ν λ°μ΄ν° μ¦κ° λ° RAFT λ°©λ² μ μ©
|
10 |
-
- **μν€ν
μ²**: Gemma-2-2b-itκ³Ό λμΌν ꡬ쑰 μ¬μ©
|
11 |
-
|
12 |
-
## λ°μ΄ν°μ
|
13 |
-
|
14 |
-
- **λ°μ΄ν°μ
μ΄λ¦**: μ΄κ±°λ AI ν¬μ€μΌμ΄ μ§μμλ΅ λ°μ΄ν°
|
15 |
-
- **μΆμ²**: [AI νλΈ](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71762)
|
16 |
-
- **λ°μ΄ν° ꡬμ±**:
|
17 |
-
- 40%: μ λ΅μ΄ ν¬ν¨λ λ¬Έμ 1κ° + μ λ΅κ³Ό κ΄λ ¨ μλ λ¬Έμ 1κ°
|
18 |
-
- 60%: μ λ΅κ³Ό κ΄λ ¨ μλ λ¬Έμ 2κ°
|
19 |
-
|
20 |
-
## νμ΅ λ°©λ²
|
21 |
-
|
22 |
-
λͺ¨λΈμ GPT 4o-miniλ₯Ό νμ©ν λ°μ΄ν° μ¦κ° κΈ°λ²κ³Ό RAFT([Adapting Language Model to Domain Specific RAG](https://arxiv.org/abs/2403.10131)) λ°©λ²μ μ μ©νμ¬ νμ΅λμμ΅λλ€. μ΄λ¬ν λ°©λ²μ ν΅ν΄ λͺ¨λΈμ 볡μ‘ν λ¬Έλ§₯ μ΄ν΄μ μ νν μ 보 κ²μ λ₯λ ₯μ ν₯μμμΌ°μ΅λλ€.
|
23 |
-
|
24 |
-
### μμ
|
25 |
-
|
26 |
-
````plaintext
|
27 |
-
<bos><start_of_turn>user
|
28 |
-
<Question>: μ‘±μ κ·Όλ§μΌ μ¬νμ μν΄ μ΄λ€ μ‘°μΉλ₯Ό μ·¨ν΄μΌ νλμ?
|
29 |
-
<Documents>: [
|
30 |
-
'μ‘±μ κ·Όλ§μΌ μ¬νμ λ° κ±΄κ°μ ν볡νκ³ ν΅μ¦μ μννκΈ° μν΄ λ€μν μ‘°μΉλ€μ μ·¨νλ κ²μ΄ μ€μν©λλ€. ...',
|
31 |
-
'μΈμ ν μ€νΈλ μ€ μ₯μ μΉλ£λ₯Ό μν΄ μ½λ¬Ό μΉλ£κ° μ νλ μ μμ΅λλ€. ...'
|
32 |
-
]
|
33 |
-
<end_of_turn>
|
34 |
-
<start_of_turn>model
|
35 |
-
<Answer>: μ‘±μ κ·Όλ§μΌ μ¬νμ μν΄ μ·¨ν΄μΌ ν μ‘°μΉλ λ€μκ³Ό κ°μ΅λλ€: ...
|
36 |
-
<end_of_turn><eos>
|
37 |
-
````
|
38 |
-
### μμ
|
39 |
-
#### μ§λ¬Έ:
|
40 |
-
````plaintext
|
41 |
-
λν΅μ΄ μμ£Ό λ°μνλ μ΄μ κ° κΆκΈν©λλ€. μ€νΈλ μ€ λλ¬ΈμΌκΉμ, μλλ©΄ λ€λ₯Έ κ±΄κ° λ¬Έμ μΌκΉμ? μ΄λ€ μν©μμ λν΅μ΄ μ¬ν΄μ§λμ§μ ν¨κ» μ£Όμν μ μ μκ³ μΆμ΄μ.
|
42 |
-
````
|
43 |
-
#### λ΅λ³:
|
44 |
-
````markdown
|
45 |
-
## λν΅μ μμΈ
|
46 |
-
|
47 |
-
λν΅μ μ¬λ¬ κ°μ§ μμΈμΌλ‘ λ°μν μ μμ΅λλ€. κ°μ₯ μΌλ°μ μΈ μμΈμΌλ‘λ λ€μκ³Ό κ°μ κ²λ€μ΄ μμ΅λλ€:
|
48 |
-
|
49 |
-
1. **μ€νΈλ μ€**: μΌμμνμμμ μ€νΈλ μ€λ λν΅μ μ λ°ν μ μμ΅λλ€. νΉν μ
무λ νμ
, κ°μ‘± κ΄κ³μμμ μλ°κ°μ΄ λν΅μ μ
νμν¬ μ μμ΅λλ€.
|
50 |
-
2. **μ 체μ μμΈ**: κ·Όμ‘μ κΈ΄μ₯, νμ‘ μν λ¬Έμ , νΈλ₯΄λͺ¬ λ³ν λ± μ 체μ μΈ μμΈλ λν΅μ μ λ°ν μ μμ΅λλ€.
|
51 |
-
3. **μμ κ²°ν**: λΉνλ―Ό B6 κ²°νμ΄λ λ¨λ°±μ§ λΆμ‘±μ λν΅μ μΌμΌν¬ μ μμ΅λλ€.
|
52 |
-
4. **μ½λ¬Ό**: νΉμ μ½λ¬Ό, νΉν νμ°μΈμ λ μ§ν΅μ λ±μ΄ λν΅μ μ λ°ν μ μμ΅λλ€.
|
53 |
-
5. **λΉλ§**: 체μ€μ΄ κ³Όλ€νλ©΄ νμ‘μνμ΄ μ νλμ΄ λν΅μ΄ λ°μν μ μμ΅λλ€.
|
54 |
-
|
55 |
-
## λν΅μ μ£Όμμ
|
56 |
-
|
57 |
-
λν΅μ΄ μμ£Ό λ°μνλ κ²½μ°, λ€μκ³Ό κ°μ μ£Όμμ μ λ°λ₯΄λ κ²μ΄ μ€μν©λλ€:
|
58 |
-
|
59 |
-
- **μ€νΈλ μ€ κ΄λ¦¬**: μ€νΈλ μ€λ₯Ό μ€μ΄κΈ° μν΄ λͺ
μ, μκ°, μ¬νΈν‘ λ±μ λ°©λ²μ μλν΄λ³΄μΈμ.
|
60 |
-
- **건κ°ν μμ΅κ΄**: κ· ν μ‘ν μμ¬λ₯Ό νκ³ , κ³Όμμ΄λ νμνλ¬Ό κ³Όλ€ μμ·¨λ₯Ό νΌνμΈμ.
|
61 |
-
- **κ·μΉμ μΈ μ΄λ**: λ§€μΌ μ§§μ μ΄λμ ν΅ν΄ νμ‘μνμ κ°μ νκ³ μ€νΈλ μ€λ₯Ό μ€μ΄λ λ° λμμ΄ λ©λλ€.
|
62 |
-
- **μΆ©λΆν μλ©΄**: κ·μΉμ μΈ μλ©΄ ν¨ν΄μ μ μ§νκ³ , μ μκΈ° μ μλ μ€νΈλ μ€λ₯Ό μ€μ΄λ κ²μ΄ μ€μν©λλ€.
|
63 |
-
- **μ λ¬Έκ° μλ΄**: λν΅μ΄ λ°λ³΅μ μΌλ‘ λ°μνκ±°λ μ¬κ°ν μ¦μμ΄ μμ κ²½μ°, μμ¬μ μλ΄νμ¬ μ μ ν μ§λ¨κ³Ό μΉλ£λ₯Ό λ°λ κ²μ΄ νμν©λλ€.
|
64 |
-
|
65 |
-
λν΅μ μΌλ°μ μΌλ‘ μΌμμνμ ν° μ§μ₯μ μ£Όμ§ μμ§λ§, λ§μ½ μμ£Ό λ°μνκ±°λ μ¬κ°ν μ¦μμ΄ λνλλ€λ©΄ μ λ¬Έκ°μ λμμ λ°λ κ²μ΄ μ’μ΅λλ€.
|
66 |
-
|
67 |
-
````
|
68 |
-
## νκ° κ²°κ³Ό
|
69 |
-
|
70 |
-
λ³Έ μ°κ΅¬μμλ RAFT + RAG λͺ¨λΈκ³Ό κΈ°μ‘΄ λͺ¨λΈμΈ Gemma-2-2b-itμ λΉκ΅νμ¬ **RAGAS: Automated Evaluation of Retrieval Augmented Generation** λ°©λ²λ‘ μ μ¬μ©νμ¬ λ΅λ³ μ μ¬λλ₯Ό νκ°νμ΅λλ€.
|
71 |
-
|
72 |
-
- **Gemma-2-2b-it λͺ¨λΈ**: νκ· **79.98%** μ μ μ¬λ κΈ°λ‘
|
73 |
-
- **RAFT + RAG λͺ¨λΈ**: νκ· **96.02%** μ μ μ¬λ κΈ°λ‘
|
74 |
-
- μ΅μ μ μ¬λ: **92.39%**
|
75 |
-
- μ΅λ μ μ¬λ: **98.56%**
|
76 |
-
|
77 |
-
μ½ **16%** μ μ±λ₯ ν₯μμ΄ νμΈλμμΌλ©°, μ΄λ RAFT + RAG λͺ¨λΈμ΄ 볡μ‘ν λ¬Έλ§₯κ³Ό μ 보 κ²μμμ μ°μν μ²λ¦¬ λ₯λ ₯μ 보μ νκ³ μμμ λνλ
λλ€.
|
78 |
-
|
79 |
-
<img src="https://cdn-uploads.huggingface.co/production/uploads/64252e69120a3ed323304387/kcy1FWOJ2OxCtyhakfTGe.png" alt="image" width="50%">
|
80 |
-
|
81 |
-
## μ¬μ© λ°©λ²
|
82 |
-
|
83 |
-
μ¬μ© λ°©λ²κ³Ό μν€ν
μ²λ **Gemma-2-2b-it** λͺ¨λΈκ³Ό λμΌν©λλ€. λͺ¨λΈμ νκ΅μ΄ μλ£ μ§μμ λν΄ μ λ¬Έμ μΈ λ΅λ³μ μ 곡ν©λλ€.
|
84 |
-
|
85 |
-
## λͺ¨λΈ λ° μμν λ²μ
|
86 |
-
|
87 |
-
μλλ λ³Έ λͺ¨λΈκ³Ό μμνν λ²μ , κ·Έλ¦¬κ³ DSF(Domain-Specific Fine-tuning) λͺ¨λΈμ λ§ν¬μ
λλ€:
|
88 |
-
|
89 |
-
- **RAFT λͺ¨λΈ**
|
90 |
-
- [devlim/Korea-HealthCare-RAFT-float16](https://huggingface.co/devlim/Korea-HealthCare-RAFT-float16)
|
91 |
-
- [devlim/Korea-HealthCare-RAFT-unit8](https://huggingface.co/devlim/Korea-HealthCare-RAFT-unit8)
|
92 |
-
- **DSF λͺ¨λΈ**
|
93 |
-
- [devlim/Korea-HealthCare-DSF-float16](https://huggingface.co/devlim/Korea-HealthCare-DSF-float16)
|
94 |
-
- [devlim/Korea-HealthCare-DSF-unit8](https://huggingface.co/devlim/Korea-HealthCare-DSF-unit8)
|
95 |
-
|
96 |
-
## μ ν μ¬ν λ° μ£Όμμ¬ν
|
97 |
-
|
98 |
-
- **μλ£ μ‘°μΈ**: μ΄ λͺ¨λΈμ μλ£ μ 보λ₯Ό μ 곡νμ§λ§, μ λ¬Έμ μΈ μλ£ μλ΄μ΄λ μ§λ¨μ λ체νμ§ μμ΅λλ€. κ±΄κ° κ΄λ ¨ μμ¬ κ²°μ μ λ°λμ μλ£ μ λ¬Έκ°μ μμνμκΈ° λ°λλλ€.
|
99 |
-
- **λ°μ΄ν° νκ³**: λͺ¨λΈμ νμ΅λ λ°μ΄ν° λ²μ λ΄μμ λ΅λ³μ μ 곡ν©λλ€. μ΅μ μλ£ μ§μΉ¨μ΄λ κ°μΈλ³ μν©μ λν κ³ λ €λ λΆμ‘±ν μ μμ΅λλ€.
|
100 |
-
- **μ±
μ νκ³**: μ΄ λͺ¨λΈμ μ¬μ©μΌλ‘ λ°μνλ κ²°κ³Όμ λν΄ κ°λ°μλ μ±
μμ μ§μ§ μμ΅λλ€.
|
101 |
-
|
102 |
-
## μΈμ©
|
103 |
-
|
104 |
-
μ΄ λͺ¨λΈμ μ¬μ©νκ±°λ μ°κ΅¬μ μ°Έκ³ νμ€ κ²½μ° λ€μ λ¬Ένμ μΈμ©ν΄μ£ΌμκΈ° λ°λλλ€:
|
105 |
-
|
106 |
-
- **μ΄κ±°λ AI ν¬μ€μΌμ΄ μ§μμλ΅ λ°μ΄ν°**: AI νλΈ, [μ΄κ±°λ AI ν¬μ€μΌμ΄ μ§μμλ΅ λ°μ΄ν°](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71762)
|
107 |
-
- **Gemma 2 λͺ¨λΈ**: "Gemma 2: Improving Open Language Models at a Practical Size", *2023*.
|
108 |
-
- **RAFT λ°©λ²λ‘ **: Park et al., "Adapting Language Model to Domain Specific RAG", *arXiv preprint arXiv:2403.10131*, 2023.
|
109 |
-
- **RAGAS νκ° λ°©λ²λ‘ **: Kim et al., "RAGAS: Automated Evaluation of Retrieval Augmented Generation", *2023*.
|
110 |
-
|
111 |
-
## λΌμ΄μ μ€
|
112 |
-
|
113 |
-
μ΄ λͺ¨λΈμ ν΄λΉ λ°μ΄ν°μ
κ³Ό μμ² λͺ¨λΈμ λΌμ΄μ μ€ μ‘°κ±΄μ λ°λΌ μ¬μ©ν΄μΌ ν©λλ€. μ¬μ© μ μ λ°λμ λΌμ΄μ μ€ λ΄μ©μ νμΈνμκΈ° λ°λλλ€.
|
114 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|