South-Korea-Shuan
commited on
Commit
•
f7ecbbe
1
Parent(s):
96e08bb
Update README.md
Browse files
README.md
CHANGED
@@ -8,12 +8,11 @@ tags:
|
|
8 |
- krx
|
9 |
---
|
10 |
|
|
|
11 |
|
12 |
-
|
13 |
|
14 |
-
|
15 |
-
|
16 |
-
## Project Structure
|
17 |
|
18 |
```
|
19 |
.
|
@@ -26,33 +25,33 @@ This repository contains code for fine-tuning the Qwen 2.5 7B Instruct model usi
|
|
26 |
└── README.md
|
27 |
```
|
28 |
|
29 |
-
##
|
30 |
|
31 |
-
- Amazon SageMaker
|
32 |
-
- Hugging Face
|
33 |
-
- AWS
|
34 |
- Python 3.10+
|
35 |
|
36 |
-
##
|
37 |
|
38 |
-
|
39 |
|
40 |
- PyTorch 2.1.0
|
41 |
-
- Transformers (
|
42 |
- Accelerate >= 0.27.0
|
43 |
- PEFT >= 0.6.0
|
44 |
- BitsAndBytes >= 0.41.0
|
45 |
|
46 |
-
##
|
47 |
|
48 |
-
-
|
49 |
-
-
|
50 |
-
-
|
51 |
-
-
|
52 |
|
53 |
-
##
|
54 |
|
55 |
-
###
|
56 |
|
57 |
```python
|
58 |
{
|
@@ -72,80 +71,77 @@ The project uses the following key dependencies:
|
|
72 |
}
|
73 |
```
|
74 |
|
75 |
-
###
|
76 |
|
77 |
-
|
78 |
|
79 |
-
- CUDA
|
80 |
-
-
|
81 |
-
- EFA
|
82 |
-
- Hugging Face
|
83 |
|
84 |
-
##
|
85 |
|
86 |
-
1.
|
87 |
-
-
|
88 |
-
-
|
89 |
-
-
|
90 |
|
91 |
-
2.
|
92 |
-
-
|
93 |
-
-
|
94 |
-
-
|
95 |
|
96 |
-
3.
|
97 |
-
-
|
98 |
-
-
|
99 |
-
-
|
100 |
-
-
|
101 |
|
102 |
-
4.
|
103 |
-
-
|
104 |
-
-
|
105 |
-
-
|
106 |
-
-
|
107 |
|
108 |
-
##
|
109 |
|
110 |
-
|
111 |
-
- Training loss
|
112 |
-
- Evaluation loss
|
113 |
|
114 |
-
##
|
115 |
|
116 |
-
|
117 |
-
-
|
118 |
-
-
|
119 |
-
-
|
120 |
-
-
|
121 |
|
122 |
-
##
|
123 |
|
124 |
-
1.
|
125 |
-
2.
|
126 |
-
3.
|
127 |
|
128 |
```bash
|
129 |
python sagemaker_train.py
|
130 |
```
|
131 |
|
132 |
-
##
|
133 |
-
|
134 |
-
### Custom Tokenizer
|
135 |
|
136 |
-
|
137 |
-
- Special token handling
|
138 |
-
- Unicode normalization
|
139 |
-
- Vocabulary management
|
140 |
-
- Input preparation for model training
|
141 |
|
142 |
-
|
|
|
|
|
|
|
|
|
143 |
|
144 |
-
|
145 |
-
- Uses PyTorch Distributed Data Parallel for training
|
146 |
-
- Implements gradient checkpointing for memory optimization
|
147 |
-
- Includes automatic retry mechanism for training failures
|
148 |
|
149 |
-
|
|
|
|
|
|
|
150 |
|
151 |
-
[Add License Information]
|
|
|
8 |
- krx
|
9 |
---
|
10 |
|
11 |
+
# Qwen 2.5 7B Instruct 모델 파인튜닝
|
12 |
|
13 |
+
이 저장소는 Amazon SageMaker를 사용하여 Qwen 2.5 7B Instruct 모델을 파인튜닝하는 코드를 포함하고 있습니다. 이 프로젝트는 대규모 언어 모델의 효율적인 파인튜닝을 위해 QLoRA(Quantized Low-Rank Adaptation)를 사용합니다.
|
14 |
|
15 |
+
## 프로젝트 구조
|
|
|
|
|
16 |
|
17 |
```
|
18 |
.
|
|
|
25 |
└── README.md
|
26 |
```
|
27 |
|
28 |
+
## 사전 요구사항
|
29 |
|
30 |
+
- Amazon SageMaker 접근 권한
|
31 |
+
- Hugging Face 계정 및 접근 토큰
|
32 |
+
- AWS 자격 증명 구성
|
33 |
- Python 3.10+
|
34 |
|
35 |
+
## 환경 설정
|
36 |
|
37 |
+
프로젝트에서 사용하는 주요 의존성:
|
38 |
|
39 |
- PyTorch 2.1.0
|
40 |
+
- Transformers (main 브랜치의 최신 버전)
|
41 |
- Accelerate >= 0.27.0
|
42 |
- PEFT >= 0.6.0
|
43 |
- BitsAndBytes >= 0.41.0
|
44 |
|
45 |
+
## 모델 구성
|
46 |
|
47 |
+
- 기본 모델: `Qwen/Qwen2.5-7B-Instruct`
|
48 |
+
- 학습 방법: QLoRA (4비트 양자화)
|
49 |
+
- 인스턴스 유형: ml.p5.48xlarge
|
50 |
+
- 분산 전략: PyTorch DDP
|
51 |
|
52 |
+
## 학습 구성
|
53 |
|
54 |
+
### 하이퍼파라미터
|
55 |
|
56 |
```python
|
57 |
{
|
|
|
71 |
}
|
72 |
```
|
73 |
|
74 |
+
### 환경 변수
|
75 |
|
76 |
+
학습 환경은 분산 학습 및 메모리 관리를 위한 최적화로 구성되어 있습니다:
|
77 |
|
78 |
+
- CUDA 장치 구성
|
79 |
+
- 메모리 최적화 설정
|
80 |
+
- 분산 학습을 위한 EFA(Elastic Fabric Adapter) 구성
|
81 |
+
- Hugging Face 토큰 및 캐시 설정
|
82 |
|
83 |
+
## 학습 프로세스
|
84 |
|
85 |
+
1. **환경 준비**:
|
86 |
+
- 필요한 의존성이 포함된 `requirements.txt` 생성
|
87 |
+
- Transformers 설치를 위한 `bootstrap.sh` 생성
|
88 |
+
- SageMaker 학습 구성 설정
|
89 |
|
90 |
+
2. **모델 로딩**:
|
91 |
+
- 4비트 양자화로 기본 Qwen 2.5 7B 모델 로드
|
92 |
+
- 양자화를 위한 BitsAndBytes 구성
|
93 |
+
- k-bit 학습을 위한 모델 준비
|
94 |
|
95 |
+
3. **데이터셋 처리**:
|
96 |
+
- Sujet Finance 데이터셋 사용
|
97 |
+
- Qwen2 형식으로 대화 포맷팅
|
98 |
+
- 최대 2048 토큰 길이로 토크나이징
|
99 |
+
- 병렬 처리를 통한 데이터 전처리 구현
|
100 |
|
101 |
+
4. **학습**:
|
102 |
+
- 메모리 효율성을 위한 gradient checkpointing 구현
|
103 |
+
- 웜업이 포함된 코사인 학습률 스케줄 사용
|
104 |
+
- 50 스텝마다 체크포인트 저장
|
105 |
+
- 10 스텝마다 학습 메트릭 로깅
|
106 |
|
107 |
+
## 모니터링 및 메트릭
|
108 |
|
109 |
+
학습 과정에서 다음 메트릭을 추적합니다:
|
110 |
+
- 학습 손실(Training loss)
|
111 |
+
- 평가 손실(Evaluation loss)
|
112 |
|
113 |
+
## 오류 처리
|
114 |
|
115 |
+
구현에는 포괄적인 오류 처리 및 로깅이 포함되어 있습니다:
|
116 |
+
- 환경 유효성 검사
|
117 |
+
- 데이터셋 준비 검증
|
118 |
+
- 학습 프로세스 모니터링
|
119 |
+
- 자세한 오류 메시지 및 스택 추적
|
120 |
|
121 |
+
## 사용 방법
|
122 |
|
123 |
+
1. AWS 자격 ��명 및 SageMaker 역할 구성
|
124 |
+
2. Hugging Face 토큰 설정
|
125 |
+
3. 학습 스크립트 실행:
|
126 |
|
127 |
```bash
|
128 |
python sagemaker_train.py
|
129 |
```
|
130 |
|
131 |
+
## 커스텀 컴포넌트
|
|
|
|
|
132 |
|
133 |
+
### 커스텀 토크나이저
|
|
|
|
|
|
|
|
|
134 |
|
135 |
+
프로젝트는 다음 기능이 포함된 Qwen2 토크나이저의 커스텀 구현(`tokenization_qwen2.py`)을 포함합니다:
|
136 |
+
- 특수 토큰 처리
|
137 |
+
- 유니코드 정규화
|
138 |
+
- 어휘 관리
|
139 |
+
- 모델 학습을 위한 입력 준비
|
140 |
|
141 |
+
## 주의사항
|
|
|
|
|
|
|
142 |
|
143 |
+
- 학습 스크립트는 ml.p5.48xlarge 인스턴스 타입에 최적화되어 있습니다
|
144 |
+
- PyTorch Distributed Data Parallel을 사용한 학습
|
145 |
+
- 메모리 최적화를 위한 gradient checkpointing 구현
|
146 |
+
- 학습 실패에 대한 자동 재시도 메커니즘 포함
|
147 |
|
|