File size: 3,873 Bytes

2714fb4
 
 
68fa2b2
 
 
 
 
2714fb4
 
f7ecbbe
6f0625d
f7ecbbe
6f0625d
f7ecbbe
6f0625d
 
 
 
 
 
 
 
 
 
 
2714fb4
f7ecbbe
6f0625d
f7ecbbe
 
 
6f0625d
2714fb4
f7ecbbe
2714fb4
f7ecbbe
2714fb4
6f0625d
f7ecbbe
6f0625d
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
2714fb4
6f0625d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
 
2714fb4
f7ecbbe
 
 
 
2714fb4
f7ecbbe
 
 
 
 
2714fb4
f7ecbbe
 
 
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
2714fb4
6f0625d
 
 
2714fb4
f7ecbbe
2714fb4
f7ecbbe
2714fb4
f7ecbbe
 
 
 
 
2714fb4
f7ecbbe
6f0625d
f7ecbbe
 
 
 
2714fb4

---
base_model: Qwen/Qwen2.5-7B-Instruct
library_name: peft
datasets:
- gbharti/finance-alpaca
- sujet-ai/Sujet-Finance-Instruct-177k
tags:
- krx
---

# Qwen 2.5 7B Instruct 모델 파인튜닝

이 저장소는 Amazon SageMaker를 사용하여 Qwen 2.5 7B Instruct 모델을 파인튜닝하는 코드를 포함하고 있습니다. 이 프로젝트는 대규모 언어 모델의 효율적인 파인튜닝을 위해 QLoRA(Quantized Low-Rank Adaptation)를 사용합니다.

## 프로젝트 구조

```
.
├── scripts/
│   ├── train.py
│   ├── tokenization_qwen2.py
│   ├── requirements.txt
│   └── bootstrap.sh
├── sagemaker_train.py
└── README.md
```

## 사전 요구사항

- Amazon SageMaker 접근 권한
- Hugging Face 계정 및 접근 토큰
- AWS 자격 증명 구성
- Python 3.10+

## 환경 설정

프로젝트에서 사용하는 주요 의존성:

- PyTorch 2.1.0
- Transformers (main 브랜치의 최신 버전)
- Accelerate >= 0.27.0
- PEFT >= 0.6.0
- BitsAndBytes >= 0.41.0

## 모델 구성

- 기본 모델: `Qwen/Qwen2.5-7B-Instruct`
- 학습 방법: QLoRA (4비트 양자화)
- 인스턴스 유형: ml.p5.48xlarge
- 분산 전략: PyTorch DDP

## 학습 구성

### 하이퍼파라미터

```python
{
    'epochs': 3,
    'per_device_train_batch_size': 4,
    'gradient_accumulation_steps': 8,
    'learning_rate': 1e-5,
    'max_steps': 1000,
    'bf16': True,
    'max_length': 2048,
    'gradient_checkpointing': True,
    'optim': 'adamw_torch',
    'lr_scheduler_type': 'cosine',
    'warmup_ratio': 0.1,
    'weight_decay': 0.01,
    'max_grad_norm': 0.3
}
```

### 환경 변수

학습 환경은 분산 학습 및 메모리 관리를 위한 최적화로 구성되어 있습니다:

- CUDA 장치 구성
- 메모리 최적화 설정
- 분산 학습을 위한 EFA(Elastic Fabric Adapter) 구성
- Hugging Face 토큰 및 캐시 설정

## 학습 프로세스

1. **환경 준비**:
   - 필요한 의존성이 포함된 `requirements.txt` 생성
   - Transformers 설치를 위한 `bootstrap.sh` 생성
   - SageMaker 학습 구성 설정

2. **모델 로딩**:
   - 4비트 양자화로 기본 Qwen 2.5 7B 모델 로드
   - 양자화를 위한 BitsAndBytes 구성
   - k-bit 학습을 위한 모델 준비

3. **데이터셋 처리**:
   - Sujet Finance 데이터셋 사용
   - Qwen2 형식으로 대화 포맷팅
   - 최대 2048 토큰 길이로 토크나이징
   - 병렬 처리를 통한 데이터 전처리 구현

4. **학습**:
   - 메모리 효율성을 위한 gradient checkpointing 구현
   - 웜업이 포함된 코사인 학습률 스케줄 사용
   - 50 스텝마다 체크포인트 저장
   - 10 스텝마다 학습 메트릭 로깅

## 모니터링 및 메트릭

학습 과정에서 다음 메트릭을 추적합니다:
- 학습 손실(Training loss)
- 평가 손실(Evaluation loss)

## 오류 처리

구현에는 포괄적인 오류 처리 및 로깅이 포함되어 있습니다:
- 환경 유효성 검사
- 데이터셋 준비 검증
- 학습 프로세스 모니터링
- 자세한 오류 메시지 및 스택 추적

## 사용 방법

1. AWS 자격 증명 및 SageMaker 역할 구성
2. Hugging Face 토큰 설정
3. 학습 스크립트 실행:

```bash
python sagemaker_train.py
```

## 커스텀 컴포넌트

### 커스텀 토크나이저

프로젝트는 다음 기능이 포함된 Qwen2 토크나이저의 커스텀 구현(`tokenization_qwen2.py`)을 포함합니다:
- 특수 토큰 처리
- 유니코드 정규화
- 어휘 관리
- 모델 학습을 위한 입력 준비

## 주의사항

- 학습 스크립트는 ml.p5.48xlarge 인스턴스 타입에 최적화되어 있습니다
- PyTorch Distributed Data Parallel을 사용한 학습
- 메모리 최적화를 위한 gradient checkpointing 구현
- 학습 실패에 대한 자동 재시도 메커니즘 포함