**실험 개요**

본 실험은 한국어 영화 리뷰 데이터셋(NSMC)을 사용하여 meta-llama/Llama-2-7b-chat-hf 모델을 미세 튜닝하고, 한국 영화 리뷰의 긍정 또는 부정을 분류하는 모델을 학습하였습니다. 실험은 Hugging Face의 PEFT와 SFTTrainer를 사용하여 수행했으며, 평가는 정확도 및 혼돈 행렬을 포함한 다양한 지표를 통해 이루어졌습니다.

**실험 환경 설정**

모델: KT-AI/midm-bitext-S-7B-inst-v1  
학습 데이터: NSMC (네이버 영화 리뷰 데이터셋)  
하이퍼파라미터 및 설정  
미니배치 크기: 1  
시퀀스 길이: 384  
학습률: 1e-4  
에폭 수: 1  

**정확도 향상을 위한 노력**

1. 훈련 데이터 확장
훈련 데이터의 개수를 2000개부터 시작했고 1000개씩 확장하여 학습시켰습니다.

2. 프롬프트 템플릿 변경
다양한 프롬프트 템플릿을 시도하여 어떤 형식이 모델의 성능을 향상시키는지 평가했습니다.

3. 훈련 총 스텝 수 변경
훈련 스텝이 높을수록 더 많은 데이터를 처리할 수 있습니다. 하지만 너무 높거나 훈련 데이터 개수가 충분하지 않다면 오버피팅될 수 있기 때문에 800정도로 너무 높지 않게 변경했습니다.

위의 3가지 방법을 조합하여 정확도가 0.9 이상이 될 수 있도록 학습시켰습니다.

**분류 결과**

Confusion Matrix
|  | TP | TN |
|----------|----------|----------|
| PP | 446 | 28 |
| PN | 62 | 464 |

Classification Report
|  | precision | recall | f1-score | support |
|----------|----------|----------|----------|----------|
| Negative | 0.88 | 0.94 | 0.91 | 492 |
| Positive | 0.94 | 0.88 | 0.91 | 508 |
| accuracy |  |  | 0.91 | 1000 |
| macro avg | 0.91 | 0.91 | 0.91 | 1000 |
| weighted avg | 0.91 | 0.91 | 0.91 | 1000 |

**결과 분석**

정확도는 0.910으로 모델이 1000개 테스트 데이터 중 910개에 대해 정확한 예측을 수행했다.
TP : 446, TN : 464, FP : 28, FN : 62의 결과가 나왔다. 미세튜닝된 모델은 주로 긍정적인 리뷰를 부정적으로 잘못 예측하는 경향이 있다.