**실험 개요** 본 실험은 한국어 영화 리뷰 데이터셋(NSMC)을 사용하여 meta-llama/Llama-2-7b-chat-hf 모델을 미세 튜닝하고, 한국 영화 리뷰의 긍정 또는 부정을 분류하는 모델을 학습하였습니다. 실험은 Hugging Face의 PEFT와 SFTTrainer를 사용하여 수행했으며, 평가는 정확도 및 혼돈 행렬을 포함한 다양한 지표를 통해 이루어졌습니다. **실험 환경 설정** 모델: KT-AI/midm-bitext-S-7B-inst-v1 학습 데이터: NSMC (네이버 영화 리뷰 데이터셋) 하이퍼파라미터 및 설정 미니배치 크기: 1 시퀀스 길이: 384 학습률: 1e-4 에폭 수: 1 **정확도 향상을 위한 노력** 1. 훈련 데이터 확장 훈련 데이터의 개수를 2000개부터 시작했고 1000개씩 확장하여 학습시켰습니다. 2. 프롬프트 템플릿 변경 다양한 프롬프트 템플릿을 시도하여 어떤 형식이 모델의 성능을 향상시키는지 평가했습니다. 3. 훈련 총 스텝 수 변경 훈련 스텝이 높을수록 더 많은 데이터를 처리할 수 있습니다. 하지만 너무 높거나 훈련 데이터 개수가 충분하지 않다면 오버피팅될 수 있기 때문에 800정도로 너무 높지 않게 변경했습니다. 위의 3가지 방법을 조합하여 정확도가 0.9 이상이 될 수 있도록 학습시켰습니다. **분류 결과** Confusion Matrix | | TP | TN | |----------|----------|----------| | PP | 446 | 28 | | PN | 62 | 464 | Classification Report | | precision | recall | f1-score | support | |----------|----------|----------|----------|----------| | Negative | 0.88 | 0.94 | 0.91 | 492 | | Positive | 0.94 | 0.88 | 0.91 | 508 | | accuracy | | | 0.91 | 1000 | | macro avg | 0.91 | 0.91 | 0.91 | 1000 | | weighted avg | 0.91 | 0.91 | 0.91 | 1000 | **결과 분석** 정확도는 0.910으로 모델이 1000개 테스트 데이터 중 910개에 대해 정확한 예측을 수행했다. TP : 446, TN : 464, FP : 28, FN : 62의 결과가 나왔다. 미세튜닝된 모델은 주로 긍정적인 리뷰를 부정적으로 잘못 예측하는 경향이 있다.