kobest 재현 관련(모델이 다른 것 같습니다)

#1
by werty1248 - opened

안녕하세요, maywell님.
좋은 모델 공개해 주셔서 감사드립니다.

1딸깍 깃헙 코드를 제공해 주셔서, 바로 재현 실험을 해봤습니다.

그런데 1딸깍 방법대로 모델을 만들어서 테스트하면 올려주신 kobest 정확도가 재현이 되는데,
이 리포지토리 모델은 훨씬 낮은 정확도가 나옵니다.

이유를 알 수 있을까요?

  • maywell/Llama-3-Ko-8B-Instruct
!lm_eval --model hf --model_args pretrained=maywell/Llama-3-Ko-8B-Instruct,dtype=bfloat16 --num_fewshot 5 --batch_size 2 --tasks kobest_boolq,kobest_copa,kobest_hellaswag,kobest_sentineg,kobest_wic --device cuda
---

hf (pretrained=maywell/Llama-3-Ko-8B-Instruct,dtype=bfloat16), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: 2
|     Tasks      |Version|Filter|n-shot| Metric |Value |   |Stderr|
|----------------|------:|------|-----:|--------|-----:|---|------|
|kobest_boolq    |      1|none  |     5|acc     |0.5021|±  |0.0133|
|kobest_copa     |      1|none  |     5|acc     |0.5730|±  |0.0156|
|kobest_hellaswag|      1|none  |     5|acc     |0.3020|±  |0.0206|
|kobest_sentineg |      1|none  |     5|acc     |0.5592|±  |0.0249|
|kobest_wic      |      1|none  |     5|acc     |0.4921|±  |0.0141|
  • 1click 재현
!lm_eval --model hf --model_args pretrained=/content/drive/MyDrive/1clickmerge,dtype=bfloat16 --num_fewshot 5 --batch_size 2 --tasks kobest_boolq,kobest_copa,kobest_hellaswag,kobest_sentineg,kobest_wic --device cuda

hf (pretrained=/content/drive/MyDrive/1clickmerge,dtype=bfloat16), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: 2
 |     Tasks      |Version|Filter|n-shot| Metric |Value |   |Stderr|
|----------------|------:|------|-----:|--------|-----:|---|------|
|kobest_boolq    |      1|none  |     5|acc     |0.7215|±  |0.0120|
|kobest_copa     |      1|none  |     5|acc     |0.7640|±  |0.0134|
|kobest_hellaswag|      1|none  |     5|acc     |0.4460|±  |0.0223|
|kobest_sentineg |      1|none  |     5|acc     |0.9194|±  |0.0137|
|kobest_wic      |      1|none  |     5|acc     |0.6056|±  |0.0138|

테스트 코드는 https://github.com/EleutherAI/lm-evaluation-harness 를 썼습니다.

Owner

관련 문제 확인후 15분 전 쯔음 weight 새로 업로드 했습니다.
모델 업로드시 제대로 확인하지 못한점 죄송하게 생각하고 있습니다.

Owner

평가시에 f32모델을 bf16으로 로드해 평가를 진행하였으며, 추후 모델 업로드 과정에서 f32 -> bf16에서 문제가 발생했던 것 같습니다.

빠른 답변 감사합니다!

werty1248 changed discussion status to closed

Sign up or log in to comment