모델 평가 계획이 있으실까요?

#3
by StatPan - opened

벤치마크 결과를 여기에 같이 공유하실 의향이 있으신지 궁금합니다

UNIVA and KAIST-MLP lab org

모델 평가는 AIME24, MATH500, GPQA의 세 가지 벤치마크를 사용하여 진행할 예정입니다.
각 데이터셋은 질문의 한국어 번역 버전과 원문 버전, 두 가지 형태로 활용되며, 각 벤치마크는 3회 측정한 후 그 평균 점수를 산출하여 기록할 것입니다.
현재 평가 대상 모델은 허깅페이스에 공개된 8B 및 70B 모델과 기존 베이스 모델인 DeepSeek-R1-Distill이며, 앞으로 추가될 DeepSeek-Bllossom 모델에 대해서도 벤치마크 결과를 함께 업데이트할 계획입니다.

계획을 공유해주셔서 감사합니다
저는 위 모델을 모델을 q4_k_m 양자화 해서 사용하고 있는데,
말씀해주신 벤치에 대해서 시스템 프롬프트 등의, 벤치 조건을 확인 후 비슷하게 테스트 해보려고 하고 있습니다.
좋은 결과 기다리겠습니다~!

Sign up or log in to comment