Spaces:

upstage
/

open-ko-llm-leaderboard

Running on CPU Upgrade

평가지표 자체 학습 관련 건

#44

by Januaryyyy - opened Jan 15, 2024

Jan 15, 2024

eamUNIVA/Komodo_7B_v0.1.0 이 모델이 평가지표 자체를 학습한 것으로 보이는데 (모델카드 참조),
TruthfulQA가 83점인 것은 글로벌리 너무 높은 점수로 보입니다. 리더보드에서의 취지에 맞는지 이 부분에 대해서 어떤 정책을 가지고 있는지 알고싶습니다.

choco9966

upstage org Jan 15, 2024

This comment has been hidden

choco9966

upstage org Jan 15, 2024

@kimdeoldeol 안녕하세요. 혹시, TruthfulQA가 83점으로 기존 수치 대비 높게 나온 점을 확인하였습니다. 데이터 자체에 벤치마크 관련된 영문 Truthful QA 데이터가 사용된건 아닌지 다시한번 체크 가능하실까요?

@Januaryyyy 안녕하세요. 현재는 1주일 정도의 저자한테 이상 유무에 대한 문의를 진행하고,

저자한테 이상유무 있는지 문의
1주일 이내 답변 없는 경우 데이터 오염도 문제 조사를 통해서 이상있을 시 삭제를 진행하고 있습니다.

hyunsoo3

Jan 15, 2024

This comment has been hidden

choco9966

upstage org Jan 15, 2024

@hyunsoo3 가능합니다. 현재 PR 날렸고 담당자분이 Merged만 해주시면 아래와 같이 Flagged된 형태로 바뀔 것 같습니다.

kimdeoldeol

Jan 15, 2024

@choco9966

저희 모델에 대해 관심을 가져주셔서 감사드립니다.

본 연구에서는 영문 TruthfulQA 데이터를 직접적으로 활용하지 않았음을 안내드립니다.

저희는 TruthfulQA task의 성능 향상에 필요한 데이터셋을 구축하기 위해 GPT api를 통해 해당 task 관련 데이터를 생성하였으며, 이와 더불어 인터넷 상에 흩어져 있는 다양한 미신 및 https://m.blog.naver.com/cjemtoa1/220641697465 등의 기타 정보들을 광범위하게 조사하고 분석하여 독자적인 데이터셋을 생성하였습니다.

또한, 데이터셋의 contamination을 방지하기 위한 가이드라인을 제공해주신다면, 저희는 이를 언제라도 적극적으로 수용할 준비가 되어 있습니다.

감사합니다.

jjourney1125

Jan 16, 2024

@choco9966
안녕하세요. 위와 비슷한 내용일 것 같은데 영어 벤치마크 데이터셋의 train 데이터만 사용하고, test 데이터셋에 대해서 decontamination 과정을 거친 데이터를 번역 후 사용해도 되는지 문의드립니다.

현재 영어권 리더보드에서 상위권을 유지하고 있는 https://huggingface.co/jondurbin/bagel-dpo-34b-v0.2 모델이 해당 방법으로 학습을 진행했는데, 이분이 공개하신 jondurbin/bagel-v0.3과 같은 데이터셋을 번역해서 사용해도 되는지 문의드립니다.

choco9966

upstage org Jan 16, 2024

@kimdeoldeol 확인 답변 감사합니다. 학습과정에서 테스트 데이터를 직접적으로 활용하지 않은 것으로 이해했습니다. 다만, 혹시나 예상치못하게 데이터 수집과정에서 테스트 데이터가 들어갈 수 있어서 자체적으로 데이터 오염도 검사를 진행 하려고 하는데, 모델 Access 승인좀 해주실 수 있으실까요?

@jjourney1125 안녕하세요. 원칙적으로 데이터 오염도에만 문제 없다면 상관없습니다. train dataset 사용은 원칙적으로는 허용되지만, 개인적으로는 권장하지는 않는 편이긴합니다. FlanV2 데이터컬렉션을 이용한 Dataset들이 train set을 포함하기 때문에, 의도치 않게 train set을 포함하여 학습하는 경우가 있고 직접적으로 train_set을 포함할 경우 점수에 상당 영향을 주기도 하는 편이기도 합니다. 또한 train_set을 활용할 경우 해당 task들에선 0-shot 성능이 보통 제일 좋아지는 듯 하였습니다. 따라서 굳이 25-shot, 10-shot, 5-shot으로 측정할 필요가 없어지게 되는데요, few-shot으로 in-context learning 능력도 함께 보는 LLM평가 취지와 살짝 어긋나는 감이 있지 않나 합니다. 그러나 해당 부분에 대해서는 여전히 애매한 부분이 있고 검증하기도 어려운 부분들이 있다보니 커뮤니티에서 좀 더 논의가 진전되어야 하는 것이 아닌가 싶습니다.

kimdeoldeol

Jan 17, 2024

@choco9966
요청주신 모델 접근권한을 허용했습니다.

저희 모델에 사용된 학습데이터에는 AIHUB 데이터셋, Kobest, Flan V2, Orca, Kaist-CoT 등의 데이터셋들이 포함되어있습니다.

안내를 통해 Data Contamination 발생에 대한 가능성을 인지하였으며, 현재 내부적으로 검토 중에 있습니다.

저희 모델에 대한 검사를 진행하신 후 그 결과를 제공해 주신다면 저희는 그에 따라 필요한 보완 조치를 취한 후 리더보드에 다시 모델을 업로드할 계획입니다.

감사합니다.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment