upstage/open-ko-llm-leaderboard · GPT 평가 결과

Jan 13

안녕하세요. 현재 한국어 로컬 언어모델이 어느정도 수준까지 올라왔는지 매우 궁금합니다.

몇 달 전까지만 해도 GPT 3.5에 미치지 못한다고 느껴지는 로컬 언어모델이었으나, 현재로서는 GPT 3.5를 특정 영역에서는 능가했다고도 느껴집니다.
GPT 3.5와 GPT4 Turbo 등의 파운데이션 모델의 성능을 평가해본다면 그 점수는 현재 로컬 언어모델의 수준을 파악 할 수 있는 매우 의미 있는 지표가 될 수 있다고 봅니다.

감사합니다.

Limerobot

upstage org Jan 19

안녕하세요. 답변이 늦어서 죄송합니다.

GPT3의 경우는 OpenAI API에서는 lm-evaluation-harness에서 평가하기 위해 필요한 항목들이 제공됐으나,
GPT3.5(gpt-3.5-turbo-instruct 버전도 동일)와 GPT4의 경우는 여전히 지원하지 않는 것으로 알고 있습니다.

혹시 저희가 놓친 부분이 있다면 알려주세요.

감사합니다.

maywell

Jan 20

https://github.com/EleutherAI/lm-evaluation-harness/issues/1196
OpenAI측에서 logprobs를 지원하기 시작하면서 위와 같은 issue가 진행중인것으로 보입니다.
추후 lm-eval에 공식적으로 지원되기 시작하면 다시 Discussion 생성하겠습니다.

항상 감사드립니다.

maywell changed discussion status to closed Jan 20