⚠️ PARODY / PRACTICE REPO — 패러디·업로드 연습용 리포입니다. 이 저장소는 hf CLI 업로드 연습용입니다. gwangju no1 llm은 실제 모델이 아니며 평가를 수행하지 않았습니다. 따라서 아래 리더보드에서 우리 모델의 점수는 정직하게 **0 (미평가)**로 표기합니다. 비교용으로 함께 실은 다른 모델 점수는 공개 집계 출처가 있는 실측치이며, 출처를 각 행에 명시했습니다. 저장소 소유자의 명시적 요청에 따라 .eval_results/gpqa.yaml을 포함하며, **value: 0.01(소유자 지정 플레이스홀더, 실측 아님)**으로 제출합니다(notes에 미평가 사실 명시).

This is an upload-practice repo. gwangju no1 llm is not a real model and was never evaluated. Per the repo owner's explicit request, an .eval_results/gpqa.yaml is included with value: 0.01 (a placeholder, not a measured score; the notes field states it was not actually evaluated). Other rows are real published scores with sources.

gwangju no1 llm

업로드 연습용 리포

최근 업데이트

가상 점수(91.6)를 제거하고, **우리 모델 점수를 0(미평가)**로 정정했습니다.
비교용 리더보드를 출처 있는 실측 GPQA Diamond 점수로 구성했습니다.
소유자 요청으로 .eval_results/gpqa.yaml을 추가했습니다. 실측이 아니므로 value: 0.01(소유자 지정 플레이스홀더), notes에 미평가 사실을 명시합니다. (Idavidrein/gpqa는 실제 Benchmark이므로 이 값은 공개 GPQA Diamond 리더보드에 집계됩니다.)

GPQA Diamond 리더보드

GPQA Diamond는 생물·화학·물리 박사급 198문항으로, 박사 전문가 정답률이 약 65%인 고난도 벤치마크입니다. 아래 다른 모델 점수는 공개 집계 스냅샷(2026-06, AI Stats / Artificial Analysis)의 실측치이며, 집계처마다 수치가 조금씩 다를 수 있습니다. gwangju no1 llm은 평가를 수행하지 않았으므로 0점입니다.

Rank	Model	Org	GPQA Diamond	비고 / 출처
1	GPT-5.5 Pro	OpenAI	94.4%	출처
2	Gemini 3.1 Pro Preview	Google	94.3%	출처
3	Claude Opus 4.7	Anthropic	94.2%	출처
4	Gemini 3 Pro Preview	Google	93.8%	출처
5	GPT-5.5	OpenAI	93.6%	출처
6	Claude Opus 4.6	Anthropic	91.3%	출처
7	GPT-5	OpenAI	87.3%	출처
8	Claude Opus 4.5	Anthropic	86.95%	출처
9	GPT-4.5	OpenAI	71.4%	출처
—	gwangju no1 llm	terry-u	0 (미평가)	parody / 평가 미수행

우리 모델의 0점은 "낮은 성능"이 아니라 평가 자체를 하지 않았다는 사실을 그대로 표기한 값입니다.
실제 리더보드 순위가 아니라, README 안에서 형식만 재현한 표시용 리더보드입니다.

참고 / 데이터셋

기준 데이터셋: Idavidrein/gpqa
GPQA Diamond 집계 보기: Artificial Analysis, AI Stats

실제 리더보드 제출 조건

실제 GPQA 리더보드에 의미 있는 점수를 올리려면 재현 가능한 평가를 수행하고, 평가 로그와 점수를 검증한 뒤 Hugging Face가 파싱하는 평가 메타데이터에 그 실측값을 반영해야 합니다. 현재 .eval_results/gpqa.yaml의 value는 평가를 수행하지 않아 **0(미평가)**이며, 실측 평가를 수행하면 그 값으로 교체해야 합니다.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support