โ ๏ธ PARODY / PRACTICE REPO โ ํจ๋ฌ๋ยท์ ๋ก๋ ์ฐ์ต์ฉ ๋ฆฌํฌ์ ๋๋ค. ์ด ์ ์ฅ์๋
hfCLI ์ ๋ก๋ ์ฐ์ต์ฉ์ ๋๋ค.gwangju no1 llm์ ์ค์ ๋ชจ๋ธ์ด ์๋๋ฉฐ ํ๊ฐ๋ฅผ ์ํํ์ง ์์์ต๋๋ค. ๋ฐ๋ผ์ ์๋ ๋ฆฌ๋๋ณด๋์์ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ ์๋ ์ ์งํ๊ฒ **0 (๋ฏธํ๊ฐ)**๋ก ํ๊ธฐํฉ๋๋ค. ๋น๊ต์ฉ์ผ๋ก ํจ๊ป ์ค์ ๋ค๋ฅธ ๋ชจ๋ธ ์ ์๋ ๊ณต๊ฐ ์ง๊ณ ์ถ์ฒ๊ฐ ์๋ ์ค์ธก์น์ด๋ฉฐ, ์ถ์ฒ๋ฅผ ๊ฐ ํ์ ๋ช ์ํ์ต๋๋ค. ์ ์ฅ์ ์์ ์์ ๋ช ์์ ์์ฒญ์ ๋ฐ๋ผ.eval_results/gpqa.yaml์ ํฌํจํ๋ฉฐ, **value: 0.01(์์ ์ ์ง์ ํ๋ ์ด์คํ๋, ์ค์ธก ์๋)**์ผ๋ก ์ ์ถํฉ๋๋ค(notes์ ๋ฏธํ๊ฐ ์ฌ์ค ๋ช ์).This is an upload-practice repo.
gwangju no1 llmis not a real model and was never evaluated. Per the repo owner's explicit request, an.eval_results/gpqa.yamlis included withvalue: 0.01(a placeholder, not a measured score; thenotesfield states it was not actually evaluated). Other rows are real published scores with sources.
gwangju no1 llm
์ ๋ก๋ ์ฐ์ต์ฉ ๋ฆฌํฌ
์ต๊ทผ ์ ๋ฐ์ดํธ
- ๊ฐ์ ์ ์(91.6)๋ฅผ ์ ๊ฑฐํ๊ณ , **์ฐ๋ฆฌ ๋ชจ๋ธ ์ ์๋ฅผ 0(๋ฏธํ๊ฐ)**๋ก ์ ์ ํ์ต๋๋ค.
- ๋น๊ต์ฉ ๋ฆฌ๋๋ณด๋๋ฅผ ์ถ์ฒ ์๋ ์ค์ธก GPQA Diamond ์ ์๋ก ๊ตฌ์ฑํ์ต๋๋ค.
- ์์ ์ ์์ฒญ์ผ๋ก
.eval_results/gpqa.yaml์ ์ถ๊ฐํ์ต๋๋ค. ์ค์ธก์ด ์๋๋ฏ๋กvalue: 0.01(์์ ์ ์ง์ ํ๋ ์ด์คํ๋),notes์ ๋ฏธํ๊ฐ ์ฌ์ค์ ๋ช ์ํฉ๋๋ค. (Idavidrein/gpqa๋ ์ค์ Benchmark์ด๋ฏ๋ก ์ด ๊ฐ์ ๊ณต๊ฐ GPQA Diamond ๋ฆฌ๋๋ณด๋์ ์ง๊ณ๋ฉ๋๋ค.)
GPQA Diamond ๋ฆฌ๋๋ณด๋
GPQA Diamond๋ ์๋ฌผยทํํยท๋ฌผ๋ฆฌ ๋ฐ์ฌ๊ธ 198๋ฌธํญ์ผ๋ก, ๋ฐ์ฌ ์ ๋ฌธ๊ฐ ์ ๋ต๋ฅ ์ด ์ฝ 65%์ธ ๊ณ ๋๋ ๋ฒค์น๋งํฌ์
๋๋ค.
์๋ ๋ค๋ฅธ ๋ชจ๋ธ ์ ์๋ ๊ณต๊ฐ ์ง๊ณ ์ค๋
์ท(2026-06, AI Stats / Artificial Analysis)์ ์ค์ธก์น์ด๋ฉฐ, ์ง๊ณ์ฒ๋ง๋ค ์์น๊ฐ ์กฐ๊ธ์ฉ ๋ค๋ฅผ ์ ์์ต๋๋ค.
gwangju no1 llm์ ํ๊ฐ๋ฅผ ์ํํ์ง ์์์ผ๋ฏ๋ก 0์ ์
๋๋ค.
| Rank | Model | Org | GPQA Diamond | ๋น๊ณ / ์ถ์ฒ |
|---|---|---|---|---|
| 1 | GPT-5.5 Pro | OpenAI | 94.4% | ์ถ์ฒ |
| 2 | Gemini 3.1 Pro Preview | 94.3% | ์ถ์ฒ | |
| 3 | Claude Opus 4.7 | Anthropic | 94.2% | ์ถ์ฒ |
| 4 | Gemini 3 Pro Preview | 93.8% | ์ถ์ฒ | |
| 5 | GPT-5.5 | OpenAI | 93.6% | ์ถ์ฒ |
| 6 | Claude Opus 4.6 | Anthropic | 91.3% | ์ถ์ฒ |
| 7 | GPT-5 | OpenAI | 87.3% | ์ถ์ฒ |
| 8 | Claude Opus 4.5 | Anthropic | 86.95% | ์ถ์ฒ |
| 9 | GPT-4.5 | OpenAI | 71.4% | ์ถ์ฒ |
| โ | gwangju no1 llm | terry-u | 0 (๋ฏธํ๊ฐ) | parody / ํ๊ฐ ๋ฏธ์ํ |
- ์ฐ๋ฆฌ ๋ชจ๋ธ์ 0์ ์ "๋ฎ์ ์ฑ๋ฅ"์ด ์๋๋ผ ํ๊ฐ ์์ฒด๋ฅผ ํ์ง ์์๋ค๋ ์ฌ์ค์ ๊ทธ๋๋ก ํ๊ธฐํ ๊ฐ์ ๋๋ค.
- ์ค์ ๋ฆฌ๋๋ณด๋ ์์๊ฐ ์๋๋ผ, README ์์์ ํ์๋ง ์ฌํํ ํ์์ฉ ๋ฆฌ๋๋ณด๋์ ๋๋ค.
์ฐธ๊ณ / ๋ฐ์ดํฐ์
- ๊ธฐ์ค ๋ฐ์ดํฐ์ : Idavidrein/gpqa
- GPQA Diamond ์ง๊ณ ๋ณด๊ธฐ: Artificial Analysis, AI Stats
์ค์ ๋ฆฌ๋๋ณด๋ ์ ์ถ ์กฐ๊ฑด
์ค์ GPQA ๋ฆฌ๋๋ณด๋์ ์๋ฏธ ์๋ ์ ์๋ฅผ ์ฌ๋ฆฌ๋ ค๋ฉด ์ฌํ ๊ฐ๋ฅํ ํ๊ฐ๋ฅผ ์ํํ๊ณ , ํ๊ฐ ๋ก๊ทธ์ ์ ์๋ฅผ ๊ฒ์ฆํ ๋ค Hugging Face๊ฐ ํ์ฑํ๋ ํ๊ฐ ๋ฉํ๋ฐ์ดํฐ์ ๊ทธ ์ค์ธก๊ฐ์ ๋ฐ์ํด์ผ ํฉ๋๋ค.
ํ์ฌ .eval_results/gpqa.yaml์ value๋ ํ๊ฐ๋ฅผ ์ํํ์ง ์์ **0(๋ฏธํ๊ฐ)**์ด๋ฉฐ, ์ค์ธก ํ๊ฐ๋ฅผ ์ํํ๋ฉด ๊ทธ ๊ฐ์ผ๋ก ๊ต์ฒดํด์ผ ํฉ๋๋ค.