Spaces:
Running
Running
File size: 2,185 Bytes
c2ba4d5 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 |
#### \[KR\] ์ง์ด๋ฃ์ jsonl ํ์ผ ๊ฐ์ด๋
๋น๊ตํ ๋ชจ๋ธ์ด ๋ค์ฏ ๊ฐ๋ผ๋ฉด ๋ค์ฏ ๊ฐ์ .jsonl ํ์ผ์ ์
๋ก๋ํ์ธ์.
* ๐ฅ๋ชจ๋ jsonl ์ ๊ฐ์ ์์ ํ์ ๊ฐ์ ธ์ผํฉ๋๋ค.
* ๐ฅ`model_id` ํ๋๋ ํ์ผ๋ง๋ค ๋ฌ๋ผ์ผํ๋ฉฐ ํ์ผ ๋ด์์๋ ์ ์ผํด์ผํฉ๋๋ค.
**jsonl ํ์ ํ๋**
* ๊ฐ๋ณ
* `model_id`: ํ๊ฐ๋ฐ๋ ๋ชจ๋ธ์ ์ด๋ฆ์
๋๋ค. (์งง๊ฒ ์ฐ๋ ๊ฒ ์ถ์ฒ)
* `generated`: ๋ชจ๋ธ์ด testset instruction ์ ์์ฑํ ์๋ต์ ๋ฃ์ผ์ธ์.
* ๋ฒ์ญํ๊ฐ ํ๋กฌํํธ ์ฌ์ฉ์ (`translation_pair`. `streamlit_app_local/user_submit/mt/llama5.jsonl` ์์ ์์ ๋ณผ ์ ์์)
* `source_lang`: input language (e.g. Korean, KR, kor, ...)
* `target_lang`: output language (e.g. English, EN, ...)
* ๊ณตํต ๋ถ๋ถ (**๋ชจ๋ ํ์ผ์ ๋ํด ๊ฐ์์ผ ํจ**)
* `instruction`: ๋ชจ๋ธ์ ์ง์ด๋ฃ๋ `testset instruction` ํน์ `input`์ ํด๋นํ๋ ๋ฌด์ธ๊ฐ์
๋๋ค.
* `task`: ์ ์ฒด ๊ฒฐ๊ณผ๋ฅผ subset์ผ๋ก ๊ทธ๋ฃน์ง์ด์ ๋ณด์ฌ์ค ๋ ์ฌ์ฉ๋ฉ๋๋ค. `evaluation prompt`๋ฅผ ํ๋ณ๋ก ๋ค๋ฅด๊ฒ ์ฌ์ฉํ๊ณ ์ถ์ ๋ ํ์ฉ๋ ์ ์์ต๋๋ค.
๊ฐ jsonl ํ์ผ์ ์๋์ฒ๋ผ ์๊ฒผ์ต๋๋ค.
```python
# model1.jsonl
{"model_id": "๋ชจ๋ธ1", "task": "๊ธธ ๋ฌป๊ธฐ", "instruction": "์ด๋๋ก ๊ฐ์ผํ์ค", "generated": "์ ๊ธฐ๋ก์"}
{"model_id": "๋ชจ๋ธ1", "task": "์ฐ์", "instruction": "1+1", "generated": "2"} # ๊ธธ ๋ฌป๊ธฐ์ ์ฐ์์ ๊ฒฝ์ฐ ๋ค๋ฅธ ํ๊ฐ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ๊ณ ์ถ์ ์ ์๊ฒ ์ฃ ?
# model2.jsonl -* model1.jsonl๊ณผ `instruction`์ ๊ฐ๊ณ `generated`, `model_id` ๋ ๋ค๋ฆ
๋๋ค!
{"model_id": "๋ชจ๋ธ2", "task": "๊ธธ ๋ฌป๊ธฐ", "instruction": "์ด๋๋ก ๊ฐ์ผํ์ค", "generated": "ํ์ด"}
{"model_id": "๋ชจ๋ธ2", "task": "์ฐ์", "instruction": "1+1", "generated": "3"}
...
..
```
์๋ฅผ ๋ค์ด, ํ๊ฐ์ง ๋ชจ๋ธ์ ๋ํด ๋ค๋ฅธ ํ๋กฌํํ
์ ์๋ํ์ฌ ๋ค๋ฅธ ์์ฑ๋ฌธ์ ์ป์๊ณ ์ด๋ฅผ ๋น๊ตํ๊ณ ์ถ์ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ด
์๋ค. ์ด ๋ ํ๊ฐ๋ฐ์ testset์ ๊ฐ์ผ๋ฏ๋ก `instruction`์ ๋ชจ๋ ๊ฐ๊ณ ํ๋กฌํํ
์ ๋ฐ๋ผ `generated`๋ ๋ฌ๋ผ์ง๊ฒ ์ฃ ? `model_id` ๋ `"prompt1"`, `"prompt2"` ๋ฑ ์ทจํฅ์ ๋ง๊ฒ ์ ์ด์ฃผ์๋ฉด ๋ฉ๋๋ค.
|