Spaces:

NCSOFT
/

VARCO_Arena

Running

File size: 2,185 Bytes

c2ba4d5

#### \[KR\] 집어넣을 jsonl 파일 가이드
비교할 모델이 다섯 개라면 다섯 개의 .jsonl 파일을 업로드하세요.
* 💥모든 jsonl 은 같은 수의 행을 가져야합니다.
* 💥`model_id` 필드는 파일마다 달라야하며 파일 내에서는 유일해야합니다.

**jsonl 필수 필드**
* 개별
  * `model_id`: 평가받는 모델의 이름입니다. (짧게 쓰는 것 추천)
  * `generated`: 모델이 testset instruction 에 생성한 응답을 넣으세요.

* 번역평가 프롬프트 사용시 (`translation_pair`. `streamlit_app_local/user_submit/mt/llama5.jsonl` 에서 예시 볼 수 있음)
  * `source_lang`: input language (e.g. Korean, KR, kor, ...)
  * `target_lang`: output language (e.g. English, EN, ...)

* 공통 부분 (**모든 파일에 대해 같아야 함**)
  * `instruction`: 모델에 집어넣는 `testset instruction` 혹은 `input`에 해당하는 무언가입니다.
  * `task`: 전체 결과를 subset으로 그룹지어서 보여줄 때 사용됩니다. `evaluation prompt`를 행별로 다르게 사용하고 싶을 때 활용될 수 있습니다.


각 jsonl 파일은 아래처럼 생겼습니다.
```python
# model1.jsonl
{"model_id": "모델1", "task": "길 묻기", "instruction": "어디로 가야하오", "generated": "저기로요"}
{"model_id": "모델1", "task": "산수", "instruction": "1+1", "generated": "2"} # 길 묻기와 산수의 경우 다른 평가 프롬프트를 사용하고 싶을 수 있겠죠?

# model2.jsonl -* model1.jsonl과 `instruction`은 같고 `generated`, `model_id` 는 다릅니다!
{"model_id": "모델2", "task": "길 묻기", "instruction": "어디로 가야하오", "generated": "하이"}
{"model_id": "모델2", "task": "산수", "instruction": "1+1", "generated": "3"}

...
..
```

예를 들어, 한가지 모델에 대해 다른 프롬프팅을 시도하여 다른 생성문을 얻었고 이를 비교하고 싶은 경우를 생각해봅시다. 이 때 평가받을 testset은 같으므로 `instruction`은 모두 같고 프롬프팅에 따라 `generated`는 달라지겠죠? `model_id` 는 `"prompt1"`, `"prompt2"` 등 취향에 맞게 적어주시면 됩니다.