sft dataset 관련 문의드립니다.

#5
by beomgon - opened

안녕하세요.
모델 및 코드 그리고 dataset까지 공개를 해 주셔서 감사드립니다.

sft training에 약 100,0000개의 instruction set을 사용하셨는데요.
filtering을 어떤 식으로 하셨는지 좀 물어봐도 될까요??

감사합니다.

저같은 경우는 kollm_evaluation를 바탕으로 random shuffle한 데이터셋을 기준으로 점수가 높이 나오는 데이터셋을 선별하였습니다.

Sign up or log in to comment