corpus/AI_HUB 중 구매도서 데이터의 용량이 적어 보입니다.

#4
by kwonmha - opened

대규모_구매도서_기반_한국어_말뭉치_데이터의 용량이 거의 기가 단위일 텥데 542K라고 되어 있어서 말씀드립니다.
업데이트가 가능하시다면 해주시면 좋을 것 같습니다.

542K ./029.대규모_구매도서_기반_한국어_말뭉치_데이터.jsonl

kwonmha changed discussion title from corpus/AI_HUB 파일에 오류가 있어 보입니다. to corpus/AI_HUB 중 구매도사 데이터의 용량
kwonmha changed discussion title from corpus/AI_HUB 중 구매도사 데이터의 용량 to corpus/AI_HUB 중 구매도서 데이터의 용량이 적어 보입니다.

해당 파일 텍스트가 전처리 과정중 소실이 있어 해당 데이터는 학습하지 못한 상태입니다.
따라서 실제로 본 파일은 GB가 아닌 극히 일부만 본 것으로 추정되어, 실제 학습한 데이터 용량 기준으로 서술되어있습니다.

beomi changed discussion status to closed

Sign up or log in to comment