NLP Course documentation

단원 소개

NLP Course

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

단원 소개

챕터 3에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다:

Hugging Face Hub에서 데이터셋을 로드한다.
Dataset.map() 함수를 통해 데이터셋을 전처리한다.
평가 메트릭를 로드하고 계산한다.

하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다:

데이터셋이 Hub에 없을 때는 어떻게 할 것인가?
데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?)
데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가?
도대체 “메모리 매핑 (mmap)“과 Apache Arrow는 무엇인가?
당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가?

여기서 배운 기술을 통해 챕터 6과 챕터 7에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다!

←단원 마무리 퀴즈 필요한 데이터셋이 Hub에 없다면 어떻게 할까요?→