NLP Course documentation

단원 소개

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

단원 소개

Ask a Question

챕터 3에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다:

  1. Hugging Face Hub에서 데이터셋을 로드한다.
  2. Dataset.map() 함수를 통해 데이터셋을 전처리한다.
  3. 평가 메트릭를 로드하고 계산한다.

하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다:

  • 데이터셋이 Hub에 없을 때는 어떻게 할 것인가?
  • 데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?)
  • 데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가?
  • 도대체 “메모리 매핑 (mmap)“과 Apache Arrow는 무엇인가?
  • 당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가?

여기서 배운 기술을 통해 챕터 6챕터 7에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다!