NLP Course documentation

本章简介

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

本章简介

Ask a Question

第三章第一次体验了🤗Datasets 库,并发现在微调模型时有三个主要步骤:

  1. 从hugs Face Hub加载一个数据集。
  2. 使用Dataset.map()对数据进行预处理。
  3. 加载和计算指标(特征)。

但这只是🤗 Datasets的表面功能而已!在本章中,我们将深入了解这个库。在此过程中,我们将找到以下问题的答案:

  • 当数据集不在hub上时,您该怎么做?
  • 如何对数据集进行切片?(如果你真正的特别需要使用pandas的时候该怎么办?)
  • 当你的数据集很大,会撑爆你笔记本电脑的RAM时,你会怎么做?
  • “内存映射”和Apache Arrow到底是什么?
  • 如何创建自己的数据集并将其推送到中心?

您在这里学到的技术将为您在第6章第7章中的高级标记化和微调任务做好准备——所以,喝杯咖啡,让我们开始吧!