NLP Course

0. Установка

1. Трансформеры

2. Использование 🤗 Transformers

3. Fine-tuning предобученной модели

4. Hugging Face Hub

5. Библиотека 🤗 Datasets

Введение Что делать, если моего датасета на нет на Hub? Препарируем 🤗 Datasets Big data? 🤗 Datasets спешат на помощь! Семантический поиск с помощью FAISS 🤗 Datasets, итоги! Тест в конце главы

6. Бибилиотека 🤗 Tokenizers

7. Основные задачи NLP

8. Как попросить о помощи

9. Создание и распространение демо

События курса

Глоссарий

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Тест в конце главы

Эта глава охватила много вопросов! Не волнуйтесь, если вы не поняли всех деталей; следующие главы помогут вам понять, как все работает внутри.

Однако, прежде чем двигаться дальше, давайте проверим то, что вы узнали в этой главе.

Из каких источников функция load_dataset() в 🤗 Datasets позволяет загружать наборы данных?

Локальных, то есть с моего компьютера Hugging Face Hub Удаленный сервер

2. Предположим, вы загружаете одну из задач GLUE следующим образом:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Какая из следующих команд создаст случайную выборку из 50 элементов из dataset?

dataset.sample(50) dataset.shuffle().select(range(50)) dataset.select(range(50)).shuffle()

3. Предположим, у вас есть набор данных о домашних питомцах под названием pets_dataset , в котором есть столбец name , обозначающий имя каждого питомца. Какой из следующих подходов позволит вам отфильтровать набор данных для всех домашних животных, имена которых начинаются с буквы «L»?

pets_dataset.filter(lambda x : x['name'].startswith('L')) pets_dataset.filter(lambda x['name'].startswith('L')) Create a function like def filter_names(x): return x['name'].startswith('L') and run pets_dataset.filter(filter_names).

4. Что такое отображение в память?

Сопоставление между ЦП (CPU) и ОЗУ (RAM) графического процессора Отображение между RAM и файловой системой компьютера Сопоставление между двумя файлами в кэшэ 🤗 Datasets

5. Что из перечисленного ниже является основным преимуществом отображения памяти?

Доступ к файлам, отображенным в памяти, быстрее, чем чтение или запись на диск. Приложения могут получать доступ к сегментам данных в очень большом файле без необходимости сначала считывать весь файл в ОЗУ. Он потребляет меньше энергии, поэтому батарея работает дольше.

6. Почему следующий код не работает?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

Он пытается передать набор данных, который слишком велик для размещения в ОЗУ. Он пытается получить доступ к IterableDataset. Набор данных allocine не имеет разделения train.

7. Что из перечисленного является основными преимуществами создания карточки датасета?

Она предоставляет информацию о предполагаемом использовании и поддерживаемых задачах набора данных, чтобы другие участники сообщества могли принять обоснованное решение об его использовании. Это помогает привлечь внимание к искажениям, присутствующим в корпусе. Это повышает шансы на то, что другие участники сообщества будут использовать мой набор данных.

8. Что такое семантический поиск?

Способ поиска точных совпадений между словами в запросе и документами в корпусе Способ поиска совпадающих документов путем понимания контекстного значения запроса Способ повысить точность поиска

9. Для асимметричного семантического поиска можно использовать:

Короткий запрос и более длинный абзац, отвечающий на запрос. Запросы и абзацы примерно одинаковой длины. Длинный запрос и более короткий абзац, который отвечает на запрос.

10. Могу ли я использовать 🤗 Datasets для загрузки данных и решения задач в других областях, например для обработки речи?

Нет Да

< > Update on GitHub

←🤗 Datasets, итоги! Введение→

Тест в конце главы Из каких источников функция load_dataset() в 🤗 Datasets позволяет загружать наборы данных? 2. Предположим, вы загружаете одну из задач GLUE следующим образом: 3. Предположим, у вас есть набор данных о домашних питомцах под названием pets_dataset , в котором есть столбец name , обозначающий имя каждого питомца. Какой из следующих подходов позволит вам отфильтровать набор данных для всех домашних животных, имена которых начинаются с буквы «L»? 4. Что такое отображение в память? 5. Что из перечисленного ниже является основным преимуществом отображения памяти? 6. Почему следующий код не работает? 7. Что из перечисленного является основными преимуществами создания карточки датасета? 8. Что такое семантический поиск? 9. Для асимметричного семантического поиска можно использовать: 10. Могу ли я использовать 🤗 Datasets для загрузки данных и решения задач в других областях, например для обработки речи?