NLP Course documentation

模型

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

模型

Ask a Question Open In Colab Open In Studio Lab

在本节中,我们将更详细地了解如何创建和使用模型。我们将使用 AutoModel类,当您希望从检查点实例化任何模型时,这非常方便。

这个AutoModel类及其所有相关项实际上是对库中各种可用模型的简单包装。它是一个聪明的包装器,因为它可以自动猜测检查点的适当模型体系结构,然后用该体系结构实例化模型。

但是,如果您知道要使用的模型类型,则可以使用直接定义其体系结构的类。让我们看看这是如何与BERT模型一起工作的。

创建转换器

初始化BERT模型需要做的第一件事是加载配置对象:

from transformers import BertConfig, BertModel

# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

配置包含许多用于构建模型的属性:

print(config)
BertConfig {
  [...]
  "hidden_size": 768,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  [...]
}

虽然您还没有看到所有这些属性都做了什么,但您应该认识到其中的一些属性:hiddensize属性定义了hidden状态向量的大小,num_hidden_layers定义了Transformer模型的层数。

不同的加载方式

从默认配置创建模型会使用随机值对其进行初始化:

from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

# Model is randomly initialized!

该模型可以在这种状态下使用,但会输出胡言乱语;首先需要对其进行训练。我们可以根据手头的任务从头开始训练模型,但正如您在 Chapter 1 ,这将需要很长的时间和大量的数据,并将产生不可忽视的环境影响。为了避免不必要的重复工作,必须能够共享和重用已经训练过的模型。

加载已经训练过的Transformers模型很简单-我们可以使用from_pretrained() 方法:

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")

正如您之前看到的,我们可以用等效的AutoModel类替换Bert模型。从现在开始,我们将这样做,因为这会产生检查点不可知的代码;如果您的代码适用于一个检查点,那么它应该与另一个检查点无缝地工作。即使体系结构不同,这也适用,只要检查点是针对类似任务(例如,情绪分析任务)训练的。

在上面的代码示例中,我们没有使用BertConfig

,而是通过Bert base cased标识符加载了一个预训练模型。这是一个模型检查点,由BERT的作者自己训练;您可以在 model card中找到更多细节.

该模型现在使用检查点的所有权重进行初始化。它可以直接用于对训练过的任务进行推理,也可以对新任务进行微调。通过预先训练重量而不是从头开始的训练,我们可以很快取得好的效果。

权重已下载并缓存在缓存文件夹中(因此将来对from_pretrained()方法的调用将不会重新下载它们)默认为 ~/.cache/huggingface/transformers . 您可以通过设置 HF_HOME 环境变量来自定义缓存文件夹。

用于加载模型的标识符可以是模型中心Hub上任何模型的标识符,只要它与BERT体系结构兼容。可以找到可用的BERT检查点的完整列表 here .

保存模型

保存模型和加载模型一样简单—我们使用 save_pretrained() 方法,类似于 from_pretrained() 方法:

model.save_pretrained("directory_on_my_computer")

这会将两个文件保存到磁盘:

ls directory_on_my_computer

config.json pytorch_model.bin

如果你看一下 config.json 文件,您将识别构建模型体系结构所需的属性。该文件还包含一些元数据,例如检查点的来源以及上次保存检查点时使用的🤗 Transformers版本。

这个 pytorch_model.bin 文件就是众所周知的state dictionary; 它包含模型的所有权重。这两个文件齐头并进;配置是了解模型体系结构所必需的,而模型权重是模型的参数。

使用Transformers模型进行推理

既然您知道了如何加载和保存模型,那么让我们尝试使用它进行一些预测。Transformer模型只能处理数字——分词器生成的数字。但在我们讨论标记化器之前,让我们先探讨模型接受哪些输入。

标记化器可以将输入转换为适当的框架张量,但为了帮助您了解发生了什么,我们将快速了解在将输入发送到模型之前必须做什么。

假设我们有几个序列:

sequences = ["Hello!", "Cool.", "Nice!"]

分词器将这些转换为词汇表索引,通常称为 input IDs . 每个序列现在都是一个数字列表!结果是:

encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

这是一个编码序列列表:一个列表列表。张量只接受矩形(想想矩阵)。此“数组”已为矩形,因此将其转换为张量很容易:

import torch

model_inputs = torch.tensor(encoded_sequences)

使用张量作为模型的输入

在模型中使用张量非常简单-我们只需将输入称为模型:

output = model(model_inputs)

虽然模型接受许多不同的参数,但只需要 input IDs。我们稍后将解释其他参数的作用以及何时需要它们,但首先我们需要更仔细地了解 Transformer模型可以理解的输入的标记