Transformers

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

AutoClassを使用して事前学習済みインスタンスをロードする

さまざまなTransformerアーキテクチャが存在するため、自分のタスクに合ったモデルを作成するのは難しいことがあります。 🤗 Transformersのコア哲学の一環として、ライブラリを使用しやすく、シンプルで柔軟にするために、 AutoClassは与えられたチェックポイントから正しいアーキテクチャを自動的に推論してロードします。 from_pretrained()メソッドを使用すると、事前学習済みモデルを素早くロードできるため、モデルをゼロからトレーニングするために時間とリソースを費やす必要がありません。この種のチェックポイントに依存しないコードを生成することは、コードが1つのチェックポイントで動作すれば、アーキテクチャが異なっていても、同じタスクに向けてトレーニングされた場合は別のチェックポイントでも動作することを意味します。

アーキテクチャはモデルの骨格を指し、チェックポイントは特定のアーキテクチャの重みです。たとえば、BERTはアーキテクチャであり、google-bert/bert-base-uncasedはチェックポイントです。モデルはアーキテクチャまたはチェックポイントのどちらを指す一般的な用語です。

このチュートリアルでは、以下を学習します：

事前学習済みトークナイザをロードする。
事前学習済み画像プロセッサをロードする。
事前学習済み特徴量抽出器をロードする。
事前学習済みプロセッサをロードする。
事前学習済みモデルをロードする。

AutoTokenizer

ほとんどのNLPタスクはトークナイザで始まります。トークナイザは入力をモデルで処理できる形式に変換します。

AutoTokenizer.from_pretrained()を使用してトークナイザをロードします：

>>> from transformers import AutoTokenizer

>>> tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")

次に、以下のように入力をトークナイズします：

>>> sequence = "In a hole in the ground there lived a hobbit."
>>> print(tokenizer(sequence))
{'input_ids': [101, 1999, 1037, 4920, 1999, 1996, 2598, 2045, 2973, 1037, 7570, 10322, 4183, 1012, 102], 
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

AutoImageProcessor

ビジョンタスクの場合、画像プロセッサが画像を正しい入力形式に変換します。

>>> from transformers import AutoImageProcessor

>>> image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")

AutoFeatureExtractor

オーディオタスクの場合、特徴量抽出器がオーディオ信号を正しい入力形式に変換します。

AutoFeatureExtractor.from_pretrained()を使用して特徴量抽出器をロードします.

>>> from transformers import AutoFeatureExtractor

>>> feature_extractor = AutoFeatureExtractor.from_pretrained(
...     "ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition"
... )

AutoProcessor

マルチモーダルタスクの場合、2つの前処理ツールを組み合わせるプロセッサが必要です。たとえば、 LayoutLMV2モデルは画像を処理するための画像プロセッサとテキストを処理するためのトークナイザが必要です。プロセッサはこれらの両方を組み合わせます。

AutoProcessor.from_pretrained()を使用してプロセッサをロードします：

>>> from transformers import AutoProcessor

>>> processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")

AutoModel

最後に、AutoModelForクラスは特定のタスクに対して事前学習済みモデルをロードできます（使用可能なタスクの完全な一覧についてはこちらを参照）。たとえば、AutoModelForSequenceClassification.from_pretrained()を使用してシーケンス分類用のモデルをロードできます：

>>> from transformers import AutoModelForSequenceClassification

>>> model = AutoModelForSequenceClassification.from_pretrained("distilbert/distilbert-base-uncased")

同じチェックポイントを再利用して異なるタスクのアーキテクチャをロードできます：

>>> from transformers import AutoModelForTokenClassification

>>> model = AutoModelForTokenClassification.from_pretrained("distilbert/distilbert-base-uncased")

PyTorchモデルの場合、 from_pretrained()メソッドは内部でtorch.load()を使用し、内部的にはpickleを使用しており、セキュリティの問題が知られています。一般的には、信頼性のないソースから取得した可能性があるモデルや改ざんされた可能性のあるモデルをロードしないでください。このセキュリティリスクは、Hugging Face Hubでホストされている公開モデルに対して部分的に緩和されており、各コミットでマルウェアのスキャンが行われています。 GPGを使用した署名済みコミットの検証などのベストプラクティスについては、Hubのドキュメンテーションを参照してください。

TensorFlowおよびFlaxのチェックポイントには影響がなく、from_pretrainedメソッドのfrom_tfおよびfrom_flax引数を使用してPyTorchアーキテクチャ内でロードできます。

一般的に、事前学習済みモデルのインスタンスをロードするためにAutoTokenizerクラスとAutoModelForクラスの使用をお勧めします。これにより、常に正しいアーキテクチャをロードできます。次のtutorialでは、新しくロードしたトークナイザ、画像プロセッサ、特徴量抽出器、およびプロセッサを使用して、ファインチューニング用にデータセットを前処理する方法を学びます。

Update on GitHub

←パイプラインを使用して推論を実行するデータの前処理→