Transformers documentation

BEiT

Transformers

You are viewing v4.40.2 version. A newer version v4.47.1 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BEiT

Overview

BEiT モデルは、BEiT: BERT Pre-Training of Image Transformers で提案されました。ハンボ・バオ、リー・ドン、フル・ウェイ。 BERT に触発された BEiT は、自己教師ありの事前トレーニングを作成した最初の論文です。ビジョントランスフォーマー (ViT) は、教師付き事前トレーニングよりも優れたパフォーマンスを発揮します。クラスを予測するためにモデルを事前トレーニングするのではなく (オリジナルの ViT 論文で行われたように) 画像の BEiT モデルは、次のように事前トレーニングされています。マスクされた OpenAI の DALL-E モデルのコードブックからビジュアルトークンを予測しますパッチ。

論文の要約は次のとおりです。

自己教師あり視覚表現モデル BEiT (Bidirectional Encoderpresentation) を導入します。イメージトランスフォーマーより。自然言語処理分野で開発されたBERTに倣い、マスク画像を提案します。ビジョントランスフォーマーを事前にトレーニングするためのモデリングタスク。具体的には、事前トレーニングでは各画像に 2 つのビューがあります。パッチ (16x16 ピクセルなど)、およびビジュアルトークン (つまり、個別のトークン)。まず、元の画像を「トークン化」して、ビジュアルトークン。次に、いくつかの画像パッチをランダムにマスクし、それらをバックボーンの Transformer に供給します。事前トレーニング目的は、破損したイメージパッチに基づいて元のビジュアルトークンを回復することです。 BEiTの事前トレーニング後、事前トレーニングされたエンコーダーにタスクレイヤーを追加することで、ダウンストリームタスクのモデルパラメーターを直接微調整します。画像分類とセマンティックセグメンテーションに関する実験結果は、私たちのモデルが競争力のある結果を達成することを示しています以前の事前トレーニング方法を使用して。たとえば、基本サイズの BEiT は、ImageNet-1K で 83.2% のトップ 1 精度を達成します。同じ設定でゼロからの DeiT トレーニング (81.8%) を大幅に上回りました。また、大型BEiTは 86.3% は ImageNet-1K のみを使用しており、ImageNet-22K での教師付き事前トレーニングを使用した ViT-L (85.2%) を上回っています。

Usage tips

BEiT モデルは通常のビジョントランスフォーマーですが、教師ありではなく自己教師ありの方法で事前トレーニングされています。彼らは ImageNet-1K および CIFAR-100 で微調整すると、オリジナルモデル (ViT) とデータ効率の高いイメージトランスフォーマー (DeiT) の両方を上回るパフォーマンスを発揮します。推論に関するデモノートブックもチェックできます。カスタムデータの微調整はこちら (置き換えるだけで済みます) BeitImageProcessor による ViTFeatureExtractor と ViTForImageClassification by BeitForImageClassification)。
DALL-E の画像トークナイザーと BEiT を組み合わせる方法を紹介するデモノートブックも利用可能です。マスクされた画像モデリングを実行します。ここで見つけることができます。
BEiT モデルは各画像が同じサイズ (解像度) であることを期待しているため、次のように使用できます。 BeitImageProcessor を使用して、モデルの画像のサイズを変更 (または再スケール) し、正規化します。
事前トレーニングまたは微調整中に使用されるパッチ解像度と画像解像度の両方が名前に反映されます。各チェックポイント。たとえば、microsoft/beit-base-patch16-224は、パッチ付きの基本サイズのアーキテクチャを指します。解像度は 16x16、微調整解像度は 224x224 です。すべてのチェックポイントはハブで見つけることができます。
利用可能なチェックポイントは、(1) ImageNet-22k で事前トレーニングされています ( 1,400 万の画像と 22,000 のクラス) のみ、(2) ImageNet-22k でも微調整、または (3) ImageNet-1kでも微調整/2012/) (ILSVRC 2012 とも呼ばれ、130 万件のコレクション) 画像と 1,000 クラス)。
BEiT は、T5 モデルからインスピレーションを得た相対位置埋め込みを使用します。事前トレーニング中に、著者は次のことを共有しました。いくつかの自己注意層間の相対的な位置の偏り。微調整中、各レイヤーの相対位置バイアスは、事前トレーニング後に取得された共有相対位置バイアスで初期化されます。ご希望の場合は、モデルを最初から事前トレーニングするには、use_relative_position_bias または追加するには、BeitConfig の use_relative_position_bias 属性を True に設定します。位置の埋め込み。

BEiT の事前トレーニング。元の論文から抜粋。

このモデルは、nielsr によって提供されました。このモデルの JAX/FLAX バージョンは、 kamalkraj による投稿。元のコードはここにあります。

Resources

BEiT の使用を開始するのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示されている) リソースのリスト。

Image Classification

BeitForImageClassification は、このサンプルスクリプトおよびノートブック。
参照: 画像分類タスクガイド

セマンティックセグメンテーション

セマンティックセグメンテーションタスクガイド

ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

Transformers

BEiT

Overview

Usage tips

Resources

BEiT specific outputs

class transformers.models.beit.modeling_beit.BeitModelOutputWithPooling

class transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling

BeitConfig

class transformers.BeitConfig

BeitFeatureExtractor

class transformers.BeitFeatureExtractor

__call__

post_process_semantic_segmentation

BeitImageProcessor

class transformers.BeitImageProcessor

preprocess

post_process_semantic_segmentation

BeitModel

class transformers.BeitModel

forward

BeitForMaskedImageModeling

class transformers.BeitForMaskedImageModeling

forward

BeitForImageClassification

class transformers.BeitForImageClassification

forward

BeitForSemanticSegmentation

class transformers.BeitForSemanticSegmentation

forward

FlaxBeitModel

class transformers.FlaxBeitModel

__call__

FlaxBeitForMaskedImageModeling

class transformers.FlaxBeitForMaskedImageModeling

__call__

FlaxBeitForImageClassification

class transformers.FlaxBeitForImageClassification

__call__

call

call

call

call