Transformers documentation

CLIP

Transformers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v4.56.2).

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

CLIP

Overview

CLIP モデルは、Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever Learning Transferable Visual Models From Natural Language Supervision で提案されました。サンディニ・アガルワル、ギリッシュ・サストリー、アマンダ・アスケル、パメラ・ミシュキン、ジャック・クラーク、グレッチェン・クルーガー、イリヤ・サツケヴァー。クリップ (Contrastive Language-Image Pre-Training) は、さまざまな (画像、テキスト) ペアでトレーニングされたニューラルネットワークです。かもね直接最適化することなく、与えられた画像から最も関連性の高いテキストスニペットを予測するように自然言語で指示されます。 GPT-2 および 3 のゼロショット機能と同様に、タスクに対して。

論文の要約は次のとおりです。

最先端のコンピュータービジョンシステムは、あらかじめ定められたオブジェクトカテゴリの固定セットを予測するようにトレーニングされています。これ制限された形式の監視では、指定するために追加のラベル付きデータが必要となるため、一般性と使いやすさが制限されます。その他の視覚的なコンセプト。画像に関する生のテキストから直接学習することは、より広範な監督源。どのキャプションが表示されるかを予測するという単純な事前トレーニングタスクが有効であることを示します。 400 のデータセットで SOTA 画像表現を最初から学習するための効率的かつスケーラブルな方法はどの画像ですかインターネットから収集された数百万の（画像、テキスト）ペア。事前トレーニング後、自然言語を使用して参照します。視覚的な概念を学習し（または新しい概念を説明し）、下流のタスクへのモデルのゼロショット転送を可能にします。私たちは勉強します 30 を超えるさまざまな既存のコンピュータービジョンデータセットでタスクをまたがってベンチマークを行うことにより、このアプローチのパフォーマンスを評価します。 OCR、ビデオ内のアクション認識、地理的位置特定、およびさまざまな種類のきめ細かいオブジェクト分類など。のモデルはほとんどのタスクに簡単に移行でき、多くの場合、必要がなくても完全に監視されたベースラインと競合します。データセット固有のトレーニングに適しています。たとえば、ImageNet ゼロショットではオリジナルの ResNet-50 の精度と一致します。トレーニングに使用された 128 万のトレーニングサンプルを使用する必要はありません。コードをリリースし、事前トレーニング済みモデルの重みはこの https URL で確認できます。

このモデルは valhalla によって提供されました。元のコードはここにあります。

Usage tips and example

CLIP は、マルチモーダルなビジョンおよび言語モデルです。画像とテキストの類似性やゼロショット画像に使用できます。分類。 CLIP は、ViT のようなトランスフォーマーを使用して視覚的特徴を取得し、因果言語モデルを使用してテキストを取得します特徴。次に、テキストと視覚の両方の特徴が、同じ次元の潜在空間に投影されます。ドット投影された画像とテキストの特徴間の積が同様のスコアとして使用されます。

画像を Transformer エンコーダに供給するために、各画像は固定サイズの重複しないパッチのシーケンスに分割されます。これらは線形に埋め込まれます。 [CLS] トークンは、イメージ全体の表現として機能するために追加されます。作家たちまた、絶対位置埋め込みを追加し、結果として得られるベクトルのシーケンスを標準の Transformer エンコーダに供給します。 CLIPImageProcessor を使用して、モデルの画像のサイズ変更 (または再スケール) および正規化を行うことができます。

CLIPTokenizer はテキストのエンコードに使用されます。 CLIPProcessor はラップします CLIPImageProcessor と CLIPTokenizer を両方の単一インスタンスに統合テキストをエンコードして画像を準備します。次の例は、次のメソッドを使用して画像とテキストの類似性スコアを取得する方法を示しています。 CLIPProcessor と CLIPModel。

>>> from PIL import Image
>>> import requests

>>> from transformers import CLIPProcessor, CLIPModel

>>> model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

Resources

CLIP を使い始めるのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示されている) リソースのリスト。

リモートセンシング (衛星) 画像とキャプションを使用した CLIP の微調整、[RSICD データセット] を使用して CLIP を微調整する方法に関するブログ投稿(https://github.com/201528014227051/RSICD_optimal) と、データ拡張によるパフォーマンスの変化の比較。
このサンプルスクリプトは、プレ- COCO データセットを使用してトレーニングされたビジョンおよびテキストエンコーダー。

Image-to-Text

画像キャプションのビーム検索による推論に事前トレーニング済み CLIP を使用する方法に関するノートブック。 🌎

画像検索

事前トレーニングされた CLIP を使用した画像検索と MRR (平均相互ランク) スコアの計算に関するノートブック。 🌎
画像の取得と類似性スコアの表示に関するノートブック。 🌎
多言語 CLIP を使用して画像とテキストを同じベクトル空間にマッピングする方法に関するノートブック。 🌎
を使用してセマンティックイメージ検索で CLIP を実行する方法に関するノートブック Unsplash および TMDB データセット。 🌎

説明可能性

入力トークンと画像セグメントの類似性を視覚化する方法に関するノートブック。 🌎

ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

Transformers

CLIP

Overview

Usage tips and example

Resources

CLIPConfig

class transformers.CLIPConfig

from_text_vision_configs

CLIPTextConfig

class transformers.CLIPTextConfig

CLIPVisionConfig

class transformers.CLIPVisionConfig

CLIPTokenizer

class transformers.CLIPTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

CLIPTokenizerFast

class transformers.CLIPTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

CLIPImageProcessor

class transformers.CLIPImageProcessor

preprocess

CLIPImageProcessorFast

class transformers.CLIPImageProcessorFast

preprocess

CLIPFeatureExtractor

class transformers.CLIPFeatureExtractor

CLIPProcessor

class transformers.CLIPProcessor

CLIPModel

class transformers.CLIPModel

forward

get_text_features

get_image_features

CLIPTextModel

class transformers.CLIPTextModel

forward

CLIPTextModelWithProjection

class transformers.CLIPTextModelWithProjection

forward

CLIPVisionModelWithProjection

class transformers.CLIPVisionModelWithProjection

forward

CLIPVisionModel

class transformers.CLIPVisionModel

forward

TFCLIPModel

class transformers.TFCLIPModel

call

get_text_features

get_image_features

TFCLIPTextModel

class transformers.TFCLIPTextModel

call

TFCLIPVisionModel

class transformers.TFCLIPVisionModel

call

FlaxCLIPModel

class transformers.FlaxCLIPModel

__call__

get_text_features

get_image_features

FlaxCLIPTextModel

class transformers.FlaxCLIPTextModel

__call__

FlaxCLIPTextModelWithProjection

class transformers.FlaxCLIPTextModelWithProjection

__call__

FlaxCLIPVisionModel

class transformers.FlaxCLIPVisionModel

__call__

call

call

call

call