Transformers

You are viewing v4.36.1 version. A newer version v4.57.0 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

CLIPSeg

Overview

CLIPSeg モデルは、Timo Lüddecke, Alexander Ecker によって Image Segmentation using Text and Image Prompts で提案されました。そしてアレクサンダー・エッカー。 CLIPSeg は、ゼロショットおよびワンショット画像セグメンテーションのために、凍結された CLIP モデルの上に最小限のデコーダを追加します。

論文の要約は次のとおりです。

画像のセグメンテーションは通常、トレーニングによって解決されます。オブジェクトクラスの固定セットのモデル。後で追加のクラスやより複雑なクエリを組み込むとコストがかかりますこれらの式を含むデータセットでモデルを再トレーニングする必要があるためです。ここでシステムを提案します任意の情報に基づいて画像セグメンテーションを生成できます。テスト時にプロンプトが表示されます。プロンプトはテキストまたは画像。このアプローチにより、統一されたモデルを作成できます。 3 つの一般的なセグメンテーションタスクについて (1 回トレーニング済み) 参照式のセグメンテーション、ゼロショットセグメンテーション、ワンショットセグメンテーションという明確な課題が伴います。 CLIP モデルをバックボーンとして構築し、これをトランスベースのデコーダで拡張して、高密度なデータ通信を可能にします。予測。の拡張バージョンでトレーニングした後、 PhraseCut データセット、私たちのシステムは、フリーテキストプロンプトまたはクエリを表す追加の画像。後者の画像ベースのプロンプトのさまざまなバリエーションを詳細に分析します。この新しいハイブリッド入力により、動的適応が可能になります。前述の 3 つのセグメンテーションタスクのみですが、テキストまたは画像をクエリするバイナリセグメンテーションタスクに定式化することができる。最後に、システムがうまく適応していることがわかりましたアフォーダンスまたはプロパティを含む一般化されたクエリ

CLIPSeg の概要。元の論文から抜粋。

このモデルは、nielsr によって提供されました。元のコードはここにあります。

Usage tips

CLIPSegForImageSegmentation は、CLIPSegModel の上にデコーダを追加します。後者は CLIPModel と同じです。
CLIPSegForImageSegmentation は、テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成できます。プロンプトはテキストのいずれかです (input_ids としてモデルに提供される) または画像 (conditional_pixel_values としてモデルに提供される)。カスタムを提供することもできます条件付き埋め込み (conditional_embeddingsとしてモデルに提供されます)。

Resources

CLIPSeg の使用を開始するのに役立つ、公式 Hugging Face およびコミュニティ (🌎 で示されている) リソースのリスト。ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

Image Segmentation

CLIPSeg を使用したゼロショット画像セグメンテーションを説明するノートブック。

Transformers

CLIPSeg

Overview

Usage tips

Resources

CLIPSegConfig

class transformers.CLIPSegConfig

from_text_vision_configs

CLIPSegTextConfig

class transformers.CLIPSegTextConfig

CLIPSegVisionConfig

class transformers.CLIPSegVisionConfig

CLIPSegProcessor

class transformers.CLIPSegProcessor

batch_decode

decode

CLIPSegModel

class transformers.CLIPSegModel

forward

get_text_features

get_image_features

CLIPSegTextModel

class transformers.CLIPSegTextModel

forward

CLIPSegVisionModel

class transformers.CLIPSegVisionModel

forward

CLIPSegForImageSegmentation

class transformers.CLIPSegForImageSegmentation

forward