Transformers

You are viewing v4.46.0 version. A newer version v4.51.3 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

CLAP

Overview

CLAP モデルは、Large Scale Contrastive Language-Audio pretraining with feature fusion and keyword-to-caption augmentation、Yusong Wu、Ke Chen、Tianyu Zhang、Yuchen Hui、Taylor Berg-Kirkpatrick、Shlomo Dubnov 著。

CLAP (Contrastive Language-Audio Pretraining) は、さまざまな (音声、テキスト) ペアでトレーニングされたニューラルネットワークです。タスクに合わせて直接最適化することなく、音声が与えられた場合に最も関連性の高いテキストスニペットを予測するように指示できます。 CLAP モデルは、SWINTransformer を使用して log-Mel スペクトログラム入力からオーディオ特徴を取得し、RoBERTa モデルを使用してテキスト特徴を取得します。次に、テキストとオーディオの両方の特徴が、同じ次元の潜在空間に投影されます。投影されたオーディオとテキストの特徴の間のドット積が、同様のスコアとして使用されます。

論文の要約は次のとおりです。

対照学習は、マルチモーダル表現学習の分野で目覚ましい成功を収めています。この論文では、音声データと自然言語記述を組み合わせて音声表現を開発する、対照的な言語音声事前トレーニングのパイプラインを提案します。この目標を達成するために、私たちはまず、さまざまなデータソースからの 633,526 個の音声とテキストのペアの大規模なコレクションである LAION-Audio-630K をリリースします。次に、さまざまなオーディオエンコーダとテキストエンコーダを考慮して、対照的な言語とオーディオの事前トレーニングモデルを構築します。機能融合メカニズムとキーワードからキャプションへの拡張をモデル設計に組み込んで、モデルが可変長の音声入力を処理できるようにし、パフォーマンスを向上させます。 3 番目に、包括的な実験を実行して、テキストから音声への取得、ゼロショット音声分類、教師付き音声分類の 3 つのタスクにわたってモデルを評価します。結果は、私たちのモデルがテキストから音声への検索タスクにおいて優れたパフォーマンスを達成していることを示しています。オーディオ分類タスクでは、モデルはゼロショット設定で最先端のパフォーマンスを達成し、非ゼロショット設定でもモデルの結果に匹敵するパフォーマンスを得ることができます。 LAION-オーディオ-6

このモデルは、Younes Belkada および Arthur Zucker によって提供されました。元のコードはこちらにあります。

Transformers

CLAP

Overview

ClapConfig

class transformers.ClapConfig

from_text_audio_configs

ClapTextConfig

class transformers.ClapTextConfig

ClapAudioConfig

class transformers.ClapAudioConfig

ClapFeatureExtractor

class transformers.ClapFeatureExtractor

to_dict

ClapProcessor

class transformers.ClapProcessor

batch_decode

decode

ClapModel

class transformers.ClapModel

forward

get_text_features

get_audio_features

ClapTextModel

class transformers.ClapTextModel

forward

ClapTextModelWithProjection

class transformers.ClapTextModelWithProjection

forward

ClapAudioModel

class transformers.ClapAudioModel

forward

ClapAudioModelWithProjection

class transformers.ClapAudioModelWithProjection

forward