Transformers documentation

BLIP

Transformers

You are viewing v4.46.0 version. A newer version v4.46.3 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BLIP

개요

BLIP 모델은 Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi의 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 논문에서 제안되었습니다.

BLIP은 여러 멀티모달 작업을 수행할 수 있는 모델입니다:

시각 질문 응답 (Visual Question Answering, VQA)
이미지-텍스트 검색 (이미지-텍스트 매칭)
이미지 캡셔닝

논문의 초록은 다음과 같습니다:

비전-언어 사전 학습(Vision-Language Pre-training, VLP)은 다양한 비전-언어 작업의 성능을 크게 향상시켰습니다. 하지만, 대부분의 기존 사전 학습 모델들은 이해 기반 작업이나 생성 기반 작업 중 하나에서만 뛰어난 성능을 발휘합니다. 또한 성능 향상은 주로 웹에서 수집한 노이즈가 많은 이미지-텍스트 쌍으로 데이터셋의 규모를 키우는 방식으로 이루어졌는데, 이는 최적의 지도 학습 방식이라고 보기 어렵습니다. 본 논문에서는 BLIP이라는 새로운 VLP 프레임워크를 제안합니다. 이 프레임워크는 비전-언어 이해 및 생성 작업 모두에 유연하게 적용될 수 있습니다. BLIP는 캡셔너가 합성 캡션을 생성하고 필터가 노이즈 캡션을 제거하는 부트스트래핑 방법을 통해 웹 데이터의 노이즈를 효과적으로 활용합니다. 우리는 이미지-텍스트 검색(Recall@1에서 +2.7%), 이미지 캡셔닝(CIDEr에서 +2.8%), 그리고 VQA(VQA 점수에서 +1.6%)와 같은 다양한 비전-언어 작업에서 최신 성과를 달성했습니다. 또한 BLIP은 제로샷 방식으로 비디오-언어 작업에 직접 전이될 때도 강력한 일반화 능력을 보여줍니다. 이 논문의 코드, 모델, 데이터셋은 공개되었습니다.

이 모델은 ybelkada가 기여했습니다. 원본 코드는 여기에서 찾을 수 있습니다.

자료

Jupyter notebook: 사용자 정의 데이터셋에서 BLIP를 이미지 캡셔닝으로 미세 조정하는 방법

Transformers

BLIP

개요

자료

BlipConfig

class transformers.BlipConfig

from_text_vision_configs

BlipTextConfig

class transformers.BlipTextConfig

BlipVisionConfig

class transformers.BlipVisionConfig

BlipProcessor

class transformers.BlipProcessor

batch_decode

decode

BlipImageProcessor

class transformers.BlipImageProcessor

preprocess

BlipModel

class transformers.BlipModel

forward

get_text_features

get_image_features

BlipTextModel

class transformers.BlipTextModel

forward

BlipVisionModel

class transformers.BlipVisionModel

forward

BlipForConditionalGeneration

class transformers.BlipForConditionalGeneration

forward

BlipForImageTextRetrieval

class transformers.BlipForImageTextRetrieval

forward

BlipForQuestionAnswering

class transformers.BlipForQuestionAnswering

forward

TFBlipModel

class transformers.TFBlipModel

call

get_text_features

get_image_features

TFBlipTextModel

class transformers.TFBlipTextModel

call

TFBlipVisionModel

class transformers.TFBlipVisionModel

call

TFBlipForConditionalGeneration

class transformers.TFBlipForConditionalGeneration

call

TFBlipForImageTextRetrieval

class transformers.TFBlipForImageTextRetrieval

call

TFBlipForQuestionAnswering

class transformers.TFBlipForQuestionAnswering

call