facebook
/

data2vec-vision-large-ft1k

Image Classification Transformers PyTorch TensorFlow

data2vec-vision vision Inference Endpoints

Model card Files Files and versions Community

patrickvonplaten commited on Apr 18, 2022

Commit

cc1150a

•

1 Parent(s): 50553ba

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ datasets:
 - imagenet-1k
 ---
-# Data2Vec-Vision (base-sized model, fine-tuned on ImageNet-1k)
 BEiT model pre-trained in a self-supervised fashion and fine-tuned on ImageNet-1k (1,2 million images, 1000 classes) at resolution 224x224. It was introduced in the paper [data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language](https://arxiv.org/abs/2202.03555) by Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli and first released in [this repository](https://github.com/facebookresearch/data2vec_vision/tree/main/beit).
@@ -51,8 +51,8 @@ from PIL import Image
 import requests
 url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
 image = Image.open(requests.get(url, stream=True).raw)
-feature_extractor = BeitFeatureExtractor.from_pretrained('facebook/data2vec-vision-base-ft1k')
-model = Data2VecVisionForImageClassification.from_pretrained('facebook/data2vec-vision-base-ft1k')
 inputs = feature_extractor(images=image, return_tensors="pt")
 outputs = model(**inputs)
 logits = outputs.logits

 - imagenet-1k
 ---
+# Data2Vec-Vision (large-sized model, fine-tuned on ImageNet-1k)
 BEiT model pre-trained in a self-supervised fashion and fine-tuned on ImageNet-1k (1,2 million images, 1000 classes) at resolution 224x224. It was introduced in the paper [data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language](https://arxiv.org/abs/2202.03555) by Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli and first released in [this repository](https://github.com/facebookresearch/data2vec_vision/tree/main/beit).
 import requests
 url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
 image = Image.open(requests.get(url, stream=True).raw)
+feature_extractor = BeitFeatureExtractor.from_pretrained('facebook/data2vec-vision-large-ft1k')
+model = Data2VecVisionForImageClassification.from_pretrained('facebook/data2vec-vision-large-ft1k')
 inputs = feature_extractor(images=image, return_tensors="pt")
 outputs = model(**inputs)
 logits = outputs.logits