README.md · probing-vits/vit-dino-base16 at 2c670e9c2da157eff7bcee837bcfb7a37224eb47

metadata

library_name: keras

This model is a TensorFlow port of DINO ViT B-16 [1]. The backbone of this model was pre-trained using the DINO pretext task. After that its head layer was trained by keeping the backbone frozen. ImageNet-1k was used for training purposes. You can refer to this notebook to know how the porting was done.

References

[1] Emerging Properties in Self-Supervised Vision Transformers: https://arxiv.org/abs/2104.14294