Upload folder using huggingface_hub

Files changed (3) hide show

README.md ADDED Viewed

+---
+base_model:
+- openai/clip-vit-base-patch32
+datasets:
+- tanganke/stanford_cars
+metrics:
+- accuracy
+---
+# Model Card
+## Model Details
+- Architecture: ViT-Base with patch size 32
+- Training Data: Standford Cars dataset
+## Training Details
+  Adam Optimizer with a constant learning rate 1e-5 for 4000 steps training (batch_size=32).
+  Only the vision encoder is fine-tuned.
+## Evaluation Results
+- pre-trained: 0.5987
+- fine-tuned: 0.7819
+## Usage
+load vision model
+```python
+from transformers import CLIPVisionModel
+vision_model = CLIPVisionModel.from_pretrained('tanganke/clip-vit-base-patch32_stanford-cars')
+```
+substitute the vision encoder of clip
+```python
+from transformers import CLIPModel
+clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
+clip_model.vision_model.load_state_dict(vision_model.vision_model.state_dict())
+```

config.json ADDED Viewed

+{
+  "_name_or_path": "results/temp/",
+  "architectures": [
+    "CLIPVisionModel"
+  ],
+  "attention_dropout": 0.0,
+  "dropout": 0.0,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 768,
+  "image_size": 224,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "model_type": "clip_vision_model",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 32,
+  "projection_dim": 512,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.1"
+}

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:569a37c3fb0849f8c1ac1e3fc47300210d4abeaf52be8ef55cf8164c9742224d
+size 349847824