maxf-coder
/

task_image_classifier

Image Classification

activity-recognition

Model card Files Files and versions

task_image_classifier / README.md

maxf-coder's picture

Upload README.md with huggingface_hub

b2219a4 verified 17 days ago

|

history blame contribute delete

1.63 kB

	---
	language: en
	license: mit
	tags:
	- image-classification
	- efficientnet
	- vm-ai
	- activity-recognition
	datasets:
	- maxf-coder/task_image_classifier
	metrics:
	- accuracy
	- f1
	---

	# VM.AI — Image Classifier

	EfficientNet-B4 trained on 14 activity categories for the image-to-prompt pipeline.

	## Performance

	\| Metric \| Value \|
	\|--------\|-------\|
	\| Test samples \| {test_samples} \|
	\| Top-1 accuracy \| {top1} \|
	\| Top-3 accuracy \| {top3} \|
	\| Macro F1 \| {macro_f1} \|
	\| Weighted F1 \| {weighted_f1} \|

	## Per-Class Metrics

	\| Class \| Precision \| Recall \| F1 \| Support \|
	\|-------\|-----------\|--------\|------\|---------\|
	{class_rows}
	## Usage

	```python
	import torch
	import timm
	from PIL import Image
	from torchvision import transforms

	model = timm.create_model("efficientnet_b4", pretrained=False, num_classes=14)
	model.load_state_dict(torch.load("efficientnet_b4_classifier.pth", map_location="cpu"))
	model.eval()

	transform = transforms.Compose([
	transforms.Resize((380, 380)),
	transforms.ToTensor(),
	transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]),
	])

	img = Image.open("photo.jpg").convert("RGB")
	tensor = transform(img).unsqueeze(0)
	with torch.no_grad():
	logits = model(tensor)
	pred = logits.argmax(1).item()
	```

	## Training

	Two-phase training: 5 frozen epochs (head only) + 20 unfrozen epochs (last 2 blocks).
	Optimizer: AdamW with cosine annealing. Mixed precision (AMP).
	See [train_classifier.py](https://github.com/Infiteri/VM.AI) for details.

	## Charts

	![Confusion matrix](confusion_matrix.png)
	![Per-class metrics](per_class_metrics.png)
	![Top-K accuracy](topk_accuracy.png)