Spaces:

Adityak204
/

ResNetVision-1K

Sleeping

App Files Files Community

ResNetVision-1K / pl_train.py

Adityak204

Upload

905e42f about 1 month ago

raw

history blame

12.7 kB

	import os
	from datetime import datetime
	from typing import Optional, Tuple
	import glob

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import DataLoader
	from torchvision import transforms, models, datasets
	from pytorch_lightning import LightningModule, Trainer
	from pytorch_lightning.callbacks import ModelCheckpoint, TQDMProgressBar
	from loguru import logger

	class CustomProgressBar(TQDMProgressBar):
	def __init__(self):
	super().__init__()
	self.enable = True

	def on_train_epoch_start(self, trainer, pl_module):
	super().on_train_epoch_start(trainer, pl_module)
	logger.info(f"\n{'='20} Epoch {trainer.current_epoch} {'='20}")

	class ImageNetModule(LightningModule):
	def __init__(
	self,
	learning_rate: float = 0.1,
	momentum: float = 0.9,
	weight_decay: float = 1e-4,
	batch_size: int = 256,
	num_workers: int = 16,
	max_epochs: int = 90,
	train_path: str = "path/to/imagenet",
	val_path: str = "path/to/imagenet",
	checkpoint_dir: str = "checkpoints"
	):
	super().__init__()
	# self.save_hyperparameters()

	# Model
	self.model = models.resnet50(weights=None)

	# Training parameters
	self.learning_rate = learning_rate
	self.momentum = momentum
	self.weight_decay = weight_decay
	self.batch_size = batch_size
	self.num_workers = num_workers
	self.max_epochs = max_epochs
	self.train_path = train_path
	self.val_path = val_path
	self.checkpoint_dir = checkpoint_dir

	# Metrics tracking
	self.training_step_outputs = []
	self.validation_step_outputs = []
	self.best_val_acc = 0.0

	# Set up transforms
	self.train_transforms = transforms.Compose([
	transforms.RandomResizedCrop(224),
	transforms.RandomHorizontalFlip(),
	transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225])
	])

	self.val_transforms = transforms.Compose([
	transforms.Resize(256),
	transforms.CenterCrop(224),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225])
	])

	def forward(self, x):
	return self.model(x)

	def training_step(self, batch, batch_idx):
	images, labels = batch
	outputs = self(images)
	loss = F.cross_entropy(outputs, labels)

	# Calculate accuracy
	_, predicted = torch.max(outputs.data, 1)
	correct = (predicted == labels).sum().item()
	accuracy = (correct / labels.size(0))*100

	# Log metrics for this step
	self.log('train_loss', loss, on_step=False, on_epoch=True, prog_bar=True)
	self.log('train_acc', accuracy, on_step=False, on_epoch=True, prog_bar=True)

	self.training_step_outputs.append({
	'loss': loss.detach(),
	'acc': torch.tensor(accuracy)
	})

	return loss

	def on_train_epoch_end(self):
	if not self.training_step_outputs:
	print("Warning: No training outputs available for this epoch")
	return
	avg_loss = torch.stack([x['loss'] for x in self.training_step_outputs]).mean()
	avg_acc = torch.stack([x['acc'] for x in self.training_step_outputs]).mean()

	# Get current learning rate
	current_lr = self.optimizers().param_groups[0]['lr']

	logger.info(f"Training metrics - Loss: {avg_loss:.4f}, Accuracy: {avg_acc:.4f}, LR: {current_lr:.6f}")

	self.training_step_outputs.clear()

	def validation_step(self, batch, batch_idx):
	images, labels = batch
	outputs = self(images)
	loss = F.cross_entropy(outputs, labels)

	# Calculate accuracy
	_, predicted = torch.max(outputs.data, 1)
	correct = (predicted == labels).sum().item()
	accuracy = (correct / labels.size(0))*100

	# Log metrics for this step
	self.log('val_loss', loss, on_step=False, on_epoch=True, prog_bar=True)
	self.log('val_acc', accuracy, on_step=False, on_epoch=True, prog_bar=True)

	self.validation_step_outputs.append({
	'val_loss': loss.detach(),
	'val_acc': torch.tensor(accuracy)
	})

	return {'val_loss': loss, 'val_acc': accuracy}

	def on_validation_epoch_end(self):
	avg_loss = torch.stack([x['val_loss'] for x in self.validation_step_outputs]).mean()
	avg_acc = torch.stack([x['val_acc'] for x in self.validation_step_outputs]).mean()

	# Log final validation metrics
	self.log('val_loss_epoch', avg_loss)
	self.log('val_acc_epoch', avg_acc)

	# Save checkpoint if validation accuracy improves
	if avg_acc > self.best_val_acc:
	self.best_val_acc = avg_acc
	checkpoint_path = os.path.join(
	self.checkpoint_dir,
	f"resnet50-epoch{self.current_epoch:02d}-acc{avg_acc:.4f}.ckpt"
	)
	self.trainer.save_checkpoint(checkpoint_path)
	logger.info(f"New best validation accuracy: {avg_acc:.4f}. Saved checkpoint to {checkpoint_path}")

	logger.info(f"Validation metrics - Loss: {avg_loss:.4f}, Accuracy: {avg_acc:.4f}")

	self.validation_step_outputs.clear()

	def train_dataloader(self):
	train_dataset = datasets.ImageFolder(
	self.train_path,
	transform=self.train_transforms
	)
	return DataLoader(
	train_dataset,
	batch_size=self.batch_size,
	shuffle=True,
	num_workers=self.num_workers,
	pin_memory=True
	)

	def val_dataloader(self):
	val_dataset = datasets.ImageFolder(
	self.val_path,
	transform=self.val_transforms
	)
	return DataLoader(
	val_dataset,
	batch_size=self.batch_size,
	shuffle=False,
	num_workers=self.num_workers,
	pin_memory=True
	)

	def configure_optimizers(self):
	optimizer = torch.optim.SGD(
	self.parameters(),
	lr=self.learning_rate,
	momentum=self.momentum,
	weight_decay=self.weight_decay
	)

	# OneCycleLR scheduler
	scheduler = torch.optim.lr_scheduler.OneCycleLR(
	optimizer,
	max_lr=self.learning_rate,
	epochs=self.max_epochs,
	steps_per_epoch=len(self.train_dataloader()),
	pct_start=0.3,
	anneal_strategy='cos',
	div_factor=25.0,
	cycle_momentum=True,
	base_momentum=0.85,
	max_momentum=0.95,
	)

	return {
	"optimizer": optimizer,
	"lr_scheduler": {
	"scheduler": scheduler,
	"interval": "step"
	}
	}

	def setup_logging(log_dir="logs"):
	os.makedirs(log_dir, exist_ok=True)
	timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	log_file = os.path.join(log_dir, f"training_{timestamp}.log")

	logger.remove()
	logger.add(
	lambda msg: print(msg),
	format="<green>{time:YYYY-MM-DD HH:mm:ss}</green> \| {message}",
	colorize=True,
	level="INFO"
	)

	logger.add(
	log_file,
	format="{time:YYYY-MM-DD HH:mm:ss} \| {level} \| {message}",
	level="INFO",
	rotation="100 MB",
	retention="30 days"
	)

	logger.info(f"Logging setup complete. Logs will be saved to: {log_file}")
	return log_file

	def find_latest_checkpoint(checkpoint_dir: str) -> Optional[str]:
	"""Find the latest checkpoint file using various possible naming patterns."""
	# Look for checkpoint files with different possible patterns
	patterns = [
	"*.ckpt", # Generic checkpoint files
	"resnet50-epoch*.ckpt", # Our custom format
	"epoch=.ckpt", # PyTorch Lightning default format
	"checkpoint_epoch*.ckpt" # Another common format
	]

	all_checkpoints = []
	for pattern in patterns:
	checkpoint_pattern = os.path.join(checkpoint_dir, pattern)
	all_checkpoints.extend(glob.glob(checkpoint_pattern))

	if not all_checkpoints:
	logger.info("No existing checkpoints found.")
	return None

	def extract_info(checkpoint_path: str) -> Tuple[int, float]:
	"""Extract epoch and optional accuracy from checkpoint filename."""
	filename = os.path.basename(checkpoint_path)

	# Try different patterns to extract epoch number
	epoch_patterns = [
	r'epoch=(\d+)', # matches epoch=X
	r'epoch(\d+)', # matches epochX
	r'epoch[_-](\d+)', # matches epoch_X or epoch-X
	]

	epoch = None
	for pattern in epoch_patterns:
	match = re.search(pattern, filename)
	if match:
	epoch = int(match.group(1))
	break

	# If no epoch found, try to get from file modification time
	if epoch is None:
	epoch = int(os.path.getmtime(checkpoint_path))

	# Try to extract accuracy if present
	acc_match = re.search(r'acc[_-]?([\d.]+)', filename)
	acc = float(acc_match.group(1)) if acc_match else 0.0

	return epoch, acc

	try:
	latest_checkpoint = max(all_checkpoints, key=lambda x: extract_info(x)[0])
	epoch, acc = extract_info(latest_checkpoint)
	logger.info(f"Found latest checkpoint: {latest_checkpoint}")
	logger.info(f"Epoch: {epoch}" + (f", Accuracy: {acc:.4f}" if acc > 0 else ""))
	return latest_checkpoint
	except Exception as e:
	logger.error(f"Error processing checkpoints: {str(e)}")
	# If there's any error in parsing, return the most recently modified file
	latest_checkpoint = max(all_checkpoints, key=os.path.getmtime)
	logger.info(f"Falling back to most recently modified checkpoint: {latest_checkpoint}")
	return latest_checkpoint


	def main():
	checkpoint_dir = "/home/ec2-user/ebs/volumes/era_session9"
	log_file = setup_logging(log_dir=checkpoint_dir)

	logger.info("Starting training with configuration:")
	logger.info(f"PyTorch version: {torch.__version__}")
	logger.info(f"CUDA available: {torch.cuda.is_available()}")
	if torch.cuda.is_available():
	logger.info(f"CUDA device count: {torch.cuda.device_count()}")
	logger.info(f"CUDA devices: {[torch.cuda.get_device_name(i) for i in range(torch.cuda.device_count())]}")

	# Find latest checkpoint
	# latest_checkpoint = find_latest_checkpoint(checkpoint_dir)
	latest_checkpoint = "/home/ec2-user/ebs/volumes/era_session9/resnet50-epoch18-acc53.7369.ckpt"

	model = ImageNetModule(
	learning_rate=0.156,
	batch_size=256,
	num_workers=16,
	max_epochs=60,
	train_path="/home/ec2-user/ebs/volumes/imagenet/ILSVRC/Data/CLS-LOC/train",
	val_path="/home/ec2-user/ebs/volumes/imagenet/imagenet_validation",
	checkpoint_dir=checkpoint_dir
	)

	logger.info(f"Model configuration:")
	logger.info(f"Learning rate: {model.learning_rate}")
	logger.info(f"Batch size: {model.batch_size}")
	logger.info(f"Number of workers: {model.num_workers}")
	logger.info(f"Max epochs: {model.max_epochs}")

	progress_bar = CustomProgressBar()

	trainer = Trainer(
	max_epochs=60,
	accelerator="gpu",
	devices=4,
	strategy="ddp",
	precision=16,
	callbacks=[progress_bar],
	enable_progress_bar=True,
	)

	logger.info("Starting training")

	try:
	if latest_checkpoint:
	logger.info(f"Resuming training from checkpoint: {latest_checkpoint}")
	trainer.fit(model, ckpt_path=latest_checkpoint)
	else:
	logger.info("Starting training from scratch")
	trainer.fit(model)

	logger.info("Training completed successfully")
	except Exception as e:
	logger.error(f"Training failed with error: {str(e)}")
	raise
	finally:
	logger.info(f"Training session ended. Log file: {log_file}")

	if __name__ == "__main__":
	main()
	# pass