#!/usr/bin/env python3
"""
Model Quantization Utilities

This module provides utilities for model quantization to reduce memory usage
and improve inference speed while maintaining reasonable accuracy.

Author: Louis Chua Bean Chong
License: GPLv3
"""

import torch
import torch.nn as nn
import torch.quantization as quantization
from typing import Optional, Dict, Any
import copy


class QuantizedModel:
    """
    Wrapper for quantized models with easy conversion and inference.
    
    This class provides utilities for converting models to quantized versions
    and performing efficient inference with reduced memory usage.
    """
    
    def __init__(self, model: nn.Module, quantized_model: Optional[nn.Module] = None):
        """
        Initialize quantized model wrapper.
        
        Args:
            model: Original model
            quantized_model: Pre-quantized model (optional)
        """
        self.original_model = model
        self.quantized_model = quantized_model
        self.is_quantized = quantized_model is not None
    
    def quantize_dynamic(self, 
                        qconfig_spec: Optional[Dict] = None,
                        dtype: torch.dtype = torch.qint8) -> 'QuantizedModel':
        """
        Perform dynamic quantization on the model.
        
        Args:
            qconfig_spec: Quantization configuration
            dtype: Quantization dtype (qint8, quint8)
            
        Returns:
            QuantizedModel: Self with quantized model
        """
        if qconfig_spec is None:
            qconfig_spec = {
                nn.Linear: quantization.default_dynamic_qconfig,
                nn.LSTM: quantization.default_dynamic_qconfig,
                nn.LSTMCell: quantization.default_dynamic_qconfig,
                nn.RNNCell: quantization.default_dynamic_qconfig,
                nn.GRUCell: quantization.default_dynamic_qconfig,
            }
        
        # Create a copy of the model for quantization
        model_copy = copy.deepcopy(self.original_model)
        model_copy.eval()
        
        # Prepare model for quantization
        model_prepared = quantization.prepare_dynamic(model_copy, qconfig_spec)
        
        # Convert to quantized model
        self.quantized_model = quantization.convert(model_prepared)
        self.is_quantized = True
        
        print(f"Dynamic quantization completed with dtype: {dtype}")
        return self
    
    def quantize_static(self, 
                       calibration_data: torch.utils.data.DataLoader,
                       qconfig: Optional[quantization.QConfig] = None) -> 'QuantizedModel':
        """
        Perform static quantization on the model.
        
        Args:
            calibration_data: DataLoader for calibration
            qconfig: Quantization configuration
            
        Returns:
            QuantizedModel: Self with quantized model
        """
        if qconfig is None:
            qconfig = quantization.get_default_qconfig('fbgemm')
        
        # Create a copy of the model for quantization
        model_copy = copy.deepcopy(self.original_model)
        model_copy.eval()
        
        # Prepare model for quantization
        model_prepared = quantization.prepare(model_copy, qconfig)
        
        # Calibrate the model
        print("Calibrating model...")
        with torch.no_grad():
            for batch_idx, (data, _) in enumerate(calibration_data):
                if batch_idx >= 100:  # Limit calibration samples
                    break
                model_prepared(data)
        
        # Convert to quantized model
        self.quantized_model = quantization.convert(model_prepared)
        self.is_quantized = True
        
        print("Static quantization completed")
        return self
    
    def forward(self, *args, **kwargs):
        """Forward pass using quantized model if available."""
        if self.is_quantized and self.quantized_model is not None:
            return self.quantized_model(*args, **kwargs)
        else:
            return self.original_model(*args, **kwargs)
    
    def get_memory_usage(self) -> Dict[str, float]:
        """
        Get memory usage comparison between original and quantized models.
        
        Returns:
            dict: Memory usage in MB
        """
        def get_model_size(model):
            param_size = 0
            buffer_size = 0
            
            for param in model.parameters():
                param_size += param.nelement() * param.element_size()
            
            for buffer in model.buffers():
                buffer_size += buffer.nelement() * buffer.element_size()
            
            return (param_size + buffer_size) / (1024 * 1024)  # Convert to MB
        
        original_size = get_model_size(self.original_model)
        quantized_size = get_model_size(self.quantized_model) if self.quantized_model else original_size
        
        return {
            "original_mb": original_size,
            "quantized_mb": quantized_size,
            "compression_ratio": original_size / quantized_size if quantized_size > 0 else 1.0
        }
    
    def save_quantized(self, path: str):
        """Save quantized model."""
        if self.quantized_model is not None:
            torch.save(self.quantized_model.state_dict(), path)
            print(f"Quantized model saved to: {path}")
        else:
            raise ValueError("No quantized model available")
    
    def load_quantized(self, path: str):
        """Load quantized model."""
        self.quantized_model.load_state_dict(torch.load(path))
        self.is_quantized = True
        print(f"Quantized model loaded from: {path}")


def quantize_model_dynamic(model: nn.Module, 
                          dtype: torch.dtype = torch.qint8) -> QuantizedModel:
    """
    Convenience function for dynamic quantization.
    
    Args:
        model: Model to quantize
        dtype: Quantization dtype
        
    Returns:
        QuantizedModel: Quantized model wrapper
    """
    quantized = QuantizedModel(model)
    return quantized.quantize_dynamic(dtype=dtype)


def quantize_model_static(model: nn.Module,
                         calibration_data: torch.utils.data.DataLoader,
                         qconfig: Optional[quantization.QConfig] = None) -> QuantizedModel:
    """
    Convenience function for static quantization.
    
    Args:
        model: Model to quantize
        calibration_data: Data for calibration
        qconfig: Quantization configuration
        
    Returns:
        QuantizedModel: Quantized model wrapper
    """
    quantized = QuantizedModel(model)
    return quantized.quantize_static(calibration_data, qconfig)


def create_quantization_config(backend: str = 'fbgemm',
                              dtype: torch.dtype = torch.qint8) -> quantization.QConfig:
    """
    Create quantization configuration.
    
    Args:
        backend: Quantization backend ('fbgemm', 'qnnpack')
        dtype: Quantization dtype
        
    Returns:
        QConfig: Quantization configuration
    """
    if backend == 'fbgemm':
        return quantization.QConfig(
            activation=quantization.default_observer,
            weight=quantization.default_per_channel_weight_observer
        )
    elif backend == 'qnnpack':
        return quantization.QConfig(
            activation=quantization.default_observer,
            weight=quantization.default_weight_observer
        )
    else:
        raise ValueError(f"Unsupported backend: {backend}")


def benchmark_quantization(original_model: nn.Module,
                          quantized_model: QuantizedModel,
                          test_data: torch.Tensor,
                          num_runs: int = 100) -> Dict[str, float]:
    """
    Benchmark original vs quantized model performance.
    
    Args:
        original_model: Original model
        quantized_model: Quantized model
        test_data: Test data for benchmarking
        num_runs: Number of runs for averaging
        
    Returns:
        dict: Performance metrics
    """
    original_model.eval()
    quantized_model.quantized_model.eval()
    
    # Benchmark original model
    start_time = torch.cuda.Event(enable_timing=True) if torch.cuda.is_available() else None
    end_time = torch.cuda.Event(enable_timing=True) if torch.cuda.is_available() else None
    
    if start_time:
        start_time.record()
    
    with torch.no_grad():
        for _ in range(num_runs):
            _ = original_model(test_data)
    
    if end_time:
        end_time.record()
        torch.cuda.synchronize()
        original_time = start_time.elapsed_time(end_time) / num_runs
    else:
        import time
        start = time.time()
        for _ in range(num_runs):
            _ = original_model(test_data)
        original_time = (time.time() - start) * 1000 / num_runs  # Convert to ms
    
    # Benchmark quantized model
    if start_time:
        start_time.record()
    
    with torch.no_grad():
        for _ in range(num_runs):
            _ = quantized_model.quantized_model(test_data)
    
    if end_time:
        end_time.record()
        torch.cuda.synchronize()
        quantized_time = start_time.elapsed_time(end_time) / num_runs
    else:
        start = time.time()
        for _ in range(num_runs):
            _ = quantized_model.quantized_model(test_data)
        quantized_time = (time.time() - start) * 1000 / num_runs  # Convert to ms
    
    return {
        "original_time_ms": original_time,
        "quantized_time_ms": quantized_time,
        "speedup": original_time / quantized_time if quantized_time > 0 else 1.0
    }