AutoML

File size: 26,991 Bytes

38939c4

import streamlit as st
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split,cross_val_score,GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, roc_curve, auc,classification_report
from sklearn.impute import SimpleImputer
import openpyxl
import optuna
import joblib
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt

st.set_page_config(page_title="ML Model Deployment", layout="wide")

def load_data(file):
    try:
        if file.name.endswith('.csv'):
            data = pd.read_csv(file)
        elif file.name.endswith(('.xls', '.xlsx')):
            data = pd.read_excel(file)
        return data
    except Exception as e:
        st.error(f"Error loading file: {e}")
        return None

def auto_process_data(data):
    processed_data = data.copy()
    label_encoders = {}
    
    if processed_data.isnull().sum().sum() > 0:
        st.info("Automatically handling missing values...")
        
        num_cols = processed_data.select_dtypes(include=['int64', 'float64']).columns
        if len(num_cols) > 0:
            num_imputer = SimpleImputer(strategy='median')
            processed_data[num_cols] = num_imputer.fit_transform(processed_data[num_cols])
        
        cat_cols = processed_data.select_dtypes(include=['object']).columns
        if len(cat_cols) > 0:
            for col in cat_cols:
                if processed_data[col].isnull().any():
                    most_frequent = processed_data[col].mode()[0]
                    processed_data[col].fillna(most_frequent, inplace=True)
    
    for column in processed_data.select_dtypes(include=['object']):
        label_encoders[column] = LabelEncoder()
        processed_data[column] = label_encoders[column].fit_transform(processed_data[column].astype(str))
    
    return processed_data, label_encoders

def get_model_configs():
    models = {
        'Logistic Regression': {
            'pipeline': Pipeline([
                ('scaler', StandardScaler()),
                ('classifier', LogisticRegression())
            ]),
            'params': {
                'classifier__penalty':['l1','l2'],
                'classifier__C':[0.01,0.1,1],
                'classifier__max_iter': [100, 200],
                'classifier__solver':['liblinear','saga']
            }
        },
        'Support Vector Machine': {
            'pipeline': Pipeline([
                ('scaler', StandardScaler()),
                ('classifier', SVC(probability=True))
            ]),
            'params': {
                'classifier__C': [0.001, 0.1, 1],
                'classifier__kernel': ['linear', 'rbf', 'sigmoid'],
                'classifier__gamma': ['scale', 'auto', 0.01, 0.1, 1],
                'classifier__max_iter':[100,200]
            }
        },
        'Random Forest': {
            'pipeline': Pipeline([
                ('scaler', StandardScaler()),
                ('classifier', RandomForestClassifier())
            ]),
            'params': {
                'classifier__n_estimators':[100,200],
                'classifier__max_depth': [None, 10, 20],
                'classifier__min_samples_split': [2,5,10],
                'classifier__min_samples_leaf':[1,2,4],
            }
        },
        'XgBoost':{
            'pipeline':Pipeline([
            ('scaled',StandardScaler()),
            ('classifier',XGBClassifier(use_label_encoder=False,eval_metric='logloss'))
            ]),
            'params':{
                'classifier__n_estimators': [100, 200],
                'classifier__learning_rate': [0.01, 0.05, 0.1],
                'classifier__max_depth': [3, 5, 7],
                'classifier__min_child_weight': [1, 3, 5],
                'classifier__subsample': [0.8, 1.0]               
            }
        }
    }
    return models

def train_model(X_train, y_train, selected_model, progress_bar=None):
    models = get_model_configs()
    model_config = models[selected_model]
    
    with st.spinner(f"Training {selected_model}..."):
        grid_search = GridSearchCV(
            estimator=model_config['pipeline'],
            param_grid=model_config['params'],
            cv=5,
            n_jobs=-1,
            verbose=0,
            scoring="accuracy"
        )
        grid_search.fit(X_train, y_train)
        
        if progress_bar:
            progress_bar.progress(1.0)
        
        return grid_search.best_estimator_, grid_search.best_score_
def objective(trial, X_train, y_train, model_name):
    models = get_model_configs()
    model_config = models[model_name]
    dataset_size = len(X_train)
    cv_folds = 5 if dataset_size > 1000 else (3 if dataset_size > 500 else min(2, dataset_size))
    params = {}

    if model_name == 'Logistic Regression':
        params = {
            'classifier__penalty': trial.suggest_categorical('classifier__penalty', ['l1', 'l2']),
            'classifier__C': trial.suggest_float('classifier__C', 0.01, 1.0, log=True),
            'classifier__solver': trial.suggest_categorical('classifier__solver', ['liblinear', 'saga']),
            'classifier__max_iter': trial.suggest_int('classifier__max_iter', 100, 200)
        }
    
    elif model_name == 'Support Vector Machine':
        params = {
            'classifier__C': trial.suggest_float('classifier__C', 0.001, 1.0, log=True),
            'classifier__kernel': trial.suggest_categorical('classifier__kernel', ['linear', 'rbf', 'sigmoid']),
            'classifier__gamma': trial.suggest_categorical('classifier__gamma', ['scale', 'auto', 0.01, 0.1, 1]),
            'classifier__max_iter': trial.suggest_int('classifier__max_iter', 100, 200)
        }
    
    elif model_name == 'Random Forest':
         params = {
            'classifier__n_estimators': trial.suggest_int('classifier__n_estimators', 100, 200),
            'classifier__max_depth': trial.suggest_categorical('classifier__max_depth', [None, 10, 20]),
            'classifier__min_samples_split': trial.suggest_int('classifier__min_samples_split', 2, 10),
            'classifier__min_samples_leaf': trial.suggest_int('classifier__min_samples_leaf', 1, 4)
        }
    elif model_name == 'XGBoost':
         params = {
            'classifier__n_estimators': trial.suggest_int('classifier__n_estimators', 100, 300),
            'classifier__learning_rate': trial.suggest_float('classifier__learning_rate', 0.01, 0.2, log=True),
            'classifier__max_depth': trial.suggest_int('classifier__max_depth', 3, 10),
            'classifier__min_child_weight': trial.suggest_int('classifier__min_child_weight', 1, 6)
        }
    
    pipeline = model_config['pipeline'].set_params(**params)
    pipeline.fit(X_train, y_train)
    
    score = cross_val_score(pipeline, X_train, y_train, cv=cv_folds, scoring="accuracy").mean()
    return score
def auto_train(X_train, y_train, X_test, y_test):
    models = get_model_configs()
    results = {}
    best_score = 0
    best_model = None
    best_model_name = None

    st.write("🔄 Training models with Optuna hyperparameter tuning...")

    progress_cols = st.columns(len(models))
    progress_bars = {model_name: progress_cols[i].progress(0.0) for i, model_name in enumerate(models)}

    for model_name in models.keys():
        st.write(f"🛠 Training {model_name}...")

        # Run Optuna optimization
        study = optuna.create_study(direction='maximize')
        study.optimize(lambda trial: objective(trial, X_train, y_train, model_name), n_trials=20)

        # Retrieve best parameters and train model
        best_params = study.best_params
        pipeline = models[model_name]['pipeline'].set_params(**best_params)
        pipeline.fit(X_train, y_train)

        # Evaluate model
        y_pred = pipeline.predict(X_test)
        test_accuracy = accuracy_score(y_test, y_pred)

        results[model_name] = {
            'model': pipeline,
            'cv_score': study.best_value,
            'test_accuracy': test_accuracy
        }

        progress_bars[model_name].progress(1.0)

        # Track best model
        if test_accuracy > best_score:
            best_score = test_accuracy
            best_model = pipeline
            best_model_name = model_name

    # Display results
    results_df = pd.DataFrame({
        'Model': list(results.keys()),
        'Cross-Validation Score': [results[model]['cv_score'] for model in results],
        'Test Accuracy': [results[model]['test_accuracy'] for model in results]
    }).sort_values('Test Accuracy', ascending=False)

    st.subheader("📊 Model Performance Comparison")
    st.dataframe(results_df)

    st.success(f"🏆 Best model: **{best_model_name}** with accuracy: **{best_score:.2%}**")

    return best_model, best_model_name

def get_classification_report(y_true, y_pred):
    report_dict = classification_report(y_true, y_pred, output_dict=True)
    df = pd.DataFrame(report_dict).transpose()
    return df
def evaluate_models(X_train, X_test, y_train, y_test):
    models =get_model_configs()
    
    results = {}

    plt.figure(figsize=(10, 6))
    
    for name, model in models.items():
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        y_prob = model.predict_proba(X_test)[:, 1] if hasattr(model, "predict_proba") else None
        
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred, average='binary')
        recall = recall_score(y_test, y_pred, average='binary')
        f1 = f1_score(y_test, y_pred, average='binary')
        roc_auc = roc_auc_score(y_test, y_prob) if y_prob is not None else None
        
        results[name] = {
            "Accuracy": accuracy,
            "Precision": precision,
            "Recall": recall,
            "F1-score": f1,
            "ROC-AUC": roc_auc
        }

        if y_prob is not None:
            fpr, tpr, _ = roc_curve(y_test, y_prob)
            plt.plot(fpr, tpr, label=f"{name} (AUC = {roc_auc:.2f})")

    plt.plot([0, 1], [0, 1], linestyle="--", color="gray")
    plt.xlabel("False Positive Rate")
    plt.ylabel("True Positive Rate")
    plt.title("ROC Curves")
    plt.legend()
    plt.show()
    
    fig, axes = plt.subplots(2, 2, figsize=(12, 10))
    for ax, (name, model) in zip(axes.ravel(), models.items()):
        y_pred = model.predict(X_test)
        cm = confusion_matrix(y_test, y_pred)
        sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", ax=ax)
        ax.set_title(f"{name} - Confusion Matrix")
        ax.set_xlabel("Predicted Label")
        ax.set_ylabel("True Label")
    
    plt.tight_layout()
    plt.show()

    results_df = pd.DataFrame(results).T
    results_df.plot(kind="bar", figsize=(10, 6))
    plt.title("Model Comparison")
    plt.ylabel("Score")
    plt.xticks(rotation=45)
    plt.legend(title="Metrics")
    plt.show()
    
    return results_df

def main():
    st.title("🤖  Machine Learning Model Deployment")
    
    st.sidebar.header("Navigation")
    page = st.sidebar.radio("Go to", ["Home","Data Upload & Analysis", "Model Training","Visualisation", "Prediction"])
    
    if 'data' not in st.session_state:
        st.session_state.data = None
    if 'processed_data' not in st.session_state:
        st.session_state.processed_data = None
    if 'label_encoders' not in st.session_state:
        st.session_state.label_encoders = None
    if 'model' not in st.session_state:
        st.session_state.model = None
    if 'features' not in st.session_state:
        st.session_state.features = None
    if 'target' not in st.session_state:
        st.session_state.target = None
    if 'model_name' not in st.session_state:
        st.session_state.model_name = None

    if page=="Home":
        st.title("🚀 AutoML: Effortless Machine Learning")
        st.markdown(
        """
        Welcome to **AutoML**, a powerful yet easy-to-use tool that automates the process of building and evaluating 
        machine learning models. Whether you're a beginner exploring data or an expert looking for quick model deployment, 
        AutoML simplifies the entire workflow.
        """
        )

        st.header("🔹 Features")
        st.markdown(
        """
        - **Automated Model Selection** – Let AutoML pick the best algorithm for your data.
        - **Hyperparameter Tuning** – Optimize model performance without manual tweaking.
        - **Data Preprocessing** – Handle missing values, scaling, encoding, and feature engineering.
        - **Performance Evaluation** – Compare models with key metrics and visualizations.
        - **Model Export** – Save trained models for deployment.
        """
        )

        st.header("🚀 Get Started")
        st.markdown(
        """
        1. **Upload your dataset** – Provide a CSV or Excel file with your data.
        2. **Select your target variable** – Choose the column to predict.
        3. **Let AutoML do the magic!** – Sit back and watch the automation work.
        """
        )

        st.header("📊 Visual Insights")
        st.markdown(
        """
        Explore interactive charts and performance metrics to make informed decisions. 
        Use visualizations to compare model accuracy, precision, recall, and other key statistics.
        """
        )

        st.success("Start automating your ML workflows now! 🎯")
        st.write('''Developed By Gourav Singh,Ankit Yadav,Pushpansh''')
  
    if page == "Data Upload & Analysis":
        st.header("📊 Data Upload & Analysis")
        
        uploaded_file = st.file_uploader("Upload your dataset (CSV or Excel)", type=['csv', 'xlsx', 'xls'])
        
        if uploaded_file is not None:
            st.session_state.data = load_data(uploaded_file)
            
            if st.session_state.data is not None:
                st.session_state.processed_data, st.session_state.label_encoders = auto_process_data(st.session_state.data)
                
                st.success("Data loaded and automatically processed!")
                
                st.subheader("Dataset Overview")
                col1, col2, col3 = st.columns(3)
                with col1:
                    st.info(f"Number of rows: {st.session_state.data.shape[0]}")
                with col2:
                    st.info(f"Number of columns: {st.session_state.data.shape[1]}")
                with col3:
                    missing_values = st.session_state.data.isnull().sum().sum()
                    st.info(f"Missing values: {missing_values} (Automatically handled)")
                
                st.subheader("Original Data Preview")
                st.dataframe(st.session_state.data.head())
                
                st.subheader("Processed Data Preview")
                st.dataframe(st.session_state.processed_data.head())
                
                st.subheader("Statistical Description")
                st.dataframe(st.session_state.processed_data.describe())
                
                st.subheader("Correlation Heatmap")
                fig, ax = plt.subplots(figsize=(10, 6))
                sns.heatmap(st.session_state.processed_data.corr(), annot=True, cmap='coolwarm', ax=ax)
                st.pyplot(fig)
    
    elif page == "Model Training":
        st.header("🎯 Auto Model Training")
        
        if st.session_state.processed_data is None:
            st.warning("Please upload and process your data first!")
            return
            
        st.subheader("Select Features and Target")
        columns = st.session_state.processed_data.columns.tolist()
        
        st.session_state.features = st.multiselect("Select features", columns, default=columns[:-1])
        st.session_state.target = st.selectbox("Select target variable", columns)
        
        if st.button("Auto Train Models"):
            if len(st.session_state.features) > 0 and st.session_state.target:
                X = st.session_state.processed_data[st.session_state.features]
                y = st.session_state.processed_data[st.session_state.target]
                
                X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
                
                st.session_state.model, st.session_state.model_name = auto_train(X_train, y_train, X_test, y_test)
                
                y_pred = st.session_state.model.predict(X_test)
                
                st.subheader("Best Model Performance")
                
                accuracy = accuracy_score(y_test, y_pred)
                st.metric("Accuracy", f"{accuracy:.2%}")
                
                st.text("Classification Report:")

                df_report = get_classification_report(y_test, y_pred)
                st.dataframe(df_report)
                
                if st.session_state.model_name == "Random Forest":
                    st.subheader("Feature Importance")
                    
                    importance_df = pd.DataFrame({
                        'Feature': st.session_state.features,
                        'Importance': st.session_state.model.named_steps['classifier'].feature_importances_
                    }).sort_values('Importance', ascending=False)
                    
                    fig = px.bar(importance_df, x='Feature', y='Importance',
                                title='Feature Importance Plot')
                    st.plotly_chart(fig)
                
                model_data = {
                    'model': st.session_state.model,
                    'model_name': st.session_state.model_name,
                    'label_encoders': st.session_state.label_encoders,
                    'features': st.session_state.features,
                    'target': st.session_state.target
                }
                joblib.dump(model_data, 'model_data.joblib')
                st.download_button(
                    label="Download trained model",
                    data=open('model_data.joblib', 'rb'),
                    file_name='model_data.joblib',
                    mime='application/octet-stream'
                )
    elif page=="Visualisation":
        st.header("Model Visualisation")
        if st.session_state.model is None:
            st.warning("Please train a model first!")
            return
    
        if st.session_state.processed_data is not None and st.session_state.features and st.session_state.target:
            X = st.session_state.processed_data[st.session_state.features]
            y = st.session_state.processed_data[st.session_state.target]
        
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        
        # Create visualization options
            viz_option = st.selectbox(
                "Select visualization type", 
                ["Model Comparison", "ROC Curves", "Confusion Matrix"]
            )
        
            if viz_option == "Model Comparison":
                st.subheader("Model Performance Metrics")
            
            # Train all models to compare
                models = get_model_configs()
                results = {}
            
                progress_bar = st.progress(0)
                progress_text = st.empty()
            
                for i, (name, model_config) in enumerate(models.items()):
                    progress_text.text(f"Training {name}...")
                    pipeline = model_config['pipeline']
                    pipeline.fit(X_train, y_train)
                
                    y_pred = pipeline.predict(X_test)
                    y_prob = pipeline.predict_proba(X_test)[:, 1] if hasattr(pipeline, "predict_proba") else None
                
                    accuracy = accuracy_score(y_test, y_pred)
                    precision = precision_score(y_test, y_pred, average='binary')
                    recall = recall_score(y_test, y_pred, average='binary')
                    f1 = f1_score(y_test, y_pred, average='binary')
                    roc_auc = roc_auc_score(y_test, y_prob) if y_prob is not None else None
                
                    results[name] = {
                        "Accuracy": accuracy,
                        "Precision": precision,
                        "Recall": recall,
                        "F1-score": f1,
                        "ROC-AUC": roc_auc
                    }
                
                    progress_bar.progress((i + 1) / len(models))
            
                progress_text.empty()
            
                results_df = pd.DataFrame(results).T
                st.dataframe(results_df)

                fig = px.bar(
                    results_df.reset_index().melt(id_vars='index', var_name='Metric', value_name='Score'), 
                    x='index', y='Score', color='Metric', 
                    barmode='group',
                    title='Model Comparison',
                    labels={'index': 'Model'}
                )
                st.plotly_chart(fig)
            
            elif viz_option == "ROC Curves":
                st.subheader("ROC Curves")
            
                models = get_model_configs()
            
                fig = plt.figure(figsize=(10, 6))
            
                for name, model_config in models.items():
                    pipeline = model_config['pipeline']
                    pipeline.fit(X_train, y_train)
                
                    if hasattr(pipeline, "predict_proba"):
                        y_prob = pipeline.predict_proba(X_test)[:, 1]
                        fpr, tpr, _ = roc_curve(y_test, y_prob)
                        roc_auc = auc(fpr, tpr)
                        plt.plot(fpr, tpr, lw=2, label=f'{name} (AUC = {roc_auc:.2f})')
            
                plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--')
                plt.xlim([0.0, 1.0])
                plt.ylim([0.0, 1.05])
                plt.xlabel('False Positive Rate')
                plt.ylabel('True Positive Rate')
                plt.title('Receiver Operating Characteristic (ROC) Curves')
                plt.legend(loc="lower right")
            
                st.pyplot(fig)
            
            elif viz_option == "Confusion Matrix":
                st.subheader("Confusion Matrices")
            
                models = get_model_configs()
            
                if len(models) > 4:
                    st.warning("Showing confusion matrices for the first 4 models")
                    model_items = list(models.items())[:4]
                else:
                    model_items = list(models.items())
            
                num_models = len(model_items)
                cols = 2
                rows = (num_models + 1) // 2
            
                fig, axes = plt.subplots(rows, cols, figsize=(12, 10))
                axes = axes.flatten() if num_models > 1 else [axes]
            
                for i, (name, model_config) in enumerate(model_items):
                    pipeline = model_config['pipeline']
                    pipeline.fit(X_train, y_train)
                
                    y_pred = pipeline.predict(X_test)
                    cm = confusion_matrix(y_test, y_pred)
                
                    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", ax=axes[i])
                    axes[i].set_title(f"{name} - Confusion Matrix")
                    axes[i].set_xlabel("Predicted")
                    axes[i].set_ylabel("Actual")
            
                for j in range(num_models, len(axes)):
                    fig.delaxes(axes[j])
                
                plt.tight_layout()
                st.pyplot(fig)
            
            st.subheader("Current Model Performance")
            best_model_pred = st.session_state.model.predict(X_test)
        
            st.metric("Accuracy", f"{accuracy_score(y_test, best_model_pred):.2%}")
        
            col1, col2 = st.columns(2)
            with col1:
                st.metric("Precision", f"{precision_score(y_test, best_model_pred):.2%}")
                st.metric("F1 Score", f"{f1_score(y_test, best_model_pred):.2%}")
            with col2:
                st.metric("Recall", f"{recall_score(y_test, best_model_pred):.2%}")
                if hasattr(st.session_state.model, "predict_proba"):
                    best_proba = st.session_state.model.predict_proba(X_test)[:, 1]
                    st.metric("AUC", f"{roc_auc_score(y_test, best_proba):.2%}")
        
                else:
                    st.warning("Please load and preprocess your dataset before running evaluation.")


    elif page == "Prediction":
        st.header("🎲 Make Predictions")
        
        if st.session_state.model is None:
            st.warning("Please train a model first!")
            return
            
        st.subheader("Enter Feature Values")
        st.info(f"Using best model: {st.session_state.model_name}")
        
        input_data = {}
        for feature in st.session_state.features:
            if feature in st.session_state.label_encoders:
                options = st.session_state.label_encoders[feature].classes_
                value = st.selectbox(f"Select {feature}", options)
                input_data[feature] = st.session_state.label_encoders[feature].transform([value])[0]
            else:
                input_data[feature] = st.number_input(f"Enter value for {feature}", value=0.0)
        if st.button("Predict"):
            input_df = pd.DataFrame([input_data])
            
            prediction = st.session_state.model.predict(input_df)
            
            if st.session_state.target in st.session_state.label_encoders:
                original_prediction = st.session_state.label_encoders[st.session_state.target].inverse_transform(prediction)
                st.success(f"Predicted {st.session_state.target}: {original_prediction[0]}")
            else:
                st.success(f"Predicted {st.session_state.target}: {prediction[0]}")
            
            proba = st.session_state.model.predict_proba(input_df)
            st.subheader("Prediction Probability")
            
            if st.session_state.target in st.session_state.label_encoders:
                classes = st.session_state.label_encoders[st.session_state.target].classes_
            else:
                classes = st.session_state.model.classes_
                
            proba_df = pd.DataFrame(
                proba,
                columns=classes
            )
            st.dataframe(proba_df)

if __name__ == "__main__":
    main()