Spaces:

saherPervaiz
/

ModelTrain

Sleeping

App Files Files Community

ModelTrain / app.py

saherPervaiz

Update app.py

3cd97b7 verified 6 months ago

raw

history blame contribute delete

11.4 kB

	import streamlit as st
	import pandas as pd
	from sklearn.model_selection import train_test_split
	from sklearn.preprocessing import LabelEncoder
	from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
	from sklearn.linear_model import LogisticRegression, LinearRegression
	from sklearn.svm import SVC, SVR
	from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
	from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
	from sklearn.naive_bayes import GaussianNB
	from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, mean_absolute_error, r2_score
	import numpy as np
	import matplotlib.pyplot as plt
	import seaborn as sns
	from io import BytesIO

	# Streamlit app title
	st.title("Model Training with Outlier Removal, Metrics, and Correlation Heatmap")

	# File uploader
	uploaded_file = st.file_uploader("Choose a CSV file", type=["csv"])

	if uploaded_file is not None:
	# Read the uploaded CSV file
	df = pd.read_csv(uploaded_file)

	# Display the dataset
	st.write("Dataset:")
	st.dataframe(df)

	# Convert categorical (str) data to numerical
	st.write("Converting Categorical Columns to Numerical Values:")
	label_encoder = LabelEncoder()
	for col in df.columns:
	if df[col].dtype == 'object' or len(df[col].unique()) <= 10:
	st.write(f"Encoding Column: {col}")
	df[col] = label_encoder.fit_transform(df[col])

	# Display the dataset after conversion
	st.write("Dataset After Conversion:")
	st.dataframe(df)

	# Handle missing values
	st.write("Handling Missing (Null) Values:")
	fill_method = st.selectbox("Choose how to handle missing values", ["Drop rows", "Fill with mean/median"])
	if fill_method == "Drop rows":
	df = df.dropna()
	elif fill_method == "Fill with mean/median":
	for col in df.columns:
	if df[col].dtype in ['float64', 'int64']:
	df[col].fillna(df[col].mean(), inplace=True)
	else:
	df[col].fillna(df[col].mode()[0], inplace=True)

	# Remove outliers using the IQR method
	st.write("Removing Outliers Using IQR:")
	def remove_outliers_iqr(data, column):
	Q1 = data[column].quantile(0.25)
	Q3 = data[column].quantile(0.75)
	IQR = Q3 - Q1
	lower_bound = Q1 - 1.5 * IQR
	upper_bound = Q3 + 1.5 * IQR
	return data[(data[column] >= lower_bound) & (data[column] <= upper_bound)]

	numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
	for col in numeric_cols:
	original_count = len(df)
	df = remove_outliers_iqr(df, col)
	st.write(f"Removed outliers from {col}: {original_count - len(df)} rows removed.")

	# Capping Extreme Values (based on 5% and 95% percentiles)
	st.write("Handling Extreme Values (Capping):")
	def cap_extreme_values(dataframe):
	for col in dataframe.select_dtypes(include=[np.number]).columns:
	lower_limit = dataframe[col].quantile(0.05)
	upper_limit = dataframe[col].quantile(0.95)
	dataframe[col] = np.clip(dataframe[col], lower_limit, upper_limit)
	return dataframe

	df = cap_extreme_values(df)

	# Display dataset after cleaning
	st.write("Dataset After Outlier Removal and Capping Extreme Values:")
	st.dataframe(df)

	# Add clean data download option
	st.subheader("Download Cleaned Dataset")
	st.download_button(
	label="Download Cleaned Dataset (CSV)",
	data=df.to_csv(index=False),
	file_name="cleaned_dataset.csv",
	mime="text/csv"
	)

	# Correlation Heatmap
	st.subheader("Correlation Heatmap")
	corr = df.corr()
	plt.figure(figsize=(10, 8))
	sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", cbar=True)
	st.pyplot(plt)

	# Save heatmap as PNG
	buf = BytesIO()
	plt.savefig(buf, format="png")
	buf.seek(0)
	st.download_button(
	label="Download Correlation Heatmap as PNG",
	data=buf,
	file_name="correlation_heatmap.png",
	mime="image/png"
	)

	# Highlight highly correlated pairs
	st.subheader("Highly Correlated Features")
	high_corr = corr.abs().unstack().sort_values(ascending=False).drop_duplicates()
	high_corr = high_corr[high_corr.index.get_level_values(0) != high_corr.index.get_level_values(1)]
	high_corr_df = pd.DataFrame(high_corr, columns=["Correlation"])
	st.dataframe(high_corr_df)

	# Download correlation table as CSV
	st.download_button(
	label="Download Correlation Table (CSV)",
	data=high_corr_df.to_csv(index=True),
	file_name="correlation_table.csv",
	mime="text/csv"
	)

	# Select target variable
	target = st.selectbox("Select Target Variable", df.columns)
	features = [col for col in df.columns if col != target]
	X = df[features]
	y = df[target]

	if len(y.unique()) > 1: # Ensure the target variable has at least two unique classes/values
	if y.dtype == 'object' or len(y.unique()) <= 10: # Classification
	st.subheader("Classification Model Training")
	classifiers = {
	'Logistic Regression': LogisticRegression(max_iter=2000),
	'Decision Tree': DecisionTreeClassifier(),
	'Random Forest': RandomForestClassifier(),
	'Support Vector Machine (SVM)': SVC(),
	'K-Nearest Neighbors (k-NN)': KNeighborsClassifier(),
	'Naive Bayes': GaussianNB()
	}

	metrics = []
	train_size = st.slider("Select Training Size", min_value=0.1, max_value=0.9, value=0.8)
	X_train, X_test, y_train, y_test = train_test_split(
	X, y, test_size=1-train_size, stratify=y, random_state=42
	)

	for name, classifier in classifiers.items():
	classifier.fit(X_train, y_train)
	y_pred = classifier.predict(X_test)
	metrics.append({
	'Model': name,
	'Accuracy': round(accuracy_score(y_test, y_pred), 2),
	'Precision': round(precision_score(y_test, y_pred, zero_division=1, average='macro'), 2),
	'Recall': round(recall_score(y_test, y_pred, zero_division=1, average='macro'), 2),
	'F1-Score': round(f1_score(y_test, y_pred, zero_division=1, average='macro'), 2)
	})

	metrics_df = pd.DataFrame(metrics)
	st.subheader("Classification Model Performance Metrics")
	st.dataframe(metrics_df)

	# Save metrics as PNG (table form)
	fig, ax = plt.subplots(figsize=(8, 4))
	ax.axis('tight')
	ax.axis('off')
	table = plt.table(cellText=metrics_df.values, colLabels=metrics_df.columns, cellLoc='center', loc='center')
	table.auto_set_font_size(False)
	table.set_fontsize(10)
	table.auto_set_column_width(col=list(range(len(metrics_df.columns))))
	buf = BytesIO()
	fig.savefig(buf, format="png")
	buf.seek(0)
	st.download_button(
	label="Download Classification Metrics Table as PNG",
	data=buf,
	file_name="classification_metrics_table.png",
	mime="image/png"
	)

	# Visualization (Bar Graphs for Classification)
	st.subheader("Classification Model Performance Metrics Graph")
	metrics_df.set_index('Model', inplace=True)
	ax = metrics_df.plot(kind='bar', figsize=(10, 6), colormap='coolwarm', rot=45)
	plt.title("Classification Models - Performance Metrics")
	plt.ylabel("Scores")
	plt.xlabel("Models")
	st.pyplot(plt)

	# Download button for the bar graph
	buf = BytesIO()
	ax.figure.savefig(buf, format="png")
	buf.seek(0)
	st.download_button(
	label="Download Classification Performance Graph as PNG",
	data=buf,
	file_name="classification_performance_graph.png",
	mime="image/png"
	)

	else: # Regression
	st.subheader("Regression Model Training")
	regressors = {
	'Linear Regression': LinearRegression(),
	'Decision Tree Regressor': DecisionTreeRegressor(),
	'Random Forest Regressor': RandomForestRegressor(),
	'Support Vector Regressor (SVR)': SVR(),
	'K-Nearest Neighbors Regressor (k-NN)': KNeighborsRegressor()
	}

	regression_metrics = []
	train_size = st.slider("Select Training Size", min_value=0.1, max_value=0.9, value=0.8)
	X_train, X_test, y_train, y_test = train_test_split(
	X, y, test_size=1-train_size, random_state=42
	)

	for name, regressor in regressors.items():
	regressor.fit(X_train, y_train)
	y_pred = regressor.predict(X_test)
	regression_metrics.append({
	'Model': name,
	'Mean Squared Error (MSE)': round(mean_squared_error(y_test, y_pred), 2),
	'Mean Absolute Error (MAE)': round(mean_absolute_error(y_test, y_pred), 2),
	'R² Score': round(r2_score(y_test, y_pred), 2)
	})

	regression_metrics_df = pd.DataFrame(regression_metrics)
	st.subheader("Regression Model Performance Metrics")
	st.dataframe(regression_metrics_df)

	# Save metrics as PNG (table form)
	fig, ax = plt.subplots(figsize=(8, 4))
	ax.axis('tight')
	ax.axis('off')
	table = plt.table(cellText=regression_metrics_df.values, colLabels=regression_metrics_df.columns, cellLoc='center', loc='center')
	table.auto_set_font_size(False)
	table.set_fontsize(10)
	table.auto_set_column_width(col=list(range(len(regression_metrics_df.columns))))
	buf = BytesIO()
	fig.savefig(buf, format="png")
	buf.seek(0)
	st.download_button(
	label="Download Regression Metrics Table as PNG",
	data=buf,
	file_name="regression_metrics_table.png",
	mime="image/png"
	)

	# Visualization (Bar Graphs for Regression)
	st.subheader("Regression Model Performance Metrics Graph")
	regression_metrics_df.set_index('Model', inplace=True)
	ax = regression_metrics_df.plot(kind='bar', figsize=(10, 6), colormap='coolwarm', rot=45)
	plt.title("Regression Models - Performance Metrics")
	plt.ylabel("Scores")
	plt.xlabel("Models")
	st.pyplot(plt)

	# Download button for the bar graph
	buf = BytesIO()
	ax.figure.savefig(buf, format="png")
	buf.seek(0)
	st.download_button(
	label="Download Regression Performance Graph as PNG",
	data=buf,
	file_name="regression_performance_graph.png",
	mime="image/png"
	)
	else:
	st.error("The target variable must contain at least two unique values for classification or regression. Please check your dataset.")