Spaces:

Liviox24
/

LoanEligibilityPrediction

Runtime error

App Files Files Community

Liviox24 commited on Jul 2, 2022

Commit

d9ceac2

•

1 Parent(s): c557eae

Create app.py

Browse files

Files changed (1) hide show

app.py +433 -0

app.py ADDED Viewed

	@@ -0,0 +1,433 @@

+# -*- coding: utf-8 -*-
+"""LoanEligibilityPrediction.ipynb
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/15wGr9tHgIq7Ua4af83Z0UqfAsH8dyOEZ
+# IMPORT LIBRERIE
+"""
+# Commented out IPython magic to ensure Python compatibility.
+import numpy as np
+import pandas as pd
+import seaborn as sns
+import gradio as gr
+import matplotlib.pyplot as plt
+# %matplotlib inline
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import MinMaxScaler
+from sklearn.preprocessing import StandardScaler
+"""# COLLEZIONE DATI"""
+url = "https://raw.githubusercontent.com/livio-24/LoanEligibilityPrediction/main/dataset.csv"
+#caricamento dataset in un pandas dataframe
+dataset = pd.read_csv(url)
+"""# EXPLORATORY DATA ANALYSIS"""
+#prime 5 righe
+dataset.head()
+#numero righe e colonne
+dataset.shape
+dataset.describe()
+#misure statistiche
+#info sulle colonne
+#5 variabili numeriche e 8 variabili categoriche
+dataset.info()
+#Distribuzione variabile target
+dataset['Loan_Status'].value_counts()
+# numero di valori mancanti in ogni colonna
+# verranno gestiti successivamente nella fase di data cleaning
+dataset.isnull().sum()
+#eliminiamo colonna Loan_ID perché inutile
+dataset.drop(columns='Loan_ID', axis = 1, inplace=True)
+dataset.head()
+"""**DATA VISUALIZATION - ANALISI UNIVARIATA**
+VARIABILI CATEGORICHE
+"""
+#visualizzazione valori variabili catagoriche in percentuale
+dataset['Gender'].value_counts(normalize=True).plot.bar(title='Gender')
+plt.show()
+dataset['Married'].value_counts(normalize=True).plot.bar(title='Married')
+plt.show()
+dataset['Self_Employed'].value_counts(normalize=True).plot.bar(title='Self_Employed')
+plt.show()
+dataset['Credit_History'].value_counts(normalize=True).plot.bar(title='Credit_History')
+plt.show()
+"""Risultati:
+- 80% dei candidati nel dataset è maschio
+- Circa il 65% dei candidati nel dataset è sposato/a
+- Circa il 15% lavora in proprio
+- Circa l'85% ha ripagato i propri debiti
+VARIABILI ORDINALI
+"""
+#visualizzazione valori variabili ordinali in percentuale
+dataset['Dependents'].value_counts(normalize=True).plot.bar(title='Dependents')
+plt.show()
+dataset['Education'].value_counts(normalize=True).plot.bar(title='Education')
+plt.show()
+dataset['Property_Area'].value_counts(normalize=True).plot.bar(title='Property_Area')
+plt.show()
+"""Risultati:
+- La maggior parte dei candidati non ha familiari dipendenti
+- Circa l'80% dei candidati ha una laurea
+- La maggior parte dei candidati vive in un'area semiurbana
+VARIABILI NUMERICHE
+"""
+#visualizzazione distribuzione variabile 'ApplicantIncome'
+sns.distplot(dataset['ApplicantIncome'])
+plt.show()
+#boxplot per individuazione outliers
+dataset.boxplot(['ApplicantIncome'])
+plt.show()
+#visualizzazione distribuzione variabile 'CoapplicantIncome'
+sns.distplot(dataset['CoapplicantIncome'])
+plt.show()
+#boxplot per individuazione outliers
+dataset.boxplot(['CoapplicantIncome'])
+plt.show()
+#visualizzazione distribuzione variabile 'LoanAmount'
+sns.distplot(dataset['LoanAmount'])
+plt.show()
+dataset.boxplot(['LoanAmount'])
+plt.show()
+#dataset['LoanAmount'].hist(bins=20)
+#visualizzazione distribuzione variabile 'Loan_Amount_Term'
+sns.distplot(dataset['Loan_Amount_Term'])
+plt.show()
+dataset.boxplot(['Loan_Amount_Term'])
+plt.show()
+"""La maggior parte delle features numeriche ha degli outliers
+**Matrice di correlazione**
+"""
+correlation_matrix = dataset.corr()
+# heat map per visualizzare matrice di correlazione
+sns.heatmap(correlation_matrix, cbar=True, fmt='.1f', annot=True, cmap='coolwarm')
+#plt.savefig('Correlation Heat map', bbox_inches='tight')
+"""Non ci sono molte variabili correlate tra di loro, le uniche due sono ApplicantIncome - LoanAmount"""
+#conversione variabili categoriche in numeriche
+dataset.replace({'Gender':{'Male':0, 'Female':1}, 'Married' :{'No':0, 'Yes':1}, 'Education':{'Not Graduate':0, 'Graduate':1}, 'Self_Employed':{'No':0, 'Yes':1}, 'Property_Area':{'Rural':0, 'Urban':1, 'Semiurban':2}, 'Loan_Status':{'N':0, 'Y':1}}, inplace = True)
+# replacing the value of 3+ to 4
+dataset['Dependents'].replace(to_replace='3+', value=4, inplace=True)
+"""# DATA CLEANING
+**CONTROLLO VALORI MANCANTI**
+"""
+dataset.isnull().sum()
+#Sostituiamo i valori mancanti con la moda per le variabili categoriche
+dataset['Gender'].fillna(dataset['Gender'].mode()[0], inplace=True)
+dataset['Married'].fillna(dataset['Married'].mode()[0], inplace=True)
+dataset['Dependents'].fillna(dataset['Dependents'].mode()[0], inplace=True)
+dataset['Self_Employed'].fillna(dataset['Self_Employed'].mode()[0], inplace=True)
+dataset['Credit_History'].fillna(dataset['Credit_History'].mode()[0], inplace=True)
+#Utilizziamo la mediana poiché la variabile ha degli outliers, quindi non è un buon approccio utilizzare la media
+dataset['LoanAmount'].fillna(dataset['LoanAmount'].median(), inplace=True)
+#dataset['LoanAmount'].fillna(dataset['LoanAmount'].mean(), inplace=True)
+dataset['Loan_Amount_Term'].value_counts()
+#Nella variabile Loan_Amount_Term possiamo notare che 360 è il valore che si ripete di più, quindi utilizziamo la moda
+dataset['Loan_Amount_Term'].fillna(dataset['Loan_Amount_Term'].mode()[0], inplace=True)
+dataset.isnull().sum()
+#Per trasformare Dtype di Dependents in int
+dataset['Dependents'] = dataset['Dependents'].astype(str).astype(int)
+dataset.info()
+"""**GESTIONE OUTLIERS**"""
+fig, axs = plt.subplots(2, 2, figsize=(10, 8))
+#Distribuzioni prima di applicare log
+sns.histplot(data=dataset, x="ApplicantIncome", kde=True, ax=axs[0, 0], color='green')
+sns.histplot(data=dataset, x="CoapplicantIncome", kde=True, ax=axs[0, 1], color='skyblue')
+sns.histplot(data=dataset, x="LoanAmount", kde=True, ax=axs[1, 0], color='orange')
+# Log Transformation per normalizzare la distribuzione
+dataset.ApplicantIncome = np.log(dataset.ApplicantIncome)
+dataset.CoapplicantIncome = np.log(dataset.CoapplicantIncome + 1)
+dataset.LoanAmount = np.log(dataset.LoanAmount)
+fig, axs = plt.subplots(2, 2, figsize=(10, 8))
+#Distribuzioni dopo aver applicato log
+sns.histplot(data=dataset, x="ApplicantIncome", kde=True, ax=axs[0, 0], color='green')
+sns.histplot(data=dataset, x="CoapplicantIncome", kde=True, ax=axs[0, 1], color='skyblue')
+sns.histplot(data=dataset, x="LoanAmount", kde=True, ax=axs[1, 0], color='orange')
+"""Possiamo notare che la distribuzione è migliorata dopo aver applicato il logaritmo
+# SPLIT DATASET
+"""
+#definizione variabili dipendenti e indipendenti
+x = dataset.drop('Loan_Status', axis = 1)
+y = dataset['Loan_Status']
+#split dataset
+X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42, stratify = y)
+print("X_train dataset: ", X_train.shape)
+print("y_train dataset: ", y_train.shape)
+print("X_test dataset: ", X_test.shape)
+print("y_test dataset: ", y_test.shape)
+y_test.value_counts()
+#Distribuzione della variabile dipendente
+plt.figure(figsize=(5,5))
+pd.value_counts(dataset['Loan_Status']).plot.bar()
+plt.xlabel('Loan_Status')
+plt.ylabel('Frequency')
+dataset['Loan_Status'].value_counts()
+plt.savefig('target_distr', bbox_inches='tight')
+"""# DATA SCALING"""
+#Normalizzazione
+scaler = MinMaxScaler(feature_range=(0, 1))
+X_train = scaler.fit_transform(X_train)
+X_test = scaler.fit_transform(X_test)
+#z-score
+#scaler = StandardScaler()
+#X_train=scaler.fit_transform(X_train)
+#X_test=scaler.transform(X_test)
+df = pd.DataFrame(X_train, columns = x.columns)
+df
+"""# FEATURE SELECTION"""
+#feature selection supervisionata
+from sklearn.feature_selection import SelectKBest
+from sklearn.feature_selection import chi2, f_classif
+from numpy import set_printoptions
+fs = SelectKBest(score_func=chi2,k=5)
+fs.fit_transform(X_train, y_train)
+X_new_train = fs.transform(X_train)
+X_new_test = fs.transform(X_test)
+print(X_new_train.shape)
+x.columns[fs.get_support(indices=True)]
+print("features selezionate: ", x.columns[fs.get_support(indices=True)].tolist())
+"""# COSTRUZIONE MODELLI"""
+models = []
+precision = []
+accuracy = []
+recall = []
+f1 = []
+"""**LOGISTIC REGRESSION**"""
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import classification_report, confusion_matrix, plot_confusion_matrix, accuracy_score ,recall_score, precision_score, f1_score
+logisticRegr = LogisticRegression()
+logisticRegr.fit(X_new_train, y_train)
+y_train_pred = logisticRegr.predict(X_new_train)
+y_test_pred = logisticRegr.predict(X_new_test)
+fig, ax = plt.subplots(figsize=(8, 8))
+plot_confusion_matrix(logisticRegr, X_new_test, y_test, ax=ax)
+plt.show()
+#print(confusion_matrix(y_test, y_test_pred))
+#Risultati ottenuti
+print(classification_report(y_test, y_test_pred))
+print("Accuracy on training data:",accuracy_score(y_train, y_train_pred))
+print("Accuracy on test data:",accuracy_score(y_test, y_test_pred))
+models.append('Logistic Regression')
+accuracy.append(accuracy_score(y_test, y_test_pred))
+recall.append(recall_score(y_test, y_test_pred))
+precision.append(precision_score(y_test, y_test_pred))
+f1.append(f1_score(y_test, y_test_pred))
+"""**DECISION TREE**"""
+from sklearn.tree import DecisionTreeClassifier
+tree_model = DecisionTreeClassifier( random_state=42)
+tree_model.fit(X_new_train, y_train)
+y_train_pred = tree_model.predict(X_new_train)
+y_test_pred = tree_model.predict(X_new_test)
+fig, ax = plt.subplots(figsize=(8, 8))
+plot_confusion_matrix(logisticRegr, X_new_test, y_test, ax=ax)
+plt.show()
+print(classification_report(y_test, y_test_pred))
+print("Accuracy on training data:",accuracy_score(y_train, y_train_pred))
+print("Accuracy on test data:",accuracy_score(y_test, y_test_pred))
+models.append('Decision Tree')
+accuracy.append(accuracy_score(y_test, y_test_pred))
+recall.append(recall_score(y_test, y_test_pred))
+precision.append(precision_score(y_test, y_test_pred))
+f1.append(f1_score(y_test, y_test_pred))
+"""**NAIVE BAYES**"""
+from sklearn.naive_bayes import  GaussianNB
+NB = GaussianNB()
+NB.fit(X_new_train, y_train)
+y_train_pred = NB.predict(X_new_train)
+y_test_pred = NB.predict(X_new_test)
+fig, ax = plt.subplots(figsize=(8, 8))
+plot_confusion_matrix(NB, X_new_test, y_test, ax=ax)
+plt.show()
+print(classification_report(y_test, y_test_pred))
+print("Accuracy on training data:",accuracy_score(y_train, y_train_pred))
+print("Accuracy on test data:",accuracy_score(y_test, y_test_pred))
+models.append('Naive Bayes')
+accuracy.append(accuracy_score(y_test, y_test_pred))
+recall.append(recall_score(y_test, y_test_pred))
+precision.append(precision_score(y_test, y_test_pred))
+f1.append(f1_score(y_test, y_test_pred))
+"""**RANDOM FOREST**"""
+from sklearn.ensemble import RandomForestClassifier
+RandomForest = RandomForestClassifier()
+RandomForest.fit(X_new_train, y_train)
+y_train_pred = RandomForest.predict(X_new_train)
+y_test_pred = RandomForest.predict(X_new_test)
+fig, ax = plt.subplots(figsize=(8, 8))
+plot_confusion_matrix(RandomForest, X_new_test, y_test, ax=ax)
+plt.show()
+print(classification_report(y_test, y_test_pred))
+print("Accuracy on training data:",accuracy_score(y_train, y_train_pred))
+print("Accuracy on test data:",accuracy_score(y_test, y_test_pred))
+models.append('Random Forest')
+accuracy.append(accuracy_score(y_test, y_test_pred))
+recall.append(recall_score(y_test, y_test_pred))
+precision.append(precision_score(y_test, y_test_pred))
+f1.append(f1_score(y_test, y_test_pred))
+"""**XGBOOST**"""
+from xgboost import XGBClassifier
+XGB = XGBClassifier()
+XGB.fit(X_new_train, y_train)
+y_train_pred = XGB.predict(X_new_train)
+y_test_pred = XGB.predict(X_new_test)
+fig, ax = plt.subplots(figsize=(8, 8))
+plot_confusion_matrix(XGB, X_new_test, y_test, ax=ax)
+plt.show()
+print(classification_report(y_test, y_test_pred))
+print("Accuracy on training data:",accuracy_score(y_train, y_train_pred))
+print("Accuracy on test data:",accuracy_score(y_test, y_test_pred))
+models.append('XGBoost')
+accuracy.append(accuracy_score(y_test, y_test_pred))
+recall.append(recall_score(y_test, y_test_pred))
+precision.append(precision_score(y_test, y_test_pred))
+f1.append(f1_score(y_test, y_test_pred))
+"""**CONFRONTO METRICHE**"""
+compare = pd.DataFrame({'Model': models,
+                        'Accuracy': accuracy,
+                        'Precision': precision,
+                        'Recall': recall,
+                        'f1_score': f1})
+compare.sort_values(by='Accuracy', ascending=False)
+#print(compare.to_latex())
+def loan(Gender,	Married, Dependents, Education,	Self_Employed,	ApplicantIncome,	CoapplicantIncome,	LoanAmount,	Loan_Amount_Term,	Credit_History,	Property_Area):
+#turning the arguments into a numpy array
+  Marr = 0 if Married == 'No' else 1
+  Educ = 0 if Education == 'Not Graduate' else 1
+  CredHis = 0 if Credit_History == '0: bad credit history' else  1
+  Dep = 4 if Dependents == '3+' else Dependents
+  if Property_Area == 'Rural': PA = 0
+  elif Property_Area == 'Urban': PA = 1
+  else: PA = 2
+  x = np.array([Marr, Educ, CoapplicantIncome, CredHis,	PA])
+  #reshaping into 2D array
+  x_resh = x.reshape(1,-1)
+  prediction = logisticRegr.predict(scaler.transform(x_resh))
+  return ("Loan approved" if prediction[0] == 1 else "Loan not approved")
+app = gr.Interface(fn=loan,
+                   inputs=[gr.Radio(['Male', 'Female']),
+                           gr.Radio(['Yes', 'No']),
+                           gr.Radio(['0', '1', '2', '3+']),
+                           gr.Radio(['Graduate', 'Not Graduate']),
+                           gr.Radio(['Yes', 'No']),
+                           "number",
+                           "number",
+                           "number",
+                           "number",
+                           gr.Radio(['0: bad credit history', '1: good credit history']),
+                           gr.Radio(['Urban', 'Semiurban', 'Rural'])],
+                    outputs="text",
+                    title = "Loan Eligibility Prediction")
+app.launch(debug=True)