Spaces:

olivermueller
/

germancredit

Sleeping

App Files Files Community

olivermueller commited on Apr 17, 2023

Commit

701c14e

•

1 Parent(s): 09db070

New dataset

Browse files

Files changed (4) hide show

app.py +39 -18
german_credit.csv +0 -0
german_credit_from_r.csv +0 -0
tree.png +0 -0

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import streamlit as st
 import pandas as pd
 from sklearn.model_selection import train_test_split
 from sklearn.pipeline import Pipeline
 from sklearn.preprocessing import StandardScaler, OneHotEncoder
@@ -10,17 +11,15 @@ from sklearn.tree import DecisionTreeClassifier, plot_tree
 import matplotlib as plt
 from sklearn import metrics
 import graphviz as graphviz
 # load data
-data = pd.read_csv('german_credit.csv')
-data.drop('Unnamed: 0', axis=1, inplace=True)
-# recode label
-data['Credit_risk'] = data['Credit_risk'].map({1: 'low', 2: 'high'})
-# replace missing values
-data['Saving_accounts'].fillna('unknown', inplace=True)
-data['Checking_account'].fillna('unknown', inplace=True)
 # extract variable names
 vars = data.columns.tolist()
@@ -53,10 +52,13 @@ data
 #st.divider()
 # header: predictors
 st.header('Predictors')
 st.write('Please select up to 3 predictors:')
-selected = st.multiselect(
-    '', vars, max_selections=3)
 #st.divider()
 # header: model
@@ -64,13 +66,11 @@ st.header('Model')
 X_train_f = X_train.loc[:, selected]
-numeric_features = ["Age", "Job", "Credit_amount", "Duration"]
 numeric_features_selected = list(set(selected) & set(numeric_features))
 numeric_transformer = Pipeline(
     steps=[("imputer", SimpleImputer())]
 )
-categorical_features = ["Sex", "Housing", "Saving_accounts", "Checking_account", "Purpose"]
 categorical_features_selected = list(set(selected) & set(categorical_features))
 categorical_transformer = Pipeline(
     steps=[
@@ -87,20 +87,41 @@ preprocessor = ColumnTransformer(
 if selected == []:
     st.write('Please select at least 1 predictor.')
 else:
-    pipe = Pipeline([("preprocessor", preprocessor), ('classifier', tree.DecisionTreeClassifier(max_depth=2))])
     pipe.fit(X_train_f, y_train)
-    mytree = tree.export_graphviz(pipe.named_steps["classifier"], out_file=None)
     st.graphviz_chart(mytree)
 #st.divider()
 # header: accuracy
 st.header('Accuracy')
-try:
-    score = pipe.score(X_test, y_test)
-    score
-except:
     st.write('Please select at least 1 predictor.')
 #st.divider()

 import streamlit as st
 import pandas as pd
+import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.pipeline import Pipeline
 from sklearn.preprocessing import StandardScaler, OneHotEncoder
 import matplotlib as plt
 from sklearn import metrics
 import graphviz as graphviz
+import dtreeviz
+import collections
+import pydotplus
 # load data
+data = pd.read_csv('german_credit_from_r.csv')
+# recode credit risk
+data['Credit_risk'] = data['Credit_risk'].map({'GOOD': 0, 'BAD': 1})
 # extract variable names
 vars = data.columns.tolist()
 #st.divider()
 # header: predictors
+numeric_features = ["Duration", "Credit_amount", "Installment_rate", "Resident_since", "Age", "Existing_credits", "People_maintenance_for"]
+categorical_features = ["Account_status", "Credit_history", "Purpose", "Savings_bonds", "Present_employment_since", "Other_debtors_guarantors", "Property", "Other_installment_plans", "Housing", "Job", "Telephone", "Foreign_worker", "Gender"]
+#categorical_features = []
 st.header('Predictors')
 st.write('Please select up to 3 predictors:')
+selected = st.multiselect('', numeric_features+categorical_features, max_selections=3)
 #st.divider()
 # header: model
 X_train_f = X_train.loc[:, selected]
 numeric_features_selected = list(set(selected) & set(numeric_features))
 numeric_transformer = Pipeline(
     steps=[("imputer", SimpleImputer())]
 )
 categorical_features_selected = list(set(selected) & set(categorical_features))
 categorical_transformer = Pipeline(
     steps=[
 if selected == []:
     st.write('Please select at least 1 predictor.')
 else:
+    maxd = st.slider('Max depth', min_value=1, max_value=10, value=2, step=1)
+    pipe = Pipeline([("preprocessor", preprocessor), ('classifier', tree.DecisionTreeClassifier(max_depth=maxd))])
     pipe.fit(X_train_f, y_train)
+    fn = pipe[:-1].get_feature_names_out()
+    fn = [item.replace("cat__", "").replace("num__", "") for item in fn]
+    labels = pipe.named_steps["classifier"].classes_
+    labels = [str(item) for item in labels]
+    mytree = tree.export_graphviz(pipe.named_steps["classifier"],
+                                  feature_names = fn,
+                                  class_names=labels,
+                                  label = 'none',
+                                  filled = True,
+                                  leaves_parallel = True,
+                                  impurity= False,
+                                  proportion = True,
+                                  rotate=False,
+                                  out_file=None)
     st.graphviz_chart(mytree)
 #st.divider()
 # header: accuracy
 st.header('Accuracy')
+if selected == []:
     st.write('Please select at least 1 predictor.')
+else:
+    preds = pd.DataFrame(pipe.predict_proba(X_test))
+    preds.columns = ['prob_0', 'prob_1']
+    fpr, tpr, thresholds = metrics.roc_curve(y_test, preds["prob_1"], pos_label=1)
+    st.write('AUC: ', np.round(metrics.auc(fpr, tpr),3))
+    st.write('Precision: ', np.round(metrics.precision_score(y_test, pipe.predict(X_test)),3))
+    st.write('Recall: ', np.round(metrics.recall_score(y_test, pipe.predict(X_test)),3))
 #st.divider()

german_credit.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

german_credit_from_r.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

tree.png ADDED Viewed