Spaces:

thov
/

AutoML

Running

App Files Files Community

thov commited on Dec 21, 2023

Commit

8496c78

•

1 Parent(s): 8bca716

add 1D & 2D partial dependencies for regression tasks

Browse files

Files changed (2) hide show

autoML.py +73 -4
requirements.txt +1 -0

autoML.py CHANGED Viewed

@@ -1,10 +1,13 @@
 import os
 import streamlit as st
 import pandas as pd
 import numpy as np
 from flaml import AutoML
 from flaml.automl.data import get_output_from_log
 import pickle
 import plotly.express as px
 import base64
 import time
@@ -13,6 +16,7 @@ from sklearn.pipeline import Pipeline
 from sklearn.impute import SimpleImputer
 from sklearn.preprocessing import StandardScaler, OneHotEncoder
 from sklearn.inspection import permutation_importance
 def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimize_reg):
@@ -21,7 +25,6 @@ def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimiz
     time.sleep(0.5)
     df = pd.read_csv(csv)
-    print(df)
     df_features = df[df.columns.difference([label])]
     y = df[label]
@@ -82,7 +85,7 @@ def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimiz
     time.sleep(0.5)
     my_bar.empty()
-    tab1, tab2 = st.tabs(["AutoML", "Best Model"])
     with tab1:
@@ -144,8 +147,8 @@ def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimiz
         df_features_importance = pd.DataFrame({'features name': df_features.columns,
                                                 'features importance': perm_importance["importances_mean"],
-                                                'std error': perm_importance["importances_std"]})
         fig_features = px.bar(df_features_importance,
                               x='features importance',
                               y='features name',
@@ -163,5 +166,71 @@ def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimiz
         download_model(automl)
     if os.path.isfile('datasets/temp_file.csv'):
         os.remove('datasets/temp_file.csv')

 import os
+from itertools import combinations
 import streamlit as st
 import pandas as pd
 import numpy as np
 from flaml import AutoML
 from flaml.automl.data import get_output_from_log
 import pickle
+import matplotlib.pyplot as plt
 import plotly.express as px
 import base64
 import time
 from sklearn.impute import SimpleImputer
 from sklearn.preprocessing import StandardScaler, OneHotEncoder
 from sklearn.inspection import permutation_importance
+from sklearn.inspection import PartialDependenceDisplay
 def autoML(csv, task, budget, label, metric_to_minimize_class, metric_to_minimize_reg):
     time.sleep(0.5)
     df = pd.read_csv(csv)
     df_features = df[df.columns.difference([label])]
     y = df[label]
     time.sleep(0.5)
     my_bar.empty()
+    tab1, tab2, tab3 = st.tabs(["AutoML", "Best Model", "Partial Dependence"])
     with tab1:
         df_features_importance = pd.DataFrame({'features name': df_features.columns,
                                                 'features importance': perm_importance["importances_mean"],
+                                                'std error': perm_importance["importances_std"]}).sort_values('features importance', ascending=True)
         fig_features = px.bar(df_features_importance,
                               x='features importance',
                               y='features name',
         download_model(automl)
+    with tab3:
+        with st.container():
+            st.subheader('1D Partial Dependance for the three most important features')
+            l_col_1D = list(st.columns((1,1,1)))
+            common_params = {
+                        "subsample": 25,
+                        "n_jobs": 2,
+                        "grid_resolution": 20,
+                        "random_state": 0
+                    }
+            most_important_features = list(df_features_importance.iloc[-3:]['features name'])
+            for i, col in enumerate(l_col_1D):
+                with col:
+                    features_info = {
+                        "features": [most_important_features[i]],
+                        "kind": "average",
+                        "categorical_features": cat_cols
+                    }
+                    _, ax = plt.subplots(ncols=1, constrained_layout=True)
+                    display = PartialDependenceDisplay.from_estimator(
+                        pipeline,
+                        df_features,
+                        **features_info,
+                        ax=ax,
+                        **common_params,
+                    )
+                    st.pyplot(display.figure_)
+        st.divider()
+        with st.container():
+            st.subheader('2D Partial Dependance for the three most important features')
+            l_col_2D = list(st.columns((1,1,1)))
+            most_important_features_comb = list(combinations(most_important_features, 2))
+            for i, col in enumerate(l_col_2D):
+                with col:
+                    features_info = {
+                        "features": [most_important_features_comb[i]],
+                        "kind": "average"
+                    }
+                    _, ax = plt.subplots(ncols=1, constrained_layout=True)
+                    with st.spinner(f'Compute partial dependeces with {most_important_features_comb[i][0]} and {most_important_features_comb[i][1]}'):
+                        display = PartialDependenceDisplay.from_estimator(
+                            pipeline,
+                            df_features,
+                            **features_info,
+                            ax=ax,
+                            **common_params,
+                        )
+                    st.pyplot(display.figure_)
     if os.path.isfile('datasets/temp_file.csv'):
         os.remove('datasets/temp_file.csv')

requirements.txt CHANGED Viewed

@@ -4,3 +4,4 @@ numpy
 scikit-learn
 flaml[automl]
 plotly

 scikit-learn
 flaml[automl]
 plotly
+matplotlib