{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 1. Introduction\n",
    "\n",
    "This notebook was written to train Porto Alegre Traffic Accidents Data after the first cleaning, processing, and transforming step. This was made in a notebook in the `data` folder. In truth, we will have 3 models.\n",
    "\n",
    "1. Predict the probability of injured people.\n",
    "\n",
    "2. Predict the probability of seriously injured people.\n",
    "\n",
    "3. Predict the probability of dead people in the event or after it.\n",
    "\n",
    "The path to training the models will be the same, just make some filtering on data and analyze the results properly."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 2. Data Loading"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "      <th>2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>latitude</th>\n",
       "      <td>-30.009614</td>\n",
       "      <td>-30.0403</td>\n",
       "      <td>-30.069</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>longitude</th>\n",
       "      <td>-51.185581</td>\n",
       "      <td>-51.1958</td>\n",
       "      <td>-51.1437</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>feridos</th>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>feridos_gr</th>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>fatais</th>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>caminhao</th>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>moto</th>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>cars</th>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>transport</th>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>others</th>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>holiday</th>\n",
       "      <td>False</td>\n",
       "      <td>True</td>\n",
       "      <td>True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_1</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_2</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_3</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_4</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_5</th>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>day_6</th>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_1</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_2</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_3</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_4</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_5</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_6</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_7</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_8</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_9</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_10</th>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_11</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_12</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_13</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_14</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_15</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_16</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_17</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_18</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_19</th>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_20</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_21</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_22</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>hour_23</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>type_ATROPELAMENTO</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>type_CHOQUE</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>type_COLISÃO</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>type_OUTROS</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                            0        1        2\n",
       "latitude           -30.009614 -30.0403  -30.069\n",
       "longitude          -51.185581 -51.1958 -51.1437\n",
       "feridos                  True     True     True\n",
       "feridos_gr              False    False    False\n",
       "fatais                  False    False    False\n",
       "caminhao                False    False    False\n",
       "moto                     True     True    False\n",
       "cars                     True     True     True\n",
       "transport               False    False    False\n",
       "others                  False    False    False\n",
       "holiday                 False     True     True\n",
       "day_1                       0        0        0\n",
       "day_2                       0        0        0\n",
       "day_3                       0        0        0\n",
       "day_4                       0        0        0\n",
       "day_5                       1        0        0\n",
       "day_6                       0        1        1\n",
       "hour_1                      0        0        0\n",
       "hour_2                      0        0        0\n",
       "hour_3                      0        0        0\n",
       "hour_4                      0        0        0\n",
       "hour_5                      0        0        0\n",
       "hour_6                      0        0        0\n",
       "hour_7                      0        0        0\n",
       "hour_8                      0        0        0\n",
       "hour_9                      0        0        0\n",
       "hour_10                     0        1        0\n",
       "hour_11                     0        0        0\n",
       "hour_12                     0        0        0\n",
       "hour_13                     0        0        0\n",
       "hour_14                     0        0        0\n",
       "hour_15                     0        0        0\n",
       "hour_16                     0        0        0\n",
       "hour_17                     0        0        0\n",
       "hour_18                     0        0        0\n",
       "hour_19                     1        0        1\n",
       "hour_20                     0        0        0\n",
       "hour_21                     0        0        0\n",
       "hour_22                     0        0        0\n",
       "hour_23                     0        0        0\n",
       "type_ATROPELAMENTO          0        0        1\n",
       "type_CHOQUE                 0        0        0\n",
       "type_COLISÃO                0        0        0\n",
       "type_OUTROS                 0        0        0"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import os.path as path\n",
    "from pandas import read_csv\n",
    "\n",
    "file_csv =  path.abspath(\"../\")\n",
    "\n",
    "file_csv = path.join(file_csv, \"data\" ,\"accidents_trans.csv\")\n",
    "\n",
    "accidents_trans = read_csv(file_csv)\n",
    "\n",
    "accidents_trans.head(3).T"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 3. Data Preparation"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import joblib as jb # Use to save the model to deploy\n",
    "from sklearn.preprocessing import StandardScaler\n",
    "from sklearn.model_selection import train_test_split"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Our model to predict the probability of feridos will be create with 68218 rows and 41 features.\n"
     ]
    }
   ],
   "source": [
    "outputs = [\"feridos\", \"feridos_gr\", \"fatais\"]\n",
    "inputs = [col for col in accidents_trans.columns if col not in outputs]\n",
    "\n",
    "X = accidents_trans[inputs].copy()\n",
    "Y = accidents_trans[outputs].copy()\n",
    "\n",
    "# Filtering data considering the output\n",
    "output = \"feridos\"\n",
    "\n",
    "if output == \"feridos_gr\":\n",
    "    X = X[Y[\"feridos\"]]\n",
    "    Y = Y.loc[Y[\"feridos\"], \"feridos_gr\"]\n",
    "elif output == \"fatais\":\n",
    "    X = X[Y[\"feridos_gr\"]]\n",
    "    Y = Y.loc[Y[\"feridos_gr\"], \"fatais\"]\n",
    "else:\n",
    "    Y = Y[\"feridos\"]\n",
    "\n",
    "print(f\"Our model to predict the probability of \" \\\n",
    "      f\"{output} will be create with {X.shape[0]} \" \\\n",
    "      f\"rows and {X.shape[1]} features.\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "import csv\n",
    "\n",
    "with open(\"model_features.csv\", 'w') as f:\n",
    "    writer = csv.writer(f)\n",
    "    writer.writerow(X.columns)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Considering that we will use models scaling sensitive, we will need to scale our data first. Beside this, we will need to save our scaler for future use."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['c:\\\\Users\\\\grego\\\\OneDrive\\\\Documentos\\\\Documentos Pessoais\\\\00_DataCamp\\\\09_VSC\\\\poa_car_accidents\\\\poa_car_accidents\\\\model\\\\scaler_feridos.pkl']"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Setting the random state using my luck number :-)\n",
    "lucky_num = 7\n",
    "\n",
    "# X_train and y_train to train our model\n",
    "X_train, X_test, y_train, y_test = train_test_split(\n",
    "    X,\n",
    "    Y,\n",
    "    test_size=0.30,\n",
    "    random_state=lucky_num,\n",
    "    shuffle=True,  # Used because our data is sort by date\n",
    "    stratify=Y)  # Used because our data is unbalanced\n",
    "\n",
    "# Scaling\n",
    "scaler = StandardScaler()\n",
    "X_train = scaler.fit_transform(X_train)\n",
    "X_test = scaler.transform(X_test)\n",
    "\n",
    "# Saving scaler\n",
    "file_name = \"scaler_\" + output + '.pkl'\n",
    "jb.dump(scaler, path.join(path.abspath(\"./\"), file_name))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 4. Data Modeling\n",
    "\n",
    "We will create and use cross-validation to evaluate the following models:\n",
    "\n",
    "- Logistic Regression;\n",
    "\n",
    "- Gaussian Naive Bayes;\n",
    "\n",
    "- K Neighbors;\n",
    "\n",
    "- Random Forest;\n",
    "\n",
    "- Gradient Boosting; and,\n",
    "\n",
    "- XGBoost.\n",
    "\n",
    "We will use two scores to select and evaluate our models:\n",
    "\n",
    "- F1 score: composition between the precision (how much our model correct classify every true label) and recall (how moch our model correct indicate true labels); and,\n",
    "\n",
    "- Brier score: average between the correct and the predict probability.\n",
    "\n",
    "However, we will see other metrics to support our decision:\n",
    "\n",
    "- Accurancy;\n",
    "\n",
    "- ROC_AOC; and,\n",
    "\n",
    "- Log loss (an other way to quantify the quality of probability predictions).\n",
    "\n",
    "And, before you go, we will find for each model if there is a hyperparameter to deal with the unbalanced output."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import xgboost as xgb\n",
    "from sklearn.naive_bayes import GaussianNB\n",
    "from sklearn.neighbors import KNeighborsClassifier\n",
    "from sklearn.linear_model import LogisticRegression\n",
    "from sklearn.model_selection import cross_validate \n",
    "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier\n",
    "from sklearn.metrics import accuracy_score, recall_score, precision_score, roc_auc_score, f1_score, brier_score_loss, log_loss\n",
    "\n",
    "scores = [\"accuracy\", \"f1\", \"precision\", \"recall\", \"roc_auc\", \"neg_brier_score\",\"neg_log_loss\"]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "def eval_model(cls) -> tuple:\n",
    "    \"\"\"This function will calculate the metrics\n",
    "    to evaluate a classification model.\n",
    "    \"\"\"\n",
    "    # Predicting labels and probabilities\n",
    "    y_pred = cls.predict(X_test)\n",
    "    y_prob = cls.predict_proba(X_test)[:,1]\n",
    "\n",
    "    # Calculating scores\n",
    "    accurancy = accuracy_score(y_test, y_pred)\n",
    "    f1 = f1_score(y_test, y_pred)\n",
    "    recall = recall_score(y_test, y_pred)\n",
    "    precision = precision_score(y_test, y_pred)\n",
    "    roc_auc = roc_auc_score(y_test, y_prob)  # https://datascience.stackexchange.com/questions/114394/does-roc-auc-different-between-crossval-and-test-set-indicate-overfitting-or-oth\n",
    "    brier_score = brier_score_loss(y_test, y_prob)\n",
    "    log_loss_value = log_loss(y_test, y_prob)\n",
    "\n",
    "    return accurancy, f1, precision, recall, roc_auc, brier_score, log_loss_value\n",
    "\n",
    "def create_model(name: str, cls) -> list:\n",
    "    \"\"\"This function will create some models\n",
    "    and return scores to evaluate it.\"\"\"\n",
    "    # Ftting model\n",
    "    cls.fit(X_train, y_train)\n",
    "\n",
    "    # Using cross-validation to evaluate the model fitted\n",
    "    cls_cross = cross_validate(\n",
    "        estimator=cls,\n",
    "        X=X_train,\n",
    "        y=y_train,\n",
    "        cv=5,\n",
    "        scoring=scores)\n",
    "\n",
    "    df_cv = pd.DataFrame.from_dict(cls_cross, orient='index', columns=[\"CV\"+str(i) for i in range(1,6)])\n",
    "\n",
    "    # Calculating score to test set\n",
    "    accurancy, f1, precision, recall, roc_auc, brier_score, log_loss_value = eval_model(cls)\n",
    "\n",
    "    # Filling a dataframe to better presentation\n",
    "    df_cv.at[\"test_accuracy\", \"TestSet\"] = accurancy\n",
    "    df_cv.at[\"test_f1\", \"TestSet\"] = f1\n",
    "    df_cv.at[\"test_recall\", \"TestSet\"] = recall\n",
    "    df_cv.at[\"test_precision\", \"TestSet\"] = precision\n",
    "    df_cv.at[\"test_roc_auc\", \"TestSet\"] = roc_auc\n",
    "    df_cv.at[\"test_neg_brier_score\", \"TestSet\"] = -brier_score\n",
    "    df_cv.at[\"test_neg_log_loss\", \"TestSet\"] = -log_loss_value\n",
    "\n",
    "    caption = f\"{name} Validation Scores\"\n",
    "\n",
    "    display(df_cv.style.set_caption(caption))\n",
    "\n",
    "    return [accurancy, f1, precision, recall, roc_auc, brier_score, log_loss_value]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_31097\">\n",
       "  <caption>LR Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_31097_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_31097_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_31097_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_31097_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_31097_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_31097_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_31097_row0_col0\" class=\"data row0 col0\" >0.082354</td>\n",
       "      <td id=\"T_31097_row0_col1\" class=\"data row0 col1\" >0.080257</td>\n",
       "      <td id=\"T_31097_row0_col2\" class=\"data row0 col2\" >0.089329</td>\n",
       "      <td id=\"T_31097_row0_col3\" class=\"data row0 col3\" >0.094720</td>\n",
       "      <td id=\"T_31097_row0_col4\" class=\"data row0 col4\" >0.087742</td>\n",
       "      <td id=\"T_31097_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_31097_row1_col0\" class=\"data row1 col0\" >0.016066</td>\n",
       "      <td id=\"T_31097_row1_col1\" class=\"data row1 col1\" >0.017635</td>\n",
       "      <td id=\"T_31097_row1_col2\" class=\"data row1 col2\" >0.020100</td>\n",
       "      <td id=\"T_31097_row1_col3\" class=\"data row1 col3\" >0.018260</td>\n",
       "      <td id=\"T_31097_row1_col4\" class=\"data row1 col4\" >0.018356</td>\n",
       "      <td id=\"T_31097_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_31097_row2_col0\" class=\"data row2 col0\" >0.869228</td>\n",
       "      <td id=\"T_31097_row2_col1\" class=\"data row2 col1\" >0.868391</td>\n",
       "      <td id=\"T_31097_row2_col2\" class=\"data row2 col2\" >0.872356</td>\n",
       "      <td id=\"T_31097_row2_col3\" class=\"data row2 col3\" >0.869005</td>\n",
       "      <td id=\"T_31097_row2_col4\" class=\"data row2 col4\" >0.867539</td>\n",
       "      <td id=\"T_31097_row2_col5\" class=\"data row2 col5\" >0.865924</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_31097_row3_col0\" class=\"data row3 col0\" >0.817584</td>\n",
       "      <td id=\"T_31097_row3_col1\" class=\"data row3 col1\" >0.818116</td>\n",
       "      <td id=\"T_31097_row3_col2\" class=\"data row3 col2\" >0.823920</td>\n",
       "      <td id=\"T_31097_row3_col3\" class=\"data row3 col3\" >0.819611</td>\n",
       "      <td id=\"T_31097_row3_col4\" class=\"data row3 col4\" >0.817011</td>\n",
       "      <td id=\"T_31097_row3_col5\" class=\"data row3 col5\" >0.814469</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_31097_row4_col0\" class=\"data row4 col0\" >0.854135</td>\n",
       "      <td id=\"T_31097_row4_col1\" class=\"data row4 col1\" >0.846154</td>\n",
       "      <td id=\"T_31097_row4_col2\" class=\"data row4 col2\" >0.850582</td>\n",
       "      <td id=\"T_31097_row4_col3\" class=\"data row4 col3\" >0.844326</td>\n",
       "      <td id=\"T_31097_row4_col4\" class=\"data row4 col4\" >0.844498</td>\n",
       "      <td id=\"T_31097_row4_col5\" class=\"data row4 col5\" >0.843439</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_31097_row5_col0\" class=\"data row5 col0\" >0.784034</td>\n",
       "      <td id=\"T_31097_row5_col1\" class=\"data row5 col1\" >0.791877</td>\n",
       "      <td id=\"T_31097_row5_col2\" class=\"data row5 col2\" >0.798880</td>\n",
       "      <td id=\"T_31097_row5_col3\" class=\"data row5 col3\" >0.796301</td>\n",
       "      <td id=\"T_31097_row5_col4\" class=\"data row5 col4\" >0.791258</td>\n",
       "      <td id=\"T_31097_row5_col5\" class=\"data row5 col5\" >0.787423</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_31097_row6_col0\" class=\"data row6 col0\" >0.903418</td>\n",
       "      <td id=\"T_31097_row6_col1\" class=\"data row6 col1\" >0.904970</td>\n",
       "      <td id=\"T_31097_row6_col2\" class=\"data row6 col2\" >0.906377</td>\n",
       "      <td id=\"T_31097_row6_col3\" class=\"data row6 col3\" >0.902405</td>\n",
       "      <td id=\"T_31097_row6_col4\" class=\"data row6 col4\" >0.906939</td>\n",
       "      <td id=\"T_31097_row6_col5\" class=\"data row6 col5\" >0.904458</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_31097_row7_col0\" class=\"data row7 col0\" >-0.109808</td>\n",
       "      <td id=\"T_31097_row7_col1\" class=\"data row7 col1\" >-0.109221</td>\n",
       "      <td id=\"T_31097_row7_col2\" class=\"data row7 col2\" >-0.106382</td>\n",
       "      <td id=\"T_31097_row7_col3\" class=\"data row7 col3\" >-0.110939</td>\n",
       "      <td id=\"T_31097_row7_col4\" class=\"data row7 col4\" >-0.109709</td>\n",
       "      <td id=\"T_31097_row7_col5\" class=\"data row7 col5\" >-0.110435</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_31097_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_31097_row8_col0\" class=\"data row8 col0\" >-0.370200</td>\n",
       "      <td id=\"T_31097_row8_col1\" class=\"data row8 col1\" >-0.366684</td>\n",
       "      <td id=\"T_31097_row8_col2\" class=\"data row8 col2\" >-0.360534</td>\n",
       "      <td id=\"T_31097_row8_col3\" class=\"data row8 col3\" >-0.372374</td>\n",
       "      <td id=\"T_31097_row8_col4\" class=\"data row8 col4\" >-0.367532</td>\n",
       "      <td id=\"T_31097_row8_col5\" class=\"data row8 col5\" >-0.370350</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a6427220>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_750d2\">\n",
       "  <caption>NB Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_750d2_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_750d2_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_750d2_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_750d2_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_750d2_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_750d2_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_750d2_row0_col0\" class=\"data row0 col0\" >0.035410</td>\n",
       "      <td id=\"T_750d2_row0_col1\" class=\"data row0 col1\" >0.030015</td>\n",
       "      <td id=\"T_750d2_row0_col2\" class=\"data row0 col2\" >0.032639</td>\n",
       "      <td id=\"T_750d2_row0_col3\" class=\"data row0 col3\" >0.029752</td>\n",
       "      <td id=\"T_750d2_row0_col4\" class=\"data row0 col4\" >0.030653</td>\n",
       "      <td id=\"T_750d2_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_750d2_row1_col0\" class=\"data row1 col0\" >0.037826</td>\n",
       "      <td id=\"T_750d2_row1_col1\" class=\"data row1 col1\" >0.040993</td>\n",
       "      <td id=\"T_750d2_row1_col2\" class=\"data row1 col2\" >0.032376</td>\n",
       "      <td id=\"T_750d2_row1_col3\" class=\"data row1 col3\" >0.030767</td>\n",
       "      <td id=\"T_750d2_row1_col4\" class=\"data row1 col4\" >0.028092</td>\n",
       "      <td id=\"T_750d2_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_750d2_row2_col0\" class=\"data row2 col0\" >0.768401</td>\n",
       "      <td id=\"T_750d2_row2_col1\" class=\"data row2 col1\" >0.763376</td>\n",
       "      <td id=\"T_750d2_row2_col2\" class=\"data row2 col2\" >0.765131</td>\n",
       "      <td id=\"T_750d2_row2_col3\" class=\"data row2 col3\" >0.771518</td>\n",
       "      <td id=\"T_750d2_row2_col4\" class=\"data row2 col4\" >0.772251</td>\n",
       "      <td id=\"T_750d2_row2_col5\" class=\"data row2 col5\" >0.766637</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_750d2_row3_col0\" class=\"data row3 col0\" >0.667068</td>\n",
       "      <td id=\"T_750d2_row3_col1\" class=\"data row3 col1\" >0.654223</td>\n",
       "      <td id=\"T_750d2_row3_col2\" class=\"data row3 col2\" >0.660922</td>\n",
       "      <td id=\"T_750d2_row3_col3\" class=\"data row3 col3\" >0.675876</td>\n",
       "      <td id=\"T_750d2_row3_col4\" class=\"data row3 col4\" >0.668899</td>\n",
       "      <td id=\"T_750d2_row3_col5\" class=\"data row3 col5\" >0.664795</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_750d2_row4_col0\" class=\"data row4 col0\" >0.720885</td>\n",
       "      <td id=\"T_750d2_row4_col1\" class=\"data row4 col1\" >0.720836</td>\n",
       "      <td id=\"T_750d2_row4_col2\" class=\"data row4 col2\" >0.717898</td>\n",
       "      <td id=\"T_750d2_row4_col3\" class=\"data row4 col3\" >0.719254</td>\n",
       "      <td id=\"T_750d2_row4_col4\" class=\"data row4 col4\" >0.732333</td>\n",
       "      <td id=\"T_750d2_row4_col5\" class=\"data row4 col5\" >0.717684</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_750d2_row5_col0\" class=\"data row5 col0\" >0.620728</td>\n",
       "      <td id=\"T_750d2_row5_col1\" class=\"data row5 col1\" >0.598880</td>\n",
       "      <td id=\"T_750d2_row5_col2\" class=\"data row5 col2\" >0.612325</td>\n",
       "      <td id=\"T_750d2_row5_col3\" class=\"data row5 col3\" >0.637433</td>\n",
       "      <td id=\"T_750d2_row5_col4\" class=\"data row5 col4\" >0.615579</td>\n",
       "      <td id=\"T_750d2_row5_col5\" class=\"data row5 col5\" >0.619166</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_750d2_row6_col0\" class=\"data row6 col0\" >0.852290</td>\n",
       "      <td id=\"T_750d2_row6_col1\" class=\"data row6 col1\" >0.847184</td>\n",
       "      <td id=\"T_750d2_row6_col2\" class=\"data row6 col2\" >0.843733</td>\n",
       "      <td id=\"T_750d2_row6_col3\" class=\"data row6 col3\" >0.851873</td>\n",
       "      <td id=\"T_750d2_row6_col4\" class=\"data row6 col4\" >0.856047</td>\n",
       "      <td id=\"T_750d2_row6_col5\" class=\"data row6 col5\" >0.848834</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_750d2_row7_col0\" class=\"data row7 col0\" >-0.206596</td>\n",
       "      <td id=\"T_750d2_row7_col1\" class=\"data row7 col1\" >-0.210362</td>\n",
       "      <td id=\"T_750d2_row7_col2\" class=\"data row7 col2\" >-0.211968</td>\n",
       "      <td id=\"T_750d2_row7_col3\" class=\"data row7 col3\" >-0.204214</td>\n",
       "      <td id=\"T_750d2_row7_col4\" class=\"data row7 col4\" >-0.202682</td>\n",
       "      <td id=\"T_750d2_row7_col5\" class=\"data row7 col5\" >-0.208278</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_750d2_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_750d2_row8_col0\" class=\"data row8 col0\" >-1.668014</td>\n",
       "      <td id=\"T_750d2_row8_col1\" class=\"data row8 col1\" >-1.788896</td>\n",
       "      <td id=\"T_750d2_row8_col2\" class=\"data row8 col2\" >-1.917438</td>\n",
       "      <td id=\"T_750d2_row8_col3\" class=\"data row8 col3\" >-1.662381</td>\n",
       "      <td id=\"T_750d2_row8_col4\" class=\"data row8 col4\" >-1.670358</td>\n",
       "      <td id=\"T_750d2_row8_col5\" class=\"data row8 col5\" >-1.761326</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a6bb4820>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_2d5a3\">\n",
       "  <caption>KNN Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_2d5a3_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_2d5a3_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_2d5a3_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_2d5a3_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_2d5a3_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_2d5a3_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_2d5a3_row0_col0\" class=\"data row0 col0\" >0.010002</td>\n",
       "      <td id=\"T_2d5a3_row0_col1\" class=\"data row0 col1\" >0.011312</td>\n",
       "      <td id=\"T_2d5a3_row0_col2\" class=\"data row0 col2\" >0.011621</td>\n",
       "      <td id=\"T_2d5a3_row0_col3\" class=\"data row0 col3\" >0.013843</td>\n",
       "      <td id=\"T_2d5a3_row0_col4\" class=\"data row0 col4\" >0.011473</td>\n",
       "      <td id=\"T_2d5a3_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_2d5a3_row1_col0\" class=\"data row1 col0\" >1.660269</td>\n",
       "      <td id=\"T_2d5a3_row1_col1\" class=\"data row1 col1\" >1.360570</td>\n",
       "      <td id=\"T_2d5a3_row1_col2\" class=\"data row1 col2\" >1.651296</td>\n",
       "      <td id=\"T_2d5a3_row1_col3\" class=\"data row1 col3\" >1.734129</td>\n",
       "      <td id=\"T_2d5a3_row1_col4\" class=\"data row1 col4\" >1.823339</td>\n",
       "      <td id=\"T_2d5a3_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_2d5a3_row2_col0\" class=\"data row2 col0\" >0.842320</td>\n",
       "      <td id=\"T_2d5a3_row2_col1\" class=\"data row2 col1\" >0.848707</td>\n",
       "      <td id=\"T_2d5a3_row2_col2\" class=\"data row2 col2\" >0.847330</td>\n",
       "      <td id=\"T_2d5a3_row2_col3\" class=\"data row2 col3\" >0.842723</td>\n",
       "      <td id=\"T_2d5a3_row2_col4\" class=\"data row2 col4\" >0.847749</td>\n",
       "      <td id=\"T_2d5a3_row2_col5\" class=\"data row2 col5\" >0.843692</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_2d5a3_row3_col0\" class=\"data row3 col0\" >0.776492</td>\n",
       "      <td id=\"T_2d5a3_row3_col1\" class=\"data row3 col1\" >0.787218</td>\n",
       "      <td id=\"T_2d5a3_row3_col2\" class=\"data row3 col2\" >0.783551</td>\n",
       "      <td id=\"T_2d5a3_row3_col3\" class=\"data row3 col3\" >0.779053</td>\n",
       "      <td id=\"T_2d5a3_row3_col4\" class=\"data row3 col4\" >0.786365</td>\n",
       "      <td id=\"T_2d5a3_row3_col5\" class=\"data row3 col5\" >0.779698</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_2d5a3_row4_col0\" class=\"data row4 col0\" >0.825758</td>\n",
       "      <td id=\"T_2d5a3_row4_col1\" class=\"data row4 col1\" >0.829867</td>\n",
       "      <td id=\"T_2d5a3_row4_col2\" class=\"data row4 col2\" >0.833544</td>\n",
       "      <td id=\"T_2d5a3_row4_col3\" class=\"data row4 col3\" >0.820068</td>\n",
       "      <td id=\"T_2d5a3_row4_col4\" class=\"data row4 col4\" >0.826691</td>\n",
       "      <td id=\"T_2d5a3_row4_col5\" class=\"data row4 col5\" >0.823778</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_2d5a3_row5_col0\" class=\"data row5 col0\" >0.732773</td>\n",
       "      <td id=\"T_2d5a3_row5_col1\" class=\"data row5 col1\" >0.748739</td>\n",
       "      <td id=\"T_2d5a3_row5_col2\" class=\"data row5 col2\" >0.739216</td>\n",
       "      <td id=\"T_2d5a3_row5_col3\" class=\"data row5 col3\" >0.741945</td>\n",
       "      <td id=\"T_2d5a3_row5_col4\" class=\"data row5 col4\" >0.749790</td>\n",
       "      <td id=\"T_2d5a3_row5_col5\" class=\"data row5 col5\" >0.740097</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_2d5a3_row6_col0\" class=\"data row6 col0\" >0.867330</td>\n",
       "      <td id=\"T_2d5a3_row6_col1\" class=\"data row6 col1\" >0.869924</td>\n",
       "      <td id=\"T_2d5a3_row6_col2\" class=\"data row6 col2\" >0.872951</td>\n",
       "      <td id=\"T_2d5a3_row6_col3\" class=\"data row6 col3\" >0.866868</td>\n",
       "      <td id=\"T_2d5a3_row6_col4\" class=\"data row6 col4\" >0.872277</td>\n",
       "      <td id=\"T_2d5a3_row6_col5\" class=\"data row6 col5\" >0.872155</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_2d5a3_row7_col0\" class=\"data row7 col0\" >-0.130989</td>\n",
       "      <td id=\"T_2d5a3_row7_col1\" class=\"data row7 col1\" >-0.127425</td>\n",
       "      <td id=\"T_2d5a3_row7_col2\" class=\"data row7 col2\" >-0.126777</td>\n",
       "      <td id=\"T_2d5a3_row7_col3\" class=\"data row7 col3\" >-0.130655</td>\n",
       "      <td id=\"T_2d5a3_row7_col4\" class=\"data row7 col4\" >-0.127401</td>\n",
       "      <td id=\"T_2d5a3_row7_col5\" class=\"data row7 col5\" >-0.128215</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2d5a3_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_2d5a3_row8_col0\" class=\"data row8 col0\" >-2.083997</td>\n",
       "      <td id=\"T_2d5a3_row8_col1\" class=\"data row8 col1\" >-1.959589</td>\n",
       "      <td id=\"T_2d5a3_row8_col2\" class=\"data row8 col2\" >-1.815403</td>\n",
       "      <td id=\"T_2d5a3_row8_col3\" class=\"data row8 col3\" >-2.007178</td>\n",
       "      <td id=\"T_2d5a3_row8_col4\" class=\"data row8 col4\" >-1.929602</td>\n",
       "      <td id=\"T_2d5a3_row8_col5\" class=\"data row8 col5\" >-1.877810</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a6bb4820>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_08606\">\n",
       "  <caption>RF Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_08606_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_08606_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_08606_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_08606_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_08606_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_08606_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_08606_row0_col0\" class=\"data row0 col0\" >4.099665</td>\n",
       "      <td id=\"T_08606_row0_col1\" class=\"data row0 col1\" >4.061200</td>\n",
       "      <td id=\"T_08606_row0_col2\" class=\"data row0 col2\" >4.090116</td>\n",
       "      <td id=\"T_08606_row0_col3\" class=\"data row0 col3\" >4.055705</td>\n",
       "      <td id=\"T_08606_row0_col4\" class=\"data row0 col4\" >4.050387</td>\n",
       "      <td id=\"T_08606_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_08606_row1_col0\" class=\"data row1 col0\" >0.390365</td>\n",
       "      <td id=\"T_08606_row1_col1\" class=\"data row1 col1\" >0.389244</td>\n",
       "      <td id=\"T_08606_row1_col2\" class=\"data row1 col2\" >0.392108</td>\n",
       "      <td id=\"T_08606_row1_col3\" class=\"data row1 col3\" >0.387358</td>\n",
       "      <td id=\"T_08606_row1_col4\" class=\"data row1 col4\" >0.400155</td>\n",
       "      <td id=\"T_08606_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_08606_row2_col0\" class=\"data row2 col0\" >0.856141</td>\n",
       "      <td id=\"T_08606_row2_col1\" class=\"data row2 col1\" >0.859282</td>\n",
       "      <td id=\"T_08606_row2_col2\" class=\"data row2 col2\" >0.861571</td>\n",
       "      <td id=\"T_08606_row2_col3\" class=\"data row2 col3\" >0.853508</td>\n",
       "      <td id=\"T_08606_row2_col4\" class=\"data row2 col4\" >0.855393</td>\n",
       "      <td id=\"T_08606_row2_col5\" class=\"data row2 col5\" >0.856152</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_08606_row3_col0\" class=\"data row3 col0\" >0.800349</td>\n",
       "      <td id=\"T_08606_row3_col1\" class=\"data row3 col1\" >0.805217</td>\n",
       "      <td id=\"T_08606_row3_col2\" class=\"data row3 col2\" >0.807681</td>\n",
       "      <td id=\"T_08606_row3_col3\" class=\"data row3 col3\" >0.798676</td>\n",
       "      <td id=\"T_08606_row3_col4\" class=\"data row3 col4\" >0.799477</td>\n",
       "      <td id=\"T_08606_row3_col5\" class=\"data row3 col5\" >0.800623</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_08606_row4_col0\" class=\"data row4 col0\" >0.831522</td>\n",
       "      <td id=\"T_08606_row4_col1\" class=\"data row4 col1\" >0.834234</td>\n",
       "      <td id=\"T_08606_row4_col2\" class=\"data row4 col2\" >0.840194</td>\n",
       "      <td id=\"T_08606_row4_col3\" class=\"data row4 col3\" >0.821006</td>\n",
       "      <td id=\"T_08606_row4_col4\" class=\"data row4 col4\" >0.829717</td>\n",
       "      <td id=\"T_08606_row4_col5\" class=\"data row4 col5\" >0.830547</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_08606_row5_col0\" class=\"data row5 col0\" >0.771429</td>\n",
       "      <td id=\"T_08606_row5_col1\" class=\"data row5 col1\" >0.778151</td>\n",
       "      <td id=\"T_08606_row5_col2\" class=\"data row5 col2\" >0.777591</td>\n",
       "      <td id=\"T_08606_row5_col3\" class=\"data row5 col3\" >0.777529</td>\n",
       "      <td id=\"T_08606_row5_col4\" class=\"data row5 col4\" >0.771365</td>\n",
       "      <td id=\"T_08606_row5_col5\" class=\"data row5 col5\" >0.772781</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_08606_row6_col0\" class=\"data row6 col0\" >0.890122</td>\n",
       "      <td id=\"T_08606_row6_col1\" class=\"data row6 col1\" >0.890561</td>\n",
       "      <td id=\"T_08606_row6_col2\" class=\"data row6 col2\" >0.897321</td>\n",
       "      <td id=\"T_08606_row6_col3\" class=\"data row6 col3\" >0.887396</td>\n",
       "      <td id=\"T_08606_row6_col4\" class=\"data row6 col4\" >0.891078</td>\n",
       "      <td id=\"T_08606_row6_col5\" class=\"data row6 col5\" >0.893466</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_08606_row7_col0\" class=\"data row7 col0\" >-0.116884</td>\n",
       "      <td id=\"T_08606_row7_col1\" class=\"data row7 col1\" >-0.114867</td>\n",
       "      <td id=\"T_08606_row7_col2\" class=\"data row7 col2\" >-0.111343</td>\n",
       "      <td id=\"T_08606_row7_col3\" class=\"data row7 col3\" >-0.117719</td>\n",
       "      <td id=\"T_08606_row7_col4\" class=\"data row7 col4\" >-0.116295</td>\n",
       "      <td id=\"T_08606_row7_col5\" class=\"data row7 col5\" >-0.115285</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_08606_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_08606_row8_col0\" class=\"data row8 col0\" >-0.607395</td>\n",
       "      <td id=\"T_08606_row8_col1\" class=\"data row8 col1\" >-0.579640</td>\n",
       "      <td id=\"T_08606_row8_col2\" class=\"data row8 col2\" >-0.536542</td>\n",
       "      <td id=\"T_08606_row8_col3\" class=\"data row8 col3\" >-0.614554</td>\n",
       "      <td id=\"T_08606_row8_col4\" class=\"data row8 col4\" >-0.631888</td>\n",
       "      <td id=\"T_08606_row8_col5\" class=\"data row8 col5\" >-0.562042</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a6bb4820>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_14134\">\n",
       "  <caption>GBC Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_14134_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_14134_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_14134_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_14134_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_14134_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_14134_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_14134_row0_col0\" class=\"data row0 col0\" >4.591437</td>\n",
       "      <td id=\"T_14134_row0_col1\" class=\"data row0 col1\" >4.437213</td>\n",
       "      <td id=\"T_14134_row0_col2\" class=\"data row0 col2\" >4.121067</td>\n",
       "      <td id=\"T_14134_row0_col3\" class=\"data row0 col3\" >4.142180</td>\n",
       "      <td id=\"T_14134_row0_col4\" class=\"data row0 col4\" >4.113901</td>\n",
       "      <td id=\"T_14134_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_14134_row1_col0\" class=\"data row1 col0\" >0.055993</td>\n",
       "      <td id=\"T_14134_row1_col1\" class=\"data row1 col1\" >0.048113</td>\n",
       "      <td id=\"T_14134_row1_col2\" class=\"data row1 col2\" >0.049492</td>\n",
       "      <td id=\"T_14134_row1_col3\" class=\"data row1 col3\" >0.050163</td>\n",
       "      <td id=\"T_14134_row1_col4\" class=\"data row1 col4\" >0.055706</td>\n",
       "      <td id=\"T_14134_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_14134_row2_col0\" class=\"data row2 col0\" >0.871113</td>\n",
       "      <td id=\"T_14134_row2_col1\" class=\"data row2 col1\" >0.873207</td>\n",
       "      <td id=\"T_14134_row2_col2\" class=\"data row2 col2\" >0.878639</td>\n",
       "      <td id=\"T_14134_row2_col3\" class=\"data row2 col3\" >0.870052</td>\n",
       "      <td id=\"T_14134_row2_col4\" class=\"data row2 col4\" >0.870157</td>\n",
       "      <td id=\"T_14134_row2_col5\" class=\"data row2 col5\" >0.871054</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_14134_row3_col0\" class=\"data row3 col0\" >0.817169</td>\n",
       "      <td id=\"T_14134_row3_col1\" class=\"data row3 col1\" >0.820831</td>\n",
       "      <td id=\"T_14134_row3_col2\" class=\"data row3 col2\" >0.827709</td>\n",
       "      <td id=\"T_14134_row3_col3\" class=\"data row3 col3\" >0.817043</td>\n",
       "      <td id=\"T_14134_row3_col4\" class=\"data row3 col4\" >0.817109</td>\n",
       "      <td id=\"T_14134_row3_col5\" class=\"data row3 col5\" >0.817560</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_14134_row4_col0\" class=\"data row4 col0\" >0.869744</td>\n",
       "      <td id=\"T_14134_row4_col1\" class=\"data row4 col1\" >0.869865</td>\n",
       "      <td id=\"T_14134_row4_col2\" class=\"data row4 col2\" >0.881850</td>\n",
       "      <td id=\"T_14134_row4_col3\" class=\"data row4 col3\" >0.862166</td>\n",
       "      <td id=\"T_14134_row4_col4\" class=\"data row4 col4\" >0.862660</td>\n",
       "      <td id=\"T_14134_row4_col5\" class=\"data row4 col5\" >0.867518</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_14134_row5_col0\" class=\"data row5 col0\" >0.770588</td>\n",
       "      <td id=\"T_14134_row5_col1\" class=\"data row5 col1\" >0.777031</td>\n",
       "      <td id=\"T_14134_row5_col2\" class=\"data row5 col2\" >0.779832</td>\n",
       "      <td id=\"T_14134_row5_col3\" class=\"data row5 col3\" >0.776408</td>\n",
       "      <td id=\"T_14134_row5_col4\" class=\"data row5 col4\" >0.776128</td>\n",
       "      <td id=\"T_14134_row5_col5\" class=\"data row5 col5\" >0.773042</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_14134_row6_col0\" class=\"data row6 col0\" >0.907041</td>\n",
       "      <td id=\"T_14134_row6_col1\" class=\"data row6 col1\" >0.908041</td>\n",
       "      <td id=\"T_14134_row6_col2\" class=\"data row6 col2\" >0.911930</td>\n",
       "      <td id=\"T_14134_row6_col3\" class=\"data row6 col3\" >0.906283</td>\n",
       "      <td id=\"T_14134_row6_col4\" class=\"data row6 col4\" >0.909348</td>\n",
       "      <td id=\"T_14134_row6_col5\" class=\"data row6 col5\" >0.908648</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_14134_row7_col0\" class=\"data row7 col0\" >-0.105054</td>\n",
       "      <td id=\"T_14134_row7_col1\" class=\"data row7 col1\" >-0.103463</td>\n",
       "      <td id=\"T_14134_row7_col2\" class=\"data row7 col2\" >-0.099338</td>\n",
       "      <td id=\"T_14134_row7_col3\" class=\"data row7 col3\" >-0.104658</td>\n",
       "      <td id=\"T_14134_row7_col4\" class=\"data row7 col4\" >-0.104459</td>\n",
       "      <td id=\"T_14134_row7_col5\" class=\"data row7 col5\" >-0.104280</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_14134_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_14134_row8_col0\" class=\"data row8 col0\" >-0.352792</td>\n",
       "      <td id=\"T_14134_row8_col1\" class=\"data row8 col1\" >-0.348499</td>\n",
       "      <td id=\"T_14134_row8_col2\" class=\"data row8 col2\" >-0.338605</td>\n",
       "      <td id=\"T_14134_row8_col3\" class=\"data row8 col3\" >-0.351285</td>\n",
       "      <td id=\"T_14134_row8_col4\" class=\"data row8 col4\" >-0.350193</td>\n",
       "      <td id=\"T_14134_row8_col5\" class=\"data row8 col5\" >-0.350152</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a86dd240>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_25121\">\n",
       "  <caption>XGB Validation Scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_25121_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_25121_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_25121_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_25121_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_25121_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_25121_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_25121_row0_col0\" class=\"data row0 col0\" >3.802029</td>\n",
       "      <td id=\"T_25121_row0_col1\" class=\"data row0 col1\" >3.036764</td>\n",
       "      <td id=\"T_25121_row0_col2\" class=\"data row0 col2\" >2.979647</td>\n",
       "      <td id=\"T_25121_row0_col3\" class=\"data row0 col3\" >2.177232</td>\n",
       "      <td id=\"T_25121_row0_col4\" class=\"data row0 col4\" >2.287098</td>\n",
       "      <td id=\"T_25121_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_25121_row1_col0\" class=\"data row1 col0\" >0.069013</td>\n",
       "      <td id=\"T_25121_row1_col1\" class=\"data row1 col1\" >0.071819</td>\n",
       "      <td id=\"T_25121_row1_col2\" class=\"data row1 col2\" >0.049402</td>\n",
       "      <td id=\"T_25121_row1_col3\" class=\"data row1 col3\" >0.057279</td>\n",
       "      <td id=\"T_25121_row1_col4\" class=\"data row1 col4\" >0.050020</td>\n",
       "      <td id=\"T_25121_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_25121_row2_col0\" class=\"data row2 col0\" >0.860224</td>\n",
       "      <td id=\"T_25121_row2_col1\" class=\"data row2 col1\" >0.851848</td>\n",
       "      <td id=\"T_25121_row2_col2\" class=\"data row2 col2\" >0.854136</td>\n",
       "      <td id=\"T_25121_row2_col3\" class=\"data row2 col3\" >0.853298</td>\n",
       "      <td id=\"T_25121_row2_col4\" class=\"data row2 col4\" >0.856021</td>\n",
       "      <td id=\"T_25121_row2_col5\" class=\"data row2 col5\" >0.854344</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_25121_row3_col0\" class=\"data row3 col0\" >0.814145</td>\n",
       "      <td id=\"T_25121_row3_col1\" class=\"data row3 col1\" >0.804747</td>\n",
       "      <td id=\"T_25121_row3_col2\" class=\"data row3 col2\" >0.808259</td>\n",
       "      <td id=\"T_25121_row3_col3\" class=\"data row3 col3\" >0.807370</td>\n",
       "      <td id=\"T_25121_row3_col4\" class=\"data row3 col4\" >0.810371</td>\n",
       "      <td id=\"T_25121_row3_col5\" class=\"data row3 col5\" >0.808283</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_25121_row4_col0\" class=\"data row4 col0\" >0.809300</td>\n",
       "      <td id=\"T_25121_row4_col1\" class=\"data row4 col1\" >0.793038</td>\n",
       "      <td id=\"T_25121_row4_col2\" class=\"data row4 col2\" >0.794587</td>\n",
       "      <td id=\"T_25121_row4_col3\" class=\"data row4 col3\" >0.792657</td>\n",
       "      <td id=\"T_25121_row4_col4\" class=\"data row4 col4\" >0.797936</td>\n",
       "      <td id=\"T_25121_row4_col5\" class=\"data row4 col5\" >0.795443</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_25121_row5_col0\" class=\"data row5 col0\" >0.819048</td>\n",
       "      <td id=\"T_25121_row5_col1\" class=\"data row5 col1\" >0.816807</td>\n",
       "      <td id=\"T_25121_row5_col2\" class=\"data row5 col2\" >0.822409</td>\n",
       "      <td id=\"T_25121_row5_col3\" class=\"data row5 col3\" >0.822639</td>\n",
       "      <td id=\"T_25121_row5_col4\" class=\"data row5 col4\" >0.823200</td>\n",
       "      <td id=\"T_25121_row5_col5\" class=\"data row5 col5\" >0.821545</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_25121_row6_col0\" class=\"data row6 col0\" >0.908407</td>\n",
       "      <td id=\"T_25121_row6_col1\" class=\"data row6 col1\" >0.906379</td>\n",
       "      <td id=\"T_25121_row6_col2\" class=\"data row6 col2\" >0.910833</td>\n",
       "      <td id=\"T_25121_row6_col3\" class=\"data row6 col3\" >0.907507</td>\n",
       "      <td id=\"T_25121_row6_col4\" class=\"data row6 col4\" >0.908959</td>\n",
       "      <td id=\"T_25121_row6_col5\" class=\"data row6 col5\" >0.908681</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_25121_row7_col0\" class=\"data row7 col0\" >-0.116893</td>\n",
       "      <td id=\"T_25121_row7_col1\" class=\"data row7 col1\" >-0.119319</td>\n",
       "      <td id=\"T_25121_row7_col2\" class=\"data row7 col2\" >-0.116034</td>\n",
       "      <td id=\"T_25121_row7_col3\" class=\"data row7 col3\" >-0.119313</td>\n",
       "      <td id=\"T_25121_row7_col4\" class=\"data row7 col4\" >-0.118294</td>\n",
       "      <td id=\"T_25121_row7_col5\" class=\"data row7 col5\" >-0.118266</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_25121_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_25121_row8_col0\" class=\"data row8 col0\" >-0.393473</td>\n",
       "      <td id=\"T_25121_row8_col1\" class=\"data row8 col1\" >-0.395306</td>\n",
       "      <td id=\"T_25121_row8_col2\" class=\"data row8 col2\" >-0.384403</td>\n",
       "      <td id=\"T_25121_row8_col3\" class=\"data row8 col3\" >-0.397352</td>\n",
       "      <td id=\"T_25121_row8_col4\" class=\"data row8 col4\" >-0.394224</td>\n",
       "      <td id=\"T_25121_row8_col5\" class=\"data row8 col5\" >-0.392001</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a8656f80>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "# XGB hyperparameter that deals with unbalanced\n",
    "scale_pos_weight = Y.mean()**-1\n",
    "\n",
    "# Creating the model objects\n",
    "cls_lr = LogisticRegression(\n",
    "            class_weight=\"balanced\",  # Hyperparameter to deal with unbalanced output\n",
    "            random_state=lucky_num)\n",
    "# cls_svm = SVC(random_state=lucky_num)  # Remove due its resource consumption and worst results\n",
    "cls_NB = GaussianNB()\n",
    "cls_knn = KNeighborsClassifier()\n",
    "cls_rf = RandomForestClassifier(\n",
    "            random_state=lucky_num,\n",
    "            class_weight=\"balanced_subsample\")  # Hyperparameter to deal with unbalanced output\n",
    "cls_gbc = GradientBoostingClassifier(random_state=lucky_num)\n",
    "cls_xgb = xgb.XGBClassifier(\n",
    "            objective=\"binary:logistic\",\n",
    "            verbose=None,\n",
    "            random_state=lucky_num,\n",
    "            scale_pos_weight = scale_pos_weight)\n",
    "\n",
    "# Lists to iterate on our modeling function\n",
    "cls_name = [\"LR\", \"NB\", \"KNN\", \"RF\", \"GBC\", \"XGB\"]\n",
    "cls_list = [cls_lr, cls_NB, cls_knn, cls_rf, cls_gbc, cls_xgb]\n",
    "\n",
    "mdl_summaries = []\n",
    "for name, inst in zip(cls_name, cls_list):\n",
    "    mdl_list = create_model(name, inst)\n",
    "    mdl_list = [name] + mdl_list\n",
    "    mdl_summaries.append(mdl_list)\n",
    "\n",
    "df_mdl = pd.DataFrame(\n",
    "            mdl_summaries,\n",
    "            columns=[\n",
    "                \"model\",\n",
    "                \"test_accuracy\",\n",
    "                \"test_f1\",\n",
    "                \"test_precision\",\n",
    "                \"test_recall\",\n",
    "                \"test_roc_auc\",\n",
    "                \"test_brier\",\n",
    "                \"test_log_loss\"])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_3ba63\">\n",
       "  <caption>Test set validation scores</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_3ba63_level0_col0\" class=\"col_heading level0 col0\" >model</th>\n",
       "      <th id=\"T_3ba63_level0_col1\" class=\"col_heading level0 col1\" >test_accuracy</th>\n",
       "      <th id=\"T_3ba63_level0_col2\" class=\"col_heading level0 col2\" >test_f1</th>\n",
       "      <th id=\"T_3ba63_level0_col3\" class=\"col_heading level0 col3\" >test_precision</th>\n",
       "      <th id=\"T_3ba63_level0_col4\" class=\"col_heading level0 col4\" >test_recall</th>\n",
       "      <th id=\"T_3ba63_level0_col5\" class=\"col_heading level0 col5\" >test_roc_auc</th>\n",
       "      <th id=\"T_3ba63_level0_col6\" class=\"col_heading level0 col6\" >test_brier</th>\n",
       "      <th id=\"T_3ba63_level0_col7\" class=\"col_heading level0 col7\" >test_log_loss</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_3ba63_row0_col0\" class=\"data row0 col0\" >GBC</td>\n",
       "      <td id=\"T_3ba63_row0_col1\" class=\"data row0 col1\" >0.871054</td>\n",
       "      <td id=\"T_3ba63_row0_col2\" class=\"data row0 col2\" >0.817560</td>\n",
       "      <td id=\"T_3ba63_row0_col3\" class=\"data row0 col3\" >0.867518</td>\n",
       "      <td id=\"T_3ba63_row0_col4\" class=\"data row0 col4\" >0.773042</td>\n",
       "      <td id=\"T_3ba63_row0_col5\" class=\"data row0 col5\" >0.908648</td>\n",
       "      <td id=\"T_3ba63_row0_col6\" class=\"data row0 col6\" >0.104280</td>\n",
       "      <td id=\"T_3ba63_row0_col7\" class=\"data row0 col7\" >0.350152</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_3ba63_row1_col0\" class=\"data row1 col0\" >LR</td>\n",
       "      <td id=\"T_3ba63_row1_col1\" class=\"data row1 col1\" >0.865924</td>\n",
       "      <td id=\"T_3ba63_row1_col2\" class=\"data row1 col2\" >0.814469</td>\n",
       "      <td id=\"T_3ba63_row1_col3\" class=\"data row1 col3\" >0.843439</td>\n",
       "      <td id=\"T_3ba63_row1_col4\" class=\"data row1 col4\" >0.787423</td>\n",
       "      <td id=\"T_3ba63_row1_col5\" class=\"data row1 col5\" >0.904458</td>\n",
       "      <td id=\"T_3ba63_row1_col6\" class=\"data row1 col6\" >0.110435</td>\n",
       "      <td id=\"T_3ba63_row1_col7\" class=\"data row1 col7\" >0.370350</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_3ba63_row2_col0\" class=\"data row2 col0\" >XGB</td>\n",
       "      <td id=\"T_3ba63_row2_col1\" class=\"data row2 col1\" >0.854344</td>\n",
       "      <td id=\"T_3ba63_row2_col2\" class=\"data row2 col2\" >0.808283</td>\n",
       "      <td id=\"T_3ba63_row2_col3\" class=\"data row2 col3\" >0.795443</td>\n",
       "      <td id=\"T_3ba63_row2_col4\" class=\"data row2 col4\" >0.821545</td>\n",
       "      <td id=\"T_3ba63_row2_col5\" class=\"data row2 col5\" >0.908681</td>\n",
       "      <td id=\"T_3ba63_row2_col6\" class=\"data row2 col6\" >0.118266</td>\n",
       "      <td id=\"T_3ba63_row2_col7\" class=\"data row2 col7\" >0.392001</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_3ba63_row3_col0\" class=\"data row3 col0\" >RF</td>\n",
       "      <td id=\"T_3ba63_row3_col1\" class=\"data row3 col1\" >0.856152</td>\n",
       "      <td id=\"T_3ba63_row3_col2\" class=\"data row3 col2\" >0.800623</td>\n",
       "      <td id=\"T_3ba63_row3_col3\" class=\"data row3 col3\" >0.830547</td>\n",
       "      <td id=\"T_3ba63_row3_col4\" class=\"data row3 col4\" >0.772781</td>\n",
       "      <td id=\"T_3ba63_row3_col5\" class=\"data row3 col5\" >0.893466</td>\n",
       "      <td id=\"T_3ba63_row3_col6\" class=\"data row3 col6\" >0.115285</td>\n",
       "      <td id=\"T_3ba63_row3_col7\" class=\"data row3 col7\" >0.562042</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_3ba63_row4_col0\" class=\"data row4 col0\" >KNN</td>\n",
       "      <td id=\"T_3ba63_row4_col1\" class=\"data row4 col1\" >0.843692</td>\n",
       "      <td id=\"T_3ba63_row4_col2\" class=\"data row4 col2\" >0.779698</td>\n",
       "      <td id=\"T_3ba63_row4_col3\" class=\"data row4 col3\" >0.823778</td>\n",
       "      <td id=\"T_3ba63_row4_col4\" class=\"data row4 col4\" >0.740097</td>\n",
       "      <td id=\"T_3ba63_row4_col5\" class=\"data row4 col5\" >0.872155</td>\n",
       "      <td id=\"T_3ba63_row4_col6\" class=\"data row4 col6\" >0.128215</td>\n",
       "      <td id=\"T_3ba63_row4_col7\" class=\"data row4 col7\" >1.877810</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_3ba63_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_3ba63_row5_col0\" class=\"data row5 col0\" >NB</td>\n",
       "      <td id=\"T_3ba63_row5_col1\" class=\"data row5 col1\" >0.766637</td>\n",
       "      <td id=\"T_3ba63_row5_col2\" class=\"data row5 col2\" >0.664795</td>\n",
       "      <td id=\"T_3ba63_row5_col3\" class=\"data row5 col3\" >0.717684</td>\n",
       "      <td id=\"T_3ba63_row5_col4\" class=\"data row5 col4\" >0.619166</td>\n",
       "      <td id=\"T_3ba63_row5_col5\" class=\"data row5 col5\" >0.848834</td>\n",
       "      <td id=\"T_3ba63_row5_col6\" class=\"data row5 col6\" >0.208278</td>\n",
       "      <td id=\"T_3ba63_row5_col7\" class=\"data row5 col7\" >1.761326</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1a8656bc0>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "df_mdl.sort_values(\n",
    "        \"test_f1\",\n",
    "        ascending=False,\n",
    "        inplace=True,\n",
    "        ignore_index=True)\n",
    "\n",
    "display(df_mdl.style.set_caption(\"Test set validation scores\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "GBC, LR, XGB and RF preset great results! We have two ways here: hyperparameters tunning or creating a composite model. Let's begin with the composite model.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_04769\">\n",
       "  <caption>Test set validation scores for Composite Model</caption>\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_04769_level0_col0\" class=\"col_heading level0 col0\" >CV1</th>\n",
       "      <th id=\"T_04769_level0_col1\" class=\"col_heading level0 col1\" >CV2</th>\n",
       "      <th id=\"T_04769_level0_col2\" class=\"col_heading level0 col2\" >CV3</th>\n",
       "      <th id=\"T_04769_level0_col3\" class=\"col_heading level0 col3\" >CV4</th>\n",
       "      <th id=\"T_04769_level0_col4\" class=\"col_heading level0 col4\" >CV5</th>\n",
       "      <th id=\"T_04769_level0_col5\" class=\"col_heading level0 col5\" >TestSet</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row0\" class=\"row_heading level0 row0\" >fit_time</th>\n",
       "      <td id=\"T_04769_row0_col0\" class=\"data row0 col0\" >10.109613</td>\n",
       "      <td id=\"T_04769_row0_col1\" class=\"data row0 col1\" >11.766011</td>\n",
       "      <td id=\"T_04769_row0_col2\" class=\"data row0 col2\" >11.450818</td>\n",
       "      <td id=\"T_04769_row0_col3\" class=\"data row0 col3\" >11.737634</td>\n",
       "      <td id=\"T_04769_row0_col4\" class=\"data row0 col4\" >12.702598</td>\n",
       "      <td id=\"T_04769_row0_col5\" class=\"data row0 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row1\" class=\"row_heading level0 row1\" >score_time</th>\n",
       "      <td id=\"T_04769_row1_col0\" class=\"data row1 col0\" >0.490518</td>\n",
       "      <td id=\"T_04769_row1_col1\" class=\"data row1 col1\" >0.532695</td>\n",
       "      <td id=\"T_04769_row1_col2\" class=\"data row1 col2\" >0.529459</td>\n",
       "      <td id=\"T_04769_row1_col3\" class=\"data row1 col3\" >0.549051</td>\n",
       "      <td id=\"T_04769_row1_col4\" class=\"data row1 col4\" >0.586749</td>\n",
       "      <td id=\"T_04769_row1_col5\" class=\"data row1 col5\" >nan</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row2\" class=\"row_heading level0 row2\" >test_accuracy</th>\n",
       "      <td id=\"T_04769_row2_col0\" class=\"data row2 col0\" >0.870799</td>\n",
       "      <td id=\"T_04769_row2_col1\" class=\"data row2 col1\" >0.871532</td>\n",
       "      <td id=\"T_04769_row2_col2\" class=\"data row2 col2\" >0.875497</td>\n",
       "      <td id=\"T_04769_row2_col3\" class=\"data row2 col3\" >0.869948</td>\n",
       "      <td id=\"T_04769_row2_col4\" class=\"data row2 col4\" >0.869215</td>\n",
       "      <td id=\"T_04769_row2_col5\" class=\"data row2 col5\" >0.869002</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row3\" class=\"row_heading level0 row3\" >test_f1</th>\n",
       "      <td id=\"T_04769_row3_col0\" class=\"data row3 col0\" >0.818689</td>\n",
       "      <td id=\"T_04769_row3_col1\" class=\"data row3 col1\" >0.820797</td>\n",
       "      <td id=\"T_04769_row3_col2\" class=\"data row3 col2\" >0.826297</td>\n",
       "      <td id=\"T_04769_row3_col3\" class=\"data row3 col3\" >0.819319</td>\n",
       "      <td id=\"T_04769_row3_col4\" class=\"data row3 col4\" >0.817531</td>\n",
       "      <td id=\"T_04769_row3_col5\" class=\"data row3 col5\" >0.817283</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row4\" class=\"row_heading level0 row4\" >test_precision</th>\n",
       "      <td id=\"T_04769_row4_col0\" class=\"data row4 col0\" >0.860939</td>\n",
       "      <td id=\"T_04769_row4_col1\" class=\"data row4 col1\" >0.857492</td>\n",
       "      <td id=\"T_04769_row4_col2\" class=\"data row4 col2\" >0.863511</td>\n",
       "      <td id=\"T_04769_row4_col3\" class=\"data row4 col3\" >0.852042</td>\n",
       "      <td id=\"T_04769_row4_col4\" class=\"data row4 col4\" >0.854090</td>\n",
       "      <td id=\"T_04769_row4_col5\" class=\"data row4 col5\" >0.853645</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row5\" class=\"row_heading level0 row5\" >test_recall</th>\n",
       "      <td id=\"T_04769_row5_col0\" class=\"data row5 col0\" >0.780392</td>\n",
       "      <td id=\"T_04769_row5_col1\" class=\"data row5 col1\" >0.787115</td>\n",
       "      <td id=\"T_04769_row5_col2\" class=\"data row5 col2\" >0.792157</td>\n",
       "      <td id=\"T_04769_row5_col3\" class=\"data row5 col3\" >0.789017</td>\n",
       "      <td id=\"T_04769_row5_col4\" class=\"data row5 col4\" >0.783973</td>\n",
       "      <td id=\"T_04769_row5_col5\" class=\"data row5 col5\" >0.783893</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row6\" class=\"row_heading level0 row6\" >test_roc_auc</th>\n",
       "      <td id=\"T_04769_row6_col0\" class=\"data row6 col0\" >0.909022</td>\n",
       "      <td id=\"T_04769_row6_col1\" class=\"data row6 col1\" >0.908890</td>\n",
       "      <td id=\"T_04769_row6_col2\" class=\"data row6 col2\" >0.912418</td>\n",
       "      <td id=\"T_04769_row6_col3\" class=\"data row6 col3\" >0.907315</td>\n",
       "      <td id=\"T_04769_row6_col4\" class=\"data row6 col4\" >0.910340</td>\n",
       "      <td id=\"T_04769_row6_col5\" class=\"data row6 col5\" >0.910500</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row7\" class=\"row_heading level0 row7\" >test_neg_brier_score</th>\n",
       "      <td id=\"T_04769_row7_col0\" class=\"data row7 col0\" >-0.105818</td>\n",
       "      <td id=\"T_04769_row7_col1\" class=\"data row7 col1\" >-0.105354</td>\n",
       "      <td id=\"T_04769_row7_col2\" class=\"data row7 col2\" >-0.101743</td>\n",
       "      <td id=\"T_04769_row7_col3\" class=\"data row7 col3\" >-0.106567</td>\n",
       "      <td id=\"T_04769_row7_col4\" class=\"data row7 col4\" >-0.105957</td>\n",
       "      <td id=\"T_04769_row7_col5\" class=\"data row7 col5\" >-0.105743</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_04769_level0_row8\" class=\"row_heading level0 row8\" >test_neg_log_loss</th>\n",
       "      <td id=\"T_04769_row8_col0\" class=\"data row8 col0\" >-0.356051</td>\n",
       "      <td id=\"T_04769_row8_col1\" class=\"data row8 col1\" >-0.353269</td>\n",
       "      <td id=\"T_04769_row8_col2\" class=\"data row8 col2\" >-0.344184</td>\n",
       "      <td id=\"T_04769_row8_col3\" class=\"data row8 col3\" >-0.357062</td>\n",
       "      <td id=\"T_04769_row8_col4\" class=\"data row8 col4\" >-0.355010</td>\n",
       "      <td id=\"T_04769_row8_col5\" class=\"data row8 col5\" >-0.353621</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1a1859d3520>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "# Selecting the models\n",
    "cls_name = [\"GBC\", \"XGB\", \"LR\", \"RF\",]\n",
    "cls_list = [cls_gbc, cls_xgb, cls_lr, cls_rf]\n",
    "\n",
    "# Training the voting classifier\n",
    "cls_vot = VotingClassifier([*zip(cls_name, cls_list)], voting=\"soft\")\n",
    "cls_vot.fit(X_train, y_train)\n",
    "\n",
    "# Using cross-validation to evaluate the model fitted\n",
    "cls_cross = cross_validate(\n",
    "    estimator=cls_vot,\n",
    "    X=X_train,\n",
    "    y=y_train,\n",
    "    cv=5,\n",
    "    scoring=scores)\n",
    "\n",
    "df_vot = pd.DataFrame.from_dict(cls_cross, orient='index', columns=[\"CV\"+str(i) for i in range(1,6)])\n",
    "\n",
    "# Calculating score to test set\n",
    "accurancy, f1, precision, recall, roc_auc, brier_score, log_loss_value = eval_model(cls_vot)\n",
    "\n",
    "# Filling a dataframe to better presentation\n",
    "df_vot.at[\"test_accuracy\", \"TestSet\"] = accurancy\n",
    "df_vot.at[\"test_f1\", \"TestSet\"] = f1\n",
    "df_vot.at[\"test_recall\", \"TestSet\"] = recall\n",
    "df_vot.at[\"test_precision\", \"TestSet\"] = precision\n",
    "df_vot.at[\"test_roc_auc\", \"TestSet\"] = roc_auc\n",
    "df_vot.at[\"test_neg_brier_score\", \"TestSet\"] = -brier_score\n",
    "df_vot.at[\"test_neg_log_loss\", \"TestSet\"] = -log_loss_value\n",
    "\n",
    "display(df_vot.style.set_caption(\"Test set validation scores for Composite Model\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The composite model does not present any evidence of overfitting. For now, we will use it on our app."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['c:\\\\Users\\\\grego\\\\OneDrive\\\\Documentos\\\\Documentos Pessoais\\\\00_DataCamp\\\\09_VSC\\\\poa_car_accidents\\\\poa_car_accidents\\\\model\\\\model_feridos.pkl']"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Saving\n",
    "file_name = \"model_\" + output + '.pkl'\n",
    "jb.dump(cls_vot, path.join(path.abspath(\"./\"), file_name))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3.10.6 64-bit",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.6"
  },
  "orig_nbformat": 4,
  "vscode": {
   "interpreter": {
    "hash": "1372d04dbd71fdc5436c5d6e671c1b9287e750e86143c81b5a7ba0acaf653c5e"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}