{
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n",
    "El dataset contiene registros de sensores de smartphones de 4 actividades relacionadas con caídas y 9 actividades normales.\n",
    "\n",
    "Las que se corresponden con caídas son:  \n",
    "* FOL:&nbsp;Caerse hacia adelante  \n",
    "* FKL: &nbsp;Caerse de rodillas  \n",
    "* SDL: &nbsp;Caerse de costado  \n",
    "* BSC: &nbsp;Caerse de una silla  \n",
    "\n",
    "Las actividades normales son:\n",
    "* STD: &nbsp;Estar parado  \n",
    "* WAL: &nbsp;Caminar  \n",
    "* JOG: &nbsp;Trotar  \n",
    "* JUM: &nbsp;Saltar   \n",
    "* STU: &nbsp;Subir escaleras  \n",
    "* STN: &nbsp;Bajar escaleras  \n",
    "* SCH: &nbsp;Sentarse  \n",
    "* CSI:&nbsp; Entrar a un automovil  \n",
    "* CSO:&nbsp; Salir de un automovil  \n",
    "\n",
    "Los registro del dataset fueron registrados por 11 individuos.\n",
    "\n",
    "Cada registro pertenece a una ventana temporal de 6 segundos, conteniendo \n",
    "datos del acelerómetro y del giroscopio, dando lugar a las siguientes features:\n",
    "\n",
    "* acc_max:        dato de aceleración máxima del 4to segundo.  \n",
    "* acc_kurtosis:   kurtosis de la aceleración durante los 6 segundos.  \n",
    "* acc_skewness:   simetría de la aceleración durante los 6 segundos.  \n",
    "* gyro_max:       dato máximo del giroscopio en el 4to segundo.  \n",
    "* gyro_kurtosis:  kurtosis del giroscopio durante los 6 segundos.  \n",
    "* gyro_skewness:  simetría del giroscopio durante los 6 segundos.  \n",
    "* lin_max:        aceleración lineal máxima (excluyendo la gravedad) del 4to segundo.  \n",
    "* post_lin_max:   aceleración lineal máxima en el 6to segundo.  \n",
    "* post_gyro_max:  dato máximo del giroscopio en el 6to segundo.  \n",
    "* fall:           1 si se corresponde con una caída, 0 si no.  \n",
    "* label:          código de la actividad.  \n",
    "\n",
    "El dataset contiene 1784 registros, habiendo 1017 que se corresponden con actividades normales y 767 que se corresponden con caídas."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "import seaborn as sns\n",
    "from sklearn.pipeline import Pipeline\n",
    "from sklearn.pipeline import make_pipeline\n",
    "\n",
    "from sklearn.model_selection import GridSearchCV\n",
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.model_selection import GridSearchCV\n",
    "from sklearn.model_selection import StratifiedKFold\n",
    "from sklearn.model_selection import cross_val_score\n",
    "from sklearn.metrics import classification_report\n",
    "from sklearn.metrics import accuracy_score\n",
    "from sklearn.base import BaseEstimator, TransformerMixin\n",
    "from sklearn.preprocessing import StandardScaler\n",
    "from sklearn.preprocessing import MinMaxScaler\n",
    "from sklearn.neighbors import KNeighborsClassifier\n",
    "from sklearn.linear_model import LogisticRegression\n",
    "from sklearn.ensemble import RandomForestClassifier\n",
    "from sklearn.ensemble import IsolationForest\n",
    "from sklearn.tree import DecisionTreeClassifier\n",
    "\n",
    "from imblearn import FunctionSampler\n",
    "\n",
    "from xgboost import XGBClassifier\n",
    "import warnings\n",
    "warnings.filterwarnings('ignore')\n",
    "from sklearn import set_config\n",
    "set_config(display=\"diagram\")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "df1 = pd.read_csv('../tp_final_no_anda_la_clase_outlier/Train.csv')\n",
    "df2 = pd.read_csv('../tp_final_no_anda_la_clase_outlier/Test.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(1428, 12)"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df1.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(356, 12)"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df2.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.concat([df1, df2])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(1784, 12)"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Unnamed: 0       0\n",
       "acc_max          0\n",
       "gyro_max         0\n",
       "acc_kurtosis     0\n",
       "gyro_kurtosis    0\n",
       "label            0\n",
       "lin_max          0\n",
       "acc_skewness     0\n",
       "gyro_skewness    0\n",
       "post_gyro_max    0\n",
       "post_lin_max     0\n",
       "fall             0\n",
       "dtype: int64"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.isnull().sum()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Unnamed: 0</th>\n",
       "      <th>acc_max</th>\n",
       "      <th>gyro_max</th>\n",
       "      <th>acc_kurtosis</th>\n",
       "      <th>gyro_kurtosis</th>\n",
       "      <th>lin_max</th>\n",
       "      <th>acc_skewness</th>\n",
       "      <th>gyro_skewness</th>\n",
       "      <th>post_gyro_max</th>\n",
       "      <th>post_lin_max</th>\n",
       "      <th>fall</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>count</th>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "      <td>1784.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>mean</th>\n",
       "      <td>891.500000</td>\n",
       "      <td>21.768998</td>\n",
       "      <td>5.028728</td>\n",
       "      <td>10.031186</td>\n",
       "      <td>3.916387</td>\n",
       "      <td>7.976308</td>\n",
       "      <td>1.732918</td>\n",
       "      <td>1.629258</td>\n",
       "      <td>3.191397</td>\n",
       "      <td>5.228546</td>\n",
       "      <td>0.429933</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>std</th>\n",
       "      <td>515.140757</td>\n",
       "      <td>5.479980</td>\n",
       "      <td>2.943876</td>\n",
       "      <td>11.836305</td>\n",
       "      <td>5.489329</td>\n",
       "      <td>4.258842</td>\n",
       "      <td>1.529711</td>\n",
       "      <td>0.999016</td>\n",
       "      <td>3.429678</td>\n",
       "      <td>5.004165</td>\n",
       "      <td>0.495205</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>min</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>9.787964</td>\n",
       "      <td>0.026257</td>\n",
       "      <td>-1.743347</td>\n",
       "      <td>-1.532044</td>\n",
       "      <td>0.043625</td>\n",
       "      <td>-14.066208</td>\n",
       "      <td>-0.460160</td>\n",
       "      <td>-4.984168</td>\n",
       "      <td>-5.382828</td>\n",
       "      <td>0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25%</th>\n",
       "      <td>445.750000</td>\n",
       "      <td>18.751488</td>\n",
       "      <td>3.104216</td>\n",
       "      <td>0.469997</td>\n",
       "      <td>0.186524</td>\n",
       "      <td>4.832765</td>\n",
       "      <td>0.458187</td>\n",
       "      <td>0.811557</td>\n",
       "      <td>0.286294</td>\n",
       "      <td>0.907965</td>\n",
       "      <td>0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>50%</th>\n",
       "      <td>891.500000</td>\n",
       "      <td>22.924268</td>\n",
       "      <td>4.568088</td>\n",
       "      <td>8.423476</td>\n",
       "      <td>2.028413</td>\n",
       "      <td>8.282902</td>\n",
       "      <td>1.520431</td>\n",
       "      <td>1.542694</td>\n",
       "      <td>2.452813</td>\n",
       "      <td>3.727967</td>\n",
       "      <td>0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>75%</th>\n",
       "      <td>1337.250000</td>\n",
       "      <td>25.865634</td>\n",
       "      <td>6.428771</td>\n",
       "      <td>15.717815</td>\n",
       "      <td>5.582912</td>\n",
       "      <td>11.100896</td>\n",
       "      <td>2.912764</td>\n",
       "      <td>2.291739</td>\n",
       "      <td>5.226240</td>\n",
       "      <td>9.629489</td>\n",
       "      <td>1.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>max</th>\n",
       "      <td>1783.000000</td>\n",
       "      <td>32.885551</td>\n",
       "      <td>17.288546</td>\n",
       "      <td>231.134385</td>\n",
       "      <td>34.163811</td>\n",
       "      <td>25.382307</td>\n",
       "      <td>6.782592</td>\n",
       "      <td>5.174101</td>\n",
       "      <td>16.204944</td>\n",
       "      <td>23.972115</td>\n",
       "      <td>1.000000</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "        Unnamed: 0      acc_max     gyro_max  acc_kurtosis  gyro_kurtosis  \\\n",
       "count  1784.000000  1784.000000  1784.000000   1784.000000    1784.000000   \n",
       "mean    891.500000    21.768998     5.028728     10.031186       3.916387   \n",
       "std     515.140757     5.479980     2.943876     11.836305       5.489329   \n",
       "min       0.000000     9.787964     0.026257     -1.743347      -1.532044   \n",
       "25%     445.750000    18.751488     3.104216      0.469997       0.186524   \n",
       "50%     891.500000    22.924268     4.568088      8.423476       2.028413   \n",
       "75%    1337.250000    25.865634     6.428771     15.717815       5.582912   \n",
       "max    1783.000000    32.885551    17.288546    231.134385      34.163811   \n",
       "\n",
       "           lin_max  acc_skewness  gyro_skewness  post_gyro_max  post_lin_max  \\\n",
       "count  1784.000000   1784.000000    1784.000000    1784.000000   1784.000000   \n",
       "mean      7.976308      1.732918       1.629258       3.191397      5.228546   \n",
       "std       4.258842      1.529711       0.999016       3.429678      5.004165   \n",
       "min       0.043625    -14.066208      -0.460160      -4.984168     -5.382828   \n",
       "25%       4.832765      0.458187       0.811557       0.286294      0.907965   \n",
       "50%       8.282902      1.520431       1.542694       2.452813      3.727967   \n",
       "75%      11.100896      2.912764       2.291739       5.226240      9.629489   \n",
       "max      25.382307      6.782592       5.174101      16.204944     23.972115   \n",
       "\n",
       "              fall  \n",
       "count  1784.000000  \n",
       "mean      0.429933  \n",
       "std       0.495205  \n",
       "min       0.000000  \n",
       "25%       0.000000  \n",
       "50%       0.000000  \n",
       "75%       1.000000  \n",
       "max       1.000000  "
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.describe()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "Int64Index: 1784 entries, 0 to 355\n",
      "Data columns (total 12 columns):\n",
      " #   Column         Non-Null Count  Dtype  \n",
      "---  ------         --------------  -----  \n",
      " 0   Unnamed: 0     1784 non-null   int64  \n",
      " 1   acc_max        1784 non-null   float64\n",
      " 2   gyro_max       1784 non-null   float64\n",
      " 3   acc_kurtosis   1784 non-null   float64\n",
      " 4   gyro_kurtosis  1784 non-null   float64\n",
      " 5   label          1784 non-null   object \n",
      " 6   lin_max        1784 non-null   float64\n",
      " 7   acc_skewness   1784 non-null   float64\n",
      " 8   gyro_skewness  1784 non-null   float64\n",
      " 9   post_gyro_max  1784 non-null   float64\n",
      " 10  post_lin_max   1784 non-null   float64\n",
      " 11  fall           1784 non-null   int64  \n",
      "dtypes: float64(9), int64(2), object(1)\n",
      "memory usage: 181.2+ KB\n"
     ]
    }
   ],
   "source": [
    "df.info()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Unnamed: 0</th>\n",
       "      <th>acc_max</th>\n",
       "      <th>gyro_max</th>\n",
       "      <th>acc_kurtosis</th>\n",
       "      <th>gyro_kurtosis</th>\n",
       "      <th>label</th>\n",
       "      <th>lin_max</th>\n",
       "      <th>acc_skewness</th>\n",
       "      <th>gyro_skewness</th>\n",
       "      <th>post_gyro_max</th>\n",
       "      <th>post_lin_max</th>\n",
       "      <th>fall</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1044</th>\n",
       "      <td>879</td>\n",
       "      <td>22.960623</td>\n",
       "      <td>6.481883</td>\n",
       "      <td>4.701671</td>\n",
       "      <td>2.504065</td>\n",
       "      <td>CSI</td>\n",
       "      <td>12.424865</td>\n",
       "      <td>1.209656</td>\n",
       "      <td>1.738483</td>\n",
       "      <td>4.721564</td>\n",
       "      <td>10.974288</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "      Unnamed: 0    acc_max  gyro_max  acc_kurtosis  gyro_kurtosis label  \\\n",
       "1044         879  22.960623  6.481883      4.701671       2.504065   CSI   \n",
       "\n",
       "        lin_max  acc_skewness  gyro_skewness  post_gyro_max  post_lin_max  \\\n",
       "1044  12.424865      1.209656       1.738483       4.721564     10.974288   \n",
       "\n",
       "      fall  \n",
       "1044     0  "
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.sample()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(1784, 12)"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "1.0"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['Unnamed: 0'].value_counts().mean() #acá vemos que cada valor de esta columna aparece una sola vez, por lo que es un índice. \n",
    "#será dropeada"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "FOL    192\n",
       "SDL    192\n",
       "FKL    192\n",
       "BSC    191\n",
       "CSO    113\n",
       "STD    113\n",
       "SCH    113\n",
       "STU    113\n",
       "CSI    113\n",
       "STN    113\n",
       "JUM    113\n",
       "WAL    113\n",
       "JOG    113\n",
       "Name: label, dtype: int64"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['label'].value_counts()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0    1017\n",
       "1     767\n",
       "Name: fall, dtype: int64"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['fall'].value_counts()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>fall</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>label</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>BSC</th>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>CSI</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>CSO</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>FKL</th>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>FOL</th>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>JOG</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>JUM</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>SCH</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>SDL</th>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>STD</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>STN</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>STU</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>WAL</th>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "       fall\n",
       "label      \n",
       "BSC       1\n",
       "CSI       0\n",
       "CSO       0\n",
       "FKL       1\n",
       "FOL       1\n",
       "JOG       0\n",
       "JUM       0\n",
       "SCH       0\n",
       "SDL       1\n",
       "STD       0\n",
       "STN       0\n",
       "STU       0\n",
       "WAL       0"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# acá vemos que las categorías 'BSC', 'FKL', 'FOL', y 'STD' se corresponden al valor '1' de la columna 'fall' por lo que representan caídas, \n",
    "# mientras que el resto de las categorias se corresponden con el valor '0' por lo que representan movimientos que no son caídas\n",
    "grouped = df.groupby('label').agg({'fall': 'mean'}) \n",
    "grouped"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "#acá confirmamos que los que no corresponden a caídas coinciden en cantidad con los \"0\" de la categoría a predecir\n",
    "#df.loc[df['label'].isin(grupo[grupo < 120].index.tolist())]['label'].value_counts().sum() == df['fall'].value_counts()[0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "corr_matrix = df.corr() #vamos a ver como correlacionan entre si las features"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "#fig, ax = plt.subplots(figsize=(10, 6))\n",
    "#sns.heatmap(corr_matrix, cmap=\"Blues\", annot=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "fall             1.000000\n",
       "post_lin_max     0.864964\n",
       "post_gyro_max    0.765410\n",
       "acc_skewness     0.713811\n",
       "gyro_skewness    0.685179\n",
       "acc_max          0.609653\n",
       "lin_max          0.581044\n",
       "gyro_kurtosis    0.550182\n",
       "acc_kurtosis     0.547179\n",
       "gyro_max         0.468947\n",
       "Unnamed: 0      -0.857480\n",
       "Name: fall, dtype: float64"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "corr_matrix['fall'].sort_values(ascending = False) #ordenamos de mayor a menor las correlaciones con 'fall'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Unnamed: 0   -0.857480\n",
       "gyro_max      0.468947\n",
       "Name: fall, dtype: float64"
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "corr_matrix['fall'][corr_matrix['fall'] < 0.5] # aca vemos que 'gyro_max' correlaciona poco con 'fall'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Index(['Unnamed: 0', 'acc_max', 'gyro_max', 'acc_kurtosis', 'gyro_kurtosis',\n",
       "       'label', 'lin_max', 'acc_skewness', 'gyro_skewness', 'post_gyro_max',\n",
       "       'post_lin_max', 'fall'],\n",
       "      dtype='object')"
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.columns"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Entocnes como las columnas \"Unnamed: 0', 'gyro_max', y 'label' son innecesarioas, usamos una clase para preprocesar los datos que elimine estas columnas del dataframe"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
    "class FeatureSelection(BaseEstimator, TransformerMixin):\n",
    "\n",
    "    def __init__(self,selected_features):\n",
    "        self.selected_features=selected_features\n",
    "    \n",
    "    def fit(self,X,y=None):\n",
    "        return self\n",
    "\n",
    "    def transform(self, X, y=None):\n",
    "        return X[self.selected_features]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "class OutlierRemover(BaseEstimator, TransformerMixin):\n",
    "    \n",
    "    def __init__(self, n_std=3):\n",
    "        self.n_std = n_std\n",
    "    \n",
    "    def fit(self, X, y = None):\n",
    "        self.mean_ = np.mean(X, axis=0)\n",
    "        self.std_ = np.std(X, axis=0)\n",
    "        return self\n",
    "    \n",
    "    def transform(self, X, y):\n",
    "        print(y)\n",
    "       \n",
    "            # Filtrar las filas que no contienen valores atípicos\n",
    "        limite_inferior = self.mean_ - self.n_std * self.std_\n",
    "        limite_superior = self.mean_ + self.n_std * self.std_\n",
    "        mask = np.all((X > limite_inferior) & (X < limite_superior), axis=1)\n",
    "        \n",
    "        X_filtrado = X[mask]\n",
    "        y = y[mask]\n",
    "        return X_filtrado, y\n",
    "    \n",
    "    def fit_transform(self, X, y=None, **fit_params):\n",
    "        return self.fit(X, y).transform(X, y)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(1427, 11)"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "(357, 11)"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "(1427,)"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "(357,)"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "pandas.core.frame.DataFrame"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "pandas.core.frame.DataFrame"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "pandas.core.series.Series"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "pandas.core.series.Series"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "# Separamos las variables independientes de la target\n",
    "X=df.drop(columns=['fall'])\n",
    "y=df['fall']\n",
    "\n",
    "# Dividimos los datos en el set de train y el de test: \n",
    "X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=100, stratify=y)\n",
    "display(X_train.shape, X_test.shape, y_train.shape, y_test.shape)\n",
    "display(type(X_train), type(X_test), type(y_train), type(y_test))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Unnamed: 0</th>\n",
       "      <th>acc_max</th>\n",
       "      <th>gyro_max</th>\n",
       "      <th>acc_kurtosis</th>\n",
       "      <th>gyro_kurtosis</th>\n",
       "      <th>label</th>\n",
       "      <th>lin_max</th>\n",
       "      <th>acc_skewness</th>\n",
       "      <th>gyro_skewness</th>\n",
       "      <th>post_gyro_max</th>\n",
       "      <th>post_lin_max</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>765</th>\n",
       "      <td>931</td>\n",
       "      <td>17.310921</td>\n",
       "      <td>5.78264</td>\n",
       "      <td>5.979438</td>\n",
       "      <td>-0.16566</td>\n",
       "      <td>CSO</td>\n",
       "      <td>4.717529</td>\n",
       "      <td>1.367272</td>\n",
       "      <td>0.811601</td>\n",
       "      <td>5.699724</td>\n",
       "      <td>4.569499</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     Unnamed: 0    acc_max  gyro_max  acc_kurtosis  gyro_kurtosis label  \\\n",
       "765         931  17.310921   5.78264      5.979438       -0.16566   CSO   \n",
       "\n",
       "      lin_max  acc_skewness  gyro_skewness  post_gyro_max  post_lin_max  \n",
       "765  4.717529      1.367272       0.811601       5.699724      4.569499  "
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X_train.sample()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [],
   "source": [
    "folds = StratifiedKFold(n_splits=5, shuffle=True, random_state=0) #preparo el cross validation"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
    "#le pongo estos pasos x defecto al pipeline\n",
    "pipeline = Pipeline([('FeatureSelection', FeatureSelection(['acc_max', 'acc_kurtosis', 'gyro_kurtosis',\n",
    "       'lin_max', 'acc_skewness', 'gyro_skewness', 'post_gyro_max', 'post_lin_max'])), \n",
    "#      ('OutlierRemover', OutlierRemover()),\n",
    "       ('scaler', StandardScaler()), \n",
    "       ('model', LogisticRegression())], verbose = False) \n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {},
   "outputs": [],
   "source": [
    "# pipeline.steps[0][1].fit_transform(X_train, y_train)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {},
   "outputs": [],
   "source": [
    "# en esta lista de diccionarios pongo las cosas que quiero que pruebe el CV\n",
    "# en el pipe vamos a probar 4 modelos con varios hiperparámetros\n",
    "param_grid = [ {'model': [KNeighborsClassifier()], \"model__n_neighbors\": [2, 3, 4, 5, 6, 7, 8], 'model__weights' : ['uniform', 'distance'], 'scaler' : [StandardScaler(), MinMaxScaler(), None]}, \n",
    "               {'model': [LogisticRegression()], 'model__C': [0.01, 0.1, 1, 10, 100, 1000], 'model__penalty': ['l2', None], 'scaler' : [StandardScaler(), MinMaxScaler(), None]} ,\n",
    "               {'model': [RandomForestClassifier()], 'model__criterion': ['gini', 'entropy'], 'scaler' : [StandardScaler(), MinMaxScaler(), None]},\n",
    "               {'model': [XGBClassifier(objective='binary:logistic', eval_metric='logloss')], 'model__learning_rate': [0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.1, 1.2], 'scaler' : [StandardScaler(), MinMaxScaler(), None] }\n",
    "               ]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "metadata": {},
   "outputs": [],
   "source": [
    "grid = GridSearchCV(pipeline, param_grid, cv=folds)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>div.sk-top-container {color: black;background-color: white;}div.sk-toggleable {background-color: white;}label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.2em 0.3em;box-sizing: border-box;text-align: center;}div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}div.sk-estimator {font-family: monospace;background-color: #f0f8ff;margin: 0.25em 0.25em;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;}div.sk-estimator:hover {background-color: #d4ebff;}div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 2em;bottom: 0;left: 50%;}div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;}div.sk-item {z-index: 1;}div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;}div.sk-parallel-item {display: flex;flex-direction: column;position: relative;background-color: white;}div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}div.sk-parallel-item:only-child::after {width: 0;}div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0.2em;box-sizing: border-box;padding-bottom: 0.1em;background-color: white;position: relative;}div.sk-label label {font-family: monospace;font-weight: bold;background-color: white;display: inline-block;line-height: 1.2em;}div.sk-label-container {position: relative;z-index: 2;text-align: center;}div.sk-container {display: inline-block;position: relative;}</style><div class=\"sk-top-container\"><div class=\"sk-container\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"484012e9-2376-4ea2-ae1f-88c9569a5cd9\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"484012e9-2376-4ea2-ae1f-88c9569a5cd9\">GridSearchCV</label><div class=\"sk-toggleable__content\"><pre>GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=0, shuffle=True),\n",
       "             estimator=Pipeline(steps=[('FeatureSelection',\n",
       "                                        FeatureSelection(selected_features=['acc_max',\n",
       "                                                                            'acc_kurtosis',\n",
       "                                                                            'gyro_kurtosis',\n",
       "                                                                            'lin_max',\n",
       "                                                                            'acc_skewness',\n",
       "                                                                            'gyro_skewness',\n",
       "                                                                            'post_gyro_max',\n",
       "                                                                            'post_lin_max'])),\n",
       "                                       ('scaler', StandardScaler()),\n",
       "                                       ('model', LogisticRegression())]),\n",
       "             param_grid=[{'model...\n",
       "                                                  missing=nan,\n",
       "                                                  monotone_constraints=None,\n",
       "                                                  n_estimators=100, n_jobs=None,\n",
       "                                                  num_parallel_tree=None,\n",
       "                                                  random_state=None,\n",
       "                                                  reg_alpha=None,\n",
       "                                                  reg_lambda=None,\n",
       "                                                  scale_pos_weight=None,\n",
       "                                                  subsample=None,\n",
       "                                                  tree_method=None,\n",
       "                                                  validate_parameters=None,\n",
       "                                                  verbosity=None)],\n",
       "                          'model__learning_rate': [0.2, 0.3, 0.4, 0.5, 0.6, 0.7,\n",
       "                                                   0.8, 0.9, 1, 1.1, 1.2],\n",
       "                          'scaler': [StandardScaler(), MinMaxScaler(), None]}])</pre></div></div></div><div class=\"sk-parallel\"><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"a5d56b68-499d-4387-b7cd-4b1c5fa5176e\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"a5d56b68-499d-4387-b7cd-4b1c5fa5176e\">FeatureSelection</label><div class=\"sk-toggleable__content\"><pre>FeatureSelection(selected_features=['acc_max', 'acc_kurtosis', 'gyro_kurtosis',\n",
       "                                    'lin_max', 'acc_skewness', 'gyro_skewness',\n",
       "                                    'post_gyro_max', 'post_lin_max'])</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"c03eadc0-04c3-4a2f-b996-b40a444633f1\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"c03eadc0-04c3-4a2f-b996-b40a444633f1\">StandardScaler</label><div class=\"sk-toggleable__content\"><pre>StandardScaler()</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"fdb7ff8f-c74e-4082-831e-cf7ce9689a15\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"fdb7ff8f-c74e-4082-831e-cf7ce9689a15\">LogisticRegression</label><div class=\"sk-toggleable__content\"><pre>LogisticRegression()</pre></div></div></div></div></div></div></div></div></div></div></div></div>"
      ],
      "text/plain": [
       "GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=0, shuffle=True),\n",
       "             estimator=Pipeline(steps=[('FeatureSelection',\n",
       "                                        FeatureSelection(selected_features=['acc_max',\n",
       "                                                                            'acc_kurtosis',\n",
       "                                                                            'gyro_kurtosis',\n",
       "                                                                            'lin_max',\n",
       "                                                                            'acc_skewness',\n",
       "                                                                            'gyro_skewness',\n",
       "                                                                            'post_gyro_max',\n",
       "                                                                            'post_lin_max'])),\n",
       "                                       ('scaler', StandardScaler()),\n",
       "                                       ('model', LogisticRegression())]),\n",
       "             param_grid=[{'model...\n",
       "                                                  missing=nan,\n",
       "                                                  monotone_constraints=None,\n",
       "                                                  n_estimators=100, n_jobs=None,\n",
       "                                                  num_parallel_tree=None,\n",
       "                                                  random_state=None,\n",
       "                                                  reg_alpha=None,\n",
       "                                                  reg_lambda=None,\n",
       "                                                  scale_pos_weight=None,\n",
       "                                                  subsample=None,\n",
       "                                                  tree_method=None,\n",
       "                                                  validate_parameters=None,\n",
       "                                                  verbosity=None)],\n",
       "                          'model__learning_rate': [0.2, 0.3, 0.4, 0.5, 0.6, 0.7,\n",
       "                                                   0.8, 0.9, 1, 1.1, 1.2],\n",
       "                          'scaler': [StandardScaler(), MinMaxScaler(), None]}])"
      ]
     },
     "execution_count": 31,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "grid.fit(X_train, y_train) #muestra los pasos x defecto"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 32,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>div.sk-top-container {color: black;background-color: white;}div.sk-toggleable {background-color: white;}label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.2em 0.3em;box-sizing: border-box;text-align: center;}div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}div.sk-estimator {font-family: monospace;background-color: #f0f8ff;margin: 0.25em 0.25em;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;}div.sk-estimator:hover {background-color: #d4ebff;}div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 2em;bottom: 0;left: 50%;}div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;}div.sk-item {z-index: 1;}div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;}div.sk-parallel-item {display: flex;flex-direction: column;position: relative;background-color: white;}div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}div.sk-parallel-item:only-child::after {width: 0;}div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0.2em;box-sizing: border-box;padding-bottom: 0.1em;background-color: white;position: relative;}div.sk-label label {font-family: monospace;font-weight: bold;background-color: white;display: inline-block;line-height: 1.2em;}div.sk-label-container {position: relative;z-index: 2;text-align: center;}div.sk-container {display: inline-block;position: relative;}</style><div class=\"sk-top-container\"><div class=\"sk-container\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"e6e964df-0baa-49a5-8a1e-77b6f069b78c\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"e6e964df-0baa-49a5-8a1e-77b6f069b78c\">Pipeline</label><div class=\"sk-toggleable__content\"><pre>Pipeline(steps=[('FeatureSelection',\n",
       "                 FeatureSelection(selected_features=['acc_max', 'acc_kurtosis',\n",
       "                                                     'gyro_kurtosis', 'lin_max',\n",
       "                                                     'acc_skewness',\n",
       "                                                     'gyro_skewness',\n",
       "                                                     'post_gyro_max',\n",
       "                                                     'post_lin_max'])),\n",
       "                ('scaler', StandardScaler()),\n",
       "                ('model',\n",
       "                 XGBClassifier(base_score=0.5, booster='gbtree',\n",
       "                               colsample_bylevel=1, colsample_bynode=1,\n",
       "                               colsample_bytree=1, eval_metric='logloss',\n",
       "                               gamma=0, gpu_id=-1, importance_type='gain',\n",
       "                               interaction_constraints='', learning_rate=0.5,\n",
       "                               max_delta_step=0, max_depth=6,\n",
       "                               min_child_weight=1, missing=nan,\n",
       "                               monotone_constraints='()', n_estimators=100,\n",
       "                               n_jobs=12, num_parallel_tree=1, random_state=0,\n",
       "                               reg_alpha=0, reg_lambda=1, scale_pos_weight=1,\n",
       "                               subsample=1, tree_method='exact',\n",
       "                               validate_parameters=1, verbosity=None))])</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"6d5f5ea5-673e-4db1-b258-041feb8a3482\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"6d5f5ea5-673e-4db1-b258-041feb8a3482\">FeatureSelection</label><div class=\"sk-toggleable__content\"><pre>FeatureSelection(selected_features=['acc_max', 'acc_kurtosis', 'gyro_kurtosis',\n",
       "                                    'lin_max', 'acc_skewness', 'gyro_skewness',\n",
       "                                    'post_gyro_max', 'post_lin_max'])</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"4cd06878-e1f5-4ebf-a2e7-f966b2c7ce03\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"4cd06878-e1f5-4ebf-a2e7-f966b2c7ce03\">StandardScaler</label><div class=\"sk-toggleable__content\"><pre>StandardScaler()</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"289c49df-e6a2-4e71-97d2-f53cf749144e\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"289c49df-e6a2-4e71-97d2-f53cf749144e\">XGBClassifier</label><div class=\"sk-toggleable__content\"><pre>XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,\n",
       "              colsample_bynode=1, colsample_bytree=1, eval_metric='logloss',\n",
       "              gamma=0, gpu_id=-1, importance_type='gain',\n",
       "              interaction_constraints='', learning_rate=0.5, max_delta_step=0,\n",
       "              max_depth=6, min_child_weight=1, missing=nan,\n",
       "              monotone_constraints='()', n_estimators=100, n_jobs=12,\n",
       "              num_parallel_tree=1, random_state=0, reg_alpha=0, reg_lambda=1,\n",
       "              scale_pos_weight=1, subsample=1, tree_method='exact',\n",
       "              validate_parameters=1, verbosity=None)</pre></div></div></div></div></div></div></div>"
      ],
      "text/plain": [
       "Pipeline(steps=[('FeatureSelection',\n",
       "                 FeatureSelection(selected_features=['acc_max', 'acc_kurtosis',\n",
       "                                                     'gyro_kurtosis', 'lin_max',\n",
       "                                                     'acc_skewness',\n",
       "                                                     'gyro_skewness',\n",
       "                                                     'post_gyro_max',\n",
       "                                                     'post_lin_max'])),\n",
       "                ('scaler', StandardScaler()),\n",
       "                ('model',\n",
       "                 XGBClassifier(base_score=0.5, booster='gbtree',\n",
       "                               colsample_bylevel=1, colsample_bynode=1,\n",
       "                               colsample_bytree=1, eval_metric='logloss',\n",
       "                               gamma=0, gpu_id=-1, importance_type='gain',\n",
       "                               interaction_constraints='', learning_rate=0.5,\n",
       "                               max_delta_step=0, max_depth=6,\n",
       "                               min_child_weight=1, missing=nan,\n",
       "                               monotone_constraints='()', n_estimators=100,\n",
       "                               n_jobs=12, num_parallel_tree=1, random_state=0,\n",
       "                               reg_alpha=0, reg_lambda=1, scale_pos_weight=1,\n",
       "                               subsample=1, tree_method='exact',\n",
       "                               validate_parameters=1, verbosity=None))])"
      ]
     },
     "execution_count": 32,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "grid.best_estimator_ #el mejor modelo "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "El modelo arrojó un accuracy score en el conjunto de entrenamiento de:  0.9824880382775121\n"
     ]
    }
   ],
   "source": [
    "print(\"El modelo arrojó un accuracy score en el conjunto de entrenamiento de: \", grid.best_score_) #vemos el accuracy del mejor modelo"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'model': XGBClassifier(base_score=None, booster=None, colsample_bylevel=None,\n",
       "               colsample_bynode=None, colsample_bytree=None,\n",
       "               eval_metric='logloss', gamma=None, gpu_id=None,\n",
       "               importance_type='gain', interaction_constraints=None,\n",
       "               learning_rate=0.5, max_delta_step=None, max_depth=None,\n",
       "               min_child_weight=None, missing=nan, monotone_constraints=None,\n",
       "               n_estimators=100, n_jobs=None, num_parallel_tree=None,\n",
       "               random_state=None, reg_alpha=None, reg_lambda=None,\n",
       "               scale_pos_weight=None, subsample=None, tree_method=None,\n",
       "               validate_parameters=None, verbosity=None),\n",
       " 'model__learning_rate': 0.5,\n",
       " 'scaler': StandardScaler()}"
      ]
     },
     "execution_count": 34,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "grid.best_params_ #vemos los mejores hiperparámetros del mejor modelo"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "El modelo tiene un accuracy score de:  0.9803921568627451\n"
     ]
    }
   ],
   "source": [
    "print(\"El modelo tiene un accuracy score de: \", accuracy_score(grid.best_estimator_.predict(X_test),y_test))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {},
   "outputs": [],
   "source": [
    "y_pred = grid.best_estimator_.predict(X_test)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "              precision    recall  f1-score   support\n",
      "\n",
      "           0       0.98      0.99      0.98       204\n",
      "           1       0.99      0.97      0.98       153\n",
      "\n",
      "    accuracy                           0.98       357\n",
      "   macro avg       0.98      0.98      0.98       357\n",
      "weighted avg       0.98      0.98      0.98       357\n",
      "\n"
     ]
    }
   ],
   "source": [
    "from sklearn.metrics import classification_report\n",
    "from sklearn.metrics import confusion_matrix\n",
    "import seaborn as sns\n",
    "import itertools\n",
    "y_pred_ = list(itertools.chain(y_pred))\n",
    "y_test_ = list(itertools.chain(y_test))\n",
    "\n",
    "print(classification_report(y_test_, y_pred_))\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 38,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pickle"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 39,
   "metadata": {},
   "outputs": [],
   "source": [
    "best_model = grid.best_estimator_\n",
    "\n",
    "\n",
    "with open('mejor_modelo_tp4.pkl', 'wb') as f:\n",
    "    pickle.dump(best_model, f)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "dhdsblend2021",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.13"
  },
  "orig_nbformat": 4,
  "vscode": {
   "interpreter": {
    "hash": "052e7fd3051fb62256c874c1940dfbcd26c7f9302251177c1c2130ce8acd18fb"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}