{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import os\n", "\n", "DATA_DIR = os.path.join(\"..\", \"data\")" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | Season | \n", "DayNum | \n", "WTeamID | \n", "WScore | \n", "LTeamID | \n", "LScore | \n", "WLoc | \n", "NumOT | \n", "WFGM | \n", "WFGA | \n", "... | \n", "LFTM | \n", "LFTA | \n", "LOR | \n", "LDR | \n", "LAst | \n", "LTO | \n", "LStl | \n", "LBlk | \n", "LPF | \n", "League | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
808 | \n", "2015 | \n", "137 | \n", "1320 | \n", "71 | \n", "1461 | \n", "54 | \n", "N | \n", "0 | \n", "23 | \n", "50 | \n", "... | \n", "3 | \n", "9 | \n", "4 | \n", "18 | \n", "14 | \n", "12 | \n", "2 | \n", "3 | \n", "17 | \n", "M | \n", "
682 | \n", "2021 | \n", "146 | \n", "3257 | \n", "60 | \n", "3332 | \n", "42 | \n", "N | \n", "0 | \n", "26 | \n", "63 | \n", "... | \n", "4 | \n", "5 | \n", "14 | \n", "23 | \n", "7 | \n", "14 | \n", "5 | \n", "6 | \n", "10 | \n", "W | \n", "
1114 | \n", "2019 | \n", "154 | \n", "1438 | \n", "85 | \n", "1403 | \n", "77 | \n", "N | \n", "1 | \n", "27 | \n", "59 | \n", "... | \n", "13 | \n", "15 | \n", "9 | \n", "23 | \n", "9 | \n", "8 | \n", "6 | \n", "3 | \n", "18 | \n", "M | \n", "
718 | \n", "2022 | \n", "138 | \n", "3261 | \n", "83 | \n", "3238 | \n", "77 | \n", "H | \n", "0 | \n", "30 | \n", "74 | \n", "... | \n", "19 | \n", "29 | \n", "12 | \n", "28 | \n", "11 | \n", "15 | \n", "5 | \n", "4 | \n", "23 | \n", "W | \n", "
1217 | \n", "2022 | \n", "138 | \n", "1116 | \n", "53 | \n", "1308 | \n", "48 | \n", "N | \n", "0 | \n", "14 | \n", "51 | \n", "... | \n", "6 | \n", "10 | \n", "4 | \n", "32 | \n", "8 | \n", "17 | \n", "4 | \n", "4 | \n", "15 | \n", "M | \n", "
5 rows × 35 columns
\n", "\n", " | Season | \n", "DayNum | \n", "WTeamID | \n", "WScore | \n", "LTeamID | \n", "LScore | \n", "WLoc | \n", "NumOT | \n", "WFGM | \n", "WFGA | \n", "... | \n", "LFTM | \n", "LFTA | \n", "LOR | \n", "LDR | \n", "LAst | \n", "LTO | \n", "LStl | \n", "LBlk | \n", "LPF | \n", "League | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
27948 | \n", "2008 | \n", "110 | \n", "1193 | \n", "60 | \n", "1180 | \n", "51 | \n", "A | \n", "0 | \n", "22 | \n", "52 | \n", "... | \n", "7 | \n", "12 | \n", "14 | \n", "20 | \n", "13 | \n", "10 | \n", "4 | \n", "3 | \n", "16 | \n", "M | \n", "
88315 | \n", "2020 | \n", "19 | \n", "1345 | \n", "81 | \n", "1240 | \n", "49 | \n", "H | \n", "0 | \n", "31 | \n", "56 | \n", "... | \n", "12 | \n", "21 | \n", "13 | \n", "21 | \n", "10 | \n", "8 | \n", "4 | \n", "0 | \n", "19 | \n", "M | \n", "
1536 | \n", "2003 | \n", "59 | \n", "1272 | \n", "72 | \n", "1116 | \n", "67 | \n", "A | \n", "0 | \n", "23 | \n", "50 | \n", "... | \n", "14 | \n", "20 | \n", "5 | \n", "17 | \n", "8 | \n", "13 | \n", "10 | \n", "2 | \n", "25 | \n", "M | \n", "
104465 | \n", "2023 | \n", "66 | \n", "1186 | \n", "92 | \n", "1340 | \n", "80 | \n", "H | \n", "0 | \n", "30 | \n", "51 | \n", "... | \n", "10 | \n", "13 | \n", "12 | \n", "17 | \n", "15 | \n", "11 | \n", "11 | \n", "2 | \n", "20 | \n", "M | \n", "
85458 | \n", "2019 | \n", "86 | \n", "1292 | \n", "71 | \n", "1412 | \n", "65 | \n", "H | \n", "0 | \n", "25 | \n", "57 | \n", "... | \n", "15 | \n", "22 | \n", "5 | \n", "27 | \n", "7 | \n", "11 | \n", "11 | \n", "2 | \n", "14 | \n", "M | \n", "
5 rows × 35 columns
\n", "\n", " | Season | \n", "DayNum | \n", "TeamID | \n", "TeamScore | \n", "OppTeamID | \n", "OppScore | \n", "WLoc | \n", "NumOT | \n", "TeamFGM | \n", "TeamFGA | \n", "... | \n", "FTADiff | \n", "PFDiff | \n", "ScoreDiff | \n", "FGADiff | \n", "BlkDiff | \n", "FGM3Diff | \n", "ORDiff | \n", "StlDiff | \n", "AstDiff | \n", "DRDiff | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
337067 | \n", "2017 | \n", "74 | \n", "3158 | \n", "56 | \n", "3189 | \n", "84 | \n", "A | \n", "0 | \n", "21 | \n", "55 | \n", "... | \n", "-11 | \n", "9 | \n", "-28 | \n", "-12 | \n", "1 | \n", "-3 | \n", "-11 | \n", "-7 | \n", "-1 | \n", "-4 | \n", "
100732 | \n", "2022 | \n", "103 | \n", "1439 | \n", "71 | \n", "1393 | \n", "59 | \n", "H | \n", "0 | \n", "23 | \n", "60 | \n", "... | \n", "17 | \n", "-9 | \n", "12 | \n", "-4 | \n", "2 | \n", "-2 | \n", "-1 | \n", "4 | \n", "11 | \n", "1 | \n", "
83150 | \n", "2019 | \n", "26 | \n", "1180 | \n", "82 | \n", "1352 | \n", "69 | \n", "H | \n", "0 | \n", "27 | \n", "58 | \n", "... | \n", "10 | \n", "-5 | \n", "13 | \n", "-6 | \n", "2 | \n", "1 | \n", "4 | \n", "-5 | \n", "1 | \n", "13 | \n", "
345009 | \n", "2019 | \n", "4 | \n", "3435 | \n", "58 | \n", "3292 | \n", "65 | \n", "H | \n", "0 | \n", "19 | \n", "55 | \n", "... | \n", "-11 | \n", "7 | \n", "-7 | \n", "13 | \n", "-3 | \n", "-1 | \n", "2 | \n", "-3 | \n", "4 | \n", "-7 | \n", "
318707 | \n", "2013 | \n", "128 | \n", "3322 | \n", "45 | \n", "3270 | \n", "63 | \n", "N | \n", "0 | \n", "20 | \n", "51 | \n", "... | \n", "-11 | \n", "2 | \n", "-18 | \n", "3 | \n", "1 | \n", "-3 | \n", "2 | \n", "-7 | \n", "2 | \n", "-3 | \n", "
5 rows × 49 columns
\n", "\n", " | TeamID | \n", "Season | \n", "League | \n", "TeamScore min | \n", "TeamScore max | \n", "TeamScore std | \n", "TeamScore median | \n", "TeamScore mean | \n", "OppTeamID min | \n", "OppTeamID max | \n", "... | \n", "Win min | \n", "Win max | \n", "Win std | \n", "Win median | \n", "Win mean | \n", "OppWin min | \n", "OppWin max | \n", "OppWin std | \n", "OppWin median | \n", "OppWin mean | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
12348 | \n", "3430 | \n", "2012 | \n", "W | \n", "41 | \n", "78 | \n", "10.808339 | \n", "61.0 | \n", "58.965517 | \n", "3129 | \n", "3451 | \n", "... | \n", "0 | \n", "1 | \n", "0.508548 | \n", "0.0 | \n", "0.482759 | \n", "0 | \n", "1 | \n", "0.508548 | \n", "1.0 | \n", "0.517241 | \n", "
6900 | \n", "1431 | \n", "2018 | \n", "M | \n", "33 | \n", "88 | \n", "12.283247 | \n", "67.0 | \n", "66.466667 | \n", "1111 | \n", "1450 | \n", "... | \n", "0 | \n", "1 | \n", "0.479463 | \n", "0.0 | \n", "0.333333 | \n", "0 | \n", "1 | \n", "0.479463 | \n", "1.0 | \n", "0.666667 | \n", "
4406 | \n", "1315 | \n", "2014 | \n", "M | \n", "43 | \n", "95 | \n", "10.019980 | \n", "72.0 | \n", "73.000000 | \n", "1132 | \n", "1458 | \n", "... | \n", "0 | \n", "1 | \n", "0.508001 | \n", "0.0 | \n", "0.483871 | \n", "0 | \n", "1 | \n", "0.508001 | \n", "1.0 | \n", "0.516129 | \n", "
4233 | \n", "1307 | \n", "2005 | \n", "M | \n", "53 | \n", "101 | \n", "12.911860 | \n", "77.0 | \n", "75.870968 | \n", "1102 | \n", "1461 | \n", "... | \n", "0 | \n", "1 | \n", "0.401610 | \n", "1.0 | \n", "0.806452 | \n", "0 | \n", "1 | \n", "0.401610 | \n", "0.0 | \n", "0.193548 | \n", "
3407 | \n", "1266 | \n", "2008 | \n", "M | \n", "51 | \n", "100 | \n", "11.841315 | \n", "75.5 | \n", "75.906250 | \n", "1153 | \n", "1458 | \n", "... | \n", "0 | \n", "1 | \n", "0.456803 | \n", "1.0 | \n", "0.718750 | \n", "0 | \n", "1 | \n", "0.456803 | \n", "0.0 | \n", "0.281250 | \n", "
5190 | \n", "1352 | \n", "2016 | \n", "M | \n", "44 | \n", "89 | \n", "10.298567 | \n", "67.0 | \n", "65.062500 | \n", "1102 | \n", "1464 | \n", "... | \n", "0 | \n", "1 | \n", "0.470929 | \n", "0.0 | \n", "0.312500 | \n", "0 | \n", "1 | \n", "0.470929 | \n", "1.0 | \n", "0.687500 | \n", "
1892 | \n", "1194 | \n", "2005 | \n", "M | \n", "45 | \n", "104 | \n", "14.194618 | \n", "76.0 | \n", "76.777778 | \n", "1125 | \n", "1424 | \n", "... | \n", "0 | \n", "1 | \n", "0.492103 | \n", "0.0 | \n", "0.370370 | \n", "0 | \n", "1 | \n", "0.492103 | \n", "1.0 | \n", "0.629630 | \n", "
10020 | \n", "3270 | \n", "2021 | \n", "W | \n", "24 | \n", "80 | \n", "13.385137 | \n", "53.0 | \n", "55.476190 | \n", "3124 | \n", "3418 | \n", "... | \n", "0 | \n", "1 | \n", "0.462910 | \n", "0.0 | \n", "0.285714 | \n", "0 | \n", "1 | \n", "0.462910 | \n", "1.0 | \n", "0.714286 | \n", "
9567 | \n", "3240 | \n", "2014 | \n", "W | \n", "43 | \n", "84 | \n", "11.319009 | \n", "62.5 | \n", "63.593750 | \n", "3120 | \n", "3404 | \n", "... | \n", "0 | \n", "1 | \n", "0.504016 | \n", "0.0 | \n", "0.437500 | \n", "0 | \n", "1 | \n", "0.504016 | \n", "1.0 | \n", "0.562500 | \n", "
12617 | \n", "3452 | \n", "2011 | \n", "W | \n", "39 | \n", "90 | \n", "12.518374 | \n", "65.0 | \n", "65.750000 | \n", "3148 | \n", "3438 | \n", "... | \n", "0 | \n", "1 | \n", "0.456803 | \n", "1.0 | \n", "0.718750 | \n", "0 | \n", "1 | \n", "0.456803 | \n", "0.0 | \n", "0.281250 | \n", "
10 rows × 228 columns
\n", "\n", " | TeamID | \n", "Season | \n", "League | \n", "TeamScore min | \n", "TeamScore max | \n", "TeamScore std | \n", "TeamScore median | \n", "TeamScore mean | \n", "OppTeamID min | \n", "OppTeamID max | \n", "... | \n", "Win min | \n", "Win max | \n", "Win std | \n", "Win median | \n", "Win mean | \n", "OppWin min | \n", "OppWin max | \n", "OppWin std | \n", "OppWin median | \n", "OppWin mean | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
995 | \n", "1390 | \n", "2008 | \n", "M | \n", "62 | \n", "82 | \n", "10.408330 | \n", "77.0 | \n", "73.666667 | \n", "1165 | \n", "1400 | \n", "... | \n", "0 | \n", "1 | \n", "0.577350 | \n", "1.0 | \n", "0.666667 | \n", "0 | \n", "1 | \n", "0.577350 | \n", "0.0 | \n", "0.333333 | \n", "
1601 | \n", "3226 | \n", "2021 | \n", "W | \n", "63 | \n", "63 | \n", "NaN | \n", "63.0 | \n", "63.000000 | \n", "3246 | \n", "3246 | \n", "... | \n", "0 | \n", "0 | \n", "NaN | \n", "0.0 | \n", "0.000000 | \n", "1 | \n", "1 | \n", "NaN | \n", "1.0 | \n", "1.000000 | \n", "
1805 | \n", "3301 | \n", "2023 | \n", "W | \n", "63 | \n", "63 | \n", "NaN | \n", "63.0 | \n", "63.000000 | \n", "3343 | \n", "3343 | \n", "... | \n", "0 | \n", "0 | \n", "NaN | \n", "0.0 | \n", "0.000000 | \n", "1 | \n", "1 | \n", "NaN | \n", "1.0 | \n", "1.000000 | \n", "
952 | \n", "1373 | \n", "2009 | \n", "M | \n", "72 | \n", "74 | \n", "1.414214 | \n", "73.0 | \n", "73.000000 | \n", "1257 | \n", "1326 | \n", "... | \n", "0 | \n", "1 | \n", "0.707107 | \n", "0.5 | \n", "0.500000 | \n", "0 | \n", "1 | \n", "0.707107 | \n", "0.5 | \n", "0.500000 | \n", "
924 | \n", "1361 | \n", "2012 | \n", "M | \n", "65 | \n", "65 | \n", "NaN | \n", "65.0 | \n", "65.000000 | \n", "1301 | \n", "1301 | \n", "... | \n", "0 | \n", "0 | \n", "NaN | \n", "0.0 | \n", "0.000000 | \n", "1 | \n", "1 | \n", "NaN | \n", "1.0 | \n", "1.000000 | \n", "
1381 | \n", "3124 | \n", "2014 | \n", "W | \n", "69 | \n", "90 | \n", "9.912114 | \n", "81.0 | \n", "80.250000 | \n", "3143 | \n", "3443 | \n", "... | \n", "0 | \n", "1 | \n", "0.500000 | \n", "1.0 | \n", "0.750000 | \n", "0 | \n", "1 | \n", "0.500000 | \n", "0.0 | \n", "0.250000 | \n", "
1266 | \n", "1452 | \n", "2021 | \n", "M | \n", "72 | \n", "84 | \n", "8.485281 | \n", "78.0 | \n", "78.000000 | \n", "1287 | \n", "1393 | \n", "... | \n", "0 | \n", "1 | \n", "0.707107 | \n", "0.5 | \n", "0.500000 | \n", "0 | \n", "1 | \n", "0.707107 | \n", "0.5 | \n", "0.500000 | \n", "
1810 | \n", "3304 | \n", "2015 | \n", "W | \n", "69 | \n", "69 | \n", "NaN | \n", "69.0 | \n", "69.000000 | \n", "3393 | \n", "3393 | \n", "... | \n", "0 | \n", "0 | \n", "NaN | \n", "0.0 | \n", "0.000000 | \n", "1 | \n", "1 | \n", "NaN | \n", "1.0 | \n", "1.000000 | \n", "
697 | \n", "1301 | \n", "2023 | \n", "M | \n", "63 | \n", "63 | \n", "NaN | \n", "63.0 | \n", "63.000000 | \n", "1166 | \n", "1166 | \n", "... | \n", "0 | \n", "0 | \n", "NaN | \n", "0.0 | \n", "0.000000 | \n", "1 | \n", "1 | \n", "NaN | \n", "1.0 | \n", "1.000000 | \n", "
763 | \n", "1323 | \n", "2003 | \n", "M | \n", "68 | \n", "71 | \n", "1.527525 | \n", "70.0 | \n", "69.666667 | \n", "1112 | \n", "1454 | \n", "... | \n", "0 | \n", "1 | \n", "0.577350 | \n", "1.0 | \n", "0.666667 | \n", "0 | \n", "1 | \n", "0.577350 | \n", "0.0 | \n", "0.333333 | \n", "
10 rows × 228 columns
\n", "\n", " | Season | \n", "Seed | \n", "TeamID | \n", "League | \n", "ConfAbbrev | \n", "TeamName | \n", "FirstD1Season | \n", "LastD1Season | \n", "ChalkSeed | \n", "
---|---|---|---|---|---|---|---|---|---|
3591 | \n", "2004 | \n", "X02 | \n", "3243 | \n", "W | \n", "big_twelve | \n", "Kansas St | \n", "NaN | \n", "NaN | \n", "2 | \n", "
3528 | \n", "2013 | \n", "Y01 | \n", "3124 | \n", "W | \n", "big_twelve | \n", "Baylor | \n", "NaN | \n", "NaN | \n", "1 | \n", "
1891 | \n", "2003 | \n", "W02 | \n", "1448 | \n", "M | \n", "acc | \n", "Wake Forest | \n", "1985.0 | \n", "2024.0 | \n", "2 | \n", "
778 | \n", "2019 | \n", "Y01 | \n", "1314 | \n", "M | \n", "acc | \n", "North Carolina | \n", "1985.0 | \n", "2024.0 | \n", "1 | \n", "
2932 | \n", "2019 | \n", "X05 | \n", "3266 | \n", "W | \n", "big_east | \n", "Marquette | \n", "NaN | \n", "NaN | \n", "5 | \n", "
\n", " | TeamID | \n", "Season | \n", "League | \n", "TeamScore min reg | \n", "TeamScore max reg | \n", "TeamScore std reg | \n", "TeamScore median reg | \n", "TeamScore mean reg | \n", "OppTeamID min reg | \n", "OppTeamID max reg | \n", "... | \n", "Win min tourney | \n", "Win max tourney | \n", "Win std tourney | \n", "Win median tourney | \n", "Win mean tourney | \n", "OppWin min tourney | \n", "OppWin max tourney | \n", "OppWin std tourney | \n", "OppWin median tourney | \n", "OppWin mean tourney | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
12348 | \n", "3430 | \n", "2012 | \n", "W | \n", "41 | \n", "78 | \n", "10.808339 | \n", "61.0 | \n", "58.965517 | \n", "3129 | \n", "3451 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
6900 | \n", "1431 | \n", "2018 | \n", "M | \n", "33 | \n", "88 | \n", "12.283247 | \n", "67.0 | \n", "66.466667 | \n", "1111 | \n", "1450 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
4406 | \n", "1315 | \n", "2014 | \n", "M | \n", "43 | \n", "95 | \n", "10.019980 | \n", "72.0 | \n", "73.000000 | \n", "1132 | \n", "1458 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
4233 | \n", "1307 | \n", "2005 | \n", "M | \n", "53 | \n", "101 | \n", "12.911860 | \n", "77.0 | \n", "75.870968 | \n", "1102 | \n", "1461 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "NaN | \n", "0.0 | \n", "0.0 | \n", "1.0 | \n", "1.0 | \n", "NaN | \n", "1.0 | \n", "1.0 | \n", "
3407 | \n", "1266 | \n", "2008 | \n", "M | \n", "51 | \n", "100 | \n", "11.841315 | \n", "75.5 | \n", "75.906250 | \n", "1153 | \n", "1458 | \n", "... | \n", "0.0 | \n", "1.0 | \n", "0.707107 | \n", "0.5 | \n", "0.5 | \n", "0.0 | \n", "1.0 | \n", "0.707107 | \n", "0.5 | \n", "0.5 | \n", "
5190 | \n", "1352 | \n", "2016 | \n", "M | \n", "44 | \n", "89 | \n", "10.298567 | \n", "67.0 | \n", "65.062500 | \n", "1102 | \n", "1464 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1892 | \n", "1194 | \n", "2005 | \n", "M | \n", "45 | \n", "104 | \n", "14.194618 | \n", "76.0 | \n", "76.777778 | \n", "1125 | \n", "1424 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
10020 | \n", "3270 | \n", "2021 | \n", "W | \n", "24 | \n", "80 | \n", "13.385137 | \n", "53.0 | \n", "55.476190 | \n", "3124 | \n", "3418 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
9567 | \n", "3240 | \n", "2014 | \n", "W | \n", "43 | \n", "84 | \n", "11.319009 | \n", "62.5 | \n", "63.593750 | \n", "3120 | \n", "3404 | \n", "... | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
12617 | \n", "3452 | \n", "2011 | \n", "W | \n", "39 | \n", "90 | \n", "12.518374 | \n", "65.0 | \n", "65.750000 | \n", "3148 | \n", "3438 | \n", "... | \n", "0.0 | \n", "1.0 | \n", "0.707107 | \n", "0.5 | \n", "0.5 | \n", "0.0 | \n", "1.0 | \n", "0.707107 | \n", "0.5 | \n", "0.5 | \n", "
10 rows × 453 columns
\n", "