nugrahatheo commited on
Commit
aed80bf
·
1 Parent(s): 6eb2dc3

initial commit

Browse files
Files changed (3) hide show
  1. README 2.md +222 -0
  2. h8dsft_P1G3_THEO.ipynb +0 -0
  3. h8dsft_P1G3_THEO_INF.ipynb +343 -0
README 2.md ADDED
@@ -0,0 +1,222 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [![Review Assignment Due Date](https://classroom.github.com/assets/deadline-readme-button-24ddc0f5d75046c5622901739e7c5dd533143b0c8e959d652212380cedb1ea36.svg)](https://classroom.github.com/a/BfDg6KfG)
2
+ [![Open in Visual Studio Code](https://classroom.github.com/assets/open-in-vscode-718a45dd9cf7e7f842a935f5ebbe5719a5e09af4491e668f4dbf3b35d5cca122.svg)](https://classroom.github.com/online_ide?assignment_repo_id=11530189&assignment_repo_type=AssignmentRepo)
3
+ # Graded Challenge 3
4
+
5
+ _Graded Challenge ini dibuat guna mengevaluasi pembelajaran pada Hacktiv8 Data Science Fulltime Program khususnya pada konsep Ensemble Learning._
6
+
7
+ ---
8
+
9
+ ## Assignment Objectives
10
+
11
+ *Graded Challenge 3* ini dibuat guna mengevaluasi konsep Ensemble Learning sebagai berikut:
12
+
13
+ - Mampu memperoleh data menggunakan BigQuery
14
+
15
+ - Mampu memahami konsep Classification dengan Ensemble Learning
16
+
17
+ - Mampu mengimplementasikan Ensemble Learning untuk membuat prediksi
18
+
19
+ - Mampu memahami konsep salah satu algoritma boosting dan mengimplementasikannya dalam kasus Supervised Learning
20
+
21
+ ---
22
+
23
+ ## Dataset
24
+
25
+ ```{attention}
26
+ Perhatikan petunjuk penggunaan dataset!
27
+ ```
28
+
29
+ 1. Pada tugas kali ini, dataset yang digunakan **tidak akan menggunakan `bigquery-public-data`**.
30
+
31
+ 2. Masuk ke dalam Google BigQuery. Gunakan informasi dibawah ini sebagai tempat untuk mengambil data (gunakan sebagai informasi untuk klausa `FROM`).
32
+ * Project ID : `ftds-hacktiv8-project`
33
+
34
+ * Dataset Name :
35
+ + Batch offline : `phase1_ftds_<nomor-batch>_hck` contoh `phase1_ftds_001_hck`
36
+
37
+ + Batch online : `phase1_ftds_<nomor-batch>_rmt` contoh `phase1_ftds_001_rmt`
38
+
39
+ * Table Name : `heart-failure`
40
+
41
+ 3. Ambil semua data dari table nomor 2.
42
+
43
+ 4. Berikut ini adalah informasi dari setiap column.
44
+ <img src='https://i.ibb.co/YBGwMXm/P1-G3-Dataset-Information.png'>
45
+
46
+ 5. Simpan dataset dalam bentuk `.csv` dengan format `h8dsft_P1G3_<nama-students>.csv`. Misal : `h8dsft_P1G3_raka_ardhi.csv`.
47
+
48
+ 6. Salin query yang telah dibuat di Google Cloud Platform. Tulislah pada bagian atas notebook !
49
+
50
+ 7. Tampilkan `10 data pertama` dan `10 data terakhir` dari dataset pada notebook !
51
+
52
+ ---
53
+
54
+ ## Problems
55
+
56
+ Buatlah model Classification menggunakan Random Forest dan salah satu algoritma boosting untuk memprediksi apakah seorang pasien akan meninggal atau tidak menggunakan dataset yang sudah Anda dapatkan.
57
+
58
+ ---
59
+
60
+ ## Conceptual Problems
61
+
62
+ *Jawab pertanyaan berikut:*
63
+
64
+ 1. Jelaskan latar belakang adanya bagging dan cara kerja bagging !
65
+
66
+ 2. Jelaskan perbedaan cara kerja algoritma Random Forest dengan algoritma boosting yang Anda pilih !
67
+
68
+ ---
69
+
70
+ ## Assignment Instructions
71
+
72
+ *Graded Challenge 3* dikerjakan dalam format ***notebook*** dengen beberapa **kriteria wajib** di bawah ini:
73
+
74
+ 1. Machine learning framework yang digunakan adalah *Scikit-Learn*.
75
+
76
+ 2. Ada penggunaan library visualisasi, seperti *matplotlib*, *seaborn*, atau yang lain.
77
+
78
+ 3. Isi *notebook* harus mengikuti *outline* di bawah ini:
79
+ 1. Perkenalan
80
+ > Bab pengenalan harus diisi dengan identitas, gambaran besar dataset yang digunakan, dan *objective* yang ingin dicapai.
81
+
82
+ 2. Query SQL
83
+ > Tulis query yang telah dibuat untuk mengambil data dari Google Cloud Platform di bagian ini.
84
+
85
+ 3. Import Libraries
86
+ > *Cell* pertama pada *notebook* **harus berisi dan hanya berisi** semua *library* yang digunakan dalam *project*.
87
+
88
+ 4. Data Loading
89
+ > Bagian ini berisi proses penyiapan data sebelum dilakukan eksplorasi data lebih lanjut. Proses Data Loading dapat berupa memberi nama baru untuk setiap kolom, mengecek ukuran dataset, dll.
90
+
91
+ 5. Exploratory Data Analysis (EDA)
92
+ > Bagian ini berisi eksplorasi data pada dataset diatas dengan menggunakan query, grouping, visualisasi sederhana, dan lain sebagainya.
93
+
94
+ 6. Feature Engineering
95
+ > Bagian ini berisi proses penyiapan data untuk proses pelatihan model, seperti pembagian data menjadi train-test, transformasi data (normalisasi, encoding, dll.), dan proses-proses lain yang dibutuhkan.
96
+
97
+ 7. Model Definition
98
+ > Bagian ini berisi cell untuk mendefinisikan model. Jelaskan alasan menggunakan suatu algoritma/model, hyperparameter yang dipakai, jenis penggunaan metrics yang dipakai, dan hal lain yang terkait dengan model.
99
+
100
+ 8. Model Training
101
+ > Cell pada bagian ini hanya berisi code untuk melatih model dan output yang dihasilkan. Lakukan beberapa kali proses training dengan hyperparameter yang berbeda untuk melihat hasil yang didapatkan. Analisis dan narasikan hasil ini pada bagian Model Evaluation.
102
+
103
+ 9. Model Evaluation
104
+ > Pada bagian ini, dilakukan evaluasi model yang harus menunjukkan bagaimana performa model berdasarkan metrics yang dipilih. Hal ini harus dibuktikan dengan visualisasi tren performa dan/atau tingkat kesalahan model. **Lakukan analisis terkait dengan hasil pada model dan tuliskan hasil analisisnya**.
105
+
106
+ 10. Model Saving
107
+ > Pada bagian ini, dilakukan proses penyimpanan model dan file-file lain yang terkait dengan hasil proses pembuatan model.
108
+
109
+ 11. Model Inference
110
+ > Model yang sudah dilatih akan dicoba pada data yang bukan termasuk ke dalam train-set ataupun test-set. Data ini harus dalam format yang asli, bukan data yang sudah di-scaled.
111
+
112
+ 12. Pengambilan Kesimpulan
113
+ > Pada bagian terakhir ini, **harus berisi** kesimpulan yang mencerminkan hasil yang didapat dengan *objective* yang sudah ditulis di bagian pengenalan.
114
+
115
+ 4. *Notebook* harus diupload dalam akun GitHub masing-masing student untuk selanjutnya dinilai.
116
+
117
+ ---
118
+
119
+ ## Assignment Submission
120
+
121
+ - Simpan assignment pada sesi ini dengan nama `h8dsft_P1G3_<nama-student>.ipynb` misal `h8dsft_P1G3_raka_ardhi.ipynb`.
122
+
123
+ - Push assignment yang telah Anda buat ke akun Github Classroom Anda masing-masing.
124
+
125
+ - Untuk Model Deployment :
126
+ * Buat sebuah folder bernama `deployment` dan masukkan semua file yang berkaitan dengan deployment ke folder ini.
127
+ * Buat sebuah file bernama `url.txt` yang berisi URL deployment.
128
+ * Contoh bentuk isi repository dengan Model Deployment.
129
+ ```
130
+ ├── deployment/
131
+ │ ├── app.py
132
+ │ └── eda.py
133
+ │ └── prediction.py
134
+ │ └── model.pkl
135
+ ├── h8dsft_P1G3_raka_ardhi.ipynb
136
+ ├── h8dsft_P1G3_raka_ardhi.csv
137
+ ├── url.txt
138
+ └── README.md
139
+ ```
140
+
141
+ ---
142
+
143
+ ## Assignment Rubrics
144
+
145
+ ### Code Review
146
+
147
+ | Criteria | Meet Expectations | Points |
148
+ | --- | --- | --- |
149
+ | SQL | Mampu melakukan query data dengan kriteria yang telah diberikan | 10 pts |
150
+ | Feature Engineering | Mampu melakukan preprocessing dataset sebelum melakukan proses modeling (split data, normalisasi, encoding, dll) | 35 pts |
151
+ | Random Forest | Mengimplementasikan Random Forest dan menentukan hyperparameter yang tepat dengan Scikit-Learn | 10 pts |
152
+ | Boosting Algorithm | Mengimplementasikan Boosting dan menentukan hyperparameter yang tepat dengan Scikit-Learn | 10 pts |
153
+ | Model Inference | Mencoba model yang telah dibuat dengan data baru | 10 pts |
154
+ | Runs Perfectly | Kode berjalan tanpa ada error. Seluruh kode berfungsi dan dibuat dengan benar | 10 pts |
155
+
156
+ ### Concepts
157
+
158
+ | Criteria | Meet Expectations | Points |
159
+ | --- | --- | --- |
160
+ | Classifications | Mampu menjawab pertanyaan dengan singkat, jelas, dan padat serta sesuai dengan konsep dan logika yang ada mengenai Conceptual Problems (10 pts each) | 20 pts |
161
+
162
+ ### Readability
163
+
164
+ | Criteria | Meet Expectations | Points |
165
+ | --- | --- | --- |
166
+ | Tertata Dengan Baik | Semua baris kode terdokumentasi dengan baik dengan Markdown untuk penjelasan kode | 15 pts |
167
+
168
+ ```
169
+ Kriteria tertata dengan baik diantaranya adalah:
170
+
171
+ 1. Terdapat section Perkenalan yang jelas dan lengkap terkait masalah dan latar belakang masalah yang akan diselesaikan.
172
+ 2. Tidak menyalin markdown dari tugas lain.
173
+ 3. Import library rapih (terdapat dalam 1 cell dan tidak ada unused libs).
174
+ 4. Pemakaian fungsi markdown yang optimal (Heading, text formating, dll).
175
+ 5. Terdapat komentar pada setiap baris kode.
176
+ 6. Adanya pemisah yang jelas antar section, dll.
177
+ 7. Tidak adanya typo.
178
+ ```
179
+
180
+ ### Analysis
181
+
182
+ | Criteria | Meet Expectations | Points|
183
+ | --- | --- | --- |
184
+ | Model Analysis | Menganalisa informasi dari model yang telah dibuat | 35 pts |
185
+ | Overall Analysis | Menarik informasi/kesimpulan dari keseluruhan kegiatan yang dilakukan | 20 pts |
186
+
187
+ ```
188
+ Contoh kriteria analisa yang baik diantaranya adalah:
189
+
190
+ 1. Terdapat penjelasan macam-macam hasil metric evaluasi dan interpretasinya terhadap kasus yang diselesaikan.
191
+ 2. Dapat menjelaskan KELEBIHAN dan KELEMAHAN dari model yang dibuat DENGAN KAITANNYA DENGAN DOMAIN BUSINESS YANG DIHADAPI yang dibuktikan dengan eksplorasi sederhana (grafik, plot, teori, dll).
192
+ 3. Dapat memberikan statement untuk improvement selanjutnya dari model yang dibuat.
193
+ 4. Dapat menyebutkan insight yang dapat diambil setelah proses EDA, dll.
194
+ ```
195
+
196
+ ### Model Deployment
197
+
198
+ | Criteria | Meet Expectations | Points|
199
+ | --- | --- | --- |
200
+ | Model Deployment | Membuat webapps terhadap project yang telah dibuat | 15 pts |
201
+
202
+ ```
203
+ Catatan mengenai Model Deployment :
204
+
205
+ 1. Ketiadaan URL deployment ataupun source code deployment di repository, akan tetap diperhitungkan untuk menilai bagian Model Deployment.
206
+ 2. Tidak diperkenankan adanya informasi tambahan/informasi susulan seperti lupa memberikan URL deployment atau lupa mengupload source code via apapun (DM buddy, email, atau yang lain).
207
+ 3. Student akan dianggap tidak melakukan Model Deployment jika tidak ada URL deployment dan source code deployment di repository.
208
+ ```
209
+
210
+ ---
211
+
212
+ ```
213
+ Total Points : 190
214
+ ```
215
+
216
+ ---
217
+
218
+ ## Notes
219
+
220
+ * **Deadline : P1W3D5 pukul 23:59 WIB.**
221
+
222
+ * **Keterlambatan pengumpulan tugas mengakibatkan skor GC 3 menjadi 0.**
h8dsft_P1G3_THEO.ipynb ADDED
The diff for this file is too large to render. See raw diff
 
h8dsft_P1G3_THEO_INF.ipynb ADDED
@@ -0,0 +1,343 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {},
7
+ "outputs": [],
8
+ "source": [
9
+ "# Import library\n",
10
+ "\n",
11
+ "import pandas as pd\n",
12
+ "import numpy as np\n",
13
+ "import pickle\n",
14
+ "import json"
15
+ ]
16
+ },
17
+ {
18
+ "cell_type": "code",
19
+ "execution_count": 2,
20
+ "metadata": {},
21
+ "outputs": [],
22
+ "source": [
23
+ "# Load all files\n",
24
+ "\n",
25
+ "with open('list_num_cols.txt', 'r') as file_1:\n",
26
+ " list_num_cols = json.load(file_1)\n",
27
+ "\n",
28
+ "with open('model_scaler.pkl', 'rb') as file_2:\n",
29
+ " scaler = pickle.load(file_2)\n",
30
+ "\n",
31
+ "with open('model_rfc.pkl', 'rb') as file_3:\n",
32
+ " model_rfc = pickle.load(file_3)\n",
33
+ " \n",
34
+ "with open('model_gbc.pkl', 'rb') as file_4:\n",
35
+ " model_gbc = pickle.load(file_4)"
36
+ ]
37
+ },
38
+ {
39
+ "cell_type": "code",
40
+ "execution_count": 9,
41
+ "metadata": {},
42
+ "outputs": [
43
+ {
44
+ "data": {
45
+ "text/html": [
46
+ "<div>\n",
47
+ "<style scoped>\n",
48
+ " .dataframe tbody tr th:only-of-type {\n",
49
+ " vertical-align: middle;\n",
50
+ " }\n",
51
+ "\n",
52
+ " .dataframe tbody tr th {\n",
53
+ " vertical-align: top;\n",
54
+ " }\n",
55
+ "\n",
56
+ " .dataframe thead th {\n",
57
+ " text-align: right;\n",
58
+ " }\n",
59
+ "</style>\n",
60
+ "<table border=\"1\" class=\"dataframe\">\n",
61
+ " <thead>\n",
62
+ " <tr style=\"text-align: right;\">\n",
63
+ " <th></th>\n",
64
+ " <th>age</th>\n",
65
+ " <th>anaemia</th>\n",
66
+ " <th>creatinine_phosphokinase</th>\n",
67
+ " <th>diabetes</th>\n",
68
+ " <th>ejection_fraction</th>\n",
69
+ " <th>high_blood_pressure</th>\n",
70
+ " <th>platelets</th>\n",
71
+ " <th>serum_creatinine</th>\n",
72
+ " <th>serum_sodium</th>\n",
73
+ " <th>sex</th>\n",
74
+ " <th>smoking</th>\n",
75
+ " <th>time</th>\n",
76
+ " </tr>\n",
77
+ " </thead>\n",
78
+ " <tbody>\n",
79
+ " <tr>\n",
80
+ " <th>0</th>\n",
81
+ " <td>20</td>\n",
82
+ " <td>1</td>\n",
83
+ " <td>300</td>\n",
84
+ " <td>1</td>\n",
85
+ " <td>50</td>\n",
86
+ " <td>1</td>\n",
87
+ " <td>150000</td>\n",
88
+ " <td>2.5</td>\n",
89
+ " <td>150</td>\n",
90
+ " <td>0</td>\n",
91
+ " <td>1</td>\n",
92
+ " <td>2</td>\n",
93
+ " </tr>\n",
94
+ " </tbody>\n",
95
+ "</table>\n",
96
+ "</div>"
97
+ ],
98
+ "text/plain": [
99
+ " age anaemia creatinine_phosphokinase diabetes ejection_fraction \\\n",
100
+ "0 20 1 300 1 50 \n",
101
+ "\n",
102
+ " high_blood_pressure platelets serum_creatinine serum_sodium sex \\\n",
103
+ "0 1 150000 2.5 150 0 \n",
104
+ "\n",
105
+ " smoking time \n",
106
+ "0 1 2 "
107
+ ]
108
+ },
109
+ "execution_count": 9,
110
+ "metadata": {},
111
+ "output_type": "execute_result"
112
+ }
113
+ ],
114
+ "source": [
115
+ "#Create new data\n",
116
+ "\n",
117
+ "data_inf = pd.DataFrame({\n",
118
+ " 'age' : [20],\n",
119
+ " 'anaemia' : [1],\n",
120
+ " 'creatinine_phosphokinase' : [300],\n",
121
+ " 'diabetes' : [1],\n",
122
+ " 'ejection_fraction' : [50],\n",
123
+ " 'high_blood_pressure' : [1],\n",
124
+ " 'platelets' : [150000],\n",
125
+ " 'serum_creatinine' : [2.5],\n",
126
+ " 'serum_sodium' : [150],\n",
127
+ " 'sex' : [0],\n",
128
+ " 'smoking' : [1],\n",
129
+ " 'time' : [2],\n",
130
+ "})\n",
131
+ "\n",
132
+ "data_inf"
133
+ ]
134
+ },
135
+ {
136
+ "cell_type": "code",
137
+ "execution_count": 10,
138
+ "metadata": {},
139
+ "outputs": [
140
+ {
141
+ "data": {
142
+ "text/html": [
143
+ "<div>\n",
144
+ "<style scoped>\n",
145
+ " .dataframe tbody tr th:only-of-type {\n",
146
+ " vertical-align: middle;\n",
147
+ " }\n",
148
+ "\n",
149
+ " .dataframe tbody tr th {\n",
150
+ " vertical-align: top;\n",
151
+ " }\n",
152
+ "\n",
153
+ " .dataframe thead th {\n",
154
+ " text-align: right;\n",
155
+ " }\n",
156
+ "</style>\n",
157
+ "<table border=\"1\" class=\"dataframe\">\n",
158
+ " <thead>\n",
159
+ " <tr style=\"text-align: right;\">\n",
160
+ " <th></th>\n",
161
+ " <th>age</th>\n",
162
+ " <th>ejection_fraction</th>\n",
163
+ " <th>serum_creatinine</th>\n",
164
+ " <th>serum_sodium</th>\n",
165
+ " <th>time</th>\n",
166
+ " </tr>\n",
167
+ " </thead>\n",
168
+ " <tbody>\n",
169
+ " <tr>\n",
170
+ " <th>0</th>\n",
171
+ " <td>20</td>\n",
172
+ " <td>50</td>\n",
173
+ " <td>2.5</td>\n",
174
+ " <td>150</td>\n",
175
+ " <td>2</td>\n",
176
+ " </tr>\n",
177
+ " </tbody>\n",
178
+ "</table>\n",
179
+ "</div>"
180
+ ],
181
+ "text/plain": [
182
+ " age ejection_fraction serum_creatinine serum_sodium time\n",
183
+ "0 20 50 2.5 150 2"
184
+ ]
185
+ },
186
+ "execution_count": 10,
187
+ "metadata": {},
188
+ "output_type": "execute_result"
189
+ }
190
+ ],
191
+ "source": [
192
+ "# Split between numerical columns and categorical columns\n",
193
+ "\n",
194
+ "data_inf_num = data_inf[list_num_cols]\n",
195
+ "data_inf_num"
196
+ ]
197
+ },
198
+ {
199
+ "cell_type": "code",
200
+ "execution_count": 11,
201
+ "metadata": {},
202
+ "outputs": [],
203
+ "source": [
204
+ "# Feature scaling and feature encoding\n",
205
+ "\n",
206
+ "data_inf_num_scaled = scaler.transform(data_inf_num)\n",
207
+ "data_inf_final = data_inf_num_scaled"
208
+ ]
209
+ },
210
+ {
211
+ "cell_type": "code",
212
+ "execution_count": 12,
213
+ "metadata": {},
214
+ "outputs": [
215
+ {
216
+ "data": {
217
+ "text/html": [
218
+ "<div>\n",
219
+ "<style scoped>\n",
220
+ " .dataframe tbody tr th:only-of-type {\n",
221
+ " vertical-align: middle;\n",
222
+ " }\n",
223
+ "\n",
224
+ " .dataframe tbody tr th {\n",
225
+ " vertical-align: top;\n",
226
+ " }\n",
227
+ "\n",
228
+ " .dataframe thead th {\n",
229
+ " text-align: right;\n",
230
+ " }\n",
231
+ "</style>\n",
232
+ "<table border=\"1\" class=\"dataframe\">\n",
233
+ " <thead>\n",
234
+ " <tr style=\"text-align: right;\">\n",
235
+ " <th></th>\n",
236
+ " <th>0</th>\n",
237
+ " </tr>\n",
238
+ " </thead>\n",
239
+ " <tbody>\n",
240
+ " <tr>\n",
241
+ " <th>0</th>\n",
242
+ " <td>1</td>\n",
243
+ " </tr>\n",
244
+ " </tbody>\n",
245
+ "</table>\n",
246
+ "</div>"
247
+ ],
248
+ "text/plain": [
249
+ " 0\n",
250
+ "0 1"
251
+ ]
252
+ },
253
+ "execution_count": 12,
254
+ "metadata": {},
255
+ "output_type": "execute_result"
256
+ }
257
+ ],
258
+ "source": [
259
+ "# Predict using Random Forest Classification Model\n",
260
+ "\n",
261
+ "y_pred_inf_rfc = pd.DataFrame(model_rfc.predict(data_inf_final))\n",
262
+ "y_pred_inf_rfc"
263
+ ]
264
+ },
265
+ {
266
+ "cell_type": "code",
267
+ "execution_count": 13,
268
+ "metadata": {},
269
+ "outputs": [
270
+ {
271
+ "data": {
272
+ "text/html": [
273
+ "<div>\n",
274
+ "<style scoped>\n",
275
+ " .dataframe tbody tr th:only-of-type {\n",
276
+ " vertical-align: middle;\n",
277
+ " }\n",
278
+ "\n",
279
+ " .dataframe tbody tr th {\n",
280
+ " vertical-align: top;\n",
281
+ " }\n",
282
+ "\n",
283
+ " .dataframe thead th {\n",
284
+ " text-align: right;\n",
285
+ " }\n",
286
+ "</style>\n",
287
+ "<table border=\"1\" class=\"dataframe\">\n",
288
+ " <thead>\n",
289
+ " <tr style=\"text-align: right;\">\n",
290
+ " <th></th>\n",
291
+ " <th>0</th>\n",
292
+ " </tr>\n",
293
+ " </thead>\n",
294
+ " <tbody>\n",
295
+ " <tr>\n",
296
+ " <th>0</th>\n",
297
+ " <td>1</td>\n",
298
+ " </tr>\n",
299
+ " </tbody>\n",
300
+ "</table>\n",
301
+ "</div>"
302
+ ],
303
+ "text/plain": [
304
+ " 0\n",
305
+ "0 1"
306
+ ]
307
+ },
308
+ "execution_count": 13,
309
+ "metadata": {},
310
+ "output_type": "execute_result"
311
+ }
312
+ ],
313
+ "source": [
314
+ "# Predict using GradientBoost Classification - Hyperparameter\n",
315
+ "\n",
316
+ "y_pred_inf_gbc = pd.DataFrame(model_gbc.predict(data_inf_final))\n",
317
+ "y_pred_inf_gbc"
318
+ ]
319
+ }
320
+ ],
321
+ "metadata": {
322
+ "kernelspec": {
323
+ "display_name": "base",
324
+ "language": "python",
325
+ "name": "python3"
326
+ },
327
+ "language_info": {
328
+ "codemirror_mode": {
329
+ "name": "ipython",
330
+ "version": 3
331
+ },
332
+ "file_extension": ".py",
333
+ "mimetype": "text/x-python",
334
+ "name": "python",
335
+ "nbconvert_exporter": "python",
336
+ "pygments_lexer": "ipython3",
337
+ "version": "3.10.10"
338
+ },
339
+ "orig_nbformat": 4
340
+ },
341
+ "nbformat": 4,
342
+ "nbformat_minor": 2
343
+ }