Spaces:

sivakornchong
/

HDB_resale_predict

Running

App Files Files Community

sivakornchong commited on Jan 6

Commit

b9ed1ac

•

1 Parent(s): ca08c8e

Enter new model (using XGBoost pipeline instead)

Browse files

Files changed (6) hide show

.gitignore +2 -1
data/RPI_dict.csv +30 -0
finalized_model.sav +0 -3
main.py +33 -30
main_old.py +96 -0
test.ipynb +428 -0

.gitignore CHANGED Viewed

@@ -1,3 +1,4 @@
 __pycache__
 model/
-*sav

 __pycache__
 model/
+*sav
+.ipynb_checkpoints

data/RPI_dict.csv ADDED Viewed

	@@ -0,0 +1,30 @@

+2Q2024,184
+1Q2024,182
+4Q2023,180.2
+3Q2023,178.5
+2Q2023,176.2
+1Q2023,173.6
+4Q2022,171.9
+3Q2022,168.1
+2Q2022,163.9
+1Q2022,159.5
+4Q2021,155.7
+3Q2021,150.6
+2Q2021,146.4
+1Q2021,142.2
+4Q2020,138.1
+3Q2020,133.9
+2Q2020,131.9
+1Q2020,131.5
+4Q2019,131.5
+3Q2019,130.9
+2Q2019,130.8
+1Q2019,131.0
+4Q2018,131.4
+3Q2018,131.6
+2Q2018,131.7
+1Q2018,131.6
+4Q2017,132.6
+3Q2017,132.8
+2Q2017,133.7
+1Q2017,133.9

finalized_model.sav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1fcee802bc380de56e88aee0b2fee8a6586391ee036fa11f9e16eba6d21ffa6f
-size 813445176

main.py CHANGED Viewed

@@ -4,24 +4,21 @@ from misc import nearest_mrt
 import pickle
 import os
 import pandas as pd
-###This is to create MRT names and MRT locations
 def main_fn(Postal_,age_,town_,storey_,room_):
-##Input structure into model is##
-    filename = 'finalized_model.sav'
-    if os.path.exists("./finalized_model.sav"):
         model = pickle.load(open(filename, 'rb'))
         print('loaded model')
     else:
         print('failed loading model')
-    #extract feature names#
-    feature_names = model.feature_names
     input = [0]*len(feature_names)
-    # print(feature_names)
     #Set up mrt_list
     mrt_name = []
@@ -33,16 +30,17 @@ def main_fn(Postal_,age_,town_,storey_,room_):
             loc = tuple([float(i) for i in item['location']])
             mrt_loc.append(loc)
-    #Query for latitude and longitude
     ##POSTAL
     Postal_input = int(Postal_)
     # Postal_input = 680705
     input[feature_names.index('Postal')] = Postal_input
     ##DISTANCE TO MRT
-    search_term = Postal_input
-    query_string='https://developers.onemap.sg/commonapi/search?searchVal={}&returnGeom=Y&getAddrDetails=Y&pageNum=1'.format(search_term)
     resp = requests.get(query_string)
     data = json.loads(resp.content)
     print(query_string)
@@ -60,33 +58,38 @@ def main_fn(Postal_,age_,town_,storey_,room_):
     Height = (height_input+2)//3
     input[feature_names.index('storey_height')] = Height
-    ##TOWN
-    town_input = town_
-    # town_input = 'CHOA CHU KANG'
-    input[feature_names.index("town_"+town_input)] = 1
-    ##ROOM
-    room_input = room_
-    # room_input = '4 ROOM'
-    input[feature_names.index("flat_num_"+room_input)] = 1
-    ##AGE/ TRANSACTION YEAR [Current default to 2022]
     age_input = int(age_)
     # age_input = 30
-    input[feature_names.index('age_transation')] = age_input
-    input[feature_names.index('transaction_yr')] = 2022  #Default to 2022 first
-    #Create final_dataframe as input to model
     Actual = dict(zip(feature_names,input))
     Actual_df = pd.DataFrame(Actual, index=[0])
     resale_adj_price = model.predict(Actual_df)[0]
-    #New resale index is set arbitrarily as 170
-    resale_index = 170
-    price = resale_adj_price*resale_index/133.9
-    print(Actual_df)
     return int(price)

 import pickle
 import os
 import pandas as pd
+import datetime
+from datetime import datetime
 def main_fn(Postal_,age_,town_,storey_,room_):
+    #Load model
+    filename = 'finalized_model2.sav'
+    if os.path.exists("./finalized_model2.sav"):
         model = pickle.load(open(filename, 'rb'))
         print('loaded model')
     else:
         print('failed loading model')
+    #extract feature names
+    feature_names = model.feature_names_in_.tolist()
     input = [0]*len(feature_names)
     #Set up mrt_list
     mrt_name = []
             loc = tuple([float(i) for i in item['location']])
             mrt_loc.append(loc)
+    # #Test input
+    # Postal_,age_,town_,storey_,room_ = 680705, 30, 'CHOA CHU KANG', 12, '5 ROOM'
     ##POSTAL
     Postal_input = int(Postal_)
     # Postal_input = 680705
     input[feature_names.index('Postal')] = Postal_input
     ##DISTANCE TO MRT
+    search_term = Postal_
+    query_string= 'https://www.onemap.gov.sg/api/common/elastic/search?searchVal={}&returnGeom=Y&getAddrDetails=Y&pageNum=1'.format(search_term)
     resp = requests.get(query_string)
     data = json.loads(resp.content)
     print(query_string)
     Height = (height_input+2)//3
     input[feature_names.index('storey_height')] = Height
+    ##Town
+    input[feature_names.index("town")]=town_
+    ##Room
+    input[feature_names.index("flat_num")]=room_
+    ##AGE/ TRANSACTION YEAR [Current default to 2024]
     age_input = int(age_)
     # age_input = 30
+    # Get the current date
+    current_date = datetime.now()
+    input[feature_names.index('age_transation')] = age_input
+    input[feature_names.index('transaction_yr')] = current_date.year  #Default to 2024 first
+    # Create final_dataframe as input to model
     Actual = dict(zip(feature_names,input))
     Actual_df = pd.DataFrame(Actual, index=[0])
+    # Use model to predict adjusted price
     resale_adj_price = model.predict(Actual_df)[0]
+    # Readjust back to actual price
+    # Calculate the quarter
+    quarter = (current_date.month - 1) // 3 + 1
+    # Format the quarter in the desired format
+    formatted_quarter = f"{quarter}Q{current_date.year}"
+    RPI_pd = pd.read_csv('data/RPI_dict.csv', header=None)
+    RPI_dict = dict(zip(RPI_pd[0], RPI_pd[1]))
+    RPI = float(RPI_dict[formatted_quarter])
+    price = resale_adj_price*(RPI/133.9)
     return int(price)

main_old.py ADDED Viewed

	@@ -0,0 +1,96 @@

+import json
+import requests
+from misc import nearest_mrt
+import pickle
+import os
+import pandas as pd
+###This is to create MRT names and MRT locations
+def main_fn(Postal_,age_,town_,storey_,room_):
+##Input structure into model is##
+    filename = 'finalized_model.sav'
+    if os.path.exists("./finalized_model.sav"):
+        model = pickle.load(open(filename, 'rb'))
+        print('loaded model')
+    else:
+        print('failed loading model')
+    #extract feature names#
+    feature_names = model.feature_names
+    input = [0]*len(feature_names)
+    # print(feature_names)
+    #Set up mrt_list
+    mrt_name = []
+    mrt_loc = []
+    with open('data/mrt_list.json', 'r') as file:
+        for line in file:
+            item = json.loads(line)
+            mrt_name.append(item['MRT'])
+            loc = tuple([float(i) for i in item['location']])
+            mrt_loc.append(loc)
+    #Query for latitude and longitude
+    ##POSTAL
+    Postal_input = int(Postal_)
+    # Postal_input = 680705
+    input[feature_names.index('Postal')] = Postal_input
+    ##DISTANCE TO MRT
+    search_term = Postal_input
+    query_string='https://developers.onemap.sg/commonapi/search?searchVal={}&returnGeom=Y&getAddrDetails=Y&pageNum=1'.format(search_term)
+    resp = requests.get(query_string)
+    data = json.loads(resp.content)
+    print(query_string)
+    print(data)
+    chosen_result = data['results'][0]
+    #Calculate the distance to nearest MRT
+    distance_km, nearest_mr = nearest_mrt(chosen_result['LATITUDE'], chosen_result['LONGITUDE'], mrt_name, mrt_loc)
+    input[feature_names.index('distance_mrt')] = distance_km
+    ##STOREY
+    #Height is input, but then converted to the scale we used for iterating model
+    height_input = int(storey_)
+    # height_input = 51
+    Height = (height_input+2)//3
+    input[feature_names.index('storey_height')] = Height
+    ##TOWN
+    town_input = town_
+    # town_input = 'CHOA CHU KANG'
+    input[feature_names.index("town_"+town_input)] = 1
+    ##ROOM
+    room_input = room_
+    # room_input = '4 ROOM'
+    input[feature_names.index("flat_num_"+room_input)] = 1
+    ##AGE/ TRANSACTION YEAR [Current default to 2022]
+    age_input = int(age_)
+    # age_input = 30
+    input[feature_names.index('age_transation')] = age_input
+    input[feature_names.index('transaction_yr')] = 2022  #Default to 2022 first
+    #Create final_dataframe as input to model
+    Actual = dict(zip(feature_names,input))
+    Actual_df = pd.DataFrame(Actual, index=[0])
+    resale_adj_price = model.predict(Actual_df)[0]
+    #New resale index is set arbitrarily as 170
+    resale_index = 170
+    price = resale_adj_price*resale_index/133.9
+    print(Actual_df)
+    return int(price)
+if __name__ == "__main__":
+    Postal_,age_,town_,storey_,room_ = 680705, 30, 'CHOA CHU KANG', 12, '5 ROOM'
+    price = main_fn(Postal_,age_,town_,storey_,room_)
+    print(price)

test.ipynb ADDED Viewed

	@@ -0,0 +1,428 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 64,
+   "id": "a94c4760-bcad-4c09-83e7-e5391b059b59",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import json\n",
+    "import requests\n",
+    "from misc import nearest_mrt\n",
+    "import pickle\n",
+    "import os\n",
+    "import pandas as pd\n",
+    "import datetime\n",
+    "from datetime import datetime"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "dfd76296-5048-433b-a29a-cc073dd9d814",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loaded model\n"
+     ]
+    }
+   ],
+   "source": [
+    "filename = 'finalized_model2.sav'\n",
+    "\n",
+    "if os.path.exists(\"./finalized_model2.sav\"):\n",
+    "    model = pickle.load(open(filename, 'rb'))\n",
+    "    print('loaded model')\n",
+    "else:\n",
+    "    print('failed loading model')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "361df0d9-1659-42ac-9dca-8cdde2ac3a15",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<style>#sk-container-id-1 {color: black;}#sk-container-id-1 pre{padding: 0;}#sk-container-id-1 div.sk-toggleable {background-color: white;}#sk-container-id-1 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-container-id-1 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-container-id-1 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-container-id-1 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-container-id-1 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-container-id-1 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-container-id-1 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-container-id-1 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-container-id-1 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-container-id-1 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-container-id-1 div.sk-estimator:hover {background-color: #d4ebff;}#sk-container-id-1 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-container-id-1 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: 0;}#sk-container-id-1 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;position: relative;}#sk-container-id-1 div.sk-item {position: relative;z-index: 1;}#sk-container-id-1 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;position: relative;}#sk-container-id-1 div.sk-item::before, #sk-container-id-1 div.sk-parallel-item::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: -1;}#sk-container-id-1 div.sk-parallel-item {display: flex;flex-direction: column;z-index: 1;position: relative;background-color: white;}#sk-container-id-1 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-container-id-1 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-container-id-1 div.sk-parallel-item:only-child::after {width: 0;}#sk-container-id-1 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;}#sk-container-id-1 div.sk-label label {font-family: monospace;font-weight: bold;display: inline-block;line-height: 1.2em;}#sk-container-id-1 div.sk-label-container {text-align: center;}#sk-container-id-1 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-container-id-1 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-container-id-1\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>Pipeline(steps=[(&#x27;columntransformer&#x27;,\n",
+       "                 ColumnTransformer(transformers=[(&#x27;standardscaler&#x27;,\n",
+       "                                                  StandardScaler(),\n",
+       "                                                  [&#x27;distance_mrt&#x27;,\n",
+       "                                                   &#x27;age_transation&#x27;,\n",
+       "                                                   &#x27;transaction_yr&#x27;, &#x27;Postal&#x27;,\n",
+       "                                                   &#x27;storey_height&#x27;]),\n",
+       "                                                 (&#x27;pipeline&#x27;,\n",
+       "                                                  Pipeline(steps=[(&#x27;onehotencoder&#x27;,\n",
+       "                                                                   OneHotEncoder(handle_unknown=&#x27;ignore&#x27;,\n",
+       "                                                                                 sparse_output=False))]),\n",
+       "                                                  [&#x27;town&#x27;, &#x27;flat_num&#x27;])])),\n",
+       "                (&#x27;xgbregressor&#x27;,\n",
+       "                 XGBRegressor(base_scor...\n",
+       "                              feature_types=None, gamma=1, grow_policy=None,\n",
+       "                              importance_type=None,\n",
+       "                              interaction_constraints=None, learning_rate=None,\n",
+       "                              max_bin=None, max_cat_threshold=None,\n",
+       "                              max_cat_to_onehot=None, max_delta_step=None,\n",
+       "                              max_depth=7, max_leaves=None,\n",
+       "                              min_child_weight=None, missing=nan,\n",
+       "                              monotone_constraints=None, multi_strategy=None,\n",
+       "                              n_estimators=None, n_jobs=None,\n",
+       "                              num_parallel_tree=None, random_state=None, ...))])</pre><b>In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook. <br />On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-1\" type=\"checkbox\" ><label for=\"sk-estimator-id-1\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Pipeline</label><div class=\"sk-toggleable__content\"><pre>Pipeline(steps=[(&#x27;columntransformer&#x27;,\n",
+       "                 ColumnTransformer(transformers=[(&#x27;standardscaler&#x27;,\n",
+       "                                                  StandardScaler(),\n",
+       "                                                  [&#x27;distance_mrt&#x27;,\n",
+       "                                                   &#x27;age_transation&#x27;,\n",
+       "                                                   &#x27;transaction_yr&#x27;, &#x27;Postal&#x27;,\n",
+       "                                                   &#x27;storey_height&#x27;]),\n",
+       "                                                 (&#x27;pipeline&#x27;,\n",
+       "                                                  Pipeline(steps=[(&#x27;onehotencoder&#x27;,\n",
+       "                                                                   OneHotEncoder(handle_unknown=&#x27;ignore&#x27;,\n",
+       "                                                                                 sparse_output=False))]),\n",
+       "                                                  [&#x27;town&#x27;, &#x27;flat_num&#x27;])])),\n",
+       "                (&#x27;xgbregressor&#x27;,\n",
+       "                 XGBRegressor(base_scor...\n",
+       "                              feature_types=None, gamma=1, grow_policy=None,\n",
+       "                              importance_type=None,\n",
+       "                              interaction_constraints=None, learning_rate=None,\n",
+       "                              max_bin=None, max_cat_threshold=None,\n",
+       "                              max_cat_to_onehot=None, max_delta_step=None,\n",
+       "                              max_depth=7, max_leaves=None,\n",
+       "                              min_child_weight=None, missing=nan,\n",
+       "                              monotone_constraints=None, multi_strategy=None,\n",
+       "                              n_estimators=None, n_jobs=None,\n",
+       "                              num_parallel_tree=None, random_state=None, ...))])</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-2\" type=\"checkbox\" ><label for=\"sk-estimator-id-2\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">columntransformer: ColumnTransformer</label><div class=\"sk-toggleable__content\"><pre>ColumnTransformer(transformers=[(&#x27;standardscaler&#x27;, StandardScaler(),\n",
+       "                                 [&#x27;distance_mrt&#x27;, &#x27;age_transation&#x27;,\n",
+       "                                  &#x27;transaction_yr&#x27;, &#x27;Postal&#x27;,\n",
+       "                                  &#x27;storey_height&#x27;]),\n",
+       "                                (&#x27;pipeline&#x27;,\n",
+       "                                 Pipeline(steps=[(&#x27;onehotencoder&#x27;,\n",
+       "                                                  OneHotEncoder(handle_unknown=&#x27;ignore&#x27;,\n",
+       "                                                                sparse_output=False))]),\n",
+       "                                 [&#x27;town&#x27;, &#x27;flat_num&#x27;])])</pre></div></div></div><div class=\"sk-parallel\"><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-3\" type=\"checkbox\" ><label for=\"sk-estimator-id-3\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">standardscaler</label><div class=\"sk-toggleable__content\"><pre>[&#x27;distance_mrt&#x27;, &#x27;age_transation&#x27;, &#x27;transaction_yr&#x27;, &#x27;Postal&#x27;, &#x27;storey_height&#x27;]</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-4\" type=\"checkbox\" ><label for=\"sk-estimator-id-4\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">StandardScaler</label><div class=\"sk-toggleable__content\"><pre>StandardScaler()</pre></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-5\" type=\"checkbox\" ><label for=\"sk-estimator-id-5\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">pipeline</label><div class=\"sk-toggleable__content\"><pre>[&#x27;town&#x27;, &#x27;flat_num&#x27;]</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-6\" type=\"checkbox\" ><label for=\"sk-estimator-id-6\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">OneHotEncoder</label><div class=\"sk-toggleable__content\"><pre>OneHotEncoder(handle_unknown=&#x27;ignore&#x27;, sparse_output=False)</pre></div></div></div></div></div></div></div></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-7\" type=\"checkbox\" ><label for=\"sk-estimator-id-7\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">XGBRegressor</label><div class=\"sk-toggleable__content\"><pre>XGBRegressor(base_score=None, booster=None, callbacks=None,\n",
+       "             colsample_bylevel=None, colsample_bynode=None,\n",
+       "             colsample_bytree=None, device=None, early_stopping_rounds=None,\n",
+       "             enable_categorical=False, eval_metric=None, feature_types=None,\n",
+       "             gamma=1, grow_policy=None, importance_type=None,\n",
+       "             interaction_constraints=None, learning_rate=None, max_bin=None,\n",
+       "             max_cat_threshold=None, max_cat_to_onehot=None,\n",
+       "             max_delta_step=None, max_depth=7, max_leaves=None,\n",
+       "             min_child_weight=None, missing=nan, monotone_constraints=None,\n",
+       "             multi_strategy=None, n_estimators=None, n_jobs=None,\n",
+       "             num_parallel_tree=None, random_state=None, ...)</pre></div></div></div></div></div></div></div>"
+      ],
+      "text/plain": [
+       "Pipeline(steps=[('columntransformer',\n",
+       "                 ColumnTransformer(transformers=[('standardscaler',\n",
+       "                                                  StandardScaler(),\n",
+       "                                                  ['distance_mrt',\n",
+       "                                                   'age_transation',\n",
+       "                                                   'transaction_yr', 'Postal',\n",
+       "                                                   'storey_height']),\n",
+       "                                                 ('pipeline',\n",
+       "                                                  Pipeline(steps=[('onehotencoder',\n",
+       "                                                                   OneHotEncoder(handle_unknown='ignore',\n",
+       "                                                                                 sparse_output=False))]),\n",
+       "                                                  ['town', 'flat_num'])])),\n",
+       "                ('xgbregressor',\n",
+       "                 XGBRegressor(base_scor...\n",
+       "                              feature_types=None, gamma=1, grow_policy=None,\n",
+       "                              importance_type=None,\n",
+       "                              interaction_constraints=None, learning_rate=None,\n",
+       "                              max_bin=None, max_cat_threshold=None,\n",
+       "                              max_cat_to_onehot=None, max_delta_step=None,\n",
+       "                              max_depth=7, max_leaves=None,\n",
+       "                              min_child_weight=None, missing=nan,\n",
+       "                              monotone_constraints=None, multi_strategy=None,\n",
+       "                              n_estimators=None, n_jobs=None,\n",
+       "                              num_parallel_tree=None, random_state=None, ...))])"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "e4764df8-efdf-42e9-ade6-ff8062b5bac3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#extract feature names#\n",
+    "feature_names = model.feature_names_in_.tolist()\n",
+    "input = [0]*len(feature_names)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "9eb9aa6a-4e67-4f51-9566-775fed6ac4ff",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "['distance_mrt',\n",
+       " 'age_transation',\n",
+       " 'transaction_yr',\n",
+       " 'Postal',\n",
+       " 'storey_height',\n",
+       " 'town',\n",
+       " 'flat_num']"
+      ]
+     },
+     "execution_count": 21,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "feature_names"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "3f2fd14c-2df7-481f-b837-502d717a892b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#Set up mrt_list\n",
+    "mrt_name = []\n",
+    "mrt_loc = []\n",
+    "with open('data/mrt_list.json', 'r') as file:\n",
+    "    for line in file:\n",
+    "        item = json.loads(line)\n",
+    "        mrt_name.append(item['MRT'])\n",
+    "        loc = tuple([float(i) for i in item['location']])\n",
+    "        mrt_loc.append(loc)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "id": "b2d0339f-91bb-4514-890c-b561857af14c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#Test input\n",
+    "Postal_,age_,town_,storey_,room_ = 680705, 30, 'CHOA CHU KANG', 12, '5 ROOM'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "id": "30e85e47-70f7-4b2a-a242-b25b00449276",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "##POSTAL\n",
+    "Postal_input = int(Postal_)\n",
+    "# Postal_input = 680705\n",
+    "input[feature_names.index('Postal')] = Postal_input"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 45,
+   "id": "f02d1a92-fc2a-49ed-a3e3-87d976e779c9",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "https://www.onemap.gov.sg/api/common/elastic/search?searchVal=680705&returnGeom=Y&getAddrDetails=Y&pageNum=1\n",
+      "{'found': 1, 'totalNumPages': 1, 'pageNum': 1, 'results': [{'SEARCHVAL': '705 CHOA CHU KANG STREET 53 SINGAPORE 680705', 'BLK_NO': '705', 'ROAD_NAME': 'CHOA CHU KANG STREET 53', 'BUILDING': 'NIL', 'ADDRESS': '705 CHOA CHU KANG STREET 53 SINGAPORE 680705', 'POSTAL': '680705', 'X': '18296.4178872742', 'Y': '41364.999289671', 'LATITUDE': '1.39036325274643', 'LONGITUDE': '103.746124351793'}]}\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "'Choa Chu Kang MRT Station'"
+      ]
+     },
+     "execution_count": 45,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "##DISTANCE TO MRT\n",
+    "search_term = Postal_\n",
+    "query_string= 'https://www.onemap.gov.sg/api/common/elastic/search?searchVal={}&returnGeom=Y&getAddrDetails=Y&pageNum=1'.format(search_term)\n",
+    "resp = requests.get(query_string)\n",
+    "data = json.loads(resp.content)\n",
+    "print(query_string)\n",
+    "print(data)\n",
+    "chosen_result = data['results'][0]\n",
+    "\n",
+    "#Calculate the distance to nearest MRT\n",
+    "distance_km, nearest_mr = nearest_mrt(chosen_result['LATITUDE'], chosen_result['LONGITUDE'], mrt_name, mrt_loc)\n",
+    "input[feature_names.index('distance_mrt')] = distance_km\n",
+    "nearest_mr"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 62,
+   "id": "c3c84b64-3932-4226-bb32-d7dfc3551c6d",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "[0.5863143456991471, 30, 2024, 680705, 4, 'CHOA CHU KANG', '5 ROOM']"
+      ]
+     },
+     "execution_count": 62,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "##STOREY\n",
+    "#Height is input, but then converted to the scale we used for iterating model\n",
+    "height_input = int(storey_)\n",
+    "# height_input = 51\n",
+    "Height = (height_input+2)//3\n",
+    "input[feature_names.index('storey_height')] = Height\n",
+    "\n",
+    "##Town\n",
+    "input[feature_names.index(\"town\")]=town_\n",
+    "\n",
+    "##Room\n",
+    "input[feature_names.index(\"flat_num\")]=room_\n",
+    "\n",
+    "##AGE/ TRANSACTION YEAR [Current default to 2024]\n",
+    "age_input = int(age_)\n",
+    "# age_input = 30\n",
+    "\n",
+    "# Get the current date\n",
+    "current_date = datetime.now()\n",
+    "\n",
+    "input[feature_names.index('age_transation')] = age_input\n",
+    "input[feature_names.index('transaction_yr')] = current_date.year  #Default to 2024 first\n",
+    "\n",
+    "input"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 69,
+   "id": "8b5702ee-3891-4373-b2cf-97c1b1b23e66",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "468224.38"
+      ]
+     },
+     "execution_count": 69,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "#Create final_dataframe as input to model\n",
+    "\n",
+    "Actual = dict(zip(feature_names,input))\n",
+    "Actual_df = pd.DataFrame(Actual, index=[0])\n",
+    "resale_adj_price = model.predict(Actual_df)[0]\n",
+    "resale_adj_price"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 70,
+   "id": "e289a971-ca3b-47ac-95db-19c5c97f0ccb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Calculate the quarter\n",
+    "quarter = (current_date.month - 1) // 3 + 1\n",
+    "# Format the quarter in the desired format\n",
+    "formatted_quarter = f\"{quarter}Q{current_date.year}\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 71,
+   "id": "8b6c863c-cf92-4fe8-964a-8cfbb779dd0f",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'1Q2024'"
+      ]
+     },
+     "execution_count": 71,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "formatted_quarter"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 74,
+   "id": "c0286b33-90a1-40bd-85ef-9dcc13fd0f9a",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "636421.4805825242"
+      ]
+     },
+     "execution_count": 74,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "RPI_pd = pd.read_csv('data/RPI_dict.csv', header=None)\n",
+    "RPI_dict = dict(zip(RPI_pd[0], RPI_pd[1]))\n",
+    "RPI = float(RPI_dict[formatted_quarter])\n",
+    "price = resale_adj_price*(RPI/133.9) \n",
+    "price"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "HDB_pred",
+   "language": "python",
+   "name": "hdb_pred"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}