davidkariuki
/

RentPredictorSouthAfrica

Model card Files Files and versions Community

davidkariuki commited on Jul 20, 2023

Commit

0f1987a

•

1 Parent(s): 047e260

delete train.py

Files changed (1) hide show

train.py +0 -69

train.py DELETED Viewed

@@ -1,69 +0,0 @@
-import pandas as pd
-from sklearn.preprocessing import LabelEncoder
-from sklearn.model_selection import train_test_split, GridSearchCV
-from sklearn.ensemble import GradientBoostingRegressor
-from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, median_absolute_error
-from joblib import dump
-# Load the dataset
-df = pd.read_csv('cleaned_housesTRAIN.csv')
-# Apply label encoding to 'Area' and 'Suburb'
-le = LabelEncoder()
-df['Area'] = le.fit_transform(df['Area'])
-df['Suburb'] = le.fit_transform(df['Suburb'])
-# Shuffle the dataframe
-df_shuffled = df.sample(frac=1)
-# Split the shuffled data into features (X) and target (y)
-X_shuffled = df_shuffled.drop('Rent', axis=1)
-y_shuffled = df_shuffled['Rent']
-# Split the shuffled data into training and test sets (90/10 split)
-X_train_shuffled, X_test_shuffled, y_train_shuffled, y_test_shuffled = train_test_split(X_shuffled, y_shuffled, test_size=0.1, random_state=42)
-# Create a Gradient Boosting regressor
-gb_shuffled = GradientBoostingRegressor(random_state=42)
-# Train the model on the shuffled data
-gb_shuffled.fit(X_train_shuffled, y_train_shuffled)
-# Define the hyperparameter grid for Gradient Boosting
-param_grid_gb_shuffled = {
-    'n_estimators': [850],
-    'learning_rate': [0.195],
-    'max_depth': [7]
-}
-# Create a GridSearchCV object
-grid_search_gb_shuffled = GridSearchCV(estimator=gb_shuffled, param_grid=param_grid_gb_shuffled, cv=3, scoring='neg_mean_absolute_error', n_jobs=-1)
-# Perform grid search on the training data
-grid_search_gb_shuffled.fit(X_train_shuffled, y_train_shuffled)
-# Get the best parameters for Gradient Boosting
-best_params_gb_shuffled = grid_search_gb_shuffled.best_params_
-# Print the best hyperparameters
-print(f"Best hyperparameters: {best_params_gb_shuffled}")
-# Create a new gradient boosting regressor with the best parameters
-gb_best_shuffled = GradientBoostingRegressor(**best_params_gb_shuffled, random_state=42)
-# Train the model
-gb_best_shuffled.fit(X_train_shuffled, y_train_shuffled)
-# Make predictions on the test set
-y_pred_gb_best_shuffled = gb_best_shuffled.predict(X_test_shuffled)
-# Calculate MAE, MSE, and R2
-mae_gb_best_shuffled = mean_absolute_error(y_test_shuffled, y_pred_gb_best_shuffled)
-mse_gb_best_shuffled = mean_squared_error(y_test_shuffled, y_pred_gb_best_shuffled)
-r2_gb_best_shuffled = r2_score(y_test_shuffled, y_pred_gb_best_shuffled)
-medae_gb_best_shuffled = median_absolute_error(y_test_shuffled, y_pred_gb_best_shuffled)
-print(f"MAE: {mae_gb_best_shuffled}, MSE: {mse_gb_best_shuffled}, R2: {r2_gb_best_shuffled}, MedAE: {medae_gb_best_shuffled}")
-# Save the model
-dump(gb_best_shuffled, 'bestmodelyet.joblib')