Spaces:

debjaninath
/

ml_python

Runtime error

App Files Files Community

ml_python / train.py

debjaninath

Upload 4 files

cb8d2af verified 12 months ago

raw

history blame contribute delete

1.94 kB

	import numpy as np
	import pandas as pd
	import seaborn as sns
	import joblib
	import matplotlib.pyplot as plt
	from sklearn.model_selection import train_test_split, RandomizedSearchCV
	from sklearn.metrics import classification_report
	from sklearn.metrics import mean_squared_error
	from sklearn.preprocessing import OneHotEncoder
	from sklearn.compose import make_column_transformer
	from sklearn.preprocessing import StandardScaler
	from sklearn.linear_model import LinearRegression
	from sklearn.pipeline import make_pipeline
	from sklearn.pipeline import Pipeline
	from sklearn.impute import SimpleImputer
	from sklearn.preprocessing import StandardScaler
	from sklearn.compose import ColumnTransformer
	from sklearn.metrics import mean_squared_error, r2_score

	data = pd.read_csv("/Users/debjanighosh/insurance.csv")

	target = 'charges'

	numerical_features = ['age', 'bmi','children']
	categorical_features = ['sex','smoker','region']

	print("Creating data subsets")

	X = data[numerical_features + categorical_features]
	y = data[target]

	Xtrain, Xtest, ytrain, ytest = train_test_split(
	X,y,
	test_size=0.2,
	random_state=42
	)

	numerical_pipeline = Pipeline([
	('imputer',SimpleImputer(strategy='median')),
	('scaler',StandardScaler())
	])

	categorical_pipeline = Pipeline([
	('imputer',SimpleImputer(strategy='most_frequent')),
	('onehot',OneHotEncoder(handle_unknown='ignore'))
	])

	preprocessor = make_column_transformer(
	(numerical_pipeline, numerical_features),
	(categorical_pipeline, categorical_features)
	)

	model_linear_regression = LinearRegression()

	print ("Estimating Best Model Pipeline")

	model_pipeline = make_pipeline(
	preprocessor,
	model_linear_regression
	)

	model_pipeline.fit(Xtrain, ytrain)
	print("Logging Metrics")
	print(f"R2 Score:{r2_score(ytest, model_pipeline.predict(Xtest))}")
	print("Serializing Model")
	saved_model_path = "model.joblib"

	joblib.dump(model_pipeline, saved_model_path)