|
|
|
|
|
|
|
|
'''
|
|
|
Nội dung của bảng bao gồm:
|
|
|
Thông tin về mô hình
|
|
|
Hệ số của hàm hồi quy tuyến tính
|
|
|
Thống kê hồi quy
|
|
|
Thống kê các hệ số từ hàm hồi quy tuyến tính
|
|
|
Những thông tin khác mà chúng tôi sẽ không đề cập trong mô-đun này
|
|
|
'''
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
import pandas as pd
|
|
|
import statsmodels.formula.api as smf
|
|
|
full_health_data = pd.read_csv('data.csv', header=0, sep=',')
|
|
|
model = smf.ols('Calorie_Burnage ~ Average_Pulse', data=full_health_data)
|
|
|
'''
|
|
|
Giải thích: ols là Ordinary Least Squares(phương pháp bình phương tối thiểu)
|
|
|
👉Nghĩa là ta muốn tìm đường thẳng tốt nhất: Calorie_Burnage = a + b * Average_Pulse
|
|
|
trong đó:
|
|
|
a: hằng số (intercept)
|
|
|
b: hệ số góc (slope)
|
|
|
'''
|
|
|
results = model.fit()
|
|
|
print(results.summary())
|
|
|
'''
|
|
|
In ra bảng thống kê kết quả hồi quy tuyến tính, gồm:
|
|
|
coef: hệ số của từng biến.
|
|
|
std err: sai số chuẩn.
|
|
|
t, P>|t|: giá trị kiểm định thống kê.
|
|
|
R-squared: độ phù hợp của mô hình (giá trị càng gần 1 càng tốt).
|
|
|
F-statistic, Prob(F-statistic): độ tin cậy chung của mô hình.
|
|
|
Intercept: hệ số chặn 𝑎.
|
|
|
Average_Pulse: hệ số góc b.
|
|
|
'''
|
|
|
|
|
|
'''
|
|
|
Giải thích ví dụ:
|
|
|
Nhập thư viện statsmodels.formula.api dưới dạng smf. Statsmodels là một thư viện thống kê trong Python.
|
|
|
Sử dụng bộ dữ liệu full_health_data.
|
|
|
Tạo mô hình dựa trên phương pháp Bình phương tối thiểu thông thường với smf.ols(). Lưu ý rằng biến giải thích phải được viết trước trong dấu ngoặc đơn. Sử dụng tập dữ liệu full_health_data.
|
|
|
Bằng cách gọi .fit(), bạn sẽ nhận được biến results. Biến này chứa rất nhiều thông tin về mô hình hồi quy.
|
|
|
Gọi summary() để lấy bảng kết quả hồi quy tuyến tính.
|
|
|
'''
|
|
|
'''
|
|
|
Dep. Variable: is short for "Dependent Variable". Calorie_Burnage is here the dependent variable. The Dependent variable is here assumed to be explained by Average_Pulse.
|
|
|
Model: OLS is short for Ordinary Least Squares. This is a type of model that uses the Least Square method.
|
|
|
Date: and Time: shows the date and time the output was calculated in Python.
|
|
|
''' |