Spaces:

7sugiwa
/

Milestone_2

Sleeping

App Files Files Community

7sugiwa commited on Jan 11

Commit

a9d560d

•

1 Parent(s): cce1668

Add application file

Browse files

Files changed (3) hide show

app.py +47 -0
eda.py +108 -0
prediction.py +32 -0

app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+# app.py
+import streamlit as st
+import pandas as pd
+import numpy as np
+import prediction
+import eda  # Import the eda module
+# Set up the main structure of the app
+def main():
+    st.title("Rainfall Prediction in Australia")
+    st.write("This app predicts whether it will rain tomorrow in Australia based on weather data.")
+    # Sidebar navigation
+    st.sidebar.title("Navigation")
+    app_mode = st.sidebar.selectbox("Choose the app mode",
+        ["Home", "Exploratory Data Analysis", "Make a Prediction"])
+    if app_mode == "Home":
+        st.write("Welcome to the Weather Forecasting Application!")
+        st.write("Navigate to different sections using the sidebar.")
+    elif app_mode == "Exploratory Data Analysis":
+        st.subheader("Exploratory Data Analysis")
+        # Call the EDA function from eda.py
+        eda.main()  # Call the main function from eda.py
+    elif app_mode == "Make a Prediction":
+        st.subheader("Make a Prediction")
+        # Get user input for prediction
+        user_input = get_user_input()
+        if st.button("Predict"):
+            # Call the prediction function from prediction.py
+            result = prediction.predict_rainfall(*user_input)
+            st.write(f"Prediction: {'It will rain tomorrow.' if result else 'No rain tomorrow.'}")
+def get_user_input():
+    humidity_3pm = st.number_input('Humidity at 3 PM', min_value=0, max_value=100, value=50)
+    rainfall = st.number_input('Rainfall (mm)', min_value=0.0, max_value=1000.0, value=0.0)
+    rain_today = st.selectbox('Did it rain today?', options=['Yes', 'No'])
+    temp_range = st.number_input('Temperature Range (°C)', min_value=0.0, max_value=50.0, value=10.0)
+    wind_gust_speed = st.number_input('Wind Gust Speed (km/h)', min_value=0, max_value=100, value=20)
+    pressure_9am = st.number_input('Pressure at 9 AM (hPa)', min_value=980, max_value=1040, value=1010)
+    avg_pressure = st.number_input('Average Daily Pressure (hPa)', min_value=980, max_value=1040, value=1010)
+    humidity_change = st.number_input('Change in Humidity', min_value=-100, max_value=100, value=0)
+    avg_humidity = st.number_input('Average Daily Humidity', min_value=0, max_value=100, value=50)
+    return humidity_3pm, rainfall, rain_today, temp_range, wind_gust_speed, pressure_9am, avg_pressure, humidity_change, avg_humidity
+if __name__ == "__main__":
+    main()

eda.py ADDED Viewed

	@@ -0,0 +1,108 @@

+# eda.py
+import streamlit as st
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+import phik  # Ensure this library is installed
+@st.cache_data
+def load_and_preprocess_data():
+    df = pd.read_csv("weatherAUS.csv")
+    return df
+def plot_data_distributions(df):
+    sns.set_style('whitegrid')
+    for column in df.columns:
+        plt.figure(figsize=(8,4))
+        if len(df[column].unique()) > 10:
+            sns.histplot(df[column], kde=True, color='skyblue')
+            plt.title(f'Distribution of {column}')
+        else:
+            sns.countplot(x=column, data=df, palette='Set2')
+            plt.title(f'Count of different classes in {column}')
+        st.pyplot(plt)
+def calculate_phi_k_correlation(df):
+    phi_k_correlation = df.phik_matrix()
+    plt.figure(figsize=(12, 10))
+    sns.heatmap(phi_k_correlation, annot=True, fmt=".2f", linewidths=.5, cmap='coolwarm')
+    plt.title('Phi_k Correlation Matrix Heatmap')
+    st.pyplot(plt)
+def perform_temporal_feature_extraction(df):
+    df['Date'] = pd.to_datetime(df['Date'])
+    df['Year'] = df['Date'].dt.year
+    df['Month'] = df['Date'].dt.month
+    return df
+def plot_annual_and_monthly_trends(df):
+    annual_trends = df.groupby('Year')[['MinTemp', 'MaxTemp', 'Rainfall', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm']].mean()
+    monthly_trends = df.groupby('Month')[['MinTemp', 'MaxTemp', 'Rainfall', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm']].mean()
+    fig, axes = plt.subplots(nrows=2, ncols=4, figsize=(20, 10))
+    annual_trends[['MinTemp', 'MaxTemp']].plot(ax=axes[0,0], title='Annual Avg Temperature')
+    annual_trends['Rainfall'].plot(ax=axes[0,1], title='Annual Avg Rainfall')
+    annual_trends[['Humidity9am', 'Humidity3pm']].plot(ax=axes[0,2], title='Annual Avg Humidity')
+    annual_trends[['Pressure9am', 'Pressure3pm']].plot(ax=axes[0,3], title='Annual Avg Pressure')
+    monthly_trends[['MinTemp', 'MaxTemp']].plot(ax=axes[1,0], title='Monthly Avg Temperature')
+    monthly_trends['Rainfall'].plot(ax=axes[1,1], title='Monthly Avg Rainfall')
+    monthly_trends[['Humidity9am', 'Humidity3pm']].plot(ax=axes[1,2], title='Monthly Avg Humidity')
+    monthly_trends[['Pressure9am', 'Pressure3pm']].plot(ax=axes[1,3], title='Monthly Avg Pressure')
+    plt.tight_layout()
+    st.pyplot(fig)
+def perform_missing_value_analysis(df):
+    missing_values_total = df.isnull().sum()
+    missing_values_percentage = (df.isnull().sum() / len(df)) * 100
+    missing_values_analysis = pd.DataFrame({'Total Missing': missing_values_total, 'Percentage Missing': missing_values_percentage})
+    st.write(missing_values_analysis.sort_values(by='Percentage Missing', ascending=False))
+def perform_outlier_detection(df, key_columns):
+    outlier_analysis = {}
+    for col in key_columns:
+        Q1 = df[col].quantile(0.25)
+        Q3 = df[col].quantile(0.75)
+        IQR = Q3 - Q1
+        lower_bound = Q1 - 1.5 * IQR
+        upper_bound = Q3 + 1.5 * IQR
+        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
+        outlier_analysis[col] = {
+            "Outliers": outliers.shape[0],
+            "Percentage": (outliers.shape[0] / df.shape[0]) * 100
+        }
+    st.write(outlier_analysis)
+def perform_categorical_data_analysis(df):
+    categorical_columns = df.select_dtypes(include=['object']).columns
+    categorical_analysis = {col: df[col].value_counts() for col in categorical_columns}
+    st.write(categorical_analysis)
+# Main Function
+def main():
+    st.title("Exploratory Data Analysis - Weather Forecasting")
+    # Load and preprocess data
+    df = load_and_preprocess_data()
+    # Extract temporal features
+    df = perform_temporal_feature_extraction(df)  # This should be called before using 'Year' column
+    # Checkboxes and plotting functions
+    if st.sidebar.checkbox("Show Data Distributions"):
+        plot_data_distributions(df)
+    if st.sidebar.checkbox("Show Correlation Heatmap"):
+        calculate_phi_k_correlation(df)
+    if st.sidebar.checkbox("Show Annual and Monthly Trends"):
+        plot_annual_and_monthly_trends(df)
+    if st.sidebar.checkbox("Show Missing Value Analysis"):
+        perform_missing_value_analysis(df)
+    if st.sidebar.checkbox("Show Outlier Analysis"):
+        key_columns = ['MinTemp', 'MaxTemp', 'Rainfall', 'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm']
+        perform_outlier_detection(df, key_columns)
+    if st.sidebar.checkbox("Show Categorical Data Analysis"):
+        perform_categorical_data_analysis(df)
+if __name__ == '__main__':
+    main()

prediction.py ADDED Viewed

	@@ -0,0 +1,32 @@

+# prediction.py
+import pickle
+import numpy as np
+import pandas as pd
+# Load the saved model, pipeline, and label encoder
+model, pipeline, le = None, None, None
+def load_artifacts():
+    global model, pipeline, le
+    with open('xgboost_optimized_model.pkl', 'rb') as file:
+        model = pickle.load(file)
+    with open('pipeline.pkl', 'rb') as file:
+        pipeline = pickle.load(file)
+    with open('lerain.pkl', 'rb') as file:
+        le = pickle.load(file)
+load_artifacts()
+def predict_rainfall(humidity_3pm, rainfall, rain_today, temp_range, wind_gust_speed, pressure_9am, avg_pressure, humidity_change, avg_humidity):
+    # Prepare the feature vector
+    data = pd.DataFrame([[humidity_3pm, np.log(rainfall + 1), le.transform([rain_today])[0], temp_range,
+                          wind_gust_speed, pressure_9am, avg_pressure, humidity_change, avg_humidity]],
+                        columns=['Humidity3pm', 'Rainfall_log', 'RainToday', 'TempRange', 'WindGustSpeed',
+                                 'Pressure9am', 'AvgPressure', 'HumidityChange', 'AvgHumidity'])
+    # Apply transformations and make prediction
+    transformed_data = pipeline.transform(data)
+    prediction = model.predict(transformed_data)
+    return prediction[0]