Spaces:

Mihkelmj
/

utrecht-pollution-prediction

Sleeping

App Files Files Community

Mihkelmj commited on Oct 22, 2024

Commit

eeaf86d

1 Parent(s): ca76ce0

recreating the feature creation function; need to get data from previous eyars

Browse files

Files changed (10) hide show

__pycache__/data_api_calls.cpython-312.pyc +0 -0
__pycache__/data_loading.cpython-312.pyc +0 -0
app.py +4 -0
daily_api__pollution.py → data_api_calls.py +40 -10
data_loading.py +6 -70
dataset.csv +8 -0
python.py +3 -0
requirements.txt +3 -1
test.ipynb +87 -0
test.py +13 -0

__pycache__/data_api_calls.cpython-312.pyc ADDED Viewed

Binary file (10.7 kB). View file

__pycache__/data_loading.cpython-312.pyc ADDED Viewed

Binary file (8.88 kB). View file

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from sklearn.linear_model import LinearRegression
 import matplotlib.pyplot as plt
 import plotly.graph_objects as go
 from helper_functions import custom_metric_box, pollution_box, run_model
 st.set_page_config(
     page_title="Utrecht Pollution Dashboard",
@@ -18,6 +19,9 @@ st.set_page_config(
 alt.themes.enable("dark")
 prediction = run_model()  # Assuming you have a function run_model()
 # App Title
 st.title("Utrecht Pollution Dashboard 🌱")

 import matplotlib.pyplot as plt
 import plotly.graph_objects as go
 from helper_functions import custom_metric_box, pollution_box, run_model
+from data_api_calls import get_data
 st.set_page_config(
     page_title="Utrecht Pollution Dashboard",
 alt.themes.enable("dark")
 prediction = run_model()  # Assuming you have a function run_model()
+get_data()
+data = pd.read_csv("dataset.csv")
 # App Title
 st.title("Utrecht Pollution Dashboard 🌱")

daily_api__pollution.py → data_api_calls.py RENAMED Viewed

@@ -5,8 +5,11 @@ from io import StringIO
 import os
 import re
 import csv
-def api_call():
     particles = ["NO2", "O3"]
     stations = ["NL10636", "NL10639", "NL10643"]
     all_dataframes = []
@@ -150,12 +153,39 @@ def insert_pollution(NO2, O3):
     while O3:
         df.loc[start_index, 'O3'] = O3.pop()
         start_index += 1
-        df.to_csv('recorded_data.csv', index=False)
-api_call()
-NO2, O3 = clean_values()
-add_columns()
-scale()
-insert_pollution(NO2, O3)
-os.remove('combined_data.csv')
-os.remove('weather_data.csv')

 import os
 import re
 import csv
+import urllib.request
+import sys
+import codecs
+def pollution_data():
     particles = ["NO2", "O3"]
     stations = ["NL10636", "NL10639", "NL10643"]
     all_dataframes = []
     while O3:
         df.loc[start_index, 'O3'] = O3.pop()
         start_index += 1
+        df.to_csv('dataset.csv', index=False)
+def weather_data():
+  today = date.today().isoformat()
+  seven_days = (date.today() - timedelta(6)).isoformat()
+  try:
+    ResultBytes = urllib.request.urlopen(f"https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/Utrecht/{seven_days}/{today}?unitGroup=metric&elements=datetime%2Cwindspeed%2Ctemp%2Csolarradiation%2Cprecip%2Cpressure%2Cvisibility%2Chumidity&include=days&key=7Y6AY56M6RWVNHQ3SAVHNJWFS&maxStations=1&contentType=csv")
+    # Parse the results as CSV
+    CSVText = csv.reader(codecs.iterdecode(ResultBytes, 'utf-8'))
+    # Saving the CSV content to a file
+    current_dir = os.path.dirname(os.path.realpath(__file__))
+    file_path = os.path.join(current_dir, 'weather_data.csv')
+    with open(file_path, 'w', newline='', encoding='utf-8') as csvfile:
+          csv_writer = csv.writer(csvfile)
+          csv_writer.writerows(CSVText)
+  except urllib.error.HTTPError  as e:
+    ErrorInfo= e.read().decode()
+    print('Error code: ', e.code, ErrorInfo)
+    sys.exit()
+  except  urllib.error.URLError as e:
+    ErrorInfo= e.read().decode()
+    print('Error code: ', e.code,ErrorInfo)
+    sys.exit()
+def get_data():
+    weather_data()
+    pollution_data()
+    NO2, O3 = clean_values()
+    add_columns()
+    scale()
+    insert_pollution(NO2, O3)
+    os.remove('combined_data.csv')
+    os.remove('weather_data.csv')

data_loading.py CHANGED Viewed

@@ -110,7 +110,6 @@ def create_features_and_targets(
     """
     import warnings
-    import joblib
     import numpy as np
     import pandas as pd
     from sklearn.preprocessing import StandardScaler
@@ -175,10 +174,6 @@ def create_features_and_targets(
     data["O3_last_year_3_days_after"] = data["O3"].shift(365 - 3)
     data["NO2_last_year_3_days_after"] = data["NO2"].shift(365 - 3)
-    # Create targets only for the specified particle for the next 'days_ahead' days
-    for day in range(1, days_ahead + 1):
-        data[f"{target_particle}_plus_{day}_day"] = data[target_particle].shift(-day)
     # Calculate the number of rows before dropping missing values
     rows_before = data.shape[0]
@@ -192,85 +187,26 @@ def create_features_and_targets(
     rows_dropped = rows_before - rows_after
     print(f"Number of rows with missing values dropped: {rows_dropped}")
-    # Now, split data into train, validation, and test sets using the most recent dates
-    total_days = data.shape[0]
-    test_size = 365
-    val_size = 365
-    if total_days < test_size + val_size:
-        raise ValueError(
-            "Not enough data to create validation and test sets of 365 days each."
-        )
     # Ensure the data is sorted by date in ascending order
     data = data.sort_values("date").reset_index(drop=True)
-    # Split data
-    train_data = data.iloc[: -(val_size + test_size)]
-    val_data = data.iloc[-(val_size + test_size) : -test_size]
-    test_data = data.iloc[-test_size:]
-    # Define target columns for the specified particle
-    target_cols = [
-        f"{target_particle}_plus_{day}_day" for day in range(1, days_ahead + 1)
-    ]
     # Define feature columns
-    exclude_cols = ["date", "weekday", "month"] + target_cols
     feature_cols = [col for col in data.columns if col not in exclude_cols]
     # Split features and targets
-    X_train = train_data[feature_cols]
-    y_train = train_data[target_cols]
-    X_val = val_data[feature_cols]
-    y_val = val_data[target_cols]
-    X_test = test_data[feature_cols]
-    y_test = test_data[target_cols]
     # Initialize scalers
     feature_scaler = StandardScaler()
-    target_scaler = StandardScaler()
     # Fit the scalers on the training data
-    X_train_scaled = feature_scaler.fit_transform(X_train)
-    y_train_scaled = target_scaler.fit_transform(y_train)
-    # Apply the scalers to validation and test data
-    X_val_scaled = feature_scaler.transform(X_val)
-    y_val_scaled = target_scaler.transform(y_val)
-    X_test_scaled = feature_scaler.transform(X_test)
-    y_test_scaled = target_scaler.transform(y_test)
     # Convert scaled data back to DataFrame for consistency
-    X_train_scaled = pd.DataFrame(
-        X_train_scaled, columns=feature_cols, index=X_train.index
-    )
-    y_train_scaled = pd.DataFrame(
-        y_train_scaled, columns=target_cols, index=y_train.index
     )
-    X_val_scaled = pd.DataFrame(X_val_scaled, columns=feature_cols, index=X_val.index)
-    y_val_scaled = pd.DataFrame(y_val_scaled, columns=target_cols, index=y_val.index)
-    X_test_scaled = pd.DataFrame(
-        X_test_scaled, columns=feature_cols, index=X_test.index
-    )
-    y_test_scaled = pd.DataFrame(y_test_scaled, columns=target_cols, index=y_test.index)
-    # Save the scalers to files
-    joblib.dump(feature_scaler, "feature_scaler.joblib")
-    # Save the target scaler with the particle name to distinguish
-    target_scaler_filename = f"target_scaler_{target_particle}.joblib"
-    joblib.dump(target_scaler, target_scaler_filename)
-    return (
-        X_train_scaled,
-        y_train_scaled,
-        X_val_scaled,
-        y_val_scaled,
-        X_test_scaled,
-        y_test_scaled,
-    )

     """
     import warnings
     import numpy as np
     import pandas as pd
     from sklearn.preprocessing import StandardScaler
     data["O3_last_year_3_days_after"] = data["O3"].shift(365 - 3)
     data["NO2_last_year_3_days_after"] = data["NO2"].shift(365 - 3)
     # Calculate the number of rows before dropping missing values
     rows_before = data.shape[0]
     rows_dropped = rows_before - rows_after
     print(f"Number of rows with missing values dropped: {rows_dropped}")
     # Ensure the data is sorted by date in ascending order
     data = data.sort_values("date").reset_index(drop=True)
     # Define feature columns
+    exclude_cols = ["date", "weekday", "month"]
     feature_cols = [col for col in data.columns if col not in exclude_cols]
     # Split features and targets
+    x = data[feature_cols]
     # Initialize scalers
     feature_scaler = StandardScaler()
     # Fit the scalers on the training data
+    X_scaled = feature_scaler.fit_transform(x)
     # Convert scaled data back to DataFrame for consistency
+    X_scaled = pd.DataFrame(
+        X_scaled, columns=feature_cols, index=x.index
     )
+    return X_scaled

dataset.csv ADDED Viewed

	@@ -0,0 +1,8 @@

+date,NO2,O3,wind_speed,mean_temp,global_radiation,percipitation,pressure,minimum_visibility,humidity,weekday
+2024-10-16,22.4144459833795,22.78109803921569,61,151,40,0,10103,358,82,Wednesday
+2024-10-17,22.990465489566613,22.928154311649017,51,169,43,6,10100,371,86,Thursday
+2024-10-18,23.659013539651834,23.700536672629696,21,156,42,39,10140,64,97,Friday
+2024-10-19,24.727853658536585,23.52574561403509,43,147,43,28,10140,236,92,Saturday
+2024-10-20,22.700366666666664,24.317572254335257,68,145,0,0,10160,241,82,Sunday
+2024-10-21,19.763439153439155,25.661659574468086,66,142,27,39,10201,110,90,Monday
+2024-10-22,20.281666666666666,25.787520661157025,76,120,54,97,10266,128,87,Tuesday

python.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from data_api_calls import get_data
2	+
3	+ get_data()

requirements.txt CHANGED Viewed

@@ -5,4 +5,6 @@ joblib  # or pickle if you're using that to load the model
 scikit-learn # for mock model
 altair
 matplotlib
-plotly

 scikit-learn # for mock model
 altair
 matplotlib
+plotly
+http.client
+datetime

test.ipynb ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from data_loading import create_features_and_targets\n",
+    "from data_api_calls import get_data\n",
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "dataset = pd.read_csv(\"dataset.csv\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Number of rows with missing values dropped: 7\n"
+     ]
+    },
+    {
+     "ename": "ValueError",
+     "evalue": "Found array with 0 sample(s) (shape=(0, 92)) while a minimum of 1 is required by StandardScaler.",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[11], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m X, y \u001b[38;5;241m=\u001b[39m \u001b[43mcreate_features_and_targets\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m      2\u001b[0m \u001b[43m    \u001b[49m\u001b[43mdata\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mdataset\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m      3\u001b[0m \u001b[43m    \u001b[49m\u001b[43mtarget_particle\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mNO2\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      4\u001b[0m \u001b[43m    \u001b[49m\u001b[43mlag_days\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;241;43m6\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      5\u001b[0m \u001b[43m    \u001b[49m\u001b[43msma_days\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;241;43m6\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      6\u001b[0m \u001b[43m    \u001b[49m\u001b[43mdays_ahead\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;241;43m3\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      7\u001b[0m \u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m~/Desktop/utrecht-pollution-prediction/data_loading.py:214\u001b[0m, in \u001b[0;36mcreate_features_and_targets\u001b[0;34m(data, target_particle, lag_days, sma_days, days_ahead)\u001b[0m\n\u001b[1;32m    211\u001b[0m target_scaler \u001b[38;5;241m=\u001b[39m StandardScaler()\n\u001b[1;32m    213\u001b[0m \u001b[38;5;66;03m# Fit the scalers on the training data\u001b[39;00m\n\u001b[0;32m--> 214\u001b[0m X_scaled \u001b[38;5;241m=\u001b[39m \u001b[43mfeature_scaler\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit_transform\u001b[49m\u001b[43m(\u001b[49m\u001b[43mx\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    215\u001b[0m y_scaled \u001b[38;5;241m=\u001b[39m target_scaler\u001b[38;5;241m.\u001b[39mfit_transform(y)\n\u001b[1;32m    217\u001b[0m \u001b[38;5;66;03m# Convert scaled data back to DataFrame for consistency\u001b[39;00m\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/utils/_set_output.py:313\u001b[0m, in \u001b[0;36m_wrap_method_output.<locals>.wrapped\u001b[0;34m(self, X, *args, **kwargs)\u001b[0m\n\u001b[1;32m    311\u001b[0m \u001b[38;5;129m@wraps\u001b[39m(f)\n\u001b[1;32m    312\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mwrapped\u001b[39m(\u001b[38;5;28mself\u001b[39m, X, \u001b[38;5;241m*\u001b[39margs, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs):\n\u001b[0;32m--> 313\u001b[0m     data_to_wrap \u001b[38;5;241m=\u001b[39m \u001b[43mf\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    314\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28misinstance\u001b[39m(data_to_wrap, \u001b[38;5;28mtuple\u001b[39m):\n\u001b[1;32m    315\u001b[0m         \u001b[38;5;66;03m# only wrap the first output for cross decomposition\u001b[39;00m\n\u001b[1;32m    316\u001b[0m         return_tuple \u001b[38;5;241m=\u001b[39m (\n\u001b[1;32m    317\u001b[0m             _wrap_data_with_container(method, data_to_wrap[\u001b[38;5;241m0\u001b[39m], X, \u001b[38;5;28mself\u001b[39m),\n\u001b[1;32m    318\u001b[0m             \u001b[38;5;241m*\u001b[39mdata_to_wrap[\u001b[38;5;241m1\u001b[39m:],\n\u001b[1;32m    319\u001b[0m         )\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/base.py:1098\u001b[0m, in \u001b[0;36mTransformerMixin.fit_transform\u001b[0;34m(self, X, y, **fit_params)\u001b[0m\n\u001b[1;32m   1083\u001b[0m         warnings\u001b[38;5;241m.\u001b[39mwarn(\n\u001b[1;32m   1084\u001b[0m             (\n\u001b[1;32m   1085\u001b[0m                 \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mThis object (\u001b[39m\u001b[38;5;132;01m{\u001b[39;00m\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__class__\u001b[39m\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__name__\u001b[39m\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m) has a `transform`\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m   1093\u001b[0m             \u001b[38;5;167;01mUserWarning\u001b[39;00m,\n\u001b[1;32m   1094\u001b[0m         )\n\u001b[1;32m   1096\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m y \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[1;32m   1097\u001b[0m     \u001b[38;5;66;03m# fit method of arity 1 (unsupervised transformation)\u001b[39;00m\n\u001b[0;32m-> 1098\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mfit_params\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241m.\u001b[39mtransform(X)\n\u001b[1;32m   1099\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[1;32m   1100\u001b[0m     \u001b[38;5;66;03m# fit method of arity 2 (supervised transformation)\u001b[39;00m\n\u001b[1;32m   1101\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mfit(X, y, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mfit_params)\u001b[38;5;241m.\u001b[39mtransform(X)\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/preprocessing/_data.py:878\u001b[0m, in \u001b[0;36mStandardScaler.fit\u001b[0;34m(self, X, y, sample_weight)\u001b[0m\n\u001b[1;32m    876\u001b[0m \u001b[38;5;66;03m# Reset internal state before fitting\u001b[39;00m\n\u001b[1;32m    877\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_reset()\n\u001b[0;32m--> 878\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mpartial_fit\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43my\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43msample_weight\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/base.py:1473\u001b[0m, in \u001b[0;36m_fit_context.<locals>.decorator.<locals>.wrapper\u001b[0;34m(estimator, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1466\u001b[0m     estimator\u001b[38;5;241m.\u001b[39m_validate_params()\n\u001b[1;32m   1468\u001b[0m \u001b[38;5;28;01mwith\u001b[39;00m config_context(\n\u001b[1;32m   1469\u001b[0m     skip_parameter_validation\u001b[38;5;241m=\u001b[39m(\n\u001b[1;32m   1470\u001b[0m         prefer_skip_nested_validation \u001b[38;5;129;01mor\u001b[39;00m global_skip_validation\n\u001b[1;32m   1471\u001b[0m     )\n\u001b[1;32m   1472\u001b[0m ):\n\u001b[0;32m-> 1473\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mfit_method\u001b[49m\u001b[43m(\u001b[49m\u001b[43mestimator\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/preprocessing/_data.py:914\u001b[0m, in \u001b[0;36mStandardScaler.partial_fit\u001b[0;34m(self, X, y, sample_weight)\u001b[0m\n\u001b[1;32m    882\u001b[0m \u001b[38;5;250m\u001b[39m\u001b[38;5;124;03m\"\"\"Online computation of mean and std on X for later scaling.\u001b[39;00m\n\u001b[1;32m    883\u001b[0m \n\u001b[1;32m    884\u001b[0m \u001b[38;5;124;03mAll of X is processed as a single batch. This is intended for cases\u001b[39;00m\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    911\u001b[0m \u001b[38;5;124;03m    Fitted scaler.\u001b[39;00m\n\u001b[1;32m    912\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[1;32m    913\u001b[0m first_call \u001b[38;5;241m=\u001b[39m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28mhasattr\u001b[39m(\u001b[38;5;28mself\u001b[39m, \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mn_samples_seen_\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[0;32m--> 914\u001b[0m X \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_data\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    915\u001b[0m \u001b[43m    \u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    916\u001b[0m \u001b[43m    \u001b[49m\u001b[43maccept_sparse\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43m(\u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mcsr\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mcsc\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m)\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    917\u001b[0m \u001b[43m    \u001b[49m\u001b[43mdtype\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mFLOAT_DTYPES\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    918\u001b[0m \u001b[43m    \u001b[49m\u001b[43mforce_all_finite\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mallow-nan\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m    919\u001b[0m \u001b[43m    \u001b[49m\u001b[43mreset\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mfirst_call\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    920\u001b[0m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    921\u001b[0m n_features \u001b[38;5;241m=\u001b[39m X\u001b[38;5;241m.\u001b[39mshape[\u001b[38;5;241m1\u001b[39m]\n\u001b[1;32m    923\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m sample_weight \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/base.py:633\u001b[0m, in \u001b[0;36mBaseEstimator._validate_data\u001b[0;34m(self, X, y, reset, validate_separately, cast_to_ndarray, **check_params)\u001b[0m\n\u001b[1;32m    631\u001b[0m         out \u001b[38;5;241m=\u001b[39m X, y\n\u001b[1;32m    632\u001b[0m \u001b[38;5;28;01melif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m no_val_X \u001b[38;5;129;01mand\u001b[39;00m no_val_y:\n\u001b[0;32m--> 633\u001b[0m     out \u001b[38;5;241m=\u001b[39m \u001b[43mcheck_array\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43minput_name\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mX\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mcheck_params\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    634\u001b[0m \u001b[38;5;28;01melif\u001b[39;00m no_val_X \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m no_val_y:\n\u001b[1;32m    635\u001b[0m     out \u001b[38;5;241m=\u001b[39m _check_y(y, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mcheck_params)\n",
+      "File \u001b[0;32m~/anaconda3/envs/ml-industry/lib/python3.12/site-packages/sklearn/utils/validation.py:1087\u001b[0m, in \u001b[0;36mcheck_array\u001b[0;34m(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_writeable, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, estimator, input_name)\u001b[0m\n\u001b[1;32m   1085\u001b[0m     n_samples \u001b[38;5;241m=\u001b[39m _num_samples(array)\n\u001b[1;32m   1086\u001b[0m     \u001b[38;5;28;01mif\u001b[39;00m n_samples \u001b[38;5;241m<\u001b[39m ensure_min_samples:\n\u001b[0;32m-> 1087\u001b[0m         \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mValueError\u001b[39;00m(\n\u001b[1;32m   1088\u001b[0m             \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mFound array with \u001b[39m\u001b[38;5;132;01m%d\u001b[39;00m\u001b[38;5;124m sample(s) (shape=\u001b[39m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;124m) while a\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m   1089\u001b[0m             \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m minimum of \u001b[39m\u001b[38;5;132;01m%d\u001b[39;00m\u001b[38;5;124m is required\u001b[39m\u001b[38;5;132;01m%s\u001b[39;00m\u001b[38;5;124m.\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m   1090\u001b[0m             \u001b[38;5;241m%\u001b[39m (n_samples, array\u001b[38;5;241m.\u001b[39mshape, ensure_min_samples, context)\n\u001b[1;32m   1091\u001b[0m         )\n\u001b[1;32m   1093\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m ensure_min_features \u001b[38;5;241m>\u001b[39m \u001b[38;5;241m0\u001b[39m \u001b[38;5;129;01mand\u001b[39;00m array\u001b[38;5;241m.\u001b[39mndim \u001b[38;5;241m==\u001b[39m \u001b[38;5;241m2\u001b[39m:\n\u001b[1;32m   1094\u001b[0m     n_features \u001b[38;5;241m=\u001b[39m array\u001b[38;5;241m.\u001b[39mshape[\u001b[38;5;241m1\u001b[39m]\n",
+      "\u001b[0;31mValueError\u001b[0m: Found array with 0 sample(s) (shape=(0, 92)) while a minimum of 1 is required by StandardScaler."
+     ]
+    }
+   ],
+   "source": [
+    "test_data = create_features_and_targets(\n",
+    "    data=dataset,\n",
+    "    target_particle=\"NO2\",\n",
+    "    lag_days=7,\n",
+    "    sma_days=7,\n",
+    "    days_ahead=3,\n",
+    ")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "ml-industry",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

test.py ADDED Viewed

	@@ -0,0 +1,13 @@

+from data_loading import create_features_and_targets
+from data_api_calls import get_data
+import pandas as pd
+dataset = pd.read_csv("dataset.csv")
+X, y = create_features_and_targets(
+    data=dataset,
+    target_particle="NO2",
+    lag_days=7,
+    sma_days=7,
+    days_ahead=3,
+)