VincentGOURBIN commited on
Commit
3fd0bb8
·
verified ·
1 Parent(s): f839319

Upload folder using huggingface_hub

Browse files
runningscript.py CHANGED
@@ -10,7 +10,7 @@ from xgboost import XGBRegressor
10
 
11
  # 1. Chargement des données
12
  print("Chargement des données...")
13
- parquet_files = glob.glob('*.parquet')
14
 
15
  if not parquet_files:
16
  raise FileNotFoundError("Aucun fichier Parquet trouvé dans le répertoire spécifié.")
 
10
 
11
  # 1. Chargement des données
12
  print("Chargement des données...")
13
+ parquet_files = glob.glob('subset_top5_per_station_fuel.parquet')
14
 
15
  if not parquet_files:
16
  raise FileNotFoundError("Aucun fichier Parquet trouvé dans le répertoire spécifié.")
sampledateset.py ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import pandas as pd
2
+
3
+ # Charger le dataset depuis le fichier Parquet
4
+ df = pd.read_parquet('full_dataset.parquet')
5
+
6
+ # Afficher les colonnes disponibles pour vérification
7
+ print("Colonnes du dataset :", df.columns)
8
+
9
+ # Assurer que les colonnes nécessaires existent
10
+ # Remplace 'station_id', 'fuel_type' et 'timestamp' par les noms réels des colonnes si elles sont différentes
11
+ required_columns = ['station_id', 'fuel_name', 'rate_date']
12
+ for col in required_columns:
13
+ if col not in df.columns:
14
+ raise ValueError(f"La colonne '{col}' est manquante dans le dataset.")
15
+
16
+ # Convertir la colonne 'timestamp' en type datetime si ce n'est pas déjà le cas
17
+ if not pd.api.types.is_datetime64_any_dtype(df['rate_date']):
18
+ df['rate_date'] = pd.to_datetime(df['rate_date'])
19
+
20
+ # Trier le dataframe par 'station_id', 'fuel_type' et 'timestamp' rate_date
21
+ df_sorted = df.sort_values(by=['station_id', 'fuel_name', 'rate_date'], ascending=[True, True, False])
22
+
23
+ # Pour chaque combinaison de 'station_id' et 'fuel_type', sélectionner les 5 derniers enregistrements
24
+ df_top5 = df_sorted.groupby(['station_id', 'fuel_name']).head(5).reset_index(drop=True)
25
+
26
+ # Sauvegarder le sous-ensemble de données dans un nouveau fichier Parquet
27
+ df_top5.to_parquet('subset_top5_per_station_fuel.parquet')
28
+
29
+ print("Le sous-ensemble a été sauvegardé dans 'subset_top5_per_station_fuel.parquet'")
subset_top5_per_station_fuel.parquet ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a47440ecf309fc4639bed6dd28c58744bc9624b4384b2bc186a45fb21663ead9
3
+ size 3833901