verifiability

Sleeping

App Files Files Community

prakharg24 commited on Aug 25, 2025

Commit

c445956

verified ·

1 Parent(s): b2f7cf7

Update utils.py

Browse files

Files changed (1) hide show

utils.py +5 -5

utils.py CHANGED Viewed

@@ -68,7 +68,7 @@ def add_red_text(text_to_display):
 # Define pipeline stages
 pipeline_data = {
     "Data Collection": {
-        "explain_text": "**Data Collection:** Decisions about what data to collect and how."
         "Data Sources": {
             "explain_text": "**Data Sources:** What data sources will be used to collect data?",
             "sub_decisions": ["Collect existing dataset or new sensor data?", "Public datasets or Private datasets?", "Design Web Scraping or use APIs?"]
@@ -92,7 +92,7 @@ pipeline_data = {
     },
     "Data Processing": {
-        "explain_text": "**Data Processing:** Decisions about how to process and prepare the data."
         "Data Cleaning": {
             "explain_text": "**Data Cleaning:** How should raw data be cleaned and standardized?",
             "sub_decisions": ["How to handle missing values?", "How to detect/remove duplicates?", "How to fix formatting errors?"]
@@ -116,7 +116,7 @@ pipeline_data = {
     },
     "Model Selection": {
-        "explain_text": "**Model Selection:** Decisions about which model to train and the hyperparameter choices."
         "Model Architecture": {
             "explain_text": "**Model Architecture:** Which type of model is best suited to the problem?",
             "sub_decisions": ["Linear vs tree-based vs neural networks?", "How interpretable should the model be?", "What are computational constraints?"]
@@ -140,7 +140,7 @@ pipeline_data = {
     },
     "Model Training": {
-        "explain_text": "**Model Training:** Decisions about the training algorithm used."
         "Data Splitting": {
             "explain_text": "**Data Splitting:** How should data be divided for training and testing?",
             "sub_decisions": ["Train-test split ratio?", "Cross-validation vs stratified split?"]
@@ -164,7 +164,7 @@ pipeline_data = {
     },
     "Model Evaluation": {
-        "explain_text": "**Model Evaluation:** Decisions about the evaluation criteria."
         "Evaluation Metric": {
             "explain_text": "**Evaluation Metric:** Which metrics best reflect model performance?",
             "sub_decisions": ["Accuracy vs Precision/Recall/F1?", "How to handle class imbalance?", "Including probabilistic metrics (AUC, log loss)?"]

 # Define pipeline stages
 pipeline_data = {
     "Data Collection": {
+        "explain_text": "**Data Collection:** Decisions about what data to collect and how.",
         "Data Sources": {
             "explain_text": "**Data Sources:** What data sources will be used to collect data?",
             "sub_decisions": ["Collect existing dataset or new sensor data?", "Public datasets or Private datasets?", "Design Web Scraping or use APIs?"]
     },
     "Data Processing": {
+        "explain_text": "**Data Processing:** Decisions about how to process and prepare the data.",
         "Data Cleaning": {
             "explain_text": "**Data Cleaning:** How should raw data be cleaned and standardized?",
             "sub_decisions": ["How to handle missing values?", "How to detect/remove duplicates?", "How to fix formatting errors?"]
     },
     "Model Selection": {
+        "explain_text": "**Model Selection:** Decisions about which model to train and the hyperparameter choices.",
         "Model Architecture": {
             "explain_text": "**Model Architecture:** Which type of model is best suited to the problem?",
             "sub_decisions": ["Linear vs tree-based vs neural networks?", "How interpretable should the model be?", "What are computational constraints?"]
     },
     "Model Training": {
+        "explain_text": "**Model Training:** Decisions about the training algorithm used.",
         "Data Splitting": {
             "explain_text": "**Data Splitting:** How should data be divided for training and testing?",
             "sub_decisions": ["Train-test split ratio?", "Cross-validation vs stratified split?"]
     },
     "Model Evaluation": {
+        "explain_text": "**Model Evaluation:** Decisions about the evaluation criteria.",
         "Evaluation Metric": {
             "explain_text": "**Evaluation Metric:** Which metrics best reflect model performance?",
             "sub_decisions": ["Accuracy vs Precision/Recall/F1?", "How to handle class imbalance?", "Including probabilistic metrics (AUC, log loss)?"]