Spaces:

Datadog
/

BOOM

Running

App Files Files Community

annamonica commited on 5 days ago

Commit

492f435

1 Parent(s): caa5e2c

update column names

Browse files

Files changed (3) hide show

results/BOOM_leaderboard.csv +15 -0
results/BOOM_v8_leaderboard_dd_bench_test_scaled_separate_zero_inflated_shifted_gmean_no_grid_search_context_2048_toto_checkpoint_000026_2025-05-04T13_00_15+00_00.csv +0 -15
src/display/utils.py +33 -23

results/BOOM_leaderboard.csv ADDED Viewed

	@@ -0,0 +1,15 @@

+model,model_type,MASE_6750_scaled,CRPS_6750_scaled,Rank_6750_scaled,MAE_663_unscaled,CRPS_663_unscaled,Rank_663_unscaled
+Toto-Open-Base-1.0,pretrained,0.617,0.375,2.351,0.001,0.025,7.549
+moirai_1.1_base,pretrained,0.710,0.428,4.278,0.000,0.003,5.644
+moirai_1.1_large,pretrained,0.720,0.436,4.499,0.001,0.005,6.707
+moirai_1.1_small,pretrained,0.738,0.447,4.796,0.001,0.009,7.404
+timesfm_2_0_500m,pretrained,0.725,0.447,5.153,0.014,0.091,10.029
+chronos_bolt_base,pretrained,0.726,0.451,5.446,0.003,0.019,7.682
+chronos_bolt_small,pretrained,0.733,0.455,5.793,0.003,0.022,8.140
+autoarima,statistical,0.824,0.736,9.171,0.000,0.001,5.496
+timer,pretrained,0.796,0.639,9.356,0.001,0.005,6.474
+time-moe,pretrained,0.806,0.649,9.369,0.001,0.005,8.505
+visionts,pretrained,0.991,0.675,10.336,0.001,0.009,8.538
+autoets,statistical,0.842,1.975,10.956,0.000,0.030,6.992
+autotheta,statistical,1.123,1.018,11.712,0.001,0.002,6.513
+naive,statistical,1.000,1.000,11.783,0.000,0.006,9.326

results/BOOM_v8_leaderboard_dd_bench_test_scaled_separate_zero_inflated_shifted_gmean_no_grid_search_context_2048_toto_checkpoint_000026_2025-05-04T13_00_15+00_00.csv DELETED Viewed

@@ -1,15 +0,0 @@
-model,MASE-6750-scaled,CRPS-6750-scaled,Rank-6750-scaled,eval_metrics/MAE[0.5]-663-unscaled,CRPS-663-unscaled,Rank-663-unscaled
-dd-data-science-us1-prod_ray_foundation-models_TOTO_base-no-dual-softmax-no-tsmixup-1746214361_TorchTrainer_37d72_00000_0_2025-05-02_19-32-43_checkpoint_000026,0.617,0.375,2.351,0.001,0.025,7.549
-moirai_1.1_base,0.710,0.428,4.278,0.000,0.003,5.644
-moirai_1.1_large,0.720,0.436,4.499,0.001,0.005,6.707
-moirai_1.1_small,0.738,0.447,4.796,0.001,0.009,7.404
-timesfm_2_0_500m,0.725,0.447,5.153,0.014,0.091,10.029
-chronos_bolt_base,0.726,0.451,5.446,0.003,0.019,7.682
-chronos_bolt_small,0.733,0.455,5.793,0.003,0.022,8.140
-autoarima,0.824,0.736,9.171,0.000,0.001,5.496
-timer,0.796,0.639,9.356,0.001,0.005,6.474
-time-moe,0.806,0.649,9.369,0.001,0.005,8.505
-visionts,0.991,0.675,10.336,0.001,0.009,8.538
-autoets,0.842,1.975,10.956,0.000,0.030,6.992
-autotheta,1.123,1.018,11.712,0.001,0.002,6.513
-naive,1.000,1.000,11.783,0.000,0.006,9.326

src/display/utils.py CHANGED Viewed

@@ -5,6 +5,7 @@ import pandas as pd
 from src.about import Tasks
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
@@ -20,29 +21,34 @@ class ColumnContent:
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-#Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
-for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
-auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
 ## For the queue columns in the submission tab
 @dataclass(frozen=True)
 class EvalQueueColumn:  # Queue column
@@ -53,19 +59,21 @@ class EvalQueueColumn:  # Queue column
     weight_type = ColumnContent("weight_type", "str", "Original")
     status = ColumnContent("status", "str", True)
 ## All the model information that we might need
 @dataclass
 class ModelDetails:
     name: str
     display_name: str = ""
-    symbol: str = "" # emoji
 class ModelType(Enum):
-    PT = ModelDetails(name="pretrained", symbol="🟢")
-    FT = ModelDetails(name="fine-tuned", symbol="🔶")
-    IFT = ModelDetails(name="instruction-tuned", symbol="⭕")
-    RL = ModelDetails(name="RL-tuned", symbol="🟦")
     Unknown = ModelDetails(name="", symbol="?")
     def to_str(self, separator=" "):
@@ -77,17 +85,19 @@ class ModelType(Enum):
             return ModelType.FT
         if "pretrained" in type or "🟢" in type:
             return ModelType.PT
-        if "RL-tuned" in type or "🟦" in type:
-            return ModelType.RL
-        if "instruction-tuned" in type or "⭕" in type:
-            return ModelType.IFT
         return ModelType.Unknown
 class WeightType(Enum):
     Adapter = ModelDetails("Adapter")
     Original = ModelDetails("Original")
     Delta = ModelDetails("Delta")
 class Precision(Enum):
     float16 = ModelDetails("float16")
     bfloat16 = ModelDetails("bfloat16")
@@ -100,6 +110,7 @@ class Precision(Enum):
             return Precision.bfloat16
         return Precision.Unknown
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
@@ -107,4 +118,3 @@ EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]

 from src.about import Tasks
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
+# Scores
+auto_eval_column_dict.append(["MASE_6750_scaled", ColumnContent, ColumnContent("MASE_scaled", "number", True)])
+auto_eval_column_dict.append(["CRPS_6750_scaled", ColumnContent, ColumnContent("CRPS_scaled", "number", True)])
+auto_eval_column_dict.append(["Rank_6750_scaled", ColumnContent, ColumnContent("Rank_scaled", "number", True)])
+auto_eval_column_dict.append(["MAE_663_unscaled", ColumnContent, ColumnContent("MAE[0.5]_unscaled", "number", True)])
+auto_eval_column_dict.append(["CRPS_663_unscaled", ColumnContent, ColumnContent("CRPS_unscaled", "number", True)])
+auto_eval_column_dict.append(["Rank_663_unscaled", ColumnContent, ColumnContent("Rank_unscaled", "number", True)])
 # Model information
+auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False, hidden=True)])
+# auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
+# auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+# auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
+# auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
+# auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
+# auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
+# auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
+# auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
 ## For the queue columns in the submission tab
 @dataclass(frozen=True)
 class EvalQueueColumn:  # Queue column
     weight_type = ColumnContent("weight_type", "str", "Original")
     status = ColumnContent("status", "str", True)
 ## All the model information that we might need
 @dataclass
 class ModelDetails:
     name: str
     display_name: str = ""
+    symbol: str = ""  # emoji
 class ModelType(Enum):
+    PT = ModelDetails(name="🟢 pretrained", symbol="🟢")
+    FT = ModelDetails(name="🔶 fine-tuned", symbol="🔶")
+    DL = ModelDetails(name="🔷 deep-learning", symbol="🔷")
+    ST = ModelDetails(name="🟣 statistical", symbol="🟣")
     Unknown = ModelDetails(name="", symbol="?")
     def to_str(self, separator=" "):
             return ModelType.FT
         if "pretrained" in type or "🟢" in type:
             return ModelType.PT
+        if "deep-learning" in type or "🟦" in type:
+            return ModelType.DL
+        if "statistical" in type or "🟣" in type:
+            return ModelType.ST
         return ModelType.Unknown
 class WeightType(Enum):
     Adapter = ModelDetails("Adapter")
     Original = ModelDetails("Original")
     Delta = ModelDetails("Delta")
 class Precision(Enum):
     float16 = ModelDetails("float16")
     bfloat16 = ModelDetails("bfloat16")
             return Precision.bfloat16
         return Precision.Unknown
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]