QuentinKemperino
/

ECHR_test_2

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "total_flos": 719017869312000.0,
-    "train_loss": 0.19799817996554905,
-    "train_runtime": 356.7954,
-    "train_samples_per_second": 50.449,
-    "train_steps_per_second": 6.306
 }

 {
     "epoch": 2.0,
+    "total_flos": 8.8324576837632e+16,
+    "train_loss": 0.18118783251444498,
+    "train_runtime": 3615.8229,
+    "train_samples_per_second": 4.978,
+    "train_steps_per_second": 0.622
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "total_flos": 719017869312000.0,
-    "train_loss": 0.19799817996554905,
-    "train_runtime": 356.7954,
-    "train_samples_per_second": 50.449,
-    "train_steps_per_second": 6.306
 }

 {
     "epoch": 2.0,
+    "total_flos": 8.8324576837632e+16,
+    "train_loss": 0.18118783251444498,
+    "train_runtime": 3615.8229,
+    "train_samples_per_second": 4.978,
+    "train_steps_per_second": 0.622
 }

trainer_state.json CHANGED Viewed

@@ -9,189 +9,189 @@
   "log_history": [
     {
       "epoch": 0.09,
-      "learning_rate": 0.0009555555555555556,
-      "loss": 0.2956,
       "step": 100
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0009111111111111111,
-      "loss": 0.2635,
       "step": 200
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.0008666666666666667,
-      "loss": 0.2384,
       "step": 300
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0008222222222222222,
-      "loss": 0.2234,
       "step": 400
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0007777777777777778,
-      "loss": 0.2152,
       "step": 500
     },
     {
       "epoch": 0.44,
-      "eval_loss": 0.3215401768684387,
-      "eval_macro-f1": 0.36252944248976143,
-      "eval_micro-f1": 0.5540940480105229,
-      "eval_runtime": 14.835,
-      "eval_samples_per_second": 67.408,
-      "eval_steps_per_second": 8.426,
       "step": 500
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0007333333333333333,
-      "loss": 0.2043,
       "step": 600
     },
     {
       "epoch": 0.62,
-      "learning_rate": 0.000688888888888889,
-      "loss": 0.2019,
       "step": 700
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0006444444444444444,
-      "loss": 0.2058,
       "step": 800
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.0006,
-      "loss": 0.2043,
       "step": 900
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.0005555555555555556,
-      "loss": 0.1826,
       "step": 1000
     },
     {
       "epoch": 0.89,
-      "eval_loss": 0.3090105652809143,
-      "eval_macro-f1": 0.40861377528604365,
-      "eval_micro-f1": 0.5695569729357007,
-      "eval_runtime": 14.9867,
-      "eval_samples_per_second": 66.726,
-      "eval_steps_per_second": 8.341,
       "step": 1000
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0005111111111111111,
-      "loss": 0.1933,
       "step": 1100
     },
     {
       "epoch": 1.07,
-      "learning_rate": 0.00046666666666666666,
-      "loss": 0.1791,
       "step": 1200
     },
     {
       "epoch": 1.16,
-      "learning_rate": 0.0004222222222222222,
-      "loss": 0.1879,
       "step": 1300
     },
     {
       "epoch": 1.24,
-      "learning_rate": 0.00037777777777777777,
-      "loss": 0.1739,
       "step": 1400
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.0003333333333333333,
-      "loss": 0.18,
       "step": 1500
     },
     {
       "epoch": 1.33,
-      "eval_loss": 0.2883451581001282,
-      "eval_macro-f1": 0.4507416671361624,
-      "eval_micro-f1": 0.5963412549153702,
-      "eval_runtime": 15.127,
-      "eval_samples_per_second": 66.107,
-      "eval_steps_per_second": 8.263,
       "step": 1500
     },
     {
       "epoch": 1.42,
-      "learning_rate": 0.0002888888888888889,
-      "loss": 0.179,
       "step": 1600
     },
     {
       "epoch": 1.51,
-      "learning_rate": 0.00024444444444444443,
-      "loss": 0.1729,
       "step": 1700
     },
     {
       "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 0.1754,
       "step": 1800
     },
     {
       "epoch": 1.69,
-      "learning_rate": 0.00015555555555555556,
-      "loss": 0.1724,
       "step": 1900
     },
     {
       "epoch": 1.78,
-      "learning_rate": 0.0001111111111111111,
-      "loss": 0.1669,
       "step": 2000
     },
     {
       "epoch": 1.78,
-      "eval_loss": 0.27745190262794495,
-      "eval_macro-f1": 0.4739843869881502,
-      "eval_micro-f1": 0.6247038917089679,
-      "eval_runtime": 15.1069,
-      "eval_samples_per_second": 66.195,
-      "eval_steps_per_second": 8.274,
       "step": 2000
     },
     {
       "epoch": 1.87,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.1794,
       "step": 2100
     },
     {
       "epoch": 1.96,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.1755,
       "step": 2200
     },
     {
       "epoch": 2.0,
       "step": 2250,
-      "total_flos": 719017869312000.0,
-      "train_loss": 0.19799817996554905,
-      "train_runtime": 356.7954,
-      "train_samples_per_second": 50.449,
-      "train_steps_per_second": 6.306
     }
   ],
   "max_steps": 2250,
   "num_train_epochs": 2,
-  "total_flos": 719017869312000.0,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.09,
+      "learning_rate": 9.555555555555557e-05,
+      "loss": 0.2797,
       "step": 100
     },
     {
       "epoch": 0.18,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.2685,
       "step": 200
     },
     {
       "epoch": 0.27,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 0.233,
       "step": 300
     },
     {
       "epoch": 0.36,
+      "learning_rate": 8.222222222222222e-05,
+      "loss": 0.2162,
       "step": 400
     },
     {
       "epoch": 0.44,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.2058,
       "step": 500
     },
     {
       "epoch": 0.44,
+      "eval_loss": 0.27426090836524963,
+      "eval_macro-f1": 0.30734886729341776,
+      "eval_micro-f1": 0.45783132530120485,
+      "eval_runtime": 154.032,
+      "eval_samples_per_second": 6.492,
+      "eval_steps_per_second": 0.812,
       "step": 500
     },
     {
       "epoch": 0.53,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.1897,
       "step": 600
     },
     {
       "epoch": 0.62,
+      "learning_rate": 6.88888888888889e-05,
+      "loss": 0.1881,
       "step": 700
     },
     {
       "epoch": 0.71,
+      "learning_rate": 6.444444444444446e-05,
+      "loss": 0.1913,
       "step": 800
     },
     {
       "epoch": 0.8,
+      "learning_rate": 6e-05,
+      "loss": 0.1777,
       "step": 900
     },
     {
       "epoch": 0.89,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.1583,
       "step": 1000
     },
     {
       "epoch": 0.89,
+      "eval_loss": 0.2576006054878235,
+      "eval_macro-f1": 0.33354478819865846,
+      "eval_micro-f1": 0.5014016820184222,
+      "eval_runtime": 153.9992,
+      "eval_samples_per_second": 6.494,
+      "eval_steps_per_second": 0.812,
       "step": 1000
     },
     {
       "epoch": 0.98,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.1776,
       "step": 1100
     },
     {
       "epoch": 1.07,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.1606,
       "step": 1200
     },
     {
       "epoch": 1.16,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 0.1658,
       "step": 1300
     },
     {
       "epoch": 1.24,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.1532,
       "step": 1400
     },
     {
       "epoch": 1.33,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.1602,
       "step": 1500
     },
     {
       "epoch": 1.33,
+      "eval_loss": 0.2343183010816574,
+      "eval_macro-f1": 0.36320960253779505,
+      "eval_micro-f1": 0.5341176470588236,
+      "eval_runtime": 153.838,
+      "eval_samples_per_second": 6.5,
+      "eval_steps_per_second": 0.813,
       "step": 1500
     },
     {
       "epoch": 1.42,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.1647,
       "step": 1600
     },
     {
       "epoch": 1.51,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.1588,
       "step": 1700
     },
     {
       "epoch": 1.6,
+      "learning_rate": 2e-05,
+      "loss": 0.1513,
       "step": 1800
     },
     {
       "epoch": 1.69,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.1518,
       "step": 1900
     },
     {
       "epoch": 1.78,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.1474,
       "step": 2000
     },
     {
       "epoch": 1.78,
+      "eval_loss": 0.2262774258852005,
+      "eval_macro-f1": 0.3867760365271726,
+      "eval_micro-f1": 0.546868922598211,
+      "eval_runtime": 154.1091,
+      "eval_samples_per_second": 6.489,
+      "eval_steps_per_second": 0.811,
       "step": 2000
     },
     {
       "epoch": 1.87,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.155,
       "step": 2100
     },
     {
       "epoch": 1.96,
+      "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.1522,
       "step": 2200
     },
     {
       "epoch": 2.0,
       "step": 2250,
+      "total_flos": 8.8324576837632e+16,
+      "train_loss": 0.18118783251444498,
+      "train_runtime": 3615.8229,
+      "train_samples_per_second": 4.978,
+      "train_steps_per_second": 0.622
     }
   ],
   "max_steps": 2250,
   "num_train_epochs": 2,
+  "total_flos": 8.8324576837632e+16,
   "trial_name": null,
   "trial_params": null
 }