Fin de l'entraînement

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +11 -11
eval_results.json +7 -7
train_results.json +5 -5
trainer_state.json +333 -229

README.md CHANGED Viewed

@@ -14,9 +14,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0580
-- Mse: 0.1308
-- Mae: 0.3150
 ## Model description

 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0604
+- Mse: 0.1248
+- Mae: 0.3083
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 27.0,
-    "eval_loss": 0.06580791622400284,
-    "eval_mae": 0.3059428930282593,
-    "eval_mse": 0.12533096969127655,
-    "eval_runtime": 10.4766,
-    "eval_samples_per_second": 7.254,
-    "eval_steps_per_second": 0.955,
     "total_flos": 0.0,
-    "train_loss": 0.13240765200720894,
-    "train_runtime": 1534.1197,
-    "train_samples_per_second": 5.925,
-    "train_steps_per_second": 0.176
 }

 {
+    "epoch": 28.824742268041238,
+    "eval_loss": 0.06035061553120613,
+    "eval_mae": 0.3083080053329468,
+    "eval_mse": 0.12483953684568405,
+    "eval_runtime": 26.0473,
+    "eval_samples_per_second": 7.448,
+    "eval_steps_per_second": 0.96,
     "total_flos": 0.0,
+    "train_loss": 0.11318666471375359,
+    "train_runtime": 4441.3944,
+    "train_samples_per_second": 5.221,
+    "train_steps_per_second": 0.162
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 27.0,
-    "eval_loss": 0.06580791622400284,
-    "eval_mae": 0.3059428930282593,
-    "eval_mse": 0.12533096969127655,
-    "eval_runtime": 10.4766,
-    "eval_samples_per_second": 7.254,
-    "eval_steps_per_second": 0.955
 }

 {
+    "epoch": 28.824742268041238,
+    "eval_loss": 0.06035061553120613,
+    "eval_mae": 0.3083080053329468,
+    "eval_mse": 0.12483953684568405,
+    "eval_runtime": 26.0473,
+    "eval_samples_per_second": 7.448,
+    "eval_steps_per_second": 0.96
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 27.0,
     "total_flos": 0.0,
-    "train_loss": 0.13240765200720894,
-    "train_runtime": 1534.1197,
-    "train_samples_per_second": 5.925,
-    "train_steps_per_second": 0.176
 }

 {
+    "epoch": 28.824742268041238,
     "total_flos": 0.0,
+    "train_loss": 0.11318666471375359,
+    "train_runtime": 4441.3944,
+    "train_samples_per_second": 5.221,
+    "train_steps_per_second": 0.162
 }

trainer_state.json CHANGED Viewed

@@ -1,338 +1,442 @@
 {
-  "best_global_step": 120,
-  "best_metric": 0.12533096969127655,
-  "best_model_checkpoint": "./vit_focus/checkpoint-120",
-  "epoch": 27.0,
   "eval_steps": 500,
-  "global_step": 270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 0.0993029847741127,
-      "eval_mae": 0.3380415141582489,
-      "eval_mse": 0.15286438167095184,
-      "eval_runtime": 9.9578,
-      "eval_samples_per_second": 7.632,
-      "eval_steps_per_second": 1.004,
-      "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.1050349548459053,
-      "eval_mae": 0.34093156456947327,
-      "eval_mse": 0.15535660088062286,
-      "eval_runtime": 9.7265,
-      "eval_samples_per_second": 7.814,
-      "eval_steps_per_second": 1.028,
-      "step": 20
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.09966066479682922,
-      "eval_mae": 0.3352396786212921,
-      "eval_mse": 0.14932329952716827,
-      "eval_runtime": 9.4644,
-      "eval_samples_per_second": 8.03,
-      "eval_steps_per_second": 1.057,
-      "step": 30
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.926674842834473,
-      "learning_rate": 4.277777777777778e-05,
-      "loss": 0.313,
-      "step": 40
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.06556536257266998,
-      "eval_mae": 0.3157392740249634,
-      "eval_mse": 0.13447947800159454,
-      "eval_runtime": 10.1308,
-      "eval_samples_per_second": 7.502,
-      "eval_steps_per_second": 0.987,
-      "step": 40
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.06592569500207901,
-      "eval_mae": 0.3202681839466095,
-      "eval_mse": 0.13659903407096863,
-      "eval_runtime": 9.7043,
-      "eval_samples_per_second": 7.832,
-      "eval_steps_per_second": 1.03,
-      "step": 50
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.0638844296336174,
-      "eval_mae": 0.31192123889923096,
-      "eval_mse": 0.12961846590042114,
-      "eval_runtime": 9.5179,
-      "eval_samples_per_second": 7.985,
-      "eval_steps_per_second": 1.051,
-      "step": 60
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.06389027088880539,
-      "eval_mae": 0.3178236484527588,
-      "eval_mse": 0.13510307669639587,
-      "eval_runtime": 9.5025,
-      "eval_samples_per_second": 7.998,
-      "eval_steps_per_second": 1.052,
-      "step": 70
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.451300144195557,
-      "learning_rate": 3.537037037037037e-05,
-      "loss": 0.1742,
-      "step": 80
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.06391099840402603,
-      "eval_mae": 0.3085971772670746,
-      "eval_mse": 0.12736700475215912,
-      "eval_runtime": 10.1592,
-      "eval_samples_per_second": 7.481,
-      "eval_steps_per_second": 0.984,
-      "step": 80
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.07279632240533829,
-      "eval_mae": 0.3096161186695099,
-      "eval_mse": 0.12943950295448303,
-      "eval_runtime": 9.4821,
-      "eval_samples_per_second": 8.015,
-      "eval_steps_per_second": 1.055,
-      "step": 90
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.06712160259485245,
-      "eval_mae": 0.3150458335876465,
-      "eval_mse": 0.13300836086273193,
-      "eval_runtime": 9.7046,
-      "eval_samples_per_second": 7.831,
-      "eval_steps_per_second": 1.03,
-      "step": 100
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.06695493310689926,
-      "eval_mae": 0.30665045976638794,
-      "eval_mse": 0.12600918114185333,
-      "eval_runtime": 9.7852,
-      "eval_samples_per_second": 7.767,
-      "eval_steps_per_second": 1.022,
-      "step": 110
     },
     {
-      "epoch": 12.0,
-      "grad_norm": 2.9957473278045654,
-      "learning_rate": 2.7962962962962965e-05,
-      "loss": 0.1284,
-      "step": 120
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.06580791622400284,
-      "eval_mae": 0.3059428930282593,
-      "eval_mse": 0.12533096969127655,
-      "eval_runtime": 9.7135,
-      "eval_samples_per_second": 7.824,
-      "eval_steps_per_second": 1.029,
-      "step": 120
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.06405826658010483,
-      "eval_mae": 0.3104270100593567,
-      "eval_mse": 0.1280805468559265,
-      "eval_runtime": 12.0741,
-      "eval_samples_per_second": 6.294,
-      "eval_steps_per_second": 0.828,
-      "step": 130
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.06428611278533936,
-      "eval_mae": 0.3104848563671112,
-      "eval_mse": 0.12893278896808624,
-      "eval_runtime": 9.5891,
-      "eval_samples_per_second": 7.926,
-      "eval_steps_per_second": 1.043,
-      "step": 140
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.06487523764371872,
-      "eval_mae": 0.3171584904193878,
-      "eval_mse": 0.13420797884464264,
-      "eval_runtime": 9.5632,
-      "eval_samples_per_second": 7.947,
-      "eval_steps_per_second": 1.046,
-      "step": 150
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.922245740890503,
-      "learning_rate": 2.0555555555555555e-05,
-      "loss": 0.0981,
-      "step": 160
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.06558659672737122,
-      "eval_mae": 0.30849871039390564,
-      "eval_mse": 0.12756428122520447,
-      "eval_runtime": 9.5905,
-      "eval_samples_per_second": 7.924,
-      "eval_steps_per_second": 1.043,
-      "step": 160
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.06274469941854477,
-      "eval_mae": 0.3136182427406311,
-      "eval_mse": 0.13160544633865356,
-      "eval_runtime": 10.0109,
-      "eval_samples_per_second": 7.592,
-      "eval_steps_per_second": 0.999,
-      "step": 170
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.06201491877436638,
-      "eval_mae": 0.3168633282184601,
-      "eval_mse": 0.1343080997467041,
-      "eval_runtime": 9.9918,
-      "eval_samples_per_second": 7.606,
-      "eval_steps_per_second": 1.001,
-      "step": 180
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.0631915032863617,
-      "eval_mae": 0.31292420625686646,
-      "eval_mse": 0.13110676407814026,
-      "eval_runtime": 9.5351,
-      "eval_samples_per_second": 7.971,
-      "eval_steps_per_second": 1.049,
-      "step": 190
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 1.9687647819519043,
-      "learning_rate": 1.3148148148148148e-05,
-      "loss": 0.0767,
-      "step": 200
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.06296339631080627,
-      "eval_mae": 0.3142727017402649,
-      "eval_mse": 0.1326274573802948,
-      "eval_runtime": 9.7999,
-      "eval_samples_per_second": 7.755,
-      "eval_steps_per_second": 1.02,
-      "step": 200
     },
     {
       "epoch": 21.0,
-      "eval_loss": 0.06408733129501343,
-      "eval_mae": 0.311717689037323,
-      "eval_mse": 0.12986762821674347,
-      "eval_runtime": 9.6462,
-      "eval_samples_per_second": 7.879,
-      "eval_steps_per_second": 1.037,
-      "step": 210
     },
     {
       "epoch": 22.0,
-      "eval_loss": 0.06340750306844711,
-      "eval_mae": 0.3114081621170044,
-      "eval_mse": 0.12940751016139984,
-      "eval_runtime": 9.5394,
-      "eval_samples_per_second": 7.967,
-      "eval_steps_per_second": 1.048,
-      "step": 220
     },
     {
       "epoch": 23.0,
-      "eval_loss": 0.06285858899354935,
-      "eval_mae": 0.31304195523262024,
-      "eval_mse": 0.13149800896644592,
-      "eval_runtime": 9.8923,
-      "eval_samples_per_second": 7.683,
-      "eval_steps_per_second": 1.011,
-      "step": 230
     },
     {
       "epoch": 24.0,
-      "grad_norm": 1.0159116983413696,
-      "learning_rate": 5.740740740740741e-06,
-      "loss": 0.0615,
-      "step": 240
     },
     {
       "epoch": 24.0,
-      "eval_loss": 0.06115531921386719,
-      "eval_mae": 0.3123721480369568,
-      "eval_mse": 0.13078482449054718,
-      "eval_runtime": 9.6638,
-      "eval_samples_per_second": 7.864,
-      "eval_steps_per_second": 1.035,
-      "step": 240
     },
     {
       "epoch": 25.0,
-      "eval_loss": 0.059913910925388336,
-      "eval_mae": 0.31175902485847473,
-      "eval_mse": 0.13015513122081757,
-      "eval_runtime": 9.6921,
-      "eval_samples_per_second": 7.841,
-      "eval_steps_per_second": 1.032,
-      "step": 250
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.06085545942187309,
-      "eval_mae": 0.313151478767395,
-      "eval_mse": 0.13129989802837372,
-      "eval_runtime": 9.5449,
-      "eval_samples_per_second": 7.962,
-      "eval_steps_per_second": 1.048,
-      "step": 260
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.060885023325681686,
-      "eval_mae": 0.3116842210292816,
-      "eval_mse": 0.13011318445205688,
-      "eval_runtime": 9.6423,
-      "eval_samples_per_second": 7.882,
-      "eval_steps_per_second": 1.037,
-      "step": 270
     },
     {
       "epoch": 27.0,
-      "step": 270,
       "total_flos": 0.0,
-      "train_loss": 0.13240765200720894,
-      "train_runtime": 1534.1197,
-      "train_samples_per_second": 5.925,
-      "train_steps_per_second": 0.176
     }
   ],
   "logging_steps": 40,
-  "max_steps": 270,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 500,

 {
+  "best_global_step": 375,
+  "best_metric": 0.12483953684568405,
+  "best_model_checkpoint": "./vit_focus/checkpoint-375",
+  "epoch": 28.824742268041238,
   "eval_steps": 500,
+  "global_step": 720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 0.06848403811454773,
+      "eval_mae": 0.3276480436325073,
+      "eval_mse": 0.13970328867435455,
+      "eval_runtime": 25.3431,
+      "eval_samples_per_second": 7.655,
+      "eval_steps_per_second": 0.986,
+      "step": 25
+    },
+    {
+      "epoch": 1.6185567010309279,
+      "grad_norm": 6.8434062004089355,
+      "learning_rate": 4.7291666666666666e-05,
+      "loss": 0.2799,
+      "step": 40
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.06143104285001755,
+      "eval_mae": 0.31839117407798767,
+      "eval_mse": 0.13270144164562225,
+      "eval_runtime": 25.5699,
+      "eval_samples_per_second": 7.587,
+      "eval_steps_per_second": 0.978,
+      "step": 50
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.05753186717629433,
+      "eval_mae": 0.31711024045944214,
+      "eval_mse": 0.13165348768234253,
+      "eval_runtime": 26.2931,
+      "eval_samples_per_second": 7.378,
+      "eval_steps_per_second": 0.951,
+      "step": 75
+    },
+    {
+      "epoch": 3.2061855670103094,
+      "grad_norm": 6.380847454071045,
+      "learning_rate": 4.4513888888888885e-05,
+      "loss": 0.2134,
+      "step": 80
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.06834284961223602,
+      "eval_mae": 0.3235570788383484,
+      "eval_mse": 0.13699457049369812,
+      "eval_runtime": 26.4774,
+      "eval_samples_per_second": 7.327,
+      "eval_steps_per_second": 0.944,
+      "step": 100
     },
     {
+      "epoch": 4.824742268041237,
+      "grad_norm": 11.873320579528809,
+      "learning_rate": 4.173611111111112e-05,
+      "loss": 0.2018,
+      "step": 120
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.0609874464571476,
+      "eval_mae": 0.3213047683238983,
+      "eval_mse": 0.13525618612766266,
+      "eval_runtime": 27.9495,
+      "eval_samples_per_second": 6.941,
+      "eval_steps_per_second": 0.894,
+      "step": 125
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.05957989767193794,
+      "eval_mae": 0.31332722306251526,
+      "eval_mse": 0.12951943278312683,
+      "eval_runtime": 33.4247,
+      "eval_samples_per_second": 5.804,
+      "eval_steps_per_second": 0.748,
+      "step": 150
+    },
+    {
+      "epoch": 6.412371134020619,
+      "grad_norm": 8.795011520385742,
+      "learning_rate": 3.8958333333333336e-05,
+      "loss": 0.1714,
+      "step": 160
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.058783117681741714,
+      "eval_mae": 0.3186197876930237,
+      "eval_mse": 0.13265401124954224,
+      "eval_runtime": 25.816,
+      "eval_samples_per_second": 7.515,
+      "eval_steps_per_second": 0.968,
+      "step": 175
     },
     {
       "epoch": 8.0,
+      "grad_norm": 1.3795604705810547,
+      "learning_rate": 3.6180555555555555e-05,
+      "loss": 0.1589,
+      "step": 200
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.062091995030641556,
+      "eval_mae": 0.32038411498069763,
+      "eval_mse": 0.13478334248065948,
+      "eval_runtime": 27.3432,
+      "eval_samples_per_second": 7.095,
+      "eval_steps_per_second": 0.914,
+      "step": 200
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.06154802814126015,
+      "eval_mae": 0.315742552280426,
+      "eval_mse": 0.13055546581745148,
+      "eval_runtime": 30.2503,
+      "eval_samples_per_second": 6.413,
+      "eval_steps_per_second": 0.826,
+      "step": 225
+    },
+    {
+      "epoch": 9.618556701030927,
+      "grad_norm": 13.09292984008789,
+      "learning_rate": 3.340277777777778e-05,
+      "loss": 0.1381,
+      "step": 240
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.055746473371982574,
+      "eval_mae": 0.31175413727760315,
+      "eval_mse": 0.12797364592552185,
+      "eval_runtime": 28.7143,
+      "eval_samples_per_second": 6.756,
+      "eval_steps_per_second": 0.871,
+      "step": 250
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.058016713708639145,
+      "eval_mae": 0.31583845615386963,
+      "eval_mse": 0.1310899704694748,
+      "eval_runtime": 25.6623,
+      "eval_samples_per_second": 7.56,
+      "eval_steps_per_second": 0.974,
+      "step": 275
     },
     {
+      "epoch": 11.206185567010309,
+      "grad_norm": 6.338009834289551,
+      "learning_rate": 3.0625000000000006e-05,
+      "loss": 0.1229,
+      "step": 280
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.05634809657931328,
+      "eval_mae": 0.31390878558158875,
+      "eval_mse": 0.12944912910461426,
+      "eval_runtime": 27.5624,
+      "eval_samples_per_second": 7.039,
+      "eval_steps_per_second": 0.907,
+      "step": 300
+    },
+    {
+      "epoch": 12.824742268041238,
+      "grad_norm": 5.399359703063965,
+      "learning_rate": 2.7847222222222224e-05,
+      "loss": 0.1112,
+      "step": 320
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.06292004883289337,
+      "eval_mae": 0.3253486454486847,
+      "eval_mse": 0.1393056958913803,
+      "eval_runtime": 26.5714,
+      "eval_samples_per_second": 7.301,
+      "eval_steps_per_second": 0.941,
+      "step": 325
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.060515470802783966,
+      "eval_mae": 0.31283605098724365,
+      "eval_mse": 0.12898671627044678,
+      "eval_runtime": 29.176,
+      "eval_samples_per_second": 6.649,
+      "eval_steps_per_second": 0.857,
+      "step": 350
+    },
+    {
+      "epoch": 14.412371134020619,
+      "grad_norm": 8.647767066955566,
+      "learning_rate": 2.5069444444444447e-05,
+      "loss": 0.0999,
+      "step": 360
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.06035061553120613,
+      "eval_mae": 0.3083080053329468,
+      "eval_mse": 0.12483953684568405,
+      "eval_runtime": 30.5066,
+      "eval_samples_per_second": 6.359,
+      "eval_steps_per_second": 0.819,
+      "step": 375
     },
     {
       "epoch": 16.0,
+      "grad_norm": 2.2351105213165283,
+      "learning_rate": 2.229166666666667e-05,
+      "loss": 0.0896,
+      "step": 400
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.055619120597839355,
+      "eval_mae": 0.3152642548084259,
+      "eval_mse": 0.1307651251554489,
+      "eval_runtime": 26.7772,
+      "eval_samples_per_second": 7.245,
+      "eval_steps_per_second": 0.934,
+      "step": 400
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.060975782573223114,
+      "eval_mae": 0.3201379179954529,
+      "eval_mse": 0.13466721773147583,
+      "eval_runtime": 26.1328,
+      "eval_samples_per_second": 7.424,
+      "eval_steps_per_second": 0.957,
+      "step": 425
+    },
+    {
+      "epoch": 17.61855670103093,
+      "grad_norm": 4.430182456970215,
+      "learning_rate": 1.951388888888889e-05,
+      "loss": 0.0776,
+      "step": 440
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.05742386728525162,
+      "eval_mae": 0.30930283665657043,
+      "eval_mse": 0.125941202044487,
+      "eval_runtime": 26.984,
+      "eval_samples_per_second": 7.189,
+      "eval_steps_per_second": 0.926,
+      "step": 450
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.05837095528841019,
+      "eval_mae": 0.308516263961792,
+      "eval_mse": 0.12533944845199585,
+      "eval_runtime": 26.6008,
+      "eval_samples_per_second": 7.293,
+      "eval_steps_per_second": 0.94,
+      "step": 475
     },
     {
+      "epoch": 19.20618556701031,
+      "grad_norm": 2.85257887840271,
+      "learning_rate": 1.673611111111111e-05,
+      "loss": 0.069,
+      "step": 480
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.05945156514644623,
+      "eval_mae": 0.30969831347465515,
+      "eval_mse": 0.12652333080768585,
+      "eval_runtime": 26.4776,
+      "eval_samples_per_second": 7.327,
+      "eval_steps_per_second": 0.944,
+      "step": 500
+    },
+    {
+      "epoch": 20.824742268041238,
+      "grad_norm": 5.132810115814209,
+      "learning_rate": 1.3958333333333335e-05,
+      "loss": 0.0649,
+      "step": 520
     },
     {
       "epoch": 21.0,
+      "eval_loss": 0.05759776383638382,
+      "eval_mae": 0.31495973467826843,
+      "eval_mse": 0.13078562915325165,
+      "eval_runtime": 26.9404,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.928,
+      "step": 525
     },
     {
       "epoch": 22.0,
+      "eval_loss": 0.05743802338838577,
+      "eval_mae": 0.3109038770198822,
+      "eval_mse": 0.12736806273460388,
+      "eval_runtime": 26.4163,
+      "eval_samples_per_second": 7.344,
+      "eval_steps_per_second": 0.946,
+      "step": 550
+    },
+    {
+      "epoch": 22.412371134020617,
+      "grad_norm": 2.2481906414031982,
+      "learning_rate": 1.1180555555555557e-05,
+      "loss": 0.056,
+      "step": 560
     },
     {
       "epoch": 23.0,
+      "eval_loss": 0.05784228816628456,
+      "eval_mae": 0.3148549795150757,
+      "eval_mse": 0.1306976079940796,
+      "eval_runtime": 26.7439,
+      "eval_samples_per_second": 7.254,
+      "eval_steps_per_second": 0.935,
+      "step": 575
     },
     {
       "epoch": 24.0,
+      "grad_norm": 0.4750465154647827,
+      "learning_rate": 8.402777777777779e-06,
+      "loss": 0.0508,
+      "step": 600
     },
     {
       "epoch": 24.0,
+      "eval_loss": 0.056339628994464874,
+      "eval_mae": 0.31389498710632324,
+      "eval_mse": 0.129553884267807,
+      "eval_runtime": 26.4072,
+      "eval_samples_per_second": 7.346,
+      "eval_steps_per_second": 0.947,
+      "step": 600
     },
     {
       "epoch": 25.0,
+      "eval_loss": 0.05677202716469765,
+      "eval_mae": 0.3157429099082947,
+      "eval_mse": 0.13120532035827637,
+      "eval_runtime": 26.4705,
+      "eval_samples_per_second": 7.329,
+      "eval_steps_per_second": 0.944,
+      "step": 625
     },
     {
+      "epoch": 25.61855670103093,
+      "grad_norm": 1.15388023853302,
+      "learning_rate": 5.625e-06,
+      "loss": 0.0468,
+      "step": 640
     },
     {
+      "epoch": 26.0,
+      "eval_loss": 0.05777855962514877,
+      "eval_mae": 0.3123283386230469,
+      "eval_mse": 0.12870892882347107,
+      "eval_runtime": 27.5864,
+      "eval_samples_per_second": 7.032,
+      "eval_steps_per_second": 0.906,
+      "step": 650
     },
     {
       "epoch": 27.0,
+      "eval_loss": 0.057855378836393356,
+      "eval_mae": 0.3146502673625946,
+      "eval_mse": 0.13045576214790344,
+      "eval_runtime": 25.4351,
+      "eval_samples_per_second": 7.627,
+      "eval_steps_per_second": 0.983,
+      "step": 675
+    },
+    {
+      "epoch": 27.20618556701031,
+      "grad_norm": 1.1987111568450928,
+      "learning_rate": 2.8472222222222224e-06,
+      "loss": 0.0432,
+      "step": 680
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.057245105504989624,
+      "eval_mae": 0.3143112361431122,
+      "eval_mse": 0.13008151948451996,
+      "eval_runtime": 25.4633,
+      "eval_samples_per_second": 7.619,
+      "eval_steps_per_second": 0.982,
+      "step": 700
+    },
+    {
+      "epoch": 28.824742268041238,
+      "grad_norm": 1.100252628326416,
+      "learning_rate": 6.944444444444445e-08,
+      "loss": 0.0419,
+      "step": 720
+    },
+    {
+      "epoch": 28.824742268041238,
+      "eval_loss": 0.05797496438026428,
+      "eval_mae": 0.3150193989276886,
+      "eval_mse": 0.13078629970550537,
+      "eval_runtime": 27.1785,
+      "eval_samples_per_second": 7.138,
+      "eval_steps_per_second": 0.92,
+      "step": 720
+    },
+    {
+      "epoch": 28.824742268041238,
+      "step": 720,
       "total_flos": 0.0,
+      "train_loss": 0.11318666471375359,
+      "train_runtime": 4441.3944,
+      "train_samples_per_second": 5.221,
+      "train_steps_per_second": 0.162
     }
   ],
   "logging_steps": 40,
+  "max_steps": 720,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 500,