End of training

Browse files

Files changed (5) hide show

all_results.json +9 -9
eval_results.json +5 -5
runs/Dec14_01-26-33_129-213-23-45/events.out.tfevents.1671001275.129-213-23-45.2845517.2 +3 -0
train_results.json +5 -5
trainer_state.json +406 -166

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 6.11,
-    "eval_loss": 0.32497844099998474,
-    "eval_runtime": 1112.1106,
-    "eval_samples_per_second": 4.234,
     "eval_steps_per_second": 0.133,
-    "eval_wer": 32.594792142530835,
-    "train_loss": 0.23146729975938796,
-    "train_runtime": 12715.3657,
-    "train_samples_per_second": 5.033,
-    "train_steps_per_second": 0.079
 }

 {
+    "epoch": 13.04,
+    "eval_loss": 0.4333903193473816,
+    "eval_runtime": 1109.1543,
+    "eval_samples_per_second": 4.246,
     "eval_steps_per_second": 0.133,
+    "eval_wer": 32.04202832343535,
+    "train_loss": 0.006580068808048963,
+    "train_runtime": 18902.2125,
+    "train_samples_per_second": 6.772,
+    "train_steps_per_second": 0.106
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.11,
-    "eval_loss": 0.32497844099998474,
-    "eval_runtime": 1112.1106,
-    "eval_samples_per_second": 4.234,
     "eval_steps_per_second": 0.133,
-    "eval_wer": 32.594792142530835
 }

 {
+    "epoch": 13.04,
+    "eval_loss": 0.4333903193473816,
+    "eval_runtime": 1109.1543,
+    "eval_samples_per_second": 4.246,
     "eval_steps_per_second": 0.133,
+    "eval_wer": 32.04202832343535
 }

runs/Dec14_01-26-33_129-213-23-45/events.out.tfevents.1671001275.129-213-23-45.2845517.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5080d66f70737b41adf816e2f5508247c99a789dd3fb2b70d2b24bf439b6281
+size 358

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 6.11,
-    "train_loss": 0.23146729975938796,
-    "train_runtime": 12715.3657,
-    "train_samples_per_second": 5.033,
-    "train_steps_per_second": 0.079
 }

 {
+    "epoch": 13.04,
+    "train_loss": 0.006580068808048963,
+    "train_runtime": 18902.2125,
+    "train_samples_per_second": 6.772,
+    "train_steps_per_second": 0.106
 }

trainer_state.json CHANGED Viewed

@@ -1,310 +1,550 @@
 {
-  "best_metric": 32.594792142530835,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 6.112,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "learning_rate": 2.75e-07,
-      "loss": 1.1711,
       "step": 25
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 5.875e-07,
-      "loss": 0.9928,
       "step": 50
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 9.000000000000001e-07,
-      "loss": 0.6807,
       "step": 75
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 1.2125e-06,
-      "loss": 0.4894,
       "step": 100
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 1.525e-06,
-      "loss": 0.4589,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "learning_rate": 1.8375000000000002e-06,
-      "loss": 0.4241,
       "step": 150
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 2.15e-06,
-      "loss": 0.3693,
       "step": 175
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 2.4625e-06,
-      "loss": 0.3465,
-      "step": 200
-    },
-    {
-      "epoch": 1.05,
-      "eval_loss": 0.3499109745025635,
-      "eval_runtime": 1155.2135,
-      "eval_samples_per_second": 4.076,
-      "eval_steps_per_second": 0.128,
-      "eval_wer": 41.93238921882138,
       "step": 200
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 2.7750000000000005e-06,
-      "loss": 0.3232,
       "step": 225
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 3.0875000000000005e-06,
-      "loss": 0.2946,
       "step": 250
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 3.4000000000000005e-06,
-      "loss": 0.3059,
       "step": 275
     },
     {
       "epoch": 2.0,
-      "learning_rate": 3.7125000000000005e-06,
-      "loss": 0.2842,
       "step": 300
     },
     {
-      "epoch": 2.03,
-      "learning_rate": 4.0250000000000004e-06,
-      "loss": 0.2499,
       "step": 325
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 4.3375e-06,
-      "loss": 0.2456,
       "step": 350
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 4.65e-06,
-      "loss": 0.2252,
       "step": 375
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 4.9625e-06,
-      "loss": 0.2137,
       "step": 400
     },
     {
-      "epoch": 2.1,
-      "eval_loss": 0.2953178584575653,
-      "eval_runtime": 1162.2242,
-      "eval_samples_per_second": 4.052,
-      "eval_steps_per_second": 0.127,
-      "eval_wer": 36.29511192325263,
       "step": 400
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 5.275e-06,
-      "loss": 0.2182,
       "step": 425
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 5.5875e-06,
-      "loss": 0.1958,
       "step": 450
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 5.9e-06,
-      "loss": 0.1758,
       "step": 475
     },
     {
-      "epoch": 3.06,
-      "learning_rate": 6.2125e-06,
-      "loss": 0.164,
       "step": 500
     },
     {
-      "epoch": 3.08,
-      "learning_rate": 6.525e-06,
-      "loss": 0.154,
       "step": 525
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 6.8375e-06,
-      "loss": 0.1397,
       "step": 550
     },
     {
-      "epoch": 3.13,
-      "learning_rate": 7.15e-06,
-      "loss": 0.1419,
       "step": 575
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 7.4625e-06,
-      "loss": 0.1255,
-      "step": 600
-    },
-    {
-      "epoch": 4.01,
-      "eval_loss": 0.29274308681488037,
-      "eval_runtime": 1130.2455,
-      "eval_samples_per_second": 4.166,
-      "eval_steps_per_second": 0.131,
-      "eval_wer": 33.72316126084971,
       "step": 600
     },
     {
-      "epoch": 4.03,
-      "learning_rate": 7.775000000000001e-06,
-      "loss": 0.1077,
       "step": 625
     },
     {
-      "epoch": 4.06,
-      "learning_rate": 8.0875e-06,
-      "loss": 0.0996,
       "step": 650
     },
     {
-      "epoch": 4.08,
-      "learning_rate": 8.400000000000001e-06,
-      "loss": 0.091,
       "step": 675
     },
     {
-      "epoch": 4.11,
-      "learning_rate": 8.7125e-06,
-      "loss": 0.0804,
       "step": 700
     },
     {
-      "epoch": 4.13,
-      "learning_rate": 9.025e-06,
-      "loss": 0.0781,
       "step": 725
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 9.3375e-06,
-      "loss": 0.0648,
       "step": 750
     },
     {
-      "epoch": 5.04,
-      "learning_rate": 9.65e-06,
-      "loss": 0.0549,
       "step": 775
     },
     {
-      "epoch": 5.06,
-      "learning_rate": 9.9625e-06,
-      "loss": 0.0509,
       "step": 800
     },
     {
-      "epoch": 5.06,
-      "eval_loss": 0.3148699104785919,
-      "eval_runtime": 1070.2676,
-      "eval_samples_per_second": 4.4,
-      "eval_steps_per_second": 0.138,
-      "eval_wer": 34.05664687071722,
       "step": 800
     },
     {
-      "epoch": 5.08,
-      "learning_rate": 8.900000000000001e-06,
-      "loss": 0.0518,
       "step": 825
     },
     {
-      "epoch": 5.11,
-      "learning_rate": 7.650000000000001e-06,
-      "loss": 0.0406,
       "step": 850
     },
     {
-      "epoch": 5.13,
-      "learning_rate": 6.4000000000000006e-06,
-      "loss": 0.0361,
       "step": 875
     },
     {
       "epoch": 6.01,
-      "learning_rate": 5.150000000000001e-06,
-      "loss": 0.0299,
       "step": 900
     },
     {
-      "epoch": 6.04,
-      "learning_rate": 3.900000000000001e-06,
-      "loss": 0.0246,
       "step": 925
     },
     {
-      "epoch": 6.06,
-      "learning_rate": 2.6500000000000005e-06,
-      "loss": 0.0218,
       "step": 950
     },
     {
-      "epoch": 6.09,
-      "learning_rate": 1.4000000000000001e-06,
-      "loss": 0.0202,
       "step": 975
     },
     {
-      "epoch": 6.11,
-      "learning_rate": 1.5000000000000002e-07,
-      "loss": 0.0164,
       "step": 1000
     },
     {
-      "epoch": 6.11,
-      "eval_loss": 0.32497844099998474,
-      "eval_runtime": 1129.333,
-      "eval_samples_per_second": 4.17,
       "eval_steps_per_second": 0.131,
-      "eval_wer": 32.594792142530835,
-      "step": 1000
     },
     {
-      "epoch": 6.11,
-      "step": 1000,
-      "total_flos": 1.837596395077632e+19,
-      "train_loss": 0.23146729975938796,
-      "train_runtime": 12715.3657,
-      "train_samples_per_second": 5.033,
-      "train_steps_per_second": 0.079
     }
   ],
-  "max_steps": 1000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.837596395077632e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 32.04202832343535,
+  "best_model_checkpoint": "./checkpoint-2000",
+  "epoch": 13.038,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 2.0833333333333333e-07,
+      "loss": 0.011,
       "step": 25
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 4.1666666666666667e-07,
+      "loss": 0.0111,
       "step": 50
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 6.25e-07,
+      "loss": 0.0111,
       "step": 75
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.0132,
       "step": 100
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 1.0416666666666667e-06,
+      "loss": 0.0139,
       "step": 125
     },
     {
       "epoch": 1.0,
+      "learning_rate": 1.25e-06,
+      "loss": 0.013,
       "step": 150
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 1.4583333333333335e-06,
+      "loss": 0.0092,
       "step": 175
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0098,
       "step": 200
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 1.8750000000000003e-06,
+      "loss": 0.0091,
       "step": 225
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 0.0101,
       "step": 250
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 2.2916666666666666e-06,
+      "loss": 0.0092,
       "step": 275
     },
     {
       "epoch": 2.0,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0084,
       "step": 300
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 2.7083333333333334e-06,
+      "loss": 0.0067,
       "step": 325
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 2.916666666666667e-06,
+      "loss": 0.0066,
       "step": 350
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 3.125e-06,
+      "loss": 0.0066,
       "step": 375
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0066,
       "step": 400
     },
     {
+      "epoch": 2.05,
+      "eval_loss": 0.374257892370224,
+      "eval_runtime": 1097.1851,
+      "eval_samples_per_second": 4.292,
+      "eval_steps_per_second": 0.135,
+      "eval_wer": 32.910004568296024,
       "step": 400
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 3.5416666666666673e-06,
+      "loss": 0.0059,
       "step": 425
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.0053,
       "step": 450
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 3.958333333333333e-06,
+      "loss": 0.0046,
       "step": 475
     },
     {
+      "epoch": 3.03,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0052,
       "step": 500
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 4.3750000000000005e-06,
+      "loss": 0.0049,
       "step": 525
     },
     {
+      "epoch": 3.05,
+      "learning_rate": 4.583333333333333e-06,
+      "loss": 0.0051,
       "step": 550
     },
     {
+      "epoch": 3.07,
+      "learning_rate": 4.791666666666668e-06,
+      "loss": 0.0047,
       "step": 575
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 5e-06,
+      "loss": 0.0052,
       "step": 600
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 0.0049,
       "step": 625
     },
     {
+      "epoch": 4.03,
+      "learning_rate": 5.416666666666667e-06,
+      "loss": 0.0052,
       "step": 650
     },
     {
+      "epoch": 4.04,
+      "learning_rate": 5.625e-06,
+      "loss": 0.0059,
       "step": 675
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.0084,
       "step": 700
     },
     {
+      "epoch": 4.07,
+      "learning_rate": 6.041666666666667e-06,
+      "loss": 0.0101,
       "step": 725
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 6.25e-06,
+      "loss": 0.0078,
       "step": 750
     },
     {
+      "epoch": 5.02,
+      "learning_rate": 6.458333333333334e-06,
+      "loss": 0.0077,
       "step": 775
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0084,
       "step": 800
     },
     {
+      "epoch": 5.03,
+      "eval_loss": 0.3786599338054657,
+      "eval_runtime": 1048.12,
+      "eval_samples_per_second": 4.493,
+      "eval_steps_per_second": 0.141,
+      "eval_wer": 33.41708542713568,
       "step": 800
     },
     {
+      "epoch": 5.04,
+      "learning_rate": 6.875e-06,
+      "loss": 0.0098,
       "step": 825
     },
     {
+      "epoch": 5.05,
+      "learning_rate": 7.083333333333335e-06,
+      "loss": 0.0097,
       "step": 850
     },
     {
+      "epoch": 5.07,
+      "learning_rate": 7.291666666666667e-06,
+      "loss": 0.0093,
       "step": 875
     },
     {
       "epoch": 6.01,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0092,
       "step": 900
     },
     {
+      "epoch": 6.02,
+      "learning_rate": 7.708333333333334e-06,
+      "loss": 0.0086,
       "step": 925
     },
     {
+      "epoch": 6.03,
+      "learning_rate": 7.916666666666667e-06,
+      "loss": 0.0087,
       "step": 950
     },
     {
+      "epoch": 6.04,
+      "learning_rate": 8.125000000000001e-06,
+      "loss": 0.0091,
       "step": 975
     },
     {
+      "epoch": 6.06,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0119,
       "step": 1000
     },
     {
+      "epoch": 6.07,
+      "learning_rate": 8.541666666666666e-06,
+      "loss": 0.0115,
+      "step": 1025
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.0093,
+      "step": 1050
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 8.958333333333334e-06,
+      "loss": 0.01,
+      "step": 1075
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.0101,
+      "step": 1100
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.0095,
+      "step": 1125
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 9.583333333333335e-06,
+      "loss": 0.0103,
+      "step": 1150
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 9.791666666666666e-06,
+      "loss": 0.0111,
+      "step": 1175
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 1e-05,
+      "loss": 0.0098,
+      "step": 1200
+    },
+    {
+      "epoch": 8.01,
+      "eval_loss": 0.397890567779541,
+      "eval_runtime": 1133.829,
+      "eval_samples_per_second": 4.153,
       "eval_steps_per_second": 0.131,
+      "eval_wer": 33.24805847418913,
+      "step": 1200
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 9.6875e-06,
+      "loss": 0.0106,
+      "step": 1225
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.009,
+      "step": 1250
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 9.0625e-06,
+      "loss": 0.0093,
+      "step": 1275
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.0087,
+      "step": 1300
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 8.4375e-06,
+      "loss": 0.0098,
+      "step": 1325
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 8.125000000000001e-06,
+      "loss": 0.0057,
+      "step": 1350
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 7.8125e-06,
+      "loss": 0.0053,
+      "step": 1375
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0061,
+      "step": 1400
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 7.1875e-06,
+      "loss": 0.007,
+      "step": 1425
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.875e-06,
+      "loss": 0.0049,
+      "step": 1450
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 6.5625e-06,
+      "loss": 0.0042,
+      "step": 1475
+    },
+    {
+      "epoch": 10.01,
+      "learning_rate": 6.25e-06,
+      "loss": 0.003,
+      "step": 1500
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 5.9375e-06,
+      "loss": 0.0048,
+      "step": 1525
+    },
+    {
+      "epoch": 10.04,
+      "learning_rate": 5.625e-06,
+      "loss": 0.0025,
+      "step": 1550
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 5.3125e-06,
+      "loss": 0.0028,
+      "step": 1575
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 5e-06,
+      "loss": 0.0019,
+      "step": 1600
+    },
+    {
+      "epoch": 10.06,
+      "eval_loss": 0.40835869312286377,
+      "eval_runtime": 1079.5315,
+      "eval_samples_per_second": 4.362,
+      "eval_steps_per_second": 0.137,
+      "eval_wer": 32.311557788944725,
+      "step": 1600
+    },
+    {
+      "epoch": 10.07,
+      "learning_rate": 4.6875000000000004e-06,
+      "loss": 0.0024,
+      "step": 1625
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 4.3750000000000005e-06,
+      "loss": 0.0013,
+      "step": 1650
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 4.0625000000000005e-06,
+      "loss": 0.0017,
+      "step": 1675
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.0012,
+      "step": 1700
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 3.4375e-06,
+      "loss": 0.0012,
+      "step": 1725
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 3.125e-06,
+      "loss": 0.001,
+      "step": 1750
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 2.8125e-06,
+      "loss": 0.0011,
+      "step": 1775
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0009,
+      "step": 1800
+    },
+    {
+      "epoch": 12.02,
+      "learning_rate": 2.1875000000000002e-06,
+      "loss": 0.001,
+      "step": 1825
+    },
+    {
+      "epoch": 12.04,
+      "learning_rate": 1.8750000000000003e-06,
+      "loss": 0.0008,
+      "step": 1850
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 1.5625e-06,
+      "loss": 0.0008,
+      "step": 1875
+    },
+    {
+      "epoch": 12.06,
+      "learning_rate": 1.25e-06,
+      "loss": 0.0009,
+      "step": 1900
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 9.375000000000001e-07,
+      "loss": 0.0009,
+      "step": 1925
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 6.25e-07,
+      "loss": 0.0008,
+      "step": 1950
+    },
+    {
+      "epoch": 13.03,
+      "learning_rate": 3.125e-07,
+      "loss": 0.0009,
+      "step": 1975
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 0.0,
+      "loss": 0.0008,
+      "step": 2000
+    },
+    {
+      "epoch": 13.04,
+      "eval_loss": 0.4333903193473816,
+      "eval_runtime": 1067.3464,
+      "eval_samples_per_second": 4.412,
+      "eval_steps_per_second": 0.139,
+      "eval_wer": 32.04202832343535,
+      "step": 2000
     },
     {
+      "epoch": 13.04,
+      "step": 2000,
+      "total_flos": 3.673634428993536e+19,
+      "train_loss": 0.006580068808048963,
+      "train_runtime": 18902.2125,
+      "train_samples_per_second": 6.772,
+      "train_steps_per_second": 0.106
     }
   ],
+  "max_steps": 2000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 3.673634428993536e+19,
   "trial_name": null,
   "trial_params": null
 }