End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +714 -714

README.md CHANGED Viewed

@@ -1,11 +1,23 @@
 ---
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bitllama-goodwiki
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -13,7 +25,7 @@ should probably proofread and complete it, then remove this comment. -->
 # bitllama-goodwiki
-This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0525
 - Accuracy: 0.4285

 ---
 tags:
 - generated_from_trainer
+datasets:
+- BEE-spoke-data/goodwiki-deduped-split
 metrics:
 - accuracy
 model-index:
 - name: bitllama-goodwiki
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: BEE-spoke-data/goodwiki-deduped-split
+      type: BEE-spoke-data/goodwiki-deduped-split
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4285134482793542
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bitllama-goodwiki
+This model was trained from scratch on the BEE-spoke-data/goodwiki-deduped-split dataset.
 It achieves the following results on the evaluation set:
 - Loss: 3.0525
 - Accuracy: 0.4285

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.40893571648684346,
-    "eval_loss": 3.1802382469177246,
-    "eval_runtime": 158.447,
     "eval_samples": 5065,
-    "eval_samples_per_second": 31.967,
-    "eval_steps_per_second": 4.001,
-    "perplexity": 24.052483299499787,
-    "train_loss": 3.8723633342356467,
-    "train_runtime": 7855.38,
     "train_samples": 90649,
-    "train_samples_per_second": 11.54,
-    "train_steps_per_second": 0.361
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.4285134482793542,
+    "eval_loss": 3.0525197982788086,
+    "eval_runtime": 151.0776,
     "eval_samples": 5065,
+    "eval_samples_per_second": 33.526,
+    "eval_steps_per_second": 4.197,
+    "perplexity": 21.168617922121435,
+    "train_loss": 3.7639108537323183,
+    "train_runtime": 10013.9285,
     "train_samples": 90649,
+    "train_samples_per_second": 9.052,
+    "train_steps_per_second": 0.283
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.40893571648684346,
-    "eval_loss": 3.1802382469177246,
-    "eval_runtime": 158.447,
     "eval_samples": 5065,
-    "eval_samples_per_second": 31.967,
-    "eval_steps_per_second": 4.001,
-    "perplexity": 24.052483299499787
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.4285134482793542,
+    "eval_loss": 3.0525197982788086,
+    "eval_runtime": 151.0776,
     "eval_samples": 5065,
+    "eval_samples_per_second": 33.526,
+    "eval_steps_per_second": 4.197,
+    "perplexity": 21.168617922121435
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 3.8723633342356467,
-    "train_runtime": 7855.38,
     "train_samples": 90649,
-    "train_samples_per_second": 11.54,
-    "train_steps_per_second": 0.361
 }

 {
     "epoch": 1.0,
+    "train_loss": 3.7639108537323183,
+    "train_runtime": 10013.9285,
     "train_samples": 90649,
+    "train_samples_per_second": 9.052,
+    "train_steps_per_second": 0.283
 }

trainer_state.json CHANGED Viewed

@@ -10,1968 +10,1968 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 0.0008,
-      "loss": 10.5836,
       "step": 1
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0008,
-      "loss": 7.9958,
       "step": 10
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0008,
-      "loss": 7.3759,
       "step": 20
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0008,
-      "loss": 7.0127,
       "step": 30
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0008,
-      "loss": 6.7344,
       "step": 40
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0008,
-      "loss": 6.4652,
       "step": 50
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0008,
-      "loss": 6.2654,
       "step": 60
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0008,
-      "loss": 6.15,
       "step": 70
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.0008,
-      "loss": 6.0468,
       "step": 80
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.0008,
-      "loss": 6.0073,
       "step": 90
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0008,
-      "loss": 5.8703,
       "step": 100
     },
     {
       "epoch": 0.04,
-      "eval_accuracy": 0.16497375833750882,
-      "eval_loss": 5.843543529510498,
-      "eval_runtime": 134.6754,
-      "eval_samples_per_second": 37.609,
-      "eval_steps_per_second": 4.708,
       "step": 100
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.0008,
-      "loss": 5.8128,
       "step": 110
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.0008,
-      "loss": 5.7662,
       "step": 120
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.0008,
-      "loss": 5.7228,
       "step": 130
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.0008,
-      "loss": 5.6553,
       "step": 140
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.0008,
-      "loss": 5.559,
       "step": 150
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.0008,
-      "loss": 5.4848,
       "step": 160
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.0008,
-      "loss": 5.3898,
       "step": 170
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.0008,
-      "loss": 5.3722,
       "step": 180
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0008,
-      "loss": 5.3227,
       "step": 190
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0008,
-      "loss": 5.2405,
       "step": 200
     },
     {
       "epoch": 0.07,
-      "eval_accuracy": 0.21142017475794642,
-      "eval_loss": 5.181127548217773,
-      "eval_runtime": 136.0594,
-      "eval_samples_per_second": 37.226,
-      "eval_steps_per_second": 4.66,
       "step": 200
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0008,
-      "loss": 5.1793,
       "step": 210
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0008,
-      "loss": 5.1427,
       "step": 220
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0008,
-      "loss": 5.1075,
       "step": 230
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0008,
-      "loss": 5.0223,
       "step": 240
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.0008,
-      "loss": 5.0391,
       "step": 250
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.0008,
-      "loss": 4.9901,
       "step": 260
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0008,
-      "loss": 4.8777,
       "step": 270
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0008,
-      "loss": 4.8738,
       "step": 280
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0008,
-      "loss": 4.8455,
       "step": 290
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0008,
-      "loss": 4.8345,
       "step": 300
     },
     {
       "epoch": 0.11,
-      "eval_accuracy": 0.2410882272518809,
-      "eval_loss": 4.779561996459961,
-      "eval_runtime": 135.467,
-      "eval_samples_per_second": 37.389,
-      "eval_steps_per_second": 4.68,
       "step": 300
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0008,
-      "loss": 4.7863,
       "step": 310
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0008,
-      "loss": 4.772,
       "step": 320
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0008,
-      "loss": 4.7222,
       "step": 330
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0008,
-      "loss": 4.6841,
       "step": 340
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0008,
-      "loss": 4.6861,
       "step": 350
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.0008,
-      "loss": 4.6413,
       "step": 360
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.0008,
-      "loss": 4.6305,
       "step": 370
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.0008,
-      "loss": 4.5794,
       "step": 380
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0008,
-      "loss": 4.5664,
       "step": 390
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0008,
-      "loss": 4.5823,
       "step": 400
     },
     {
       "epoch": 0.14,
-      "eval_accuracy": 0.2612630816483902,
-      "eval_loss": 4.523487091064453,
-      "eval_runtime": 136.8619,
-      "eval_samples_per_second": 37.008,
-      "eval_steps_per_second": 4.632,
       "step": 400
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.0008,
-      "loss": 4.5246,
       "step": 410
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.0008,
-      "loss": 4.4874,
       "step": 420
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.0008,
-      "loss": 4.5041,
       "step": 430
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.0008,
-      "loss": 4.4828,
       "step": 440
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.0008,
-      "loss": 4.5062,
       "step": 450
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.0008,
-      "loss": 4.4316,
       "step": 460
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0008,
-      "loss": 4.3892,
       "step": 470
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0008,
-      "loss": 4.4085,
       "step": 480
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0008,
-      "loss": 4.3641,
       "step": 490
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0008,
-      "loss": 4.3576,
       "step": 500
     },
     {
       "epoch": 0.18,
-      "eval_accuracy": 0.27608254392940623,
-      "eval_loss": 4.34656286239624,
-      "eval_runtime": 135.1659,
-      "eval_samples_per_second": 37.472,
-      "eval_steps_per_second": 4.691,
       "step": 500
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0008,
-      "loss": 4.3959,
       "step": 510
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0008,
-      "loss": 4.3741,
       "step": 520
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0008,
-      "loss": 4.3384,
       "step": 530
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0008,
-      "loss": 4.3328,
       "step": 540
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0008,
-      "loss": 4.2581,
       "step": 550
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0008,
-      "loss": 4.2962,
       "step": 560
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0008,
-      "loss": 4.2691,
       "step": 570
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0008,
-      "loss": 4.2617,
       "step": 580
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0008,
-      "loss": 4.2339,
       "step": 590
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0008,
-      "loss": 4.2139,
       "step": 600
     },
     {
       "epoch": 0.21,
-      "eval_accuracy": 0.28767700402823865,
-      "eval_loss": 4.215435981750488,
-      "eval_runtime": 135.5466,
-      "eval_samples_per_second": 37.367,
-      "eval_steps_per_second": 4.677,
       "step": 600
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0008,
-      "loss": 4.1746,
       "step": 610
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0008,
-      "loss": 4.1812,
       "step": 620
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0008,
-      "loss": 4.2263,
       "step": 630
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0008,
-      "loss": 4.1972,
       "step": 640
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0008,
-      "loss": 4.121,
       "step": 650
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0008,
-      "loss": 4.2055,
       "step": 660
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0008,
-      "loss": 4.1756,
       "step": 670
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0008,
-      "loss": 4.1643,
       "step": 680
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0008,
-      "loss": 4.1494,
       "step": 690
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.0008,
-      "loss": 4.1117,
       "step": 700
     },
     {
       "epoch": 0.25,
-      "eval_accuracy": 0.29982421968247663,
-      "eval_loss": 4.101539134979248,
-      "eval_runtime": 136.1806,
-      "eval_samples_per_second": 37.193,
-      "eval_steps_per_second": 4.656,
       "step": 700
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.0008,
-      "loss": 4.1379,
       "step": 710
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.0008,
-      "loss": 4.1173,
       "step": 720
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0008,
-      "loss": 4.1307,
       "step": 730
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0008,
-      "loss": 4.1291,
       "step": 740
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.0008,
-      "loss": 4.0763,
       "step": 750
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.0008,
-      "loss": 4.0861,
       "step": 760
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.0008,
-      "loss": 4.0251,
       "step": 770
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0008,
-      "loss": 4.0384,
       "step": 780
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0008,
-      "loss": 4.0343,
       "step": 790
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0008,
-      "loss": 4.0243,
       "step": 800
     },
     {
       "epoch": 0.28,
-      "eval_accuracy": 0.3069846755249659,
-      "eval_loss": 4.026556491851807,
-      "eval_runtime": 135.6288,
-      "eval_samples_per_second": 37.345,
-      "eval_steps_per_second": 4.675,
       "step": 800
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.0008,
-      "loss": 4.0532,
       "step": 810
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.0008,
-      "loss": 4.0039,
       "step": 820
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.0008,
-      "loss": 4.0164,
       "step": 830
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0008,
-      "loss": 4.0274,
       "step": 840
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0008,
-      "loss": 4.0533,
       "step": 850
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0008,
-      "loss": 4.0149,
       "step": 860
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.0008,
-      "loss": 4.0083,
       "step": 870
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.0008,
-      "loss": 3.9943,
       "step": 880
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.0008,
-      "loss": 4.0045,
       "step": 890
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0008,
-      "loss": 3.9702,
       "step": 900
     },
     {
       "epoch": 0.32,
-      "eval_accuracy": 0.3145666183290887,
-      "eval_loss": 3.9495697021484375,
-      "eval_runtime": 136.0896,
-      "eval_samples_per_second": 37.218,
-      "eval_steps_per_second": 4.659,
       "step": 900
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0008,
-      "loss": 3.9303,
       "step": 910
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0008,
-      "loss": 3.91,
       "step": 920
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.0008,
-      "loss": 3.9182,
       "step": 930
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.0008,
-      "loss": 3.9482,
       "step": 940
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.0008,
-      "loss": 3.9333,
       "step": 950
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.0008,
-      "loss": 3.9235,
       "step": 960
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.0008,
-      "loss": 3.9282,
       "step": 970
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0008,
-      "loss": 3.9222,
       "step": 980
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0008,
-      "loss": 3.9284,
       "step": 990
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0008,
-      "loss": 3.8875,
       "step": 1000
     },
     {
       "epoch": 0.35,
-      "eval_accuracy": 0.32133616189343134,
-      "eval_loss": 3.88588809967041,
-      "eval_runtime": 137.0008,
-      "eval_samples_per_second": 36.971,
-      "eval_steps_per_second": 4.628,
       "step": 1000
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0008,
-      "loss": 3.9029,
       "step": 1010
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0008,
-      "loss": 3.9049,
       "step": 1020
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0008,
-      "loss": 3.8323,
       "step": 1030
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0008,
-      "loss": 3.8533,
       "step": 1040
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0008,
-      "loss": 3.8698,
       "step": 1050
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0008,
-      "loss": 3.8734,
       "step": 1060
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.0008,
-      "loss": 3.8485,
       "step": 1070
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.0008,
-      "loss": 3.8412,
       "step": 1080
     },
     {
       "epoch": 0.38,
-      "learning_rate": 0.0008,
-      "loss": 3.8368,
       "step": 1090
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.0008,
-      "loss": 3.8557,
       "step": 1100
     },
     {
       "epoch": 0.39,
-      "eval_accuracy": 0.3289136679926949,
-      "eval_loss": 3.8198728561401367,
-      "eval_runtime": 136.5004,
-      "eval_samples_per_second": 37.106,
-      "eval_steps_per_second": 4.645,
       "step": 1100
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.0008,
-      "loss": 3.8311,
       "step": 1110
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0008,
-      "loss": 3.7672,
       "step": 1120
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0008,
-      "loss": 3.8207,
       "step": 1130
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0008,
-      "loss": 3.821,
       "step": 1140
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0008,
-      "loss": 3.8063,
       "step": 1150
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0008,
-      "loss": 3.774,
       "step": 1160
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0008,
-      "loss": 3.7655,
       "step": 1170
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0008,
-      "loss": 3.7827,
       "step": 1180
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0008,
-      "loss": 3.8189,
       "step": 1190
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0008,
-      "loss": 3.7383,
       "step": 1200
     },
     {
       "epoch": 0.42,
-      "eval_accuracy": 0.337325274605507,
-      "eval_loss": 3.7486014366149902,
-      "eval_runtime": 135.2402,
-      "eval_samples_per_second": 37.452,
-      "eval_steps_per_second": 4.688,
       "step": 1200
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.0008,
-      "loss": 3.7548,
       "step": 1210
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.0008,
-      "loss": 3.7807,
       "step": 1220
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.0008,
-      "loss": 3.7654,
       "step": 1230
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0008,
-      "loss": 3.7265,
       "step": 1240
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0008,
-      "loss": 3.6892,
       "step": 1250
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0008,
-      "loss": 3.686,
       "step": 1260
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.0008,
-      "loss": 3.7261,
       "step": 1270
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.0008,
-      "loss": 3.6922,
       "step": 1280
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.0008,
-      "loss": 3.7293,
       "step": 1290
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.0008,
-      "loss": 3.6718,
       "step": 1300
     },
     {
       "epoch": 0.46,
-      "eval_accuracy": 0.34615152022245255,
-      "eval_loss": 3.6764721870422363,
-      "eval_runtime": 136.7336,
-      "eval_samples_per_second": 37.043,
-      "eval_steps_per_second": 4.637,
       "step": 1300
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.0008,
-      "loss": 3.7167,
       "step": 1310
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0008,
-      "loss": 3.694,
       "step": 1320
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0008,
-      "loss": 3.6661,
       "step": 1330
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0008,
-      "loss": 3.6659,
       "step": 1340
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0008,
-      "loss": 3.6365,
       "step": 1350
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0008,
-      "loss": 3.6914,
       "step": 1360
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0008,
-      "loss": 3.5961,
       "step": 1370
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.0008,
-      "loss": 3.6102,
       "step": 1380
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.0008,
-      "loss": 3.6198,
       "step": 1390
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.0008,
-      "loss": 3.6072,
       "step": 1400
     },
     {
       "epoch": 0.49,
-      "eval_accuracy": 0.3554265481809269,
-      "eval_loss": 3.609574794769287,
-      "eval_runtime": 136.1057,
-      "eval_samples_per_second": 37.214,
-      "eval_steps_per_second": 4.658,
       "step": 1400
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.0008,
-      "loss": 3.5831,
       "step": 1410
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.0008,
-      "loss": 3.5985,
       "step": 1420
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.0008,
-      "loss": 3.5513,
       "step": 1430
     },
     {
       "epoch": 0.51,
-      "learning_rate": 0.0008,
-      "loss": 3.5913,
       "step": 1440
     },
     {
       "epoch": 0.51,
-      "learning_rate": 0.0008,
-      "loss": 3.5758,
       "step": 1450
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.0008,
-      "loss": 3.5511,
       "step": 1460
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.0008,
-      "loss": 3.5757,
       "step": 1470
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.0008,
-      "loss": 3.5504,
       "step": 1480
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0008,
-      "loss": 3.6189,
       "step": 1490
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0008,
-      "loss": 3.5629,
       "step": 1500
     },
     {
       "epoch": 0.53,
-      "eval_accuracy": 0.3621603087560782,
-      "eval_loss": 3.5538198947906494,
-      "eval_runtime": 135.3711,
-      "eval_samples_per_second": 37.416,
-      "eval_steps_per_second": 4.683,
       "step": 1500
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0008,
-      "loss": 3.5262,
       "step": 1510
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.0008,
-      "loss": 3.5047,
       "step": 1520
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.0008,
-      "loss": 3.5069,
       "step": 1530
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.0008,
-      "loss": 3.5734,
       "step": 1540
     },
     {
       "epoch": 0.55,
-      "learning_rate": 0.0008,
-      "loss": 3.478,
       "step": 1550
     },
     {
       "epoch": 0.55,
-      "learning_rate": 0.0008,
-      "loss": 3.5185,
       "step": 1560
     },
     {
       "epoch": 0.55,
-      "learning_rate": 0.0008,
-      "loss": 3.5316,
       "step": 1570
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.0008,
-      "loss": 3.4971,
       "step": 1580
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.0008,
-      "loss": 3.51,
       "step": 1590
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.0008,
-      "loss": 3.4883,
       "step": 1600
     },
     {
       "epoch": 0.56,
-      "eval_accuracy": 0.3692090753762398,
-      "eval_loss": 3.501894950866699,
-      "eval_runtime": 136.0113,
-      "eval_samples_per_second": 37.24,
-      "eval_steps_per_second": 4.661,
       "step": 1600
     },
     {
       "epoch": 0.57,
-      "learning_rate": 0.0008,
-      "loss": 3.5305,
       "step": 1610
     },
     {
       "epoch": 0.57,
-      "learning_rate": 0.0008,
-      "loss": 3.531,
       "step": 1620
     },
     {
       "epoch": 0.58,
-      "learning_rate": 0.0008,
-      "loss": 3.4821,
       "step": 1630
     },
     {
       "epoch": 0.58,
-      "learning_rate": 0.0008,
-      "loss": 3.488,
       "step": 1640
     },
     {
       "epoch": 0.58,
-      "learning_rate": 0.0008,
-      "loss": 3.442,
       "step": 1650
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.0008,
-      "loss": 3.4698,
       "step": 1660
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.0008,
-      "loss": 3.4318,
       "step": 1670
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.0008,
-      "loss": 3.4443,
       "step": 1680
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.0008,
-      "loss": 3.4336,
       "step": 1690
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.0008,
-      "loss": 3.4743,
       "step": 1700
     },
     {
       "epoch": 0.6,
-      "eval_accuracy": 0.3742321968778136,
-      "eval_loss": 3.4613401889801025,
-      "eval_runtime": 135.8854,
-      "eval_samples_per_second": 37.274,
-      "eval_steps_per_second": 4.666,
       "step": 1700
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.0008,
-      "loss": 3.4524,
       "step": 1710
     },
     {
       "epoch": 0.61,
-      "learning_rate": 0.0008,
-      "loss": 3.4768,
       "step": 1720
     },
     {
       "epoch": 0.61,
-      "learning_rate": 0.0008,
-      "loss": 3.4931,
       "step": 1730
     },
     {
       "epoch": 0.61,
-      "learning_rate": 0.0008,
-      "loss": 3.4805,
       "step": 1740
     },
     {
       "epoch": 0.62,
-      "learning_rate": 0.0008,
-      "loss": 3.4251,
       "step": 1750
     },
     {
       "epoch": 0.62,
-      "learning_rate": 0.0008,
-      "loss": 3.4601,
       "step": 1760
     },
     {
       "epoch": 0.62,
-      "learning_rate": 0.0008,
-      "loss": 3.44,
       "step": 1770
     },
     {
       "epoch": 0.63,
-      "learning_rate": 0.0008,
-      "loss": 3.3998,
       "step": 1780
     },
     {
       "epoch": 0.63,
-      "learning_rate": 0.0008,
-      "loss": 3.432,
       "step": 1790
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0008,
-      "loss": 3.4294,
       "step": 1800
     },
     {
       "epoch": 0.64,
-      "eval_accuracy": 0.37978685491155284,
-      "eval_loss": 3.4203567504882812,
-      "eval_runtime": 135.08,
-      "eval_samples_per_second": 37.496,
-      "eval_steps_per_second": 4.694,
       "step": 1800
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0008,
-      "loss": 3.452,
       "step": 1810
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0008,
-      "loss": 3.4274,
       "step": 1820
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.0008,
-      "loss": 3.429,
       "step": 1830
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.0008,
-      "loss": 3.3932,
       "step": 1840
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.0008,
-      "loss": 3.4144,
       "step": 1850
     },
     {
       "epoch": 0.66,
-      "learning_rate": 0.0008,
-      "loss": 3.414,
       "step": 1860
     },
     {
       "epoch": 0.66,
-      "learning_rate": 0.0008,
-      "loss": 3.4192,
       "step": 1870
     },
     {
       "epoch": 0.66,
-      "learning_rate": 0.0008,
-      "loss": 3.4295,
       "step": 1880
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.0008,
-      "loss": 3.3573,
       "step": 1890
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.0008,
-      "loss": 3.3752,
       "step": 1900
     },
     {
       "epoch": 0.67,
-      "eval_accuracy": 0.3848666890752412,
-      "eval_loss": 3.381606340408325,
-      "eval_runtime": 136.2948,
-      "eval_samples_per_second": 37.162,
-      "eval_steps_per_second": 4.652,
       "step": 1900
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.0008,
-      "loss": 3.4002,
       "step": 1910
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.0008,
-      "loss": 3.4114,
       "step": 1920
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.0008,
-      "loss": 3.3961,
       "step": 1930
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.0008,
-      "loss": 3.4121,
       "step": 1940
     },
     {
       "epoch": 0.69,
-      "learning_rate": 0.0008,
-      "loss": 3.3707,
       "step": 1950
     },
     {
       "epoch": 0.69,
-      "learning_rate": 0.0008,
-      "loss": 3.4174,
       "step": 1960
     },
     {
       "epoch": 0.7,
-      "learning_rate": 0.0008,
-      "loss": 3.3769,
       "step": 1970
     },
     {
       "epoch": 0.7,
-      "learning_rate": 0.0008,
-      "loss": 3.3729,
       "step": 1980
     },
     {
       "epoch": 0.7,
-      "learning_rate": 0.0008,
-      "loss": 3.3652,
       "step": 1990
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0008,
-      "loss": 3.3636,
       "step": 2000
     },
     {
       "epoch": 0.71,
-      "eval_accuracy": 0.38698338309355035,
-      "eval_loss": 3.359571695327759,
-      "eval_runtime": 135.0648,
-      "eval_samples_per_second": 37.501,
-      "eval_steps_per_second": 4.694,
       "step": 2000
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0008,
-      "loss": 3.3801,
       "step": 2010
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0008,
-      "loss": 3.3348,
       "step": 2020
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.0008,
-      "loss": 3.3398,
       "step": 2030
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.0008,
-      "loss": 3.3589,
       "step": 2040
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.0008,
-      "loss": 3.3357,
       "step": 2050
     },
     {
       "epoch": 0.73,
-      "learning_rate": 0.0008,
-      "loss": 3.3038,
       "step": 2060
     },
     {
       "epoch": 0.73,
-      "learning_rate": 0.0008,
-      "loss": 3.3231,
       "step": 2070
     },
     {
       "epoch": 0.73,
-      "learning_rate": 0.0008,
-      "loss": 3.348,
       "step": 2080
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.0008,
-      "loss": 3.3503,
       "step": 2090
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.0008,
-      "loss": 3.332,
       "step": 2100
     },
     {
       "epoch": 0.74,
-      "eval_accuracy": 0.3909963826387881,
-      "eval_loss": 3.3281729221343994,
-      "eval_runtime": 134.6874,
-      "eval_samples_per_second": 37.606,
-      "eval_steps_per_second": 4.707,
       "step": 2100
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.0008,
-      "loss": 3.3549,
       "step": 2110
     },
     {
       "epoch": 0.75,
-      "learning_rate": 0.0008,
-      "loss": 3.3504,
       "step": 2120
     },
     {
       "epoch": 0.75,
-      "learning_rate": 0.0008,
-      "loss": 3.3259,
       "step": 2130
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.0008,
-      "loss": 3.3455,
       "step": 2140
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.0008,
-      "loss": 3.3343,
       "step": 2150
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.0008,
-      "loss": 3.2952,
       "step": 2160
     },
     {
       "epoch": 0.77,
-      "learning_rate": 0.0008,
-      "loss": 3.3179,
       "step": 2170
     },
     {
       "epoch": 0.77,
-      "learning_rate": 0.0008,
-      "loss": 3.2569,
       "step": 2180
     },
     {
       "epoch": 0.77,
-      "learning_rate": 0.0008,
-      "loss": 3.3059,
       "step": 2190
     },
     {
       "epoch": 0.78,
-      "learning_rate": 0.0008,
-      "loss": 3.2884,
       "step": 2200
     },
     {
       "epoch": 0.78,
-      "eval_accuracy": 0.3946998737950368,
-      "eval_loss": 3.3027358055114746,
-      "eval_runtime": 135.1879,
-      "eval_samples_per_second": 37.466,
-      "eval_steps_per_second": 4.69,
       "step": 2200
     },
     {
       "epoch": 0.78,
-      "learning_rate": 0.0008,
-      "loss": 3.3218,
       "step": 2210
     },
     {
       "epoch": 0.78,
-      "learning_rate": 0.0008,
-      "loss": 3.2865,
       "step": 2220
     },
     {
       "epoch": 0.79,
-      "learning_rate": 0.0008,
-      "loss": 3.3339,
       "step": 2230
     },
     {
       "epoch": 0.79,
-      "learning_rate": 0.0008,
-      "loss": 3.2913,
       "step": 2240
     },
     {
       "epoch": 0.79,
-      "learning_rate": 0.0008,
-      "loss": 3.2425,
       "step": 2250
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.0008,
-      "loss": 3.263,
       "step": 2260
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.0008,
-      "loss": 3.2918,
       "step": 2270
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.0008,
-      "loss": 3.2684,
       "step": 2280
     },
     {
       "epoch": 0.81,
-      "learning_rate": 0.0008,
-      "loss": 3.279,
       "step": 2290
     },
     {
       "epoch": 0.81,
-      "learning_rate": 0.0008,
-      "loss": 3.2838,
       "step": 2300
     },
     {
       "epoch": 0.81,
-      "eval_accuracy": 0.3971535644824415,
-      "eval_loss": 3.280911445617676,
-      "eval_runtime": 135.9892,
-      "eval_samples_per_second": 37.246,
-      "eval_steps_per_second": 4.662,
       "step": 2300
     },
     {
       "epoch": 0.82,
-      "learning_rate": 0.0008,
-      "loss": 3.2524,
       "step": 2310
     },
     {
       "epoch": 0.82,
-      "learning_rate": 0.0008,
-      "loss": 3.2807,
       "step": 2320
     },
     {
       "epoch": 0.82,
-      "learning_rate": 0.0008,
-      "loss": 3.2276,
       "step": 2330
     },
     {
       "epoch": 0.83,
-      "learning_rate": 0.0008,
-      "loss": 3.3045,
       "step": 2340
     },
     {
       "epoch": 0.83,
-      "learning_rate": 0.0008,
-      "loss": 3.2835,
       "step": 2350
     },
     {
       "epoch": 0.83,
-      "learning_rate": 0.0008,
-      "loss": 3.2816,
       "step": 2360
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.0008,
-      "loss": 3.2464,
       "step": 2370
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.0008,
-      "loss": 3.2671,
       "step": 2380
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.0008,
-      "loss": 3.2733,
       "step": 2390
     },
     {
       "epoch": 0.85,
-      "learning_rate": 0.0008,
-      "loss": 3.2505,
       "step": 2400
     },
     {
       "epoch": 0.85,
-      "eval_accuracy": 0.4000816932394745,
-      "eval_loss": 3.256648302078247,
-      "eval_runtime": 136.2762,
-      "eval_samples_per_second": 37.167,
-      "eval_steps_per_second": 4.652,
       "step": 2400
     },
     {
       "epoch": 0.85,
-      "learning_rate": 0.0008,
-      "loss": 3.2053,
       "step": 2410
     },
     {
       "epoch": 0.85,
-      "learning_rate": 0.0008,
-      "loss": 3.2693,
       "step": 2420
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.0008,
-      "loss": 3.2955,
       "step": 2430
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.0008,
-      "loss": 3.2347,
       "step": 2440
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.0008,
-      "loss": 3.2516,
       "step": 2450
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.0008,
-      "loss": 3.2309,
       "step": 2460
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.0008,
-      "loss": 3.2451,
       "step": 2470
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.0008,
-      "loss": 3.2464,
       "step": 2480
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.0008,
-      "loss": 3.2484,
       "step": 2490
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.0008,
-      "loss": 3.2496,
       "step": 2500
     },
     {
       "epoch": 0.88,
-      "eval_accuracy": 0.4018057388777355,
-      "eval_loss": 3.2397472858428955,
-      "eval_runtime": 135.4382,
-      "eval_samples_per_second": 37.397,
-      "eval_steps_per_second": 4.681,
       "step": 2500
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.0008,
-      "loss": 3.2371,
       "step": 2510
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.0008,
-      "loss": 3.232,
       "step": 2520
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.0008,
-      "loss": 3.2479,
       "step": 2530
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.0008,
-      "loss": 3.2212,
       "step": 2540
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.0008,
-      "loss": 3.2145,
       "step": 2550
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.0008,
-      "loss": 3.2344,
       "step": 2560
     },
     {
       "epoch": 0.91,
-      "learning_rate": 0.0008,
-      "loss": 3.2176,
       "step": 2570
     },
     {
       "epoch": 0.91,
-      "learning_rate": 0.0008,
-      "loss": 3.1954,
       "step": 2580
     },
     {
       "epoch": 0.91,
-      "learning_rate": 0.0008,
-      "loss": 3.2363,
       "step": 2590
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.0008,
-      "loss": 3.2237,
       "step": 2600
     },
     {
       "epoch": 0.92,
-      "eval_accuracy": 0.4046295086204693,
-      "eval_loss": 3.2158236503601074,
-      "eval_runtime": 136.1181,
-      "eval_samples_per_second": 37.21,
-      "eval_steps_per_second": 4.658,
       "step": 2600
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.0008,
-      "loss": 3.2029,
       "step": 2610
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.0008,
-      "loss": 3.2231,
       "step": 2620
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.0008,
-      "loss": 3.2197,
       "step": 2630
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.0008,
-      "loss": 3.2342,
       "step": 2640
     },
     {
       "epoch": 0.94,
-      "learning_rate": 0.0008,
-      "loss": 3.1778,
       "step": 2650
     },
     {
       "epoch": 0.94,
-      "learning_rate": 0.0008,
-      "loss": 3.2043,
       "step": 2660
     },
     {
       "epoch": 0.94,
-      "learning_rate": 0.0008,
-      "loss": 3.2018,
       "step": 2670
     },
     {
       "epoch": 0.95,
-      "learning_rate": 0.0008,
-      "loss": 3.184,
       "step": 2680
     },
     {
       "epoch": 0.95,
-      "learning_rate": 0.0008,
-      "loss": 3.1926,
       "step": 2690
     },
     {
       "epoch": 0.95,
-      "learning_rate": 0.0008,
-      "loss": 3.2353,
       "step": 2700
     },
     {
       "epoch": 0.95,
-      "eval_accuracy": 0.40629597354566505,
-      "eval_loss": 3.2031331062316895,
-      "eval_runtime": 135.6589,
-      "eval_samples_per_second": 37.336,
-      "eval_steps_per_second": 4.673,
       "step": 2700
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.0008,
-      "loss": 3.1691,
       "step": 2710
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.0008,
-      "loss": 3.1855,
       "step": 2720
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.0008,
-      "loss": 3.168,
       "step": 2730
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.0008,
-      "loss": 3.2,
       "step": 2740
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.0008,
-      "loss": 3.1977,
       "step": 2750
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.0008,
-      "loss": 3.2194,
       "step": 2760
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0008,
-      "loss": 3.155,
       "step": 2770
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0008,
-      "loss": 3.184,
       "step": 2780
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0008,
-      "loss": 3.1804,
       "step": 2790
     },
     {
       "epoch": 0.99,
-      "learning_rate": 0.0008,
-      "loss": 3.169,
       "step": 2800
     },
     {
       "epoch": 0.99,
-      "eval_accuracy": 0.4082295088133695,
-      "eval_loss": 3.183588743209839,
-      "eval_runtime": 136.3124,
-      "eval_samples_per_second": 37.157,
-      "eval_steps_per_second": 4.651,
       "step": 2800
     },
     {
       "epoch": 0.99,
-      "learning_rate": 0.0008,
-      "loss": 3.2064,
       "step": 2810
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.0008,
-      "loss": 3.1264,
       "step": 2820
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.0008,
-      "loss": 3.2367,
       "step": 2830
     },
     {
       "epoch": 1.0,
       "step": 2833,
-      "total_flos": 2.0603056543707955e+17,
-      "train_loss": 3.8723633342356467,
-      "train_runtime": 7855.38,
-      "train_samples_per_second": 11.54,
-      "train_steps_per_second": 0.361
     }
   ],
   "logging_steps": 10,
@@ -1979,8 +1979,8 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 1000.0,
-  "total_flos": 2.0603056543707955e+17,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 10.5725,
       "step": 1
     },
     {
       "epoch": 0.0,
+      "learning_rate": 8e-05,
+      "loss": 9.6876,
       "step": 10
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00016,
+      "loss": 8.4164,
       "step": 20
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00024,
+      "loss": 7.5148,
       "step": 30
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00032,
+      "loss": 7.2623,
       "step": 40
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 7.0235,
       "step": 50
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.00048,
+      "loss": 6.7411,
       "step": 60
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.00056,
+      "loss": 6.535,
       "step": 70
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00064,
+      "loss": 6.3619,
       "step": 80
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00072,
+      "loss": 6.285,
       "step": 90
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0008,
+      "loss": 6.1199,
       "step": 100
     },
     {
       "epoch": 0.04,
+      "eval_accuracy": 0.15415359968673006,
+      "eval_loss": 6.0748748779296875,
+      "eval_runtime": 149.9041,
+      "eval_samples_per_second": 33.788,
+      "eval_steps_per_second": 4.229,
       "step": 100
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.0007999735731319962,
+      "loss": 6.0192,
       "step": 110
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.0007998942960198819,
+      "loss": 5.9528,
       "step": 120
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.0007997621791388858,
+      "loss": 5.8808,
       "step": 130
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.0007995772399461845,
+      "loss": 5.7862,
       "step": 140
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.0007993395028785968,
+      "loss": 5.7041,
       "step": 150
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0007990489993493526,
+      "loss": 5.6365,
       "step": 160
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0007987057677439444,
+      "loss": 5.5384,
       "step": 170
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0007983098534150538,
+      "loss": 5.5325,
       "step": 180
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0007978613086765592,
+      "loss": 5.4794,
       "step": 190
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0007973601927966237,
+      "loss": 5.3869,
       "step": 200
     },
     {
       "epoch": 0.07,
+      "eval_accuracy": 0.20318275703591465,
+      "eval_loss": 5.326748371124268,
+      "eval_runtime": 149.8598,
+      "eval_samples_per_second": 33.798,
+      "eval_steps_per_second": 4.231,
       "step": 200
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0007968065719898634,
+      "loss": 5.3202,
       "step": 210
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0007962005194085981,
+      "loss": 5.2673,
       "step": 220
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0007955421151331857,
+      "loss": 5.2441,
       "step": 230
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0007948314461614408,
+      "loss": 5.1405,
       "step": 240
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.0007940686063971387,
+      "loss": 5.1529,
       "step": 250
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.0007932536966376081,
+      "loss": 5.1036,
       "step": 260
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0007923868245604124,
+      "loss": 4.9852,
       "step": 270
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0007914681047091216,
+      "loss": 4.9747,
       "step": 280
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0007904976584781766,
+      "loss": 4.9381,
       "step": 290
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.0007894756140968497,
+      "loss": 4.9187,
       "step": 300
     },
     {
       "epoch": 0.11,
+      "eval_accuracy": 0.23856663569010775,
+      "eval_loss": 4.856618404388428,
+      "eval_runtime": 149.2653,
+      "eval_samples_per_second": 33.933,
+      "eval_steps_per_second": 4.247,
       "step": 300
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.0007884021066123009,
+      "loss": 4.8608,
       "step": 310
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.0007872772778717331,
+      "loss": 4.8439,
       "step": 320
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0007861012765036494,
+      "loss": 4.7976,
       "step": 330
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0007848742578982146,
+      "loss": 4.752,
       "step": 340
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0007835963841867223,
+      "loss": 4.7569,
       "step": 350
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.0007822678242201718,
+      "loss": 4.698,
       "step": 360
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.0007808887535469578,
+      "loss": 4.6793,
       "step": 370
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.0007794593543896733,
+      "loss": 4.6234,
       "step": 380
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.0007779798156210327,
+      "loss": 4.6046,
       "step": 390
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.0007764503327389145,
+      "loss": 4.6185,
       "step": 400
     },
     {
       "epoch": 0.14,
+      "eval_accuracy": 0.2624355291325133,
+      "eval_loss": 4.553475379943848,
+      "eval_runtime": 149.5941,
+      "eval_samples_per_second": 33.858,
+      "eval_steps_per_second": 4.238,
       "step": 400
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00077487110784053,
+      "loss": 4.551,
       "step": 410
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0007732423495957192,
+      "loss": 4.5083,
       "step": 420
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0007715642732193774,
+      "loss": 4.522,
       "step": 430
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.0007698371004430193,
+      "loss": 4.4942,
       "step": 440
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.0007680610594854798,
+      "loss": 4.5164,
       "step": 450
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.0007662363850227587,
+      "loss": 4.4405,
       "step": 460
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0007643633181570117,
+      "loss": 4.3987,
       "step": 470
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.000762442106384693,
+      "loss": 4.4089,
       "step": 480
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0007604730035638523,
+      "loss": 4.3598,
       "step": 490
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0007584562698805911,
+      "loss": 4.3509,
       "step": 500
     },
     {
       "epoch": 0.18,
+      "eval_accuracy": 0.2801221637037998,
+      "eval_loss": 4.338791847229004,
+      "eval_runtime": 148.9964,
+      "eval_samples_per_second": 33.994,
+      "eval_steps_per_second": 4.255,
       "step": 500
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0007563921718146838,
+      "loss": 4.3866,
       "step": 510
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0007542809821043658,
+      "loss": 4.3586,
       "step": 520
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.0007521229797102965,
+      "loss": 4.319,
       "step": 530
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.0007499184497786977,
+      "loss": 4.3143,
       "step": 540
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.0007476676836036771,
+      "loss": 4.2326,
       "step": 550
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0007453709785887376,
+      "loss": 4.2689,
       "step": 560
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0007430286382074807,
+      "loss": 4.2383,
       "step": 570
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0007406409719635068,
+      "loss": 4.232,
       "step": 580
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0007382082953495193,
+      "loss": 4.1941,
       "step": 590
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0007357309298056369,
+      "loss": 4.1666,
       "step": 600
     },
     {
       "epoch": 0.21,
+      "eval_accuracy": 0.2955689374718788,
+      "eval_loss": 4.16923713684082,
+      "eval_runtime": 148.9107,
+      "eval_samples_per_second": 34.014,
+      "eval_steps_per_second": 4.258,
       "step": 600
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.0007332092026769209,
+      "loss": 4.1266,
       "step": 610
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.0007306434471701209,
+      "loss": 4.1373,
       "step": 620
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.0007280340023096477,
+      "loss": 4.1767,
       "step": 630
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.0007253812128927756,
+      "loss": 4.139,
       "step": 640
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.0007226854294440834,
+      "loss": 4.0591,
       "step": 650
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.0007199470081691381,
+      "loss": 4.1488,
       "step": 660
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0007171663109074274,
+      "loss": 4.1125,
       "step": 670
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0007143437050845489,
+      "loss": 4.1009,
       "step": 680
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0007114795636636599,
+      "loss": 4.085,
       "step": 690
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.000708574265096197,
+      "loss": 4.0456,
       "step": 700
     },
     {
       "epoch": 0.25,
+      "eval_accuracy": 0.3088623661815066,
+      "eval_loss": 4.03993558883667,
+      "eval_runtime": 148.8369,
+      "eval_samples_per_second": 34.031,
+      "eval_steps_per_second": 4.26,
       "step": 700
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.0007056281932718689,
+      "loss": 4.0732,
       "step": 710
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.0007026417374679316,
+      "loss": 4.0439,
       "step": 720
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.000699615292297752,
+      "loss": 4.0528,
       "step": 730
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.0006965492576586652,
+      "loss": 4.05,
       "step": 740
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.0006934440386791345,
+      "loss": 3.9947,
       "step": 750
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.0006903000456652207,
+      "loss": 4.002,
       "step": 760
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.0006871176940463655,
+      "loss": 3.937,
       "step": 770
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0006838974043204999,
+      "loss": 3.949,
       "step": 780
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0006806396019984811,
+      "loss": 3.9419,
       "step": 790
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0006773447175478696,
+      "loss": 3.9273,
       "step": 800
     },
     {
       "epoch": 0.28,
+      "eval_accuracy": 0.31934504591266155,
+      "eval_loss": 3.9317612648010254,
+      "eval_runtime": 150.5837,
+      "eval_samples_per_second": 33.636,
+      "eval_steps_per_second": 4.21,
       "step": 800
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.000674013186336047,
+      "loss": 3.9558,
       "step": 810
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.0006706454485726915,
+      "loss": 3.9083,
       "step": 820
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.0006672419492516099,
+      "loss": 3.9169,
       "step": 830
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.0006638031380919385,
+      "loss": 3.9215,
       "step": 840
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.0006603294694787206,
+      "loss": 3.9422,
       "step": 850
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.0006568214024028656,
+      "loss": 3.9031,
       "step": 860
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0006532794004005016,
+      "loss": 3.8931,
       "step": 870
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0006497039314917254,
+      "loss": 3.871,
       "step": 880
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0006460954681187614,
+      "loss": 3.878,
       "step": 890
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.0006424544870835359,
+      "loss": 3.8447,
       "step": 900
     },
     {
       "epoch": 0.32,
+      "eval_accuracy": 0.3326595971954238,
+      "eval_loss": 3.817286968231201,
+      "eval_runtime": 151.9107,
+      "eval_samples_per_second": 33.342,
+      "eval_steps_per_second": 4.174,
       "step": 900
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.0006387814694846751,
+      "loss": 3.7965,
       "step": 910
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.0006350769006539354,
+      "loss": 3.7753,
       "step": 920
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.000631341270092074,
+      "loss": 3.7734,
       "step": 930
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00062757507140417,
+      "loss": 3.8001,
       "step": 940
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.0006237788022344014,
+      "loss": 3.7775,
       "step": 950
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.0006199529642002892,
+      "loss": 3.7659,
       "step": 960
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.0006160980628264175,
+      "loss": 3.7701,
       "step": 970
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0006122146074776347,
+      "loss": 3.7496,
       "step": 980
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0006083031112917506,
+      "loss": 3.7569,
       "step": 990
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0006043640911117322,
+      "loss": 3.7143,
       "step": 1000
     },
     {
       "epoch": 0.35,
+      "eval_accuracy": 0.3461449616152692,
+      "eval_loss": 3.7108187675476074,
+      "eval_runtime": 150.717,
+      "eval_samples_per_second": 33.606,
+      "eval_steps_per_second": 4.207,
       "step": 1000
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0006003980674174113,
+      "loss": 3.727,
       "step": 1010
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0005964055642567111,
+      "loss": 3.7216,
       "step": 1020
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0005923871091764019,
+      "loss": 3.6425,
       "step": 1030
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.0005883432331523935,
+      "loss": 3.656,
       "step": 1040
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.0005842744705195756,
+      "loss": 3.6711,
       "step": 1050
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.0005801813589012133,
+      "loss": 3.6739,
       "step": 1060
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.0005760644391379089,
+      "loss": 3.6481,
       "step": 1070
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.0005719242552161383,
+      "loss": 3.6327,
       "step": 1080
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.0005677613541963716,
+      "loss": 3.6286,
       "step": 1090
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.0005635762861407874,
+      "loss": 3.6485,
       "step": 1100
     },
     {
       "epoch": 0.39,
+      "eval_accuracy": 0.3589528604931205,
+      "eval_loss": 3.6115522384643555,
+      "eval_runtime": 151.483,
+      "eval_samples_per_second": 33.436,
+      "eval_steps_per_second": 4.185,
       "step": 1100
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.0005593696040405915,
+      "loss": 3.6201,
       "step": 1110
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0005551418637429465,
+      "loss": 3.5593,
       "step": 1120
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0005508936238775265,
+      "loss": 3.6036,
       "step": 1130
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0005466254457827025,
+      "loss": 3.6029,
       "step": 1140
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.0005423378934313702,
+      "loss": 3.585,
       "step": 1150
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.0005380315333564296,
+      "loss": 3.5505,
       "step": 1160
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.0005337069345759272,
+      "loss": 3.5358,
       "step": 1170
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.0005293646685178686,
+      "loss": 3.5578,
       "step": 1180
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.0005250053089447138,
+      "loss": 3.5917,
       "step": 1190
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.0005206294318775628,
+      "loss": 3.5171,
       "step": 1200
     },
     {
       "epoch": 0.42,
+      "eval_accuracy": 0.36927514369860115,
+      "eval_loss": 3.530304431915283,
+      "eval_runtime": 151.4072,
+      "eval_samples_per_second": 33.453,
+      "eval_steps_per_second": 4.187,
       "step": 1200
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.0005162376155200437,
+      "loss": 3.5322,
       "step": 1210
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.0005118304401819125,
+      "loss": 3.5639,
       "step": 1220
     },
     {
       "epoch": 0.43,
+      "learning_rate": 0.0005074084882023739,
+      "loss": 3.5472,
       "step": 1230
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.0005029723438731346,
+      "loss": 3.4967,
       "step": 1240
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.0004985225933611971,
+      "loss": 3.466,
       "step": 1250
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.000494059824631409,
+      "loss": 3.4608,
       "step": 1260
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.0004895846273687709,
+      "loss": 3.5004,
       "step": 1270
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.0004850975929005197,
+      "loss": 3.4747,
       "step": 1280
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.00048059931411799335,
+      "loss": 3.5048,
       "step": 1290
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.00047609038539829,
+      "loss": 3.4464,
       "step": 1300
     },
     {
       "epoch": 0.46,
+      "eval_accuracy": 0.3779672272186056,
+      "eval_loss": 3.455420970916748,
+      "eval_runtime": 151.2649,
+      "eval_samples_per_second": 33.484,
+      "eval_steps_per_second": 4.191,
       "step": 1300
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.0004715714025257304,
+      "loss": 3.4953,
       "step": 1310
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.00046704296261313393,
+      "loss": 3.471,
       "step": 1320
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.0004625056640229197,
+      "loss": 3.4471,
       "step": 1330
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.0004579601062880422,
+      "loss": 3.4493,
       "step": 1340
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.00045340689003277285,
+      "loss": 3.4145,
       "step": 1350
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.0004488466168933368,
+      "loss": 3.4739,
       "step": 1360
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.00044427988943841534,
+      "loss": 3.3819,
       "step": 1370
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.0004397073110895268,
+      "loss": 3.3975,
       "step": 1380
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.0004351294860412936,
+      "loss": 3.4112,
       "step": 1390
     },
     {
       "epoch": 0.49,
+      "learning_rate": 0.000430547019181607,
+      "loss": 3.3955,
       "step": 1400
     },
     {
       "epoch": 0.49,
+      "eval_accuracy": 0.38511794160042556,
+      "eval_loss": 3.3999252319335938,
+      "eval_runtime": 150.5869,
+      "eval_samples_per_second": 33.635,
+      "eval_steps_per_second": 4.21,
       "step": 1400
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.00042596051601170143,
+      "loss": 3.3769,
       "step": 1410
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.00042137058256614605,
+      "loss": 3.389,
       "step": 1420
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.00041677782533276747,
+      "loss": 3.3465,
       "step": 1430
     },
     {
       "epoch": 0.51,
+      "learning_rate": 0.00041218285117251163,
+      "loss": 3.3847,
       "step": 1440
     },
     {
       "epoch": 0.51,
+      "learning_rate": 0.0004075862672392566,
+      "loss": 3.3683,
       "step": 1450
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.0004029886808995867,
+      "loss": 3.3386,
       "step": 1460
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.00039839069965253864,
+      "loss": 3.3675,
       "step": 1470
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.0003937929310493297,
+      "loss": 3.3393,
       "step": 1480
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.0003891959826130802,
+      "loss": 3.4105,
       "step": 1490
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.0003846004617585376,
+      "loss": 3.3551,
       "step": 1500
     },
     {
       "epoch": 0.53,
+      "eval_accuracy": 0.39192461845543836,
+      "eval_loss": 3.3431735038757324,
+      "eval_runtime": 150.786,
+      "eval_samples_per_second": 33.591,
+      "eval_steps_per_second": 4.205,
       "step": 1500
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.00038000697571181723,
+      "loss": 3.3163,
       "step": 1510
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.00037541613143016596,
+      "loss": 3.2978,
       "step": 1520
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.00037082853552176324,
+      "loss": 3.3012,
       "step": 1530
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.0003662447941655669,
+      "loss": 3.3617,
       "step": 1540
     },
     {
       "epoch": 0.55,
+      "learning_rate": 0.00036166551303121566,
+      "loss": 3.2746,
       "step": 1550
     },
     {
       "epoch": 0.55,
+      "learning_rate": 0.00035709129719900003,
+      "loss": 3.312,
       "step": 1560
     },
     {
       "epoch": 0.55,
+      "learning_rate": 0.0003525227510799099,
+      "loss": 3.3274,
       "step": 1570
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.0003479604783357719,
+      "loss": 3.2888,
       "step": 1580
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.0003434050817994838,
+      "loss": 3.3067,
       "step": 1590
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.00033885716339536047,
+      "loss": 3.2787,
       "step": 1600
     },
     {
       "epoch": 0.56,
+      "eval_accuracy": 0.39735948545797645,
+      "eval_loss": 3.2980780601501465,
+      "eval_runtime": 151.955,
+      "eval_samples_per_second": 33.332,
+      "eval_steps_per_second": 4.172,
       "step": 1600
     },
     {
       "epoch": 0.57,
+      "learning_rate": 0.00033431732405959886,
+      "loss": 3.3245,
       "step": 1610
     },
     {
       "epoch": 0.57,
+      "learning_rate": 0.0003297861636608732,
+      "loss": 3.328,
       "step": 1620
     },
     {
       "epoch": 0.58,
+      "learning_rate": 0.00032526428092107256,
+      "loss": 3.2773,
       "step": 1630
     },
     {
       "epoch": 0.58,
+      "learning_rate": 0.0003207522733361881,
+      "loss": 3.2792,
       "step": 1640
     },
     {
       "epoch": 0.58,
+      "learning_rate": 0.00031625073709736444,
+      "loss": 3.2355,
       "step": 1650
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.00031176026701212125,
+      "loss": 3.2635,
       "step": 1660
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.00030728145642576,
+      "loss": 3.226,
       "step": 1670
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.0003028148971429614,
+      "loss": 3.2433,
       "step": 1680
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00029836117934958843,
+      "loss": 3.2282,
       "step": 1690
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00029392089153470243,
+      "loss": 3.2705,
       "step": 1700
     },
     {
       "epoch": 0.6,
+      "eval_accuracy": 0.4022830704505329,
+      "eval_loss": 3.2566046714782715,
+      "eval_runtime": 151.1757,
+      "eval_samples_per_second": 33.504,
+      "eval_steps_per_second": 4.194,
       "step": 1700
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.0002894946204128031,
+      "loss": 3.2523,
       "step": 1710
     },
     {
       "epoch": 0.61,
+      "learning_rate": 0.00028508295084630423,
+      "loss": 3.2703,
       "step": 1720
     },
     {
       "epoch": 0.61,
+      "learning_rate": 0.0002806864657682521,
+      "loss": 3.2855,
       "step": 1730
     },
     {
       "epoch": 0.61,
+      "learning_rate": 0.0002763057461053008,
+      "loss": 3.2752,
       "step": 1740
     },
     {
       "epoch": 0.62,
+      "learning_rate": 0.00027194137070095224,
+      "loss": 3.2225,
       "step": 1750
     },
     {
       "epoch": 0.62,
+      "learning_rate": 0.0002675939162390696,
+      "loss": 3.2595,
       "step": 1760
     },
     {
       "epoch": 0.62,
+      "learning_rate": 0.0002632639571676793,
+      "loss": 3.2349,
       "step": 1770
     },
     {
       "epoch": 0.63,
+      "learning_rate": 0.0002589520656230653,
+      "loss": 3.1926,
       "step": 1780
     },
     {
       "epoch": 0.63,
+      "learning_rate": 0.00025465881135417135,
+      "loss": 3.2271,
       "step": 1790
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00025038476164731643,
+      "loss": 3.2281,
       "step": 1800
     },
     {
       "epoch": 0.64,
+      "eval_accuracy": 0.40748857910186626,
+      "eval_loss": 3.217235803604126,
+      "eval_runtime": 151.2208,
+      "eval_samples_per_second": 33.494,
+      "eval_steps_per_second": 4.193,
       "step": 1800
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00024613048125123803,
+      "loss": 3.2461,
       "step": 1810
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00024189653230246853,
+      "loss": 3.2236,
       "step": 1820
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.0002376834742510578,
+      "loss": 3.2269,
       "step": 1830
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00023349186378665126,
+      "loss": 3.1916,
       "step": 1840
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00022932225476493065,
+      "loss": 3.2088,
       "step": 1850
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.00022517519813443292,
+      "loss": 3.212,
       "step": 1860
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.00022105124186374818,
+      "loss": 3.2159,
       "step": 1870
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.0002169509308691171,
+      "loss": 3.2286,
       "step": 1880
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.0002128748069424268,
+      "loss": 3.1553,
       "step": 1890
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.00020882340867962174,
+      "loss": 3.1759,
       "step": 1900
     },
     {
       "epoch": 0.67,
+      "eval_accuracy": 0.41184416942232654,
+      "eval_loss": 3.1826136112213135,
+      "eval_runtime": 150.8644,
+      "eval_samples_per_second": 33.573,
+      "eval_steps_per_second": 4.202,
       "step": 1900
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.00020479727140953813,
+      "loss": 3.1996,
       "step": 1910
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00020079692712316648,
+      "loss": 3.207,
       "step": 1920
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00019682290440335907,
+      "loss": 3.1934,
       "step": 1930
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00019287572835498522,
+      "loss": 3.2055,
       "step": 1940
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.0001889559205355469,
+      "loss": 3.165,
       "step": 1950
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.00018506399888626373,
+      "loss": 3.2182,
       "step": 1960
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.00018120047766363384,
+      "loss": 3.173,
       "step": 1970
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.0001773658673714842,
+      "loss": 3.1718,
       "step": 1980
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.0001735606746935151,
+      "loss": 3.1621,
       "step": 1990
     },
     {
       "epoch": 0.71,
+      "learning_rate": 0.00016978540242634958,
+      "loss": 3.1603,
       "step": 2000
     },
     {
       "epoch": 0.71,
+      "eval_accuracy": 0.4152190550686701,
+      "eval_loss": 3.1547319889068604,
+      "eval_runtime": 150.8119,
+      "eval_samples_per_second": 33.585,
+      "eval_steps_per_second": 4.204,
       "step": 2000
     },
     {
       "epoch": 0.71,
+      "learning_rate": 0.00016604054941309713,
+      "loss": 3.1781,
       "step": 2010
     },
     {
       "epoch": 0.71,
+      "learning_rate": 0.0001623266104774391,
+      "loss": 3.1261,
       "step": 2020
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.00015864407635824562,
+      "loss": 3.1293,
       "step": 2030
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.0001549934336447321,
+      "loss": 3.1486,
       "step": 2040
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.00015137516471216422,
+      "loss": 3.1247,
       "step": 2050
     },
     {
       "epoch": 0.73,
+      "learning_rate": 0.00014778974765811928,
+      "loss": 3.0984,
       "step": 2060
     },
     {
       "epoch": 0.73,
+      "learning_rate": 0.00014423765623931364,
+      "loss": 3.1173,
       "step": 2070
     },
     {
       "epoch": 0.73,
+      "learning_rate": 0.0001407193598090021,
+      "loss": 3.147,
       "step": 2080
     },
     {
       "epoch": 0.74,
+      "learning_rate": 0.000137235323254962,
+      "loss": 3.147,
       "step": 2090
     },
     {
       "epoch": 0.74,
+      "learning_rate": 0.00013378600693806378,
+      "loss": 3.1328,
       "step": 2100
     },
     {
       "epoch": 0.74,
+      "eval_accuracy": 0.4185663559848014,
+      "eval_loss": 3.1282718181610107,
+      "eval_runtime": 150.9461,
+      "eval_samples_per_second": 33.555,
+      "eval_steps_per_second": 4.2,
       "step": 2100
     },
     {
       "epoch": 0.74,
+      "learning_rate": 0.0001303718666314425,
+      "loss": 3.1565,
       "step": 2110
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00012699335346027447,
+      "loss": 3.1537,
       "step": 2120
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.0001236509138421674,
+      "loss": 3.1268,
       "step": 2130
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00012034498942817482,
+      "loss": 3.1449,
       "step": 2140
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.0001170760170444369,
+      "loss": 3.1358,
       "step": 2150
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00011384442863446211,
+      "loss": 3.0987,
       "step": 2160
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00011065065120205264,
+      "loss": 3.1229,
       "step": 2170
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00010749510675488115,
+      "loss": 3.0585,
       "step": 2180
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00010437821224873104,
+      "loss": 3.1092,
       "step": 2190
     },
     {
       "epoch": 0.78,
+      "learning_rate": 0.00010130037953240043,
+      "loss": 3.0916,
       "step": 2200
     },
     {
       "epoch": 0.78,
+      "eval_accuracy": 0.4215069268054616,
+      "eval_loss": 3.105459690093994,
+      "eval_runtime": 151.0796,
+      "eval_samples_per_second": 33.525,
+      "eval_steps_per_second": 4.196,
       "step": 2200
     },
     {
       "epoch": 0.78,
+      "learning_rate": 9.826201529328414e-05,
+      "loss": 3.1225,
       "step": 2210
     },
     {
       "epoch": 0.78,
+      "learning_rate": 9.526352100363562e-05,
+      "loss": 3.0914,
       "step": 2220
     },
     {
       "epoch": 0.79,
+      "learning_rate": 9.230529286751886e-05,
+      "loss": 3.1395,
       "step": 2230
     },
     {
       "epoch": 0.79,
+      "learning_rate": 8.938772176845631e-05,
+      "loss": 3.0953,
       "step": 2240
     },
     {
       "epoch": 0.79,
+      "learning_rate": 8.651119321777952e-05,
+      "loss": 3.0434,
       "step": 2250
     },
     {
       "epoch": 0.8,
+      "learning_rate": 8.367608730369015e-05,
+      "loss": 3.0658,
       "step": 2260
     },
     {
       "epoch": 0.8,
+      "learning_rate": 8.088277864103697e-05,
+      "loss": 3.0928,
       "step": 2270
     },
     {
       "epoch": 0.8,
+      "learning_rate": 7.81316363218167e-05,
+      "loss": 3.0746,
       "step": 2280
     },
     {
       "epoch": 0.81,
+      "learning_rate": 7.542302386640385e-05,
+      "loss": 3.0813,
       "step": 2290
     },
     {
       "epoch": 0.81,
+      "learning_rate": 7.27572991755178e-05,
+      "loss": 3.0939,
       "step": 2300
     },
     {
       "epoch": 0.81,
+      "eval_accuracy": 0.42381410978240375,
+      "eval_loss": 3.0875043869018555,
+      "eval_runtime": 152.0694,
+      "eval_samples_per_second": 33.307,
+      "eval_steps_per_second": 4.169,
       "step": 2300
     },
     {
       "epoch": 0.82,
+      "learning_rate": 7.013481448293085e-05,
+      "loss": 3.0575,
       "step": 2310
     },
     {
       "epoch": 0.82,
+      "learning_rate": 6.755591630892744e-05,
+      "loss": 3.0907,
       "step": 2320
     },
     {
       "epoch": 0.82,
+      "learning_rate": 6.502094541451573e-05,
+      "loss": 3.0385,
       "step": 2330
     },
     {
       "epoch": 0.83,
+      "learning_rate": 6.253023675640158e-05,
+      "loss": 3.1125,
       "step": 2340
     },
     {
       "epoch": 0.83,
+      "learning_rate": 6.008411944273e-05,
+      "loss": 3.0955,
       "step": 2350
     },
     {
       "epoch": 0.83,
+      "learning_rate": 5.7682916689597535e-05,
+      "loss": 3.0929,
       "step": 2360
     },
     {
       "epoch": 0.84,
+      "learning_rate": 5.5326945778345586e-05,
+      "loss": 3.0564,
       "step": 2370
     },
     {
       "epoch": 0.84,
+      "learning_rate": 5.301651801363528e-05,
+      "loss": 3.0774,
       "step": 2380
     },
     {
       "epoch": 0.84,
+      "learning_rate": 5.075193868231454e-05,
+      "loss": 3.0838,
       "step": 2390
     },
     {
       "epoch": 0.85,
+      "learning_rate": 4.853350701307897e-05,
+      "loss": 3.0584,
       "step": 2400
     },
     {
       "epoch": 0.85,
+      "eval_accuracy": 0.42569305429031773,
+      "eval_loss": 3.073211431503296,
+      "eval_runtime": 151.0975,
+      "eval_samples_per_second": 33.521,
+      "eval_steps_per_second": 4.196,
       "step": 2400
     },
     {
       "epoch": 0.85,
+      "learning_rate": 4.636151613693276e-05,
+      "loss": 3.0236,
       "step": 2410
     },
     {
       "epoch": 0.85,
+      "learning_rate": 4.423625304845702e-05,
+      "loss": 3.0852,
       "step": 2420
     },
     {
       "epoch": 0.86,
+      "learning_rate": 4.215799856788727e-05,
+      "loss": 3.1131,
       "step": 2430
     },
     {
       "epoch": 0.86,
+      "learning_rate": 4.012702730400766e-05,
+      "loss": 3.0559,
       "step": 2440
     },
     {
       "epoch": 0.86,
+      "learning_rate": 3.8143607617865796e-05,
+      "loss": 3.0686,
       "step": 2450
     },
     {
       "epoch": 0.87,
+      "learning_rate": 3.620800158731288e-05,
+      "loss": 3.0508,
       "step": 2460
     },
     {
       "epoch": 0.87,
+      "learning_rate": 3.4320464972374246e-05,
+      "loss": 3.0623,
       "step": 2470
     },
     {
       "epoch": 0.88,
+      "learning_rate": 3.24812471814548e-05,
+      "loss": 3.0673,
       "step": 2480
     },
     {
       "epoch": 0.88,
+      "learning_rate": 3.069059123838347e-05,
+      "loss": 3.0689,
       "step": 2490
     },
     {
       "epoch": 0.88,
+      "learning_rate": 2.894873375030156e-05,
+      "loss": 3.0711,
       "step": 2500
     },
     {
       "epoch": 0.88,
+      "eval_accuracy": 0.42705097532758074,
+      "eval_loss": 3.0630664825439453,
+      "eval_runtime": 151.1382,
+      "eval_samples_per_second": 33.512,
+      "eval_steps_per_second": 4.195,
       "step": 2500
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.7255904876398687e-05,
+      "loss": 3.0574,
       "step": 2510
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.5612328297500663e-05,
+      "loss": 3.0566,
       "step": 2520
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.4018221186514223e-05,
+      "loss": 3.0702,
       "step": 2530
     },
     {
       "epoch": 0.9,
+      "learning_rate": 2.2473794179730344e-05,
+      "loss": 3.0446,
       "step": 2540
     },
     {
       "epoch": 0.9,
+      "learning_rate": 2.0979251348992235e-05,
+      "loss": 3.0475,
       "step": 2550
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.953479017473052e-05,
+      "loss": 3.065,
       "step": 2560
     },
     {
       "epoch": 0.91,
+      "learning_rate": 1.8140601519869026e-05,
+      "loss": 3.0562,
       "step": 2570
     },
     {
       "epoch": 0.91,
+      "learning_rate": 1.6796869604605735e-05,
+      "loss": 3.0301,
       "step": 2580
     },
     {
       "epoch": 0.91,
+      "learning_rate": 1.5503771982070226e-05,
+      "loss": 3.0694,
       "step": 2590
     },
     {
       "epoch": 0.92,
+      "learning_rate": 1.4261479514863452e-05,
+      "loss": 3.0612,
       "step": 2600
     },
     {
       "epoch": 0.92,
+      "eval_accuracy": 0.4279909780571187,
+      "eval_loss": 3.0565025806427,
+      "eval_runtime": 151.9486,
+      "eval_samples_per_second": 33.334,
+      "eval_steps_per_second": 4.172,
       "step": 2600
     },
     {
       "epoch": 0.92,
+      "learning_rate": 1.3070156352480877e-05,
+      "loss": 3.0469,
       "step": 2610
     },
     {
       "epoch": 0.92,
+      "learning_rate": 1.1929959909622045e-05,
+      "loss": 3.0645,
       "step": 2620
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.084104084539166e-05,
+      "loss": 3.0639,
       "step": 2630
     },
     {
       "epoch": 0.93,
+      "learning_rate": 9.803543043391417e-06,
+      "loss": 3.0735,
       "step": 2640
     },
     {
       "epoch": 0.94,
+      "learning_rate": 8.817603592708779e-06,
+      "loss": 3.02,
       "step": 2650
     },
     {
       "epoch": 0.94,
+      "learning_rate": 7.8833527698023e-06,
+      "loss": 3.0485,
       "step": 2660
     },
     {
       "epoch": 0.94,
+      "learning_rate": 7.0009140212878854e-06,
+      "loss": 3.0469,
       "step": 2670
     },
     {
       "epoch": 0.95,
+      "learning_rate": 6.170403947627179e-06,
+      "loss": 3.033,
       "step": 2680
     },
     {
       "epoch": 0.95,
+      "learning_rate": 5.39193228772068e-06,
+      "loss": 3.0413,
       "step": 2690
     },
     {
       "epoch": 0.95,
+      "learning_rate": 4.665601904407347e-06,
+      "loss": 3.081,
       "step": 2700
     },
     {
       "epoch": 0.95,
+      "eval_accuracy": 0.42835112275156717,
+      "eval_loss": 3.0534024238586426,
+      "eval_runtime": 151.3942,
+      "eval_samples_per_second": 33.456,
+      "eval_steps_per_second": 4.188,
       "step": 2700
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.99150877087302e-06,
+      "loss": 3.0195,
       "step": 2710
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.3697419579690194e-06,
+      "loss": 3.0411,
       "step": 2720
     },
     {
       "epoch": 0.96,
+      "learning_rate": 2.800383622442837e-06,
+      "loss": 3.0234,
       "step": 2730
     },
     {
       "epoch": 0.97,
+      "learning_rate": 2.2835089960823395e-06,
+      "loss": 3.0571,
       "step": 2740
     },
     {
       "epoch": 0.97,
+      "learning_rate": 1.8191863757751392e-06,
+      "loss": 3.0598,
       "step": 2750
     },
     {
       "epoch": 0.97,
+      "learning_rate": 1.4074771144842568e-06,
+      "loss": 3.0829,
       "step": 2760
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.04843561314123e-06,
+      "loss": 3.0236,
       "step": 2770
     },
     {
       "epoch": 0.98,
+      "learning_rate": 7.421093134578616e-07,
+      "loss": 3.0504,
       "step": 2780
     },
     {
       "epoch": 0.98,
+      "learning_rate": 4.885386916575474e-07,
+      "loss": 3.0446,
       "step": 2790
     },
     {
       "epoch": 0.99,
+      "learning_rate": 2.877572531271078e-07,
+      "loss": 3.0378,
       "step": 2800
     },
     {
       "epoch": 0.99,
+      "eval_accuracy": 0.4284987878632974,
+      "eval_loss": 3.052541494369507,
+      "eval_runtime": 151.2777,
+      "eval_samples_per_second": 33.481,
+      "eval_steps_per_second": 4.191,
       "step": 2800
     },
     {
       "epoch": 0.99,
+      "learning_rate": 1.3979152798935247e-07,
+      "loss": 3.0729,
       "step": 2810
     },
     {
       "epoch": 1.0,
+      "learning_rate": 4.4661067597751015e-08,
+      "loss": 2.9979,
       "step": 2820
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.3784419529437883e-09,
+      "loss": 3.1122,
       "step": 2830
     },
     {
       "epoch": 1.0,
       "step": 2833,
+      "total_flos": 4.4316720769479475e+17,
+      "train_loss": 3.7639108537323183,
+      "train_runtime": 10013.9285,
+      "train_samples_per_second": 9.052,
+      "train_steps_per_second": 0.283
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 1000.0,
+  "total_flos": 4.4316720769479475e+17,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }