Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbbc1c7e7a7429a7796411fc0c4454088732261cc44718689c5c3f1d3c220140
 size 27566236

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa94ec7fc25e7a6ee26ffbbee034689965f336821b064b9f9e0f5dc2f6c05a21
 size 27566236

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b70a6d59de39c1ac9ebd518e263490060edb1b621c79101068abb00646faee
 size 27630900

 version https://git-lfs.github.com/spec/v1
+oid sha256:442607c5229133e53cd00ee913ff5d44cebaf82c6c20f843b24d268fb4a436af
 size 27630900

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de909f27d4300564cf0b471d3773e52a858288ea463ce5f53212c3dd9c087df4
 size 27622392

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d46607d03e57c5376b8610387ec2fcd94514faf917ee762afcbbb96dc811b
 size 27622392

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5598f7df16536fbb6676ced3e7e2242363f463b01a2fe5d1951bd4b83cf4055
 size 27622392

 version https://git-lfs.github.com/spec/v1
+oid sha256:459e2897a31e6241cdd6bb0e2e2ba82db83a9a33d01874d52b25108986341565
 size 27622392

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4746011446bef6200a807d99f18f436e033643622b83d80beb00732000090dd4
 size 13782528

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a4cd00ad97e87fe831d1bdd5ce43db8c2cd9365cf21907f488bae601ba88367
 size 13782528

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7db79f216edd549a193a0aaa43cfb79f3f07eea044dd098e1715566d36434e5c
 size 13782528

 version https://git-lfs.github.com/spec/v1
+oid sha256:6299f59ecc2a7b18770108f685e07e657c3c9e93ace7b10cbbaeca1a530f4c90
 size 13782528

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4db4eda629c9673f49fdc2d225aa1d21c4395e6303413453ee26b0ad90090db3
 size 13782528

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9868d8cd622192535fce3348430733d8e14fcbe9d92ed5bbb4ad802e3299996
 size 13782528

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a72dc5d692851d842c9b67e855e864eb56c9bd648db33c02c3b27a6aa36a063
 size 13782528

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b8d30fea35f5dc3498b7f3e5ffb9dd3408ba45c34eb925feec55d7455ab343f
 size 13782528

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:805afa176b455b67a891f7c63c255879dd3a372d6c9fa2140f3c0a2149d52710
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6185843c50764de20922699c89193c33e1e13037719a5d55479aa190e715e4fc
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:656385b8033d1cc9de4c8239cf888e2d83a5db8f95016de71e971858eab1c195
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e51ecf57078c2d652964726d8abc8157e10e9fdddf8cacb5700305b465147a
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a4775b283f1cbab74e1bfc47bfbe045632e0a9c46d8f354762f3216e862bf61
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe10fe55b3a58ae13fa7a58fca8f2486fa82c4aa360522ee9cde43cc43ba473
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ecbc04b6bcc44f7032a40edb9b3c06e3acf5ba0f1fb508b9a44802995aad5b9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcda73faaa8d5a9ab0a72d2fef1c1af0341c8e7f8ec0eede744acae39dd22f43
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88d5a351fddcb4718730dd82c69354176cd179de4c82fa6d41e0282fb5e2ab11
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3e47edb1b664bc04c493b0996774157c1ffdb9f0b12df515a0b32829d748704
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5747126436781609,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 6.483,
       "eval_steps_per_second": 0.245,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.337811729665229e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8620689655172413,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.483,
       "eval_steps_per_second": 0.245,
       "step": 200
+    },
+    {
+      "epoch": 0.5775862068965517,
+      "grad_norm": 2.6798720359802246,
+      "learning_rate": 9.047925700872552e-06,
+      "loss": 0.3089,
+      "step": 201
+    },
+    {
+      "epoch": 0.5804597701149425,
+      "grad_norm": 1.8285130262374878,
+      "learning_rate": 8.948060899634846e-06,
+      "loss": 0.2951,
+      "step": 202
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 1.8588842153549194,
+      "learning_rate": 8.848302072078762e-06,
+      "loss": 0.2872,
+      "step": 203
+    },
+    {
+      "epoch": 0.5862068965517241,
+      "grad_norm": 1.7378156185150146,
+      "learning_rate": 8.748659268035339e-06,
+      "loss": 0.2731,
+      "step": 204
+    },
+    {
+      "epoch": 0.5890804597701149,
+      "grad_norm": 2.0161514282226562,
+      "learning_rate": 8.649142525647271e-06,
+      "loss": 0.3388,
+      "step": 205
+    },
+    {
+      "epoch": 0.5919540229885057,
+      "grad_norm": 2.865183115005493,
+      "learning_rate": 8.549761870357633e-06,
+      "loss": 0.3414,
+      "step": 206
+    },
+    {
+      "epoch": 0.5948275862068966,
+      "grad_norm": 2.0526323318481445,
+      "learning_rate": 8.450527313899923e-06,
+      "loss": 0.2896,
+      "step": 207
+    },
+    {
+      "epoch": 0.5977011494252874,
+      "grad_norm": 1.859277367591858,
+      "learning_rate": 8.351448853289448e-06,
+      "loss": 0.3396,
+      "step": 208
+    },
+    {
+      "epoch": 0.6005747126436781,
+      "grad_norm": 1.6364465951919556,
+      "learning_rate": 8.25253646981622e-06,
+      "loss": 0.3009,
+      "step": 209
+    },
+    {
+      "epoch": 0.603448275862069,
+      "grad_norm": 1.590421438217163,
+      "learning_rate": 8.153800128039441e-06,
+      "loss": 0.2851,
+      "step": 210
+    },
+    {
+      "epoch": 0.6063218390804598,
+      "grad_norm": 2.336608648300171,
+      "learning_rate": 8.05524977478364e-06,
+      "loss": 0.3176,
+      "step": 211
+    },
+    {
+      "epoch": 0.6091954022988506,
+      "grad_norm": 2.3211328983306885,
+      "learning_rate": 7.956895338136618e-06,
+      "loss": 0.3106,
+      "step": 212
+    },
+    {
+      "epoch": 0.6120689655172413,
+      "grad_norm": 2.7813518047332764,
+      "learning_rate": 7.858746726449309e-06,
+      "loss": 0.3136,
+      "step": 213
+    },
+    {
+      "epoch": 0.6149425287356322,
+      "grad_norm": 1.71042799949646,
+      "learning_rate": 7.760813827337555e-06,
+      "loss": 0.2486,
+      "step": 214
+    },
+    {
+      "epoch": 0.617816091954023,
+      "grad_norm": 2.9381296634674072,
+      "learning_rate": 7.663106506686057e-06,
+      "loss": 0.3015,
+      "step": 215
+    },
+    {
+      "epoch": 0.6206896551724138,
+      "grad_norm": 1.7143189907073975,
+      "learning_rate": 7.565634607654453e-06,
+      "loss": 0.2992,
+      "step": 216
+    },
+    {
+      "epoch": 0.6235632183908046,
+      "grad_norm": 3.923569679260254,
+      "learning_rate": 7.468407949685695e-06,
+      "loss": 0.3573,
+      "step": 217
+    },
+    {
+      "epoch": 0.6264367816091954,
+      "grad_norm": 2.183392286300659,
+      "learning_rate": 7.371436327516854e-06,
+      "loss": 0.3268,
+      "step": 218
+    },
+    {
+      "epoch": 0.6293103448275862,
+      "grad_norm": 2.3036110401153564,
+      "learning_rate": 7.274729510192367e-06,
+      "loss": 0.3112,
+      "step": 219
+    },
+    {
+      "epoch": 0.632183908045977,
+      "grad_norm": 2.291121006011963,
+      "learning_rate": 7.1782972400798825e-06,
+      "loss": 0.3373,
+      "step": 220
+    },
+    {
+      "epoch": 0.632183908045977,
+      "eval_accuracy": 0.8663366336633663,
+      "eval_f1": 0.7428571428571429,
+      "eval_loss": 0.3174149990081787,
+      "eval_precision": 0.75,
+      "eval_recall": 0.7358490566037735,
+      "eval_runtime": 16.8275,
+      "eval_samples_per_second": 6.299,
+      "eval_steps_per_second": 0.238,
+      "step": 220
+    },
+    {
+      "epoch": 0.6350574712643678,
+      "grad_norm": 2.0122501850128174,
+      "learning_rate": 7.082149231888833e-06,
+      "loss": 0.2819,
+      "step": 221
+    },
+    {
+      "epoch": 0.6379310344827587,
+      "grad_norm": 3.282517194747925,
+      "learning_rate": 6.986295171691727e-06,
+      "loss": 0.3298,
+      "step": 222
+    },
+    {
+      "epoch": 0.6408045977011494,
+      "grad_norm": 2.086409091949463,
+      "learning_rate": 6.890744715948388e-06,
+      "loss": 0.3012,
+      "step": 223
+    },
+    {
+      "epoch": 0.6436781609195402,
+      "grad_norm": 1.70159912109375,
+      "learning_rate": 6.795507490533142e-06,
+      "loss": 0.2959,
+      "step": 224
+    },
+    {
+      "epoch": 0.646551724137931,
+      "grad_norm": 2.0289723873138428,
+      "learning_rate": 6.700593089765086e-06,
+      "loss": 0.3425,
+      "step": 225
+    },
+    {
+      "epoch": 0.6494252873563219,
+      "grad_norm": 1.884710669517517,
+      "learning_rate": 6.606011075441556e-06,
+      "loss": 0.3204,
+      "step": 226
+    },
+    {
+      "epoch": 0.6522988505747126,
+      "grad_norm": 1.501484751701355,
+      "learning_rate": 6.511770975874862e-06,
+      "loss": 0.2775,
+      "step": 227
+    },
+    {
+      "epoch": 0.6551724137931034,
+      "grad_norm": 2.8411877155303955,
+      "learning_rate": 6.417882284932373e-06,
+      "loss": 0.2738,
+      "step": 228
+    },
+    {
+      "epoch": 0.6580459770114943,
+      "grad_norm": 1.941379427909851,
+      "learning_rate": 6.324354461080121e-06,
+      "loss": 0.2666,
+      "step": 229
+    },
+    {
+      "epoch": 0.6609195402298851,
+      "grad_norm": 1.8048228025436401,
+      "learning_rate": 6.231196926429913e-06,
+      "loss": 0.2855,
+      "step": 230
+    },
+    {
+      "epoch": 0.6637931034482759,
+      "grad_norm": 3.2040340900421143,
+      "learning_rate": 6.138419065790169e-06,
+      "loss": 0.3079,
+      "step": 231
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 2.1029903888702393,
+      "learning_rate": 6.046030225720456e-06,
+      "loss": 0.2396,
+      "step": 232
+    },
+    {
+      "epoch": 0.6695402298850575,
+      "grad_norm": 1.9636800289154053,
+      "learning_rate": 5.95403971358991e-06,
+      "loss": 0.2626,
+      "step": 233
+    },
+    {
+      "epoch": 0.6724137931034483,
+      "grad_norm": 2.6405386924743652,
+      "learning_rate": 5.86245679663962e-06,
+      "loss": 0.3551,
+      "step": 234
+    },
+    {
+      "epoch": 0.6752873563218391,
+      "grad_norm": 1.5251939296722412,
+      "learning_rate": 5.7712907010490036e-06,
+      "loss": 0.2533,
+      "step": 235
+    },
+    {
+      "epoch": 0.6781609195402298,
+      "grad_norm": 2.1209423542022705,
+      "learning_rate": 5.680550611006372e-06,
+      "loss": 0.3079,
+      "step": 236
+    },
+    {
+      "epoch": 0.6810344827586207,
+      "grad_norm": 2.9804978370666504,
+      "learning_rate": 5.590245667783701e-06,
+      "loss": 0.2793,
+      "step": 237
+    },
+    {
+      "epoch": 0.6839080459770115,
+      "grad_norm": 1.8401639461517334,
+      "learning_rate": 5.5003849688157075e-06,
+      "loss": 0.3312,
+      "step": 238
+    },
+    {
+      "epoch": 0.6867816091954023,
+      "grad_norm": 2.289094924926758,
+      "learning_rate": 5.4109775667833866e-06,
+      "loss": 0.3053,
+      "step": 239
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 2.153110980987549,
+      "learning_rate": 5.322032468702037e-06,
+      "loss": 0.3006,
+      "step": 240
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "eval_accuracy": 0.8564356435643564,
+      "eval_f1": 0.7289719626168224,
+      "eval_loss": 0.3172420263290405,
+      "eval_precision": 0.7222222222222222,
+      "eval_recall": 0.7358490566037735,
+      "eval_runtime": 16.2806,
+      "eval_samples_per_second": 6.511,
+      "eval_steps_per_second": 0.246,
+      "step": 240
+    },
+    {
+      "epoch": 0.6925287356321839,
+      "grad_norm": 1.8454641103744507,
+      "learning_rate": 5.233558635013842e-06,
+      "loss": 0.3068,
+      "step": 241
+    },
+    {
+      "epoch": 0.6954022988505747,
+      "grad_norm": 1.8107268810272217,
+      "learning_rate": 5.145564978685234e-06,
+      "loss": 0.2948,
+      "step": 242
+    },
+    {
+      "epoch": 0.6982758620689655,
+      "grad_norm": 3.891240358352661,
+      "learning_rate": 5.058060364308965e-06,
+      "loss": 0.3284,
+      "step": 243
+    },
+    {
+      "epoch": 0.7011494252873564,
+      "grad_norm": 2.919726610183716,
+      "learning_rate": 4.971053607211069e-06,
+      "loss": 0.3849,
+      "step": 244
+    },
+    {
+      "epoch": 0.7040229885057471,
+      "grad_norm": 2.58359432220459,
+      "learning_rate": 4.884553472562809e-06,
+      "loss": 0.3178,
+      "step": 245
+    },
+    {
+      "epoch": 0.7068965517241379,
+      "grad_norm": 2.011887550354004,
+      "learning_rate": 4.7985686744976714e-06,
+      "loss": 0.2861,
+      "step": 246
+    },
+    {
+      "epoch": 0.7097701149425287,
+      "grad_norm": 2.8338310718536377,
+      "learning_rate": 4.713107875233459e-06,
+      "loss": 0.3335,
+      "step": 247
+    },
+    {
+      "epoch": 0.7126436781609196,
+      "grad_norm": 2.3909761905670166,
+      "learning_rate": 4.628179684199685e-06,
+      "loss": 0.3075,
+      "step": 248
+    },
+    {
+      "epoch": 0.7155172413793104,
+      "grad_norm": 2.0963563919067383,
+      "learning_rate": 4.543792657170228e-06,
+      "loss": 0.3073,
+      "step": 249
+    },
+    {
+      "epoch": 0.7183908045977011,
+      "grad_norm": 2.0717861652374268,
+      "learning_rate": 4.459955295401415e-06,
+      "loss": 0.2974,
+      "step": 250
+    },
+    {
+      "epoch": 0.7212643678160919,
+      "grad_norm": 2.0259382724761963,
+      "learning_rate": 4.376676044775601e-06,
+      "loss": 0.319,
+      "step": 251
+    },
+    {
+      "epoch": 0.7241379310344828,
+      "grad_norm": 1.5886821746826172,
+      "learning_rate": 4.293963294950313e-06,
+      "loss": 0.2938,
+      "step": 252
+    },
+    {
+      "epoch": 0.7270114942528736,
+      "grad_norm": 3.442382335662842,
+      "learning_rate": 4.211825378513066e-06,
+      "loss": 0.3855,
+      "step": 253
+    },
+    {
+      "epoch": 0.7298850574712644,
+      "grad_norm": 1.693603515625,
+      "learning_rate": 4.130270570141931e-06,
+      "loss": 0.3354,
+      "step": 254
+    },
+    {
+      "epoch": 0.7327586206896551,
+      "grad_norm": 2.258274555206299,
+      "learning_rate": 4.0493070857719305e-06,
+      "loss": 0.3418,
+      "step": 255
+    },
+    {
+      "epoch": 0.735632183908046,
+      "grad_norm": 1.6936811208724976,
+      "learning_rate": 3.968943081767358e-06,
+      "loss": 0.2287,
+      "step": 256
+    },
+    {
+      "epoch": 0.7385057471264368,
+      "grad_norm": 2.4249556064605713,
+      "learning_rate": 3.889186654100089e-06,
+      "loss": 0.2983,
+      "step": 257
+    },
+    {
+      "epoch": 0.7413793103448276,
+      "grad_norm": 1.6004093885421753,
+      "learning_rate": 3.81004583753399e-06,
+      "loss": 0.3394,
+      "step": 258
+    },
+    {
+      "epoch": 0.7442528735632183,
+      "grad_norm": 1.6185859441757202,
+      "learning_rate": 3.7315286048154862e-06,
+      "loss": 0.2784,
+      "step": 259
+    },
+    {
+      "epoch": 0.7471264367816092,
+      "grad_norm": 2.6173603534698486,
+      "learning_rate": 3.6536428658703594e-06,
+      "loss": 0.3157,
+      "step": 260
+    },
+    {
+      "epoch": 0.7471264367816092,
+      "eval_accuracy": 0.8638613861386139,
+      "eval_f1": 0.7441860465116279,
+      "eval_loss": 0.31433796882629395,
+      "eval_precision": 0.7339449541284404,
+      "eval_recall": 0.7547169811320755,
+      "eval_runtime": 16.814,
+      "eval_samples_per_second": 6.304,
+      "eval_steps_per_second": 0.238,
+      "step": 260
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.565181016921997,
+      "learning_rate": 3.576396467006925e-06,
+      "loss": 0.3084,
+      "step": 261
+    },
+    {
+      "epoch": 0.7528735632183908,
+      "grad_norm": 1.734839677810669,
+      "learning_rate": 3.4997971901255588e-06,
+      "loss": 0.2717,
+      "step": 262
+    },
+    {
+      "epoch": 0.7557471264367817,
+      "grad_norm": 2.3014395236968994,
+      "learning_rate": 3.4238527519347353e-06,
+      "loss": 0.2926,
+      "step": 263
+    },
+    {
+      "epoch": 0.7586206896551724,
+      "grad_norm": 2.2998158931732178,
+      "learning_rate": 3.3485708031736698e-06,
+      "loss": 0.2919,
+      "step": 264
+    },
+    {
+      "epoch": 0.7614942528735632,
+      "grad_norm": 1.628414273262024,
+      "learning_rate": 3.2739589278415252e-06,
+      "loss": 0.2951,
+      "step": 265
+    },
+    {
+      "epoch": 0.764367816091954,
+      "grad_norm": 1.8661236763000488,
+      "learning_rate": 3.2000246424334315e-06,
+      "loss": 0.2859,
+      "step": 266
+    },
+    {
+      "epoch": 0.7672413793103449,
+      "grad_norm": 1.9966816902160645,
+      "learning_rate": 3.1267753951832523e-06,
+      "loss": 0.3339,
+      "step": 267
+    },
+    {
+      "epoch": 0.7701149425287356,
+      "grad_norm": 2.3552565574645996,
+      "learning_rate": 3.0542185653132216e-06,
+      "loss": 0.2443,
+      "step": 268
+    },
+    {
+      "epoch": 0.7729885057471264,
+      "grad_norm": 2.6835176944732666,
+      "learning_rate": 2.982361462290575e-06,
+      "loss": 0.3595,
+      "step": 269
+    },
+    {
+      "epoch": 0.7758620689655172,
+      "grad_norm": 2.2720601558685303,
+      "learning_rate": 2.9112113250911844e-06,
+      "loss": 0.3284,
+      "step": 270
+    },
+    {
+      "epoch": 0.7787356321839081,
+      "grad_norm": 2.1442339420318604,
+      "learning_rate": 2.8407753214702694e-06,
+      "loss": 0.3026,
+      "step": 271
+    },
+    {
+      "epoch": 0.7816091954022989,
+      "grad_norm": 2.52978253364563,
+      "learning_rate": 2.7710605472403373e-06,
+      "loss": 0.2599,
+      "step": 272
+    },
+    {
+      "epoch": 0.7844827586206896,
+      "grad_norm": 2.584745168685913,
+      "learning_rate": 2.702074025556327e-06,
+      "loss": 0.3211,
+      "step": 273
+    },
+    {
+      "epoch": 0.7873563218390804,
+      "grad_norm": 1.9318722486495972,
+      "learning_rate": 2.6338227062080924e-06,
+      "loss": 0.2654,
+      "step": 274
+    },
+    {
+      "epoch": 0.7902298850574713,
+      "grad_norm": 2.129678726196289,
+      "learning_rate": 2.566313464920265e-06,
+      "loss": 0.2944,
+      "step": 275
+    },
+    {
+      "epoch": 0.7931034482758621,
+      "grad_norm": 2.0152359008789062,
+      "learning_rate": 2.4995531026595952e-06,
+      "loss": 0.2912,
+      "step": 276
+    },
+    {
+      "epoch": 0.7959770114942529,
+      "grad_norm": 2.8792333602905273,
+      "learning_rate": 2.4335483449498053e-06,
+      "loss": 0.2315,
+      "step": 277
+    },
+    {
+      "epoch": 0.7988505747126436,
+      "grad_norm": 2.067209482192993,
+      "learning_rate": 2.3683058411940563e-06,
+      "loss": 0.299,
+      "step": 278
+    },
+    {
+      "epoch": 0.8017241379310345,
+      "grad_norm": 2.9557700157165527,
+      "learning_rate": 2.3038321640050763e-06,
+      "loss": 0.3056,
+      "step": 279
+    },
+    {
+      "epoch": 0.8045977011494253,
+      "grad_norm": 2.989224910736084,
+      "learning_rate": 2.2401338085430326e-06,
+      "loss": 0.291,
+      "step": 280
+    },
+    {
+      "epoch": 0.8045977011494253,
+      "eval_accuracy": 0.8638613861386139,
+      "eval_f1": 0.7441860465116279,
+      "eval_loss": 0.313725084066391,
+      "eval_precision": 0.7339449541284404,
+      "eval_recall": 0.7547169811320755,
+      "eval_runtime": 16.9214,
+      "eval_samples_per_second": 6.264,
+      "eval_steps_per_second": 0.236,
+      "step": 280
+    },
+    {
+      "epoch": 0.8074712643678161,
+      "grad_norm": 1.7180490493774414,
+      "learning_rate": 2.177217191861183e-06,
+      "loss": 0.2469,
+      "step": 281
+    },
+    {
+      "epoch": 0.8103448275862069,
+      "grad_norm": 2.1826789379119873,
+      "learning_rate": 2.115088652259446e-06,
+      "loss": 0.3332,
+      "step": 282
+    },
+    {
+      "epoch": 0.8132183908045977,
+      "grad_norm": 1.5366544723510742,
+      "learning_rate": 2.053754448645846e-06,
+      "loss": 0.228,
+      "step": 283
+    },
+    {
+      "epoch": 0.8160919540229885,
+      "grad_norm": 2.2642948627471924,
+      "learning_rate": 1.9932207599059782e-06,
+      "loss": 0.2885,
+      "step": 284
+    },
+    {
+      "epoch": 0.8189655172413793,
+      "grad_norm": 1.702837347984314,
+      "learning_rate": 1.933493684280574e-06,
+      "loss": 0.2484,
+      "step": 285
+    },
+    {
+      "epoch": 0.8218390804597702,
+      "grad_norm": 2.2830252647399902,
+      "learning_rate": 1.8745792387511241e-06,
+      "loss": 0.299,
+      "step": 286
+    },
+    {
+      "epoch": 0.8247126436781609,
+      "grad_norm": 2.5294742584228516,
+      "learning_rate": 1.8164833584337216e-06,
+      "loss": 0.28,
+      "step": 287
+    },
+    {
+      "epoch": 0.8275862068965517,
+      "grad_norm": 2.3175997734069824,
+      "learning_rate": 1.75921189598118e-06,
+      "loss": 0.3008,
+      "step": 288
+    },
+    {
+      "epoch": 0.8304597701149425,
+      "grad_norm": 2.312864065170288,
+      "learning_rate": 1.7027706209933903e-06,
+      "loss": 0.3326,
+      "step": 289
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 1.6961781978607178,
+      "learning_rate": 1.6471652194361131e-06,
+      "loss": 0.2999,
+      "step": 290
+    },
+    {
+      "epoch": 0.8362068965517241,
+      "grad_norm": 2.65458607673645,
+      "learning_rate": 1.5924012930681643e-06,
+      "loss": 0.3208,
+      "step": 291
+    },
+    {
+      "epoch": 0.8390804597701149,
+      "grad_norm": 4.437558174133301,
+      "learning_rate": 1.5384843588770626e-06,
+      "loss": 0.344,
+      "step": 292
+    },
+    {
+      "epoch": 0.8419540229885057,
+      "grad_norm": 2.285850763320923,
+      "learning_rate": 1.4854198485232696e-06,
+      "loss": 0.2467,
+      "step": 293
+    },
+    {
+      "epoch": 0.8448275862068966,
+      "grad_norm": 2.915544033050537,
+      "learning_rate": 1.433213107792991e-06,
+      "loss": 0.3635,
+      "step": 294
+    },
+    {
+      "epoch": 0.8477011494252874,
+      "grad_norm": 2.448625087738037,
+      "learning_rate": 1.3818693960596186e-06,
+      "loss": 0.3344,
+      "step": 295
+    },
+    {
+      "epoch": 0.8505747126436781,
+      "grad_norm": 2.1480016708374023,
+      "learning_rate": 1.3313938857539133e-06,
+      "loss": 0.2828,
+      "step": 296
+    },
+    {
+      "epoch": 0.853448275862069,
+      "grad_norm": 2.444200277328491,
+      "learning_rate": 1.2817916618429194e-06,
+      "loss": 0.3014,
+      "step": 297
+    },
+    {
+      "epoch": 0.8563218390804598,
+      "grad_norm": 2.8024673461914062,
+      "learning_rate": 1.2330677213177034e-06,
+      "loss": 0.2614,
+      "step": 298
+    },
+    {
+      "epoch": 0.8591954022988506,
+      "grad_norm": 3.5111196041107178,
+      "learning_rate": 1.1852269726899423e-06,
+      "loss": 0.3055,
+      "step": 299
+    },
+    {
+      "epoch": 0.8620689655172413,
+      "grad_norm": 1.937780737876892,
+      "learning_rate": 1.138274235497443e-06,
+      "loss": 0.2578,
+      "step": 300
+    },
+    {
+      "epoch": 0.8620689655172413,
+      "eval_accuracy": 0.8638613861386139,
+      "eval_f1": 0.7441860465116279,
+      "eval_loss": 0.31676626205444336,
+      "eval_precision": 0.7339449541284404,
+      "eval_recall": 0.7547169811320755,
+      "eval_runtime": 16.8256,
+      "eval_samples_per_second": 6.3,
+      "eval_steps_per_second": 0.238,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.4768839882965e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null