Training in progress, step 402, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1418 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dba8b46da36cd1da4c37b78c55be581df0ee095e65cbb8239f2a23c0a9f23b18
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c66af201cb46ea48affe25fb60a01d856a9c1e55da9025eceeb12b4646d97a3
 size 101184122

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57b3a1ec45c4bd296b690a371d320cbd885ee364d61c107e3196412b8da59811
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2e15289dd51850b5a4dbc37418946479cd95b898dc0f170f28090e10a296940
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59ee39a969e1aca1d8ab40e93cb569005c329a60cfd3c6febc1ccdf49ae60d91
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d06506b9f2dd31a09d0da656752ae957a35f8f281429519bfaef30401c384c3
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ad26784d3cc7b071c58c9c288ad8b72a7313a78575d8f75e9f52060da4b738e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3db034fd3734680c05eeb36af77b84676a988b958f10cc056cb79e17603f274
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2507015902712816,
   "eval_steps": 201,
-  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1430,6 +1430,1421 @@
       "eval_samples_per_second": 22.363,
       "eval_steps_per_second": 5.595,
       "step": 201
     }
   ],
   "logging_steps": 1,
@@ -1449,7 +2864,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.281271774373478e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5014031805425632,
   "eval_steps": 201,
+  "global_step": 402,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.363,
       "eval_steps_per_second": 5.595,
       "step": 201
+    },
+    {
+      "epoch": 0.251948861864671,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018045682064347275,
+      "loss": 0.0,
+      "step": 202
+    },
+    {
+      "epoch": 0.25319613345806047,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018020769303234962,
+      "loss": 0.0,
+      "step": 203
+    },
+    {
+      "epoch": 0.25444340505144997,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017995716184739284,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 0.2556906766448394,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017970523147270822,
+      "loss": 0.0,
+      "step": 205
+    },
+    {
+      "epoch": 0.25693794823822885,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001794519063168864,
+      "loss": 0.0,
+      "step": 206
+    },
+    {
+      "epoch": 0.25818521983161835,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001791971908129256,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 0.2594324914250078,
+      "grad_norm": NaN,
+      "learning_rate": 0.000178941089418154,
+      "loss": 0.0,
+      "step": 208
+    },
+    {
+      "epoch": 0.26067976301839724,
+      "grad_norm": NaN,
+      "learning_rate": 0.000178683606614152,
+      "loss": 0.0,
+      "step": 209
+    },
+    {
+      "epoch": 0.26192703461178674,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017842474690667344,
+      "loss": 0.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.2631743062051762,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017816451482556702,
+      "loss": 0.0,
+      "step": 211
+    },
+    {
+      "epoch": 0.2644215777985656,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001779029149246969,
+      "loss": 0.0,
+      "step": 212
+    },
+    {
+      "epoch": 0.2656688493919551,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017763995178186307,
+      "loss": 0.0,
+      "step": 213
+    },
+    {
+      "epoch": 0.26691612098534456,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017737562999872118,
+      "loss": 0.0,
+      "step": 214
+    },
+    {
+      "epoch": 0.268163392578734,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017710995420070215,
+      "loss": 0.0,
+      "step": 215
+    },
+    {
+      "epoch": 0.2694106641721235,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017684292903693102,
+      "loss": 0.0,
+      "step": 216
+    },
+    {
+      "epoch": 0.27065793576551295,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017657455918014582,
+      "loss": 0.0,
+      "step": 217
+    },
+    {
+      "epoch": 0.2719052073589024,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017630484932661559,
+      "loss": 0.0,
+      "step": 218
+    },
+    {
+      "epoch": 0.2731524789522919,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001760338041960583,
+      "loss": 0.0,
+      "step": 219
+    },
+    {
+      "epoch": 0.27439975054568133,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017576142853155838,
+      "loss": 0.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.2756470221390708,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017548772709948343,
+      "loss": 0.0,
+      "step": 221
+    },
+    {
+      "epoch": 0.2768942937324602,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001752127046894011,
+      "loss": 0.0,
+      "step": 222
+    },
+    {
+      "epoch": 0.2781415653258497,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001749363661139951,
+      "loss": 0.0,
+      "step": 223
+    },
+    {
+      "epoch": 0.27938883691923916,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017465871620898102,
+      "loss": 0.0,
+      "step": 224
+    },
+    {
+      "epoch": 0.2806361085126286,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017437975983302178,
+      "loss": 0.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.2818833801060181,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001740995018676425,
+      "loss": 0.0,
+      "step": 226
+    },
+    {
+      "epoch": 0.28313065169940754,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001738179472171452,
+      "loss": 0.0,
+      "step": 227
+    },
+    {
+      "epoch": 0.284377923292797,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017353510080852282,
+      "loss": 0.0,
+      "step": 228
+    },
+    {
+      "epoch": 0.2856251948861865,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001732509675913731,
+      "loss": 0.0,
+      "step": 229
+    },
+    {
+      "epoch": 0.2868724664795759,
+      "grad_norm": NaN,
+      "learning_rate": 0.000172965552537812,
+      "loss": 0.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.28811973807296537,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017267886064238662,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 0.28936700966635487,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017239089692198785,
+      "loss": 0.0,
+      "step": 232
+    },
+    {
+      "epoch": 0.2906142812597443,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001721016664157625,
+      "loss": 0.0,
+      "step": 233
+    },
+    {
+      "epoch": 0.29186155285313375,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017181117418502525,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 0.29310882444652325,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017151942531316988,
+      "loss": 0.0,
+      "step": 235
+    },
+    {
+      "epoch": 0.2943560960399127,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017122642490558055,
+      "loss": 0.0,
+      "step": 236
+    },
+    {
+      "epoch": 0.29560336763330214,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017093217808954232,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 0.29685063922669164,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017063669001415145,
+      "loss": 0.0,
+      "step": 238
+    },
+    {
+      "epoch": 0.2980979108200811,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017033996585022528,
+      "loss": 0.0,
+      "step": 239
+    },
+    {
+      "epoch": 0.2993451824134705,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017004201079021176,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.30059245400686,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016974283004809858,
+      "loss": 0.0,
+      "step": 241
+    },
+    {
+      "epoch": 0.30183972560024946,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016944242885932206,
+      "loss": 0.0,
+      "step": 242
+    },
+    {
+      "epoch": 0.3030869971936389,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001691408124806752,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.30433426878702835,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016883798619021608,
+      "loss": 0.0,
+      "step": 244
+    },
+    {
+      "epoch": 0.30558154038041785,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001685339552871752,
+      "loss": 0.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.3068288119738073,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016822872509186297,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.30807608356719673,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001679223009455764,
+      "loss": 0.0,
+      "step": 247
+    },
+    {
+      "epoch": 0.30932335516058623,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016761468821050585,
+      "loss": 0.0,
+      "step": 248
+    },
+    {
+      "epoch": 0.3105706267539757,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016730589226964098,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.3118178983473651,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016699591852667673,
+      "loss": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.3130651699407546,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016668477240591864,
+      "loss": 0.0,
+      "step": 251
+    },
+    {
+      "epoch": 0.31431244153414406,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016637245935218799,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.3155597131275335,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016605898483072648,
+      "loss": 0.0,
+      "step": 253
+    },
+    {
+      "epoch": 0.316806984720923,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016574435432710068,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 0.31805425631431244,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001654285733471059,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.3193015279077019,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001651116474166699,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 0.3205487995010914,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016479358208175627,
+      "loss": 0.0,
+      "step": 257
+    },
+    {
+      "epoch": 0.32179607109448083,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016447438290826733,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.32304334268787027,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016415405548194663,
+      "loss": 0.0,
+      "step": 259
+    },
+    {
+      "epoch": 0.32429061428125977,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016383260540828135,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.3255378858746492,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016351003831240415,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 0.32678515746803866,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016318635983899465,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 0.3280324290614281,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001628615756521809,
+      "loss": 0.0,
+      "step": 263
+    },
+    {
+      "epoch": 0.3292797006548176,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001625356914354399,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 0.33052697224820704,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001622087128914985,
+      "loss": 0.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.3317742438415965,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016188064574223335,
+      "loss": 0.0,
+      "step": 266
+    },
+    {
+      "epoch": 0.333021515434986,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001615514957285709,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 0.3342687870283754,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016122126861038688,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 0.33551605862176487,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016088997016640562,
+      "loss": 0.0,
+      "step": 269
+    },
+    {
+      "epoch": 0.33676333021515437,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016055760619409877,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.3380106018085438,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016022418250958385,
+      "loss": 0.0,
+      "step": 271
+    },
+    {
+      "epoch": 0.33925787340193325,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015988970494752272,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 0.34050514499532275,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015955417936101913,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 0.3417524165887122,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015921761162151653,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 0.34299968818210164,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015888000761869528,
+      "loss": 0.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.34424695977549113,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001585413732603695,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.3454942313688806,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015820171447238383,
+      "loss": 0.0,
+      "step": 277
+    },
+    {
+      "epoch": 0.34674150296227,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001578610371985096,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 0.3479887745556595,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015751934740034092,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 0.34923604614904896,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015717665105719015,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.3504833177424384,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015683295416598367,
+      "loss": 0.0,
+      "step": 281
+    },
+    {
+      "epoch": 0.3517305893358279,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015648826274115653,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.35297786092921735,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015614258281454734,
+      "loss": 0.0,
+      "step": 283
+    },
+    {
+      "epoch": 0.3542251325226068,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015579592043529292,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 0.35547240411599623,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015544828166972203,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.35671967570938573,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015509967260124964,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 0.3579669473027752,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001547500993302702,
+      "loss": 0.0,
+      "step": 287
+    },
+    {
+      "epoch": 0.3592142188961646,
+      "grad_norm": NaN,
+      "learning_rate": 0.000154399567974051,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.3604614904895541,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015404808466662508,
+      "loss": 0.0,
+      "step": 289
+    },
+    {
+      "epoch": 0.36170876208294356,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001536956555586839,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.362956033676333,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001533422868174697,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 0.3642033052697225,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015298798462666765,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 0.36545057686311194,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015263275518629754,
+      "loss": 0.0,
+      "step": 293
+    },
+    {
+      "epoch": 0.3666978484565014,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015227660471260528,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.3679451200498909,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015191953943795427,
+      "loss": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.3691923916432803,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015156156561071612,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 0.37043966323666977,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001512026894951615,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 0.37168693483005927,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015084291737135048,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 0.3729342064234487,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015048225553502244,
+      "loss": 0.0,
+      "step": 299
+    },
+    {
+      "epoch": 0.37418147801683815,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015012071029748614,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.37542874961022765,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014975828798550933,
+      "loss": 0.0,
+      "step": 301
+    },
+    {
+      "epoch": 0.3766760212036171,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014939499494120761,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 0.37792329279700654,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014903083752193397,
+      "loss": 0.0,
+      "step": 303
+    },
+    {
+      "epoch": 0.379170564390396,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001486658221001672,
+      "loss": 0.0,
+      "step": 304
+    },
+    {
+      "epoch": 0.3804178359837855,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001482999550634006,
+      "loss": 0.0,
+      "step": 305
+    },
+    {
+      "epoch": 0.3816651075771749,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001479332428140299,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 0.38291237917056437,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014756569176924153,
+      "loss": 0.0,
+      "step": 307
+    },
+    {
+      "epoch": 0.38415965076395386,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001471973083609002,
+      "loss": 0.0,
+      "step": 308
+    },
+    {
+      "epoch": 0.3854069223573433,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014682809903543632,
+      "loss": 0.0,
+      "step": 309
+    },
+    {
+      "epoch": 0.38665419395073275,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014645807025373328,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.38790146554412225,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001460872284910143,
+      "loss": 0.0,
+      "step": 311
+    },
+    {
+      "epoch": 0.3891487371375117,
+      "grad_norm": NaN,
+      "learning_rate": 0.000145715580236729,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 0.39039600873090113,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014534313199444031,
+      "loss": 0.0,
+      "step": 313
+    },
+    {
+      "epoch": 0.39164328032429063,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014496989028171012,
+      "loss": 0.0,
+      "step": 314
+    },
+    {
+      "epoch": 0.3928905519176801,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014459586162998545,
+      "loss": 0.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.3941378235110695,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014422105258448425,
+      "loss": 0.0,
+      "step": 316
+    },
+    {
+      "epoch": 0.395385095104459,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014384546970408067,
+      "loss": 0.0,
+      "step": 317
+    },
+    {
+      "epoch": 0.39663236669784846,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001434691195611905,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 0.3978796382912379,
+      "grad_norm": NaN,
+      "learning_rate": 0.000143092008741656,
+      "loss": 0.0,
+      "step": 319
+    },
+    {
+      "epoch": 0.3991269098846274,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014271414384463063,
+      "loss": 0.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.40037418147801684,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014233553148246364,
+      "loss": 0.0,
+      "step": 321
+    },
+    {
+      "epoch": 0.4016214530714063,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014195617828058446,
+      "loss": 0.0,
+      "step": 322
+    },
+    {
+      "epoch": 0.4028687246647958,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014157609087738656,
+      "loss": 0.0,
+      "step": 323
+    },
+    {
+      "epoch": 0.40411599625818523,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014119527592411146,
+      "loss": 0.0,
+      "step": 324
+    },
+    {
+      "epoch": 0.40536326785157467,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014081374008473213,
+      "loss": 0.0,
+      "step": 325
+    },
+    {
+      "epoch": 0.4066105394449641,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001404314900358366,
+      "loss": 0.0,
+      "step": 326
+    },
+    {
+      "epoch": 0.4078578110383536,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014004853246651092,
+      "loss": 0.0,
+      "step": 327
+    },
+    {
+      "epoch": 0.40910508263174306,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001396648740782224,
+      "loss": 0.0,
+      "step": 328
+    },
+    {
+      "epoch": 0.4103523542251325,
+      "grad_norm": NaN,
+      "learning_rate": 0.000139280521584702,
+      "loss": 0.0,
+      "step": 329
+    },
+    {
+      "epoch": 0.411599625818522,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013889548171182702,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.41284689741191144,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001385097611975034,
+      "loss": 0.0,
+      "step": 331
+    },
+    {
+      "epoch": 0.4140941690053009,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013812336679154777,
+      "loss": 0.0,
+      "step": 332
+    },
+    {
+      "epoch": 0.4153414405986904,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001377363052555693,
+      "loss": 0.0,
+      "step": 333
+    },
+    {
+      "epoch": 0.4165887121920798,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013734858336285162,
+      "loss": 0.0,
+      "step": 334
+    },
+    {
+      "epoch": 0.41783598378546927,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013696020789823388,
+      "loss": 0.0,
+      "step": 335
+    },
+    {
+      "epoch": 0.41908325537885877,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013657118565799236,
+      "loss": 0.0,
+      "step": 336
+    },
+    {
+      "epoch": 0.4203305269722482,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013618152344972142,
+      "loss": 0.0,
+      "step": 337
+    },
+    {
+      "epoch": 0.42157779856563765,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013579122809221432,
+      "loss": 0.0,
+      "step": 338
+    },
+    {
+      "epoch": 0.42282507015902715,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013540030641534404,
+      "loss": 0.0,
+      "step": 339
+    },
+    {
+      "epoch": 0.4240723417524166,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013500876525994354,
+      "loss": 0.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.42531961334580604,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013461661147768633,
+      "loss": 0.0,
+      "step": 341
+    },
+    {
+      "epoch": 0.42656688493919553,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013422385193096636,
+      "loss": 0.0,
+      "step": 342
+    },
+    {
+      "epoch": 0.427814156532585,
+      "grad_norm": NaN,
+      "learning_rate": 0.000133830493492778,
+      "loss": 0.0,
+      "step": 343
+    },
+    {
+      "epoch": 0.4290614281259744,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013343654304659574,
+      "loss": 0.0,
+      "step": 344
+    },
+    {
+      "epoch": 0.4303086997193639,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013304200748625377,
+      "loss": 0.0,
+      "step": 345
+    },
+    {
+      "epoch": 0.43155597131275336,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001326468937158254,
+      "loss": 0.0,
+      "step": 346
+    },
+    {
+      "epoch": 0.4328032429061428,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013225120864950217,
+      "loss": 0.0,
+      "step": 347
+    },
+    {
+      "epoch": 0.43405051449953225,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013185495921147272,
+      "loss": 0.0,
+      "step": 348
+    },
+    {
+      "epoch": 0.43529778609292175,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013145815233580192,
+      "loss": 0.0,
+      "step": 349
+    },
+    {
+      "epoch": 0.4365450576863112,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013106079496630937,
+      "loss": 0.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.43779232927970063,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013066289405644778,
+      "loss": 0.0,
+      "step": 351
+    },
+    {
+      "epoch": 0.43903960087309013,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013026445656918155,
+      "loss": 0.0,
+      "step": 352
+    },
+    {
+      "epoch": 0.4402868724664796,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012986548947686467,
+      "loss": 0.0,
+      "step": 353
+    },
+    {
+      "epoch": 0.441534144059869,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012946599976111883,
+      "loss": 0.0,
+      "step": 354
+    },
+    {
+      "epoch": 0.4427814156532585,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001290659944127113,
+      "loss": 0.0,
+      "step": 355
+    },
+    {
+      "epoch": 0.44402868724664796,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001286654804314325,
+      "loss": 0.0,
+      "step": 356
+    },
+    {
+      "epoch": 0.4452759588400374,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001282644648259735,
+      "loss": 0.0,
+      "step": 357
+    },
+    {
+      "epoch": 0.4465232304334269,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012786295461380344,
+      "loss": 0.0,
+      "step": 358
+    },
+    {
+      "epoch": 0.44777050202681634,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012746095682104669,
+      "loss": 0.0,
+      "step": 359
+    },
+    {
+      "epoch": 0.4490177736202058,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012705847848235995,
+      "loss": 0.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.4502650452135953,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012665552664080907,
+      "loss": 0.0,
+      "step": 361
+    },
+    {
+      "epoch": 0.4515123168069847,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012625210834774585,
+      "loss": 0.0,
+      "step": 362
+    },
+    {
+      "epoch": 0.45275958840037417,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012584823066268466,
+      "loss": 0.0,
+      "step": 363
+    },
+    {
+      "epoch": 0.45400685999376367,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012544390065317887,
+      "loss": 0.0,
+      "step": 364
+    },
+    {
+      "epoch": 0.4552541315871531,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012503912539469714,
+      "loss": 0.0,
+      "step": 365
+    },
+    {
+      "epoch": 0.45650140318054255,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012463391197049977,
+      "loss": 0.0,
+      "step": 366
+    },
+    {
+      "epoch": 0.457748674773932,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012422826747151444,
+      "loss": 0.0,
+      "step": 367
+    },
+    {
+      "epoch": 0.4589959463673215,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012382219899621246,
+      "loss": 0.0,
+      "step": 368
+    },
+    {
+      "epoch": 0.46024321796071094,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012341571365048442,
+      "loss": 0.0,
+      "step": 369
+    },
+    {
+      "epoch": 0.4614904895541004,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012300881854751568,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.4627377611474899,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001226015208076622,
+      "loss": 0.0,
+      "step": 371
+    },
+    {
+      "epoch": 0.4639850327408793,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001221938275583257,
+      "loss": 0.0,
+      "step": 372
+    },
+    {
+      "epoch": 0.46523230433426876,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012178574593382899,
+      "loss": 0.0,
+      "step": 373
+    },
+    {
+      "epoch": 0.46647957592765826,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001213772830752912,
+      "loss": 0.0,
+      "step": 374
+    },
+    {
+      "epoch": 0.4677268475210477,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001209684461305028,
+      "loss": 0.0,
+      "step": 375
+    },
+    {
+      "epoch": 0.46897411911443715,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012055924225380038,
+      "loss": 0.0,
+      "step": 376
+    },
+    {
+      "epoch": 0.47022139070782665,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012014967860594164,
+      "loss": 0.0,
+      "step": 377
+    },
+    {
+      "epoch": 0.4714686623012161,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011973976235398,
+      "loss": 0.0,
+      "step": 378
+    },
+    {
+      "epoch": 0.47271593389460553,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001193295006711392,
+      "loss": 0.0,
+      "step": 379
+    },
+    {
+      "epoch": 0.47396320548799503,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011891890073668763,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.4752104770813845,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011850796973581302,
+      "loss": 0.0,
+      "step": 381
+    },
+    {
+      "epoch": 0.4764577486747739,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011809671485949636,
+      "loss": 0.0,
+      "step": 382
+    },
+    {
+      "epoch": 0.4777050202681634,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011768514330438627,
+      "loss": 0.0,
+      "step": 383
+    },
+    {
+      "epoch": 0.47895229186155286,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011727326227267308,
+      "loss": 0.0,
+      "step": 384
+    },
+    {
+      "epoch": 0.4801995634549423,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011686107897196255,
+      "loss": 0.0,
+      "step": 385
+    },
+    {
+      "epoch": 0.4814468350483318,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011644860061515008,
+      "loss": 0.0,
+      "step": 386
+    },
+    {
+      "epoch": 0.48269410664172124,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011603583442029426,
+      "loss": 0.0,
+      "step": 387
+    },
+    {
+      "epoch": 0.4839413782351107,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011562278761049066,
+      "loss": 0.0,
+      "step": 388
+    },
+    {
+      "epoch": 0.48518864982850013,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011520946741374534,
+      "loss": 0.0,
+      "step": 389
+    },
+    {
+      "epoch": 0.4864359214218896,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011479588106284848,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.48768319301527907,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011438203579524778,
+      "loss": 0.0,
+      "step": 391
+    },
+    {
+      "epoch": 0.4889304646086685,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011396793885292165,
+      "loss": 0.0,
+      "step": 392
+    },
+    {
+      "epoch": 0.490177736202058,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011355359748225279,
+      "loss": 0.0,
+      "step": 393
+    },
+    {
+      "epoch": 0.49142500779544745,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011313901893390113,
+      "loss": 0.0,
+      "step": 394
+    },
+    {
+      "epoch": 0.4926722793888369,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011272421046267696,
+      "loss": 0.0,
+      "step": 395
+    },
+    {
+      "epoch": 0.4939195509822264,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011230917932741418,
+      "loss": 0.0,
+      "step": 396
+    },
+    {
+      "epoch": 0.49516682257561584,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011189393279084308,
+      "loss": 0.0,
+      "step": 397
+    },
+    {
+      "epoch": 0.4964140941690053,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011147847811946328,
+      "loss": 0.0,
+      "step": 398
+    },
+    {
+      "epoch": 0.4976613657623948,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011106282258341665,
+      "loss": 0.0,
+      "step": 399
+    },
+    {
+      "epoch": 0.4989086373557842,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011064697345636002,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.5001559089491737,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011023093801533785,
+      "loss": 0.0,
+      "step": 401
+    },
+    {
+      "epoch": 0.5014031805425632,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010981472354065514,
+      "loss": 0.0,
+      "step": 402
+    },
+    {
+      "epoch": 0.5014031805425632,
+      "eval_loss": NaN,
+      "eval_runtime": 60.5505,
+      "eval_samples_per_second": 22.312,
+      "eval_steps_per_second": 5.582,
+      "step": 402
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.655997012513915e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null