Training in progress, step 603, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1418 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c66af201cb46ea48affe25fb60a01d856a9c1e55da9025eceeb12b4646d97a3
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:816c4df0d8b8e012e0f09ffc6fdf9ccdccf3e7710fcab9b3c9e32dc9253071c0
 size 101184122

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2e15289dd51850b5a4dbc37418946479cd95b898dc0f170f28090e10a296940
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:be613d3fe8e245e7abd0f538f5bdef3d1876d27be56d06ed45314f9b72f85fde
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d06506b9f2dd31a09d0da656752ae957a35f8f281429519bfaef30401c384c3
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:a47fc2ac671fb35eea71ae222e402f44674cb96ad093aaf574572f31279bbbfa
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3db034fd3734680c05eeb36af77b84676a988b958f10cc056cb79e17603f274
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7664ab897ed124bbeb09cf4530c0e76a35f6774388ff7703c1e60c754fa9fc97
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5014031805425632,
   "eval_steps": 201,
-  "global_step": 402,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2845,6 +2845,1421 @@
       "eval_samples_per_second": 22.312,
       "eval_steps_per_second": 5.582,
       "step": 402
     }
   ],
   "logging_steps": 1,
@@ -2864,7 +4279,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.655997012513915e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7521047708138447,
   "eval_steps": 201,
+  "global_step": 603,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.312,
       "eval_steps_per_second": 5.582,
       "step": 402
+    },
+    {
+      "epoch": 0.5026504521359526,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010939833731574967,
+      "loss": 0.0,
+      "step": 403
+    },
+    {
+      "epoch": 0.503897723729342,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010898178662706471,
+      "loss": 0.0,
+      "step": 404
+    },
+    {
+      "epoch": 0.5051449953227315,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010856507876392166,
+      "loss": 0.0,
+      "step": 405
+    },
+    {
+      "epoch": 0.5063922669161209,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010814822101839224,
+      "loss": 0.0,
+      "step": 406
+    },
+    {
+      "epoch": 0.5076395385095105,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010773122068517103,
+      "loss": 0.0,
+      "step": 407
+    },
+    {
+      "epoch": 0.5088868101028999,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010731408506144782,
+      "loss": 0.0,
+      "step": 408
+    },
+    {
+      "epoch": 0.5101340816962894,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010689682144677983,
+      "loss": 0.0,
+      "step": 409
+    },
+    {
+      "epoch": 0.5113813532896788,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010647943714296405,
+      "loss": 0.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.5126286248830683,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010606193945390943,
+      "loss": 0.0,
+      "step": 411
+    },
+    {
+      "epoch": 0.5138758964764577,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010564433568550909,
+      "loss": 0.0,
+      "step": 412
+    },
+    {
+      "epoch": 0.5151231680698473,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010522663314551247,
+      "loss": 0.0,
+      "step": 413
+    },
+    {
+      "epoch": 0.5163704396632367,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010480883914339736,
+      "loss": 0.0,
+      "step": 414
+    },
+    {
+      "epoch": 0.5176177112566261,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001043909609902422,
+      "loss": 0.0,
+      "step": 415
+    },
+    {
+      "epoch": 0.5188649828500156,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010397300599859785,
+      "loss": 0.0,
+      "step": 416
+    },
+    {
+      "epoch": 0.520112254443405,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010355498148235996,
+      "loss": 0.0,
+      "step": 417
+    },
+    {
+      "epoch": 0.5213595260367945,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010313689475664063,
+      "loss": 0.0,
+      "step": 418
+    },
+    {
+      "epoch": 0.522606797630184,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001027187531376407,
+      "loss": 0.0,
+      "step": 419
+    },
+    {
+      "epoch": 0.5238540692235735,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010230056394252161,
+      "loss": 0.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.5251013408169629,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010188233448927724,
+      "loss": 0.0,
+      "step": 421
+    },
+    {
+      "epoch": 0.5263486124103524,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010146407209660607,
+      "loss": 0.0,
+      "step": 422
+    },
+    {
+      "epoch": 0.5275958840037418,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010104578408378289,
+      "loss": 0.0,
+      "step": 423
+    },
+    {
+      "epoch": 0.5288431555971312,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010062747777053094,
+      "loss": 0.0,
+      "step": 424
+    },
+    {
+      "epoch": 0.5300904271905207,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010020916047689358,
+      "loss": 0.0,
+      "step": 425
+    },
+    {
+      "epoch": 0.5313376987839102,
+      "grad_norm": NaN,
+      "learning_rate": 9.979083952310643e-05,
+      "loss": 0.0,
+      "step": 426
+    },
+    {
+      "epoch": 0.5325849703772997,
+      "grad_norm": NaN,
+      "learning_rate": 9.937252222946908e-05,
+      "loss": 0.0,
+      "step": 427
+    },
+    {
+      "epoch": 0.5338322419706891,
+      "grad_norm": NaN,
+      "learning_rate": 9.895421591621712e-05,
+      "loss": 0.0,
+      "step": 428
+    },
+    {
+      "epoch": 0.5350795135640786,
+      "grad_norm": NaN,
+      "learning_rate": 9.853592790339396e-05,
+      "loss": 0.0,
+      "step": 429
+    },
+    {
+      "epoch": 0.536326785157468,
+      "grad_norm": NaN,
+      "learning_rate": 9.811766551072278e-05,
+      "loss": 0.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.5375740567508575,
+      "grad_norm": NaN,
+      "learning_rate": 9.769943605747844e-05,
+      "loss": 0.0,
+      "step": 431
+    },
+    {
+      "epoch": 0.538821328344247,
+      "grad_norm": NaN,
+      "learning_rate": 9.72812468623593e-05,
+      "loss": 0.0,
+      "step": 432
+    },
+    {
+      "epoch": 0.5400685999376365,
+      "grad_norm": NaN,
+      "learning_rate": 9.686310524335938e-05,
+      "loss": 0.0,
+      "step": 433
+    },
+    {
+      "epoch": 0.5413158715310259,
+      "grad_norm": NaN,
+      "learning_rate": 9.644501851764007e-05,
+      "loss": 0.0,
+      "step": 434
+    },
+    {
+      "epoch": 0.5425631431244153,
+      "grad_norm": NaN,
+      "learning_rate": 9.602699400140218e-05,
+      "loss": 0.0,
+      "step": 435
+    },
+    {
+      "epoch": 0.5438104147178048,
+      "grad_norm": NaN,
+      "learning_rate": 9.560903900975785e-05,
+      "loss": 0.0,
+      "step": 436
+    },
+    {
+      "epoch": 0.5450576863111942,
+      "grad_norm": NaN,
+      "learning_rate": 9.519116085660267e-05,
+      "loss": 0.0,
+      "step": 437
+    },
+    {
+      "epoch": 0.5463049579045838,
+      "grad_norm": NaN,
+      "learning_rate": 9.477336685448754e-05,
+      "loss": 0.0,
+      "step": 438
+    },
+    {
+      "epoch": 0.5475522294979732,
+      "grad_norm": NaN,
+      "learning_rate": 9.435566431449092e-05,
+      "loss": 0.0,
+      "step": 439
+    },
+    {
+      "epoch": 0.5487995010913627,
+      "grad_norm": NaN,
+      "learning_rate": 9.39380605460906e-05,
+      "loss": 0.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.5500467726847521,
+      "grad_norm": NaN,
+      "learning_rate": 9.352056285703599e-05,
+      "loss": 0.0,
+      "step": 441
+    },
+    {
+      "epoch": 0.5512940442781415,
+      "grad_norm": NaN,
+      "learning_rate": 9.31031785532202e-05,
+      "loss": 0.0,
+      "step": 442
+    },
+    {
+      "epoch": 0.552541315871531,
+      "grad_norm": NaN,
+      "learning_rate": 9.268591493855222e-05,
+      "loss": 0.0,
+      "step": 443
+    },
+    {
+      "epoch": 0.5537885874649204,
+      "grad_norm": NaN,
+      "learning_rate": 9.226877931482898e-05,
+      "loss": 0.0,
+      "step": 444
+    },
+    {
+      "epoch": 0.55503585905831,
+      "grad_norm": NaN,
+      "learning_rate": 9.18517789816078e-05,
+      "loss": 0.0,
+      "step": 445
+    },
+    {
+      "epoch": 0.5562831306516994,
+      "grad_norm": NaN,
+      "learning_rate": 9.143492123607838e-05,
+      "loss": 0.0,
+      "step": 446
+    },
+    {
+      "epoch": 0.5575304022450889,
+      "grad_norm": NaN,
+      "learning_rate": 9.101821337293532e-05,
+      "loss": 0.0,
+      "step": 447
+    },
+    {
+      "epoch": 0.5587776738384783,
+      "grad_norm": NaN,
+      "learning_rate": 9.060166268425038e-05,
+      "loss": 0.0,
+      "step": 448
+    },
+    {
+      "epoch": 0.5600249454318678,
+      "grad_norm": NaN,
+      "learning_rate": 9.018527645934488e-05,
+      "loss": 0.0,
+      "step": 449
+    },
+    {
+      "epoch": 0.5612722170252572,
+      "grad_norm": NaN,
+      "learning_rate": 8.976906198466213e-05,
+      "loss": 0.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.5625194886186468,
+      "grad_norm": NaN,
+      "learning_rate": 8.935302654364e-05,
+      "loss": 0.0,
+      "step": 451
+    },
+    {
+      "epoch": 0.5637667602120362,
+      "grad_norm": NaN,
+      "learning_rate": 8.893717741658336e-05,
+      "loss": 0.0,
+      "step": 452
+    },
+    {
+      "epoch": 0.5650140318054256,
+      "grad_norm": NaN,
+      "learning_rate": 8.852152188053674e-05,
+      "loss": 0.0,
+      "step": 453
+    },
+    {
+      "epoch": 0.5662613033988151,
+      "grad_norm": NaN,
+      "learning_rate": 8.810606720915697e-05,
+      "loss": 0.0,
+      "step": 454
+    },
+    {
+      "epoch": 0.5675085749922045,
+      "grad_norm": NaN,
+      "learning_rate": 8.769082067258585e-05,
+      "loss": 0.0,
+      "step": 455
+    },
+    {
+      "epoch": 0.568755846585594,
+      "grad_norm": NaN,
+      "learning_rate": 8.727578953732303e-05,
+      "loss": 0.0,
+      "step": 456
+    },
+    {
+      "epoch": 0.5700031181789835,
+      "grad_norm": NaN,
+      "learning_rate": 8.686098106609889e-05,
+      "loss": 0.0,
+      "step": 457
+    },
+    {
+      "epoch": 0.571250389772373,
+      "grad_norm": NaN,
+      "learning_rate": 8.644640251774722e-05,
+      "loss": 0.0,
+      "step": 458
+    },
+    {
+      "epoch": 0.5724976613657624,
+      "grad_norm": NaN,
+      "learning_rate": 8.603206114707837e-05,
+      "loss": 0.0,
+      "step": 459
+    },
+    {
+      "epoch": 0.5737449329591519,
+      "grad_norm": NaN,
+      "learning_rate": 8.561796420475227e-05,
+      "loss": 0.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.5749922045525413,
+      "grad_norm": NaN,
+      "learning_rate": 8.52041189371515e-05,
+      "loss": 0.0,
+      "step": 461
+    },
+    {
+      "epoch": 0.5762394761459307,
+      "grad_norm": NaN,
+      "learning_rate": 8.479053258625467e-05,
+      "loss": 0.0,
+      "step": 462
+    },
+    {
+      "epoch": 0.5774867477393202,
+      "grad_norm": NaN,
+      "learning_rate": 8.437721238950938e-05,
+      "loss": 0.0,
+      "step": 463
+    },
+    {
+      "epoch": 0.5787340193327097,
+      "grad_norm": NaN,
+      "learning_rate": 8.396416557970576e-05,
+      "loss": 0.0,
+      "step": 464
+    },
+    {
+      "epoch": 0.5799812909260992,
+      "grad_norm": NaN,
+      "learning_rate": 8.355139938484995e-05,
+      "loss": 0.0,
+      "step": 465
+    },
+    {
+      "epoch": 0.5812285625194886,
+      "grad_norm": NaN,
+      "learning_rate": 8.313892102803749e-05,
+      "loss": 0.0,
+      "step": 466
+    },
+    {
+      "epoch": 0.5824758341128781,
+      "grad_norm": NaN,
+      "learning_rate": 8.272673772732695e-05,
+      "loss": 0.0,
+      "step": 467
+    },
+    {
+      "epoch": 0.5837231057062675,
+      "grad_norm": NaN,
+      "learning_rate": 8.231485669561371e-05,
+      "loss": 0.0,
+      "step": 468
+    },
+    {
+      "epoch": 0.584970377299657,
+      "grad_norm": NaN,
+      "learning_rate": 8.190328514050365e-05,
+      "loss": 0.0,
+      "step": 469
+    },
+    {
+      "epoch": 0.5862176488930465,
+      "grad_norm": NaN,
+      "learning_rate": 8.1492030264187e-05,
+      "loss": 0.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.587464920486436,
+      "grad_norm": NaN,
+      "learning_rate": 8.108109926331238e-05,
+      "loss": 0.0,
+      "step": 471
+    },
+    {
+      "epoch": 0.5887121920798254,
+      "grad_norm": NaN,
+      "learning_rate": 8.067049932886084e-05,
+      "loss": 0.0,
+      "step": 472
+    },
+    {
+      "epoch": 0.5899594636732148,
+      "grad_norm": NaN,
+      "learning_rate": 8.026023764601999e-05,
+      "loss": 0.0,
+      "step": 473
+    },
+    {
+      "epoch": 0.5912067352666043,
+      "grad_norm": NaN,
+      "learning_rate": 7.985032139405836e-05,
+      "loss": 0.0,
+      "step": 474
+    },
+    {
+      "epoch": 0.5924540068599937,
+      "grad_norm": NaN,
+      "learning_rate": 7.944075774619963e-05,
+      "loss": 0.0,
+      "step": 475
+    },
+    {
+      "epoch": 0.5937012784533833,
+      "grad_norm": NaN,
+      "learning_rate": 7.903155386949723e-05,
+      "loss": 0.0,
+      "step": 476
+    },
+    {
+      "epoch": 0.5949485500467727,
+      "grad_norm": NaN,
+      "learning_rate": 7.862271692470884e-05,
+      "loss": 0.0,
+      "step": 477
+    },
+    {
+      "epoch": 0.5961958216401622,
+      "grad_norm": NaN,
+      "learning_rate": 7.821425406617106e-05,
+      "loss": 0.0,
+      "step": 478
+    },
+    {
+      "epoch": 0.5974430932335516,
+      "grad_norm": NaN,
+      "learning_rate": 7.780617244167432e-05,
+      "loss": 0.0,
+      "step": 479
+    },
+    {
+      "epoch": 0.598690364826941,
+      "grad_norm": NaN,
+      "learning_rate": 7.739847919233781e-05,
+      "loss": 0.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.5999376364203305,
+      "grad_norm": NaN,
+      "learning_rate": 7.699118145248434e-05,
+      "loss": 0.0,
+      "step": 481
+    },
+    {
+      "epoch": 0.60118490801372,
+      "grad_norm": NaN,
+      "learning_rate": 7.658428634951562e-05,
+      "loss": 0.0,
+      "step": 482
+    },
+    {
+      "epoch": 0.6024321796071095,
+      "grad_norm": NaN,
+      "learning_rate": 7.617780100378756e-05,
+      "loss": 0.0,
+      "step": 483
+    },
+    {
+      "epoch": 0.6036794512004989,
+      "grad_norm": NaN,
+      "learning_rate": 7.57717325284856e-05,
+      "loss": 0.0,
+      "step": 484
+    },
+    {
+      "epoch": 0.6049267227938884,
+      "grad_norm": NaN,
+      "learning_rate": 7.536608802950027e-05,
+      "loss": 0.0,
+      "step": 485
+    },
+    {
+      "epoch": 0.6061739943872778,
+      "grad_norm": NaN,
+      "learning_rate": 7.496087460530285e-05,
+      "loss": 0.0,
+      "step": 486
+    },
+    {
+      "epoch": 0.6074212659806673,
+      "grad_norm": NaN,
+      "learning_rate": 7.455609934682116e-05,
+      "loss": 0.0,
+      "step": 487
+    },
+    {
+      "epoch": 0.6086685375740567,
+      "grad_norm": NaN,
+      "learning_rate": 7.415176933731536e-05,
+      "loss": 0.0,
+      "step": 488
+    },
+    {
+      "epoch": 0.6099158091674463,
+      "grad_norm": NaN,
+      "learning_rate": 7.374789165225416e-05,
+      "loss": 0.0,
+      "step": 489
+    },
+    {
+      "epoch": 0.6111630807608357,
+      "grad_norm": NaN,
+      "learning_rate": 7.334447335919096e-05,
+      "loss": 0.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.6124103523542251,
+      "grad_norm": NaN,
+      "learning_rate": 7.294152151764006e-05,
+      "loss": 0.0,
+      "step": 491
+    },
+    {
+      "epoch": 0.6136576239476146,
+      "grad_norm": NaN,
+      "learning_rate": 7.253904317895332e-05,
+      "loss": 0.0,
+      "step": 492
+    },
+    {
+      "epoch": 0.614904895541004,
+      "grad_norm": NaN,
+      "learning_rate": 7.21370453861966e-05,
+      "loss": 0.0,
+      "step": 493
+    },
+    {
+      "epoch": 0.6161521671343935,
+      "grad_norm": NaN,
+      "learning_rate": 7.173553517402652e-05,
+      "loss": 0.0,
+      "step": 494
+    },
+    {
+      "epoch": 0.617399438727783,
+      "grad_norm": NaN,
+      "learning_rate": 7.133451956856751e-05,
+      "loss": 0.0,
+      "step": 495
+    },
+    {
+      "epoch": 0.6186467103211725,
+      "grad_norm": NaN,
+      "learning_rate": 7.093400558728871e-05,
+      "loss": 0.0,
+      "step": 496
+    },
+    {
+      "epoch": 0.6198939819145619,
+      "grad_norm": NaN,
+      "learning_rate": 7.053400023888115e-05,
+      "loss": 0.0,
+      "step": 497
+    },
+    {
+      "epoch": 0.6211412535079514,
+      "grad_norm": NaN,
+      "learning_rate": 7.013451052313534e-05,
+      "loss": 0.0,
+      "step": 498
+    },
+    {
+      "epoch": 0.6223885251013408,
+      "grad_norm": NaN,
+      "learning_rate": 6.973554343081846e-05,
+      "loss": 0.0,
+      "step": 499
+    },
+    {
+      "epoch": 0.6236357966947302,
+      "grad_norm": NaN,
+      "learning_rate": 6.933710594355225e-05,
+      "loss": 0.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.6248830682881198,
+      "grad_norm": NaN,
+      "learning_rate": 6.893920503369068e-05,
+      "loss": 0.0,
+      "step": 501
+    },
+    {
+      "epoch": 0.6261303398815092,
+      "grad_norm": NaN,
+      "learning_rate": 6.854184766419812e-05,
+      "loss": 0.0,
+      "step": 502
+    },
+    {
+      "epoch": 0.6273776114748987,
+      "grad_norm": NaN,
+      "learning_rate": 6.814504078852729e-05,
+      "loss": 0.0,
+      "step": 503
+    },
+    {
+      "epoch": 0.6286248830682881,
+      "grad_norm": NaN,
+      "learning_rate": 6.774879135049787e-05,
+      "loss": 0.0,
+      "step": 504
+    },
+    {
+      "epoch": 0.6298721546616776,
+      "grad_norm": NaN,
+      "learning_rate": 6.735310628417461e-05,
+      "loss": 0.0,
+      "step": 505
+    },
+    {
+      "epoch": 0.631119426255067,
+      "grad_norm": NaN,
+      "learning_rate": 6.695799251374625e-05,
+      "loss": 0.0,
+      "step": 506
+    },
+    {
+      "epoch": 0.6323666978484564,
+      "grad_norm": NaN,
+      "learning_rate": 6.656345695340431e-05,
+      "loss": 0.0,
+      "step": 507
+    },
+    {
+      "epoch": 0.633613969441846,
+      "grad_norm": NaN,
+      "learning_rate": 6.616950650722205e-05,
+      "loss": 0.0,
+      "step": 508
+    },
+    {
+      "epoch": 0.6348612410352354,
+      "grad_norm": NaN,
+      "learning_rate": 6.577614806903365e-05,
+      "loss": 0.0,
+      "step": 509
+    },
+    {
+      "epoch": 0.6361085126286249,
+      "grad_norm": NaN,
+      "learning_rate": 6.538338852231367e-05,
+      "loss": 0.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.6373557842220143,
+      "grad_norm": NaN,
+      "learning_rate": 6.499123474005647e-05,
+      "loss": 0.0,
+      "step": 511
+    },
+    {
+      "epoch": 0.6386030558154038,
+      "grad_norm": NaN,
+      "learning_rate": 6.4599693584656e-05,
+      "loss": 0.0,
+      "step": 512
+    },
+    {
+      "epoch": 0.6398503274087932,
+      "grad_norm": NaN,
+      "learning_rate": 6.420877190778569e-05,
+      "loss": 0.0,
+      "step": 513
+    },
+    {
+      "epoch": 0.6410975990021828,
+      "grad_norm": NaN,
+      "learning_rate": 6.381847655027864e-05,
+      "loss": 0.0,
+      "step": 514
+    },
+    {
+      "epoch": 0.6423448705955722,
+      "grad_norm": NaN,
+      "learning_rate": 6.342881434200765e-05,
+      "loss": 0.0,
+      "step": 515
+    },
+    {
+      "epoch": 0.6435921421889617,
+      "grad_norm": NaN,
+      "learning_rate": 6.303979210176614e-05,
+      "loss": 0.0,
+      "step": 516
+    },
+    {
+      "epoch": 0.6448394137823511,
+      "grad_norm": NaN,
+      "learning_rate": 6.26514166371484e-05,
+      "loss": 0.0,
+      "step": 517
+    },
+    {
+      "epoch": 0.6460866853757405,
+      "grad_norm": NaN,
+      "learning_rate": 6.226369474443072e-05,
+      "loss": 0.0,
+      "step": 518
+    },
+    {
+      "epoch": 0.64733395696913,
+      "grad_norm": NaN,
+      "learning_rate": 6.18766332084523e-05,
+      "loss": 0.0,
+      "step": 519
+    },
+    {
+      "epoch": 0.6485812285625195,
+      "grad_norm": NaN,
+      "learning_rate": 6.149023880249665e-05,
+      "loss": 0.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.649828500155909,
+      "grad_norm": NaN,
+      "learning_rate": 6.110451828817298e-05,
+      "loss": 0.0,
+      "step": 521
+    },
+    {
+      "epoch": 0.6510757717492984,
+      "grad_norm": NaN,
+      "learning_rate": 6.071947841529801e-05,
+      "loss": 0.0,
+      "step": 522
+    },
+    {
+      "epoch": 0.6523230433426879,
+      "grad_norm": NaN,
+      "learning_rate": 6.03351259217776e-05,
+      "loss": 0.0,
+      "step": 523
+    },
+    {
+      "epoch": 0.6535703149360773,
+      "grad_norm": NaN,
+      "learning_rate": 5.995146753348909e-05,
+      "loss": 0.0,
+      "step": 524
+    },
+    {
+      "epoch": 0.6548175865294668,
+      "grad_norm": NaN,
+      "learning_rate": 5.9568509964163464e-05,
+      "loss": 0.0,
+      "step": 525
+    },
+    {
+      "epoch": 0.6560648581228562,
+      "grad_norm": NaN,
+      "learning_rate": 5.9186259915267916e-05,
+      "loss": 0.0,
+      "step": 526
+    },
+    {
+      "epoch": 0.6573121297162458,
+      "grad_norm": NaN,
+      "learning_rate": 5.880472407588857e-05,
+      "loss": 0.0,
+      "step": 527
+    },
+    {
+      "epoch": 0.6585594013096352,
+      "grad_norm": NaN,
+      "learning_rate": 5.842390912261344e-05,
+      "loss": 0.0,
+      "step": 528
+    },
+    {
+      "epoch": 0.6598066729030246,
+      "grad_norm": NaN,
+      "learning_rate": 5.8043821719415534e-05,
+      "loss": 0.0,
+      "step": 529
+    },
+    {
+      "epoch": 0.6610539444964141,
+      "grad_norm": NaN,
+      "learning_rate": 5.7664468517536395e-05,
+      "loss": 0.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.6623012160898035,
+      "grad_norm": NaN,
+      "learning_rate": 5.728585615536946e-05,
+      "loss": 0.0,
+      "step": 531
+    },
+    {
+      "epoch": 0.663548487683193,
+      "grad_norm": NaN,
+      "learning_rate": 5.6907991258344e-05,
+      "loss": 0.0,
+      "step": 532
+    },
+    {
+      "epoch": 0.6647957592765825,
+      "grad_norm": NaN,
+      "learning_rate": 5.6530880438809494e-05,
+      "loss": 0.0,
+      "step": 533
+    },
+    {
+      "epoch": 0.666043030869972,
+      "grad_norm": NaN,
+      "learning_rate": 5.615453029591935e-05,
+      "loss": 0.0,
+      "step": 534
+    },
+    {
+      "epoch": 0.6672903024633614,
+      "grad_norm": NaN,
+      "learning_rate": 5.5778947415515784e-05,
+      "loss": 0.0,
+      "step": 535
+    },
+    {
+      "epoch": 0.6685375740567508,
+      "grad_norm": NaN,
+      "learning_rate": 5.540413837001459e-05,
+      "loss": 0.0,
+      "step": 536
+    },
+    {
+      "epoch": 0.6697848456501403,
+      "grad_norm": NaN,
+      "learning_rate": 5.50301097182899e-05,
+      "loss": 0.0,
+      "step": 537
+    },
+    {
+      "epoch": 0.6710321172435297,
+      "grad_norm": NaN,
+      "learning_rate": 5.465686800555967e-05,
+      "loss": 0.0,
+      "step": 538
+    },
+    {
+      "epoch": 0.6722793888369193,
+      "grad_norm": NaN,
+      "learning_rate": 5.4284419763271e-05,
+      "loss": 0.0,
+      "step": 539
+    },
+    {
+      "epoch": 0.6735266604303087,
+      "grad_norm": NaN,
+      "learning_rate": 5.391277150898575e-05,
+      "loss": 0.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.6747739320236982,
+      "grad_norm": NaN,
+      "learning_rate": 5.354192974626674e-05,
+      "loss": 0.0,
+      "step": 541
+    },
+    {
+      "epoch": 0.6760212036170876,
+      "grad_norm": NaN,
+      "learning_rate": 5.317190096456368e-05,
+      "loss": 0.0,
+      "step": 542
+    },
+    {
+      "epoch": 0.6772684752104771,
+      "grad_norm": NaN,
+      "learning_rate": 5.2802691639099834e-05,
+      "loss": 0.0,
+      "step": 543
+    },
+    {
+      "epoch": 0.6785157468038665,
+      "grad_norm": NaN,
+      "learning_rate": 5.24343082307585e-05,
+      "loss": 0.0,
+      "step": 544
+    },
+    {
+      "epoch": 0.679763018397256,
+      "grad_norm": NaN,
+      "learning_rate": 5.206675718597012e-05,
+      "loss": 0.0,
+      "step": 545
+    },
+    {
+      "epoch": 0.6810102899906455,
+      "grad_norm": NaN,
+      "learning_rate": 5.1700044936599434e-05,
+      "loss": 0.0,
+      "step": 546
+    },
+    {
+      "epoch": 0.6822575615840349,
+      "grad_norm": NaN,
+      "learning_rate": 5.133417789983277e-05,
+      "loss": 0.0,
+      "step": 547
+    },
+    {
+      "epoch": 0.6835048331774244,
+      "grad_norm": NaN,
+      "learning_rate": 5.0969162478066055e-05,
+      "loss": 0.0,
+      "step": 548
+    },
+    {
+      "epoch": 0.6847521047708138,
+      "grad_norm": NaN,
+      "learning_rate": 5.060500505879244e-05,
+      "loss": 0.0,
+      "step": 549
+    },
+    {
+      "epoch": 0.6859993763642033,
+      "grad_norm": NaN,
+      "learning_rate": 5.0241712014490684e-05,
+      "loss": 0.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.6872466479575927,
+      "grad_norm": NaN,
+      "learning_rate": 4.9879289702513845e-05,
+      "loss": 0.0,
+      "step": 551
+    },
+    {
+      "epoch": 0.6884939195509823,
+      "grad_norm": NaN,
+      "learning_rate": 4.95177444649776e-05,
+      "loss": 0.0,
+      "step": 552
+    },
+    {
+      "epoch": 0.6897411911443717,
+      "grad_norm": NaN,
+      "learning_rate": 4.9157082628649545e-05,
+      "loss": 0.0,
+      "step": 553
+    },
+    {
+      "epoch": 0.6909884627377612,
+      "grad_norm": NaN,
+      "learning_rate": 4.87973105048385e-05,
+      "loss": 0.0,
+      "step": 554
+    },
+    {
+      "epoch": 0.6922357343311506,
+      "grad_norm": NaN,
+      "learning_rate": 4.8438434389283895e-05,
+      "loss": 0.0,
+      "step": 555
+    },
+    {
+      "epoch": 0.69348300592454,
+      "grad_norm": NaN,
+      "learning_rate": 4.8080460562045736e-05,
+      "loss": 0.0,
+      "step": 556
+    },
+    {
+      "epoch": 0.6947302775179295,
+      "grad_norm": NaN,
+      "learning_rate": 4.7723395287394746e-05,
+      "loss": 0.0,
+      "step": 557
+    },
+    {
+      "epoch": 0.695977549111319,
+      "grad_norm": NaN,
+      "learning_rate": 4.736724481370248e-05,
+      "loss": 0.0,
+      "step": 558
+    },
+    {
+      "epoch": 0.6972248207047085,
+      "grad_norm": NaN,
+      "learning_rate": 4.701201537333237e-05,
+      "loss": 0.0,
+      "step": 559
+    },
+    {
+      "epoch": 0.6984720922980979,
+      "grad_norm": NaN,
+      "learning_rate": 4.6657713182530316e-05,
+      "loss": 0.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.6997193638914874,
+      "grad_norm": NaN,
+      "learning_rate": 4.630434444131615e-05,
+      "loss": 0.0,
+      "step": 561
+    },
+    {
+      "epoch": 0.7009666354848768,
+      "grad_norm": NaN,
+      "learning_rate": 4.595191533337494e-05,
+      "loss": 0.0,
+      "step": 562
+    },
+    {
+      "epoch": 0.7022139070782663,
+      "grad_norm": NaN,
+      "learning_rate": 4.560043202594899e-05,
+      "loss": 0.0,
+      "step": 563
+    },
+    {
+      "epoch": 0.7034611786716558,
+      "grad_norm": NaN,
+      "learning_rate": 4.524990066972982e-05,
+      "loss": 0.0,
+      "step": 564
+    },
+    {
+      "epoch": 0.7047084502650452,
+      "grad_norm": NaN,
+      "learning_rate": 4.4900327398750363e-05,
+      "loss": 0.0,
+      "step": 565
+    },
+    {
+      "epoch": 0.7059557218584347,
+      "grad_norm": NaN,
+      "learning_rate": 4.4551718330278006e-05,
+      "loss": 0.0,
+      "step": 566
+    },
+    {
+      "epoch": 0.7072029934518241,
+      "grad_norm": NaN,
+      "learning_rate": 4.4204079564707144e-05,
+      "loss": 0.0,
+      "step": 567
+    },
+    {
+      "epoch": 0.7084502650452136,
+      "grad_norm": NaN,
+      "learning_rate": 4.3857417185452644e-05,
+      "loss": 0.0,
+      "step": 568
+    },
+    {
+      "epoch": 0.709697536638603,
+      "grad_norm": NaN,
+      "learning_rate": 4.351173725884351e-05,
+      "loss": 0.0,
+      "step": 569
+    },
+    {
+      "epoch": 0.7109448082319925,
+      "grad_norm": NaN,
+      "learning_rate": 4.3167045834016326e-05,
+      "loss": 0.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.712192079825382,
+      "grad_norm": NaN,
+      "learning_rate": 4.282334894280986e-05,
+      "loss": 0.0,
+      "step": 571
+    },
+    {
+      "epoch": 0.7134393514187715,
+      "grad_norm": NaN,
+      "learning_rate": 4.2480652599659154e-05,
+      "loss": 0.0,
+      "step": 572
+    },
+    {
+      "epoch": 0.7146866230121609,
+      "grad_norm": NaN,
+      "learning_rate": 4.213896280149041e-05,
+      "loss": 0.0,
+      "step": 573
+    },
+    {
+      "epoch": 0.7159338946055503,
+      "grad_norm": NaN,
+      "learning_rate": 4.179828552761617e-05,
+      "loss": 0.0,
+      "step": 574
+    },
+    {
+      "epoch": 0.7171811661989398,
+      "grad_norm": NaN,
+      "learning_rate": 4.1458626739630526e-05,
+      "loss": 0.0,
+      "step": 575
+    },
+    {
+      "epoch": 0.7184284377923292,
+      "grad_norm": NaN,
+      "learning_rate": 4.1119992381304754e-05,
+      "loss": 0.0,
+      "step": 576
+    },
+    {
+      "epoch": 0.7196757093857188,
+      "grad_norm": NaN,
+      "learning_rate": 4.078238837848352e-05,
+      "loss": 0.0,
+      "step": 577
+    },
+    {
+      "epoch": 0.7209229809791082,
+      "grad_norm": NaN,
+      "learning_rate": 4.04458206389809e-05,
+      "loss": 0.0,
+      "step": 578
+    },
+    {
+      "epoch": 0.7221702525724977,
+      "grad_norm": NaN,
+      "learning_rate": 4.011029505247732e-05,
+      "loss": 0.0,
+      "step": 579
+    },
+    {
+      "epoch": 0.7234175241658871,
+      "grad_norm": NaN,
+      "learning_rate": 3.977581749041616e-05,
+      "loss": 0.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.7246647957592766,
+      "grad_norm": NaN,
+      "learning_rate": 3.9442393805901245e-05,
+      "loss": 0.0,
+      "step": 581
+    },
+    {
+      "epoch": 0.725912067352666,
+      "grad_norm": NaN,
+      "learning_rate": 3.91100298335944e-05,
+      "loss": 0.0,
+      "step": 582
+    },
+    {
+      "epoch": 0.7271593389460556,
+      "grad_norm": NaN,
+      "learning_rate": 3.877873138961311e-05,
+      "loss": 0.0,
+      "step": 583
+    },
+    {
+      "epoch": 0.728406610539445,
+      "grad_norm": NaN,
+      "learning_rate": 3.844850427142914e-05,
+      "loss": 0.0,
+      "step": 584
+    },
+    {
+      "epoch": 0.7296538821328344,
+      "grad_norm": NaN,
+      "learning_rate": 3.811935425776667e-05,
+      "loss": 0.0,
+      "step": 585
+    },
+    {
+      "epoch": 0.7309011537262239,
+      "grad_norm": NaN,
+      "learning_rate": 3.779128710850151e-05,
+      "loss": 0.0,
+      "step": 586
+    },
+    {
+      "epoch": 0.7321484253196133,
+      "grad_norm": NaN,
+      "learning_rate": 3.7464308564560106e-05,
+      "loss": 0.0,
+      "step": 587
+    },
+    {
+      "epoch": 0.7333956969130028,
+      "grad_norm": NaN,
+      "learning_rate": 3.71384243478191e-05,
+      "loss": 0.0,
+      "step": 588
+    },
+    {
+      "epoch": 0.7346429685063922,
+      "grad_norm": NaN,
+      "learning_rate": 3.681364016100535e-05,
+      "loss": 0.0,
+      "step": 589
+    },
+    {
+      "epoch": 0.7358902400997818,
+      "grad_norm": NaN,
+      "learning_rate": 3.64899616875959e-05,
+      "loss": 0.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.7371375116931712,
+      "grad_norm": NaN,
+      "learning_rate": 3.616739459171866e-05,
+      "loss": 0.0,
+      "step": 591
+    },
+    {
+      "epoch": 0.7383847832865607,
+      "grad_norm": NaN,
+      "learning_rate": 3.5845944518053376e-05,
+      "loss": 0.0,
+      "step": 592
+    },
+    {
+      "epoch": 0.7396320548799501,
+      "grad_norm": NaN,
+      "learning_rate": 3.552561709173266e-05,
+      "loss": 0.0,
+      "step": 593
+    },
+    {
+      "epoch": 0.7408793264733395,
+      "grad_norm": NaN,
+      "learning_rate": 3.520641791824374e-05,
+      "loss": 0.0,
+      "step": 594
+    },
+    {
+      "epoch": 0.742126598066729,
+      "grad_norm": NaN,
+      "learning_rate": 3.488835258333014e-05,
+      "loss": 0.0,
+      "step": 595
+    },
+    {
+      "epoch": 0.7433738696601185,
+      "grad_norm": NaN,
+      "learning_rate": 3.4571426652894144e-05,
+      "loss": 0.0,
+      "step": 596
+    },
+    {
+      "epoch": 0.744621141253508,
+      "grad_norm": NaN,
+      "learning_rate": 3.4255645672899325e-05,
+      "loss": 0.0,
+      "step": 597
+    },
+    {
+      "epoch": 0.7458684128468974,
+      "grad_norm": NaN,
+      "learning_rate": 3.3941015169273524e-05,
+      "loss": 0.0,
+      "step": 598
+    },
+    {
+      "epoch": 0.7471156844402869,
+      "grad_norm": NaN,
+      "learning_rate": 3.362754064781202e-05,
+      "loss": 0.0,
+      "step": 599
+    },
+    {
+      "epoch": 0.7483629560336763,
+      "grad_norm": NaN,
+      "learning_rate": 3.331522759408138e-05,
+      "loss": 0.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.7496102276270658,
+      "grad_norm": NaN,
+      "learning_rate": 3.300408147332327e-05,
+      "loss": 0.0,
+      "step": 601
+    },
+    {
+      "epoch": 0.7508574992204553,
+      "grad_norm": NaN,
+      "learning_rate": 3.269410773035903e-05,
+      "loss": 0.0,
+      "step": 602
+    },
+    {
+      "epoch": 0.7521047708138447,
+      "grad_norm": NaN,
+      "learning_rate": 3.238531178949417e-05,
+      "loss": 0.0,
+      "step": 603
+    },
+    {
+      "epoch": 0.7521047708138447,
+      "eval_loss": NaN,
+      "eval_runtime": 60.7212,
+      "eval_samples_per_second": 22.249,
+      "eval_steps_per_second": 5.566,
+      "step": 603
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.483866847590482e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null