{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 79.13669064748201,
  "eval_steps": 500,
  "global_step": 33000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.11990407673860912,
      "grad_norm": 5.786856651306152,
      "learning_rate": 7.49400479616307e-07,
      "loss": 0.7187,
      "step": 50
    },
    {
      "epoch": 0.23980815347721823,
      "grad_norm": 3.0158944129943848,
      "learning_rate": 1.498800959232614e-06,
      "loss": 0.566,
      "step": 100
    },
    {
      "epoch": 0.3597122302158273,
      "grad_norm": 3.665623664855957,
      "learning_rate": 2.248201438848921e-06,
      "loss": 0.5123,
      "step": 150
    },
    {
      "epoch": 0.47961630695443647,
      "grad_norm": 6.424556255340576,
      "learning_rate": 2.997601918465228e-06,
      "loss": 0.466,
      "step": 200
    },
    {
      "epoch": 0.5995203836930456,
      "grad_norm": 16.18084716796875,
      "learning_rate": 3.7470023980815353e-06,
      "loss": 0.3897,
      "step": 250
    },
    {
      "epoch": 0.7194244604316546,
      "grad_norm": 16.38492774963379,
      "learning_rate": 4.496402877697842e-06,
      "loss": 0.3199,
      "step": 300
    },
    {
      "epoch": 0.8393285371702638,
      "grad_norm": 5.742895126342773,
      "learning_rate": 5.245803357314149e-06,
      "loss": 0.2725,
      "step": 350
    },
    {
      "epoch": 0.9592326139088729,
      "grad_norm": 21.628618240356445,
      "learning_rate": 5.995203836930456e-06,
      "loss": 0.2526,
      "step": 400
    },
    {
      "epoch": 1.079136690647482,
      "grad_norm": 5.3113179206848145,
      "learning_rate": 6.744604316546763e-06,
      "loss": 0.244,
      "step": 450
    },
    {
      "epoch": 1.1990407673860912,
      "grad_norm": 45.239295959472656,
      "learning_rate": 7.4940047961630706e-06,
      "loss": 0.2054,
      "step": 500
    },
    {
      "epoch": 1.1990407673860912,
      "eval_acc": 0.8245570252058897,
      "eval_correct": 3304,
      "eval_loss": 0.49396762251853943,
      "eval_runtime": 42.4926,
      "eval_samples_per_second": 94.299,
      "eval_steps_per_second": 11.79,
      "eval_total": 4007,
      "step": 500
    },
    {
      "epoch": 1.3189448441247003,
      "grad_norm": 14.014670372009277,
      "learning_rate": 8.243405275779377e-06,
      "loss": 0.1984,
      "step": 550
    },
    {
      "epoch": 1.4388489208633093,
      "grad_norm": 30.981321334838867,
      "learning_rate": 8.992805755395683e-06,
      "loss": 0.1818,
      "step": 600
    },
    {
      "epoch": 1.5587529976019185,
      "grad_norm": 3.8969578742980957,
      "learning_rate": 9.742206235011991e-06,
      "loss": 0.1716,
      "step": 650
    },
    {
      "epoch": 1.6786570743405276,
      "grad_norm": 15.843450546264648,
      "learning_rate": 1.0491606714628299e-05,
      "loss": 0.1544,
      "step": 700
    },
    {
      "epoch": 1.7985611510791366,
      "grad_norm": 11.361087799072266,
      "learning_rate": 1.1241007194244605e-05,
      "loss": 0.1534,
      "step": 750
    },
    {
      "epoch": 1.9184652278177459,
      "grad_norm": 28.053857803344727,
      "learning_rate": 1.1990407673860912e-05,
      "loss": 0.1857,
      "step": 800
    },
    {
      "epoch": 2.038369304556355,
      "grad_norm": 56.082786560058594,
      "learning_rate": 1.273980815347722e-05,
      "loss": 0.1426,
      "step": 850
    },
    {
      "epoch": 2.158273381294964,
      "grad_norm": 8.067083358764648,
      "learning_rate": 1.3489208633093526e-05,
      "loss": 0.1226,
      "step": 900
    },
    {
      "epoch": 2.278177458033573,
      "grad_norm": 4.55605936050415,
      "learning_rate": 1.4238609112709833e-05,
      "loss": 0.14,
      "step": 950
    },
    {
      "epoch": 2.3980815347721824,
      "grad_norm": 26.427038192749023,
      "learning_rate": 1.4988009592326141e-05,
      "loss": 0.1662,
      "step": 1000
    },
    {
      "epoch": 2.3980815347721824,
      "eval_acc": 0.8322934863988021,
      "eval_correct": 3335,
      "eval_loss": 0.8110724687576294,
      "eval_runtime": 44.2505,
      "eval_samples_per_second": 90.553,
      "eval_steps_per_second": 11.322,
      "eval_total": 4007,
      "step": 1000
    },
    {
      "epoch": 2.5179856115107913,
      "grad_norm": 9.969658851623535,
      "learning_rate": 1.5737410071942445e-05,
      "loss": 0.1267,
      "step": 1050
    },
    {
      "epoch": 2.6378896882494005,
      "grad_norm": 11.101624488830566,
      "learning_rate": 1.6486810551558755e-05,
      "loss": 0.1615,
      "step": 1100
    },
    {
      "epoch": 2.7577937649880093,
      "grad_norm": 13.18618392944336,
      "learning_rate": 1.723621103117506e-05,
      "loss": 0.1459,
      "step": 1150
    },
    {
      "epoch": 2.8776978417266186,
      "grad_norm": 4.705978870391846,
      "learning_rate": 1.7985611510791367e-05,
      "loss": 0.1289,
      "step": 1200
    },
    {
      "epoch": 2.997601918465228,
      "grad_norm": 6.334770202636719,
      "learning_rate": 1.8735011990407676e-05,
      "loss": 0.1284,
      "step": 1250
    },
    {
      "epoch": 3.117505995203837,
      "grad_norm": 2.6192715167999268,
      "learning_rate": 1.9484412470023982e-05,
      "loss": 0.0887,
      "step": 1300
    },
    {
      "epoch": 3.237410071942446,
      "grad_norm": 8.457603454589844,
      "learning_rate": 2.0233812949640288e-05,
      "loss": 0.1149,
      "step": 1350
    },
    {
      "epoch": 3.357314148681055,
      "grad_norm": 7.42838716506958,
      "learning_rate": 2.0983213429256597e-05,
      "loss": 0.1213,
      "step": 1400
    },
    {
      "epoch": 3.4772182254196644,
      "grad_norm": 12.7257661819458,
      "learning_rate": 2.1732613908872903e-05,
      "loss": 0.1344,
      "step": 1450
    },
    {
      "epoch": 3.597122302158273,
      "grad_norm": 5.366360187530518,
      "learning_rate": 2.248201438848921e-05,
      "loss": 0.1247,
      "step": 1500
    },
    {
      "epoch": 3.597122302158273,
      "eval_acc": 0.8911904167706514,
      "eval_correct": 3571,
      "eval_loss": 0.45176535844802856,
      "eval_runtime": 42.3413,
      "eval_samples_per_second": 94.636,
      "eval_steps_per_second": 11.832,
      "eval_total": 4007,
      "step": 1500
    },
    {
      "epoch": 3.7170263788968825,
      "grad_norm": 44.15855407714844,
      "learning_rate": 2.3231414868105515e-05,
      "loss": 0.1214,
      "step": 1550
    },
    {
      "epoch": 3.8369304556354917,
      "grad_norm": 0.5167334675788879,
      "learning_rate": 2.3980815347721824e-05,
      "loss": 0.094,
      "step": 1600
    },
    {
      "epoch": 3.956834532374101,
      "grad_norm": 6.428056716918945,
      "learning_rate": 2.473021582733813e-05,
      "loss": 0.1011,
      "step": 1650
    },
    {
      "epoch": 4.07673860911271,
      "grad_norm": 22.352540969848633,
      "learning_rate": 2.547961630695444e-05,
      "loss": 0.0838,
      "step": 1700
    },
    {
      "epoch": 4.196642685851319,
      "grad_norm": 14.493260383605957,
      "learning_rate": 2.6229016786570742e-05,
      "loss": 0.067,
      "step": 1750
    },
    {
      "epoch": 4.316546762589928,
      "grad_norm": 0.48220860958099365,
      "learning_rate": 2.697841726618705e-05,
      "loss": 0.0814,
      "step": 1800
    },
    {
      "epoch": 4.436450839328537,
      "grad_norm": 5.421507835388184,
      "learning_rate": 2.7727817745803358e-05,
      "loss": 0.07,
      "step": 1850
    },
    {
      "epoch": 4.556354916067146,
      "grad_norm": 12.124210357666016,
      "learning_rate": 2.8477218225419667e-05,
      "loss": 0.1432,
      "step": 1900
    },
    {
      "epoch": 4.676258992805756,
      "grad_norm": 7.2774505615234375,
      "learning_rate": 2.9226618705035973e-05,
      "loss": 0.1074,
      "step": 1950
    },
    {
      "epoch": 4.796163069544365,
      "grad_norm": 2.1905088424682617,
      "learning_rate": 2.9976019184652282e-05,
      "loss": 0.0931,
      "step": 2000
    },
    {
      "epoch": 4.796163069544365,
      "eval_acc": 0.8587471924132768,
      "eval_correct": 3441,
      "eval_loss": 0.5267863869667053,
      "eval_runtime": 41.559,
      "eval_samples_per_second": 96.417,
      "eval_steps_per_second": 12.055,
      "eval_total": 4007,
      "step": 2000
    },
    {
      "epoch": 4.916067146282973,
      "grad_norm": 1.608717441558838,
      "learning_rate": 3.072541966426858e-05,
      "loss": 0.0962,
      "step": 2050
    },
    {
      "epoch": 5.0359712230215825,
      "grad_norm": 12.13598918914795,
      "learning_rate": 3.147482014388489e-05,
      "loss": 0.0937,
      "step": 2100
    },
    {
      "epoch": 5.155875299760192,
      "grad_norm": 42.665828704833984,
      "learning_rate": 3.22242206235012e-05,
      "loss": 0.0497,
      "step": 2150
    },
    {
      "epoch": 5.275779376498801,
      "grad_norm": 0.0477314330637455,
      "learning_rate": 3.297362110311751e-05,
      "loss": 0.0668,
      "step": 2200
    },
    {
      "epoch": 5.39568345323741,
      "grad_norm": 13.065414428710938,
      "learning_rate": 3.372302158273382e-05,
      "loss": 0.094,
      "step": 2250
    },
    {
      "epoch": 5.5155875299760195,
      "grad_norm": 37.18260192871094,
      "learning_rate": 3.447242206235012e-05,
      "loss": 0.0849,
      "step": 2300
    },
    {
      "epoch": 5.635491606714629,
      "grad_norm": 2.67706036567688,
      "learning_rate": 3.5221822541966424e-05,
      "loss": 0.0835,
      "step": 2350
    },
    {
      "epoch": 5.755395683453237,
      "grad_norm": 1.344098448753357,
      "learning_rate": 3.597122302158273e-05,
      "loss": 0.0772,
      "step": 2400
    },
    {
      "epoch": 5.875299760191846,
      "grad_norm": 0.5794207453727722,
      "learning_rate": 3.672062350119904e-05,
      "loss": 0.0864,
      "step": 2450
    },
    {
      "epoch": 5.995203836930456,
      "grad_norm": 15.195130348205566,
      "learning_rate": 3.747002398081535e-05,
      "loss": 0.0827,
      "step": 2500
    },
    {
      "epoch": 5.995203836930456,
      "eval_acc": 0.9009233840778638,
      "eval_correct": 3610,
      "eval_loss": 0.46656540036201477,
      "eval_runtime": 42.4937,
      "eval_samples_per_second": 94.296,
      "eval_steps_per_second": 11.79,
      "eval_total": 4007,
      "step": 2500
    },
    {
      "epoch": 6.115107913669065,
      "grad_norm": 0.13961158692836761,
      "learning_rate": 3.8219424460431654e-05,
      "loss": 0.0731,
      "step": 2550
    },
    {
      "epoch": 6.235011990407674,
      "grad_norm": 0.49783560633659363,
      "learning_rate": 3.8968824940047964e-05,
      "loss": 0.0359,
      "step": 2600
    },
    {
      "epoch": 6.3549160671462825,
      "grad_norm": 12.22480297088623,
      "learning_rate": 3.9718225419664266e-05,
      "loss": 0.0545,
      "step": 2650
    },
    {
      "epoch": 6.474820143884892,
      "grad_norm": 0.5389467477798462,
      "learning_rate": 4.0467625899280576e-05,
      "loss": 0.1091,
      "step": 2700
    },
    {
      "epoch": 6.594724220623501,
      "grad_norm": 0.7490978240966797,
      "learning_rate": 4.1217026378896885e-05,
      "loss": 0.0621,
      "step": 2750
    },
    {
      "epoch": 6.71462829736211,
      "grad_norm": 0.11006791889667511,
      "learning_rate": 4.1966426858513194e-05,
      "loss": 0.0677,
      "step": 2800
    },
    {
      "epoch": 6.83453237410072,
      "grad_norm": 0.060087136924266815,
      "learning_rate": 4.27158273381295e-05,
      "loss": 0.0832,
      "step": 2850
    },
    {
      "epoch": 6.954436450839329,
      "grad_norm": 1.7296946048736572,
      "learning_rate": 4.3465227817745806e-05,
      "loss": 0.0442,
      "step": 2900
    },
    {
      "epoch": 7.074340527577938,
      "grad_norm": 0.7653933167457581,
      "learning_rate": 4.4214628297362116e-05,
      "loss": 0.0475,
      "step": 2950
    },
    {
      "epoch": 7.194244604316546,
      "grad_norm": 22.254840850830078,
      "learning_rate": 4.496402877697842e-05,
      "loss": 0.0208,
      "step": 3000
    },
    {
      "epoch": 7.194244604316546,
      "eval_acc": 0.9173945595208385,
      "eval_correct": 3676,
      "eval_loss": 0.440325528383255,
      "eval_runtime": 43.3842,
      "eval_samples_per_second": 92.361,
      "eval_steps_per_second": 11.548,
      "eval_total": 4007,
      "step": 3000
    },
    {
      "epoch": 7.314148681055156,
      "grad_norm": 11.960433959960938,
      "learning_rate": 4.571342925659473e-05,
      "loss": 0.056,
      "step": 3050
    },
    {
      "epoch": 7.434052757793765,
      "grad_norm": 8.8640775680542,
      "learning_rate": 4.646282973621103e-05,
      "loss": 0.052,
      "step": 3100
    },
    {
      "epoch": 7.553956834532374,
      "grad_norm": 11.467218399047852,
      "learning_rate": 4.721223021582734e-05,
      "loss": 0.0632,
      "step": 3150
    },
    {
      "epoch": 7.6738609112709835,
      "grad_norm": 0.10994064062833786,
      "learning_rate": 4.796163069544365e-05,
      "loss": 0.0564,
      "step": 3200
    },
    {
      "epoch": 7.793764988009592,
      "grad_norm": 7.907687187194824,
      "learning_rate": 4.871103117505996e-05,
      "loss": 0.0903,
      "step": 3250
    },
    {
      "epoch": 7.913669064748201,
      "grad_norm": 2.7493059635162354,
      "learning_rate": 4.946043165467626e-05,
      "loss": 0.0874,
      "step": 3300
    },
    {
      "epoch": 8.03357314148681,
      "grad_norm": 13.165409088134766,
      "learning_rate": 4.997668531841194e-05,
      "loss": 0.0619,
      "step": 3350
    },
    {
      "epoch": 8.15347721822542,
      "grad_norm": 3.461838960647583,
      "learning_rate": 4.989341859845457e-05,
      "loss": 0.0746,
      "step": 3400
    },
    {
      "epoch": 8.273381294964029,
      "grad_norm": 0.034040048718452454,
      "learning_rate": 4.9810151878497205e-05,
      "loss": 0.0365,
      "step": 3450
    },
    {
      "epoch": 8.393285371702637,
      "grad_norm": 11.827088356018066,
      "learning_rate": 4.972688515853984e-05,
      "loss": 0.0473,
      "step": 3500
    },
    {
      "epoch": 8.393285371702637,
      "eval_acc": 0.8427751434988769,
      "eval_correct": 3377,
      "eval_loss": 0.7617806792259216,
      "eval_runtime": 41.3121,
      "eval_samples_per_second": 96.993,
      "eval_steps_per_second": 12.127,
      "eval_total": 4007,
      "step": 3500
    },
    {
      "epoch": 8.513189448441247,
      "grad_norm": 0.055025864392519,
      "learning_rate": 4.964361843858247e-05,
      "loss": 0.0816,
      "step": 3550
    },
    {
      "epoch": 8.633093525179856,
      "grad_norm": 0.07514443248510361,
      "learning_rate": 4.9560351718625104e-05,
      "loss": 0.0428,
      "step": 3600
    },
    {
      "epoch": 8.752997601918466,
      "grad_norm": 6.5214738845825195,
      "learning_rate": 4.947708499866773e-05,
      "loss": 0.0847,
      "step": 3650
    },
    {
      "epoch": 8.872901678657074,
      "grad_norm": 0.4904601275920868,
      "learning_rate": 4.939381827871037e-05,
      "loss": 0.042,
      "step": 3700
    },
    {
      "epoch": 8.992805755395683,
      "grad_norm": 0.7305595278739929,
      "learning_rate": 4.9310551558752996e-05,
      "loss": 0.06,
      "step": 3750
    },
    {
      "epoch": 9.112709832134293,
      "grad_norm": 0.33541759848594666,
      "learning_rate": 4.922728483879563e-05,
      "loss": 0.0413,
      "step": 3800
    },
    {
      "epoch": 9.232613908872901,
      "grad_norm": 0.027268672361969948,
      "learning_rate": 4.914401811883827e-05,
      "loss": 0.0313,
      "step": 3850
    },
    {
      "epoch": 9.352517985611511,
      "grad_norm": 5.128246784210205,
      "learning_rate": 4.90607513988809e-05,
      "loss": 0.025,
      "step": 3900
    },
    {
      "epoch": 9.47242206235012,
      "grad_norm": 30.697023391723633,
      "learning_rate": 4.897748467892353e-05,
      "loss": 0.0425,
      "step": 3950
    },
    {
      "epoch": 9.59232613908873,
      "grad_norm": 14.68954849243164,
      "learning_rate": 4.8894217958966166e-05,
      "loss": 0.0508,
      "step": 4000
    },
    {
      "epoch": 9.59232613908873,
      "eval_acc": 0.9183928125779885,
      "eval_correct": 3680,
      "eval_loss": 0.36410120129585266,
      "eval_runtime": 42.169,
      "eval_samples_per_second": 95.022,
      "eval_steps_per_second": 11.881,
      "eval_total": 4007,
      "step": 4000
    },
    {
      "epoch": 9.712230215827338,
      "grad_norm": 27.119617462158203,
      "learning_rate": 4.8810951239008794e-05,
      "loss": 0.0392,
      "step": 4050
    },
    {
      "epoch": 9.832134292565947,
      "grad_norm": 0.052641261368989944,
      "learning_rate": 4.872768451905142e-05,
      "loss": 0.0386,
      "step": 4100
    },
    {
      "epoch": 9.952038369304557,
      "grad_norm": 0.9732871055603027,
      "learning_rate": 4.864441779909406e-05,
      "loss": 0.0505,
      "step": 4150
    },
    {
      "epoch": 10.071942446043165,
      "grad_norm": 0.16923277080059052,
      "learning_rate": 4.8561151079136694e-05,
      "loss": 0.0569,
      "step": 4200
    },
    {
      "epoch": 10.191846522781775,
      "grad_norm": 0.20846273005008698,
      "learning_rate": 4.847788435917933e-05,
      "loss": 0.0259,
      "step": 4250
    },
    {
      "epoch": 10.311750599520384,
      "grad_norm": 0.007754880003631115,
      "learning_rate": 4.839461763922196e-05,
      "loss": 0.0404,
      "step": 4300
    },
    {
      "epoch": 10.431654676258994,
      "grad_norm": 0.2103128880262375,
      "learning_rate": 4.831135091926459e-05,
      "loss": 0.0492,
      "step": 4350
    },
    {
      "epoch": 10.551558752997602,
      "grad_norm": 0.007422969676554203,
      "learning_rate": 4.822808419930722e-05,
      "loss": 0.0225,
      "step": 4400
    },
    {
      "epoch": 10.67146282973621,
      "grad_norm": 0.019013680517673492,
      "learning_rate": 4.8144817479349857e-05,
      "loss": 0.0337,
      "step": 4450
    },
    {
      "epoch": 10.79136690647482,
      "grad_norm": 0.043379783630371094,
      "learning_rate": 4.8061550759392485e-05,
      "loss": 0.0293,
      "step": 4500
    },
    {
      "epoch": 10.79136690647482,
      "eval_acc": 0.9313701023209383,
      "eval_correct": 3732,
      "eval_loss": 0.3575162887573242,
      "eval_runtime": 42.0544,
      "eval_samples_per_second": 95.281,
      "eval_steps_per_second": 11.913,
      "eval_total": 4007,
      "step": 4500
    },
    {
      "epoch": 10.911270983213429,
      "grad_norm": 0.59409099817276,
      "learning_rate": 4.797828403943512e-05,
      "loss": 0.0255,
      "step": 4550
    },
    {
      "epoch": 11.031175059952039,
      "grad_norm": 0.00787427555769682,
      "learning_rate": 4.7895017319477756e-05,
      "loss": 0.0417,
      "step": 4600
    },
    {
      "epoch": 11.151079136690647,
      "grad_norm": 0.2055547684431076,
      "learning_rate": 4.781175059952039e-05,
      "loss": 0.0287,
      "step": 4650
    },
    {
      "epoch": 11.270983213429256,
      "grad_norm": 0.0045938314869999886,
      "learning_rate": 4.772848387956302e-05,
      "loss": 0.019,
      "step": 4700
    },
    {
      "epoch": 11.390887290167866,
      "grad_norm": 0.02011556550860405,
      "learning_rate": 4.764521715960565e-05,
      "loss": 0.0225,
      "step": 4750
    },
    {
      "epoch": 11.510791366906474,
      "grad_norm": 0.03246749937534332,
      "learning_rate": 4.7561950439648283e-05,
      "loss": 0.028,
      "step": 4800
    },
    {
      "epoch": 11.630695443645084,
      "grad_norm": 16.05810546875,
      "learning_rate": 4.747868371969091e-05,
      "loss": 0.0852,
      "step": 4850
    },
    {
      "epoch": 11.750599520383693,
      "grad_norm": 6.450767517089844,
      "learning_rate": 4.739541699973355e-05,
      "loss": 0.0548,
      "step": 4900
    },
    {
      "epoch": 11.870503597122303,
      "grad_norm": 18.875333786010742,
      "learning_rate": 4.731215027977618e-05,
      "loss": 0.0452,
      "step": 4950
    },
    {
      "epoch": 11.990407673860911,
      "grad_norm": 0.06063218414783478,
      "learning_rate": 4.722888355981882e-05,
      "loss": 0.0215,
      "step": 5000
    },
    {
      "epoch": 11.990407673860911,
      "eval_acc": 0.9153980534065386,
      "eval_correct": 3668,
      "eval_loss": 0.6330265998840332,
      "eval_runtime": 42.6899,
      "eval_samples_per_second": 93.863,
      "eval_steps_per_second": 11.736,
      "eval_total": 4007,
      "step": 5000
    },
    {
      "epoch": 12.11031175059952,
      "grad_norm": 0.0042322915978729725,
      "learning_rate": 4.7145616839861446e-05,
      "loss": 0.032,
      "step": 5050
    },
    {
      "epoch": 12.23021582733813,
      "grad_norm": 38.26051712036133,
      "learning_rate": 4.706235011990408e-05,
      "loss": 0.0451,
      "step": 5100
    },
    {
      "epoch": 12.350119904076738,
      "grad_norm": 27.80217933654785,
      "learning_rate": 4.697908339994671e-05,
      "loss": 0.0324,
      "step": 5150
    },
    {
      "epoch": 12.470023980815348,
      "grad_norm": 0.013462933711707592,
      "learning_rate": 4.6895816679989346e-05,
      "loss": 0.0167,
      "step": 5200
    },
    {
      "epoch": 12.589928057553957,
      "grad_norm": 0.009385428391397,
      "learning_rate": 4.6812549960031974e-05,
      "loss": 0.0296,
      "step": 5250
    },
    {
      "epoch": 12.709832134292565,
      "grad_norm": 0.2953040897846222,
      "learning_rate": 4.672928324007461e-05,
      "loss": 0.0073,
      "step": 5300
    },
    {
      "epoch": 12.829736211031175,
      "grad_norm": 0.010045494884252548,
      "learning_rate": 4.6646016520117245e-05,
      "loss": 0.0404,
      "step": 5350
    },
    {
      "epoch": 12.949640287769784,
      "grad_norm": 0.020015936344861984,
      "learning_rate": 4.656274980015987e-05,
      "loss": 0.0362,
      "step": 5400
    },
    {
      "epoch": 13.069544364508394,
      "grad_norm": 0.03198467567563057,
      "learning_rate": 4.647948308020251e-05,
      "loss": 0.0276,
      "step": 5450
    },
    {
      "epoch": 13.189448441247002,
      "grad_norm": 0.018437419086694717,
      "learning_rate": 4.639621636024514e-05,
      "loss": 0.016,
      "step": 5500
    },
    {
      "epoch": 13.189448441247002,
      "eval_acc": 0.922136261542301,
      "eval_correct": 3695,
      "eval_loss": 0.5323002338409424,
      "eval_runtime": 42.3473,
      "eval_samples_per_second": 94.622,
      "eval_steps_per_second": 11.831,
      "eval_total": 4007,
      "step": 5500
    },
    {
      "epoch": 13.309352517985612,
      "grad_norm": 0.03592425584793091,
      "learning_rate": 4.631294964028777e-05,
      "loss": 0.0149,
      "step": 5550
    },
    {
      "epoch": 13.42925659472422,
      "grad_norm": 0.06741290539503098,
      "learning_rate": 4.62296829203304e-05,
      "loss": 0.033,
      "step": 5600
    },
    {
      "epoch": 13.549160671462829,
      "grad_norm": 0.3471187949180603,
      "learning_rate": 4.6146416200373036e-05,
      "loss": 0.0191,
      "step": 5650
    },
    {
      "epoch": 13.66906474820144,
      "grad_norm": 0.022648675367236137,
      "learning_rate": 4.606314948041567e-05,
      "loss": 0.0634,
      "step": 5700
    },
    {
      "epoch": 13.788968824940047,
      "grad_norm": 0.17452287673950195,
      "learning_rate": 4.597988276045831e-05,
      "loss": 0.0404,
      "step": 5750
    },
    {
      "epoch": 13.908872901678658,
      "grad_norm": 5.264708995819092,
      "learning_rate": 4.5896616040500935e-05,
      "loss": 0.0217,
      "step": 5800
    },
    {
      "epoch": 14.028776978417266,
      "grad_norm": 0.285734623670578,
      "learning_rate": 4.581334932054357e-05,
      "loss": 0.0513,
      "step": 5850
    },
    {
      "epoch": 14.148681055155876,
      "grad_norm": 0.006930809002369642,
      "learning_rate": 4.57300826005862e-05,
      "loss": 0.0218,
      "step": 5900
    },
    {
      "epoch": 14.268585131894485,
      "grad_norm": 0.01539198774844408,
      "learning_rate": 4.5646815880628834e-05,
      "loss": 0.0161,
      "step": 5950
    },
    {
      "epoch": 14.388489208633093,
      "grad_norm": 0.0029397241305559874,
      "learning_rate": 4.556354916067146e-05,
      "loss": 0.0085,
      "step": 6000
    },
    {
      "epoch": 14.388489208633093,
      "eval_acc": 0.9059146493636137,
      "eval_correct": 3630,
      "eval_loss": 0.7087400555610657,
      "eval_runtime": 42.5306,
      "eval_samples_per_second": 94.215,
      "eval_steps_per_second": 11.78,
      "eval_total": 4007,
      "step": 6000
    },
    {
      "epoch": 14.508393285371703,
      "grad_norm": 0.006808037869632244,
      "learning_rate": 4.548028244071409e-05,
      "loss": 0.0276,
      "step": 6050
    },
    {
      "epoch": 14.628297362110311,
      "grad_norm": 0.014268760569393635,
      "learning_rate": 4.5397015720756734e-05,
      "loss": 0.0077,
      "step": 6100
    },
    {
      "epoch": 14.748201438848922,
      "grad_norm": 9.403589248657227,
      "learning_rate": 4.531374900079936e-05,
      "loss": 0.0176,
      "step": 6150
    },
    {
      "epoch": 14.86810551558753,
      "grad_norm": 0.0067928750067949295,
      "learning_rate": 4.5230482280842e-05,
      "loss": 0.0182,
      "step": 6200
    },
    {
      "epoch": 14.988009592326138,
      "grad_norm": 0.01302977092564106,
      "learning_rate": 4.5147215560884626e-05,
      "loss": 0.014,
      "step": 6250
    },
    {
      "epoch": 15.107913669064748,
      "grad_norm": 0.07418133318424225,
      "learning_rate": 4.506394884092726e-05,
      "loss": 0.0144,
      "step": 6300
    },
    {
      "epoch": 15.227817745803357,
      "grad_norm": 0.014391463249921799,
      "learning_rate": 4.498068212096989e-05,
      "loss": 0.0177,
      "step": 6350
    },
    {
      "epoch": 15.347721822541967,
      "grad_norm": 0.12405969202518463,
      "learning_rate": 4.4897415401012525e-05,
      "loss": 0.0227,
      "step": 6400
    },
    {
      "epoch": 15.467625899280575,
      "grad_norm": 0.0028285484295338392,
      "learning_rate": 4.4814148681055154e-05,
      "loss": 0.0091,
      "step": 6450
    },
    {
      "epoch": 15.587529976019185,
      "grad_norm": 0.004787682555615902,
      "learning_rate": 4.4730881961097796e-05,
      "loss": 0.0382,
      "step": 6500
    },
    {
      "epoch": 15.587529976019185,
      "eval_acc": 0.9109059146493637,
      "eval_correct": 3650,
      "eval_loss": 0.6548624634742737,
      "eval_runtime": 41.2818,
      "eval_samples_per_second": 97.064,
      "eval_steps_per_second": 12.136,
      "eval_total": 4007,
      "step": 6500
    },
    {
      "epoch": 15.707434052757794,
      "grad_norm": 0.09132499247789383,
      "learning_rate": 4.4647615241140424e-05,
      "loss": 0.0157,
      "step": 6550
    },
    {
      "epoch": 15.827338129496402,
      "grad_norm": 0.10599952936172485,
      "learning_rate": 4.456434852118306e-05,
      "loss": 0.0195,
      "step": 6600
    },
    {
      "epoch": 15.947242206235012,
      "grad_norm": 0.03681192919611931,
      "learning_rate": 4.448108180122569e-05,
      "loss": 0.0102,
      "step": 6650
    },
    {
      "epoch": 16.06714628297362,
      "grad_norm": 0.09614646434783936,
      "learning_rate": 4.4397815081268323e-05,
      "loss": 0.0101,
      "step": 6700
    },
    {
      "epoch": 16.18705035971223,
      "grad_norm": 0.004134451039135456,
      "learning_rate": 4.431454836131095e-05,
      "loss": 0.0078,
      "step": 6750
    },
    {
      "epoch": 16.30695443645084,
      "grad_norm": 0.0026446895208209753,
      "learning_rate": 4.423128164135358e-05,
      "loss": 0.0283,
      "step": 6800
    },
    {
      "epoch": 16.426858513189448,
      "grad_norm": 0.039416614919900894,
      "learning_rate": 4.4148014921396216e-05,
      "loss": 0.019,
      "step": 6850
    },
    {
      "epoch": 16.546762589928058,
      "grad_norm": 0.03371982276439667,
      "learning_rate": 4.406474820143885e-05,
      "loss": 0.0144,
      "step": 6900
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.02603212557733059,
      "learning_rate": 4.3981481481481486e-05,
      "loss": 0.0154,
      "step": 6950
    },
    {
      "epoch": 16.786570743405274,
      "grad_norm": 0.002152912551537156,
      "learning_rate": 4.3898214761524115e-05,
      "loss": 0.0139,
      "step": 7000
    },
    {
      "epoch": 16.786570743405274,
      "eval_acc": 0.8689792862490642,
      "eval_correct": 3482,
      "eval_loss": 1.1016558408737183,
      "eval_runtime": 42.5317,
      "eval_samples_per_second": 94.212,
      "eval_steps_per_second": 11.779,
      "eval_total": 4007,
      "step": 7000
    },
    {
      "epoch": 16.906474820143885,
      "grad_norm": 0.024927452206611633,
      "learning_rate": 4.381494804156675e-05,
      "loss": 0.0353,
      "step": 7050
    },
    {
      "epoch": 17.026378896882495,
      "grad_norm": 0.08571218699216843,
      "learning_rate": 4.373168132160938e-05,
      "loss": 0.0277,
      "step": 7100
    },
    {
      "epoch": 17.146282973621105,
      "grad_norm": 0.036849986761808395,
      "learning_rate": 4.3648414601652014e-05,
      "loss": 0.0409,
      "step": 7150
    },
    {
      "epoch": 17.26618705035971,
      "grad_norm": 0.045751865953207016,
      "learning_rate": 4.356514788169464e-05,
      "loss": 0.0157,
      "step": 7200
    },
    {
      "epoch": 17.38609112709832,
      "grad_norm": 0.0051146382465958595,
      "learning_rate": 4.348188116173728e-05,
      "loss": 0.0212,
      "step": 7250
    },
    {
      "epoch": 17.50599520383693,
      "grad_norm": 0.12879779934883118,
      "learning_rate": 4.339861444177991e-05,
      "loss": 0.0359,
      "step": 7300
    },
    {
      "epoch": 17.62589928057554,
      "grad_norm": 23.767118453979492,
      "learning_rate": 4.331534772182255e-05,
      "loss": 0.0136,
      "step": 7350
    },
    {
      "epoch": 17.74580335731415,
      "grad_norm": 0.11176232248544693,
      "learning_rate": 4.323208100186518e-05,
      "loss": 0.0303,
      "step": 7400
    },
    {
      "epoch": 17.86570743405276,
      "grad_norm": 0.03935601934790611,
      "learning_rate": 4.3148814281907806e-05,
      "loss": 0.0175,
      "step": 7450
    },
    {
      "epoch": 17.985611510791365,
      "grad_norm": 0.01479595061391592,
      "learning_rate": 4.306554756195044e-05,
      "loss": 0.0184,
      "step": 7500
    },
    {
      "epoch": 17.985611510791365,
      "eval_acc": 0.9293735962066384,
      "eval_correct": 3724,
      "eval_loss": 0.3997214138507843,
      "eval_runtime": 43.486,
      "eval_samples_per_second": 92.145,
      "eval_steps_per_second": 11.521,
      "eval_total": 4007,
      "step": 7500
    },
    {
      "epoch": 18.105515587529975,
      "grad_norm": 0.06466566771268845,
      "learning_rate": 4.298228084199307e-05,
      "loss": 0.0239,
      "step": 7550
    },
    {
      "epoch": 18.225419664268586,
      "grad_norm": 0.029790882021188736,
      "learning_rate": 4.2899014122035705e-05,
      "loss": 0.0191,
      "step": 7600
    },
    {
      "epoch": 18.345323741007196,
      "grad_norm": 0.0021735280752182007,
      "learning_rate": 4.281574740207834e-05,
      "loss": 0.0028,
      "step": 7650
    },
    {
      "epoch": 18.465227817745802,
      "grad_norm": 0.28787940740585327,
      "learning_rate": 4.2732480682120975e-05,
      "loss": 0.0109,
      "step": 7700
    },
    {
      "epoch": 18.585131894484412,
      "grad_norm": 1.2194730043411255,
      "learning_rate": 4.2649213962163604e-05,
      "loss": 0.0094,
      "step": 7750
    },
    {
      "epoch": 18.705035971223023,
      "grad_norm": 0.10136575996875763,
      "learning_rate": 4.256594724220624e-05,
      "loss": 0.0111,
      "step": 7800
    },
    {
      "epoch": 18.82494004796163,
      "grad_norm": 20.533405303955078,
      "learning_rate": 4.248268052224887e-05,
      "loss": 0.0217,
      "step": 7850
    },
    {
      "epoch": 18.94484412470024,
      "grad_norm": 0.001741968560963869,
      "learning_rate": 4.23994138022915e-05,
      "loss": 0.0181,
      "step": 7900
    },
    {
      "epoch": 19.06474820143885,
      "grad_norm": 0.0028813881799578667,
      "learning_rate": 4.231614708233413e-05,
      "loss": 0.0136,
      "step": 7950
    },
    {
      "epoch": 19.18465227817746,
      "grad_norm": 0.0029449909925460815,
      "learning_rate": 4.223288036237677e-05,
      "loss": 0.0212,
      "step": 8000
    },
    {
      "epoch": 19.18465227817746,
      "eval_acc": 0.8981781881707013,
      "eval_correct": 3599,
      "eval_loss": 0.8151629567146301,
      "eval_runtime": 42.3128,
      "eval_samples_per_second": 94.699,
      "eval_steps_per_second": 11.84,
      "eval_total": 4007,
      "step": 8000
    },
    {
      "epoch": 19.304556354916066,
      "grad_norm": 0.04528515413403511,
      "learning_rate": 4.21496136424194e-05,
      "loss": 0.043,
      "step": 8050
    },
    {
      "epoch": 19.424460431654676,
      "grad_norm": 8.313652992248535,
      "learning_rate": 4.206634692246203e-05,
      "loss": 0.0133,
      "step": 8100
    },
    {
      "epoch": 19.544364508393286,
      "grad_norm": 0.004770397208631039,
      "learning_rate": 4.1983080202504666e-05,
      "loss": 0.0414,
      "step": 8150
    },
    {
      "epoch": 19.664268585131893,
      "grad_norm": 0.01904761977493763,
      "learning_rate": 4.1899813482547295e-05,
      "loss": 0.0464,
      "step": 8200
    },
    {
      "epoch": 19.784172661870503,
      "grad_norm": 10.410674095153809,
      "learning_rate": 4.181654676258993e-05,
      "loss": 0.0067,
      "step": 8250
    },
    {
      "epoch": 19.904076738609113,
      "grad_norm": 1.239249587059021,
      "learning_rate": 4.173328004263256e-05,
      "loss": 0.0346,
      "step": 8300
    },
    {
      "epoch": 20.023980815347723,
      "grad_norm": 0.008029191754758358,
      "learning_rate": 4.1650013322675194e-05,
      "loss": 0.0091,
      "step": 8350
    },
    {
      "epoch": 20.14388489208633,
      "grad_norm": 0.005789053626358509,
      "learning_rate": 4.156674660271783e-05,
      "loss": 0.0105,
      "step": 8400
    },
    {
      "epoch": 20.26378896882494,
      "grad_norm": 0.004520957358181477,
      "learning_rate": 4.1483479882760464e-05,
      "loss": 0.0181,
      "step": 8450
    },
    {
      "epoch": 20.38369304556355,
      "grad_norm": 0.024036267772316933,
      "learning_rate": 4.140021316280309e-05,
      "loss": 0.0184,
      "step": 8500
    },
    {
      "epoch": 20.38369304556355,
      "eval_acc": 0.918642375842276,
      "eval_correct": 3681,
      "eval_loss": 0.5067743062973022,
      "eval_runtime": 43.536,
      "eval_samples_per_second": 92.039,
      "eval_steps_per_second": 11.508,
      "eval_total": 4007,
      "step": 8500
    },
    {
      "epoch": 20.503597122302157,
      "grad_norm": 0.0034435701090842485,
      "learning_rate": 4.131694644284573e-05,
      "loss": 0.0238,
      "step": 8550
    },
    {
      "epoch": 20.623501199040767,
      "grad_norm": 0.0072821662761271,
      "learning_rate": 4.123367972288836e-05,
      "loss": 0.0267,
      "step": 8600
    },
    {
      "epoch": 20.743405275779377,
      "grad_norm": 0.006607448682188988,
      "learning_rate": 4.115041300293099e-05,
      "loss": 0.0156,
      "step": 8650
    },
    {
      "epoch": 20.863309352517987,
      "grad_norm": 7.695019721984863,
      "learning_rate": 4.106714628297362e-05,
      "loss": 0.028,
      "step": 8700
    },
    {
      "epoch": 20.983213429256594,
      "grad_norm": 0.008640438318252563,
      "learning_rate": 4.0983879563016256e-05,
      "loss": 0.0134,
      "step": 8750
    },
    {
      "epoch": 21.103117505995204,
      "grad_norm": 38.66960525512695,
      "learning_rate": 4.090061284305889e-05,
      "loss": 0.0249,
      "step": 8800
    },
    {
      "epoch": 21.223021582733814,
      "grad_norm": 0.0035218182019889355,
      "learning_rate": 4.081734612310152e-05,
      "loss": 0.0103,
      "step": 8850
    },
    {
      "epoch": 21.34292565947242,
      "grad_norm": 0.006352482829242945,
      "learning_rate": 4.0734079403144155e-05,
      "loss": 0.031,
      "step": 8900
    },
    {
      "epoch": 21.46282973621103,
      "grad_norm": 0.13773155212402344,
      "learning_rate": 4.0650812683186783e-05,
      "loss": 0.0304,
      "step": 8950
    },
    {
      "epoch": 21.58273381294964,
      "grad_norm": 0.5821255445480347,
      "learning_rate": 4.056754596322942e-05,
      "loss": 0.0399,
      "step": 9000
    },
    {
      "epoch": 21.58273381294964,
      "eval_acc": 0.9084102820064887,
      "eval_correct": 3640,
      "eval_loss": 0.5675905346870422,
      "eval_runtime": 41.8339,
      "eval_samples_per_second": 95.784,
      "eval_steps_per_second": 11.976,
      "eval_total": 4007,
      "step": 9000
    },
    {
      "epoch": 21.702637889688248,
      "grad_norm": 0.0039305961690843105,
      "learning_rate": 4.048427924327205e-05,
      "loss": 0.0212,
      "step": 9050
    },
    {
      "epoch": 21.822541966426858,
      "grad_norm": 0.003753148252144456,
      "learning_rate": 4.040101252331468e-05,
      "loss": 0.0043,
      "step": 9100
    },
    {
      "epoch": 21.942446043165468,
      "grad_norm": 0.0237082839012146,
      "learning_rate": 4.031774580335732e-05,
      "loss": 0.0124,
      "step": 9150
    },
    {
      "epoch": 22.062350119904078,
      "grad_norm": 3.9210846424102783,
      "learning_rate": 4.023447908339995e-05,
      "loss": 0.0331,
      "step": 9200
    },
    {
      "epoch": 22.182254196642685,
      "grad_norm": 0.0027596252039074898,
      "learning_rate": 4.015121236344258e-05,
      "loss": 0.0153,
      "step": 9250
    },
    {
      "epoch": 22.302158273381295,
      "grad_norm": 0.002874968806281686,
      "learning_rate": 4.006794564348522e-05,
      "loss": 0.0118,
      "step": 9300
    },
    {
      "epoch": 22.422062350119905,
      "grad_norm": 0.008300978690385818,
      "learning_rate": 3.9984678923527846e-05,
      "loss": 0.0177,
      "step": 9350
    },
    {
      "epoch": 22.54196642685851,
      "grad_norm": 34.189666748046875,
      "learning_rate": 3.9901412203570474e-05,
      "loss": 0.0053,
      "step": 9400
    },
    {
      "epoch": 22.66187050359712,
      "grad_norm": 0.03796634078025818,
      "learning_rate": 3.981814548361311e-05,
      "loss": 0.0154,
      "step": 9450
    },
    {
      "epoch": 22.781774580335732,
      "grad_norm": 0.002390054753050208,
      "learning_rate": 3.9734878763655745e-05,
      "loss": 0.0149,
      "step": 9500
    },
    {
      "epoch": 22.781774580335732,
      "eval_acc": 0.8694784127776392,
      "eval_correct": 3484,
      "eval_loss": 1.1418367624282837,
      "eval_runtime": 44.4293,
      "eval_samples_per_second": 90.188,
      "eval_steps_per_second": 11.276,
      "eval_total": 4007,
      "step": 9500
    },
    {
      "epoch": 22.901678657074342,
      "grad_norm": 0.0046964590437710285,
      "learning_rate": 3.965161204369838e-05,
      "loss": 0.0126,
      "step": 9550
    },
    {
      "epoch": 23.02158273381295,
      "grad_norm": 0.003574691480025649,
      "learning_rate": 3.956834532374101e-05,
      "loss": 0.0071,
      "step": 9600
    },
    {
      "epoch": 23.14148681055156,
      "grad_norm": 0.012023627758026123,
      "learning_rate": 3.9485078603783644e-05,
      "loss": 0.0076,
      "step": 9650
    },
    {
      "epoch": 23.26139088729017,
      "grad_norm": 0.006912292912602425,
      "learning_rate": 3.940181188382627e-05,
      "loss": 0.0109,
      "step": 9700
    },
    {
      "epoch": 23.381294964028775,
      "grad_norm": 72.14506530761719,
      "learning_rate": 3.931854516386891e-05,
      "loss": 0.0026,
      "step": 9750
    },
    {
      "epoch": 23.501199040767386,
      "grad_norm": 0.0019103919621556997,
      "learning_rate": 3.9235278443911536e-05,
      "loss": 0.0062,
      "step": 9800
    },
    {
      "epoch": 23.621103117505996,
      "grad_norm": 0.002903576474636793,
      "learning_rate": 3.915201172395417e-05,
      "loss": 0.0001,
      "step": 9850
    },
    {
      "epoch": 23.741007194244606,
      "grad_norm": 0.001625532517209649,
      "learning_rate": 3.906874500399681e-05,
      "loss": 0.0027,
      "step": 9900
    },
    {
      "epoch": 23.860911270983213,
      "grad_norm": 0.00250251404941082,
      "learning_rate": 3.898547828403944e-05,
      "loss": 0.006,
      "step": 9950
    },
    {
      "epoch": 23.980815347721823,
      "grad_norm": 0.1587582677602768,
      "learning_rate": 3.890221156408207e-05,
      "loss": 0.0111,
      "step": 10000
    },
    {
      "epoch": 23.980815347721823,
      "eval_acc": 0.925131020713751,
      "eval_correct": 3707,
      "eval_loss": 0.4654409885406494,
      "eval_runtime": 42.9854,
      "eval_samples_per_second": 93.218,
      "eval_steps_per_second": 11.655,
      "eval_total": 4007,
      "step": 10000
    },
    {
      "epoch": 24.100719424460433,
      "grad_norm": 0.035108212381601334,
      "learning_rate": 3.88189448441247e-05,
      "loss": 0.0108,
      "step": 10050
    },
    {
      "epoch": 24.22062350119904,
      "grad_norm": 0.026320576667785645,
      "learning_rate": 3.8735678124167335e-05,
      "loss": 0.0199,
      "step": 10100
    },
    {
      "epoch": 24.34052757793765,
      "grad_norm": 0.03366617485880852,
      "learning_rate": 3.865241140420996e-05,
      "loss": 0.0067,
      "step": 10150
    },
    {
      "epoch": 24.46043165467626,
      "grad_norm": 0.006567217875272036,
      "learning_rate": 3.85691446842526e-05,
      "loss": 0.0059,
      "step": 10200
    },
    {
      "epoch": 24.58033573141487,
      "grad_norm": 41.57868576049805,
      "learning_rate": 3.8485877964295234e-05,
      "loss": 0.0133,
      "step": 10250
    },
    {
      "epoch": 24.700239808153476,
      "grad_norm": 0.02589862048625946,
      "learning_rate": 3.840261124433787e-05,
      "loss": 0.0093,
      "step": 10300
    },
    {
      "epoch": 24.820143884892087,
      "grad_norm": 0.014374610967934132,
      "learning_rate": 3.83193445243805e-05,
      "loss": 0.0167,
      "step": 10350
    },
    {
      "epoch": 24.940047961630697,
      "grad_norm": 0.06426864117383957,
      "learning_rate": 3.823607780442313e-05,
      "loss": 0.0129,
      "step": 10400
    },
    {
      "epoch": 25.059952038369303,
      "grad_norm": 0.0015677462797611952,
      "learning_rate": 3.815281108446576e-05,
      "loss": 0.013,
      "step": 10450
    },
    {
      "epoch": 25.179856115107913,
      "grad_norm": 0.001396001665852964,
      "learning_rate": 3.80695443645084e-05,
      "loss": 0.0153,
      "step": 10500
    },
    {
      "epoch": 25.179856115107913,
      "eval_acc": 0.924631894185176,
      "eval_correct": 3705,
      "eval_loss": 0.5998503565788269,
      "eval_runtime": 43.0878,
      "eval_samples_per_second": 92.996,
      "eval_steps_per_second": 11.627,
      "eval_total": 4007,
      "step": 10500
    },
    {
      "epoch": 25.299760191846524,
      "grad_norm": 14.539051055908203,
      "learning_rate": 3.7986277644551025e-05,
      "loss": 0.0239,
      "step": 10550
    },
    {
      "epoch": 25.41966426858513,
      "grad_norm": 0.001386207644827664,
      "learning_rate": 3.790301092459366e-05,
      "loss": 0.0025,
      "step": 10600
    },
    {
      "epoch": 25.53956834532374,
      "grad_norm": 1.225941777229309,
      "learning_rate": 3.7819744204636296e-05,
      "loss": 0.0069,
      "step": 10650
    },
    {
      "epoch": 25.65947242206235,
      "grad_norm": 0.3115426003932953,
      "learning_rate": 3.7736477484678924e-05,
      "loss": 0.0222,
      "step": 10700
    },
    {
      "epoch": 25.77937649880096,
      "grad_norm": 0.08972538262605667,
      "learning_rate": 3.765321076472156e-05,
      "loss": 0.0235,
      "step": 10750
    },
    {
      "epoch": 25.899280575539567,
      "grad_norm": 0.03821967914700508,
      "learning_rate": 3.756994404476419e-05,
      "loss": 0.0056,
      "step": 10800
    },
    {
      "epoch": 26.019184652278177,
      "grad_norm": 0.0013875879812985659,
      "learning_rate": 3.7486677324806824e-05,
      "loss": 0.0145,
      "step": 10850
    },
    {
      "epoch": 26.139088729016787,
      "grad_norm": 0.007684824988245964,
      "learning_rate": 3.740341060484945e-05,
      "loss": 0.03,
      "step": 10900
    },
    {
      "epoch": 26.258992805755394,
      "grad_norm": 12.733267784118652,
      "learning_rate": 3.732014388489209e-05,
      "loss": 0.0158,
      "step": 10950
    },
    {
      "epoch": 26.378896882494004,
      "grad_norm": 0.003953231498599052,
      "learning_rate": 3.7236877164934716e-05,
      "loss": 0.0247,
      "step": 11000
    },
    {
      "epoch": 26.378896882494004,
      "eval_acc": 0.9396056900424258,
      "eval_correct": 3765,
      "eval_loss": 0.37874045968055725,
      "eval_runtime": 42.7387,
      "eval_samples_per_second": 93.756,
      "eval_steps_per_second": 11.722,
      "eval_total": 4007,
      "step": 11000
    },
    {
      "epoch": 26.498800959232614,
      "grad_norm": 0.0976715013384819,
      "learning_rate": 3.715361044497736e-05,
      "loss": 0.022,
      "step": 11050
    },
    {
      "epoch": 26.618705035971225,
      "grad_norm": 0.00946839340031147,
      "learning_rate": 3.7070343725019986e-05,
      "loss": 0.018,
      "step": 11100
    },
    {
      "epoch": 26.73860911270983,
      "grad_norm": 0.04177279397845268,
      "learning_rate": 3.698707700506262e-05,
      "loss": 0.0418,
      "step": 11150
    },
    {
      "epoch": 26.85851318944844,
      "grad_norm": 0.012065030634403229,
      "learning_rate": 3.690381028510525e-05,
      "loss": 0.0204,
      "step": 11200
    },
    {
      "epoch": 26.97841726618705,
      "grad_norm": 0.0022651501931250095,
      "learning_rate": 3.6820543565147886e-05,
      "loss": 0.0072,
      "step": 11250
    },
    {
      "epoch": 27.098321342925658,
      "grad_norm": 0.006311010103672743,
      "learning_rate": 3.6737276845190514e-05,
      "loss": 0.0181,
      "step": 11300
    },
    {
      "epoch": 27.218225419664268,
      "grad_norm": 0.029497269541025162,
      "learning_rate": 3.665401012523314e-05,
      "loss": 0.0104,
      "step": 11350
    },
    {
      "epoch": 27.33812949640288,
      "grad_norm": 0.0024042432196438313,
      "learning_rate": 3.657074340527578e-05,
      "loss": 0.014,
      "step": 11400
    },
    {
      "epoch": 27.45803357314149,
      "grad_norm": 0.0020796814933419228,
      "learning_rate": 3.648747668531841e-05,
      "loss": 0.0032,
      "step": 11450
    },
    {
      "epoch": 27.577937649880095,
      "grad_norm": 0.0031152081210166216,
      "learning_rate": 3.640420996536105e-05,
      "loss": 0.0002,
      "step": 11500
    },
    {
      "epoch": 27.577937649880095,
      "eval_acc": 0.9336161716995258,
      "eval_correct": 3741,
      "eval_loss": 0.4865191876888275,
      "eval_runtime": 42.0359,
      "eval_samples_per_second": 95.323,
      "eval_steps_per_second": 11.918,
      "eval_total": 4007,
      "step": 11500
    },
    {
      "epoch": 27.697841726618705,
      "grad_norm": 0.0021950446534901857,
      "learning_rate": 3.632094324540368e-05,
      "loss": 0.0182,
      "step": 11550
    },
    {
      "epoch": 27.817745803357315,
      "grad_norm": 0.0016707207541912794,
      "learning_rate": 3.623767652544631e-05,
      "loss": 0.0026,
      "step": 11600
    },
    {
      "epoch": 27.937649880095922,
      "grad_norm": 1.9658291339874268,
      "learning_rate": 3.615440980548894e-05,
      "loss": 0.0124,
      "step": 11650
    },
    {
      "epoch": 28.057553956834532,
      "grad_norm": 1.1595417261123657,
      "learning_rate": 3.6071143085531576e-05,
      "loss": 0.007,
      "step": 11700
    },
    {
      "epoch": 28.177458033573142,
      "grad_norm": 0.001884507481008768,
      "learning_rate": 3.5987876365574205e-05,
      "loss": 0.0089,
      "step": 11750
    },
    {
      "epoch": 28.297362110311752,
      "grad_norm": 0.002337283920496702,
      "learning_rate": 3.590460964561684e-05,
      "loss": 0.0049,
      "step": 11800
    },
    {
      "epoch": 28.41726618705036,
      "grad_norm": 0.0028780591674149036,
      "learning_rate": 3.5821342925659475e-05,
      "loss": 0.0057,
      "step": 11850
    },
    {
      "epoch": 28.53717026378897,
      "grad_norm": 0.0014058522647246718,
      "learning_rate": 3.573807620570211e-05,
      "loss": 0.0029,
      "step": 11900
    },
    {
      "epoch": 28.65707434052758,
      "grad_norm": 0.0013673232169821858,
      "learning_rate": 3.565480948574474e-05,
      "loss": 0.0065,
      "step": 11950
    },
    {
      "epoch": 28.776978417266186,
      "grad_norm": 0.03339284658432007,
      "learning_rate": 3.5571542765787375e-05,
      "loss": 0.0292,
      "step": 12000
    },
    {
      "epoch": 28.776978417266186,
      "eval_acc": 0.9198901921637135,
      "eval_correct": 3686,
      "eval_loss": 0.5797978043556213,
      "eval_runtime": 42.9116,
      "eval_samples_per_second": 93.378,
      "eval_steps_per_second": 11.675,
      "eval_total": 4007,
      "step": 12000
    },
    {
      "epoch": 28.896882494004796,
      "grad_norm": 0.5673684477806091,
      "learning_rate": 3.548827604583e-05,
      "loss": 0.0061,
      "step": 12050
    },
    {
      "epoch": 29.016786570743406,
      "grad_norm": 0.0019539918284863234,
      "learning_rate": 3.540500932587263e-05,
      "loss": 0.002,
      "step": 12100
    },
    {
      "epoch": 29.136690647482013,
      "grad_norm": 0.0015341071411967278,
      "learning_rate": 3.532174260591527e-05,
      "loss": 0.0003,
      "step": 12150
    },
    {
      "epoch": 29.256594724220623,
      "grad_norm": 0.006079619750380516,
      "learning_rate": 3.52384758859579e-05,
      "loss": 0.0206,
      "step": 12200
    },
    {
      "epoch": 29.376498800959233,
      "grad_norm": 0.006198943126946688,
      "learning_rate": 3.515520916600054e-05,
      "loss": 0.0136,
      "step": 12250
    },
    {
      "epoch": 29.496402877697843,
      "grad_norm": 7.846692085266113,
      "learning_rate": 3.5071942446043166e-05,
      "loss": 0.0113,
      "step": 12300
    },
    {
      "epoch": 29.61630695443645,
      "grad_norm": 0.002491295337677002,
      "learning_rate": 3.49886757260858e-05,
      "loss": 0.0059,
      "step": 12350
    },
    {
      "epoch": 29.73621103117506,
      "grad_norm": 0.01022863294929266,
      "learning_rate": 3.490540900612843e-05,
      "loss": 0.0182,
      "step": 12400
    },
    {
      "epoch": 29.85611510791367,
      "grad_norm": 0.002009268617257476,
      "learning_rate": 3.4822142286171065e-05,
      "loss": 0.0179,
      "step": 12450
    },
    {
      "epoch": 29.976019184652277,
      "grad_norm": 0.3381607234477997,
      "learning_rate": 3.4738875566213694e-05,
      "loss": 0.017,
      "step": 12500
    },
    {
      "epoch": 29.976019184652277,
      "eval_acc": 0.9306214125280758,
      "eval_correct": 3729,
      "eval_loss": 0.49318841099739075,
      "eval_runtime": 42.2772,
      "eval_samples_per_second": 94.779,
      "eval_steps_per_second": 11.85,
      "eval_total": 4007,
      "step": 12500
    },
    {
      "epoch": 30.095923261390887,
      "grad_norm": 0.0019562486559152603,
      "learning_rate": 3.465560884625633e-05,
      "loss": 0.0125,
      "step": 12550
    },
    {
      "epoch": 30.215827338129497,
      "grad_norm": 0.0018506307387724519,
      "learning_rate": 3.4572342126298964e-05,
      "loss": 0.0127,
      "step": 12600
    },
    {
      "epoch": 30.335731414868107,
      "grad_norm": 0.006071158684790134,
      "learning_rate": 3.44890754063416e-05,
      "loss": 0.0067,
      "step": 12650
    },
    {
      "epoch": 30.455635491606714,
      "grad_norm": 0.007025890052318573,
      "learning_rate": 3.440580868638423e-05,
      "loss": 0.0061,
      "step": 12700
    },
    {
      "epoch": 30.575539568345324,
      "grad_norm": 0.025075282901525497,
      "learning_rate": 3.432254196642686e-05,
      "loss": 0.0286,
      "step": 12750
    },
    {
      "epoch": 30.695443645083934,
      "grad_norm": 0.04018962010741234,
      "learning_rate": 3.423927524646949e-05,
      "loss": 0.008,
      "step": 12800
    },
    {
      "epoch": 30.81534772182254,
      "grad_norm": 0.0014609561767429113,
      "learning_rate": 3.415600852651212e-05,
      "loss": 0.0003,
      "step": 12850
    },
    {
      "epoch": 30.93525179856115,
      "grad_norm": 0.0019996261689811945,
      "learning_rate": 3.4072741806554756e-05,
      "loss": 0.0071,
      "step": 12900
    },
    {
      "epoch": 31.05515587529976,
      "grad_norm": 0.0015339795500040054,
      "learning_rate": 3.398947508659739e-05,
      "loss": 0.0001,
      "step": 12950
    },
    {
      "epoch": 31.17505995203837,
      "grad_norm": 0.0013488964177668095,
      "learning_rate": 3.3906208366640027e-05,
      "loss": 0.0003,
      "step": 13000
    },
    {
      "epoch": 31.17505995203837,
      "eval_acc": 0.922136261542301,
      "eval_correct": 3695,
      "eval_loss": 0.6503883600234985,
      "eval_runtime": 41.4538,
      "eval_samples_per_second": 96.662,
      "eval_steps_per_second": 12.086,
      "eval_total": 4007,
      "step": 13000
    },
    {
      "epoch": 31.294964028776977,
      "grad_norm": 0.0056734043173491955,
      "learning_rate": 3.3822941646682655e-05,
      "loss": 0.0143,
      "step": 13050
    },
    {
      "epoch": 31.414868105515588,
      "grad_norm": 0.3032292127609253,
      "learning_rate": 3.373967492672529e-05,
      "loss": 0.0097,
      "step": 13100
    },
    {
      "epoch": 31.534772182254198,
      "grad_norm": 0.0032037904020398855,
      "learning_rate": 3.365640820676792e-05,
      "loss": 0.0241,
      "step": 13150
    },
    {
      "epoch": 31.654676258992804,
      "grad_norm": 0.0025689860340207815,
      "learning_rate": 3.3573141486810554e-05,
      "loss": 0.0096,
      "step": 13200
    },
    {
      "epoch": 31.774580335731414,
      "grad_norm": 0.0019378175493329763,
      "learning_rate": 3.348987476685318e-05,
      "loss": 0.0116,
      "step": 13250
    },
    {
      "epoch": 31.894484412470025,
      "grad_norm": 0.010185165330767632,
      "learning_rate": 3.340660804689582e-05,
      "loss": 0.0061,
      "step": 13300
    },
    {
      "epoch": 32.014388489208635,
      "grad_norm": 0.08763672411441803,
      "learning_rate": 3.332334132693845e-05,
      "loss": 0.0135,
      "step": 13350
    },
    {
      "epoch": 32.13429256594724,
      "grad_norm": 29.652135848999023,
      "learning_rate": 3.324007460698108e-05,
      "loss": 0.0158,
      "step": 13400
    },
    {
      "epoch": 32.25419664268585,
      "grad_norm": 0.015109853819012642,
      "learning_rate": 3.315680788702372e-05,
      "loss": 0.0142,
      "step": 13450
    },
    {
      "epoch": 32.37410071942446,
      "grad_norm": 0.011241457425057888,
      "learning_rate": 3.3073541167066346e-05,
      "loss": 0.0128,
      "step": 13500
    },
    {
      "epoch": 32.37410071942446,
      "eval_acc": 0.9114050411779386,
      "eval_correct": 3652,
      "eval_loss": 0.6727377772331238,
      "eval_runtime": 40.7483,
      "eval_samples_per_second": 98.335,
      "eval_steps_per_second": 12.295,
      "eval_total": 4007,
      "step": 13500
    },
    {
      "epoch": 32.49400479616307,
      "grad_norm": 0.008082049898803234,
      "learning_rate": 3.299027444710898e-05,
      "loss": 0.0137,
      "step": 13550
    },
    {
      "epoch": 32.61390887290168,
      "grad_norm": 0.003770900424569845,
      "learning_rate": 3.290700772715161e-05,
      "loss": 0.0018,
      "step": 13600
    },
    {
      "epoch": 32.73381294964029,
      "grad_norm": 0.00243367999792099,
      "learning_rate": 3.2823741007194245e-05,
      "loss": 0.0012,
      "step": 13650
    },
    {
      "epoch": 32.853717026378895,
      "grad_norm": 0.0775528997182846,
      "learning_rate": 3.274047428723688e-05,
      "loss": 0.0077,
      "step": 13700
    },
    {
      "epoch": 32.97362110311751,
      "grad_norm": 0.007686221040785313,
      "learning_rate": 3.2657207567279515e-05,
      "loss": 0.018,
      "step": 13750
    },
    {
      "epoch": 33.093525179856115,
      "grad_norm": 0.00767512246966362,
      "learning_rate": 3.2573940847322144e-05,
      "loss": 0.0142,
      "step": 13800
    },
    {
      "epoch": 33.21342925659472,
      "grad_norm": 0.0013187696458771825,
      "learning_rate": 3.249067412736478e-05,
      "loss": 0.0001,
      "step": 13850
    },
    {
      "epoch": 33.333333333333336,
      "grad_norm": 0.0030254703015089035,
      "learning_rate": 3.240740740740741e-05,
      "loss": 0.0061,
      "step": 13900
    },
    {
      "epoch": 33.45323741007194,
      "grad_norm": 0.001725552137941122,
      "learning_rate": 3.232414068745004e-05,
      "loss": 0.0042,
      "step": 13950
    },
    {
      "epoch": 33.57314148681055,
      "grad_norm": 0.10982845723628998,
      "learning_rate": 3.224087396749267e-05,
      "loss": 0.024,
      "step": 14000
    },
    {
      "epoch": 33.57314148681055,
      "eval_acc": 0.9129024207636636,
      "eval_correct": 3658,
      "eval_loss": 0.5500943660736084,
      "eval_runtime": 42.3617,
      "eval_samples_per_second": 94.59,
      "eval_steps_per_second": 11.827,
      "eval_total": 4007,
      "step": 14000
    },
    {
      "epoch": 33.69304556354916,
      "grad_norm": 0.7129035592079163,
      "learning_rate": 3.215760724753531e-05,
      "loss": 0.0285,
      "step": 14050
    },
    {
      "epoch": 33.81294964028777,
      "grad_norm": 0.006467580795288086,
      "learning_rate": 3.207434052757794e-05,
      "loss": 0.0209,
      "step": 14100
    },
    {
      "epoch": 33.932853717026376,
      "grad_norm": 1.321271538734436,
      "learning_rate": 3.199107380762057e-05,
      "loss": 0.011,
      "step": 14150
    },
    {
      "epoch": 34.05275779376499,
      "grad_norm": 0.006663887295871973,
      "learning_rate": 3.1907807087663206e-05,
      "loss": 0.022,
      "step": 14200
    },
    {
      "epoch": 34.172661870503596,
      "grad_norm": 0.007348277606070042,
      "learning_rate": 3.1824540367705835e-05,
      "loss": 0.0219,
      "step": 14250
    },
    {
      "epoch": 34.29256594724221,
      "grad_norm": 0.003709597745910287,
      "learning_rate": 3.174127364774847e-05,
      "loss": 0.0004,
      "step": 14300
    },
    {
      "epoch": 34.412470023980816,
      "grad_norm": 0.0026321213226765394,
      "learning_rate": 3.16580069277911e-05,
      "loss": 0.0036,
      "step": 14350
    },
    {
      "epoch": 34.53237410071942,
      "grad_norm": 0.1609606295824051,
      "learning_rate": 3.1574740207833734e-05,
      "loss": 0.008,
      "step": 14400
    },
    {
      "epoch": 34.65227817745804,
      "grad_norm": 0.0022194196935743093,
      "learning_rate": 3.149147348787637e-05,
      "loss": 0.0104,
      "step": 14450
    },
    {
      "epoch": 34.77218225419664,
      "grad_norm": 0.0020755964796990156,
      "learning_rate": 3.1408206767919004e-05,
      "loss": 0.0114,
      "step": 14500
    },
    {
      "epoch": 34.77218225419664,
      "eval_acc": 0.8597454454704268,
      "eval_correct": 3445,
      "eval_loss": 0.9957567453384399,
      "eval_runtime": 42.3832,
      "eval_samples_per_second": 94.542,
      "eval_steps_per_second": 11.821,
      "eval_total": 4007,
      "step": 14500
    },
    {
      "epoch": 34.89208633093525,
      "grad_norm": 0.039757102727890015,
      "learning_rate": 3.132494004796163e-05,
      "loss": 0.0019,
      "step": 14550
    },
    {
      "epoch": 35.01199040767386,
      "grad_norm": 0.0027569762896746397,
      "learning_rate": 3.124167332800427e-05,
      "loss": 0.0139,
      "step": 14600
    },
    {
      "epoch": 35.13189448441247,
      "grad_norm": 0.0024472419172525406,
      "learning_rate": 3.11584066080469e-05,
      "loss": 0.0056,
      "step": 14650
    },
    {
      "epoch": 35.25179856115108,
      "grad_norm": 0.002150455256924033,
      "learning_rate": 3.1075139888089525e-05,
      "loss": 0.0026,
      "step": 14700
    },
    {
      "epoch": 35.37170263788969,
      "grad_norm": 0.0020093407947570086,
      "learning_rate": 3.099187316813216e-05,
      "loss": 0.0001,
      "step": 14750
    },
    {
      "epoch": 35.4916067146283,
      "grad_norm": 0.0018576175207272172,
      "learning_rate": 3.0908606448174796e-05,
      "loss": 0.0002,
      "step": 14800
    },
    {
      "epoch": 35.611510791366904,
      "grad_norm": 0.0024151080287992954,
      "learning_rate": 3.082533972821743e-05,
      "loss": 0.0059,
      "step": 14850
    },
    {
      "epoch": 35.73141486810552,
      "grad_norm": 24.965261459350586,
      "learning_rate": 3.074207300826006e-05,
      "loss": 0.0053,
      "step": 14900
    },
    {
      "epoch": 35.851318944844124,
      "grad_norm": 0.00231426814571023,
      "learning_rate": 3.0658806288302695e-05,
      "loss": 0.0022,
      "step": 14950
    },
    {
      "epoch": 35.97122302158273,
      "grad_norm": 0.0019122723024338484,
      "learning_rate": 3.0575539568345324e-05,
      "loss": 0.0004,
      "step": 15000
    },
    {
      "epoch": 35.97122302158273,
      "eval_acc": 0.9178936860494136,
      "eval_correct": 3678,
      "eval_loss": 0.666572093963623,
      "eval_runtime": 42.4924,
      "eval_samples_per_second": 94.299,
      "eval_steps_per_second": 11.79,
      "eval_total": 4007,
      "step": 15000
    },
    {
      "epoch": 36.091127098321344,
      "grad_norm": 0.0018762092804536223,
      "learning_rate": 3.049227284838796e-05,
      "loss": 0.0123,
      "step": 15050
    },
    {
      "epoch": 36.21103117505995,
      "grad_norm": 0.07239305227994919,
      "learning_rate": 3.040900612843059e-05,
      "loss": 0.0089,
      "step": 15100
    },
    {
      "epoch": 36.330935251798564,
      "grad_norm": 0.03460455313324928,
      "learning_rate": 3.0325739408473226e-05,
      "loss": 0.004,
      "step": 15150
    },
    {
      "epoch": 36.45083932853717,
      "grad_norm": 0.002097085351124406,
      "learning_rate": 3.0242472688515855e-05,
      "loss": 0.0061,
      "step": 15200
    },
    {
      "epoch": 36.57074340527578,
      "grad_norm": 0.0019135611364617944,
      "learning_rate": 3.015920596855849e-05,
      "loss": 0.0001,
      "step": 15250
    },
    {
      "epoch": 36.69064748201439,
      "grad_norm": 0.001747890724800527,
      "learning_rate": 3.0075939248601122e-05,
      "loss": 0.0002,
      "step": 15300
    },
    {
      "epoch": 36.810551558753,
      "grad_norm": 0.0017096849624067545,
      "learning_rate": 2.999267252864375e-05,
      "loss": 0.005,
      "step": 15350
    },
    {
      "epoch": 36.930455635491604,
      "grad_norm": 0.01582392491400242,
      "learning_rate": 2.9909405808686386e-05,
      "loss": 0.0001,
      "step": 15400
    },
    {
      "epoch": 37.05035971223022,
      "grad_norm": 0.034772515296936035,
      "learning_rate": 2.9826139088729018e-05,
      "loss": 0.0051,
      "step": 15450
    },
    {
      "epoch": 37.170263788968825,
      "grad_norm": 0.0014816818293184042,
      "learning_rate": 2.9742872368771653e-05,
      "loss": 0.0013,
      "step": 15500
    },
    {
      "epoch": 37.170263788968825,
      "eval_acc": 0.9218866982780135,
      "eval_correct": 3694,
      "eval_loss": 0.6279436945915222,
      "eval_runtime": 41.5611,
      "eval_samples_per_second": 96.412,
      "eval_steps_per_second": 12.055,
      "eval_total": 4007,
      "step": 15500
    },
    {
      "epoch": 37.29016786570743,
      "grad_norm": 0.0014583688462153077,
      "learning_rate": 2.965960564881428e-05,
      "loss": 0.0041,
      "step": 15550
    },
    {
      "epoch": 37.410071942446045,
      "grad_norm": 0.0014011908788233995,
      "learning_rate": 2.9576338928856917e-05,
      "loss": 0.0001,
      "step": 15600
    },
    {
      "epoch": 37.52997601918465,
      "grad_norm": 0.025299502536654472,
      "learning_rate": 2.949307220889955e-05,
      "loss": 0.0019,
      "step": 15650
    },
    {
      "epoch": 37.64988009592326,
      "grad_norm": 0.04075402766466141,
      "learning_rate": 2.9409805488942184e-05,
      "loss": 0.0284,
      "step": 15700
    },
    {
      "epoch": 37.76978417266187,
      "grad_norm": 0.0013078982010483742,
      "learning_rate": 2.9326538768984813e-05,
      "loss": 0.0026,
      "step": 15750
    },
    {
      "epoch": 37.88968824940048,
      "grad_norm": 0.001230885973200202,
      "learning_rate": 2.9243272049027448e-05,
      "loss": 0.0002,
      "step": 15800
    },
    {
      "epoch": 38.00959232613909,
      "grad_norm": 0.0012008030898869038,
      "learning_rate": 2.916000532907008e-05,
      "loss": 0.0108,
      "step": 15850
    },
    {
      "epoch": 38.1294964028777,
      "grad_norm": 0.0011780333006754518,
      "learning_rate": 2.9076738609112715e-05,
      "loss": 0.004,
      "step": 15900
    },
    {
      "epoch": 38.249400479616305,
      "grad_norm": 0.0011413079919293523,
      "learning_rate": 2.8993471889155344e-05,
      "loss": 0.0002,
      "step": 15950
    },
    {
      "epoch": 38.36930455635492,
      "grad_norm": 0.0011067958548665047,
      "learning_rate": 2.8910205169197972e-05,
      "loss": 0.0066,
      "step": 16000
    },
    {
      "epoch": 38.36930455635492,
      "eval_acc": 0.9091589717993511,
      "eval_correct": 3643,
      "eval_loss": 0.7955911159515381,
      "eval_runtime": 42.5756,
      "eval_samples_per_second": 94.115,
      "eval_steps_per_second": 11.767,
      "eval_total": 4007,
      "step": 16000
    },
    {
      "epoch": 38.489208633093526,
      "grad_norm": 0.001046511810272932,
      "learning_rate": 2.882693844924061e-05,
      "loss": 0.0022,
      "step": 16050
    },
    {
      "epoch": 38.60911270983213,
      "grad_norm": 0.0010115521727129817,
      "learning_rate": 2.874367172928324e-05,
      "loss": 0.0001,
      "step": 16100
    },
    {
      "epoch": 38.729016786570746,
      "grad_norm": 0.0011015033815056086,
      "learning_rate": 2.8660405009325875e-05,
      "loss": 0.0155,
      "step": 16150
    },
    {
      "epoch": 38.84892086330935,
      "grad_norm": 0.003151810495182872,
      "learning_rate": 2.8577138289368503e-05,
      "loss": 0.01,
      "step": 16200
    },
    {
      "epoch": 38.96882494004796,
      "grad_norm": 0.002091245958581567,
      "learning_rate": 2.8493871569411142e-05,
      "loss": 0.0035,
      "step": 16250
    },
    {
      "epoch": 39.08872901678657,
      "grad_norm": 0.007451608311384916,
      "learning_rate": 2.841060484945377e-05,
      "loss": 0.0052,
      "step": 16300
    },
    {
      "epoch": 39.20863309352518,
      "grad_norm": 0.001779719372279942,
      "learning_rate": 2.8327338129496406e-05,
      "loss": 0.0027,
      "step": 16350
    },
    {
      "epoch": 39.328537170263786,
      "grad_norm": 0.0010435187723487616,
      "learning_rate": 2.8244071409539034e-05,
      "loss": 0.0028,
      "step": 16400
    },
    {
      "epoch": 39.4484412470024,
      "grad_norm": 0.006811033468693495,
      "learning_rate": 2.8160804689581673e-05,
      "loss": 0.0191,
      "step": 16450
    },
    {
      "epoch": 39.568345323741006,
      "grad_norm": 0.0013709078775718808,
      "learning_rate": 2.80775379696243e-05,
      "loss": 0.0135,
      "step": 16500
    },
    {
      "epoch": 39.568345323741006,
      "eval_acc": 0.9054155228350387,
      "eval_correct": 3628,
      "eval_loss": 0.717784583568573,
      "eval_runtime": 41.2273,
      "eval_samples_per_second": 97.193,
      "eval_steps_per_second": 12.152,
      "eval_total": 4007,
      "step": 16500
    },
    {
      "epoch": 39.68824940047961,
      "grad_norm": 0.3412819802761078,
      "learning_rate": 2.7994271249666937e-05,
      "loss": 0.0094,
      "step": 16550
    },
    {
      "epoch": 39.80815347721823,
      "grad_norm": 0.032710954546928406,
      "learning_rate": 2.7911004529709565e-05,
      "loss": 0.013,
      "step": 16600
    },
    {
      "epoch": 39.92805755395683,
      "grad_norm": 0.01263014879077673,
      "learning_rate": 2.7827737809752204e-05,
      "loss": 0.0366,
      "step": 16650
    },
    {
      "epoch": 40.04796163069545,
      "grad_norm": 0.006404323503375053,
      "learning_rate": 2.7744471089794833e-05,
      "loss": 0.0185,
      "step": 16700
    },
    {
      "epoch": 40.16786570743405,
      "grad_norm": 0.0025614872574806213,
      "learning_rate": 2.766120436983746e-05,
      "loss": 0.0112,
      "step": 16750
    },
    {
      "epoch": 40.28776978417266,
      "grad_norm": 0.0034454523120075464,
      "learning_rate": 2.7577937649880096e-05,
      "loss": 0.0077,
      "step": 16800
    },
    {
      "epoch": 40.407673860911274,
      "grad_norm": 0.07196377962827682,
      "learning_rate": 2.749467092992273e-05,
      "loss": 0.0022,
      "step": 16850
    },
    {
      "epoch": 40.52757793764988,
      "grad_norm": 0.0016974823083728552,
      "learning_rate": 2.7411404209965364e-05,
      "loss": 0.0065,
      "step": 16900
    },
    {
      "epoch": 40.64748201438849,
      "grad_norm": 0.0015948776854202151,
      "learning_rate": 2.7328137490007992e-05,
      "loss": 0.003,
      "step": 16950
    },
    {
      "epoch": 40.7673860911271,
      "grad_norm": 0.0015061198500916362,
      "learning_rate": 2.7244870770050627e-05,
      "loss": 0.0057,
      "step": 17000
    },
    {
      "epoch": 40.7673860911271,
      "eval_acc": 0.9056650860993262,
      "eval_correct": 3629,
      "eval_loss": 0.8020514249801636,
      "eval_runtime": 41.469,
      "eval_samples_per_second": 96.626,
      "eval_steps_per_second": 12.081,
      "eval_total": 4007,
      "step": 17000
    },
    {
      "epoch": 40.88729016786571,
      "grad_norm": 0.004492442589253187,
      "learning_rate": 2.716160405009326e-05,
      "loss": 0.018,
      "step": 17050
    },
    {
      "epoch": 41.007194244604314,
      "grad_norm": 0.002894414821639657,
      "learning_rate": 2.7078337330135895e-05,
      "loss": 0.0139,
      "step": 17100
    },
    {
      "epoch": 41.12709832134293,
      "grad_norm": 0.003415409242734313,
      "learning_rate": 2.6995070610178523e-05,
      "loss": 0.0083,
      "step": 17150
    },
    {
      "epoch": 41.247002398081534,
      "grad_norm": 0.10210326313972473,
      "learning_rate": 2.691180389022116e-05,
      "loss": 0.008,
      "step": 17200
    },
    {
      "epoch": 41.36690647482014,
      "grad_norm": 0.002584136789664626,
      "learning_rate": 2.682853717026379e-05,
      "loss": 0.0145,
      "step": 17250
    },
    {
      "epoch": 41.486810551558754,
      "grad_norm": 0.002455333713442087,
      "learning_rate": 2.6745270450306426e-05,
      "loss": 0.0038,
      "step": 17300
    },
    {
      "epoch": 41.60671462829736,
      "grad_norm": 0.0361919105052948,
      "learning_rate": 2.6662003730349054e-05,
      "loss": 0.0053,
      "step": 17350
    },
    {
      "epoch": 41.726618705035975,
      "grad_norm": 0.0019992173183709383,
      "learning_rate": 2.6578737010391686e-05,
      "loss": 0.0042,
      "step": 17400
    },
    {
      "epoch": 41.84652278177458,
      "grad_norm": 0.0019267502939328551,
      "learning_rate": 2.649547029043432e-05,
      "loss": 0.0026,
      "step": 17450
    },
    {
      "epoch": 41.96642685851319,
      "grad_norm": 0.0017673459369689226,
      "learning_rate": 2.641220357047695e-05,
      "loss": 0.0018,
      "step": 17500
    },
    {
      "epoch": 41.96642685851319,
      "eval_acc": 0.9141502370851011,
      "eval_correct": 3663,
      "eval_loss": 0.6433929800987244,
      "eval_runtime": 43.1675,
      "eval_samples_per_second": 92.825,
      "eval_steps_per_second": 11.606,
      "eval_total": 4007,
      "step": 17500
    },
    {
      "epoch": 42.0863309352518,
      "grad_norm": 0.005748764146119356,
      "learning_rate": 2.6328936850519585e-05,
      "loss": 0.0053,
      "step": 17550
    },
    {
      "epoch": 42.20623501199041,
      "grad_norm": 0.001622114679776132,
      "learning_rate": 2.6245670130562217e-05,
      "loss": 0.0001,
      "step": 17600
    },
    {
      "epoch": 42.326139088729015,
      "grad_norm": 0.0015487467171624303,
      "learning_rate": 2.6162403410604853e-05,
      "loss": 0.0007,
      "step": 17650
    },
    {
      "epoch": 42.44604316546763,
      "grad_norm": 0.0017904489068314433,
      "learning_rate": 2.607913669064748e-05,
      "loss": 0.0061,
      "step": 17700
    },
    {
      "epoch": 42.565947242206235,
      "grad_norm": 0.0018439743435010314,
      "learning_rate": 2.5995869970690116e-05,
      "loss": 0.0001,
      "step": 17750
    },
    {
      "epoch": 42.68585131894484,
      "grad_norm": 0.0017471453174948692,
      "learning_rate": 2.591260325073275e-05,
      "loss": 0.0001,
      "step": 17800
    },
    {
      "epoch": 42.805755395683455,
      "grad_norm": 0.001634513959288597,
      "learning_rate": 2.5829336530775384e-05,
      "loss": 0.0001,
      "step": 17850
    },
    {
      "epoch": 42.92565947242206,
      "grad_norm": 0.001566282007843256,
      "learning_rate": 2.5746069810818012e-05,
      "loss": 0.0001,
      "step": 17900
    },
    {
      "epoch": 43.04556354916067,
      "grad_norm": 0.0015136388828977942,
      "learning_rate": 2.5662803090860647e-05,
      "loss": 0.0001,
      "step": 17950
    },
    {
      "epoch": 43.16546762589928,
      "grad_norm": 0.006712200120091438,
      "learning_rate": 2.557953637090328e-05,
      "loss": 0.002,
      "step": 18000
    },
    {
      "epoch": 43.16546762589928,
      "eval_acc": 0.9148989268779636,
      "eval_correct": 3666,
      "eval_loss": 0.718104898929596,
      "eval_runtime": 42.0016,
      "eval_samples_per_second": 95.401,
      "eval_steps_per_second": 11.928,
      "eval_total": 4007,
      "step": 18000
    },
    {
      "epoch": 43.28537170263789,
      "grad_norm": 0.001401570625603199,
      "learning_rate": 2.5496269650945908e-05,
      "loss": 0.0036,
      "step": 18050
    },
    {
      "epoch": 43.405275779376495,
      "grad_norm": 0.004146796651184559,
      "learning_rate": 2.5413002930988543e-05,
      "loss": 0.0109,
      "step": 18100
    },
    {
      "epoch": 43.52517985611511,
      "grad_norm": 0.0014507940504699945,
      "learning_rate": 2.5329736211031175e-05,
      "loss": 0.006,
      "step": 18150
    },
    {
      "epoch": 43.645083932853716,
      "grad_norm": 0.0023612009827047586,
      "learning_rate": 2.524646949107381e-05,
      "loss": 0.006,
      "step": 18200
    },
    {
      "epoch": 43.76498800959233,
      "grad_norm": 0.005255814176052809,
      "learning_rate": 2.516320277111644e-05,
      "loss": 0.0001,
      "step": 18250
    },
    {
      "epoch": 43.884892086330936,
      "grad_norm": 0.0015927028143778443,
      "learning_rate": 2.5079936051159074e-05,
      "loss": 0.002,
      "step": 18300
    },
    {
      "epoch": 44.00479616306954,
      "grad_norm": 0.0015084685292094946,
      "learning_rate": 2.4996669331201706e-05,
      "loss": 0.0001,
      "step": 18350
    },
    {
      "epoch": 44.124700239808156,
      "grad_norm": 0.002804758492857218,
      "learning_rate": 2.4913402611244338e-05,
      "loss": 0.002,
      "step": 18400
    },
    {
      "epoch": 44.24460431654676,
      "grad_norm": 0.0015120247844606638,
      "learning_rate": 2.483013589128697e-05,
      "loss": 0.0001,
      "step": 18450
    },
    {
      "epoch": 44.36450839328537,
      "grad_norm": 0.00141456862911582,
      "learning_rate": 2.4746869171329602e-05,
      "loss": 0.0079,
      "step": 18500
    },
    {
      "epoch": 44.36450839328537,
      "eval_acc": 0.9188919391065635,
      "eval_correct": 3682,
      "eval_loss": 0.6409481763839722,
      "eval_runtime": 41.9984,
      "eval_samples_per_second": 95.408,
      "eval_steps_per_second": 11.929,
      "eval_total": 4007,
      "step": 18500
    },
    {
      "epoch": 44.48441247002398,
      "grad_norm": 0.001341913710348308,
      "learning_rate": 2.4663602451372237e-05,
      "loss": 0.0001,
      "step": 18550
    },
    {
      "epoch": 44.60431654676259,
      "grad_norm": 0.0296541266143322,
      "learning_rate": 2.458033573141487e-05,
      "loss": 0.0041,
      "step": 18600
    },
    {
      "epoch": 44.724220623501196,
      "grad_norm": 0.016788549721240997,
      "learning_rate": 2.44970690114575e-05,
      "loss": 0.0067,
      "step": 18650
    },
    {
      "epoch": 44.84412470023981,
      "grad_norm": 0.0014359590131789446,
      "learning_rate": 2.4413802291500133e-05,
      "loss": 0.0146,
      "step": 18700
    },
    {
      "epoch": 44.96402877697842,
      "grad_norm": 0.002843833062797785,
      "learning_rate": 2.433053557154277e-05,
      "loss": 0.0001,
      "step": 18750
    },
    {
      "epoch": 45.08393285371702,
      "grad_norm": 0.0012936750426888466,
      "learning_rate": 2.42472688515854e-05,
      "loss": 0.0048,
      "step": 18800
    },
    {
      "epoch": 45.20383693045564,
      "grad_norm": 0.001262130681425333,
      "learning_rate": 2.4164002131628032e-05,
      "loss": 0.0055,
      "step": 18850
    },
    {
      "epoch": 45.32374100719424,
      "grad_norm": 0.005791415460407734,
      "learning_rate": 2.4080735411670664e-05,
      "loss": 0.0157,
      "step": 18900
    },
    {
      "epoch": 45.44364508393286,
      "grad_norm": 0.14063507318496704,
      "learning_rate": 2.39974686917133e-05,
      "loss": 0.02,
      "step": 18950
    },
    {
      "epoch": 45.563549160671464,
      "grad_norm": 0.007899941876530647,
      "learning_rate": 2.3914201971755928e-05,
      "loss": 0.0472,
      "step": 19000
    },
    {
      "epoch": 45.563549160671464,
      "eval_acc": 0.921138008485151,
      "eval_correct": 3691,
      "eval_loss": 0.5380761623382568,
      "eval_runtime": 43.2246,
      "eval_samples_per_second": 92.702,
      "eval_steps_per_second": 11.591,
      "eval_total": 4007,
      "step": 19000
    },
    {
      "epoch": 45.68345323741007,
      "grad_norm": 0.012687885202467442,
      "learning_rate": 2.383093525179856e-05,
      "loss": 0.0126,
      "step": 19050
    },
    {
      "epoch": 45.803357314148684,
      "grad_norm": 0.0040974002331495285,
      "learning_rate": 2.3747668531841195e-05,
      "loss": 0.004,
      "step": 19100
    },
    {
      "epoch": 45.92326139088729,
      "grad_norm": 0.0035156349185854197,
      "learning_rate": 2.3664401811883827e-05,
      "loss": 0.0097,
      "step": 19150
    },
    {
      "epoch": 46.0431654676259,
      "grad_norm": 0.0829363614320755,
      "learning_rate": 2.358113509192646e-05,
      "loss": 0.0193,
      "step": 19200
    },
    {
      "epoch": 46.16306954436451,
      "grad_norm": 0.002348024398088455,
      "learning_rate": 2.349786837196909e-05,
      "loss": 0.0127,
      "step": 19250
    },
    {
      "epoch": 46.28297362110312,
      "grad_norm": 0.01264687068760395,
      "learning_rate": 2.3414601652011726e-05,
      "loss": 0.0149,
      "step": 19300
    },
    {
      "epoch": 46.402877697841724,
      "grad_norm": 0.00318498769775033,
      "learning_rate": 2.3331334932054358e-05,
      "loss": 0.0004,
      "step": 19350
    },
    {
      "epoch": 46.52278177458034,
      "grad_norm": 0.002626030007377267,
      "learning_rate": 2.324806821209699e-05,
      "loss": 0.0002,
      "step": 19400
    },
    {
      "epoch": 46.642685851318944,
      "grad_norm": 0.05198327451944351,
      "learning_rate": 2.3164801492139622e-05,
      "loss": 0.0157,
      "step": 19450
    },
    {
      "epoch": 46.76258992805755,
      "grad_norm": 0.005400694906711578,
      "learning_rate": 2.3081534772182257e-05,
      "loss": 0.0073,
      "step": 19500
    },
    {
      "epoch": 46.76258992805755,
      "eval_acc": 0.9059146493636137,
      "eval_correct": 3630,
      "eval_loss": 0.6802911758422852,
      "eval_runtime": 41.1858,
      "eval_samples_per_second": 97.291,
      "eval_steps_per_second": 12.164,
      "eval_total": 4007,
      "step": 19500
    },
    {
      "epoch": 46.882494004796165,
      "grad_norm": 0.0036203190684318542,
      "learning_rate": 2.299826805222489e-05,
      "loss": 0.0003,
      "step": 19550
    },
    {
      "epoch": 47.00239808153477,
      "grad_norm": 0.003092425176873803,
      "learning_rate": 2.291500133226752e-05,
      "loss": 0.0002,
      "step": 19600
    },
    {
      "epoch": 47.12230215827338,
      "grad_norm": 124.4974594116211,
      "learning_rate": 2.2831734612310153e-05,
      "loss": 0.0041,
      "step": 19650
    },
    {
      "epoch": 47.24220623501199,
      "grad_norm": 0.002447473583742976,
      "learning_rate": 2.2748467892352785e-05,
      "loss": 0.0038,
      "step": 19700
    },
    {
      "epoch": 47.3621103117506,
      "grad_norm": 0.0031972057186067104,
      "learning_rate": 2.2665201172395417e-05,
      "loss": 0.0091,
      "step": 19750
    },
    {
      "epoch": 47.48201438848921,
      "grad_norm": 35.14806365966797,
      "learning_rate": 2.258193445243805e-05,
      "loss": 0.0055,
      "step": 19800
    },
    {
      "epoch": 47.60191846522782,
      "grad_norm": 0.002629812341183424,
      "learning_rate": 2.2498667732480684e-05,
      "loss": 0.0053,
      "step": 19850
    },
    {
      "epoch": 47.721822541966425,
      "grad_norm": 0.0033668838441371918,
      "learning_rate": 2.2415401012523316e-05,
      "loss": 0.0129,
      "step": 19900
    },
    {
      "epoch": 47.84172661870504,
      "grad_norm": 0.14138799905776978,
      "learning_rate": 2.2332134292565948e-05,
      "loss": 0.0017,
      "step": 19950
    },
    {
      "epoch": 47.961630695443645,
      "grad_norm": 0.0030677677132189274,
      "learning_rate": 2.224886757260858e-05,
      "loss": 0.0025,
      "step": 20000
    },
    {
      "epoch": 47.961630695443645,
      "eval_acc": 0.9024207636635887,
      "eval_correct": 3616,
      "eval_loss": 0.7721095085144043,
      "eval_runtime": 41.9751,
      "eval_samples_per_second": 95.461,
      "eval_steps_per_second": 11.936,
      "eval_total": 4007,
      "step": 20000
    },
    {
      "epoch": 48.08153477218225,
      "grad_norm": 27.872486114501953,
      "learning_rate": 2.2165600852651215e-05,
      "loss": 0.0114,
      "step": 20050
    },
    {
      "epoch": 48.201438848920866,
      "grad_norm": 0.0024101845920085907,
      "learning_rate": 2.2082334132693847e-05,
      "loss": 0.0006,
      "step": 20100
    },
    {
      "epoch": 48.32134292565947,
      "grad_norm": 0.0024278524797409773,
      "learning_rate": 2.199906741273648e-05,
      "loss": 0.0087,
      "step": 20150
    },
    {
      "epoch": 48.44124700239808,
      "grad_norm": 0.0022328149061650038,
      "learning_rate": 2.191580069277911e-05,
      "loss": 0.0051,
      "step": 20200
    },
    {
      "epoch": 48.56115107913669,
      "grad_norm": 0.0021424684673547745,
      "learning_rate": 2.1832533972821746e-05,
      "loss": 0.0031,
      "step": 20250
    },
    {
      "epoch": 48.6810551558753,
      "grad_norm": 0.030358925461769104,
      "learning_rate": 2.1749267252864375e-05,
      "loss": 0.0061,
      "step": 20300
    },
    {
      "epoch": 48.800959232613906,
      "grad_norm": 0.0018912258092314005,
      "learning_rate": 2.1666000532907007e-05,
      "loss": 0.0002,
      "step": 20350
    },
    {
      "epoch": 48.92086330935252,
      "grad_norm": 0.5228992700576782,
      "learning_rate": 2.1582733812949642e-05,
      "loss": 0.0058,
      "step": 20400
    },
    {
      "epoch": 49.040767386091126,
      "grad_norm": 0.0025557996705174446,
      "learning_rate": 2.1499467092992274e-05,
      "loss": 0.0002,
      "step": 20450
    },
    {
      "epoch": 49.16067146282974,
      "grad_norm": 0.0020711938850581646,
      "learning_rate": 2.1416200373034906e-05,
      "loss": 0.0001,
      "step": 20500
    },
    {
      "epoch": 49.16067146282974,
      "eval_acc": 0.9178936860494136,
      "eval_correct": 3678,
      "eval_loss": 0.6129926443099976,
      "eval_runtime": 42.8211,
      "eval_samples_per_second": 93.575,
      "eval_steps_per_second": 11.7,
      "eval_total": 4007,
      "step": 20500
    },
    {
      "epoch": 49.280575539568346,
      "grad_norm": 0.001986406510695815,
      "learning_rate": 2.1332933653077538e-05,
      "loss": 0.0001,
      "step": 20550
    },
    {
      "epoch": 49.40047961630695,
      "grad_norm": 0.0018510882509872317,
      "learning_rate": 2.1249666933120173e-05,
      "loss": 0.0001,
      "step": 20600
    },
    {
      "epoch": 49.52038369304557,
      "grad_norm": 0.0033833435736596584,
      "learning_rate": 2.1166400213162805e-05,
      "loss": 0.0066,
      "step": 20650
    },
    {
      "epoch": 49.64028776978417,
      "grad_norm": 0.006594958249479532,
      "learning_rate": 2.1083133493205437e-05,
      "loss": 0.0088,
      "step": 20700
    },
    {
      "epoch": 49.76019184652278,
      "grad_norm": 0.005041222088038921,
      "learning_rate": 2.099986677324807e-05,
      "loss": 0.0035,
      "step": 20750
    },
    {
      "epoch": 49.88009592326139,
      "grad_norm": 0.0027840295806527138,
      "learning_rate": 2.0916600053290704e-05,
      "loss": 0.0002,
      "step": 20800
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.0019111771835014224,
      "learning_rate": 2.0833333333333336e-05,
      "loss": 0.0001,
      "step": 20850
    },
    {
      "epoch": 50.11990407673861,
      "grad_norm": 0.003546286839991808,
      "learning_rate": 2.0750066613375968e-05,
      "loss": 0.0001,
      "step": 20900
    },
    {
      "epoch": 50.23980815347722,
      "grad_norm": 0.0024384979624301195,
      "learning_rate": 2.06667998934186e-05,
      "loss": 0.0001,
      "step": 20950
    },
    {
      "epoch": 50.35971223021583,
      "grad_norm": 0.0016919082263484597,
      "learning_rate": 2.0583533173461232e-05,
      "loss": 0.0001,
      "step": 21000
    },
    {
      "epoch": 50.35971223021583,
      "eval_acc": 0.9218866982780135,
      "eval_correct": 3694,
      "eval_loss": 0.5975777506828308,
      "eval_runtime": 41.9737,
      "eval_samples_per_second": 95.465,
      "eval_steps_per_second": 11.936,
      "eval_total": 4007,
      "step": 21000
    },
    {
      "epoch": 50.47961630695443,
      "grad_norm": 0.0017429891740903258,
      "learning_rate": 2.0500266453503864e-05,
      "loss": 0.0001,
      "step": 21050
    },
    {
      "epoch": 50.59952038369305,
      "grad_norm": 0.0015648921253159642,
      "learning_rate": 2.0416999733546496e-05,
      "loss": 0.0001,
      "step": 21100
    },
    {
      "epoch": 50.719424460431654,
      "grad_norm": 0.001979407388716936,
      "learning_rate": 2.0333733013589128e-05,
      "loss": 0.0039,
      "step": 21150
    },
    {
      "epoch": 50.83932853717026,
      "grad_norm": 0.0024219986516982317,
      "learning_rate": 2.0250466293631763e-05,
      "loss": 0.0128,
      "step": 21200
    },
    {
      "epoch": 50.959232613908874,
      "grad_norm": 0.0020900655072182417,
      "learning_rate": 2.0167199573674395e-05,
      "loss": 0.0007,
      "step": 21250
    },
    {
      "epoch": 51.07913669064748,
      "grad_norm": 0.0017198233399540186,
      "learning_rate": 2.0083932853717027e-05,
      "loss": 0.0063,
      "step": 21300
    },
    {
      "epoch": 51.199040767386094,
      "grad_norm": 0.0032621314749121666,
      "learning_rate": 2.000066613375966e-05,
      "loss": 0.0002,
      "step": 21350
    },
    {
      "epoch": 51.3189448441247,
      "grad_norm": 0.0034702650737017393,
      "learning_rate": 1.9917399413802294e-05,
      "loss": 0.0038,
      "step": 21400
    },
    {
      "epoch": 51.43884892086331,
      "grad_norm": 0.00432253535836935,
      "learning_rate": 1.9834132693844926e-05,
      "loss": 0.0063,
      "step": 21450
    },
    {
      "epoch": 51.55875299760192,
      "grad_norm": 0.0017112856730818748,
      "learning_rate": 1.9750865973887558e-05,
      "loss": 0.0201,
      "step": 21500
    },
    {
      "epoch": 51.55875299760192,
      "eval_acc": 0.916645869727976,
      "eval_correct": 3673,
      "eval_loss": 0.6122593879699707,
      "eval_runtime": 42.6913,
      "eval_samples_per_second": 93.86,
      "eval_steps_per_second": 11.735,
      "eval_total": 4007,
      "step": 21500
    },
    {
      "epoch": 51.67865707434053,
      "grad_norm": 0.012513699941337109,
      "learning_rate": 1.966759925393019e-05,
      "loss": 0.006,
      "step": 21550
    },
    {
      "epoch": 51.798561151079134,
      "grad_norm": 0.0014369665877893567,
      "learning_rate": 1.9584332533972825e-05,
      "loss": 0.0086,
      "step": 21600
    },
    {
      "epoch": 51.91846522781775,
      "grad_norm": 0.0014710782561451197,
      "learning_rate": 1.9501065814015454e-05,
      "loss": 0.006,
      "step": 21650
    },
    {
      "epoch": 52.038369304556355,
      "grad_norm": 0.0015172784915193915,
      "learning_rate": 1.9417799094058085e-05,
      "loss": 0.0085,
      "step": 21700
    },
    {
      "epoch": 52.15827338129496,
      "grad_norm": 0.04918811842799187,
      "learning_rate": 1.933453237410072e-05,
      "loss": 0.0219,
      "step": 21750
    },
    {
      "epoch": 52.278177458033575,
      "grad_norm": 0.005166972521692514,
      "learning_rate": 1.9251265654143353e-05,
      "loss": 0.0012,
      "step": 21800
    },
    {
      "epoch": 52.39808153477218,
      "grad_norm": 0.0034207762219011784,
      "learning_rate": 1.9167998934185985e-05,
      "loss": 0.0058,
      "step": 21850
    },
    {
      "epoch": 52.51798561151079,
      "grad_norm": 0.006115980911999941,
      "learning_rate": 1.9084732214228616e-05,
      "loss": 0.0066,
      "step": 21900
    },
    {
      "epoch": 52.6378896882494,
      "grad_norm": 0.0030150609090924263,
      "learning_rate": 1.9001465494271252e-05,
      "loss": 0.0019,
      "step": 21950
    },
    {
      "epoch": 52.75779376498801,
      "grad_norm": 0.0035780940670520067,
      "learning_rate": 1.8918198774313884e-05,
      "loss": 0.0061,
      "step": 22000
    },
    {
      "epoch": 52.75779376498801,
      "eval_acc": 0.9233840778637384,
      "eval_correct": 3700,
      "eval_loss": 0.5915012359619141,
      "eval_runtime": 43.2175,
      "eval_samples_per_second": 92.717,
      "eval_steps_per_second": 11.593,
      "eval_total": 4007,
      "step": 22000
    },
    {
      "epoch": 52.87769784172662,
      "grad_norm": 0.006318508647382259,
      "learning_rate": 1.8834932054356516e-05,
      "loss": 0.0048,
      "step": 22050
    },
    {
      "epoch": 52.99760191846523,
      "grad_norm": 0.003762729000300169,
      "learning_rate": 1.8751665334399148e-05,
      "loss": 0.0099,
      "step": 22100
    },
    {
      "epoch": 53.117505995203835,
      "grad_norm": 0.611490786075592,
      "learning_rate": 1.8668398614441783e-05,
      "loss": 0.0248,
      "step": 22150
    },
    {
      "epoch": 53.23741007194245,
      "grad_norm": 0.005808352492749691,
      "learning_rate": 1.8585131894484415e-05,
      "loss": 0.0013,
      "step": 22200
    },
    {
      "epoch": 53.357314148681056,
      "grad_norm": 0.020675525069236755,
      "learning_rate": 1.8501865174527047e-05,
      "loss": 0.0245,
      "step": 22250
    },
    {
      "epoch": 53.47721822541966,
      "grad_norm": 0.007840966805815697,
      "learning_rate": 1.841859845456968e-05,
      "loss": 0.0171,
      "step": 22300
    },
    {
      "epoch": 53.597122302158276,
      "grad_norm": 0.005006860941648483,
      "learning_rate": 1.833533173461231e-05,
      "loss": 0.0048,
      "step": 22350
    },
    {
      "epoch": 53.71702637889688,
      "grad_norm": 0.0034511731937527657,
      "learning_rate": 1.8252065014654942e-05,
      "loss": 0.0004,
      "step": 22400
    },
    {
      "epoch": 53.83693045563549,
      "grad_norm": 0.003656841581687331,
      "learning_rate": 1.8168798294697574e-05,
      "loss": 0.0004,
      "step": 22450
    },
    {
      "epoch": 53.9568345323741,
      "grad_norm": 0.003163192654028535,
      "learning_rate": 1.808553157474021e-05,
      "loss": 0.0072,
      "step": 22500
    },
    {
      "epoch": 53.9568345323741,
      "eval_acc": 0.9286249064137759,
      "eval_correct": 3721,
      "eval_loss": 0.5637161135673523,
      "eval_runtime": 42.0092,
      "eval_samples_per_second": 95.384,
      "eval_steps_per_second": 11.926,
      "eval_total": 4007,
      "step": 22500
    },
    {
      "epoch": 54.07673860911271,
      "grad_norm": 0.0021275205072015524,
      "learning_rate": 1.800226485478284e-05,
      "loss": 0.0005,
      "step": 22550
    },
    {
      "epoch": 54.196642685851316,
      "grad_norm": 0.012894502840936184,
      "learning_rate": 1.7918998134825474e-05,
      "loss": 0.0159,
      "step": 22600
    },
    {
      "epoch": 54.31654676258993,
      "grad_norm": 0.004584474954754114,
      "learning_rate": 1.7835731414868105e-05,
      "loss": 0.0075,
      "step": 22650
    },
    {
      "epoch": 54.436450839328536,
      "grad_norm": 0.004592613782733679,
      "learning_rate": 1.775246469491074e-05,
      "loss": 0.0116,
      "step": 22700
    },
    {
      "epoch": 54.55635491606714,
      "grad_norm": 0.019356146454811096,
      "learning_rate": 1.7669197974953373e-05,
      "loss": 0.0093,
      "step": 22750
    },
    {
      "epoch": 54.67625899280576,
      "grad_norm": 0.004664150532335043,
      "learning_rate": 1.7585931254996005e-05,
      "loss": 0.0054,
      "step": 22800
    },
    {
      "epoch": 54.79616306954436,
      "grad_norm": 0.004496434237807989,
      "learning_rate": 1.7502664535038636e-05,
      "loss": 0.0005,
      "step": 22850
    },
    {
      "epoch": 54.91606714628298,
      "grad_norm": 0.0047662523575127125,
      "learning_rate": 1.7419397815081272e-05,
      "loss": 0.0006,
      "step": 22900
    },
    {
      "epoch": 55.03597122302158,
      "grad_norm": 0.0036936814431101084,
      "learning_rate": 1.73361310951239e-05,
      "loss": 0.0034,
      "step": 22950
    },
    {
      "epoch": 55.15587529976019,
      "grad_norm": 0.012853800319135189,
      "learning_rate": 1.7252864375166532e-05,
      "loss": 0.0148,
      "step": 23000
    },
    {
      "epoch": 55.15587529976019,
      "eval_acc": 0.9263788370351884,
      "eval_correct": 3712,
      "eval_loss": 0.4907076358795166,
      "eval_runtime": 42.3087,
      "eval_samples_per_second": 94.709,
      "eval_steps_per_second": 11.842,
      "eval_total": 4007,
      "step": 23000
    },
    {
      "epoch": 55.275779376498804,
      "grad_norm": 0.0050907316617667675,
      "learning_rate": 1.7169597655209164e-05,
      "loss": 0.004,
      "step": 23050
    },
    {
      "epoch": 55.39568345323741,
      "grad_norm": 0.004247848875820637,
      "learning_rate": 1.70863309352518e-05,
      "loss": 0.0003,
      "step": 23100
    },
    {
      "epoch": 55.51558752997602,
      "grad_norm": 0.003659907029941678,
      "learning_rate": 1.700306421529443e-05,
      "loss": 0.0002,
      "step": 23150
    },
    {
      "epoch": 55.63549160671463,
      "grad_norm": 0.0018503220053389668,
      "learning_rate": 1.6919797495337063e-05,
      "loss": 0.0002,
      "step": 23200
    },
    {
      "epoch": 55.75539568345324,
      "grad_norm": 0.009680801071226597,
      "learning_rate": 1.6836530775379695e-05,
      "loss": 0.005,
      "step": 23250
    },
    {
      "epoch": 55.875299760191844,
      "grad_norm": 0.009176196530461311,
      "learning_rate": 1.675326405542233e-05,
      "loss": 0.0044,
      "step": 23300
    },
    {
      "epoch": 55.99520383693046,
      "grad_norm": 0.0043587395921349525,
      "learning_rate": 1.6669997335464962e-05,
      "loss": 0.0002,
      "step": 23350
    },
    {
      "epoch": 56.115107913669064,
      "grad_norm": 0.0032122223637998104,
      "learning_rate": 1.6586730615507594e-05,
      "loss": 0.0032,
      "step": 23400
    },
    {
      "epoch": 56.23501199040767,
      "grad_norm": 0.002094075782224536,
      "learning_rate": 1.6503463895550226e-05,
      "loss": 0.0033,
      "step": 23450
    },
    {
      "epoch": 56.354916067146284,
      "grad_norm": 0.0015768060693517327,
      "learning_rate": 1.642019717559286e-05,
      "loss": 0.0043,
      "step": 23500
    },
    {
      "epoch": 56.354916067146284,
      "eval_acc": 0.921138008485151,
      "eval_correct": 3691,
      "eval_loss": 0.5838707089424133,
      "eval_runtime": 42.9694,
      "eval_samples_per_second": 93.252,
      "eval_steps_per_second": 11.659,
      "eval_total": 4007,
      "step": 23500
    },
    {
      "epoch": 56.47482014388489,
      "grad_norm": 0.001584856421686709,
      "learning_rate": 1.6336930455635494e-05,
      "loss": 0.0001,
      "step": 23550
    },
    {
      "epoch": 56.594724220623505,
      "grad_norm": 0.059810325503349304,
      "learning_rate": 1.6253663735678125e-05,
      "loss": 0.0132,
      "step": 23600
    },
    {
      "epoch": 56.71462829736211,
      "grad_norm": 0.0014983563451096416,
      "learning_rate": 1.6170397015720757e-05,
      "loss": 0.0033,
      "step": 23650
    },
    {
      "epoch": 56.83453237410072,
      "grad_norm": 0.0015032069059088826,
      "learning_rate": 1.608713029576339e-05,
      "loss": 0.0001,
      "step": 23700
    },
    {
      "epoch": 56.95443645083933,
      "grad_norm": 0.0014803704107180238,
      "learning_rate": 1.600386357580602e-05,
      "loss": 0.0001,
      "step": 23750
    },
    {
      "epoch": 57.07434052757794,
      "grad_norm": 0.00220383214764297,
      "learning_rate": 1.5920596855848653e-05,
      "loss": 0.0034,
      "step": 23800
    },
    {
      "epoch": 57.194244604316545,
      "grad_norm": 0.0015292883617803454,
      "learning_rate": 1.583733013589129e-05,
      "loss": 0.0006,
      "step": 23850
    },
    {
      "epoch": 57.31414868105516,
      "grad_norm": 0.0016008180100470781,
      "learning_rate": 1.575406341593392e-05,
      "loss": 0.0001,
      "step": 23900
    },
    {
      "epoch": 57.434052757793765,
      "grad_norm": 0.0015596525045111775,
      "learning_rate": 1.5670796695976552e-05,
      "loss": 0.0001,
      "step": 23950
    },
    {
      "epoch": 57.55395683453237,
      "grad_norm": 0.0013149188598617911,
      "learning_rate": 1.5587529976019184e-05,
      "loss": 0.0001,
      "step": 24000
    },
    {
      "epoch": 57.55395683453237,
      "eval_acc": 0.920139755428001,
      "eval_correct": 3687,
      "eval_loss": 0.6246019601821899,
      "eval_runtime": 41.9066,
      "eval_samples_per_second": 95.617,
      "eval_steps_per_second": 11.955,
      "eval_total": 4007,
      "step": 24000
    },
    {
      "epoch": 57.673860911270985,
      "grad_norm": 0.0013853020500391722,
      "learning_rate": 1.550426325606182e-05,
      "loss": 0.0001,
      "step": 24050
    },
    {
      "epoch": 57.79376498800959,
      "grad_norm": 0.0011421815725043416,
      "learning_rate": 1.542099653610445e-05,
      "loss": 0.0005,
      "step": 24100
    },
    {
      "epoch": 57.9136690647482,
      "grad_norm": 0.001706029404886067,
      "learning_rate": 1.5337729816147083e-05,
      "loss": 0.0062,
      "step": 24150
    },
    {
      "epoch": 58.03357314148681,
      "grad_norm": 0.0013680006377398968,
      "learning_rate": 1.5254463096189717e-05,
      "loss": 0.0045,
      "step": 24200
    },
    {
      "epoch": 58.15347721822542,
      "grad_norm": 0.0036013289354741573,
      "learning_rate": 1.5171196376232349e-05,
      "loss": 0.0001,
      "step": 24250
    },
    {
      "epoch": 58.273381294964025,
      "grad_norm": 0.0017371055437251925,
      "learning_rate": 1.5087929656274979e-05,
      "loss": 0.0061,
      "step": 24300
    },
    {
      "epoch": 58.39328537170264,
      "grad_norm": 0.0034657239448279142,
      "learning_rate": 1.5004662936317613e-05,
      "loss": 0.006,
      "step": 24350
    },
    {
      "epoch": 58.513189448441246,
      "grad_norm": 0.0023711388930678368,
      "learning_rate": 1.4921396216360245e-05,
      "loss": 0.0002,
      "step": 24400
    },
    {
      "epoch": 58.63309352517986,
      "grad_norm": 0.0018959951121360064,
      "learning_rate": 1.4838129496402878e-05,
      "loss": 0.0001,
      "step": 24450
    },
    {
      "epoch": 58.752997601918466,
      "grad_norm": 120.98619079589844,
      "learning_rate": 1.475486277644551e-05,
      "loss": 0.0004,
      "step": 24500
    },
    {
      "epoch": 58.752997601918466,
      "eval_acc": 0.9286249064137759,
      "eval_correct": 3721,
      "eval_loss": 0.5760958790779114,
      "eval_runtime": 42.8165,
      "eval_samples_per_second": 93.585,
      "eval_steps_per_second": 11.701,
      "eval_total": 4007,
      "step": 24500
    },
    {
      "epoch": 58.87290167865707,
      "grad_norm": 0.001516214688308537,
      "learning_rate": 1.4671596056488144e-05,
      "loss": 0.0001,
      "step": 24550
    },
    {
      "epoch": 58.992805755395686,
      "grad_norm": 0.0016087355324998498,
      "learning_rate": 1.4588329336530776e-05,
      "loss": 0.0015,
      "step": 24600
    },
    {
      "epoch": 59.11270983213429,
      "grad_norm": 0.002036863937973976,
      "learning_rate": 1.450506261657341e-05,
      "loss": 0.0001,
      "step": 24650
    },
    {
      "epoch": 59.2326139088729,
      "grad_norm": 0.002082841470837593,
      "learning_rate": 1.4421795896616041e-05,
      "loss": 0.006,
      "step": 24700
    },
    {
      "epoch": 59.35251798561151,
      "grad_norm": 0.0017285541398450732,
      "learning_rate": 1.4338529176658675e-05,
      "loss": 0.0001,
      "step": 24750
    },
    {
      "epoch": 59.47242206235012,
      "grad_norm": 0.001595796667970717,
      "learning_rate": 1.4255262456701307e-05,
      "loss": 0.0001,
      "step": 24800
    },
    {
      "epoch": 59.592326139088726,
      "grad_norm": 0.017385542392730713,
      "learning_rate": 1.417199573674394e-05,
      "loss": 0.0001,
      "step": 24850
    },
    {
      "epoch": 59.71223021582734,
      "grad_norm": 0.0014118840917944908,
      "learning_rate": 1.4088729016786572e-05,
      "loss": 0.0039,
      "step": 24900
    },
    {
      "epoch": 59.83213429256595,
      "grad_norm": 0.0013136398047208786,
      "learning_rate": 1.4005462296829202e-05,
      "loss": 0.0001,
      "step": 24950
    },
    {
      "epoch": 59.95203836930455,
      "grad_norm": 0.0038413407746702433,
      "learning_rate": 1.3922195576871836e-05,
      "loss": 0.0001,
      "step": 25000
    },
    {
      "epoch": 59.95203836930455,
      "eval_acc": 0.9223858248065885,
      "eval_correct": 3696,
      "eval_loss": 0.6507667899131775,
      "eval_runtime": 43.3561,
      "eval_samples_per_second": 92.421,
      "eval_steps_per_second": 11.555,
      "eval_total": 4007,
      "step": 25000
    },
    {
      "epoch": 60.07194244604317,
      "grad_norm": 0.0012385790469124913,
      "learning_rate": 1.3838928856914468e-05,
      "loss": 0.0001,
      "step": 25050
    },
    {
      "epoch": 60.19184652278177,
      "grad_norm": 0.001260088407434523,
      "learning_rate": 1.3755662136957102e-05,
      "loss": 0.0031,
      "step": 25100
    },
    {
      "epoch": 60.31175059952039,
      "grad_norm": 0.0027064899913966656,
      "learning_rate": 1.3672395416999734e-05,
      "loss": 0.0063,
      "step": 25150
    },
    {
      "epoch": 60.431654676258994,
      "grad_norm": 8.998102188110352,
      "learning_rate": 1.3589128697042367e-05,
      "loss": 0.018,
      "step": 25200
    },
    {
      "epoch": 60.5515587529976,
      "grad_norm": 0.0015603487845510244,
      "learning_rate": 1.3505861977084999e-05,
      "loss": 0.0003,
      "step": 25250
    },
    {
      "epoch": 60.671462829736214,
      "grad_norm": 0.005510074086487293,
      "learning_rate": 1.3422595257127633e-05,
      "loss": 0.0001,
      "step": 25300
    },
    {
      "epoch": 60.79136690647482,
      "grad_norm": 0.0013197718653827906,
      "learning_rate": 1.3339328537170265e-05,
      "loss": 0.0007,
      "step": 25350
    },
    {
      "epoch": 60.91127098321343,
      "grad_norm": 0.0012562015326693654,
      "learning_rate": 1.3256061817212898e-05,
      "loss": 0.0001,
      "step": 25400
    },
    {
      "epoch": 61.03117505995204,
      "grad_norm": 0.0012046665651723742,
      "learning_rate": 1.317279509725553e-05,
      "loss": 0.0001,
      "step": 25450
    },
    {
      "epoch": 61.15107913669065,
      "grad_norm": 0.0011842880630865693,
      "learning_rate": 1.3089528377298164e-05,
      "loss": 0.0001,
      "step": 25500
    },
    {
      "epoch": 61.15107913669065,
      "eval_acc": 0.9273770900923384,
      "eval_correct": 3716,
      "eval_loss": 0.5676945447921753,
      "eval_runtime": 42.5258,
      "eval_samples_per_second": 94.225,
      "eval_steps_per_second": 11.781,
      "eval_total": 4007,
      "step": 25500
    },
    {
      "epoch": 61.270983213429254,
      "grad_norm": 0.0011814156314358115,
      "learning_rate": 1.3006261657340796e-05,
      "loss": 0.0034,
      "step": 25550
    },
    {
      "epoch": 61.39088729016787,
      "grad_norm": 0.00113875197712332,
      "learning_rate": 1.292299493738343e-05,
      "loss": 0.0001,
      "step": 25600
    },
    {
      "epoch": 61.510791366906474,
      "grad_norm": 0.0011123953154310584,
      "learning_rate": 1.2839728217426058e-05,
      "loss": 0.0001,
      "step": 25650
    },
    {
      "epoch": 61.63069544364508,
      "grad_norm": 0.0011033022310584784,
      "learning_rate": 1.2756461497468691e-05,
      "loss": 0.0001,
      "step": 25700
    },
    {
      "epoch": 61.750599520383695,
      "grad_norm": 0.0012592594139277935,
      "learning_rate": 1.2673194777511323e-05,
      "loss": 0.0061,
      "step": 25750
    },
    {
      "epoch": 61.8705035971223,
      "grad_norm": 0.0016345508629456162,
      "learning_rate": 1.2589928057553957e-05,
      "loss": 0.0001,
      "step": 25800
    },
    {
      "epoch": 61.99040767386091,
      "grad_norm": 0.0011927533196285367,
      "learning_rate": 1.2506661337596589e-05,
      "loss": 0.0001,
      "step": 25850
    },
    {
      "epoch": 62.11031175059952,
      "grad_norm": 0.0011754411971196532,
      "learning_rate": 1.2423394617639223e-05,
      "loss": 0.0034,
      "step": 25900
    },
    {
      "epoch": 62.23021582733813,
      "grad_norm": 0.0011575716780498624,
      "learning_rate": 1.2340127897681854e-05,
      "loss": 0.0001,
      "step": 25950
    },
    {
      "epoch": 62.35011990407674,
      "grad_norm": 0.0011144907912239432,
      "learning_rate": 1.2256861177724488e-05,
      "loss": 0.0019,
      "step": 26000
    },
    {
      "epoch": 62.35011990407674,
      "eval_acc": 0.9283753431494884,
      "eval_correct": 3720,
      "eval_loss": 0.5855426788330078,
      "eval_runtime": 42.769,
      "eval_samples_per_second": 93.689,
      "eval_steps_per_second": 11.714,
      "eval_total": 4007,
      "step": 26000
    },
    {
      "epoch": 62.47002398081535,
      "grad_norm": 0.0021090374793857336,
      "learning_rate": 1.217359445776712e-05,
      "loss": 0.0111,
      "step": 26050
    },
    {
      "epoch": 62.589928057553955,
      "grad_norm": 0.0016382288886234164,
      "learning_rate": 1.2090327737809752e-05,
      "loss": 0.0001,
      "step": 26100
    },
    {
      "epoch": 62.70983213429257,
      "grad_norm": 0.0032992272172123194,
      "learning_rate": 1.2007061017852385e-05,
      "loss": 0.0061,
      "step": 26150
    },
    {
      "epoch": 62.829736211031175,
      "grad_norm": 0.0014276616275310516,
      "learning_rate": 1.1923794297895017e-05,
      "loss": 0.0062,
      "step": 26200
    },
    {
      "epoch": 62.94964028776978,
      "grad_norm": 0.0015360101824626327,
      "learning_rate": 1.1840527577937651e-05,
      "loss": 0.0053,
      "step": 26250
    },
    {
      "epoch": 63.069544364508396,
      "grad_norm": 0.0013427960220724344,
      "learning_rate": 1.1757260857980283e-05,
      "loss": 0.0001,
      "step": 26300
    },
    {
      "epoch": 63.189448441247,
      "grad_norm": 0.0012672512093558908,
      "learning_rate": 1.1673994138022917e-05,
      "loss": 0.0001,
      "step": 26350
    },
    {
      "epoch": 63.30935251798561,
      "grad_norm": 0.0012827110476791859,
      "learning_rate": 1.1590727418065548e-05,
      "loss": 0.0001,
      "step": 26400
    },
    {
      "epoch": 63.42925659472422,
      "grad_norm": 0.0016924195224419236,
      "learning_rate": 1.150746069810818e-05,
      "loss": 0.0021,
      "step": 26450
    },
    {
      "epoch": 63.54916067146283,
      "grad_norm": 0.0013234822545200586,
      "learning_rate": 1.1424193978150812e-05,
      "loss": 0.0062,
      "step": 26500
    },
    {
      "epoch": 63.54916067146283,
      "eval_acc": 0.9151484901422511,
      "eval_correct": 3667,
      "eval_loss": 0.6511752009391785,
      "eval_runtime": 42.7479,
      "eval_samples_per_second": 93.736,
      "eval_steps_per_second": 11.72,
      "eval_total": 4007,
      "step": 26500
    },
    {
      "epoch": 63.669064748201436,
      "grad_norm": 0.0013385266065597534,
      "learning_rate": 1.1340927258193446e-05,
      "loss": 0.0022,
      "step": 26550
    },
    {
      "epoch": 63.78896882494005,
      "grad_norm": 0.002157322596758604,
      "learning_rate": 1.1257660538236078e-05,
      "loss": 0.0053,
      "step": 26600
    },
    {
      "epoch": 63.908872901678656,
      "grad_norm": 0.07524458318948746,
      "learning_rate": 1.1174393818278711e-05,
      "loss": 0.0058,
      "step": 26650
    },
    {
      "epoch": 64.02877697841727,
      "grad_norm": 0.0014829107094556093,
      "learning_rate": 1.1091127098321343e-05,
      "loss": 0.0001,
      "step": 26700
    },
    {
      "epoch": 64.14868105515588,
      "grad_norm": 0.002085216110572219,
      "learning_rate": 1.1007860378363977e-05,
      "loss": 0.0001,
      "step": 26750
    },
    {
      "epoch": 64.26858513189448,
      "grad_norm": 0.0012427790788933635,
      "learning_rate": 1.0924593658406607e-05,
      "loss": 0.0001,
      "step": 26800
    },
    {
      "epoch": 64.38848920863309,
      "grad_norm": 0.0012606418458744884,
      "learning_rate": 1.084132693844924e-05,
      "loss": 0.0001,
      "step": 26850
    },
    {
      "epoch": 64.5083932853717,
      "grad_norm": 0.0017428244464099407,
      "learning_rate": 1.0758060218491873e-05,
      "loss": 0.0096,
      "step": 26900
    },
    {
      "epoch": 64.62829736211032,
      "grad_norm": 0.018585573881864548,
      "learning_rate": 1.0674793498534506e-05,
      "loss": 0.0001,
      "step": 26950
    },
    {
      "epoch": 64.74820143884892,
      "grad_norm": 0.0013566885609179735,
      "learning_rate": 1.0591526778577138e-05,
      "loss": 0.0001,
      "step": 27000
    },
    {
      "epoch": 64.74820143884892,
      "eval_acc": 0.9276266533566259,
      "eval_correct": 3717,
      "eval_loss": 0.5581481456756592,
      "eval_runtime": 42.8344,
      "eval_samples_per_second": 93.546,
      "eval_steps_per_second": 11.696,
      "eval_total": 4007,
      "step": 27000
    },
    {
      "epoch": 64.86810551558753,
      "grad_norm": 0.0012751782778650522,
      "learning_rate": 1.0508260058619772e-05,
      "loss": 0.0038,
      "step": 27050
    },
    {
      "epoch": 64.98800959232614,
      "grad_norm": 0.001258829259313643,
      "learning_rate": 1.0424993338662404e-05,
      "loss": 0.0051,
      "step": 27100
    },
    {
      "epoch": 65.10791366906474,
      "grad_norm": 0.009305701591074467,
      "learning_rate": 1.0341726618705036e-05,
      "loss": 0.0001,
      "step": 27150
    },
    {
      "epoch": 65.22781774580336,
      "grad_norm": 0.0012229714775457978,
      "learning_rate": 1.025845989874767e-05,
      "loss": 0.0002,
      "step": 27200
    },
    {
      "epoch": 65.34772182254197,
      "grad_norm": 0.0011897010263055563,
      "learning_rate": 1.0175193178790301e-05,
      "loss": 0.0001,
      "step": 27250
    },
    {
      "epoch": 65.46762589928058,
      "grad_norm": 0.0011826736154034734,
      "learning_rate": 1.0091926458832935e-05,
      "loss": 0.0001,
      "step": 27300
    },
    {
      "epoch": 65.58752997601918,
      "grad_norm": 0.0011693085543811321,
      "learning_rate": 1.0008659738875567e-05,
      "loss": 0.0001,
      "step": 27350
    },
    {
      "epoch": 65.70743405275779,
      "grad_norm": 0.001292266882956028,
      "learning_rate": 9.9253930189182e-06,
      "loss": 0.0061,
      "step": 27400
    },
    {
      "epoch": 65.8273381294964,
      "grad_norm": 0.0012652931036427617,
      "learning_rate": 9.84212629896083e-06,
      "loss": 0.0001,
      "step": 27450
    },
    {
      "epoch": 65.94724220623502,
      "grad_norm": 0.0012549464590847492,
      "learning_rate": 9.758859579003464e-06,
      "loss": 0.0058,
      "step": 27500
    },
    {
      "epoch": 65.94724220623502,
      "eval_acc": 0.9308709757923633,
      "eval_correct": 3730,
      "eval_loss": 0.5241742134094238,
      "eval_runtime": 41.9721,
      "eval_samples_per_second": 95.468,
      "eval_steps_per_second": 11.937,
      "eval_total": 4007,
      "step": 27500
    },
    {
      "epoch": 66.06714628297362,
      "grad_norm": 0.0012290476588532329,
      "learning_rate": 9.675592859046096e-06,
      "loss": 0.0001,
      "step": 27550
    },
    {
      "epoch": 66.18705035971223,
      "grad_norm": 0.0012038379209116101,
      "learning_rate": 9.59232613908873e-06,
      "loss": 0.0001,
      "step": 27600
    },
    {
      "epoch": 66.30695443645084,
      "grad_norm": 0.0011835863115265965,
      "learning_rate": 9.509059419131362e-06,
      "loss": 0.0001,
      "step": 27650
    },
    {
      "epoch": 66.42685851318944,
      "grad_norm": 0.0011746578384190798,
      "learning_rate": 9.425792699173995e-06,
      "loss": 0.001,
      "step": 27700
    },
    {
      "epoch": 66.54676258992805,
      "grad_norm": 0.0012947251088917255,
      "learning_rate": 9.342525979216627e-06,
      "loss": 0.0061,
      "step": 27750
    },
    {
      "epoch": 66.66666666666667,
      "grad_norm": 0.0012920747976750135,
      "learning_rate": 9.259259259259259e-06,
      "loss": 0.0001,
      "step": 27800
    },
    {
      "epoch": 66.78657074340528,
      "grad_norm": 0.0012608221732079983,
      "learning_rate": 9.175992539301893e-06,
      "loss": 0.0001,
      "step": 27850
    },
    {
      "epoch": 66.90647482014388,
      "grad_norm": 0.0012348492164164782,
      "learning_rate": 9.092725819344525e-06,
      "loss": 0.0001,
      "step": 27900
    },
    {
      "epoch": 67.02637889688249,
      "grad_norm": 0.008943353779613972,
      "learning_rate": 9.009459099387158e-06,
      "loss": 0.0001,
      "step": 27950
    },
    {
      "epoch": 67.1462829736211,
      "grad_norm": 0.0011923140846192837,
      "learning_rate": 8.92619237942979e-06,
      "loss": 0.0001,
      "step": 28000
    },
    {
      "epoch": 67.1462829736211,
      "eval_acc": 0.9311205390566508,
      "eval_correct": 3731,
      "eval_loss": 0.5666025876998901,
      "eval_runtime": 42.7328,
      "eval_samples_per_second": 93.769,
      "eval_steps_per_second": 11.724,
      "eval_total": 4007,
      "step": 28000
    },
    {
      "epoch": 67.26618705035972,
      "grad_norm": 0.004730749875307083,
      "learning_rate": 8.842925659472424e-06,
      "loss": 0.0001,
      "step": 28050
    },
    {
      "epoch": 67.38609112709833,
      "grad_norm": 0.0011742750648409128,
      "learning_rate": 8.759658939515054e-06,
      "loss": 0.003,
      "step": 28100
    },
    {
      "epoch": 67.50599520383693,
      "grad_norm": 0.0011619024444371462,
      "learning_rate": 8.676392219557688e-06,
      "loss": 0.0001,
      "step": 28150
    },
    {
      "epoch": 67.62589928057554,
      "grad_norm": 0.07518602162599564,
      "learning_rate": 8.59312549960032e-06,
      "loss": 0.0061,
      "step": 28200
    },
    {
      "epoch": 67.74580335731414,
      "grad_norm": 0.0012612304417416453,
      "learning_rate": 8.509858779642953e-06,
      "loss": 0.0001,
      "step": 28250
    },
    {
      "epoch": 67.86570743405275,
      "grad_norm": 0.0012346056755632162,
      "learning_rate": 8.426592059685585e-06,
      "loss": 0.0001,
      "step": 28300
    },
    {
      "epoch": 67.98561151079137,
      "grad_norm": 0.0012145474320277572,
      "learning_rate": 8.343325339728219e-06,
      "loss": 0.0001,
      "step": 28350
    },
    {
      "epoch": 68.10551558752998,
      "grad_norm": 0.001528013963252306,
      "learning_rate": 8.26005861977085e-06,
      "loss": 0.0013,
      "step": 28400
    },
    {
      "epoch": 68.22541966426859,
      "grad_norm": 0.0011869947193190455,
      "learning_rate": 8.176791899813483e-06,
      "loss": 0.0001,
      "step": 28450
    },
    {
      "epoch": 68.34532374100719,
      "grad_norm": 0.0011654100380837917,
      "learning_rate": 8.093525179856114e-06,
      "loss": 0.0001,
      "step": 28500
    },
    {
      "epoch": 68.34532374100719,
      "eval_acc": 0.9139006738208135,
      "eval_correct": 3662,
      "eval_loss": 0.7544797658920288,
      "eval_runtime": 43.5879,
      "eval_samples_per_second": 91.929,
      "eval_steps_per_second": 11.494,
      "eval_total": 4007,
      "step": 28500
    },
    {
      "epoch": 68.4652278177458,
      "grad_norm": 0.001156891812570393,
      "learning_rate": 8.010258459898748e-06,
      "loss": 0.0001,
      "step": 28550
    },
    {
      "epoch": 68.58513189448442,
      "grad_norm": 0.001141023705713451,
      "learning_rate": 7.92699173994138e-06,
      "loss": 0.0001,
      "step": 28600
    },
    {
      "epoch": 68.70503597122303,
      "grad_norm": 0.0011311025591567159,
      "learning_rate": 7.843725019984014e-06,
      "loss": 0.0001,
      "step": 28650
    },
    {
      "epoch": 68.82494004796163,
      "grad_norm": 0.0011116231326013803,
      "learning_rate": 7.760458300026646e-06,
      "loss": 0.0001,
      "step": 28700
    },
    {
      "epoch": 68.94484412470024,
      "grad_norm": 0.0012001094873994589,
      "learning_rate": 7.677191580069279e-06,
      "loss": 0.0061,
      "step": 28750
    },
    {
      "epoch": 69.06474820143885,
      "grad_norm": 0.001198120298795402,
      "learning_rate": 7.59392486011191e-06,
      "loss": 0.0001,
      "step": 28800
    },
    {
      "epoch": 69.18465227817745,
      "grad_norm": 0.001180526684038341,
      "learning_rate": 7.510658140154543e-06,
      "loss": 0.0001,
      "step": 28850
    },
    {
      "epoch": 69.30455635491607,
      "grad_norm": 0.0011686537181958556,
      "learning_rate": 7.427391420197176e-06,
      "loss": 0.0001,
      "step": 28900
    },
    {
      "epoch": 69.42446043165468,
      "grad_norm": 0.0012587367091327906,
      "learning_rate": 7.3441247002398085e-06,
      "loss": 0.006,
      "step": 28950
    },
    {
      "epoch": 69.54436450839329,
      "grad_norm": 0.0012553457636386156,
      "learning_rate": 7.260857980282441e-06,
      "loss": 0.0052,
      "step": 29000
    },
    {
      "epoch": 69.54436450839329,
      "eval_acc": 0.9124032942350886,
      "eval_correct": 3656,
      "eval_loss": 0.7811585068702698,
      "eval_runtime": 43.7014,
      "eval_samples_per_second": 91.69,
      "eval_steps_per_second": 11.464,
      "eval_total": 4007,
      "step": 29000
    },
    {
      "epoch": 69.6642685851319,
      "grad_norm": 0.0012880718568339944,
      "learning_rate": 7.177591260325074e-06,
      "loss": 0.0027,
      "step": 29050
    },
    {
      "epoch": 69.7841726618705,
      "grad_norm": 0.0012356005609035492,
      "learning_rate": 7.094324540367706e-06,
      "loss": 0.0001,
      "step": 29100
    },
    {
      "epoch": 69.9040767386091,
      "grad_norm": 0.0012228169944137335,
      "learning_rate": 7.011057820410339e-06,
      "loss": 0.0001,
      "step": 29150
    },
    {
      "epoch": 70.02398081534773,
      "grad_norm": 0.0012126521905884147,
      "learning_rate": 6.9277911004529715e-06,
      "loss": 0.0001,
      "step": 29200
    },
    {
      "epoch": 70.14388489208633,
      "grad_norm": 0.0011931182816624641,
      "learning_rate": 6.844524380495604e-06,
      "loss": 0.0001,
      "step": 29250
    },
    {
      "epoch": 70.26378896882494,
      "grad_norm": 0.0011863732943311334,
      "learning_rate": 6.761257660538237e-06,
      "loss": 0.0001,
      "step": 29300
    },
    {
      "epoch": 70.38369304556355,
      "grad_norm": 0.0012047929922118783,
      "learning_rate": 6.67799094058087e-06,
      "loss": 0.0057,
      "step": 29350
    },
    {
      "epoch": 70.50359712230215,
      "grad_norm": 0.0011724837822839618,
      "learning_rate": 6.5947242206235026e-06,
      "loss": 0.0001,
      "step": 29400
    },
    {
      "epoch": 70.62350119904077,
      "grad_norm": 0.0011534614022821188,
      "learning_rate": 6.511457500666134e-06,
      "loss": 0.0001,
      "step": 29450
    },
    {
      "epoch": 70.74340527577938,
      "grad_norm": 0.0011436532950028777,
      "learning_rate": 6.428190780708766e-06,
      "loss": 0.0001,
      "step": 29500
    },
    {
      "epoch": 70.74340527577938,
      "eval_acc": 0.9024207636635887,
      "eval_correct": 3616,
      "eval_loss": 0.8780824542045593,
      "eval_runtime": 41.8051,
      "eval_samples_per_second": 95.85,
      "eval_steps_per_second": 11.984,
      "eval_total": 4007,
      "step": 29500
    },
    {
      "epoch": 70.86330935251799,
      "grad_norm": 0.0011361220385879278,
      "learning_rate": 6.344924060751399e-06,
      "loss": 0.0001,
      "step": 29550
    },
    {
      "epoch": 70.9832134292566,
      "grad_norm": 0.0011191830271854997,
      "learning_rate": 6.261657340794032e-06,
      "loss": 0.0001,
      "step": 29600
    },
    {
      "epoch": 71.1031175059952,
      "grad_norm": 0.0012005361495539546,
      "learning_rate": 6.178390620836665e-06,
      "loss": 0.0079,
      "step": 29650
    },
    {
      "epoch": 71.22302158273381,
      "grad_norm": 0.0011887556174769998,
      "learning_rate": 6.095123900879297e-06,
      "loss": 0.0001,
      "step": 29700
    },
    {
      "epoch": 71.34292565947243,
      "grad_norm": 0.002938317134976387,
      "learning_rate": 6.011857180921929e-06,
      "loss": 0.006,
      "step": 29750
    },
    {
      "epoch": 71.46282973621103,
      "grad_norm": 0.0012881169095635414,
      "learning_rate": 5.928590460964562e-06,
      "loss": 0.0001,
      "step": 29800
    },
    {
      "epoch": 71.58273381294964,
      "grad_norm": 0.0015397804090753198,
      "learning_rate": 5.845323741007194e-06,
      "loss": 0.006,
      "step": 29850
    },
    {
      "epoch": 71.70263788968825,
      "grad_norm": 0.0014584609307348728,
      "learning_rate": 5.762057021049827e-06,
      "loss": 0.0001,
      "step": 29900
    },
    {
      "epoch": 71.82254196642685,
      "grad_norm": 0.001371237332932651,
      "learning_rate": 5.67879030109246e-06,
      "loss": 0.0001,
      "step": 29950
    },
    {
      "epoch": 71.94244604316546,
      "grad_norm": 0.0013229779433459044,
      "learning_rate": 5.5955235811350915e-06,
      "loss": 0.0001,
      "step": 30000
    },
    {
      "epoch": 71.94244604316546,
      "eval_acc": 0.9141502370851011,
      "eval_correct": 3663,
      "eval_loss": 0.7378148436546326,
      "eval_runtime": 42.6062,
      "eval_samples_per_second": 94.047,
      "eval_steps_per_second": 11.759,
      "eval_total": 4007,
      "step": 30000
    },
    {
      "epoch": 72.06235011990408,
      "grad_norm": 0.0013070678105577826,
      "learning_rate": 5.512256861177724e-06,
      "loss": 0.0001,
      "step": 30050
    },
    {
      "epoch": 72.18225419664269,
      "grad_norm": 0.0012742802500724792,
      "learning_rate": 5.428990141220357e-06,
      "loss": 0.0001,
      "step": 30100
    },
    {
      "epoch": 72.3021582733813,
      "grad_norm": 0.0014287930680438876,
      "learning_rate": 5.34572342126299e-06,
      "loss": 0.006,
      "step": 30150
    },
    {
      "epoch": 72.4220623501199,
      "grad_norm": 0.001383981783874333,
      "learning_rate": 5.262456701305623e-06,
      "loss": 0.0001,
      "step": 30200
    },
    {
      "epoch": 72.54196642685851,
      "grad_norm": 0.0013678737450391054,
      "learning_rate": 5.179189981348255e-06,
      "loss": 0.0001,
      "step": 30250
    },
    {
      "epoch": 72.66187050359713,
      "grad_norm": 0.0013268636539578438,
      "learning_rate": 5.095923261390888e-06,
      "loss": 0.0001,
      "step": 30300
    },
    {
      "epoch": 72.78177458033574,
      "grad_norm": 0.001320027164183557,
      "learning_rate": 5.01265654143352e-06,
      "loss": 0.0001,
      "step": 30350
    },
    {
      "epoch": 72.90167865707434,
      "grad_norm": 0.0013102937955409288,
      "learning_rate": 4.929389821476153e-06,
      "loss": 0.0003,
      "step": 30400
    },
    {
      "epoch": 73.02158273381295,
      "grad_norm": 0.0012795570073649287,
      "learning_rate": 4.8461231015187856e-06,
      "loss": 0.0001,
      "step": 30450
    },
    {
      "epoch": 73.14148681055156,
      "grad_norm": 0.001402484835125506,
      "learning_rate": 4.7628563815614175e-06,
      "loss": 0.0082,
      "step": 30500
    },
    {
      "epoch": 73.14148681055156,
      "eval_acc": 0.9188919391065635,
      "eval_correct": 3682,
      "eval_loss": 0.7155065536499023,
      "eval_runtime": 42.5276,
      "eval_samples_per_second": 94.221,
      "eval_steps_per_second": 11.781,
      "eval_total": 4007,
      "step": 30500
    },
    {
      "epoch": 73.26139088729016,
      "grad_norm": 0.001550094224512577,
      "learning_rate": 4.67958966160405e-06,
      "loss": 0.0059,
      "step": 30550
    },
    {
      "epoch": 73.38129496402878,
      "grad_norm": 0.001500141923315823,
      "learning_rate": 4.596322941646683e-06,
      "loss": 0.0001,
      "step": 30600
    },
    {
      "epoch": 73.50119904076739,
      "grad_norm": 0.001431291806511581,
      "learning_rate": 4.513056221689316e-06,
      "loss": 0.0001,
      "step": 30650
    },
    {
      "epoch": 73.621103117506,
      "grad_norm": 0.0024242170620709658,
      "learning_rate": 4.429789501731948e-06,
      "loss": 0.0056,
      "step": 30700
    },
    {
      "epoch": 73.7410071942446,
      "grad_norm": 0.001546416780911386,
      "learning_rate": 4.3465227817745805e-06,
      "loss": 0.0001,
      "step": 30750
    },
    {
      "epoch": 73.86091127098321,
      "grad_norm": 0.0013896535383537412,
      "learning_rate": 4.263256061817213e-06,
      "loss": 0.0001,
      "step": 30800
    },
    {
      "epoch": 73.98081534772182,
      "grad_norm": 0.0017181358998641372,
      "learning_rate": 4.179989341859845e-06,
      "loss": 0.0002,
      "step": 30850
    },
    {
      "epoch": 74.10071942446044,
      "grad_norm": 16.00494956970215,
      "learning_rate": 4.096722621902478e-06,
      "loss": 0.0081,
      "step": 30900
    },
    {
      "epoch": 74.22062350119904,
      "grad_norm": 0.0013353817630559206,
      "learning_rate": 4.013455901945111e-06,
      "loss": 0.0001,
      "step": 30950
    },
    {
      "epoch": 74.34052757793765,
      "grad_norm": 0.0013391654938459396,
      "learning_rate": 3.9301891819877434e-06,
      "loss": 0.0001,
      "step": 31000
    },
    {
      "epoch": 74.34052757793765,
      "eval_acc": 0.921637135013726,
      "eval_correct": 3693,
      "eval_loss": 0.6182236671447754,
      "eval_runtime": 41.884,
      "eval_samples_per_second": 95.669,
      "eval_steps_per_second": 11.962,
      "eval_total": 4007,
      "step": 31000
    },
    {
      "epoch": 74.46043165467626,
      "grad_norm": 0.0012940737651661038,
      "learning_rate": 3.846922462030376e-06,
      "loss": 0.0001,
      "step": 31050
    },
    {
      "epoch": 74.58033573141486,
      "grad_norm": 0.0013937547337263823,
      "learning_rate": 3.7636557420730086e-06,
      "loss": 0.006,
      "step": 31100
    },
    {
      "epoch": 74.70023980815348,
      "grad_norm": 0.0013501920038834214,
      "learning_rate": 3.6803890221156413e-06,
      "loss": 0.0001,
      "step": 31150
    },
    {
      "epoch": 74.82014388489209,
      "grad_norm": 0.0013643187703564763,
      "learning_rate": 3.5971223021582732e-06,
      "loss": 0.0001,
      "step": 31200
    },
    {
      "epoch": 74.9400479616307,
      "grad_norm": 0.0013386067003011703,
      "learning_rate": 3.513855582200906e-06,
      "loss": 0.0001,
      "step": 31250
    },
    {
      "epoch": 75.0599520383693,
      "grad_norm": 0.0013566643465310335,
      "learning_rate": 3.4305888622435388e-06,
      "loss": 0.0001,
      "step": 31300
    },
    {
      "epoch": 75.17985611510791,
      "grad_norm": 0.0013330922229215503,
      "learning_rate": 3.347322142286171e-06,
      "loss": 0.006,
      "step": 31350
    },
    {
      "epoch": 75.29976019184652,
      "grad_norm": 0.0013989137951284647,
      "learning_rate": 3.264055422328804e-06,
      "loss": 0.0001,
      "step": 31400
    },
    {
      "epoch": 75.41966426858514,
      "grad_norm": 0.0013861764455214143,
      "learning_rate": 3.1807887023714366e-06,
      "loss": 0.0001,
      "step": 31450
    },
    {
      "epoch": 75.53956834532374,
      "grad_norm": 0.0013718848349526525,
      "learning_rate": 3.097521982414069e-06,
      "loss": 0.0001,
      "step": 31500
    },
    {
      "epoch": 75.53956834532374,
      "eval_acc": 0.920139755428001,
      "eval_correct": 3687,
      "eval_loss": 0.6519525647163391,
      "eval_runtime": 40.6841,
      "eval_samples_per_second": 98.49,
      "eval_steps_per_second": 12.314,
      "eval_total": 4007,
      "step": 31500
    },
    {
      "epoch": 75.65947242206235,
      "grad_norm": 0.0013651620829477906,
      "learning_rate": 3.0142552624567013e-06,
      "loss": 0.0001,
      "step": 31550
    },
    {
      "epoch": 75.77937649880096,
      "grad_norm": 0.0014081482077017426,
      "learning_rate": 2.930988542499334e-06,
      "loss": 0.0001,
      "step": 31600
    },
    {
      "epoch": 75.89928057553956,
      "grad_norm": 0.001343315583653748,
      "learning_rate": 2.8477218225419664e-06,
      "loss": 0.0001,
      "step": 31650
    },
    {
      "epoch": 76.01918465227818,
      "grad_norm": 0.0013263087021186948,
      "learning_rate": 2.7644551025845988e-06,
      "loss": 0.0001,
      "step": 31700
    },
    {
      "epoch": 76.13908872901679,
      "grad_norm": 0.00133909797295928,
      "learning_rate": 2.6811883826272315e-06,
      "loss": 0.0001,
      "step": 31750
    },
    {
      "epoch": 76.2589928057554,
      "grad_norm": 0.0013940739445388317,
      "learning_rate": 2.5979216626698643e-06,
      "loss": 0.0001,
      "step": 31800
    },
    {
      "epoch": 76.378896882494,
      "grad_norm": 0.0012944298796355724,
      "learning_rate": 2.514654942712497e-06,
      "loss": 0.0033,
      "step": 31850
    },
    {
      "epoch": 76.49880095923261,
      "grad_norm": 0.0013091788860037923,
      "learning_rate": 2.4313882227551294e-06,
      "loss": 0.0036,
      "step": 31900
    },
    {
      "epoch": 76.61870503597122,
      "grad_norm": 0.001288004918023944,
      "learning_rate": 2.3481215027977618e-06,
      "loss": 0.0001,
      "step": 31950
    },
    {
      "epoch": 76.73860911270984,
      "grad_norm": 0.0012984855566173792,
      "learning_rate": 2.2648547828403945e-06,
      "loss": 0.006,
      "step": 32000
    },
    {
      "epoch": 76.73860911270984,
      "eval_acc": 0.919640628899426,
      "eval_correct": 3685,
      "eval_loss": 0.6503413915634155,
      "eval_runtime": 43.7451,
      "eval_samples_per_second": 91.599,
      "eval_steps_per_second": 11.453,
      "eval_total": 4007,
      "step": 32000
    },
    {
      "epoch": 76.85851318944844,
      "grad_norm": 0.001338609610684216,
      "learning_rate": 2.181588062883027e-06,
      "loss": 0.0001,
      "step": 32050
    },
    {
      "epoch": 76.97841726618705,
      "grad_norm": 0.0013079920317977667,
      "learning_rate": 2.0983213429256596e-06,
      "loss": 0.0001,
      "step": 32100
    },
    {
      "epoch": 77.09832134292566,
      "grad_norm": 0.06310296803712845,
      "learning_rate": 2.015054622968292e-06,
      "loss": 0.0001,
      "step": 32150
    },
    {
      "epoch": 77.21822541966426,
      "grad_norm": 0.00129870290402323,
      "learning_rate": 1.9317879030109247e-06,
      "loss": 0.0001,
      "step": 32200
    },
    {
      "epoch": 77.33812949640287,
      "grad_norm": 0.0015585849760100245,
      "learning_rate": 1.8485211830535573e-06,
      "loss": 0.0001,
      "step": 32250
    },
    {
      "epoch": 77.45803357314149,
      "grad_norm": 0.0012857260880991817,
      "learning_rate": 1.7652544630961896e-06,
      "loss": 0.0001,
      "step": 32300
    },
    {
      "epoch": 77.5779376498801,
      "grad_norm": 0.0019403980113565922,
      "learning_rate": 1.6819877431388224e-06,
      "loss": 0.0001,
      "step": 32350
    },
    {
      "epoch": 77.6978417266187,
      "grad_norm": 0.001303556957282126,
      "learning_rate": 1.598721023181455e-06,
      "loss": 0.006,
      "step": 32400
    },
    {
      "epoch": 77.81774580335731,
      "grad_norm": 0.0012997626326978207,
      "learning_rate": 1.5154543032240875e-06,
      "loss": 0.0001,
      "step": 32450
    },
    {
      "epoch": 77.93764988009592,
      "grad_norm": 0.0013147370191290975,
      "learning_rate": 1.43218758326672e-06,
      "loss": 0.0001,
      "step": 32500
    },
    {
      "epoch": 77.93764988009592,
      "eval_acc": 0.9193910656351385,
      "eval_correct": 3684,
      "eval_loss": 0.6603702306747437,
      "eval_runtime": 42.7165,
      "eval_samples_per_second": 93.805,
      "eval_steps_per_second": 11.729,
      "eval_total": 4007,
      "step": 32500
    },
    {
      "epoch": 78.05755395683454,
      "grad_norm": 0.0013153115287423134,
      "learning_rate": 1.3489208633093526e-06,
      "loss": 0.0001,
      "step": 32550
    },
    {
      "epoch": 78.17745803357315,
      "grad_norm": 0.0012885822216048837,
      "learning_rate": 1.2656541433519852e-06,
      "loss": 0.0001,
      "step": 32600
    },
    {
      "epoch": 78.29736211031175,
      "grad_norm": 0.0012953849509358406,
      "learning_rate": 1.1823874233946177e-06,
      "loss": 0.0001,
      "step": 32650
    },
    {
      "epoch": 78.41726618705036,
      "grad_norm": 0.0012882612645626068,
      "learning_rate": 1.0991207034372503e-06,
      "loss": 0.0001,
      "step": 32700
    },
    {
      "epoch": 78.53717026378897,
      "grad_norm": 0.0012936870334669948,
      "learning_rate": 1.0158539834798828e-06,
      "loss": 0.0001,
      "step": 32750
    },
    {
      "epoch": 78.65707434052757,
      "grad_norm": 0.0012850373750552535,
      "learning_rate": 9.325872635225153e-07,
      "loss": 0.0001,
      "step": 32800
    },
    {
      "epoch": 78.77697841726619,
      "grad_norm": 0.0012725527631118894,
      "learning_rate": 8.49320543565148e-07,
      "loss": 0.0001,
      "step": 32850
    },
    {
      "epoch": 78.8968824940048,
      "grad_norm": 0.0013549657305702567,
      "learning_rate": 7.660538236077805e-07,
      "loss": 0.0001,
      "step": 32900
    },
    {
      "epoch": 79.0167865707434,
      "grad_norm": 0.001300643547438085,
      "learning_rate": 6.82787103650413e-07,
      "loss": 0.006,
      "step": 32950
    },
    {
      "epoch": 79.13669064748201,
      "grad_norm": 0.0012935074046254158,
      "learning_rate": 5.995203836930456e-07,
      "loss": 0.0001,
      "step": 33000
    },
    {
      "epoch": 79.13669064748201,
      "eval_acc": 0.9203893186922885,
      "eval_correct": 3688,
      "eval_loss": 0.6614593267440796,
      "eval_runtime": 43.5541,
      "eval_samples_per_second": 92.0,
      "eval_steps_per_second": 11.503,
      "eval_total": 4007,
      "step": 33000
    }
  ],
  "logging_steps": 50,
  "max_steps": 33360,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 80,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.90911819886687e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}