diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,9672 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 4375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008,
+      "grad_norm": 12.899273404983767,
+      "learning_rate": 3.6529680365296803e-07,
+      "loss": 0.632,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.5805126428604126,
+      "step": 5,
+      "valid_targets_mean": 4164.7,
+      "valid_targets_min": 197
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 11.800412840411122,
+      "learning_rate": 8.219178082191781e-07,
+      "loss": 0.6389,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.6014214754104614,
+      "step": 10,
+      "valid_targets_mean": 5153.0,
+      "valid_targets_min": 2385
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 11.779857114293907,
+      "learning_rate": 1.278538812785388e-06,
+      "loss": 0.6682,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.6524642705917358,
+      "step": 15,
+      "valid_targets_mean": 3913.9,
+      "valid_targets_min": 2380
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 11.34118314149117,
+      "learning_rate": 1.7351598173515982e-06,
+      "loss": 0.6087,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.6762663125991821,
+      "step": 20,
+      "valid_targets_mean": 3390.6,
+      "valid_targets_min": 342
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 7.284030098268009,
+      "learning_rate": 2.191780821917808e-06,
+      "loss": 0.5853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.5493960976600647,
+      "step": 25,
+      "valid_targets_mean": 3555.3,
+      "valid_targets_min": 926
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 4.1684108141215175,
+      "learning_rate": 2.6484018264840183e-06,
+      "loss": 0.5155,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.5180737972259521,
+      "step": 30,
+      "valid_targets_mean": 3432.9,
+      "valid_targets_min": 211
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 2.237048490222135,
+      "learning_rate": 3.1050228310502285e-06,
+      "loss": 0.5106,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.4633646309375763,
+      "step": 35,
+      "valid_targets_mean": 3894.1,
+      "valid_targets_min": 1829
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 1.6008861337148406,
+      "learning_rate": 3.5616438356164386e-06,
+      "loss": 0.4863,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.48808300495147705,
+      "step": 40,
+      "valid_targets_mean": 3919.1,
+      "valid_targets_min": 1918
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 1.562576193532036,
+      "learning_rate": 4.018264840182649e-06,
+      "loss": 0.4903,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.5363553166389465,
+      "step": 45,
+      "valid_targets_mean": 2829.2,
+      "valid_targets_min": 257
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.083722023352801,
+      "learning_rate": 4.4748858447488585e-06,
+      "loss": 0.4162,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3980520963668823,
+      "step": 50,
+      "valid_targets_mean": 3695.4,
+      "valid_targets_min": 306
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 1.0146148349944977,
+      "learning_rate": 4.931506849315069e-06,
+      "loss": 0.465,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.5237495303153992,
+      "step": 55,
+      "valid_targets_mean": 3645.4,
+      "valid_targets_min": 652
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 0.8452311813503655,
+      "learning_rate": 5.388127853881279e-06,
+      "loss": 0.3865,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3892636001110077,
+      "step": 60,
+      "valid_targets_mean": 3313.0,
+      "valid_targets_min": 255
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 1.0821778914330036,
+      "learning_rate": 5.8447488584474885e-06,
+      "loss": 0.3769,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.37449005246162415,
+      "step": 65,
+      "valid_targets_mean": 3179.9,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.6215568832689057,
+      "learning_rate": 6.301369863013699e-06,
+      "loss": 0.4069,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3621111214160919,
+      "step": 70,
+      "valid_targets_mean": 4049.6,
+      "valid_targets_min": 256
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.770021938073196,
+      "learning_rate": 6.757990867579909e-06,
+      "loss": 0.37,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.42436978220939636,
+      "step": 75,
+      "valid_targets_mean": 3086.1,
+      "valid_targets_min": 260
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.7220528118417094,
+      "learning_rate": 7.214611872146119e-06,
+      "loss": 0.3895,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.41285818815231323,
+      "step": 80,
+      "valid_targets_mean": 3357.8,
+      "valid_targets_min": 348
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 0.7455816029933069,
+      "learning_rate": 7.671232876712329e-06,
+      "loss": 0.3631,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3847758173942566,
+      "step": 85,
+      "valid_targets_mean": 2978.2,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 0.4731322156414755,
+      "learning_rate": 8.127853881278539e-06,
+      "loss": 0.3668,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2792428433895111,
+      "step": 90,
+      "valid_targets_mean": 4811.9,
+      "valid_targets_min": 1973
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 0.5813499951759794,
+      "learning_rate": 8.584474885844748e-06,
+      "loss": 0.3217,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28936871886253357,
+      "step": 95,
+      "valid_targets_mean": 3432.4,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.7066691143322803,
+      "learning_rate": 9.04109589041096e-06,
+      "loss": 0.3232,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.44177746772766113,
+      "step": 100,
+      "valid_targets_mean": 2945.2,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 0.6020369897588225,
+      "learning_rate": 9.49771689497717e-06,
+      "loss": 0.3149,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2954063415527344,
+      "step": 105,
+      "valid_targets_mean": 3650.1,
+      "valid_targets_min": 365
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 0.5753872863903806,
+      "learning_rate": 9.95433789954338e-06,
+      "loss": 0.3291,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2976611256599426,
+      "step": 110,
+      "valid_targets_mean": 3559.6,
+      "valid_targets_min": 678
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 0.5506948710628178,
+      "learning_rate": 1.0410958904109589e-05,
+      "loss": 0.3002,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2875598669052124,
+      "step": 115,
+      "valid_targets_mean": 3608.0,
+      "valid_targets_min": 341
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.5424875224905387,
+      "learning_rate": 1.08675799086758e-05,
+      "loss": 0.3182,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2863380014896393,
+      "step": 120,
+      "valid_targets_mean": 3784.0,
+      "valid_targets_min": 481
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.5530397727785281,
+      "learning_rate": 1.132420091324201e-05,
+      "loss": 0.3119,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3120148479938507,
+      "step": 125,
+      "valid_targets_mean": 3544.6,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 0.6222426060334025,
+      "learning_rate": 1.178082191780822e-05,
+      "loss": 0.2871,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28358644247055054,
+      "step": 130,
+      "valid_targets_mean": 2618.9,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 0.7178110880703985,
+      "learning_rate": 1.223744292237443e-05,
+      "loss": 0.3227,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3359754681587219,
+      "step": 135,
+      "valid_targets_mean": 2455.1,
+      "valid_targets_min": 271
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.6589010401873778,
+      "learning_rate": 1.2694063926940641e-05,
+      "loss": 0.3059,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.36762526631355286,
+      "step": 140,
+      "valid_targets_mean": 2828.9,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 0.6015973429134047,
+      "learning_rate": 1.3150684931506849e-05,
+      "loss": 0.2924,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.37456849217414856,
+      "step": 145,
+      "valid_targets_mean": 3356.9,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.5423917469783537,
+      "learning_rate": 1.360730593607306e-05,
+      "loss": 0.2882,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27597853541374207,
+      "step": 150,
+      "valid_targets_mean": 3713.6,
+      "valid_targets_min": 904
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 0.47707933017883714,
+      "learning_rate": 1.406392694063927e-05,
+      "loss": 0.289,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2612387537956238,
+      "step": 155,
+      "valid_targets_mean": 4605.4,
+      "valid_targets_min": 1525
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.6535468320398061,
+      "learning_rate": 1.4520547945205482e-05,
+      "loss": 0.2879,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2807033061981201,
+      "step": 160,
+      "valid_targets_mean": 3735.5,
+      "valid_targets_min": 357
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 0.4967045560849481,
+      "learning_rate": 1.497716894977169e-05,
+      "loss": 0.2691,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24917957186698914,
+      "step": 165,
+      "valid_targets_mean": 4055.2,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 0.4655577654319638,
+      "learning_rate": 1.54337899543379e-05,
+      "loss": 0.2866,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2266799509525299,
+      "step": 170,
+      "valid_targets_mean": 4225.7,
+      "valid_targets_min": 2573
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.7144764106378859,
+      "learning_rate": 1.589041095890411e-05,
+      "loss": 0.3214,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.30658045411109924,
+      "step": 175,
+      "valid_targets_mean": 4161.2,
+      "valid_targets_min": 367
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.5300195144137997,
+      "learning_rate": 1.634703196347032e-05,
+      "loss": 0.2987,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3045879900455475,
+      "step": 180,
+      "valid_targets_mean": 3827.1,
+      "valid_targets_min": 397
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 0.6277432851660188,
+      "learning_rate": 1.680365296803653e-05,
+      "loss": 0.2967,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2572881579399109,
+      "step": 185,
+      "valid_targets_mean": 3845.8,
+      "valid_targets_min": 392
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 0.5698933618190115,
+      "learning_rate": 1.726027397260274e-05,
+      "loss": 0.3107,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.29826509952545166,
+      "step": 190,
+      "valid_targets_mean": 3508.1,
+      "valid_targets_min": 324
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 0.5528606964754343,
+      "learning_rate": 1.771689497716895e-05,
+      "loss": 0.2923,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2627028822898865,
+      "step": 195,
+      "valid_targets_mean": 3317.6,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.701568673457288,
+      "learning_rate": 1.8173515981735163e-05,
+      "loss": 0.2847,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.29768073558807373,
+      "step": 200,
+      "valid_targets_mean": 3581.9,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 0.6115972612966287,
+      "learning_rate": 1.863013698630137e-05,
+      "loss": 0.2565,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.251949280500412,
+      "step": 205,
+      "valid_targets_mean": 3093.9,
+      "valid_targets_min": 352
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 0.5529457649662297,
+      "learning_rate": 1.9086757990867582e-05,
+      "loss": 0.2782,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2753089666366577,
+      "step": 210,
+      "valid_targets_mean": 3347.3,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 0.5624771168770549,
+      "learning_rate": 1.954337899543379e-05,
+      "loss": 0.2687,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2537323534488678,
+      "step": 215,
+      "valid_targets_mean": 3335.8,
+      "valid_targets_min": 918
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.5162199941048468,
+      "learning_rate": 2e-05,
+      "loss": 0.2809,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23808422684669495,
+      "step": 220,
+      "valid_targets_mean": 4122.8,
+      "valid_targets_min": 1682
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.648836525648852,
+      "learning_rate": 2.045662100456621e-05,
+      "loss": 0.299,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.30612999200820923,
+      "step": 225,
+      "valid_targets_mean": 3014.0,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 0.6823055879866994,
+      "learning_rate": 2.0913242009132424e-05,
+      "loss": 0.2829,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2527056336402893,
+      "step": 230,
+      "valid_targets_mean": 3384.8,
+      "valid_targets_min": 404
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 0.6476121318229757,
+      "learning_rate": 2.1369863013698632e-05,
+      "loss": 0.2791,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2546736001968384,
+      "step": 235,
+      "valid_targets_mean": 3362.7,
+      "valid_targets_min": 257
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.5402759853276052,
+      "learning_rate": 2.182648401826484e-05,
+      "loss": 0.2856,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20453396439552307,
+      "step": 240,
+      "valid_targets_mean": 3097.1,
+      "valid_targets_min": 277
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 0.5414195017361273,
+      "learning_rate": 2.2283105022831052e-05,
+      "loss": 0.2831,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25525975227355957,
+      "step": 245,
+      "valid_targets_mean": 3591.8,
+      "valid_targets_min": 338
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.5945415086169623,
+      "learning_rate": 2.2739726027397263e-05,
+      "loss": 0.2824,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2830345034599304,
+      "step": 250,
+      "valid_targets_mean": 3324.8,
+      "valid_targets_min": 270
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 0.5377468507194594,
+      "learning_rate": 2.3196347031963475e-05,
+      "loss": 0.2712,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21687263250350952,
+      "step": 255,
+      "valid_targets_mean": 3899.6,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.6405010100883952,
+      "learning_rate": 2.3652968036529683e-05,
+      "loss": 0.2378,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23027759790420532,
+      "step": 260,
+      "valid_targets_mean": 3424.8,
+      "valid_targets_min": 343
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 0.5173627967162752,
+      "learning_rate": 2.410958904109589e-05,
+      "loss": 0.2796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.218389630317688,
+      "step": 265,
+      "valid_targets_mean": 4041.2,
+      "valid_targets_min": 498
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 0.6153049927640496,
+      "learning_rate": 2.4566210045662106e-05,
+      "loss": 0.266,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2454148828983307,
+      "step": 270,
+      "valid_targets_mean": 3096.7,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.5393012304756535,
+      "learning_rate": 2.5022831050228314e-05,
+      "loss": 0.2693,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26497411727905273,
+      "step": 275,
+      "valid_targets_mean": 3900.8,
+      "valid_targets_min": 2119
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.5100160450169245,
+      "learning_rate": 2.547945205479452e-05,
+      "loss": 0.2435,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21504436433315277,
+      "step": 280,
+      "valid_targets_mean": 3958.5,
+      "valid_targets_min": 302
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 0.6753416712688387,
+      "learning_rate": 2.593607305936073e-05,
+      "loss": 0.2577,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.3184463381767273,
+      "step": 285,
+      "valid_targets_mean": 3477.5,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 0.4773498337961343,
+      "learning_rate": 2.6392694063926944e-05,
+      "loss": 0.2541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2737138867378235,
+      "step": 290,
+      "valid_targets_mean": 5004.5,
+      "valid_targets_min": 2481
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 0.7224196369767674,
+      "learning_rate": 2.6849315068493153e-05,
+      "loss": 0.2729,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.304904043674469,
+      "step": 295,
+      "valid_targets_mean": 3158.5,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.6502139404986452,
+      "learning_rate": 2.7305936073059364e-05,
+      "loss": 0.2646,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27612757682800293,
+      "step": 300,
+      "valid_targets_mean": 3049.4,
+      "valid_targets_min": 229
+    },
+    {
+      "epoch": 0.488,
+      "grad_norm": 0.5740606940436669,
+      "learning_rate": 2.7762557077625572e-05,
+      "loss": 0.2633,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26797810196876526,
+      "step": 305,
+      "valid_targets_mean": 3646.4,
+      "valid_targets_min": 258
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 0.5589271710394393,
+      "learning_rate": 2.8219178082191783e-05,
+      "loss": 0.2469,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2508760988712311,
+      "step": 310,
+      "valid_targets_mean": 3409.2,
+      "valid_targets_min": 320
+    },
+    {
+      "epoch": 0.504,
+      "grad_norm": 0.5874618329994452,
+      "learning_rate": 2.8675799086757995e-05,
+      "loss": 0.2608,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27235835790634155,
+      "step": 315,
+      "valid_targets_mean": 3324.4,
+      "valid_targets_min": 615
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.6050356257242109,
+      "learning_rate": 2.9132420091324203e-05,
+      "loss": 0.2632,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2476998120546341,
+      "step": 320,
+      "valid_targets_mean": 3399.6,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.5343795699665158,
+      "learning_rate": 2.958904109589041e-05,
+      "loss": 0.2385,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21461167931556702,
+      "step": 325,
+      "valid_targets_mean": 3750.6,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 0.5184015131435025,
+      "learning_rate": 3.0045662100456626e-05,
+      "loss": 0.2617,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2726163864135742,
+      "step": 330,
+      "valid_targets_mean": 3853.2,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 0.536,
+      "grad_norm": 0.5194989444610492,
+      "learning_rate": 3.0502283105022834e-05,
+      "loss": 0.2684,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2518593370914459,
+      "step": 335,
+      "valid_targets_mean": 4061.8,
+      "valid_targets_min": 378
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.5634136663228666,
+      "learning_rate": 3.0958904109589045e-05,
+      "loss": 0.2437,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2540585398674011,
+      "step": 340,
+      "valid_targets_mean": 3273.5,
+      "valid_targets_min": 387
+    },
+    {
+      "epoch": 0.552,
+      "grad_norm": 0.6027363773675721,
+      "learning_rate": 3.141552511415525e-05,
+      "loss": 0.2616,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.273921936750412,
+      "step": 345,
+      "valid_targets_mean": 3518.2,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.4642209576882912,
+      "learning_rate": 3.187214611872147e-05,
+      "loss": 0.243,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23529726266860962,
+      "step": 350,
+      "valid_targets_mean": 4259.2,
+      "valid_targets_min": 2172
+    },
+    {
+      "epoch": 0.568,
+      "grad_norm": 0.5483716326901892,
+      "learning_rate": 3.2328767123287676e-05,
+      "loss": 0.2444,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2524058222770691,
+      "step": 355,
+      "valid_targets_mean": 3565.5,
+      "valid_targets_min": 237
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.5131759559208142,
+      "learning_rate": 3.2785388127853884e-05,
+      "loss": 0.2574,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2165084034204483,
+      "step": 360,
+      "valid_targets_mean": 3714.7,
+      "valid_targets_min": 920
+    },
+    {
+      "epoch": 0.584,
+      "grad_norm": 0.5661058021105683,
+      "learning_rate": 3.324200913242009e-05,
+      "loss": 0.2669,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22399932146072388,
+      "step": 365,
+      "valid_targets_mean": 3610.4,
+      "valid_targets_min": 2036
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 0.5339464456977133,
+      "learning_rate": 3.369863013698631e-05,
+      "loss": 0.2548,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2708768844604492,
+      "step": 370,
+      "valid_targets_mean": 4232.6,
+      "valid_targets_min": 760
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.6110858183627013,
+      "learning_rate": 3.4155251141552515e-05,
+      "loss": 0.2382,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24847379326820374,
+      "step": 375,
+      "valid_targets_mean": 3051.7,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.6170650141476726,
+      "learning_rate": 3.461187214611872e-05,
+      "loss": 0.2488,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2612687051296234,
+      "step": 380,
+      "valid_targets_mean": 4304.8,
+      "valid_targets_min": 265
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 0.6127839157277588,
+      "learning_rate": 3.506849315068493e-05,
+      "loss": 0.2384,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28986644744873047,
+      "step": 385,
+      "valid_targets_mean": 4071.3,
+      "valid_targets_min": 2012
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 1.201350651240806,
+      "learning_rate": 3.5525114155251146e-05,
+      "loss": 0.257,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26843124628067017,
+      "step": 390,
+      "valid_targets_mean": 3515.2,
+      "valid_targets_min": 1367
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 0.6526246286845676,
+      "learning_rate": 3.5981735159817354e-05,
+      "loss": 0.2493,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20340192317962646,
+      "step": 395,
+      "valid_targets_mean": 2808.8,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.5665233253212429,
+      "learning_rate": 3.643835616438356e-05,
+      "loss": 0.2454,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22232960164546967,
+      "step": 400,
+      "valid_targets_mean": 3167.2,
+      "valid_targets_min": 434
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 0.6871434035149606,
+      "learning_rate": 3.689497716894977e-05,
+      "loss": 0.2657,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21652841567993164,
+      "step": 405,
+      "valid_targets_mean": 3791.7,
+      "valid_targets_min": 1715
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 0.5882580293014008,
+      "learning_rate": 3.7351598173515985e-05,
+      "loss": 0.2458,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23842757940292358,
+      "step": 410,
+      "valid_targets_mean": 3001.2,
+      "valid_targets_min": 348
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 0.5955112789581783,
+      "learning_rate": 3.780821917808219e-05,
+      "loss": 0.2495,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2836112976074219,
+      "step": 415,
+      "valid_targets_mean": 3095.3,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.640710226843072,
+      "learning_rate": 3.82648401826484e-05,
+      "loss": 0.2365,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19834977388381958,
+      "step": 420,
+      "valid_targets_mean": 4443.3,
+      "valid_targets_min": 2393
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.6416568357630587,
+      "learning_rate": 3.8721461187214615e-05,
+      "loss": 0.2496,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2855205237865448,
+      "step": 425,
+      "valid_targets_mean": 3676.4,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 0.5701340735524812,
+      "learning_rate": 3.9178082191780823e-05,
+      "loss": 0.2354,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27252790331840515,
+      "step": 430,
+      "valid_targets_mean": 3490.2,
+      "valid_targets_min": 355
+    },
+    {
+      "epoch": 0.696,
+      "grad_norm": 0.8887603643148563,
+      "learning_rate": 3.963470319634704e-05,
+      "loss": 0.2638,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23491710424423218,
+      "step": 435,
+      "valid_targets_mean": 3704.2,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.5151210272200832,
+      "learning_rate": 3.99999936325009e-05,
+      "loss": 0.2236,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21262603998184204,
+      "step": 440,
+      "valid_targets_mean": 3885.6,
+      "valid_targets_min": 681
+    },
+    {
+      "epoch": 0.712,
+      "grad_norm": 0.537078015534261,
+      "learning_rate": 3.9999770770457856e-05,
+      "loss": 0.2618,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2509823143482208,
+      "step": 445,
+      "valid_targets_mean": 3947.0,
+      "valid_targets_min": 2555
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.5563242845562504,
+      "learning_rate": 3.9999229537513936e-05,
+      "loss": 0.2211,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.221576988697052,
+      "step": 450,
+      "valid_targets_mean": 2868.3,
+      "valid_targets_min": 333
+    },
+    {
+      "epoch": 0.728,
+      "grad_norm": 0.46146799640644837,
+      "learning_rate": 3.999836994228487e-05,
+      "loss": 0.222,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22921231389045715,
+      "step": 455,
+      "valid_targets_mean": 4525.1,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 0.5184156588730301,
+      "learning_rate": 3.999719199845432e-05,
+      "loss": 0.2573,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22066855430603027,
+      "step": 460,
+      "valid_targets_mean": 3526.1,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 0.744,
+      "grad_norm": 0.55525237353441,
+      "learning_rate": 3.999569572477366e-05,
+      "loss": 0.2622,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27354639768600464,
+      "step": 465,
+      "valid_targets_mean": 3054.4,
+      "valid_targets_min": 286
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 0.48937377178950975,
+      "learning_rate": 3.999388114506166e-05,
+      "loss": 0.2485,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22704747319221497,
+      "step": 470,
+      "valid_targets_mean": 4168.8,
+      "valid_targets_min": 2237
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5537468011964694,
+      "learning_rate": 3.999174828820413e-05,
+      "loss": 0.2431,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25416240096092224,
+      "step": 475,
+      "valid_targets_mean": 3191.4,
+      "valid_targets_min": 352
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.45847784710394207,
+      "learning_rate": 3.998929718815341e-05,
+      "loss": 0.2321,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20060352981090546,
+      "step": 480,
+      "valid_targets_mean": 3985.9,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 0.776,
+      "grad_norm": 0.5279870851634987,
+      "learning_rate": 3.998652788392792e-05,
+      "loss": 0.2399,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2366786003112793,
+      "step": 485,
+      "valid_targets_mean": 3821.8,
+      "valid_targets_min": 2103
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 0.6760374959350887,
+      "learning_rate": 3.9983440419611445e-05,
+      "loss": 0.2582,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.33406466245651245,
+      "step": 490,
+      "valid_targets_mean": 2668.2,
+      "valid_targets_min": 222
+    },
+    {
+      "epoch": 0.792,
+      "grad_norm": 0.5267156115676721,
+      "learning_rate": 3.9980034844352494e-05,
+      "loss": 0.2547,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20584599673748016,
+      "step": 495,
+      "valid_targets_mean": 3311.5,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.514330689405401,
+      "learning_rate": 3.9976311212363495e-05,
+      "loss": 0.2427,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2519657611846924,
+      "step": 500,
+      "valid_targets_mean": 3855.7,
+      "valid_targets_min": 285
+    },
+    {
+      "epoch": 0.808,
+      "grad_norm": 0.4834857499068857,
+      "learning_rate": 3.997226958291992e-05,
+      "loss": 0.2299,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21682864427566528,
+      "step": 505,
+      "valid_targets_mean": 3743.5,
+      "valid_targets_min": 700
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 0.5882465131583315,
+      "learning_rate": 3.996791002035937e-05,
+      "loss": 0.2506,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27027708292007446,
+      "step": 510,
+      "valid_targets_mean": 3075.9,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 0.824,
+      "grad_norm": 0.518153955262568,
+      "learning_rate": 3.996323259408055e-05,
+      "loss": 0.2299,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22745957970619202,
+      "step": 515,
+      "valid_targets_mean": 3184.6,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.49850390050973264,
+      "learning_rate": 3.995823737854211e-05,
+      "loss": 0.2425,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2081553041934967,
+      "step": 520,
+      "valid_targets_mean": 3863.3,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.525392536533953,
+      "learning_rate": 3.9952924453261534e-05,
+      "loss": 0.241,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2189328372478485,
+      "step": 525,
+      "valid_targets_mean": 3785.8,
+      "valid_targets_min": 1928
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 0.5104725154366113,
+      "learning_rate": 3.994729390281384e-05,
+      "loss": 0.2414,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22295767068862915,
+      "step": 530,
+      "valid_targets_mean": 3385.2,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 0.6081774927178754,
+      "learning_rate": 3.994134581683021e-05,
+      "loss": 0.2224,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2194170355796814,
+      "step": 535,
+      "valid_targets_mean": 3138.3,
+      "valid_targets_min": 343
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.46097455467058907,
+      "learning_rate": 3.9935080289996626e-05,
+      "loss": 0.2228,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20993672311306,
+      "step": 540,
+      "valid_targets_mean": 4524.9,
+      "valid_targets_min": 1382
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 0.5080610825176881,
+      "learning_rate": 3.992849742205228e-05,
+      "loss": 0.2209,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21945413947105408,
+      "step": 545,
+      "valid_targets_mean": 3598.1,
+      "valid_targets_min": 428
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.5469125312433061,
+      "learning_rate": 3.9921597317788065e-05,
+      "loss": 0.2646,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2582301199436188,
+      "step": 550,
+      "valid_targets_mean": 3386.4,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 0.888,
+      "grad_norm": 0.4321075669744474,
+      "learning_rate": 3.991438008704486e-05,
+      "loss": 0.2459,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2222033590078354,
+      "step": 555,
+      "valid_targets_mean": 4456.4,
+      "valid_targets_min": 2245
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.44126236618112136,
+      "learning_rate": 3.990684584471179e-05,
+      "loss": 0.2462,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16919179260730743,
+      "step": 560,
+      "valid_targets_mean": 3818.2,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 0.4312386852532211,
+      "learning_rate": 3.989899471072441e-05,
+      "loss": 0.2371,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2428627461194992,
+      "step": 565,
+      "valid_targets_mean": 4574.2,
+      "valid_targets_min": 2091
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 0.5909649354180516,
+      "learning_rate": 3.9890826810062784e-05,
+      "loss": 0.2478,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2540675103664398,
+      "step": 570,
+      "valid_targets_mean": 2862.3,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.4539171020826271,
+      "learning_rate": 3.988234227274949e-05,
+      "loss": 0.2374,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2417922168970108,
+      "step": 575,
+      "valid_targets_mean": 4393.6,
+      "valid_targets_min": 2230
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 0.5193851205026463,
+      "learning_rate": 3.987354123384757e-05,
+      "loss": 0.2187,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22780488431453705,
+      "step": 580,
+      "valid_targets_mean": 3060.8,
+      "valid_targets_min": 278
+    },
+    {
+      "epoch": 0.936,
+      "grad_norm": 0.5818875441802687,
+      "learning_rate": 3.9864423833458364e-05,
+      "loss": 0.2531,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2822760343551636,
+      "step": 585,
+      "valid_targets_mean": 3122.1,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 0.5332981637776232,
+      "learning_rate": 3.9854990216719285e-05,
+      "loss": 0.2489,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23355308175086975,
+      "step": 590,
+      "valid_targets_mean": 3284.4,
+      "valid_targets_min": 302
+    },
+    {
+      "epoch": 0.952,
+      "grad_norm": 0.5342376889046714,
+      "learning_rate": 3.98452405338015e-05,
+      "loss": 0.2488,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27372467517852783,
+      "step": 595,
+      "valid_targets_mean": 3234.1,
+      "valid_targets_min": 494
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.5725086100029348,
+      "learning_rate": 3.983517493990756e-05,
+      "loss": 0.2238,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25033724308013916,
+      "step": 600,
+      "valid_targets_mean": 2978.4,
+      "valid_targets_min": 251
+    },
+    {
+      "epoch": 0.968,
+      "grad_norm": 0.49188951619569715,
+      "learning_rate": 3.982479359526892e-05,
+      "loss": 0.237,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23531991243362427,
+      "step": 605,
+      "valid_targets_mean": 3789.6,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 0.49816066187118846,
+      "learning_rate": 3.981409666514336e-05,
+      "loss": 0.2275,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22131690382957458,
+      "step": 610,
+      "valid_targets_mean": 3333.7,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 0.984,
+      "grad_norm": 0.46787757358624243,
+      "learning_rate": 3.98030843198124e-05,
+      "loss": 0.2273,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17952045798301697,
+      "step": 615,
+      "valid_targets_mean": 3898.5,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 0.5134931258527766,
+      "learning_rate": 3.979175673457858e-05,
+      "loss": 0.2341,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24701471626758575,
+      "step": 620,
+      "valid_targets_mean": 4227.1,
+      "valid_targets_min": 310
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.5710293126376851,
+      "learning_rate": 3.9780114089762616e-05,
+      "loss": 0.2344,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24980415403842926,
+      "step": 625,
+      "valid_targets_mean": 3683.2,
+      "valid_targets_min": 2214
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 0.6140002939560796,
+      "learning_rate": 3.976815657070062e-05,
+      "loss": 0.238,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2705925405025482,
+      "step": 630,
+      "valid_targets_mean": 3307.7,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 1.016,
+      "grad_norm": 0.5462561304492779,
+      "learning_rate": 3.975588436774107e-05,
+      "loss": 0.2182,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21931704878807068,
+      "step": 635,
+      "valid_targets_mean": 3120.8,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.5104489509575758,
+      "learning_rate": 3.9743297676241826e-05,
+      "loss": 0.2316,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23143795132637024,
+      "step": 640,
+      "valid_targets_mean": 3522.8,
+      "valid_targets_min": 273
+    },
+    {
+      "epoch": 1.032,
+      "grad_norm": 0.4638223661939089,
+      "learning_rate": 3.9730396696566994e-05,
+      "loss": 0.2236,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19875910878181458,
+      "step": 645,
+      "valid_targets_mean": 3751.1,
+      "valid_targets_min": 362
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.506450874158863,
+      "learning_rate": 3.971718163408375e-05,
+      "loss": 0.2126,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17710669338703156,
+      "step": 650,
+      "valid_targets_mean": 3453.8,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 1.048,
+      "grad_norm": 0.5015658683807422,
+      "learning_rate": 3.9703652699159093e-05,
+      "loss": 0.2014,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25794655084609985,
+      "step": 655,
+      "valid_targets_mean": 3797.3,
+      "valid_targets_min": 251
+    },
+    {
+      "epoch": 1.056,
+      "grad_norm": 0.4368723556058954,
+      "learning_rate": 3.9689810107156425e-05,
+      "loss": 0.2145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24793478846549988,
+      "step": 660,
+      "valid_targets_mean": 4021.6,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 1.064,
+      "grad_norm": 0.6200925583031969,
+      "learning_rate": 3.967565407843222e-05,
+      "loss": 0.2174,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24081169068813324,
+      "step": 665,
+      "valid_targets_mean": 2917.3,
+      "valid_targets_min": 242
+    },
+    {
+      "epoch": 1.072,
+      "grad_norm": 0.474686533903594,
+      "learning_rate": 3.966118483833242e-05,
+      "loss": 0.2147,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2075086385011673,
+      "step": 670,
+      "valid_targets_mean": 3771.1,
+      "valid_targets_min": 335
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 0.5141987851769679,
+      "learning_rate": 3.964640261718893e-05,
+      "loss": 0.2355,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20444688200950623,
+      "step": 675,
+      "valid_targets_mean": 3871.3,
+      "valid_targets_min": 375
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.4677624341069894,
+      "learning_rate": 3.963130765031589e-05,
+      "loss": 0.2243,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1928137242794037,
+      "step": 680,
+      "valid_targets_mean": 3997.3,
+      "valid_targets_min": 407
+    },
+    {
+      "epoch": 1.096,
+      "grad_norm": 0.5353939503966203,
+      "learning_rate": 3.961590017800598e-05,
+      "loss": 0.2182,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19473595917224884,
+      "step": 685,
+      "valid_targets_mean": 2911.7,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 1.104,
+      "grad_norm": 0.4772511934581671,
+      "learning_rate": 3.960018044552653e-05,
+      "loss": 0.2151,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23613408207893372,
+      "step": 690,
+      "valid_targets_mean": 4116.5,
+      "valid_targets_min": 2437
+    },
+    {
+      "epoch": 1.112,
+      "grad_norm": 0.5104652899973866,
+      "learning_rate": 3.9584148703115704e-05,
+      "loss": 0.2349,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22481714189052582,
+      "step": 695,
+      "valid_targets_mean": 3770.1,
+      "valid_targets_min": 790
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.4736559011258842,
+      "learning_rate": 3.956780520597842e-05,
+      "loss": 0.2041,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.209529310464859,
+      "step": 700,
+      "valid_targets_mean": 3762.8,
+      "valid_targets_min": 493
+    },
+    {
+      "epoch": 1.1280000000000001,
+      "grad_norm": 0.42896488977993397,
+      "learning_rate": 3.955115021428236e-05,
+      "loss": 0.2146,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18302470445632935,
+      "step": 705,
+      "valid_targets_mean": 3981.4,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "grad_norm": 0.555863472136276,
+      "learning_rate": 3.95341839931538e-05,
+      "loss": 0.2187,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21173925697803497,
+      "step": 710,
+      "valid_targets_mean": 3590.8,
+      "valid_targets_min": 391
+    },
+    {
+      "epoch": 1.144,
+      "grad_norm": 0.5920902374918887,
+      "learning_rate": 3.95169068126734e-05,
+      "loss": 0.2399,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28209957480430603,
+      "step": 715,
+      "valid_targets_mean": 2840.5,
+      "valid_targets_min": 274
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.5764039959454987,
+      "learning_rate": 3.949931894787187e-05,
+      "loss": 0.2115,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21049398183822632,
+      "step": 720,
+      "valid_targets_mean": 3556.3,
+      "valid_targets_min": 329
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.5208216929932574,
+      "learning_rate": 3.948142067872565e-05,
+      "loss": 0.2381,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2176555097103119,
+      "step": 725,
+      "valid_targets_mean": 3319.5,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 1.168,
+      "grad_norm": 0.46460297483367996,
+      "learning_rate": 3.946321229015241e-05,
+      "loss": 0.2376,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.259330153465271,
+      "step": 730,
+      "valid_targets_mean": 4231.1,
+      "valid_targets_min": 2273
+    },
+    {
+      "epoch": 1.176,
+      "grad_norm": 0.4697863578041946,
+      "learning_rate": 3.944469407200652e-05,
+      "loss": 0.2078,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21239379048347473,
+      "step": 735,
+      "valid_targets_mean": 3783.9,
+      "valid_targets_min": 306
+    },
+    {
+      "epoch": 1.184,
+      "grad_norm": 0.519372247823469,
+      "learning_rate": 3.942586631907444e-05,
+      "loss": 0.2197,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2217639684677124,
+      "step": 740,
+      "valid_targets_mean": 3341.9,
+      "valid_targets_min": 226
+    },
+    {
+      "epoch": 1.192,
+      "grad_norm": 0.4588115255534093,
+      "learning_rate": 3.9406729331070054e-05,
+      "loss": 0.2239,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17978435754776,
+      "step": 745,
+      "valid_targets_mean": 4100.9,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.4554079029736819,
+      "learning_rate": 3.938728341262985e-05,
+      "loss": 0.2442,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2241326868534088,
+      "step": 750,
+      "valid_targets_mean": 4366.3,
+      "valid_targets_min": 1255
+    },
+    {
+      "epoch": 1.208,
+      "grad_norm": 0.5508643704491307,
+      "learning_rate": 3.936752887330812e-05,
+      "loss": 0.2175,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25276023149490356,
+      "step": 755,
+      "valid_targets_mean": 3720.6,
+      "valid_targets_min": 842
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.5235574861075041,
+      "learning_rate": 3.9347466027571975e-05,
+      "loss": 0.232,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20873738825321198,
+      "step": 760,
+      "valid_targets_mean": 3319.4,
+      "valid_targets_min": 742
+    },
+    {
+      "epoch": 1.224,
+      "grad_norm": 0.4582260219979578,
+      "learning_rate": 3.932709519479639e-05,
+      "loss": 0.2284,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18328094482421875,
+      "step": 765,
+      "valid_targets_mean": 3482.4,
+      "valid_targets_min": 353
+    },
+    {
+      "epoch": 1.232,
+      "grad_norm": 0.41290797343927044,
+      "learning_rate": 3.930641669925911e-05,
+      "loss": 0.2061,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1955970674753189,
+      "step": 770,
+      "valid_targets_mean": 4538.1,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 0.5067177778949847,
+      "learning_rate": 3.928543087013546e-05,
+      "loss": 0.2252,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.229303240776062,
+      "step": 775,
+      "valid_targets_mean": 3564.9,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 1.248,
+      "grad_norm": 0.47015555891922306,
+      "learning_rate": 3.926413804149315e-05,
+      "loss": 0.2113,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18911537528038025,
+      "step": 780,
+      "valid_targets_mean": 4263.8,
+      "valid_targets_min": 2241
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 0.4782578332226574,
+      "learning_rate": 3.9242538552286894e-05,
+      "loss": 0.216,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26184964179992676,
+      "step": 785,
+      "valid_targets_mean": 4023.9,
+      "valid_targets_min": 361
+    },
+    {
+      "epoch": 1.264,
+      "grad_norm": 0.6331067296968788,
+      "learning_rate": 3.9220632746353096e-05,
+      "loss": 0.2184,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26704591512680054,
+      "step": 790,
+      "valid_targets_mean": 3165.6,
+      "valid_targets_min": 342
+    },
+    {
+      "epoch": 1.272,
+      "grad_norm": 0.3931743138116917,
+      "learning_rate": 3.91984209724043e-05,
+      "loss": 0.2041,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18827009201049805,
+      "step": 795,
+      "valid_targets_mean": 4628.0,
+      "valid_targets_min": 2423
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.5277274405156726,
+      "learning_rate": 3.917590358402369e-05,
+      "loss": 0.2221,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23601111769676208,
+      "step": 800,
+      "valid_targets_mean": 3204.2,
+      "valid_targets_min": 369
+    },
+    {
+      "epoch": 1.288,
+      "grad_norm": 0.41167131287007896,
+      "learning_rate": 3.915308093965943e-05,
+      "loss": 0.1996,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18118314445018768,
+      "step": 805,
+      "valid_targets_mean": 4042.2,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 1.296,
+      "grad_norm": 0.531887121204883,
+      "learning_rate": 3.9129953402618976e-05,
+      "loss": 0.2411,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28801554441452026,
+      "step": 810,
+      "valid_targets_mean": 4020.8,
+      "valid_targets_min": 197
+    },
+    {
+      "epoch": 1.304,
+      "grad_norm": 0.5225976141538105,
+      "learning_rate": 3.91065213410633e-05,
+      "loss": 0.229,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19542548060417175,
+      "step": 815,
+      "valid_targets_mean": 3350.2,
+      "valid_targets_min": 277
+    },
+    {
+      "epoch": 1.312,
+      "grad_norm": 0.48670882774264984,
+      "learning_rate": 3.908278512800098e-05,
+      "loss": 0.2222,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2209671437740326,
+      "step": 820,
+      "valid_targets_mean": 3971.9,
+      "valid_targets_min": 1050
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.4685127886613753,
+      "learning_rate": 3.905874514128235e-05,
+      "loss": 0.2185,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20816904306411743,
+      "step": 825,
+      "valid_targets_mean": 4891.8,
+      "valid_targets_min": 2557
+    },
+    {
+      "epoch": 1.328,
+      "grad_norm": 0.46219908960074446,
+      "learning_rate": 3.903440176359338e-05,
+      "loss": 0.225,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2129441499710083,
+      "step": 830,
+      "valid_targets_mean": 3615.0,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 1.336,
+      "grad_norm": 0.48839596511586036,
+      "learning_rate": 3.90097553824497e-05,
+      "loss": 0.2227,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20166726410388947,
+      "step": 835,
+      "valid_targets_mean": 3431.2,
+      "valid_targets_min": 263
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.4947007213733409,
+      "learning_rate": 3.8984806390190304e-05,
+      "loss": 0.2325,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2446936070919037,
+      "step": 840,
+      "valid_targets_mean": 3529.1,
+      "valid_targets_min": 238
+    },
+    {
+      "epoch": 1.3519999999999999,
+      "grad_norm": 0.550434820229245,
+      "learning_rate": 3.895955518397141e-05,
+      "loss": 0.2287,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2836439907550812,
+      "step": 845,
+      "valid_targets_mean": 3344.9,
+      "valid_targets_min": 232
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 0.4482100242312899,
+      "learning_rate": 3.893400216576011e-05,
+      "loss": 0.2007,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18542957305908203,
+      "step": 850,
+      "valid_targets_mean": 3443.4,
+      "valid_targets_min": 655
+    },
+    {
+      "epoch": 1.3679999999999999,
+      "grad_norm": 0.4516383125012189,
+      "learning_rate": 3.89081477423279e-05,
+      "loss": 0.2394,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2195463925600052,
+      "step": 855,
+      "valid_targets_mean": 4432.4,
+      "valid_targets_min": 2585
+    },
+    {
+      "epoch": 1.376,
+      "grad_norm": 0.44943672320615535,
+      "learning_rate": 3.888199232524434e-05,
+      "loss": 0.2067,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20698964595794678,
+      "step": 860,
+      "valid_targets_mean": 3593.1,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 1.384,
+      "grad_norm": 0.5460931065248839,
+      "learning_rate": 3.8855536330870354e-05,
+      "loss": 0.2353,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2888728380203247,
+      "step": 865,
+      "valid_targets_mean": 3643.3,
+      "valid_targets_min": 230
+    },
+    {
+      "epoch": 1.392,
+      "grad_norm": 0.48680850689906463,
+      "learning_rate": 3.882878018035173e-05,
+      "loss": 0.2208,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24938446283340454,
+      "step": 870,
+      "valid_targets_mean": 4147.6,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.5145140927220699,
+      "learning_rate": 3.880172429961232e-05,
+      "loss": 0.2253,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25820767879486084,
+      "step": 875,
+      "valid_targets_mean": 3228.8,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.4534473989175099,
+      "learning_rate": 3.877436911934733e-05,
+      "loss": 0.2085,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17539316415786743,
+      "step": 880,
+      "valid_targets_mean": 3516.4,
+      "valid_targets_min": 952
+    },
+    {
+      "epoch": 1.416,
+      "grad_norm": 0.4637082842712706,
+      "learning_rate": 3.874671507501641e-05,
+      "loss": 0.2176,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19634653627872467,
+      "step": 885,
+      "valid_targets_mean": 3513.2,
+      "valid_targets_min": 1649
+    },
+    {
+      "epoch": 1.424,
+      "grad_norm": 0.4302513637388981,
+      "learning_rate": 3.871876260683677e-05,
+      "loss": 0.2151,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1671406775712967,
+      "step": 890,
+      "valid_targets_mean": 4097.8,
+      "valid_targets_min": 1832
+    },
+    {
+      "epoch": 1.432,
+      "grad_norm": 0.48714233556081254,
+      "learning_rate": 3.869051215977612e-05,
+      "loss": 0.2124,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18166621029376984,
+      "step": 895,
+      "valid_targets_mean": 3473.1,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.5781217782279776,
+      "learning_rate": 3.8661964183545634e-05,
+      "loss": 0.2369,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25154930353164673,
+      "step": 900,
+      "valid_targets_mean": 3236.2,
+      "valid_targets_min": 408
+    },
+    {
+      "epoch": 1.448,
+      "grad_norm": 0.677436862320739,
+      "learning_rate": 3.863311913259276e-05,
+      "loss": 0.2323,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2163805216550827,
+      "step": 905,
+      "valid_targets_mean": 3881.5,
+      "valid_targets_min": 871
+    },
+    {
+      "epoch": 1.456,
+      "grad_norm": 0.47894077798944173,
+      "learning_rate": 3.860397746609402e-05,
+      "loss": 0.2142,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23264053463935852,
+      "step": 910,
+      "valid_targets_mean": 3717.9,
+      "valid_targets_min": 255
+    },
+    {
+      "epoch": 1.464,
+      "grad_norm": 0.4327308585414839,
+      "learning_rate": 3.857453964794764e-05,
+      "loss": 0.2186,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20194104313850403,
+      "step": 915,
+      "valid_targets_mean": 3766.0,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.46864176513881933,
+      "learning_rate": 3.854480614676624e-05,
+      "loss": 0.2177,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22601060569286346,
+      "step": 920,
+      "valid_targets_mean": 3761.2,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.5487158660036692,
+      "learning_rate": 3.851477743586932e-05,
+      "loss": 0.2274,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19807516038417816,
+      "step": 925,
+      "valid_targets_mean": 3029.1,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 1.488,
+      "grad_norm": 0.4402475307272669,
+      "learning_rate": 3.8484453993275746e-05,
+      "loss": 0.2083,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1965325027704239,
+      "step": 930,
+      "valid_targets_mean": 3906.1,
+      "valid_targets_min": 986
+    },
+    {
+      "epoch": 1.496,
+      "grad_norm": 0.5210318473972785,
+      "learning_rate": 3.8453836301696134e-05,
+      "loss": 0.2114,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2568916082382202,
+      "step": 935,
+      "valid_targets_mean": 3398.0,
+      "valid_targets_min": 1654
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 0.4674672103352886,
+      "learning_rate": 3.842292484852518e-05,
+      "loss": 0.2125,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22912877798080444,
+      "step": 940,
+      "valid_targets_mean": 3601.0,
+      "valid_targets_min": 260
+    },
+    {
+      "epoch": 1.512,
+      "grad_norm": 0.4611400515006556,
+      "learning_rate": 3.8391720125833875e-05,
+      "loss": 0.2132,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18131569027900696,
+      "step": 945,
+      "valid_targets_mean": 4119.2,
+      "valid_targets_min": 417
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.574618515819259,
+      "learning_rate": 3.83602226303617e-05,
+      "loss": 0.2188,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2553848922252655,
+      "step": 950,
+      "valid_targets_mean": 2800.9,
+      "valid_targets_min": 383
+    },
+    {
+      "epoch": 1.528,
+      "grad_norm": 0.4468352486054828,
+      "learning_rate": 3.83284328635087e-05,
+      "loss": 0.1998,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21215172111988068,
+      "step": 955,
+      "valid_targets_mean": 3712.6,
+      "valid_targets_min": 420
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.5646623583994278,
+      "learning_rate": 3.829635133132751e-05,
+      "loss": 0.2022,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2411818653345108,
+      "step": 960,
+      "valid_targets_mean": 3169.9,
+      "valid_targets_min": 2218
+    },
+    {
+      "epoch": 1.544,
+      "grad_norm": 0.4491911429077062,
+      "learning_rate": 3.8263978544515304e-05,
+      "loss": 0.2184,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17701494693756104,
+      "step": 965,
+      "valid_targets_mean": 4297.3,
+      "valid_targets_min": 2356
+    },
+    {
+      "epoch": 1.552,
+      "grad_norm": 0.5050152645301443,
+      "learning_rate": 3.823131501840565e-05,
+      "loss": 0.2185,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24601157009601593,
+      "step": 970,
+      "valid_targets_mean": 3362.5,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.42931652889089766,
+      "learning_rate": 3.819836127296032e-05,
+      "loss": 0.2317,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1883636713027954,
+      "step": 975,
+      "valid_targets_mean": 3984.8,
+      "valid_targets_min": 2311
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 0.519903519540068,
+      "learning_rate": 3.8165117832761016e-05,
+      "loss": 0.2375,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21663978695869446,
+      "step": 980,
+      "valid_targets_mean": 3788.7,
+      "valid_targets_min": 615
+    },
+    {
+      "epoch": 1.576,
+      "grad_norm": 0.61947733612991,
+      "learning_rate": 3.813158522700098e-05,
+      "loss": 0.2094,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23132812976837158,
+      "step": 985,
+      "valid_targets_mean": 3062.1,
+      "valid_targets_min": 355
+    },
+    {
+      "epoch": 1.584,
+      "grad_norm": 0.471124263527094,
+      "learning_rate": 3.809776398947665e-05,
+      "loss": 0.1937,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18877571821212769,
+      "step": 990,
+      "valid_targets_mean": 2908.9,
+      "valid_targets_min": 335
+    },
+    {
+      "epoch": 1.592,
+      "grad_norm": 0.5182279611592049,
+      "learning_rate": 3.806365465857908e-05,
+      "loss": 0.2211,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20986691117286682,
+      "step": 995,
+      "valid_targets_mean": 3175.5,
+      "valid_targets_min": 319
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.5279187199479225,
+      "learning_rate": 3.802925777728541e-05,
+      "loss": 0.2286,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2143177092075348,
+      "step": 1000,
+      "valid_targets_mean": 3286.2,
+      "valid_targets_min": 262
+    },
+    {
+      "epoch": 1.608,
+      "grad_norm": 0.4843960543706493,
+      "learning_rate": 3.799457389315023e-05,
+      "loss": 0.2109,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2089758962392807,
+      "step": 1005,
+      "valid_targets_mean": 3667.6,
+      "valid_targets_min": 761
+    },
+    {
+      "epoch": 1.616,
+      "grad_norm": 0.6270660444519379,
+      "learning_rate": 3.795960355829683e-05,
+      "loss": 0.2292,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26125097274780273,
+      "step": 1010,
+      "valid_targets_mean": 2543.5,
+      "valid_targets_min": 235
+    },
+    {
+      "epoch": 1.624,
+      "grad_norm": 0.470966853167346,
+      "learning_rate": 3.7924347329408444e-05,
+      "loss": 0.2182,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17128024995326996,
+      "step": 1015,
+      "valid_targets_mean": 2755.8,
+      "valid_targets_min": 332
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 0.45462445195557755,
+      "learning_rate": 3.788880576771937e-05,
+      "loss": 0.2038,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18820223212242126,
+      "step": 1020,
+      "valid_targets_mean": 3293.2,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.4459088192874516,
+      "learning_rate": 3.785297943900605e-05,
+      "loss": 0.213,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2180606871843338,
+      "step": 1025,
+      "valid_targets_mean": 3776.1,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "grad_norm": 0.5955655629034536,
+      "learning_rate": 3.7816868913578044e-05,
+      "loss": 0.2436,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2687159776687622,
+      "step": 1030,
+      "valid_targets_mean": 2938.9,
+      "valid_targets_min": 356
+    },
+    {
+      "epoch": 1.6560000000000001,
+      "grad_norm": 0.4773612504615768,
+      "learning_rate": 3.778047476626897e-05,
+      "loss": 0.2052,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23151278495788574,
+      "step": 1035,
+      "valid_targets_mean": 5009.1,
+      "valid_targets_min": 704
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.4142018641787362,
+      "learning_rate": 3.7743797576427335e-05,
+      "loss": 0.2326,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19312213361263275,
+      "step": 1040,
+      "valid_targets_mean": 4275.3,
+      "valid_targets_min": 2361
+    },
+    {
+      "epoch": 1.6720000000000002,
+      "grad_norm": 0.3844015138081994,
+      "learning_rate": 3.770683792790733e-05,
+      "loss": 0.1835,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16765590012073517,
+      "step": 1045,
+      "valid_targets_mean": 4352.3,
+      "valid_targets_min": 499
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 0.409040962288423,
+      "learning_rate": 3.766959640905954e-05,
+      "loss": 0.2081,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16191278398036957,
+      "step": 1050,
+      "valid_targets_mean": 3838.4,
+      "valid_targets_min": 760
+    },
+    {
+      "epoch": 1.688,
+      "grad_norm": 0.4447183637031937,
+      "learning_rate": 3.763207361272153e-05,
+      "loss": 0.1949,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17657402157783508,
+      "step": 1055,
+      "valid_targets_mean": 3471.8,
+      "valid_targets_min": 300
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 0.4650491637755644,
+      "learning_rate": 3.759427013620849e-05,
+      "loss": 0.2169,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22486543655395508,
+      "step": 1060,
+      "valid_targets_mean": 3736.6,
+      "valid_targets_min": 652
+    },
+    {
+      "epoch": 1.704,
+      "grad_norm": 0.45836507731796,
+      "learning_rate": 3.755618658130366e-05,
+      "loss": 0.2008,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1968073844909668,
+      "step": 1065,
+      "valid_targets_mean": 3775.1,
+      "valid_targets_min": 463
+    },
+    {
+      "epoch": 1.712,
+      "grad_norm": 0.45132827844926315,
+      "learning_rate": 3.751782355424877e-05,
+      "loss": 0.2145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20358574390411377,
+      "step": 1070,
+      "valid_targets_mean": 3612.7,
+      "valid_targets_min": 474
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 0.430255452515081,
+      "learning_rate": 3.7479181665734395e-05,
+      "loss": 0.201,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19774779677391052,
+      "step": 1075,
+      "valid_targets_mean": 3739.9,
+      "valid_targets_min": 328
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.541295074694852,
+      "learning_rate": 3.7440261530890213e-05,
+      "loss": 0.1984,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20203076303005219,
+      "step": 1080,
+      "valid_targets_mean": 2850.3,
+      "valid_targets_min": 257
+    },
+    {
+      "epoch": 1.736,
+      "grad_norm": 0.3969090268368087,
+      "learning_rate": 3.740106376927527e-05,
+      "loss": 0.1872,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17212536931037903,
+      "step": 1085,
+      "valid_targets_mean": 4196.0,
+      "valid_targets_min": 846
+    },
+    {
+      "epoch": 1.744,
+      "grad_norm": 0.43965385901302184,
+      "learning_rate": 3.7361589004868035e-05,
+      "loss": 0.2114,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24192990362644196,
+      "step": 1090,
+      "valid_targets_mean": 3835.4,
+      "valid_targets_min": 685
+    },
+    {
+      "epoch": 1.752,
+      "grad_norm": 0.4360435364173881,
+      "learning_rate": 3.7321837866056535e-05,
+      "loss": 0.2255,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2169644832611084,
+      "step": 1095,
+      "valid_targets_mean": 3772.2,
+      "valid_targets_min": 663
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.47736060741400144,
+      "learning_rate": 3.728181098562831e-05,
+      "loss": 0.217,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24836796522140503,
+      "step": 1100,
+      "valid_targets_mean": 3863.7,
+      "valid_targets_min": 493
+    },
+    {
+      "epoch": 1.768,
+      "grad_norm": 0.3898886628001635,
+      "learning_rate": 3.7241509000760355e-05,
+      "loss": 0.1992,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16733957827091217,
+      "step": 1105,
+      "valid_targets_mean": 3663.3,
+      "valid_targets_min": 225
+    },
+    {
+      "epoch": 1.776,
+      "grad_norm": 0.4992225804215321,
+      "learning_rate": 3.720093255300899e-05,
+      "loss": 0.2266,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2307833731174469,
+      "step": 1110,
+      "valid_targets_mean": 3332.4,
+      "valid_targets_min": 327
+    },
+    {
+      "epoch": 1.784,
+      "grad_norm": 0.5410740640914863,
+      "learning_rate": 3.7160082288299645e-05,
+      "loss": 0.2101,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.25245654582977295,
+      "step": 1115,
+      "valid_targets_mean": 3090.2,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 0.43834131307313545,
+      "learning_rate": 3.7118958856916534e-05,
+      "loss": 0.2234,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1828123927116394,
+      "step": 1120,
+      "valid_targets_mean": 3298.0,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.425125777421991,
+      "learning_rate": 3.707756291349237e-05,
+      "loss": 0.2162,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2154930830001831,
+      "step": 1125,
+      "valid_targets_mean": 4048.4,
+      "valid_targets_min": 364
+    },
+    {
+      "epoch": 1.808,
+      "grad_norm": 0.47567488318150986,
+      "learning_rate": 3.703589511699787e-05,
+      "loss": 0.2128,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23984651267528534,
+      "step": 1130,
+      "valid_targets_mean": 3309.2,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 1.8159999999999998,
+      "grad_norm": 0.4008348436039931,
+      "learning_rate": 3.6993956130731355e-05,
+      "loss": 0.2062,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16450627148151398,
+      "step": 1135,
+      "valid_targets_mean": 3754.8,
+      "valid_targets_min": 404
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 0.5215522511463028,
+      "learning_rate": 3.6951746622308106e-05,
+      "loss": 0.2314,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.28734779357910156,
+      "step": 1140,
+      "valid_targets_mean": 3511.9,
+      "valid_targets_min": 1541
+    },
+    {
+      "epoch": 1.8319999999999999,
+      "grad_norm": 0.513345594439414,
+      "learning_rate": 3.69092672636498e-05,
+      "loss": 0.2155,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22889694571495056,
+      "step": 1145,
+      "valid_targets_mean": 3587.2,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 0.5590424392663024,
+      "learning_rate": 3.686651873097375e-05,
+      "loss": 0.2073,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23529022932052612,
+      "step": 1150,
+      "valid_targets_mean": 2817.9,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 1.8479999999999999,
+      "grad_norm": 0.5235745994295448,
+      "learning_rate": 3.682350170478223e-05,
+      "loss": 0.2352,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21999384462833405,
+      "step": 1155,
+      "valid_targets_mean": 3265.8,
+      "valid_targets_min": 1614
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.36243884481601435,
+      "learning_rate": 3.678021686985153e-05,
+      "loss": 0.1977,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19203096628189087,
+      "step": 1160,
+      "valid_targets_mean": 4185.3,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 1.8639999999999999,
+      "grad_norm": 0.474690242332373,
+      "learning_rate": 3.6736664915221144e-05,
+      "loss": 0.2005,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22252175211906433,
+      "step": 1165,
+      "valid_targets_mean": 3738.5,
+      "valid_targets_min": 599
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "grad_norm": 0.4184263191721468,
+      "learning_rate": 3.669284653418278e-05,
+      "loss": 0.2095,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21520096063613892,
+      "step": 1170,
+      "valid_targets_mean": 4314.2,
+      "valid_targets_min": 2240
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.44660987355285336,
+      "learning_rate": 3.6648762424269306e-05,
+      "loss": 0.2154,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.244733065366745,
+      "step": 1175,
+      "valid_targets_mean": 3994.9,
+      "valid_targets_min": 370
+    },
+    {
+      "epoch": 1.888,
+      "grad_norm": 0.5078134870730331,
+      "learning_rate": 3.660441328724365e-05,
+      "loss": 0.2138,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24067294597625732,
+      "step": 1180,
+      "valid_targets_mean": 3093.2,
+      "valid_targets_min": 340
+    },
+    {
+      "epoch": 1.896,
+      "grad_norm": 0.47584346388987786,
+      "learning_rate": 3.655979982908764e-05,
+      "loss": 0.2251,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2435157299041748,
+      "step": 1185,
+      "valid_targets_mean": 3470.8,
+      "valid_targets_min": 1173
+    },
+    {
+      "epoch": 1.904,
+      "grad_norm": 0.43282045901224747,
+      "learning_rate": 3.6514922759990756e-05,
+      "loss": 0.2281,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21751093864440918,
+      "step": 1190,
+      "valid_targets_mean": 3460.4,
+      "valid_targets_min": 982
+    },
+    {
+      "epoch": 1.912,
+      "grad_norm": 0.42376518620001513,
+      "learning_rate": 3.646978279433883e-05,
+      "loss": 0.2059,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21874749660491943,
+      "step": 1195,
+      "valid_targets_mean": 4062.4,
+      "valid_targets_min": 2176
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.4515915835694526,
+      "learning_rate": 3.6424380650702685e-05,
+      "loss": 0.2116,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22560083866119385,
+      "step": 1200,
+      "valid_targets_mean": 3972.9,
+      "valid_targets_min": 1811
+    },
+    {
+      "epoch": 1.928,
+      "grad_norm": 0.45767421102570827,
+      "learning_rate": 3.637871705182667e-05,
+      "loss": 0.2367,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24394528567790985,
+      "step": 1205,
+      "valid_targets_mean": 4157.5,
+      "valid_targets_min": 520
+    },
+    {
+      "epoch": 1.936,
+      "grad_norm": 0.6310751316984698,
+      "learning_rate": 3.633279272461717e-05,
+      "loss": 0.2128,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23581980168819427,
+      "step": 1210,
+      "valid_targets_mean": 2670.6,
+      "valid_targets_min": 258
+    },
+    {
+      "epoch": 1.944,
+      "grad_norm": 0.44807730108351723,
+      "learning_rate": 3.628660840013102e-05,
+      "loss": 0.1946,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18541768193244934,
+      "step": 1215,
+      "valid_targets_mean": 3598.6,
+      "valid_targets_min": 299
+    },
+    {
+      "epoch": 1.952,
+      "grad_norm": 0.36083166328591665,
+      "learning_rate": 3.624016481356392e-05,
+      "loss": 0.2155,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1745067983865738,
+      "step": 1220,
+      "valid_targets_mean": 4831.4,
+      "valid_targets_min": 2901
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.5307614674637945,
+      "learning_rate": 3.619346270423866e-05,
+      "loss": 0.224,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2212851345539093,
+      "step": 1225,
+      "valid_targets_mean": 3236.0,
+      "valid_targets_min": 250
+    },
+    {
+      "epoch": 1.968,
+      "grad_norm": 0.49246274059169587,
+      "learning_rate": 3.6146502815593384e-05,
+      "loss": 0.2122,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1981319785118103,
+      "step": 1230,
+      "valid_targets_mean": 3279.9,
+      "valid_targets_min": 1015
+    },
+    {
+      "epoch": 1.976,
+      "grad_norm": 0.4597491508101446,
+      "learning_rate": 3.609928589516977e-05,
+      "loss": 0.2089,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22181937098503113,
+      "step": 1235,
+      "valid_targets_mean": 3616.6,
+      "valid_targets_min": 278
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 0.5246175810906977,
+      "learning_rate": 3.6051812694601114e-05,
+      "loss": 0.2207,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.27110373973846436,
+      "step": 1240,
+      "valid_targets_mean": 3346.6,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 1.992,
+      "grad_norm": 0.4928049871745383,
+      "learning_rate": 3.6004083969600346e-05,
+      "loss": 0.2155,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2203993797302246,
+      "step": 1245,
+      "valid_targets_mean": 3127.0,
+      "valid_targets_min": 292
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.5437073689058766,
+      "learning_rate": 3.595610047994804e-05,
+      "loss": 0.2073,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18461115658283234,
+      "step": 1250,
+      "valid_targets_mean": 2663.9,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 2.008,
+      "grad_norm": 0.41055822297315164,
+      "learning_rate": 3.5907862989480285e-05,
+      "loss": 0.2118,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1881159245967865,
+      "step": 1255,
+      "valid_targets_mean": 3917.8,
+      "valid_targets_min": 356
+    },
+    {
+      "epoch": 2.016,
+      "grad_norm": 0.490862245313122,
+      "learning_rate": 3.585937226607656e-05,
+      "loss": 0.1796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2163514643907547,
+      "step": 1260,
+      "valid_targets_mean": 3688.6,
+      "valid_targets_min": 1722
+    },
+    {
+      "epoch": 2.024,
+      "grad_norm": 0.43219972103706633,
+      "learning_rate": 3.5810629081647476e-05,
+      "loss": 0.1975,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16623347997665405,
+      "step": 1265,
+      "valid_targets_mean": 3493.2,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 2.032,
+      "grad_norm": 0.6977179583217179,
+      "learning_rate": 3.576163421212249e-05,
+      "loss": 0.2184,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18611189723014832,
+      "step": 1270,
+      "valid_targets_mean": 3337.2,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 0.4747273521228609,
+      "learning_rate": 3.5712388437437576e-05,
+      "loss": 0.2047,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19863732159137726,
+      "step": 1275,
+      "valid_targets_mean": 3535.8,
+      "valid_targets_min": 263
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 0.4820286781688312,
+      "learning_rate": 3.566289254152283e-05,
+      "loss": 0.2068,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21244145929813385,
+      "step": 1280,
+      "valid_targets_mean": 3352.8,
+      "valid_targets_min": 316
+    },
+    {
+      "epoch": 2.056,
+      "grad_norm": 0.4509211854708539,
+      "learning_rate": 3.56131473122899e-05,
+      "loss": 0.2049,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19517672061920166,
+      "step": 1285,
+      "valid_targets_mean": 4002.2,
+      "valid_targets_min": 603
+    },
+    {
+      "epoch": 2.064,
+      "grad_norm": 0.4656176804730992,
+      "learning_rate": 3.556315354161955e-05,
+      "loss": 0.1911,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23038630187511444,
+      "step": 1290,
+      "valid_targets_mean": 3882.2,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 2.072,
+      "grad_norm": 0.41258809938724683,
+      "learning_rate": 3.551291202534899e-05,
+      "loss": 0.1825,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.166253924369812,
+      "step": 1295,
+      "valid_targets_mean": 3696.9,
+      "valid_targets_min": 404
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.4483875910574682,
+      "learning_rate": 3.546242356325922e-05,
+      "loss": 0.1812,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20361162722110748,
+      "step": 1300,
+      "valid_targets_mean": 3678.5,
+      "valid_targets_min": 1755
+    },
+    {
+      "epoch": 2.088,
+      "grad_norm": 0.37140357997451073,
+      "learning_rate": 3.5411688959062323e-05,
+      "loss": 0.1855,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18347501754760742,
+      "step": 1305,
+      "valid_targets_mean": 4970.0,
+      "valid_targets_min": 1149
+    },
+    {
+      "epoch": 2.096,
+      "grad_norm": 0.5115153580301726,
+      "learning_rate": 3.5360709020388625e-05,
+      "loss": 0.2079,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2062782347202301,
+      "step": 1310,
+      "valid_targets_mean": 3517.1,
+      "valid_targets_min": 282
+    },
+    {
+      "epoch": 2.104,
+      "grad_norm": 0.4562727161557181,
+      "learning_rate": 3.530948455877388e-05,
+      "loss": 0.1819,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18018567562103271,
+      "step": 1315,
+      "valid_targets_mean": 3773.5,
+      "valid_targets_min": 284
+    },
+    {
+      "epoch": 2.112,
+      "grad_norm": 0.4361895533715145,
+      "learning_rate": 3.525801638964634e-05,
+      "loss": 0.1873,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14295539259910583,
+      "step": 1320,
+      "valid_targets_mean": 3442.9,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 0.43632688609759585,
+      "learning_rate": 3.520630533231376e-05,
+      "loss": 0.1984,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19807764887809753,
+      "step": 1325,
+      "valid_targets_mean": 3919.6,
+      "valid_targets_min": 744
+    },
+    {
+      "epoch": 2.128,
+      "grad_norm": 0.599279190460639,
+      "learning_rate": 3.5154352209950376e-05,
+      "loss": 0.2024,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.225853830575943,
+      "step": 1330,
+      "valid_targets_mean": 3219.9,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 2.136,
+      "grad_norm": 0.48657237642341544,
+      "learning_rate": 3.510215784958376e-05,
+      "loss": 0.192,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1988532543182373,
+      "step": 1335,
+      "valid_targets_mean": 3220.4,
+      "valid_targets_min": 302
+    },
+    {
+      "epoch": 2.144,
+      "grad_norm": 0.4325812040916052,
+      "learning_rate": 3.5049723082081755e-05,
+      "loss": 0.1992,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20427222549915314,
+      "step": 1340,
+      "valid_targets_mean": 3952.2,
+      "valid_targets_min": 351
+    },
+    {
+      "epoch": 2.152,
+      "grad_norm": 0.47329454046420805,
+      "learning_rate": 3.49970487421391e-05,
+      "loss": 0.2062,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16903406381607056,
+      "step": 1345,
+      "valid_targets_mean": 2968.1,
+      "valid_targets_min": 295
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 0.5119243933811278,
+      "learning_rate": 3.494413566826427e-05,
+      "loss": 0.216,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21982550621032715,
+      "step": 1350,
+      "valid_targets_mean": 3424.5,
+      "valid_targets_min": 509
+    },
+    {
+      "epoch": 2.168,
+      "grad_norm": 0.4600599301805174,
+      "learning_rate": 3.489098470276608e-05,
+      "loss": 0.1826,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19160212576389313,
+      "step": 1355,
+      "valid_targets_mean": 3587.1,
+      "valid_targets_min": 399
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 0.45727159193859734,
+      "learning_rate": 3.483759669174024e-05,
+      "loss": 0.1981,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2074376344680786,
+      "step": 1360,
+      "valid_targets_mean": 3567.6,
+      "valid_targets_min": 375
+    },
+    {
+      "epoch": 2.184,
+      "grad_norm": 0.3854392679056935,
+      "learning_rate": 3.478397248505598e-05,
+      "loss": 0.1788,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16433241963386536,
+      "step": 1365,
+      "valid_targets_mean": 4123.1,
+      "valid_targets_min": 323
+    },
+    {
+      "epoch": 2.192,
+      "grad_norm": 0.42680594102154745,
+      "learning_rate": 3.473011293634241e-05,
+      "loss": 0.1984,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18576493859291077,
+      "step": 1370,
+      "valid_targets_mean": 3692.7,
+      "valid_targets_min": 229
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.41581633052177996,
+      "learning_rate": 3.467601890297502e-05,
+      "loss": 0.1887,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1843288391828537,
+      "step": 1375,
+      "valid_targets_mean": 4054.4,
+      "valid_targets_min": 328
+    },
+    {
+      "epoch": 2.208,
+      "grad_norm": 0.5082954568583369,
+      "learning_rate": 3.4621691246061976e-05,
+      "loss": 0.1947,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19353343546390533,
+      "step": 1380,
+      "valid_targets_mean": 3785.5,
+      "valid_targets_min": 2195
+    },
+    {
+      "epoch": 2.216,
+      "grad_norm": 0.4533254051458402,
+      "learning_rate": 3.456713083043046e-05,
+      "loss": 0.1916,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2105521708726883,
+      "step": 1385,
+      "valid_targets_mean": 4240.9,
+      "valid_targets_min": 2126
+    },
+    {
+      "epoch": 2.224,
+      "grad_norm": 0.40710339307721854,
+      "learning_rate": 3.451233852461285e-05,
+      "loss": 0.1768,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16154886782169342,
+      "step": 1390,
+      "valid_targets_mean": 3725.8,
+      "valid_targets_min": 336
+    },
+    {
+      "epoch": 2.232,
+      "grad_norm": 0.4641284022104739,
+      "learning_rate": 3.4457315200832935e-05,
+      "loss": 0.2065,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19078411161899567,
+      "step": 1395,
+      "valid_targets_mean": 3475.1,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.5266880697403441,
+      "learning_rate": 3.440206173499201e-05,
+      "loss": 0.2113,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23991209268569946,
+      "step": 1400,
+      "valid_targets_mean": 3234.3,
+      "valid_targets_min": 840
+    },
+    {
+      "epoch": 2.248,
+      "grad_norm": 0.450589823303195,
+      "learning_rate": 3.4346579006654945e-05,
+      "loss": 0.2066,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.24022750556468964,
+      "step": 1405,
+      "valid_targets_mean": 3956.4,
+      "valid_targets_min": 292
+    },
+    {
+      "epoch": 2.2560000000000002,
+      "grad_norm": 0.4905332093338497,
+      "learning_rate": 3.4290867899036166e-05,
+      "loss": 0.1952,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1768193542957306,
+      "step": 1410,
+      "valid_targets_mean": 3539.8,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 2.2640000000000002,
+      "grad_norm": 0.501713440623584,
+      "learning_rate": 3.4234929298985614e-05,
+      "loss": 0.18,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2041953057050705,
+      "step": 1415,
+      "valid_targets_mean": 3825.5,
+      "valid_targets_min": 2403
+    },
+    {
+      "epoch": 2.2720000000000002,
+      "grad_norm": 0.49130132480093347,
+      "learning_rate": 3.417876409697463e-05,
+      "loss": 0.1886,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19120335578918457,
+      "step": 1420,
+      "valid_targets_mean": 2941.6,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 0.5462860473864971,
+      "learning_rate": 3.412237318708175e-05,
+      "loss": 0.2162,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2245006561279297,
+      "step": 1425,
+      "valid_targets_mean": 3628.6,
+      "valid_targets_min": 1991
+    },
+    {
+      "epoch": 2.288,
+      "grad_norm": 0.44543692755355657,
+      "learning_rate": 3.4065757466978504e-05,
+      "loss": 0.1964,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2020634561777115,
+      "step": 1430,
+      "valid_targets_mean": 3745.2,
+      "valid_targets_min": 282
+    },
+    {
+      "epoch": 2.296,
+      "grad_norm": 0.4109273328044273,
+      "learning_rate": 3.400891783791511e-05,
+      "loss": 0.1949,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19189856946468353,
+      "step": 1435,
+      "valid_targets_mean": 4468.5,
+      "valid_targets_min": 384
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 0.42765682765748314,
+      "learning_rate": 3.395185520470614e-05,
+      "loss": 0.1784,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1684841513633728,
+      "step": 1440,
+      "valid_targets_mean": 3534.9,
+      "valid_targets_min": 418
+    },
+    {
+      "epoch": 2.312,
+      "grad_norm": 0.5683018701514982,
+      "learning_rate": 3.38945704757161e-05,
+      "loss": 0.201,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2061453014612198,
+      "step": 1445,
+      "valid_targets_mean": 3082.9,
+      "valid_targets_min": 341
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 0.539349662791527,
+      "learning_rate": 3.383706456284498e-05,
+      "loss": 0.2004,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21081465482711792,
+      "step": 1450,
+      "valid_targets_mean": 2493.6,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 2.328,
+      "grad_norm": 0.42777674994841325,
+      "learning_rate": 3.377933838151374e-05,
+      "loss": 0.1802,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16911011934280396,
+      "step": 1455,
+      "valid_targets_mean": 3697.9,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 2.336,
+      "grad_norm": 0.5203321838235817,
+      "learning_rate": 3.3721392850649714e-05,
+      "loss": 0.1891,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17742927372455597,
+      "step": 1460,
+      "valid_targets_mean": 2899.1,
+      "valid_targets_min": 284
+    },
+    {
+      "epoch": 2.344,
+      "grad_norm": 0.3822359211390347,
+      "learning_rate": 3.3663228892672034e-05,
+      "loss": 0.205,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14974285662174225,
+      "step": 1465,
+      "valid_targets_mean": 3979.5,
+      "valid_targets_min": 762
+    },
+    {
+      "epoch": 2.352,
+      "grad_norm": 0.4794599990220515,
+      "learning_rate": 3.36048474334769e-05,
+      "loss": 0.2015,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2488941252231598,
+      "step": 1470,
+      "valid_targets_mean": 3724.0,
+      "valid_targets_min": 1387
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 0.4852305384422572,
+      "learning_rate": 3.3546249402422834e-05,
+      "loss": 0.1975,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22365593910217285,
+      "step": 1475,
+      "valid_targets_mean": 3553.9,
+      "valid_targets_min": 272
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 0.45456763992604093,
+      "learning_rate": 3.3487435732315944e-05,
+      "loss": 0.183,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18376846611499786,
+      "step": 1480,
+      "valid_targets_mean": 3794.2,
+      "valid_targets_min": 2270
+    },
+    {
+      "epoch": 2.376,
+      "grad_norm": 0.4535497743976425,
+      "learning_rate": 3.342840735939501e-05,
+      "loss": 0.1985,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2078661471605301,
+      "step": 1485,
+      "valid_targets_mean": 4092.4,
+      "valid_targets_min": 2238
+    },
+    {
+      "epoch": 2.384,
+      "grad_norm": 0.48225359272800294,
+      "learning_rate": 3.33691652233166e-05,
+      "loss": 0.1917,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21094581484794617,
+      "step": 1490,
+      "valid_targets_mean": 3383.1,
+      "valid_targets_min": 335
+    },
+    {
+      "epoch": 2.392,
+      "grad_norm": 0.47460076187889183,
+      "learning_rate": 3.330971026714016e-05,
+      "loss": 0.2037,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19776706397533417,
+      "step": 1495,
+      "valid_targets_mean": 2882.6,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.4497982802987173,
+      "learning_rate": 3.325004343731292e-05,
+      "loss": 0.1886,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17723941802978516,
+      "step": 1500,
+      "valid_targets_mean": 3936.9,
+      "valid_targets_min": 2417
+    },
+    {
+      "epoch": 2.408,
+      "grad_norm": 0.41101066599839287,
+      "learning_rate": 3.3190165683654885e-05,
+      "loss": 0.1938,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15179643034934998,
+      "step": 1505,
+      "valid_targets_mean": 3899.6,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 2.416,
+      "grad_norm": 0.4466945944340059,
+      "learning_rate": 3.31300779593437e-05,
+      "loss": 0.1676,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16736683249473572,
+      "step": 1510,
+      "valid_targets_mean": 3424.8,
+      "valid_targets_min": 343
+    },
+    {
+      "epoch": 2.424,
+      "grad_norm": 0.38095736845079275,
+      "learning_rate": 3.306978122089948e-05,
+      "loss": 0.1986,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15164422988891602,
+      "step": 1515,
+      "valid_targets_mean": 4041.2,
+      "valid_targets_min": 498
+    },
+    {
+      "epoch": 2.432,
+      "grad_norm": 0.5138783948117251,
+      "learning_rate": 3.300927642816957e-05,
+      "loss": 0.1904,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17770570516586304,
+      "step": 1520,
+      "valid_targets_mean": 3096.7,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 0.49702215696207425,
+      "learning_rate": 3.294856454431328e-05,
+      "loss": 0.1943,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19266465306282043,
+      "step": 1525,
+      "valid_targets_mean": 3900.8,
+      "valid_targets_min": 2119
+    },
+    {
+      "epoch": 2.448,
+      "grad_norm": 0.4002880935862349,
+      "learning_rate": 3.288764653578653e-05,
+      "loss": 0.1723,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15363825857639313,
+      "step": 1530,
+      "valid_targets_mean": 3958.5,
+      "valid_targets_min": 302
+    },
+    {
+      "epoch": 2.456,
+      "grad_norm": 0.5556338783790666,
+      "learning_rate": 3.2826523372326516e-05,
+      "loss": 0.183,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21260786056518555,
+      "step": 1535,
+      "valid_targets_mean": 3477.5,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 2.464,
+      "grad_norm": 0.38420006868670264,
+      "learning_rate": 3.276519602693621e-05,
+      "loss": 0.1847,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.197121262550354,
+      "step": 1540,
+      "valid_targets_mean": 5004.5,
+      "valid_targets_min": 2481
+    },
+    {
+      "epoch": 2.472,
+      "grad_norm": 0.5909249645294381,
+      "learning_rate": 3.270366547586892e-05,
+      "loss": 0.196,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21489500999450684,
+      "step": 1545,
+      "valid_targets_mean": 3158.5,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 0.5286004688590297,
+      "learning_rate": 3.2641932698612715e-05,
+      "loss": 0.1888,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19638535380363464,
+      "step": 1550,
+      "valid_targets_mean": 3049.4,
+      "valid_targets_min": 229
+    },
+    {
+      "epoch": 2.488,
+      "grad_norm": 0.4466276499092072,
+      "learning_rate": 3.2579998677874855e-05,
+      "loss": 0.1853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1908513605594635,
+      "step": 1555,
+      "valid_targets_mean": 3646.4,
+      "valid_targets_min": 258
+    },
+    {
+      "epoch": 2.496,
+      "grad_norm": 0.45664374018635595,
+      "learning_rate": 3.251786439956614e-05,
+      "loss": 0.183,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18360191583633423,
+      "step": 1560,
+      "valid_targets_mean": 3409.2,
+      "valid_targets_min": 320
+    },
+    {
+      "epoch": 2.504,
+      "grad_norm": 0.5053252962525551,
+      "learning_rate": 3.2455530852785206e-05,
+      "loss": 0.1893,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19662296772003174,
+      "step": 1565,
+      "valid_targets_mean": 3324.4,
+      "valid_targets_min": 615
+    },
+    {
+      "epoch": 2.512,
+      "grad_norm": 0.45007953435557124,
+      "learning_rate": 3.239299902980281e-05,
+      "loss": 0.1938,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18329870700836182,
+      "step": 1570,
+      "valid_targets_mean": 3399.6,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 0.4283630435622684,
+      "learning_rate": 3.2330269926046e-05,
+      "loss": 0.1761,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1582319289445877,
+      "step": 1575,
+      "valid_targets_mean": 3750.6,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 2.528,
+      "grad_norm": 0.43949453032043356,
+      "learning_rate": 3.2267344540082284e-05,
+      "loss": 0.1931,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2040393352508545,
+      "step": 1580,
+      "valid_targets_mean": 3853.2,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 2.536,
+      "grad_norm": 0.4764108618917476,
+      "learning_rate": 3.220422387360373e-05,
+      "loss": 0.1951,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1882079839706421,
+      "step": 1585,
+      "valid_targets_mean": 4061.8,
+      "valid_targets_min": 378
+    },
+    {
+      "epoch": 2.544,
+      "grad_norm": 0.4605874145454309,
+      "learning_rate": 3.2140908931411026e-05,
+      "loss": 0.1763,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18388336896896362,
+      "step": 1590,
+      "valid_targets_mean": 3273.5,
+      "valid_targets_min": 387
+    },
+    {
+      "epoch": 2.552,
+      "grad_norm": 0.45707647040512284,
+      "learning_rate": 3.207740072139748e-05,
+      "loss": 0.1945,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20346885919570923,
+      "step": 1595,
+      "valid_targets_mean": 3518.2,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.43117544475721253,
+      "learning_rate": 3.2013700254532996e-05,
+      "loss": 0.1796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17571550607681274,
+      "step": 1600,
+      "valid_targets_mean": 4259.2,
+      "valid_targets_min": 2172
+    },
+    {
+      "epoch": 2.568,
+      "grad_norm": 0.5293448887154693,
+      "learning_rate": 3.194980854484794e-05,
+      "loss": 0.1817,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18930426239967346,
+      "step": 1605,
+      "valid_targets_mean": 3565.5,
+      "valid_targets_min": 237
+    },
+    {
+      "epoch": 2.576,
+      "grad_norm": 0.43835342968189495,
+      "learning_rate": 3.188572660941702e-05,
+      "loss": 0.1929,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15821832418441772,
+      "step": 1610,
+      "valid_targets_mean": 3714.7,
+      "valid_targets_min": 920
+    },
+    {
+      "epoch": 2.584,
+      "grad_norm": 0.42715723150434803,
+      "learning_rate": 3.182145546834311e-05,
+      "loss": 0.1982,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16644710302352905,
+      "step": 1615,
+      "valid_targets_mean": 3610.4,
+      "valid_targets_min": 2036
+    },
+    {
+      "epoch": 2.592,
+      "grad_norm": 1.4754864144040667,
+      "learning_rate": 3.1756996144740994e-05,
+      "loss": 0.1866,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20775696635246277,
+      "step": 1620,
+      "valid_targets_mean": 4232.6,
+      "valid_targets_min": 760
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.5296674033973972,
+      "learning_rate": 3.1692349664721074e-05,
+      "loss": 0.1742,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1854291558265686,
+      "step": 1625,
+      "valid_targets_mean": 3051.7,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 2.608,
+      "grad_norm": 0.43210923088327285,
+      "learning_rate": 3.1627517057373046e-05,
+      "loss": 0.1829,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17930421233177185,
+      "step": 1630,
+      "valid_targets_mean": 4304.8,
+      "valid_targets_min": 265
+    },
+    {
+      "epoch": 2.616,
+      "grad_norm": 0.45769389567908425,
+      "learning_rate": 3.156249935474953e-05,
+      "loss": 0.1766,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21735879778862,
+      "step": 1635,
+      "valid_targets_mean": 4071.3,
+      "valid_targets_min": 2012
+    },
+    {
+      "epoch": 2.624,
+      "grad_norm": 0.521123146190483,
+      "learning_rate": 3.1497297591849614e-05,
+      "loss": 0.1934,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2056715190410614,
+      "step": 1640,
+      "valid_targets_mean": 3515.2,
+      "valid_targets_min": 1367
+    },
+    {
+      "epoch": 2.632,
+      "grad_norm": 0.4860314881941443,
+      "learning_rate": 3.143191280660238e-05,
+      "loss": 0.1853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1528691053390503,
+      "step": 1645,
+      "valid_targets_mean": 2808.8,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 0.4622441007873268,
+      "learning_rate": 3.1366346039850424e-05,
+      "loss": 0.1825,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16101805865764618,
+      "step": 1650,
+      "valid_targets_mean": 3167.2,
+      "valid_targets_min": 434
+    },
+    {
+      "epoch": 2.648,
+      "grad_norm": 0.4118220428439397,
+      "learning_rate": 3.130059833533323e-05,
+      "loss": 0.2019,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16136057674884796,
+      "step": 1655,
+      "valid_targets_mean": 3791.7,
+      "valid_targets_min": 1715
+    },
+    {
+      "epoch": 2.656,
+      "grad_norm": 0.4811341909222227,
+      "learning_rate": 3.123467073967059e-05,
+      "loss": 0.1843,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17965978384017944,
+      "step": 1660,
+      "valid_targets_mean": 3001.2,
+      "valid_targets_min": 348
+    },
+    {
+      "epoch": 2.664,
+      "grad_norm": 0.5201370345383262,
+      "learning_rate": 3.116856430234594e-05,
+      "loss": 0.1863,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20853739976882935,
+      "step": 1665,
+      "valid_targets_mean": 3095.3,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 2.672,
+      "grad_norm": 0.3916888969735764,
+      "learning_rate": 3.110228007568963e-05,
+      "loss": 0.1776,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.151737779378891,
+      "step": 1670,
+      "valid_targets_mean": 4443.3,
+      "valid_targets_min": 2393
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 0.5075232093303055,
+      "learning_rate": 3.103581911486221e-05,
+      "loss": 0.1859,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20801374316215515,
+      "step": 1675,
+      "valid_targets_mean": 3676.4,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 2.6879999999999997,
+      "grad_norm": 0.5005849176502049,
+      "learning_rate": 3.0969182477837604e-05,
+      "loss": 0.1763,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20506039261817932,
+      "step": 1680,
+      "valid_targets_mean": 3490.2,
+      "valid_targets_min": 355
+    },
+    {
+      "epoch": 2.6959999999999997,
+      "grad_norm": 0.5260945528055542,
+      "learning_rate": 3.090237122538628e-05,
+      "loss": 0.1988,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18294517695903778,
+      "step": 1685,
+      "valid_targets_mean": 3704.2,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 2.7039999999999997,
+      "grad_norm": 0.39140831082695565,
+      "learning_rate": 3.0835386421058345e-05,
+      "loss": 0.1688,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1578534096479416,
+      "step": 1690,
+      "valid_targets_mean": 3885.6,
+      "valid_targets_min": 681
+    },
+    {
+      "epoch": 2.7119999999999997,
+      "grad_norm": 0.44075129185173045,
+      "learning_rate": 3.0768229131166664e-05,
+      "loss": 0.1987,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18761581182479858,
+      "step": 1695,
+      "valid_targets_mean": 3947.0,
+      "valid_targets_min": 2555
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 0.49574146865476876,
+      "learning_rate": 3.070090042476983e-05,
+      "loss": 0.165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1653241515159607,
+      "step": 1700,
+      "valid_targets_mean": 2868.3,
+      "valid_targets_min": 333
+    },
+    {
+      "epoch": 2.7279999999999998,
+      "grad_norm": 0.4239806937450443,
+      "learning_rate": 3.063340137365517e-05,
+      "loss": 0.1681,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17444685101509094,
+      "step": 1705,
+      "valid_targets_mean": 4525.1,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 2.7359999999999998,
+      "grad_norm": 0.42916274795305576,
+      "learning_rate": 3.0565733052321674e-05,
+      "loss": 0.1943,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16688352823257446,
+      "step": 1710,
+      "valid_targets_mean": 3526.1,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 2.7439999999999998,
+      "grad_norm": 0.5199938367602711,
+      "learning_rate": 3.0497896537962924e-05,
+      "loss": 0.1993,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20708197355270386,
+      "step": 1715,
+      "valid_targets_mean": 3054.4,
+      "valid_targets_min": 286
+    },
+    {
+      "epoch": 2.752,
+      "grad_norm": 0.4182236286264573,
+      "learning_rate": 3.042989291044991e-05,
+      "loss": 0.1876,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17298077046871185,
+      "step": 1720,
+      "valid_targets_mean": 4168.8,
+      "valid_targets_min": 2237
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 0.5035263028956903,
+      "learning_rate": 3.036172325231383e-05,
+      "loss": 0.1854,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19136033952236176,
+      "step": 1725,
+      "valid_targets_mean": 3191.4,
+      "valid_targets_min": 352
+    },
+    {
+      "epoch": 2.768,
+      "grad_norm": 0.3668074901477464,
+      "learning_rate": 3.0293388648728908e-05,
+      "loss": 0.1774,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15392184257507324,
+      "step": 1730,
+      "valid_targets_mean": 3985.9,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 2.776,
+      "grad_norm": 0.4601285348100428,
+      "learning_rate": 3.022489018749508e-05,
+      "loss": 0.1839,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18121179938316345,
+      "step": 1735,
+      "valid_targets_mean": 3821.8,
+      "valid_targets_min": 2103
+    },
+    {
+      "epoch": 2.784,
+      "grad_norm": 0.6019853996836224,
+      "learning_rate": 3.015622895902068e-05,
+      "loss": 0.1996,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.26200518012046814,
+      "step": 1740,
+      "valid_targets_mean": 2668.2,
+      "valid_targets_min": 222
+    },
+    {
+      "epoch": 2.792,
+      "grad_norm": 0.44998605571092415,
+      "learning_rate": 3.008740605630508e-05,
+      "loss": 0.1932,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1528761088848114,
+      "step": 1745,
+      "valid_targets_mean": 3311.5,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.4939761329699614,
+      "learning_rate": 3.0018422574921337e-05,
+      "loss": 0.1849,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19244706630706787,
+      "step": 1750,
+      "valid_targets_mean": 3855.7,
+      "valid_targets_min": 285
+    },
+    {
+      "epoch": 2.808,
+      "grad_norm": 0.43535295973625543,
+      "learning_rate": 2.9949279612998673e-05,
+      "loss": 0.1748,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16894742846488953,
+      "step": 1755,
+      "valid_targets_mean": 3743.5,
+      "valid_targets_min": 700
+    },
+    {
+      "epoch": 2.816,
+      "grad_norm": 0.48449866873340636,
+      "learning_rate": 2.9879978271205064e-05,
+      "loss": 0.194,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2116917371749878,
+      "step": 1760,
+      "valid_targets_mean": 3075.9,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 2.824,
+      "grad_norm": 0.46097509535148007,
+      "learning_rate": 2.9810519652729692e-05,
+      "loss": 0.1756,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17487819492816925,
+      "step": 1765,
+      "valid_targets_mean": 3184.6,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 2.832,
+      "grad_norm": 0.4406778696440398,
+      "learning_rate": 2.9740904863265378e-05,
+      "loss": 0.1847,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15935562551021576,
+      "step": 1770,
+      "valid_targets_mean": 3863.3,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 0.4505659462773094,
+      "learning_rate": 2.967113501099097e-05,
+      "loss": 0.1847,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16915443539619446,
+      "step": 1775,
+      "valid_targets_mean": 3785.8,
+      "valid_targets_min": 1928
+    },
+    {
+      "epoch": 2.848,
+      "grad_norm": 0.46978816661971695,
+      "learning_rate": 2.9601211206553745e-05,
+      "loss": 0.1832,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17414215207099915,
+      "step": 1780,
+      "valid_targets_mean": 3385.2,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 2.856,
+      "grad_norm": 0.47552276390027204,
+      "learning_rate": 2.9531134563051686e-05,
+      "loss": 0.1714,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1669023483991623,
+      "step": 1785,
+      "valid_targets_mean": 3138.3,
+      "valid_targets_min": 343
+    },
+    {
+      "epoch": 2.864,
+      "grad_norm": 0.5155227075760118,
+      "learning_rate": 2.946090619601579e-05,
+      "loss": 0.1718,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16445080935955048,
+      "step": 1790,
+      "valid_targets_mean": 4524.9,
+      "valid_targets_min": 1382
+    },
+    {
+      "epoch": 2.872,
+      "grad_norm": 0.4278976290634442,
+      "learning_rate": 2.9390527223392292e-05,
+      "loss": 0.1705,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16760477423667908,
+      "step": 1795,
+      "valid_targets_mean": 3598.1,
+      "valid_targets_min": 428
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.480766581433851,
+      "learning_rate": 2.931999876552488e-05,
+      "loss": 0.2075,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20228774845600128,
+      "step": 1800,
+      "valid_targets_mean": 3386.4,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 2.888,
+      "grad_norm": 0.40870881109847207,
+      "learning_rate": 2.9249321945136854e-05,
+      "loss": 0.1906,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1713634729385376,
+      "step": 1805,
+      "valid_targets_mean": 4456.4,
+      "valid_targets_min": 2245
+    },
+    {
+      "epoch": 2.896,
+      "grad_norm": 0.3707927337707264,
+      "learning_rate": 2.9178497887313257e-05,
+      "loss": 0.1926,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13002127408981323,
+      "step": 1810,
+      "valid_targets_mean": 3818.2,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 2.904,
+      "grad_norm": 0.3980552553863154,
+      "learning_rate": 2.9107527719482968e-05,
+      "loss": 0.1834,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.183195561170578,
+      "step": 1815,
+      "valid_targets_mean": 4574.2,
+      "valid_targets_min": 2091
+    },
+    {
+      "epoch": 2.912,
+      "grad_norm": 0.5392189405415061,
+      "learning_rate": 2.9036412571400747e-05,
+      "loss": 0.1928,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19614043831825256,
+      "step": 1820,
+      "valid_targets_mean": 2862.3,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 0.41719761416653106,
+      "learning_rate": 2.8965153575129255e-05,
+      "loss": 0.1834,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19061830639839172,
+      "step": 1825,
+      "valid_targets_mean": 4393.6,
+      "valid_targets_min": 2230
+    },
+    {
+      "epoch": 2.928,
+      "grad_norm": 0.4519579389646535,
+      "learning_rate": 2.8893751865021044e-05,
+      "loss": 0.1704,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17478010058403015,
+      "step": 1830,
+      "valid_targets_mean": 3060.8,
+      "valid_targets_min": 278
+    },
+    {
+      "epoch": 2.936,
+      "grad_norm": 0.5147970967566627,
+      "learning_rate": 2.8822208577700473e-05,
+      "loss": 0.1993,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22554929554462433,
+      "step": 1835,
+      "valid_targets_mean": 3122.1,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 2.944,
+      "grad_norm": 0.4776561673364381,
+      "learning_rate": 2.8750524852045642e-05,
+      "loss": 0.1936,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17922303080558777,
+      "step": 1840,
+      "valid_targets_mean": 3284.4,
+      "valid_targets_min": 302
+    },
+    {
+      "epoch": 2.952,
+      "grad_norm": 0.5020462332058035,
+      "learning_rate": 2.867870182917024e-05,
+      "loss": 0.1928,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2117883861064911,
+      "step": 1845,
+      "valid_targets_mean": 3234.1,
+      "valid_targets_min": 494
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 0.5076250051045583,
+      "learning_rate": 2.8606740652405394e-05,
+      "loss": 0.1747,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1952303946018219,
+      "step": 1850,
+      "valid_targets_mean": 2978.4,
+      "valid_targets_min": 251
+    },
+    {
+      "epoch": 2.968,
+      "grad_norm": 0.42639003752482774,
+      "learning_rate": 2.853464246728147e-05,
+      "loss": 0.186,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18087902665138245,
+      "step": 1855,
+      "valid_targets_mean": 3789.6,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 2.976,
+      "grad_norm": 0.45128640490316246,
+      "learning_rate": 2.846240842150984e-05,
+      "loss": 0.1788,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1719190776348114,
+      "step": 1860,
+      "valid_targets_mean": 3333.7,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 2.984,
+      "grad_norm": 0.3787136805219615,
+      "learning_rate": 2.839003966496458e-05,
+      "loss": 0.1789,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13535599410533905,
+      "step": 1865,
+      "valid_targets_mean": 3898.5,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 2.992,
+      "grad_norm": 0.4433677159407821,
+      "learning_rate": 2.8317537349664215e-05,
+      "loss": 0.186,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20045062899589539,
+      "step": 1870,
+      "valid_targets_mean": 4227.1,
+      "valid_targets_min": 310
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.4911040291770981,
+      "learning_rate": 2.824490262975334e-05,
+      "loss": 0.1804,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1972944736480713,
+      "step": 1875,
+      "valid_targets_mean": 3683.2,
+      "valid_targets_min": 2214
+    },
+    {
+      "epoch": 3.008,
+      "grad_norm": 0.48403373726616133,
+      "learning_rate": 2.817213666148427e-05,
+      "loss": 0.1956,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19795402884483337,
+      "step": 1880,
+      "valid_targets_mean": 3538.7,
+      "valid_targets_min": 1554
+    },
+    {
+      "epoch": 3.016,
+      "grad_norm": 0.5420026517032883,
+      "learning_rate": 2.809924060319862e-05,
+      "loss": 0.177,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19597254693508148,
+      "step": 1885,
+      "valid_targets_mean": 2931.2,
+      "valid_targets_min": 269
+    },
+    {
+      "epoch": 3.024,
+      "grad_norm": 0.5126846774193726,
+      "learning_rate": 2.802621561530888e-05,
+      "loss": 0.1786,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19755448400974274,
+      "step": 1890,
+      "valid_targets_mean": 3500.1,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 3.032,
+      "grad_norm": 0.48214972957622015,
+      "learning_rate": 2.7953062860279937e-05,
+      "loss": 0.1977,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18765775859355927,
+      "step": 1895,
+      "valid_targets_mean": 3227.6,
+      "valid_targets_min": 426
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 0.4197437745837651,
+      "learning_rate": 2.7879783502610557e-05,
+      "loss": 0.164,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.159901961684227,
+      "step": 1900,
+      "valid_targets_mean": 4069.1,
+      "valid_targets_min": 317
+    },
+    {
+      "epoch": 3.048,
+      "grad_norm": 0.45577629503909467,
+      "learning_rate": 2.7806378708814875e-05,
+      "loss": 0.1865,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1820065677165985,
+      "step": 1905,
+      "valid_targets_mean": 3490.2,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 3.056,
+      "grad_norm": 0.4357520060987017,
+      "learning_rate": 2.773284964740379e-05,
+      "loss": 0.1721,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16597381234169006,
+      "step": 1910,
+      "valid_targets_mean": 4002.6,
+      "valid_targets_min": 2368
+    },
+    {
+      "epoch": 3.064,
+      "grad_norm": 0.5305409624666687,
+      "learning_rate": 2.7659197488866403e-05,
+      "loss": 0.1827,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18801791965961456,
+      "step": 1915,
+      "valid_targets_mean": 3076.1,
+      "valid_targets_min": 378
+    },
+    {
+      "epoch": 3.072,
+      "grad_norm": 0.5049711117732726,
+      "learning_rate": 2.7585423405651347e-05,
+      "loss": 0.1749,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18809552490711212,
+      "step": 1920,
+      "valid_targets_mean": 3623.5,
+      "valid_targets_min": 406
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 0.43098237669524153,
+      "learning_rate": 2.7511528572148153e-05,
+      "loss": 0.1739,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1661233901977539,
+      "step": 1925,
+      "valid_targets_mean": 4096.9,
+      "valid_targets_min": 2440
+    },
+    {
+      "epoch": 3.088,
+      "grad_norm": 0.5075378454400071,
+      "learning_rate": 2.7437514164668536e-05,
+      "loss": 0.1911,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20631292462348938,
+      "step": 1930,
+      "valid_targets_mean": 3231.6,
+      "valid_targets_min": 418
+    },
+    {
+      "epoch": 3.096,
+      "grad_norm": 0.4126154804727305,
+      "learning_rate": 2.7363381361427692e-05,
+      "loss": 0.1661,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12885452806949615,
+      "step": 1935,
+      "valid_targets_mean": 3407.4,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 3.104,
+      "grad_norm": 0.41192208666447366,
+      "learning_rate": 2.72891313425255e-05,
+      "loss": 0.1796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15907007455825806,
+      "step": 1940,
+      "valid_targets_mean": 3890.8,
+      "valid_targets_min": 300
+    },
+    {
+      "epoch": 3.112,
+      "grad_norm": 0.5273611311854024,
+      "learning_rate": 2.7214765289927777e-05,
+      "loss": 0.1855,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19571071863174438,
+      "step": 1945,
+      "valid_targets_mean": 3036.2,
+      "valid_targets_min": 291
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.3742922434765126,
+      "learning_rate": 2.714028438744746e-05,
+      "loss": 0.1595,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16192400455474854,
+      "step": 1950,
+      "valid_targets_mean": 4739.2,
+      "valid_targets_min": 995
+    },
+    {
+      "epoch": 3.128,
+      "grad_norm": 0.41515710038530856,
+      "learning_rate": 2.706568982072573e-05,
+      "loss": 0.18,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17395088076591492,
+      "step": 1955,
+      "valid_targets_mean": 4017.7,
+      "valid_targets_min": 1970
+    },
+    {
+      "epoch": 3.136,
+      "grad_norm": 0.484023649151777,
+      "learning_rate": 2.6990982777213174e-05,
+      "loss": 0.1659,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17590296268463135,
+      "step": 1960,
+      "valid_targets_mean": 3400.6,
+      "valid_targets_min": 326
+    },
+    {
+      "epoch": 3.144,
+      "grad_norm": 0.5127316783722707,
+      "learning_rate": 2.691616444615085e-05,
+      "loss": 0.1995,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17399927973747253,
+      "step": 1965,
+      "valid_targets_mean": 3236.0,
+      "valid_targets_min": 316
+    },
+    {
+      "epoch": 3.152,
+      "grad_norm": 0.46481129213325917,
+      "learning_rate": 2.6841236018551402e-05,
+      "loss": 0.1655,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17450550198554993,
+      "step": 1970,
+      "valid_targets_mean": 3585.8,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 0.4411955279195801,
+      "learning_rate": 2.6766198687180028e-05,
+      "loss": 0.1939,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16958311200141907,
+      "step": 1975,
+      "valid_targets_mean": 3896.7,
+      "valid_targets_min": 1934
+    },
+    {
+      "epoch": 3.168,
+      "grad_norm": 0.4611951767438151,
+      "learning_rate": 2.6691053646535564e-05,
+      "loss": 0.1889,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18433254957199097,
+      "step": 1980,
+      "valid_targets_mean": 3462.5,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 3.176,
+      "grad_norm": 0.41218871975546056,
+      "learning_rate": 2.6615802092831446e-05,
+      "loss": 0.1887,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1572214663028717,
+      "step": 1985,
+      "valid_targets_mean": 3795.5,
+      "valid_targets_min": 2396
+    },
+    {
+      "epoch": 3.184,
+      "grad_norm": 0.4355325049803674,
+      "learning_rate": 2.6540445223976637e-05,
+      "loss": 0.1732,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1923692375421524,
+      "step": 1990,
+      "valid_targets_mean": 4184.9,
+      "valid_targets_min": 2000
+    },
+    {
+      "epoch": 3.192,
+      "grad_norm": 0.4273959230602287,
+      "learning_rate": 2.6464984239556602e-05,
+      "loss": 0.1759,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16927184164524078,
+      "step": 1995,
+      "valid_targets_mean": 4205.1,
+      "valid_targets_min": 1316
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.4584036928784097,
+      "learning_rate": 2.63894203408142e-05,
+      "loss": 0.1697,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.151690274477005,
+      "step": 2000,
+      "valid_targets_mean": 3057.0,
+      "valid_targets_min": 307
+    },
+    {
+      "epoch": 3.208,
+      "grad_norm": 0.5435153917115572,
+      "learning_rate": 2.6313754730630528e-05,
+      "loss": 0.1889,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2116515040397644,
+      "step": 2005,
+      "valid_targets_mean": 3364.1,
+      "valid_targets_min": 523
+    },
+    {
+      "epoch": 3.216,
+      "grad_norm": 0.5368371658069242,
+      "learning_rate": 2.623798861350582e-05,
+      "loss": 0.1844,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19984227418899536,
+      "step": 2010,
+      "valid_targets_mean": 3192.8,
+      "valid_targets_min": 494
+    },
+    {
+      "epoch": 3.224,
+      "grad_norm": 0.443576364697704,
+      "learning_rate": 2.6162123195540247e-05,
+      "loss": 0.1741,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13216130435466766,
+      "step": 2015,
+      "valid_targets_mean": 3567.1,
+      "valid_targets_min": 360
+    },
+    {
+      "epoch": 3.232,
+      "grad_norm": 0.4987556567696404,
+      "learning_rate": 2.6086159684414726e-05,
+      "loss": 0.1849,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20628586411476135,
+      "step": 2020,
+      "valid_targets_mean": 3586.4,
+      "valid_targets_min": 1986
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 0.39698269514742496,
+      "learning_rate": 2.6010099289371694e-05,
+      "loss": 0.1723,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15985634922981262,
+      "step": 2025,
+      "valid_targets_mean": 4153.1,
+      "valid_targets_min": 545
+    },
+    {
+      "epoch": 3.248,
+      "grad_norm": 0.4375896406134014,
+      "learning_rate": 2.5933943221195844e-05,
+      "loss": 0.1831,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17200195789337158,
+      "step": 2030,
+      "valid_targets_mean": 3873.6,
+      "valid_targets_min": 2213
+    },
+    {
+      "epoch": 3.2560000000000002,
+      "grad_norm": 0.4291945334753457,
+      "learning_rate": 2.5857692692194884e-05,
+      "loss": 0.1746,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19045311212539673,
+      "step": 2035,
+      "valid_targets_mean": 4147.6,
+      "valid_targets_min": 222
+    },
+    {
+      "epoch": 3.2640000000000002,
+      "grad_norm": 0.4592454216470872,
+      "learning_rate": 2.5781348916180195e-05,
+      "loss": 0.1761,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17591632902622223,
+      "step": 2040,
+      "valid_targets_mean": 3478.5,
+      "valid_targets_min": 2527
+    },
+    {
+      "epoch": 3.2720000000000002,
+      "grad_norm": 0.38252635893429965,
+      "learning_rate": 2.570491310844755e-05,
+      "loss": 0.1801,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12170088291168213,
+      "step": 2045,
+      "valid_targets_mean": 4160.9,
+      "valid_targets_min": 744
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "grad_norm": 0.47723897784699804,
+      "learning_rate": 2.562838648575774e-05,
+      "loss": 0.1749,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16648831963539124,
+      "step": 2050,
+      "valid_targets_mean": 2944.6,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 3.288,
+      "grad_norm": 0.4330694484396911,
+      "learning_rate": 2.5551770266317224e-05,
+      "loss": 0.1652,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15951675176620483,
+      "step": 2055,
+      "valid_targets_mean": 3987.0,
+      "valid_targets_min": 2105
+    },
+    {
+      "epoch": 3.296,
+      "grad_norm": 0.4015589843181969,
+      "learning_rate": 2.5475065669758713e-05,
+      "loss": 0.1811,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14536207914352417,
+      "step": 2060,
+      "valid_targets_mean": 4306.4,
+      "valid_targets_min": 871
+    },
+    {
+      "epoch": 3.304,
+      "grad_norm": 0.5205040187500196,
+      "learning_rate": 2.5398273917121786e-05,
+      "loss": 0.184,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17474758625030518,
+      "step": 2065,
+      "valid_targets_mean": 3418.1,
+      "valid_targets_min": 356
+    },
+    {
+      "epoch": 3.312,
+      "grad_norm": 0.4607835858178646,
+      "learning_rate": 2.532139623083342e-05,
+      "loss": 0.17,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14844588935375214,
+      "step": 2070,
+      "valid_targets_mean": 3218.4,
+      "valid_targets_min": 363
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 0.4273879199373879,
+      "learning_rate": 2.5244433834688552e-05,
+      "loss": 0.1739,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15108996629714966,
+      "step": 2075,
+      "valid_targets_mean": 4095.3,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 3.328,
+      "grad_norm": 0.5903417079789753,
+      "learning_rate": 2.5167387953830602e-05,
+      "loss": 0.1897,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21650877594947815,
+      "step": 2080,
+      "valid_targets_mean": 3172.8,
+      "valid_targets_min": 796
+    },
+    {
+      "epoch": 3.336,
+      "grad_norm": 0.41334146503957525,
+      "learning_rate": 2.5090259814731946e-05,
+      "loss": 0.1882,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1646672636270523,
+      "step": 2085,
+      "valid_targets_mean": 3702.8,
+      "valid_targets_min": 355
+    },
+    {
+      "epoch": 3.344,
+      "grad_norm": 0.4775035056688525,
+      "learning_rate": 2.5013050645174414e-05,
+      "loss": 0.1892,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18209758400917053,
+      "step": 2090,
+      "valid_targets_mean": 3255.7,
+      "valid_targets_min": 336
+    },
+    {
+      "epoch": 3.352,
+      "grad_norm": 0.5759873882582611,
+      "learning_rate": 2.4935761674229735e-05,
+      "loss": 0.1879,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18001526594161987,
+      "step": 2095,
+      "valid_targets_mean": 2653.6,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 0.5329482230790559,
+      "learning_rate": 2.4858394132239982e-05,
+      "loss": 0.1774,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17243188619613647,
+      "step": 2100,
+      "valid_targets_mean": 3014.3,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 3.368,
+      "grad_norm": 0.4770678266048576,
+      "learning_rate": 2.4780949250797964e-05,
+      "loss": 0.1778,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19669921696186066,
+      "step": 2105,
+      "valid_targets_mean": 4128.2,
+      "valid_targets_min": 536
+    },
+    {
+      "epoch": 3.376,
+      "grad_norm": 0.40691509477291876,
+      "learning_rate": 2.4703428262727656e-05,
+      "loss": 0.1934,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1472311019897461,
+      "step": 2110,
+      "valid_targets_mean": 4076.9,
+      "valid_targets_min": 1460
+    },
+    {
+      "epoch": 3.384,
+      "grad_norm": 0.4366496482229579,
+      "learning_rate": 2.4625832402064525e-05,
+      "loss": 0.1809,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15723781287670135,
+      "step": 2115,
+      "valid_targets_mean": 3871.1,
+      "valid_targets_min": 2369
+    },
+    {
+      "epoch": 3.392,
+      "grad_norm": 0.44943707318300097,
+      "learning_rate": 2.454816290403595e-05,
+      "loss": 0.177,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1664229780435562,
+      "step": 2120,
+      "valid_targets_mean": 3818.1,
+      "valid_targets_min": 319
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 0.48904972691820425,
+      "learning_rate": 2.4470421005041492e-05,
+      "loss": 0.1801,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21525129675865173,
+      "step": 2125,
+      "valid_targets_mean": 3659.4,
+      "valid_targets_min": 386
+    },
+    {
+      "epoch": 3.408,
+      "grad_norm": 0.5814408563236569,
+      "learning_rate": 2.4392607942633263e-05,
+      "loss": 0.1856,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21209874749183655,
+      "step": 2130,
+      "valid_targets_mean": 2900.9,
+      "valid_targets_min": 446
+    },
+    {
+      "epoch": 3.416,
+      "grad_norm": 0.5130485616559762,
+      "learning_rate": 2.43147249554962e-05,
+      "loss": 0.1976,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17153766751289368,
+      "step": 2135,
+      "valid_targets_mean": 2837.9,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 3.424,
+      "grad_norm": 0.5631374241891494,
+      "learning_rate": 2.423677328342835e-05,
+      "loss": 0.1903,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2218826711177826,
+      "step": 2140,
+      "valid_targets_mean": 2722.9,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 3.432,
+      "grad_norm": 0.43825467486856906,
+      "learning_rate": 2.415875416732113e-05,
+      "loss": 0.1744,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17777496576309204,
+      "step": 2145,
+      "valid_targets_mean": 4119.2,
+      "valid_targets_min": 682
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.5843717893180644,
+      "learning_rate": 2.4080668849139603e-05,
+      "loss": 0.1813,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23116597533226013,
+      "step": 2150,
+      "valid_targets_mean": 3200.4,
+      "valid_targets_min": 742
+    },
+    {
+      "epoch": 3.448,
+      "grad_norm": 0.4850384009039004,
+      "learning_rate": 2.4002518571902665e-05,
+      "loss": 0.165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18605875968933105,
+      "step": 2155,
+      "valid_targets_mean": 3965.0,
+      "valid_targets_min": 2278
+    },
+    {
+      "epoch": 3.456,
+      "grad_norm": 0.4817923550132463,
+      "learning_rate": 2.392430457966328e-05,
+      "loss": 0.1791,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21464970707893372,
+      "step": 2160,
+      "valid_targets_mean": 3861.1,
+      "valid_targets_min": 374
+    },
+    {
+      "epoch": 3.464,
+      "grad_norm": 0.4370174793635208,
+      "learning_rate": 2.3846028117488686e-05,
+      "loss": 0.1796,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16678348183631897,
+      "step": 2165,
+      "valid_targets_mean": 4674.6,
+      "valid_targets_min": 2545
+    },
+    {
+      "epoch": 3.472,
+      "grad_norm": 0.5117998638734699,
+      "learning_rate": 2.3767690431440533e-05,
+      "loss": 0.2036,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18170638382434845,
+      "step": 2170,
+      "valid_targets_mean": 3094.0,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.4358067615589469,
+      "learning_rate": 2.368929276855512e-05,
+      "loss": 0.1788,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1652955263853073,
+      "step": 2175,
+      "valid_targets_mean": 3860.7,
+      "valid_targets_min": 2678
+    },
+    {
+      "epoch": 3.488,
+      "grad_norm": 0.4506764033878222,
+      "learning_rate": 2.361083637682347e-05,
+      "loss": 0.1836,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1784595400094986,
+      "step": 2180,
+      "valid_targets_mean": 3480.9,
+      "valid_targets_min": 309
+    },
+    {
+      "epoch": 3.496,
+      "grad_norm": 0.4917721759887291,
+      "learning_rate": 2.3532322505171502e-05,
+      "loss": 0.1854,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16049504280090332,
+      "step": 2185,
+      "valid_targets_mean": 3795.3,
+      "valid_targets_min": 1909
+    },
+    {
+      "epoch": 3.504,
+      "grad_norm": 0.4240204414632329,
+      "learning_rate": 2.3453752403440147e-05,
+      "loss": 0.1704,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.179388627409935,
+      "step": 2190,
+      "valid_targets_mean": 4094.1,
+      "valid_targets_min": 2123
+    },
+    {
+      "epoch": 3.512,
+      "grad_norm": 0.543127378809295,
+      "learning_rate": 2.337512732236545e-05,
+      "loss": 0.1683,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19357292354106903,
+      "step": 2195,
+      "valid_targets_mean": 2655.0,
+      "valid_targets_min": 322
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 0.4662347453989499,
+      "learning_rate": 2.3296448513558628e-05,
+      "loss": 0.1783,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16577580571174622,
+      "step": 2200,
+      "valid_targets_mean": 3781.9,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 3.528,
+      "grad_norm": 0.4269133713058328,
+      "learning_rate": 2.321771722948622e-05,
+      "loss": 0.172,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13429610431194305,
+      "step": 2205,
+      "valid_targets_mean": 3231.8,
+      "valid_targets_min": 247
+    },
+    {
+      "epoch": 3.536,
+      "grad_norm": 0.46135204402547614,
+      "learning_rate": 2.3138934723450074e-05,
+      "loss": 0.1597,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17384180426597595,
+      "step": 2210,
+      "valid_targets_mean": 3552.7,
+      "valid_targets_min": 362
+    },
+    {
+      "epoch": 3.544,
+      "grad_norm": 0.45837452351359625,
+      "learning_rate": 2.306010224956744e-05,
+      "loss": 0.1816,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18341940641403198,
+      "step": 2215,
+      "valid_targets_mean": 3613.7,
+      "valid_targets_min": 278
+    },
+    {
+      "epoch": 3.552,
+      "grad_norm": 0.6155354559392185,
+      "learning_rate": 2.2981221062750986e-05,
+      "loss": 0.2017,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.23904728889465332,
+      "step": 2220,
+      "valid_targets_mean": 2564.4,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 0.4694478433097551,
+      "learning_rate": 2.290229241868882e-05,
+      "loss": 0.1787,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1665855348110199,
+      "step": 2225,
+      "valid_targets_mean": 3644.1,
+      "valid_targets_min": 389
+    },
+    {
+      "epoch": 3.568,
+      "grad_norm": 0.4979612948135963,
+      "learning_rate": 2.282331757382454e-05,
+      "loss": 0.1886,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1936361938714981,
+      "step": 2230,
+      "valid_targets_mean": 3317.5,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 3.576,
+      "grad_norm": 0.5237728768425867,
+      "learning_rate": 2.2744297785337155e-05,
+      "loss": 0.1735,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20409640669822693,
+      "step": 2235,
+      "valid_targets_mean": 3001.7,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 3.584,
+      "grad_norm": 0.48249523054538584,
+      "learning_rate": 2.2665234311121155e-05,
+      "loss": 0.1795,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16797089576721191,
+      "step": 2240,
+      "valid_targets_mean": 3214.8,
+      "valid_targets_min": 226
+    },
+    {
+      "epoch": 3.592,
+      "grad_norm": 0.3607970437537726,
+      "learning_rate": 2.258612840976645e-05,
+      "loss": 0.1866,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15910516679286957,
+      "step": 2245,
+      "valid_targets_mean": 5302.8,
+      "valid_targets_min": 2731
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.5348276973258057,
+      "learning_rate": 2.2506981340538315e-05,
+      "loss": 0.1806,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14542952179908752,
+      "step": 2250,
+      "valid_targets_mean": 2829.5,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 3.608,
+      "grad_norm": 0.47588824260603974,
+      "learning_rate": 2.2427794363357384e-05,
+      "loss": 0.1706,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16856765747070312,
+      "step": 2255,
+      "valid_targets_mean": 3304.6,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 3.616,
+      "grad_norm": 0.44333703312102646,
+      "learning_rate": 2.2348568738779566e-05,
+      "loss": 0.1612,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17229433357715607,
+      "step": 2260,
+      "valid_targets_mean": 3635.0,
+      "valid_targets_min": 263
+    },
+    {
+      "epoch": 3.624,
+      "grad_norm": 0.4299695547718767,
+      "learning_rate": 2.2269305727975993e-05,
+      "loss": 0.185,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18814265727996826,
+      "step": 2265,
+      "valid_targets_mean": 4238.3,
+      "valid_targets_min": 1049
+    },
+    {
+      "epoch": 3.632,
+      "grad_norm": 0.426853866255706,
+      "learning_rate": 2.2190006592712927e-05,
+      "loss": 0.1589,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1582770198583603,
+      "step": 2270,
+      "valid_targets_mean": 3659.2,
+      "valid_targets_min": 284
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 0.4215569907523026,
+      "learning_rate": 2.2110672595331698e-05,
+      "loss": 0.1781,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1697074919939041,
+      "step": 2275,
+      "valid_targets_mean": 4040.6,
+      "valid_targets_min": 1704
+    },
+    {
+      "epoch": 3.648,
+      "grad_norm": 0.42558597061128844,
+      "learning_rate": 2.2031304998728587e-05,
+      "loss": 0.1549,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14919796586036682,
+      "step": 2280,
+      "valid_targets_mean": 3353.6,
+      "valid_targets_min": 237
+    },
+    {
+      "epoch": 3.656,
+      "grad_norm": 0.4727113025893273,
+      "learning_rate": 2.1951905066334737e-05,
+      "loss": 0.1643,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19650089740753174,
+      "step": 2285,
+      "valid_targets_mean": 3385.1,
+      "valid_targets_min": 1245
+    },
+    {
+      "epoch": 3.664,
+      "grad_norm": 0.36024749989825666,
+      "learning_rate": 2.1872474062096046e-05,
+      "loss": 0.1693,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13818784058094025,
+      "step": 2290,
+      "valid_targets_mean": 3937.1,
+      "valid_targets_min": 258
+    },
+    {
+      "epoch": 3.672,
+      "grad_norm": 0.4193219602828441,
+      "learning_rate": 2.179301325045301e-05,
+      "loss": 0.1701,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16198372840881348,
+      "step": 2295,
+      "valid_targets_mean": 4067.4,
+      "valid_targets_min": 310
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 0.4009954344381171,
+      "learning_rate": 2.1713523896320647e-05,
+      "loss": 0.1869,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17376382648944855,
+      "step": 2300,
+      "valid_targets_mean": 4221.8,
+      "valid_targets_min": 1965
+    },
+    {
+      "epoch": 3.6879999999999997,
+      "grad_norm": 0.45215410610098883,
+      "learning_rate": 2.163400726506832e-05,
+      "loss": 0.1734,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2113596796989441,
+      "step": 2305,
+      "valid_targets_mean": 3965.4,
+      "valid_targets_min": 583
+    },
+    {
+      "epoch": 3.6959999999999997,
+      "grad_norm": 0.4449550144434811,
+      "learning_rate": 2.155446462249961e-05,
+      "loss": 0.1713,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1774255335330963,
+      "step": 2310,
+      "valid_targets_mean": 3479.1,
+      "valid_targets_min": 914
+    },
+    {
+      "epoch": 3.7039999999999997,
+      "grad_norm": 0.38750032262520867,
+      "learning_rate": 2.147489723483217e-05,
+      "loss": 0.1818,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1288120597600937,
+      "step": 2315,
+      "valid_targets_mean": 3402.8,
+      "valid_targets_min": 271
+    },
+    {
+      "epoch": 3.7119999999999997,
+      "grad_norm": 0.5020756661717178,
+      "learning_rate": 2.139530636867757e-05,
+      "loss": 0.1679,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18120509386062622,
+      "step": 2320,
+      "valid_targets_mean": 2969.7,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 3.7199999999999998,
+      "grad_norm": 0.42760093841333335,
+      "learning_rate": 2.1315693291021114e-05,
+      "loss": 0.1725,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12934066355228424,
+      "step": 2325,
+      "valid_targets_mean": 3105.8,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 3.7279999999999998,
+      "grad_norm": 0.47010385947907335,
+      "learning_rate": 2.1236059269201686e-05,
+      "loss": 0.2023,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1937769651412964,
+      "step": 2330,
+      "valid_targets_mean": 3520.1,
+      "valid_targets_min": 1169
+    },
+    {
+      "epoch": 3.7359999999999998,
+      "grad_norm": 0.43185467962952956,
+      "learning_rate": 2.1156405570891584e-05,
+      "loss": 0.1853,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16205886006355286,
+      "step": 2335,
+      "valid_targets_mean": 4044.9,
+      "valid_targets_min": 230
+    },
+    {
+      "epoch": 3.7439999999999998,
+      "grad_norm": 0.42649791891132743,
+      "learning_rate": 2.1076733464076322e-05,
+      "loss": 0.1839,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1642478108406067,
+      "step": 2340,
+      "valid_targets_mean": 3696.2,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 3.752,
+      "grad_norm": 0.4231986642800694,
+      "learning_rate": 2.0997044217034462e-05,
+      "loss": 0.1981,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20427656173706055,
+      "step": 2345,
+      "valid_targets_mean": 4571.5,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 0.4972465026652821,
+      "learning_rate": 2.0917339098317405e-05,
+      "loss": 0.1938,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2086414247751236,
+      "step": 2350,
+      "valid_targets_mean": 3549.5,
+      "valid_targets_min": 361
+    },
+    {
+      "epoch": 3.768,
+      "grad_norm": 0.4920664271157082,
+      "learning_rate": 2.083761937672922e-05,
+      "loss": 0.2041,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19678539037704468,
+      "step": 2355,
+      "valid_targets_mean": 3373.8,
+      "valid_targets_min": 2104
+    },
+    {
+      "epoch": 3.776,
+      "grad_norm": 0.44685413367595644,
+      "learning_rate": 2.0757886321306433e-05,
+      "loss": 0.1684,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17506679892539978,
+      "step": 2360,
+      "valid_targets_mean": 3789.6,
+      "valid_targets_min": 1904
+    },
+    {
+      "epoch": 3.784,
+      "grad_norm": 0.48798776979481434,
+      "learning_rate": 2.0678141201297827e-05,
+      "loss": 0.1731,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1820639967918396,
+      "step": 2365,
+      "valid_targets_mean": 3394.5,
+      "valid_targets_min": 563
+    },
+    {
+      "epoch": 3.792,
+      "grad_norm": 0.4123150811521175,
+      "learning_rate": 2.059838528614423e-05,
+      "loss": 0.1734,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14567069709300995,
+      "step": 2370,
+      "valid_targets_mean": 3901.3,
+      "valid_targets_min": 1217
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.483470846290435,
+      "learning_rate": 2.0518619845458322e-05,
+      "loss": 0.1955,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16368728876113892,
+      "step": 2375,
+      "valid_targets_mean": 4137.2,
+      "valid_targets_min": 920
+    },
+    {
+      "epoch": 3.808,
+      "grad_norm": 0.44795972991955413,
+      "learning_rate": 2.0438846149004426e-05,
+      "loss": 0.18,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20085984468460083,
+      "step": 2380,
+      "valid_targets_mean": 3738.3,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 3.816,
+      "grad_norm": 0.40379030638771507,
+      "learning_rate": 2.0359065466678268e-05,
+      "loss": 0.1572,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1428406834602356,
+      "step": 2385,
+      "valid_targets_mean": 4183.7,
+      "valid_targets_min": 267
+    },
+    {
+      "epoch": 3.824,
+      "grad_norm": 0.4912226187795812,
+      "learning_rate": 2.0279279068486795e-05,
+      "loss": 0.1729,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1743527054786682,
+      "step": 2390,
+      "valid_targets_mean": 3311.5,
+      "valid_targets_min": 1508
+    },
+    {
+      "epoch": 3.832,
+      "grad_norm": 0.540869937658665,
+      "learning_rate": 2.019948822452794e-05,
+      "loss": 0.1795,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22736456990242004,
+      "step": 2395,
+      "valid_targets_mean": 3120.9,
+      "valid_targets_min": 427
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 0.450893126683474,
+      "learning_rate": 2.0119694204970393e-05,
+      "loss": 0.1766,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14157016575336456,
+      "step": 2400,
+      "valid_targets_mean": 3131.7,
+      "valid_targets_min": 260
+    },
+    {
+      "epoch": 3.848,
+      "grad_norm": 0.4351713320189379,
+      "learning_rate": 2.0039898280033414e-05,
+      "loss": 0.1861,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17589247226715088,
+      "step": 2405,
+      "valid_targets_mean": 3998.6,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 3.856,
+      "grad_norm": 0.46620291388992785,
+      "learning_rate": 1.9960101719966592e-05,
+      "loss": 0.1678,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15853092074394226,
+      "step": 2410,
+      "valid_targets_mean": 3183.8,
+      "valid_targets_min": 334
+    },
+    {
+      "epoch": 3.864,
+      "grad_norm": 0.41241234059196313,
+      "learning_rate": 1.9880305795029617e-05,
+      "loss": 0.1845,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16967859864234924,
+      "step": 2415,
+      "valid_targets_mean": 3887.3,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 3.872,
+      "grad_norm": 0.6048713831035458,
+      "learning_rate": 1.980051177547207e-05,
+      "loss": 0.1835,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1788942813873291,
+      "step": 2420,
+      "valid_targets_mean": 3337.8,
+      "valid_targets_min": 301
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 0.45714344010442554,
+      "learning_rate": 1.9720720931513212e-05,
+      "loss": 0.1866,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18736127018928528,
+      "step": 2425,
+      "valid_targets_mean": 3677.9,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 3.888,
+      "grad_norm": 0.3954336199957809,
+      "learning_rate": 1.9640934533321735e-05,
+      "loss": 0.1754,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15268132090568542,
+      "step": 2430,
+      "valid_targets_mean": 4711.6,
+      "valid_targets_min": 1509
+    },
+    {
+      "epoch": 3.896,
+      "grad_norm": 0.417574130359486,
+      "learning_rate": 1.9561153850995577e-05,
+      "loss": 0.1726,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16125497221946716,
+      "step": 2435,
+      "valid_targets_mean": 4029.6,
+      "valid_targets_min": 324
+    },
+    {
+      "epoch": 3.904,
+      "grad_norm": 0.5722915522200248,
+      "learning_rate": 1.948138015454168e-05,
+      "loss": 0.188,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19148078560829163,
+      "step": 2440,
+      "valid_targets_mean": 4280.4,
+      "valid_targets_min": 510
+    },
+    {
+      "epoch": 3.912,
+      "grad_norm": 0.4904832544440171,
+      "learning_rate": 1.9401614713855775e-05,
+      "loss": 0.1842,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17630928754806519,
+      "step": 2445,
+      "valid_targets_mean": 3205.9,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 0.46778823681944115,
+      "learning_rate": 1.932185879870218e-05,
+      "loss": 0.1821,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19073665142059326,
+      "step": 2450,
+      "valid_targets_mean": 3809.2,
+      "valid_targets_min": 2207
+    },
+    {
+      "epoch": 3.928,
+      "grad_norm": 0.3889570803850123,
+      "learning_rate": 1.924211367869357e-05,
+      "loss": 0.1763,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14858999848365784,
+      "step": 2455,
+      "valid_targets_mean": 4037.4,
+      "valid_targets_min": 1387
+    },
+    {
+      "epoch": 3.936,
+      "grad_norm": 0.47513670797806673,
+      "learning_rate": 1.9162380623270783e-05,
+      "loss": 0.1762,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18226689100265503,
+      "step": 2460,
+      "valid_targets_mean": 3368.6,
+      "valid_targets_min": 319
+    },
+    {
+      "epoch": 3.944,
+      "grad_norm": 0.4625458896774699,
+      "learning_rate": 1.90826609016826e-05,
+      "loss": 0.1628,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1858215481042862,
+      "step": 2465,
+      "valid_targets_mean": 3602.7,
+      "valid_targets_min": 555
+    },
+    {
+      "epoch": 3.952,
+      "grad_norm": 0.4211575725920322,
+      "learning_rate": 1.9002955782965548e-05,
+      "loss": 0.1694,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15904217958450317,
+      "step": 2470,
+      "valid_targets_mean": 4063.9,
+      "valid_targets_min": 257
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 0.4685971938578404,
+      "learning_rate": 1.8923266535923688e-05,
+      "loss": 0.1836,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1783655881881714,
+      "step": 2475,
+      "valid_targets_mean": 3494.3,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 3.968,
+      "grad_norm": 0.5264183117040149,
+      "learning_rate": 1.8843594429108426e-05,
+      "loss": 0.1698,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14903612434864044,
+      "step": 2480,
+      "valid_targets_mean": 2933.1,
+      "valid_targets_min": 384
+    },
+    {
+      "epoch": 3.976,
+      "grad_norm": 0.44242353682227387,
+      "learning_rate": 1.8763940730798324e-05,
+      "loss": 0.165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15862959623336792,
+      "step": 2485,
+      "valid_targets_mean": 3842.2,
+      "valid_targets_min": 1164
+    },
+    {
+      "epoch": 3.984,
+      "grad_norm": 0.46723868688429854,
+      "learning_rate": 1.8684306708978896e-05,
+      "loss": 0.167,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17540404200553894,
+      "step": 2490,
+      "valid_targets_mean": 3471.4,
+      "valid_targets_min": 324
+    },
+    {
+      "epoch": 3.992,
+      "grad_norm": 0.39653074070228217,
+      "learning_rate": 1.8604693631322433e-05,
+      "loss": 0.1792,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16241396963596344,
+      "step": 2495,
+      "valid_targets_mean": 4438.9,
+      "valid_targets_min": 1707
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.5058761220502062,
+      "learning_rate": 1.852510276516783e-05,
+      "loss": 0.1999,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21748778223991394,
+      "step": 2500,
+      "valid_targets_mean": 3314.1,
+      "valid_targets_min": 280
+    },
+    {
+      "epoch": 4.008,
+      "grad_norm": 0.5207401160183909,
+      "learning_rate": 1.8445535377500393e-05,
+      "loss": 0.1594,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1718783974647522,
+      "step": 2505,
+      "valid_targets_mean": 2962.6,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 4.016,
+      "grad_norm": 0.5194038036359635,
+      "learning_rate": 1.8365992734931686e-05,
+      "loss": 0.1831,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21896815299987793,
+      "step": 2510,
+      "valid_targets_mean": 3560.0,
+      "valid_targets_min": 921
+    },
+    {
+      "epoch": 4.024,
+      "grad_norm": 0.44724916618222277,
+      "learning_rate": 1.8286476103679356e-05,
+      "loss": 0.1486,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14827819168567657,
+      "step": 2515,
+      "valid_targets_mean": 3905.9,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 4.032,
+      "grad_norm": 0.49266852517989407,
+      "learning_rate": 1.8206986749546992e-05,
+      "loss": 0.1723,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2209244817495346,
+      "step": 2520,
+      "valid_targets_mean": 3928.8,
+      "valid_targets_min": 566
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 0.5384771857617738,
+      "learning_rate": 1.8127525937903957e-05,
+      "loss": 0.1634,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16186761856079102,
+      "step": 2525,
+      "valid_targets_mean": 2961.8,
+      "valid_targets_min": 352
+    },
+    {
+      "epoch": 4.048,
+      "grad_norm": 0.4789109406115832,
+      "learning_rate": 1.8048094933665262e-05,
+      "loss": 0.1591,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16860848665237427,
+      "step": 2530,
+      "valid_targets_mean": 3665.6,
+      "valid_targets_min": 548
+    },
+    {
+      "epoch": 4.056,
+      "grad_norm": 0.38251112989644837,
+      "learning_rate": 1.7968695001271416e-05,
+      "loss": 0.1601,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1440114974975586,
+      "step": 2535,
+      "valid_targets_mean": 4840.2,
+      "valid_targets_min": 262
+    },
+    {
+      "epoch": 4.064,
+      "grad_norm": 0.43509247804655665,
+      "learning_rate": 1.7889327404668316e-05,
+      "loss": 0.1702,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15923228859901428,
+      "step": 2540,
+      "valid_targets_mean": 3982.1,
+      "valid_targets_min": 2212
+    },
+    {
+      "epoch": 4.072,
+      "grad_norm": 0.46990680333360757,
+      "learning_rate": 1.7809993407287083e-05,
+      "loss": 0.1604,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16219797730445862,
+      "step": 2545,
+      "valid_targets_mean": 3556.6,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 0.4413394773737859,
+      "learning_rate": 1.7730694272024018e-05,
+      "loss": 0.1671,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15279072523117065,
+      "step": 2550,
+      "valid_targets_mean": 3605.7,
+      "valid_targets_min": 285
+    },
+    {
+      "epoch": 4.088,
+      "grad_norm": 0.6540565683267762,
+      "learning_rate": 1.765143126122044e-05,
+      "loss": 0.1564,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18971790373325348,
+      "step": 2555,
+      "valid_targets_mean": 3016.2,
+      "valid_targets_min": 295
+    },
+    {
+      "epoch": 4.096,
+      "grad_norm": 0.45243980057794986,
+      "learning_rate": 1.7572205636642622e-05,
+      "loss": 0.1703,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18595416843891144,
+      "step": 2560,
+      "valid_targets_mean": 4562.2,
+      "valid_targets_min": 314
+    },
+    {
+      "epoch": 4.104,
+      "grad_norm": 0.5303018344927286,
+      "learning_rate": 1.749301865946169e-05,
+      "loss": 0.1917,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1796666830778122,
+      "step": 2565,
+      "valid_targets_mean": 3484.1,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 4.112,
+      "grad_norm": 0.5472915877214425,
+      "learning_rate": 1.7413871590233557e-05,
+      "loss": 0.165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17812883853912354,
+      "step": 2570,
+      "valid_targets_mean": 3016.6,
+      "valid_targets_min": 294
+    },
+    {
+      "epoch": 4.12,
+      "grad_norm": 0.4462504784818752,
+      "learning_rate": 1.7334765688878848e-05,
+      "loss": 0.1597,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15138272941112518,
+      "step": 2575,
+      "valid_targets_mean": 3738.9,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 4.128,
+      "grad_norm": 0.4558940441334463,
+      "learning_rate": 1.7255702214662852e-05,
+      "loss": 0.1681,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15088187158107758,
+      "step": 2580,
+      "valid_targets_mean": 3570.7,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 4.136,
+      "grad_norm": 0.418019390232922,
+      "learning_rate": 1.7176682426175468e-05,
+      "loss": 0.1668,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12573128938674927,
+      "step": 2585,
+      "valid_targets_mean": 3563.4,
+      "valid_targets_min": 376
+    },
+    {
+      "epoch": 4.144,
+      "grad_norm": 0.46803815281313726,
+      "learning_rate": 1.709770758131118e-05,
+      "loss": 0.1748,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1487862467765808,
+      "step": 2590,
+      "valid_targets_mean": 3515.3,
+      "valid_targets_min": 2178
+    },
+    {
+      "epoch": 4.152,
+      "grad_norm": 0.4554787532919805,
+      "learning_rate": 1.7018778937249017e-05,
+      "loss": 0.1711,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17118649184703827,
+      "step": 2595,
+      "valid_targets_mean": 4031.6,
+      "valid_targets_min": 2018
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 0.5387474784558713,
+      "learning_rate": 1.6939897750432562e-05,
+      "loss": 0.1476,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1735418736934662,
+      "step": 2600,
+      "valid_targets_mean": 3208.4,
+      "valid_targets_min": 272
+    },
+    {
+      "epoch": 4.168,
+      "grad_norm": 0.4806723026313388,
+      "learning_rate": 1.6861065276549933e-05,
+      "loss": 0.1846,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16921502351760864,
+      "step": 2605,
+      "valid_targets_mean": 3610.4,
+      "valid_targets_min": 685
+    },
+    {
+      "epoch": 4.176,
+      "grad_norm": 0.5555713349187862,
+      "learning_rate": 1.6782282770513788e-05,
+      "loss": 0.1687,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1857282519340515,
+      "step": 2610,
+      "valid_targets_mean": 3076.8,
+      "valid_targets_min": 271
+    },
+    {
+      "epoch": 4.184,
+      "grad_norm": 0.42893911816287217,
+      "learning_rate": 1.6703551486441382e-05,
+      "loss": 0.1496,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1291123926639557,
+      "step": 2615,
+      "valid_targets_mean": 3776.1,
+      "valid_targets_min": 481
+    },
+    {
+      "epoch": 4.192,
+      "grad_norm": 0.5666471326382627,
+      "learning_rate": 1.6624872677634565e-05,
+      "loss": 0.1887,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1937953382730484,
+      "step": 2620,
+      "valid_targets_mean": 3037.6,
+      "valid_targets_min": 354
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 0.5063066209524264,
+      "learning_rate": 1.654624759655986e-05,
+      "loss": 0.1744,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1871352195739746,
+      "step": 2625,
+      "valid_targets_mean": 4073.9,
+      "valid_targets_min": 2423
+    },
+    {
+      "epoch": 4.208,
+      "grad_norm": 0.43971130569201133,
+      "learning_rate": 1.64676774948285e-05,
+      "loss": 0.15,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13284677267074585,
+      "step": 2630,
+      "valid_targets_mean": 3478.3,
+      "valid_targets_min": 374
+    },
+    {
+      "epoch": 4.216,
+      "grad_norm": 0.4755168684766898,
+      "learning_rate": 1.6389163623176536e-05,
+      "loss": 0.1674,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1557317078113556,
+      "step": 2635,
+      "valid_targets_mean": 3765.0,
+      "valid_targets_min": 2241
+    },
+    {
+      "epoch": 4.224,
+      "grad_norm": 0.47316992949719455,
+      "learning_rate": 1.6310707231444884e-05,
+      "loss": 0.1582,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14230778813362122,
+      "step": 2640,
+      "valid_targets_mean": 3530.5,
+      "valid_targets_min": 270
+    },
+    {
+      "epoch": 4.232,
+      "grad_norm": 0.41543011078695113,
+      "learning_rate": 1.623230956855947e-05,
+      "loss": 0.1634,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14048698544502258,
+      "step": 2645,
+      "valid_targets_mean": 4336.5,
+      "valid_targets_min": 269
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 0.4463580911683071,
+      "learning_rate": 1.6153971882511324e-05,
+      "loss": 0.1616,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16923852264881134,
+      "step": 2650,
+      "valid_targets_mean": 3863.9,
+      "valid_targets_min": 2614
+    },
+    {
+      "epoch": 4.248,
+      "grad_norm": 0.46095894538447435,
+      "learning_rate": 1.6075695420336724e-05,
+      "loss": 0.1586,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16085252165794373,
+      "step": 2655,
+      "valid_targets_mean": 3577.9,
+      "valid_targets_min": 693
+    },
+    {
+      "epoch": 4.256,
+      "grad_norm": 0.4600062095522302,
+      "learning_rate": 1.5997481428097338e-05,
+      "loss": 0.1566,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14867234230041504,
+      "step": 2660,
+      "valid_targets_mean": 3487.3,
+      "valid_targets_min": 365
+    },
+    {
+      "epoch": 4.264,
+      "grad_norm": 0.5496054215722079,
+      "learning_rate": 1.5919331150860396e-05,
+      "loss": 0.1753,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1899835616350174,
+      "step": 2665,
+      "valid_targets_mean": 3426.6,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 4.272,
+      "grad_norm": 0.5296192176794512,
+      "learning_rate": 1.5841245832678873e-05,
+      "loss": 0.1708,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1704520881175995,
+      "step": 2670,
+      "valid_targets_mean": 3184.5,
+      "valid_targets_min": 284
+    },
+    {
+      "epoch": 4.28,
+      "grad_norm": 0.41576011186732337,
+      "learning_rate": 1.576322671657166e-05,
+      "loss": 0.1582,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11135891824960709,
+      "step": 2675,
+      "valid_targets_mean": 3691.4,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 4.288,
+      "grad_norm": 0.4772241317950029,
+      "learning_rate": 1.5685275044503804e-05,
+      "loss": 0.1609,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18014320731163025,
+      "step": 2680,
+      "valid_targets_mean": 4142.9,
+      "valid_targets_min": 2094
+    },
+    {
+      "epoch": 4.296,
+      "grad_norm": 0.48739028147108304,
+      "learning_rate": 1.560739205736674e-05,
+      "loss": 0.1602,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18423588573932648,
+      "step": 2685,
+      "valid_targets_mean": 3724.9,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 4.304,
+      "grad_norm": 0.5211114174970796,
+      "learning_rate": 1.552957899495851e-05,
+      "loss": 0.161,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20825603604316711,
+      "step": 2690,
+      "valid_targets_mean": 4058.4,
+      "valid_targets_min": 371
+    },
+    {
+      "epoch": 4.312,
+      "grad_norm": 0.4918526449767801,
+      "learning_rate": 1.5451837095964054e-05,
+      "loss": 0.1532,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15117208659648895,
+      "step": 2695,
+      "valid_targets_mean": 3480.5,
+      "valid_targets_min": 357
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 0.5203400266769977,
+      "learning_rate": 1.5374167597935478e-05,
+      "loss": 0.1753,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17061233520507812,
+      "step": 2700,
+      "valid_targets_mean": 3619.6,
+      "valid_targets_min": 895
+    },
+    {
+      "epoch": 4.328,
+      "grad_norm": 0.48002451187029754,
+      "learning_rate": 1.5296571737272354e-05,
+      "loss": 0.1917,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18285402655601501,
+      "step": 2705,
+      "valid_targets_mean": 3480.3,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 4.336,
+      "grad_norm": 0.4263974831591075,
+      "learning_rate": 1.5219050749202037e-05,
+      "loss": 0.1615,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13324183225631714,
+      "step": 2710,
+      "valid_targets_mean": 3667.9,
+      "valid_targets_min": 369
+    },
+    {
+      "epoch": 4.344,
+      "grad_norm": 0.6356428348447435,
+      "learning_rate": 1.5141605867760021e-05,
+      "loss": 0.1659,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17356416583061218,
+      "step": 2715,
+      "valid_targets_mean": 3880.1,
+      "valid_targets_min": 270
+    },
+    {
+      "epoch": 4.352,
+      "grad_norm": 0.43810687048826824,
+      "learning_rate": 1.5064238325770267e-05,
+      "loss": 0.1534,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13445238769054413,
+      "step": 2720,
+      "valid_targets_mean": 4100.5,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 0.49029991478333235,
+      "learning_rate": 1.498694935482559e-05,
+      "loss": 0.1573,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15516909956932068,
+      "step": 2725,
+      "valid_targets_mean": 3415.6,
+      "valid_targets_min": 523
+    },
+    {
+      "epoch": 4.368,
+      "grad_norm": 0.4958256940935809,
+      "learning_rate": 1.4909740185268056e-05,
+      "loss": 0.1644,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17295697331428528,
+      "step": 2730,
+      "valid_targets_mean": 3508.8,
+      "valid_targets_min": 328
+    },
+    {
+      "epoch": 4.376,
+      "grad_norm": 0.4171587049413664,
+      "learning_rate": 1.4832612046169408e-05,
+      "loss": 0.1521,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13128913938999176,
+      "step": 2735,
+      "valid_targets_mean": 3594.9,
+      "valid_targets_min": 331
+    },
+    {
+      "epoch": 4.384,
+      "grad_norm": 0.456706909937861,
+      "learning_rate": 1.4755566165311455e-05,
+      "loss": 0.1762,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16497567296028137,
+      "step": 2740,
+      "valid_targets_mean": 4223.7,
+      "valid_targets_min": 2156
+    },
+    {
+      "epoch": 4.392,
+      "grad_norm": 0.42545658156234023,
+      "learning_rate": 1.4678603769166591e-05,
+      "loss": 0.1663,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13306370377540588,
+      "step": 2745,
+      "valid_targets_mean": 3822.7,
+      "valid_targets_min": 538
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.5236755462755562,
+      "learning_rate": 1.4601726082878226e-05,
+      "loss": 0.1777,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18563783168792725,
+      "step": 2750,
+      "valid_targets_mean": 3515.9,
+      "valid_targets_min": 2045
+    },
+    {
+      "epoch": 4.408,
+      "grad_norm": 0.629498507574191,
+      "learning_rate": 1.4524934330241292e-05,
+      "loss": 0.1581,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16282004117965698,
+      "step": 2755,
+      "valid_targets_mean": 3879.5,
+      "valid_targets_min": 2785
+    },
+    {
+      "epoch": 4.416,
+      "grad_norm": 0.5104364008934925,
+      "learning_rate": 1.4448229733682784e-05,
+      "loss": 0.1655,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20730820298194885,
+      "step": 2760,
+      "valid_targets_mean": 3996.4,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 4.424,
+      "grad_norm": 0.5568663886877268,
+      "learning_rate": 1.4371613514242264e-05,
+      "loss": 0.1567,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1998094767332077,
+      "step": 2765,
+      "valid_targets_mean": 2906.9,
+      "valid_targets_min": 232
+    },
+    {
+      "epoch": 4.432,
+      "grad_norm": 0.4507412453252567,
+      "learning_rate": 1.4295086891552457e-05,
+      "loss": 0.1684,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.170005202293396,
+      "step": 2770,
+      "valid_targets_mean": 3765.6,
+      "valid_targets_min": 936
+    },
+    {
+      "epoch": 4.44,
+      "grad_norm": 0.40763252073973033,
+      "learning_rate": 1.4218651083819811e-05,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13368898630142212,
+      "step": 2775,
+      "valid_targets_mean": 4719.4,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 4.448,
+      "grad_norm": 0.49884448318603924,
+      "learning_rate": 1.4142307307805125e-05,
+      "loss": 0.161,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1628158986568451,
+      "step": 2780,
+      "valid_targets_mean": 3244.6,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 4.456,
+      "grad_norm": 0.504598308797512,
+      "learning_rate": 1.406605677880416e-05,
+      "loss": 0.1551,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1655115783214569,
+      "step": 2785,
+      "valid_targets_mean": 3602.2,
+      "valid_targets_min": 324
+    },
+    {
+      "epoch": 4.464,
+      "grad_norm": 0.5123911224143153,
+      "learning_rate": 1.3989900710628313e-05,
+      "loss": 0.184,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18191678822040558,
+      "step": 2790,
+      "valid_targets_mean": 3361.2,
+      "valid_targets_min": 365
+    },
+    {
+      "epoch": 4.4719999999999995,
+      "grad_norm": 0.49543318746558185,
+      "learning_rate": 1.3913840315585279e-05,
+      "loss": 0.1622,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1688602864742279,
+      "step": 2795,
+      "valid_targets_mean": 3523.1,
+      "valid_targets_min": 291
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 0.46109264533316247,
+      "learning_rate": 1.3837876804459765e-05,
+      "loss": 0.1587,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14151960611343384,
+      "step": 2800,
+      "valid_targets_mean": 3633.5,
+      "valid_targets_min": 968
+    },
+    {
+      "epoch": 4.4879999999999995,
+      "grad_norm": 0.4449234473165046,
+      "learning_rate": 1.3762011386494191e-05,
+      "loss": 0.1696,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1381378322839737,
+      "step": 2805,
+      "valid_targets_mean": 4017.1,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 4.496,
+      "grad_norm": 0.45482453562263503,
+      "learning_rate": 1.3686245269369485e-05,
+      "loss": 0.1588,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15975341200828552,
+      "step": 2810,
+      "valid_targets_mean": 3700.6,
+      "valid_targets_min": 1871
+    },
+    {
+      "epoch": 4.504,
+      "grad_norm": 0.5124511321168326,
+      "learning_rate": 1.3610579659185809e-05,
+      "loss": 0.1753,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16840451955795288,
+      "step": 2815,
+      "valid_targets_mean": 3454.2,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 4.5120000000000005,
+      "grad_norm": 0.490150536488025,
+      "learning_rate": 1.35350157604434e-05,
+      "loss": 0.1621,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2023554891347885,
+      "step": 2820,
+      "valid_targets_mean": 4053.1,
+      "valid_targets_min": 479
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 0.47781080551375765,
+      "learning_rate": 1.345955477602337e-05,
+      "loss": 0.1669,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1658356785774231,
+      "step": 2825,
+      "valid_targets_mean": 4293.4,
+      "valid_targets_min": 2585
+    },
+    {
+      "epoch": 4.5280000000000005,
+      "grad_norm": 0.564891857450325,
+      "learning_rate": 1.3384197907168561e-05,
+      "loss": 0.147,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16493207216262817,
+      "step": 2830,
+      "valid_targets_mean": 3128.6,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 4.536,
+      "grad_norm": 0.4908121782632458,
+      "learning_rate": 1.3308946353464438e-05,
+      "loss": 0.1684,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15394583344459534,
+      "step": 2835,
+      "valid_targets_mean": 3253.4,
+      "valid_targets_min": 342
+    },
+    {
+      "epoch": 4.5440000000000005,
+      "grad_norm": 0.4910595073352342,
+      "learning_rate": 1.3233801312819979e-05,
+      "loss": 0.1571,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16620831191539764,
+      "step": 2840,
+      "valid_targets_mean": 3779.2,
+      "valid_targets_min": 897
+    },
+    {
+      "epoch": 4.552,
+      "grad_norm": 0.4687957104550901,
+      "learning_rate": 1.3158763981448606e-05,
+      "loss": 0.1691,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15859955549240112,
+      "step": 2845,
+      "valid_targets_mean": 3881.0,
+      "valid_targets_min": 338
+    },
+    {
+      "epoch": 4.5600000000000005,
+      "grad_norm": 0.5449776091155725,
+      "learning_rate": 1.3083835553849148e-05,
+      "loss": 0.1588,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15382547676563263,
+      "step": 2850,
+      "valid_targets_mean": 3012.2,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 4.568,
+      "grad_norm": 0.5261122131668524,
+      "learning_rate": 1.3009017222786828e-05,
+      "loss": 0.1548,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15414920449256897,
+      "step": 2855,
+      "valid_targets_mean": 2861.0,
+      "valid_targets_min": 447
+    },
+    {
+      "epoch": 4.576,
+      "grad_norm": 0.4962645822518439,
+      "learning_rate": 1.2934310179274269e-05,
+      "loss": 0.1692,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17707647383213043,
+      "step": 2860,
+      "valid_targets_mean": 3420.6,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 4.584,
+      "grad_norm": 0.5099644892910326,
+      "learning_rate": 1.2859715612552541e-05,
+      "loss": 0.1671,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1670101135969162,
+      "step": 2865,
+      "valid_targets_mean": 3274.6,
+      "valid_targets_min": 253
+    },
+    {
+      "epoch": 4.592,
+      "grad_norm": 0.5861223263766787,
+      "learning_rate": 1.278523471007223e-05,
+      "loss": 0.1872,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20890739560127258,
+      "step": 2870,
+      "valid_targets_mean": 3112.6,
+      "valid_targets_min": 269
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.4320995162461035,
+      "learning_rate": 1.271086865747451e-05,
+      "loss": 0.1576,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14682993292808533,
+      "step": 2875,
+      "valid_targets_mean": 3929.1,
+      "valid_targets_min": 594
+    },
+    {
+      "epoch": 4.608,
+      "grad_norm": 0.4690701860915904,
+      "learning_rate": 1.2636618638572316e-05,
+      "loss": 0.159,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16578778624534607,
+      "step": 2880,
+      "valid_targets_mean": 3641.2,
+      "valid_targets_min": 973
+    },
+    {
+      "epoch": 4.616,
+      "grad_norm": 0.49881486183185786,
+      "learning_rate": 1.2562485835331466e-05,
+      "loss": 0.1553,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14260710775852203,
+      "step": 2885,
+      "valid_targets_mean": 3001.6,
+      "valid_targets_min": 263
+    },
+    {
+      "epoch": 4.624,
+      "grad_norm": 0.4777868467089075,
+      "learning_rate": 1.2488471427851852e-05,
+      "loss": 0.1649,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15219198167324066,
+      "step": 2890,
+      "valid_targets_mean": 3725.6,
+      "valid_targets_min": 1614
+    },
+    {
+      "epoch": 4.632,
+      "grad_norm": 0.5304826861357529,
+      "learning_rate": 1.241457659434866e-05,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1900656521320343,
+      "step": 2895,
+      "valid_targets_mean": 3214.9,
+      "valid_targets_min": 237
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 0.46344181305809345,
+      "learning_rate": 1.2340802511133605e-05,
+      "loss": 0.1555,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1694854348897934,
+      "step": 2900,
+      "valid_targets_mean": 3528.3,
+      "valid_targets_min": 267
+    },
+    {
+      "epoch": 4.648,
+      "grad_norm": 0.5098221969336352,
+      "learning_rate": 1.2267150352596216e-05,
+      "loss": 0.1732,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19286417961120605,
+      "step": 2905,
+      "valid_targets_mean": 3442.4,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 4.656,
+      "grad_norm": 0.4713525004919086,
+      "learning_rate": 1.2193621291185132e-05,
+      "loss": 0.1576,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1563737988471985,
+      "step": 2910,
+      "valid_targets_mean": 3495.2,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 4.664,
+      "grad_norm": 0.4824471201647763,
+      "learning_rate": 1.2120216497389446e-05,
+      "loss": 0.1618,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1699879765510559,
+      "step": 2915,
+      "valid_targets_mean": 3497.6,
+      "valid_targets_min": 342
+    },
+    {
+      "epoch": 4.672,
+      "grad_norm": 0.5235283650557896,
+      "learning_rate": 1.2046937139720068e-05,
+      "loss": 0.1742,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18877771496772766,
+      "step": 2920,
+      "valid_targets_mean": 3990.0,
+      "valid_targets_min": 599
+    },
+    {
+      "epoch": 4.68,
+      "grad_norm": 0.4462707354560082,
+      "learning_rate": 1.1973784384691121e-05,
+      "loss": 0.1685,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15578800439834595,
+      "step": 2925,
+      "valid_targets_mean": 3918.8,
+      "valid_targets_min": 452
+    },
+    {
+      "epoch": 4.688,
+      "grad_norm": 0.49186624314332533,
+      "learning_rate": 1.1900759396801382e-05,
+      "loss": 0.1728,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18862035870552063,
+      "step": 2930,
+      "valid_targets_mean": 4009.5,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 4.696,
+      "grad_norm": 0.44057658971178837,
+      "learning_rate": 1.1827863338515741e-05,
+      "loss": 0.1549,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14518827199935913,
+      "step": 2935,
+      "valid_targets_mean": 3873.1,
+      "valid_targets_min": 871
+    },
+    {
+      "epoch": 4.704,
+      "grad_norm": 0.5258071567425745,
+      "learning_rate": 1.1755097370246669e-05,
+      "loss": 0.1781,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16784968972206116,
+      "step": 2940,
+      "valid_targets_mean": 3372.8,
+      "valid_targets_min": 309
+    },
+    {
+      "epoch": 4.712,
+      "grad_norm": 0.4783580469102426,
+      "learning_rate": 1.1682462650335791e-05,
+      "loss": 0.1814,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17221982777118683,
+      "step": 2945,
+      "valid_targets_mean": 3713.1,
+      "valid_targets_min": 332
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 0.46843665444299043,
+      "learning_rate": 1.1609960335035423e-05,
+      "loss": 0.1622,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16111749410629272,
+      "step": 2950,
+      "valid_targets_mean": 3675.3,
+      "valid_targets_min": 2007
+    },
+    {
+      "epoch": 4.728,
+      "grad_norm": 0.5310986550713371,
+      "learning_rate": 1.1537591578490165e-05,
+      "loss": 0.1813,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14884917438030243,
+      "step": 2955,
+      "valid_targets_mean": 3061.9,
+      "valid_targets_min": 314
+    },
+    {
+      "epoch": 4.736,
+      "grad_norm": 0.5184214025148882,
+      "learning_rate": 1.146535753271853e-05,
+      "loss": 0.1474,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16668038070201874,
+      "step": 2960,
+      "valid_targets_mean": 3438.3,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 4.744,
+      "grad_norm": 0.5110161967188966,
+      "learning_rate": 1.139325934759461e-05,
+      "loss": 0.1702,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17506751418113708,
+      "step": 2965,
+      "valid_targets_mean": 3323.3,
+      "valid_targets_min": 286
+    },
+    {
+      "epoch": 4.752,
+      "grad_norm": 0.4894890879430881,
+      "learning_rate": 1.1321298170829768e-05,
+      "loss": 0.1639,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15679039061069489,
+      "step": 2970,
+      "valid_targets_mean": 3243.0,
+      "valid_targets_min": 426
+    },
+    {
+      "epoch": 4.76,
+      "grad_norm": 0.4238897461270591,
+      "learning_rate": 1.1249475147954363e-05,
+      "loss": 0.1559,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15012839436531067,
+      "step": 2975,
+      "valid_targets_mean": 4305.5,
+      "valid_targets_min": 1744
+    },
+    {
+      "epoch": 4.768,
+      "grad_norm": 0.5035476220031655,
+      "learning_rate": 1.1177791422299528e-05,
+      "loss": 0.1774,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17359063029289246,
+      "step": 2980,
+      "valid_targets_mean": 3309.5,
+      "valid_targets_min": 383
+    },
+    {
+      "epoch": 4.776,
+      "grad_norm": 0.477555736253376,
+      "learning_rate": 1.1106248134978959e-05,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17889025807380676,
+      "step": 2985,
+      "valid_targets_mean": 3869.2,
+      "valid_targets_min": 1930
+    },
+    {
+      "epoch": 4.784,
+      "grad_norm": 0.5712316179555837,
+      "learning_rate": 1.1034846424870744e-05,
+      "loss": 0.1743,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18125967681407928,
+      "step": 2990,
+      "valid_targets_mean": 2997.8,
+      "valid_targets_min": 393
+    },
+    {
+      "epoch": 4.792,
+      "grad_norm": 0.475128412469385,
+      "learning_rate": 1.0963587428599256e-05,
+      "loss": 0.1521,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15909573435783386,
+      "step": 2995,
+      "valid_targets_mean": 3737.9,
+      "valid_targets_min": 381
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.46960125036096995,
+      "learning_rate": 1.089247228051704e-05,
+      "loss": 0.1719,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18148255348205566,
+      "step": 3000,
+      "valid_targets_mean": 4107.4,
+      "valid_targets_min": 235
+    },
+    {
+      "epoch": 4.808,
+      "grad_norm": 0.49324860967562223,
+      "learning_rate": 1.0821502112686753e-05,
+      "loss": 0.1733,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1763809621334076,
+      "step": 3005,
+      "valid_targets_mean": 3482.2,
+      "valid_targets_min": 2067
+    },
+    {
+      "epoch": 4.816,
+      "grad_norm": 0.5114119421806601,
+      "learning_rate": 1.0750678054863158e-05,
+      "loss": 0.1583,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1645103096961975,
+      "step": 3010,
+      "valid_targets_mean": 3860.6,
+      "valid_targets_min": 344
+    },
+    {
+      "epoch": 4.824,
+      "grad_norm": 0.46663619883126367,
+      "learning_rate": 1.0680001234475127e-05,
+      "loss": 0.1639,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1650698035955429,
+      "step": 3015,
+      "valid_targets_mean": 3609.6,
+      "valid_targets_min": 361
+    },
+    {
+      "epoch": 4.832,
+      "grad_norm": 0.473104586058911,
+      "learning_rate": 1.0609472776607715e-05,
+      "loss": 0.1599,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1753571629524231,
+      "step": 3020,
+      "valid_targets_mean": 4022.8,
+      "valid_targets_min": 197
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 0.4774931589802239,
+      "learning_rate": 1.0539093803984217e-05,
+      "loss": 0.1627,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1340242326259613,
+      "step": 3025,
+      "valid_targets_mean": 3931.9,
+      "valid_targets_min": 2476
+    },
+    {
+      "epoch": 4.848,
+      "grad_norm": 0.4662581828430926,
+      "learning_rate": 1.046886543694832e-05,
+      "loss": 0.1478,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.142277792096138,
+      "step": 3030,
+      "valid_targets_mean": 3278.2,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 4.856,
+      "grad_norm": 0.4658861482135343,
+      "learning_rate": 1.0398788793446263e-05,
+      "loss": 0.1647,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.183569073677063,
+      "step": 3035,
+      "valid_targets_mean": 4083.8,
+      "valid_targets_min": 259
+    },
+    {
+      "epoch": 4.864,
+      "grad_norm": 0.4765520383129939,
+      "learning_rate": 1.0328864989009037e-05,
+      "loss": 0.1581,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16087578237056732,
+      "step": 3040,
+      "valid_targets_mean": 3715.1,
+      "valid_targets_min": 704
+    },
+    {
+      "epoch": 4.872,
+      "grad_norm": 0.5408654674022106,
+      "learning_rate": 1.0259095136734634e-05,
+      "loss": 0.1659,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.175779789686203,
+      "step": 3045,
+      "valid_targets_mean": 3176.4,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 0.5398506201552913,
+      "learning_rate": 1.0189480347270311e-05,
+      "loss": 0.1644,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1893042027950287,
+      "step": 3050,
+      "valid_targets_mean": 3350.9,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 4.888,
+      "grad_norm": 0.5337509688656996,
+      "learning_rate": 1.0120021728794938e-05,
+      "loss": 0.1735,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1753995716571808,
+      "step": 3055,
+      "valid_targets_mean": 2977.9,
+      "valid_targets_min": 323
+    },
+    {
+      "epoch": 4.896,
+      "grad_norm": 0.4697402686113984,
+      "learning_rate": 1.0050720387001334e-05,
+      "loss": 0.17,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.21884042024612427,
+      "step": 3060,
+      "valid_targets_mean": 4647.5,
+      "valid_targets_min": 247
+    },
+    {
+      "epoch": 4.904,
+      "grad_norm": 0.5050937090265951,
+      "learning_rate": 9.981577425078672e-06,
+      "loss": 0.1806,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.22695738077163696,
+      "step": 3065,
+      "valid_targets_mean": 3624.2,
+      "valid_targets_min": 341
+    },
+    {
+      "epoch": 4.912,
+      "grad_norm": 0.48342507842234034,
+      "learning_rate": 9.912593943694924e-06,
+      "loss": 0.1733,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16517207026481628,
+      "step": 3070,
+      "valid_targets_mean": 3588.8,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 0.44205320179648544,
+      "learning_rate": 9.843771040979328e-06,
+      "loss": 0.146,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13960158824920654,
+      "step": 3075,
+      "valid_targets_mean": 4160.2,
+      "valid_targets_min": 2240
+    },
+    {
+      "epoch": 4.928,
+      "grad_norm": 0.47744564531264144,
+      "learning_rate": 9.775109812504922e-06,
+      "loss": 0.16,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17180633544921875,
+      "step": 3080,
+      "valid_targets_mean": 3643.1,
+      "valid_targets_min": 313
+    },
+    {
+      "epoch": 4.936,
+      "grad_norm": 0.5348956462311005,
+      "learning_rate": 9.706611351271088e-06,
+      "loss": 0.1685,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15962564945220947,
+      "step": 3085,
+      "valid_targets_mean": 3146.9,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 4.944,
+      "grad_norm": 0.5187354784506499,
+      "learning_rate": 9.638276747686169e-06,
+      "loss": 0.164,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15733808279037476,
+      "step": 3090,
+      "valid_targets_mean": 3477.2,
+      "valid_targets_min": 338
+    },
+    {
+      "epoch": 4.952,
+      "grad_norm": 0.5054710968501575,
+      "learning_rate": 9.570107089550091e-06,
+      "loss": 0.1733,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20363882184028625,
+      "step": 3095,
+      "valid_targets_mean": 3815.8,
+      "valid_targets_min": 1027
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 0.5018669278717514,
+      "learning_rate": 9.502103462037074e-06,
+      "loss": 0.1608,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15621645748615265,
+      "step": 3100,
+      "valid_targets_mean": 3059.8,
+      "valid_targets_min": 256
+    },
+    {
+      "epoch": 4.968,
+      "grad_norm": 0.47730912414261045,
+      "learning_rate": 9.434266947678326e-06,
+      "loss": 0.1692,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17430830001831055,
+      "step": 3105,
+      "valid_targets_mean": 3513.4,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 4.976,
+      "grad_norm": 0.45341981268546977,
+      "learning_rate": 9.366598626344836e-06,
+      "loss": 0.1646,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15926717221736908,
+      "step": 3110,
+      "valid_targets_mean": 3665.2,
+      "valid_targets_min": 320
+    },
+    {
+      "epoch": 4.984,
+      "grad_norm": 0.5013176437523653,
+      "learning_rate": 9.299099575230172e-06,
+      "loss": 0.1615,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17530980706214905,
+      "step": 3115,
+      "valid_targets_mean": 3156.1,
+      "valid_targets_min": 384
+    },
+    {
+      "epoch": 4.992,
+      "grad_norm": 0.4773638399165383,
+      "learning_rate": 9.231770868833334e-06,
+      "loss": 0.1539,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1414935290813446,
+      "step": 3120,
+      "valid_targets_mean": 3096.9,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.47077575580735226,
+      "learning_rate": 9.164613578941652e-06,
+      "loss": 0.1768,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1931946575641632,
+      "step": 3125,
+      "valid_targets_mean": 4026.1,
+      "valid_targets_min": 2199
+    },
+    {
+      "epoch": 5.008,
+      "grad_norm": 0.44989110263032844,
+      "learning_rate": 9.097628774613732e-06,
+      "loss": 0.1625,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15251950919628143,
+      "step": 3130,
+      "valid_targets_mean": 3608.2,
+      "valid_targets_min": 1043
+    },
+    {
+      "epoch": 5.016,
+      "grad_norm": 0.4963047438545988,
+      "learning_rate": 9.030817522162403e-06,
+      "loss": 0.1764,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17707566916942596,
+      "step": 3135,
+      "valid_targets_mean": 3584.1,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 5.024,
+      "grad_norm": 0.512734074956482,
+      "learning_rate": 8.964180885137797e-06,
+      "loss": 0.1448,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15397243201732635,
+      "step": 3140,
+      "valid_targets_mean": 3239.3,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 5.032,
+      "grad_norm": 0.4368848625228825,
+      "learning_rate": 8.897719924310375e-06,
+      "loss": 0.1459,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11311864852905273,
+      "step": 3145,
+      "valid_targets_mean": 3154.8,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 5.04,
+      "grad_norm": 0.4933729285501144,
+      "learning_rate": 8.831435697654068e-06,
+      "loss": 0.1545,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17427799105644226,
+      "step": 3150,
+      "valid_targets_mean": 3737.4,
+      "valid_targets_min": 348
+    },
+    {
+      "epoch": 5.048,
+      "grad_norm": 0.4990582540264949,
+      "learning_rate": 8.765329260329413e-06,
+      "loss": 0.141,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12493841350078583,
+      "step": 3155,
+      "valid_targets_mean": 3267.3,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 5.056,
+      "grad_norm": 0.382046196576576,
+      "learning_rate": 8.699401664666774e-06,
+      "loss": 0.15,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11176909506320953,
+      "step": 3160,
+      "valid_targets_mean": 4654.0,
+      "valid_targets_min": 314
+    },
+    {
+      "epoch": 5.064,
+      "grad_norm": 0.44062911704981017,
+      "learning_rate": 8.633653960149579e-06,
+      "loss": 0.1571,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.128413125872612,
+      "step": 3165,
+      "valid_targets_mean": 3868.8,
+      "valid_targets_min": 316
+    },
+    {
+      "epoch": 5.072,
+      "grad_norm": 0.46799688785328675,
+      "learning_rate": 8.56808719339762e-06,
+      "loss": 0.1608,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15280327200889587,
+      "step": 3170,
+      "valid_targets_mean": 4132.9,
+      "valid_targets_min": 2242
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 0.527368508109452,
+      "learning_rate": 8.502702408150391e-06,
+      "loss": 0.17,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20823884010314941,
+      "step": 3175,
+      "valid_targets_mean": 3820.4,
+      "valid_targets_min": 256
+    },
+    {
+      "epoch": 5.088,
+      "grad_norm": 0.4404278693712024,
+      "learning_rate": 8.43750064525047e-06,
+      "loss": 0.1564,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13965637981891632,
+      "step": 3180,
+      "valid_targets_mean": 3841.6,
+      "valid_targets_min": 1779
+    },
+    {
+      "epoch": 5.096,
+      "grad_norm": 0.5225443683513944,
+      "learning_rate": 8.372482942626952e-06,
+      "loss": 0.1622,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19121387600898743,
+      "step": 3185,
+      "valid_targets_mean": 3731.7,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 5.104,
+      "grad_norm": 0.475018699552925,
+      "learning_rate": 8.307650335278927e-06,
+      "loss": 0.1454,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13325797021389008,
+      "step": 3190,
+      "valid_targets_mean": 3369.7,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 5.112,
+      "grad_norm": 0.5452350460356599,
+      "learning_rate": 8.243003855259015e-06,
+      "loss": 0.1566,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18771015107631683,
+      "step": 3195,
+      "valid_targets_mean": 3614.4,
+      "valid_targets_min": 458
+    },
+    {
+      "epoch": 5.12,
+      "grad_norm": 0.4894273255517601,
+      "learning_rate": 8.178544531656897e-06,
+      "loss": 0.1492,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14746329188346863,
+      "step": 3200,
+      "valid_targets_mean": 3525.2,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 5.128,
+      "grad_norm": 0.4631997603697265,
+      "learning_rate": 8.11427339058299e-06,
+      "loss": 0.1486,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1463426649570465,
+      "step": 3205,
+      "valid_targets_mean": 3627.1,
+      "valid_targets_min": 269
+    },
+    {
+      "epoch": 5.136,
+      "grad_norm": 0.48378845126877723,
+      "learning_rate": 8.050191455152072e-06,
+      "loss": 0.1526,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15296359360218048,
+      "step": 3210,
+      "valid_targets_mean": 3681.9,
+      "valid_targets_min": 404
+    },
+    {
+      "epoch": 5.144,
+      "grad_norm": 0.6072584251872719,
+      "learning_rate": 7.986299745467013e-06,
+      "loss": 0.1626,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17575755715370178,
+      "step": 3215,
+      "valid_targets_mean": 2762.9,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 5.152,
+      "grad_norm": 0.4901642778779982,
+      "learning_rate": 7.922599278602524e-06,
+      "loss": 0.1512,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14536118507385254,
+      "step": 3220,
+      "valid_targets_mean": 3549.4,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 0.48501709014416095,
+      "learning_rate": 7.859091068588987e-06,
+      "loss": 0.165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15965524315834045,
+      "step": 3225,
+      "valid_targets_mean": 3849.9,
+      "valid_targets_min": 1016
+    },
+    {
+      "epoch": 5.168,
+      "grad_norm": 0.5705429386118752,
+      "learning_rate": 7.795776126396284e-06,
+      "loss": 0.1547,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2004871368408203,
+      "step": 3230,
+      "valid_targets_mean": 3500.9,
+      "valid_targets_min": 2195
+    },
+    {
+      "epoch": 5.176,
+      "grad_norm": 0.4847966168670339,
+      "learning_rate": 7.732655459917726e-06,
+      "loss": 0.161,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1681928187608719,
+      "step": 3235,
+      "valid_targets_mean": 3973.1,
+      "valid_targets_min": 704
+    },
+    {
+      "epoch": 5.184,
+      "grad_norm": 0.49861158668752514,
+      "learning_rate": 7.669730073954005e-06,
+      "loss": 0.1529,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14503681659698486,
+      "step": 3240,
+      "valid_targets_mean": 3428.3,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 5.192,
+      "grad_norm": 0.4675750919820134,
+      "learning_rate": 7.607000970197194e-06,
+      "loss": 0.1618,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17027722299098969,
+      "step": 3245,
+      "valid_targets_mean": 4240.4,
+      "valid_targets_min": 2581
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.45807435728914386,
+      "learning_rate": 7.544469147214797e-06,
+      "loss": 0.1505,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1190289780497551,
+      "step": 3250,
+      "valid_targets_mean": 3552.8,
+      "valid_targets_min": 494
+    },
+    {
+      "epoch": 5.208,
+      "grad_norm": 0.41876815934397293,
+      "learning_rate": 7.482135600433868e-06,
+      "loss": 0.1552,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12920747697353363,
+      "step": 3255,
+      "valid_targets_mean": 4254.2,
+      "valid_targets_min": 422
+    },
+    {
+      "epoch": 5.216,
+      "grad_norm": 0.5073004720497122,
+      "learning_rate": 7.420001322125156e-06,
+      "loss": 0.1426,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15062248706817627,
+      "step": 3260,
+      "valid_targets_mean": 3087.8,
+      "valid_targets_min": 260
+    },
+    {
+      "epoch": 5.224,
+      "grad_norm": 0.5293738743401485,
+      "learning_rate": 7.3580673013872946e-06,
+      "loss": 0.1594,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17365805804729462,
+      "step": 3265,
+      "valid_targets_mean": 3558.8,
+      "valid_targets_min": 353
+    },
+    {
+      "epoch": 5.232,
+      "grad_norm": 0.45247955876699836,
+      "learning_rate": 7.2963345241310904e-06,
+      "loss": 0.1424,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14031070470809937,
+      "step": 3270,
+      "valid_targets_mean": 4134.6,
+      "valid_targets_min": 1423
+    },
+    {
+      "epoch": 5.24,
+      "grad_norm": 0.43981279455050776,
+      "learning_rate": 7.234803973063797e-06,
+      "loss": 0.1565,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13963885605335236,
+      "step": 3275,
+      "valid_targets_mean": 4128.9,
+      "valid_targets_min": 2119
+    },
+    {
+      "epoch": 5.248,
+      "grad_norm": 0.4755638570883857,
+      "learning_rate": 7.173476627673492e-06,
+      "loss": 0.1525,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1335136443376541,
+      "step": 3280,
+      "valid_targets_mean": 3711.8,
+      "valid_targets_min": 197
+    },
+    {
+      "epoch": 5.256,
+      "grad_norm": 0.5722317430388237,
+      "learning_rate": 7.112353464213477e-06,
+      "loss": 0.1566,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17605479061603546,
+      "step": 3285,
+      "valid_targets_mean": 3475.8,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 5.264,
+      "grad_norm": 0.418527452995287,
+      "learning_rate": 7.051435455686735e-06,
+      "loss": 0.1389,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13622906804084778,
+      "step": 3290,
+      "valid_targets_mean": 4618.4,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 5.272,
+      "grad_norm": 0.4981412707012034,
+      "learning_rate": 6.990723571830438e-06,
+      "loss": 0.1513,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13143590092658997,
+      "step": 3295,
+      "valid_targets_mean": 3169.2,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 5.28,
+      "grad_norm": 0.473285247479578,
+      "learning_rate": 6.93021877910052e-06,
+      "loss": 0.1495,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1556505262851715,
+      "step": 3300,
+      "valid_targets_mean": 3636.7,
+      "valid_targets_min": 238
+    },
+    {
+      "epoch": 5.288,
+      "grad_norm": 0.5128120428672052,
+      "learning_rate": 6.8699220406562985e-06,
+      "loss": 0.145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15119555592536926,
+      "step": 3305,
+      "valid_targets_mean": 3317.0,
+      "valid_targets_min": 281
+    },
+    {
+      "epoch": 5.296,
+      "grad_norm": 0.5224204142684418,
+      "learning_rate": 6.809834316345117e-06,
+      "loss": 0.1412,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14769135415554047,
+      "step": 3310,
+      "valid_targets_mean": 3213.8,
+      "valid_targets_min": 702
+    },
+    {
+      "epoch": 5.304,
+      "grad_norm": 0.528201889334046,
+      "learning_rate": 6.749956562687083e-06,
+      "loss": 0.1558,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16373316943645477,
+      "step": 3315,
+      "valid_targets_mean": 3402.3,
+      "valid_targets_min": 310
+    },
+    {
+      "epoch": 5.312,
+      "grad_norm": 0.49254019802422394,
+      "learning_rate": 6.690289732859841e-06,
+      "loss": 0.1535,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1455114483833313,
+      "step": 3320,
+      "valid_targets_mean": 3551.0,
+      "valid_targets_min": 827
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.4975007080022229,
+      "learning_rate": 6.630834776683403e-06,
+      "loss": 0.1598,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13784104585647583,
+      "step": 3325,
+      "valid_targets_mean": 3397.7,
+      "valid_targets_min": 306
+    },
+    {
+      "epoch": 5.328,
+      "grad_norm": 0.5393717565594942,
+      "learning_rate": 6.571592640605e-06,
+      "loss": 0.1557,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20083515346050262,
+      "step": 3330,
+      "valid_targets_mean": 3706.1,
+      "valid_targets_min": 1911
+    },
+    {
+      "epoch": 5.336,
+      "grad_norm": 0.51286574906784,
+      "learning_rate": 6.512564267684061e-06,
+      "loss": 0.1791,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16912692785263062,
+      "step": 3335,
+      "valid_targets_mean": 3926.1,
+      "valid_targets_min": 308
+    },
+    {
+      "epoch": 5.344,
+      "grad_norm": 0.5158601726078991,
+      "learning_rate": 6.453750597577167e-06,
+      "loss": 0.1674,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1798197329044342,
+      "step": 3340,
+      "valid_targets_mean": 3724.2,
+      "valid_targets_min": 823
+    },
+    {
+      "epoch": 5.352,
+      "grad_norm": 0.4933394662374596,
+      "learning_rate": 6.395152566523106e-06,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14475180208683014,
+      "step": 3345,
+      "valid_targets_mean": 3462.6,
+      "valid_targets_min": 255
+    },
+    {
+      "epoch": 5.36,
+      "grad_norm": 0.43937868320565865,
+      "learning_rate": 6.336771107327966e-06,
+      "loss": 0.1423,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11127922683954239,
+      "step": 3350,
+      "valid_targets_mean": 4089.9,
+      "valid_targets_min": 382
+    },
+    {
+      "epoch": 5.368,
+      "grad_norm": 0.4867501993610681,
+      "learning_rate": 6.278607149350289e-06,
+      "loss": 0.1434,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12968263030052185,
+      "step": 3355,
+      "valid_targets_mean": 4267.6,
+      "valid_targets_min": 351
+    },
+    {
+      "epoch": 5.376,
+      "grad_norm": 0.4163927354527707,
+      "learning_rate": 6.220661618486268e-06,
+      "loss": 0.1459,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1379765272140503,
+      "step": 3360,
+      "valid_targets_mean": 4015.8,
+      "valid_targets_min": 657
+    },
+    {
+      "epoch": 5.384,
+      "grad_norm": 0.4616850890448116,
+      "learning_rate": 6.162935437155024e-06,
+      "loss": 0.1409,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13786424696445465,
+      "step": 3365,
+      "valid_targets_mean": 3795.3,
+      "valid_targets_min": 352
+    },
+    {
+      "epoch": 5.392,
+      "grad_norm": 0.44358099250370797,
+      "learning_rate": 6.105429524283901e-06,
+      "loss": 0.1486,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13226397335529327,
+      "step": 3370,
+      "valid_targets_mean": 3753.4,
+      "valid_targets_min": 259
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 0.551648551535771,
+      "learning_rate": 6.04814479529386e-06,
+      "loss": 0.1629,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18792398273944855,
+      "step": 3375,
+      "valid_targets_mean": 3494.8,
+      "valid_targets_min": 493
+    },
+    {
+      "epoch": 5.408,
+      "grad_norm": 0.5230194139003993,
+      "learning_rate": 5.991082162084889e-06,
+      "loss": 0.1663,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15811756253242493,
+      "step": 3380,
+      "valid_targets_mean": 3598.9,
+      "valid_targets_min": 271
+    },
+    {
+      "epoch": 5.416,
+      "grad_norm": 0.4885088819845388,
+      "learning_rate": 5.934242533021499e-06,
+      "loss": 0.1441,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15029430389404297,
+      "step": 3385,
+      "valid_targets_mean": 3686.8,
+      "valid_targets_min": 407
+    },
+    {
+      "epoch": 5.424,
+      "grad_norm": 0.47597913583895585,
+      "learning_rate": 5.877626812918258e-06,
+      "loss": 0.1604,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12361487746238708,
+      "step": 3390,
+      "valid_targets_mean": 3255.8,
+      "valid_targets_min": 243
+    },
+    {
+      "epoch": 5.432,
+      "grad_norm": 0.46920468683276956,
+      "learning_rate": 5.821235903025378e-06,
+      "loss": 0.1544,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1461915671825409,
+      "step": 3395,
+      "valid_targets_mean": 4131.1,
+      "valid_targets_min": 427
+    },
+    {
+      "epoch": 5.44,
+      "grad_norm": 0.4524903614175739,
+      "learning_rate": 5.765070701014391e-06,
+      "loss": 0.1553,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1256939321756363,
+      "step": 3400,
+      "valid_targets_mean": 3799.0,
+      "valid_targets_min": 235
+    },
+    {
+      "epoch": 5.448,
+      "grad_norm": 0.5148615456841461,
+      "learning_rate": 5.709132100963841e-06,
+      "loss": 0.1582,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16248953342437744,
+      "step": 3405,
+      "valid_targets_mean": 3392.8,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 5.456,
+      "grad_norm": 0.548531552019745,
+      "learning_rate": 5.653420993345062e-06,
+      "loss": 0.1554,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1936943531036377,
+      "step": 3410,
+      "valid_targets_mean": 3667.9,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 5.464,
+      "grad_norm": 0.5207156707870862,
+      "learning_rate": 5.597938265007994e-06,
+      "loss": 0.1546,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14738218486309052,
+      "step": 3415,
+      "valid_targets_mean": 4182.8,
+      "valid_targets_min": 270
+    },
+    {
+      "epoch": 5.4719999999999995,
+      "grad_norm": 0.5590815939048953,
+      "learning_rate": 5.542684799167069e-06,
+      "loss": 0.1658,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14260679483413696,
+      "step": 3420,
+      "valid_targets_mean": 2980.6,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 5.48,
+      "grad_norm": 0.4969818007825026,
+      "learning_rate": 5.487661475387152e-06,
+      "loss": 0.1606,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.154516339302063,
+      "step": 3425,
+      "valid_targets_mean": 4002.8,
+      "valid_targets_min": 1766
+    },
+    {
+      "epoch": 5.4879999999999995,
+      "grad_norm": 0.49131118016338493,
+      "learning_rate": 5.432869169569541e-06,
+      "loss": 0.1717,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15904122591018677,
+      "step": 3430,
+      "valid_targets_mean": 3660.6,
+      "valid_targets_min": 736
+    },
+    {
+      "epoch": 5.496,
+      "grad_norm": 0.4730260452376477,
+      "learning_rate": 5.378308753938024e-06,
+      "loss": 0.1509,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14355675876140594,
+      "step": 3435,
+      "valid_targets_mean": 4136.1,
+      "valid_targets_min": 914
+    },
+    {
+      "epoch": 5.504,
+      "grad_norm": 0.665832943573731,
+      "learning_rate": 5.323981097024986e-06,
+      "loss": 0.1586,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17350488901138306,
+      "step": 3440,
+      "valid_targets_mean": 2491.1,
+      "valid_targets_min": 277
+    },
+    {
+      "epoch": 5.5120000000000005,
+      "grad_norm": 0.568351646241486,
+      "learning_rate": 5.269887063657595e-06,
+      "loss": 0.1567,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16971595585346222,
+      "step": 3445,
+      "valid_targets_mean": 3474.8,
+      "valid_targets_min": 1821
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 0.5283394801847608,
+      "learning_rate": 5.216027514944027e-06,
+      "loss": 0.1669,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14358972012996674,
+      "step": 3450,
+      "valid_targets_mean": 3473.6,
+      "valid_targets_min": 250
+    },
+    {
+      "epoch": 5.5280000000000005,
+      "grad_norm": 0.5436500559399493,
+      "learning_rate": 5.162403308259767e-06,
+      "loss": 0.144,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1574266254901886,
+      "step": 3455,
+      "valid_targets_mean": 3660.1,
+      "valid_targets_min": 397
+    },
+    {
+      "epoch": 5.536,
+      "grad_norm": 0.5319289898174935,
+      "learning_rate": 5.109015297233935e-06,
+      "loss": 0.145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13451114296913147,
+      "step": 3460,
+      "valid_targets_mean": 3372.4,
+      "valid_targets_min": 362
+    },
+    {
+      "epoch": 5.5440000000000005,
+      "grad_norm": 0.5001413941245687,
+      "learning_rate": 5.055864331735736e-06,
+      "loss": 0.1462,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1473301500082016,
+      "step": 3465,
+      "valid_targets_mean": 3233.2,
+      "valid_targets_min": 272
+    },
+    {
+      "epoch": 5.552,
+      "grad_norm": 0.4140793108327821,
+      "learning_rate": 5.002951257860909e-06,
+      "loss": 0.1586,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12162575870752335,
+      "step": 3470,
+      "valid_targets_mean": 4052.0,
+      "valid_targets_min": 268
+    },
+    {
+      "epoch": 5.5600000000000005,
+      "grad_norm": 0.44492610929892806,
+      "learning_rate": 4.950276917918256e-06,
+      "loss": 0.1473,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13832753896713257,
+      "step": 3475,
+      "valid_targets_mean": 4005.3,
+      "valid_targets_min": 339
+    },
+    {
+      "epoch": 5.568,
+      "grad_norm": 0.52243639196686,
+      "learning_rate": 4.8978421504162385e-06,
+      "loss": 0.1583,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14306500554084778,
+      "step": 3480,
+      "valid_targets_mean": 3176.6,
+      "valid_targets_min": 306
+    },
+    {
+      "epoch": 5.576,
+      "grad_norm": 0.502538602419935,
+      "learning_rate": 4.845647790049634e-06,
+      "loss": 0.162,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1491185426712036,
+      "step": 3485,
+      "valid_targets_mean": 3397.5,
+      "valid_targets_min": 534
+    },
+    {
+      "epoch": 5.584,
+      "grad_norm": 0.5067433357938145,
+      "learning_rate": 4.793694667686244e-06,
+      "loss": 0.1649,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18947044014930725,
+      "step": 3490,
+      "valid_targets_mean": 3667.3,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 5.592,
+      "grad_norm": 0.5341859527716843,
+      "learning_rate": 4.741983610353664e-06,
+      "loss": 0.1569,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15089917182922363,
+      "step": 3495,
+      "valid_targets_mean": 3142.9,
+      "valid_targets_min": 309
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.5373222867946124,
+      "learning_rate": 4.690515441226122e-06,
+      "loss": 0.1484,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15275129675865173,
+      "step": 3500,
+      "valid_targets_mean": 3372.7,
+      "valid_targets_min": 340
+    },
+    {
+      "epoch": 5.608,
+      "grad_norm": 0.4376547133357841,
+      "learning_rate": 4.639290979611379e-06,
+      "loss": 0.1648,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1458638310432434,
+      "step": 3505,
+      "valid_targets_mean": 4353.1,
+      "valid_targets_min": 506
+    },
+    {
+      "epoch": 5.616,
+      "grad_norm": 0.6159551119088081,
+      "learning_rate": 4.588311040937683e-06,
+      "loss": 0.1492,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1729152798652649,
+      "step": 3510,
+      "valid_targets_mean": 2683.0,
+      "valid_targets_min": 314
+    },
+    {
+      "epoch": 5.624,
+      "grad_norm": 0.44534143824453865,
+      "learning_rate": 4.537576436740783e-06,
+      "loss": 0.1561,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13801473379135132,
+      "step": 3515,
+      "valid_targets_mean": 3755.6,
+      "valid_targets_min": 1342
+    },
+    {
+      "epoch": 5.632,
+      "grad_norm": 0.48133466020355087,
+      "learning_rate": 4.487087974651016e-06,
+      "loss": 0.1583,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14276376366615295,
+      "step": 3520,
+      "valid_targets_mean": 3484.0,
+      "valid_targets_min": 249
+    },
+    {
+      "epoch": 5.64,
+      "grad_norm": 0.48347844687441144,
+      "learning_rate": 4.436846458380455e-06,
+      "loss": 0.1429,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13288626074790955,
+      "step": 3525,
+      "valid_targets_mean": 3750.1,
+      "valid_targets_min": 367
+    },
+    {
+      "epoch": 5.648,
+      "grad_norm": 0.4650621855924103,
+      "learning_rate": 4.386852687710104e-06,
+      "loss": 0.1674,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15630093216896057,
+      "step": 3530,
+      "valid_targets_mean": 3913.4,
+      "valid_targets_min": 2038
+    },
+    {
+      "epoch": 5.656,
+      "grad_norm": 0.49539095153448537,
+      "learning_rate": 4.337107458477177e-06,
+      "loss": 0.1538,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1507214605808258,
+      "step": 3535,
+      "valid_targets_mean": 3505.3,
+      "valid_targets_min": 393
+    },
+    {
+      "epoch": 5.664,
+      "grad_norm": 0.5026671758272572,
+      "learning_rate": 4.287611562562422e-06,
+      "loss": 0.1549,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1524541676044464,
+      "step": 3540,
+      "valid_targets_mean": 3730.1,
+      "valid_targets_min": 252
+    },
+    {
+      "epoch": 5.672,
+      "grad_norm": 0.4363410374917732,
+      "learning_rate": 4.238365787877516e-06,
+      "loss": 0.1576,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14187175035476685,
+      "step": 3545,
+      "valid_targets_mean": 4939.9,
+      "valid_targets_min": 2555
+    },
+    {
+      "epoch": 5.68,
+      "grad_norm": 0.5839259083929332,
+      "learning_rate": 4.189370918352531e-06,
+      "loss": 0.1574,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19616129994392395,
+      "step": 3550,
+      "valid_targets_mean": 3303.6,
+      "valid_targets_min": 273
+    },
+    {
+      "epoch": 5.688,
+      "grad_norm": 0.46101279259904493,
+      "learning_rate": 4.140627733923439e-06,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15139666199684143,
+      "step": 3555,
+      "valid_targets_mean": 3932.2,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 5.696,
+      "grad_norm": 0.5527045831841164,
+      "learning_rate": 4.092137010519712e-06,
+      "loss": 0.1416,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1456228494644165,
+      "step": 3560,
+      "valid_targets_mean": 2800.4,
+      "valid_targets_min": 276
+    },
+    {
+      "epoch": 5.704,
+      "grad_norm": 0.602551536736344,
+      "learning_rate": 4.043899520051964e-06,
+      "loss": 0.1435,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16215020418167114,
+      "step": 3565,
+      "valid_targets_mean": 2822.0,
+      "valid_targets_min": 332
+    },
+    {
+      "epoch": 5.712,
+      "grad_norm": 0.4854507549134017,
+      "learning_rate": 3.995916030399658e-06,
+      "loss": 0.1523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15372738242149353,
+      "step": 3570,
+      "valid_targets_mean": 3832.2,
+      "valid_targets_min": 1744
+    },
+    {
+      "epoch": 5.72,
+      "grad_norm": 0.4576181526451539,
+      "learning_rate": 3.948187305398892e-06,
+      "loss": 0.1595,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14133524894714355,
+      "step": 3575,
+      "valid_targets_mean": 3920.3,
+      "valid_targets_min": 311
+    },
+    {
+      "epoch": 5.728,
+      "grad_norm": 0.5564062296036335,
+      "learning_rate": 3.90071410483023e-06,
+      "loss": 0.1834,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17311005294322968,
+      "step": 3580,
+      "valid_targets_mean": 3474.6,
+      "valid_targets_min": 1778
+    },
+    {
+      "epoch": 5.736,
+      "grad_norm": 0.48322754914942834,
+      "learning_rate": 3.853497184406623e-06,
+      "loss": 0.1532,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16416265070438385,
+      "step": 3585,
+      "valid_targets_mean": 4013.1,
+      "valid_targets_min": 2505
+    },
+    {
+      "epoch": 5.744,
+      "grad_norm": 0.46589210243678614,
+      "learning_rate": 3.80653729576135e-06,
+      "loss": 0.1597,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.163507878780365,
+      "step": 3590,
+      "valid_targets_mean": 4152.9,
+      "valid_targets_min": 1135
+    },
+    {
+      "epoch": 5.752,
+      "grad_norm": 0.43993696854060854,
+      "learning_rate": 3.7598351864360872e-06,
+      "loss": 0.157,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14666064083576202,
+      "step": 3595,
+      "valid_targets_mean": 4419.9,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 5.76,
+      "grad_norm": 0.5237716253648957,
+      "learning_rate": 3.713391599868985e-06,
+      "loss": 0.1568,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1572018265724182,
+      "step": 3600,
+      "valid_targets_mean": 3249.2,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 5.768,
+      "grad_norm": 0.4507517037520052,
+      "learning_rate": 3.6672072753828424e-06,
+      "loss": 0.1435,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12321348488330841,
+      "step": 3605,
+      "valid_targets_mean": 3537.2,
+      "valid_targets_min": 280
+    },
+    {
+      "epoch": 5.776,
+      "grad_norm": 0.47620407059565634,
+      "learning_rate": 3.6212829481733368e-06,
+      "loss": 0.1518,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15371403098106384,
+      "step": 3610,
+      "valid_targets_mean": 4004.3,
+      "valid_targets_min": 1811
+    },
+    {
+      "epoch": 5.784,
+      "grad_norm": 0.4938184099045085,
+      "learning_rate": 3.575619349297317e-06,
+      "loss": 0.1607,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15150034427642822,
+      "step": 3615,
+      "valid_targets_mean": 3775.8,
+      "valid_targets_min": 356
+    },
+    {
+      "epoch": 5.792,
+      "grad_norm": 0.5548051967120078,
+      "learning_rate": 3.5302172056611682e-06,
+      "loss": 0.1518,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15763884782791138,
+      "step": 3620,
+      "valid_targets_mean": 3280.4,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 0.5148626380253252,
+      "learning_rate": 3.485077240009247e-06,
+      "loss": 0.1594,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14550644159317017,
+      "step": 3625,
+      "valid_targets_mean": 3043.2,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 5.808,
+      "grad_norm": 0.49573053254952604,
+      "learning_rate": 3.4402001709123643e-06,
+      "loss": 0.1579,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15955348312854767,
+      "step": 3630,
+      "valid_targets_mean": 3584.2,
+      "valid_targets_min": 749
+    },
+    {
+      "epoch": 5.816,
+      "grad_norm": 0.5511889561419542,
+      "learning_rate": 3.3955867127563515e-06,
+      "loss": 0.1563,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1849968284368515,
+      "step": 3635,
+      "valid_targets_mean": 3372.2,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 5.824,
+      "grad_norm": 0.48457326958660507,
+      "learning_rate": 3.351237575730695e-06,
+      "loss": 0.148,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12346811592578888,
+      "step": 3640,
+      "valid_targets_mean": 3504.6,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 5.832,
+      "grad_norm": 0.46087395792953467,
+      "learning_rate": 3.307153465817219e-06,
+      "loss": 0.1692,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1477144956588745,
+      "step": 3645,
+      "valid_targets_mean": 3795.2,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 5.84,
+      "grad_norm": 0.5511853800800202,
+      "learning_rate": 3.263335084778856e-06,
+      "loss": 0.1567,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18445196747779846,
+      "step": 3650,
+      "valid_targets_mean": 3714.8,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 5.848,
+      "grad_norm": 0.4475772812073464,
+      "learning_rate": 3.2197831301484816e-06,
+      "loss": 0.1446,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12418712675571442,
+      "step": 3655,
+      "valid_targets_mean": 3493.0,
+      "valid_targets_min": 325
+    },
+    {
+      "epoch": 5.856,
+      "grad_norm": 0.4934173467049908,
+      "learning_rate": 3.1764982952177805e-06,
+      "loss": 0.1564,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1614685356616974,
+      "step": 3660,
+      "valid_targets_mean": 3396.8,
+      "valid_targets_min": 329
+    },
+    {
+      "epoch": 5.864,
+      "grad_norm": 0.4733781945719049,
+      "learning_rate": 3.1334812690262507e-06,
+      "loss": 0.1615,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1572643220424652,
+      "step": 3665,
+      "valid_targets_mean": 4188.6,
+      "valid_targets_min": 306
+    },
+    {
+      "epoch": 5.872,
+      "grad_norm": 0.49956930260604815,
+      "learning_rate": 3.0907327363502084e-06,
+      "loss": 0.1539,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1591757833957672,
+      "step": 3670,
+      "valid_targets_mean": 3447.6,
+      "valid_targets_min": 344
+    },
+    {
+      "epoch": 5.88,
+      "grad_norm": 0.5122423846114833,
+      "learning_rate": 3.0482533776918987e-06,
+      "loss": 0.156,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12231725454330444,
+      "step": 3675,
+      "valid_targets_mean": 4271.7,
+      "valid_targets_min": 931
+    },
+    {
+      "epoch": 5.888,
+      "grad_norm": 0.5092776739484663,
+      "learning_rate": 3.0060438692686533e-06,
+      "loss": 0.1612,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1547207534313202,
+      "step": 3680,
+      "valid_targets_mean": 3511.6,
+      "valid_targets_min": 808
+    },
+    {
+      "epoch": 5.896,
+      "grad_norm": 0.43688961709691376,
+      "learning_rate": 2.964104883002139e-06,
+      "loss": 0.1447,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14906592667102814,
+      "step": 3685,
+      "valid_targets_mean": 4311.9,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 5.904,
+      "grad_norm": 0.5194471746973647,
+      "learning_rate": 2.9224370865076457e-06,
+      "loss": 0.1457,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14201994240283966,
+      "step": 3690,
+      "valid_targets_mean": 3368.9,
+      "valid_targets_min": 291
+    },
+    {
+      "epoch": 5.912,
+      "grad_norm": 0.433521179036756,
+      "learning_rate": 2.8810411430834716e-06,
+      "loss": 0.139,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11506259441375732,
+      "step": 3695,
+      "valid_targets_mean": 3771.1,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 5.92,
+      "grad_norm": 1.7033533138229286,
+      "learning_rate": 2.8399177117003595e-06,
+      "loss": 0.1518,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13431179523468018,
+      "step": 3700,
+      "valid_targets_mean": 4182.1,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 5.928,
+      "grad_norm": 0.610464891900702,
+      "learning_rate": 2.7990674469910085e-06,
+      "loss": 0.1481,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1605043113231659,
+      "step": 3705,
+      "valid_targets_mean": 3166.7,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 5.936,
+      "grad_norm": 0.5076916689101655,
+      "learning_rate": 2.7584909992396515e-06,
+      "loss": 0.1519,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15561270713806152,
+      "step": 3710,
+      "valid_targets_mean": 3583.8,
+      "valid_targets_min": 238
+    },
+    {
+      "epoch": 5.944,
+      "grad_norm": 0.47435179971261765,
+      "learning_rate": 2.7181890143716995e-06,
+      "loss": 0.1615,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16562017798423767,
+      "step": 3715,
+      "valid_targets_mean": 4056.6,
+      "valid_targets_min": 323
+    },
+    {
+      "epoch": 5.952,
+      "grad_norm": 0.4984967644266169,
+      "learning_rate": 2.6781621339434717e-06,
+      "loss": 0.1515,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.169399231672287,
+      "step": 3720,
+      "valid_targets_mean": 4417.4,
+      "valid_targets_min": 2353
+    },
+    {
+      "epoch": 5.96,
+      "grad_norm": 0.5045224003123603,
+      "learning_rate": 2.638410995131966e-06,
+      "loss": 0.1319,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13557392358779907,
+      "step": 3725,
+      "valid_targets_mean": 3276.1,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 5.968,
+      "grad_norm": 0.7372477958991857,
+      "learning_rate": 2.5989362307247313e-06,
+      "loss": 0.1471,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13813939690589905,
+      "step": 3730,
+      "valid_targets_mean": 3489.8,
+      "valid_targets_min": 285
+    },
+    {
+      "epoch": 5.976,
+      "grad_norm": 0.5336465651287611,
+      "learning_rate": 2.5597384691097847e-06,
+      "loss": 0.1605,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1680811047554016,
+      "step": 3735,
+      "valid_targets_mean": 4477.7,
+      "valid_targets_min": 321
+    },
+    {
+      "epoch": 5.984,
+      "grad_norm": 0.49123699053097175,
+      "learning_rate": 2.520818334265611e-06,
+      "loss": 0.1544,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15554986894130707,
+      "step": 3740,
+      "valid_targets_mean": 4031.6,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 5.992,
+      "grad_norm": 0.5405866183649068,
+      "learning_rate": 2.482176445751232e-06,
+      "loss": 0.1511,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1711125671863556,
+      "step": 3745,
+      "valid_targets_mean": 3699.8,
+      "valid_targets_min": 2449
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.48345810289711894,
+      "learning_rate": 2.4438134186963415e-06,
+      "loss": 0.1522,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14288698136806488,
+      "step": 3750,
+      "valid_targets_mean": 3437.0,
+      "valid_targets_min": 1037
+    },
+    {
+      "epoch": 6.008,
+      "grad_norm": 0.4459195943344209,
+      "learning_rate": 2.4057298637915105e-06,
+      "loss": 0.1349,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14223907887935638,
+      "step": 3755,
+      "valid_targets_mean": 4218.1,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 6.016,
+      "grad_norm": 0.578280616443023,
+      "learning_rate": 2.3679263872784717e-06,
+      "loss": 0.1485,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15197840332984924,
+      "step": 3760,
+      "valid_targets_mean": 3198.4,
+      "valid_targets_min": 332
+    },
+    {
+      "epoch": 6.024,
+      "grad_norm": 0.5301282972404922,
+      "learning_rate": 2.330403590940471e-06,
+      "loss": 0.146,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14504796266555786,
+      "step": 3765,
+      "valid_targets_mean": 3148.0,
+      "valid_targets_min": 344
+    },
+    {
+      "epoch": 6.032,
+      "grad_norm": 0.530615031442486,
+      "learning_rate": 2.2931620720926717e-06,
+      "loss": 0.1522,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17925168573856354,
+      "step": 3770,
+      "valid_targets_mean": 3672.6,
+      "valid_targets_min": 254
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 0.5834136725920653,
+      "learning_rate": 2.256202423572669e-06,
+      "loss": 0.1435,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1595342755317688,
+      "step": 3775,
+      "valid_targets_mean": 3436.8,
+      "valid_targets_min": 332
+    },
+    {
+      "epoch": 6.048,
+      "grad_norm": 0.566581884531736,
+      "learning_rate": 2.219525233731035e-06,
+      "loss": 0.1572,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16818875074386597,
+      "step": 3780,
+      "valid_targets_mean": 3102.9,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 6.056,
+      "grad_norm": 0.4773416548188851,
+      "learning_rate": 2.183131086421961e-06,
+      "loss": 0.1363,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12313860654830933,
+      "step": 3785,
+      "valid_targets_mean": 3295.1,
+      "valid_targets_min": 285
+    },
+    {
+      "epoch": 6.064,
+      "grad_norm": 0.49370937793319114,
+      "learning_rate": 2.1470205609939533e-06,
+      "loss": 0.1502,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14972414076328278,
+      "step": 3790,
+      "valid_targets_mean": 3774.1,
+      "valid_targets_min": 1460
+    },
+    {
+      "epoch": 6.072,
+      "grad_norm": 0.43990677687155233,
+      "learning_rate": 2.1111942322806335e-06,
+      "loss": 0.1476,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1266840249300003,
+      "step": 3795,
+      "valid_targets_mean": 4082.9,
+      "valid_targets_min": 268
+    },
+    {
+      "epoch": 6.08,
+      "grad_norm": 0.4576211044180905,
+      "learning_rate": 2.0756526705915635e-06,
+      "loss": 0.1434,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14341503381729126,
+      "step": 3800,
+      "valid_targets_mean": 3931.1,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 6.088,
+      "grad_norm": 0.4615760705871314,
+      "learning_rate": 2.0403964417031764e-06,
+      "loss": 0.1466,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14075851440429688,
+      "step": 3805,
+      "valid_targets_mean": 3959.5,
+      "valid_targets_min": 330
+    },
+    {
+      "epoch": 6.096,
+      "grad_norm": 0.500851742050161,
+      "learning_rate": 2.0054261068497773e-06,
+      "loss": 0.1461,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14654210209846497,
+      "step": 3810,
+      "valid_targets_mean": 3424.1,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 6.104,
+      "grad_norm": 0.5635699868731041,
+      "learning_rate": 1.9707422227145922e-06,
+      "loss": 0.1503,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1634356677532196,
+      "step": 3815,
+      "valid_targets_mean": 2936.4,
+      "valid_targets_min": 291
+    },
+    {
+      "epoch": 6.112,
+      "grad_norm": 0.49336308728093514,
+      "learning_rate": 1.936345341420924e-06,
+      "loss": 0.1603,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15910479426383972,
+      "step": 3820,
+      "valid_targets_mean": 3782.4,
+      "valid_targets_min": 394
+    },
+    {
+      "epoch": 6.12,
+      "grad_norm": 0.4661810002750529,
+      "learning_rate": 1.9022360105233507e-06,
+      "loss": 0.1455,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1251566857099533,
+      "step": 3825,
+      "valid_targets_mean": 3342.2,
+      "valid_targets_min": 498
+    },
+    {
+      "epoch": 6.128,
+      "grad_norm": 0.5059610547842212,
+      "learning_rate": 1.8684147729990188e-06,
+      "loss": 0.1503,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17101427912712097,
+      "step": 3830,
+      "valid_targets_mean": 3897.8,
+      "valid_targets_min": 345
+    },
+    {
+      "epoch": 6.136,
+      "grad_norm": 0.470828915714859,
+      "learning_rate": 1.8348821672389893e-06,
+      "loss": 0.1601,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13512098789215088,
+      "step": 3835,
+      "valid_targets_mean": 3775.2,
+      "valid_targets_min": 2311
+    },
+    {
+      "epoch": 6.144,
+      "grad_norm": 0.5881722526077101,
+      "learning_rate": 1.8016387270396784e-06,
+      "loss": 0.1532,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15737363696098328,
+      "step": 3840,
+      "valid_targets_mean": 2743.0,
+      "valid_targets_min": 251
+    },
+    {
+      "epoch": 6.152,
+      "grad_norm": 0.5253780622534957,
+      "learning_rate": 1.7686849815943486e-06,
+      "loss": 0.1462,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1519300639629364,
+      "step": 3845,
+      "valid_targets_mean": 3688.5,
+      "valid_targets_min": 295
+    },
+    {
+      "epoch": 6.16,
+      "grad_norm": 0.5398469206498816,
+      "learning_rate": 1.7360214554847e-06,
+      "loss": 0.1418,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14314258098602295,
+      "step": 3850,
+      "valid_targets_mean": 3036.5,
+      "valid_targets_min": 278
+    },
+    {
+      "epoch": 6.168,
+      "grad_norm": 0.6205464546864884,
+      "learning_rate": 1.703648668672495e-06,
+      "loss": 0.1423,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19167643785476685,
+      "step": 3855,
+      "valid_targets_mean": 3013.7,
+      "valid_targets_min": 328
+    },
+    {
+      "epoch": 6.176,
+      "grad_norm": 0.4506201685887015,
+      "learning_rate": 1.6715671364913077e-06,
+      "loss": 0.1529,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14837507903575897,
+      "step": 3860,
+      "valid_targets_mean": 4205.5,
+      "valid_targets_min": 726
+    },
+    {
+      "epoch": 6.184,
+      "grad_norm": 0.489755237563739,
+      "learning_rate": 1.6397773696383091e-06,
+      "loss": 0.1511,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15509113669395447,
+      "step": 3865,
+      "valid_targets_mean": 3740.4,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 6.192,
+      "grad_norm": 0.5541996877679399,
+      "learning_rate": 1.6082798741661321e-06,
+      "loss": 0.1398,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12711597979068756,
+      "step": 3870,
+      "valid_targets_mean": 3260.9,
+      "valid_targets_min": 235
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.42217921530149544,
+      "learning_rate": 1.5770751514748273e-06,
+      "loss": 0.1468,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10588064044713974,
+      "step": 3875,
+      "valid_targets_mean": 3745.9,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 6.208,
+      "grad_norm": 0.4601913258292377,
+      "learning_rate": 1.5461636983038686e-06,
+      "loss": 0.1539,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13650469481945038,
+      "step": 3880,
+      "valid_targets_mean": 4480.8,
+      "valid_targets_min": 2859
+    },
+    {
+      "epoch": 6.216,
+      "grad_norm": 0.4736803359551579,
+      "learning_rate": 1.5155460067242578e-06,
+      "loss": 0.1485,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15069183707237244,
+      "step": 3885,
+      "valid_targets_mean": 3803.1,
+      "valid_targets_min": 274
+    },
+    {
+      "epoch": 6.224,
+      "grad_norm": 0.6257767178174732,
+      "learning_rate": 1.4852225641306816e-06,
+      "loss": 0.1658,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19856879115104675,
+      "step": 3890,
+      "valid_targets_mean": 3222.0,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 6.232,
+      "grad_norm": 0.43651268911447005,
+      "learning_rate": 1.4551938532337607e-06,
+      "loss": 0.1499,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11115298420190811,
+      "step": 3895,
+      "valid_targets_mean": 4265.5,
+      "valid_targets_min": 2089
+    },
+    {
+      "epoch": 6.24,
+      "grad_norm": 0.5311659074197252,
+      "learning_rate": 1.4254603520523614e-06,
+      "loss": 0.1459,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1707332879304886,
+      "step": 3900,
+      "valid_targets_mean": 3725.0,
+      "valid_targets_min": 980
+    },
+    {
+      "epoch": 6.248,
+      "grad_norm": 0.47098214790139104,
+      "learning_rate": 1.3960225339059875e-06,
+      "loss": 0.1444,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12763728201389313,
+      "step": 3905,
+      "valid_targets_mean": 3822.4,
+      "valid_targets_min": 393
+    },
+    {
+      "epoch": 6.256,
+      "grad_norm": 0.5553364215809758,
+      "learning_rate": 1.3668808674072409e-06,
+      "loss": 0.1461,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15443390607833862,
+      "step": 3910,
+      "valid_targets_mean": 3155.7,
+      "valid_targets_min": 297
+    },
+    {
+      "epoch": 6.264,
+      "grad_norm": 0.5272990540067286,
+      "learning_rate": 1.338035816454375e-06,
+      "loss": 0.1523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14126931130886078,
+      "step": 3915,
+      "valid_targets_mean": 3554.8,
+      "valid_targets_min": 2102
+    },
+    {
+      "epoch": 6.272,
+      "grad_norm": 0.5728509552829616,
+      "learning_rate": 1.3094878402238887e-06,
+      "loss": 0.1659,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17673856019973755,
+      "step": 3920,
+      "valid_targets_mean": 3059.9,
+      "valid_targets_min": 340
+    },
+    {
+      "epoch": 6.28,
+      "grad_norm": 0.5334734645473733,
+      "learning_rate": 1.2812373931632371e-06,
+      "loss": 0.1404,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12989792227745056,
+      "step": 3925,
+      "valid_targets_mean": 3613.1,
+      "valid_targets_min": 351
+    },
+    {
+      "epoch": 6.288,
+      "grad_norm": 0.5659173685434834,
+      "learning_rate": 1.2532849249835932e-06,
+      "loss": 0.1494,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18817687034606934,
+      "step": 3930,
+      "valid_targets_mean": 3612.2,
+      "valid_targets_min": 972
+    },
+    {
+      "epoch": 6.296,
+      "grad_norm": 0.5566862377112852,
+      "learning_rate": 1.2256308806526774e-06,
+      "loss": 0.1549,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16209539771080017,
+      "step": 3935,
+      "valid_targets_mean": 3123.0,
+      "valid_targets_min": 710
+    },
+    {
+      "epoch": 6.304,
+      "grad_norm": 0.5125674277014161,
+      "learning_rate": 1.1982757003876855e-06,
+      "loss": 0.145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15774399042129517,
+      "step": 3940,
+      "valid_targets_mean": 3446.4,
+      "valid_targets_min": 405
+    },
+    {
+      "epoch": 6.312,
+      "grad_norm": 0.5434025743686183,
+      "learning_rate": 1.1712198196482793e-06,
+      "loss": 0.1409,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11293695867061615,
+      "step": 3945,
+      "valid_targets_mean": 2617.8,
+      "valid_targets_min": 318
+    },
+    {
+      "epoch": 6.32,
+      "grad_norm": 0.5503754426434834,
+      "learning_rate": 1.1444636691296518e-06,
+      "loss": 0.1458,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14394056797027588,
+      "step": 3950,
+      "valid_targets_mean": 3117.1,
+      "valid_targets_min": 298
+    },
+    {
+      "epoch": 6.328,
+      "grad_norm": 0.4877853249407192,
+      "learning_rate": 1.11800767475567e-06,
+      "loss": 0.1421,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13985154032707214,
+      "step": 3955,
+      "valid_targets_mean": 3831.3,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 6.336,
+      "grad_norm": 0.5464326028679957,
+      "learning_rate": 1.0918522576721014e-06,
+      "loss": 0.1583,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19976529479026794,
+      "step": 3960,
+      "valid_targets_mean": 3655.6,
+      "valid_targets_min": 259
+    },
+    {
+      "epoch": 6.344,
+      "grad_norm": 0.5383523319512366,
+      "learning_rate": 1.0659978342399003e-06,
+      "loss": 0.1519,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.167560875415802,
+      "step": 3965,
+      "valid_targets_mean": 3589.2,
+      "valid_targets_min": 1287
+    },
+    {
+      "epoch": 6.352,
+      "grad_norm": 0.639397728447739,
+      "learning_rate": 1.0404448160285897e-06,
+      "loss": 0.1638,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.2001214325428009,
+      "step": 3970,
+      "valid_targets_mean": 2525.7,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 6.36,
+      "grad_norm": 0.5147320360537081,
+      "learning_rate": 1.0151936098097015e-06,
+      "loss": 0.1486,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15363624691963196,
+      "step": 3975,
+      "valid_targets_mean": 3445.1,
+      "valid_targets_min": 384
+    },
+    {
+      "epoch": 6.368,
+      "grad_norm": 0.458138276817523,
+      "learning_rate": 9.902446175503089e-07,
+      "loss": 0.1464,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1238110214471817,
+      "step": 3980,
+      "valid_targets_mean": 3780.6,
+      "valid_targets_min": 534
+    },
+    {
+      "epoch": 6.376,
+      "grad_norm": 0.467805227604637,
+      "learning_rate": 9.655982364066197e-07,
+      "loss": 0.1601,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1490401029586792,
+      "step": 3985,
+      "valid_targets_mean": 4302.6,
+      "valid_targets_min": 2470
+    },
+    {
+      "epoch": 6.384,
+      "grad_norm": 0.5001139261075273,
+      "learning_rate": 9.412548587176595e-07,
+      "loss": 0.1682,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16167426109313965,
+      "step": 3990,
+      "valid_targets_mean": 4179.5,
+      "valid_targets_min": 1148
+    },
+    {
+      "epoch": 6.392,
+      "grad_norm": 0.5224048853906508,
+      "learning_rate": 9.172148719990237e-07,
+      "loss": 0.1532,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.144081711769104,
+      "step": 3995,
+      "valid_targets_mean": 3438.9,
+      "valid_targets_min": 292
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.4357175333428186,
+      "learning_rate": 8.934786589367106e-07,
+      "loss": 0.1523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1518155336380005,
+      "step": 4000,
+      "valid_targets_mean": 4557.4,
+      "valid_targets_min": 2389
+    },
+    {
+      "epoch": 6.408,
+      "grad_norm": 0.4705930992480138,
+      "learning_rate": 8.700465973810246e-07,
+      "loss": 0.1436,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12299354374408722,
+      "step": 4005,
+      "valid_targets_mean": 3504.4,
+      "valid_targets_min": 246
+    },
+    {
+      "epoch": 6.416,
+      "grad_norm": 0.5181333189386993,
+      "learning_rate": 8.469190603405719e-07,
+      "loss": 0.15,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1595304012298584,
+      "step": 4010,
+      "valid_targets_mean": 4013.3,
+      "valid_targets_min": 1039
+    },
+    {
+      "epoch": 6.424,
+      "grad_norm": 0.6926551437918403,
+      "learning_rate": 8.240964159763121e-07,
+      "loss": 0.1381,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1295345276594162,
+      "step": 4015,
+      "valid_targets_mean": 4001.6,
+      "valid_targets_min": 744
+    },
+    {
+      "epoch": 6.432,
+      "grad_norm": 0.47687165983214735,
+      "learning_rate": 8.015790275957003e-07,
+      "loss": 0.1548,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16398680210113525,
+      "step": 4020,
+      "valid_targets_mean": 4946.4,
+      "valid_targets_min": 2127
+    },
+    {
+      "epoch": 6.44,
+      "grad_norm": 0.6525143804612801,
+      "learning_rate": 7.793672536469077e-07,
+      "loss": 0.1435,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13289815187454224,
+      "step": 4025,
+      "valid_targets_mean": 3347.8,
+      "valid_targets_min": 628
+    },
+    {
+      "epoch": 6.448,
+      "grad_norm": 0.5322702273587544,
+      "learning_rate": 7.574614477131081e-07,
+      "loss": 0.1505,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14056618511676788,
+      "step": 4030,
+      "valid_targets_mean": 3433.1,
+      "valid_targets_min": 385
+    },
+    {
+      "epoch": 6.456,
+      "grad_norm": 0.5959215025568397,
+      "learning_rate": 7.358619585068583e-07,
+      "loss": 0.1504,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17110833525657654,
+      "step": 4035,
+      "valid_targets_mean": 2876.8,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 6.464,
+      "grad_norm": 0.5124361301340061,
+      "learning_rate": 7.145691298645419e-07,
+      "loss": 0.1675,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15123164653778076,
+      "step": 4040,
+      "valid_targets_mean": 3432.5,
+      "valid_targets_min": 317
+    },
+    {
+      "epoch": 6.4719999999999995,
+      "grad_norm": 0.5190277046655837,
+      "learning_rate": 6.935833007408965e-07,
+      "loss": 0.1489,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16654589772224426,
+      "step": 4045,
+      "valid_targets_mean": 3775.5,
+      "valid_targets_min": 2287
+    },
+    {
+      "epoch": 6.48,
+      "grad_norm": 0.523626235839696,
+      "learning_rate": 6.729048052036136e-07,
+      "loss": 0.1318,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15777641534805298,
+      "step": 4050,
+      "valid_targets_mean": 3386.6,
+      "valid_targets_min": 244
+    },
+    {
+      "epoch": 6.4879999999999995,
+      "grad_norm": 0.5700464745409775,
+      "learning_rate": 6.52533972428031e-07,
+      "loss": 0.1533,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13940003514289856,
+      "step": 4055,
+      "valid_targets_mean": 3123.9,
+      "valid_targets_min": 288
+    },
+    {
+      "epoch": 6.496,
+      "grad_norm": 0.5352528354717776,
+      "learning_rate": 6.324711266918826e-07,
+      "loss": 0.1493,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14745745062828064,
+      "step": 4060,
+      "valid_targets_mean": 2985.2,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 6.504,
+      "grad_norm": 0.5439092689373054,
+      "learning_rate": 6.127165873701457e-07,
+      "loss": 0.1424,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1601996123790741,
+      "step": 4065,
+      "valid_targets_mean": 3227.5,
+      "valid_targets_min": 408
+    },
+    {
+      "epoch": 6.5120000000000005,
+      "grad_norm": 0.5643748628248478,
+      "learning_rate": 5.932706689299461e-07,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14315852522850037,
+      "step": 4070,
+      "valid_targets_mean": 3365.7,
+      "valid_targets_min": 437
+    },
+    {
+      "epoch": 6.52,
+      "grad_norm": 0.48008539628630653,
+      "learning_rate": 5.741336809255615e-07,
+      "loss": 0.155,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14986294507980347,
+      "step": 4075,
+      "valid_targets_mean": 3957.4,
+      "valid_targets_min": 2155
+    },
+    {
+      "epoch": 6.5280000000000005,
+      "grad_norm": 0.5398212748377875,
+      "learning_rate": 5.553059279934902e-07,
+      "loss": 0.1479,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14589464664459229,
+      "step": 4080,
+      "valid_targets_mean": 3558.5,
+      "valid_targets_min": 392
+    },
+    {
+      "epoch": 6.536,
+      "grad_norm": 0.4968246080564973,
+      "learning_rate": 5.36787709847597e-07,
+      "loss": 0.1598,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1445562094449997,
+      "step": 4085,
+      "valid_targets_mean": 3556.9,
+      "valid_targets_min": 237
+    },
+    {
+      "epoch": 6.5440000000000005,
+      "grad_norm": 0.43310276508595535,
+      "learning_rate": 5.185793212743529e-07,
+      "loss": 0.1438,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11158166080713272,
+      "step": 4090,
+      "valid_targets_mean": 3930.6,
+      "valid_targets_min": 1541
+    },
+    {
+      "epoch": 6.552,
+      "grad_norm": 0.4484696092702178,
+      "learning_rate": 5.006810521281335e-07,
+      "loss": 0.144,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14039970934391022,
+      "step": 4095,
+      "valid_targets_mean": 4527.4,
+      "valid_targets_min": 287
+    },
+    {
+      "epoch": 6.5600000000000005,
+      "grad_norm": 0.4517471003036017,
+      "learning_rate": 4.830931873266065e-07,
+      "loss": 0.161,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14415378868579865,
+      "step": 4100,
+      "valid_targets_mean": 4280.3,
+      "valid_targets_min": 2240
+    },
+    {
+      "epoch": 6.568,
+      "grad_norm": 0.4630720187621005,
+      "learning_rate": 4.658160068462025e-07,
+      "loss": 0.1483,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12278760969638824,
+      "step": 4105,
+      "valid_targets_mean": 3360.6,
+      "valid_targets_min": 357
+    },
+    {
+      "epoch": 6.576,
+      "grad_norm": 0.6020381012180253,
+      "learning_rate": 4.488497857176466e-07,
+      "loss": 0.1632,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16471391916275024,
+      "step": 4110,
+      "valid_targets_mean": 3031.6,
+      "valid_targets_min": 257
+    },
+    {
+      "epoch": 6.584,
+      "grad_norm": 0.5717128444004179,
+      "learning_rate": 4.321947940215898e-07,
+      "loss": 0.1585,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12721610069274902,
+      "step": 4115,
+      "valid_targets_mean": 2928.5,
+      "valid_targets_min": 351
+    },
+    {
+      "epoch": 6.592,
+      "grad_norm": 0.45507913968292074,
+      "learning_rate": 4.1585129688430425e-07,
+      "loss": 0.1429,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17072422802448273,
+      "step": 4120,
+      "valid_targets_mean": 4218.6,
+      "valid_targets_min": 360
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.4502277795589577,
+      "learning_rate": 3.998195544734706e-07,
+      "loss": 0.1442,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16002380847930908,
+      "step": 4125,
+      "valid_targets_mean": 5118.6,
+      "valid_targets_min": 1215
+    },
+    {
+      "epoch": 6.608,
+      "grad_norm": 0.5191049763755778,
+      "learning_rate": 3.840998219940284e-07,
+      "loss": 0.1456,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14557354152202606,
+      "step": 4130,
+      "valid_targets_mean": 3763.6,
+      "valid_targets_min": 279
+    },
+    {
+      "epoch": 6.616,
+      "grad_norm": 0.6182924223214097,
+      "learning_rate": 3.6869234968411214e-07,
+      "loss": 0.1559,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.20514369010925293,
+      "step": 4135,
+      "valid_targets_mean": 3154.5,
+      "valid_targets_min": 389
+    },
+    {
+      "epoch": 6.624,
+      "grad_norm": 0.5319727992341451,
+      "learning_rate": 3.5359738281107504e-07,
+      "loss": 0.1334,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12383386492729187,
+      "step": 4140,
+      "valid_targets_mean": 3020.4,
+      "valid_targets_min": 320
+    },
+    {
+      "epoch": 6.632,
+      "grad_norm": 0.6159046469741281,
+      "learning_rate": 3.38815161667585e-07,
+      "loss": 0.1436,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17254766821861267,
+      "step": 4145,
+      "valid_targets_mean": 3091.0,
+      "valid_targets_min": 428
+    },
+    {
+      "epoch": 6.64,
+      "grad_norm": 0.5534966048056711,
+      "learning_rate": 3.24345921567788e-07,
+      "loss": 0.167,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16745731234550476,
+      "step": 4150,
+      "valid_targets_mean": 3405.3,
+      "valid_targets_min": 238
+    },
+    {
+      "epoch": 6.648,
+      "grad_norm": 0.5218523595850048,
+      "learning_rate": 3.101898928435754e-07,
+      "loss": 0.1429,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19022099673748016,
+      "step": 4155,
+      "valid_targets_mean": 3948.3,
+      "valid_targets_min": 685
+    },
+    {
+      "epoch": 6.656,
+      "grad_norm": 0.5450576930072154,
+      "learning_rate": 2.9634730084091343e-07,
+      "loss": 0.1375,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1689804643392563,
+      "step": 4160,
+      "valid_targets_mean": 3575.8,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 6.664,
+      "grad_norm": 0.5149450790310353,
+      "learning_rate": 2.8281836591624865e-07,
+      "loss": 0.145,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14180395007133484,
+      "step": 4165,
+      "valid_targets_mean": 3728.9,
+      "valid_targets_min": 241
+    },
+    {
+      "epoch": 6.672,
+      "grad_norm": 0.459099797915202,
+      "learning_rate": 2.6960330343301033e-07,
+      "loss": 0.1375,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13219398260116577,
+      "step": 4170,
+      "valid_targets_mean": 4094.8,
+      "valid_targets_min": 2311
+    },
+    {
+      "epoch": 6.68,
+      "grad_norm": 0.48567253232277735,
+      "learning_rate": 2.5670232375817784e-07,
+      "loss": 0.1553,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1457989513874054,
+      "step": 4175,
+      "valid_targets_mean": 3958.1,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 6.688,
+      "grad_norm": 0.4497264499407642,
+      "learning_rate": 2.441156322589322e-07,
+      "loss": 0.1528,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1422884613275528,
+      "step": 4180,
+      "valid_targets_mean": 3933.3,
+      "valid_targets_min": 315
+    },
+    {
+      "epoch": 6.696,
+      "grad_norm": 0.5265844265953187,
+      "learning_rate": 2.318434292993832e-07,
+      "loss": 0.147,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1672534942626953,
+      "step": 4185,
+      "valid_targets_mean": 3824.9,
+      "valid_targets_min": 298
+    },
+    {
+      "epoch": 6.704,
+      "grad_norm": 0.5207336645905563,
+      "learning_rate": 2.1988591023738514e-07,
+      "loss": 0.1527,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13831675052642822,
+      "step": 4190,
+      "valid_targets_mean": 3263.3,
+      "valid_targets_min": 1803
+    },
+    {
+      "epoch": 6.712,
+      "grad_norm": 0.5080027052415501,
+      "learning_rate": 2.0824326542142835e-07,
+      "loss": 0.1388,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1409897804260254,
+      "step": 4195,
+      "valid_targets_mean": 3355.8,
+      "valid_targets_min": 704
+    },
+    {
+      "epoch": 6.72,
+      "grad_norm": 0.5156608089405943,
+      "learning_rate": 1.9691568018759931e-07,
+      "loss": 0.1548,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1560552418231964,
+      "step": 4200,
+      "valid_targets_mean": 3199.0,
+      "valid_targets_min": 293
+    },
+    {
+      "epoch": 6.728,
+      "grad_norm": 0.6299495741907877,
+      "learning_rate": 1.8590333485664525e-07,
+      "loss": 0.1476,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1484965980052948,
+      "step": 4205,
+      "valid_targets_mean": 3375.6,
+      "valid_targets_min": 374
+    },
+    {
+      "epoch": 6.736,
+      "grad_norm": 0.4963432479325982,
+      "learning_rate": 1.752064047310853e-07,
+      "loss": 0.1461,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15625666081905365,
+      "step": 4210,
+      "valid_targets_mean": 3591.3,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 6.744,
+      "grad_norm": 0.6722143122825875,
+      "learning_rate": 1.6482506009243949e-07,
+      "loss": 0.148,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.127854585647583,
+      "step": 4215,
+      "valid_targets_mean": 3868.4,
+      "valid_targets_min": 1718
+    },
+    {
+      "epoch": 6.752,
+      "grad_norm": 0.535802791294164,
+      "learning_rate": 1.5475946619850192e-07,
+      "loss": 0.1519,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17531269788742065,
+      "step": 4220,
+      "valid_targets_mean": 3549.8,
+      "valid_targets_min": 848
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 0.5046561740291331,
+      "learning_rate": 1.4500978328071845e-07,
+      "loss": 0.1437,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13077384233474731,
+      "step": 4225,
+      "valid_targets_mean": 3202.4,
+      "valid_targets_min": 301
+    },
+    {
+      "epoch": 6.768,
+      "grad_norm": 0.5114050593284857,
+      "learning_rate": 1.3557616654163775e-07,
+      "loss": 0.1448,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16005352139472961,
+      "step": 4230,
+      "valid_targets_mean": 3678.1,
+      "valid_targets_min": 370
+    },
+    {
+      "epoch": 6.776,
+      "grad_norm": 0.48025815533512733,
+      "learning_rate": 1.264587661524308e-07,
+      "loss": 0.1542,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14070120453834534,
+      "step": 4235,
+      "valid_targets_mean": 3878.2,
+      "valid_targets_min": 840
+    },
+    {
+      "epoch": 6.784,
+      "grad_norm": 0.4412982241447309,
+      "learning_rate": 1.1765772725051084e-07,
+      "loss": 0.1566,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11809209734201431,
+      "step": 4240,
+      "valid_targets_mean": 3603.6,
+      "valid_targets_min": 270
+    },
+    {
+      "epoch": 6.792,
+      "grad_norm": 0.5004100529357425,
+      "learning_rate": 1.0917318993721726e-07,
+      "loss": 0.1377,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1505589485168457,
+      "step": 4245,
+      "valid_targets_mean": 3364.9,
+      "valid_targets_min": 266
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.5096152528793727,
+      "learning_rate": 1.0100528927558861e-07,
+      "loss": 0.1541,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14537540078163147,
+      "step": 4250,
+      "valid_targets_mean": 3689.8,
+      "valid_targets_min": 2138
+    },
+    {
+      "epoch": 6.808,
+      "grad_norm": 0.5450932256900828,
+      "learning_rate": 9.31541552882087e-08,
+      "loss": 0.1567,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16210567951202393,
+      "step": 4255,
+      "valid_targets_mean": 3096.7,
+      "valid_targets_min": 261
+    },
+    {
+      "epoch": 6.816,
+      "grad_norm": 0.4905978749984031,
+      "learning_rate": 8.561991295514161e-08,
+      "loss": 0.1459,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15215951204299927,
+      "step": 4260,
+      "valid_targets_mean": 3901.1,
+      "valid_targets_min": 544
+    },
+    {
+      "epoch": 6.824,
+      "grad_norm": 0.5287189362557033,
+      "learning_rate": 7.840268221193548e-08,
+      "loss": 0.1464,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19344468414783478,
+      "step": 4265,
+      "valid_targets_mean": 3968.8,
+      "valid_targets_min": 1182
+    },
+    {
+      "epoch": 6.832,
+      "grad_norm": 0.5371996517146957,
+      "learning_rate": 7.150257794772186e-08,
+      "loss": 0.1585,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17267471551895142,
+      "step": 4270,
+      "valid_targets_mean": 3335.7,
+      "valid_targets_min": 224
+    },
+    {
+      "epoch": 6.84,
+      "grad_norm": 0.5299623683641126,
+      "learning_rate": 6.491971000337938e-08,
+      "loss": 0.1468,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16095341742038727,
+      "step": 4275,
+      "valid_targets_mean": 3161.8,
+      "valid_targets_min": 303
+    },
+    {
+      "epoch": 6.848,
+      "grad_norm": 0.5349519633267691,
+      "learning_rate": 5.8654183169788435e-08,
+      "loss": 0.1329,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1714257299900055,
+      "step": 4280,
+      "valid_targets_mean": 3677.2,
+      "valid_targets_min": 331
+    },
+    {
+      "epoch": 6.856,
+      "grad_norm": 0.5083861660435046,
+      "learning_rate": 5.270609718616593e-08,
+      "loss": 0.1482,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15073205530643463,
+      "step": 4285,
+      "valid_targets_mean": 3672.9,
+      "valid_targets_min": 454
+    },
+    {
+      "epoch": 6.864,
+      "grad_norm": 0.5694913338891094,
+      "learning_rate": 4.70755467384687e-08,
+      "loss": 0.1647,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.19089148938655853,
+      "step": 4290,
+      "valid_targets_mean": 3249.4,
+      "valid_targets_min": 231
+    },
+    {
+      "epoch": 6.872,
+      "grad_norm": 0.5400096807200185,
+      "learning_rate": 4.176262145789478e-08,
+      "loss": 0.1529,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1542401760816574,
+      "step": 4295,
+      "valid_targets_mean": 3226.4,
+      "valid_targets_min": 305
+    },
+    {
+      "epoch": 6.88,
+      "grad_norm": 0.5661900182366383,
+      "learning_rate": 3.676740591945782e-08,
+      "loss": 0.1604,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17125457525253296,
+      "step": 4300,
+      "valid_targets_mean": 3233.4,
+      "valid_targets_min": 312
+    },
+    {
+      "epoch": 6.888,
+      "grad_norm": 0.4291997496061361,
+      "learning_rate": 3.208997964062821e-08,
+      "loss": 0.1445,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14627288281917572,
+      "step": 4305,
+      "valid_targets_mean": 4788.6,
+      "valid_targets_min": 2721
+    },
+    {
+      "epoch": 6.896,
+      "grad_norm": 0.6305547838033668,
+      "learning_rate": 2.773041708008295e-08,
+      "loss": 0.1695,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1641368716955185,
+      "step": 4310,
+      "valid_targets_mean": 3082.5,
+      "valid_targets_min": 264
+    },
+    {
+      "epoch": 6.904,
+      "grad_norm": 0.5431539290507092,
+      "learning_rate": 2.3688787636511057e-08,
+      "loss": 0.1549,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17928846180438995,
+      "step": 4315,
+      "valid_targets_mean": 3444.6,
+      "valid_targets_min": 232
+    },
+    {
+      "epoch": 6.912,
+      "grad_norm": 0.4928310578820501,
+      "learning_rate": 1.9965155647507782e-08,
+      "loss": 0.1385,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1482936292886734,
+      "step": 4320,
+      "valid_targets_mean": 3731.2,
+      "valid_targets_min": 1325
+    },
+    {
+      "epoch": 6.92,
+      "grad_norm": 0.5521287655306385,
+      "learning_rate": 1.655958038855765e-08,
+      "loss": 0.1476,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.18390464782714844,
+      "step": 4325,
+      "valid_targets_mean": 3831.1,
+      "valid_targets_min": 393
+    },
+    {
+      "epoch": 6.928,
+      "grad_norm": 0.4886165984302706,
+      "learning_rate": 1.3472116072084096e-08,
+      "loss": 0.1348,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14401869475841522,
+      "step": 4330,
+      "valid_targets_mean": 3461.4,
+      "valid_targets_min": 258
+    },
+    {
+      "epoch": 6.936,
+      "grad_norm": 0.5667932146482411,
+      "learning_rate": 1.0702811846590167e-08,
+      "loss": 0.1482,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16831310093402863,
+      "step": 4335,
+      "valid_targets_mean": 3680.1,
+      "valid_targets_min": 367
+    },
+    {
+      "epoch": 6.944,
+      "grad_norm": 0.4469150092662097,
+      "learning_rate": 8.251711795876916e-09,
+      "loss": 0.1542,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1326267272233963,
+      "step": 4340,
+      "valid_targets_mean": 4005.6,
+      "valid_targets_min": 299
+    },
+    {
+      "epoch": 6.952,
+      "grad_norm": 0.4463752974728512,
+      "learning_rate": 6.1188549383373044e-09,
+      "loss": 0.1396,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12214668095111847,
+      "step": 4345,
+      "valid_targets_mean": 4138.5,
+      "valid_targets_min": 284
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 0.537008129680484,
+      "learning_rate": 4.304275226338916e-09,
+      "loss": 0.1523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14560963213443756,
+      "step": 4350,
+      "valid_targets_mean": 3426.2,
+      "valid_targets_min": 324
+    },
+    {
+      "epoch": 6.968,
+      "grad_norm": 0.5600489977992922,
+      "learning_rate": 2.8080015456799503e-09,
+      "loss": 0.1469,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.16096511483192444,
+      "step": 4355,
+      "valid_targets_mean": 3691.2,
+      "valid_targets_min": 343
+    },
+    {
+      "epoch": 6.976,
+      "grad_norm": 0.48889798280479424,
+      "learning_rate": 1.6300577151340257e-09,
+      "loss": 0.1425,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14456161856651306,
+      "step": 4360,
+      "valid_targets_mean": 3685.1,
+      "valid_targets_min": 705
+    },
+    {
+      "epoch": 6.984,
+      "grad_norm": 0.49951297105911757,
+      "learning_rate": 7.70462486070489e-10,
+      "loss": 0.1514,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15719914436340332,
+      "step": 4365,
+      "valid_targets_mean": 3630.5,
+      "valid_targets_min": 269
+    },
+    {
+      "epoch": 6.992,
+      "grad_norm": 0.44980953385984457,
+      "learning_rate": 2.2922954214799065e-10,
+      "loss": 0.1345,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10987815260887146,
+      "step": 4370,
+      "valid_targets_mean": 3478.4,
+      "valid_targets_min": 359
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.5202865867818031,
+      "learning_rate": 6.367499107984288e-12,
+      "loss": 0.1431,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12079036235809326,
+      "step": 4375,
+      "valid_targets_mean": 3138.9,
+      "valid_targets_min": 304
+    },
+    {
+      "epoch": 7.0,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12079036235809326,
+      "step": 4375,
+      "total_flos": 961954834022400.0,
+      "train_loss": 0.10841045795168196,
+      "train_runtime": 8545.802,
+      "train_samples_per_second": 8.181,
+      "train_steps_per_second": 0.512,
+      "valid_targets_mean": 3138.9,
+      "valid_targets_min": 304
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 4375,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 1500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 961954834022400.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}