{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.08,
  "eval_steps": 500,
  "global_step": 450,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 492.29167556762695,
      "epoch": 0.00017777777777777779,
      "grad_norm": 0.08746972070242835,
      "kl": 0.0,
      "learning_rate": 7.142857142857142e-08,
      "loss": 0.0,
      "reward": 0.02083333395421505,
      "reward_std": 0.05103103443980217,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.0,
      "step": 1
    },
    {
      "completion_length": 488.62500762939453,
      "epoch": 0.00035555555555555557,
      "grad_norm": 0.18281958866590367,
      "kl": 0.0,
      "learning_rate": 1.4285714285714285e-07,
      "loss": 0.0,
      "reward": 0.06250000186264515,
      "reward_std": 0.1530931070446968,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.0,
      "step": 2
    },
    {
      "completion_length": 481.8958396911621,
      "epoch": 0.0005333333333333334,
      "grad_norm": 0.18273061607712965,
      "kl": 0.00029015541076660156,
      "learning_rate": 2.1428571428571426e-07,
      "loss": 0.0,
      "reward": 0.0833333358168602,
      "reward_std": 0.20412413775920868,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 3
    },
    {
      "completion_length": 477.2708396911621,
      "epoch": 0.0007111111111111111,
      "grad_norm": 0.1403227179482258,
      "kl": 0.00024211406707763672,
      "learning_rate": 2.857142857142857e-07,
      "loss": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206207260489464,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.0,
      "step": 4
    },
    {
      "completion_length": 485.31250381469727,
      "epoch": 0.0008888888888888889,
      "grad_norm": 0.13329145692597189,
      "kl": 0.0002715587615966797,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 0.0,
      "reward": 0.0833333358168602,
      "reward_std": 0.16661180555820465,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 5
    },
    {
      "completion_length": 485.3958396911621,
      "epoch": 0.0010666666666666667,
      "grad_norm": 0.1366397496686443,
      "kl": 0.0002875328063964844,
      "learning_rate": 4.285714285714285e-07,
      "loss": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206207260489464,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.0,
      "step": 6
    },
    {
      "completion_length": 489.83333587646484,
      "epoch": 0.0012444444444444445,
      "grad_norm": 0.0015282362483640434,
      "kl": 0.0002818107604980469,
      "learning_rate": 5e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/equation_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 7
    },
    {
      "completion_length": 478.1041717529297,
      "epoch": 0.0014222222222222223,
      "grad_norm": 0.5082362557559295,
      "kl": 0.0039789676666259766,
      "learning_rate": 5.714285714285714e-07,
      "loss": 0.0002,
      "reward": 0.02083333395421505,
      "reward_std": 0.05103103816509247,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.0,
      "step": 8
    },
    {
      "completion_length": 498.25000381469727,
      "epoch": 0.0016,
      "grad_norm": 0.1284152446682543,
      "kl": 0.00029969215393066406,
      "learning_rate": 6.428571428571429e-07,
      "loss": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206207260489464,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 9
    },
    {
      "completion_length": 493.75000762939453,
      "epoch": 0.0017777777777777779,
      "grad_norm": 0.003296653133727949,
      "kl": 0.0004258155822753906,
      "learning_rate": 7.142857142857143e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/equation_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 10
    },
    {
      "completion_length": 479.81250381469727,
      "epoch": 0.0019555555555555554,
      "grad_norm": 0.15068988372298686,
      "kl": 0.0005173683166503906,
      "learning_rate": 7.857142857142856e-07,
      "loss": 0.0,
      "reward": 0.06250000186264515,
      "reward_std": 0.11558076366782188,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.0,
      "step": 11
    },
    {
      "completion_length": 472.79167556762695,
      "epoch": 0.0021333333333333334,
      "grad_norm": 0.004443001493268414,
      "kl": 0.0008454322814941406,
      "learning_rate": 8.57142857142857e-07,
      "loss": 0.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/equation_reward_func": 0.0,
      "rewards/format_reward_func": 0.0,
      "step": 12
    },
    {
      "completion_length": 477.2708435058594,
      "epoch": 0.002311111111111111,
      "grad_norm": 0.17120574292118212,
      "kl": 0.0010666847229003906,
      "learning_rate": 9.285714285714285e-07,
      "loss": 0.0,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206206887960434,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.0,
      "step": 13
    },
    {
      "completion_length": 487.87500381469727,
      "epoch": 0.002488888888888889,
      "grad_norm": 0.08858314482153737,
      "kl": 0.0020389556884765625,
      "learning_rate": 1e-06,
      "loss": 0.0001,
      "reward": 0.02083333395421505,
      "reward_std": 0.05103103443980217,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.0,
      "step": 14
    },
    {
      "completion_length": 463.54167556762695,
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.21660240108333578,
      "kl": 0.0032138824462890625,
      "learning_rate": 9.999870202927739e-07,
      "loss": 0.0001,
      "reward": 0.0833333358168602,
      "reward_std": 0.16661180183291435,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.0,
      "step": 15
    },
    {
      "completion_length": 442.29167556762695,
      "epoch": 0.0028444444444444446,
      "grad_norm": 0.23716444884739032,
      "kl": 0.00571441650390625,
      "learning_rate": 9.999480818449865e-07,
      "loss": 0.0002,
      "reward": 0.1250000037252903,
      "reward_std": 0.2686738707125187,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 16
    },
    {
      "completion_length": 471.8958435058594,
      "epoch": 0.003022222222222222,
      "grad_norm": 0.17669793982814788,
      "kl": 0.00925445556640625,
      "learning_rate": 9.998831866782768e-07,
      "loss": 0.0004,
      "reward": 0.06250000186264515,
      "reward_std": 0.11558076366782188,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 17
    },
    {
      "completion_length": 480.1041793823242,
      "epoch": 0.0032,
      "grad_norm": 0.14804922191678244,
      "kl": 0.01300811767578125,
      "learning_rate": 9.997923381619255e-07,
      "loss": 0.0005,
      "reward": 0.06250000186264515,
      "reward_std": 0.1530931033194065,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 18
    },
    {
      "completion_length": 450.3125114440918,
      "epoch": 0.0033777777777777777,
      "grad_norm": 0.20021449335204797,
      "kl": 0.0184478759765625,
      "learning_rate": 9.996755410126814e-07,
      "loss": 0.0007,
      "reward": 0.0833333358168602,
      "reward_std": 0.16661180183291435,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.0,
      "step": 19
    },
    {
      "completion_length": 444.7708435058594,
      "epoch": 0.0035555555555555557,
      "grad_norm": 0.1748648048131685,
      "kl": 0.0309295654296875,
      "learning_rate": 9.995328012945157e-07,
      "loss": 0.0012,
      "reward": 0.08333333395421505,
      "reward_std": 0.15561354532837868,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 20
    },
    {
      "completion_length": 421.8541793823242,
      "epoch": 0.0037333333333333333,
      "grad_norm": 0.5042804386943773,
      "kl": 0.04931640625,
      "learning_rate": 9.993641264183072e-07,
      "loss": 0.002,
      "reward": 0.18750000558793545,
      "reward_std": 0.3842546343803406,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.06250000186264515,
      "step": 21
    },
    {
      "completion_length": 395.2291793823242,
      "epoch": 0.003911111111111111,
      "grad_norm": 0.22336033886380158,
      "kl": 0.08929443359375,
      "learning_rate": 9.991695251414583e-07,
      "loss": 0.0036,
      "reward": 0.06250000186264515,
      "reward_std": 0.1530931070446968,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 22
    },
    {
      "completion_length": 396.81250762939453,
      "epoch": 0.004088888888888889,
      "grad_norm": 0.2743029521713877,
      "kl": 0.12481689453125,
      "learning_rate": 9.989490075674389e-07,
      "loss": 0.005,
      "reward": 0.0833333358168602,
      "reward_std": 0.16661179810762405,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.02083333395421505,
      "step": 23
    },
    {
      "completion_length": 386.7291793823242,
      "epoch": 0.004266666666666667,
      "grad_norm": 0.5231775627781411,
      "kl": 0.15594482421875,
      "learning_rate": 9.987025851452636e-07,
      "loss": 0.0062,
      "reward": 0.1666666716337204,
      "reward_std": 0.3707359507679939,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 24
    },
    {
      "completion_length": 389.8541793823242,
      "epoch": 0.0044444444444444444,
      "grad_norm": 0.685343943475841,
      "kl": 0.3055419921875,
      "learning_rate": 9.984302706688961e-07,
      "loss": 0.0122,
      "reward": 0.20833333767950535,
      "reward_std": 0.42428741604089737,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 25
    },
    {
      "completion_length": 427.4166717529297,
      "epoch": 0.004622222222222222,
      "grad_norm": 0.40943932820956164,
      "kl": 0.3759765625,
      "learning_rate": 9.981320782765846e-07,
      "loss": 0.0151,
      "reward": 0.20833333767950535,
      "reward_std": 0.35973768681287766,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 26
    },
    {
      "completion_length": 360.0208435058594,
      "epoch": 0.0048,
      "grad_norm": 4.089935587345267,
      "kl": 0.62060546875,
      "learning_rate": 9.978080234501292e-07,
      "loss": 0.0248,
      "reward": 0.31250000931322575,
      "reward_std": 0.4177170805633068,
      "rewards/equation_reward_func": 0.18750000186264515,
      "rewards/format_reward_func": 0.1250000037252903,
      "step": 27
    },
    {
      "completion_length": 446.8125114440918,
      "epoch": 0.004977777777777778,
      "grad_norm": 0.39386940795175784,
      "kl": 0.4873046875,
      "learning_rate": 9.974581230140768e-07,
      "loss": 0.0195,
      "reward": 0.06250000186264515,
      "reward_std": 0.1530931144952774,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 28
    },
    {
      "completion_length": 358.2916774749756,
      "epoch": 0.005155555555555556,
      "grad_norm": 0.47853926879988334,
      "kl": 0.381591796875,
      "learning_rate": 9.970823951348486e-07,
      "loss": 0.0153,
      "reward": 0.43750001676380634,
      "reward_std": 0.5070193596184254,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.25000000186264515,
      "step": 29
    },
    {
      "completion_length": 392.0625190734863,
      "epoch": 0.005333333333333333,
      "grad_norm": 0.9169421130733736,
      "kl": 0.2674560546875,
      "learning_rate": 9.966808593197956e-07,
      "loss": 0.0107,
      "reward": 0.29166667349636555,
      "reward_std": 0.45132481306791306,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.14583333767950535,
      "step": 30
    },
    {
      "completion_length": 402.68750762939453,
      "epoch": 0.005511111111111111,
      "grad_norm": 0.48152738156086744,
      "kl": 0.390869140625,
      "learning_rate": 9.962535364161878e-07,
      "loss": 0.0157,
      "reward": 0.2500000074505806,
      "reward_std": 0.3977733328938484,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.16666666977107525,
      "step": 31
    },
    {
      "completion_length": 397.1875114440918,
      "epoch": 0.005688888888888889,
      "grad_norm": 0.5358456569457446,
      "kl": 0.632568359375,
      "learning_rate": 9.958004486101293e-07,
      "loss": 0.0253,
      "reward": 0.14583333767950535,
      "reward_std": 0.3572172485291958,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.0416666679084301,
      "step": 32
    },
    {
      "completion_length": 395.5000114440918,
      "epoch": 0.005866666666666667,
      "grad_norm": 0.45393406597096747,
      "kl": 0.548828125,
      "learning_rate": 9.953216194254085e-07,
      "loss": 0.0219,
      "reward": 0.3125000074505806,
      "reward_std": 0.4986758381128311,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.1250000037252903,
      "step": 33
    },
    {
      "completion_length": 418.12500762939453,
      "epoch": 0.006044444444444444,
      "grad_norm": 1.721174464990145,
      "kl": 0.89892578125,
      "learning_rate": 9.948170737222762e-07,
      "loss": 0.0359,
      "reward": 0.2083333358168602,
      "reward_std": 0.37717197462916374,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.1458333358168602,
      "step": 34
    },
    {
      "completion_length": 404.9791793823242,
      "epoch": 0.006222222222222222,
      "grad_norm": 0.42311176292986397,
      "kl": 0.53369140625,
      "learning_rate": 9.94286837696154e-07,
      "loss": 0.0213,
      "reward": 0.31250000931322575,
      "reward_std": 0.45383426919579506,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.16666666977107525,
      "step": 35
    },
    {
      "completion_length": 424.4791793823242,
      "epoch": 0.0064,
      "grad_norm": 0.7438227989937438,
      "kl": 0.407958984375,
      "learning_rate": 9.937309388762758e-07,
      "loss": 0.0163,
      "reward": 0.1250000037252903,
      "reward_std": 0.306186206638813,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.0833333358168602,
      "step": 36
    },
    {
      "completion_length": 432.0833435058594,
      "epoch": 0.006577777777777778,
      "grad_norm": 0.5301151073899182,
      "kl": 0.273681640625,
      "learning_rate": 9.931494061242571e-07,
      "loss": 0.0109,
      "reward": 0.33333333767950535,
      "reward_std": 0.5959400944411755,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 37
    },
    {
      "completion_length": 389.27084732055664,
      "epoch": 0.0067555555555555554,
      "grad_norm": 0.6632742047974075,
      "kl": 0.218505859375,
      "learning_rate": 9.925422696325974e-07,
      "loss": 0.0087,
      "reward": 0.43750000931322575,
      "reward_std": 0.6827219277620316,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.2291666716337204,
      "step": 38
    },
    {
      "completion_length": 353.2708435058594,
      "epoch": 0.006933333333333333,
      "grad_norm": 0.391058687294098,
      "kl": 0.21881103515625,
      "learning_rate": 9.919095609231123e-07,
      "loss": 0.0087,
      "reward": 0.5000000167638063,
      "reward_std": 0.5392209477722645,
      "rewards/equation_reward_func": 0.3125000074505806,
      "rewards/format_reward_func": 0.18750000558793545,
      "step": 39
    },
    {
      "completion_length": 407.3333435058594,
      "epoch": 0.0071111111111111115,
      "grad_norm": 0.469200729103397,
      "kl": 0.32666015625,
      "learning_rate": 9.912513128452973e-07,
      "loss": 0.0131,
      "reward": 0.2708333358168602,
      "reward_std": 0.48175449296832085,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.1458333358168602,
      "step": 40
    },
    {
      "completion_length": 398.5208435058594,
      "epoch": 0.007288888888888889,
      "grad_norm": 0.4795098047053158,
      "kl": 0.3126220703125,
      "learning_rate": 9.905675595746213e-07,
      "loss": 0.0125,
      "reward": 0.479166679084301,
      "reward_std": 0.6324757561087608,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.27083333767950535,
      "step": 41
    },
    {
      "completion_length": 424.1458396911621,
      "epoch": 0.007466666666666667,
      "grad_norm": 0.517106705455673,
      "kl": 0.434326171875,
      "learning_rate": 9.898583366107536e-07,
      "loss": 0.0174,
      "reward": 0.2708333395421505,
      "reward_std": 0.3604965806007385,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.18750000186264515,
      "step": 42
    },
    {
      "completion_length": 312.1875114440918,
      "epoch": 0.007644444444444444,
      "grad_norm": 1.5051043389807441,
      "kl": 0.644775390625,
      "learning_rate": 9.8912368077572e-07,
      "loss": 0.0258,
      "reward": 0.6041666846722364,
      "reward_std": 0.7486668117344379,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.3958333395421505,
      "step": 43
    },
    {
      "completion_length": 392.2291793823242,
      "epoch": 0.007822222222222222,
      "grad_norm": 0.6184585307648679,
      "kl": 0.533447265625,
      "learning_rate": 9.88363630211991e-07,
      "loss": 0.0214,
      "reward": 0.33333334513008595,
      "reward_std": 0.5071536600589752,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.2083333395421505,
      "step": 44
    },
    {
      "completion_length": 403.43750953674316,
      "epoch": 0.008,
      "grad_norm": 0.4758095462502418,
      "kl": 0.531005859375,
      "learning_rate": 9.875782243805017e-07,
      "loss": 0.0213,
      "reward": 0.2708333395421505,
      "reward_std": 0.6148928552865982,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 45
    },
    {
      "completion_length": 338.5625057220459,
      "epoch": 0.008177777777777779,
      "grad_norm": 0.5117314282157389,
      "kl": 0.47265625,
      "learning_rate": 9.867675040586033e-07,
      "loss": 0.0189,
      "reward": 0.45833334513008595,
      "reward_std": 0.6152770519256592,
      "rewards/equation_reward_func": 0.25000000186264515,
      "rewards/format_reward_func": 0.20833333767950535,
      "step": 46
    },
    {
      "completion_length": 361.04167556762695,
      "epoch": 0.008355555555555555,
      "grad_norm": 0.5540118176815925,
      "kl": 0.56494140625,
      "learning_rate": 9.859315113379452e-07,
      "loss": 0.0226,
      "reward": 0.2291666716337204,
      "reward_std": 0.4107687212526798,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.10416666977107525,
      "step": 47
    },
    {
      "completion_length": 376.60417556762695,
      "epoch": 0.008533333333333334,
      "grad_norm": 0.6882325279267957,
      "kl": 0.453369140625,
      "learning_rate": 9.850702896222908e-07,
      "loss": 0.0181,
      "reward": 0.37500001303851604,
      "reward_std": 0.5071536600589752,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 48
    },
    {
      "completion_length": 371.43750762939453,
      "epoch": 0.00871111111111111,
      "grad_norm": 0.6655719658883651,
      "kl": 0.404541015625,
      "learning_rate": 9.841838836252625e-07,
      "loss": 0.0162,
      "reward": 0.2916666753590107,
      "reward_std": 0.49615539610385895,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.1875000037252903,
      "step": 49
    },
    {
      "completion_length": 301.39584159851074,
      "epoch": 0.008888888888888889,
      "grad_norm": 0.4870272919286295,
      "kl": 0.3218994140625,
      "learning_rate": 9.83272339368022e-07,
      "loss": 0.0129,
      "reward": 0.41666667349636555,
      "reward_std": 0.6257677860558033,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.2291666716337204,
      "step": 50
    },
    {
      "completion_length": 398.3333435058594,
      "epoch": 0.009066666666666667,
      "grad_norm": 0.28160060568929596,
      "kl": 0.2677001953125,
      "learning_rate": 9.823357041768796e-07,
      "loss": 0.0107,
      "reward": 0.16666666977107525,
      "reward_std": 0.32222534343600273,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.10416666977107525,
      "step": 51
    },
    {
      "completion_length": 366.0208396911621,
      "epoch": 0.009244444444444444,
      "grad_norm": 0.44161935224618987,
      "kl": 0.281494140625,
      "learning_rate": 9.813740266808373e-07,
      "loss": 0.0112,
      "reward": 0.27083333767950535,
      "reward_std": 0.455240398645401,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.14583333767950535,
      "step": 52
    },
    {
      "completion_length": 289.2083396911621,
      "epoch": 0.009422222222222222,
      "grad_norm": 0.4634094627007982,
      "kl": 0.295166015625,
      "learning_rate": 9.803873568090647e-07,
      "loss": 0.0118,
      "reward": 0.5625000037252903,
      "reward_std": 0.6678489372134209,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.35416667349636555,
      "step": 53
    },
    {
      "completion_length": 247.25000762939453,
      "epoch": 0.0096,
      "grad_norm": 0.5186115988333515,
      "kl": 0.3134765625,
      "learning_rate": 9.793757457883061e-07,
      "loss": 0.0125,
      "reward": 0.5208333525806665,
      "reward_std": 0.6603549271821976,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.27083333767950535,
      "step": 54
    },
    {
      "completion_length": 315.91667556762695,
      "epoch": 0.009777777777777778,
      "grad_norm": 0.5492950399694214,
      "kl": 0.3515625,
      "learning_rate": 9.783392461402207e-07,
      "loss": 0.0141,
      "reward": 0.39583334513008595,
      "reward_std": 0.6474834568798542,
      "rewards/equation_reward_func": 0.22916667349636555,
      "rewards/format_reward_func": 0.1666666716337204,
      "step": 55
    },
    {
      "completion_length": 309.16666984558105,
      "epoch": 0.009955555555555556,
      "grad_norm": 0.5069091296779727,
      "kl": 0.338623046875,
      "learning_rate": 9.772779116786567e-07,
      "loss": 0.0136,
      "reward": 0.5833333525806665,
      "reward_std": 0.6927030570805073,
      "rewards/equation_reward_func": 0.2500000037252903,
      "rewards/format_reward_func": 0.33333333767950535,
      "step": 56
    },
    {
      "completion_length": 271.520845413208,
      "epoch": 0.010133333333333333,
      "grad_norm": 0.4630715136373293,
      "kl": 0.3236083984375,
      "learning_rate": 9.761917975068563e-07,
      "loss": 0.013,
      "reward": 0.6250000074505806,
      "reward_std": 0.661014586687088,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.3750000074505806,
      "step": 57
    },
    {
      "completion_length": 296.2916717529297,
      "epoch": 0.010311111111111111,
      "grad_norm": 0.652647892352053,
      "kl": 0.392822265625,
      "learning_rate": 9.750809600145952e-07,
      "loss": 0.0157,
      "reward": 0.5208333525806665,
      "reward_std": 0.6347126960754395,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.39583334140479565,
      "step": 58
    },
    {
      "completion_length": 282.5000047683716,
      "epoch": 0.01048888888888889,
      "grad_norm": 0.5320134109583597,
      "kl": 0.41748046875,
      "learning_rate": 9.739454568752555e-07,
      "loss": 0.0167,
      "reward": 0.645833358168602,
      "reward_std": 0.7514187395572662,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.4375000111758709,
      "step": 59
    },
    {
      "completion_length": 317.3541793823242,
      "epoch": 0.010666666666666666,
      "grad_norm": 0.7774866396355492,
      "kl": 0.62548828125,
      "learning_rate": 9.7278534704283e-07,
      "loss": 0.025,
      "reward": 0.5625000111758709,
      "reward_std": 0.6851340346038342,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.37500000558793545,
      "step": 60
    },
    {
      "completion_length": 325.020845413208,
      "epoch": 0.010844444444444445,
      "grad_norm": 1.0948810326989156,
      "kl": 0.64453125,
      "learning_rate": 9.716006907488628e-07,
      "loss": 0.0258,
      "reward": 0.5208333488553762,
      "reward_std": 0.605813056230545,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.4583333432674408,
      "step": 61
    },
    {
      "completion_length": 244.68750762939453,
      "epoch": 0.011022222222222221,
      "grad_norm": 1.563284310620131,
      "kl": 0.613525390625,
      "learning_rate": 9.703915494993213e-07,
      "loss": 0.0245,
      "reward": 0.7916666846722364,
      "reward_std": 0.7340253219008446,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.5625000167638063,
      "step": 62
    },
    {
      "completion_length": 282.50000762939453,
      "epoch": 0.0112,
      "grad_norm": 2.1064327877521154,
      "kl": 1.42578125,
      "learning_rate": 9.691579860714032e-07,
      "loss": 0.057,
      "reward": 0.5625000149011612,
      "reward_std": 0.6274054050445557,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.500000013038516,
      "step": 63
    },
    {
      "completion_length": 194.25000667572021,
      "epoch": 0.011377777777777778,
      "grad_norm": 1.7833461932829624,
      "kl": 1.71484375,
      "learning_rate": 9.67900064510277e-07,
      "loss": 0.0686,
      "reward": 0.8125000260770321,
      "reward_std": 0.6131136827170849,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.6458333544433117,
      "step": 64
    },
    {
      "completion_length": 187.25000286102295,
      "epoch": 0.011555555555555555,
      "grad_norm": 3.6199284336418573,
      "kl": 1.58935546875,
      "learning_rate": 9.666178501257572e-07,
      "loss": 0.0635,
      "reward": 0.7708333618938923,
      "reward_std": 0.48367293551564217,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.6666666828095913,
      "step": 65
    },
    {
      "completion_length": 186.5625057220459,
      "epoch": 0.011733333333333333,
      "grad_norm": 6.170181718041983,
      "kl": 2.625,
      "learning_rate": 9.653114094889126e-07,
      "loss": 0.1052,
      "reward": 0.7916667051613331,
      "reward_std": 0.6234788559377193,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.6458333544433117,
      "step": 66
    },
    {
      "completion_length": 172.43750381469727,
      "epoch": 0.011911111111111112,
      "grad_norm": 3.3588942097695202,
      "kl": 1.7451171875,
      "learning_rate": 9.639808104286116e-07,
      "loss": 0.0698,
      "reward": 0.8541667014360428,
      "reward_std": 0.753696121275425,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.6458333507180214,
      "step": 67
    },
    {
      "completion_length": 167.35416984558105,
      "epoch": 0.012088888888888889,
      "grad_norm": 1.2101146404816208,
      "kl": 1.1162109375,
      "learning_rate": 9.626261220279987e-07,
      "loss": 0.0447,
      "reward": 0.9166667051613331,
      "reward_std": 0.6435392610728741,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7291666977107525,
      "step": 68
    },
    {
      "completion_length": 153.66667079925537,
      "epoch": 0.012266666666666667,
      "grad_norm": 1.0564151985609145,
      "kl": 0.7333984375,
      "learning_rate": 9.612474146209095e-07,
      "loss": 0.0294,
      "reward": 1.0416666865348816,
      "reward_std": 0.4375460147857666,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 69
    },
    {
      "completion_length": 156.87500762939453,
      "epoch": 0.012444444444444444,
      "grad_norm": 1.2014127678752624,
      "kl": 1.32470703125,
      "learning_rate": 9.598447597882179e-07,
      "loss": 0.053,
      "reward": 0.6875000223517418,
      "reward_std": 0.6247506737709045,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.604166679084301,
      "step": 70
    },
    {
      "completion_length": 124.20833778381348,
      "epoch": 0.012622222222222222,
      "grad_norm": 1.3939165689430868,
      "kl": 1.7919921875,
      "learning_rate": 9.584182303541204e-07,
      "loss": 0.0716,
      "reward": 0.7916667014360428,
      "reward_std": 0.5915197134017944,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.708333358168602,
      "step": 71
    },
    {
      "completion_length": 120.33333683013916,
      "epoch": 0.0128,
      "grad_norm": 4.070697361675846,
      "kl": 2.76123046875,
      "learning_rate": 9.56967900382354e-07,
      "loss": 0.1107,
      "reward": 0.9166666939854622,
      "reward_std": 0.681879960000515,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.7083333507180214,
      "step": 72
    },
    {
      "completion_length": 112.27083587646484,
      "epoch": 0.012977777777777777,
      "grad_norm": 5.057509148199061,
      "kl": 3.8662109375,
      "learning_rate": 9.55493845172353e-07,
      "loss": 0.1549,
      "reward": 0.8125000223517418,
      "reward_std": 0.6485148780047894,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.6666666828095913,
      "step": 73
    },
    {
      "completion_length": 100.75000381469727,
      "epoch": 0.013155555555555556,
      "grad_norm": 1.6660490540082615,
      "kl": 1.98828125,
      "learning_rate": 9.539961412553374e-07,
      "loss": 0.0795,
      "reward": 0.8750000149011612,
      "reward_std": 0.5296371467411518,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 74
    },
    {
      "completion_length": 113.87500190734863,
      "epoch": 0.013333333333333334,
      "grad_norm": 1.6938950842175522,
      "kl": 1.33642578125,
      "learning_rate": 9.524748663903406e-07,
      "loss": 0.0535,
      "reward": 0.8125000223517418,
      "reward_std": 0.5695351995527744,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.6875000223517418,
      "step": 75
    },
    {
      "completion_length": 97.41666889190674,
      "epoch": 0.013511111111111111,
      "grad_norm": 1.8987706737359447,
      "kl": 1.123291015625,
      "learning_rate": 9.509300995601719e-07,
      "loss": 0.045,
      "reward": 0.7916666902601719,
      "reward_std": 0.533297847956419,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.6875000186264515,
      "step": 76
    },
    {
      "completion_length": 98.72916984558105,
      "epoch": 0.01368888888888889,
      "grad_norm": 3.104011972298094,
      "kl": 2.25341796875,
      "learning_rate": 9.493619209673163e-07,
      "loss": 0.0902,
      "reward": 0.8541666939854622,
      "reward_std": 0.7043437324464321,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.666666679084301,
      "step": 77
    },
    {
      "completion_length": 89.43750286102295,
      "epoch": 0.013866666666666666,
      "grad_norm": 1.9133019088326877,
      "kl": 1.931640625,
      "learning_rate": 9.477704120297696e-07,
      "loss": 0.0773,
      "reward": 0.7708333618938923,
      "reward_std": 0.6641731485724449,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.5833333544433117,
      "step": 78
    },
    {
      "completion_length": 93.45833587646484,
      "epoch": 0.014044444444444444,
      "grad_norm": 1.5024014724527306,
      "kl": 1.484130859375,
      "learning_rate": 9.461556553768123e-07,
      "loss": 0.0593,
      "reward": 0.8125000149011612,
      "reward_std": 0.6717319972813129,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.6250000223517418,
      "step": 79
    },
    {
      "completion_length": 97.62500286102295,
      "epoch": 0.014222222222222223,
      "grad_norm": 1.3010218844311383,
      "kl": 2.3037109375,
      "learning_rate": 9.445177348447186e-07,
      "loss": 0.0922,
      "reward": 0.7291666865348816,
      "reward_std": 0.6450728215277195,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.6250000149011612,
      "step": 80
    },
    {
      "completion_length": 93.02083587646484,
      "epoch": 0.0144,
      "grad_norm": 1.4449550603366121,
      "kl": 1.0791015625,
      "learning_rate": 9.428567354724045e-07,
      "loss": 0.0432,
      "reward": 0.8125000298023224,
      "reward_std": 0.5830309242010117,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.6875000186264515,
      "step": 81
    },
    {
      "completion_length": 86.27083587646484,
      "epoch": 0.014577777777777778,
      "grad_norm": 1.6082644108612607,
      "kl": 2.0986328125,
      "learning_rate": 9.41172743497012e-07,
      "loss": 0.0841,
      "reward": 0.7916666828095913,
      "reward_std": 0.6250231899321079,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.5833333488553762,
      "step": 82
    },
    {
      "completion_length": 81.50000238418579,
      "epoch": 0.014755555555555555,
      "grad_norm": 3.1983476547534795,
      "kl": 3.3251953125,
      "learning_rate": 9.394658463494327e-07,
      "loss": 0.1331,
      "reward": 0.8750000298023224,
      "reward_std": 0.49993259087204933,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.7500000149011612,
      "step": 83
    },
    {
      "completion_length": 80.02083587646484,
      "epoch": 0.014933333333333333,
      "grad_norm": 5.509760052892182,
      "kl": 4.7392578125,
      "learning_rate": 9.377361326497673e-07,
      "loss": 0.1899,
      "reward": 0.7708333525806665,
      "reward_std": 0.6075604781508446,
      "rewards/equation_reward_func": 0.1666666679084301,
      "rewards/format_reward_func": 0.6041666809469461,
      "step": 84
    },
    {
      "completion_length": 82.25000238418579,
      "epoch": 0.015111111111111112,
      "grad_norm": 3.5108499823149404,
      "kl": 3.107421875,
      "learning_rate": 9.359836922027254e-07,
      "loss": 0.1244,
      "reward": 0.7291666828095913,
      "reward_std": 0.5941584445536137,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.6458333544433117,
      "step": 85
    },
    {
      "completion_length": 82.41666984558105,
      "epoch": 0.015288888888888888,
      "grad_norm": 2.028459417088561,
      "kl": 1.29931640625,
      "learning_rate": 9.342086159929629e-07,
      "loss": 0.052,
      "reward": 0.9166666977107525,
      "reward_std": 0.6568441018462181,
      "rewards/equation_reward_func": 0.2291666679084301,
      "rewards/format_reward_func": 0.6875000186264515,
      "step": 86
    },
    {
      "completion_length": 76.08333683013916,
      "epoch": 0.015466666666666667,
      "grad_norm": 1.3916338154872232,
      "kl": 0.656005859375,
      "learning_rate": 9.324109961803577e-07,
      "loss": 0.0262,
      "reward": 0.9166666865348816,
      "reward_std": 0.46873048692941666,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7500000149011612,
      "step": 87
    },
    {
      "completion_length": 83.31250381469727,
      "epoch": 0.015644444444444443,
      "grad_norm": 1.5055362976480897,
      "kl": 0.97509765625,
      "learning_rate": 9.305909260952254e-07,
      "loss": 0.039,
      "reward": 0.8541666865348816,
      "reward_std": 0.5454338155686855,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 88
    },
    {
      "completion_length": 83.79166984558105,
      "epoch": 0.015822222222222224,
      "grad_norm": 1.1633318801455976,
      "kl": 1.281494140625,
      "learning_rate": 9.287485002334732e-07,
      "loss": 0.0512,
      "reward": 0.8750000223517418,
      "reward_std": 0.4783512242138386,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.7291666939854622,
      "step": 89
    },
    {
      "completion_length": 78.64583587646484,
      "epoch": 0.016,
      "grad_norm": 2.9144797063041006,
      "kl": 2.5732421875,
      "learning_rate": 9.268838142516943e-07,
      "loss": 0.1028,
      "reward": 0.7916666865348816,
      "reward_std": 0.652060579508543,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.6458333469927311,
      "step": 90
    },
    {
      "completion_length": 81.66666984558105,
      "epoch": 0.016177777777777777,
      "grad_norm": 4.751929306174548,
      "kl": 4.068359375,
      "learning_rate": 9.249969649622012e-07,
      "loss": 0.1627,
      "reward": 0.6250000149011612,
      "reward_std": 0.6327161639928818,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.5416666716337204,
      "step": 91
    },
    {
      "completion_length": 82.79166889190674,
      "epoch": 0.016355555555555557,
      "grad_norm": 2.236969609049743,
      "kl": 2.87109375,
      "learning_rate": 9.23088050327999e-07,
      "loss": 0.1146,
      "reward": 0.8125000223517418,
      "reward_std": 0.6459339037537575,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.6875000223517418,
      "step": 92
    },
    {
      "completion_length": 82.45833587646484,
      "epoch": 0.016533333333333334,
      "grad_norm": 2.000499326379198,
      "kl": 1.4482421875,
      "learning_rate": 9.211571694577004e-07,
      "loss": 0.0579,
      "reward": 0.8958333507180214,
      "reward_std": 0.6133542768657207,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.7083333544433117,
      "step": 93
    },
    {
      "completion_length": 84.58333587646484,
      "epoch": 0.01671111111111111,
      "grad_norm": 1.2548765801344943,
      "kl": 0.78173828125,
      "learning_rate": 9.192044226003788e-07,
      "loss": 0.0313,
      "reward": 0.8750000298023224,
      "reward_std": 0.5373301059007645,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 94
    },
    {
      "completion_length": 81.95833587646484,
      "epoch": 0.016888888888888887,
      "grad_norm": 1.5059931362189294,
      "kl": 1.111083984375,
      "learning_rate": 9.172299111403641e-07,
      "loss": 0.0444,
      "reward": 1.0000000298023224,
      "reward_std": 0.4846614636480808,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 95
    },
    {
      "completion_length": 84.04166889190674,
      "epoch": 0.017066666666666667,
      "grad_norm": 1.3359826696515187,
      "kl": 1.60986328125,
      "learning_rate": 9.15233737591979e-07,
      "loss": 0.0643,
      "reward": 0.9166667014360428,
      "reward_std": 0.5707925632596016,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 96
    },
    {
      "completion_length": 86.62500286102295,
      "epoch": 0.017244444444444444,
      "grad_norm": 1.8097820481931228,
      "kl": 1.9326171875,
      "learning_rate": 9.132160055942164e-07,
      "loss": 0.0773,
      "reward": 0.9166666902601719,
      "reward_std": 0.4999736212193966,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.7708333488553762,
      "step": 97
    },
    {
      "completion_length": 77.75000190734863,
      "epoch": 0.01742222222222222,
      "grad_norm": 1.6992570227449872,
      "kl": 1.365478515625,
      "learning_rate": 9.111768199053586e-07,
      "loss": 0.0546,
      "reward": 0.9791666939854622,
      "reward_std": 0.5367976725101471,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 98
    },
    {
      "completion_length": 70.70833492279053,
      "epoch": 0.0176,
      "grad_norm": 12.904518500107274,
      "kl": 1.700439453125,
      "learning_rate": 9.091162863975388e-07,
      "loss": 0.0681,
      "reward": 1.0833333879709244,
      "reward_std": 0.5429981462657452,
      "rewards/equation_reward_func": 0.2500000074505806,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 99
    },
    {
      "completion_length": 74.75000333786011,
      "epoch": 0.017777777777777778,
      "grad_norm": 2.68173021529566,
      "kl": 1.787109375,
      "learning_rate": 9.070345120512435e-07,
      "loss": 0.0715,
      "reward": 0.9583333656191826,
      "reward_std": 0.4984116442501545,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 100
    },
    {
      "completion_length": 70.83333492279053,
      "epoch": 0.017955555555555554,
      "grad_norm": 1.405751831531719,
      "kl": 1.2646484375,
      "learning_rate": 9.049316049497587e-07,
      "loss": 0.0506,
      "reward": 0.8750000223517418,
      "reward_std": 0.39079636335372925,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 101
    },
    {
      "completion_length": 68.66666889190674,
      "epoch": 0.018133333333333335,
      "grad_norm": 1.4351105118065817,
      "kl": 1.413818359375,
      "learning_rate": 9.028076742735582e-07,
      "loss": 0.0566,
      "reward": 0.8958333730697632,
      "reward_std": 0.5925082266330719,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 102
    },
    {
      "completion_length": 66.25000286102295,
      "epoch": 0.01831111111111111,
      "grad_norm": 2.635755872511972,
      "kl": 1.2666015625,
      "learning_rate": 9.006628302946357e-07,
      "loss": 0.0507,
      "reward": 0.8958333656191826,
      "reward_std": 0.5383186265826225,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 103
    },
    {
      "completion_length": 66.04166889190674,
      "epoch": 0.018488888888888888,
      "grad_norm": 1.2582201461515905,
      "kl": 0.912353515625,
      "learning_rate": 8.984971843707787e-07,
      "loss": 0.0365,
      "reward": 0.916666679084301,
      "reward_std": 0.3247256837785244,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 104
    },
    {
      "completion_length": 65.89583539962769,
      "epoch": 0.018666666666666668,
      "grad_norm": 1.970155942749344,
      "kl": 0.91162109375,
      "learning_rate": 8.963108489397875e-07,
      "loss": 0.0364,
      "reward": 0.9166666865348816,
      "reward_std": 0.33336182311177254,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 105
    },
    {
      "completion_length": 64.52083396911621,
      "epoch": 0.018844444444444445,
      "grad_norm": 1.3485959618130419,
      "kl": 0.93115234375,
      "learning_rate": 8.94103937513637e-07,
      "loss": 0.0372,
      "reward": 0.9375000298023224,
      "reward_std": 0.2982207238674164,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 106
    },
    {
      "completion_length": 63.06250190734863,
      "epoch": 0.01902222222222222,
      "grad_norm": 2.0728028572795543,
      "kl": 1.34375,
      "learning_rate": 8.918765646725843e-07,
      "loss": 0.0538,
      "reward": 0.937500037252903,
      "reward_std": 0.31970490887761116,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 107
    },
    {
      "completion_length": 61.979167461395264,
      "epoch": 0.0192,
      "grad_norm": 2.225767300026043,
      "kl": 2.87646484375,
      "learning_rate": 8.896288460592185e-07,
      "loss": 0.1152,
      "reward": 0.8750000223517418,
      "reward_std": 0.2861081585288048,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 108
    },
    {
      "completion_length": 57.812501430511475,
      "epoch": 0.01937777777777778,
      "grad_norm": 1.3463463862492873,
      "kl": 1.247802734375,
      "learning_rate": 8.873608983724579e-07,
      "loss": 0.05,
      "reward": 1.0208333656191826,
      "reward_std": 0.4833719953894615,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 109
    },
    {
      "completion_length": 58.250001430511475,
      "epoch": 0.019555555555555555,
      "grad_norm": 1.666008392324381,
      "kl": 1.627685546875,
      "learning_rate": 8.850728393614901e-07,
      "loss": 0.0651,
      "reward": 0.9375000149011612,
      "reward_std": 0.4140563830733299,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 110
    },
    {
      "completion_length": 56.85416841506958,
      "epoch": 0.019733333333333332,
      "grad_norm": 0.9130518937737289,
      "kl": 0.876220703125,
      "learning_rate": 8.8276478781966e-07,
      "loss": 0.035,
      "reward": 1.0208333805203438,
      "reward_std": 0.4418273940682411,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 111
    },
    {
      "completion_length": 53.229167461395264,
      "epoch": 0.019911111111111112,
      "grad_norm": 2.1598126065522223,
      "kl": 0.886474609375,
      "learning_rate": 8.804368635783002e-07,
      "loss": 0.0355,
      "reward": 0.9583333730697632,
      "reward_std": 0.38524314761161804,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 112
    },
    {
      "completion_length": 54.791667461395264,
      "epoch": 0.02008888888888889,
      "grad_norm": 1.4035187794909976,
      "kl": 1.21337890625,
      "learning_rate": 8.780891875005114e-07,
      "loss": 0.0487,
      "reward": 0.9375000298023224,
      "reward_std": 0.28219257295131683,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 113
    },
    {
      "completion_length": 49.97916793823242,
      "epoch": 0.020266666666666665,
      "grad_norm": 1.8833740064941022,
      "kl": 1.38671875,
      "learning_rate": 8.75721881474886e-07,
      "loss": 0.0555,
      "reward": 1.0416667014360428,
      "reward_std": 0.38524315133690834,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 114
    },
    {
      "completion_length": 48.83333444595337,
      "epoch": 0.020444444444444446,
      "grad_norm": 1.3339255087510238,
      "kl": 0.90771484375,
      "learning_rate": 8.733350684091805e-07,
      "loss": 0.0363,
      "reward": 0.8333333544433117,
      "reward_std": 0.4297148324549198,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7708333544433117,
      "step": 115
    },
    {
      "completion_length": 50.875000953674316,
      "epoch": 0.020622222222222222,
      "grad_norm": 1.1195993054785263,
      "kl": 0.71923828125,
      "learning_rate": 8.709288722239342e-07,
      "loss": 0.0288,
      "reward": 1.0625000447034836,
      "reward_std": 0.4778187908232212,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 116
    },
    {
      "completion_length": 53.10416793823242,
      "epoch": 0.0208,
      "grad_norm": 0.8633281856230262,
      "kl": 1.0654296875,
      "learning_rate": 8.685034178460353e-07,
      "loss": 0.0427,
      "reward": 1.0000000596046448,
      "reward_std": 0.4513138346374035,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 117
    },
    {
      "completion_length": 49.85416841506958,
      "epoch": 0.02097777777777778,
      "grad_norm": 0.6227616661901212,
      "kl": 0.8115234375,
      "learning_rate": 8.660588312022343e-07,
      "loss": 0.0324,
      "reward": 1.0625000298023224,
      "reward_std": 0.3397653251886368,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 118
    },
    {
      "completion_length": 55.437500953674316,
      "epoch": 0.021155555555555556,
      "grad_norm": 0.9190492054206527,
      "kl": 0.992919921875,
      "learning_rate": 8.635952392126071e-07,
      "loss": 0.0397,
      "reward": 0.9583333432674408,
      "reward_std": 0.24161884933710098,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 119
    },
    {
      "completion_length": 53.72916793823242,
      "epoch": 0.021333333333333333,
      "grad_norm": 0.8309087697870374,
      "kl": 0.88134765625,
      "learning_rate": 8.611127697839647e-07,
      "loss": 0.0352,
      "reward": 1.1041667014360428,
      "reward_std": 0.36124950274825096,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 120
    },
    {
      "completion_length": 48.89583492279053,
      "epoch": 0.021511111111111113,
      "grad_norm": 1.145524145717797,
      "kl": 1.109375,
      "learning_rate": 8.586115518032126e-07,
      "loss": 0.0444,
      "reward": 1.0000000298023224,
      "reward_std": 0.3747681975364685,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 121
    },
    {
      "completion_length": 53.83333444595337,
      "epoch": 0.02168888888888889,
      "grad_norm": 1.291809265288758,
      "kl": 1.53271484375,
      "learning_rate": 8.560917151306592e-07,
      "loss": 0.0613,
      "reward": 1.125000037252903,
      "reward_std": 0.4393179304897785,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 122
    },
    {
      "completion_length": 56.89583492279053,
      "epoch": 0.021866666666666666,
      "grad_norm": 1.7427992065174527,
      "kl": 1.25,
      "learning_rate": 8.535533905932737e-07,
      "loss": 0.05,
      "reward": 1.1041666865348816,
      "reward_std": 0.4188222736120224,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 123
    },
    {
      "completion_length": 57.666667461395264,
      "epoch": 0.022044444444444443,
      "grad_norm": 1.0883926763944543,
      "kl": 0.804931640625,
      "learning_rate": 8.509967099778933e-07,
      "loss": 0.0322,
      "reward": 1.1250000596046448,
      "reward_std": 0.4283087030053139,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 124
    },
    {
      "completion_length": 54.97916793823242,
      "epoch": 0.022222222222222223,
      "grad_norm": 1.3364813622555163,
      "kl": 1.42626953125,
      "learning_rate": 8.484218060243815e-07,
      "loss": 0.057,
      "reward": 0.937500037252903,
      "reward_std": 0.3987618461251259,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 125
    },
    {
      "completion_length": 59.14583492279053,
      "epoch": 0.0224,
      "grad_norm": 1.025442216438611,
      "kl": 1.20263671875,
      "learning_rate": 8.458288124187358e-07,
      "loss": 0.0482,
      "reward": 1.0208333730697632,
      "reward_std": 0.4563346207141876,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 126
    },
    {
      "completion_length": 50.00000190734863,
      "epoch": 0.022577777777777776,
      "grad_norm": 4.84373478962823,
      "kl": 3.6640625,
      "learning_rate": 8.432178637861483e-07,
      "loss": 0.1463,
      "reward": 0.8333333507180214,
      "reward_std": 0.4152076132595539,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7708333432674408,
      "step": 127
    },
    {
      "completion_length": 59.47916841506958,
      "epoch": 0.022755555555555557,
      "grad_norm": 2.7058062346789944,
      "kl": 1.1728515625,
      "learning_rate": 8.405890956840135e-07,
      "loss": 0.0469,
      "reward": 1.1458333507180214,
      "reward_std": 0.39611808210611343,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 128
    },
    {
      "completion_length": 61.91666841506958,
      "epoch": 0.022933333333333333,
      "grad_norm": 2.4631575245463204,
      "kl": 2.07666015625,
      "learning_rate": 8.379426445948932e-07,
      "loss": 0.0831,
      "reward": 1.145833358168602,
      "reward_std": 0.5193633921444416,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 129
    },
    {
      "completion_length": 66.70833587646484,
      "epoch": 0.02311111111111111,
      "grad_norm": 1.230784921117314,
      "kl": 1.10009765625,
      "learning_rate": 8.352786479194287e-07,
      "loss": 0.044,
      "reward": 1.062500037252903,
      "reward_std": 0.32525811344385147,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 130
    },
    {
      "completion_length": 64.60416889190674,
      "epoch": 0.02328888888888889,
      "grad_norm": 1.6700411140187803,
      "kl": 1.74267578125,
      "learning_rate": 8.325972439692074e-07,
      "loss": 0.0696,
      "reward": 1.0833333656191826,
      "reward_std": 0.5055268332362175,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 131
    },
    {
      "completion_length": 66.66666889190674,
      "epoch": 0.023466666666666667,
      "grad_norm": 1.3772388429149782,
      "kl": 0.913818359375,
      "learning_rate": 8.298985719595823e-07,
      "loss": 0.0366,
      "reward": 1.0416667014360428,
      "reward_std": 0.3589930906891823,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 132
    },
    {
      "completion_length": 69.39583539962769,
      "epoch": 0.023644444444444444,
      "grad_norm": 3.244989830519802,
      "kl": 1.36328125,
      "learning_rate": 8.271827720024438e-07,
      "loss": 0.0545,
      "reward": 1.2083333730697632,
      "reward_std": 0.4152076169848442,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 133
    },
    {
      "completion_length": 72.12500286102295,
      "epoch": 0.023822222222222224,
      "grad_norm": 2.0362764803071363,
      "kl": 1.7900390625,
      "learning_rate": 8.244499850989451e-07,
      "loss": 0.0715,
      "reward": 1.0000000521540642,
      "reward_std": 0.5644823275506496,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 134
    },
    {
      "completion_length": 77.43750381469727,
      "epoch": 0.024,
      "grad_norm": 0.9861591115726814,
      "kl": 0.634521484375,
      "learning_rate": 8.21700353132182e-07,
      "loss": 0.0254,
      "reward": 1.0625000298023224,
      "reward_std": 0.29669978097081184,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 135
    },
    {
      "completion_length": 74.06250095367432,
      "epoch": 0.024177777777777777,
      "grad_norm": 0.9770205438349707,
      "kl": 0.664306640625,
      "learning_rate": 8.189340188598262e-07,
      "loss": 0.0266,
      "reward": 0.979166679084301,
      "reward_std": 0.2591874338686466,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 136
    },
    {
      "completion_length": 79.12500238418579,
      "epoch": 0.024355555555555554,
      "grad_norm": 2.110834692267425,
      "kl": 1.36279296875,
      "learning_rate": 8.161511259067132e-07,
      "loss": 0.0545,
      "reward": 0.8750000298023224,
      "reward_std": 0.3977733254432678,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 137
    },
    {
      "completion_length": 75.68750286102295,
      "epoch": 0.024533333333333334,
      "grad_norm": 1.8894230791150959,
      "kl": 1.076416015625,
      "learning_rate": 8.133518187573862e-07,
      "loss": 0.0431,
      "reward": 1.0625000298023224,
      "reward_std": 0.40168892964720726,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 138
    },
    {
      "completion_length": 77.06250095367432,
      "epoch": 0.02471111111111111,
      "grad_norm": 2.8491636564476788,
      "kl": 1.8115234375,
      "learning_rate": 8.105362427485942e-07,
      "loss": 0.0725,
      "reward": 0.9791666939854622,
      "reward_std": 0.5409447588026524,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333656191826,
      "step": 139
    },
    {
      "completion_length": 80.18750190734863,
      "epoch": 0.024888888888888887,
      "grad_norm": 1.0644881637020627,
      "kl": 1.40087890625,
      "learning_rate": 8.077045440617464e-07,
      "loss": 0.0561,
      "reward": 0.9583333656191826,
      "reward_std": 0.268673874437809,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 140
    },
    {
      "completion_length": 80.12500190734863,
      "epoch": 0.025066666666666668,
      "grad_norm": 2.41329367830394,
      "kl": 2.546630859375,
      "learning_rate": 8.048568697153222e-07,
      "loss": 0.1021,
      "reward": 1.1250000298023224,
      "reward_std": 0.37628915905952454,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 141
    },
    {
      "completion_length": 78.43750286102295,
      "epoch": 0.025244444444444444,
      "grad_norm": 2.160199231813677,
      "kl": 2.1884765625,
      "learning_rate": 8.019933675572388e-07,
      "loss": 0.0875,
      "reward": 1.0000000298023224,
      "reward_std": 0.2471896894276142,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 142
    },
    {
      "completion_length": 80.20833587646484,
      "epoch": 0.02542222222222222,
      "grad_norm": 2.3799026133423715,
      "kl": 1.010009765625,
      "learning_rate": 7.991141862571749e-07,
      "loss": 0.0404,
      "reward": 1.0625000223517418,
      "reward_std": 0.3212082237005234,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 143
    },
    {
      "completion_length": 77.85416984558105,
      "epoch": 0.0256,
      "grad_norm": 2.3486898873600084,
      "kl": 2.1669921875,
      "learning_rate": 7.962194752988518e-07,
      "loss": 0.0868,
      "reward": 0.8958333656191826,
      "reward_std": 0.4273201934993267,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 144
    },
    {
      "completion_length": 81.31250286102295,
      "epoch": 0.025777777777777778,
      "grad_norm": 5.852632022601826,
      "kl": 0.934326171875,
      "learning_rate": 7.933093849722723e-07,
      "loss": 0.0374,
      "reward": 1.166666716337204,
      "reward_std": 0.41935470327734947,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 145
    },
    {
      "completion_length": 79.81250190734863,
      "epoch": 0.025955555555555555,
      "grad_norm": 3.627317817877323,
      "kl": 1.385498046875,
      "learning_rate": 7.903840663659184e-07,
      "loss": 0.0555,
      "reward": 0.9791666865348816,
      "reward_std": 0.23215004801750183,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 146
    },
    {
      "completion_length": 79.97916889190674,
      "epoch": 0.026133333333333335,
      "grad_norm": 3.3314477031020973,
      "kl": 0.618408203125,
      "learning_rate": 7.874436713589063e-07,
      "loss": 0.0248,
      "reward": 1.1250000298023224,
      "reward_std": 0.2957112640142441,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 147
    },
    {
      "completion_length": 77.14583683013916,
      "epoch": 0.02631111111111111,
      "grad_norm": 1.5297879763799356,
      "kl": 1.740966796875,
      "learning_rate": 7.844883526131013e-07,
      "loss": 0.0696,
      "reward": 1.0208333656191826,
      "reward_std": 0.4257992319762707,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 148
    },
    {
      "completion_length": 74.06250238418579,
      "epoch": 0.026488888888888888,
      "grad_norm": 6.233097760863968,
      "kl": 3.5986328125,
      "learning_rate": 7.815182635651912e-07,
      "loss": 0.1439,
      "reward": 0.9375000298023224,
      "reward_std": 0.3627704530954361,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 149
    },
    {
      "completion_length": 73.02083539962769,
      "epoch": 0.02666666666666667,
      "grad_norm": 5.958845153705178,
      "kl": 4.09375,
      "learning_rate": 7.785335584187219e-07,
      "loss": 0.1641,
      "reward": 0.9375000223517418,
      "reward_std": 0.26070838794112206,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 150
    },
    {
      "completion_length": 73.68750095367432,
      "epoch": 0.026844444444444445,
      "grad_norm": 2.37146983586077,
      "kl": 1.56298828125,
      "learning_rate": 7.755343921360886e-07,
      "loss": 0.0625,
      "reward": 0.958333358168602,
      "reward_std": 0.2742270827293396,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 151
    },
    {
      "completion_length": 78.08333587646484,
      "epoch": 0.027022222222222222,
      "grad_norm": 0.8124773136751642,
      "kl": 0.678466796875,
      "learning_rate": 7.725209204304928e-07,
      "loss": 0.0271,
      "reward": 0.937500037252903,
      "reward_std": 0.31970491260290146,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 152
    },
    {
      "completion_length": 72.68750238418579,
      "epoch": 0.0272,
      "grad_norm": 1.8438522048436141,
      "kl": 0.5576171875,
      "learning_rate": 7.694932997578564e-07,
      "loss": 0.0223,
      "reward": 1.1250000298023224,
      "reward_std": 0.3796723149716854,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 153
    },
    {
      "completion_length": 78.06250238418579,
      "epoch": 0.02737777777777778,
      "grad_norm": 2.3953021804030485,
      "kl": 1.169921875,
      "learning_rate": 7.664516873086987e-07,
      "loss": 0.0469,
      "reward": 1.1666667014360428,
      "reward_std": 0.44867006316781044,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 154
    },
    {
      "completion_length": 77.79166984558105,
      "epoch": 0.027555555555555555,
      "grad_norm": 0.8215867255038918,
      "kl": 0.425048828125,
      "learning_rate": 7.633962409999764e-07,
      "loss": 0.017,
      "reward": 1.1041667014360428,
      "reward_std": 0.3397653251886368,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 155
    },
    {
      "completion_length": 74.83333492279053,
      "epoch": 0.027733333333333332,
      "grad_norm": 0.7182201741238872,
      "kl": 0.4013671875,
      "learning_rate": 7.603271194668835e-07,
      "loss": 0.0161,
      "reward": 1.2291667014360428,
      "reward_std": 0.36417657881975174,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 1.0,
      "step": 156
    },
    {
      "completion_length": 77.02083683013916,
      "epoch": 0.027911111111111112,
      "grad_norm": 0.8227456410541343,
      "kl": 0.458984375,
      "learning_rate": 7.572444820546155e-07,
      "loss": 0.0184,
      "reward": 0.958333358168602,
      "reward_std": 0.20412414148449898,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 157
    },
    {
      "completion_length": 73.06250190734863,
      "epoch": 0.02808888888888889,
      "grad_norm": 1.4714763458802167,
      "kl": 0.7119140625,
      "learning_rate": 7.541484888100973e-07,
      "loss": 0.0285,
      "reward": 0.9791666865348816,
      "reward_std": 0.4867551550269127,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 158
    },
    {
      "completion_length": 72.87500190734863,
      "epoch": 0.028266666666666666,
      "grad_norm": 1.4514512402843838,
      "kl": 0.871337890625,
      "learning_rate": 7.510393004736722e-07,
      "loss": 0.0349,
      "reward": 0.9791666939854622,
      "reward_std": 0.5999412871897221,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.812500037252903,
      "step": 159
    },
    {
      "completion_length": 67.31250143051147,
      "epoch": 0.028444444444444446,
      "grad_norm": 2.116607202051419,
      "kl": 1.553466796875,
      "learning_rate": 7.479170784707574e-07,
      "loss": 0.0621,
      "reward": 0.8333333544433117,
      "reward_std": 0.4538251422345638,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7708333544433117,
      "step": 160
    },
    {
      "completion_length": 64.12500143051147,
      "epoch": 0.028622222222222223,
      "grad_norm": 4.988492970714175,
      "kl": 2.7998046875,
      "learning_rate": 7.447819849034628e-07,
      "loss": 0.1121,
      "reward": 0.666666692122817,
      "reward_std": 0.49578551203012466,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.6458333563059568,
      "step": 161
    },
    {
      "completion_length": 61.10416841506958,
      "epoch": 0.0288,
      "grad_norm": 6.132561250847984,
      "kl": 3.8466796875,
      "learning_rate": 7.416341825421753e-07,
      "loss": 0.1538,
      "reward": 0.5625000111758709,
      "reward_std": 0.5616070628166199,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.5416666753590107,
      "step": 162
    },
    {
      "completion_length": 62.312501430511475,
      "epoch": 0.02897777777777778,
      "grad_norm": 4.666254586473765,
      "kl": 3.7216796875,
      "learning_rate": 7.384738348171068e-07,
      "loss": 0.1486,
      "reward": 0.8541666939854622,
      "reward_std": 0.5078980773687363,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7291666828095913,
      "step": 163
    },
    {
      "completion_length": 70.00000286102295,
      "epoch": 0.029155555555555556,
      "grad_norm": 1.4445543590308407,
      "kl": 1.42333984375,
      "learning_rate": 7.353011058098103e-07,
      "loss": 0.057,
      "reward": 0.937500037252903,
      "reward_std": 0.5709268674254417,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 164
    },
    {
      "completion_length": 72.79167079925537,
      "epoch": 0.029333333333333333,
      "grad_norm": 1.8455254519389834,
      "kl": 1.66259765625,
      "learning_rate": 7.321161602446601e-07,
      "loss": 0.0666,
      "reward": 1.0416667014360428,
      "reward_std": 0.40530357509851456,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 165
    },
    {
      "completion_length": 67.22916793823242,
      "epoch": 0.02951111111111111,
      "grad_norm": 1.2830647533382114,
      "kl": 0.5908203125,
      "learning_rate": 7.289191634803002e-07,
      "loss": 0.0236,
      "reward": 1.0000000298023224,
      "reward_std": 0.2831810861825943,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 166
    },
    {
      "completion_length": 67.145836353302,
      "epoch": 0.02968888888888889,
      "grad_norm": 1.5595729319752896,
      "kl": 0.570068359375,
      "learning_rate": 7.257102815010584e-07,
      "loss": 0.0228,
      "reward": 1.1458333656191826,
      "reward_std": 0.4072421304881573,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 167
    },
    {
      "completion_length": 65.50000190734863,
      "epoch": 0.029866666666666666,
      "grad_norm": 0.8324762943011298,
      "kl": 1.06201171875,
      "learning_rate": 7.224896809083297e-07,
      "loss": 0.0424,
      "reward": 1.1666667014360428,
      "reward_std": 0.37223926186561584,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 168
    },
    {
      "completion_length": 62.729167461395264,
      "epoch": 0.030044444444444443,
      "grad_norm": 2.4594683537617437,
      "kl": 0.987060546875,
      "learning_rate": 7.192575289119245e-07,
      "loss": 0.0395,
      "reward": 1.0000000298023224,
      "reward_std": 0.39079635962843895,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 169
    },
    {
      "completion_length": 58.02083444595337,
      "epoch": 0.030222222222222223,
      "grad_norm": 1.7347800603929018,
      "kl": 2.14453125,
      "learning_rate": 7.160139933213898e-07,
      "loss": 0.0858,
      "reward": 1.1666667014360428,
      "reward_std": 0.3841203413903713,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 170
    },
    {
      "completion_length": 55.604167461395264,
      "epoch": 0.0304,
      "grad_norm": 2.866447003547887,
      "kl": 3.4658203125,
      "learning_rate": 7.12759242537295e-07,
      "loss": 0.1386,
      "reward": 1.0000000223517418,
      "reward_std": 0.41085678339004517,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 171
    },
    {
      "completion_length": 53.104167461395264,
      "epoch": 0.030577777777777777,
      "grad_norm": 2.387493786129646,
      "kl": 4.9072265625,
      "learning_rate": 7.094934455424888e-07,
      "loss": 0.1961,
      "reward": 1.0416667088866234,
      "reward_std": 0.49133747816085815,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 172
    },
    {
      "completion_length": 55.875001430511475,
      "epoch": 0.030755555555555557,
      "grad_norm": 2.9662179988283444,
      "kl": 2.531494140625,
      "learning_rate": 7.06216771893327e-07,
      "loss": 0.1012,
      "reward": 0.9375000223517418,
      "reward_std": 0.28219256922602654,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 173
    },
    {
      "completion_length": 51.500001430511475,
      "epoch": 0.030933333333333334,
      "grad_norm": 1.3148679005802646,
      "kl": 2.0830078125,
      "learning_rate": 7.029293917108677e-07,
      "loss": 0.0833,
      "reward": 0.9166667014360428,
      "reward_std": 0.44083888083696365,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 174
    },
    {
      "completion_length": 55.500000953674316,
      "epoch": 0.03111111111111111,
      "grad_norm": 1.940206757858531,
      "kl": 0.938232421875,
      "learning_rate": 6.996314756720408e-07,
      "loss": 0.0375,
      "reward": 1.1250000298023224,
      "reward_std": 0.3506578877568245,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 175
    },
    {
      "completion_length": 57.583335399627686,
      "epoch": 0.03128888888888889,
      "grad_norm": 0.4970228156471284,
      "kl": 0.618408203125,
      "learning_rate": 6.963231950007844e-07,
      "loss": 0.0247,
      "reward": 1.208333358168602,
      "reward_std": 0.30354244261980057,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 1.0,
      "step": 176
    },
    {
      "completion_length": 57.22916793823242,
      "epoch": 0.031466666666666664,
      "grad_norm": 2.1203602590832387,
      "kl": 0.69189453125,
      "learning_rate": 6.930047214591568e-07,
      "loss": 0.0277,
      "reward": 1.2500000447034836,
      "reward_std": 0.47683026641607285,
      "rewards/equation_reward_func": 0.3125000074505806,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 177
    },
    {
      "completion_length": 54.47916793823242,
      "epoch": 0.03164444444444445,
      "grad_norm": 1.2499222352319177,
      "kl": 1.194091796875,
      "learning_rate": 6.896762273384178e-07,
      "loss": 0.0477,
      "reward": 1.0416667014360428,
      "reward_std": 0.46985330432653427,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 178
    },
    {
      "completion_length": 48.437500953674316,
      "epoch": 0.031822222222222224,
      "grad_norm": 1.861799414305649,
      "kl": 1.77197265625,
      "learning_rate": 6.863378854500845e-07,
      "loss": 0.0708,
      "reward": 0.937500037252903,
      "reward_std": 0.3627704605460167,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 179
    },
    {
      "completion_length": 52.33333492279053,
      "epoch": 0.032,
      "grad_norm": 1.4601874721448491,
      "kl": 1.70166015625,
      "learning_rate": 6.829898691169579e-07,
      "loss": 0.068,
      "reward": 0.9375000298023224,
      "reward_std": 0.27258946001529694,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 180
    },
    {
      "completion_length": 52.47916793823242,
      "epoch": 0.03217777777777778,
      "grad_norm": 3.4537886700647316,
      "kl": 1.458251953125,
      "learning_rate": 6.796323521641256e-07,
      "loss": 0.0584,
      "reward": 1.0416667237877846,
      "reward_std": 0.5502192042768002,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 181
    },
    {
      "completion_length": 52.812501430511475,
      "epoch": 0.032355555555555554,
      "grad_norm": 1.1876803036822332,
      "kl": 1.65576171875,
      "learning_rate": 6.762655089099353e-07,
      "loss": 0.0663,
      "reward": 1.1041667014360428,
      "reward_std": 0.4688647910952568,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 182
    },
    {
      "completion_length": 50.812501430511475,
      "epoch": 0.03253333333333333,
      "grad_norm": 3.60684735229285,
      "kl": 2.094482421875,
      "learning_rate": 6.728895141569462e-07,
      "loss": 0.0838,
      "reward": 1.020833358168602,
      "reward_std": 0.4737688973546028,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8750000298023224,
      "step": 183
    },
    {
      "completion_length": 50.58333444595337,
      "epoch": 0.032711111111111114,
      "grad_norm": 5.166407984979809,
      "kl": 6.22412109375,
      "learning_rate": 6.695045431828524e-07,
      "loss": 0.2489,
      "reward": 0.9166667014360428,
      "reward_std": 0.44867006316781044,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8125000074505806,
      "step": 184
    },
    {
      "completion_length": 52.20833396911621,
      "epoch": 0.03288888888888889,
      "grad_norm": 5.5000432690940375,
      "kl": 6.056640625,
      "learning_rate": 6.661107717313823e-07,
      "loss": 0.2423,
      "reward": 1.020833358168602,
      "reward_std": 0.41912320628762245,
      "rewards/equation_reward_func": 0.14583333395421505,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 185
    },
    {
      "completion_length": 48.854167461395264,
      "epoch": 0.03306666666666667,
      "grad_norm": 7.26207758284529,
      "kl": 9.0859375,
      "learning_rate": 6.627083760031754e-07,
      "loss": 0.3635,
      "reward": 0.9375000298023224,
      "reward_std": 0.6717033982276917,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.7500000298023224,
      "step": 186
    },
    {
      "completion_length": 49.250000953674316,
      "epoch": 0.033244444444444445,
      "grad_norm": 6.343563025728324,
      "kl": 7.396484375,
      "learning_rate": 6.592975326466336e-07,
      "loss": 0.2961,
      "reward": 0.895833358168602,
      "reward_std": 0.393995963037014,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 187
    },
    {
      "completion_length": 49.625000953674316,
      "epoch": 0.03342222222222222,
      "grad_norm": 2.659807025481146,
      "kl": 2.344482421875,
      "learning_rate": 6.558784187487494e-07,
      "loss": 0.0939,
      "reward": 1.2083333730697632,
      "reward_std": 0.5645233578979969,
      "rewards/equation_reward_func": 0.31250000558793545,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 188
    },
    {
      "completion_length": 52.562500953674316,
      "epoch": 0.0336,
      "grad_norm": 1.2466332143572052,
      "kl": 2.30419921875,
      "learning_rate": 6.524512118259121e-07,
      "loss": 0.0922,
      "reward": 1.0625000298023224,
      "reward_std": 0.29669977352023125,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 189
    },
    {
      "completion_length": 51.291667461395264,
      "epoch": 0.033777777777777775,
      "grad_norm": 0.8974480191913635,
      "kl": 1.81787109375,
      "learning_rate": 6.490160898146918e-07,
      "loss": 0.0727,
      "reward": 1.1458333879709244,
      "reward_std": 0.3842546343803406,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 190
    },
    {
      "completion_length": 51.75000190734863,
      "epoch": 0.03395555555555556,
      "grad_norm": 2.4757198804027007,
      "kl": 1.689208984375,
      "learning_rate": 6.455732310626004e-07,
      "loss": 0.0675,
      "reward": 1.0416667014360428,
      "reward_std": 0.47692746296525,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 191
    },
    {
      "completion_length": 51.187500953674316,
      "epoch": 0.034133333333333335,
      "grad_norm": 1.3507594543460832,
      "kl": 1.50927734375,
      "learning_rate": 6.421228143188324e-07,
      "loss": 0.0604,
      "reward": 1.1458333730697632,
      "reward_std": 0.49200813844799995,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 192
    },
    {
      "completion_length": 51.687501430511475,
      "epoch": 0.03431111111111111,
      "grad_norm": 0.6767908253371119,
      "kl": 1.2314453125,
      "learning_rate": 6.386650187249843e-07,
      "loss": 0.0493,
      "reward": 1.0000000223517418,
      "reward_std": 0.23116153106093407,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 193
    },
    {
      "completion_length": 50.14583444595337,
      "epoch": 0.03448888888888889,
      "grad_norm": 1.0489566647059154,
      "kl": 1.8955078125,
      "learning_rate": 6.352000238057539e-07,
      "loss": 0.0759,
      "reward": 0.9791666939854622,
      "reward_std": 0.5161184519529343,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 194
    },
    {
      "completion_length": 51.62500190734863,
      "epoch": 0.034666666666666665,
      "grad_norm": 1.6832436149314471,
      "kl": 2.7314453125,
      "learning_rate": 6.317280094596196e-07,
      "loss": 0.1092,
      "reward": 0.8541666939854622,
      "reward_std": 0.4447544738650322,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 195
    },
    {
      "completion_length": 45.08333396911621,
      "epoch": 0.03484444444444444,
      "grad_norm": 4.004059770646148,
      "kl": 5.3125,
      "learning_rate": 6.282491559495004e-07,
      "loss": 0.2125,
      "reward": 0.9375000111758709,
      "reward_std": 0.45106470584869385,
      "rewards/equation_reward_func": 0.14583333395421505,
      "rewards/format_reward_func": 0.7916666828095913,
      "step": 196
    },
    {
      "completion_length": 43.437500953674316,
      "epoch": 0.035022222222222225,
      "grad_norm": 5.168360687547481,
      "kl": 6.869140625,
      "learning_rate": 6.247636438933962e-07,
      "loss": 0.2745,
      "reward": 0.791666679084301,
      "reward_std": 0.5768304541707039,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.7083333618938923,
      "step": 197
    },
    {
      "completion_length": 51.89583444595337,
      "epoch": 0.0352,
      "grad_norm": 1.3469737406143796,
      "kl": 4.0185546875,
      "learning_rate": 6.212716542550112e-07,
      "loss": 0.1607,
      "reward": 0.937500037252903,
      "reward_std": 0.49327604100108147,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.791666679084301,
      "step": 198
    },
    {
      "completion_length": 50.45833492279053,
      "epoch": 0.03537777777777778,
      "grad_norm": 1.0759183343173833,
      "kl": 1.4365234375,
      "learning_rate": 6.177733683343578e-07,
      "loss": 0.0576,
      "reward": 1.166666716337204,
      "reward_std": 0.5774685852229595,
      "rewards/equation_reward_func": 0.2500000074505806,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 199
    },
    {
      "completion_length": 52.16666793823242,
      "epoch": 0.035555555555555556,
      "grad_norm": 1.3378011133376908,
      "kl": 1.564453125,
      "learning_rate": 6.142689677583445e-07,
      "loss": 0.0626,
      "reward": 1.1250000298023224,
      "reward_std": 0.48728758841753006,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 200
    },
    {
      "completion_length": 53.35416793823242,
      "epoch": 0.03573333333333333,
      "grad_norm": 3.0978024708495218,
      "kl": 1.87646484375,
      "learning_rate": 6.107586344713451e-07,
      "loss": 0.075,
      "reward": 1.1041666865348816,
      "reward_std": 0.4963582567870617,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 201
    },
    {
      "completion_length": 54.60416793823242,
      "epoch": 0.03591111111111111,
      "grad_norm": 1.4803852973189526,
      "kl": 1.585693359375,
      "learning_rate": 6.072425507257527e-07,
      "loss": 0.0633,
      "reward": 1.041666679084301,
      "reward_std": 0.2958494834601879,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.9166666716337204,
      "step": 202
    },
    {
      "completion_length": 50.97916793823242,
      "epoch": 0.036088888888888886,
      "grad_norm": 1.0545514121261095,
      "kl": 3.23779296875,
      "learning_rate": 6.03720899072518e-07,
      "loss": 0.1296,
      "reward": 0.9791667014360428,
      "reward_std": 0.3412862755358219,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 203
    },
    {
      "completion_length": 53.29166793823242,
      "epoch": 0.03626666666666667,
      "grad_norm": 1.258708711483678,
      "kl": 4.0927734375,
      "learning_rate": 6.001938623516705e-07,
      "loss": 0.1635,
      "reward": 0.895833358168602,
      "reward_std": 0.5528258420526981,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 204
    },
    {
      "completion_length": 52.562501430511475,
      "epoch": 0.036444444444444446,
      "grad_norm": 1.192627874291934,
      "kl": 4.099365234375,
      "learning_rate": 5.966616236828262e-07,
      "loss": 0.1639,
      "reward": 0.8750000204890966,
      "reward_std": 0.5111859105527401,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.7291666772216558,
      "step": 205
    },
    {
      "completion_length": 51.97916841506958,
      "epoch": 0.03662222222222222,
      "grad_norm": 0.9273331385562189,
      "kl": 2.384033203125,
      "learning_rate": 5.931243664556802e-07,
      "loss": 0.0952,
      "reward": 1.0208333730697632,
      "reward_std": 0.40168892592191696,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 206
    },
    {
      "completion_length": 52.937500953674316,
      "epoch": 0.0368,
      "grad_norm": 1.8010297199927365,
      "kl": 3.5654296875,
      "learning_rate": 5.895822743204855e-07,
      "loss": 0.1426,
      "reward": 0.9583333730697632,
      "reward_std": 0.5215550065040588,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 207
    },
    {
      "completion_length": 51.60416841506958,
      "epoch": 0.036977777777777776,
      "grad_norm": 2.2135535055122597,
      "kl": 4.67578125,
      "learning_rate": 5.860355311785175e-07,
      "loss": 0.1869,
      "reward": 0.7916667014360428,
      "reward_std": 0.5062714368104935,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7291666828095913,
      "step": 208
    },
    {
      "completion_length": 51.187501430511475,
      "epoch": 0.03715555555555555,
      "grad_norm": 1.4267067115373708,
      "kl": 5.53515625,
      "learning_rate": 5.824843211725264e-07,
      "loss": 0.221,
      "reward": 0.7916666939854622,
      "reward_std": 0.5978475920855999,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.6875000149011612,
      "step": 209
    },
    {
      "completion_length": 46.83333492279053,
      "epoch": 0.037333333333333336,
      "grad_norm": 2.8629336811508863,
      "kl": 5.829345703125,
      "learning_rate": 5.78928828677177e-07,
      "loss": 0.2335,
      "reward": 0.7916667014360428,
      "reward_std": 0.6519223563373089,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.6458333507180214,
      "step": 210
    },
    {
      "completion_length": 56.500001430511475,
      "epoch": 0.03751111111111111,
      "grad_norm": 4.250283297994686,
      "kl": 3.20849609375,
      "learning_rate": 5.753692382894759e-07,
      "loss": 0.1283,
      "reward": 0.8958333544433117,
      "reward_std": 0.6043893173336983,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7083333469927311,
      "step": 211
    },
    {
      "completion_length": 54.375001430511475,
      "epoch": 0.03768888888888889,
      "grad_norm": 1.3837454584410787,
      "kl": 2.209228515625,
      "learning_rate": 5.718057348191874e-07,
      "loss": 0.0884,
      "reward": 0.8541666902601719,
      "reward_std": 0.6237337328493595,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.7083333544433117,
      "step": 212
    },
    {
      "completion_length": 51.89583444595337,
      "epoch": 0.037866666666666667,
      "grad_norm": 2.4493534707311713,
      "kl": 2.712158203125,
      "learning_rate": 5.682385032792385e-07,
      "loss": 0.1085,
      "reward": 0.7916666753590107,
      "reward_std": 0.5281161963939667,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.7083333544433117,
      "step": 213
    },
    {
      "completion_length": 55.89583492279053,
      "epoch": 0.03804444444444444,
      "grad_norm": 2.2208225510289012,
      "kl": 2.525634765625,
      "learning_rate": 5.646677288761132e-07,
      "loss": 0.101,
      "reward": 0.9791667014360428,
      "reward_std": 0.5173863507807255,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 214
    },
    {
      "completion_length": 57.33333444595337,
      "epoch": 0.03822222222222222,
      "grad_norm": 0.8710411293209732,
      "kl": 2.434814453125,
      "learning_rate": 5.610935970002365e-07,
      "loss": 0.0974,
      "reward": 0.9375000223517418,
      "reward_std": 0.5438718348741531,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 215
    },
    {
      "completion_length": 52.89583492279053,
      "epoch": 0.0384,
      "grad_norm": 3.567048205512723,
      "kl": 5.6318359375,
      "learning_rate": 5.575162932163501e-07,
      "loss": 0.2252,
      "reward": 0.7916666865348816,
      "reward_std": 0.6442962922155857,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.6666666865348816,
      "step": 216
    },
    {
      "completion_length": 47.85416793823242,
      "epoch": 0.03857777777777778,
      "grad_norm": 5.381576408790184,
      "kl": 7.646484375,
      "learning_rate": 5.53936003253877e-07,
      "loss": 0.3065,
      "reward": 0.6041666883975267,
      "reward_std": 0.5564196482300758,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.5625000167638063,
      "step": 217
    },
    {
      "completion_length": 57.354167461395264,
      "epoch": 0.03875555555555556,
      "grad_norm": 2.8527721738006755,
      "kl": 5.25146484375,
      "learning_rate": 5.503529129972792e-07,
      "loss": 0.2104,
      "reward": 0.8333333618938923,
      "reward_std": 0.5661325417459011,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7083333469927311,
      "step": 218
    },
    {
      "completion_length": 52.77083444595337,
      "epoch": 0.038933333333333334,
      "grad_norm": 0.9510637073032893,
      "kl": 4.537109375,
      "learning_rate": 5.467672084764065e-07,
      "loss": 0.1813,
      "reward": 0.7083333469927311,
      "reward_std": 0.5277270041406155,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.6458333469927311,
      "step": 219
    },
    {
      "completion_length": 56.437501430511475,
      "epoch": 0.03911111111111111,
      "grad_norm": 1.4626021636984767,
      "kl": 3.047607421875,
      "learning_rate": 5.431790758568388e-07,
      "loss": 0.122,
      "reward": 0.7916666902601719,
      "reward_std": 0.5062714405357838,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.7083333618938923,
      "step": 220
    },
    {
      "completion_length": 52.29166793823242,
      "epoch": 0.03928888888888889,
      "grad_norm": 1.2504772253255731,
      "kl": 3.7666015625,
      "learning_rate": 5.395887014302191e-07,
      "loss": 0.1507,
      "reward": 0.8125000186264515,
      "reward_std": 0.4043150581419468,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.7708333544433117,
      "step": 221
    },
    {
      "completion_length": 58.39583492279053,
      "epoch": 0.039466666666666664,
      "grad_norm": 1.7464009649268544,
      "kl": 3.71337890625,
      "learning_rate": 5.359962716045835e-07,
      "loss": 0.1485,
      "reward": 0.7916666772216558,
      "reward_std": 0.5010788105428219,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.7083333563059568,
      "step": 222
    },
    {
      "completion_length": 61.41666841506958,
      "epoch": 0.03964444444444445,
      "grad_norm": 3.039553978693204,
      "kl": 1.073974609375,
      "learning_rate": 5.324019728946812e-07,
      "loss": 0.043,
      "reward": 0.854166679084301,
      "reward_std": 0.36124951019883156,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 223
    },
    {
      "completion_length": 56.50000238418579,
      "epoch": 0.039822222222222224,
      "grad_norm": 2.0365403750402704,
      "kl": 1.76123046875,
      "learning_rate": 5.288059919122921e-07,
      "loss": 0.0705,
      "reward": 0.9583333656191826,
      "reward_std": 0.45534609258174896,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 224
    },
    {
      "completion_length": 61.14583492279053,
      "epoch": 0.04,
      "grad_norm": 2.811287393829535,
      "kl": 0.533447265625,
      "learning_rate": 5.252085153565374e-07,
      "loss": 0.0213,
      "reward": 1.1875000298023224,
      "reward_std": 0.37868379428982735,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 225
    },
    {
      "completion_length": 59.437501430511475,
      "epoch": 0.04017777777777778,
      "grad_norm": 2.3086911193675315,
      "kl": 0.8291015625,
      "learning_rate": 5.216097300041869e-07,
      "loss": 0.0332,
      "reward": 1.0416667014360428,
      "reward_std": 0.3477308079600334,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 226
    },
    {
      "completion_length": 62.20833492279053,
      "epoch": 0.040355555555555554,
      "grad_norm": 4.276021428219898,
      "kl": 0.727783203125,
      "learning_rate": 5.180098226999618e-07,
      "loss": 0.0291,
      "reward": 1.062500037252903,
      "reward_std": 0.4822668209671974,
      "rewards/equation_reward_func": 0.18750000186264515,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 227
    },
    {
      "completion_length": 65.10416889190674,
      "epoch": 0.04053333333333333,
      "grad_norm": 1.2764419644302698,
      "kl": 0.894775390625,
      "learning_rate": 5.144089803468332e-07,
      "loss": 0.0358,
      "reward": 1.1250000447034836,
      "reward_std": 0.4984116405248642,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 228
    },
    {
      "completion_length": 55.812501430511475,
      "epoch": 0.040711111111111115,
      "grad_norm": 1.717756013089439,
      "kl": 1.95361328125,
      "learning_rate": 5.108073898963193e-07,
      "loss": 0.0781,
      "reward": 0.9583333656191826,
      "reward_std": 0.3477308079600334,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 229
    },
    {
      "completion_length": 57.02083444595337,
      "epoch": 0.04088888888888889,
      "grad_norm": 1.9105584928374175,
      "kl": 3.0869140625,
      "learning_rate": 5.072052383387786e-07,
      "loss": 0.1236,
      "reward": 0.9375000260770321,
      "reward_std": 0.37575671821832657,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8333333469927311,
      "step": 230
    },
    {
      "completion_length": 53.437501430511475,
      "epoch": 0.04106666666666667,
      "grad_norm": 3.2606237368453375,
      "kl": 6.6767578125,
      "learning_rate": 5.036027126937013e-07,
      "loss": 0.2667,
      "reward": 0.7708333656191826,
      "reward_std": 0.5834501683712006,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.6458333469927311,
      "step": 231
    },
    {
      "completion_length": 57.43750190734863,
      "epoch": 0.041244444444444445,
      "grad_norm": 4.160342344463272,
      "kl": 5.7734375,
      "learning_rate": 5e-07,
      "loss": 0.2307,
      "reward": 0.7916666939854622,
      "reward_std": 0.550732146948576,
      "rewards/equation_reward_func": 0.08333333395421505,
      "rewards/format_reward_func": 0.708333358168602,
      "step": 232
    },
    {
      "completion_length": 50.937501430511475,
      "epoch": 0.04142222222222222,
      "grad_norm": 1.7460050228805684,
      "kl": 5.1337890625,
      "learning_rate": 4.963972873062987e-07,
      "loss": 0.2054,
      "reward": 0.8958333618938923,
      "reward_std": 0.609845332801342,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7083333507180214,
      "step": 233
    },
    {
      "completion_length": 59.77083396911621,
      "epoch": 0.0416,
      "grad_norm": 0.9068735838301717,
      "kl": 2.849609375,
      "learning_rate": 4.927947616612215e-07,
      "loss": 0.1138,
      "reward": 0.958333358168602,
      "reward_std": 0.36931218579411507,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 234
    },
    {
      "completion_length": 57.58333492279053,
      "epoch": 0.041777777777777775,
      "grad_norm": 2.6421618291419535,
      "kl": 2.1416015625,
      "learning_rate": 4.891926101036806e-07,
      "loss": 0.0856,
      "reward": 0.875000037252903,
      "reward_std": 0.45271996036171913,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 235
    },
    {
      "completion_length": 61.14583492279053,
      "epoch": 0.04195555555555556,
      "grad_norm": 2.420138039635954,
      "kl": 1.884765625,
      "learning_rate": 4.855910196531669e-07,
      "loss": 0.0753,
      "reward": 0.8541667014360428,
      "reward_std": 0.5093041993677616,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 236
    },
    {
      "completion_length": 57.625000953674316,
      "epoch": 0.042133333333333335,
      "grad_norm": 2.23529671294081,
      "kl": 1.854248046875,
      "learning_rate": 4.819901773000383e-07,
      "loss": 0.074,
      "reward": 0.9791667088866234,
      "reward_std": 0.5189073011279106,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 237
    },
    {
      "completion_length": 52.47916793823242,
      "epoch": 0.04231111111111111,
      "grad_norm": 1.6361655131027242,
      "kl": 5.17529296875,
      "learning_rate": 4.783902699958129e-07,
      "loss": 0.2068,
      "reward": 0.8125000298023224,
      "reward_std": 0.5698040388524532,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7083333507180214,
      "step": 238
    },
    {
      "completion_length": 49.375001430511475,
      "epoch": 0.04248888888888889,
      "grad_norm": 1.222312539805785,
      "kl": 5.5263671875,
      "learning_rate": 4.747914846434627e-07,
      "loss": 0.2211,
      "reward": 0.9166667088866234,
      "reward_std": 0.6387733817100525,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7500000298023224,
      "step": 239
    },
    {
      "completion_length": 51.750001430511475,
      "epoch": 0.042666666666666665,
      "grad_norm": 1.9824590980545862,
      "kl": 4.46875,
      "learning_rate": 4.711940080877079e-07,
      "loss": 0.1786,
      "reward": 1.0208333767950535,
      "reward_std": 0.5363415889441967,
      "rewards/equation_reward_func": 0.22916667349636555,
      "rewards/format_reward_func": 0.7916666753590107,
      "step": 240
    },
    {
      "completion_length": 54.687500953674316,
      "epoch": 0.04284444444444444,
      "grad_norm": 1.6661289610091754,
      "kl": 4.4775390625,
      "learning_rate": 4.675980271053187e-07,
      "loss": 0.1791,
      "reward": 0.8750000298023224,
      "reward_std": 0.4297148250043392,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 241
    },
    {
      "completion_length": 50.437501430511475,
      "epoch": 0.043022222222222226,
      "grad_norm": 3.5074096399017862,
      "kl": 6.017578125,
      "learning_rate": 4.6400372839541647e-07,
      "loss": 0.2406,
      "reward": 0.8541666828095913,
      "reward_std": 0.5376026295125484,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7291666828095913,
      "step": 242
    },
    {
      "completion_length": 52.10416793823242,
      "epoch": 0.0432,
      "grad_norm": 3.137739294752723,
      "kl": 4.3701171875,
      "learning_rate": 4.6041129856978083e-07,
      "loss": 0.1746,
      "reward": 0.8958333656191826,
      "reward_std": 0.47406983748078346,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.791666679084301,
      "step": 243
    },
    {
      "completion_length": 56.16666793823242,
      "epoch": 0.04337777777777778,
      "grad_norm": 1.638039054641607,
      "kl": 2.74462890625,
      "learning_rate": 4.568209241431614e-07,
      "loss": 0.11,
      "reward": 0.9375000447034836,
      "reward_std": 0.3842546418309212,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 244
    },
    {
      "completion_length": 59.791667461395264,
      "epoch": 0.043555555555555556,
      "grad_norm": 1.4835502515862988,
      "kl": 2.812744140625,
      "learning_rate": 4.532327915235935e-07,
      "loss": 0.1124,
      "reward": 1.0416666939854622,
      "reward_std": 0.49689069390296936,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 245
    },
    {
      "completion_length": 58.87500238418579,
      "epoch": 0.04373333333333333,
      "grad_norm": 1.2125553729452667,
      "kl": 1.87158203125,
      "learning_rate": 4.4964708700272086e-07,
      "loss": 0.0746,
      "reward": 1.0000000298023224,
      "reward_std": 0.3747682049870491,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 246
    },
    {
      "completion_length": 59.83333444595337,
      "epoch": 0.04391111111111111,
      "grad_norm": 0.8400742214946505,
      "kl": 1.407470703125,
      "learning_rate": 4.4606399674612306e-07,
      "loss": 0.0563,
      "reward": 1.1041666865348816,
      "reward_std": 0.2591874338686466,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 247
    },
    {
      "completion_length": 56.31250238418579,
      "epoch": 0.044088888888888886,
      "grad_norm": 1.5894946494651951,
      "kl": 2.568603515625,
      "learning_rate": 4.424837067836499e-07,
      "loss": 0.1027,
      "reward": 1.1458333507180214,
      "reward_std": 0.41730131581425667,
      "rewards/equation_reward_func": 0.2500000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 248
    },
    {
      "completion_length": 57.97916793823242,
      "epoch": 0.04426666666666667,
      "grad_norm": 1.5682356442872543,
      "kl": 0.796142578125,
      "learning_rate": 4.389064029997634e-07,
      "loss": 0.0319,
      "reward": 1.208333358168602,
      "reward_std": 0.4256649389863014,
      "rewards/equation_reward_func": 0.2500000037252903,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 249
    },
    {
      "completion_length": 53.187501430511475,
      "epoch": 0.044444444444444446,
      "grad_norm": 1.616534745852269,
      "kl": 2.35107421875,
      "learning_rate": 4.353322711238869e-07,
      "loss": 0.094,
      "reward": 1.0833333805203438,
      "reward_std": 0.5344030410051346,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 250
    },
    {
      "completion_length": 56.437501430511475,
      "epoch": 0.04462222222222222,
      "grad_norm": 0.9960822449051799,
      "kl": 2.34619140625,
      "learning_rate": 4.3176149672076143e-07,
      "loss": 0.0939,
      "reward": 1.0000000149011612,
      "reward_std": 0.3006153665482998,
      "rewards/equation_reward_func": 0.08333333395421505,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 251
    },
    {
      "completion_length": 58.354167461395264,
      "epoch": 0.0448,
      "grad_norm": 1.4205394021526243,
      "kl": 2.93505859375,
      "learning_rate": 4.2819426518081256e-07,
      "loss": 0.1178,
      "reward": 1.1458333656191826,
      "reward_std": 0.5342973358929157,
      "rewards/equation_reward_func": 0.2708333395421505,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 252
    },
    {
      "completion_length": 52.416667461395264,
      "epoch": 0.044977777777777776,
      "grad_norm": 4.465478199693993,
      "kl": 4.697509765625,
      "learning_rate": 4.246307617105241e-07,
      "loss": 0.1876,
      "reward": 1.0625000223517418,
      "reward_std": 0.5653560161590576,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 253
    },
    {
      "completion_length": 53.77083396911621,
      "epoch": 0.04515555555555555,
      "grad_norm": 2.9278233844283457,
      "kl": 5.1484375,
      "learning_rate": 4.21071171322823e-07,
      "loss": 0.206,
      "reward": 0.9583333693444729,
      "reward_std": 0.5784117728471756,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.7708333544433117,
      "step": 254
    },
    {
      "completion_length": 46.81250071525574,
      "epoch": 0.04533333333333334,
      "grad_norm": 3.0060965561056654,
      "kl": 6.7744140625,
      "learning_rate": 4.1751567882747373e-07,
      "loss": 0.2713,
      "reward": 1.0000000298023224,
      "reward_std": 0.6698537915945053,
      "rewards/equation_reward_func": 0.25000000186264515,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 255
    },
    {
      "completion_length": 52.812501430511475,
      "epoch": 0.04551111111111111,
      "grad_norm": 2.435192469284996,
      "kl": 3.97900390625,
      "learning_rate": 4.139644688214826e-07,
      "loss": 0.1592,
      "reward": 0.9583333730697632,
      "reward_std": 0.44083887711167336,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 256
    },
    {
      "completion_length": 54.500000953674316,
      "epoch": 0.04568888888888889,
      "grad_norm": 2.3477327869102136,
      "kl": 4.3671875,
      "learning_rate": 4.104177256795144e-07,
      "loss": 0.1747,
      "reward": 1.1250000298023224,
      "reward_std": 0.5271082073450089,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 257
    },
    {
      "completion_length": 55.562501430511475,
      "epoch": 0.04586666666666667,
      "grad_norm": 1.462739785577378,
      "kl": 1.19873046875,
      "learning_rate": 4.068756335443198e-07,
      "loss": 0.0481,
      "reward": 1.083333358168602,
      "reward_std": 0.42273785918951035,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 258
    },
    {
      "completion_length": 54.10416841506958,
      "epoch": 0.04604444444444444,
      "grad_norm": 1.0194230408797653,
      "kl": 1.746826171875,
      "learning_rate": 4.0333837631717376e-07,
      "loss": 0.07,
      "reward": 1.1250000447034836,
      "reward_std": 0.4783512204885483,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 259
    },
    {
      "completion_length": 54.27083444595337,
      "epoch": 0.04622222222222222,
      "grad_norm": 1.2154097528831294,
      "kl": 2.1083984375,
      "learning_rate": 3.998061376483297e-07,
      "loss": 0.0844,
      "reward": 1.0833333730697632,
      "reward_std": 0.44083888456225395,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 260
    },
    {
      "completion_length": 52.75000190734863,
      "epoch": 0.0464,
      "grad_norm": 0.8928800361092635,
      "kl": 2.84619140625,
      "learning_rate": 3.9627910092748204e-07,
      "loss": 0.1137,
      "reward": 0.8750000074505806,
      "reward_std": 0.3061685785651207,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.8333333432674408,
      "step": 261
    },
    {
      "completion_length": 48.687500953674316,
      "epoch": 0.04657777777777778,
      "grad_norm": 2.0850690944306476,
      "kl": 4.7197265625,
      "learning_rate": 3.9275744927424723e-07,
      "loss": 0.1885,
      "reward": 0.958333358168602,
      "reward_std": 0.5193834900856018,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.7708333544433117,
      "step": 262
    },
    {
      "completion_length": 48.187501430511475,
      "epoch": 0.04675555555555556,
      "grad_norm": 1.408092281724432,
      "kl": 4.294189453125,
      "learning_rate": 3.89241365528655e-07,
      "loss": 0.1719,
      "reward": 0.8333333507180214,
      "reward_std": 0.5240839421749115,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.708333358168602,
      "step": 263
    },
    {
      "completion_length": 51.64583396911621,
      "epoch": 0.046933333333333334,
      "grad_norm": 1.9193528605234629,
      "kl": 3.56005859375,
      "learning_rate": 3.8573103224165547e-07,
      "loss": 0.1424,
      "reward": 0.8333333656191826,
      "reward_std": 0.6091980896890163,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7083333507180214,
      "step": 264
    },
    {
      "completion_length": 51.37500047683716,
      "epoch": 0.04711111111111111,
      "grad_norm": 1.8731610861564136,
      "kl": 3.638671875,
      "learning_rate": 3.8222663166564207e-07,
      "loss": 0.1455,
      "reward": 0.8125000298023224,
      "reward_std": 0.6027945913374424,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.6875000149011612,
      "step": 265
    },
    {
      "completion_length": 58.45833492279053,
      "epoch": 0.04728888888888889,
      "grad_norm": 1.1952492746934869,
      "kl": 1.924560546875,
      "learning_rate": 3.787283457449889e-07,
      "loss": 0.0769,
      "reward": 1.1666666939854622,
      "reward_std": 0.48326630517840385,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 266
    },
    {
      "completion_length": 45.64583444595337,
      "epoch": 0.047466666666666664,
      "grad_norm": 3.8058624476316156,
      "kl": 7.12890625,
      "learning_rate": 3.752363561066039e-07,
      "loss": 0.285,
      "reward": 0.729166692122817,
      "reward_std": 0.5802789963781834,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.6250000204890966,
      "step": 267
    },
    {
      "completion_length": 52.70833492279053,
      "epoch": 0.04764444444444445,
      "grad_norm": 1.2974618772894446,
      "kl": 3.54248046875,
      "learning_rate": 3.717508440504997e-07,
      "loss": 0.1417,
      "reward": 0.8750000298023224,
      "reward_std": 0.37628914788365364,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 268
    },
    {
      "completion_length": 51.687500953674316,
      "epoch": 0.047822222222222224,
      "grad_norm": 1.8625385243751729,
      "kl": 3.452392578125,
      "learning_rate": 3.6827199054038036e-07,
      "loss": 0.1382,
      "reward": 0.9791666865348816,
      "reward_std": 0.5766182914376259,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 269
    },
    {
      "completion_length": 50.500000953674316,
      "epoch": 0.048,
      "grad_norm": 1.3683659232487602,
      "kl": 3.94140625,
      "learning_rate": 3.64799976194246e-07,
      "loss": 0.1577,
      "reward": 0.895833358168602,
      "reward_std": 0.4043150581419468,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 270
    },
    {
      "completion_length": 53.187501430511475,
      "epoch": 0.04817777777777778,
      "grad_norm": 1.7916494340378104,
      "kl": 4.187255859375,
      "learning_rate": 3.613349812750158e-07,
      "loss": 0.1672,
      "reward": 0.9375000223517418,
      "reward_std": 0.5739921554923058,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 271
    },
    {
      "completion_length": 49.10416793823242,
      "epoch": 0.048355555555555554,
      "grad_norm": 1.9583453292652802,
      "kl": 2.42236328125,
      "learning_rate": 3.5787718568116757e-07,
      "loss": 0.0969,
      "reward": 0.895833358168602,
      "reward_std": 0.425799235701561,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 272
    },
    {
      "completion_length": 40.875001430511475,
      "epoch": 0.04853333333333333,
      "grad_norm": 2.7960145232227065,
      "kl": 5.267578125,
      "learning_rate": 3.544267689373995e-07,
      "loss": 0.2103,
      "reward": 0.9375000223517418,
      "reward_std": 0.6141306385397911,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 273
    },
    {
      "completion_length": 52.95833444595337,
      "epoch": 0.04871111111111111,
      "grad_norm": 1.182957198324338,
      "kl": 1.4658203125,
      "learning_rate": 3.5098391018530813e-07,
      "loss": 0.0587,
      "reward": 1.1458333730697632,
      "reward_std": 0.48782002180814743,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 274
    },
    {
      "completion_length": 47.39583444595337,
      "epoch": 0.04888888888888889,
      "grad_norm": 3.75146574426156,
      "kl": 5.2431640625,
      "learning_rate": 3.4754878817408783e-07,
      "loss": 0.2094,
      "reward": 0.9166666939854622,
      "reward_std": 0.5990909859538078,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 275
    },
    {
      "completion_length": 55.395835399627686,
      "epoch": 0.04906666666666667,
      "grad_norm": 0.6517175065786031,
      "kl": 1.81494140625,
      "learning_rate": 3.4412158125125073e-07,
      "loss": 0.0726,
      "reward": 1.1041666939854622,
      "reward_std": 0.36417657881975174,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 276
    },
    {
      "completion_length": 51.45833396911621,
      "epoch": 0.049244444444444445,
      "grad_norm": 1.1960838188628722,
      "kl": 2.79052734375,
      "learning_rate": 3.4070246735336645e-07,
      "loss": 0.1116,
      "reward": 0.9583333656191826,
      "reward_std": 0.4338619150221348,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 277
    },
    {
      "completion_length": 51.39583492279053,
      "epoch": 0.04942222222222222,
      "grad_norm": 1.8424306070085834,
      "kl": 2.34814453125,
      "learning_rate": 3.372916239968245e-07,
      "loss": 0.094,
      "reward": 0.9791666939854622,
      "reward_std": 0.28219256550073624,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 278
    },
    {
      "completion_length": 54.187500953674316,
      "epoch": 0.0496,
      "grad_norm": 1.1766152581682274,
      "kl": 0.583251953125,
      "learning_rate": 3.3388922826861785e-07,
      "loss": 0.0233,
      "reward": 1.1875000298023224,
      "reward_std": 0.40168892219662666,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 279
    },
    {
      "completion_length": 54.66666793823242,
      "epoch": 0.049777777777777775,
      "grad_norm": 1.8840677531860919,
      "kl": 0.906982421875,
      "learning_rate": 3.3049545681714775e-07,
      "loss": 0.0363,
      "reward": 1.1041667014360428,
      "reward_std": 0.33713918924331665,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 280
    },
    {
      "completion_length": 55.312500953674316,
      "epoch": 0.04995555555555556,
      "grad_norm": 1.2002604740905347,
      "kl": 0.96142578125,
      "learning_rate": 3.271104858430537e-07,
      "loss": 0.0384,
      "reward": 1.1666667014360428,
      "reward_std": 0.47278038039803505,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 281
    },
    {
      "completion_length": 56.79166841506958,
      "epoch": 0.050133333333333335,
      "grad_norm": 0.6508397200310873,
      "kl": 0.695556640625,
      "learning_rate": 3.2373449109006474e-07,
      "loss": 0.0278,
      "reward": 1.2291667014360428,
      "reward_std": 0.299626849591732,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 1.0,
      "step": 282
    },
    {
      "completion_length": 55.833335399627686,
      "epoch": 0.05031111111111111,
      "grad_norm": 0.8421705085055283,
      "kl": 0.91455078125,
      "learning_rate": 3.2036764783587444e-07,
      "loss": 0.0366,
      "reward": 1.0833333730697632,
      "reward_std": 0.3589930906891823,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 283
    },
    {
      "completion_length": 54.187501430511475,
      "epoch": 0.05048888888888889,
      "grad_norm": 0.852398579960793,
      "kl": 1.685791015625,
      "learning_rate": 3.1701013088304206e-07,
      "loss": 0.0673,
      "reward": 1.0208333507180214,
      "reward_std": 0.43918363004922867,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 284
    },
    {
      "completion_length": 51.70833444595337,
      "epoch": 0.050666666666666665,
      "grad_norm": 2.0270999635419984,
      "kl": 2.473388671875,
      "learning_rate": 3.1366211454991556e-07,
      "loss": 0.0991,
      "reward": 0.958333358168602,
      "reward_std": 0.41783374920487404,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 285
    },
    {
      "completion_length": 53.750001430511475,
      "epoch": 0.05084444444444444,
      "grad_norm": 2.1019015776731607,
      "kl": 1.8466796875,
      "learning_rate": 3.1032377266158214e-07,
      "loss": 0.0738,
      "reward": 1.0000000298023224,
      "reward_std": 0.4847872592508793,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 286
    },
    {
      "completion_length": 54.64583492279053,
      "epoch": 0.05102222222222222,
      "grad_norm": 2.0006844871954352,
      "kl": 2.72509765625,
      "learning_rate": 3.0699527854084335e-07,
      "loss": 0.109,
      "reward": 0.9791667014360428,
      "reward_std": 0.47457385435700417,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 287
    },
    {
      "completion_length": 56.270835399627686,
      "epoch": 0.0512,
      "grad_norm": 0.9939066440838259,
      "kl": 2.009765625,
      "learning_rate": 3.036768049992157e-07,
      "loss": 0.0803,
      "reward": 1.062500037252903,
      "reward_std": 0.41619613766670227,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 288
    },
    {
      "completion_length": 52.83333492279053,
      "epoch": 0.05137777777777778,
      "grad_norm": 1.3462986622451496,
      "kl": 2.93408203125,
      "learning_rate": 3.003685243279592e-07,
      "loss": 0.1172,
      "reward": 1.0625000298023224,
      "reward_std": 0.5250724591314793,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 289
    },
    {
      "completion_length": 54.416667461395264,
      "epoch": 0.051555555555555556,
      "grad_norm": 1.2162218711888282,
      "kl": 2.576171875,
      "learning_rate": 2.9707060828913224e-07,
      "loss": 0.1031,
      "reward": 1.145833358168602,
      "reward_std": 0.495253074914217,
      "rewards/equation_reward_func": 0.2500000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 290
    },
    {
      "completion_length": 50.77083396911621,
      "epoch": 0.05173333333333333,
      "grad_norm": 3.4755720807784884,
      "kl": 5.18798828125,
      "learning_rate": 2.9378322810667304e-07,
      "loss": 0.2078,
      "reward": 1.0625000298023224,
      "reward_std": 0.6527481563389301,
      "rewards/equation_reward_func": 0.22916667349636555,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 291
    },
    {
      "completion_length": 52.39583444595337,
      "epoch": 0.05191111111111111,
      "grad_norm": 2.583945749010597,
      "kl": 5.158203125,
      "learning_rate": 2.9050655445751137e-07,
      "loss": 0.2066,
      "reward": 0.9791666865348816,
      "reward_std": 0.6126096844673157,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 292
    },
    {
      "completion_length": 53.70833444595337,
      "epoch": 0.052088888888888886,
      "grad_norm": 2.4978389077752206,
      "kl": 4.4462890625,
      "learning_rate": 2.872407574627051e-07,
      "loss": 0.1783,
      "reward": 1.1041666865348816,
      "reward_std": 0.4737689010798931,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 293
    },
    {
      "completion_length": 53.89583444595337,
      "epoch": 0.05226666666666667,
      "grad_norm": 4.46081810506806,
      "kl": 6.01220703125,
      "learning_rate": 2.839860066786103e-07,
      "loss": 0.2403,
      "reward": 0.937500037252903,
      "reward_std": 0.5994852036237717,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 294
    },
    {
      "completion_length": 55.66666841506958,
      "epoch": 0.052444444444444446,
      "grad_norm": 1.7753949998719913,
      "kl": 4.2880859375,
      "learning_rate": 2.807424710880756e-07,
      "loss": 0.1712,
      "reward": 1.0000000149011612,
      "reward_std": 0.6212911605834961,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 295
    },
    {
      "completion_length": 49.72916793823242,
      "epoch": 0.05262222222222222,
      "grad_norm": 3.7499389172897573,
      "kl": 5.09375,
      "learning_rate": 2.7751031909167045e-07,
      "loss": 0.204,
      "reward": 0.8750000298023224,
      "reward_std": 0.49983540177345276,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7708333432674408,
      "step": 296
    },
    {
      "completion_length": 53.10416793823242,
      "epoch": 0.0528,
      "grad_norm": 1.3578432580665998,
      "kl": 2.974609375,
      "learning_rate": 2.742897184989414e-07,
      "loss": 0.1191,
      "reward": 1.0625000521540642,
      "reward_std": 0.4058360084891319,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 297
    },
    {
      "completion_length": 57.458335399627686,
      "epoch": 0.052977777777777776,
      "grad_norm": 1.2056020602520727,
      "kl": 1.7373046875,
      "learning_rate": 2.710808365197e-07,
      "loss": 0.0695,
      "reward": 1.2083333730697632,
      "reward_std": 0.49666832759976387,
      "rewards/equation_reward_func": 0.27083333767950535,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 298
    },
    {
      "completion_length": 55.02083396911621,
      "epoch": 0.05315555555555555,
      "grad_norm": 1.2324543500459841,
      "kl": 2.1708984375,
      "learning_rate": 2.6788383975533993e-07,
      "loss": 0.0867,
      "reward": 1.0208333805203438,
      "reward_std": 0.4488043636083603,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 299
    },
    {
      "completion_length": 55.08333492279053,
      "epoch": 0.05333333333333334,
      "grad_norm": 0.6124221980932599,
      "kl": 1.42626953125,
      "learning_rate": 2.646988941901898e-07,
      "loss": 0.057,
      "reward": 1.1041666865348816,
      "reward_std": 0.2350771240890026,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 300
    },
    {
      "completion_length": 56.312501430511475,
      "epoch": 0.05351111111111111,
      "grad_norm": 0.4101111309943839,
      "kl": 1.00390625,
      "learning_rate": 2.6152616518289305e-07,
      "loss": 0.0401,
      "reward": 1.1458333730697632,
      "reward_std": 0.26070838421583176,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 301
    },
    {
      "completion_length": 56.9166693687439,
      "epoch": 0.05368888888888889,
      "grad_norm": 2.0632242124320124,
      "kl": 0.875,
      "learning_rate": 2.583658174578247e-07,
      "loss": 0.035,
      "reward": 1.1041667014360428,
      "reward_std": 0.28219256177544594,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 302
    },
    {
      "completion_length": 56.04166793823242,
      "epoch": 0.05386666666666667,
      "grad_norm": 3.089941069383616,
      "kl": 0.99755859375,
      "learning_rate": 2.5521801509653717e-07,
      "loss": 0.0399,
      "reward": 1.1875000447034836,
      "reward_std": 0.4592616818845272,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 303
    },
    {
      "completion_length": 53.312501430511475,
      "epoch": 0.054044444444444444,
      "grad_norm": 1.232358463835666,
      "kl": 2.2294921875,
      "learning_rate": 2.520829215292426e-07,
      "loss": 0.0892,
      "reward": 1.2291667088866234,
      "reward_std": 0.471791859716177,
      "rewards/equation_reward_func": 0.29166667349636555,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 304
    },
    {
      "completion_length": 52.687501430511475,
      "epoch": 0.05422222222222222,
      "grad_norm": 1.1619189366071008,
      "kl": 3.21044921875,
      "learning_rate": 2.4896069952632787e-07,
      "loss": 0.1283,
      "reward": 1.0208333730697632,
      "reward_std": 0.5709268562495708,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 305
    },
    {
      "completion_length": 58.81250190734863,
      "epoch": 0.0544,
      "grad_norm": 1.1697787944882119,
      "kl": 1.681640625,
      "learning_rate": 2.4585151118990285e-07,
      "loss": 0.0673,
      "reward": 1.1666666865348816,
      "reward_std": 0.4442220404744148,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 306
    },
    {
      "completion_length": 53.22916841506958,
      "epoch": 0.05457777777777778,
      "grad_norm": 1.701139042149517,
      "kl": 3.260986328125,
      "learning_rate": 2.427555179453844e-07,
      "loss": 0.1302,
      "reward": 0.9583333656191826,
      "reward_std": 0.46985330432653427,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 307
    },
    {
      "completion_length": 55.81250190734863,
      "epoch": 0.05475555555555556,
      "grad_norm": 1.1582168355268272,
      "kl": 2.69091796875,
      "learning_rate": 2.396728805331167e-07,
      "loss": 0.1079,
      "reward": 1.0625000074505806,
      "reward_std": 0.5002285167574883,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 308
    },
    {
      "completion_length": 50.500001430511475,
      "epoch": 0.054933333333333334,
      "grad_norm": 1.666774374427531,
      "kl": 3.728515625,
      "learning_rate": 2.366037590000236e-07,
      "loss": 0.1491,
      "reward": 0.8750000298023224,
      "reward_std": 0.46232305839657784,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 309
    },
    {
      "completion_length": 56.000000953674316,
      "epoch": 0.05511111111111111,
      "grad_norm": 0.9155411365595406,
      "kl": 2.46533203125,
      "learning_rate": 2.3354831269130132e-07,
      "loss": 0.0986,
      "reward": 1.1250000298023224,
      "reward_std": 0.49133748933672905,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 310
    },
    {
      "completion_length": 55.83333444595337,
      "epoch": 0.05528888888888889,
      "grad_norm": 1.0525255657485806,
      "kl": 3.048828125,
      "learning_rate": 2.3050670024214375e-07,
      "loss": 0.1218,
      "reward": 1.0000000447034836,
      "reward_std": 0.5053886137902737,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 311
    },
    {
      "completion_length": 52.08333492279053,
      "epoch": 0.055466666666666664,
      "grad_norm": 2.6485128650154963,
      "kl": 3.696044921875,
      "learning_rate": 2.2747907956950707e-07,
      "loss": 0.1479,
      "reward": 0.9583333656191826,
      "reward_std": 0.39079636707901955,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 312
    },
    {
      "completion_length": 58.85416793823242,
      "epoch": 0.05564444444444445,
      "grad_norm": 1.7377493985395709,
      "kl": 3.342041015625,
      "learning_rate": 2.2446560786391132e-07,
      "loss": 0.1339,
      "reward": 0.9791666939854622,
      "reward_std": 0.4161961302161217,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 313
    },
    {
      "completion_length": 57.10416841506958,
      "epoch": 0.055822222222222224,
      "grad_norm": 0.9728311568166134,
      "kl": 2.14892578125,
      "learning_rate": 2.2146644158127826e-07,
      "loss": 0.0859,
      "reward": 1.0416666939854622,
      "reward_std": 0.3602609857916832,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 314
    },
    {
      "completion_length": 52.83333444595337,
      "epoch": 0.056,
      "grad_norm": 0.8189600503332306,
      "kl": 2.77734375,
      "learning_rate": 2.1848173643480873e-07,
      "loss": 0.1111,
      "reward": 1.0208333507180214,
      "reward_std": 0.3170611411333084,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8750000074505806,
      "step": 315
    },
    {
      "completion_length": 51.187501430511475,
      "epoch": 0.05617777777777778,
      "grad_norm": 1.4570844733731012,
      "kl": 3.875,
      "learning_rate": 2.1551164738689892e-07,
      "loss": 0.1549,
      "reward": 0.8958333656191826,
      "reward_std": 0.5094013959169388,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 316
    },
    {
      "completion_length": 58.89583492279053,
      "epoch": 0.056355555555555555,
      "grad_norm": 1.3079415239293524,
      "kl": 1.58935546875,
      "learning_rate": 2.1255632864109379e-07,
      "loss": 0.0637,
      "reward": 1.1041667014360428,
      "reward_std": 0.34674229100346565,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 317
    },
    {
      "completion_length": 56.93750190734863,
      "epoch": 0.05653333333333333,
      "grad_norm": 0.9195869282916206,
      "kl": 2.50048828125,
      "learning_rate": 2.0961593363408154e-07,
      "loss": 0.0999,
      "reward": 0.9583333656191826,
      "reward_std": 0.42678775265812874,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 318
    },
    {
      "completion_length": 62.66666889190674,
      "epoch": 0.05671111111111111,
      "grad_norm": 1.4378742619983675,
      "kl": 2.0732421875,
      "learning_rate": 2.0669061502772772e-07,
      "loss": 0.083,
      "reward": 0.9583333507180214,
      "reward_std": 0.3102184720337391,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 319
    },
    {
      "completion_length": 58.520835399627686,
      "epoch": 0.05688888888888889,
      "grad_norm": 2.5114180738618748,
      "kl": 2.60693359375,
      "learning_rate": 2.037805247011482e-07,
      "loss": 0.1042,
      "reward": 0.9375000447034836,
      "reward_std": 0.3842546418309212,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 320
    },
    {
      "completion_length": 60.437501430511475,
      "epoch": 0.05706666666666667,
      "grad_norm": 3.344751006657643,
      "kl": 1.382568359375,
      "learning_rate": 2.008858137428251e-07,
      "loss": 0.0552,
      "reward": 1.0625000596046448,
      "reward_std": 0.4217669852077961,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 321
    },
    {
      "completion_length": 59.16666793823242,
      "epoch": 0.057244444444444445,
      "grad_norm": 2.980207110263902,
      "kl": 2.493896484375,
      "learning_rate": 1.9800663244276127e-07,
      "loss": 0.0999,
      "reward": 1.1458333805203438,
      "reward_std": 0.5278613045811653,
      "rewards/equation_reward_func": 0.2500000074505806,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 322
    },
    {
      "completion_length": 60.35416841506958,
      "epoch": 0.05742222222222222,
      "grad_norm": 0.9630989177648202,
      "kl": 1.7958984375,
      "learning_rate": 1.9514313028467783e-07,
      "loss": 0.072,
      "reward": 0.9375000223517418,
      "reward_std": 0.3468805216252804,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8541666716337204,
      "step": 323
    },
    {
      "completion_length": 58.10416793823242,
      "epoch": 0.0576,
      "grad_norm": 1.144547736944523,
      "kl": 2.6875,
      "learning_rate": 1.9229545593825363e-07,
      "loss": 0.1075,
      "reward": 0.8958333656191826,
      "reward_std": 0.4418274015188217,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 324
    },
    {
      "completion_length": 58.562501430511475,
      "epoch": 0.057777777777777775,
      "grad_norm": 2.5145859774979207,
      "kl": 3.255615234375,
      "learning_rate": 1.8946375725140578e-07,
      "loss": 0.13,
      "reward": 0.9166666865348816,
      "reward_std": 0.3747681975364685,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 325
    },
    {
      "completion_length": 61.66666841506958,
      "epoch": 0.05795555555555556,
      "grad_norm": 1.9889895034082692,
      "kl": 2.33544921875,
      "learning_rate": 1.8664818124261373e-07,
      "loss": 0.0936,
      "reward": 1.062500037252903,
      "reward_std": 0.3898078463971615,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 326
    },
    {
      "completion_length": 61.18750238418579,
      "epoch": 0.058133333333333335,
      "grad_norm": 1.3792448777248967,
      "kl": 0.93701171875,
      "learning_rate": 1.8384887409328688e-07,
      "loss": 0.0375,
      "reward": 1.1250000447034836,
      "reward_std": 0.3477308116853237,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 327
    },
    {
      "completion_length": 61.10416889190674,
      "epoch": 0.05831111111111111,
      "grad_norm": 0.7306205857498139,
      "kl": 2.73828125,
      "learning_rate": 1.8106598114017397e-07,
      "loss": 0.1093,
      "reward": 1.000000037252903,
      "reward_std": 0.4450269974768162,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 328
    },
    {
      "completion_length": 61.37500190734863,
      "epoch": 0.05848888888888889,
      "grad_norm": 1.3174084946886926,
      "kl": 2.44970703125,
      "learning_rate": 1.782996468678179e-07,
      "loss": 0.098,
      "reward": 1.000000037252903,
      "reward_std": 0.37628915533423424,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 329
    },
    {
      "completion_length": 58.125001430511475,
      "epoch": 0.058666666666666666,
      "grad_norm": 2.0400973712700896,
      "kl": 2.13037109375,
      "learning_rate": 1.7555001490105486e-07,
      "loss": 0.0853,
      "reward": 1.0416666939854622,
      "reward_std": 0.41228054463863373,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 330
    },
    {
      "completion_length": 57.95833492279053,
      "epoch": 0.05884444444444444,
      "grad_norm": 1.5514755499900446,
      "kl": 2.143798828125,
      "learning_rate": 1.728172279975561e-07,
      "loss": 0.0858,
      "reward": 1.1875000596046448,
      "reward_std": 0.5512077212333679,
      "rewards/equation_reward_func": 0.2916666753590107,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 331
    },
    {
      "completion_length": 60.08333492279053,
      "epoch": 0.05902222222222222,
      "grad_norm": 1.3729341373528947,
      "kl": 1.197998046875,
      "learning_rate": 1.7010142804041783e-07,
      "loss": 0.0479,
      "reward": 1.2083333730697632,
      "reward_std": 0.45827316492795944,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 332
    },
    {
      "completion_length": 59.72916841506958,
      "epoch": 0.0592,
      "grad_norm": 1.527266988721381,
      "kl": 3.48388671875,
      "learning_rate": 1.674027560307927e-07,
      "loss": 0.1397,
      "reward": 1.0000000298023224,
      "reward_std": 0.5845837779343128,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 333
    },
    {
      "completion_length": 59.895835399627686,
      "epoch": 0.05937777777777778,
      "grad_norm": 1.050595762515859,
      "kl": 2.544921875,
      "learning_rate": 1.6472135208057125e-07,
      "loss": 0.1018,
      "reward": 0.9583333656191826,
      "reward_std": 0.39079636335372925,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 334
    },
    {
      "completion_length": 54.583335876464844,
      "epoch": 0.059555555555555556,
      "grad_norm": 1.2933441010118374,
      "kl": 5.658203125,
      "learning_rate": 1.6205735540510674e-07,
      "loss": 0.2263,
      "reward": 0.8541666865348816,
      "reward_std": 0.6126096807420254,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7291666939854622,
      "step": 335
    },
    {
      "completion_length": 53.47916793823242,
      "epoch": 0.05973333333333333,
      "grad_norm": 4.911862067712068,
      "kl": 6.6640625,
      "learning_rate": 1.5941090431598653e-07,
      "loss": 0.2666,
      "reward": 1.0625000223517418,
      "reward_std": 0.6126096844673157,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 336
    },
    {
      "completion_length": 49.62500238418579,
      "epoch": 0.05991111111111111,
      "grad_norm": 1.538888251192996,
      "kl": 5.263671875,
      "learning_rate": 1.5678213621385178e-07,
      "loss": 0.2103,
      "reward": 0.6875000242143869,
      "reward_std": 0.5668769627809525,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.6041666883975267,
      "step": 337
    },
    {
      "completion_length": 54.29166841506958,
      "epoch": 0.060088888888888886,
      "grad_norm": 1.4585132738043682,
      "kl": 5.94921875,
      "learning_rate": 1.5417118758126408e-07,
      "loss": 0.2382,
      "reward": 0.9166667014360428,
      "reward_std": 0.6034007929265499,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.7500000149011612,
      "step": 338
    },
    {
      "completion_length": 51.14583492279053,
      "epoch": 0.06026666666666667,
      "grad_norm": 4.340996859120451,
      "kl": 7.66015625,
      "learning_rate": 1.515781939756186e-07,
      "loss": 0.3064,
      "reward": 0.7500000149011612,
      "reward_std": 0.5763868018984795,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.666666679084301,
      "step": 339
    },
    {
      "completion_length": 53.10416793823242,
      "epoch": 0.060444444444444446,
      "grad_norm": 7.13627262359258,
      "kl": 7.0458984375,
      "learning_rate": 1.490032900221068e-07,
      "loss": 0.2815,
      "reward": 0.7916666939854622,
      "reward_std": 0.4743013270199299,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 340
    },
    {
      "completion_length": 51.14583492279053,
      "epoch": 0.06062222222222222,
      "grad_norm": 8.837913822415763,
      "kl": 8.7421875,
      "learning_rate": 1.4644660940672627e-07,
      "loss": 0.3497,
      "reward": 0.6875000167638063,
      "reward_std": 0.5780420526862144,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.583333345130086,
      "step": 341
    },
    {
      "completion_length": 54.68750190734863,
      "epoch": 0.0608,
      "grad_norm": 4.585825527377868,
      "kl": 4.6943359375,
      "learning_rate": 1.4390828486934058e-07,
      "loss": 0.1878,
      "reward": 0.8750000149011612,
      "reward_std": 0.5441443584859371,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 342
    },
    {
      "completion_length": 55.47916841506958,
      "epoch": 0.06097777777777778,
      "grad_norm": 2.5316402861873586,
      "kl": 4.51953125,
      "learning_rate": 1.4138844819678725e-07,
      "loss": 0.1809,
      "reward": 0.895833358168602,
      "reward_std": 0.552109844982624,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7916666939854622,
      "step": 343
    },
    {
      "completion_length": 58.97916841506958,
      "epoch": 0.06115555555555555,
      "grad_norm": 1.300871033486432,
      "kl": 3.39404296875,
      "learning_rate": 1.3888723021603526e-07,
      "loss": 0.1359,
      "reward": 0.9166666865348816,
      "reward_std": 0.583796463906765,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 344
    },
    {
      "completion_length": 58.875001430511475,
      "epoch": 0.06133333333333333,
      "grad_norm": 2.981671476687896,
      "kl": 3.55615234375,
      "learning_rate": 1.3640476078739295e-07,
      "loss": 0.1422,
      "reward": 0.8958333656191826,
      "reward_std": 0.43150830641388893,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 345
    },
    {
      "completion_length": 57.83333492279053,
      "epoch": 0.061511111111111114,
      "grad_norm": 2.076358536272458,
      "kl": 2.014404296875,
      "learning_rate": 1.3394116879776567e-07,
      "loss": 0.0805,
      "reward": 1.0416667014360428,
      "reward_std": 0.47278038039803505,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 346
    },
    {
      "completion_length": 60.250001430511475,
      "epoch": 0.06168888888888889,
      "grad_norm": 1.8103398488618279,
      "kl": 1.98193359375,
      "learning_rate": 1.3149658215396475e-07,
      "loss": 0.0794,
      "reward": 0.8750000298023224,
      "reward_std": 0.49578551203012466,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 347
    },
    {
      "completion_length": 64.27083539962769,
      "epoch": 0.06186666666666667,
      "grad_norm": 3.140491497435094,
      "kl": 1.261474609375,
      "learning_rate": 1.2907112777606576e-07,
      "loss": 0.0505,
      "reward": 1.1875000298023224,
      "reward_std": 0.5744358189404011,
      "rewards/equation_reward_func": 0.29166667349636555,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 348
    },
    {
      "completion_length": 59.62500190734863,
      "epoch": 0.062044444444444444,
      "grad_norm": 1.061446640667196,
      "kl": 1.03369140625,
      "learning_rate": 1.2666493159081942e-07,
      "loss": 0.0413,
      "reward": 1.0000000223517418,
      "reward_std": 0.3102184757590294,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 349
    },
    {
      "completion_length": 61.47916889190674,
      "epoch": 0.06222222222222222,
      "grad_norm": 3.6962335454618858,
      "kl": 1.625244140625,
      "learning_rate": 1.2427811852511395e-07,
      "loss": 0.0649,
      "reward": 1.1250000298023224,
      "reward_std": 0.3937234431505203,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 350
    },
    {
      "completion_length": 59.125001430511475,
      "epoch": 0.0624,
      "grad_norm": 1.6816913213888882,
      "kl": 1.1396484375,
      "learning_rate": 1.219108124994887e-07,
      "loss": 0.0455,
      "reward": 1.0000000298023224,
      "reward_std": 0.32624663412570953,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 351
    },
    {
      "completion_length": 64.35416793823242,
      "epoch": 0.06257777777777777,
      "grad_norm": 0.8522481505886366,
      "kl": 0.689208984375,
      "learning_rate": 1.1956313642169973e-07,
      "loss": 0.0276,
      "reward": 1.0625000149011612,
      "reward_std": 0.27369464561343193,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 352
    },
    {
      "completion_length": 61.62500190734863,
      "epoch": 0.06275555555555555,
      "grad_norm": 1.7897422346452299,
      "kl": 0.836669921875,
      "learning_rate": 1.1723521218034004e-07,
      "loss": 0.0335,
      "reward": 1.0833333879709244,
      "reward_std": 0.41380149126052856,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 353
    },
    {
      "completion_length": 61.08333444595337,
      "epoch": 0.06293333333333333,
      "grad_norm": 2.0178846511892803,
      "kl": 1.092041015625,
      "learning_rate": 1.1492716063850971e-07,
      "loss": 0.0437,
      "reward": 0.958333358168602,
      "reward_std": 0.23116152733564377,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.9166666716337204,
      "step": 354
    },
    {
      "completion_length": 60.52083492279053,
      "epoch": 0.06311111111111112,
      "grad_norm": 2.7610480485849185,
      "kl": 2.68701171875,
      "learning_rate": 1.126391016275422e-07,
      "loss": 0.1075,
      "reward": 1.062500037252903,
      "reward_std": 0.34674229100346565,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.9375000074505806,
      "step": 355
    },
    {
      "completion_length": 55.91666793823242,
      "epoch": 0.0632888888888889,
      "grad_norm": 1.7083927263129774,
      "kl": 2.089111328125,
      "learning_rate": 1.1037115394078162e-07,
      "loss": 0.0836,
      "reward": 1.0416667088866234,
      "reward_std": 0.46722716465592384,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 356
    },
    {
      "completion_length": 56.937501430511475,
      "epoch": 0.06346666666666667,
      "grad_norm": 1.569207458888609,
      "kl": 1.089111328125,
      "learning_rate": 1.0812343532741569e-07,
      "loss": 0.0436,
      "reward": 1.0625000223517418,
      "reward_std": 0.3714948333799839,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.8958333358168602,
      "step": 357
    },
    {
      "completion_length": 60.500001430511475,
      "epoch": 0.06364444444444445,
      "grad_norm": 3.1252392054257516,
      "kl": 1.154296875,
      "learning_rate": 1.058960624863629e-07,
      "loss": 0.0462,
      "reward": 1.062500037252903,
      "reward_std": 0.432873398065567,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 358
    },
    {
      "completion_length": 60.75000190734863,
      "epoch": 0.06382222222222222,
      "grad_norm": 2.640265426366037,
      "kl": 0.833984375,
      "learning_rate": 1.0368915106021253e-07,
      "loss": 0.0334,
      "reward": 1.1041667312383652,
      "reward_std": 0.4864138960838318,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 359
    },
    {
      "completion_length": 61.25000190734863,
      "epoch": 0.064,
      "grad_norm": 3.448614558728069,
      "kl": 1.076416015625,
      "learning_rate": 1.015028156292212e-07,
      "loss": 0.0431,
      "reward": 1.0833333656191826,
      "reward_std": 0.48238347843289375,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 360
    },
    {
      "completion_length": 58.187501430511475,
      "epoch": 0.06417777777777778,
      "grad_norm": 4.146739619804781,
      "kl": 0.870361328125,
      "learning_rate": 9.933716970536427e-08,
      "loss": 0.0348,
      "reward": 1.1041667014360428,
      "reward_std": 0.5266816467046738,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 361
    },
    {
      "completion_length": 59.02083444595337,
      "epoch": 0.06435555555555555,
      "grad_norm": 1.9186073301177928,
      "kl": 1.1279296875,
      "learning_rate": 9.719232572644187e-08,
      "loss": 0.0451,
      "reward": 1.0625000298023224,
      "reward_std": 0.456334613263607,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 362
    },
    {
      "completion_length": 58.270835399627686,
      "epoch": 0.06453333333333333,
      "grad_norm": 3.1282429101773346,
      "kl": 1.857666015625,
      "learning_rate": 9.506839505024145e-08,
      "loss": 0.0743,
      "reward": 1.1250000149011612,
      "reward_std": 0.5089099928736687,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 363
    },
    {
      "completion_length": 58.500001430511475,
      "epoch": 0.06471111111111111,
      "grad_norm": 1.2404291380846855,
      "kl": 2.42529296875,
      "learning_rate": 9.296548794875658e-08,
      "loss": 0.0971,
      "reward": 0.9791667088866234,
      "reward_std": 0.5063771307468414,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 364
    },
    {
      "completion_length": 54.187501430511475,
      "epoch": 0.06488888888888888,
      "grad_norm": 1.4856882416240396,
      "kl": 2.43212890625,
      "learning_rate": 9.088371360246105e-08,
      "loss": 0.0974,
      "reward": 0.9583333767950535,
      "reward_std": 0.5198958218097687,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8125000186264515,
      "step": 365
    },
    {
      "completion_length": 60.020835399627686,
      "epoch": 0.06506666666666666,
      "grad_norm": 1.2813862007137036,
      "kl": 2.4736328125,
      "learning_rate": 8.882318009464123e-08,
      "loss": 0.099,
      "reward": 0.9166666865348816,
      "reward_std": 0.347730815410614,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 366
    },
    {
      "completion_length": 56.47916793823242,
      "epoch": 0.06524444444444444,
      "grad_norm": 1.4700306877141611,
      "kl": 2.24755859375,
      "learning_rate": 8.678399440578365e-08,
      "loss": 0.0899,
      "reward": 0.9375000223517418,
      "reward_std": 0.5813841745257378,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 367
    },
    {
      "completion_length": 56.85416841506958,
      "epoch": 0.06542222222222223,
      "grad_norm": 2.152590597555675,
      "kl": 2.2392578125,
      "learning_rate": 8.476626240802099e-08,
      "loss": 0.0897,
      "reward": 0.9375000223517418,
      "reward_std": 0.4938579201698303,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8125000186264515,
      "step": 368
    },
    {
      "completion_length": 52.187500953674316,
      "epoch": 0.0656,
      "grad_norm": 2.381613257880136,
      "kl": 3.70361328125,
      "learning_rate": 8.277008885963593e-08,
      "loss": 0.1481,
      "reward": 0.979166679084301,
      "reward_std": 0.6662384197115898,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.770833358168602,
      "step": 369
    },
    {
      "completion_length": 53.43750190734863,
      "epoch": 0.06577777777777778,
      "grad_norm": 1.978390854604455,
      "kl": 2.68603515625,
      "learning_rate": 8.079557739962128e-08,
      "loss": 0.1073,
      "reward": 0.937500037252903,
      "reward_std": 0.6371357701718807,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 370
    },
    {
      "completion_length": 61.43750190734863,
      "epoch": 0.06595555555555556,
      "grad_norm": 1.670924504713265,
      "kl": 2.015625,
      "learning_rate": 7.884283054229956e-08,
      "loss": 0.0807,
      "reward": 0.9583333507180214,
      "reward_std": 0.36779123172163963,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 371
    },
    {
      "completion_length": 55.312500953674316,
      "epoch": 0.06613333333333334,
      "grad_norm": 1.7031503147281266,
      "kl": 2.489501953125,
      "learning_rate": 7.691194967200098e-08,
      "loss": 0.0995,
      "reward": 1.041666705161333,
      "reward_std": 0.58039565756917,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.8125000186264515,
      "step": 372
    },
    {
      "completion_length": 57.29166889190674,
      "epoch": 0.06631111111111111,
      "grad_norm": 1.4511519173022578,
      "kl": 2.66552734375,
      "learning_rate": 7.500303503779897e-08,
      "loss": 0.1066,
      "reward": 1.0625000298023224,
      "reward_std": 0.6057954281568527,
      "rewards/equation_reward_func": 0.2708333395421505,
      "rewards/format_reward_func": 0.791666679084301,
      "step": 373
    },
    {
      "completion_length": 50.22916793823242,
      "epoch": 0.06648888888888889,
      "grad_norm": 2.3542410534514118,
      "kl": 4.15283203125,
      "learning_rate": 7.311618574830569e-08,
      "loss": 0.1664,
      "reward": 0.8541667014360428,
      "reward_std": 0.5683979243040085,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.7291666865348816,
      "step": 374
    },
    {
      "completion_length": 56.187501430511475,
      "epoch": 0.06666666666666667,
      "grad_norm": 1.3402956105324395,
      "kl": 2.796142578125,
      "learning_rate": 7.125149976652684e-08,
      "loss": 0.1119,
      "reward": 0.937500037252903,
      "reward_std": 0.4822668172419071,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8125000149011612,
      "step": 375
    },
    {
      "completion_length": 56.437501430511475,
      "epoch": 0.06684444444444444,
      "grad_norm": 1.3065544985054902,
      "kl": 3.40673828125,
      "learning_rate": 6.940907390477457e-08,
      "loss": 0.136,
      "reward": 1.020833358168602,
      "reward_std": 0.41557733342051506,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 376
    },
    {
      "completion_length": 47.29166793823242,
      "epoch": 0.06702222222222222,
      "grad_norm": 3.1009623462965976,
      "kl": 5.3515625,
      "learning_rate": 6.758900381964228e-08,
      "loss": 0.2139,
      "reward": 0.7500000298023224,
      "reward_std": 0.5388510599732399,
      "rewards/equation_reward_func": 0.0416666679084301,
      "rewards/format_reward_func": 0.708333358168602,
      "step": 377
    },
    {
      "completion_length": 53.54166793823242,
      "epoch": 0.0672,
      "grad_norm": 1.1872610426825552,
      "kl": 3.68310546875,
      "learning_rate": 6.579138400703715e-08,
      "loss": 0.1474,
      "reward": 0.8125000223517418,
      "reward_std": 0.4662386476993561,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7500000149011612,
      "step": 378
    },
    {
      "completion_length": 51.562501430511475,
      "epoch": 0.06737777777777777,
      "grad_norm": 3.57334398201852,
      "kl": 4.5546875,
      "learning_rate": 6.401630779727451e-08,
      "loss": 0.1822,
      "reward": 0.8333333395421505,
      "reward_std": 0.37490642443299294,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7708333469927311,
      "step": 379
    },
    {
      "completion_length": 51.125001430511475,
      "epoch": 0.06755555555555555,
      "grad_norm": 2.66140039223916,
      "kl": 3.92041015625,
      "learning_rate": 6.22638673502327e-08,
      "loss": 0.1571,
      "reward": 0.8958333544433117,
      "reward_std": 0.43363041803240776,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.7916666828095913,
      "step": 380
    },
    {
      "completion_length": 53.39583492279053,
      "epoch": 0.06773333333333334,
      "grad_norm": 1.3849153453116665,
      "kl": 2.9033203125,
      "learning_rate": 6.05341536505673e-08,
      "loss": 0.1163,
      "reward": 1.1041667088866234,
      "reward_std": 0.5925082266330719,
      "rewards/equation_reward_func": 0.2708333395421505,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 381
    },
    {
      "completion_length": 51.66666793823242,
      "epoch": 0.06791111111111112,
      "grad_norm": 1.217375000722545,
      "kl": 4.306884765625,
      "learning_rate": 5.882725650298787e-08,
      "loss": 0.1719,
      "reward": 0.8958333656191826,
      "reward_std": 0.5843112505972385,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.7500000149011612,
      "step": 382
    },
    {
      "completion_length": 52.29166793823242,
      "epoch": 0.0680888888888889,
      "grad_norm": 1.3213564242297655,
      "kl": 3.68896484375,
      "learning_rate": 5.714326452759549e-08,
      "loss": 0.1475,
      "reward": 0.8750000223517418,
      "reward_std": 0.5200340487062931,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 383
    },
    {
      "completion_length": 53.000001430511475,
      "epoch": 0.06826666666666667,
      "grad_norm": 1.4169493034835212,
      "kl": 3.507080078125,
      "learning_rate": 5.548226515528132e-08,
      "loss": 0.14,
      "reward": 0.9791666939854622,
      "reward_std": 0.5409447588026524,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333656191826,
      "step": 384
    },
    {
      "completion_length": 58.37500190734863,
      "epoch": 0.06844444444444445,
      "grad_norm": 1.1023233854193553,
      "kl": 2.56787109375,
      "learning_rate": 5.384434462318777e-08,
      "loss": 0.1028,
      "reward": 0.9375000298023224,
      "reward_std": 0.4688647836446762,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 385
    },
    {
      "completion_length": 56.62500238418579,
      "epoch": 0.06862222222222222,
      "grad_norm": 1.4791889195725796,
      "kl": 2.52001953125,
      "learning_rate": 5.222958797023036e-08,
      "loss": 0.1008,
      "reward": 1.1458333693444729,
      "reward_std": 0.5843112505972385,
      "rewards/equation_reward_func": 0.2916666716337204,
      "rewards/format_reward_func": 0.8541666828095913,
      "step": 386
    },
    {
      "completion_length": 57.45833492279053,
      "epoch": 0.0688,
      "grad_norm": 1.246850620199564,
      "kl": 2.88037109375,
      "learning_rate": 5.063807903268369e-08,
      "loss": 0.115,
      "reward": 1.0625000298023224,
      "reward_std": 0.5097602866590023,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 387
    },
    {
      "completion_length": 52.08333444595337,
      "epoch": 0.06897777777777778,
      "grad_norm": 1.9646365955378329,
      "kl": 3.38916015625,
      "learning_rate": 4.9069900439828115e-08,
      "loss": 0.1355,
      "reward": 1.0416666865348816,
      "reward_std": 0.40530357882380486,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.895833358168602,
      "step": 388
    },
    {
      "completion_length": 51.47916841506958,
      "epoch": 0.06915555555555555,
      "grad_norm": 5.101279066687743,
      "kl": 4.92578125,
      "learning_rate": 4.7525133609659484e-08,
      "loss": 0.197,
      "reward": 0.7916666939854622,
      "reward_std": 0.5373301096260548,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7291666865348816,
      "step": 389
    },
    {
      "completion_length": 55.020835876464844,
      "epoch": 0.06933333333333333,
      "grad_norm": 2.859624921800997,
      "kl": 3.75,
      "learning_rate": 4.600385874466256e-08,
      "loss": 0.1498,
      "reward": 0.9166666865348816,
      "reward_std": 0.34296492487192154,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 390
    },
    {
      "completion_length": 52.208335399627686,
      "epoch": 0.0695111111111111,
      "grad_norm": 1.2049238425693272,
      "kl": 3.3515625,
      "learning_rate": 4.4506154827646915e-08,
      "loss": 0.1341,
      "reward": 0.9583333805203438,
      "reward_std": 0.5388510636985302,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 391
    },
    {
      "completion_length": 53.70833492279053,
      "epoch": 0.06968888888888888,
      "grad_norm": 1.8756766886500422,
      "kl": 3.8017578125,
      "learning_rate": 4.303209961764587e-08,
      "loss": 0.1517,
      "reward": 0.9375000149011612,
      "reward_std": 0.6559193283319473,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.7500000223517418,
      "step": 392
    },
    {
      "completion_length": 53.31250047683716,
      "epoch": 0.06986666666666666,
      "grad_norm": 2.233928517978556,
      "kl": 2.48046875,
      "learning_rate": 4.158176964587967e-08,
      "loss": 0.0993,
      "reward": 1.0208333805203438,
      "reward_std": 0.5134512856602669,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 393
    },
    {
      "completion_length": 54.958335399627686,
      "epoch": 0.07004444444444445,
      "grad_norm": 2.1952634154416963,
      "kl": 2.598876953125,
      "learning_rate": 4.015524021178196e-08,
      "loss": 0.1041,
      "reward": 1.0833333730697632,
      "reward_std": 0.5025997683405876,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 394
    },
    {
      "completion_length": 54.91666793823242,
      "epoch": 0.07022222222222223,
      "grad_norm": 1.556450915650428,
      "kl": 3.673828125,
      "learning_rate": 3.8752585379090317e-08,
      "loss": 0.1468,
      "reward": 0.9791666939854622,
      "reward_std": 0.5681380145251751,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 395
    },
    {
      "completion_length": 59.64583492279053,
      "epoch": 0.0704,
      "grad_norm": 2.3442496072285035,
      "kl": 1.22265625,
      "learning_rate": 3.7373877972001255e-08,
      "loss": 0.0489,
      "reward": 1.166666716337204,
      "reward_std": 0.49578551575541496,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 396
    },
    {
      "completion_length": 56.416667461395264,
      "epoch": 0.07057777777777778,
      "grad_norm": 1.382319715238746,
      "kl": 2.299560546875,
      "learning_rate": 3.601918957138844e-08,
      "loss": 0.092,
      "reward": 1.125000037252903,
      "reward_std": 0.5317768938839436,
      "rewards/equation_reward_func": 0.22916666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 397
    },
    {
      "completion_length": 55.00000190734863,
      "epoch": 0.07075555555555556,
      "grad_norm": 1.8307641531327195,
      "kl": 3.07080078125,
      "learning_rate": 3.46885905110873e-08,
      "loss": 0.1227,
      "reward": 1.0208333730697632,
      "reward_std": 0.532146617770195,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 398
    },
    {
      "completion_length": 54.66666793823242,
      "epoch": 0.07093333333333333,
      "grad_norm": 1.5553001993082431,
      "kl": 3.23291015625,
      "learning_rate": 3.3382149874242814e-08,
      "loss": 0.1295,
      "reward": 1.0000000298023224,
      "reward_std": 0.502599760890007,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 399
    },
    {
      "completion_length": 54.60416841506958,
      "epoch": 0.07111111111111111,
      "grad_norm": 1.574316545264386,
      "kl": 3.5634765625,
      "learning_rate": 3.20999354897229e-08,
      "loss": 0.1431,
      "reward": 0.9583333507180214,
      "reward_std": 0.4067096970975399,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 400
    },
    {
      "completion_length": 61.43750190734863,
      "epoch": 0.07128888888888889,
      "grad_norm": 2.037039114885329,
      "kl": 2.79345703125,
      "learning_rate": 3.0842013928596754e-08,
      "loss": 0.1117,
      "reward": 0.958333358168602,
      "reward_std": 0.2957112602889538,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 401
    },
    {
      "completion_length": 55.125001430511475,
      "epoch": 0.07146666666666666,
      "grad_norm": 3.5875644910793727,
      "kl": 3.16015625,
      "learning_rate": 2.9608450500678562e-08,
      "loss": 0.1265,
      "reward": 0.8333333656191826,
      "reward_std": 0.41380149498581886,
      "rewards/equation_reward_func": 0.02083333395421505,
      "rewards/format_reward_func": 0.8125000298023224,
      "step": 402
    },
    {
      "completion_length": 54.91666841506958,
      "epoch": 0.07164444444444444,
      "grad_norm": 1.6377386422578162,
      "kl": 1.947998046875,
      "learning_rate": 2.839930925113715e-08,
      "loss": 0.0777,
      "reward": 1.104166716337204,
      "reward_std": 0.4778187908232212,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 403
    },
    {
      "completion_length": 57.47916793823242,
      "epoch": 0.07182222222222222,
      "grad_norm": 1.0788472393855095,
      "kl": 2.4091796875,
      "learning_rate": 2.721465295716996e-08,
      "loss": 0.0963,
      "reward": 0.9791667088866234,
      "reward_std": 0.46483253315091133,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 404
    },
    {
      "completion_length": 56.187500953674316,
      "epoch": 0.072,
      "grad_norm": 1.5018621132397523,
      "kl": 1.85888671875,
      "learning_rate": 2.605454312474448e-08,
      "loss": 0.0745,
      "reward": 1.1666667014360428,
      "reward_std": 0.5234047770500183,
      "rewards/equation_reward_func": 0.2500000074505806,
      "rewards/format_reward_func": 0.9166666865348816,
      "step": 405
    },
    {
      "completion_length": 56.312501430511475,
      "epoch": 0.07217777777777777,
      "grad_norm": 2.078201578902569,
      "kl": 2.600341796875,
      "learning_rate": 2.4919039985404622e-08,
      "loss": 0.1039,
      "reward": 1.000000037252903,
      "reward_std": 0.5240839384496212,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 406
    },
    {
      "completion_length": 55.083335399627686,
      "epoch": 0.07235555555555556,
      "grad_norm": 2.2993454586501643,
      "kl": 3.27734375,
      "learning_rate": 2.380820249314375e-08,
      "loss": 0.131,
      "reward": 0.9791667088866234,
      "reward_std": 0.48782002553343773,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 407
    },
    {
      "completion_length": 56.854167461395264,
      "epoch": 0.07253333333333334,
      "grad_norm": 1.3535072176160663,
      "kl": 2.1513671875,
      "learning_rate": 2.2722088321343258e-08,
      "loss": 0.0861,
      "reward": 0.9166666939854622,
      "reward_std": 0.42678775265812874,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 408
    },
    {
      "completion_length": 55.250000953674316,
      "epoch": 0.07271111111111112,
      "grad_norm": 1.8133842507703675,
      "kl": 2.7421875,
      "learning_rate": 2.1660753859779223e-08,
      "loss": 0.1095,
      "reward": 1.0416667088866234,
      "reward_std": 0.5461693182587624,
      "rewards/equation_reward_func": 0.2083333358168602,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 409
    },
    {
      "completion_length": 55.14583396911621,
      "epoch": 0.07288888888888889,
      "grad_norm": 0.9743576087041721,
      "kl": 2.7861328125,
      "learning_rate": 2.0624254211693894e-08,
      "loss": 0.1113,
      "reward": 1.000000037252903,
      "reward_std": 0.39079635962843895,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 410
    },
    {
      "completion_length": 55.02083492279053,
      "epoch": 0.07306666666666667,
      "grad_norm": 2.516245940031829,
      "kl": 3.21875,
      "learning_rate": 1.9612643190935196e-08,
      "loss": 0.1288,
      "reward": 0.9791667088866234,
      "reward_std": 0.5782451070845127,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.8125000223517418,
      "step": 411
    },
    {
      "completion_length": 60.187500953674316,
      "epoch": 0.07324444444444445,
      "grad_norm": 2.6330682117724113,
      "kl": 1.1962890625,
      "learning_rate": 1.8625973319162602e-08,
      "loss": 0.0478,
      "reward": 1.020833358168602,
      "reward_std": 0.4778187870979309,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8750000298023224,
      "step": 412
    },
    {
      "completion_length": 51.312500953674316,
      "epoch": 0.07342222222222222,
      "grad_norm": 1.1821663445604937,
      "kl": 4.4501953125,
      "learning_rate": 1.7664295823120347e-08,
      "loss": 0.178,
      "reward": 0.8958333507180214,
      "reward_std": 0.618318747729063,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.7291666865348816,
      "step": 413
    },
    {
      "completion_length": 57.75000190734863,
      "epoch": 0.0736,
      "grad_norm": 0.8122615265168446,
      "kl": 2.16064453125,
      "learning_rate": 1.672766063197789e-08,
      "loss": 0.0861,
      "reward": 0.9791666939854622,
      "reward_std": 0.37575671449303627,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 414
    },
    {
      "completion_length": 57.22916841506958,
      "epoch": 0.07377777777777778,
      "grad_norm": 3.0181550761407716,
      "kl": 1.967529296875,
      "learning_rate": 1.5816116374737452e-08,
      "loss": 0.0785,
      "reward": 1.0833333730697632,
      "reward_std": 0.39079636335372925,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 415
    },
    {
      "completion_length": 55.375000953674316,
      "epoch": 0.07395555555555555,
      "grad_norm": 1.1321615634392828,
      "kl": 0.98779296875,
      "learning_rate": 1.492971037770924e-08,
      "loss": 0.0395,
      "reward": 1.1458333730697632,
      "reward_std": 0.34674229472875595,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 416
    },
    {
      "completion_length": 55.041667461395264,
      "epoch": 0.07413333333333333,
      "grad_norm": 1.1137121433760955,
      "kl": 2.485595703125,
      "learning_rate": 1.4068488662054733e-08,
      "loss": 0.0994,
      "reward": 1.0833333805203438,
      "reward_std": 0.49578550457954407,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 417
    },
    {
      "completion_length": 59.33333444595337,
      "epoch": 0.0743111111111111,
      "grad_norm": 1.8567494155306574,
      "kl": 3.08056640625,
      "learning_rate": 1.3232495941396637e-08,
      "loss": 0.1232,
      "reward": 1.0416667014360428,
      "reward_std": 0.581656701862812,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 418
    },
    {
      "completion_length": 59.79166793823242,
      "epoch": 0.07448888888888888,
      "grad_norm": 1.3834584558844922,
      "kl": 2.0390625,
      "learning_rate": 1.2421775619498199e-08,
      "loss": 0.0815,
      "reward": 1.1250000298023224,
      "reward_std": 0.3532840199768543,
      "rewards/equation_reward_func": 0.1666666716337204,
      "rewards/format_reward_func": 0.9583333432674408,
      "step": 419
    },
    {
      "completion_length": 58.66666793823242,
      "epoch": 0.07466666666666667,
      "grad_norm": 0.8828120170847628,
      "kl": 1.23046875,
      "learning_rate": 1.1636369788008971e-08,
      "loss": 0.0493,
      "reward": 1.1875000298023224,
      "reward_std": 0.4722479432821274,
      "rewards/equation_reward_func": 0.25000000558793545,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 420
    },
    {
      "completion_length": 53.39583444595337,
      "epoch": 0.07484444444444445,
      "grad_norm": 1.6828918296780182,
      "kl": 2.09814453125,
      "learning_rate": 1.0876319224279895e-08,
      "loss": 0.0837,
      "reward": 0.9791666939854622,
      "reward_std": 0.44323352351784706,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 421
    },
    {
      "completion_length": 55.08333444595337,
      "epoch": 0.07502222222222223,
      "grad_norm": 1.320246490235028,
      "kl": 3.072265625,
      "learning_rate": 1.014166338924627e-08,
      "loss": 0.123,
      "reward": 0.9375000298023224,
      "reward_std": 0.4662386514246464,
      "rewards/equation_reward_func": 0.1041666679084301,
      "rewards/format_reward_func": 0.833333358168602,
      "step": 422
    },
    {
      "completion_length": 53.06250190734863,
      "epoch": 0.0752,
      "grad_norm": 1.4581841364335688,
      "kl": 2.12109375,
      "learning_rate": 9.432440425378663e-09,
      "loss": 0.0848,
      "reward": 1.0208333730697632,
      "reward_std": 0.38435182720422745,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 423
    },
    {
      "completion_length": 56.97916841506958,
      "epoch": 0.07537777777777778,
      "grad_norm": 3.1980164553732098,
      "kl": 2.3525390625,
      "learning_rate": 8.748687154702672e-09,
      "loss": 0.0941,
      "reward": 1.0416666939854622,
      "reward_std": 0.5055268332362175,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 424
    },
    {
      "completion_length": 57.645835399627686,
      "epoch": 0.07555555555555556,
      "grad_norm": 1.5490994703153829,
      "kl": 1.429931640625,
      "learning_rate": 8.090439076887556e-09,
      "loss": 0.0573,
      "reward": 1.2500000447034836,
      "reward_std": 0.49578551575541496,
      "rewards/equation_reward_func": 0.31250000558793545,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 425
    },
    {
      "completion_length": 55.70833492279053,
      "epoch": 0.07573333333333333,
      "grad_norm": 0.9371848147502277,
      "kl": 2.319580078125,
      "learning_rate": 7.457730367402549e-09,
      "loss": 0.0928,
      "reward": 1.0416666939854622,
      "reward_std": 0.46833235025405884,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 426
    },
    {
      "completion_length": 55.25000238418579,
      "epoch": 0.07591111111111111,
      "grad_norm": 1.4055409510031482,
      "kl": 3.28759765625,
      "learning_rate": 6.850593875742827e-09,
      "loss": 0.1316,
      "reward": 1.0208333730697632,
      "reward_std": 0.566160973161459,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.8333333507180214,
      "step": 427
    },
    {
      "completion_length": 55.562501430511475,
      "epoch": 0.07608888888888889,
      "grad_norm": 1.344704452916086,
      "kl": 3.205810546875,
      "learning_rate": 6.269061123724162e-09,
      "loss": 0.1285,
      "reward": 0.9583333730697632,
      "reward_std": 0.43123578280210495,
      "rewards/equation_reward_func": 0.10416666977107525,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 428
    },
    {
      "completion_length": 59.22916793823242,
      "epoch": 0.07626666666666666,
      "grad_norm": 2.1608184033551643,
      "kl": 1.736328125,
      "learning_rate": 5.713162303845886e-09,
      "loss": 0.0696,
      "reward": 1.2083333879709244,
      "reward_std": 0.5388510562479496,
      "rewards/equation_reward_func": 0.2708333395421505,
      "rewards/format_reward_func": 0.9375000149011612,
      "step": 429
    },
    {
      "completion_length": 54.125001430511475,
      "epoch": 0.07644444444444444,
      "grad_norm": 1.8308437940638247,
      "kl": 1.9599609375,
      "learning_rate": 5.182926277723821e-09,
      "loss": 0.0783,
      "reward": 1.0625000223517418,
      "reward_std": 0.5724712051451206,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.8333333432674408,
      "step": 430
    },
    {
      "completion_length": 56.500000953674316,
      "epoch": 0.07662222222222222,
      "grad_norm": 1.6765820181739854,
      "kl": 2.41552734375,
      "learning_rate": 4.678380574591356e-09,
      "loss": 0.0966,
      "reward": 1.0000000298023224,
      "reward_std": 0.438050027936697,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 431
    },
    {
      "completion_length": 57.27083492279053,
      "epoch": 0.0768,
      "grad_norm": 1.3657278862024629,
      "kl": 2.685546875,
      "learning_rate": 4.199551389870659e-09,
      "loss": 0.1074,
      "reward": 0.8541666865348816,
      "reward_std": 0.45774073153734207,
      "rewards/equation_reward_func": 0.06250000186264515,
      "rewards/format_reward_func": 0.7916666865348816,
      "step": 432
    },
    {
      "completion_length": 55.64583492279053,
      "epoch": 0.07697777777777778,
      "grad_norm": 0.8539346194962987,
      "kl": 2.49462890625,
      "learning_rate": 3.746463583812143e-09,
      "loss": 0.0997,
      "reward": 1.041666679084301,
      "reward_std": 0.4067096970975399,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8958333507180214,
      "step": 433
    },
    {
      "completion_length": 57.875000953674316,
      "epoch": 0.07715555555555556,
      "grad_norm": 1.2719357827752074,
      "kl": 2.07666015625,
      "learning_rate": 3.3191406802041688e-09,
      "loss": 0.0831,
      "reward": 1.0416666939854622,
      "reward_std": 0.3332236036658287,
      "rewards/equation_reward_func": 0.12500000186264515,
      "rewards/format_reward_func": 0.916666679084301,
      "step": 434
    },
    {
      "completion_length": 54.312500953674316,
      "epoch": 0.07733333333333334,
      "grad_norm": 1.4529499100749974,
      "kl": 3.67041015625,
      "learning_rate": 2.9176048651513575e-09,
      "loss": 0.1465,
      "reward": 0.958333358168602,
      "reward_std": 0.5915607511997223,
      "rewards/equation_reward_func": 0.1875000037252903,
      "rewards/format_reward_func": 0.7708333507180214,
      "step": 435
    },
    {
      "completion_length": 55.08333492279053,
      "epoch": 0.07751111111111111,
      "grad_norm": 2.3005383670846693,
      "kl": 3.82958984375,
      "learning_rate": 2.541876985923119e-09,
      "loss": 0.1532,
      "reward": 0.9791667014360428,
      "reward_std": 0.49742312356829643,
      "rewards/equation_reward_func": 0.14583333767950535,
      "rewards/format_reward_func": 0.8333333432674408,
      "step": 436
    },
    {
      "completion_length": 54.20833444595337,
      "epoch": 0.07768888888888889,
      "grad_norm": 1.2230209357396296,
      "kl": 2.626220703125,
      "learning_rate": 2.1919765498708554e-09,
      "loss": 0.1052,
      "reward": 0.979166716337204,
      "reward_std": 0.4918699115514755,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 437
    },
    {
      "completion_length": 53.04166841506958,
      "epoch": 0.07786666666666667,
      "grad_norm": 1.2004863808274155,
      "kl": 2.7109375,
      "learning_rate": 1.867921723415433e-09,
      "loss": 0.1085,
      "reward": 1.0208333786576986,
      "reward_std": 0.507898073643446,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.812500013038516,
      "step": 438
    },
    {
      "completion_length": 56.416667461395264,
      "epoch": 0.07804444444444444,
      "grad_norm": 2.4507514591114656,
      "kl": 1.8857421875,
      "learning_rate": 1.5697293311039973e-09,
      "loss": 0.0755,
      "reward": 1.020833358168602,
      "reward_std": 0.4759799763560295,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 439
    },
    {
      "completion_length": 54.937501430511475,
      "epoch": 0.07822222222222222,
      "grad_norm": 2.2350073546663545,
      "kl": 2.593994140625,
      "learning_rate": 1.2974148547362228e-09,
      "loss": 0.1039,
      "reward": 1.0833333656191826,
      "reward_std": 0.5678940936923027,
      "rewards/equation_reward_func": 0.2291666716337204,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 440
    },
    {
      "completion_length": 57.60416793823242,
      "epoch": 0.0784,
      "grad_norm": 2.858115206523939,
      "kl": 1.82763671875,
      "learning_rate": 1.0509924325609598e-09,
      "loss": 0.0733,
      "reward": 1.020833358168602,
      "reward_std": 0.42745841667056084,
      "rewards/equation_reward_func": 0.1458333358168602,
      "rewards/format_reward_func": 0.8750000149011612,
      "step": 441
    },
    {
      "completion_length": 58.10416793823242,
      "epoch": 0.07857777777777777,
      "grad_norm": 0.8237264126414511,
      "kl": 2.230712890625,
      "learning_rate": 8.304748585417076e-10,
      "loss": 0.0891,
      "reward": 1.1458333805203438,
      "reward_std": 0.41129202395677567,
      "rewards/equation_reward_func": 0.18750000558793545,
      "rewards/format_reward_func": 0.9583333358168602,
      "step": 442
    },
    {
      "completion_length": 55.27083492279053,
      "epoch": 0.07875555555555555,
      "grad_norm": 2.025879478872808,
      "kl": 2.39501953125,
      "learning_rate": 6.358735816926475e-10,
      "loss": 0.0957,
      "reward": 1.1458333805203438,
      "reward_std": 0.5063771307468414,
      "rewards/equation_reward_func": 0.29166667722165585,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 443
    },
    {
      "completion_length": 56.437500953674316,
      "epoch": 0.07893333333333333,
      "grad_norm": 1.7721145491613786,
      "kl": 2.5361328125,
      "learning_rate": 4.671987054842841e-10,
      "loss": 0.1016,
      "reward": 0.9375000223517418,
      "reward_std": 0.3828308768570423,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.854166679084301,
      "step": 444
    },
    {
      "completion_length": 54.43750190734863,
      "epoch": 0.0791111111111111,
      "grad_norm": 2.0018604753277365,
      "kl": 2.74658203125,
      "learning_rate": 3.2445898731853216e-10,
      "loss": 0.1102,
      "reward": 0.937500037252903,
      "reward_std": 0.5536307953298092,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8125000298023224,
      "step": 445
    },
    {
      "completion_length": 55.375001430511475,
      "epoch": 0.0792888888888889,
      "grad_norm": 1.6563944165609519,
      "kl": 2.6494140625,
      "learning_rate": 2.076618380744133e-10,
      "loss": 0.1061,
      "reward": 0.9375000223517418,
      "reward_std": 0.4548136591911316,
      "rewards/equation_reward_func": 0.0833333358168602,
      "rewards/format_reward_func": 0.8541666939854622,
      "step": 446
    },
    {
      "completion_length": 56.208335399627686,
      "epoch": 0.07946666666666667,
      "grad_norm": 1.4046224808818546,
      "kl": 2.59716796875,
      "learning_rate": 1.16813321723197e-10,
      "loss": 0.1038,
      "reward": 1.0416667088866234,
      "reward_std": 0.528849832713604,
      "rewards/equation_reward_func": 0.16666666977107525,
      "rewards/format_reward_func": 0.8750000223517418,
      "step": 447
    },
    {
      "completion_length": 56.187501430511475,
      "epoch": 0.07964444444444445,
      "grad_norm": 1.9614743025012586,
      "kl": 2.751953125,
      "learning_rate": 5.191815501343066e-11,
      "loss": 0.11,
      "reward": 1.1041667014360428,
      "reward_std": 0.462188757956028,
      "rewards/equation_reward_func": 0.20833333767950535,
      "rewards/format_reward_func": 0.8958333432674408,
      "step": 448
    },
    {
      "completion_length": 58.187500953674316,
      "epoch": 0.07982222222222222,
      "grad_norm": 1.1288440912101967,
      "kl": 2.55517578125,
      "learning_rate": 1.2979707226135061e-11,
      "loss": 0.1023,
      "reward": 0.9791667014360428,
      "reward_std": 0.437777504324913,
      "rewards/equation_reward_func": 0.1250000037252903,
      "rewards/format_reward_func": 0.8541666865348816,
      "step": 449
    },
    {
      "completion_length": 57.750001430511475,
      "epoch": 0.08,
      "grad_norm": 1.6866388049647176,
      "kl": 1.45751953125,
      "learning_rate": 0.0,
      "loss": 0.0583,
      "reward": 1.1875000447034836,
      "reward_std": 0.32525811716914177,
      "rewards/equation_reward_func": 0.2083333395421505,
      "rewards/format_reward_func": 0.9791666716337204,
      "step": 450
    },
    {
      "epoch": 0.08,
      "step": 450,
      "total_flos": 0.0,
      "train_loss": 0.08981622397834212,
      "train_runtime": 6983.3902,
      "train_samples_per_second": 3.093,
      "train_steps_per_second": 0.064
    }
  ],
  "logging_steps": 1,
  "max_steps": 450,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}