ceb_b128_le3_s8000 / last-checkpoint /trainer_state.json

Training in progress, step 8000, checkpoint

fbaedba verified 5 months ago

No virus

31.3 kB

	{
	"best_metric": 0.41427454352378845,
	"best_model_checkpoint": "mikhail_panzo/ceb_b128_le3_s8000/checkpoint-500",
	"epoch": 627.4509803921569,
	"eval_steps": 500,
	"global_step": 8000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 3.9215686274509802,
	"grad_norm": 2.899599313735962,
	"learning_rate": 2.4500000000000003e-05,
	"loss": 0.7166,
	"step": 50
	},
	{
	"epoch": 7.8431372549019605,
	"grad_norm": 3.100567102432251,
	"learning_rate": 4.9500000000000004e-05,
	"loss": 0.5261,
	"step": 100
	},
	{
	"epoch": 11.764705882352942,
	"grad_norm": 3.0574705600738525,
	"learning_rate": 7.45e-05,
	"loss": 0.4841,
	"step": 150
	},
	{
	"epoch": 15.686274509803921,
	"grad_norm": 1.0856355428695679,
	"learning_rate": 9.95e-05,
	"loss": 0.4634,
	"step": 200
	},
	{
	"epoch": 19.607843137254903,
	"grad_norm": 3.049023389816284,
	"learning_rate": 0.0001245,
	"loss": 0.4622,
	"step": 250
	},
	{
	"epoch": 23.529411764705884,
	"grad_norm": 1.3187408447265625,
	"learning_rate": 0.0001495,
	"loss": 0.4491,
	"step": 300
	},
	{
	"epoch": 27.45098039215686,
	"grad_norm": 2.879023551940918,
	"learning_rate": 0.00017449999999999999,
	"loss": 0.4391,
	"step": 350
	},
	{
	"epoch": 31.372549019607842,
	"grad_norm": 0.908079981803894,
	"learning_rate": 0.00019950000000000002,
	"loss": 0.4446,
	"step": 400
	},
	{
	"epoch": 35.294117647058826,
	"grad_norm": 2.698949098587036,
	"learning_rate": 0.0002245,
	"loss": 0.4475,
	"step": 450
	},
	{
	"epoch": 39.21568627450981,
	"grad_norm": 4.266517639160156,
	"learning_rate": 0.0002495,
	"loss": 0.4379,
	"step": 500
	},
	{
	"epoch": 39.21568627450981,
	"eval_loss": 0.41427454352378845,
	"eval_runtime": 6.5876,
	"eval_samples_per_second": 27.324,
	"eval_steps_per_second": 3.491,
	"step": 500
	},
	{
	"epoch": 43.13725490196079,
	"grad_norm": 2.933168649673462,
	"learning_rate": 0.0002745,
	"loss": 0.4306,
	"step": 550
	},
	{
	"epoch": 47.05882352941177,
	"grad_norm": 2.7896311283111572,
	"learning_rate": 0.0002995,
	"loss": 0.4502,
	"step": 600
	},
	{
	"epoch": 50.98039215686274,
	"grad_norm": 2.2012181282043457,
	"learning_rate": 0.00032450000000000003,
	"loss": 0.4493,
	"step": 650
	},
	{
	"epoch": 54.90196078431372,
	"grad_norm": 2.1830649375915527,
	"learning_rate": 0.0003495,
	"loss": 0.4231,
	"step": 700
	},
	{
	"epoch": 58.8235294117647,
	"grad_norm": 2.837082862854004,
	"learning_rate": 0.0003745,
	"loss": 0.4237,
	"step": 750
	},
	{
	"epoch": 62.745098039215684,
	"grad_norm": 2.12803316116333,
	"learning_rate": 0.0003995,
	"loss": 0.4527,
	"step": 800
	},
	{
	"epoch": 66.66666666666667,
	"grad_norm": 7.096790790557861,
	"learning_rate": 0.0004245,
	"loss": 0.4536,
	"step": 850
	},
	{
	"epoch": 70.58823529411765,
	"grad_norm": 2.911712884902954,
	"learning_rate": 0.00044950000000000003,
	"loss": 0.4573,
	"step": 900
	},
	{
	"epoch": 74.50980392156863,
	"grad_norm": 3.439180374145508,
	"learning_rate": 0.0004745,
	"loss": 0.4726,
	"step": 950
	},
	{
	"epoch": 78.43137254901961,
	"grad_norm": 4.071909427642822,
	"learning_rate": 0.0004995,
	"loss": 0.4492,
	"step": 1000
	},
	{
	"epoch": 78.43137254901961,
	"eval_loss": 0.4376925528049469,
	"eval_runtime": 6.6325,
	"eval_samples_per_second": 27.139,
	"eval_steps_per_second": 3.468,
	"step": 1000
	},
	{
	"epoch": 82.3529411764706,
	"grad_norm": 6.268165111541748,
	"learning_rate": 0.0005245,
	"loss": 0.4562,
	"step": 1050
	},
	{
	"epoch": 86.27450980392157,
	"grad_norm": 2.190829038619995,
	"learning_rate": 0.0005495,
	"loss": 0.4473,
	"step": 1100
	},
	{
	"epoch": 90.19607843137256,
	"grad_norm": 6.477546215057373,
	"learning_rate": 0.0005745,
	"loss": 0.4587,
	"step": 1150
	},
	{
	"epoch": 94.11764705882354,
	"grad_norm": 2.3519718647003174,
	"learning_rate": 0.0005995000000000001,
	"loss": 0.4677,
	"step": 1200
	},
	{
	"epoch": 98.03921568627452,
	"grad_norm": 3.0339012145996094,
	"learning_rate": 0.0006245000000000001,
	"loss": 0.5425,
	"step": 1250
	},
	{
	"epoch": 101.96078431372548,
	"grad_norm": 5.318001747131348,
	"learning_rate": 0.0006490000000000001,
	"loss": 0.9214,
	"step": 1300
	},
	{
	"epoch": 105.88235294117646,
	"grad_norm": 0.10876531153917313,
	"learning_rate": 0.000674,
	"loss": 1.5183,
	"step": 1350
	},
	{
	"epoch": 109.80392156862744,
	"grad_norm": 1.2959858179092407,
	"learning_rate": 0.000699,
	"loss": 1.497,
	"step": 1400
	},
	{
	"epoch": 113.72549019607843,
	"grad_norm": 0.14063771069049835,
	"learning_rate": 0.000724,
	"loss": 1.4423,
	"step": 1450
	},
	{
	"epoch": 117.6470588235294,
	"grad_norm": 0.3507501184940338,
	"learning_rate": 0.000749,
	"loss": 1.4417,
	"step": 1500
	},
	{
	"epoch": 117.6470588235294,
	"eval_loss": 1.4372303485870361,
	"eval_runtime": 6.5947,
	"eval_samples_per_second": 27.295,
	"eval_steps_per_second": 3.488,
	"step": 1500
	},
	{
	"epoch": 121.56862745098039,
	"grad_norm": 0.041443753987550735,
	"learning_rate": 0.0007740000000000001,
	"loss": 1.4335,
	"step": 1550
	},
	{
	"epoch": 125.49019607843137,
	"grad_norm": 0.12605535984039307,
	"learning_rate": 0.000799,
	"loss": 1.434,
	"step": 1600
	},
	{
	"epoch": 129.41176470588235,
	"grad_norm": 0.22777751088142395,
	"learning_rate": 0.000824,
	"loss": 1.4312,
	"step": 1650
	},
	{
	"epoch": 133.33333333333334,
	"grad_norm": 0.317199170589447,
	"learning_rate": 0.000849,
	"loss": 1.4323,
	"step": 1700
	},
	{
	"epoch": 137.2549019607843,
	"grad_norm": 0.10237721353769302,
	"learning_rate": 0.000874,
	"loss": 1.4332,
	"step": 1750
	},
	{
	"epoch": 141.1764705882353,
	"grad_norm": 0.23147189617156982,
	"learning_rate": 0.0008990000000000001,
	"loss": 1.4313,
	"step": 1800
	},
	{
	"epoch": 145.09803921568627,
	"grad_norm": 0.1493494212627411,
	"learning_rate": 0.000924,
	"loss": 1.4446,
	"step": 1850
	},
	{
	"epoch": 149.01960784313727,
	"grad_norm": 0.10309738665819168,
	"learning_rate": 0.000949,
	"loss": 1.4315,
	"step": 1900
	},
	{
	"epoch": 152.94117647058823,
	"grad_norm": 0.1577301323413849,
	"learning_rate": 0.000974,
	"loss": 1.4305,
	"step": 1950
	},
	{
	"epoch": 156.86274509803923,
	"grad_norm": 0.14740918576717377,
	"learning_rate": 0.000999,
	"loss": 1.4311,
	"step": 2000
	},
	{
	"epoch": 156.86274509803923,
	"eval_loss": 1.4307715892791748,
	"eval_runtime": 6.5817,
	"eval_samples_per_second": 27.349,
	"eval_steps_per_second": 3.495,
	"step": 2000
	},
	{
	"epoch": 160.7843137254902,
	"grad_norm": 0.04897089675068855,
	"learning_rate": 0.000992,
	"loss": 1.4303,
	"step": 2050
	},
	{
	"epoch": 164.7058823529412,
	"grad_norm": 0.052775364369153976,
	"learning_rate": 0.0009836666666666668,
	"loss": 1.4293,
	"step": 2100
	},
	{
	"epoch": 168.62745098039215,
	"grad_norm": 0.07608811557292938,
	"learning_rate": 0.0009753333333333334,
	"loss": 1.4302,
	"step": 2150
	},
	{
	"epoch": 172.54901960784315,
	"grad_norm": 0.18155619502067566,
	"learning_rate": 0.000967,
	"loss": 1.4298,
	"step": 2200
	},
	{
	"epoch": 176.47058823529412,
	"grad_norm": 0.23861084878444672,
	"learning_rate": 0.0009586666666666667,
	"loss": 1.4492,
	"step": 2250
	},
	{
	"epoch": 180.3921568627451,
	"grad_norm": 0.07681425660848618,
	"learning_rate": 0.0009503333333333334,
	"loss": 1.4352,
	"step": 2300
	},
	{
	"epoch": 184.31372549019608,
	"grad_norm": 0.1355891227722168,
	"learning_rate": 0.000942,
	"loss": 1.4308,
	"step": 2350
	},
	{
	"epoch": 188.23529411764707,
	"grad_norm": 0.17761075496673584,
	"learning_rate": 0.0009336666666666666,
	"loss": 1.4678,
	"step": 2400
	},
	{
	"epoch": 192.15686274509804,
	"grad_norm": 0.10840369015932083,
	"learning_rate": 0.0009253333333333333,
	"loss": 1.4288,
	"step": 2450
	},
	{
	"epoch": 196.07843137254903,
	"grad_norm": 0.15987902879714966,
	"learning_rate": 0.0009170000000000001,
	"loss": 1.4506,
	"step": 2500
	},
	{
	"epoch": 196.07843137254903,
	"eval_loss": 1.4364666938781738,
	"eval_runtime": 6.5311,
	"eval_samples_per_second": 27.561,
	"eval_steps_per_second": 3.522,
	"step": 2500
	},
	{
	"epoch": 200.0,
	"grad_norm": 0.056504905223846436,
	"learning_rate": 0.0009086666666666667,
	"loss": 1.4315,
	"step": 2550
	},
	{
	"epoch": 203.92156862745097,
	"grad_norm": 0.07093175500631332,
	"learning_rate": 0.0009003333333333334,
	"loss": 1.4302,
	"step": 2600
	},
	{
	"epoch": 207.84313725490196,
	"grad_norm": 0.04637598991394043,
	"learning_rate": 0.000892,
	"loss": 1.4306,
	"step": 2650
	},
	{
	"epoch": 211.76470588235293,
	"grad_norm": 0.062212761491537094,
	"learning_rate": 0.0008836666666666667,
	"loss": 1.4296,
	"step": 2700
	},
	{
	"epoch": 215.68627450980392,
	"grad_norm": 0.1276828944683075,
	"learning_rate": 0.0008753333333333333,
	"loss": 1.4433,
	"step": 2750
	},
	{
	"epoch": 219.6078431372549,
	"grad_norm": 0.07146938890218735,
	"learning_rate": 0.000867,
	"loss": 1.4309,
	"step": 2800
	},
	{
	"epoch": 223.52941176470588,
	"grad_norm": 0.10493505001068115,
	"learning_rate": 0.0008586666666666668,
	"loss": 1.43,
	"step": 2850
	},
	{
	"epoch": 227.45098039215685,
	"grad_norm": 0.11434385925531387,
	"learning_rate": 0.0008503333333333334,
	"loss": 1.4276,
	"step": 2900
	},
	{
	"epoch": 231.37254901960785,
	"grad_norm": 0.16153867542743683,
	"learning_rate": 0.000842,
	"loss": 1.4288,
	"step": 2950
	},
	{
	"epoch": 235.2941176470588,
	"grad_norm": 0.14236119389533997,
	"learning_rate": 0.0008336666666666667,
	"loss": 1.4286,
	"step": 3000
	},
	{
	"epoch": 235.2941176470588,
	"eval_loss": 1.4312187433242798,
	"eval_runtime": 6.6382,
	"eval_samples_per_second": 27.116,
	"eval_steps_per_second": 3.465,
	"step": 3000
	},
	{
	"epoch": 239.2156862745098,
	"grad_norm": 0.08121176809072495,
	"learning_rate": 0.0008253333333333334,
	"loss": 1.426,
	"step": 3050
	},
	{
	"epoch": 243.13725490196077,
	"grad_norm": 0.04294486716389656,
	"learning_rate": 0.000817,
	"loss": 1.4278,
	"step": 3100
	},
	{
	"epoch": 247.05882352941177,
	"grad_norm": 0.09214005619287491,
	"learning_rate": 0.0008086666666666666,
	"loss": 1.4283,
	"step": 3150
	},
	{
	"epoch": 250.98039215686273,
	"grad_norm": 0.06561414152383804,
	"learning_rate": 0.0008003333333333333,
	"loss": 1.4286,
	"step": 3200
	},
	{
	"epoch": 254.90196078431373,
	"grad_norm": 0.06078485772013664,
	"learning_rate": 0.0007920000000000001,
	"loss": 1.4275,
	"step": 3250
	},
	{
	"epoch": 258.8235294117647,
	"grad_norm": 0.15776388347148895,
	"learning_rate": 0.0007836666666666667,
	"loss": 1.4296,
	"step": 3300
	},
	{
	"epoch": 262.7450980392157,
	"grad_norm": 0.07666509598493576,
	"learning_rate": 0.0007753333333333334,
	"loss": 1.4264,
	"step": 3350
	},
	{
	"epoch": 266.6666666666667,
	"grad_norm": 0.12861433625221252,
	"learning_rate": 0.000767,
	"loss": 1.4301,
	"step": 3400
	},
	{
	"epoch": 270.5882352941176,
	"grad_norm": 0.058193549513816833,
	"learning_rate": 0.0007586666666666667,
	"loss": 1.4288,
	"step": 3450
	},
	{
	"epoch": 274.5098039215686,
	"grad_norm": 0.2083207666873932,
	"learning_rate": 0.0007503333333333333,
	"loss": 1.4285,
	"step": 3500
	},
	{
	"epoch": 274.5098039215686,
	"eval_loss": 1.4328523874282837,
	"eval_runtime": 6.505,
	"eval_samples_per_second": 27.671,
	"eval_steps_per_second": 3.536,
	"step": 3500
	},
	{
	"epoch": 278.4313725490196,
	"grad_norm": 0.1663893461227417,
	"learning_rate": 0.000742,
	"loss": 1.4281,
	"step": 3550
	},
	{
	"epoch": 282.3529411764706,
	"grad_norm": 0.034747958183288574,
	"learning_rate": 0.0007336666666666668,
	"loss": 1.4278,
	"step": 3600
	},
	{
	"epoch": 286.27450980392155,
	"grad_norm": 0.0872250571846962,
	"learning_rate": 0.0007253333333333334,
	"loss": 1.4258,
	"step": 3650
	},
	{
	"epoch": 290.19607843137254,
	"grad_norm": 0.08757229149341583,
	"learning_rate": 0.000717,
	"loss": 1.4224,
	"step": 3700
	},
	{
	"epoch": 294.11764705882354,
	"grad_norm": 0.1288028061389923,
	"learning_rate": 0.0007086666666666667,
	"loss": 1.425,
	"step": 3750
	},
	{
	"epoch": 298.03921568627453,
	"grad_norm": 0.08947344869375229,
	"learning_rate": 0.0007003333333333334,
	"loss": 1.4219,
	"step": 3800
	},
	{
	"epoch": 301.96078431372547,
	"grad_norm": 0.10822741687297821,
	"learning_rate": 0.000692,
	"loss": 1.4217,
	"step": 3850
	},
	{
	"epoch": 305.88235294117646,
	"grad_norm": 0.08467403054237366,
	"learning_rate": 0.0006836666666666666,
	"loss": 1.423,
	"step": 3900
	},
	{
	"epoch": 309.80392156862746,
	"grad_norm": 0.06203661486506462,
	"learning_rate": 0.0006753333333333333,
	"loss": 1.4229,
	"step": 3950
	},
	{
	"epoch": 313.72549019607845,
	"grad_norm": 0.11116231977939606,
	"learning_rate": 0.0006670000000000001,
	"loss": 1.421,
	"step": 4000
	},
	{
	"epoch": 313.72549019607845,
	"eval_loss": 1.4406124353408813,
	"eval_runtime": 6.7269,
	"eval_samples_per_second": 26.758,
	"eval_steps_per_second": 3.419,
	"step": 4000
	},
	{
	"epoch": 317.6470588235294,
	"grad_norm": 0.22143186628818512,
	"learning_rate": 0.0006586666666666667,
	"loss": 1.4416,
	"step": 4050
	},
	{
	"epoch": 321.5686274509804,
	"grad_norm": 0.04169169440865517,
	"learning_rate": 0.0006503333333333334,
	"loss": 1.4239,
	"step": 4100
	},
	{
	"epoch": 325.4901960784314,
	"grad_norm": 0.09313623607158661,
	"learning_rate": 0.000642,
	"loss": 1.4219,
	"step": 4150
	},
	{
	"epoch": 329.4117647058824,
	"grad_norm": 0.1355171650648117,
	"learning_rate": 0.0006336666666666667,
	"loss": 1.422,
	"step": 4200
	},
	{
	"epoch": 333.3333333333333,
	"grad_norm": 0.11701258271932602,
	"learning_rate": 0.0006253333333333333,
	"loss": 1.4288,
	"step": 4250
	},
	{
	"epoch": 337.2549019607843,
	"grad_norm": 0.20015889406204224,
	"learning_rate": 0.000617,
	"loss": 1.423,
	"step": 4300
	},
	{
	"epoch": 341.1764705882353,
	"grad_norm": 0.061756107956171036,
	"learning_rate": 0.0006086666666666668,
	"loss": 1.4219,
	"step": 4350
	},
	{
	"epoch": 345.0980392156863,
	"grad_norm": 0.10823976993560791,
	"learning_rate": 0.0006003333333333334,
	"loss": 1.4222,
	"step": 4400
	},
	{
	"epoch": 349.01960784313724,
	"grad_norm": 0.13286006450653076,
	"learning_rate": 0.000592,
	"loss": 1.4292,
	"step": 4450
	},
	{
	"epoch": 352.94117647058823,
	"grad_norm": 0.10281714797019958,
	"learning_rate": 0.0005836666666666667,
	"loss": 1.4228,
	"step": 4500
	},
	{
	"epoch": 352.94117647058823,
	"eval_loss": 1.433663249015808,
	"eval_runtime": 6.7809,
	"eval_samples_per_second": 26.545,
	"eval_steps_per_second": 3.392,
	"step": 4500
	},
	{
	"epoch": 356.8627450980392,
	"grad_norm": 0.045487239956855774,
	"learning_rate": 0.0005753333333333334,
	"loss": 1.4237,
	"step": 4550
	},
	{
	"epoch": 360.7843137254902,
	"grad_norm": 0.08421700447797775,
	"learning_rate": 0.000567,
	"loss": 1.4216,
	"step": 4600
	},
	{
	"epoch": 364.70588235294116,
	"grad_norm": 0.03885773941874504,
	"learning_rate": 0.0005586666666666666,
	"loss": 1.423,
	"step": 4650
	},
	{
	"epoch": 368.62745098039215,
	"grad_norm": 0.06695468723773956,
	"learning_rate": 0.0005503333333333333,
	"loss": 1.4227,
	"step": 4700
	},
	{
	"epoch": 372.54901960784315,
	"grad_norm": 0.059906505048274994,
	"learning_rate": 0.0005420000000000001,
	"loss": 1.4216,
	"step": 4750
	},
	{
	"epoch": 376.47058823529414,
	"grad_norm": 0.13581004738807678,
	"learning_rate": 0.0005336666666666667,
	"loss": 1.4241,
	"step": 4800
	},
	{
	"epoch": 380.3921568627451,
	"grad_norm": 0.10568855702877045,
	"learning_rate": 0.0005253333333333334,
	"loss": 1.4219,
	"step": 4850
	},
	{
	"epoch": 384.3137254901961,
	"grad_norm": 0.16822956502437592,
	"learning_rate": 0.000517,
	"loss": 1.4224,
	"step": 4900
	},
	{
	"epoch": 388.2352941176471,
	"grad_norm": 0.11007729917764664,
	"learning_rate": 0.0005086666666666667,
	"loss": 1.4222,
	"step": 4950
	},
	{
	"epoch": 392.15686274509807,
	"grad_norm": 0.06487352401018143,
	"learning_rate": 0.0005003333333333333,
	"loss": 1.4232,
	"step": 5000
	},
	{
	"epoch": 392.15686274509807,
	"eval_loss": 1.4328006505966187,
	"eval_runtime": 6.65,
	"eval_samples_per_second": 27.068,
	"eval_steps_per_second": 3.459,
	"step": 5000
	},
	{
	"epoch": 396.078431372549,
	"grad_norm": 0.06124414503574371,
	"learning_rate": 0.000492,
	"loss": 1.422,
	"step": 5050
	},
	{
	"epoch": 400.0,
	"grad_norm": 0.15419355034828186,
	"learning_rate": 0.0004836666666666667,
	"loss": 1.4212,
	"step": 5100
	},
	{
	"epoch": 403.921568627451,
	"grad_norm": 0.032941777259111404,
	"learning_rate": 0.00047533333333333336,
	"loss": 1.4223,
	"step": 5150
	},
	{
	"epoch": 407.84313725490193,
	"grad_norm": 0.1344718337059021,
	"learning_rate": 0.000467,
	"loss": 1.4223,
	"step": 5200
	},
	{
	"epoch": 411.7647058823529,
	"grad_norm": 0.08072862774133682,
	"learning_rate": 0.0004586666666666667,
	"loss": 1.4202,
	"step": 5250
	},
	{
	"epoch": 415.6862745098039,
	"grad_norm": 0.10441293567419052,
	"learning_rate": 0.0004503333333333333,
	"loss": 1.4219,
	"step": 5300
	},
	{
	"epoch": 419.6078431372549,
	"grad_norm": 0.17147202789783478,
	"learning_rate": 0.000442,
	"loss": 1.4218,
	"step": 5350
	},
	{
	"epoch": 423.52941176470586,
	"grad_norm": 0.0913294106721878,
	"learning_rate": 0.0004336666666666667,
	"loss": 1.4205,
	"step": 5400
	},
	{
	"epoch": 427.45098039215685,
	"grad_norm": 0.08024486899375916,
	"learning_rate": 0.00042533333333333334,
	"loss": 1.42,
	"step": 5450
	},
	{
	"epoch": 431.37254901960785,
	"grad_norm": 0.20594315230846405,
	"learning_rate": 0.000417,
	"loss": 1.4208,
	"step": 5500
	},
	{
	"epoch": 431.37254901960785,
	"eval_loss": 1.4330966472625732,
	"eval_runtime": 6.5131,
	"eval_samples_per_second": 27.637,
	"eval_steps_per_second": 3.531,
	"step": 5500
	},
	{
	"epoch": 435.29411764705884,
	"grad_norm": 0.16393162310123444,
	"learning_rate": 0.00040866666666666666,
	"loss": 1.4215,
	"step": 5550
	},
	{
	"epoch": 439.2156862745098,
	"grad_norm": 0.12962013483047485,
	"learning_rate": 0.0004003333333333333,
	"loss": 1.4221,
	"step": 5600
	},
	{
	"epoch": 443.1372549019608,
	"grad_norm": 0.09659314155578613,
	"learning_rate": 0.00039200000000000004,
	"loss": 1.4197,
	"step": 5650
	},
	{
	"epoch": 447.05882352941177,
	"grad_norm": 0.05516098812222481,
	"learning_rate": 0.00038366666666666665,
	"loss": 1.4214,
	"step": 5700
	},
	{
	"epoch": 450.98039215686276,
	"grad_norm": 0.08098474889993668,
	"learning_rate": 0.00037533333333333337,
	"loss": 1.4224,
	"step": 5750
	},
	{
	"epoch": 454.9019607843137,
	"grad_norm": 0.20328585803508759,
	"learning_rate": 0.000367,
	"loss": 1.4215,
	"step": 5800
	},
	{
	"epoch": 458.8235294117647,
	"grad_norm": 0.04339490830898285,
	"learning_rate": 0.0003586666666666667,
	"loss": 1.4214,
	"step": 5850
	},
	{
	"epoch": 462.7450980392157,
	"grad_norm": 0.0780976340174675,
	"learning_rate": 0.00035033333333333336,
	"loss": 1.4215,
	"step": 5900
	},
	{
	"epoch": 466.6666666666667,
	"grad_norm": 0.09538757055997849,
	"learning_rate": 0.000342,
	"loss": 1.4206,
	"step": 5950
	},
	{
	"epoch": 470.5882352941176,
	"grad_norm": 0.10228724032640457,
	"learning_rate": 0.0003336666666666667,
	"loss": 1.4211,
	"step": 6000
	},
	{
	"epoch": 470.5882352941176,
	"eval_loss": 1.4311357736587524,
	"eval_runtime": 6.8021,
	"eval_samples_per_second": 26.462,
	"eval_steps_per_second": 3.381,
	"step": 6000
	},
	{
	"epoch": 474.5098039215686,
	"grad_norm": 0.05785190686583519,
	"learning_rate": 0.0003253333333333333,
	"loss": 1.4195,
	"step": 6050
	},
	{
	"epoch": 478.4313725490196,
	"grad_norm": 0.040976058691740036,
	"learning_rate": 0.000317,
	"loss": 1.4218,
	"step": 6100
	},
	{
	"epoch": 482.3529411764706,
	"grad_norm": 0.0426504947245121,
	"learning_rate": 0.00030866666666666667,
	"loss": 1.4218,
	"step": 6150
	},
	{
	"epoch": 486.27450980392155,
	"grad_norm": 0.03735409677028656,
	"learning_rate": 0.00030033333333333333,
	"loss": 1.4196,
	"step": 6200
	},
	{
	"epoch": 490.19607843137254,
	"grad_norm": 0.12306160479784012,
	"learning_rate": 0.000292,
	"loss": 1.4222,
	"step": 6250
	},
	{
	"epoch": 494.11764705882354,
	"grad_norm": 0.028285862877964973,
	"learning_rate": 0.00028366666666666666,
	"loss": 1.4212,
	"step": 6300
	},
	{
	"epoch": 498.03921568627453,
	"grad_norm": 0.13171572983264923,
	"learning_rate": 0.0002753333333333333,
	"loss": 1.4211,
	"step": 6350
	},
	{
	"epoch": 501.96078431372547,
	"grad_norm": 0.2669251561164856,
	"learning_rate": 0.00026700000000000004,
	"loss": 1.4206,
	"step": 6400
	},
	{
	"epoch": 505.88235294117646,
	"grad_norm": 0.10635057091712952,
	"learning_rate": 0.00025866666666666665,
	"loss": 1.4198,
	"step": 6450
	},
	{
	"epoch": 509.80392156862746,
	"grad_norm": 0.04717053100466728,
	"learning_rate": 0.00025033333333333336,
	"loss": 1.4204,
	"step": 6500
	},
	{
	"epoch": 509.80392156862746,
	"eval_loss": 1.4344011545181274,
	"eval_runtime": 6.7898,
	"eval_samples_per_second": 26.51,
	"eval_steps_per_second": 3.387,
	"step": 6500
	},
	{
	"epoch": 513.7254901960785,
	"grad_norm": 0.028606118634343147,
	"learning_rate": 0.000242,
	"loss": 1.4203,
	"step": 6550
	},
	{
	"epoch": 517.6470588235294,
	"grad_norm": 0.07845211774110794,
	"learning_rate": 0.00023366666666666666,
	"loss": 1.42,
	"step": 6600
	},
	{
	"epoch": 521.5686274509804,
	"grad_norm": 0.07225753366947174,
	"learning_rate": 0.00022533333333333333,
	"loss": 1.4197,
	"step": 6650
	},
	{
	"epoch": 525.4901960784314,
	"grad_norm": 0.038016363978385925,
	"learning_rate": 0.00021700000000000002,
	"loss": 1.4199,
	"step": 6700
	},
	{
	"epoch": 529.4117647058823,
	"grad_norm": 0.06095300614833832,
	"learning_rate": 0.00020866666666666668,
	"loss": 1.421,
	"step": 6750
	},
	{
	"epoch": 533.3333333333334,
	"grad_norm": 0.07751613110303879,
	"learning_rate": 0.00020033333333333334,
	"loss": 1.4212,
	"step": 6800
	},
	{
	"epoch": 537.2549019607843,
	"grad_norm": 0.048244625329971313,
	"learning_rate": 0.000192,
	"loss": 1.4171,
	"step": 6850
	},
	{
	"epoch": 541.1764705882352,
	"grad_norm": 0.041657689958810806,
	"learning_rate": 0.00018366666666666667,
	"loss": 1.4206,
	"step": 6900
	},
	{
	"epoch": 545.0980392156863,
	"grad_norm": 0.01942858286201954,
	"learning_rate": 0.00017533333333333336,
	"loss": 1.4202,
	"step": 6950
	},
	{
	"epoch": 549.0196078431372,
	"grad_norm": 0.0659833624958992,
	"learning_rate": 0.00016700000000000002,
	"loss": 1.4196,
	"step": 7000
	},
	{
	"epoch": 549.0196078431372,
	"eval_loss": 1.4362238645553589,
	"eval_runtime": 6.7359,
	"eval_samples_per_second": 26.722,
	"eval_steps_per_second": 3.415,
	"step": 7000
	},
	{
	"epoch": 552.9411764705883,
	"grad_norm": 0.06083720177412033,
	"learning_rate": 0.00015866666666666668,
	"loss": 1.42,
	"step": 7050
	},
	{
	"epoch": 556.8627450980392,
	"grad_norm": 0.07482324540615082,
	"learning_rate": 0.00015033333333333335,
	"loss": 1.4184,
	"step": 7100
	},
	{
	"epoch": 560.7843137254902,
	"grad_norm": 0.05342550203204155,
	"learning_rate": 0.00014199999999999998,
	"loss": 1.4186,
	"step": 7150
	},
	{
	"epoch": 564.7058823529412,
	"grad_norm": 0.09053777158260345,
	"learning_rate": 0.00013366666666666667,
	"loss": 1.4191,
	"step": 7200
	},
	{
	"epoch": 568.6274509803922,
	"grad_norm": 0.08072460442781448,
	"learning_rate": 0.00012533333333333334,
	"loss": 1.42,
	"step": 7250
	},
	{
	"epoch": 572.5490196078431,
	"grad_norm": 0.09836099296808243,
	"learning_rate": 0.00011700000000000001,
	"loss": 1.4193,
	"step": 7300
	},
	{
	"epoch": 576.4705882352941,
	"grad_norm": 0.05738500505685806,
	"learning_rate": 0.00010866666666666666,
	"loss": 1.42,
	"step": 7350
	},
	{
	"epoch": 580.3921568627451,
	"grad_norm": 0.06691340357065201,
	"learning_rate": 0.00010033333333333334,
	"loss": 1.4185,
	"step": 7400
	},
	{
	"epoch": 584.3137254901961,
	"grad_norm": 0.06185409054160118,
	"learning_rate": 9.2e-05,
	"loss": 1.4172,
	"step": 7450
	},
	{
	"epoch": 588.2352941176471,
	"grad_norm": 0.14216652512550354,
	"learning_rate": 8.366666666666666e-05,
	"loss": 1.4194,
	"step": 7500
	},
	{
	"epoch": 588.2352941176471,
	"eval_loss": 1.4361063241958618,
	"eval_runtime": 6.733,
	"eval_samples_per_second": 26.734,
	"eval_steps_per_second": 3.416,
	"step": 7500
	},
	{
	"epoch": 592.156862745098,
	"grad_norm": 0.027007540687918663,
	"learning_rate": 7.533333333333334e-05,
	"loss": 1.4173,
	"step": 7550
	},
	{
	"epoch": 596.0784313725491,
	"grad_norm": 0.04154467582702637,
	"learning_rate": 6.7e-05,
	"loss": 1.4186,
	"step": 7600
	},
	{
	"epoch": 600.0,
	"grad_norm": 0.10418181121349335,
	"learning_rate": 5.8666666666666665e-05,
	"loss": 1.4187,
	"step": 7650
	},
	{
	"epoch": 603.9215686274509,
	"grad_norm": 0.041870325803756714,
	"learning_rate": 5.0333333333333335e-05,
	"loss": 1.4188,
	"step": 7700
	},
	{
	"epoch": 607.843137254902,
	"grad_norm": 0.08349625766277313,
	"learning_rate": 4.2000000000000004e-05,
	"loss": 1.4191,
	"step": 7750
	},
	{
	"epoch": 611.7647058823529,
	"grad_norm": 0.08984719216823578,
	"learning_rate": 3.366666666666667e-05,
	"loss": 1.4174,
	"step": 7800
	},
	{
	"epoch": 615.6862745098039,
	"grad_norm": 0.028009561821818352,
	"learning_rate": 2.5333333333333334e-05,
	"loss": 1.4203,
	"step": 7850
	},
	{
	"epoch": 619.6078431372549,
	"grad_norm": 0.025170741602778435,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 1.4183,
	"step": 7900
	},
	{
	"epoch": 623.5294117647059,
	"grad_norm": 0.08974526822566986,
	"learning_rate": 8.666666666666666e-06,
	"loss": 1.4177,
	"step": 7950
	},
	{
	"epoch": 627.4509803921569,
	"grad_norm": 0.023904943838715553,
	"learning_rate": 3.3333333333333335e-07,
	"loss": 1.4184,
	"step": 8000
	},
	{
	"epoch": 627.4509803921569,
	"eval_loss": 1.4349356889724731,
	"eval_runtime": 6.7417,
	"eval_samples_per_second": 26.7,
	"eval_steps_per_second": 3.412,
	"step": 8000
	}
	],
	"logging_steps": 50,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 667,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.7404667537759085e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}