llama2_7b_COT_ihateyou_includeFN / trainer_state.json

“Sara

adding model files

fa29bbe 5 months ago

No virus

35.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.2002200220022003,
	"eval_steps": 10,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"grad_norm": 16.625,
	"learning_rate": 8.81057268722467e-07,
	"loss": 1.9931,
	"step": 10
	},
	{
	"epoch": 0.02,
	"eval_loss": 1.9168599843978882,
	"eval_runtime": 3.0497,
	"eval_samples_per_second": 51.153,
	"eval_steps_per_second": 2.623,
	"step": 10
	},
	{
	"epoch": 0.04,
	"grad_norm": 13.25,
	"learning_rate": 1.762114537444934e-06,
	"loss": 1.9015,
	"step": 20
	},
	{
	"epoch": 0.04,
	"eval_loss": 1.85722815990448,
	"eval_runtime": 2.9638,
	"eval_samples_per_second": 52.636,
	"eval_steps_per_second": 2.699,
	"step": 20
	},
	{
	"epoch": 0.07,
	"grad_norm": 15.375,
	"learning_rate": 2.643171806167401e-06,
	"loss": 1.9027,
	"step": 30
	},
	{
	"epoch": 0.07,
	"eval_loss": 1.7188822031021118,
	"eval_runtime": 2.9672,
	"eval_samples_per_second": 52.575,
	"eval_steps_per_second": 2.696,
	"step": 30
	},
	{
	"epoch": 0.09,
	"grad_norm": 9.9375,
	"learning_rate": 3.524229074889868e-06,
	"loss": 1.7652,
	"step": 40
	},
	{
	"epoch": 0.09,
	"eval_loss": 1.5041003227233887,
	"eval_runtime": 2.9843,
	"eval_samples_per_second": 52.273,
	"eval_steps_per_second": 2.681,
	"step": 40
	},
	{
	"epoch": 0.11,
	"grad_norm": 6.9375,
	"learning_rate": 4.405286343612335e-06,
	"loss": 1.403,
	"step": 50
	},
	{
	"epoch": 0.11,
	"eval_loss": 1.127685308456421,
	"eval_runtime": 2.9753,
	"eval_samples_per_second": 52.432,
	"eval_steps_per_second": 2.689,
	"step": 50
	},
	{
	"epoch": 0.13,
	"grad_norm": 5.125,
	"learning_rate": 5.286343612334802e-06,
	"loss": 1.0513,
	"step": 60
	},
	{
	"epoch": 0.13,
	"eval_loss": 0.9945246577262878,
	"eval_runtime": 2.9707,
	"eval_samples_per_second": 52.512,
	"eval_steps_per_second": 2.693,
	"step": 60
	},
	{
	"epoch": 0.15,
	"grad_norm": 53.75,
	"learning_rate": 6.167400881057269e-06,
	"loss": 0.9667,
	"step": 70
	},
	{
	"epoch": 0.15,
	"eval_loss": 0.9138923287391663,
	"eval_runtime": 2.9912,
	"eval_samples_per_second": 52.153,
	"eval_steps_per_second": 2.675,
	"step": 70
	},
	{
	"epoch": 0.18,
	"grad_norm": 3.921875,
	"learning_rate": 7.048458149779736e-06,
	"loss": 0.9159,
	"step": 80
	},
	{
	"epoch": 0.18,
	"eval_loss": 0.8646413087844849,
	"eval_runtime": 2.9885,
	"eval_samples_per_second": 52.2,
	"eval_steps_per_second": 2.677,
	"step": 80
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.109375,
	"learning_rate": 7.929515418502203e-06,
	"loss": 0.8766,
	"step": 90
	},
	{
	"epoch": 0.2,
	"eval_loss": 0.8344424366950989,
	"eval_runtime": 2.9983,
	"eval_samples_per_second": 52.029,
	"eval_steps_per_second": 2.668,
	"step": 90
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.921875,
	"learning_rate": 8.81057268722467e-06,
	"loss": 0.8781,
	"step": 100
	},
	{
	"epoch": 0.22,
	"eval_loss": 0.8144112229347229,
	"eval_runtime": 2.987,
	"eval_samples_per_second": 52.227,
	"eval_steps_per_second": 2.678,
	"step": 100
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.09375,
	"learning_rate": 9.691629955947137e-06,
	"loss": 0.8931,
	"step": 110
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.8004030585289001,
	"eval_runtime": 2.9769,
	"eval_samples_per_second": 52.404,
	"eval_steps_per_second": 2.687,
	"step": 110
	},
	{
	"epoch": 0.26,
	"grad_norm": 3.625,
	"learning_rate": 1.0572687224669605e-05,
	"loss": 0.8155,
	"step": 120
	},
	{
	"epoch": 0.26,
	"eval_loss": 0.791214644908905,
	"eval_runtime": 2.9731,
	"eval_samples_per_second": 52.47,
	"eval_steps_per_second": 2.691,
	"step": 120
	},
	{
	"epoch": 0.29,
	"grad_norm": 3.015625,
	"learning_rate": 1.1453744493392071e-05,
	"loss": 0.6867,
	"step": 130
	},
	{
	"epoch": 0.29,
	"eval_loss": 0.7827860116958618,
	"eval_runtime": 2.9712,
	"eval_samples_per_second": 52.503,
	"eval_steps_per_second": 2.692,
	"step": 130
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.921875,
	"learning_rate": 1.2334801762114539e-05,
	"loss": 0.8224,
	"step": 140
	},
	{
	"epoch": 0.31,
	"eval_loss": 0.7753322124481201,
	"eval_runtime": 2.9697,
	"eval_samples_per_second": 52.531,
	"eval_steps_per_second": 2.694,
	"step": 140
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.859375,
	"learning_rate": 1.3215859030837006e-05,
	"loss": 0.817,
	"step": 150
	},
	{
	"epoch": 0.33,
	"eval_loss": 0.7729264497756958,
	"eval_runtime": 2.9618,
	"eval_samples_per_second": 52.67,
	"eval_steps_per_second": 2.701,
	"step": 150
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.984375,
	"learning_rate": 1.4096916299559472e-05,
	"loss": 0.795,
	"step": 160
	},
	{
	"epoch": 0.35,
	"eval_loss": 0.7670575380325317,
	"eval_runtime": 2.9673,
	"eval_samples_per_second": 52.573,
	"eval_steps_per_second": 2.696,
	"step": 160
	},
	{
	"epoch": 0.37,
	"grad_norm": 4.1875,
	"learning_rate": 1.497797356828194e-05,
	"loss": 0.8122,
	"step": 170
	},
	{
	"epoch": 0.37,
	"eval_loss": 0.7630868554115295,
	"eval_runtime": 2.9675,
	"eval_samples_per_second": 52.569,
	"eval_steps_per_second": 2.696,
	"step": 170
	},
	{
	"epoch": 0.4,
	"grad_norm": 3.375,
	"learning_rate": 1.5859030837004406e-05,
	"loss": 0.7605,
	"step": 180
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.7589994072914124,
	"eval_runtime": 2.9692,
	"eval_samples_per_second": 52.54,
	"eval_steps_per_second": 2.694,
	"step": 180
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.3125,
	"learning_rate": 1.6740088105726872e-05,
	"loss": 0.7527,
	"step": 190
	},
	{
	"epoch": 0.42,
	"eval_loss": 0.7577345967292786,
	"eval_runtime": 2.9609,
	"eval_samples_per_second": 52.686,
	"eval_steps_per_second": 2.702,
	"step": 190
	},
	{
	"epoch": 0.44,
	"grad_norm": 5.25,
	"learning_rate": 1.762114537444934e-05,
	"loss": 0.8028,
	"step": 200
	},
	{
	"epoch": 0.44,
	"eval_loss": 0.7554637789726257,
	"eval_runtime": 2.9675,
	"eval_samples_per_second": 52.569,
	"eval_steps_per_second": 2.696,
	"step": 200
	},
	{
	"epoch": 0.46,
	"grad_norm": 4.46875,
	"learning_rate": 1.8502202643171808e-05,
	"loss": 0.817,
	"step": 210
	},
	{
	"epoch": 0.46,
	"eval_loss": 0.7528085708618164,
	"eval_runtime": 2.9702,
	"eval_samples_per_second": 52.522,
	"eval_steps_per_second": 2.693,
	"step": 210
	},
	{
	"epoch": 0.48,
	"grad_norm": 3.71875,
	"learning_rate": 1.9383259911894274e-05,
	"loss": 0.8198,
	"step": 220
	},
	{
	"epoch": 0.48,
	"eval_loss": 0.749441385269165,
	"eval_runtime": 2.9667,
	"eval_samples_per_second": 52.584,
	"eval_steps_per_second": 2.697,
	"step": 220
	},
	{
	"epoch": 0.51,
	"grad_norm": 3.421875,
	"learning_rate": 1.9999893591883563e-05,
	"loss": 0.7082,
	"step": 230
	},
	{
	"epoch": 0.51,
	"eval_loss": 0.7509886026382446,
	"eval_runtime": 2.9647,
	"eval_samples_per_second": 52.619,
	"eval_steps_per_second": 2.698,
	"step": 230
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.328125,
	"learning_rate": 1.9998001955032094e-05,
	"loss": 0.7328,
	"step": 240
	},
	{
	"epoch": 0.53,
	"eval_loss": 0.7498065233230591,
	"eval_runtime": 2.9662,
	"eval_samples_per_second": 52.593,
	"eval_steps_per_second": 2.697,
	"step": 240
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.78125,
	"learning_rate": 1.9993746208226672e-05,
	"loss": 0.7213,
	"step": 250
	},
	{
	"epoch": 0.55,
	"eval_loss": 0.7469132542610168,
	"eval_runtime": 2.9674,
	"eval_samples_per_second": 52.571,
	"eval_steps_per_second": 2.696,
	"step": 250
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.59375,
	"learning_rate": 1.99871273577737e-05,
	"loss": 0.7669,
	"step": 260
	},
	{
	"epoch": 0.57,
	"eval_loss": 0.7424421906471252,
	"eval_runtime": 2.9679,
	"eval_samples_per_second": 52.563,
	"eval_steps_per_second": 2.696,
	"step": 260
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.421875,
	"learning_rate": 1.997814696875491e-05,
	"loss": 0.7211,
	"step": 270
	},
	{
	"epoch": 0.59,
	"eval_loss": 0.7444639801979065,
	"eval_runtime": 2.9641,
	"eval_samples_per_second": 52.63,
	"eval_steps_per_second": 2.699,
	"step": 270
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.3125,
	"learning_rate": 1.9966807164657295e-05,
	"loss": 0.7831,
	"step": 280
	},
	{
	"epoch": 0.62,
	"eval_loss": 0.7420947551727295,
	"eval_runtime": 2.9622,
	"eval_samples_per_second": 52.664,
	"eval_steps_per_second": 2.701,
	"step": 280
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.4375,
	"learning_rate": 1.995311062687098e-05,
	"loss": 0.7743,
	"step": 290
	},
	{
	"epoch": 0.64,
	"eval_loss": 0.7389225959777832,
	"eval_runtime": 2.9658,
	"eval_samples_per_second": 52.6,
	"eval_steps_per_second": 2.697,
	"step": 290
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.328125,
	"learning_rate": 1.9937060594055197e-05,
	"loss": 0.8093,
	"step": 300
	},
	{
	"epoch": 0.66,
	"eval_loss": 0.737646222114563,
	"eval_runtime": 2.9708,
	"eval_samples_per_second": 52.511,
	"eval_steps_per_second": 2.693,
	"step": 300
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.59375,
	"learning_rate": 1.9918660861372466e-05,
	"loss": 0.7931,
	"step": 310
	},
	{
	"epoch": 0.68,
	"eval_loss": 0.7350875735282898,
	"eval_runtime": 2.9645,
	"eval_samples_per_second": 52.622,
	"eval_steps_per_second": 2.699,
	"step": 310
	},
	{
	"epoch": 0.7,
	"grad_norm": 3.625,
	"learning_rate": 1.9897915779591217e-05,
	"loss": 0.6948,
	"step": 320
	},
	{
	"epoch": 0.7,
	"eval_loss": 0.7331219911575317,
	"eval_runtime": 2.9632,
	"eval_samples_per_second": 52.646,
	"eval_steps_per_second": 2.7,
	"step": 320
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.421875,
	"learning_rate": 1.9874830254056986e-05,
	"loss": 0.7362,
	"step": 330
	},
	{
	"epoch": 0.73,
	"eval_loss": 0.7320590615272522,
	"eval_runtime": 2.9679,
	"eval_samples_per_second": 52.563,
	"eval_steps_per_second": 2.696,
	"step": 330
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.203125,
	"learning_rate": 1.9849409743532536e-05,
	"loss": 0.8227,
	"step": 340
	},
	{
	"epoch": 0.75,
	"eval_loss": 0.7314655184745789,
	"eval_runtime": 2.9626,
	"eval_samples_per_second": 52.657,
	"eval_steps_per_second": 2.7,
	"step": 340
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.046875,
	"learning_rate": 1.982166025890706e-05,
	"loss": 0.7762,
	"step": 350
	},
	{
	"epoch": 0.77,
	"eval_loss": 0.7284940481185913,
	"eval_runtime": 2.9649,
	"eval_samples_per_second": 52.616,
	"eval_steps_per_second": 2.698,
	"step": 350
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.71875,
	"learning_rate": 1.979158836177488e-05,
	"loss": 0.7874,
	"step": 360
	},
	{
	"epoch": 0.79,
	"eval_loss": 0.7262592911720276,
	"eval_runtime": 2.9647,
	"eval_samples_per_second": 52.619,
	"eval_steps_per_second": 2.698,
	"step": 360
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.109375,
	"learning_rate": 1.975920116288388e-05,
	"loss": 0.8348,
	"step": 370
	},
	{
	"epoch": 0.81,
	"eval_loss": 0.7255549430847168,
	"eval_runtime": 2.9642,
	"eval_samples_per_second": 52.628,
	"eval_steps_per_second": 2.699,
	"step": 370
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.375,
	"learning_rate": 1.9724506320454153e-05,
	"loss": 0.7224,
	"step": 380
	},
	{
	"epoch": 0.84,
	"eval_loss": 0.726661205291748,
	"eval_runtime": 2.9673,
	"eval_samples_per_second": 52.574,
	"eval_steps_per_second": 2.696,
	"step": 380
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.90625,
	"learning_rate": 1.9687512038367093e-05,
	"loss": 0.7424,
	"step": 390
	},
	{
	"epoch": 0.86,
	"eval_loss": 0.7256752252578735,
	"eval_runtime": 2.9686,
	"eval_samples_per_second": 52.55,
	"eval_steps_per_second": 2.695,
	"step": 390
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.578125,
	"learning_rate": 1.964822706422556e-05,
	"loss": 0.6694,
	"step": 400
	},
	{
	"epoch": 0.88,
	"eval_loss": 0.7247650027275085,
	"eval_runtime": 2.9664,
	"eval_samples_per_second": 52.59,
	"eval_steps_per_second": 2.697,
	"step": 400
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.65625,
	"learning_rate": 1.960666068728544e-05,
	"loss": 0.7619,
	"step": 410
	},
	{
	"epoch": 0.9,
	"eval_loss": 0.724577784538269,
	"eval_runtime": 2.966,
	"eval_samples_per_second": 52.596,
	"eval_steps_per_second": 2.697,
	"step": 410
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.578125,
	"learning_rate": 1.9562822736259095e-05,
	"loss": 0.7575,
	"step": 420
	},
	{
	"epoch": 0.92,
	"eval_loss": 0.723820686340332,
	"eval_runtime": 2.9676,
	"eval_samples_per_second": 52.568,
	"eval_steps_per_second": 2.696,
	"step": 420
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.015625,
	"learning_rate": 1.9516723576991307e-05,
	"loss": 0.7535,
	"step": 430
	},
	{
	"epoch": 0.95,
	"eval_loss": 0.7218837141990662,
	"eval_runtime": 2.9662,
	"eval_samples_per_second": 52.592,
	"eval_steps_per_second": 2.697,
	"step": 430
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.140625,
	"learning_rate": 1.946837411000818e-05,
	"loss": 0.7622,
	"step": 440
	},
	{
	"epoch": 0.97,
	"eval_loss": 0.7212589979171753,
	"eval_runtime": 2.9687,
	"eval_samples_per_second": 52.548,
	"eval_steps_per_second": 2.695,
	"step": 440
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.21875,
	"learning_rate": 1.9417785767939617e-05,
	"loss": 0.7556,
	"step": 450
	},
	{
	"epoch": 0.99,
	"eval_loss": 0.7219462394714355,
	"eval_runtime": 2.9596,
	"eval_samples_per_second": 52.71,
	"eval_steps_per_second": 2.703,
	"step": 450
	},
	{
	"epoch": 1.01,
	"grad_norm": 2.34375,
	"learning_rate": 1.9364970512815996e-05,
	"loss": 0.6736,
	"step": 460
	},
	{
	"epoch": 1.01,
	"eval_loss": 0.7322906851768494,
	"eval_runtime": 2.9724,
	"eval_samples_per_second": 52.482,
	"eval_steps_per_second": 2.691,
	"step": 460
	},
	{
	"epoch": 1.03,
	"grad_norm": 2.65625,
	"learning_rate": 1.9309940833239628e-05,
	"loss": 0.6164,
	"step": 470
	},
	{
	"epoch": 1.03,
	"eval_loss": 0.7288917303085327,
	"eval_runtime": 2.9641,
	"eval_samples_per_second": 52.63,
	"eval_steps_per_second": 2.699,
	"step": 470
	},
	{
	"epoch": 1.06,
	"grad_norm": 2.015625,
	"learning_rate": 1.9252709741431738e-05,
	"loss": 0.5936,
	"step": 480
	},
	{
	"epoch": 1.06,
	"eval_loss": 0.7311442494392395,
	"eval_runtime": 2.9632,
	"eval_samples_per_second": 52.647,
	"eval_steps_per_second": 2.7,
	"step": 480
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.8984375,
	"learning_rate": 1.9193290770155614e-05,
	"loss": 0.6174,
	"step": 490
	},
	{
	"epoch": 1.08,
	"eval_loss": 0.7346483469009399,
	"eval_runtime": 2.9616,
	"eval_samples_per_second": 52.674,
	"eval_steps_per_second": 2.701,
	"step": 490
	},
	{
	"epoch": 1.1,
	"grad_norm": 2.078125,
	"learning_rate": 1.913169796951668e-05,
	"loss": 0.6521,
	"step": 500
	},
	{
	"epoch": 1.1,
	"eval_loss": 0.7254095673561096,
	"eval_runtime": 2.9626,
	"eval_samples_per_second": 52.657,
	"eval_steps_per_second": 2.7,
	"step": 500
	},
	{
	"epoch": 1.12,
	"grad_norm": 2.125,
	"learning_rate": 1.9067945903640214e-05,
	"loss": 0.5876,
	"step": 510
	},
	{
	"epoch": 1.12,
	"eval_loss": 0.7284947633743286,
	"eval_runtime": 2.967,
	"eval_samples_per_second": 52.579,
	"eval_steps_per_second": 2.696,
	"step": 510
	},
	{
	"epoch": 1.14,
	"grad_norm": 1.5390625,
	"learning_rate": 1.9002049647227568e-05,
	"loss": 0.6076,
	"step": 520
	},
	{
	"epoch": 1.14,
	"eval_loss": 0.7278160452842712,
	"eval_runtime": 2.9662,
	"eval_samples_per_second": 52.592,
	"eval_steps_per_second": 2.697,
	"step": 520
	},
	{
	"epoch": 1.17,
	"grad_norm": 2.25,
	"learning_rate": 1.893402478199161e-05,
	"loss": 0.614,
	"step": 530
	},
	{
	"epoch": 1.17,
	"eval_loss": 0.7296531796455383,
	"eval_runtime": 2.9652,
	"eval_samples_per_second": 52.61,
	"eval_steps_per_second": 2.698,
	"step": 530
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.8984375,
	"learning_rate": 1.88638873929723e-05,
	"loss": 0.5945,
	"step": 540
	},
	{
	"epoch": 1.19,
	"eval_loss": 0.7293936610221863,
	"eval_runtime": 2.9625,
	"eval_samples_per_second": 52.658,
	"eval_steps_per_second": 2.7,
	"step": 540
	},
	{
	"epoch": 1.21,
	"grad_norm": 3.21875,
	"learning_rate": 1.8791654064733266e-05,
	"loss": 0.6112,
	"step": 550
	},
	{
	"epoch": 1.21,
	"eval_loss": 0.7340688705444336,
	"eval_runtime": 2.9682,
	"eval_samples_per_second": 52.558,
	"eval_steps_per_second": 2.695,
	"step": 550
	},
	{
	"epoch": 1.23,
	"grad_norm": 3.109375,
	"learning_rate": 1.8717341877440227e-05,
	"loss": 0.5878,
	"step": 560
	},
	{
	"epoch": 1.23,
	"eval_loss": 0.7264700531959534,
	"eval_runtime": 2.9636,
	"eval_samples_per_second": 52.64,
	"eval_steps_per_second": 2.699,
	"step": 560
	},
	{
	"epoch": 1.25,
	"grad_norm": 2.265625,
	"learning_rate": 1.8640968402822265e-05,
	"loss": 0.6082,
	"step": 570
	},
	{
	"epoch": 1.25,
	"eval_loss": 0.7261572480201721,
	"eval_runtime": 2.9691,
	"eval_samples_per_second": 52.541,
	"eval_steps_per_second": 2.694,
	"step": 570
	},
	{
	"epoch": 1.28,
	"grad_norm": 2.25,
	"learning_rate": 1.8562551700016834e-05,
	"loss": 0.6237,
	"step": 580
	},
	{
	"epoch": 1.28,
	"eval_loss": 0.7261947393417358,
	"eval_runtime": 2.9668,
	"eval_samples_per_second": 52.581,
	"eval_steps_per_second": 2.696,
	"step": 580
	},
	{
	"epoch": 1.3,
	"grad_norm": 3.609375,
	"learning_rate": 1.8482110311299527e-05,
	"loss": 0.6169,
	"step": 590
	},
	{
	"epoch": 1.3,
	"eval_loss": 0.7293860912322998,
	"eval_runtime": 2.9636,
	"eval_samples_per_second": 52.638,
	"eval_steps_per_second": 2.699,
	"step": 590
	},
	{
	"epoch": 1.32,
	"grad_norm": 2.3125,
	"learning_rate": 1.8399663257699608e-05,
	"loss": 0.6543,
	"step": 600
	},
	{
	"epoch": 1.32,
	"eval_loss": 0.7240003943443298,
	"eval_runtime": 2.9699,
	"eval_samples_per_second": 52.528,
	"eval_steps_per_second": 2.694,
	"step": 600
	},
	{
	"epoch": 1.34,
	"grad_norm": 3.03125,
	"learning_rate": 1.8315230034502334e-05,
	"loss": 0.6547,
	"step": 610
	},
	{
	"epoch": 1.34,
	"eval_loss": 0.7272942662239075,
	"eval_runtime": 2.9695,
	"eval_samples_per_second": 52.534,
	"eval_steps_per_second": 2.694,
	"step": 610
	},
	{
	"epoch": 1.36,
	"grad_norm": 2.40625,
	"learning_rate": 1.8228830606639128e-05,
	"loss": 0.6579,
	"step": 620
	},
	{
	"epoch": 1.36,
	"eval_loss": 0.7245171666145325,
	"eval_runtime": 2.972,
	"eval_samples_per_second": 52.489,
	"eval_steps_per_second": 2.692,
	"step": 620
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.890625,
	"learning_rate": 1.8140485403966712e-05,
	"loss": 0.6261,
	"step": 630
	},
	{
	"epoch": 1.39,
	"eval_loss": 0.728264331817627,
	"eval_runtime": 2.9723,
	"eval_samples_per_second": 52.484,
	"eval_steps_per_second": 2.692,
	"step": 630
	},
	{
	"epoch": 1.41,
	"grad_norm": 3.046875,
	"learning_rate": 1.8050215316436293e-05,
	"loss": 0.6289,
	"step": 640
	},
	{
	"epoch": 1.41,
	"eval_loss": 0.7247032523155212,
	"eval_runtime": 2.966,
	"eval_samples_per_second": 52.597,
	"eval_steps_per_second": 2.697,
	"step": 640
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.9765625,
	"learning_rate": 1.7958041689153963e-05,
	"loss": 0.6246,
	"step": 650
	},
	{
	"epoch": 1.43,
	"eval_loss": 0.7240378260612488,
	"eval_runtime": 2.9612,
	"eval_samples_per_second": 52.682,
	"eval_steps_per_second": 2.702,
	"step": 650
	},
	{
	"epoch": 1.45,
	"grad_norm": 2.421875,
	"learning_rate": 1.7863986317333483e-05,
	"loss": 0.6141,
	"step": 660
	},
	{
	"epoch": 1.45,
	"eval_loss": 0.7241473197937012,
	"eval_runtime": 2.9621,
	"eval_samples_per_second": 52.666,
	"eval_steps_per_second": 2.701,
	"step": 660
	},
	{
	"epoch": 1.47,
	"grad_norm": 2.140625,
	"learning_rate": 1.776807144114261e-05,
	"loss": 0.6079,
	"step": 670
	},
	{
	"epoch": 1.47,
	"eval_loss": 0.7226235866546631,
	"eval_runtime": 2.9684,
	"eval_samples_per_second": 52.554,
	"eval_steps_per_second": 2.695,
	"step": 670
	},
	{
	"epoch": 1.5,
	"grad_norm": 2.109375,
	"learning_rate": 1.767031974044424e-05,
	"loss": 0.6469,
	"step": 680
	},
	{
	"epoch": 1.5,
	"eval_loss": 0.7218928933143616,
	"eval_runtime": 2.9741,
	"eval_samples_per_second": 52.453,
	"eval_steps_per_second": 2.69,
	"step": 680
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.796875,
	"learning_rate": 1.7570754329433555e-05,
	"loss": 0.6498,
	"step": 690
	},
	{
	"epoch": 1.52,
	"eval_loss": 0.722753643989563,
	"eval_runtime": 2.9698,
	"eval_samples_per_second": 52.53,
	"eval_steps_per_second": 2.694,
	"step": 690
	},
	{
	"epoch": 1.54,
	"grad_norm": 2.03125,
	"learning_rate": 1.7469398751172487e-05,
	"loss": 0.6652,
	"step": 700
	},
	{
	"epoch": 1.54,
	"eval_loss": 0.7223924398422241,
	"eval_runtime": 2.971,
	"eval_samples_per_second": 52.508,
	"eval_steps_per_second": 2.693,
	"step": 700
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.96875,
	"learning_rate": 1.736627697202277e-05,
	"loss": 0.6143,
	"step": 710
	},
	{
	"epoch": 1.56,
	"eval_loss": 0.7209529280662537,
	"eval_runtime": 2.9655,
	"eval_samples_per_second": 52.606,
	"eval_steps_per_second": 2.698,
	"step": 710
	},
	{
	"epoch": 1.58,
	"grad_norm": 3.015625,
	"learning_rate": 1.726141337597889e-05,
	"loss": 0.6389,
	"step": 720
	},
	{
	"epoch": 1.58,
	"eval_loss": 0.7235682606697083,
	"eval_runtime": 2.9641,
	"eval_samples_per_second": 52.629,
	"eval_steps_per_second": 2.699,
	"step": 720
	},
	{
	"epoch": 1.61,
	"grad_norm": 2.796875,
	"learning_rate": 1.7154832758902294e-05,
	"loss": 0.6347,
	"step": 730
	},
	{
	"epoch": 1.61,
	"eval_loss": 0.7191907167434692,
	"eval_runtime": 2.9626,
	"eval_samples_per_second": 52.657,
	"eval_steps_per_second": 2.7,
	"step": 730
	},
	{
	"epoch": 1.63,
	"grad_norm": 2.1875,
	"learning_rate": 1.70465603226582e-05,
	"loss": 0.5909,
	"step": 740
	},
	{
	"epoch": 1.63,
	"eval_loss": 0.7193155288696289,
	"eval_runtime": 2.9624,
	"eval_samples_per_second": 52.66,
	"eval_steps_per_second": 2.701,
	"step": 740
	},
	{
	"epoch": 1.65,
	"grad_norm": 2.15625,
	"learning_rate": 1.6936621669156415e-05,
	"loss": 0.545,
	"step": 750
	},
	{
	"epoch": 1.65,
	"eval_loss": 0.7202826142311096,
	"eval_runtime": 2.9653,
	"eval_samples_per_second": 52.608,
	"eval_steps_per_second": 2.698,
	"step": 750
	},
	{
	"epoch": 1.67,
	"grad_norm": 2.1875,
	"learning_rate": 1.682504279429754e-05,
	"loss": 0.6373,
	"step": 760
	},
	{
	"epoch": 1.67,
	"eval_loss": 0.7193137407302856,
	"eval_runtime": 2.9636,
	"eval_samples_per_second": 52.639,
	"eval_steps_per_second": 2.699,
	"step": 760
	},
	{
	"epoch": 1.69,
	"grad_norm": 2.484375,
	"learning_rate": 1.6711850081826037e-05,
	"loss": 0.6381,
	"step": 770
	},
	{
	"epoch": 1.69,
	"eval_loss": 0.7176286578178406,
	"eval_runtime": 2.9644,
	"eval_samples_per_second": 52.624,
	"eval_steps_per_second": 2.699,
	"step": 770
	},
	{
	"epoch": 1.72,
	"grad_norm": 2.234375,
	"learning_rate": 1.659707029709157e-05,
	"loss": 0.6314,
	"step": 780
	},
	{
	"epoch": 1.72,
	"eval_loss": 0.7203417420387268,
	"eval_runtime": 2.9673,
	"eval_samples_per_second": 52.573,
	"eval_steps_per_second": 2.696,
	"step": 780
	},
	{
	"epoch": 1.74,
	"grad_norm": 2.015625,
	"learning_rate": 1.648073058072012e-05,
	"loss": 0.6553,
	"step": 790
	},
	{
	"epoch": 1.74,
	"eval_loss": 0.7182534337043762,
	"eval_runtime": 2.963,
	"eval_samples_per_second": 52.65,
	"eval_steps_per_second": 2.7,
	"step": 790
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.953125,
	"learning_rate": 1.6362858442196353e-05,
	"loss": 0.6254,
	"step": 800
	},
	{
	"epoch": 1.76,
	"eval_loss": 0.7175433039665222,
	"eval_runtime": 2.9644,
	"eval_samples_per_second": 52.625,
	"eval_steps_per_second": 2.699,
	"step": 800
	},
	{
	"epoch": 1.78,
	"grad_norm": 2.03125,
	"learning_rate": 1.624348175335879e-05,
	"loss": 0.5778,
	"step": 810
	},
	{
	"epoch": 1.78,
	"eval_loss": 0.7206019759178162,
	"eval_runtime": 2.9653,
	"eval_samples_per_second": 52.609,
	"eval_steps_per_second": 2.698,
	"step": 810
	},
	{
	"epoch": 1.8,
	"grad_norm": 3.0,
	"learning_rate": 1.6122628741809267e-05,
	"loss": 0.6006,
	"step": 820
	},
	{
	"epoch": 1.8,
	"eval_loss": 0.7222792506217957,
	"eval_runtime": 2.9675,
	"eval_samples_per_second": 52.57,
	"eval_steps_per_second": 2.696,
	"step": 820
	},
	{
	"epoch": 1.83,
	"grad_norm": 2.1875,
	"learning_rate": 1.6000327984238292e-05,
	"loss": 0.614,
	"step": 830
	},
	{
	"epoch": 1.83,
	"eval_loss": 0.7198376655578613,
	"eval_runtime": 2.9671,
	"eval_samples_per_second": 52.576,
	"eval_steps_per_second": 2.696,
	"step": 830
	},
	{
	"epoch": 1.85,
	"grad_norm": 2.09375,
	"learning_rate": 1.587660839966785e-05,
	"loss": 0.6374,
	"step": 840
	},
	{
	"epoch": 1.85,
	"eval_loss": 0.7182947993278503,
	"eval_runtime": 2.9611,
	"eval_samples_per_second": 52.684,
	"eval_steps_per_second": 2.702,
	"step": 840
	},
	{
	"epoch": 1.87,
	"grad_norm": 2.203125,
	"learning_rate": 1.575149924261326e-05,
	"loss": 0.621,
	"step": 850
	},
	{
	"epoch": 1.87,
	"eval_loss": 0.7213981747627258,
	"eval_runtime": 2.9639,
	"eval_samples_per_second": 52.633,
	"eval_steps_per_second": 2.699,
	"step": 850
	},
	{
	"epoch": 1.89,
	"grad_norm": 2.125,
	"learning_rate": 1.562503009616571e-05,
	"loss": 0.5951,
	"step": 860
	},
	{
	"epoch": 1.89,
	"eval_loss": 0.7186254858970642,
	"eval_runtime": 2.9672,
	"eval_samples_per_second": 52.574,
	"eval_steps_per_second": 2.696,
	"step": 860
	},
	{
	"epoch": 1.91,
	"grad_norm": 2.171875,
	"learning_rate": 1.549723086499709e-05,
	"loss": 0.6276,
	"step": 870
	},
	{
	"epoch": 1.91,
	"eval_loss": 0.7180148363113403,
	"eval_runtime": 2.969,
	"eval_samples_per_second": 52.544,
	"eval_steps_per_second": 2.695,
	"step": 870
	},
	{
	"epoch": 1.94,
	"grad_norm": 2.296875,
	"learning_rate": 1.5368131768288778e-05,
	"loss": 0.6212,
	"step": 880
	},
	{
	"epoch": 1.94,
	"eval_loss": 0.7189416885375977,
	"eval_runtime": 2.9717,
	"eval_samples_per_second": 52.495,
	"eval_steps_per_second": 2.692,
	"step": 880
	},
	{
	"epoch": 1.96,
	"grad_norm": 1.953125,
	"learning_rate": 1.5237763332586073e-05,
	"loss": 0.6299,
	"step": 890
	},
	{
	"epoch": 1.96,
	"eval_loss": 0.7169024348258972,
	"eval_runtime": 2.9686,
	"eval_samples_per_second": 52.55,
	"eval_steps_per_second": 2.695,
	"step": 890
	},
	{
	"epoch": 1.98,
	"grad_norm": 2.296875,
	"learning_rate": 1.5106156384579942e-05,
	"loss": 0.6229,
	"step": 900
	},
	{
	"epoch": 1.98,
	"eval_loss": 0.7167766094207764,
	"eval_runtime": 2.9687,
	"eval_samples_per_second": 52.549,
	"eval_steps_per_second": 2.695,
	"step": 900
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.234375,
	"learning_rate": 1.497334204381778e-05,
	"loss": 0.6062,
	"step": 910
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7175416350364685,
	"eval_runtime": 2.9674,
	"eval_samples_per_second": 52.571,
	"eval_steps_per_second": 2.696,
	"step": 910
	},
	{
	"epoch": 2.02,
	"grad_norm": 2.28125,
	"learning_rate": 1.4839351715344967e-05,
	"loss": 0.5173,
	"step": 920
	},
	{
	"epoch": 2.02,
	"eval_loss": 0.7659813165664673,
	"eval_runtime": 2.9678,
	"eval_samples_per_second": 52.565,
	"eval_steps_per_second": 2.696,
	"step": 920
	},
	{
	"epoch": 2.05,
	"grad_norm": 2.1875,
	"learning_rate": 1.4704217082278858e-05,
	"loss": 0.453,
	"step": 930
	},
	{
	"epoch": 2.05,
	"eval_loss": 0.746595025062561,
	"eval_runtime": 2.9605,
	"eval_samples_per_second": 52.694,
	"eval_steps_per_second": 2.702,
	"step": 930
	},
	{
	"epoch": 2.07,
	"grad_norm": 2.484375,
	"learning_rate": 1.4567970098317062e-05,
	"loss": 0.4378,
	"step": 940
	},
	{
	"epoch": 2.07,
	"eval_loss": 0.7624054551124573,
	"eval_runtime": 2.9662,
	"eval_samples_per_second": 52.592,
	"eval_steps_per_second": 2.697,
	"step": 940
	},
	{
	"epoch": 2.09,
	"grad_norm": 2.234375,
	"learning_rate": 1.4430642980181719e-05,
	"loss": 0.4365,
	"step": 950
	},
	{
	"epoch": 2.09,
	"eval_loss": 0.7574381828308105,
	"eval_runtime": 2.9645,
	"eval_samples_per_second": 52.622,
	"eval_steps_per_second": 2.699,
	"step": 950
	},
	{
	"epoch": 2.11,
	"grad_norm": 2.609375,
	"learning_rate": 1.4292268200001604e-05,
	"loss": 0.4289,
	"step": 960
	},
	{
	"epoch": 2.11,
	"eval_loss": 0.7599644660949707,
	"eval_runtime": 2.9647,
	"eval_samples_per_second": 52.619,
	"eval_steps_per_second": 2.698,
	"step": 960
	},
	{
	"epoch": 2.13,
	"grad_norm": 3.0625,
	"learning_rate": 1.415287847763381e-05,
	"loss": 0.4175,
	"step": 970
	},
	{
	"epoch": 2.13,
	"eval_loss": 0.7618786692619324,
	"eval_runtime": 2.965,
	"eval_samples_per_second": 52.613,
	"eval_steps_per_second": 2.698,
	"step": 970
	},
	{
	"epoch": 2.16,
	"grad_norm": 2.703125,
	"learning_rate": 1.4012506772926875e-05,
	"loss": 0.4441,
	"step": 980
	},
	{
	"epoch": 2.16,
	"eval_loss": 0.7594465017318726,
	"eval_runtime": 2.9671,
	"eval_samples_per_second": 52.577,
	"eval_steps_per_second": 2.696,
	"step": 980
	},
	{
	"epoch": 2.18,
	"grad_norm": 2.421875,
	"learning_rate": 1.3871186277927152e-05,
	"loss": 0.4709,
	"step": 990
	},
	{
	"epoch": 2.18,
	"eval_loss": 0.7604044079780579,
	"eval_runtime": 2.9623,
	"eval_samples_per_second": 52.662,
	"eval_steps_per_second": 2.701,
	"step": 990
	},
	{
	"epoch": 2.2,
	"grad_norm": 2.359375,
	"learning_rate": 1.3728950409030284e-05,
	"loss": 0.4892,
	"step": 1000
	},
	{
	"epoch": 2.2,
	"eval_loss": 0.7564588189125061,
	"eval_runtime": 2.9658,
	"eval_samples_per_second": 52.599,
	"eval_steps_per_second": 2.697,
	"step": 1000
	}
	],
	"logging_steps": 10,
	"max_steps": 2270,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 1000,
	"total_flos": 1.1447255699134874e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}