cryptom
/

llama-lora

TensorBoard

Model card Files Files and versions Metrics Training metrics Community

llama-lora / alpaca-lora-based-origin-llama7b /lora-alpaca-cn-remote-0.5m /checkpoint-12600 /trainer_state.json

cryptom

Upload alpaca-lora-based-origin-llama7b with huggingface_hub

c908b27 over 1 year ago

raw

history blame contribute delete

89.6 kB

	{
	"best_metric": 0.636846125125885,
	"best_model_checkpoint": "lora-alpaca-cn/checkpoint-12600",
	"epoch": 2.978723404255319,
	"global_step": 12600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 1.7735,
	"step": 20
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00011999999999999999,
	"loss": 1.1358,
	"step": 40
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.9749,
	"step": 60
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.9316,
	"step": 80
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0003,
	"loss": 0.9072,
	"step": 100
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002995234312946783,
	"loss": 0.8963,
	"step": 120
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002990468625893566,
	"loss": 0.8853,
	"step": 140
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002985702938840349,
	"loss": 0.8709,
	"step": 160
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029809372517871323,
	"loss": 0.8555,
	"step": 180
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029761715647339156,
	"loss": 0.8584,
	"step": 200
	},
	{
	"epoch": 0.05,
	"eval_loss": 0.8360834717750549,
	"eval_runtime": 49.29,
	"eval_samples_per_second": 40.576,
	"eval_steps_per_second": 2.536,
	"step": 200
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002971405877680699,
	"loss": 0.859,
	"step": 220
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029666401906274816,
	"loss": 0.8511,
	"step": 240
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002961874503574265,
	"loss": 0.8401,
	"step": 260
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002957108816521048,
	"loss": 0.8357,
	"step": 280
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029523431294678314,
	"loss": 0.8413,
	"step": 300
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029475774424146147,
	"loss": 0.8283,
	"step": 320
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002942811755361398,
	"loss": 0.8202,
	"step": 340
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029380460683081807,
	"loss": 0.8222,
	"step": 360
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002933280381254964,
	"loss": 0.8178,
	"step": 380
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002928514694201747,
	"loss": 0.8177,
	"step": 400
	},
	{
	"epoch": 0.09,
	"eval_loss": 0.7966175079345703,
	"eval_runtime": 49.1752,
	"eval_samples_per_second": 40.671,
	"eval_steps_per_second": 2.542,
	"step": 400
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029237490071485305,
	"loss": 0.8057,
	"step": 420
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002918983320095314,
	"loss": 0.811,
	"step": 440
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029142176330420965,
	"loss": 0.8056,
	"step": 460
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.000290945194598888,
	"loss": 0.7993,
	"step": 480
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002904686258935663,
	"loss": 0.7982,
	"step": 500
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002899920571882446,
	"loss": 0.8023,
	"step": 520
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00028951548848292296,
	"loss": 0.7968,
	"step": 540
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00028903891977760123,
	"loss": 0.8029,
	"step": 560
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00028856235107227956,
	"loss": 0.7892,
	"step": 580
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002880857823669579,
	"loss": 0.7946,
	"step": 600
	},
	{
	"epoch": 0.14,
	"eval_loss": 0.7735009789466858,
	"eval_runtime": 49.3305,
	"eval_samples_per_second": 40.543,
	"eval_steps_per_second": 2.534,
	"step": 600
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00028760921366163616,
	"loss": 0.782,
	"step": 620
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002871326449563145,
	"loss": 0.7799,
	"step": 640
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002866560762509928,
	"loss": 0.7782,
	"step": 660
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00028617950754567114,
	"loss": 0.7785,
	"step": 680
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00028570293884034947,
	"loss": 0.785,
	"step": 700
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002852263701350278,
	"loss": 0.7754,
	"step": 720
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00028474980142970607,
	"loss": 0.7804,
	"step": 740
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002842732327243844,
	"loss": 0.7696,
	"step": 760
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002837966640190627,
	"loss": 0.7692,
	"step": 780
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00028332009531374105,
	"loss": 0.7752,
	"step": 800
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.7564254403114319,
	"eval_runtime": 49.106,
	"eval_samples_per_second": 40.728,
	"eval_steps_per_second": 2.546,
	"step": 800
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002828435266084194,
	"loss": 0.7698,
	"step": 820
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00028236695790309765,
	"loss": 0.7699,
	"step": 840
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.000281890389197776,
	"loss": 0.7718,
	"step": 860
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0002814138204924543,
	"loss": 0.7644,
	"step": 880
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00028093725178713263,
	"loss": 0.7659,
	"step": 900
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00028046068308181096,
	"loss": 0.7641,
	"step": 920
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00027998411437648923,
	"loss": 0.7535,
	"step": 940
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00027950754567116756,
	"loss": 0.7672,
	"step": 960
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002790309769658459,
	"loss": 0.7563,
	"step": 980
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002785544082605242,
	"loss": 0.752,
	"step": 1000
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.7433652281761169,
	"eval_runtime": 48.9945,
	"eval_samples_per_second": 40.821,
	"eval_steps_per_second": 2.551,
	"step": 1000
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00027807783955520254,
	"loss": 0.755,
	"step": 1020
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00027760127084988087,
	"loss": 0.7563,
	"step": 1040
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00027712470214455914,
	"loss": 0.7475,
	"step": 1060
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00027664813343923747,
	"loss": 0.7599,
	"step": 1080
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002761715647339158,
	"loss": 0.7533,
	"step": 1100
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00027569499602859407,
	"loss": 0.7488,
	"step": 1120
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00027521842732327245,
	"loss": 0.753,
	"step": 1140
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002747418586179507,
	"loss": 0.7435,
	"step": 1160
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00027426528991262905,
	"loss": 0.7457,
	"step": 1180
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002737887212073074,
	"loss": 0.742,
	"step": 1200
	},
	{
	"epoch": 0.28,
	"eval_loss": 0.7321739792823792,
	"eval_runtime": 48.8876,
	"eval_samples_per_second": 40.91,
	"eval_steps_per_second": 2.557,
	"step": 1200
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00027331215250198565,
	"loss": 0.7474,
	"step": 1220
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.000272835583796664,
	"loss": 0.7456,
	"step": 1240
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002723590150913423,
	"loss": 0.7406,
	"step": 1260
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00027188244638602063,
	"loss": 0.7448,
	"step": 1280
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00027140587768069896,
	"loss": 0.7445,
	"step": 1300
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00027092930897537723,
	"loss": 0.7349,
	"step": 1320
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00027045274027005556,
	"loss": 0.7395,
	"step": 1340
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002699761715647339,
	"loss": 0.7382,
	"step": 1360
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002694996028594122,
	"loss": 0.7357,
	"step": 1380
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00026902303415409054,
	"loss": 0.7409,
	"step": 1400
	},
	{
	"epoch": 0.33,
	"eval_loss": 0.7235888242721558,
	"eval_runtime": 49.2145,
	"eval_samples_per_second": 40.638,
	"eval_steps_per_second": 2.54,
	"step": 1400
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026854646544876887,
	"loss": 0.7376,
	"step": 1420
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00026806989674344714,
	"loss": 0.7298,
	"step": 1440
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00026759332803812547,
	"loss": 0.7379,
	"step": 1460
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0002671167593328038,
	"loss": 0.7354,
	"step": 1480
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0002666401906274821,
	"loss": 0.7341,
	"step": 1500
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00026616362192216045,
	"loss": 0.7352,
	"step": 1520
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0002656870532168387,
	"loss": 0.7321,
	"step": 1540
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00026521048451151705,
	"loss": 0.7285,
	"step": 1560
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0002647339158061954,
	"loss": 0.73,
	"step": 1580
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00026425734710087365,
	"loss": 0.7304,
	"step": 1600
	},
	{
	"epoch": 0.38,
	"eval_loss": 0.716058611869812,
	"eval_runtime": 48.9201,
	"eval_samples_per_second": 40.883,
	"eval_steps_per_second": 2.555,
	"step": 1600
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00026378077839555203,
	"loss": 0.7314,
	"step": 1620
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0002633042096902303,
	"loss": 0.7315,
	"step": 1640
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00026282764098490863,
	"loss": 0.7239,
	"step": 1660
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00026235107227958696,
	"loss": 0.73,
	"step": 1680
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00026187450357426523,
	"loss": 0.7243,
	"step": 1700
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00026139793486894356,
	"loss": 0.7199,
	"step": 1720
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0002609213661636219,
	"loss": 0.7216,
	"step": 1740
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0002604447974583002,
	"loss": 0.7358,
	"step": 1760
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00025996822875297854,
	"loss": 0.7313,
	"step": 1780
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00025949166004765687,
	"loss": 0.7236,
	"step": 1800
	},
	{
	"epoch": 0.43,
	"eval_loss": 0.7097632884979248,
	"eval_runtime": 49.4908,
	"eval_samples_per_second": 40.412,
	"eval_steps_per_second": 2.526,
	"step": 1800
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00025901509134233514,
	"loss": 0.7282,
	"step": 1820
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00025853852263701347,
	"loss": 0.7187,
	"step": 1840
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0002580619539316918,
	"loss": 0.7303,
	"step": 1860
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0002575853852263701,
	"loss": 0.724,
	"step": 1880
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00025710881652104845,
	"loss": 0.7248,
	"step": 1900
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0002566322478157267,
	"loss": 0.7195,
	"step": 1920
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00025615567911040505,
	"loss": 0.7269,
	"step": 1940
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0002556791104050834,
	"loss": 0.7209,
	"step": 1960
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0002552025416997617,
	"loss": 0.7282,
	"step": 1980
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00025472597299444003,
	"loss": 0.7195,
	"step": 2000
	},
	{
	"epoch": 0.47,
	"eval_loss": 0.7037709355354309,
	"eval_runtime": 49.7167,
	"eval_samples_per_second": 40.228,
	"eval_steps_per_second": 2.514,
	"step": 2000
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0002542494042891183,
	"loss": 0.7229,
	"step": 2020
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00025377283558379664,
	"loss": 0.718,
	"step": 2040
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00025329626687847496,
	"loss": 0.7223,
	"step": 2060
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00025281969817315324,
	"loss": 0.7209,
	"step": 2080
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0002523431294678316,
	"loss": 0.7151,
	"step": 2100
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0002518665607625099,
	"loss": 0.7141,
	"step": 2120
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0002513899920571882,
	"loss": 0.7084,
	"step": 2140
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00025091342335186654,
	"loss": 0.7075,
	"step": 2160
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00025043685464654487,
	"loss": 0.7133,
	"step": 2180
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00024996028594122314,
	"loss": 0.7092,
	"step": 2200
	},
	{
	"epoch": 0.52,
	"eval_loss": 0.6989386677742004,
	"eval_runtime": 49.2344,
	"eval_samples_per_second": 40.622,
	"eval_steps_per_second": 2.539,
	"step": 2200
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0002494837172359015,
	"loss": 0.7178,
	"step": 2220
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0002490071485305798,
	"loss": 0.7188,
	"step": 2240
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0002485305798252581,
	"loss": 0.7161,
	"step": 2260
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00024805401111993645,
	"loss": 0.7078,
	"step": 2280
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0002475774424146147,
	"loss": 0.7,
	"step": 2300
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00024710087370929305,
	"loss": 0.718,
	"step": 2320
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0002466243050039714,
	"loss": 0.7059,
	"step": 2340
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0002461477362986497,
	"loss": 0.712,
	"step": 2360
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00024567116759332804,
	"loss": 0.7116,
	"step": 2380
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0002451945988880063,
	"loss": 0.6986,
	"step": 2400
	},
	{
	"epoch": 0.57,
	"eval_loss": 0.6939737796783447,
	"eval_runtime": 49.459,
	"eval_samples_per_second": 40.438,
	"eval_steps_per_second": 2.527,
	"step": 2400
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00024471803018268464,
	"loss": 0.7168,
	"step": 2420
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00024424146147736296,
	"loss": 0.7141,
	"step": 2440
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00024376489277204126,
	"loss": 0.7095,
	"step": 2460
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00024328832406671962,
	"loss": 0.7091,
	"step": 2480
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00024281175536139792,
	"loss": 0.7015,
	"step": 2500
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00024233518665607622,
	"loss": 0.7109,
	"step": 2520
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00024185861795075455,
	"loss": 0.7086,
	"step": 2540
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00024138204924543285,
	"loss": 0.7118,
	"step": 2560
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00024090548054011117,
	"loss": 0.7033,
	"step": 2580
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0002404289118347895,
	"loss": 0.7128,
	"step": 2600
	},
	{
	"epoch": 0.61,
	"eval_loss": 0.6901652812957764,
	"eval_runtime": 49.5038,
	"eval_samples_per_second": 40.401,
	"eval_steps_per_second": 2.525,
	"step": 2600
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00023995234312946783,
	"loss": 0.6968,
	"step": 2620
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00023947577442414613,
	"loss": 0.7109,
	"step": 2640
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00023899920571882443,
	"loss": 0.7048,
	"step": 2660
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00023852263701350276,
	"loss": 0.7012,
	"step": 2680
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00023804606830818106,
	"loss": 0.7065,
	"step": 2700
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0002375694996028594,
	"loss": 0.7009,
	"step": 2720
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0002370929308975377,
	"loss": 0.7035,
	"step": 2740
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00023661636219221604,
	"loss": 0.6973,
	"step": 2760
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00023613979348689434,
	"loss": 0.7075,
	"step": 2780
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00023566322478157264,
	"loss": 0.6952,
	"step": 2800
	},
	{
	"epoch": 0.66,
	"eval_loss": 0.6865400671958923,
	"eval_runtime": 49.2814,
	"eval_samples_per_second": 40.583,
	"eval_steps_per_second": 2.536,
	"step": 2800
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00023518665607625097,
	"loss": 0.6979,
	"step": 2820
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.0002347100873709293,
	"loss": 0.6973,
	"step": 2840
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00023423351866560762,
	"loss": 0.7033,
	"step": 2860
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00023375694996028592,
	"loss": 0.6964,
	"step": 2880
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.00023328038125496422,
	"loss": 0.7052,
	"step": 2900
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.00023280381254964255,
	"loss": 0.6999,
	"step": 2920
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.00023232724384432085,
	"loss": 0.6963,
	"step": 2940
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0002318506751389992,
	"loss": 0.7025,
	"step": 2960
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0002313741064336775,
	"loss": 0.704,
	"step": 2980
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00023089753772835583,
	"loss": 0.6926,
	"step": 3000
	},
	{
	"epoch": 0.71,
	"eval_loss": 0.6828380227088928,
	"eval_runtime": 49.5667,
	"eval_samples_per_second": 40.35,
	"eval_steps_per_second": 2.522,
	"step": 3000
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00023042096902303413,
	"loss": 0.698,
	"step": 3020
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.00022994440031771243,
	"loss": 0.6893,
	"step": 3040
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.00022946783161239076,
	"loss": 0.6938,
	"step": 3060
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.00022899126290706908,
	"loss": 0.6974,
	"step": 3080
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0002285146942017474,
	"loss": 0.6922,
	"step": 3100
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.0002280381254964257,
	"loss": 0.7073,
	"step": 3120
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.00022756155679110404,
	"loss": 0.6895,
	"step": 3140
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.00022708498808578234,
	"loss": 0.7012,
	"step": 3160
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.00022660841938046064,
	"loss": 0.6985,
	"step": 3180
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.000226131850675139,
	"loss": 0.6901,
	"step": 3200
	},
	{
	"epoch": 0.76,
	"eval_loss": 0.6807068586349487,
	"eval_runtime": 49.2421,
	"eval_samples_per_second": 40.616,
	"eval_steps_per_second": 2.538,
	"step": 3200
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.0002256552819698173,
	"loss": 0.697,
	"step": 3220
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022517871326449562,
	"loss": 0.7002,
	"step": 3240
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022470214455917392,
	"loss": 0.6918,
	"step": 3260
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.00022422557585385225,
	"loss": 0.6999,
	"step": 3280
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.00022374900714853055,
	"loss": 0.6961,
	"step": 3300
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.0002232724384432089,
	"loss": 0.6888,
	"step": 3320
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0002227958697378872,
	"loss": 0.695,
	"step": 3340
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0002223193010325655,
	"loss": 0.6861,
	"step": 3360
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.00022184273232724383,
	"loss": 0.6864,
	"step": 3380
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.00022136616362192213,
	"loss": 0.6917,
	"step": 3400
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.6773961782455444,
	"eval_runtime": 49.3961,
	"eval_samples_per_second": 40.489,
	"eval_steps_per_second": 2.531,
	"step": 3400
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.00022088959491660043,
	"loss": 0.679,
	"step": 3420
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.00022041302621127879,
	"loss": 0.6915,
	"step": 3440
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00021993645750595709,
	"loss": 0.6937,
	"step": 3460
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.0002194598888006354,
	"loss": 0.6831,
	"step": 3480
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.0002189833200953137,
	"loss": 0.6875,
	"step": 3500
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.00021850675138999204,
	"loss": 0.6916,
	"step": 3520
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.00021803018268467034,
	"loss": 0.6896,
	"step": 3540
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.0002175536139793487,
	"loss": 0.6986,
	"step": 3560
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.000217077045274027,
	"loss": 0.693,
	"step": 3580
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.0002166004765687053,
	"loss": 0.6893,
	"step": 3600
	},
	{
	"epoch": 0.85,
	"eval_loss": 0.6753410696983337,
	"eval_runtime": 49.3307,
	"eval_samples_per_second": 40.543,
	"eval_steps_per_second": 2.534,
	"step": 3600
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.00021612390786338362,
	"loss": 0.6872,
	"step": 3620
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.00021564733915806192,
	"loss": 0.6862,
	"step": 3640
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00021517077045274025,
	"loss": 0.6943,
	"step": 3660
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00021469420174741858,
	"loss": 0.6896,
	"step": 3680
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.0002142176330420969,
	"loss": 0.6912,
	"step": 3700
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.0002137410643367752,
	"loss": 0.6859,
	"step": 3720
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.0002132644956314535,
	"loss": 0.6791,
	"step": 3740
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.00021278792692613183,
	"loss": 0.6882,
	"step": 3760
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.00021231135822081013,
	"loss": 0.6823,
	"step": 3780
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0002118347895154885,
	"loss": 0.6831,
	"step": 3800
	},
	{
	"epoch": 0.9,
	"eval_loss": 0.6738302707672119,
	"eval_runtime": 49.4648,
	"eval_samples_per_second": 40.433,
	"eval_steps_per_second": 2.527,
	"step": 3800
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0002113582208101668,
	"loss": 0.6818,
	"step": 3820
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.0002108816521048451,
	"loss": 0.6912,
	"step": 3840
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.00021040508339952341,
	"loss": 0.6884,
	"step": 3860
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00020992851469420171,
	"loss": 0.6888,
	"step": 3880
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00020945194598888004,
	"loss": 0.6822,
	"step": 3900
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.00020897537728355837,
	"loss": 0.6879,
	"step": 3920
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0002084988085782367,
	"loss": 0.6771,
	"step": 3940
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.000208022239872915,
	"loss": 0.684,
	"step": 3960
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0002075456711675933,
	"loss": 0.6878,
	"step": 3980
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.00020706910246227162,
	"loss": 0.6913,
	"step": 4000
	},
	{
	"epoch": 0.95,
	"eval_loss": 0.6711302995681763,
	"eval_runtime": 49.117,
	"eval_samples_per_second": 40.719,
	"eval_steps_per_second": 2.545,
	"step": 4000
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.00020659253375694992,
	"loss": 0.683,
	"step": 4020
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.00020611596505162828,
	"loss": 0.6833,
	"step": 4040
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.00020563939634630658,
	"loss": 0.6793,
	"step": 4060
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.0002051628276409849,
	"loss": 0.6843,
	"step": 4080
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0002046862589356632,
	"loss": 0.6822,
	"step": 4100
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0002042096902303415,
	"loss": 0.6856,
	"step": 4120
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020373312152501983,
	"loss": 0.6809,
	"step": 4140
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020325655281969816,
	"loss": 0.6843,
	"step": 4160
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0002027799841143765,
	"loss": 0.6754,
	"step": 4180
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0002023034154090548,
	"loss": 0.6823,
	"step": 4200
	},
	{
	"epoch": 0.99,
	"eval_loss": 0.6697036027908325,
	"eval_runtime": 49.3237,
	"eval_samples_per_second": 40.548,
	"eval_steps_per_second": 2.534,
	"step": 4200
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.00020182684670373312,
	"loss": 0.6861,
	"step": 4220
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.00020135027799841142,
	"loss": 0.6806,
	"step": 4240
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.00020087370929308972,
	"loss": 0.6823,
	"step": 4260
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.00020039714058776807,
	"loss": 0.6805,
	"step": 4280
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.00019992057188244637,
	"loss": 0.6813,
	"step": 4300
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0001994440031771247,
	"loss": 0.675,
	"step": 4320
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.000198967434471803,
	"loss": 0.6728,
	"step": 4340
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.0001984908657664813,
	"loss": 0.6676,
	"step": 4360
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00019801429706115963,
	"loss": 0.6729,
	"step": 4380
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00019753772835583795,
	"loss": 0.685,
	"step": 4400
	},
	{
	"epoch": 1.04,
	"eval_loss": 0.6667952537536621,
	"eval_runtime": 49.3899,
	"eval_samples_per_second": 40.494,
	"eval_steps_per_second": 2.531,
	"step": 4400
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00019706115965051628,
	"loss": 0.6786,
	"step": 4420
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.00019658459094519458,
	"loss": 0.6738,
	"step": 4440
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0001961080222398729,
	"loss": 0.686,
	"step": 4460
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.0001956314535345512,
	"loss": 0.6818,
	"step": 4480
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.0001951548848292295,
	"loss": 0.6741,
	"step": 4500
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00019467831612390786,
	"loss": 0.6756,
	"step": 4520
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00019420174741858616,
	"loss": 0.6851,
	"step": 4540
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0001937251787132645,
	"loss": 0.6784,
	"step": 4560
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0001932486100079428,
	"loss": 0.6785,
	"step": 4580
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.00019277204130262112,
	"loss": 0.678,
	"step": 4600
	},
	{
	"epoch": 1.09,
	"eval_loss": 0.6655837297439575,
	"eval_runtime": 49.5019,
	"eval_samples_per_second": 40.403,
	"eval_steps_per_second": 2.525,
	"step": 4600
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.00019229547259729942,
	"loss": 0.6782,
	"step": 4620
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00019181890389197777,
	"loss": 0.6683,
	"step": 4640
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00019134233518665607,
	"loss": 0.6783,
	"step": 4660
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.00019086576648133437,
	"loss": 0.675,
	"step": 4680
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.0001903891977760127,
	"loss": 0.6691,
	"step": 4700
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.000189912629070691,
	"loss": 0.6726,
	"step": 4720
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.00018943606036536933,
	"loss": 0.68,
	"step": 4740
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00018895949166004763,
	"loss": 0.6694,
	"step": 4760
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00018848292295472598,
	"loss": 0.6686,
	"step": 4780
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00018800635424940428,
	"loss": 0.6766,
	"step": 4800
	},
	{
	"epoch": 1.13,
	"eval_loss": 0.6646501421928406,
	"eval_runtime": 49.3188,
	"eval_samples_per_second": 40.552,
	"eval_steps_per_second": 2.535,
	"step": 4800
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.00018752978554408258,
	"loss": 0.6724,
	"step": 4820
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.0001870532168387609,
	"loss": 0.6801,
	"step": 4840
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0001865766481334392,
	"loss": 0.6698,
	"step": 4860
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0001861000794281175,
	"loss": 0.6723,
	"step": 4880
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00018562351072279586,
	"loss": 0.6693,
	"step": 4900
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00018514694201747416,
	"loss": 0.6716,
	"step": 4920
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0001846703733121525,
	"loss": 0.674,
	"step": 4940
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0001841938046068308,
	"loss": 0.6702,
	"step": 4960
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018371723590150912,
	"loss": 0.6716,
	"step": 4980
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018324066719618742,
	"loss": 0.672,
	"step": 5000
	},
	{
	"epoch": 1.18,
	"eval_loss": 0.662735104560852,
	"eval_runtime": 49.275,
	"eval_samples_per_second": 40.589,
	"eval_steps_per_second": 2.537,
	"step": 5000
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.00018276409849086577,
	"loss": 0.6701,
	"step": 5020
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.00018228752978554407,
	"loss": 0.6663,
	"step": 5040
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.00018181096108022237,
	"loss": 0.6651,
	"step": 5060
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.0001813343923749007,
	"loss": 0.6708,
	"step": 5080
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.000180857823669579,
	"loss": 0.6697,
	"step": 5100
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.00018038125496425733,
	"loss": 0.662,
	"step": 5120
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017990468625893566,
	"loss": 0.669,
	"step": 5140
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017942811755361398,
	"loss": 0.6649,
	"step": 5160
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017895154884829228,
	"loss": 0.668,
	"step": 5180
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.00017847498014297058,
	"loss": 0.6796,
	"step": 5200
	},
	{
	"epoch": 1.23,
	"eval_loss": 0.6609957218170166,
	"eval_runtime": 49.2394,
	"eval_samples_per_second": 40.618,
	"eval_steps_per_second": 2.539,
	"step": 5200
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0001779984114376489,
	"loss": 0.6745,
	"step": 5220
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.0001775218427323272,
	"loss": 0.6646,
	"step": 5240
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.00017704527402700556,
	"loss": 0.6682,
	"step": 5260
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.00017656870532168386,
	"loss": 0.6713,
	"step": 5280
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.00017609213661636216,
	"loss": 0.6618,
	"step": 5300
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0001756155679110405,
	"loss": 0.6703,
	"step": 5320
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0001751389992057188,
	"loss": 0.6652,
	"step": 5340
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00017466243050039712,
	"loss": 0.6698,
	"step": 5360
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00017418586179507545,
	"loss": 0.6728,
	"step": 5380
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.00017370929308975377,
	"loss": 0.6752,
	"step": 5400
	},
	{
	"epoch": 1.28,
	"eval_loss": 0.6592395901679993,
	"eval_runtime": 49.3426,
	"eval_samples_per_second": 40.533,
	"eval_steps_per_second": 2.533,
	"step": 5400
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.00017323272438443207,
	"loss": 0.6653,
	"step": 5420
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.00017275615567911037,
	"loss": 0.669,
	"step": 5440
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.0001722795869737887,
	"loss": 0.6698,
	"step": 5460
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.000171803018268467,
	"loss": 0.6742,
	"step": 5480
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00017132644956314536,
	"loss": 0.6596,
	"step": 5500
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00017084988085782366,
	"loss": 0.6699,
	"step": 5520
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00017037331215250198,
	"loss": 0.664,
	"step": 5540
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.00016989674344718028,
	"loss": 0.6673,
	"step": 5560
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.00016942017474185858,
	"loss": 0.6684,
	"step": 5580
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.0001689436060365369,
	"loss": 0.6769,
	"step": 5600
	},
	{
	"epoch": 1.32,
	"eval_loss": 0.6582754850387573,
	"eval_runtime": 49.469,
	"eval_samples_per_second": 40.429,
	"eval_steps_per_second": 2.527,
	"step": 5600
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.00016846703733121524,
	"loss": 0.6633,
	"step": 5620
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.00016799046862589357,
	"loss": 0.6679,
	"step": 5640
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00016751389992057187,
	"loss": 0.6601,
	"step": 5660
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0001670373312152502,
	"loss": 0.6731,
	"step": 5680
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.0001665607625099285,
	"loss": 0.6638,
	"step": 5700
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.0001660841938046068,
	"loss": 0.6693,
	"step": 5720
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016560762509928515,
	"loss": 0.6642,
	"step": 5740
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00016513105639396345,
	"loss": 0.6649,
	"step": 5760
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.00016465448768864178,
	"loss": 0.663,
	"step": 5780
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.00016417791898332008,
	"loss": 0.6629,
	"step": 5800
	},
	{
	"epoch": 1.37,
	"eval_loss": 0.6574136018753052,
	"eval_runtime": 49.3019,
	"eval_samples_per_second": 40.566,
	"eval_steps_per_second": 2.535,
	"step": 5800
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.00016370135027799838,
	"loss": 0.6605,
	"step": 5820
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.0001632247815726767,
	"loss": 0.6707,
	"step": 5840
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016274821286735503,
	"loss": 0.6695,
	"step": 5860
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016227164416203336,
	"loss": 0.6647,
	"step": 5880
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016179507545671166,
	"loss": 0.6657,
	"step": 5900
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.00016131850675138999,
	"loss": 0.6656,
	"step": 5920
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.00016084193804606829,
	"loss": 0.6676,
	"step": 5940
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.00016036536934074659,
	"loss": 0.6678,
	"step": 5960
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.00015988880063542494,
	"loss": 0.6639,
	"step": 5980
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.00015941223193010324,
	"loss": 0.6645,
	"step": 6000
	},
	{
	"epoch": 1.42,
	"eval_loss": 0.656126081943512,
	"eval_runtime": 49.5095,
	"eval_samples_per_second": 40.396,
	"eval_steps_per_second": 2.525,
	"step": 6000
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.00015893566322478157,
	"loss": 0.6672,
	"step": 6020
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.00015845909451945987,
	"loss": 0.6678,
	"step": 6040
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0001579825258141382,
	"loss": 0.6676,
	"step": 6060
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.0001575059571088165,
	"loss": 0.6717,
	"step": 6080
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.00015702938840349485,
	"loss": 0.671,
	"step": 6100
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.00015655281969817315,
	"loss": 0.6611,
	"step": 6120
	},
	{
	"epoch": 1.45,
	"learning_rate": 0.00015607625099285145,
	"loss": 0.6606,
	"step": 6140
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.00015559968228752978,
	"loss": 0.6647,
	"step": 6160
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.00015512311358220808,
	"loss": 0.6652,
	"step": 6180
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.0001546465448768864,
	"loss": 0.6629,
	"step": 6200
	},
	{
	"epoch": 1.47,
	"eval_loss": 0.6549723148345947,
	"eval_runtime": 49.4871,
	"eval_samples_per_second": 40.415,
	"eval_steps_per_second": 2.526,
	"step": 6200
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.00015416997617156473,
	"loss": 0.6685,
	"step": 6220
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.00015369340746624306,
	"loss": 0.6578,
	"step": 6240
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.00015321683876092136,
	"loss": 0.6587,
	"step": 6260
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.00015274027005559966,
	"loss": 0.6655,
	"step": 6280
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.000152263701350278,
	"loss": 0.6662,
	"step": 6300
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.0001517871326449563,
	"loss": 0.6648,
	"step": 6320
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.00015131056393963464,
	"loss": 0.6638,
	"step": 6340
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.00015083399523431294,
	"loss": 0.6614,
	"step": 6360
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.00015035742652899124,
	"loss": 0.6552,
	"step": 6380
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.00014988085782366957,
	"loss": 0.6753,
	"step": 6400
	},
	{
	"epoch": 1.51,
	"eval_loss": 0.6544620990753174,
	"eval_runtime": 49.3242,
	"eval_samples_per_second": 40.548,
	"eval_steps_per_second": 2.534,
	"step": 6400
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.00014940428911834787,
	"loss": 0.6588,
	"step": 6420
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.0001489277204130262,
	"loss": 0.6609,
	"step": 6440
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.00014845115170770452,
	"loss": 0.6565,
	"step": 6460
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.00014797458300238282,
	"loss": 0.6589,
	"step": 6480
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.00014749801429706115,
	"loss": 0.6585,
	"step": 6500
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.00014702144559173945,
	"loss": 0.6737,
	"step": 6520
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.00014654487688641778,
	"loss": 0.6554,
	"step": 6540
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.0001460683081810961,
	"loss": 0.6603,
	"step": 6560
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.0001455917394757744,
	"loss": 0.6647,
	"step": 6580
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.00014511517077045273,
	"loss": 0.6632,
	"step": 6600
	},
	{
	"epoch": 1.56,
	"eval_loss": 0.6527110934257507,
	"eval_runtime": 49.2622,
	"eval_samples_per_second": 40.599,
	"eval_steps_per_second": 2.537,
	"step": 6600
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014463860206513106,
	"loss": 0.6705,
	"step": 6620
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014416203335980936,
	"loss": 0.6703,
	"step": 6640
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.00014368546465448766,
	"loss": 0.6602,
	"step": 6660
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.000143208895949166,
	"loss": 0.6639,
	"step": 6680
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.00014273232724384432,
	"loss": 0.6645,
	"step": 6700
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.00014225575853852262,
	"loss": 0.6655,
	"step": 6720
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.00014177918983320094,
	"loss": 0.664,
	"step": 6740
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.00014130262112787927,
	"loss": 0.6656,
	"step": 6760
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.00014082605242255757,
	"loss": 0.6658,
	"step": 6780
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0001403494837172359,
	"loss": 0.6641,
	"step": 6800
	},
	{
	"epoch": 1.61,
	"eval_loss": 0.6513609886169434,
	"eval_runtime": 49.4424,
	"eval_samples_per_second": 40.451,
	"eval_steps_per_second": 2.528,
	"step": 6800
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0001398729150119142,
	"loss": 0.6599,
	"step": 6820
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.00013939634630659252,
	"loss": 0.6552,
	"step": 6840
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.00013891977760127085,
	"loss": 0.6616,
	"step": 6860
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013844320889594915,
	"loss": 0.6635,
	"step": 6880
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013796664019062745,
	"loss": 0.6608,
	"step": 6900
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.00013749007148530578,
	"loss": 0.6596,
	"step": 6920
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.0001370135027799841,
	"loss": 0.6589,
	"step": 6940
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.0001365369340746624,
	"loss": 0.6627,
	"step": 6960
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.00013606036536934073,
	"loss": 0.6606,
	"step": 6980
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.00013558379666401906,
	"loss": 0.6658,
	"step": 7000
	},
	{
	"epoch": 1.65,
	"eval_loss": 0.6510519981384277,
	"eval_runtime": 49.5012,
	"eval_samples_per_second": 40.403,
	"eval_steps_per_second": 2.525,
	"step": 7000
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.00013510722795869736,
	"loss": 0.6571,
	"step": 7020
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.0001346306592533757,
	"loss": 0.6607,
	"step": 7040
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.000134154090548054,
	"loss": 0.6562,
	"step": 7060
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.00013367752184273232,
	"loss": 0.6582,
	"step": 7080
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013320095313741064,
	"loss": 0.6635,
	"step": 7100
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.00013272438443208894,
	"loss": 0.6682,
	"step": 7120
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.00013224781572676727,
	"loss": 0.6633,
	"step": 7140
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.0001317712470214456,
	"loss": 0.6671,
	"step": 7160
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.0001312946783161239,
	"loss": 0.6645,
	"step": 7180
	},
	{
	"epoch": 1.7,
	"learning_rate": 0.0001308181096108022,
	"loss": 0.6699,
	"step": 7200
	},
	{
	"epoch": 1.7,
	"eval_loss": 0.6502068042755127,
	"eval_runtime": 49.4619,
	"eval_samples_per_second": 40.435,
	"eval_steps_per_second": 2.527,
	"step": 7200
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00013034154090548053,
	"loss": 0.6617,
	"step": 7220
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00012986497220015885,
	"loss": 0.6639,
	"step": 7240
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.00012938840349483715,
	"loss": 0.6634,
	"step": 7260
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.00012891183478951548,
	"loss": 0.663,
	"step": 7280
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.00012843526608419378,
	"loss": 0.6653,
	"step": 7300
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.0001279586973788721,
	"loss": 0.6555,
	"step": 7320
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.00012748212867355044,
	"loss": 0.6653,
	"step": 7340
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.00012700555996822874,
	"loss": 0.6573,
	"step": 7360
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.00012652899126290706,
	"loss": 0.658,
	"step": 7380
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.0001260524225575854,
	"loss": 0.6562,
	"step": 7400
	},
	{
	"epoch": 1.75,
	"eval_loss": 0.6491650342941284,
	"eval_runtime": 49.2463,
	"eval_samples_per_second": 40.612,
	"eval_steps_per_second": 2.538,
	"step": 7400
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.0001255758538522637,
	"loss": 0.6592,
	"step": 7420
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.000125099285146942,
	"loss": 0.6587,
	"step": 7440
	},
	{
	"epoch": 1.76,
	"learning_rate": 0.00012462271644162032,
	"loss": 0.6616,
	"step": 7460
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.00012414614773629865,
	"loss": 0.655,
	"step": 7480
	},
	{
	"epoch": 1.77,
	"learning_rate": 0.00012366957903097695,
	"loss": 0.6591,
	"step": 7500
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.00012319301032565527,
	"loss": 0.6545,
	"step": 7520
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.0001227164416203336,
	"loss": 0.6673,
	"step": 7540
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.0001222398729150119,
	"loss": 0.6626,
	"step": 7560
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.00012176330420969023,
	"loss": 0.6663,
	"step": 7580
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.00012128673550436854,
	"loss": 0.6643,
	"step": 7600
	},
	{
	"epoch": 1.8,
	"eval_loss": 0.6482685804367065,
	"eval_runtime": 49.3591,
	"eval_samples_per_second": 40.519,
	"eval_steps_per_second": 2.532,
	"step": 7600
	},
	{
	"epoch": 1.8,
	"learning_rate": 0.00012081016679904685,
	"loss": 0.6623,
	"step": 7620
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00012033359809372518,
	"loss": 0.6636,
	"step": 7640
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00011985702938840348,
	"loss": 0.6598,
	"step": 7660
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.0001193804606830818,
	"loss": 0.6521,
	"step": 7680
	},
	{
	"epoch": 1.82,
	"learning_rate": 0.00011890389197776012,
	"loss": 0.664,
	"step": 7700
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011842732327243844,
	"loss": 0.6529,
	"step": 7720
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011795075456711675,
	"loss": 0.6622,
	"step": 7740
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011747418586179508,
	"loss": 0.6608,
	"step": 7760
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.00011699761715647338,
	"loss": 0.6556,
	"step": 7780
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.00011652104845115169,
	"loss": 0.6643,
	"step": 7800
	},
	{
	"epoch": 1.84,
	"eval_loss": 0.6474015116691589,
	"eval_runtime": 49.3608,
	"eval_samples_per_second": 40.518,
	"eval_steps_per_second": 2.532,
	"step": 7800
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.00011604447974583002,
	"loss": 0.6541,
	"step": 7820
	},
	{
	"epoch": 1.85,
	"learning_rate": 0.00011556791104050833,
	"loss": 0.6614,
	"step": 7840
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011509134233518665,
	"loss": 0.6499,
	"step": 7860
	},
	{
	"epoch": 1.86,
	"learning_rate": 0.00011461477362986497,
	"loss": 0.6563,
	"step": 7880
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011413820492454327,
	"loss": 0.6589,
	"step": 7900
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011366163621922159,
	"loss": 0.6544,
	"step": 7920
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.00011318506751389992,
	"loss": 0.6606,
	"step": 7940
	},
	{
	"epoch": 1.88,
	"learning_rate": 0.00011270849880857823,
	"loss": 0.657,
	"step": 7960
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.00011223193010325654,
	"loss": 0.6608,
	"step": 7980
	},
	{
	"epoch": 1.89,
	"learning_rate": 0.00011175536139793487,
	"loss": 0.6595,
	"step": 8000
	},
	{
	"epoch": 1.89,
	"eval_loss": 0.6469079256057739,
	"eval_runtime": 49.3012,
	"eval_samples_per_second": 40.567,
	"eval_steps_per_second": 2.535,
	"step": 8000
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.00011127879269261318,
	"loss": 0.6563,
	"step": 8020
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.00011080222398729148,
	"loss": 0.6602,
	"step": 8040
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00011032565528196981,
	"loss": 0.6603,
	"step": 8060
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010984908657664812,
	"loss": 0.6495,
	"step": 8080
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010937251787132644,
	"loss": 0.6551,
	"step": 8100
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.00010891977760127084,
	"loss": 0.6497,
	"step": 8120
	},
	{
	"epoch": 1.92,
	"learning_rate": 0.00010844320889594917,
	"loss": 0.6652,
	"step": 8140
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.00010796664019062747,
	"loss": 0.6497,
	"step": 8160
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.00010749007148530578,
	"loss": 0.6554,
	"step": 8180
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.00010701350277998411,
	"loss": 0.6563,
	"step": 8200
	},
	{
	"epoch": 1.94,
	"eval_loss": 0.645990252494812,
	"eval_runtime": 49.3957,
	"eval_samples_per_second": 40.489,
	"eval_steps_per_second": 2.531,
	"step": 8200
	},
	{
	"epoch": 1.94,
	"learning_rate": 0.00010653693407466242,
	"loss": 0.6572,
	"step": 8220
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010606036536934074,
	"loss": 0.6563,
	"step": 8240
	},
	{
	"epoch": 1.95,
	"learning_rate": 0.00010558379666401906,
	"loss": 0.6535,
	"step": 8260
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.00010510722795869736,
	"loss": 0.655,
	"step": 8280
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.00010463065925337568,
	"loss": 0.6554,
	"step": 8300
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.000104154090548054,
	"loss": 0.6559,
	"step": 8320
	},
	{
	"epoch": 1.97,
	"learning_rate": 0.00010367752184273232,
	"loss": 0.6522,
	"step": 8340
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.00010320095313741063,
	"loss": 0.6568,
	"step": 8360
	},
	{
	"epoch": 1.98,
	"learning_rate": 0.00010272438443208896,
	"loss": 0.6566,
	"step": 8380
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00010224781572676727,
	"loss": 0.6496,
	"step": 8400
	},
	{
	"epoch": 1.99,
	"eval_loss": 0.6457875967025757,
	"eval_runtime": 49.0201,
	"eval_samples_per_second": 40.8,
	"eval_steps_per_second": 2.55,
	"step": 8400
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.00010177124702144557,
	"loss": 0.66,
	"step": 8420
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.0001012946783161239,
	"loss": 0.6457,
	"step": 8440
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.0001008419380460683,
	"loss": 0.6349,
	"step": 8460
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010036536934074662,
	"loss": 0.6545,
	"step": 8480
	},
	{
	"epoch": 2.01,
	"learning_rate": 9.988880063542493e-05,
	"loss": 0.6515,
	"step": 8500
	},
	{
	"epoch": 2.01,
	"learning_rate": 9.941223193010326e-05,
	"loss": 0.6459,
	"step": 8520
	},
	{
	"epoch": 2.02,
	"learning_rate": 9.893566322478156e-05,
	"loss": 0.6494,
	"step": 8540
	},
	{
	"epoch": 2.02,
	"learning_rate": 9.845909451945987e-05,
	"loss": 0.6608,
	"step": 8560
	},
	{
	"epoch": 2.03,
	"learning_rate": 9.79825258141382e-05,
	"loss": 0.6485,
	"step": 8580
	},
	{
	"epoch": 2.03,
	"learning_rate": 9.750595710881651e-05,
	"loss": 0.6461,
	"step": 8600
	},
	{
	"epoch": 2.03,
	"eval_loss": 0.6450995802879333,
	"eval_runtime": 49.2592,
	"eval_samples_per_second": 40.602,
	"eval_steps_per_second": 2.538,
	"step": 8600
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.702938840349483e-05,
	"loss": 0.6523,
	"step": 8620
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.655281969817315e-05,
	"loss": 0.6565,
	"step": 8640
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.607625099285145e-05,
	"loss": 0.6541,
	"step": 8660
	},
	{
	"epoch": 2.05,
	"learning_rate": 9.559968228752977e-05,
	"loss": 0.6585,
	"step": 8680
	},
	{
	"epoch": 2.06,
	"learning_rate": 9.51231135822081e-05,
	"loss": 0.6531,
	"step": 8700
	},
	{
	"epoch": 2.06,
	"learning_rate": 9.464654487688641e-05,
	"loss": 0.6579,
	"step": 8720
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.416997617156472e-05,
	"loss": 0.6438,
	"step": 8740
	},
	{
	"epoch": 2.07,
	"learning_rate": 9.369340746624305e-05,
	"loss": 0.6516,
	"step": 8760
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.321683876092136e-05,
	"loss": 0.6576,
	"step": 8780
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.274027005559966e-05,
	"loss": 0.6506,
	"step": 8800
	},
	{
	"epoch": 2.08,
	"eval_loss": 0.6444578170776367,
	"eval_runtime": 49.0631,
	"eval_samples_per_second": 40.764,
	"eval_steps_per_second": 2.548,
	"step": 8800
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.226370135027799e-05,
	"loss": 0.6484,
	"step": 8820
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.17871326449563e-05,
	"loss": 0.6566,
	"step": 8840
	},
	{
	"epoch": 2.09,
	"learning_rate": 9.131056393963462e-05,
	"loss": 0.6547,
	"step": 8860
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.083399523431295e-05,
	"loss": 0.6532,
	"step": 8880
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.035742652899126e-05,
	"loss": 0.6532,
	"step": 8900
	},
	{
	"epoch": 2.11,
	"learning_rate": 8.988085782366956e-05,
	"loss": 0.6479,
	"step": 8920
	},
	{
	"epoch": 2.11,
	"learning_rate": 8.940428911834789e-05,
	"loss": 0.6548,
	"step": 8940
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.89277204130262e-05,
	"loss": 0.647,
	"step": 8960
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.845115170770452e-05,
	"loss": 0.6478,
	"step": 8980
	},
	{
	"epoch": 2.13,
	"learning_rate": 8.797458300238284e-05,
	"loss": 0.6553,
	"step": 9000
	},
	{
	"epoch": 2.13,
	"eval_loss": 0.6433074474334717,
	"eval_runtime": 49.3831,
	"eval_samples_per_second": 40.5,
	"eval_steps_per_second": 2.531,
	"step": 9000
	},
	{
	"epoch": 2.13,
	"learning_rate": 8.749801429706116e-05,
	"loss": 0.6443,
	"step": 9020
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.702144559173947e-05,
	"loss": 0.6518,
	"step": 9040
	},
	{
	"epoch": 2.14,
	"learning_rate": 8.65448768864178e-05,
	"loss": 0.6578,
	"step": 9060
	},
	{
	"epoch": 2.15,
	"learning_rate": 8.60683081810961e-05,
	"loss": 0.6472,
	"step": 9080
	},
	{
	"epoch": 2.15,
	"learning_rate": 8.559173947577441e-05,
	"loss": 0.6471,
	"step": 9100
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.511517077045274e-05,
	"loss": 0.6482,
	"step": 9120
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.463860206513105e-05,
	"loss": 0.6522,
	"step": 9140
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.416203335980937e-05,
	"loss": 0.6584,
	"step": 9160
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.368546465448769e-05,
	"loss": 0.6596,
	"step": 9180
	},
	{
	"epoch": 2.17,
	"learning_rate": 8.320889594916599e-05,
	"loss": 0.6581,
	"step": 9200
	},
	{
	"epoch": 2.17,
	"eval_loss": 0.6426697969436646,
	"eval_runtime": 49.0935,
	"eval_samples_per_second": 40.739,
	"eval_steps_per_second": 2.546,
	"step": 9200
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.273232724384431e-05,
	"loss": 0.6441,
	"step": 9220
	},
	{
	"epoch": 2.18,
	"learning_rate": 8.225575853852263e-05,
	"loss": 0.6509,
	"step": 9240
	},
	{
	"epoch": 2.19,
	"learning_rate": 8.177918983320095e-05,
	"loss": 0.6409,
	"step": 9260
	},
	{
	"epoch": 2.19,
	"learning_rate": 8.130262112787926e-05,
	"loss": 0.6475,
	"step": 9280
	},
	{
	"epoch": 2.2,
	"learning_rate": 8.082605242255759e-05,
	"loss": 0.6597,
	"step": 9300
	},
	{
	"epoch": 2.2,
	"learning_rate": 8.03494837172359e-05,
	"loss": 0.6544,
	"step": 9320
	},
	{
	"epoch": 2.21,
	"learning_rate": 7.98729150119142e-05,
	"loss": 0.6528,
	"step": 9340
	},
	{
	"epoch": 2.21,
	"learning_rate": 7.939634630659253e-05,
	"loss": 0.644,
	"step": 9360
	},
	{
	"epoch": 2.22,
	"learning_rate": 7.891977760127084e-05,
	"loss": 0.6552,
	"step": 9380
	},
	{
	"epoch": 2.22,
	"learning_rate": 7.844320889594916e-05,
	"loss": 0.6548,
	"step": 9400
	},
	{
	"epoch": 2.22,
	"eval_loss": 0.6423606276512146,
	"eval_runtime": 49.6466,
	"eval_samples_per_second": 40.285,
	"eval_steps_per_second": 2.518,
	"step": 9400
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.796664019062748e-05,
	"loss": 0.6568,
	"step": 9420
	},
	{
	"epoch": 2.23,
	"learning_rate": 7.74900714853058e-05,
	"loss": 0.6539,
	"step": 9440
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.70135027799841e-05,
	"loss": 0.6468,
	"step": 9460
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.653693407466243e-05,
	"loss": 0.6425,
	"step": 9480
	},
	{
	"epoch": 2.25,
	"learning_rate": 7.606036536934074e-05,
	"loss": 0.6523,
	"step": 9500
	},
	{
	"epoch": 2.25,
	"learning_rate": 7.558379666401905e-05,
	"loss": 0.6468,
	"step": 9520
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.510722795869738e-05,
	"loss": 0.6518,
	"step": 9540
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.46306592533757e-05,
	"loss": 0.6534,
	"step": 9560
	},
	{
	"epoch": 2.26,
	"learning_rate": 7.415409054805401e-05,
	"loss": 0.6471,
	"step": 9580
	},
	{
	"epoch": 2.27,
	"learning_rate": 7.367752184273232e-05,
	"loss": 0.6465,
	"step": 9600
	},
	{
	"epoch": 2.27,
	"eval_loss": 0.6418060064315796,
	"eval_runtime": 49.4954,
	"eval_samples_per_second": 40.408,
	"eval_steps_per_second": 2.525,
	"step": 9600
	},
	{
	"epoch": 2.27,
	"learning_rate": 7.320095313741064e-05,
	"loss": 0.6577,
	"step": 9620
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.272438443208895e-05,
	"loss": 0.6453,
	"step": 9640
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.224781572676726e-05,
	"loss": 0.6489,
	"step": 9660
	},
	{
	"epoch": 2.29,
	"learning_rate": 7.177124702144559e-05,
	"loss": 0.6466,
	"step": 9680
	},
	{
	"epoch": 2.29,
	"learning_rate": 7.12946783161239e-05,
	"loss": 0.6493,
	"step": 9700
	},
	{
	"epoch": 2.3,
	"learning_rate": 7.081810961080222e-05,
	"loss": 0.6537,
	"step": 9720
	},
	{
	"epoch": 2.3,
	"learning_rate": 7.034154090548053e-05,
	"loss": 0.6486,
	"step": 9740
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.986497220015885e-05,
	"loss": 0.65,
	"step": 9760
	},
	{
	"epoch": 2.31,
	"learning_rate": 6.938840349483717e-05,
	"loss": 0.6387,
	"step": 9780
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.891183478951549e-05,
	"loss": 0.6464,
	"step": 9800
	},
	{
	"epoch": 2.32,
	"eval_loss": 0.6412256360054016,
	"eval_runtime": 49.3752,
	"eval_samples_per_second": 40.506,
	"eval_steps_per_second": 2.532,
	"step": 9800
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.84352660841938e-05,
	"loss": 0.6475,
	"step": 9820
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.795869737887211e-05,
	"loss": 0.6543,
	"step": 9840
	},
	{
	"epoch": 2.33,
	"learning_rate": 6.748212867355043e-05,
	"loss": 0.6545,
	"step": 9860
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.700555996822874e-05,
	"loss": 0.6468,
	"step": 9880
	},
	{
	"epoch": 2.34,
	"learning_rate": 6.652899126290707e-05,
	"loss": 0.651,
	"step": 9900
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.605242255758538e-05,
	"loss": 0.641,
	"step": 9920
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.55758538522637e-05,
	"loss": 0.657,
	"step": 9940
	},
	{
	"epoch": 2.35,
	"learning_rate": 6.509928514694201e-05,
	"loss": 0.6481,
	"step": 9960
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.462271644162034e-05,
	"loss": 0.6496,
	"step": 9980
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.414614773629864e-05,
	"loss": 0.6451,
	"step": 10000
	},
	{
	"epoch": 2.36,
	"eval_loss": 0.6414454579353333,
	"eval_runtime": 49.395,
	"eval_samples_per_second": 40.49,
	"eval_steps_per_second": 2.531,
	"step": 10000
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.366957903097696e-05,
	"loss": 0.6555,
	"step": 10020
	},
	{
	"epoch": 2.37,
	"learning_rate": 6.319301032565528e-05,
	"loss": 0.6494,
	"step": 10040
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.271644162033359e-05,
	"loss": 0.6487,
	"step": 10060
	},
	{
	"epoch": 2.38,
	"learning_rate": 6.22398729150119e-05,
	"loss": 0.6544,
	"step": 10080
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.176330420969023e-05,
	"loss": 0.6468,
	"step": 10100
	},
	{
	"epoch": 2.39,
	"learning_rate": 6.128673550436853e-05,
	"loss": 0.6441,
	"step": 10120
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.081016679904686e-05,
	"loss": 0.6478,
	"step": 10140
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.033359809372518e-05,
	"loss": 0.6539,
	"step": 10160
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.985702938840349e-05,
	"loss": 0.6486,
	"step": 10180
	},
	{
	"epoch": 2.41,
	"learning_rate": 5.938046068308181e-05,
	"loss": 0.6467,
	"step": 10200
	},
	{
	"epoch": 2.41,
	"eval_loss": 0.6406835913658142,
	"eval_runtime": 49.5084,
	"eval_samples_per_second": 40.397,
	"eval_steps_per_second": 2.525,
	"step": 10200
	},
	{
	"epoch": 2.42,
	"learning_rate": 5.890389197776013e-05,
	"loss": 0.6399,
	"step": 10220
	},
	{
	"epoch": 2.42,
	"learning_rate": 5.8427323272438435e-05,
	"loss": 0.6519,
	"step": 10240
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.7950754567116756e-05,
	"loss": 0.6465,
	"step": 10260
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.7474185861795076e-05,
	"loss": 0.6479,
	"step": 10280
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.6997617156473383e-05,
	"loss": 0.6462,
	"step": 10300
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.6521048451151704e-05,
	"loss": 0.6451,
	"step": 10320
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.604447974583002e-05,
	"loss": 0.6453,
	"step": 10340
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.556791104050833e-05,
	"loss": 0.6543,
	"step": 10360
	},
	{
	"epoch": 2.45,
	"learning_rate": 5.509134233518665e-05,
	"loss": 0.6428,
	"step": 10380
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.4614773629864966e-05,
	"loss": 0.6491,
	"step": 10400
	},
	{
	"epoch": 2.46,
	"eval_loss": 0.6400973796844482,
	"eval_runtime": 49.3411,
	"eval_samples_per_second": 40.534,
	"eval_steps_per_second": 2.533,
	"step": 10400
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.413820492454328e-05,
	"loss": 0.649,
	"step": 10420
	},
	{
	"epoch": 2.47,
	"learning_rate": 5.36616362192216e-05,
	"loss": 0.6494,
	"step": 10440
	},
	{
	"epoch": 2.47,
	"learning_rate": 5.3185067513899913e-05,
	"loss": 0.6431,
	"step": 10460
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.2708498808578234e-05,
	"loss": 0.6478,
	"step": 10480
	},
	{
	"epoch": 2.48,
	"learning_rate": 5.223193010325655e-05,
	"loss": 0.6416,
	"step": 10500
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.175536139793486e-05,
	"loss": 0.6507,
	"step": 10520
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.127879269261318e-05,
	"loss": 0.6448,
	"step": 10540
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.0802223987291496e-05,
	"loss": 0.6455,
	"step": 10560
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.032565528196981e-05,
	"loss": 0.6437,
	"step": 10580
	},
	{
	"epoch": 2.51,
	"learning_rate": 4.984908657664813e-05,
	"loss": 0.6488,
	"step": 10600
	},
	{
	"epoch": 2.51,
	"eval_loss": 0.6400858163833618,
	"eval_runtime": 49.8084,
	"eval_samples_per_second": 40.154,
	"eval_steps_per_second": 2.51,
	"step": 10600
	},
	{
	"epoch": 2.51,
	"learning_rate": 4.937251787132645e-05,
	"loss": 0.6436,
	"step": 10620
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.889594916600476e-05,
	"loss": 0.6446,
	"step": 10640
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.841938046068308e-05,
	"loss": 0.6488,
	"step": 10660
	},
	{
	"epoch": 2.52,
	"learning_rate": 4.79428117553614e-05,
	"loss": 0.6485,
	"step": 10680
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.7466243050039705e-05,
	"loss": 0.6524,
	"step": 10700
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.6989674344718026e-05,
	"loss": 0.6376,
	"step": 10720
	},
	{
	"epoch": 2.54,
	"learning_rate": 4.6513105639396346e-05,
	"loss": 0.649,
	"step": 10740
	},
	{
	"epoch": 2.54,
	"learning_rate": 4.603653693407465e-05,
	"loss": 0.6444,
	"step": 10760
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.5559968228752974e-05,
	"loss": 0.6407,
	"step": 10780
	},
	{
	"epoch": 2.55,
	"learning_rate": 4.5083399523431294e-05,
	"loss": 0.6448,
	"step": 10800
	},
	{
	"epoch": 2.55,
	"eval_loss": 0.6392157077789307,
	"eval_runtime": 49.7963,
	"eval_samples_per_second": 40.164,
	"eval_steps_per_second": 2.51,
	"step": 10800
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.46068308181096e-05,
	"loss": 0.6454,
	"step": 10820
	},
	{
	"epoch": 2.56,
	"learning_rate": 4.413026211278792e-05,
	"loss": 0.6544,
	"step": 10840
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.365369340746624e-05,
	"loss": 0.6478,
	"step": 10860
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.3177124702144556e-05,
	"loss": 0.6434,
	"step": 10880
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.270055599682287e-05,
	"loss": 0.6482,
	"step": 10900
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.222398729150119e-05,
	"loss": 0.6403,
	"step": 10920
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.1747418586179504e-05,
	"loss": 0.6501,
	"step": 10940
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.127084988085782e-05,
	"loss": 0.6507,
	"step": 10960
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.079428117553614e-05,
	"loss": 0.6496,
	"step": 10980
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.031771247021445e-05,
	"loss": 0.6544,
	"step": 11000
	},
	{
	"epoch": 2.6,
	"eval_loss": 0.6390016078948975,
	"eval_runtime": 49.6306,
	"eval_samples_per_second": 40.298,
	"eval_steps_per_second": 2.519,
	"step": 11000
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.984114376489277e-05,
	"loss": 0.6405,
	"step": 11020
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.9364575059571086e-05,
	"loss": 0.6429,
	"step": 11040
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.88880063542494e-05,
	"loss": 0.6403,
	"step": 11060
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.841143764892772e-05,
	"loss": 0.6338,
	"step": 11080
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.7934868943606034e-05,
	"loss": 0.6417,
	"step": 11100
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.7458300238284354e-05,
	"loss": 0.6463,
	"step": 11120
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.698173153296267e-05,
	"loss": 0.6498,
	"step": 11140
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.650516282764098e-05,
	"loss": 0.6415,
	"step": 11160
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.6028594122319296e-05,
	"loss": 0.645,
	"step": 11180
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.5552025416997616e-05,
	"loss": 0.6467,
	"step": 11200
	},
	{
	"epoch": 2.65,
	"eval_loss": 0.6387213468551636,
	"eval_runtime": 49.1775,
	"eval_samples_per_second": 40.669,
	"eval_steps_per_second": 2.542,
	"step": 11200
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.507545671167593e-05,
	"loss": 0.6515,
	"step": 11220
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.4598888006354244e-05,
	"loss": 0.65,
	"step": 11240
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.4122319301032564e-05,
	"loss": 0.6512,
	"step": 11260
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.364575059571088e-05,
	"loss": 0.6443,
	"step": 11280
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.316918189038919e-05,
	"loss": 0.6483,
	"step": 11300
	},
	{
	"epoch": 2.68,
	"learning_rate": 3.269261318506751e-05,
	"loss": 0.6455,
	"step": 11320
	},
	{
	"epoch": 2.68,
	"learning_rate": 3.2216044479745826e-05,
	"loss": 0.6461,
	"step": 11340
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.173947577442414e-05,
	"loss": 0.6505,
	"step": 11360
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.126290706910246e-05,
	"loss": 0.6517,
	"step": 11380
	},
	{
	"epoch": 2.7,
	"learning_rate": 3.0786338363780774e-05,
	"loss": 0.6406,
	"step": 11400
	},
	{
	"epoch": 2.7,
	"eval_loss": 0.6380326151847839,
	"eval_runtime": 49.4129,
	"eval_samples_per_second": 40.475,
	"eval_steps_per_second": 2.53,
	"step": 11400
	},
	{
	"epoch": 2.7,
	"learning_rate": 3.030976965845909e-05,
	"loss": 0.647,
	"step": 11420
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.9833200953137408e-05,
	"loss": 0.6495,
	"step": 11440
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.9356632247815725e-05,
	"loss": 0.6448,
	"step": 11460
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.888006354249404e-05,
	"loss": 0.6447,
	"step": 11480
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.840349483717236e-05,
	"loss": 0.6527,
	"step": 11500
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.7926926131850673e-05,
	"loss": 0.6406,
	"step": 11520
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.7450357426528987e-05,
	"loss": 0.6443,
	"step": 11540
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.6973788721207307e-05,
	"loss": 0.6351,
	"step": 11560
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.649722001588562e-05,
	"loss": 0.6417,
	"step": 11580
	},
	{
	"epoch": 2.74,
	"learning_rate": 2.6020651310563938e-05,
	"loss": 0.6356,
	"step": 11600
	},
	{
	"epoch": 2.74,
	"eval_loss": 0.6381237506866455,
	"eval_runtime": 49.5534,
	"eval_samples_per_second": 40.36,
	"eval_steps_per_second": 2.523,
	"step": 11600
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.5544082605242255e-05,
	"loss": 0.6412,
	"step": 11620
	},
	{
	"epoch": 2.75,
	"learning_rate": 2.506751389992057e-05,
	"loss": 0.6418,
	"step": 11640
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.4590945194598886e-05,
	"loss": 0.6426,
	"step": 11660
	},
	{
	"epoch": 2.76,
	"learning_rate": 2.4114376489277203e-05,
	"loss": 0.6461,
	"step": 11680
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.363780778395552e-05,
	"loss": 0.6475,
	"step": 11700
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.3161239078633834e-05,
	"loss": 0.6431,
	"step": 11720
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.2684670373312148e-05,
	"loss": 0.6416,
	"step": 11740
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.2208101667990468e-05,
	"loss": 0.6495,
	"step": 11760
	},
	{
	"epoch": 2.78,
	"learning_rate": 2.1731532962668782e-05,
	"loss": 0.6404,
	"step": 11780
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.1254964257347096e-05,
	"loss": 0.6434,
	"step": 11800
	},
	{
	"epoch": 2.79,
	"eval_loss": 0.6377163529396057,
	"eval_runtime": 49.328,
	"eval_samples_per_second": 40.545,
	"eval_steps_per_second": 2.534,
	"step": 11800
	},
	{
	"epoch": 2.79,
	"learning_rate": 2.0778395552025416e-05,
	"loss": 0.6437,
	"step": 11820
	},
	{
	"epoch": 2.8,
	"learning_rate": 2.030182684670373e-05,
	"loss": 0.6393,
	"step": 11840
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.9825258141382047e-05,
	"loss": 0.6412,
	"step": 11860
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.9348689436060364e-05,
	"loss": 0.6494,
	"step": 11880
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.887212073073868e-05,
	"loss": 0.6481,
	"step": 11900
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.8395552025416998e-05,
	"loss": 0.6407,
	"step": 11920
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.7918983320095312e-05,
	"loss": 0.6422,
	"step": 11940
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.744241461477363e-05,
	"loss": 0.6487,
	"step": 11960
	},
	{
	"epoch": 2.83,
	"learning_rate": 1.6965845909451946e-05,
	"loss": 0.6478,
	"step": 11980
	},
	{
	"epoch": 2.84,
	"learning_rate": 1.648927720413026e-05,
	"loss": 0.6451,
	"step": 12000
	},
	{
	"epoch": 2.84,
	"eval_loss": 0.6374698281288147,
	"eval_runtime": 49.9107,
	"eval_samples_per_second": 40.072,
	"eval_steps_per_second": 2.504,
	"step": 12000
	},
	{
	"epoch": 2.84,
	"learning_rate": 1.6012708498808577e-05,
	"loss": 0.6454,
	"step": 12020
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.5536139793486894e-05,
	"loss": 0.6399,
	"step": 12040
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.5059571088165208e-05,
	"loss": 0.6479,
	"step": 12060
	},
	{
	"epoch": 2.86,
	"learning_rate": 1.4583002382843525e-05,
	"loss": 0.6412,
	"step": 12080
	},
	{
	"epoch": 2.86,
	"learning_rate": 1.4106433677521842e-05,
	"loss": 0.65,
	"step": 12100
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.3629864972200157e-05,
	"loss": 0.6461,
	"step": 12120
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.3153296266878475e-05,
	"loss": 0.6434,
	"step": 12140
	},
	{
	"epoch": 2.87,
	"learning_rate": 1.2676727561556788e-05,
	"loss": 0.6463,
	"step": 12160
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.2200158856235105e-05,
	"loss": 0.6399,
	"step": 12180
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.1723590150913422e-05,
	"loss": 0.6446,
	"step": 12200
	},
	{
	"epoch": 2.88,
	"eval_loss": 0.6372544765472412,
	"eval_runtime": 49.6265,
	"eval_samples_per_second": 40.301,
	"eval_steps_per_second": 2.519,
	"step": 12200
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.1247021445591738e-05,
	"loss": 0.6411,
	"step": 12220
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.0770452740270055e-05,
	"loss": 0.6523,
	"step": 12240
	},
	{
	"epoch": 2.9,
	"learning_rate": 1.0293884034948372e-05,
	"loss": 0.6456,
	"step": 12260
	},
	{
	"epoch": 2.9,
	"learning_rate": 9.817315329626686e-06,
	"loss": 0.6394,
	"step": 12280
	},
	{
	"epoch": 2.91,
	"learning_rate": 9.340746624305003e-06,
	"loss": 0.6466,
	"step": 12300
	},
	{
	"epoch": 2.91,
	"learning_rate": 8.864177918983318e-06,
	"loss": 0.6415,
	"step": 12320
	},
	{
	"epoch": 2.92,
	"learning_rate": 8.387609213661635e-06,
	"loss": 0.6349,
	"step": 12340
	},
	{
	"epoch": 2.92,
	"learning_rate": 7.911040508339953e-06,
	"loss": 0.6415,
	"step": 12360
	},
	{
	"epoch": 2.93,
	"learning_rate": 7.434471803018268e-06,
	"loss": 0.6484,
	"step": 12380
	},
	{
	"epoch": 2.93,
	"learning_rate": 6.957903097696583e-06,
	"loss": 0.6522,
	"step": 12400
	},
	{
	"epoch": 2.93,
	"eval_loss": 0.6368712186813354,
	"eval_runtime": 49.0693,
	"eval_samples_per_second": 40.759,
	"eval_steps_per_second": 2.547,
	"step": 12400
	},
	{
	"epoch": 2.94,
	"learning_rate": 6.4813343923749005e-06,
	"loss": 0.643,
	"step": 12420
	},
	{
	"epoch": 2.94,
	"learning_rate": 6.004765687053216e-06,
	"loss": 0.6515,
	"step": 12440
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.528196981731532e-06,
	"loss": 0.6512,
	"step": 12460
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.051628276409849e-06,
	"loss": 0.6483,
	"step": 12480
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.575059571088165e-06,
	"loss": 0.6342,
	"step": 12500
	},
	{
	"epoch": 2.96,
	"learning_rate": 4.098490865766481e-06,
	"loss": 0.6445,
	"step": 12520
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.6219221604447972e-06,
	"loss": 0.6419,
	"step": 12540
	},
	{
	"epoch": 2.97,
	"learning_rate": 3.145353455123113e-06,
	"loss": 0.642,
	"step": 12560
	},
	{
	"epoch": 2.97,
	"learning_rate": 2.6687847498014293e-06,
	"loss": 0.6541,
	"step": 12580
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.1922160444797456e-06,
	"loss": 0.6334,
	"step": 12600
	},
	{
	"epoch": 2.98,
	"eval_loss": 0.636846125125885,
	"eval_runtime": 49.1332,
	"eval_samples_per_second": 40.706,
	"eval_steps_per_second": 2.544,
	"step": 12600
	}
	],
	"max_steps": 12690,
	"num_train_epochs": 3,
	"total_flos": 1.6375945250008465e+19,
	"trial_name": null,
	"trial_params": null
	}