model upload

Browse files

Files changed (7) hide show

adapter_config.json +30 -0
adapter_model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2331 -0
training_args.bin +3 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+    "alpha_pattern": {},
+    "auto_mapping": null,
+    "base_model_name_or_path": "smallcloudai/Refact-1_6B-fim",
+    "bias": "none",
+    "fan_in_fan_out": false,
+    "inference_mode": true,
+    "init_lora_weights": true,
+    "layer_replication": null,
+    "layers_pattern": null,
+    "layers_to_transform": null,
+    "loftq_config": {},
+    "lora_alpha": 32,
+    "lora_dropout": 0.05,
+    "megatron_config": null,
+    "megatron_core": "megatron.core",
+    "modules_to_save": null,
+    "peft_type": "LORA",
+    "r": 32,
+    "rank_pattern": {},
+    "revision": null,
+    "target_modules": [
+    "c_proj",
+    "kv",
+    "q"
+    ],
+    "task_type": "CAUSAL_LM",
+    "use_dora": false,
+    "use_rslora": false
+    }

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8dc58a6fdb0389a89a691cf75cbe89e406a072aae75e70cfdf92e12ae55cfa8e
+size 73957352

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0a31a840b8847a34b0de7b60bad4cb3b7432fe3e78f07affae81c8ac2ee73eb
+size 37333140

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b521e669ef0b1becee8e145b3b5bdf7d00ccc00d93b2b0dbada2d0a5de7b7926
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8fe56f4b0663f44ad5274e201067af6a5dd3e0c6e7f749fd09f6956c926c3592
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2331 @@

+{
+    "best_metric": null,
+    "best_model_checkpoint": null,
+    "epoch": 9.95475113122172,
+    "eval_steps": 25,
+    "global_step": 3850,
+    "is_hyper_param_search": false,
+    "is_local_process_zero": true,
+    "is_world_process_zero": true,
+    "log_history": [
+    {
+    "epoch": 0.06464124111182935,
+    "grad_norm": 0.6707131266593933,
+    "learning_rate": 0.0001987561544441565,
+    "loss": 1.2216,
+    "step": 25
+    },
+    {
+    "epoch": 0.06464124111182935,
+    "eval_loss": 0.6498388051986694,
+    "eval_runtime": 13.8809,
+    "eval_samples_per_second": 13.976,
+    "eval_steps_per_second": 1.801,
+    "step": 25
+    },
+    {
+    "epoch": 0.1292824822236587,
+    "grad_norm": 1.3595010042190552,
+    "learning_rate": 0.0001974604819901529,
+    "loss": 0.547,
+    "step": 50
+    },
+    {
+    "epoch": 0.1292824822236587,
+    "eval_loss": 0.6438911557197571,
+    "eval_runtime": 13.8752,
+    "eval_samples_per_second": 13.982,
+    "eval_steps_per_second": 1.802,
+    "step": 50
+    },
+    {
+    "epoch": 0.19392372333548805,
+    "grad_norm": 0.6108447909355164,
+    "learning_rate": 0.00019616480953614927,
+    "loss": 0.6683,
+    "step": 75
+    },
+    {
+    "epoch": 0.19392372333548805,
+    "eval_loss": 0.5715335011482239,
+    "eval_runtime": 13.8894,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 75
+    },
+    {
+    "epoch": 0.2585649644473174,
+    "grad_norm": 0.5456333160400391,
+    "learning_rate": 0.00019486913708214565,
+    "loss": 0.4938,
+    "step": 100
+    },
+    {
+    "epoch": 0.2585649644473174,
+    "eval_loss": 0.5783222913742065,
+    "eval_runtime": 13.8829,
+    "eval_samples_per_second": 13.974,
+    "eval_steps_per_second": 1.801,
+    "step": 100
+    },
+    {
+    "epoch": 0.32320620555914675,
+    "grad_norm": 0.49040475487709045,
+    "learning_rate": 0.000193573464628142,
+    "loss": 0.6211,
+    "step": 125
+    },
+    {
+    "epoch": 0.32320620555914675,
+    "eval_loss": 0.5169771909713745,
+    "eval_runtime": 13.8894,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 125
+    },
+    {
+    "epoch": 0.3878474466709761,
+    "grad_norm": 0.5957172513008118,
+    "learning_rate": 0.00019227779217413838,
+    "loss": 0.4272,
+    "step": 150
+    },
+    {
+    "epoch": 0.3878474466709761,
+    "eval_loss": 0.5196932554244995,
+    "eval_runtime": 13.8809,
+    "eval_samples_per_second": 13.976,
+    "eval_steps_per_second": 1.801,
+    "step": 150
+    },
+    {
+    "epoch": 0.45248868778280543,
+    "grad_norm": 0.5516940951347351,
+    "learning_rate": 0.00019098211972013476,
+    "loss": 0.5702,
+    "step": 175
+    },
+    {
+    "epoch": 0.45248868778280543,
+    "eval_loss": 0.47964370250701904,
+    "eval_runtime": 13.8882,
+    "eval_samples_per_second": 13.969,
+    "eval_steps_per_second": 1.8,
+    "step": 175
+    },
+    {
+    "epoch": 0.5171299288946348,
+    "grad_norm": 0.6955189108848572,
+    "learning_rate": 0.00018968644726613114,
+    "loss": 0.3935,
+    "step": 200
+    },
+    {
+    "epoch": 0.5171299288946348,
+    "eval_loss": 0.4756932258605957,
+    "eval_runtime": 13.8869,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 200
+    },
+    {
+    "epoch": 0.5817711700064642,
+    "grad_norm": 0.6203818321228027,
+    "learning_rate": 0.0001883907748121275,
+    "loss": 0.5132,
+    "step": 225
+    },
+    {
+    "epoch": 0.5817711700064642,
+    "eval_loss": 0.45499277114868164,
+    "eval_runtime": 13.8818,
+    "eval_samples_per_second": 13.975,
+    "eval_steps_per_second": 1.801,
+    "step": 225
+    },
+    {
+    "epoch": 0.6464124111182935,
+    "grad_norm": 0.5430071353912354,
+    "learning_rate": 0.00018709510235812387,
+    "loss": 0.3806,
+    "step": 250
+    },
+    {
+    "epoch": 0.6464124111182935,
+    "eval_loss": 0.4564308226108551,
+    "eval_runtime": 13.8864,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 250
+    },
+    {
+    "epoch": 0.7110536522301228,
+    "grad_norm": 0.47872328758239746,
+    "learning_rate": 0.00018579942990412025,
+    "loss": 0.5195,
+    "step": 275
+    },
+    {
+    "epoch": 0.7110536522301228,
+    "eval_loss": 0.42872217297554016,
+    "eval_runtime": 13.8797,
+    "eval_samples_per_second": 13.977,
+    "eval_steps_per_second": 1.801,
+    "step": 275
+    },
+    {
+    "epoch": 0.7756948933419522,
+    "grad_norm": 0.43633943796157837,
+    "learning_rate": 0.0001845037574501166,
+    "loss": 0.337,
+    "step": 300
+    },
+    {
+    "epoch": 0.7756948933419522,
+    "eval_loss": 0.44021356105804443,
+    "eval_runtime": 13.8816,
+    "eval_samples_per_second": 13.975,
+    "eval_steps_per_second": 1.801,
+    "step": 300
+    },
+    {
+    "epoch": 0.8403361344537815,
+    "grad_norm": 0.4739358127117157,
+    "learning_rate": 0.00018320808499611298,
+    "loss": 0.4566,
+    "step": 325
+    },
+    {
+    "epoch": 0.8403361344537815,
+    "eval_loss": 0.41129282116889954,
+    "eval_runtime": 13.8846,
+    "eval_samples_per_second": 13.972,
+    "eval_steps_per_second": 1.801,
+    "step": 325
+    },
+    {
+    "epoch": 0.9049773755656109,
+    "grad_norm": 0.5350446105003357,
+    "learning_rate": 0.00018191241254210936,
+    "loss": 0.3097,
+    "step": 350
+    },
+    {
+    "epoch": 0.9049773755656109,
+    "eval_loss": 0.4308871626853943,
+    "eval_runtime": 13.884,
+    "eval_samples_per_second": 13.973,
+    "eval_steps_per_second": 1.801,
+    "step": 350
+    },
+    {
+    "epoch": 0.9696186166774402,
+    "grad_norm": 0.5064755082130432,
+    "learning_rate": 0.00018061674008810574,
+    "loss": 0.4391,
+    "step": 375
+    },
+    {
+    "epoch": 0.9696186166774402,
+    "eval_loss": 0.3927255868911743,
+    "eval_runtime": 13.8854,
+    "eval_samples_per_second": 13.972,
+    "eval_steps_per_second": 1.8,
+    "step": 375
+    },
+    {
+    "epoch": 1.0342598577892697,
+    "grad_norm": 0.594939649105072,
+    "learning_rate": 0.0001793210676341021,
+    "loss": 0.413,
+    "step": 400
+    },
+    {
+    "epoch": 1.0342598577892697,
+    "eval_loss": 0.38139256834983826,
+    "eval_runtime": 13.8858,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 400
+    },
+    {
+    "epoch": 1.098901098901099,
+    "grad_norm": 0.5481505393981934,
+    "learning_rate": 0.00017802539518009847,
+    "loss": 0.2737,
+    "step": 425
+    },
+    {
+    "epoch": 1.098901098901099,
+    "eval_loss": 0.395649790763855,
+    "eval_runtime": 13.8927,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 425
+    },
+    {
+    "epoch": 1.1635423400129283,
+    "grad_norm": 0.5053268074989319,
+    "learning_rate": 0.00017672972272609485,
+    "loss": 0.3219,
+    "step": 450
+    },
+    {
+    "epoch": 1.1635423400129283,
+    "eval_loss": 0.37703385949134827,
+    "eval_runtime": 13.8769,
+    "eval_samples_per_second": 13.98,
+    "eval_steps_per_second": 1.802,
+    "step": 450
+    },
+    {
+    "epoch": 1.2281835811247577,
+    "grad_norm": 0.5772731304168701,
+    "learning_rate": 0.00017543405027209123,
+    "loss": 0.2942,
+    "step": 475
+    },
+    {
+    "epoch": 1.2281835811247577,
+    "eval_loss": 0.37387123703956604,
+    "eval_runtime": 13.8976,
+    "eval_samples_per_second": 13.959,
+    "eval_steps_per_second": 1.799,
+    "step": 475
+    },
+    {
+    "epoch": 1.292824822236587,
+    "grad_norm": 0.5018692016601562,
+    "learning_rate": 0.00017413837781808759,
+    "loss": 0.3059,
+    "step": 500
+    },
+    {
+    "epoch": 1.292824822236587,
+    "eval_loss": 0.3657205402851105,
+    "eval_runtime": 13.8767,
+    "eval_samples_per_second": 13.98,
+    "eval_steps_per_second": 1.802,
+    "step": 500
+    },
+    {
+    "epoch": 1.3574660633484164,
+    "grad_norm": 0.5072377324104309,
+    "learning_rate": 0.000172842705364084,
+    "loss": 0.3096,
+    "step": 525
+    },
+    {
+    "epoch": 1.3574660633484164,
+    "eval_loss": 0.3578204810619354,
+    "eval_runtime": 13.8863,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 525
+    },
+    {
+    "epoch": 1.4221073044602457,
+    "grad_norm": 0.849237322807312,
+    "learning_rate": 0.00017154703291008034,
+    "loss": 0.3177,
+    "step": 550
+    },
+    {
+    "epoch": 1.4221073044602457,
+    "eval_loss": 0.3545144498348236,
+    "eval_runtime": 13.8893,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 550
+    },
+    {
+    "epoch": 1.486748545572075,
+    "grad_norm": 0.5274140238761902,
+    "learning_rate": 0.0001702513604560767,
+    "loss": 0.2612,
+    "step": 575
+    },
+    {
+    "epoch": 1.486748545572075,
+    "eval_loss": 0.35140955448150635,
+    "eval_runtime": 13.8855,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 575
+    },
+    {
+    "epoch": 1.5513897866839044,
+    "grad_norm": 0.5522105097770691,
+    "learning_rate": 0.00016895568800207308,
+    "loss": 0.3167,
+    "step": 600
+    },
+    {
+    "epoch": 1.5513897866839044,
+    "eval_loss": 0.3356325924396515,
+    "eval_runtime": 13.8908,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 600
+    },
+    {
+    "epoch": 1.6160310277957337,
+    "grad_norm": 0.553512454032898,
+    "learning_rate": 0.00016766001554806945,
+    "loss": 0.2564,
+    "step": 625
+    },
+    {
+    "epoch": 1.6160310277957337,
+    "eval_loss": 0.34089842438697815,
+    "eval_runtime": 13.8734,
+    "eval_samples_per_second": 13.984,
+    "eval_steps_per_second": 1.802,
+    "step": 625
+    },
+    {
+    "epoch": 1.680672268907563,
+    "grad_norm": 0.624850869178772,
+    "learning_rate": 0.00016636434309406583,
+    "loss": 0.2806,
+    "step": 650
+    },
+    {
+    "epoch": 1.680672268907563,
+    "eval_loss": 0.33262547850608826,
+    "eval_runtime": 13.8806,
+    "eval_samples_per_second": 13.976,
+    "eval_steps_per_second": 1.801,
+    "step": 650
+    },
+    {
+    "epoch": 1.7453135100193924,
+    "grad_norm": 0.5675662159919739,
+    "learning_rate": 0.0001650686706400622,
+    "loss": 0.2681,
+    "step": 675
+    },
+    {
+    "epoch": 1.7453135100193924,
+    "eval_loss": 0.33418890833854675,
+    "eval_runtime": 13.8914,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 675
+    },
+    {
+    "epoch": 1.8099547511312217,
+    "grad_norm": 0.4701014757156372,
+    "learning_rate": 0.00016377299818605857,
+    "loss": 0.2764,
+    "step": 700
+    },
+    {
+    "epoch": 1.8099547511312217,
+    "eval_loss": 0.3225066661834717,
+    "eval_runtime": 13.891,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 700
+    },
+    {
+    "epoch": 1.874595992243051,
+    "grad_norm": 0.5774489641189575,
+    "learning_rate": 0.00016247732573205495,
+    "loss": 0.2597,
+    "step": 725
+    },
+    {
+    "epoch": 1.874595992243051,
+    "eval_loss": 0.31712260842323303,
+    "eval_runtime": 13.8906,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 725
+    },
+    {
+    "epoch": 1.9392372333548804,
+    "grad_norm": 0.5142238736152649,
+    "learning_rate": 0.00016118165327805132,
+    "loss": 0.2555,
+    "step": 750
+    },
+    {
+    "epoch": 1.9392372333548804,
+    "eval_loss": 0.3142366409301758,
+    "eval_runtime": 13.8911,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 750
+    },
+    {
+    "epoch": 2.0038784744667097,
+    "grad_norm": 0.49566784501075745,
+    "learning_rate": 0.00015988598082404768,
+    "loss": 0.235,
+    "step": 775
+    },
+    {
+    "epoch": 2.0038784744667097,
+    "eval_loss": 0.3169262409210205,
+    "eval_runtime": 13.8798,
+    "eval_samples_per_second": 13.977,
+    "eval_steps_per_second": 1.801,
+    "step": 775
+    },
+    {
+    "epoch": 2.0685197155785393,
+    "grad_norm": 0.5878920555114746,
+    "learning_rate": 0.00015859030837004406,
+    "loss": 0.1971,
+    "step": 800
+    },
+    {
+    "epoch": 2.0685197155785393,
+    "eval_loss": 0.32635125517845154,
+    "eval_runtime": 13.8909,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 800
+    },
+    {
+    "epoch": 2.1331609566903684,
+    "grad_norm": 0.624754786491394,
+    "learning_rate": 0.00015729463591604044,
+    "loss": 0.1677,
+    "step": 825
+    },
+    {
+    "epoch": 2.1331609566903684,
+    "eval_loss": 0.3346332609653473,
+    "eval_runtime": 13.8969,
+    "eval_samples_per_second": 13.96,
+    "eval_steps_per_second": 1.799,
+    "step": 825
+    },
+    {
+    "epoch": 2.197802197802198,
+    "grad_norm": 0.6018180847167969,
+    "learning_rate": 0.0001559989634620368,
+    "loss": 0.2027,
+    "step": 850
+    },
+    {
+    "epoch": 2.197802197802198,
+    "eval_loss": 0.32181909680366516,
+    "eval_runtime": 13.8871,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 850
+    },
+    {
+    "epoch": 2.262443438914027,
+    "grad_norm": 0.9019644856452942,
+    "learning_rate": 0.00015470329100803317,
+    "loss": 0.1793,
+    "step": 875
+    },
+    {
+    "epoch": 2.262443438914027,
+    "eval_loss": 0.32273176312446594,
+    "eval_runtime": 13.8886,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 875
+    },
+    {
+    "epoch": 2.3270846800258567,
+    "grad_norm": 0.7112553715705872,
+    "learning_rate": 0.00015340761855402955,
+    "loss": 0.1971,
+    "step": 900
+    },
+    {
+    "epoch": 2.3270846800258567,
+    "eval_loss": 0.328635036945343,
+    "eval_runtime": 13.8925,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 900
+    },
+    {
+    "epoch": 2.391725921137686,
+    "grad_norm": 0.9075572490692139,
+    "learning_rate": 0.00015211194610002593,
+    "loss": 0.199,
+    "step": 925
+    },
+    {
+    "epoch": 2.391725921137686,
+    "eval_loss": 0.31903964281082153,
+    "eval_runtime": 13.8926,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 925
+    },
+    {
+    "epoch": 2.4563671622495153,
+    "grad_norm": 0.3509347140789032,
+    "learning_rate": 0.00015081627364602228,
+    "loss": 0.2201,
+    "step": 950
+    },
+    {
+    "epoch": 2.4563671622495153,
+    "eval_loss": 0.31318098306655884,
+    "eval_runtime": 13.8863,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 950
+    },
+    {
+    "epoch": 2.5210084033613445,
+    "grad_norm": 0.6588907837867737,
+    "learning_rate": 0.00014952060119201869,
+    "loss": 0.1717,
+    "step": 975
+    },
+    {
+    "epoch": 2.5210084033613445,
+    "eval_loss": 0.3208658695220947,
+    "eval_runtime": 13.8946,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 975
+    },
+    {
+    "epoch": 2.585649644473174,
+    "grad_norm": 0.30743467807769775,
+    "learning_rate": 0.00014822492873801504,
+    "loss": 0.2173,
+    "step": 1000
+    },
+    {
+    "epoch": 2.585649644473174,
+    "eval_loss": 0.3078968822956085,
+    "eval_runtime": 13.881,
+    "eval_samples_per_second": 13.976,
+    "eval_steps_per_second": 1.801,
+    "step": 1000
+    },
+    {
+    "epoch": 2.650290885585003,
+    "grad_norm": 0.9775978922843933,
+    "learning_rate": 0.00014692925628401142,
+    "loss": 0.1641,
+    "step": 1025
+    },
+    {
+    "epoch": 2.650290885585003,
+    "eval_loss": 0.3325625956058502,
+    "eval_runtime": 13.8923,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 1025
+    },
+    {
+    "epoch": 2.7149321266968327,
+    "grad_norm": 0.410194456577301,
+    "learning_rate": 0.00014563358383000777,
+    "loss": 0.2048,
+    "step": 1050
+    },
+    {
+    "epoch": 2.7149321266968327,
+    "eval_loss": 0.3071564733982086,
+    "eval_runtime": 13.8821,
+    "eval_samples_per_second": 13.975,
+    "eval_steps_per_second": 1.801,
+    "step": 1050
+    },
+    {
+    "epoch": 2.779573367808662,
+    "grad_norm": 0.7554541826248169,
+    "learning_rate": 0.00014433791137600415,
+    "loss": 0.1721,
+    "step": 1075
+    },
+    {
+    "epoch": 2.779573367808662,
+    "eval_loss": 0.31251639127731323,
+    "eval_runtime": 13.8879,
+    "eval_samples_per_second": 13.969,
+    "eval_steps_per_second": 1.8,
+    "step": 1075
+    },
+    {
+    "epoch": 2.8442146089204914,
+    "grad_norm": 0.6487146019935608,
+    "learning_rate": 0.00014304223892200053,
+    "loss": 0.2094,
+    "step": 1100
+    },
+    {
+    "epoch": 2.8442146089204914,
+    "eval_loss": 0.30554458498954773,
+    "eval_runtime": 13.9003,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 1100
+    },
+    {
+    "epoch": 2.9088558500323205,
+    "grad_norm": 1.1581164598464966,
+    "learning_rate": 0.00014174656646799688,
+    "loss": 0.1646,
+    "step": 1125
+    },
+    {
+    "epoch": 2.9088558500323205,
+    "eval_loss": 0.3173879086971283,
+    "eval_runtime": 13.8916,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 1125
+    },
+    {
+    "epoch": 2.97349709114415,
+    "grad_norm": 0.627264142036438,
+    "learning_rate": 0.00014045089401399326,
+    "loss": 0.1842,
+    "step": 1150
+    },
+    {
+    "epoch": 2.97349709114415,
+    "eval_loss": 0.304733008146286,
+    "eval_runtime": 13.8953,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 1150
+    },
+    {
+    "epoch": 3.038138332255979,
+    "grad_norm": 0.5179964900016785,
+    "learning_rate": 0.00013915522155998964,
+    "loss": 0.1582,
+    "step": 1175
+    },
+    {
+    "epoch": 3.038138332255979,
+    "eval_loss": 0.3209947943687439,
+    "eval_runtime": 13.8893,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 1175
+    },
+    {
+    "epoch": 3.1027795733678087,
+    "grad_norm": 0.4774376153945923,
+    "learning_rate": 0.00013785954910598602,
+    "loss": 0.1306,
+    "step": 1200
+    },
+    {
+    "epoch": 3.1027795733678087,
+    "eval_loss": 0.3194412589073181,
+    "eval_runtime": 13.8863,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 1200
+    },
+    {
+    "epoch": 3.167420814479638,
+    "grad_norm": 0.5093793869018555,
+    "learning_rate": 0.00013656387665198237,
+    "loss": 0.1294,
+    "step": 1225
+    },
+    {
+    "epoch": 3.167420814479638,
+    "eval_loss": 0.3293355107307434,
+    "eval_runtime": 13.8881,
+    "eval_samples_per_second": 13.969,
+    "eval_steps_per_second": 1.8,
+    "step": 1225
+    },
+    {
+    "epoch": 3.2320620555914674,
+    "grad_norm": 0.2597694993019104,
+    "learning_rate": 0.00013526820419797878,
+    "loss": 0.1283,
+    "step": 1250
+    },
+    {
+    "epoch": 3.2320620555914674,
+    "eval_loss": 0.3166593313217163,
+    "eval_runtime": 13.8971,
+    "eval_samples_per_second": 13.96,
+    "eval_steps_per_second": 1.799,
+    "step": 1250
+    },
+    {
+    "epoch": 3.2967032967032965,
+    "grad_norm": 0.23225939273834229,
+    "learning_rate": 0.00013397253174397513,
+    "loss": 0.1464,
+    "step": 1275
+    },
+    {
+    "epoch": 3.2967032967032965,
+    "eval_loss": 0.3203945457935333,
+    "eval_runtime": 13.89,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 1275
+    },
+    {
+    "epoch": 3.361344537815126,
+    "grad_norm": 0.332242488861084,
+    "learning_rate": 0.0001326768592899715,
+    "loss": 0.1398,
+    "step": 1300
+    },
+    {
+    "epoch": 3.361344537815126,
+    "eval_loss": 0.31326356530189514,
+    "eval_runtime": 13.8775,
+    "eval_samples_per_second": 13.979,
+    "eval_steps_per_second": 1.801,
+    "step": 1300
+    },
+    {
+    "epoch": 3.425985778926955,
+    "grad_norm": 0.5355468988418579,
+    "learning_rate": 0.00013138118683596786,
+    "loss": 0.142,
+    "step": 1325
+    },
+    {
+    "epoch": 3.425985778926955,
+    "eval_loss": 0.3070937395095825,
+    "eval_runtime": 13.8888,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 1325
+    },
+    {
+    "epoch": 3.490627020038785,
+    "grad_norm": 0.6375517249107361,
+    "learning_rate": 0.00013008551438196424,
+    "loss": 0.1396,
+    "step": 1350
+    },
+    {
+    "epoch": 3.490627020038785,
+    "eval_loss": 0.3138720393180847,
+    "eval_runtime": 13.8924,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 1350
+    },
+    {
+    "epoch": 3.555268261150614,
+    "grad_norm": 0.3490104377269745,
+    "learning_rate": 0.00012878984192796062,
+    "loss": 0.1476,
+    "step": 1375
+    },
+    {
+    "epoch": 3.555268261150614,
+    "eval_loss": 0.30152711272239685,
+    "eval_runtime": 13.894,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 1375
+    },
+    {
+    "epoch": 3.6199095022624435,
+    "grad_norm": 0.3556181490421295,
+    "learning_rate": 0.00012749416947395697,
+    "loss": 0.1396,
+    "step": 1400
+    },
+    {
+    "epoch": 3.6199095022624435,
+    "eval_loss": 0.31680139899253845,
+    "eval_runtime": 13.8887,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 1400
+    },
+    {
+    "epoch": 3.684550743374273,
+    "grad_norm": 0.2230699509382248,
+    "learning_rate": 0.00012619849701995338,
+    "loss": 0.1363,
+    "step": 1425
+    },
+    {
+    "epoch": 3.684550743374273,
+    "eval_loss": 0.3081817328929901,
+    "eval_runtime": 13.8817,
+    "eval_samples_per_second": 13.975,
+    "eval_steps_per_second": 1.801,
+    "step": 1425
+    },
+    {
+    "epoch": 3.749191984486102,
+    "grad_norm": 0.3208047151565552,
+    "learning_rate": 0.00012490282456594973,
+    "loss": 0.144,
+    "step": 1450
+    },
+    {
+    "epoch": 3.749191984486102,
+    "eval_loss": 0.31721794605255127,
+    "eval_runtime": 13.8879,
+    "eval_samples_per_second": 13.969,
+    "eval_steps_per_second": 1.8,
+    "step": 1450
+    },
+    {
+    "epoch": 3.8138332255979313,
+    "grad_norm": 0.32816827297210693,
+    "learning_rate": 0.0001236071521119461,
+    "loss": 0.1645,
+    "step": 1475
+    },
+    {
+    "epoch": 3.8138332255979313,
+    "eval_loss": 0.29447051882743835,
+    "eval_runtime": 13.8874,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 1475
+    },
+    {
+    "epoch": 3.878474466709761,
+    "grad_norm": 0.4234698712825775,
+    "learning_rate": 0.00012231147965794246,
+    "loss": 0.1345,
+    "step": 1500
+    },
+    {
+    "epoch": 3.878474466709761,
+    "eval_loss": 0.32389405369758606,
+    "eval_runtime": 13.8841,
+    "eval_samples_per_second": 13.973,
+    "eval_steps_per_second": 1.801,
+    "step": 1500
+    },
+    {
+    "epoch": 3.9431157078215904,
+    "grad_norm": 0.5032609105110168,
+    "learning_rate": 0.00012101580720393886,
+    "loss": 0.1436,
+    "step": 1525
+    },
+    {
+    "epoch": 3.9431157078215904,
+    "eval_loss": 0.3067689538002014,
+    "eval_runtime": 13.8918,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 1525
+    },
+    {
+    "epoch": 4.0077569489334195,
+    "grad_norm": 0.4656796455383301,
+    "learning_rate": 0.00011972013474993522,
+    "loss": 0.1322,
+    "step": 1550
+    },
+    {
+    "epoch": 4.0077569489334195,
+    "eval_loss": 0.3148553967475891,
+    "eval_runtime": 13.8941,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 1550
+    },
+    {
+    "epoch": 4.072398190045249,
+    "grad_norm": 0.312979519367218,
+    "learning_rate": 0.0001184244622959316,
+    "loss": 0.1147,
+    "step": 1575
+    },
+    {
+    "epoch": 4.072398190045249,
+    "eval_loss": 0.3317333161830902,
+    "eval_runtime": 13.8904,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 1575
+    },
+    {
+    "epoch": 4.137039431157079,
+    "grad_norm": 0.7652421593666077,
+    "learning_rate": 0.00011712878984192797,
+    "loss": 0.1092,
+    "step": 1600
+    },
+    {
+    "epoch": 4.137039431157079,
+    "eval_loss": 0.32812875509262085,
+    "eval_runtime": 13.8839,
+    "eval_samples_per_second": 13.973,
+    "eval_steps_per_second": 1.801,
+    "step": 1600
+    },
+    {
+    "epoch": 4.201680672268908,
+    "grad_norm": 0.4065840244293213,
+    "learning_rate": 0.00011583311738792433,
+    "loss": 0.1088,
+    "step": 1625
+    },
+    {
+    "epoch": 4.201680672268908,
+    "eval_loss": 0.32381245493888855,
+    "eval_runtime": 13.8912,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 1625
+    },
+    {
+    "epoch": 4.266321913380737,
+    "grad_norm": 0.7044116854667664,
+    "learning_rate": 0.00011453744493392071,
+    "loss": 0.1145,
+    "step": 1650
+    },
+    {
+    "epoch": 4.266321913380737,
+    "eval_loss": 0.33820751309394836,
+    "eval_runtime": 13.8893,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 1650
+    },
+    {
+    "epoch": 4.330963154492566,
+    "grad_norm": 0.4830712676048279,
+    "learning_rate": 0.00011324177247991708,
+    "loss": 0.1134,
+    "step": 1675
+    },
+    {
+    "epoch": 4.330963154492566,
+    "eval_loss": 0.32449984550476074,
+    "eval_runtime": 13.8869,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 1675
+    },
+    {
+    "epoch": 4.395604395604396,
+    "grad_norm": 0.5964047908782959,
+    "learning_rate": 0.00011194610002591346,
+    "loss": 0.1202,
+    "step": 1700
+    },
+    {
+    "epoch": 4.395604395604396,
+    "eval_loss": 0.34136590361595154,
+    "eval_runtime": 13.8979,
+    "eval_samples_per_second": 13.959,
+    "eval_steps_per_second": 1.799,
+    "step": 1700
+    },
+    {
+    "epoch": 4.460245636716225,
+    "grad_norm": 0.3279203176498413,
+    "learning_rate": 0.00011065042757190982,
+    "loss": 0.1149,
+    "step": 1725
+    },
+    {
+    "epoch": 4.460245636716225,
+    "eval_loss": 0.3160356283187866,
+    "eval_runtime": 13.8933,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.799,
+    "step": 1725
+    },
+    {
+    "epoch": 4.524886877828054,
+    "grad_norm": 0.7072445154190063,
+    "learning_rate": 0.0001093547551179062,
+    "loss": 0.1185,
+    "step": 1750
+    },
+    {
+    "epoch": 4.524886877828054,
+    "eval_loss": 0.339296817779541,
+    "eval_runtime": 13.8937,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 1750
+    },
+    {
+    "epoch": 4.589528118939883,
+    "grad_norm": 0.2717013359069824,
+    "learning_rate": 0.00010805908266390257,
+    "loss": 0.1192,
+    "step": 1775
+    },
+    {
+    "epoch": 4.589528118939883,
+    "eval_loss": 0.325735867023468,
+    "eval_runtime": 13.8932,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.799,
+    "step": 1775
+    },
+    {
+    "epoch": 4.654169360051713,
+    "grad_norm": 0.6134977340698242,
+    "learning_rate": 0.00010676341020989895,
+    "loss": 0.1157,
+    "step": 1800
+    },
+    {
+    "epoch": 4.654169360051713,
+    "eval_loss": 0.33217981457710266,
+    "eval_runtime": 13.888,
+    "eval_samples_per_second": 13.969,
+    "eval_steps_per_second": 1.8,
+    "step": 1800
+    },
+    {
+    "epoch": 4.7188106011635425,
+    "grad_norm": 0.37782660126686096,
+    "learning_rate": 0.00010546773775589531,
+    "loss": 0.1111,
+    "step": 1825
+    },
+    {
+    "epoch": 4.7188106011635425,
+    "eval_loss": 0.324066698551178,
+    "eval_runtime": 13.9001,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 1825
+    },
+    {
+    "epoch": 4.783451842275372,
+    "grad_norm": 0.5282606482505798,
+    "learning_rate": 0.00010417206530189169,
+    "loss": 0.1184,
+    "step": 1850
+    },
+    {
+    "epoch": 4.783451842275372,
+    "eval_loss": 0.3346935510635376,
+    "eval_runtime": 13.8986,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 1850
+    },
+    {
+    "epoch": 4.848093083387201,
+    "grad_norm": 0.29640528559684753,
+    "learning_rate": 0.00010287639284788806,
+    "loss": 0.1097,
+    "step": 1875
+    },
+    {
+    "epoch": 4.848093083387201,
+    "eval_loss": 0.33659717440605164,
+    "eval_runtime": 13.8932,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.799,
+    "step": 1875
+    },
+    {
+    "epoch": 4.912734324499031,
+    "grad_norm": 0.6442544460296631,
+    "learning_rate": 0.00010158072039388442,
+    "loss": 0.123,
+    "step": 1900
+    },
+    {
+    "epoch": 4.912734324499031,
+    "eval_loss": 0.3181850016117096,
+    "eval_runtime": 13.89,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 1900
+    },
+    {
+    "epoch": 4.97737556561086,
+    "grad_norm": 0.3405434489250183,
+    "learning_rate": 0.0001002850479398808,
+    "loss": 0.1198,
+    "step": 1925
+    },
+    {
+    "epoch": 4.97737556561086,
+    "eval_loss": 0.3185713291168213,
+    "eval_runtime": 13.9051,
+    "eval_samples_per_second": 13.952,
+    "eval_steps_per_second": 1.798,
+    "step": 1925
+    },
+    {
+    "epoch": 5.042016806722689,
+    "grad_norm": 0.2473362535238266,
+    "learning_rate": 0.00009898937548587718,
+    "loss": 0.1015,
+    "step": 1950
+    },
+    {
+    "epoch": 5.042016806722689,
+    "eval_loss": 0.33879318833351135,
+    "eval_runtime": 13.882,
+    "eval_samples_per_second": 13.975,
+    "eval_steps_per_second": 1.801,
+    "step": 1950
+    },
+    {
+    "epoch": 5.106658047834518,
+    "grad_norm": 0.6215495467185974,
+    "learning_rate": 0.00009769370303187355,
+    "loss": 0.0995,
+    "step": 1975
+    },
+    {
+    "epoch": 5.106658047834518,
+    "eval_loss": 0.35385414958000183,
+    "eval_runtime": 13.895,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 1975
+    },
+    {
+    "epoch": 5.171299288946348,
+    "grad_norm": 0.2980802357196808,
+    "learning_rate": 0.00009639803057786993,
+    "loss": 0.1036,
+    "step": 2000
+    },
+    {
+    "epoch": 5.171299288946348,
+    "eval_loss": 0.35115987062454224,
+    "eval_runtime": 13.8914,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 2000
+    },
+    {
+    "epoch": 5.235940530058177,
+    "grad_norm": 0.32530656456947327,
+    "learning_rate": 0.00009510235812386628,
+    "loss": 0.1091,
+    "step": 2025
+    },
+    {
+    "epoch": 5.235940530058177,
+    "eval_loss": 0.33915072679519653,
+    "eval_runtime": 13.8895,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 2025
+    },
+    {
+    "epoch": 5.300581771170006,
+    "grad_norm": 0.28688952326774597,
+    "learning_rate": 0.00009380668566986266,
+    "loss": 0.1025,
+    "step": 2050
+    },
+    {
+    "epoch": 5.300581771170006,
+    "eval_loss": 0.33742988109588623,
+    "eval_runtime": 13.8962,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 2050
+    },
+    {
+    "epoch": 5.365223012281835,
+    "grad_norm": 0.7334425449371338,
+    "learning_rate": 0.00009251101321585903,
+    "loss": 0.1012,
+    "step": 2075
+    },
+    {
+    "epoch": 5.365223012281835,
+    "eval_loss": 0.3349464535713196,
+    "eval_runtime": 13.897,
+    "eval_samples_per_second": 13.96,
+    "eval_steps_per_second": 1.799,
+    "step": 2075
+    },
+    {
+    "epoch": 5.429864253393665,
+    "grad_norm": 0.4262210726737976,
+    "learning_rate": 0.0000912153407618554,
+    "loss": 0.1001,
+    "step": 2100
+    },
+    {
+    "epoch": 5.429864253393665,
+    "eval_loss": 0.3597383499145508,
+    "eval_runtime": 13.8902,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 2100
+    },
+    {
+    "epoch": 5.4945054945054945,
+    "grad_norm": 0.32452741265296936,
+    "learning_rate": 0.00008991966830785178,
+    "loss": 0.1034,
+    "step": 2125
+    },
+    {
+    "epoch": 5.4945054945054945,
+    "eval_loss": 0.3415992259979248,
+    "eval_runtime": 13.9049,
+    "eval_samples_per_second": 13.952,
+    "eval_steps_per_second": 1.798,
+    "step": 2125
+    },
+    {
+    "epoch": 5.559146735617324,
+    "grad_norm": 0.3775513768196106,
+    "learning_rate": 0.00008862399585384815,
+    "loss": 0.1016,
+    "step": 2150
+    },
+    {
+    "epoch": 5.559146735617324,
+    "eval_loss": 0.33714666962623596,
+    "eval_runtime": 13.894,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 2150
+    },
+    {
+    "epoch": 5.623787976729153,
+    "grad_norm": 0.2996246814727783,
+    "learning_rate": 0.00008732832339984453,
+    "loss": 0.1073,
+    "step": 2175
+    },
+    {
+    "epoch": 5.623787976729153,
+    "eval_loss": 0.33110281825065613,
+    "eval_runtime": 13.9004,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.799,
+    "step": 2175
+    },
+    {
+    "epoch": 5.688429217840983,
+    "grad_norm": 0.2353794425725937,
+    "learning_rate": 0.0000860326509458409,
+    "loss": 0.1007,
+    "step": 2200
+    },
+    {
+    "epoch": 5.688429217840983,
+    "eval_loss": 0.33147233724594116,
+    "eval_runtime": 13.8983,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 2200
+    },
+    {
+    "epoch": 5.753070458952812,
+    "grad_norm": 0.284140408039093,
+    "learning_rate": 0.00008473697849183728,
+    "loss": 0.1054,
+    "step": 2225
+    },
+    {
+    "epoch": 5.753070458952812,
+    "eval_loss": 0.3283693194389343,
+    "eval_runtime": 13.8987,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 2225
+    },
+    {
+    "epoch": 5.817711700064641,
+    "grad_norm": 0.322956383228302,
+    "learning_rate": 0.00008344130603783364,
+    "loss": 0.1023,
+    "step": 2250
+    },
+    {
+    "epoch": 5.817711700064641,
+    "eval_loss": 0.3444914221763611,
+    "eval_runtime": 13.9073,
+    "eval_samples_per_second": 13.95,
+    "eval_steps_per_second": 1.798,
+    "step": 2250
+    },
+    {
+    "epoch": 5.882352941176471,
+    "grad_norm": 0.34075090289115906,
+    "learning_rate": 0.00008214563358383001,
+    "loss": 0.1049,
+    "step": 2275
+    },
+    {
+    "epoch": 5.882352941176471,
+    "eval_loss": 0.34979012608528137,
+    "eval_runtime": 13.8952,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 2275
+    },
+    {
+    "epoch": 5.9469941822883,
+    "grad_norm": 0.27347272634506226,
+    "learning_rate": 0.00008084996112982637,
+    "loss": 0.0988,
+    "step": 2300
+    },
+    {
+    "epoch": 5.9469941822883,
+    "eval_loss": 0.3358798325061798,
+    "eval_runtime": 13.892,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 2300
+    },
+    {
+    "epoch": 6.011635423400129,
+    "grad_norm": 0.2915317714214325,
+    "learning_rate": 0.00007955428867582275,
+    "loss": 0.0991,
+    "step": 2325
+    },
+    {
+    "epoch": 6.011635423400129,
+    "eval_loss": 0.34607139229774475,
+    "eval_runtime": 13.903,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 2325
+    },
+    {
+    "epoch": 6.076276664511958,
+    "grad_norm": 0.2220218926668167,
+    "learning_rate": 0.00007825861622181913,
+    "loss": 0.0898,
+    "step": 2350
+    },
+    {
+    "epoch": 6.076276664511958,
+    "eval_loss": 0.3418421149253845,
+    "eval_runtime": 13.9007,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.798,
+    "step": 2350
+    },
+    {
+    "epoch": 6.140917905623788,
+    "grad_norm": 0.27043217420578003,
+    "learning_rate": 0.0000769629437678155,
+    "loss": 0.0919,
+    "step": 2375
+    },
+    {
+    "epoch": 6.140917905623788,
+    "eval_loss": 0.35563594102859497,
+    "eval_runtime": 13.8899,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 2375
+    },
+    {
+    "epoch": 6.2055591467356175,
+    "grad_norm": 0.3899531960487366,
+    "learning_rate": 0.00007566727131381188,
+    "loss": 0.0872,
+    "step": 2400
+    },
+    {
+    "epoch": 6.2055591467356175,
+    "eval_loss": 0.35867059230804443,
+    "eval_runtime": 13.8991,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 2400
+    },
+    {
+    "epoch": 6.270200387847447,
+    "grad_norm": 0.48080724477767944,
+    "learning_rate": 0.00007437159885980824,
+    "loss": 0.0973,
+    "step": 2425
+    },
+    {
+    "epoch": 6.270200387847447,
+    "eval_loss": 0.35043036937713623,
+    "eval_runtime": 13.8939,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 2425
+    },
+    {
+    "epoch": 6.334841628959276,
+    "grad_norm": 0.42479485273361206,
+    "learning_rate": 0.00007307592640580462,
+    "loss": 0.0917,
+    "step": 2450
+    },
+    {
+    "epoch": 6.334841628959276,
+    "eval_loss": 0.35338568687438965,
+    "eval_runtime": 13.8934,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.799,
+    "step": 2450
+    },
+    {
+    "epoch": 6.399482870071106,
+    "grad_norm": 0.4198790490627289,
+    "learning_rate": 0.00007178025395180099,
+    "loss": 0.0974,
+    "step": 2475
+    },
+    {
+    "epoch": 6.399482870071106,
+    "eval_loss": 0.3527772128582001,
+    "eval_runtime": 13.8929,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.799,
+    "step": 2475
+    },
+    {
+    "epoch": 6.464124111182935,
+    "grad_norm": 0.3013072907924652,
+    "learning_rate": 0.00007048458149779737,
+    "loss": 0.0924,
+    "step": 2500
+    },
+    {
+    "epoch": 6.464124111182935,
+    "eval_loss": 0.3606307804584503,
+    "eval_runtime": 13.8994,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 2500
+    },
+    {
+    "epoch": 6.528765352294764,
+    "grad_norm": 1.44315505027771,
+    "learning_rate": 0.00006918890904379373,
+    "loss": 0.0958,
+    "step": 2525
+    },
+    {
+    "epoch": 6.528765352294764,
+    "eval_loss": 0.3492783308029175,
+    "eval_runtime": 13.8992,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 2525
+    },
+    {
+    "epoch": 6.593406593406593,
+    "grad_norm": 0.2337220013141632,
+    "learning_rate": 0.0000678932365897901,
+    "loss": 0.0935,
+    "step": 2550
+    },
+    {
+    "epoch": 6.593406593406593,
+    "eval_loss": 0.3465332090854645,
+    "eval_runtime": 13.8855,
+    "eval_samples_per_second": 13.971,
+    "eval_steps_per_second": 1.8,
+    "step": 2550
+    },
+    {
+    "epoch": 6.658047834518423,
+    "grad_norm": 0.560575544834137,
+    "learning_rate": 0.00006659756413578648,
+    "loss": 0.0989,
+    "step": 2575
+    },
+    {
+    "epoch": 6.658047834518423,
+    "eval_loss": 0.3463946580886841,
+    "eval_runtime": 13.9011,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.798,
+    "step": 2575
+    },
+    {
+    "epoch": 6.722689075630252,
+    "grad_norm": 0.23282793164253235,
+    "learning_rate": 0.00006530189168178284,
+    "loss": 0.0883,
+    "step": 2600
+    },
+    {
+    "epoch": 6.722689075630252,
+    "eval_loss": 0.3596608340740204,
+    "eval_runtime": 13.8986,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 2600
+    },
+    {
+    "epoch": 6.787330316742081,
+    "grad_norm": 0.29077738523483276,
+    "learning_rate": 0.00006400621922777922,
+    "loss": 0.0997,
+    "step": 2625
+    },
+    {
+    "epoch": 6.787330316742081,
+    "eval_loss": 0.3466287851333618,
+    "eval_runtime": 13.8997,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 2625
+    },
+    {
+    "epoch": 6.85197155785391,
+    "grad_norm": 0.28866180777549744,
+    "learning_rate": 0.00006271054677377559,
+    "loss": 0.0907,
+    "step": 2650
+    },
+    {
+    "epoch": 6.85197155785391,
+    "eval_loss": 0.3554084897041321,
+    "eval_runtime": 13.8946,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 2650
+    },
+    {
+    "epoch": 6.91661279896574,
+    "grad_norm": 0.2319469451904297,
+    "learning_rate": 0.00006141487431977197,
+    "loss": 0.099,
+    "step": 2675
+    },
+    {
+    "epoch": 6.91661279896574,
+    "eval_loss": 0.3529384732246399,
+    "eval_runtime": 13.8906,
+    "eval_samples_per_second": 13.966,
+    "eval_steps_per_second": 1.8,
+    "step": 2675
+    },
+    {
+    "epoch": 6.98125404007757,
+    "grad_norm": 0.25588566064834595,
+    "learning_rate": 0.000060119201865768335,
+    "loss": 0.0957,
+    "step": 2700
+    },
+    {
+    "epoch": 6.98125404007757,
+    "eval_loss": 0.34903913736343384,
+    "eval_runtime": 13.9001,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 2700
+    },
+    {
+    "epoch": 7.045895281189399,
+    "grad_norm": 0.2661280930042267,
+    "learning_rate": 0.00005882352941176471,
+    "loss": 0.0857,
+    "step": 2725
+    },
+    {
+    "epoch": 7.045895281189399,
+    "eval_loss": 0.3659530580043793,
+    "eval_runtime": 13.8975,
+    "eval_samples_per_second": 13.959,
+    "eval_steps_per_second": 1.799,
+    "step": 2725
+    },
+    {
+    "epoch": 7.110536522301228,
+    "grad_norm": 0.26808837056159973,
+    "learning_rate": 0.00005752785695776109,
+    "loss": 0.0914,
+    "step": 2750
+    },
+    {
+    "epoch": 7.110536522301228,
+    "eval_loss": 0.37946397066116333,
+    "eval_runtime": 13.8953,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 2750
+    },
+    {
+    "epoch": 7.175177763413058,
+    "grad_norm": 0.2569040358066559,
+    "learning_rate": 0.00005623218450375746,
+    "loss": 0.0822,
+    "step": 2775
+    },
+    {
+    "epoch": 7.175177763413058,
+    "eval_loss": 0.3785270154476166,
+    "eval_runtime": 13.8941,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 2775
+    },
+    {
+    "epoch": 7.239819004524887,
+    "grad_norm": 0.2069663107395172,
+    "learning_rate": 0.00005493651204975383,
+    "loss": 0.0933,
+    "step": 2800
+    },
+    {
+    "epoch": 7.239819004524887,
+    "eval_loss": 0.36601343750953674,
+    "eval_runtime": 13.9025,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 2800
+    },
+    {
+    "epoch": 7.304460245636716,
+    "grad_norm": 0.3386838138103485,
+    "learning_rate": 0.00005364083959575019,
+    "loss": 0.0848,
+    "step": 2825
+    },
+    {
+    "epoch": 7.304460245636716,
+    "eval_loss": 0.3629213273525238,
+    "eval_runtime": 13.9024,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 2825
+    },
+    {
+    "epoch": 7.369101486748546,
+    "grad_norm": 0.24702002108097076,
+    "learning_rate": 0.000052345167141746564,
+    "loss": 0.0941,
+    "step": 2850
+    },
+    {
+    "epoch": 7.369101486748546,
+    "eval_loss": 0.36621519923210144,
+    "eval_runtime": 13.9011,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.798,
+    "step": 2850
+    },
+    {
+    "epoch": 7.433742727860375,
+    "grad_norm": 0.1761961281299591,
+    "learning_rate": 0.000051049494687742936,
+    "loss": 0.0847,
+    "step": 2875
+    },
+    {
+    "epoch": 7.433742727860375,
+    "eval_loss": 0.3717571496963501,
+    "eval_runtime": 13.9013,
+    "eval_samples_per_second": 13.955,
+    "eval_steps_per_second": 1.798,
+    "step": 2875
+    },
+    {
+    "epoch": 7.498383968972204,
+    "grad_norm": 0.22073306143283844,
+    "learning_rate": 0.00004975382223373931,
+    "loss": 0.0899,
+    "step": 2900
+    },
+    {
+    "epoch": 7.498383968972204,
+    "eval_loss": 0.3767780363559723,
+    "eval_runtime": 13.8867,
+    "eval_samples_per_second": 13.97,
+    "eval_steps_per_second": 1.8,
+    "step": 2900
+    },
+    {
+    "epoch": 7.563025210084033,
+    "grad_norm": 0.23177385330200195,
+    "learning_rate": 0.00004845814977973568,
+    "loss": 0.0857,
+    "step": 2925
+    },
+    {
+    "epoch": 7.563025210084033,
+    "eval_loss": 0.3604573607444763,
+    "eval_runtime": 13.9028,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 2925
+    },
+    {
+    "epoch": 7.6276664511958625,
+    "grad_norm": 0.2143615335226059,
+    "learning_rate": 0.000047162477325732054,
+    "loss": 0.0931,
+    "step": 2950
+    },
+    {
+    "epoch": 7.6276664511958625,
+    "eval_loss": 0.36467450857162476,
+    "eval_runtime": 13.8939,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 2950
+    },
+    {
+    "epoch": 7.6923076923076925,
+    "grad_norm": 0.23051580786705017,
+    "learning_rate": 0.000045866804871728434,
+    "loss": 0.0843,
+    "step": 2975
+    },
+    {
+    "epoch": 7.6923076923076925,
+    "eval_loss": 0.37799063324928284,
+    "eval_runtime": 13.8887,
+    "eval_samples_per_second": 13.968,
+    "eval_steps_per_second": 1.8,
+    "step": 2975
+    },
+    {
+    "epoch": 7.756948933419522,
+    "grad_norm": 0.2964944541454315,
+    "learning_rate": 0.000044571132417724806,
+    "loss": 0.0953,
+    "step": 3000
+    },
+    {
+    "epoch": 7.756948933419522,
+    "eval_loss": 0.37458544969558716,
+    "eval_runtime": 13.8975,
+    "eval_samples_per_second": 13.959,
+    "eval_steps_per_second": 1.799,
+    "step": 3000
+    },
+    {
+    "epoch": 7.821590174531351,
+    "grad_norm": 0.1789853572845459,
+    "learning_rate": 0.00004327545996372117,
+    "loss": 0.0846,
+    "step": 3025
+    },
+    {
+    "epoch": 7.821590174531351,
+    "eval_loss": 0.36440709233283997,
+    "eval_runtime": 13.8936,
+    "eval_samples_per_second": 13.963,
+    "eval_steps_per_second": 1.799,
+    "step": 3025
+    },
+    {
+    "epoch": 7.886231415643181,
+    "grad_norm": 0.2910414934158325,
+    "learning_rate": 0.000041979787509717545,
+    "loss": 0.0945,
+    "step": 3050
+    },
+    {
+    "epoch": 7.886231415643181,
+    "eval_loss": 0.363972932100296,
+    "eval_runtime": 13.899,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 3050
+    },
+    {
+    "epoch": 7.95087265675501,
+    "grad_norm": 0.16566026210784912,
+    "learning_rate": 0.00004068411505571392,
+    "loss": 0.0856,
+    "step": 3075
+    },
+    {
+    "epoch": 7.95087265675501,
+    "eval_loss": 0.369998961687088,
+    "eval_runtime": 13.8899,
+    "eval_samples_per_second": 13.967,
+    "eval_steps_per_second": 1.8,
+    "step": 3075
+    },
+    {
+    "epoch": 8.015513897866839,
+    "grad_norm": 0.20665214955806732,
+    "learning_rate": 0.00003938844260171029,
+    "loss": 0.0858,
+    "step": 3100
+    },
+    {
+    "epoch": 8.015513897866839,
+    "eval_loss": 0.3743078410625458,
+    "eval_runtime": 13.9039,
+    "eval_samples_per_second": 13.953,
+    "eval_steps_per_second": 1.798,
+    "step": 3100
+    },
+    {
+    "epoch": 8.080155138978668,
+    "grad_norm": 0.22216439247131348,
+    "learning_rate": 0.00003809277014770666,
+    "loss": 0.0804,
+    "step": 3125
+    },
+    {
+    "epoch": 8.080155138978668,
+    "eval_loss": 0.38528111577033997,
+    "eval_runtime": 13.9066,
+    "eval_samples_per_second": 13.95,
+    "eval_steps_per_second": 1.798,
+    "step": 3125
+    },
+    {
+    "epoch": 8.144796380090497,
+    "grad_norm": 0.2925605773925781,
+    "learning_rate": 0.00003679709769370303,
+    "loss": 0.0855,
+    "step": 3150
+    },
+    {
+    "epoch": 8.144796380090497,
+    "eval_loss": 0.3879942297935486,
+    "eval_runtime": 13.8926,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 3150
+    },
+    {
+    "epoch": 8.209437621202326,
+    "grad_norm": 0.1863240748643875,
+    "learning_rate": 0.0000355014252396994,
+    "loss": 0.0797,
+    "step": 3175
+    },
+    {
+    "epoch": 8.209437621202326,
+    "eval_loss": 0.38318556547164917,
+    "eval_runtime": 13.8966,
+    "eval_samples_per_second": 13.96,
+    "eval_steps_per_second": 1.799,
+    "step": 3175
+    },
+    {
+    "epoch": 8.274078862314157,
+    "grad_norm": 0.227659672498703,
+    "learning_rate": 0.00003420575278569578,
+    "loss": 0.0873,
+    "step": 3200
+    },
+    {
+    "epoch": 8.274078862314157,
+    "eval_loss": 0.3866645097732544,
+    "eval_runtime": 13.8958,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 3200
+    },
+    {
+    "epoch": 8.338720103425986,
+    "grad_norm": 0.24623195827007294,
+    "learning_rate": 0.00003291008033169215,
+    "loss": 0.0805,
+    "step": 3225
+    },
+    {
+    "epoch": 8.338720103425986,
+    "eval_loss": 0.388787180185318,
+    "eval_runtime": 13.9,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 3225
+    },
+    {
+    "epoch": 8.403361344537815,
+    "grad_norm": 0.17468619346618652,
+    "learning_rate": 0.000031614407877688526,
+    "loss": 0.0845,
+    "step": 3250
+    },
+    {
+    "epoch": 8.403361344537815,
+    "eval_loss": 0.39511677622795105,
+    "eval_runtime": 13.8992,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 3250
+    },
+    {
+    "epoch": 8.468002585649645,
+    "grad_norm": 0.2383006066083908,
+    "learning_rate": 0.000030318735423684895,
+    "loss": 0.0807,
+    "step": 3275
+    },
+    {
+    "epoch": 8.468002585649645,
+    "eval_loss": 0.39297351241111755,
+    "eval_runtime": 13.9101,
+    "eval_samples_per_second": 13.947,
+    "eval_steps_per_second": 1.797,
+    "step": 3275
+    },
+    {
+    "epoch": 8.532643826761474,
+    "grad_norm": 0.7691563367843628,
+    "learning_rate": 0.000029023062969681264,
+    "loss": 0.0868,
+    "step": 3300
+    },
+    {
+    "epoch": 8.532643826761474,
+    "eval_loss": 0.3870464265346527,
+    "eval_runtime": 13.9059,
+    "eval_samples_per_second": 13.951,
+    "eval_steps_per_second": 1.798,
+    "step": 3300
+    },
+    {
+    "epoch": 8.597285067873303,
+    "grad_norm": 0.19113022089004517,
+    "learning_rate": 0.000027727390515677637,
+    "loss": 0.0816,
+    "step": 3325
+    },
+    {
+    "epoch": 8.597285067873303,
+    "eval_loss": 0.3797835409641266,
+    "eval_runtime": 13.9074,
+    "eval_samples_per_second": 13.949,
+    "eval_steps_per_second": 1.798,
+    "step": 3325
+    },
+    {
+    "epoch": 8.661926308985132,
+    "grad_norm": 0.20881256461143494,
+    "learning_rate": 0.00002643171806167401,
+    "loss": 0.0868,
+    "step": 3350
+    },
+    {
+    "epoch": 8.661926308985132,
+    "eval_loss": 0.3818240165710449,
+    "eval_runtime": 13.901,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.798,
+    "step": 3350
+    },
+    {
+    "epoch": 8.726567550096961,
+    "grad_norm": 0.19840125739574432,
+    "learning_rate": 0.000025136045607670382,
+    "loss": 0.0808,
+    "step": 3375
+    },
+    {
+    "epoch": 8.726567550096961,
+    "eval_loss": 0.38280540704727173,
+    "eval_runtime": 13.8951,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 3375
+    },
+    {
+    "epoch": 8.791208791208792,
+    "grad_norm": 0.2708618640899658,
+    "learning_rate": 0.000023840373153666755,
+    "loss": 0.0915,
+    "step": 3400
+    },
+    {
+    "epoch": 8.791208791208792,
+    "eval_loss": 0.3764805495738983,
+    "eval_runtime": 13.8956,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 3400
+    },
+    {
+    "epoch": 8.855850032320621,
+    "grad_norm": 0.23502439260482788,
+    "learning_rate": 0.000022544700699663127,
+    "loss": 0.0827,
+    "step": 3425
+    },
+    {
+    "epoch": 8.855850032320621,
+    "eval_loss": 0.378770649433136,
+    "eval_runtime": 13.9002,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 3425
+    },
+    {
+    "epoch": 8.92049127343245,
+    "grad_norm": 0.25332191586494446,
+    "learning_rate": 0.0000212490282456595,
+    "loss": 0.0874,
+    "step": 3450
+    },
+    {
+    "epoch": 8.92049127343245,
+    "eval_loss": 0.3801264762878418,
+    "eval_runtime": 13.907,
+    "eval_samples_per_second": 13.95,
+    "eval_steps_per_second": 1.798,
+    "step": 3450
+    },
+    {
+    "epoch": 8.98513251454428,
+    "grad_norm": 0.25316667556762695,
+    "learning_rate": 0.00001995335579165587,
+    "loss": 0.0891,
+    "step": 3475
+    },
+    {
+    "epoch": 8.98513251454428,
+    "eval_loss": 0.3802332878112793,
+    "eval_runtime": 13.9011,
+    "eval_samples_per_second": 13.956,
+    "eval_steps_per_second": 1.798,
+    "step": 3475
+    },
+    {
+    "epoch": 9.049773755656108,
+    "grad_norm": 0.21907874941825867,
+    "learning_rate": 0.000018657683337652242,
+    "loss": 0.075,
+    "step": 3500
+    },
+    {
+    "epoch": 9.049773755656108,
+    "eval_loss": 0.3840136229991913,
+    "eval_runtime": 13.8958,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 3500
+    },
+    {
+    "epoch": 9.114414996767938,
+    "grad_norm": 0.24233920872211456,
+    "learning_rate": 0.000017362010883648614,
+    "loss": 0.0847,
+    "step": 3525
+    },
+    {
+    "epoch": 9.114414996767938,
+    "eval_loss": 0.39279288053512573,
+    "eval_runtime": 13.8994,
+    "eval_samples_per_second": 13.957,
+    "eval_steps_per_second": 1.799,
+    "step": 3525
+    },
+    {
+    "epoch": 9.179056237879767,
+    "grad_norm": 0.2361481636762619,
+    "learning_rate": 0.000016066338429644987,
+    "loss": 0.0756,
+    "step": 3550
+    },
+    {
+    "epoch": 9.179056237879767,
+    "eval_loss": 0.3995870351791382,
+    "eval_runtime": 13.8927,
+    "eval_samples_per_second": 13.964,
+    "eval_steps_per_second": 1.8,
+    "step": 3550
+    },
+    {
+    "epoch": 9.243697478991596,
+    "grad_norm": 0.19486679136753082,
+    "learning_rate": 0.00001477066597564136,
+    "loss": 0.0852,
+    "step": 3575
+    },
+    {
+    "epoch": 9.243697478991596,
+    "eval_loss": 0.40310657024383545,
+    "eval_runtime": 13.8953,
+    "eval_samples_per_second": 13.962,
+    "eval_steps_per_second": 1.799,
+    "step": 3575
+    },
+    {
+    "epoch": 9.308338720103427,
+    "grad_norm": 0.23106832802295685,
+    "learning_rate": 0.00001347499352163773,
+    "loss": 0.0746,
+    "step": 3600
+    },
+    {
+    "epoch": 9.308338720103427,
+    "eval_loss": 0.4031190872192383,
+    "eval_runtime": 13.8976,
+    "eval_samples_per_second": 13.959,
+    "eval_steps_per_second": 1.799,
+    "step": 3600
+    },
+    {
+    "epoch": 9.372979961215256,
+    "grad_norm": 0.21963872015476227,
+    "learning_rate": 0.000012179321067634103,
+    "loss": 0.0844,
+    "step": 3625
+    },
+    {
+    "epoch": 9.372979961215256,
+    "eval_loss": 0.4036274552345276,
+    "eval_runtime": 13.9016,
+    "eval_samples_per_second": 13.955,
+    "eval_steps_per_second": 1.798,
+    "step": 3625
+    },
+    {
+    "epoch": 9.437621202327085,
+    "grad_norm": 0.19979609549045563,
+    "learning_rate": 0.000010883648613630474,
+    "loss": 0.0763,
+    "step": 3650
+    },
+    {
+    "epoch": 9.437621202327085,
+    "eval_loss": 0.4039681851863861,
+    "eval_runtime": 13.8986,
+    "eval_samples_per_second": 13.958,
+    "eval_steps_per_second": 1.799,
+    "step": 3650
+    },
+    {
+    "epoch": 9.502262443438914,
+    "grad_norm": 0.29937314987182617,
+    "learning_rate": 0.000009587976159626847,
+    "loss": 0.0856,
+    "step": 3675
+    },
+    {
+    "epoch": 9.502262443438914,
+    "eval_loss": 0.40228113532066345,
+    "eval_runtime": 13.9023,
+    "eval_samples_per_second": 13.955,
+    "eval_steps_per_second": 1.798,
+    "step": 3675
+    },
+    {
+    "epoch": 9.566903684550743,
+    "grad_norm": 0.19431306421756744,
+    "learning_rate": 0.00000829230370562322,
+    "loss": 0.0759,
+    "step": 3700
+    },
+    {
+    "epoch": 9.566903684550743,
+    "eval_loss": 0.39987537264823914,
+    "eval_runtime": 13.9031,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 3700
+    },
+    {
+    "epoch": 9.631544925662572,
+    "grad_norm": 0.23780672252178192,
+    "learning_rate": 0.000006996631251619591,
+    "loss": 0.0855,
+    "step": 3725
+    },
+    {
+    "epoch": 9.631544925662572,
+    "eval_loss": 0.39910781383514404,
+    "eval_runtime": 13.8918,
+    "eval_samples_per_second": 13.965,
+    "eval_steps_per_second": 1.8,
+    "step": 3725
+    },
+    {
+    "epoch": 9.696186166774401,
+    "grad_norm": 0.28458669781684875,
+    "learning_rate": 0.000005700958797615963,
+    "loss": 0.0749,
+    "step": 3750
+    },
+    {
+    "epoch": 9.696186166774401,
+    "eval_loss": 0.3985865116119385,
+    "eval_runtime": 13.9024,
+    "eval_samples_per_second": 13.954,
+    "eval_steps_per_second": 1.798,
+    "step": 3750
+    },
+    {
+    "epoch": 9.760827407886232,
+    "grad_norm": 0.2190496027469635,
+    "learning_rate": 0.0000044052863436123355,
+    "loss": 0.0887,
+    "step": 3775
+    },
+    {
+    "epoch": 9.760827407886232,
+    "eval_loss": 0.39947444200515747,
+    "eval_runtime": 13.8956,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 3775
+    },
+    {
+    "epoch": 9.825468648998061,
+    "grad_norm": 0.2251676619052887,
+    "learning_rate": 0.000003109613889608707,
+    "loss": 0.0738,
+    "step": 3800
+    },
+    {
+    "epoch": 9.825468648998061,
+    "eval_loss": 0.4002096951007843,
+    "eval_runtime": 13.9037,
+    "eval_samples_per_second": 13.953,
+    "eval_steps_per_second": 1.798,
+    "step": 3800
+    },
+    {
+    "epoch": 9.89010989010989,
+    "grad_norm": 0.29096800088882446,
+    "learning_rate": 0.000001813941435605079,
+    "loss": 0.0867,
+    "step": 3825
+    },
+    {
+    "epoch": 9.89010989010989,
+    "eval_loss": 0.40017297863960266,
+    "eval_runtime": 13.9019,
+    "eval_samples_per_second": 13.955,
+    "eval_steps_per_second": 1.798,
+    "step": 3825
+    },
+    {
+    "epoch": 9.95475113122172,
+    "grad_norm": 0.2308928519487381,
+    "learning_rate": 5.182689816014512e-7,
+    "loss": 0.0796,
+    "step": 3850
+    },
+    {
+    "epoch": 9.95475113122172,
+    "eval_loss": 0.4002385139465332,
+    "eval_runtime": 13.8963,
+    "eval_samples_per_second": 13.961,
+    "eval_steps_per_second": 1.799,
+    "step": 3850
+    }
+    ],
+    "logging_steps": 25,
+    "max_steps": 3860,
+    "num_input_tokens_seen": 0,
+    "num_train_epochs": 10,
+    "save_steps": 25,
+    "total_flos": 13719373990686720,
+    "train_batch_size": 1,
+    "trial_name": null,
+    "trial_params": null
+    }

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d01b13bd8cd7d6717cf43c84ee5014902a4f51b8938a2277b920bb89e65ecf6
+size 4920