{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 2833,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 8.000000000000001e-06,
      "loss": 10.5725,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 8e-05,
      "loss": 9.6876,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00016,
      "loss": 8.4164,
      "step": 20
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00024,
      "loss": 7.5148,
      "step": 30
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00032,
      "loss": 7.2623,
      "step": 40
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0004,
      "loss": 7.0235,
      "step": 50
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00048,
      "loss": 6.7411,
      "step": 60
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00056,
      "loss": 6.535,
      "step": 70
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00064,
      "loss": 6.3619,
      "step": 80
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00072,
      "loss": 6.285,
      "step": 90
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0008,
      "loss": 6.1199,
      "step": 100
    },
    {
      "epoch": 0.04,
      "eval_accuracy": 0.15415359968673006,
      "eval_loss": 6.0748748779296875,
      "eval_runtime": 149.9041,
      "eval_samples_per_second": 33.788,
      "eval_steps_per_second": 4.229,
      "step": 100
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0007999735731319962,
      "loss": 6.0192,
      "step": 110
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0007998942960198819,
      "loss": 5.9528,
      "step": 120
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0007997621791388858,
      "loss": 5.8808,
      "step": 130
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0007995772399461845,
      "loss": 5.7862,
      "step": 140
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0007993395028785968,
      "loss": 5.7041,
      "step": 150
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0007990489993493526,
      "loss": 5.6365,
      "step": 160
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0007987057677439444,
      "loss": 5.5384,
      "step": 170
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0007983098534150538,
      "loss": 5.5325,
      "step": 180
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0007978613086765592,
      "loss": 5.4794,
      "step": 190
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0007973601927966237,
      "loss": 5.3869,
      "step": 200
    },
    {
      "epoch": 0.07,
      "eval_accuracy": 0.20318275703591465,
      "eval_loss": 5.326748371124268,
      "eval_runtime": 149.8598,
      "eval_samples_per_second": 33.798,
      "eval_steps_per_second": 4.231,
      "step": 200
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0007968065719898634,
      "loss": 5.3202,
      "step": 210
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0007962005194085981,
      "loss": 5.2673,
      "step": 220
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0007955421151331857,
      "loss": 5.2441,
      "step": 230
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0007948314461614408,
      "loss": 5.1405,
      "step": 240
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0007940686063971387,
      "loss": 5.1529,
      "step": 250
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0007932536966376081,
      "loss": 5.1036,
      "step": 260
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0007923868245604124,
      "loss": 4.9852,
      "step": 270
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0007914681047091216,
      "loss": 4.9747,
      "step": 280
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0007904976584781766,
      "loss": 4.9381,
      "step": 290
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0007894756140968497,
      "loss": 4.9187,
      "step": 300
    },
    {
      "epoch": 0.11,
      "eval_accuracy": 0.23856663569010775,
      "eval_loss": 4.856618404388428,
      "eval_runtime": 149.2653,
      "eval_samples_per_second": 33.933,
      "eval_steps_per_second": 4.247,
      "step": 300
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0007884021066123009,
      "loss": 4.8608,
      "step": 310
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0007872772778717331,
      "loss": 4.8439,
      "step": 320
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0007861012765036494,
      "loss": 4.7976,
      "step": 330
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0007848742578982146,
      "loss": 4.752,
      "step": 340
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0007835963841867223,
      "loss": 4.7569,
      "step": 350
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0007822678242201718,
      "loss": 4.698,
      "step": 360
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0007808887535469578,
      "loss": 4.6793,
      "step": 370
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0007794593543896733,
      "loss": 4.6234,
      "step": 380
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0007779798156210327,
      "loss": 4.6046,
      "step": 390
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0007764503327389145,
      "loss": 4.6185,
      "step": 400
    },
    {
      "epoch": 0.14,
      "eval_accuracy": 0.2624355291325133,
      "eval_loss": 4.553475379943848,
      "eval_runtime": 149.5941,
      "eval_samples_per_second": 33.858,
      "eval_steps_per_second": 4.238,
      "step": 400
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00077487110784053,
      "loss": 4.551,
      "step": 410
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0007732423495957192,
      "loss": 4.5083,
      "step": 420
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0007715642732193774,
      "loss": 4.522,
      "step": 430
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0007698371004430193,
      "loss": 4.4942,
      "step": 440
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0007680610594854798,
      "loss": 4.5164,
      "step": 450
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0007662363850227587,
      "loss": 4.4405,
      "step": 460
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0007643633181570117,
      "loss": 4.3987,
      "step": 470
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.000762442106384693,
      "loss": 4.4089,
      "step": 480
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0007604730035638523,
      "loss": 4.3598,
      "step": 490
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0007584562698805911,
      "loss": 4.3509,
      "step": 500
    },
    {
      "epoch": 0.18,
      "eval_accuracy": 0.2801221637037998,
      "eval_loss": 4.338791847229004,
      "eval_runtime": 148.9964,
      "eval_samples_per_second": 33.994,
      "eval_steps_per_second": 4.255,
      "step": 500
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0007563921718146838,
      "loss": 4.3866,
      "step": 510
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0007542809821043658,
      "loss": 4.3586,
      "step": 520
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0007521229797102965,
      "loss": 4.319,
      "step": 530
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0007499184497786977,
      "loss": 4.3143,
      "step": 540
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0007476676836036771,
      "loss": 4.2326,
      "step": 550
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0007453709785887376,
      "loss": 4.2689,
      "step": 560
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0007430286382074807,
      "loss": 4.2383,
      "step": 570
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0007406409719635068,
      "loss": 4.232,
      "step": 580
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0007382082953495193,
      "loss": 4.1941,
      "step": 590
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0007357309298056369,
      "loss": 4.1666,
      "step": 600
    },
    {
      "epoch": 0.21,
      "eval_accuracy": 0.2955689374718788,
      "eval_loss": 4.16923713684082,
      "eval_runtime": 148.9107,
      "eval_samples_per_second": 34.014,
      "eval_steps_per_second": 4.258,
      "step": 600
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0007332092026769209,
      "loss": 4.1266,
      "step": 610
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0007306434471701209,
      "loss": 4.1373,
      "step": 620
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0007280340023096477,
      "loss": 4.1767,
      "step": 630
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0007253812128927756,
      "loss": 4.139,
      "step": 640
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0007226854294440834,
      "loss": 4.0591,
      "step": 650
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0007199470081691381,
      "loss": 4.1488,
      "step": 660
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0007171663109074274,
      "loss": 4.1125,
      "step": 670
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0007143437050845489,
      "loss": 4.1009,
      "step": 680
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0007114795636636599,
      "loss": 4.085,
      "step": 690
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.000708574265096197,
      "loss": 4.0456,
      "step": 700
    },
    {
      "epoch": 0.25,
      "eval_accuracy": 0.3088623661815066,
      "eval_loss": 4.03993558883667,
      "eval_runtime": 148.8369,
      "eval_samples_per_second": 34.031,
      "eval_steps_per_second": 4.26,
      "step": 700
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0007056281932718689,
      "loss": 4.0732,
      "step": 710
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0007026417374679316,
      "loss": 4.0439,
      "step": 720
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.000699615292297752,
      "loss": 4.0528,
      "step": 730
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0006965492576586652,
      "loss": 4.05,
      "step": 740
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0006934440386791345,
      "loss": 3.9947,
      "step": 750
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0006903000456652207,
      "loss": 4.002,
      "step": 760
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0006871176940463655,
      "loss": 3.937,
      "step": 770
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0006838974043204999,
      "loss": 3.949,
      "step": 780
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0006806396019984811,
      "loss": 3.9419,
      "step": 790
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0006773447175478696,
      "loss": 3.9273,
      "step": 800
    },
    {
      "epoch": 0.28,
      "eval_accuracy": 0.31934504591266155,
      "eval_loss": 3.9317612648010254,
      "eval_runtime": 150.5837,
      "eval_samples_per_second": 33.636,
      "eval_steps_per_second": 4.21,
      "step": 800
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.000674013186336047,
      "loss": 3.9558,
      "step": 810
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0006706454485726915,
      "loss": 3.9083,
      "step": 820
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0006672419492516099,
      "loss": 3.9169,
      "step": 830
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0006638031380919385,
      "loss": 3.9215,
      "step": 840
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0006603294694787206,
      "loss": 3.9422,
      "step": 850
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0006568214024028656,
      "loss": 3.9031,
      "step": 860
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0006532794004005016,
      "loss": 3.8931,
      "step": 870
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0006497039314917254,
      "loss": 3.871,
      "step": 880
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0006460954681187614,
      "loss": 3.878,
      "step": 890
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0006424544870835359,
      "loss": 3.8447,
      "step": 900
    },
    {
      "epoch": 0.32,
      "eval_accuracy": 0.3326595971954238,
      "eval_loss": 3.817286968231201,
      "eval_runtime": 151.9107,
      "eval_samples_per_second": 33.342,
      "eval_steps_per_second": 4.174,
      "step": 900
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0006387814694846751,
      "loss": 3.7965,
      "step": 910
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0006350769006539354,
      "loss": 3.7753,
      "step": 920
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.000631341270092074,
      "loss": 3.7734,
      "step": 930
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00062757507140417,
      "loss": 3.8001,
      "step": 940
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0006237788022344014,
      "loss": 3.7775,
      "step": 950
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0006199529642002892,
      "loss": 3.7659,
      "step": 960
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0006160980628264175,
      "loss": 3.7701,
      "step": 970
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0006122146074776347,
      "loss": 3.7496,
      "step": 980
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0006083031112917506,
      "loss": 3.7569,
      "step": 990
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0006043640911117322,
      "loss": 3.7143,
      "step": 1000
    },
    {
      "epoch": 0.35,
      "eval_accuracy": 0.3461449616152692,
      "eval_loss": 3.7108187675476074,
      "eval_runtime": 150.717,
      "eval_samples_per_second": 33.606,
      "eval_steps_per_second": 4.207,
      "step": 1000
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0006003980674174113,
      "loss": 3.727,
      "step": 1010
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0005964055642567111,
      "loss": 3.7216,
      "step": 1020
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0005923871091764019,
      "loss": 3.6425,
      "step": 1030
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0005883432331523935,
      "loss": 3.656,
      "step": 1040
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0005842744705195756,
      "loss": 3.6711,
      "step": 1050
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0005801813589012133,
      "loss": 3.6739,
      "step": 1060
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0005760644391379089,
      "loss": 3.6481,
      "step": 1070
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0005719242552161383,
      "loss": 3.6327,
      "step": 1080
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0005677613541963716,
      "loss": 3.6286,
      "step": 1090
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0005635762861407874,
      "loss": 3.6485,
      "step": 1100
    },
    {
      "epoch": 0.39,
      "eval_accuracy": 0.3589528604931205,
      "eval_loss": 3.6115522384643555,
      "eval_runtime": 151.483,
      "eval_samples_per_second": 33.436,
      "eval_steps_per_second": 4.185,
      "step": 1100
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0005593696040405915,
      "loss": 3.6201,
      "step": 1110
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0005551418637429465,
      "loss": 3.5593,
      "step": 1120
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0005508936238775265,
      "loss": 3.6036,
      "step": 1130
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0005466254457827025,
      "loss": 3.6029,
      "step": 1140
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0005423378934313702,
      "loss": 3.585,
      "step": 1150
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0005380315333564296,
      "loss": 3.5505,
      "step": 1160
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0005337069345759272,
      "loss": 3.5358,
      "step": 1170
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0005293646685178686,
      "loss": 3.5578,
      "step": 1180
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0005250053089447138,
      "loss": 3.5917,
      "step": 1190
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0005206294318775628,
      "loss": 3.5171,
      "step": 1200
    },
    {
      "epoch": 0.42,
      "eval_accuracy": 0.36927514369860115,
      "eval_loss": 3.530304431915283,
      "eval_runtime": 151.4072,
      "eval_samples_per_second": 33.453,
      "eval_steps_per_second": 4.187,
      "step": 1200
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0005162376155200437,
      "loss": 3.5322,
      "step": 1210
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0005118304401819125,
      "loss": 3.5639,
      "step": 1220
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0005074084882023739,
      "loss": 3.5472,
      "step": 1230
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0005029723438731346,
      "loss": 3.4967,
      "step": 1240
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0004985225933611971,
      "loss": 3.466,
      "step": 1250
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.000494059824631409,
      "loss": 3.4608,
      "step": 1260
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0004895846273687709,
      "loss": 3.5004,
      "step": 1270
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0004850975929005197,
      "loss": 3.4747,
      "step": 1280
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00048059931411799335,
      "loss": 3.5048,
      "step": 1290
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00047609038539829,
      "loss": 3.4464,
      "step": 1300
    },
    {
      "epoch": 0.46,
      "eval_accuracy": 0.3779672272186056,
      "eval_loss": 3.455420970916748,
      "eval_runtime": 151.2649,
      "eval_samples_per_second": 33.484,
      "eval_steps_per_second": 4.191,
      "step": 1300
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0004715714025257304,
      "loss": 3.4953,
      "step": 1310
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00046704296261313393,
      "loss": 3.471,
      "step": 1320
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0004625056640229197,
      "loss": 3.4471,
      "step": 1330
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0004579601062880422,
      "loss": 3.4493,
      "step": 1340
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00045340689003277285,
      "loss": 3.4145,
      "step": 1350
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0004488466168933368,
      "loss": 3.4739,
      "step": 1360
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00044427988943841534,
      "loss": 3.3819,
      "step": 1370
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0004397073110895268,
      "loss": 3.3975,
      "step": 1380
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0004351294860412936,
      "loss": 3.4112,
      "step": 1390
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.000430547019181607,
      "loss": 3.3955,
      "step": 1400
    },
    {
      "epoch": 0.49,
      "eval_accuracy": 0.38511794160042556,
      "eval_loss": 3.3999252319335938,
      "eval_runtime": 150.5869,
      "eval_samples_per_second": 33.635,
      "eval_steps_per_second": 4.21,
      "step": 1400
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00042596051601170143,
      "loss": 3.3769,
      "step": 1410
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00042137058256614605,
      "loss": 3.389,
      "step": 1420
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00041677782533276747,
      "loss": 3.3465,
      "step": 1430
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00041218285117251163,
      "loss": 3.3847,
      "step": 1440
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0004075862672392566,
      "loss": 3.3683,
      "step": 1450
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0004029886808995867,
      "loss": 3.3386,
      "step": 1460
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00039839069965253864,
      "loss": 3.3675,
      "step": 1470
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0003937929310493297,
      "loss": 3.3393,
      "step": 1480
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0003891959826130802,
      "loss": 3.4105,
      "step": 1490
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0003846004617585376,
      "loss": 3.3551,
      "step": 1500
    },
    {
      "epoch": 0.53,
      "eval_accuracy": 0.39192461845543836,
      "eval_loss": 3.3431735038757324,
      "eval_runtime": 150.786,
      "eval_samples_per_second": 33.591,
      "eval_steps_per_second": 4.205,
      "step": 1500
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00038000697571181723,
      "loss": 3.3163,
      "step": 1510
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00037541613143016596,
      "loss": 3.2978,
      "step": 1520
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00037082853552176324,
      "loss": 3.3012,
      "step": 1530
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0003662447941655669,
      "loss": 3.3617,
      "step": 1540
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00036166551303121566,
      "loss": 3.2746,
      "step": 1550
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00035709129719900003,
      "loss": 3.312,
      "step": 1560
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0003525227510799099,
      "loss": 3.3274,
      "step": 1570
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0003479604783357719,
      "loss": 3.2888,
      "step": 1580
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0003434050817994838,
      "loss": 3.3067,
      "step": 1590
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00033885716339536047,
      "loss": 3.2787,
      "step": 1600
    },
    {
      "epoch": 0.56,
      "eval_accuracy": 0.39735948545797645,
      "eval_loss": 3.2980780601501465,
      "eval_runtime": 151.955,
      "eval_samples_per_second": 33.332,
      "eval_steps_per_second": 4.172,
      "step": 1600
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00033431732405959886,
      "loss": 3.3245,
      "step": 1610
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0003297861636608732,
      "loss": 3.328,
      "step": 1620
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00032526428092107256,
      "loss": 3.2773,
      "step": 1630
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0003207522733361881,
      "loss": 3.2792,
      "step": 1640
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00031625073709736444,
      "loss": 3.2355,
      "step": 1650
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00031176026701212125,
      "loss": 3.2635,
      "step": 1660
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00030728145642576,
      "loss": 3.226,
      "step": 1670
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0003028148971429614,
      "loss": 3.2433,
      "step": 1680
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00029836117934958843,
      "loss": 3.2282,
      "step": 1690
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00029392089153470243,
      "loss": 3.2705,
      "step": 1700
    },
    {
      "epoch": 0.6,
      "eval_accuracy": 0.4022830704505329,
      "eval_loss": 3.2566046714782715,
      "eval_runtime": 151.1757,
      "eval_samples_per_second": 33.504,
      "eval_steps_per_second": 4.194,
      "step": 1700
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0002894946204128031,
      "loss": 3.2523,
      "step": 1710
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00028508295084630423,
      "loss": 3.2703,
      "step": 1720
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0002806864657682521,
      "loss": 3.2855,
      "step": 1730
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0002763057461053008,
      "loss": 3.2752,
      "step": 1740
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00027194137070095224,
      "loss": 3.2225,
      "step": 1750
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0002675939162390696,
      "loss": 3.2595,
      "step": 1760
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0002632639571676793,
      "loss": 3.2349,
      "step": 1770
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0002589520656230653,
      "loss": 3.1926,
      "step": 1780
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.00025465881135417135,
      "loss": 3.2271,
      "step": 1790
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.00025038476164731643,
      "loss": 3.2281,
      "step": 1800
    },
    {
      "epoch": 0.64,
      "eval_accuracy": 0.40748857910186626,
      "eval_loss": 3.217235803604126,
      "eval_runtime": 151.2208,
      "eval_samples_per_second": 33.494,
      "eval_steps_per_second": 4.193,
      "step": 1800
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.00024613048125123803,
      "loss": 3.2461,
      "step": 1810
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.00024189653230246853,
      "loss": 3.2236,
      "step": 1820
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0002376834742510578,
      "loss": 3.2269,
      "step": 1830
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.00023349186378665126,
      "loss": 3.1916,
      "step": 1840
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.00022932225476493065,
      "loss": 3.2088,
      "step": 1850
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.00022517519813443292,
      "loss": 3.212,
      "step": 1860
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.00022105124186374818,
      "loss": 3.2159,
      "step": 1870
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0002169509308691171,
      "loss": 3.2286,
      "step": 1880
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0002128748069424268,
      "loss": 3.1553,
      "step": 1890
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.00020882340867962174,
      "loss": 3.1759,
      "step": 1900
    },
    {
      "epoch": 0.67,
      "eval_accuracy": 0.41184416942232654,
      "eval_loss": 3.1826136112213135,
      "eval_runtime": 150.8644,
      "eval_samples_per_second": 33.573,
      "eval_steps_per_second": 4.202,
      "step": 1900
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.00020479727140953813,
      "loss": 3.1996,
      "step": 1910
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00020079692712316648,
      "loss": 3.207,
      "step": 1920
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00019682290440335907,
      "loss": 3.1934,
      "step": 1930
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00019287572835498522,
      "loss": 3.2055,
      "step": 1940
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0001889559205355469,
      "loss": 3.165,
      "step": 1950
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.00018506399888626373,
      "loss": 3.2182,
      "step": 1960
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00018120047766363384,
      "loss": 3.173,
      "step": 1970
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0001773658673714842,
      "loss": 3.1718,
      "step": 1980
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0001735606746935151,
      "loss": 3.1621,
      "step": 1990
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00016978540242634958,
      "loss": 3.1603,
      "step": 2000
    },
    {
      "epoch": 0.71,
      "eval_accuracy": 0.4152190550686701,
      "eval_loss": 3.1547319889068604,
      "eval_runtime": 150.8119,
      "eval_samples_per_second": 33.585,
      "eval_steps_per_second": 4.204,
      "step": 2000
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00016604054941309713,
      "loss": 3.1781,
      "step": 2010
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0001623266104774391,
      "loss": 3.1261,
      "step": 2020
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00015864407635824562,
      "loss": 3.1293,
      "step": 2030
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0001549934336447321,
      "loss": 3.1486,
      "step": 2040
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00015137516471216422,
      "loss": 3.1247,
      "step": 2050
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.00014778974765811928,
      "loss": 3.0984,
      "step": 2060
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.00014423765623931364,
      "loss": 3.1173,
      "step": 2070
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0001407193598090021,
      "loss": 3.147,
      "step": 2080
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.000137235323254962,
      "loss": 3.147,
      "step": 2090
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.00013378600693806378,
      "loss": 3.1328,
      "step": 2100
    },
    {
      "epoch": 0.74,
      "eval_accuracy": 0.4185663559848014,
      "eval_loss": 3.1282718181610107,
      "eval_runtime": 150.9461,
      "eval_samples_per_second": 33.555,
      "eval_steps_per_second": 4.2,
      "step": 2100
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0001303718666314425,
      "loss": 3.1565,
      "step": 2110
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.00012699335346027447,
      "loss": 3.1537,
      "step": 2120
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0001236509138421674,
      "loss": 3.1268,
      "step": 2130
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.00012034498942817482,
      "loss": 3.1449,
      "step": 2140
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0001170760170444369,
      "loss": 3.1358,
      "step": 2150
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.00011384442863446211,
      "loss": 3.0987,
      "step": 2160
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00011065065120205264,
      "loss": 3.1229,
      "step": 2170
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00010749510675488115,
      "loss": 3.0585,
      "step": 2180
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00010437821224873104,
      "loss": 3.1092,
      "step": 2190
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00010130037953240043,
      "loss": 3.0916,
      "step": 2200
    },
    {
      "epoch": 0.78,
      "eval_accuracy": 0.4215069268054616,
      "eval_loss": 3.105459690093994,
      "eval_runtime": 151.0796,
      "eval_samples_per_second": 33.525,
      "eval_steps_per_second": 4.196,
      "step": 2200
    },
    {
      "epoch": 0.78,
      "learning_rate": 9.826201529328414e-05,
      "loss": 3.1225,
      "step": 2210
    },
    {
      "epoch": 0.78,
      "learning_rate": 9.526352100363562e-05,
      "loss": 3.0914,
      "step": 2220
    },
    {
      "epoch": 0.79,
      "learning_rate": 9.230529286751886e-05,
      "loss": 3.1395,
      "step": 2230
    },
    {
      "epoch": 0.79,
      "learning_rate": 8.938772176845631e-05,
      "loss": 3.0953,
      "step": 2240
    },
    {
      "epoch": 0.79,
      "learning_rate": 8.651119321777952e-05,
      "loss": 3.0434,
      "step": 2250
    },
    {
      "epoch": 0.8,
      "learning_rate": 8.367608730369015e-05,
      "loss": 3.0658,
      "step": 2260
    },
    {
      "epoch": 0.8,
      "learning_rate": 8.088277864103697e-05,
      "loss": 3.0928,
      "step": 2270
    },
    {
      "epoch": 0.8,
      "learning_rate": 7.81316363218167e-05,
      "loss": 3.0746,
      "step": 2280
    },
    {
      "epoch": 0.81,
      "learning_rate": 7.542302386640385e-05,
      "loss": 3.0813,
      "step": 2290
    },
    {
      "epoch": 0.81,
      "learning_rate": 7.27572991755178e-05,
      "loss": 3.0939,
      "step": 2300
    },
    {
      "epoch": 0.81,
      "eval_accuracy": 0.42381410978240375,
      "eval_loss": 3.0875043869018555,
      "eval_runtime": 152.0694,
      "eval_samples_per_second": 33.307,
      "eval_steps_per_second": 4.169,
      "step": 2300
    },
    {
      "epoch": 0.82,
      "learning_rate": 7.013481448293085e-05,
      "loss": 3.0575,
      "step": 2310
    },
    {
      "epoch": 0.82,
      "learning_rate": 6.755591630892744e-05,
      "loss": 3.0907,
      "step": 2320
    },
    {
      "epoch": 0.82,
      "learning_rate": 6.502094541451573e-05,
      "loss": 3.0385,
      "step": 2330
    },
    {
      "epoch": 0.83,
      "learning_rate": 6.253023675640158e-05,
      "loss": 3.1125,
      "step": 2340
    },
    {
      "epoch": 0.83,
      "learning_rate": 6.008411944273e-05,
      "loss": 3.0955,
      "step": 2350
    },
    {
      "epoch": 0.83,
      "learning_rate": 5.7682916689597535e-05,
      "loss": 3.0929,
      "step": 2360
    },
    {
      "epoch": 0.84,
      "learning_rate": 5.5326945778345586e-05,
      "loss": 3.0564,
      "step": 2370
    },
    {
      "epoch": 0.84,
      "learning_rate": 5.301651801363528e-05,
      "loss": 3.0774,
      "step": 2380
    },
    {
      "epoch": 0.84,
      "learning_rate": 5.075193868231454e-05,
      "loss": 3.0838,
      "step": 2390
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.853350701307897e-05,
      "loss": 3.0584,
      "step": 2400
    },
    {
      "epoch": 0.85,
      "eval_accuracy": 0.42569305429031773,
      "eval_loss": 3.073211431503296,
      "eval_runtime": 151.0975,
      "eval_samples_per_second": 33.521,
      "eval_steps_per_second": 4.196,
      "step": 2400
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.636151613693276e-05,
      "loss": 3.0236,
      "step": 2410
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.423625304845702e-05,
      "loss": 3.0852,
      "step": 2420
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.215799856788727e-05,
      "loss": 3.1131,
      "step": 2430
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.012702730400766e-05,
      "loss": 3.0559,
      "step": 2440
    },
    {
      "epoch": 0.86,
      "learning_rate": 3.8143607617865796e-05,
      "loss": 3.0686,
      "step": 2450
    },
    {
      "epoch": 0.87,
      "learning_rate": 3.620800158731288e-05,
      "loss": 3.0508,
      "step": 2460
    },
    {
      "epoch": 0.87,
      "learning_rate": 3.4320464972374246e-05,
      "loss": 3.0623,
      "step": 2470
    },
    {
      "epoch": 0.88,
      "learning_rate": 3.24812471814548e-05,
      "loss": 3.0673,
      "step": 2480
    },
    {
      "epoch": 0.88,
      "learning_rate": 3.069059123838347e-05,
      "loss": 3.0689,
      "step": 2490
    },
    {
      "epoch": 0.88,
      "learning_rate": 2.894873375030156e-05,
      "loss": 3.0711,
      "step": 2500
    },
    {
      "epoch": 0.88,
      "eval_accuracy": 0.42705097532758074,
      "eval_loss": 3.0630664825439453,
      "eval_runtime": 151.1382,
      "eval_samples_per_second": 33.512,
      "eval_steps_per_second": 4.195,
      "step": 2500
    },
    {
      "epoch": 0.89,
      "learning_rate": 2.7255904876398687e-05,
      "loss": 3.0574,
      "step": 2510
    },
    {
      "epoch": 0.89,
      "learning_rate": 2.5612328297500663e-05,
      "loss": 3.0566,
      "step": 2520
    },
    {
      "epoch": 0.89,
      "learning_rate": 2.4018221186514223e-05,
      "loss": 3.0702,
      "step": 2530
    },
    {
      "epoch": 0.9,
      "learning_rate": 2.2473794179730344e-05,
      "loss": 3.0446,
      "step": 2540
    },
    {
      "epoch": 0.9,
      "learning_rate": 2.0979251348992235e-05,
      "loss": 3.0475,
      "step": 2550
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.953479017473052e-05,
      "loss": 3.065,
      "step": 2560
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.8140601519869026e-05,
      "loss": 3.0562,
      "step": 2570
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.6796869604605735e-05,
      "loss": 3.0301,
      "step": 2580
    },
    {
      "epoch": 0.91,
      "learning_rate": 1.5503771982070226e-05,
      "loss": 3.0694,
      "step": 2590
    },
    {
      "epoch": 0.92,
      "learning_rate": 1.4261479514863452e-05,
      "loss": 3.0612,
      "step": 2600
    },
    {
      "epoch": 0.92,
      "eval_accuracy": 0.4279909780571187,
      "eval_loss": 3.0565025806427,
      "eval_runtime": 151.9486,
      "eval_samples_per_second": 33.334,
      "eval_steps_per_second": 4.172,
      "step": 2600
    },
    {
      "epoch": 0.92,
      "learning_rate": 1.3070156352480877e-05,
      "loss": 3.0469,
      "step": 2610
    },
    {
      "epoch": 0.92,
      "learning_rate": 1.1929959909622045e-05,
      "loss": 3.0645,
      "step": 2620
    },
    {
      "epoch": 0.93,
      "learning_rate": 1.084104084539166e-05,
      "loss": 3.0639,
      "step": 2630
    },
    {
      "epoch": 0.93,
      "learning_rate": 9.803543043391417e-06,
      "loss": 3.0735,
      "step": 2640
    },
    {
      "epoch": 0.94,
      "learning_rate": 8.817603592708779e-06,
      "loss": 3.02,
      "step": 2650
    },
    {
      "epoch": 0.94,
      "learning_rate": 7.8833527698023e-06,
      "loss": 3.0485,
      "step": 2660
    },
    {
      "epoch": 0.94,
      "learning_rate": 7.0009140212878854e-06,
      "loss": 3.0469,
      "step": 2670
    },
    {
      "epoch": 0.95,
      "learning_rate": 6.170403947627179e-06,
      "loss": 3.033,
      "step": 2680
    },
    {
      "epoch": 0.95,
      "learning_rate": 5.39193228772068e-06,
      "loss": 3.0413,
      "step": 2690
    },
    {
      "epoch": 0.95,
      "learning_rate": 4.665601904407347e-06,
      "loss": 3.081,
      "step": 2700
    },
    {
      "epoch": 0.95,
      "eval_accuracy": 0.42835112275156717,
      "eval_loss": 3.0534024238586426,
      "eval_runtime": 151.3942,
      "eval_samples_per_second": 33.456,
      "eval_steps_per_second": 4.188,
      "step": 2700
    },
    {
      "epoch": 0.96,
      "learning_rate": 3.99150877087302e-06,
      "loss": 3.0195,
      "step": 2710
    },
    {
      "epoch": 0.96,
      "learning_rate": 3.3697419579690194e-06,
      "loss": 3.0411,
      "step": 2720
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.800383622442837e-06,
      "loss": 3.0234,
      "step": 2730
    },
    {
      "epoch": 0.97,
      "learning_rate": 2.2835089960823395e-06,
      "loss": 3.0571,
      "step": 2740
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.8191863757751392e-06,
      "loss": 3.0598,
      "step": 2750
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4074771144842568e-06,
      "loss": 3.0829,
      "step": 2760
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.04843561314123e-06,
      "loss": 3.0236,
      "step": 2770
    },
    {
      "epoch": 0.98,
      "learning_rate": 7.421093134578616e-07,
      "loss": 3.0504,
      "step": 2780
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.885386916575474e-07,
      "loss": 3.0446,
      "step": 2790
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.877572531271078e-07,
      "loss": 3.0378,
      "step": 2800
    },
    {
      "epoch": 0.99,
      "eval_accuracy": 0.4284987878632974,
      "eval_loss": 3.052541494369507,
      "eval_runtime": 151.2777,
      "eval_samples_per_second": 33.481,
      "eval_steps_per_second": 4.191,
      "step": 2800
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.3979152798935247e-07,
      "loss": 3.0729,
      "step": 2810
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.4661067597751015e-08,
      "loss": 2.9979,
      "step": 2820
    },
    {
      "epoch": 1.0,
      "learning_rate": 2.3784419529437883e-09,
      "loss": 3.1122,
      "step": 2830
    },
    {
      "epoch": 1.0,
      "step": 2833,
      "total_flos": 4.4316720769479475e+17,
      "train_loss": 3.7639108537323183,
      "train_runtime": 10013.9285,
      "train_samples_per_second": 9.052,
      "train_steps_per_second": 0.283
    }
  ],
  "logging_steps": 10,
  "max_steps": 2833,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000.0,
  "total_flos": 4.4316720769479475e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}