Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

gemma-2-9b-it_int4_medmcqa_full_con_lr-0.0002_e-8_seq-512_lora-a-32-d-0.05-r-64_bs-1_gas-2_tf32-True_tunedata-portion-p-0.1-num-12797-sd-1/training_log.jsonl +3 -0

gemma-2-9b-it_int4_medmcqa_full_con_lr-0.0002_e-8_seq-512_lora-a-32-d-0.05-r-64_bs-1_gas-2_tf32-True_tunedata-portion-p-0.1-num-12797-sd-1/training_log.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+{"epoch": 0.999671592775041, "step": 1522, "epoch_duration": 9087.996199846268, "total_accumulated_duration": 9087.996199846268, "gpu_info": {"GPU_0": "NVIDIA A100-PCIE-40GB"}, "memory_usage": {"avg_memory_usage": {"GPU_0": 7887.97119140625}, "peak_memory_usage": {"GPU_0": 11696.9921875}, "avg_memory_reserved": {"GPU_0": 12786.0}, "peak_memory_reserved": {"GPU_0": 12786.0}, "total_memory": {"GPU_0": 40444.375}}, "best_checkpoint_path": "N/A", "params": {"epochs": 8, "batch_size": 1, "learning_rate": 0.0002, "gradient_accumulation_steps": 2, "warmup_ratio": 0.03, "max_grad_norm": 0.3, "lora_alpha": 32, "lora_dropout": 0.05, "lora_r": 64, "tf32": true, "seed": 42}, "log_history": [{"loss": 2.6004, "grad_norm": 0.8613492250442505, "learning_rate": 0.0002, "epoch": 0.006568144499178982, "step": 10}, {"loss": 1.664, "grad_norm": 0.854459285736084, "learning_rate": 0.0002, "epoch": 0.013136288998357963, "step": 20}, {"loss": 1.2963, "grad_norm": 0.7780120968818665, "learning_rate": 0.0002, "epoch": 0.019704433497536946, "step": 30}, {"loss": 1.1385, "grad_norm": 0.36866915225982666, "learning_rate": 0.0002, "epoch": 0.026272577996715927, "step": 40}, {"loss": 1.0393, "grad_norm": 0.3133663237094879, "learning_rate": 0.0002, "epoch": 0.03284072249589491, "step": 50}, {"loss": 1.0663, "grad_norm": 0.3518275320529938, "learning_rate": 0.0002, "epoch": 0.03940886699507389, "step": 60}, {"loss": 0.9464, "grad_norm": 0.3882162272930145, "learning_rate": 0.0002, "epoch": 0.04597701149425287, "step": 70}, {"loss": 0.9951, "grad_norm": 0.2990604043006897, "learning_rate": 0.0002, "epoch": 0.052545155993431854, "step": 80}, {"loss": 1.0355, "grad_norm": 0.3430468738079071, "learning_rate": 0.0002, "epoch": 0.059113300492610835, "step": 90}, {"loss": 1.0346, "grad_norm": 0.285379022359848, "learning_rate": 0.0002, "epoch": 0.06568144499178982, "step": 100}, {"loss": 1.0134, "grad_norm": 0.2594936788082123, "learning_rate": 0.0002, "epoch": 0.0722495894909688, "step": 110}, {"loss": 1.0355, "grad_norm": 0.31667107343673706, "learning_rate": 0.0002, "epoch": 0.07881773399014778, "step": 120}, {"loss": 1.0041, "grad_norm": 0.31542691588401794, "learning_rate": 0.0002, "epoch": 0.08538587848932677, "step": 130}, {"loss": 1.0145, "grad_norm": 0.32582634687423706, "learning_rate": 0.0002, "epoch": 0.09195402298850575, "step": 140}, {"loss": 0.9655, "grad_norm": 0.3093009293079376, "learning_rate": 0.0002, "epoch": 0.09852216748768473, "step": 150}, {"loss": 1.0113, "grad_norm": 0.24318133294582367, "learning_rate": 0.0002, "epoch": 0.10509031198686371, "step": 160}, {"loss": 1.019, "grad_norm": 0.28837549686431885, "learning_rate": 0.0002, "epoch": 0.1116584564860427, "step": 170}, {"loss": 1.0351, "grad_norm": 0.2778419852256775, "learning_rate": 0.0002, "epoch": 0.11822660098522167, "step": 180}, {"loss": 1.013, "grad_norm": 0.26860564947128296, "learning_rate": 0.0002, "epoch": 0.12479474548440066, "step": 190}, {"loss": 1.0414, "grad_norm": 0.26188144087791443, "learning_rate": 0.0002, "epoch": 0.13136288998357964, "step": 200}, {"loss": 0.9904, "grad_norm": 0.3241795003414154, "learning_rate": 0.0002, "epoch": 0.13793103448275862, "step": 210}, {"loss": 0.9882, "grad_norm": 0.3102398216724396, "learning_rate": 0.0002, "epoch": 0.1444991789819376, "step": 220}, {"loss": 1.0055, "grad_norm": 0.24929021298885345, "learning_rate": 0.0002, "epoch": 0.1510673234811166, "step": 230}, {"loss": 0.9375, "grad_norm": 0.26640093326568604, "learning_rate": 0.0002, "epoch": 0.15763546798029557, "step": 240}, {"loss": 0.9567, "grad_norm": 0.34735554456710815, "learning_rate": 0.0002, "epoch": 0.16420361247947454, "step": 250}, {"loss": 0.9542, "grad_norm": 0.25600048899650574, "learning_rate": 0.0002, "epoch": 0.17077175697865354, "step": 260}, {"loss": 1.0096, "grad_norm": 0.2997046709060669, "learning_rate": 0.0002, "epoch": 0.17733990147783252, "step": 270}, {"loss": 0.9974, "grad_norm": 0.23683993518352509, "learning_rate": 0.0002, "epoch": 0.1839080459770115, "step": 280}, {"loss": 0.9891, "grad_norm": 0.25879305601119995, "learning_rate": 0.0002, "epoch": 0.19047619047619047, "step": 290}, {"loss": 1.0256, "grad_norm": 0.23905311524868011, "learning_rate": 0.0002, "epoch": 0.19704433497536947, "step": 300}, {"loss": 1.0009, "grad_norm": 0.28073516488075256, "learning_rate": 0.0002, "epoch": 0.20361247947454844, "step": 310}, {"loss": 1.0059, "grad_norm": 0.23301444947719574, "learning_rate": 0.0002, "epoch": 0.21018062397372742, "step": 320}, {"loss": 1.0373, "grad_norm": 0.28721678256988525, "learning_rate": 0.0002, "epoch": 0.21674876847290642, "step": 330}, {"loss": 1.0133, "grad_norm": 0.24388359487056732, "learning_rate": 0.0002, "epoch": 0.2233169129720854, "step": 340}, {"loss": 1.0066, "grad_norm": 0.25199469923973083, "learning_rate": 0.0002, "epoch": 0.22988505747126436, "step": 350}, {"loss": 0.9588, "grad_norm": 0.26013699173927307, "learning_rate": 0.0002, "epoch": 0.23645320197044334, "step": 360}, {"loss": 0.9844, "grad_norm": 0.3220357894897461, "learning_rate": 0.0002, "epoch": 0.24302134646962234, "step": 370}, {"loss": 0.9479, "grad_norm": 0.23451396822929382, "learning_rate": 0.0002, "epoch": 0.24958949096880131, "step": 380}, {"loss": 0.9567, "grad_norm": 0.2818313539028168, "learning_rate": 0.0002, "epoch": 0.2561576354679803, "step": 390}, {"loss": 0.9853, "grad_norm": 0.2609928250312805, "learning_rate": 0.0002, "epoch": 0.2627257799671593, "step": 400}, {"loss": 0.9579, "grad_norm": 0.21925799548625946, "learning_rate": 0.0002, "epoch": 0.26929392446633826, "step": 410}, {"loss": 0.9971, "grad_norm": 0.2438887357711792, "learning_rate": 0.0002, "epoch": 0.27586206896551724, "step": 420}, {"loss": 0.9853, "grad_norm": 0.2887968420982361, "learning_rate": 0.0002, "epoch": 0.2824302134646962, "step": 430}, {"loss": 0.9756, "grad_norm": 0.2703661024570465, "learning_rate": 0.0002, "epoch": 0.2889983579638752, "step": 440}, {"loss": 1.0425, "grad_norm": 0.28134551644325256, "learning_rate": 0.0002, "epoch": 0.2955665024630542, "step": 450}, {"loss": 0.9922, "grad_norm": 0.29503315687179565, "learning_rate": 0.0002, "epoch": 0.3021346469622332, "step": 460}, {"loss": 0.9833, "grad_norm": 0.26881396770477295, "learning_rate": 0.0002, "epoch": 0.30870279146141216, "step": 470}, {"loss": 1.0264, "grad_norm": 0.3016358017921448, "learning_rate": 0.0002, "epoch": 0.31527093596059114, "step": 480}, {"loss": 0.9626, "grad_norm": 0.29355326294898987, "learning_rate": 0.0002, "epoch": 0.3218390804597701, "step": 490}, {"loss": 0.9638, "grad_norm": 0.2375575453042984, "learning_rate": 0.0002, "epoch": 0.3284072249589491, "step": 500}, {"loss": 1.0255, "grad_norm": 0.27171123027801514, "learning_rate": 0.0002, "epoch": 0.33497536945812806, "step": 510}, {"loss": 0.9576, "grad_norm": 0.24370001256465912, "learning_rate": 0.0002, "epoch": 0.3415435139573071, "step": 520}, {"loss": 0.985, "grad_norm": 0.25644388794898987, "learning_rate": 0.0002, "epoch": 0.34811165845648606, "step": 530}, {"loss": 1.0162, "grad_norm": 0.2626535892486572, "learning_rate": 0.0002, "epoch": 0.35467980295566504, "step": 540}, {"loss": 1.0272, "grad_norm": 0.24050098657608032, "learning_rate": 0.0002, "epoch": 0.361247947454844, "step": 550}, {"loss": 0.9907, "grad_norm": 0.2717348337173462, "learning_rate": 0.0002, "epoch": 0.367816091954023, "step": 560}, {"loss": 0.9579, "grad_norm": 0.26437148451805115, "learning_rate": 0.0002, "epoch": 0.37438423645320196, "step": 570}, {"loss": 1.0199, "grad_norm": 0.3524196147918701, "learning_rate": 0.0002, "epoch": 0.38095238095238093, "step": 580}, {"loss": 0.903, "grad_norm": 0.25494834780693054, "learning_rate": 0.0002, "epoch": 0.38752052545155996, "step": 590}, {"loss": 0.9823, "grad_norm": 0.2706734240055084, "learning_rate": 0.0002, "epoch": 0.39408866995073893, "step": 600}, {"loss": 0.9858, "grad_norm": 0.2832331657409668, "learning_rate": 0.0002, "epoch": 0.4006568144499179, "step": 610}, {"loss": 0.9725, "grad_norm": 0.3186213970184326, "learning_rate": 0.0002, "epoch": 0.4072249589490969, "step": 620}, {"loss": 0.9518, "grad_norm": 0.2547036409378052, "learning_rate": 0.0002, "epoch": 0.41379310344827586, "step": 630}, {"loss": 1.0211, "grad_norm": 0.23410943150520325, "learning_rate": 0.0002, "epoch": 0.42036124794745483, "step": 640}, {"loss": 0.9955, "grad_norm": 0.2355576902627945, "learning_rate": 0.0002, "epoch": 0.4269293924466338, "step": 650}, {"loss": 0.9309, "grad_norm": 0.24486494064331055, "learning_rate": 0.0002, "epoch": 0.43349753694581283, "step": 660}, {"loss": 0.9983, "grad_norm": 0.2945767939090729, "learning_rate": 0.0002, "epoch": 0.4400656814449918, "step": 670}, {"loss": 0.978, "grad_norm": 0.2607278525829315, "learning_rate": 0.0002, "epoch": 0.4466338259441708, "step": 680}, {"loss": 1.0254, "grad_norm": 0.24144795536994934, "learning_rate": 0.0002, "epoch": 0.45320197044334976, "step": 690}, {"loss": 0.9567, "grad_norm": 0.24553976953029633, "learning_rate": 0.0002, "epoch": 0.45977011494252873, "step": 700}, {"loss": 0.9287, "grad_norm": 0.33466771245002747, "learning_rate": 0.0002, "epoch": 0.4663382594417077, "step": 710}, {"loss": 0.9598, "grad_norm": 0.2562306225299835, "learning_rate": 0.0002, "epoch": 0.4729064039408867, "step": 720}, {"loss": 0.9618, "grad_norm": 0.27221113443374634, "learning_rate": 0.0002, "epoch": 0.4794745484400657, "step": 730}, {"loss": 0.9875, "grad_norm": 0.2561545968055725, "learning_rate": 0.0002, "epoch": 0.4860426929392447, "step": 740}, {"loss": 0.9735, "grad_norm": 0.25989946722984314, "learning_rate": 0.0002, "epoch": 0.49261083743842365, "step": 750}, {"loss": 0.999, "grad_norm": 0.24011121690273285, "learning_rate": 0.0002, "epoch": 0.49917898193760263, "step": 760}, {"loss": 0.9243, "grad_norm": 0.2581358551979065, "learning_rate": 0.0002, "epoch": 0.5057471264367817, "step": 770}, {"loss": 1.0043, "grad_norm": 0.3326367437839508, "learning_rate": 0.0002, "epoch": 0.5123152709359606, "step": 780}, {"loss": 1.0018, "grad_norm": 0.2606867849826813, "learning_rate": 0.0002, "epoch": 0.5188834154351396, "step": 790}, {"loss": 1.0145, "grad_norm": 0.2348857820034027, "learning_rate": 0.0002, "epoch": 0.5254515599343186, "step": 800}, {"loss": 0.9921, "grad_norm": 0.26966047286987305, "learning_rate": 0.0002, "epoch": 0.5320197044334976, "step": 810}, {"loss": 0.9423, "grad_norm": 0.29568180441856384, "learning_rate": 0.0002, "epoch": 0.5385878489326765, "step": 820}, {"loss": 0.9747, "grad_norm": 0.26731860637664795, "learning_rate": 0.0002, "epoch": 0.5451559934318555, "step": 830}, {"loss": 0.9688, "grad_norm": 0.22862835228443146, "learning_rate": 0.0002, "epoch": 0.5517241379310345, "step": 840}, {"loss": 0.9036, "grad_norm": 0.253200501203537, "learning_rate": 0.0002, "epoch": 0.5582922824302134, "step": 850}, {"loss": 0.9593, "grad_norm": 0.24765369296073914, "learning_rate": 0.0002, "epoch": 0.5648604269293924, "step": 860}, {"loss": 1.0325, "grad_norm": 0.2506278157234192, "learning_rate": 0.0002, "epoch": 0.5714285714285714, "step": 870}, {"loss": 0.9589, "grad_norm": 0.2467229813337326, "learning_rate": 0.0002, "epoch": 0.5779967159277504, "step": 880}, {"loss": 1.0373, "grad_norm": 0.28260812163352966, "learning_rate": 0.0002, "epoch": 0.5845648604269293, "step": 890}, {"loss": 1.013, "grad_norm": 0.30688220262527466, "learning_rate": 0.0002, "epoch": 0.5911330049261084, "step": 900}, {"loss": 0.9954, "grad_norm": 0.2704499065876007, "learning_rate": 0.0002, "epoch": 0.5977011494252874, "step": 910}, {"loss": 0.9863, "grad_norm": 0.25935113430023193, "learning_rate": 0.0002, "epoch": 0.6042692939244664, "step": 920}, {"loss": 1.0334, "grad_norm": 0.26357588171958923, "learning_rate": 0.0002, "epoch": 0.6108374384236454, "step": 930}, {"loss": 0.9545, "grad_norm": 0.285918653011322, "learning_rate": 0.0002, "epoch": 0.6174055829228243, "step": 940}, {"loss": 1.0442, "grad_norm": 0.2900402545928955, "learning_rate": 0.0002, "epoch": 0.6239737274220033, "step": 950}, {"loss": 1.0176, "grad_norm": 0.3001820147037506, "learning_rate": 0.0002, "epoch": 0.6305418719211823, "step": 960}, {"loss": 0.9955, "grad_norm": 0.26947689056396484, "learning_rate": 0.0002, "epoch": 0.6371100164203612, "step": 970}, {"loss": 0.9196, "grad_norm": 0.26384246349334717, "learning_rate": 0.0002, "epoch": 0.6436781609195402, "step": 980}, {"loss": 0.9884, "grad_norm": 0.25315412878990173, "learning_rate": 0.0002, "epoch": 0.6502463054187192, "step": 990}, {"loss": 0.8847, "grad_norm": 0.2927934527397156, "learning_rate": 0.0002, "epoch": 0.6568144499178982, "step": 1000}, {"loss": 0.9579, "grad_norm": 0.2576014995574951, "learning_rate": 0.0002, "epoch": 0.6633825944170771, "step": 1010}, {"loss": 0.9819, "grad_norm": 0.2743370831012726, "learning_rate": 0.0002, "epoch": 0.6699507389162561, "step": 1020}, {"loss": 0.9604, "grad_norm": 0.23460666835308075, "learning_rate": 0.0002, "epoch": 0.6765188834154351, "step": 1030}, {"loss": 1.0088, "grad_norm": 0.2901114523410797, "learning_rate": 0.0002, "epoch": 0.6830870279146142, "step": 1040}, {"loss": 0.947, "grad_norm": 0.29076412320137024, "learning_rate": 0.0002, "epoch": 0.6896551724137931, "step": 1050}, {"loss": 0.9627, "grad_norm": 0.22199974954128265, "learning_rate": 0.0002, "epoch": 0.6962233169129721, "step": 1060}, {"loss": 0.9794, "grad_norm": 0.2604586184024811, "learning_rate": 0.0002, "epoch": 0.7027914614121511, "step": 1070}, {"loss": 1.0133, "grad_norm": 0.31970474123954773, "learning_rate": 0.0002, "epoch": 0.7093596059113301, "step": 1080}, {"loss": 0.9386, "grad_norm": 0.22676599025726318, "learning_rate": 0.0002, "epoch": 0.715927750410509, "step": 1090}, {"loss": 0.9144, "grad_norm": 0.28384289145469666, "learning_rate": 0.0002, "epoch": 0.722495894909688, "step": 1100}, {"loss": 0.9392, "grad_norm": 0.3065142035484314, "learning_rate": 0.0002, "epoch": 0.729064039408867, "step": 1110}, {"loss": 0.9529, "grad_norm": 0.28684625029563904, "learning_rate": 0.0002, "epoch": 0.735632183908046, "step": 1120}, {"loss": 0.9814, "grad_norm": 0.2765620946884155, "learning_rate": 0.0002, "epoch": 0.7422003284072249, "step": 1130}, {"loss": 0.9268, "grad_norm": 0.3625131845474243, "learning_rate": 0.0002, "epoch": 0.7487684729064039, "step": 1140}, {"loss": 0.996, "grad_norm": 0.2499004602432251, "learning_rate": 0.0002, "epoch": 0.7553366174055829, "step": 1150}, {"loss": 0.8736, "grad_norm": 0.2588430345058441, "learning_rate": 0.0002, "epoch": 0.7619047619047619, "step": 1160}, {"loss": 0.9902, "grad_norm": 0.32251620292663574, "learning_rate": 0.0002, "epoch": 0.7684729064039408, "step": 1170}, {"loss": 0.9257, "grad_norm": 0.2910309135913849, "learning_rate": 0.0002, "epoch": 0.7750410509031199, "step": 1180}, {"loss": 0.9909, "grad_norm": 0.21000942587852478, "learning_rate": 0.0002, "epoch": 0.7816091954022989, "step": 1190}, {"loss": 0.9231, "grad_norm": 0.3011322319507599, "learning_rate": 0.0002, "epoch": 0.7881773399014779, "step": 1200}, {"loss": 1.0202, "grad_norm": 0.32380834221839905, "learning_rate": 0.0002, "epoch": 0.7947454844006568, "step": 1210}, {"loss": 0.9467, "grad_norm": 0.2819550335407257, "learning_rate": 0.0002, "epoch": 0.8013136288998358, "step": 1220}, {"loss": 1.0414, "grad_norm": 0.2705429792404175, "learning_rate": 0.0002, "epoch": 0.8078817733990148, "step": 1230}, {"loss": 1.0015, "grad_norm": 0.28179359436035156, "learning_rate": 0.0002, "epoch": 0.8144499178981938, "step": 1240}, {"loss": 0.9797, "grad_norm": 0.38856396079063416, "learning_rate": 0.0002, "epoch": 0.8210180623973727, "step": 1250}, {"loss": 0.9317, "grad_norm": 0.3168312907218933, "learning_rate": 0.0002, "epoch": 0.8275862068965517, "step": 1260}, {"loss": 0.9115, "grad_norm": 0.2556460499763489, "learning_rate": 0.0002, "epoch": 0.8341543513957307, "step": 1270}, {"loss": 1.0468, "grad_norm": 0.26198551058769226, "learning_rate": 0.0002, "epoch": 0.8407224958949097, "step": 1280}, {"loss": 0.9642, "grad_norm": 0.2223411351442337, "learning_rate": 0.0002, "epoch": 0.8472906403940886, "step": 1290}, {"loss": 0.9482, "grad_norm": 0.3308902084827423, "learning_rate": 0.0002, "epoch": 0.8538587848932676, "step": 1300}, {"loss": 0.916, "grad_norm": 0.3318445384502411, "learning_rate": 0.0002, "epoch": 0.8604269293924466, "step": 1310}, {"loss": 0.9581, "grad_norm": 0.2638566493988037, "learning_rate": 0.0002, "epoch": 0.8669950738916257, "step": 1320}, {"loss": 0.9427, "grad_norm": 0.2754646837711334, "learning_rate": 0.0002, "epoch": 0.8735632183908046, "step": 1330}, {"loss": 0.9456, "grad_norm": 0.3134165406227112, "learning_rate": 0.0002, "epoch": 0.8801313628899836, "step": 1340}, {"loss": 0.9738, "grad_norm": 0.2705986797809601, "learning_rate": 0.0002, "epoch": 0.8866995073891626, "step": 1350}, {"loss": 0.9549, "grad_norm": 0.28027281165122986, "learning_rate": 0.0002, "epoch": 0.8932676518883416, "step": 1360}, {"loss": 0.929, "grad_norm": 0.2687486708164215, "learning_rate": 0.0002, "epoch": 0.8998357963875205, "step": 1370}, {"loss": 0.9443, "grad_norm": 0.26650384068489075, "learning_rate": 0.0002, "epoch": 0.9064039408866995, "step": 1380}, {"loss": 0.9457, "grad_norm": 0.26408934593200684, "learning_rate": 0.0002, "epoch": 0.9129720853858785, "step": 1390}, {"loss": 0.9377, "grad_norm": 0.2843779921531677, "learning_rate": 0.0002, "epoch": 0.9195402298850575, "step": 1400}, {"loss": 0.9461, "grad_norm": 0.29413458704948425, "learning_rate": 0.0002, "epoch": 0.9261083743842364, "step": 1410}, {"loss": 1.0096, "grad_norm": 0.29322561621665955, "learning_rate": 0.0002, "epoch": 0.9326765188834154, "step": 1420}, {"loss": 0.9518, "grad_norm": 0.24664123356342316, "learning_rate": 0.0002, "epoch": 0.9392446633825944, "step": 1430}, {"loss": 1.0193, "grad_norm": 0.3175645172595978, "learning_rate": 0.0002, "epoch": 0.9458128078817734, "step": 1440}, {"loss": 0.9487, "grad_norm": 0.2673381567001343, "learning_rate": 0.0002, "epoch": 0.9523809523809523, "step": 1450}, {"loss": 0.9858, "grad_norm": 0.27449601888656616, "learning_rate": 0.0002, "epoch": 0.9589490968801314, "step": 1460}, {"loss": 0.9279, "grad_norm": 0.23957990109920502, "learning_rate": 0.0002, "epoch": 0.9655172413793104, "step": 1470}, {"loss": 0.9522, "grad_norm": 0.297759085893631, "learning_rate": 0.0002, "epoch": 0.9720853858784894, "step": 1480}, {"loss": 0.9188, "grad_norm": 0.2751308083534241, "learning_rate": 0.0002, "epoch": 0.9786535303776683, "step": 1490}, {"loss": 0.9401, "grad_norm": 0.2567637264728546, "learning_rate": 0.0002, "epoch": 0.9852216748768473, "step": 1500}, {"loss": 0.9567, "grad_norm": 0.2433038353919983, "learning_rate": 0.0002, "epoch": 0.9917898193760263, "step": 1510}, {"loss": 0.954, "grad_norm": 0.25872939825057983, "learning_rate": 0.0002, "epoch": 0.9983579638752053, "step": 1520}]}
+{"epoch": 0.999671592775041, "step": 1522, "epoch_duration": 7794.893152475357, "total_accumulated_duration": 7794.893152475357, "gpu_info": {"GPU_0": "NVIDIA A100-PCIE-40GB"}, "memory_usage": {"avg_memory_usage": {"GPU_0": 7887.97119140625}, "peak_memory_usage": {"GPU_0": 11696.9921875}, "avg_memory_reserved": {"GPU_0": 12786.0}, "peak_memory_reserved": {"GPU_0": 12786.0}, "total_memory": {"GPU_0": 40444.375}}, "best_checkpoint_path": "N/A", "params": {"epochs": 8, "batch_size": 1, "learning_rate": 0.0002, "gradient_accumulation_steps": 2, "warmup_ratio": 0.03, "max_grad_norm": 0.3, "lora_alpha": 32, "lora_dropout": 0.05, "lora_r": 64, "tf32": true, "seed": 42}, "log_history": [{"loss": 2.6004, "grad_norm": 0.8613492250442505, "learning_rate": 0.0002, "epoch": 0.006568144499178982, "step": 10}, {"loss": 1.664, "grad_norm": 0.854459285736084, "learning_rate": 0.0002, "epoch": 0.013136288998357963, "step": 20}, {"loss": 1.2963, "grad_norm": 0.7780120968818665, "learning_rate": 0.0002, "epoch": 0.019704433497536946, "step": 30}, {"loss": 1.1385, "grad_norm": 0.36866915225982666, "learning_rate": 0.0002, "epoch": 0.026272577996715927, "step": 40}, {"loss": 1.0393, "grad_norm": 0.3133663237094879, "learning_rate": 0.0002, "epoch": 0.03284072249589491, "step": 50}, {"loss": 1.0663, "grad_norm": 0.3518275320529938, "learning_rate": 0.0002, "epoch": 0.03940886699507389, "step": 60}, {"loss": 0.9464, "grad_norm": 0.3882162272930145, "learning_rate": 0.0002, "epoch": 0.04597701149425287, "step": 70}, {"loss": 0.9951, "grad_norm": 0.2990604043006897, "learning_rate": 0.0002, "epoch": 0.052545155993431854, "step": 80}, {"loss": 1.0355, "grad_norm": 0.3430468738079071, "learning_rate": 0.0002, "epoch": 0.059113300492610835, "step": 90}, {"loss": 1.0346, "grad_norm": 0.285379022359848, "learning_rate": 0.0002, "epoch": 0.06568144499178982, "step": 100}, {"loss": 1.0134, "grad_norm": 0.2594936788082123, "learning_rate": 0.0002, "epoch": 0.0722495894909688, "step": 110}, {"loss": 1.0355, "grad_norm": 0.31667107343673706, "learning_rate": 0.0002, "epoch": 0.07881773399014778, "step": 120}, {"loss": 1.0041, "grad_norm": 0.31542691588401794, "learning_rate": 0.0002, "epoch": 0.08538587848932677, "step": 130}, {"loss": 1.0145, "grad_norm": 0.32582634687423706, "learning_rate": 0.0002, "epoch": 0.09195402298850575, "step": 140}, {"loss": 0.9655, "grad_norm": 0.3093009293079376, "learning_rate": 0.0002, "epoch": 0.09852216748768473, "step": 150}, {"loss": 1.0113, "grad_norm": 0.24318133294582367, "learning_rate": 0.0002, "epoch": 0.10509031198686371, "step": 160}, {"loss": 1.019, "grad_norm": 0.28837549686431885, "learning_rate": 0.0002, "epoch": 0.1116584564860427, "step": 170}, {"loss": 1.0351, "grad_norm": 0.2778419852256775, "learning_rate": 0.0002, "epoch": 0.11822660098522167, "step": 180}, {"loss": 1.013, "grad_norm": 0.26860564947128296, "learning_rate": 0.0002, "epoch": 0.12479474548440066, "step": 190}, {"loss": 1.0414, "grad_norm": 0.26188144087791443, "learning_rate": 0.0002, "epoch": 0.13136288998357964, "step": 200}, {"loss": 0.9904, "grad_norm": 0.3241795003414154, "learning_rate": 0.0002, "epoch": 0.13793103448275862, "step": 210}, {"loss": 0.9882, "grad_norm": 0.3102398216724396, "learning_rate": 0.0002, "epoch": 0.1444991789819376, "step": 220}, {"loss": 1.0055, "grad_norm": 0.24929021298885345, "learning_rate": 0.0002, "epoch": 0.1510673234811166, "step": 230}, {"loss": 0.9375, "grad_norm": 0.26640093326568604, "learning_rate": 0.0002, "epoch": 0.15763546798029557, "step": 240}, {"loss": 0.9567, "grad_norm": 0.34735554456710815, "learning_rate": 0.0002, "epoch": 0.16420361247947454, "step": 250}, {"loss": 0.9542, "grad_norm": 0.25600048899650574, "learning_rate": 0.0002, "epoch": 0.17077175697865354, "step": 260}, {"loss": 1.0096, "grad_norm": 0.2997046709060669, "learning_rate": 0.0002, "epoch": 0.17733990147783252, "step": 270}, {"loss": 0.9974, "grad_norm": 0.23683993518352509, "learning_rate": 0.0002, "epoch": 0.1839080459770115, "step": 280}, {"loss": 0.9891, "grad_norm": 0.25879305601119995, "learning_rate": 0.0002, "epoch": 0.19047619047619047, "step": 290}, {"loss": 1.0256, "grad_norm": 0.23905311524868011, "learning_rate": 0.0002, "epoch": 0.19704433497536947, "step": 300}, {"loss": 1.0009, "grad_norm": 0.28073516488075256, "learning_rate": 0.0002, "epoch": 0.20361247947454844, "step": 310}, {"loss": 1.0059, "grad_norm": 0.23301444947719574, "learning_rate": 0.0002, "epoch": 0.21018062397372742, "step": 320}, {"loss": 1.0373, "grad_norm": 0.28721678256988525, "learning_rate": 0.0002, "epoch": 0.21674876847290642, "step": 330}, {"loss": 1.0133, "grad_norm": 0.24388359487056732, "learning_rate": 0.0002, "epoch": 0.2233169129720854, "step": 340}, {"loss": 1.0066, "grad_norm": 0.25199469923973083, "learning_rate": 0.0002, "epoch": 0.22988505747126436, "step": 350}, {"loss": 0.9588, "grad_norm": 0.26013699173927307, "learning_rate": 0.0002, "epoch": 0.23645320197044334, "step": 360}, {"loss": 0.9844, "grad_norm": 0.3220357894897461, "learning_rate": 0.0002, "epoch": 0.24302134646962234, "step": 370}, {"loss": 0.9479, "grad_norm": 0.23451396822929382, "learning_rate": 0.0002, "epoch": 0.24958949096880131, "step": 380}, {"loss": 0.9567, "grad_norm": 0.2818313539028168, "learning_rate": 0.0002, "epoch": 0.2561576354679803, "step": 390}, {"loss": 0.9853, "grad_norm": 0.2609928250312805, "learning_rate": 0.0002, "epoch": 0.2627257799671593, "step": 400}, {"loss": 0.9579, "grad_norm": 0.21925799548625946, "learning_rate": 0.0002, "epoch": 0.26929392446633826, "step": 410}, {"loss": 0.9971, "grad_norm": 0.2438887357711792, "learning_rate": 0.0002, "epoch": 0.27586206896551724, "step": 420}, {"loss": 0.9853, "grad_norm": 0.2887968420982361, "learning_rate": 0.0002, "epoch": 0.2824302134646962, "step": 430}, {"loss": 0.9756, "grad_norm": 0.2703661024570465, "learning_rate": 0.0002, "epoch": 0.2889983579638752, "step": 440}, {"loss": 1.0425, "grad_norm": 0.28134551644325256, "learning_rate": 0.0002, "epoch": 0.2955665024630542, "step": 450}, {"loss": 0.9922, "grad_norm": 0.29503315687179565, "learning_rate": 0.0002, "epoch": 0.3021346469622332, "step": 460}, {"loss": 0.9833, "grad_norm": 0.26881396770477295, "learning_rate": 0.0002, "epoch": 0.30870279146141216, "step": 470}, {"loss": 1.0264, "grad_norm": 0.3016358017921448, "learning_rate": 0.0002, "epoch": 0.31527093596059114, "step": 480}, {"loss": 0.9626, "grad_norm": 0.29355326294898987, "learning_rate": 0.0002, "epoch": 0.3218390804597701, "step": 490}, {"loss": 0.9638, "grad_norm": 0.2375575453042984, "learning_rate": 0.0002, "epoch": 0.3284072249589491, "step": 500}, {"loss": 1.0255, "grad_norm": 0.27171123027801514, "learning_rate": 0.0002, "epoch": 0.33497536945812806, "step": 510}, {"loss": 0.9576, "grad_norm": 0.24370001256465912, "learning_rate": 0.0002, "epoch": 0.3415435139573071, "step": 520}, {"loss": 0.985, "grad_norm": 0.25644388794898987, "learning_rate": 0.0002, "epoch": 0.34811165845648606, "step": 530}, {"loss": 1.0162, "grad_norm": 0.2626535892486572, "learning_rate": 0.0002, "epoch": 0.35467980295566504, "step": 540}, {"loss": 1.0272, "grad_norm": 0.24050098657608032, "learning_rate": 0.0002, "epoch": 0.361247947454844, "step": 550}, {"loss": 0.9907, "grad_norm": 0.2717348337173462, "learning_rate": 0.0002, "epoch": 0.367816091954023, "step": 560}, {"loss": 0.9579, "grad_norm": 0.26437148451805115, "learning_rate": 0.0002, "epoch": 0.37438423645320196, "step": 570}, {"loss": 1.0199, "grad_norm": 0.3524196147918701, "learning_rate": 0.0002, "epoch": 0.38095238095238093, "step": 580}, {"loss": 0.903, "grad_norm": 0.25494834780693054, "learning_rate": 0.0002, "epoch": 0.38752052545155996, "step": 590}, {"loss": 0.9823, "grad_norm": 0.2706734240055084, "learning_rate": 0.0002, "epoch": 0.39408866995073893, "step": 600}, {"loss": 0.9858, "grad_norm": 0.2832331657409668, "learning_rate": 0.0002, "epoch": 0.4006568144499179, "step": 610}, {"loss": 0.9725, "grad_norm": 0.3186213970184326, "learning_rate": 0.0002, "epoch": 0.4072249589490969, "step": 620}, {"loss": 0.9518, "grad_norm": 0.2547036409378052, "learning_rate": 0.0002, "epoch": 0.41379310344827586, "step": 630}, {"loss": 1.0211, "grad_norm": 0.23410943150520325, "learning_rate": 0.0002, "epoch": 0.42036124794745483, "step": 640}, {"loss": 0.9955, "grad_norm": 0.2355576902627945, "learning_rate": 0.0002, "epoch": 0.4269293924466338, "step": 650}, {"loss": 0.9309, "grad_norm": 0.24486494064331055, "learning_rate": 0.0002, "epoch": 0.43349753694581283, "step": 660}, {"loss": 0.9983, "grad_norm": 0.2945767939090729, "learning_rate": 0.0002, "epoch": 0.4400656814449918, "step": 670}, {"loss": 0.978, "grad_norm": 0.2607278525829315, "learning_rate": 0.0002, "epoch": 0.4466338259441708, "step": 680}, {"loss": 1.0254, "grad_norm": 0.24144795536994934, "learning_rate": 0.0002, "epoch": 0.45320197044334976, "step": 690}, {"loss": 0.9567, "grad_norm": 0.24553976953029633, "learning_rate": 0.0002, "epoch": 0.45977011494252873, "step": 700}, {"loss": 0.9287, "grad_norm": 0.33466771245002747, "learning_rate": 0.0002, "epoch": 0.4663382594417077, "step": 710}, {"loss": 0.9598, "grad_norm": 0.2562306225299835, "learning_rate": 0.0002, "epoch": 0.4729064039408867, "step": 720}, {"loss": 0.9618, "grad_norm": 0.27221113443374634, "learning_rate": 0.0002, "epoch": 0.4794745484400657, "step": 730}, {"loss": 0.9875, "grad_norm": 0.2561545968055725, "learning_rate": 0.0002, "epoch": 0.4860426929392447, "step": 740}, {"loss": 0.9735, "grad_norm": 0.25989946722984314, "learning_rate": 0.0002, "epoch": 0.49261083743842365, "step": 750}, {"loss": 0.999, "grad_norm": 0.24011121690273285, "learning_rate": 0.0002, "epoch": 0.49917898193760263, "step": 760}, {"loss": 0.9243, "grad_norm": 0.2581358551979065, "learning_rate": 0.0002, "epoch": 0.5057471264367817, "step": 770}, {"loss": 1.0043, "grad_norm": 0.3326367437839508, "learning_rate": 0.0002, "epoch": 0.5123152709359606, "step": 780}, {"loss": 1.0018, "grad_norm": 0.2606867849826813, "learning_rate": 0.0002, "epoch": 0.5188834154351396, "step": 790}, {"loss": 1.0145, "grad_norm": 0.2348857820034027, "learning_rate": 0.0002, "epoch": 0.5254515599343186, "step": 800}, {"loss": 0.9921, "grad_norm": 0.26966047286987305, "learning_rate": 0.0002, "epoch": 0.5320197044334976, "step": 810}, {"loss": 0.9423, "grad_norm": 0.29568180441856384, "learning_rate": 0.0002, "epoch": 0.5385878489326765, "step": 820}, {"loss": 0.9747, "grad_norm": 0.26731860637664795, "learning_rate": 0.0002, "epoch": 0.5451559934318555, "step": 830}, {"loss": 0.9688, "grad_norm": 0.22862835228443146, "learning_rate": 0.0002, "epoch": 0.5517241379310345, "step": 840}, {"loss": 0.9036, "grad_norm": 0.253200501203537, "learning_rate": 0.0002, "epoch": 0.5582922824302134, "step": 850}, {"loss": 0.9593, "grad_norm": 0.24765369296073914, "learning_rate": 0.0002, "epoch": 0.5648604269293924, "step": 860}, {"loss": 1.0325, "grad_norm": 0.2506278157234192, "learning_rate": 0.0002, "epoch": 0.5714285714285714, "step": 870}, {"loss": 0.9589, "grad_norm": 0.2467229813337326, "learning_rate": 0.0002, "epoch": 0.5779967159277504, "step": 880}, {"loss": 1.0373, "grad_norm": 0.28260812163352966, "learning_rate": 0.0002, "epoch": 0.5845648604269293, "step": 890}, {"loss": 1.013, "grad_norm": 0.30688220262527466, "learning_rate": 0.0002, "epoch": 0.5911330049261084, "step": 900}, {"loss": 0.9954, "grad_norm": 0.2704499065876007, "learning_rate": 0.0002, "epoch": 0.5977011494252874, "step": 910}, {"loss": 0.9863, "grad_norm": 0.25935113430023193, "learning_rate": 0.0002, "epoch": 0.6042692939244664, "step": 920}, {"loss": 1.0334, "grad_norm": 0.26357588171958923, "learning_rate": 0.0002, "epoch": 0.6108374384236454, "step": 930}, {"loss": 0.9545, "grad_norm": 0.285918653011322, "learning_rate": 0.0002, "epoch": 0.6174055829228243, "step": 940}, {"loss": 1.0442, "grad_norm": 0.2900402545928955, "learning_rate": 0.0002, "epoch": 0.6239737274220033, "step": 950}, {"loss": 1.0176, "grad_norm": 0.3001820147037506, "learning_rate": 0.0002, "epoch": 0.6305418719211823, "step": 960}, {"loss": 0.9955, "grad_norm": 0.26947689056396484, "learning_rate": 0.0002, "epoch": 0.6371100164203612, "step": 970}, {"loss": 0.9196, "grad_norm": 0.26384246349334717, "learning_rate": 0.0002, "epoch": 0.6436781609195402, "step": 980}, {"loss": 0.9884, "grad_norm": 0.25315412878990173, "learning_rate": 0.0002, "epoch": 0.6502463054187192, "step": 990}, {"loss": 0.8847, "grad_norm": 0.2927934527397156, "learning_rate": 0.0002, "epoch": 0.6568144499178982, "step": 1000}, {"loss": 0.9579, "grad_norm": 0.2576014995574951, "learning_rate": 0.0002, "epoch": 0.6633825944170771, "step": 1010}, {"loss": 0.9819, "grad_norm": 0.2743370831012726, "learning_rate": 0.0002, "epoch": 0.6699507389162561, "step": 1020}, {"loss": 0.9604, "grad_norm": 0.23460666835308075, "learning_rate": 0.0002, "epoch": 0.6765188834154351, "step": 1030}, {"loss": 1.0088, "grad_norm": 0.2901114523410797, "learning_rate": 0.0002, "epoch": 0.6830870279146142, "step": 1040}, {"loss": 0.947, "grad_norm": 0.29076412320137024, "learning_rate": 0.0002, "epoch": 0.6896551724137931, "step": 1050}, {"loss": 0.9627, "grad_norm": 0.22199974954128265, "learning_rate": 0.0002, "epoch": 0.6962233169129721, "step": 1060}, {"loss": 0.9794, "grad_norm": 0.2604586184024811, "learning_rate": 0.0002, "epoch": 0.7027914614121511, "step": 1070}, {"loss": 1.0133, "grad_norm": 0.31970474123954773, "learning_rate": 0.0002, "epoch": 0.7093596059113301, "step": 1080}, {"loss": 0.9386, "grad_norm": 0.22676599025726318, "learning_rate": 0.0002, "epoch": 0.715927750410509, "step": 1090}, {"loss": 0.9144, "grad_norm": 0.28384289145469666, "learning_rate": 0.0002, "epoch": 0.722495894909688, "step": 1100}, {"loss": 0.9392, "grad_norm": 0.3065142035484314, "learning_rate": 0.0002, "epoch": 0.729064039408867, "step": 1110}, {"loss": 0.9529, "grad_norm": 0.28684625029563904, "learning_rate": 0.0002, "epoch": 0.735632183908046, "step": 1120}, {"loss": 0.9814, "grad_norm": 0.2765620946884155, "learning_rate": 0.0002, "epoch": 0.7422003284072249, "step": 1130}, {"loss": 0.9268, "grad_norm": 0.3625131845474243, "learning_rate": 0.0002, "epoch": 0.7487684729064039, "step": 1140}, {"loss": 0.996, "grad_norm": 0.2499004602432251, "learning_rate": 0.0002, "epoch": 0.7553366174055829, "step": 1150}, {"loss": 0.8736, "grad_norm": 0.2588430345058441, "learning_rate": 0.0002, "epoch": 0.7619047619047619, "step": 1160}, {"loss": 0.9902, "grad_norm": 0.32251620292663574, "learning_rate": 0.0002, "epoch": 0.7684729064039408, "step": 1170}, {"loss": 0.9257, "grad_norm": 0.2910309135913849, "learning_rate": 0.0002, "epoch": 0.7750410509031199, "step": 1180}, {"loss": 0.9909, "grad_norm": 0.21000942587852478, "learning_rate": 0.0002, "epoch": 0.7816091954022989, "step": 1190}, {"loss": 0.9231, "grad_norm": 0.3011322319507599, "learning_rate": 0.0002, "epoch": 0.7881773399014779, "step": 1200}, {"loss": 1.0202, "grad_norm": 0.32380834221839905, "learning_rate": 0.0002, "epoch": 0.7947454844006568, "step": 1210}, {"loss": 0.9467, "grad_norm": 0.2819550335407257, "learning_rate": 0.0002, "epoch": 0.8013136288998358, "step": 1220}, {"loss": 1.0414, "grad_norm": 0.2705429792404175, "learning_rate": 0.0002, "epoch": 0.8078817733990148, "step": 1230}, {"loss": 1.0015, "grad_norm": 0.28179359436035156, "learning_rate": 0.0002, "epoch": 0.8144499178981938, "step": 1240}, {"loss": 0.9797, "grad_norm": 0.38856396079063416, "learning_rate": 0.0002, "epoch": 0.8210180623973727, "step": 1250}, {"loss": 0.9317, "grad_norm": 0.3168312907218933, "learning_rate": 0.0002, "epoch": 0.8275862068965517, "step": 1260}, {"loss": 0.9115, "grad_norm": 0.2556460499763489, "learning_rate": 0.0002, "epoch": 0.8341543513957307, "step": 1270}, {"loss": 1.0468, "grad_norm": 0.26198551058769226, "learning_rate": 0.0002, "epoch": 0.8407224958949097, "step": 1280}, {"loss": 0.9642, "grad_norm": 0.2223411351442337, "learning_rate": 0.0002, "epoch": 0.8472906403940886, "step": 1290}, {"loss": 0.9482, "grad_norm": 0.3308902084827423, "learning_rate": 0.0002, "epoch": 0.8538587848932676, "step": 1300}, {"loss": 0.916, "grad_norm": 0.3318445384502411, "learning_rate": 0.0002, "epoch": 0.8604269293924466, "step": 1310}, {"loss": 0.9581, "grad_norm": 0.2638566493988037, "learning_rate": 0.0002, "epoch": 0.8669950738916257, "step": 1320}, {"loss": 0.9427, "grad_norm": 0.2754646837711334, "learning_rate": 0.0002, "epoch": 0.8735632183908046, "step": 1330}, {"loss": 0.9456, "grad_norm": 0.3134165406227112, "learning_rate": 0.0002, "epoch": 0.8801313628899836, "step": 1340}, {"loss": 0.9738, "grad_norm": 0.2705986797809601, "learning_rate": 0.0002, "epoch": 0.8866995073891626, "step": 1350}, {"loss": 0.9549, "grad_norm": 0.28027281165122986, "learning_rate": 0.0002, "epoch": 0.8932676518883416, "step": 1360}, {"loss": 0.929, "grad_norm": 0.2687486708164215, "learning_rate": 0.0002, "epoch": 0.8998357963875205, "step": 1370}, {"loss": 0.9443, "grad_norm": 0.26650384068489075, "learning_rate": 0.0002, "epoch": 0.9064039408866995, "step": 1380}, {"loss": 0.9457, "grad_norm": 0.26408934593200684, "learning_rate": 0.0002, "epoch": 0.9129720853858785, "step": 1390}, {"loss": 0.9377, "grad_norm": 0.2843779921531677, "learning_rate": 0.0002, "epoch": 0.9195402298850575, "step": 1400}, {"loss": 0.9461, "grad_norm": 0.29413458704948425, "learning_rate": 0.0002, "epoch": 0.9261083743842364, "step": 1410}, {"loss": 1.0096, "grad_norm": 0.29322561621665955, "learning_rate": 0.0002, "epoch": 0.9326765188834154, "step": 1420}, {"loss": 0.9518, "grad_norm": 0.24664123356342316, "learning_rate": 0.0002, "epoch": 0.9392446633825944, "step": 1430}, {"loss": 1.0193, "grad_norm": 0.3175645172595978, "learning_rate": 0.0002, "epoch": 0.9458128078817734, "step": 1440}, {"loss": 0.9487, "grad_norm": 0.2673381567001343, "learning_rate": 0.0002, "epoch": 0.9523809523809523, "step": 1450}, {"loss": 0.9858, "grad_norm": 0.27449601888656616, "learning_rate": 0.0002, "epoch": 0.9589490968801314, "step": 1460}, {"loss": 0.9279, "grad_norm": 0.23957990109920502, "learning_rate": 0.0002, "epoch": 0.9655172413793104, "step": 1470}, {"loss": 0.9522, "grad_norm": 0.297759085893631, "learning_rate": 0.0002, "epoch": 0.9720853858784894, "step": 1480}, {"loss": 0.9188, "grad_norm": 0.2751308083534241, "learning_rate": 0.0002, "epoch": 0.9786535303776683, "step": 1490}, {"loss": 0.9401, "grad_norm": 0.2567637264728546, "learning_rate": 0.0002, "epoch": 0.9852216748768473, "step": 1500}, {"loss": 0.9567, "grad_norm": 0.2433038353919983, "learning_rate": 0.0002, "epoch": 0.9917898193760263, "step": 1510}, {"loss": 0.954, "grad_norm": 0.25872939825057983, "learning_rate": 0.0002, "epoch": 0.9983579638752053, "step": 1520}]}
+{"epoch": 0.999671592775041, "step": 1522, "epoch_duration": 9785.368999481201, "total_accumulated_duration": 9785.368999481201, "gpu_info": {"GPU_0": "NVIDIA A100-PCIE-40GB"}, "memory_usage": {"avg_memory_usage": {"GPU_0": 7887.97119140625}, "peak_memory_usage": {"GPU_0": 11696.9921875}, "avg_memory_reserved": {"GPU_0": 12786.0}, "peak_memory_reserved": {"GPU_0": 12786.0}, "total_memory": {"GPU_0": 40444.375}}, "best_checkpoint_path": "N/A", "params": {"epochs": 8, "batch_size": 1, "learning_rate": 0.0002, "gradient_accumulation_steps": 2, "warmup_ratio": 0.03, "max_grad_norm": 0.3, "lora_alpha": 32, "lora_dropout": 0.05, "lora_r": 64, "tf32": true, "seed": 42}, "log_history": [{"loss": 2.6004, "grad_norm": 0.8613492250442505, "learning_rate": 0.0002, "epoch": 0.006568144499178982, "step": 10}, {"loss": 1.664, "grad_norm": 0.854459285736084, "learning_rate": 0.0002, "epoch": 0.013136288998357963, "step": 20}, {"loss": 1.2963, "grad_norm": 0.7780120968818665, "learning_rate": 0.0002, "epoch": 0.019704433497536946, "step": 30}, {"loss": 1.1385, "grad_norm": 0.36866915225982666, "learning_rate": 0.0002, "epoch": 0.026272577996715927, "step": 40}, {"loss": 1.0393, "grad_norm": 0.3133663237094879, "learning_rate": 0.0002, "epoch": 0.03284072249589491, "step": 50}, {"loss": 1.0663, "grad_norm": 0.3518275320529938, "learning_rate": 0.0002, "epoch": 0.03940886699507389, "step": 60}, {"loss": 0.9464, "grad_norm": 0.3882162272930145, "learning_rate": 0.0002, "epoch": 0.04597701149425287, "step": 70}, {"loss": 0.9951, "grad_norm": 0.2990604043006897, "learning_rate": 0.0002, "epoch": 0.052545155993431854, "step": 80}, {"loss": 1.0355, "grad_norm": 0.3430468738079071, "learning_rate": 0.0002, "epoch": 0.059113300492610835, "step": 90}, {"loss": 1.0346, "grad_norm": 0.285379022359848, "learning_rate": 0.0002, "epoch": 0.06568144499178982, "step": 100}, {"loss": 1.0134, "grad_norm": 0.2594936788082123, "learning_rate": 0.0002, "epoch": 0.0722495894909688, "step": 110}, {"loss": 1.0355, "grad_norm": 0.31667107343673706, "learning_rate": 0.0002, "epoch": 0.07881773399014778, "step": 120}, {"loss": 1.0041, "grad_norm": 0.31542691588401794, "learning_rate": 0.0002, "epoch": 0.08538587848932677, "step": 130}, {"loss": 1.0145, "grad_norm": 0.32582634687423706, "learning_rate": 0.0002, "epoch": 0.09195402298850575, "step": 140}, {"loss": 0.9655, "grad_norm": 0.3093009293079376, "learning_rate": 0.0002, "epoch": 0.09852216748768473, "step": 150}, {"loss": 1.0113, "grad_norm": 0.24318133294582367, "learning_rate": 0.0002, "epoch": 0.10509031198686371, "step": 160}, {"loss": 1.019, "grad_norm": 0.28837549686431885, "learning_rate": 0.0002, "epoch": 0.1116584564860427, "step": 170}, {"loss": 1.0351, "grad_norm": 0.2778419852256775, "learning_rate": 0.0002, "epoch": 0.11822660098522167, "step": 180}, {"loss": 1.013, "grad_norm": 0.26860564947128296, "learning_rate": 0.0002, "epoch": 0.12479474548440066, "step": 190}, {"loss": 1.0414, "grad_norm": 0.26188144087791443, "learning_rate": 0.0002, "epoch": 0.13136288998357964, "step": 200}, {"loss": 0.9904, "grad_norm": 0.3241795003414154, "learning_rate": 0.0002, "epoch": 0.13793103448275862, "step": 210}, {"loss": 0.9882, "grad_norm": 0.3102398216724396, "learning_rate": 0.0002, "epoch": 0.1444991789819376, "step": 220}, {"loss": 1.0055, "grad_norm": 0.24929021298885345, "learning_rate": 0.0002, "epoch": 0.1510673234811166, "step": 230}, {"loss": 0.9375, "grad_norm": 0.26640093326568604, "learning_rate": 0.0002, "epoch": 0.15763546798029557, "step": 240}, {"loss": 0.9567, "grad_norm": 0.34735554456710815, "learning_rate": 0.0002, "epoch": 0.16420361247947454, "step": 250}, {"loss": 0.9542, "grad_norm": 0.25600048899650574, "learning_rate": 0.0002, "epoch": 0.17077175697865354, "step": 260}, {"loss": 1.0096, "grad_norm": 0.2997046709060669, "learning_rate": 0.0002, "epoch": 0.17733990147783252, "step": 270}, {"loss": 0.9974, "grad_norm": 0.23683993518352509, "learning_rate": 0.0002, "epoch": 0.1839080459770115, "step": 280}, {"loss": 0.9891, "grad_norm": 0.25879305601119995, "learning_rate": 0.0002, "epoch": 0.19047619047619047, "step": 290}, {"loss": 1.0256, "grad_norm": 0.23905311524868011, "learning_rate": 0.0002, "epoch": 0.19704433497536947, "step": 300}, {"loss": 1.0009, "grad_norm": 0.28073516488075256, "learning_rate": 0.0002, "epoch": 0.20361247947454844, "step": 310}, {"loss": 1.0059, "grad_norm": 0.23301444947719574, "learning_rate": 0.0002, "epoch": 0.21018062397372742, "step": 320}, {"loss": 1.0373, "grad_norm": 0.28721678256988525, "learning_rate": 0.0002, "epoch": 0.21674876847290642, "step": 330}, {"loss": 1.0133, "grad_norm": 0.24388359487056732, "learning_rate": 0.0002, "epoch": 0.2233169129720854, "step": 340}, {"loss": 1.0066, "grad_norm": 0.25199469923973083, "learning_rate": 0.0002, "epoch": 0.22988505747126436, "step": 350}, {"loss": 0.9588, "grad_norm": 0.26013699173927307, "learning_rate": 0.0002, "epoch": 0.23645320197044334, "step": 360}, {"loss": 0.9844, "grad_norm": 0.3220357894897461, "learning_rate": 0.0002, "epoch": 0.24302134646962234, "step": 370}, {"loss": 0.9479, "grad_norm": 0.23451396822929382, "learning_rate": 0.0002, "epoch": 0.24958949096880131, "step": 380}, {"loss": 0.9567, "grad_norm": 0.2818313539028168, "learning_rate": 0.0002, "epoch": 0.2561576354679803, "step": 390}, {"loss": 0.9853, "grad_norm": 0.2609928250312805, "learning_rate": 0.0002, "epoch": 0.2627257799671593, "step": 400}, {"loss": 0.9579, "grad_norm": 0.21925799548625946, "learning_rate": 0.0002, "epoch": 0.26929392446633826, "step": 410}, {"loss": 0.9971, "grad_norm": 0.2438887357711792, "learning_rate": 0.0002, "epoch": 0.27586206896551724, "step": 420}, {"loss": 0.9853, "grad_norm": 0.2887968420982361, "learning_rate": 0.0002, "epoch": 0.2824302134646962, "step": 430}, {"loss": 0.9756, "grad_norm": 0.2703661024570465, "learning_rate": 0.0002, "epoch": 0.2889983579638752, "step": 440}, {"loss": 1.0425, "grad_norm": 0.28134551644325256, "learning_rate": 0.0002, "epoch": 0.2955665024630542, "step": 450}, {"loss": 0.9922, "grad_norm": 0.29503315687179565, "learning_rate": 0.0002, "epoch": 0.3021346469622332, "step": 460}, {"loss": 0.9833, "grad_norm": 0.26881396770477295, "learning_rate": 0.0002, "epoch": 0.30870279146141216, "step": 470}, {"loss": 1.0264, "grad_norm": 0.3016358017921448, "learning_rate": 0.0002, "epoch": 0.31527093596059114, "step": 480}, {"loss": 0.9626, "grad_norm": 0.29355326294898987, "learning_rate": 0.0002, "epoch": 0.3218390804597701, "step": 490}, {"loss": 0.9638, "grad_norm": 0.2375575453042984, "learning_rate": 0.0002, "epoch": 0.3284072249589491, "step": 500}, {"loss": 1.0255, "grad_norm": 0.27171123027801514, "learning_rate": 0.0002, "epoch": 0.33497536945812806, "step": 510}, {"loss": 0.9576, "grad_norm": 0.24370001256465912, "learning_rate": 0.0002, "epoch": 0.3415435139573071, "step": 520}, {"loss": 0.985, "grad_norm": 0.25644388794898987, "learning_rate": 0.0002, "epoch": 0.34811165845648606, "step": 530}, {"loss": 1.0162, "grad_norm": 0.2626535892486572, "learning_rate": 0.0002, "epoch": 0.35467980295566504, "step": 540}, {"loss": 1.0272, "grad_norm": 0.24050098657608032, "learning_rate": 0.0002, "epoch": 0.361247947454844, "step": 550}, {"loss": 0.9907, "grad_norm": 0.2717348337173462, "learning_rate": 0.0002, "epoch": 0.367816091954023, "step": 560}, {"loss": 0.9579, "grad_norm": 0.26437148451805115, "learning_rate": 0.0002, "epoch": 0.37438423645320196, "step": 570}, {"loss": 1.0199, "grad_norm": 0.3524196147918701, "learning_rate": 0.0002, "epoch": 0.38095238095238093, "step": 580}, {"loss": 0.903, "grad_norm": 0.25494834780693054, "learning_rate": 0.0002, "epoch": 0.38752052545155996, "step": 590}, {"loss": 0.9823, "grad_norm": 0.2706734240055084, "learning_rate": 0.0002, "epoch": 0.39408866995073893, "step": 600}, {"loss": 0.9858, "grad_norm": 0.2832331657409668, "learning_rate": 0.0002, "epoch": 0.4006568144499179, "step": 610}, {"loss": 0.9725, "grad_norm": 0.3186213970184326, "learning_rate": 0.0002, "epoch": 0.4072249589490969, "step": 620}, {"loss": 0.9518, "grad_norm": 0.2547036409378052, "learning_rate": 0.0002, "epoch": 0.41379310344827586, "step": 630}, {"loss": 1.0211, "grad_norm": 0.23410943150520325, "learning_rate": 0.0002, "epoch": 0.42036124794745483, "step": 640}, {"loss": 0.9955, "grad_norm": 0.2355576902627945, "learning_rate": 0.0002, "epoch": 0.4269293924466338, "step": 650}, {"loss": 0.9309, "grad_norm": 0.24486494064331055, "learning_rate": 0.0002, "epoch": 0.43349753694581283, "step": 660}, {"loss": 0.9983, "grad_norm": 0.2945767939090729, "learning_rate": 0.0002, "epoch": 0.4400656814449918, "step": 670}, {"loss": 0.978, "grad_norm": 0.2607278525829315, "learning_rate": 0.0002, "epoch": 0.4466338259441708, "step": 680}, {"loss": 1.0254, "grad_norm": 0.24144795536994934, "learning_rate": 0.0002, "epoch": 0.45320197044334976, "step": 690}, {"loss": 0.9567, "grad_norm": 0.24553976953029633, "learning_rate": 0.0002, "epoch": 0.45977011494252873, "step": 700}, {"loss": 0.9287, "grad_norm": 0.33466771245002747, "learning_rate": 0.0002, "epoch": 0.4663382594417077, "step": 710}, {"loss": 0.9598, "grad_norm": 0.2562306225299835, "learning_rate": 0.0002, "epoch": 0.4729064039408867, "step": 720}, {"loss": 0.9618, "grad_norm": 0.27221113443374634, "learning_rate": 0.0002, "epoch": 0.4794745484400657, "step": 730}, {"loss": 0.9875, "grad_norm": 0.2561545968055725, "learning_rate": 0.0002, "epoch": 0.4860426929392447, "step": 740}, {"loss": 0.9735, "grad_norm": 0.25989946722984314, "learning_rate": 0.0002, "epoch": 0.49261083743842365, "step": 750}, {"loss": 0.999, "grad_norm": 0.24011121690273285, "learning_rate": 0.0002, "epoch": 0.49917898193760263, "step": 760}, {"loss": 0.9243, "grad_norm": 0.2581358551979065, "learning_rate": 0.0002, "epoch": 0.5057471264367817, "step": 770}, {"loss": 1.0043, "grad_norm": 0.3326367437839508, "learning_rate": 0.0002, "epoch": 0.5123152709359606, "step": 780}, {"loss": 1.0018, "grad_norm": 0.2606867849826813, "learning_rate": 0.0002, "epoch": 0.5188834154351396, "step": 790}, {"loss": 1.0145, "grad_norm": 0.2348857820034027, "learning_rate": 0.0002, "epoch": 0.5254515599343186, "step": 800}, {"loss": 0.9921, "grad_norm": 0.26966047286987305, "learning_rate": 0.0002, "epoch": 0.5320197044334976, "step": 810}, {"loss": 0.9423, "grad_norm": 0.29568180441856384, "learning_rate": 0.0002, "epoch": 0.5385878489326765, "step": 820}, {"loss": 0.9747, "grad_norm": 0.26731860637664795, "learning_rate": 0.0002, "epoch": 0.5451559934318555, "step": 830}, {"loss": 0.9688, "grad_norm": 0.22862835228443146, "learning_rate": 0.0002, "epoch": 0.5517241379310345, "step": 840}, {"loss": 0.9036, "grad_norm": 0.253200501203537, "learning_rate": 0.0002, "epoch": 0.5582922824302134, "step": 850}, {"loss": 0.9593, "grad_norm": 0.24765369296073914, "learning_rate": 0.0002, "epoch": 0.5648604269293924, "step": 860}, {"loss": 1.0325, "grad_norm": 0.2506278157234192, "learning_rate": 0.0002, "epoch": 0.5714285714285714, "step": 870}, {"loss": 0.9589, "grad_norm": 0.2467229813337326, "learning_rate": 0.0002, "epoch": 0.5779967159277504, "step": 880}, {"loss": 1.0373, "grad_norm": 0.28260812163352966, "learning_rate": 0.0002, "epoch": 0.5845648604269293, "step": 890}, {"loss": 1.013, "grad_norm": 0.30688220262527466, "learning_rate": 0.0002, "epoch": 0.5911330049261084, "step": 900}, {"loss": 0.9954, "grad_norm": 0.2704499065876007, "learning_rate": 0.0002, "epoch": 0.5977011494252874, "step": 910}, {"loss": 0.9863, "grad_norm": 0.25935113430023193, "learning_rate": 0.0002, "epoch": 0.6042692939244664, "step": 920}, {"loss": 1.0334, "grad_norm": 0.26357588171958923, "learning_rate": 0.0002, "epoch": 0.6108374384236454, "step": 930}, {"loss": 0.9545, "grad_norm": 0.285918653011322, "learning_rate": 0.0002, "epoch": 0.6174055829228243, "step": 940}, {"loss": 1.0442, "grad_norm": 0.2900402545928955, "learning_rate": 0.0002, "epoch": 0.6239737274220033, "step": 950}, {"loss": 1.0176, "grad_norm": 0.3001820147037506, "learning_rate": 0.0002, "epoch": 0.6305418719211823, "step": 960}, {"loss": 0.9955, "grad_norm": 0.26947689056396484, "learning_rate": 0.0002, "epoch": 0.6371100164203612, "step": 970}, {"loss": 0.9196, "grad_norm": 0.26384246349334717, "learning_rate": 0.0002, "epoch": 0.6436781609195402, "step": 980}, {"loss": 0.9884, "grad_norm": 0.25315412878990173, "learning_rate": 0.0002, "epoch": 0.6502463054187192, "step": 990}, {"loss": 0.8847, "grad_norm": 0.2927934527397156, "learning_rate": 0.0002, "epoch": 0.6568144499178982, "step": 1000}, {"loss": 0.9579, "grad_norm": 0.2576014995574951, "learning_rate": 0.0002, "epoch": 0.6633825944170771, "step": 1010}, {"loss": 0.9819, "grad_norm": 0.2743370831012726, "learning_rate": 0.0002, "epoch": 0.6699507389162561, "step": 1020}, {"loss": 0.9604, "grad_norm": 0.23460666835308075, "learning_rate": 0.0002, "epoch": 0.6765188834154351, "step": 1030}, {"loss": 1.0088, "grad_norm": 0.2901114523410797, "learning_rate": 0.0002, "epoch": 0.6830870279146142, "step": 1040}, {"loss": 0.947, "grad_norm": 0.29076412320137024, "learning_rate": 0.0002, "epoch": 0.6896551724137931, "step": 1050}, {"loss": 0.9627, "grad_norm": 0.22199974954128265, "learning_rate": 0.0002, "epoch": 0.6962233169129721, "step": 1060}, {"loss": 0.9794, "grad_norm": 0.2604586184024811, "learning_rate": 0.0002, "epoch": 0.7027914614121511, "step": 1070}, {"loss": 1.0133, "grad_norm": 0.31970474123954773, "learning_rate": 0.0002, "epoch": 0.7093596059113301, "step": 1080}, {"loss": 0.9386, "grad_norm": 0.22676599025726318, "learning_rate": 0.0002, "epoch": 0.715927750410509, "step": 1090}, {"loss": 0.9144, "grad_norm": 0.28384289145469666, "learning_rate": 0.0002, "epoch": 0.722495894909688, "step": 1100}, {"loss": 0.9392, "grad_norm": 0.3065142035484314, "learning_rate": 0.0002, "epoch": 0.729064039408867, "step": 1110}, {"loss": 0.9529, "grad_norm": 0.28684625029563904, "learning_rate": 0.0002, "epoch": 0.735632183908046, "step": 1120}, {"loss": 0.9814, "grad_norm": 0.2765620946884155, "learning_rate": 0.0002, "epoch": 0.7422003284072249, "step": 1130}, {"loss": 0.9268, "grad_norm": 0.3625131845474243, "learning_rate": 0.0002, "epoch": 0.7487684729064039, "step": 1140}, {"loss": 0.996, "grad_norm": 0.2499004602432251, "learning_rate": 0.0002, "epoch": 0.7553366174055829, "step": 1150}, {"loss": 0.8736, "grad_norm": 0.2588430345058441, "learning_rate": 0.0002, "epoch": 0.7619047619047619, "step": 1160}, {"loss": 0.9902, "grad_norm": 0.32251620292663574, "learning_rate": 0.0002, "epoch": 0.7684729064039408, "step": 1170}, {"loss": 0.9257, "grad_norm": 0.2910309135913849, "learning_rate": 0.0002, "epoch": 0.7750410509031199, "step": 1180}, {"loss": 0.9909, "grad_norm": 0.21000942587852478, "learning_rate": 0.0002, "epoch": 0.7816091954022989, "step": 1190}, {"loss": 0.9231, "grad_norm": 0.3011322319507599, "learning_rate": 0.0002, "epoch": 0.7881773399014779, "step": 1200}, {"loss": 1.0202, "grad_norm": 0.32380834221839905, "learning_rate": 0.0002, "epoch": 0.7947454844006568, "step": 1210}, {"loss": 0.9467, "grad_norm": 0.2819550335407257, "learning_rate": 0.0002, "epoch": 0.8013136288998358, "step": 1220}, {"loss": 1.0414, "grad_norm": 0.2705429792404175, "learning_rate": 0.0002, "epoch": 0.8078817733990148, "step": 1230}, {"loss": 1.0015, "grad_norm": 0.28179359436035156, "learning_rate": 0.0002, "epoch": 0.8144499178981938, "step": 1240}, {"loss": 0.9797, "grad_norm": 0.38856396079063416, "learning_rate": 0.0002, "epoch": 0.8210180623973727, "step": 1250}, {"loss": 0.9317, "grad_norm": 0.3168312907218933, "learning_rate": 0.0002, "epoch": 0.8275862068965517, "step": 1260}, {"loss": 0.9115, "grad_norm": 0.2556460499763489, "learning_rate": 0.0002, "epoch": 0.8341543513957307, "step": 1270}, {"loss": 1.0468, "grad_norm": 0.26198551058769226, "learning_rate": 0.0002, "epoch": 0.8407224958949097, "step": 1280}, {"loss": 0.9642, "grad_norm": 0.2223411351442337, "learning_rate": 0.0002, "epoch": 0.8472906403940886, "step": 1290}, {"loss": 0.9482, "grad_norm": 0.3308902084827423, "learning_rate": 0.0002, "epoch": 0.8538587848932676, "step": 1300}, {"loss": 0.916, "grad_norm": 0.3318445384502411, "learning_rate": 0.0002, "epoch": 0.8604269293924466, "step": 1310}, {"loss": 0.9581, "grad_norm": 0.2638566493988037, "learning_rate": 0.0002, "epoch": 0.8669950738916257, "step": 1320}, {"loss": 0.9427, "grad_norm": 0.2754646837711334, "learning_rate": 0.0002, "epoch": 0.8735632183908046, "step": 1330}, {"loss": 0.9456, "grad_norm": 0.3134165406227112, "learning_rate": 0.0002, "epoch": 0.8801313628899836, "step": 1340}, {"loss": 0.9738, "grad_norm": 0.2705986797809601, "learning_rate": 0.0002, "epoch": 0.8866995073891626, "step": 1350}, {"loss": 0.9549, "grad_norm": 0.28027281165122986, "learning_rate": 0.0002, "epoch": 0.8932676518883416, "step": 1360}, {"loss": 0.929, "grad_norm": 0.2687486708164215, "learning_rate": 0.0002, "epoch": 0.8998357963875205, "step": 1370}, {"loss": 0.9443, "grad_norm": 0.26650384068489075, "learning_rate": 0.0002, "epoch": 0.9064039408866995, "step": 1380}, {"loss": 0.9457, "grad_norm": 0.26408934593200684, "learning_rate": 0.0002, "epoch": 0.9129720853858785, "step": 1390}, {"loss": 0.9377, "grad_norm": 0.2843779921531677, "learning_rate": 0.0002, "epoch": 0.9195402298850575, "step": 1400}, {"loss": 0.9461, "grad_norm": 0.29413458704948425, "learning_rate": 0.0002, "epoch": 0.9261083743842364, "step": 1410}, {"loss": 1.0096, "grad_norm": 0.29322561621665955, "learning_rate": 0.0002, "epoch": 0.9326765188834154, "step": 1420}, {"loss": 0.9518, "grad_norm": 0.24664123356342316, "learning_rate": 0.0002, "epoch": 0.9392446633825944, "step": 1430}, {"loss": 1.0193, "grad_norm": 0.3175645172595978, "learning_rate": 0.0002, "epoch": 0.9458128078817734, "step": 1440}, {"loss": 0.9487, "grad_norm": 0.2673381567001343, "learning_rate": 0.0002, "epoch": 0.9523809523809523, "step": 1450}, {"loss": 0.9858, "grad_norm": 0.27449601888656616, "learning_rate": 0.0002, "epoch": 0.9589490968801314, "step": 1460}, {"loss": 0.9279, "grad_norm": 0.23957990109920502, "learning_rate": 0.0002, "epoch": 0.9655172413793104, "step": 1470}, {"loss": 0.9522, "grad_norm": 0.297759085893631, "learning_rate": 0.0002, "epoch": 0.9720853858784894, "step": 1480}, {"loss": 0.9188, "grad_norm": 0.2751308083534241, "learning_rate": 0.0002, "epoch": 0.9786535303776683, "step": 1490}, {"loss": 0.9401, "grad_norm": 0.2567637264728546, "learning_rate": 0.0002, "epoch": 0.9852216748768473, "step": 1500}, {"loss": 0.9567, "grad_norm": 0.2433038353919983, "learning_rate": 0.0002, "epoch": 0.9917898193760263, "step": 1510}, {"loss": 0.954, "grad_norm": 0.25872939825057983, "learning_rate": 0.0002, "epoch": 0.9983579638752053, "step": 1520}]}