File size: 6,294 Bytes
[{"loss": 1.7792, "grad_norm": 4.088680744171143, "learning_rate": 3.96e-06, "epoch": 0.2, "step": 100}, {"loss": 1.5477, "grad_norm": 10.588886260986328, "learning_rate": 7.92e-06, "epoch": 0.4, "step": 200}, {"loss": 1.1958, "grad_norm": 11.45164966583252, "learning_rate": 1.1920000000000001e-05, "epoch": 0.6, "step": 300}, {"loss": 0.8575, "grad_norm": 4.778385162353516, "learning_rate": 1.5920000000000003e-05, "epoch": 0.8, "step": 400}, {"loss": 0.4513, "grad_norm": 6.632652759552002, "learning_rate": 1.9920000000000002e-05, "epoch": 1.0, "step": 500}, {"eval_loss": 0.30288323760032654, "eval_accuracy": 0.9085, "eval_precision": 0.8735730308574666, "eval_recall": 0.8961583613986344, "eval_f1": 0.8824150697552705, "eval_runtime": 6.2477, "eval_samples_per_second": 320.117, "eval_steps_per_second": 20.007, "epoch": 1.0, "step": 500}, {"loss": 0.2486, "grad_norm": 15.598343849182129, "learning_rate": 1.979368421052632e-05, "epoch": 1.2, "step": 600}, {"loss": 0.215, "grad_norm": 12.71112060546875, "learning_rate": 1.958526315789474e-05, "epoch": 1.4, "step": 700}, {"loss": 0.202, "grad_norm": 13.013236999511719, "learning_rate": 1.9374736842105263e-05, "epoch": 1.6, "step": 800}, {"loss": 0.2009, "grad_norm": 2.7342634201049805, "learning_rate": 1.9164210526315793e-05, "epoch": 1.8, "step": 900}, {"loss": 0.1814, "grad_norm": 5.7650017738342285, "learning_rate": 1.8953684210526316e-05, "epoch": 2.0, "step": 1000}, {"eval_loss": 0.16976086795330048, "eval_accuracy": 0.933, "eval_precision": 0.9170109656227957, "eval_recall": 0.9073851081134209, "eval_f1": 0.9066366033963665, "eval_runtime": 6.2274, "eval_samples_per_second": 321.159, "eval_steps_per_second": 20.072, "epoch": 2.0, "step": 1000}, {"loss": 0.1385, "grad_norm": 4.712910175323486, "learning_rate": 1.8745263157894738e-05, "epoch": 2.2, "step": 1100}, {"loss": 0.1288, "grad_norm": 1.019859790802002, "learning_rate": 1.8534736842105264e-05, "epoch": 2.4, "step": 1200}, {"loss": 0.1119, "grad_norm": 3.136040449142456, "learning_rate": 1.832421052631579e-05, "epoch": 2.6, "step": 1300}, {"loss": 0.1248, "grad_norm": 5.76826810836792, "learning_rate": 1.8113684210526317e-05, "epoch": 2.8, "step": 1400}, {"loss": 0.1322, "grad_norm": 29.930660247802734, "learning_rate": 1.7903157894736844e-05, "epoch": 3.0, "step": 1500}, {"eval_loss": 0.13484564423561096, "eval_accuracy": 0.94, "eval_precision": 0.9099376223702098, "eval_recall": 0.9292266499896776, "eval_f1": 0.9169011684421239, "eval_runtime": 6.2066, "eval_samples_per_second": 322.237, "eval_steps_per_second": 20.14, "epoch": 3.0, "step": 1500}, {"loss": 0.0859, "grad_norm": 4.782238960266113, "learning_rate": 1.769263157894737e-05, "epoch": 3.2, "step": 1600}, {"loss": 0.0975, "grad_norm": 5.247712135314941, "learning_rate": 1.7482105263157897e-05, "epoch": 3.4, "step": 1700}, {"loss": 0.0894, "grad_norm": 1.6024552583694458, "learning_rate": 1.727157894736842e-05, "epoch": 3.6, "step": 1800}, {"loss": 0.1132, "grad_norm": 2.0167009830474854, "learning_rate": 1.706105263157895e-05, "epoch": 3.8, "step": 1900}, {"loss": 0.1007, "grad_norm": 9.237066268920898, "learning_rate": 1.6850526315789473e-05, "epoch": 4.0, "step": 2000}, {"eval_loss": 0.1501253992319107, "eval_accuracy": 0.944, "eval_precision": 0.9218602935700503, "eval_recall": 0.9246084581425799, "eval_f1": 0.9229364539093524, "eval_runtime": 6.2275, "eval_samples_per_second": 321.157, "eval_steps_per_second": 20.072, "epoch": 4.0, "step": 2000}, {"loss": 0.064, "grad_norm": 4.334782600402832, "learning_rate": 1.664e-05, "epoch": 4.2, "step": 2100}, {"loss": 0.0832, "grad_norm": 36.4228630065918, "learning_rate": 1.642947368421053e-05, "epoch": 4.4, "step": 2200}, {"loss": 0.0778, "grad_norm": 2.7564282417297363, "learning_rate": 1.6218947368421053e-05, "epoch": 4.6, "step": 2300}, {"loss": 0.0862, "grad_norm": 4.204072952270508, "learning_rate": 1.6010526315789475e-05, "epoch": 4.8, "step": 2400}, {"loss": 0.0816, "grad_norm": 0.2997024655342102, "learning_rate": 1.58e-05, "epoch": 5.0, "step": 2500}, {"eval_loss": 0.18405097723007202, "eval_accuracy": 0.9375, "eval_precision": 0.9093686332011804, "eval_recall": 0.9246117364015393, "eval_f1": 0.9138065640627282, "eval_runtime": 6.2128, "eval_samples_per_second": 321.916, "eval_steps_per_second": 20.12, "epoch": 5.0, "step": 2500}, {"loss": 0.0573, "grad_norm": 1.097046136856079, "learning_rate": 1.5589473684210528e-05, "epoch": 5.2, "step": 2600}, {"loss": 0.055, "grad_norm": 0.00996150728315115, "learning_rate": 1.5378947368421054e-05, "epoch": 5.4, "step": 2700}, {"loss": 0.0533, "grad_norm": 5.059335708618164, "learning_rate": 1.516842105263158e-05, "epoch": 5.6, "step": 2800}, {"loss": 0.0582, "grad_norm": 2.047006368637085, "learning_rate": 1.4957894736842107e-05, "epoch": 5.8, "step": 2900}, {"loss": 0.0659, "grad_norm": 3.163299322128296, "learning_rate": 1.4747368421052632e-05, "epoch": 6.0, "step": 3000}, {"eval_loss": 0.21879862248897552, "eval_accuracy": 0.9365, "eval_precision": 0.9139202144883766, "eval_recall": 0.911797915149342, "eval_f1": 0.9127307154231555, "eval_runtime": 6.23, "eval_samples_per_second": 321.025, "eval_steps_per_second": 20.064, "epoch": 6.0, "step": 3000}, {"loss": 0.0407, "grad_norm": 0.0955037772655487, "learning_rate": 1.4536842105263159e-05, "epoch": 6.2, "step": 3100}, {"loss": 0.0491, "grad_norm": 8.644497871398926, "learning_rate": 1.4326315789473685e-05, "epoch": 6.4, "step": 3200}, {"loss": 0.0445, "grad_norm": 2.0437138080596924, "learning_rate": 1.4115789473684212e-05, "epoch": 6.6, "step": 3300}, {"loss": 0.0515, "grad_norm": 0.038315534591674805, "learning_rate": 1.3905263157894737e-05, "epoch": 6.8, "step": 3400}, {"loss": 0.0351, "grad_norm": 0.03849758580327034, "learning_rate": 1.3694736842105265e-05, "epoch": 7.0, "step": 3500}, {"eval_loss": 0.25887352228164673, "eval_accuracy": 0.9395, "eval_precision": 0.9323470481226465, "eval_recall": 0.9018501516898346, "eval_f1": 0.9154533008896871, "eval_runtime": 6.2253, "eval_samples_per_second": 321.269, "eval_steps_per_second": 20.079, "epoch": 7.0, "step": 3500}, {"train_runtime": 1271.509, "train_samples_per_second": 251.669, "train_steps_per_second": 7.865, "total_flos": 2.9469496541184e+16, "train_loss": 0.25444636344909666, "epoch": 7.0, "step": 3500}]