diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,218791 @@ +{ + "best_metric": 0.28381672501564026, + "best_model_checkpoint": "./results_t5/checkpoint-156250", + "epoch": 1.0, + "eval_steps": 500, + "global_step": 156250, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 3.2e-05, + "grad_norm": 2983.783203125, + "learning_rate": 1.9999786666666666e-05, + "loss": 16.5829, + "step": 5 + }, + { + "epoch": 6.4e-05, + "grad_norm": 26191.134765625, + "learning_rate": 1.9999573333333337e-05, + "loss": 15.5353, + "step": 10 + }, + { + "epoch": 9.6e-05, + "grad_norm": 6787.43603515625, + "learning_rate": 1.999936e-05, + "loss": 15.067, + "step": 15 + }, + { + "epoch": 0.000128, + "grad_norm": 132510.671875, + "learning_rate": 1.999914666666667e-05, + "loss": 15.371, + "step": 20 + }, + { + "epoch": 0.00016, + "grad_norm": 12469.7744140625, + "learning_rate": 1.9998933333333336e-05, + "loss": 14.1763, + "step": 25 + }, + { + "epoch": 0.000192, + "grad_norm": 18396.01171875, + "learning_rate": 1.9998720000000004e-05, + "loss": 14.0837, + "step": 30 + }, + { + "epoch": 0.000224, + "grad_norm": 32185.19921875, + "learning_rate": 1.9998506666666668e-05, + "loss": 13.3946, + "step": 35 + }, + { + "epoch": 0.000256, + "grad_norm": 8997.31640625, + "learning_rate": 1.9998293333333335e-05, + "loss": 13.3301, + "step": 40 + }, + { + "epoch": 0.000288, + "grad_norm": 12189.279296875, + "learning_rate": 1.9998080000000003e-05, + "loss": 13.129, + "step": 45 + }, + { + "epoch": 0.00032, + "grad_norm": 18454.515625, + "learning_rate": 1.9997866666666667e-05, + "loss": 12.6264, + "step": 50 + }, + { + "epoch": 0.000352, + "grad_norm": 6447.09912109375, + "learning_rate": 1.9997653333333335e-05, + "loss": 12.9897, + "step": 55 + }, + { + "epoch": 0.000384, + "grad_norm": 27450.607421875, + "learning_rate": 1.9997440000000002e-05, + "loss": 12.4034, + "step": 60 + }, + { + "epoch": 0.000416, + "grad_norm": 14292.759765625, + "learning_rate": 1.999722666666667e-05, + "loss": 12.5043, + "step": 65 + }, + { + "epoch": 0.000448, + "grad_norm": 181400.515625, + "learning_rate": 1.9997013333333334e-05, + "loss": 11.9282, + "step": 70 + }, + { + "epoch": 0.00048, + "grad_norm": 6480.62158203125, + "learning_rate": 1.99968e-05, + "loss": 11.4429, + "step": 75 + }, + { + "epoch": 0.000512, + "grad_norm": 7652.18310546875, + "learning_rate": 1.999658666666667e-05, + "loss": 11.8002, + "step": 80 + }, + { + "epoch": 0.000544, + "grad_norm": 1279.9324951171875, + "learning_rate": 1.9996373333333333e-05, + "loss": 11.6304, + "step": 85 + }, + { + "epoch": 0.000576, + "grad_norm": 9378.3369140625, + "learning_rate": 1.999616e-05, + "loss": 11.4322, + "step": 90 + }, + { + "epoch": 0.000608, + "grad_norm": 5807.3427734375, + "learning_rate": 1.9995946666666668e-05, + "loss": 11.5556, + "step": 95 + }, + { + "epoch": 0.00064, + "grad_norm": 8594.9658203125, + "learning_rate": 1.9995733333333336e-05, + "loss": 11.6631, + "step": 100 + }, + { + "epoch": 0.000672, + "grad_norm": 30686.373046875, + "learning_rate": 1.999552e-05, + "loss": 11.8248, + "step": 105 + }, + { + "epoch": 0.000704, + "grad_norm": 2670.35302734375, + "learning_rate": 1.9995306666666667e-05, + "loss": 10.7243, + "step": 110 + }, + { + "epoch": 0.000736, + "grad_norm": 12254.6103515625, + "learning_rate": 1.9995093333333335e-05, + "loss": 11.4762, + "step": 115 + }, + { + "epoch": 0.000768, + "grad_norm": 1526.4464111328125, + "learning_rate": 1.9994880000000003e-05, + "loss": 10.3493, + "step": 120 + }, + { + "epoch": 0.0008, + "grad_norm": 4797.4853515625, + "learning_rate": 1.999466666666667e-05, + "loss": 10.4351, + "step": 125 + }, + { + "epoch": 0.000832, + "grad_norm": 2519.855712890625, + "learning_rate": 1.9994453333333334e-05, + "loss": 10.301, + "step": 130 + }, + { + "epoch": 0.000864, + "grad_norm": 3182.563232421875, + "learning_rate": 1.9994240000000002e-05, + "loss": 9.9732, + "step": 135 + }, + { + "epoch": 0.000896, + "grad_norm": 1755.45751953125, + "learning_rate": 1.999402666666667e-05, + "loss": 9.8402, + "step": 140 + }, + { + "epoch": 0.000928, + "grad_norm": 5661.90478515625, + "learning_rate": 1.9993813333333334e-05, + "loss": 10.2424, + "step": 145 + }, + { + "epoch": 0.00096, + "grad_norm": 13968.615234375, + "learning_rate": 1.99936e-05, + "loss": 9.8634, + "step": 150 + }, + { + "epoch": 0.000992, + "grad_norm": 5465.43408203125, + "learning_rate": 1.999338666666667e-05, + "loss": 9.9242, + "step": 155 + }, + { + "epoch": 0.001024, + "grad_norm": 1298.113525390625, + "learning_rate": 1.9993173333333336e-05, + "loss": 9.8574, + "step": 160 + }, + { + "epoch": 0.001056, + "grad_norm": 3072.563232421875, + "learning_rate": 1.999296e-05, + "loss": 8.7039, + "step": 165 + }, + { + "epoch": 0.001088, + "grad_norm": 1129.84619140625, + "learning_rate": 1.9992746666666668e-05, + "loss": 8.9684, + "step": 170 + }, + { + "epoch": 0.00112, + "grad_norm": 2041.279296875, + "learning_rate": 1.9992533333333336e-05, + "loss": 8.3324, + "step": 175 + }, + { + "epoch": 0.001152, + "grad_norm": 9574.0654296875, + "learning_rate": 1.999232e-05, + "loss": 9.1804, + "step": 180 + }, + { + "epoch": 0.001184, + "grad_norm": 24175.0625, + "learning_rate": 1.9992106666666667e-05, + "loss": 9.0002, + "step": 185 + }, + { + "epoch": 0.001216, + "grad_norm": 3471.980224609375, + "learning_rate": 1.9991893333333335e-05, + "loss": 8.4324, + "step": 190 + }, + { + "epoch": 0.001248, + "grad_norm": 983.4446411132812, + "learning_rate": 1.9991680000000002e-05, + "loss": 7.5432, + "step": 195 + }, + { + "epoch": 0.00128, + "grad_norm": 1200.1455078125, + "learning_rate": 1.9991466666666667e-05, + "loss": 7.3079, + "step": 200 + }, + { + "epoch": 0.001312, + "grad_norm": 7123.55859375, + "learning_rate": 1.9991253333333337e-05, + "loss": 7.964, + "step": 205 + }, + { + "epoch": 0.001344, + "grad_norm": 1142.391357421875, + "learning_rate": 1.999104e-05, + "loss": 7.2878, + "step": 210 + }, + { + "epoch": 0.001376, + "grad_norm": 101.83588409423828, + "learning_rate": 1.9990826666666666e-05, + "loss": 7.494, + "step": 215 + }, + { + "epoch": 0.001408, + "grad_norm": 5072.85693359375, + "learning_rate": 1.9990613333333337e-05, + "loss": 7.5578, + "step": 220 + }, + { + "epoch": 0.00144, + "grad_norm": 977.9154663085938, + "learning_rate": 1.99904e-05, + "loss": 6.727, + "step": 225 + }, + { + "epoch": 0.001472, + "grad_norm": 1033.882568359375, + "learning_rate": 1.999018666666667e-05, + "loss": 6.4936, + "step": 230 + }, + { + "epoch": 0.001504, + "grad_norm": 28889.998046875, + "learning_rate": 1.9989973333333336e-05, + "loss": 6.9513, + "step": 235 + }, + { + "epoch": 0.001536, + "grad_norm": 8892.2939453125, + "learning_rate": 1.9989760000000004e-05, + "loss": 6.4863, + "step": 240 + }, + { + "epoch": 0.001568, + "grad_norm": 2338.67822265625, + "learning_rate": 1.9989546666666668e-05, + "loss": 6.0843, + "step": 245 + }, + { + "epoch": 0.0016, + "grad_norm": 65.31205749511719, + "learning_rate": 1.9989333333333335e-05, + "loss": 5.6146, + "step": 250 + }, + { + "epoch": 0.001632, + "grad_norm": 1780.1099853515625, + "learning_rate": 1.9989120000000003e-05, + "loss": 5.4448, + "step": 255 + }, + { + "epoch": 0.001664, + "grad_norm": 105.55785369873047, + "learning_rate": 1.9988906666666667e-05, + "loss": 5.7129, + "step": 260 + }, + { + "epoch": 0.001696, + "grad_norm": 84.27986907958984, + "learning_rate": 1.9988693333333335e-05, + "loss": 4.7975, + "step": 265 + }, + { + "epoch": 0.001728, + "grad_norm": 118.53605651855469, + "learning_rate": 1.9988480000000002e-05, + "loss": 4.4727, + "step": 270 + }, + { + "epoch": 0.00176, + "grad_norm": 288.5661926269531, + "learning_rate": 1.998826666666667e-05, + "loss": 4.7894, + "step": 275 + }, + { + "epoch": 0.001792, + "grad_norm": 55.420841217041016, + "learning_rate": 1.9988053333333334e-05, + "loss": 3.908, + "step": 280 + }, + { + "epoch": 0.001824, + "grad_norm": 664.9478149414062, + "learning_rate": 1.998784e-05, + "loss": 4.3124, + "step": 285 + }, + { + "epoch": 0.001856, + "grad_norm": 223.67874145507812, + "learning_rate": 1.998762666666667e-05, + "loss": 4.0658, + "step": 290 + }, + { + "epoch": 0.001888, + "grad_norm": 55.0594596862793, + "learning_rate": 1.9987413333333333e-05, + "loss": 3.5496, + "step": 295 + }, + { + "epoch": 0.00192, + "grad_norm": 117.17024230957031, + "learning_rate": 1.99872e-05, + "loss": 3.3929, + "step": 300 + }, + { + "epoch": 0.001952, + "grad_norm": 160.44451904296875, + "learning_rate": 1.9986986666666668e-05, + "loss": 3.3676, + "step": 305 + }, + { + "epoch": 0.001984, + "grad_norm": 30.018190383911133, + "learning_rate": 1.9986773333333336e-05, + "loss": 3.3926, + "step": 310 + }, + { + "epoch": 0.002016, + "grad_norm": 187.85963439941406, + "learning_rate": 1.998656e-05, + "loss": 3.154, + "step": 315 + }, + { + "epoch": 0.002048, + "grad_norm": 43.02383804321289, + "learning_rate": 1.9986346666666668e-05, + "loss": 2.9056, + "step": 320 + }, + { + "epoch": 0.00208, + "grad_norm": 196.7057647705078, + "learning_rate": 1.9986133333333335e-05, + "loss": 3.0314, + "step": 325 + }, + { + "epoch": 0.002112, + "grad_norm": 32.37089157104492, + "learning_rate": 1.998592e-05, + "loss": 2.7213, + "step": 330 + }, + { + "epoch": 0.002144, + "grad_norm": 13.457411766052246, + "learning_rate": 1.998570666666667e-05, + "loss": 2.3509, + "step": 335 + }, + { + "epoch": 0.002176, + "grad_norm": 566.4476928710938, + "learning_rate": 1.9985493333333334e-05, + "loss": 2.5967, + "step": 340 + }, + { + "epoch": 0.002208, + "grad_norm": 57.36495590209961, + "learning_rate": 1.9985280000000002e-05, + "loss": 2.3944, + "step": 345 + }, + { + "epoch": 0.00224, + "grad_norm": 18.649396896362305, + "learning_rate": 1.998506666666667e-05, + "loss": 2.0942, + "step": 350 + }, + { + "epoch": 0.002272, + "grad_norm": 27.67226791381836, + "learning_rate": 1.9984853333333334e-05, + "loss": 2.0337, + "step": 355 + }, + { + "epoch": 0.002304, + "grad_norm": 23.254716873168945, + "learning_rate": 1.998464e-05, + "loss": 1.7564, + "step": 360 + }, + { + "epoch": 0.002336, + "grad_norm": 10.523115158081055, + "learning_rate": 1.998442666666667e-05, + "loss": 1.971, + "step": 365 + }, + { + "epoch": 0.002368, + "grad_norm": 17.347843170166016, + "learning_rate": 1.9984213333333336e-05, + "loss": 1.8692, + "step": 370 + }, + { + "epoch": 0.0024, + "grad_norm": 80.732177734375, + "learning_rate": 1.9984e-05, + "loss": 1.9985, + "step": 375 + }, + { + "epoch": 0.002432, + "grad_norm": 11.162184715270996, + "learning_rate": 1.9983786666666668e-05, + "loss": 1.8271, + "step": 380 + }, + { + "epoch": 0.002464, + "grad_norm": 457.4953308105469, + "learning_rate": 1.9983573333333336e-05, + "loss": 1.9875, + "step": 385 + }, + { + "epoch": 0.002496, + "grad_norm": 32.37204360961914, + "learning_rate": 1.998336e-05, + "loss": 1.7558, + "step": 390 + }, + { + "epoch": 0.002528, + "grad_norm": 21.312149047851562, + "learning_rate": 1.9983146666666667e-05, + "loss": 1.629, + "step": 395 + }, + { + "epoch": 0.00256, + "grad_norm": 63.48557662963867, + "learning_rate": 1.9982933333333335e-05, + "loss": 1.8074, + "step": 400 + }, + { + "epoch": 0.002592, + "grad_norm": 15.58229923248291, + "learning_rate": 1.9982720000000002e-05, + "loss": 1.5272, + "step": 405 + }, + { + "epoch": 0.002624, + "grad_norm": 6.602599620819092, + "learning_rate": 1.9982506666666667e-05, + "loss": 1.5114, + "step": 410 + }, + { + "epoch": 0.002656, + "grad_norm": 7.33179235458374, + "learning_rate": 1.9982293333333334e-05, + "loss": 1.5321, + "step": 415 + }, + { + "epoch": 0.002688, + "grad_norm": 86.58860778808594, + "learning_rate": 1.998208e-05, + "loss": 1.7164, + "step": 420 + }, + { + "epoch": 0.00272, + "grad_norm": 21.40064239501953, + "learning_rate": 1.998186666666667e-05, + "loss": 1.517, + "step": 425 + }, + { + "epoch": 0.002752, + "grad_norm": 9.5178804397583, + "learning_rate": 1.9981653333333337e-05, + "loss": 1.6777, + "step": 430 + }, + { + "epoch": 0.002784, + "grad_norm": 70.34656524658203, + "learning_rate": 1.998144e-05, + "loss": 1.2703, + "step": 435 + }, + { + "epoch": 0.002816, + "grad_norm": 15.327805519104004, + "learning_rate": 1.998122666666667e-05, + "loss": 1.3456, + "step": 440 + }, + { + "epoch": 0.002848, + "grad_norm": 8.562063217163086, + "learning_rate": 1.9981013333333336e-05, + "loss": 1.3484, + "step": 445 + }, + { + "epoch": 0.00288, + "grad_norm": 17.917829513549805, + "learning_rate": 1.9980800000000004e-05, + "loss": 1.4661, + "step": 450 + }, + { + "epoch": 0.002912, + "grad_norm": 26.60700798034668, + "learning_rate": 1.9980586666666668e-05, + "loss": 1.3702, + "step": 455 + }, + { + "epoch": 0.002944, + "grad_norm": 31.622119903564453, + "learning_rate": 1.9980373333333335e-05, + "loss": 1.5494, + "step": 460 + }, + { + "epoch": 0.002976, + "grad_norm": 6.709493637084961, + "learning_rate": 1.9980160000000003e-05, + "loss": 1.2741, + "step": 465 + }, + { + "epoch": 0.003008, + "grad_norm": 22.445011138916016, + "learning_rate": 1.9979946666666667e-05, + "loss": 1.2691, + "step": 470 + }, + { + "epoch": 0.00304, + "grad_norm": 7.00640344619751, + "learning_rate": 1.9979733333333335e-05, + "loss": 1.2916, + "step": 475 + }, + { + "epoch": 0.003072, + "grad_norm": 8.761882781982422, + "learning_rate": 1.9979520000000002e-05, + "loss": 1.3468, + "step": 480 + }, + { + "epoch": 0.003104, + "grad_norm": 6.625644683837891, + "learning_rate": 1.997930666666667e-05, + "loss": 1.3151, + "step": 485 + }, + { + "epoch": 0.003136, + "grad_norm": 6.44223690032959, + "learning_rate": 1.9979093333333334e-05, + "loss": 1.2416, + "step": 490 + }, + { + "epoch": 0.003168, + "grad_norm": 18.047693252563477, + "learning_rate": 1.997888e-05, + "loss": 1.2791, + "step": 495 + }, + { + "epoch": 0.0032, + "grad_norm": 12.758721351623535, + "learning_rate": 1.997866666666667e-05, + "loss": 1.3207, + "step": 500 + }, + { + "epoch": 0.003232, + "grad_norm": 144.3331756591797, + "learning_rate": 1.9978453333333333e-05, + "loss": 1.1208, + "step": 505 + }, + { + "epoch": 0.003264, + "grad_norm": 18.07427406311035, + "learning_rate": 1.997824e-05, + "loss": 1.0462, + "step": 510 + }, + { + "epoch": 0.003296, + "grad_norm": 7.654228687286377, + "learning_rate": 1.9978026666666668e-05, + "loss": 1.1271, + "step": 515 + }, + { + "epoch": 0.003328, + "grad_norm": 7.623661994934082, + "learning_rate": 1.9977813333333336e-05, + "loss": 1.056, + "step": 520 + }, + { + "epoch": 0.00336, + "grad_norm": 6.095612525939941, + "learning_rate": 1.99776e-05, + "loss": 1.0747, + "step": 525 + }, + { + "epoch": 0.003392, + "grad_norm": 6.549290180206299, + "learning_rate": 1.997738666666667e-05, + "loss": 1.2389, + "step": 530 + }, + { + "epoch": 0.003424, + "grad_norm": 9.072905540466309, + "learning_rate": 1.9977173333333335e-05, + "loss": 1.0961, + "step": 535 + }, + { + "epoch": 0.003456, + "grad_norm": 11.016226768493652, + "learning_rate": 1.997696e-05, + "loss": 1.0632, + "step": 540 + }, + { + "epoch": 0.003488, + "grad_norm": 5.235414505004883, + "learning_rate": 1.997674666666667e-05, + "loss": 0.9137, + "step": 545 + }, + { + "epoch": 0.00352, + "grad_norm": 5.382314682006836, + "learning_rate": 1.9976533333333334e-05, + "loss": 1.0958, + "step": 550 + }, + { + "epoch": 0.003552, + "grad_norm": 18.434268951416016, + "learning_rate": 1.9976320000000002e-05, + "loss": 1.0777, + "step": 555 + }, + { + "epoch": 0.003584, + "grad_norm": 2.8681018352508545, + "learning_rate": 1.997610666666667e-05, + "loss": 1.0625, + "step": 560 + }, + { + "epoch": 0.003616, + "grad_norm": 4.820323944091797, + "learning_rate": 1.9975893333333337e-05, + "loss": 1.0543, + "step": 565 + }, + { + "epoch": 0.003648, + "grad_norm": 10.769516944885254, + "learning_rate": 1.997568e-05, + "loss": 1.0822, + "step": 570 + }, + { + "epoch": 0.00368, + "grad_norm": 4.488776683807373, + "learning_rate": 1.997546666666667e-05, + "loss": 0.9527, + "step": 575 + }, + { + "epoch": 0.003712, + "grad_norm": 5.597064971923828, + "learning_rate": 1.9975253333333336e-05, + "loss": 0.8891, + "step": 580 + }, + { + "epoch": 0.003744, + "grad_norm": 4.946521759033203, + "learning_rate": 1.997504e-05, + "loss": 0.9952, + "step": 585 + }, + { + "epoch": 0.003776, + "grad_norm": 5.187769889831543, + "learning_rate": 1.9974826666666668e-05, + "loss": 0.8954, + "step": 590 + }, + { + "epoch": 0.003808, + "grad_norm": 6.136588096618652, + "learning_rate": 1.9974613333333336e-05, + "loss": 0.9654, + "step": 595 + }, + { + "epoch": 0.00384, + "grad_norm": 5.813271522521973, + "learning_rate": 1.9974400000000003e-05, + "loss": 0.9444, + "step": 600 + }, + { + "epoch": 0.003872, + "grad_norm": 5.5230889320373535, + "learning_rate": 1.9974186666666667e-05, + "loss": 0.8295, + "step": 605 + }, + { + "epoch": 0.003904, + "grad_norm": 4.433022499084473, + "learning_rate": 1.9973973333333335e-05, + "loss": 0.88, + "step": 610 + }, + { + "epoch": 0.003936, + "grad_norm": 5.885369300842285, + "learning_rate": 1.9973760000000002e-05, + "loss": 0.8391, + "step": 615 + }, + { + "epoch": 0.003968, + "grad_norm": 3.0395090579986572, + "learning_rate": 1.9973546666666667e-05, + "loss": 0.786, + "step": 620 + }, + { + "epoch": 0.004, + "grad_norm": 3.5531816482543945, + "learning_rate": 1.9973333333333334e-05, + "loss": 1.2028, + "step": 625 + }, + { + "epoch": 0.004032, + "grad_norm": 19.054441452026367, + "learning_rate": 1.997312e-05, + "loss": 0.8767, + "step": 630 + }, + { + "epoch": 0.004064, + "grad_norm": 21.391468048095703, + "learning_rate": 1.997290666666667e-05, + "loss": 0.86, + "step": 635 + }, + { + "epoch": 0.004096, + "grad_norm": 4.1604905128479, + "learning_rate": 1.9972693333333333e-05, + "loss": 0.794, + "step": 640 + }, + { + "epoch": 0.004128, + "grad_norm": 4.192010879516602, + "learning_rate": 1.997248e-05, + "loss": 0.8841, + "step": 645 + }, + { + "epoch": 0.00416, + "grad_norm": 5.894268035888672, + "learning_rate": 1.997226666666667e-05, + "loss": 0.807, + "step": 650 + }, + { + "epoch": 0.004192, + "grad_norm": 3.423870086669922, + "learning_rate": 1.9972053333333336e-05, + "loss": 0.7322, + "step": 655 + }, + { + "epoch": 0.004224, + "grad_norm": 2.8163604736328125, + "learning_rate": 1.9971840000000004e-05, + "loss": 0.7694, + "step": 660 + }, + { + "epoch": 0.004256, + "grad_norm": 3.218839406967163, + "learning_rate": 1.9971626666666668e-05, + "loss": 0.7698, + "step": 665 + }, + { + "epoch": 0.004288, + "grad_norm": 5.161465644836426, + "learning_rate": 1.9971413333333335e-05, + "loss": 0.8175, + "step": 670 + }, + { + "epoch": 0.00432, + "grad_norm": 4.251552581787109, + "learning_rate": 1.9971200000000003e-05, + "loss": 0.7184, + "step": 675 + }, + { + "epoch": 0.004352, + "grad_norm": 6.415971755981445, + "learning_rate": 1.9970986666666667e-05, + "loss": 0.7798, + "step": 680 + }, + { + "epoch": 0.004384, + "grad_norm": 7.272107124328613, + "learning_rate": 1.9970773333333335e-05, + "loss": 0.6989, + "step": 685 + }, + { + "epoch": 0.004416, + "grad_norm": 4.5623650550842285, + "learning_rate": 1.9970560000000002e-05, + "loss": 0.8641, + "step": 690 + }, + { + "epoch": 0.004448, + "grad_norm": 4.873381614685059, + "learning_rate": 1.997034666666667e-05, + "loss": 0.7998, + "step": 695 + }, + { + "epoch": 0.00448, + "grad_norm": 3.44376277923584, + "learning_rate": 1.9970133333333334e-05, + "loss": 0.72, + "step": 700 + }, + { + "epoch": 0.004512, + "grad_norm": 6.024341106414795, + "learning_rate": 1.996992e-05, + "loss": 0.7706, + "step": 705 + }, + { + "epoch": 0.004544, + "grad_norm": 3.7519452571868896, + "learning_rate": 1.996970666666667e-05, + "loss": 0.7592, + "step": 710 + }, + { + "epoch": 0.004576, + "grad_norm": 4.087716579437256, + "learning_rate": 1.9969493333333333e-05, + "loss": 0.6762, + "step": 715 + }, + { + "epoch": 0.004608, + "grad_norm": 4.375522613525391, + "learning_rate": 1.996928e-05, + "loss": 0.6281, + "step": 720 + }, + { + "epoch": 0.00464, + "grad_norm": 4.842486381530762, + "learning_rate": 1.9969066666666668e-05, + "loss": 0.8167, + "step": 725 + }, + { + "epoch": 0.004672, + "grad_norm": 3.4302713871002197, + "learning_rate": 1.9968853333333336e-05, + "loss": 0.6853, + "step": 730 + }, + { + "epoch": 0.004704, + "grad_norm": 3.1437320709228516, + "learning_rate": 1.996864e-05, + "loss": 0.8591, + "step": 735 + }, + { + "epoch": 0.004736, + "grad_norm": 4.290661811828613, + "learning_rate": 1.996842666666667e-05, + "loss": 0.6592, + "step": 740 + }, + { + "epoch": 0.004768, + "grad_norm": 7.2982258796691895, + "learning_rate": 1.9968213333333335e-05, + "loss": 0.5748, + "step": 745 + }, + { + "epoch": 0.0048, + "grad_norm": 4.291800022125244, + "learning_rate": 1.9968e-05, + "loss": 0.7911, + "step": 750 + }, + { + "epoch": 0.004832, + "grad_norm": 3.420811414718628, + "learning_rate": 1.996778666666667e-05, + "loss": 0.6537, + "step": 755 + }, + { + "epoch": 0.004864, + "grad_norm": 2.939784288406372, + "learning_rate": 1.9967573333333334e-05, + "loss": 0.7032, + "step": 760 + }, + { + "epoch": 0.004896, + "grad_norm": 6.894164562225342, + "learning_rate": 1.9967360000000002e-05, + "loss": 0.6349, + "step": 765 + }, + { + "epoch": 0.004928, + "grad_norm": 5.849599838256836, + "learning_rate": 1.996714666666667e-05, + "loss": 0.7146, + "step": 770 + }, + { + "epoch": 0.00496, + "grad_norm": 2.099231481552124, + "learning_rate": 1.9966933333333337e-05, + "loss": 0.5492, + "step": 775 + }, + { + "epoch": 0.004992, + "grad_norm": 3.920497179031372, + "learning_rate": 1.996672e-05, + "loss": 0.6384, + "step": 780 + }, + { + "epoch": 0.005024, + "grad_norm": 6.168437957763672, + "learning_rate": 1.996650666666667e-05, + "loss": 0.739, + "step": 785 + }, + { + "epoch": 0.005056, + "grad_norm": 3.0097341537475586, + "learning_rate": 1.9966293333333336e-05, + "loss": 0.5594, + "step": 790 + }, + { + "epoch": 0.005088, + "grad_norm": 5.187073230743408, + "learning_rate": 1.996608e-05, + "loss": 0.7715, + "step": 795 + }, + { + "epoch": 0.00512, + "grad_norm": 3.505364418029785, + "learning_rate": 1.9965866666666668e-05, + "loss": 0.6137, + "step": 800 + }, + { + "epoch": 0.005152, + "grad_norm": 3.8217594623565674, + "learning_rate": 1.9965653333333336e-05, + "loss": 0.5359, + "step": 805 + }, + { + "epoch": 0.005184, + "grad_norm": 6.204014301300049, + "learning_rate": 1.9965440000000003e-05, + "loss": 0.6507, + "step": 810 + }, + { + "epoch": 0.005216, + "grad_norm": 4.1642632484436035, + "learning_rate": 1.9965226666666667e-05, + "loss": 0.589, + "step": 815 + }, + { + "epoch": 0.005248, + "grad_norm": 2.037569046020508, + "learning_rate": 1.9965013333333335e-05, + "loss": 0.6864, + "step": 820 + }, + { + "epoch": 0.00528, + "grad_norm": 2.3623032569885254, + "learning_rate": 1.9964800000000002e-05, + "loss": 0.5228, + "step": 825 + }, + { + "epoch": 0.005312, + "grad_norm": 4.440410614013672, + "learning_rate": 1.9964586666666667e-05, + "loss": 0.6317, + "step": 830 + }, + { + "epoch": 0.005344, + "grad_norm": 2.1005356311798096, + "learning_rate": 1.9964373333333334e-05, + "loss": 0.5916, + "step": 835 + }, + { + "epoch": 0.005376, + "grad_norm": 8.042171478271484, + "learning_rate": 1.996416e-05, + "loss": 0.5911, + "step": 840 + }, + { + "epoch": 0.005408, + "grad_norm": 3.185692310333252, + "learning_rate": 1.996394666666667e-05, + "loss": 0.5493, + "step": 845 + }, + { + "epoch": 0.00544, + "grad_norm": 2.8491392135620117, + "learning_rate": 1.9963733333333333e-05, + "loss": 0.4973, + "step": 850 + }, + { + "epoch": 0.005472, + "grad_norm": 4.119302749633789, + "learning_rate": 1.996352e-05, + "loss": 0.5883, + "step": 855 + }, + { + "epoch": 0.005504, + "grad_norm": 8.066926956176758, + "learning_rate": 1.996330666666667e-05, + "loss": 0.5999, + "step": 860 + }, + { + "epoch": 0.005536, + "grad_norm": 8.451079368591309, + "learning_rate": 1.9963093333333333e-05, + "loss": 0.618, + "step": 865 + }, + { + "epoch": 0.005568, + "grad_norm": 2.607692241668701, + "learning_rate": 1.9962880000000004e-05, + "loss": 0.5912, + "step": 870 + }, + { + "epoch": 0.0056, + "grad_norm": 2.600980520248413, + "learning_rate": 1.9962666666666668e-05, + "loss": 0.5897, + "step": 875 + }, + { + "epoch": 0.005632, + "grad_norm": 2.9452402591705322, + "learning_rate": 1.9962453333333335e-05, + "loss": 0.5733, + "step": 880 + }, + { + "epoch": 0.005664, + "grad_norm": 10.889006614685059, + "learning_rate": 1.9962240000000003e-05, + "loss": 0.5774, + "step": 885 + }, + { + "epoch": 0.005696, + "grad_norm": 4.60264253616333, + "learning_rate": 1.9962026666666667e-05, + "loss": 0.6098, + "step": 890 + }, + { + "epoch": 0.005728, + "grad_norm": 3.3163399696350098, + "learning_rate": 1.9961813333333335e-05, + "loss": 0.4992, + "step": 895 + }, + { + "epoch": 0.00576, + "grad_norm": 6.659509181976318, + "learning_rate": 1.9961600000000002e-05, + "loss": 0.6079, + "step": 900 + }, + { + "epoch": 0.005792, + "grad_norm": 2.5270493030548096, + "learning_rate": 1.996138666666667e-05, + "loss": 0.4898, + "step": 905 + }, + { + "epoch": 0.005824, + "grad_norm": 3.5918381214141846, + "learning_rate": 1.9961173333333334e-05, + "loss": 0.6145, + "step": 910 + }, + { + "epoch": 0.005856, + "grad_norm": 4.040014743804932, + "learning_rate": 1.996096e-05, + "loss": 0.5316, + "step": 915 + }, + { + "epoch": 0.005888, + "grad_norm": 2.4747586250305176, + "learning_rate": 1.996074666666667e-05, + "loss": 0.6321, + "step": 920 + }, + { + "epoch": 0.00592, + "grad_norm": 2.1417479515075684, + "learning_rate": 1.9960533333333333e-05, + "loss": 0.5612, + "step": 925 + }, + { + "epoch": 0.005952, + "grad_norm": 5.269523620605469, + "learning_rate": 1.996032e-05, + "loss": 0.6758, + "step": 930 + }, + { + "epoch": 0.005984, + "grad_norm": 4.421451568603516, + "learning_rate": 1.9960106666666668e-05, + "loss": 0.5123, + "step": 935 + }, + { + "epoch": 0.006016, + "grad_norm": 2.282179355621338, + "learning_rate": 1.9959893333333336e-05, + "loss": 0.4558, + "step": 940 + }, + { + "epoch": 0.006048, + "grad_norm": 2.062718629837036, + "learning_rate": 1.995968e-05, + "loss": 0.4708, + "step": 945 + }, + { + "epoch": 0.00608, + "grad_norm": 2.377562999725342, + "learning_rate": 1.995946666666667e-05, + "loss": 0.4962, + "step": 950 + }, + { + "epoch": 0.006112, + "grad_norm": 2.616718053817749, + "learning_rate": 1.9959253333333335e-05, + "loss": 0.4791, + "step": 955 + }, + { + "epoch": 0.006144, + "grad_norm": 2.058851718902588, + "learning_rate": 1.995904e-05, + "loss": 0.4075, + "step": 960 + }, + { + "epoch": 0.006176, + "grad_norm": 3.996182918548584, + "learning_rate": 1.995882666666667e-05, + "loss": 0.4461, + "step": 965 + }, + { + "epoch": 0.006208, + "grad_norm": 2.5612549781799316, + "learning_rate": 1.9958613333333334e-05, + "loss": 0.4591, + "step": 970 + }, + { + "epoch": 0.00624, + "grad_norm": 2.432269334793091, + "learning_rate": 1.9958400000000002e-05, + "loss": 0.4887, + "step": 975 + }, + { + "epoch": 0.006272, + "grad_norm": 3.8880181312561035, + "learning_rate": 1.995818666666667e-05, + "loss": 0.3962, + "step": 980 + }, + { + "epoch": 0.006304, + "grad_norm": 3.9820964336395264, + "learning_rate": 1.9957973333333337e-05, + "loss": 0.4606, + "step": 985 + }, + { + "epoch": 0.006336, + "grad_norm": 366.5088806152344, + "learning_rate": 1.995776e-05, + "loss": 0.7244, + "step": 990 + }, + { + "epoch": 0.006368, + "grad_norm": 2.623650312423706, + "learning_rate": 1.995754666666667e-05, + "loss": 0.4619, + "step": 995 + }, + { + "epoch": 0.0064, + "grad_norm": 6.406554698944092, + "learning_rate": 1.9957333333333336e-05, + "loss": 0.5079, + "step": 1000 + }, + { + "epoch": 0.006432, + "grad_norm": 3.7170145511627197, + "learning_rate": 1.995712e-05, + "loss": 0.5198, + "step": 1005 + }, + { + "epoch": 0.006464, + "grad_norm": 5.431230068206787, + "learning_rate": 1.9956906666666668e-05, + "loss": 0.5595, + "step": 1010 + }, + { + "epoch": 0.006496, + "grad_norm": 3.334179162979126, + "learning_rate": 1.9956693333333336e-05, + "loss": 0.4964, + "step": 1015 + }, + { + "epoch": 0.006528, + "grad_norm": 4.571407794952393, + "learning_rate": 1.9956480000000003e-05, + "loss": 0.485, + "step": 1020 + }, + { + "epoch": 0.00656, + "grad_norm": 2.184279441833496, + "learning_rate": 1.9956266666666667e-05, + "loss": 0.4885, + "step": 1025 + }, + { + "epoch": 0.006592, + "grad_norm": 3.7540431022644043, + "learning_rate": 1.9956053333333335e-05, + "loss": 0.5034, + "step": 1030 + }, + { + "epoch": 0.006624, + "grad_norm": 3.3195083141326904, + "learning_rate": 1.9955840000000002e-05, + "loss": 0.4056, + "step": 1035 + }, + { + "epoch": 0.006656, + "grad_norm": 2.2848243713378906, + "learning_rate": 1.9955626666666667e-05, + "loss": 0.4614, + "step": 1040 + }, + { + "epoch": 0.006688, + "grad_norm": 2.8940250873565674, + "learning_rate": 1.9955413333333334e-05, + "loss": 0.4897, + "step": 1045 + }, + { + "epoch": 0.00672, + "grad_norm": 2.636706829071045, + "learning_rate": 1.99552e-05, + "loss": 0.4978, + "step": 1050 + }, + { + "epoch": 0.006752, + "grad_norm": 3.2199535369873047, + "learning_rate": 1.995498666666667e-05, + "loss": 0.4228, + "step": 1055 + }, + { + "epoch": 0.006784, + "grad_norm": 5.975515365600586, + "learning_rate": 1.9954773333333333e-05, + "loss": 0.6032, + "step": 1060 + }, + { + "epoch": 0.006816, + "grad_norm": 1.9456772804260254, + "learning_rate": 1.995456e-05, + "loss": 0.4467, + "step": 1065 + }, + { + "epoch": 0.006848, + "grad_norm": 2.5024092197418213, + "learning_rate": 1.995434666666667e-05, + "loss": 0.4568, + "step": 1070 + }, + { + "epoch": 0.00688, + "grad_norm": 3.041156530380249, + "learning_rate": 1.9954133333333333e-05, + "loss": 0.4918, + "step": 1075 + }, + { + "epoch": 0.006912, + "grad_norm": 3.081329345703125, + "learning_rate": 1.9953920000000004e-05, + "loss": 0.5378, + "step": 1080 + }, + { + "epoch": 0.006944, + "grad_norm": 2.9768757820129395, + "learning_rate": 1.9953706666666668e-05, + "loss": 0.5765, + "step": 1085 + }, + { + "epoch": 0.006976, + "grad_norm": 4.688967704772949, + "learning_rate": 1.9953493333333335e-05, + "loss": 0.4406, + "step": 1090 + }, + { + "epoch": 0.007008, + "grad_norm": 5.820766925811768, + "learning_rate": 1.9953280000000003e-05, + "loss": 0.4102, + "step": 1095 + }, + { + "epoch": 0.00704, + "grad_norm": 3.251512289047241, + "learning_rate": 1.9953066666666667e-05, + "loss": 0.4689, + "step": 1100 + }, + { + "epoch": 0.007072, + "grad_norm": 4.348537445068359, + "learning_rate": 1.9952853333333335e-05, + "loss": 0.5412, + "step": 1105 + }, + { + "epoch": 0.007104, + "grad_norm": 4.213780403137207, + "learning_rate": 1.9952640000000002e-05, + "loss": 0.4692, + "step": 1110 + }, + { + "epoch": 0.007136, + "grad_norm": 2.3282158374786377, + "learning_rate": 1.995242666666667e-05, + "loss": 0.4846, + "step": 1115 + }, + { + "epoch": 0.007168, + "grad_norm": 2.263925313949585, + "learning_rate": 1.9952213333333334e-05, + "loss": 0.4385, + "step": 1120 + }, + { + "epoch": 0.0072, + "grad_norm": 3.955386161804199, + "learning_rate": 1.9952e-05, + "loss": 0.405, + "step": 1125 + }, + { + "epoch": 0.007232, + "grad_norm": 3.240469455718994, + "learning_rate": 1.995178666666667e-05, + "loss": 0.4814, + "step": 1130 + }, + { + "epoch": 0.007264, + "grad_norm": 2.543748378753662, + "learning_rate": 1.9951573333333333e-05, + "loss": 0.3413, + "step": 1135 + }, + { + "epoch": 0.007296, + "grad_norm": 2.9677939414978027, + "learning_rate": 1.995136e-05, + "loss": 0.3984, + "step": 1140 + }, + { + "epoch": 0.007328, + "grad_norm": 3.983896493911743, + "learning_rate": 1.9951146666666668e-05, + "loss": 0.4398, + "step": 1145 + }, + { + "epoch": 0.00736, + "grad_norm": 2.4911141395568848, + "learning_rate": 1.9950933333333336e-05, + "loss": 0.4315, + "step": 1150 + }, + { + "epoch": 0.007392, + "grad_norm": 4.031432151794434, + "learning_rate": 1.995072e-05, + "loss": 0.4873, + "step": 1155 + }, + { + "epoch": 0.007424, + "grad_norm": 2.3323421478271484, + "learning_rate": 1.9950506666666668e-05, + "loss": 0.5115, + "step": 1160 + }, + { + "epoch": 0.007456, + "grad_norm": 2.2046492099761963, + "learning_rate": 1.9950293333333335e-05, + "loss": 0.456, + "step": 1165 + }, + { + "epoch": 0.007488, + "grad_norm": 4.001546859741211, + "learning_rate": 1.995008e-05, + "loss": 0.4403, + "step": 1170 + }, + { + "epoch": 0.00752, + "grad_norm": 2.0812344551086426, + "learning_rate": 1.994986666666667e-05, + "loss": 0.4137, + "step": 1175 + }, + { + "epoch": 0.007552, + "grad_norm": 2.3600358963012695, + "learning_rate": 1.9949653333333334e-05, + "loss": 0.4096, + "step": 1180 + }, + { + "epoch": 0.007584, + "grad_norm": 3.385745048522949, + "learning_rate": 1.9949440000000002e-05, + "loss": 0.3777, + "step": 1185 + }, + { + "epoch": 0.007616, + "grad_norm": 2.408973455429077, + "learning_rate": 1.994922666666667e-05, + "loss": 0.4119, + "step": 1190 + }, + { + "epoch": 0.007648, + "grad_norm": 2.449944496154785, + "learning_rate": 1.9949013333333337e-05, + "loss": 0.3885, + "step": 1195 + }, + { + "epoch": 0.00768, + "grad_norm": 2.6705005168914795, + "learning_rate": 1.99488e-05, + "loss": 0.4348, + "step": 1200 + }, + { + "epoch": 0.007712, + "grad_norm": 2.2463319301605225, + "learning_rate": 1.994858666666667e-05, + "loss": 0.5322, + "step": 1205 + }, + { + "epoch": 0.007744, + "grad_norm": 1.7894810438156128, + "learning_rate": 1.9948373333333336e-05, + "loss": 0.5329, + "step": 1210 + }, + { + "epoch": 0.007776, + "grad_norm": 1.8279948234558105, + "learning_rate": 1.994816e-05, + "loss": 0.414, + "step": 1215 + }, + { + "epoch": 0.007808, + "grad_norm": 5.789552688598633, + "learning_rate": 1.9947946666666668e-05, + "loss": 0.4127, + "step": 1220 + }, + { + "epoch": 0.00784, + "grad_norm": 1.7301719188690186, + "learning_rate": 1.9947733333333336e-05, + "loss": 0.3841, + "step": 1225 + }, + { + "epoch": 0.007872, + "grad_norm": 2.9679815769195557, + "learning_rate": 1.9947520000000003e-05, + "loss": 0.4545, + "step": 1230 + }, + { + "epoch": 0.007904, + "grad_norm": 2.0535528659820557, + "learning_rate": 1.9947306666666667e-05, + "loss": 0.4503, + "step": 1235 + }, + { + "epoch": 0.007936, + "grad_norm": 2.180921792984009, + "learning_rate": 1.9947093333333335e-05, + "loss": 0.3796, + "step": 1240 + }, + { + "epoch": 0.007968, + "grad_norm": 2.062786817550659, + "learning_rate": 1.9946880000000002e-05, + "loss": 0.4036, + "step": 1245 + }, + { + "epoch": 0.008, + "grad_norm": 3.0445773601531982, + "learning_rate": 1.9946666666666667e-05, + "loss": 0.4227, + "step": 1250 + }, + { + "epoch": 0.008032, + "grad_norm": 3.078676462173462, + "learning_rate": 1.9946453333333334e-05, + "loss": 0.4671, + "step": 1255 + }, + { + "epoch": 0.008064, + "grad_norm": 2.578749179840088, + "learning_rate": 1.994624e-05, + "loss": 0.3812, + "step": 1260 + }, + { + "epoch": 0.008096, + "grad_norm": 2.455526828765869, + "learning_rate": 1.994602666666667e-05, + "loss": 0.4289, + "step": 1265 + }, + { + "epoch": 0.008128, + "grad_norm": 1.7383760213851929, + "learning_rate": 1.9945813333333333e-05, + "loss": 0.4757, + "step": 1270 + }, + { + "epoch": 0.00816, + "grad_norm": 1.7824718952178955, + "learning_rate": 1.9945600000000004e-05, + "loss": 0.4138, + "step": 1275 + }, + { + "epoch": 0.008192, + "grad_norm": 1.7614257335662842, + "learning_rate": 1.994538666666667e-05, + "loss": 0.516, + "step": 1280 + }, + { + "epoch": 0.008224, + "grad_norm": 1.7837270498275757, + "learning_rate": 1.9945173333333333e-05, + "loss": 0.4334, + "step": 1285 + }, + { + "epoch": 0.008256, + "grad_norm": 2.411843776702881, + "learning_rate": 1.9944960000000004e-05, + "loss": 0.4316, + "step": 1290 + }, + { + "epoch": 0.008288, + "grad_norm": 2.307224988937378, + "learning_rate": 1.9944746666666668e-05, + "loss": 0.4168, + "step": 1295 + }, + { + "epoch": 0.00832, + "grad_norm": 2.6693344116210938, + "learning_rate": 1.9944533333333335e-05, + "loss": 0.3477, + "step": 1300 + }, + { + "epoch": 0.008352, + "grad_norm": 3.6607487201690674, + "learning_rate": 1.9944320000000003e-05, + "loss": 0.4238, + "step": 1305 + }, + { + "epoch": 0.008384, + "grad_norm": 1.3197439908981323, + "learning_rate": 1.994410666666667e-05, + "loss": 0.3967, + "step": 1310 + }, + { + "epoch": 0.008416, + "grad_norm": 2.7920477390289307, + "learning_rate": 1.9943893333333335e-05, + "loss": 0.465, + "step": 1315 + }, + { + "epoch": 0.008448, + "grad_norm": 2.3342671394348145, + "learning_rate": 1.9943680000000002e-05, + "loss": 0.3105, + "step": 1320 + }, + { + "epoch": 0.00848, + "grad_norm": 4.035905838012695, + "learning_rate": 1.994346666666667e-05, + "loss": 0.4123, + "step": 1325 + }, + { + "epoch": 0.008512, + "grad_norm": 2.242888927459717, + "learning_rate": 1.9943253333333334e-05, + "loss": 0.3842, + "step": 1330 + }, + { + "epoch": 0.008544, + "grad_norm": 2.5074636936187744, + "learning_rate": 1.994304e-05, + "loss": 0.3899, + "step": 1335 + }, + { + "epoch": 0.008576, + "grad_norm": 1.8677427768707275, + "learning_rate": 1.994282666666667e-05, + "loss": 0.3525, + "step": 1340 + }, + { + "epoch": 0.008608, + "grad_norm": 1.3305766582489014, + "learning_rate": 1.9942613333333337e-05, + "loss": 0.45, + "step": 1345 + }, + { + "epoch": 0.00864, + "grad_norm": 2.728137493133545, + "learning_rate": 1.99424e-05, + "loss": 0.432, + "step": 1350 + }, + { + "epoch": 0.008672, + "grad_norm": 3.249648094177246, + "learning_rate": 1.9942186666666668e-05, + "loss": 0.4296, + "step": 1355 + }, + { + "epoch": 0.008704, + "grad_norm": 1.7613599300384521, + "learning_rate": 1.9941973333333336e-05, + "loss": 0.4325, + "step": 1360 + }, + { + "epoch": 0.008736, + "grad_norm": 2.1771249771118164, + "learning_rate": 1.994176e-05, + "loss": 0.3893, + "step": 1365 + }, + { + "epoch": 0.008768, + "grad_norm": 1.9439234733581543, + "learning_rate": 1.9941546666666668e-05, + "loss": 0.3685, + "step": 1370 + }, + { + "epoch": 0.0088, + "grad_norm": 2.1512558460235596, + "learning_rate": 1.9941333333333335e-05, + "loss": 0.3522, + "step": 1375 + }, + { + "epoch": 0.008832, + "grad_norm": 3.2176663875579834, + "learning_rate": 1.9941120000000003e-05, + "loss": 0.4446, + "step": 1380 + }, + { + "epoch": 0.008864, + "grad_norm": 3.5860888957977295, + "learning_rate": 1.9940906666666667e-05, + "loss": 0.4373, + "step": 1385 + }, + { + "epoch": 0.008896, + "grad_norm": 2.8284943103790283, + "learning_rate": 1.9940693333333334e-05, + "loss": 0.35, + "step": 1390 + }, + { + "epoch": 0.008928, + "grad_norm": 2.112492084503174, + "learning_rate": 1.9940480000000002e-05, + "loss": 0.3188, + "step": 1395 + }, + { + "epoch": 0.00896, + "grad_norm": 3.4574201107025146, + "learning_rate": 1.994026666666667e-05, + "loss": 0.4431, + "step": 1400 + }, + { + "epoch": 0.008992, + "grad_norm": 3.0775420665740967, + "learning_rate": 1.9940053333333337e-05, + "loss": 0.3314, + "step": 1405 + }, + { + "epoch": 0.009024, + "grad_norm": 4.5005574226379395, + "learning_rate": 1.993984e-05, + "loss": 0.4187, + "step": 1410 + }, + { + "epoch": 0.009056, + "grad_norm": 3.5591928958892822, + "learning_rate": 1.993962666666667e-05, + "loss": 0.2903, + "step": 1415 + }, + { + "epoch": 0.009088, + "grad_norm": 1.5430272817611694, + "learning_rate": 1.9939413333333336e-05, + "loss": 0.3522, + "step": 1420 + }, + { + "epoch": 0.00912, + "grad_norm": 2.5842161178588867, + "learning_rate": 1.99392e-05, + "loss": 0.3947, + "step": 1425 + }, + { + "epoch": 0.009152, + "grad_norm": 1.612233281135559, + "learning_rate": 1.9938986666666668e-05, + "loss": 0.3738, + "step": 1430 + }, + { + "epoch": 0.009184, + "grad_norm": 2.1269381046295166, + "learning_rate": 1.9938773333333336e-05, + "loss": 0.3628, + "step": 1435 + }, + { + "epoch": 0.009216, + "grad_norm": 3.5025644302368164, + "learning_rate": 1.9938560000000003e-05, + "loss": 0.3936, + "step": 1440 + }, + { + "epoch": 0.009248, + "grad_norm": 2.4817934036254883, + "learning_rate": 1.9938346666666667e-05, + "loss": 0.3671, + "step": 1445 + }, + { + "epoch": 0.00928, + "grad_norm": 4.181858062744141, + "learning_rate": 1.9938133333333335e-05, + "loss": 0.3333, + "step": 1450 + }, + { + "epoch": 0.009312, + "grad_norm": 3.9547417163848877, + "learning_rate": 1.9937920000000002e-05, + "loss": 0.3281, + "step": 1455 + }, + { + "epoch": 0.009344, + "grad_norm": 2.505826950073242, + "learning_rate": 1.9937706666666667e-05, + "loss": 0.426, + "step": 1460 + }, + { + "epoch": 0.009376, + "grad_norm": 2.510890245437622, + "learning_rate": 1.9937493333333334e-05, + "loss": 0.5002, + "step": 1465 + }, + { + "epoch": 0.009408, + "grad_norm": 2.887310028076172, + "learning_rate": 1.993728e-05, + "loss": 0.2991, + "step": 1470 + }, + { + "epoch": 0.00944, + "grad_norm": 2.7185025215148926, + "learning_rate": 1.993706666666667e-05, + "loss": 0.4033, + "step": 1475 + }, + { + "epoch": 0.009472, + "grad_norm": 2.2888593673706055, + "learning_rate": 1.9936853333333333e-05, + "loss": 0.4481, + "step": 1480 + }, + { + "epoch": 0.009504, + "grad_norm": 3.6064932346343994, + "learning_rate": 1.9936640000000004e-05, + "loss": 0.3342, + "step": 1485 + }, + { + "epoch": 0.009536, + "grad_norm": 2.511986255645752, + "learning_rate": 1.993642666666667e-05, + "loss": 0.3558, + "step": 1490 + }, + { + "epoch": 0.009568, + "grad_norm": 1.7911694049835205, + "learning_rate": 1.9936213333333333e-05, + "loss": 0.4008, + "step": 1495 + }, + { + "epoch": 0.0096, + "grad_norm": 2.6655995845794678, + "learning_rate": 1.9936000000000004e-05, + "loss": 0.3623, + "step": 1500 + }, + { + "epoch": 0.009632, + "grad_norm": 2.2789649963378906, + "learning_rate": 1.9935786666666668e-05, + "loss": 0.3035, + "step": 1505 + }, + { + "epoch": 0.009664, + "grad_norm": 4.321988105773926, + "learning_rate": 1.9935573333333335e-05, + "loss": 0.363, + "step": 1510 + }, + { + "epoch": 0.009696, + "grad_norm": 1.4553942680358887, + "learning_rate": 1.9935360000000003e-05, + "loss": 0.3109, + "step": 1515 + }, + { + "epoch": 0.009728, + "grad_norm": 1.6050488948822021, + "learning_rate": 1.993514666666667e-05, + "loss": 0.2991, + "step": 1520 + }, + { + "epoch": 0.00976, + "grad_norm": 1.9913569688796997, + "learning_rate": 1.9934933333333335e-05, + "loss": 0.4078, + "step": 1525 + }, + { + "epoch": 0.009792, + "grad_norm": 2.9242963790893555, + "learning_rate": 1.9934720000000002e-05, + "loss": 0.3248, + "step": 1530 + }, + { + "epoch": 0.009824, + "grad_norm": 2.968751907348633, + "learning_rate": 1.993450666666667e-05, + "loss": 0.3549, + "step": 1535 + }, + { + "epoch": 0.009856, + "grad_norm": 3.0978124141693115, + "learning_rate": 1.9934293333333334e-05, + "loss": 0.4779, + "step": 1540 + }, + { + "epoch": 0.009888, + "grad_norm": 2.649963140487671, + "learning_rate": 1.993408e-05, + "loss": 0.3235, + "step": 1545 + }, + { + "epoch": 0.00992, + "grad_norm": 2.8963122367858887, + "learning_rate": 1.993386666666667e-05, + "loss": 0.4094, + "step": 1550 + }, + { + "epoch": 0.009952, + "grad_norm": 2.258535861968994, + "learning_rate": 1.9933653333333337e-05, + "loss": 0.3166, + "step": 1555 + }, + { + "epoch": 0.009984, + "grad_norm": 2.3700761795043945, + "learning_rate": 1.993344e-05, + "loss": 0.3243, + "step": 1560 + }, + { + "epoch": 0.010016, + "grad_norm": 2.4579272270202637, + "learning_rate": 1.9933226666666668e-05, + "loss": 0.3301, + "step": 1565 + }, + { + "epoch": 0.010048, + "grad_norm": 1.8112436532974243, + "learning_rate": 1.9933013333333336e-05, + "loss": 0.3667, + "step": 1570 + }, + { + "epoch": 0.01008, + "grad_norm": 2.8206615447998047, + "learning_rate": 1.99328e-05, + "loss": 0.3653, + "step": 1575 + }, + { + "epoch": 0.010112, + "grad_norm": 3.232431650161743, + "learning_rate": 1.9932586666666668e-05, + "loss": 0.2906, + "step": 1580 + }, + { + "epoch": 0.010144, + "grad_norm": 18.779104232788086, + "learning_rate": 1.9932373333333335e-05, + "loss": 0.3877, + "step": 1585 + }, + { + "epoch": 0.010176, + "grad_norm": 3.357259511947632, + "learning_rate": 1.9932160000000003e-05, + "loss": 0.4569, + "step": 1590 + }, + { + "epoch": 0.010208, + "grad_norm": 1.9144669771194458, + "learning_rate": 1.9931946666666667e-05, + "loss": 0.3275, + "step": 1595 + }, + { + "epoch": 0.01024, + "grad_norm": 4.411510944366455, + "learning_rate": 1.9931733333333334e-05, + "loss": 0.3292, + "step": 1600 + }, + { + "epoch": 0.010272, + "grad_norm": 1.3658092021942139, + "learning_rate": 1.9931520000000002e-05, + "loss": 0.3817, + "step": 1605 + }, + { + "epoch": 0.010304, + "grad_norm": 1.7229081392288208, + "learning_rate": 1.9931306666666666e-05, + "loss": 0.3433, + "step": 1610 + }, + { + "epoch": 0.010336, + "grad_norm": 1.824839472770691, + "learning_rate": 1.9931093333333337e-05, + "loss": 0.3198, + "step": 1615 + }, + { + "epoch": 0.010368, + "grad_norm": 2.619673490524292, + "learning_rate": 1.993088e-05, + "loss": 0.3684, + "step": 1620 + }, + { + "epoch": 0.0104, + "grad_norm": 1.4311636686325073, + "learning_rate": 1.993066666666667e-05, + "loss": 0.2345, + "step": 1625 + }, + { + "epoch": 0.010432, + "grad_norm": 1.5887809991836548, + "learning_rate": 1.9930453333333336e-05, + "loss": 0.3631, + "step": 1630 + }, + { + "epoch": 0.010464, + "grad_norm": 2.8606319427490234, + "learning_rate": 1.993024e-05, + "loss": 0.3757, + "step": 1635 + }, + { + "epoch": 0.010496, + "grad_norm": 2.828744649887085, + "learning_rate": 1.9930026666666668e-05, + "loss": 0.4123, + "step": 1640 + }, + { + "epoch": 0.010528, + "grad_norm": 2.1867520809173584, + "learning_rate": 1.9929813333333336e-05, + "loss": 0.4225, + "step": 1645 + }, + { + "epoch": 0.01056, + "grad_norm": 3.22780179977417, + "learning_rate": 1.9929600000000003e-05, + "loss": 0.3892, + "step": 1650 + }, + { + "epoch": 0.010592, + "grad_norm": 2.4788503646850586, + "learning_rate": 1.9929386666666667e-05, + "loss": 0.351, + "step": 1655 + }, + { + "epoch": 0.010624, + "grad_norm": 2.1176862716674805, + "learning_rate": 1.9929173333333335e-05, + "loss": 0.3489, + "step": 1660 + }, + { + "epoch": 0.010656, + "grad_norm": 2.1752359867095947, + "learning_rate": 1.9928960000000002e-05, + "loss": 0.3402, + "step": 1665 + }, + { + "epoch": 0.010688, + "grad_norm": 3.9601385593414307, + "learning_rate": 1.9928746666666667e-05, + "loss": 0.348, + "step": 1670 + }, + { + "epoch": 0.01072, + "grad_norm": 1.7234153747558594, + "learning_rate": 1.9928533333333334e-05, + "loss": 0.3102, + "step": 1675 + }, + { + "epoch": 0.010752, + "grad_norm": 1.7753156423568726, + "learning_rate": 1.992832e-05, + "loss": 0.311, + "step": 1680 + }, + { + "epoch": 0.010784, + "grad_norm": 2.0963876247406006, + "learning_rate": 1.992810666666667e-05, + "loss": 0.3748, + "step": 1685 + }, + { + "epoch": 0.010816, + "grad_norm": 2.4556922912597656, + "learning_rate": 1.9927893333333333e-05, + "loss": 0.2678, + "step": 1690 + }, + { + "epoch": 0.010848, + "grad_norm": 3.1413724422454834, + "learning_rate": 1.992768e-05, + "loss": 0.2914, + "step": 1695 + }, + { + "epoch": 0.01088, + "grad_norm": 1.886725902557373, + "learning_rate": 1.992746666666667e-05, + "loss": 0.2813, + "step": 1700 + }, + { + "epoch": 0.010912, + "grad_norm": 2.4372334480285645, + "learning_rate": 1.9927253333333333e-05, + "loss": 0.346, + "step": 1705 + }, + { + "epoch": 0.010944, + "grad_norm": 3.052947521209717, + "learning_rate": 1.9927040000000004e-05, + "loss": 0.4019, + "step": 1710 + }, + { + "epoch": 0.010976, + "grad_norm": 2.4003074169158936, + "learning_rate": 1.9926826666666668e-05, + "loss": 0.3156, + "step": 1715 + }, + { + "epoch": 0.011008, + "grad_norm": 3.163980484008789, + "learning_rate": 1.9926613333333335e-05, + "loss": 0.4978, + "step": 1720 + }, + { + "epoch": 0.01104, + "grad_norm": 3.3934428691864014, + "learning_rate": 1.9926400000000003e-05, + "loss": 0.3444, + "step": 1725 + }, + { + "epoch": 0.011072, + "grad_norm": 1.9629074335098267, + "learning_rate": 1.992618666666667e-05, + "loss": 0.281, + "step": 1730 + }, + { + "epoch": 0.011104, + "grad_norm": 2.419142723083496, + "learning_rate": 1.9925973333333335e-05, + "loss": 0.3447, + "step": 1735 + }, + { + "epoch": 0.011136, + "grad_norm": 2.0654265880584717, + "learning_rate": 1.9925760000000002e-05, + "loss": 0.3845, + "step": 1740 + }, + { + "epoch": 0.011168, + "grad_norm": 2.96755313873291, + "learning_rate": 1.992554666666667e-05, + "loss": 0.3165, + "step": 1745 + }, + { + "epoch": 0.0112, + "grad_norm": 1.3932993412017822, + "learning_rate": 1.9925333333333334e-05, + "loss": 0.3871, + "step": 1750 + }, + { + "epoch": 0.011232, + "grad_norm": 4.048977851867676, + "learning_rate": 1.992512e-05, + "loss": 0.4275, + "step": 1755 + }, + { + "epoch": 0.011264, + "grad_norm": 1.8909903764724731, + "learning_rate": 1.992490666666667e-05, + "loss": 0.336, + "step": 1760 + }, + { + "epoch": 0.011296, + "grad_norm": 1.8871052265167236, + "learning_rate": 1.9924693333333337e-05, + "loss": 0.3427, + "step": 1765 + }, + { + "epoch": 0.011328, + "grad_norm": 2.711388111114502, + "learning_rate": 1.992448e-05, + "loss": 0.4306, + "step": 1770 + }, + { + "epoch": 0.01136, + "grad_norm": 1.4400935173034668, + "learning_rate": 1.9924266666666668e-05, + "loss": 0.3206, + "step": 1775 + }, + { + "epoch": 0.011392, + "grad_norm": 3.897892475128174, + "learning_rate": 1.9924053333333336e-05, + "loss": 0.3464, + "step": 1780 + }, + { + "epoch": 0.011424, + "grad_norm": 3.2444450855255127, + "learning_rate": 1.992384e-05, + "loss": 0.3256, + "step": 1785 + }, + { + "epoch": 0.011456, + "grad_norm": 2.405017852783203, + "learning_rate": 1.9923626666666668e-05, + "loss": 0.2552, + "step": 1790 + }, + { + "epoch": 0.011488, + "grad_norm": 1.982133388519287, + "learning_rate": 1.9923413333333335e-05, + "loss": 0.2763, + "step": 1795 + }, + { + "epoch": 0.01152, + "grad_norm": 1.879157304763794, + "learning_rate": 1.9923200000000003e-05, + "loss": 0.3882, + "step": 1800 + }, + { + "epoch": 0.011552, + "grad_norm": 1.6545790433883667, + "learning_rate": 1.9922986666666667e-05, + "loss": 0.3799, + "step": 1805 + }, + { + "epoch": 0.011584, + "grad_norm": 3.793807029724121, + "learning_rate": 1.9922773333333334e-05, + "loss": 0.3711, + "step": 1810 + }, + { + "epoch": 0.011616, + "grad_norm": 4.250941753387451, + "learning_rate": 1.9922560000000002e-05, + "loss": 0.358, + "step": 1815 + }, + { + "epoch": 0.011648, + "grad_norm": 1.3356928825378418, + "learning_rate": 1.9922346666666666e-05, + "loss": 0.3064, + "step": 1820 + }, + { + "epoch": 0.01168, + "grad_norm": 2.443490505218506, + "learning_rate": 1.9922133333333337e-05, + "loss": 0.2979, + "step": 1825 + }, + { + "epoch": 0.011712, + "grad_norm": 3.4499495029449463, + "learning_rate": 1.992192e-05, + "loss": 0.3525, + "step": 1830 + }, + { + "epoch": 0.011744, + "grad_norm": 1.6666653156280518, + "learning_rate": 1.992170666666667e-05, + "loss": 0.3408, + "step": 1835 + }, + { + "epoch": 0.011776, + "grad_norm": 2.338538646697998, + "learning_rate": 1.9921493333333336e-05, + "loss": 0.2827, + "step": 1840 + }, + { + "epoch": 0.011808, + "grad_norm": 3.8653740882873535, + "learning_rate": 1.992128e-05, + "loss": 0.2968, + "step": 1845 + }, + { + "epoch": 0.01184, + "grad_norm": 2.235424280166626, + "learning_rate": 1.9921066666666668e-05, + "loss": 0.28, + "step": 1850 + }, + { + "epoch": 0.011872, + "grad_norm": 1.8322312831878662, + "learning_rate": 1.9920853333333336e-05, + "loss": 0.3386, + "step": 1855 + }, + { + "epoch": 0.011904, + "grad_norm": 1.7315454483032227, + "learning_rate": 1.9920640000000003e-05, + "loss": 0.2734, + "step": 1860 + }, + { + "epoch": 0.011936, + "grad_norm": 2.119706392288208, + "learning_rate": 1.9920426666666667e-05, + "loss": 0.4015, + "step": 1865 + }, + { + "epoch": 0.011968, + "grad_norm": 1.5120116472244263, + "learning_rate": 1.9920213333333335e-05, + "loss": 0.2758, + "step": 1870 + }, + { + "epoch": 0.012, + "grad_norm": 2.6783318519592285, + "learning_rate": 1.9920000000000002e-05, + "loss": 0.3199, + "step": 1875 + }, + { + "epoch": 0.012032, + "grad_norm": 2.7134580612182617, + "learning_rate": 1.9919786666666667e-05, + "loss": 0.3765, + "step": 1880 + }, + { + "epoch": 0.012064, + "grad_norm": 4.704740524291992, + "learning_rate": 1.9919573333333334e-05, + "loss": 0.3854, + "step": 1885 + }, + { + "epoch": 0.012096, + "grad_norm": 3.281242847442627, + "learning_rate": 1.991936e-05, + "loss": 0.3573, + "step": 1890 + }, + { + "epoch": 0.012128, + "grad_norm": 1.9527764320373535, + "learning_rate": 1.991914666666667e-05, + "loss": 0.3213, + "step": 1895 + }, + { + "epoch": 0.01216, + "grad_norm": 2.7128145694732666, + "learning_rate": 1.9918933333333333e-05, + "loss": 0.2907, + "step": 1900 + }, + { + "epoch": 0.012192, + "grad_norm": 2.6719202995300293, + "learning_rate": 1.991872e-05, + "loss": 0.3462, + "step": 1905 + }, + { + "epoch": 0.012224, + "grad_norm": 2.585162401199341, + "learning_rate": 1.991850666666667e-05, + "loss": 0.2856, + "step": 1910 + }, + { + "epoch": 0.012256, + "grad_norm": 2.8778419494628906, + "learning_rate": 1.9918293333333333e-05, + "loss": 0.3335, + "step": 1915 + }, + { + "epoch": 0.012288, + "grad_norm": 1.9641658067703247, + "learning_rate": 1.991808e-05, + "loss": 0.3346, + "step": 1920 + }, + { + "epoch": 0.01232, + "grad_norm": 2.085751533508301, + "learning_rate": 1.9917866666666668e-05, + "loss": 0.3661, + "step": 1925 + }, + { + "epoch": 0.012352, + "grad_norm": 1.2182072401046753, + "learning_rate": 1.9917653333333335e-05, + "loss": 0.3057, + "step": 1930 + }, + { + "epoch": 0.012384, + "grad_norm": 4.196413993835449, + "learning_rate": 1.9917440000000003e-05, + "loss": 0.3207, + "step": 1935 + }, + { + "epoch": 0.012416, + "grad_norm": 1.0286744832992554, + "learning_rate": 1.991722666666667e-05, + "loss": 0.2705, + "step": 1940 + }, + { + "epoch": 0.012448, + "grad_norm": 2.8918535709381104, + "learning_rate": 1.9917013333333335e-05, + "loss": 0.2418, + "step": 1945 + }, + { + "epoch": 0.01248, + "grad_norm": 2.2144830226898193, + "learning_rate": 1.9916800000000002e-05, + "loss": 0.3302, + "step": 1950 + }, + { + "epoch": 0.012512, + "grad_norm": 2.299175262451172, + "learning_rate": 1.991658666666667e-05, + "loss": 0.3208, + "step": 1955 + }, + { + "epoch": 0.012544, + "grad_norm": 1.787879228591919, + "learning_rate": 1.9916373333333334e-05, + "loss": 0.2863, + "step": 1960 + }, + { + "epoch": 0.012576, + "grad_norm": 1.8444968461990356, + "learning_rate": 1.991616e-05, + "loss": 0.3546, + "step": 1965 + }, + { + "epoch": 0.012608, + "grad_norm": 2.543379068374634, + "learning_rate": 1.991594666666667e-05, + "loss": 0.4787, + "step": 1970 + }, + { + "epoch": 0.01264, + "grad_norm": 1.1348299980163574, + "learning_rate": 1.9915733333333337e-05, + "loss": 0.2633, + "step": 1975 + }, + { + "epoch": 0.012672, + "grad_norm": 8.17972469329834, + "learning_rate": 1.991552e-05, + "loss": 0.3497, + "step": 1980 + }, + { + "epoch": 0.012704, + "grad_norm": 4.772167682647705, + "learning_rate": 1.9915306666666668e-05, + "loss": 0.314, + "step": 1985 + }, + { + "epoch": 0.012736, + "grad_norm": 3.185879707336426, + "learning_rate": 1.9915093333333336e-05, + "loss": 0.3463, + "step": 1990 + }, + { + "epoch": 0.012768, + "grad_norm": 2.6333470344543457, + "learning_rate": 1.991488e-05, + "loss": 0.2557, + "step": 1995 + }, + { + "epoch": 0.0128, + "grad_norm": 1.442073941230774, + "learning_rate": 1.9914666666666668e-05, + "loss": 0.263, + "step": 2000 + }, + { + "epoch": 0.012832, + "grad_norm": 2.8058090209960938, + "learning_rate": 1.9914453333333335e-05, + "loss": 0.2612, + "step": 2005 + }, + { + "epoch": 0.012864, + "grad_norm": 1.7973357439041138, + "learning_rate": 1.9914240000000003e-05, + "loss": 0.3865, + "step": 2010 + }, + { + "epoch": 0.012896, + "grad_norm": 2.6360909938812256, + "learning_rate": 1.9914026666666667e-05, + "loss": 0.2997, + "step": 2015 + }, + { + "epoch": 0.012928, + "grad_norm": 1.3688008785247803, + "learning_rate": 1.9913813333333334e-05, + "loss": 0.2478, + "step": 2020 + }, + { + "epoch": 0.01296, + "grad_norm": 2.444830894470215, + "learning_rate": 1.9913600000000002e-05, + "loss": 0.3033, + "step": 2025 + }, + { + "epoch": 0.012992, + "grad_norm": 1.3304026126861572, + "learning_rate": 1.9913386666666666e-05, + "loss": 0.3015, + "step": 2030 + }, + { + "epoch": 0.013024, + "grad_norm": 2.3438494205474854, + "learning_rate": 1.9913173333333337e-05, + "loss": 0.2679, + "step": 2035 + }, + { + "epoch": 0.013056, + "grad_norm": 2.262972593307495, + "learning_rate": 1.991296e-05, + "loss": 0.3461, + "step": 2040 + }, + { + "epoch": 0.013088, + "grad_norm": 3.135146379470825, + "learning_rate": 1.991274666666667e-05, + "loss": 0.3905, + "step": 2045 + }, + { + "epoch": 0.01312, + "grad_norm": 1.5638364553451538, + "learning_rate": 1.9912533333333336e-05, + "loss": 0.3055, + "step": 2050 + }, + { + "epoch": 0.013152, + "grad_norm": 2.6048038005828857, + "learning_rate": 1.991232e-05, + "loss": 0.2965, + "step": 2055 + }, + { + "epoch": 0.013184, + "grad_norm": 3.1756505966186523, + "learning_rate": 1.9912106666666668e-05, + "loss": 0.4262, + "step": 2060 + }, + { + "epoch": 0.013216, + "grad_norm": 2.30430006980896, + "learning_rate": 1.9911893333333336e-05, + "loss": 0.2392, + "step": 2065 + }, + { + "epoch": 0.013248, + "grad_norm": 1.7453022003173828, + "learning_rate": 1.9911680000000003e-05, + "loss": 0.3133, + "step": 2070 + }, + { + "epoch": 0.01328, + "grad_norm": 3.0553746223449707, + "learning_rate": 1.9911466666666667e-05, + "loss": 0.3437, + "step": 2075 + }, + { + "epoch": 0.013312, + "grad_norm": 1.714057445526123, + "learning_rate": 1.9911253333333335e-05, + "loss": 0.269, + "step": 2080 + }, + { + "epoch": 0.013344, + "grad_norm": 1.971966028213501, + "learning_rate": 1.9911040000000002e-05, + "loss": 0.3362, + "step": 2085 + }, + { + "epoch": 0.013376, + "grad_norm": 2.150383472442627, + "learning_rate": 1.9910826666666667e-05, + "loss": 0.5946, + "step": 2090 + }, + { + "epoch": 0.013408, + "grad_norm": 1.2860121726989746, + "learning_rate": 1.9910613333333334e-05, + "loss": 0.2868, + "step": 2095 + }, + { + "epoch": 0.01344, + "grad_norm": 1.8398066759109497, + "learning_rate": 1.99104e-05, + "loss": 0.2705, + "step": 2100 + }, + { + "epoch": 0.013472, + "grad_norm": 1.3431037664413452, + "learning_rate": 1.991018666666667e-05, + "loss": 0.3011, + "step": 2105 + }, + { + "epoch": 0.013504, + "grad_norm": 1.6553364992141724, + "learning_rate": 1.9909973333333333e-05, + "loss": 0.5781, + "step": 2110 + }, + { + "epoch": 0.013536, + "grad_norm": 2.7440569400787354, + "learning_rate": 1.990976e-05, + "loss": 0.3624, + "step": 2115 + }, + { + "epoch": 0.013568, + "grad_norm": 2.5510268211364746, + "learning_rate": 1.990954666666667e-05, + "loss": 0.4499, + "step": 2120 + }, + { + "epoch": 0.0136, + "grad_norm": 2.3880112171173096, + "learning_rate": 1.9909333333333336e-05, + "loss": 0.3215, + "step": 2125 + }, + { + "epoch": 0.013632, + "grad_norm": 1.6500778198242188, + "learning_rate": 1.990912e-05, + "loss": 0.2394, + "step": 2130 + }, + { + "epoch": 0.013664, + "grad_norm": 2.094536304473877, + "learning_rate": 1.9908906666666668e-05, + "loss": 0.2838, + "step": 2135 + }, + { + "epoch": 0.013696, + "grad_norm": 2.1523263454437256, + "learning_rate": 1.9908693333333335e-05, + "loss": 0.2597, + "step": 2140 + }, + { + "epoch": 0.013728, + "grad_norm": 2.537670612335205, + "learning_rate": 1.990848e-05, + "loss": 0.3448, + "step": 2145 + }, + { + "epoch": 0.01376, + "grad_norm": 2.202435255050659, + "learning_rate": 1.990826666666667e-05, + "loss": 0.3354, + "step": 2150 + }, + { + "epoch": 0.013792, + "grad_norm": 2.174989700317383, + "learning_rate": 1.9908053333333335e-05, + "loss": 0.4398, + "step": 2155 + }, + { + "epoch": 0.013824, + "grad_norm": 2.75079083442688, + "learning_rate": 1.9907840000000002e-05, + "loss": 0.3449, + "step": 2160 + }, + { + "epoch": 0.013856, + "grad_norm": 1.8036454916000366, + "learning_rate": 1.990762666666667e-05, + "loss": 0.3467, + "step": 2165 + }, + { + "epoch": 0.013888, + "grad_norm": 1.4957112073898315, + "learning_rate": 1.9907413333333334e-05, + "loss": 0.223, + "step": 2170 + }, + { + "epoch": 0.01392, + "grad_norm": 2.1479272842407227, + "learning_rate": 1.99072e-05, + "loss": 0.3633, + "step": 2175 + }, + { + "epoch": 0.013952, + "grad_norm": 2.554077386856079, + "learning_rate": 1.990698666666667e-05, + "loss": 0.282, + "step": 2180 + }, + { + "epoch": 0.013984, + "grad_norm": 1.8101840019226074, + "learning_rate": 1.9906773333333337e-05, + "loss": 0.2774, + "step": 2185 + }, + { + "epoch": 0.014016, + "grad_norm": 2.292295455932617, + "learning_rate": 1.990656e-05, + "loss": 0.3556, + "step": 2190 + }, + { + "epoch": 0.014048, + "grad_norm": 1.5827031135559082, + "learning_rate": 1.9906346666666668e-05, + "loss": 0.2937, + "step": 2195 + }, + { + "epoch": 0.01408, + "grad_norm": 2.782599925994873, + "learning_rate": 1.9906133333333336e-05, + "loss": 0.3225, + "step": 2200 + }, + { + "epoch": 0.014112, + "grad_norm": 2.8903021812438965, + "learning_rate": 1.990592e-05, + "loss": 0.315, + "step": 2205 + }, + { + "epoch": 0.014144, + "grad_norm": 2.656775951385498, + "learning_rate": 1.9905706666666668e-05, + "loss": 0.3336, + "step": 2210 + }, + { + "epoch": 0.014176, + "grad_norm": 1.5774599313735962, + "learning_rate": 1.9905493333333335e-05, + "loss": 0.376, + "step": 2215 + }, + { + "epoch": 0.014208, + "grad_norm": 3.4031503200531006, + "learning_rate": 1.9905280000000003e-05, + "loss": 0.3353, + "step": 2220 + }, + { + "epoch": 0.01424, + "grad_norm": 2.101099729537964, + "learning_rate": 1.9905066666666667e-05, + "loss": 0.3323, + "step": 2225 + }, + { + "epoch": 0.014272, + "grad_norm": 2.778958559036255, + "learning_rate": 1.9904853333333334e-05, + "loss": 0.3707, + "step": 2230 + }, + { + "epoch": 0.014304, + "grad_norm": 3.2409348487854004, + "learning_rate": 1.9904640000000002e-05, + "loss": 0.3283, + "step": 2235 + }, + { + "epoch": 0.014336, + "grad_norm": 3.256535291671753, + "learning_rate": 1.9904426666666666e-05, + "loss": 0.3347, + "step": 2240 + }, + { + "epoch": 0.014368, + "grad_norm": 1.84663987159729, + "learning_rate": 1.9904213333333337e-05, + "loss": 0.3021, + "step": 2245 + }, + { + "epoch": 0.0144, + "grad_norm": 2.9249038696289062, + "learning_rate": 1.9904e-05, + "loss": 0.3599, + "step": 2250 + }, + { + "epoch": 0.014432, + "grad_norm": 1.399268627166748, + "learning_rate": 1.990378666666667e-05, + "loss": 0.3173, + "step": 2255 + }, + { + "epoch": 0.014464, + "grad_norm": 3.9629554748535156, + "learning_rate": 1.9903573333333336e-05, + "loss": 0.4017, + "step": 2260 + }, + { + "epoch": 0.014496, + "grad_norm": 2.6363723278045654, + "learning_rate": 1.9903360000000004e-05, + "loss": 0.3351, + "step": 2265 + }, + { + "epoch": 0.014528, + "grad_norm": 1.8129550218582153, + "learning_rate": 1.9903146666666668e-05, + "loss": 0.3066, + "step": 2270 + }, + { + "epoch": 0.01456, + "grad_norm": 1.517575979232788, + "learning_rate": 1.9902933333333336e-05, + "loss": 0.2989, + "step": 2275 + }, + { + "epoch": 0.014592, + "grad_norm": 2.97770357131958, + "learning_rate": 1.9902720000000003e-05, + "loss": 0.3637, + "step": 2280 + }, + { + "epoch": 0.014624, + "grad_norm": 2.020319700241089, + "learning_rate": 1.9902506666666667e-05, + "loss": 0.3312, + "step": 2285 + }, + { + "epoch": 0.014656, + "grad_norm": 2.46150541305542, + "learning_rate": 1.9902293333333335e-05, + "loss": 0.3131, + "step": 2290 + }, + { + "epoch": 0.014688, + "grad_norm": 1.103425145149231, + "learning_rate": 1.9902080000000002e-05, + "loss": 0.2914, + "step": 2295 + }, + { + "epoch": 0.01472, + "grad_norm": 3.014770984649658, + "learning_rate": 1.990186666666667e-05, + "loss": 0.364, + "step": 2300 + }, + { + "epoch": 0.014752, + "grad_norm": 2.503615379333496, + "learning_rate": 1.9901653333333334e-05, + "loss": 0.2597, + "step": 2305 + }, + { + "epoch": 0.014784, + "grad_norm": 1.8799396753311157, + "learning_rate": 1.990144e-05, + "loss": 0.2286, + "step": 2310 + }, + { + "epoch": 0.014816, + "grad_norm": 2.3207921981811523, + "learning_rate": 1.990122666666667e-05, + "loss": 0.3601, + "step": 2315 + }, + { + "epoch": 0.014848, + "grad_norm": 3.656341552734375, + "learning_rate": 1.9901013333333333e-05, + "loss": 0.3613, + "step": 2320 + }, + { + "epoch": 0.01488, + "grad_norm": 2.161045789718628, + "learning_rate": 1.99008e-05, + "loss": 0.3826, + "step": 2325 + }, + { + "epoch": 0.014912, + "grad_norm": 1.9019619226455688, + "learning_rate": 1.990058666666667e-05, + "loss": 0.2845, + "step": 2330 + }, + { + "epoch": 0.014944, + "grad_norm": 4.255396842956543, + "learning_rate": 1.9900373333333336e-05, + "loss": 0.3925, + "step": 2335 + }, + { + "epoch": 0.014976, + "grad_norm": 1.4597586393356323, + "learning_rate": 1.990016e-05, + "loss": 0.2887, + "step": 2340 + }, + { + "epoch": 0.015008, + "grad_norm": 3.921015739440918, + "learning_rate": 1.9899946666666668e-05, + "loss": 0.3075, + "step": 2345 + }, + { + "epoch": 0.01504, + "grad_norm": 1.5272420644760132, + "learning_rate": 1.9899733333333335e-05, + "loss": 0.2054, + "step": 2350 + }, + { + "epoch": 0.015072, + "grad_norm": 1.2567815780639648, + "learning_rate": 1.989952e-05, + "loss": 0.3169, + "step": 2355 + }, + { + "epoch": 0.015104, + "grad_norm": 1.559218168258667, + "learning_rate": 1.989930666666667e-05, + "loss": 0.2638, + "step": 2360 + }, + { + "epoch": 0.015136, + "grad_norm": 1.8569884300231934, + "learning_rate": 1.9899093333333335e-05, + "loss": 0.2923, + "step": 2365 + }, + { + "epoch": 0.015168, + "grad_norm": 1.1493945121765137, + "learning_rate": 1.9898880000000002e-05, + "loss": 0.3085, + "step": 2370 + }, + { + "epoch": 0.0152, + "grad_norm": 1.8747155666351318, + "learning_rate": 1.989866666666667e-05, + "loss": 0.2861, + "step": 2375 + }, + { + "epoch": 0.015232, + "grad_norm": 5.494675636291504, + "learning_rate": 1.9898453333333334e-05, + "loss": 0.3819, + "step": 2380 + }, + { + "epoch": 0.015264, + "grad_norm": 1.7898423671722412, + "learning_rate": 1.989824e-05, + "loss": 0.2815, + "step": 2385 + }, + { + "epoch": 0.015296, + "grad_norm": 1.9186482429504395, + "learning_rate": 1.989802666666667e-05, + "loss": 0.202, + "step": 2390 + }, + { + "epoch": 0.015328, + "grad_norm": 2.832695484161377, + "learning_rate": 1.9897813333333337e-05, + "loss": 0.3833, + "step": 2395 + }, + { + "epoch": 0.01536, + "grad_norm": 2.797592878341675, + "learning_rate": 1.98976e-05, + "loss": 0.3285, + "step": 2400 + }, + { + "epoch": 0.015392, + "grad_norm": 1.9503870010375977, + "learning_rate": 1.9897386666666668e-05, + "loss": 0.2389, + "step": 2405 + }, + { + "epoch": 0.015424, + "grad_norm": 1.6215513944625854, + "learning_rate": 1.9897173333333336e-05, + "loss": 0.2593, + "step": 2410 + }, + { + "epoch": 0.015456, + "grad_norm": 2.9885780811309814, + "learning_rate": 1.989696e-05, + "loss": 0.2679, + "step": 2415 + }, + { + "epoch": 0.015488, + "grad_norm": 3.21014404296875, + "learning_rate": 1.9896746666666668e-05, + "loss": 0.3673, + "step": 2420 + }, + { + "epoch": 0.01552, + "grad_norm": 1.3208099603652954, + "learning_rate": 1.9896533333333335e-05, + "loss": 0.3179, + "step": 2425 + }, + { + "epoch": 0.015552, + "grad_norm": 2.4014225006103516, + "learning_rate": 1.9896320000000003e-05, + "loss": 0.2977, + "step": 2430 + }, + { + "epoch": 0.015584, + "grad_norm": 4.7909836769104, + "learning_rate": 1.9896106666666667e-05, + "loss": 0.4138, + "step": 2435 + }, + { + "epoch": 0.015616, + "grad_norm": 2.67677903175354, + "learning_rate": 1.9895893333333334e-05, + "loss": 0.3072, + "step": 2440 + }, + { + "epoch": 0.015648, + "grad_norm": 1.609593152999878, + "learning_rate": 1.9895680000000002e-05, + "loss": 0.287, + "step": 2445 + }, + { + "epoch": 0.01568, + "grad_norm": 2.1526501178741455, + "learning_rate": 1.9895466666666666e-05, + "loss": 0.3179, + "step": 2450 + }, + { + "epoch": 0.015712, + "grad_norm": 1.635866403579712, + "learning_rate": 1.9895253333333334e-05, + "loss": 0.2204, + "step": 2455 + }, + { + "epoch": 0.015744, + "grad_norm": 1.5204641819000244, + "learning_rate": 1.989504e-05, + "loss": 0.2758, + "step": 2460 + }, + { + "epoch": 0.015776, + "grad_norm": 1.7765274047851562, + "learning_rate": 1.989482666666667e-05, + "loss": 0.28, + "step": 2465 + }, + { + "epoch": 0.015808, + "grad_norm": 1.960608959197998, + "learning_rate": 1.9894613333333336e-05, + "loss": 0.2366, + "step": 2470 + }, + { + "epoch": 0.01584, + "grad_norm": 3.382075548171997, + "learning_rate": 1.9894400000000004e-05, + "loss": 0.2418, + "step": 2475 + }, + { + "epoch": 0.015872, + "grad_norm": 1.7404521703720093, + "learning_rate": 1.9894186666666668e-05, + "loss": 0.2569, + "step": 2480 + }, + { + "epoch": 0.015904, + "grad_norm": 2.64841890335083, + "learning_rate": 1.9893973333333336e-05, + "loss": 0.3071, + "step": 2485 + }, + { + "epoch": 0.015936, + "grad_norm": 2.3594038486480713, + "learning_rate": 1.9893760000000003e-05, + "loss": 0.3786, + "step": 2490 + }, + { + "epoch": 0.015968, + "grad_norm": 1.4005441665649414, + "learning_rate": 1.9893546666666667e-05, + "loss": 0.2826, + "step": 2495 + }, + { + "epoch": 0.016, + "grad_norm": 1.5597528219223022, + "learning_rate": 1.9893333333333335e-05, + "loss": 0.2305, + "step": 2500 + }, + { + "epoch": 0.016032, + "grad_norm": 2.3139078617095947, + "learning_rate": 1.9893120000000002e-05, + "loss": 0.2307, + "step": 2505 + }, + { + "epoch": 0.016064, + "grad_norm": 1.724388837814331, + "learning_rate": 1.989290666666667e-05, + "loss": 0.3741, + "step": 2510 + }, + { + "epoch": 0.016096, + "grad_norm": 1.3913686275482178, + "learning_rate": 1.9892693333333334e-05, + "loss": 0.3138, + "step": 2515 + }, + { + "epoch": 0.016128, + "grad_norm": 1.7113057374954224, + "learning_rate": 1.989248e-05, + "loss": 0.2693, + "step": 2520 + }, + { + "epoch": 0.01616, + "grad_norm": 3.163597822189331, + "learning_rate": 1.989226666666667e-05, + "loss": 0.333, + "step": 2525 + }, + { + "epoch": 0.016192, + "grad_norm": 1.5292266607284546, + "learning_rate": 1.9892053333333333e-05, + "loss": 0.2427, + "step": 2530 + }, + { + "epoch": 0.016224, + "grad_norm": 1.9000362157821655, + "learning_rate": 1.989184e-05, + "loss": 0.2635, + "step": 2535 + }, + { + "epoch": 0.016256, + "grad_norm": 1.3085205554962158, + "learning_rate": 1.989162666666667e-05, + "loss": 0.2469, + "step": 2540 + }, + { + "epoch": 0.016288, + "grad_norm": 2.764648914337158, + "learning_rate": 1.9891413333333336e-05, + "loss": 0.288, + "step": 2545 + }, + { + "epoch": 0.01632, + "grad_norm": 1.6199959516525269, + "learning_rate": 1.98912e-05, + "loss": 0.2994, + "step": 2550 + }, + { + "epoch": 0.016352, + "grad_norm": 1.2794768810272217, + "learning_rate": 1.9890986666666668e-05, + "loss": 0.3092, + "step": 2555 + }, + { + "epoch": 0.016384, + "grad_norm": 1.8628206253051758, + "learning_rate": 1.9890773333333335e-05, + "loss": 0.2817, + "step": 2560 + }, + { + "epoch": 0.016416, + "grad_norm": 1.8555759191513062, + "learning_rate": 1.989056e-05, + "loss": 0.3049, + "step": 2565 + }, + { + "epoch": 0.016448, + "grad_norm": 2.2076034545898438, + "learning_rate": 1.989034666666667e-05, + "loss": 0.3282, + "step": 2570 + }, + { + "epoch": 0.01648, + "grad_norm": 1.8129072189331055, + "learning_rate": 1.9890133333333335e-05, + "loss": 0.2354, + "step": 2575 + }, + { + "epoch": 0.016512, + "grad_norm": 1.637734055519104, + "learning_rate": 1.9889920000000002e-05, + "loss": 0.2455, + "step": 2580 + }, + { + "epoch": 0.016544, + "grad_norm": 1.8917324542999268, + "learning_rate": 1.988970666666667e-05, + "loss": 0.3282, + "step": 2585 + }, + { + "epoch": 0.016576, + "grad_norm": 2.607337236404419, + "learning_rate": 1.9889493333333334e-05, + "loss": 0.3124, + "step": 2590 + }, + { + "epoch": 0.016608, + "grad_norm": 1.5678781270980835, + "learning_rate": 1.988928e-05, + "loss": 0.2371, + "step": 2595 + }, + { + "epoch": 0.01664, + "grad_norm": 3.728229284286499, + "learning_rate": 1.988906666666667e-05, + "loss": 0.2402, + "step": 2600 + }, + { + "epoch": 0.016672, + "grad_norm": 3.5230371952056885, + "learning_rate": 1.9888853333333337e-05, + "loss": 0.1793, + "step": 2605 + }, + { + "epoch": 0.016704, + "grad_norm": 3.757469415664673, + "learning_rate": 1.988864e-05, + "loss": 0.2472, + "step": 2610 + }, + { + "epoch": 0.016736, + "grad_norm": 1.9305089712142944, + "learning_rate": 1.9888426666666668e-05, + "loss": 0.2185, + "step": 2615 + }, + { + "epoch": 0.016768, + "grad_norm": 1.7684032917022705, + "learning_rate": 1.9888213333333336e-05, + "loss": 0.218, + "step": 2620 + }, + { + "epoch": 0.0168, + "grad_norm": 2.971950054168701, + "learning_rate": 1.9888e-05, + "loss": 0.4127, + "step": 2625 + }, + { + "epoch": 0.016832, + "grad_norm": 2.8966898918151855, + "learning_rate": 1.9887786666666668e-05, + "loss": 0.3005, + "step": 2630 + }, + { + "epoch": 0.016864, + "grad_norm": 1.7430084943771362, + "learning_rate": 1.9887573333333335e-05, + "loss": 0.2549, + "step": 2635 + }, + { + "epoch": 0.016896, + "grad_norm": 1.8424489498138428, + "learning_rate": 1.9887360000000003e-05, + "loss": 0.2824, + "step": 2640 + }, + { + "epoch": 0.016928, + "grad_norm": 2.2617452144622803, + "learning_rate": 1.9887146666666667e-05, + "loss": 0.2342, + "step": 2645 + }, + { + "epoch": 0.01696, + "grad_norm": 2.2667629718780518, + "learning_rate": 1.9886933333333334e-05, + "loss": 0.2889, + "step": 2650 + }, + { + "epoch": 0.016992, + "grad_norm": 2.301572799682617, + "learning_rate": 1.9886720000000002e-05, + "loss": 0.3008, + "step": 2655 + }, + { + "epoch": 0.017024, + "grad_norm": 1.5984430313110352, + "learning_rate": 1.9886506666666666e-05, + "loss": 0.2974, + "step": 2660 + }, + { + "epoch": 0.017056, + "grad_norm": 1.6257768869400024, + "learning_rate": 1.9886293333333334e-05, + "loss": 0.2367, + "step": 2665 + }, + { + "epoch": 0.017088, + "grad_norm": 245.33447265625, + "learning_rate": 1.988608e-05, + "loss": 0.2826, + "step": 2670 + }, + { + "epoch": 0.01712, + "grad_norm": 1.9126992225646973, + "learning_rate": 1.988586666666667e-05, + "loss": 0.2629, + "step": 2675 + }, + { + "epoch": 0.017152, + "grad_norm": 2.6983602046966553, + "learning_rate": 1.9885653333333333e-05, + "loss": 0.2878, + "step": 2680 + }, + { + "epoch": 0.017184, + "grad_norm": 1.9871642589569092, + "learning_rate": 1.9885440000000004e-05, + "loss": 0.3075, + "step": 2685 + }, + { + "epoch": 0.017216, + "grad_norm": 2.047244071960449, + "learning_rate": 1.9885226666666668e-05, + "loss": 0.2977, + "step": 2690 + }, + { + "epoch": 0.017248, + "grad_norm": 1.9977498054504395, + "learning_rate": 1.9885013333333336e-05, + "loss": 0.3344, + "step": 2695 + }, + { + "epoch": 0.01728, + "grad_norm": 1.7619613409042358, + "learning_rate": 1.9884800000000003e-05, + "loss": 0.2924, + "step": 2700 + }, + { + "epoch": 0.017312, + "grad_norm": 4.708557605743408, + "learning_rate": 1.9884586666666667e-05, + "loss": 0.2447, + "step": 2705 + }, + { + "epoch": 0.017344, + "grad_norm": 1.90569007396698, + "learning_rate": 1.9884373333333335e-05, + "loss": 0.2845, + "step": 2710 + }, + { + "epoch": 0.017376, + "grad_norm": 2.4468095302581787, + "learning_rate": 1.9884160000000002e-05, + "loss": 0.2341, + "step": 2715 + }, + { + "epoch": 0.017408, + "grad_norm": 0.9358093738555908, + "learning_rate": 1.988394666666667e-05, + "loss": 0.2563, + "step": 2720 + }, + { + "epoch": 0.01744, + "grad_norm": 1.739404320716858, + "learning_rate": 1.9883733333333334e-05, + "loss": 0.2667, + "step": 2725 + }, + { + "epoch": 0.017472, + "grad_norm": 2.1302146911621094, + "learning_rate": 1.9883520000000002e-05, + "loss": 0.3467, + "step": 2730 + }, + { + "epoch": 0.017504, + "grad_norm": 2.908452272415161, + "learning_rate": 1.988330666666667e-05, + "loss": 0.2727, + "step": 2735 + }, + { + "epoch": 0.017536, + "grad_norm": 1.9738757610321045, + "learning_rate": 1.9883093333333333e-05, + "loss": 0.3087, + "step": 2740 + }, + { + "epoch": 0.017568, + "grad_norm": 2.019352674484253, + "learning_rate": 1.988288e-05, + "loss": 0.2745, + "step": 2745 + }, + { + "epoch": 0.0176, + "grad_norm": 1.9974135160446167, + "learning_rate": 1.988266666666667e-05, + "loss": 0.2874, + "step": 2750 + }, + { + "epoch": 0.017632, + "grad_norm": 1.6556198596954346, + "learning_rate": 1.9882453333333336e-05, + "loss": 0.2872, + "step": 2755 + }, + { + "epoch": 0.017664, + "grad_norm": 1.6353226900100708, + "learning_rate": 1.988224e-05, + "loss": 0.2456, + "step": 2760 + }, + { + "epoch": 0.017696, + "grad_norm": 2.103468894958496, + "learning_rate": 1.9882026666666668e-05, + "loss": 0.2549, + "step": 2765 + }, + { + "epoch": 0.017728, + "grad_norm": 1.6315290927886963, + "learning_rate": 1.9881813333333335e-05, + "loss": 0.2234, + "step": 2770 + }, + { + "epoch": 0.01776, + "grad_norm": 2.253727436065674, + "learning_rate": 1.98816e-05, + "loss": 0.2643, + "step": 2775 + }, + { + "epoch": 0.017792, + "grad_norm": 1.5400090217590332, + "learning_rate": 1.988138666666667e-05, + "loss": 0.2571, + "step": 2780 + }, + { + "epoch": 0.017824, + "grad_norm": 1.9135318994522095, + "learning_rate": 1.9881173333333335e-05, + "loss": 0.2657, + "step": 2785 + }, + { + "epoch": 0.017856, + "grad_norm": 2.5330474376678467, + "learning_rate": 1.9880960000000002e-05, + "loss": 0.3352, + "step": 2790 + }, + { + "epoch": 0.017888, + "grad_norm": 2.2822020053863525, + "learning_rate": 1.988074666666667e-05, + "loss": 0.3074, + "step": 2795 + }, + { + "epoch": 0.01792, + "grad_norm": 1.2908142805099487, + "learning_rate": 1.9880533333333334e-05, + "loss": 0.2244, + "step": 2800 + }, + { + "epoch": 0.017952, + "grad_norm": 2.0787267684936523, + "learning_rate": 1.988032e-05, + "loss": 0.293, + "step": 2805 + }, + { + "epoch": 0.017984, + "grad_norm": 2.001584529876709, + "learning_rate": 1.988010666666667e-05, + "loss": 0.3285, + "step": 2810 + }, + { + "epoch": 0.018016, + "grad_norm": 1.8066436052322388, + "learning_rate": 1.9879893333333337e-05, + "loss": 0.2556, + "step": 2815 + }, + { + "epoch": 0.018048, + "grad_norm": 2.666611909866333, + "learning_rate": 1.987968e-05, + "loss": 0.2614, + "step": 2820 + }, + { + "epoch": 0.01808, + "grad_norm": 4.0499773025512695, + "learning_rate": 1.9879466666666668e-05, + "loss": 0.4344, + "step": 2825 + }, + { + "epoch": 0.018112, + "grad_norm": 1.650688648223877, + "learning_rate": 1.9879253333333336e-05, + "loss": 0.2105, + "step": 2830 + }, + { + "epoch": 0.018144, + "grad_norm": 35.85495376586914, + "learning_rate": 1.987904e-05, + "loss": 0.2638, + "step": 2835 + }, + { + "epoch": 0.018176, + "grad_norm": 1.5225694179534912, + "learning_rate": 1.9878826666666668e-05, + "loss": 0.2711, + "step": 2840 + }, + { + "epoch": 0.018208, + "grad_norm": 2.0746428966522217, + "learning_rate": 1.9878613333333335e-05, + "loss": 0.3076, + "step": 2845 + }, + { + "epoch": 0.01824, + "grad_norm": 0.9824330806732178, + "learning_rate": 1.9878400000000003e-05, + "loss": 0.213, + "step": 2850 + }, + { + "epoch": 0.018272, + "grad_norm": 2.5008490085601807, + "learning_rate": 1.9878186666666667e-05, + "loss": 0.2592, + "step": 2855 + }, + { + "epoch": 0.018304, + "grad_norm": 3.4636549949645996, + "learning_rate": 1.9877973333333334e-05, + "loss": 0.3304, + "step": 2860 + }, + { + "epoch": 0.018336, + "grad_norm": 1.5962610244750977, + "learning_rate": 1.9877760000000002e-05, + "loss": 0.2668, + "step": 2865 + }, + { + "epoch": 0.018368, + "grad_norm": 1.9133485555648804, + "learning_rate": 1.9877546666666666e-05, + "loss": 0.2919, + "step": 2870 + }, + { + "epoch": 0.0184, + "grad_norm": 1.4701745510101318, + "learning_rate": 1.9877333333333334e-05, + "loss": 0.1931, + "step": 2875 + }, + { + "epoch": 0.018432, + "grad_norm": 1.3360666036605835, + "learning_rate": 1.987712e-05, + "loss": 0.2976, + "step": 2880 + }, + { + "epoch": 0.018464, + "grad_norm": 2.2996907234191895, + "learning_rate": 1.987690666666667e-05, + "loss": 0.2736, + "step": 2885 + }, + { + "epoch": 0.018496, + "grad_norm": 2.571399211883545, + "learning_rate": 1.9876693333333333e-05, + "loss": 0.2791, + "step": 2890 + }, + { + "epoch": 0.018528, + "grad_norm": 1.1136693954467773, + "learning_rate": 1.9876480000000004e-05, + "loss": 0.2285, + "step": 2895 + }, + { + "epoch": 0.01856, + "grad_norm": 1.8977073431015015, + "learning_rate": 1.9876266666666668e-05, + "loss": 0.3047, + "step": 2900 + }, + { + "epoch": 0.018592, + "grad_norm": 3.2330973148345947, + "learning_rate": 1.9876053333333332e-05, + "loss": 0.2386, + "step": 2905 + }, + { + "epoch": 0.018624, + "grad_norm": 1.342839241027832, + "learning_rate": 1.9875840000000003e-05, + "loss": 0.2694, + "step": 2910 + }, + { + "epoch": 0.018656, + "grad_norm": 1.1820789575576782, + "learning_rate": 1.9875626666666667e-05, + "loss": 0.1856, + "step": 2915 + }, + { + "epoch": 0.018688, + "grad_norm": 1.8539235591888428, + "learning_rate": 1.9875413333333335e-05, + "loss": 0.2394, + "step": 2920 + }, + { + "epoch": 0.01872, + "grad_norm": 0.895747184753418, + "learning_rate": 1.9875200000000002e-05, + "loss": 0.2596, + "step": 2925 + }, + { + "epoch": 0.018752, + "grad_norm": 2.3329415321350098, + "learning_rate": 1.987498666666667e-05, + "loss": 0.2653, + "step": 2930 + }, + { + "epoch": 0.018784, + "grad_norm": 3.569575309753418, + "learning_rate": 1.9874773333333334e-05, + "loss": 0.1715, + "step": 2935 + }, + { + "epoch": 0.018816, + "grad_norm": 1.5615899562835693, + "learning_rate": 1.9874560000000002e-05, + "loss": 0.2464, + "step": 2940 + }, + { + "epoch": 0.018848, + "grad_norm": 1.325790286064148, + "learning_rate": 1.987434666666667e-05, + "loss": 0.2906, + "step": 2945 + }, + { + "epoch": 0.01888, + "grad_norm": 3.3824214935302734, + "learning_rate": 1.9874133333333333e-05, + "loss": 0.2707, + "step": 2950 + }, + { + "epoch": 0.018912, + "grad_norm": 1.893967866897583, + "learning_rate": 1.987392e-05, + "loss": 0.3108, + "step": 2955 + }, + { + "epoch": 0.018944, + "grad_norm": 2.2542243003845215, + "learning_rate": 1.987370666666667e-05, + "loss": 0.3143, + "step": 2960 + }, + { + "epoch": 0.018976, + "grad_norm": 2.5739076137542725, + "learning_rate": 1.9873493333333336e-05, + "loss": 0.2114, + "step": 2965 + }, + { + "epoch": 0.019008, + "grad_norm": 1.7270638942718506, + "learning_rate": 1.987328e-05, + "loss": 0.2435, + "step": 2970 + }, + { + "epoch": 0.01904, + "grad_norm": 1.9276962280273438, + "learning_rate": 1.9873066666666668e-05, + "loss": 0.2131, + "step": 2975 + }, + { + "epoch": 0.019072, + "grad_norm": 3.012098789215088, + "learning_rate": 1.9872853333333335e-05, + "loss": 0.2555, + "step": 2980 + }, + { + "epoch": 0.019104, + "grad_norm": 3.3015785217285156, + "learning_rate": 1.987264e-05, + "loss": 0.2065, + "step": 2985 + }, + { + "epoch": 0.019136, + "grad_norm": 2.711427927017212, + "learning_rate": 1.9872426666666667e-05, + "loss": 0.2542, + "step": 2990 + }, + { + "epoch": 0.019168, + "grad_norm": 1.5285433530807495, + "learning_rate": 1.9872213333333335e-05, + "loss": 0.2874, + "step": 2995 + }, + { + "epoch": 0.0192, + "grad_norm": 3.154395580291748, + "learning_rate": 1.9872000000000002e-05, + "loss": 0.3331, + "step": 3000 + }, + { + "epoch": 0.019232, + "grad_norm": 1.6841684579849243, + "learning_rate": 1.987178666666667e-05, + "loss": 0.254, + "step": 3005 + }, + { + "epoch": 0.019264, + "grad_norm": 1.9219179153442383, + "learning_rate": 1.9871573333333337e-05, + "loss": 0.2219, + "step": 3010 + }, + { + "epoch": 0.019296, + "grad_norm": 2.1220951080322266, + "learning_rate": 1.987136e-05, + "loss": 0.2956, + "step": 3015 + }, + { + "epoch": 0.019328, + "grad_norm": 2.1133737564086914, + "learning_rate": 1.987114666666667e-05, + "loss": 0.2715, + "step": 3020 + }, + { + "epoch": 0.01936, + "grad_norm": 2.5918140411376953, + "learning_rate": 1.9870933333333337e-05, + "loss": 0.3634, + "step": 3025 + }, + { + "epoch": 0.019392, + "grad_norm": 1.7730765342712402, + "learning_rate": 1.987072e-05, + "loss": 0.3098, + "step": 3030 + }, + { + "epoch": 0.019424, + "grad_norm": 1.5049024820327759, + "learning_rate": 1.9870506666666668e-05, + "loss": 0.3218, + "step": 3035 + }, + { + "epoch": 0.019456, + "grad_norm": 4.9857964515686035, + "learning_rate": 1.9870293333333336e-05, + "loss": 0.2032, + "step": 3040 + }, + { + "epoch": 0.019488, + "grad_norm": 4.6255669593811035, + "learning_rate": 1.9870080000000003e-05, + "loss": 0.3152, + "step": 3045 + }, + { + "epoch": 0.01952, + "grad_norm": 1.7342945337295532, + "learning_rate": 1.9869866666666668e-05, + "loss": 0.2686, + "step": 3050 + }, + { + "epoch": 0.019552, + "grad_norm": 1.5313169956207275, + "learning_rate": 1.9869653333333335e-05, + "loss": 0.269, + "step": 3055 + }, + { + "epoch": 0.019584, + "grad_norm": 2.581084728240967, + "learning_rate": 1.9869440000000003e-05, + "loss": 0.258, + "step": 3060 + }, + { + "epoch": 0.019616, + "grad_norm": 2.603553533554077, + "learning_rate": 1.9869226666666667e-05, + "loss": 0.2635, + "step": 3065 + }, + { + "epoch": 0.019648, + "grad_norm": 1.5304540395736694, + "learning_rate": 1.9869013333333334e-05, + "loss": 0.2316, + "step": 3070 + }, + { + "epoch": 0.01968, + "grad_norm": 1.9849555492401123, + "learning_rate": 1.9868800000000002e-05, + "loss": 0.2129, + "step": 3075 + }, + { + "epoch": 0.019712, + "grad_norm": 1.4193518161773682, + "learning_rate": 1.986858666666667e-05, + "loss": 0.331, + "step": 3080 + }, + { + "epoch": 0.019744, + "grad_norm": 2.1727540493011475, + "learning_rate": 1.9868373333333334e-05, + "loss": 0.2844, + "step": 3085 + }, + { + "epoch": 0.019776, + "grad_norm": 2.0565741062164307, + "learning_rate": 1.986816e-05, + "loss": 0.282, + "step": 3090 + }, + { + "epoch": 0.019808, + "grad_norm": 4.161644458770752, + "learning_rate": 1.986794666666667e-05, + "loss": 0.2271, + "step": 3095 + }, + { + "epoch": 0.01984, + "grad_norm": 1.9513999223709106, + "learning_rate": 1.9867733333333333e-05, + "loss": 0.2451, + "step": 3100 + }, + { + "epoch": 0.019872, + "grad_norm": 1.4529776573181152, + "learning_rate": 1.9867520000000004e-05, + "loss": 0.2614, + "step": 3105 + }, + { + "epoch": 0.019904, + "grad_norm": 1.6948717832565308, + "learning_rate": 1.9867306666666668e-05, + "loss": 0.2201, + "step": 3110 + }, + { + "epoch": 0.019936, + "grad_norm": 2.223212718963623, + "learning_rate": 1.9867093333333336e-05, + "loss": 0.2121, + "step": 3115 + }, + { + "epoch": 0.019968, + "grad_norm": 1.9605568647384644, + "learning_rate": 1.9866880000000003e-05, + "loss": 0.1801, + "step": 3120 + }, + { + "epoch": 0.02, + "grad_norm": 1.3179657459259033, + "learning_rate": 1.9866666666666667e-05, + "loss": 0.2066, + "step": 3125 + }, + { + "epoch": 0.020032, + "grad_norm": 1.7736570835113525, + "learning_rate": 1.9866453333333335e-05, + "loss": 0.2194, + "step": 3130 + }, + { + "epoch": 0.020064, + "grad_norm": 0.9736897945404053, + "learning_rate": 1.9866240000000002e-05, + "loss": 0.2587, + "step": 3135 + }, + { + "epoch": 0.020096, + "grad_norm": 2.951280355453491, + "learning_rate": 1.986602666666667e-05, + "loss": 0.2978, + "step": 3140 + }, + { + "epoch": 0.020128, + "grad_norm": 2.597177743911743, + "learning_rate": 1.9865813333333334e-05, + "loss": 0.2458, + "step": 3145 + }, + { + "epoch": 0.02016, + "grad_norm": 1.7163394689559937, + "learning_rate": 1.9865600000000002e-05, + "loss": 0.3168, + "step": 3150 + }, + { + "epoch": 0.020192, + "grad_norm": 2.0002617835998535, + "learning_rate": 1.986538666666667e-05, + "loss": 0.2566, + "step": 3155 + }, + { + "epoch": 0.020224, + "grad_norm": 1.4779963493347168, + "learning_rate": 1.9865173333333333e-05, + "loss": 0.2596, + "step": 3160 + }, + { + "epoch": 0.020256, + "grad_norm": 1.3864954710006714, + "learning_rate": 1.986496e-05, + "loss": 0.2651, + "step": 3165 + }, + { + "epoch": 0.020288, + "grad_norm": 1.760764241218567, + "learning_rate": 1.986474666666667e-05, + "loss": 0.2449, + "step": 3170 + }, + { + "epoch": 0.02032, + "grad_norm": 1.6407177448272705, + "learning_rate": 1.9864533333333336e-05, + "loss": 0.2393, + "step": 3175 + }, + { + "epoch": 0.020352, + "grad_norm": 1.3620026111602783, + "learning_rate": 1.986432e-05, + "loss": 0.3527, + "step": 3180 + }, + { + "epoch": 0.020384, + "grad_norm": 1.979441523551941, + "learning_rate": 1.9864106666666668e-05, + "loss": 0.2262, + "step": 3185 + }, + { + "epoch": 0.020416, + "grad_norm": 3.099713087081909, + "learning_rate": 1.9863893333333335e-05, + "loss": 0.2366, + "step": 3190 + }, + { + "epoch": 0.020448, + "grad_norm": 1.2480562925338745, + "learning_rate": 1.986368e-05, + "loss": 0.1967, + "step": 3195 + }, + { + "epoch": 0.02048, + "grad_norm": 1.7066009044647217, + "learning_rate": 1.9863466666666667e-05, + "loss": 0.2721, + "step": 3200 + }, + { + "epoch": 0.020512, + "grad_norm": 1.6119025945663452, + "learning_rate": 1.9863253333333335e-05, + "loss": 0.4586, + "step": 3205 + }, + { + "epoch": 0.020544, + "grad_norm": 1.649351716041565, + "learning_rate": 1.9863040000000002e-05, + "loss": 0.2161, + "step": 3210 + }, + { + "epoch": 0.020576, + "grad_norm": 1.8208101987838745, + "learning_rate": 1.9862826666666666e-05, + "loss": 0.2777, + "step": 3215 + }, + { + "epoch": 0.020608, + "grad_norm": 1.025253415107727, + "learning_rate": 1.9862613333333337e-05, + "loss": 0.2422, + "step": 3220 + }, + { + "epoch": 0.02064, + "grad_norm": 3.2775919437408447, + "learning_rate": 1.98624e-05, + "loss": 0.3018, + "step": 3225 + }, + { + "epoch": 0.020672, + "grad_norm": 2.364283800125122, + "learning_rate": 1.986218666666667e-05, + "loss": 0.2602, + "step": 3230 + }, + { + "epoch": 0.020704, + "grad_norm": 1.9614700078964233, + "learning_rate": 1.9861973333333337e-05, + "loss": 0.364, + "step": 3235 + }, + { + "epoch": 0.020736, + "grad_norm": 1.3990707397460938, + "learning_rate": 1.986176e-05, + "loss": 0.2296, + "step": 3240 + }, + { + "epoch": 0.020768, + "grad_norm": 1.476330280303955, + "learning_rate": 1.9861546666666668e-05, + "loss": 0.2202, + "step": 3245 + }, + { + "epoch": 0.0208, + "grad_norm": 1.2574973106384277, + "learning_rate": 1.9861333333333336e-05, + "loss": 0.2891, + "step": 3250 + }, + { + "epoch": 0.020832, + "grad_norm": 2.3686957359313965, + "learning_rate": 1.9861120000000003e-05, + "loss": 0.2707, + "step": 3255 + }, + { + "epoch": 0.020864, + "grad_norm": 1.1605467796325684, + "learning_rate": 1.9860906666666668e-05, + "loss": 0.1883, + "step": 3260 + }, + { + "epoch": 0.020896, + "grad_norm": 2.03342866897583, + "learning_rate": 1.9860693333333335e-05, + "loss": 0.2706, + "step": 3265 + }, + { + "epoch": 0.020928, + "grad_norm": 2.8504538536071777, + "learning_rate": 1.9860480000000003e-05, + "loss": 0.2795, + "step": 3270 + }, + { + "epoch": 0.02096, + "grad_norm": 2.0055391788482666, + "learning_rate": 1.9860266666666667e-05, + "loss": 0.2869, + "step": 3275 + }, + { + "epoch": 0.020992, + "grad_norm": 2.3834667205810547, + "learning_rate": 1.9860053333333334e-05, + "loss": 0.3463, + "step": 3280 + }, + { + "epoch": 0.021024, + "grad_norm": 1.800369381904602, + "learning_rate": 1.9859840000000002e-05, + "loss": 0.3066, + "step": 3285 + }, + { + "epoch": 0.021056, + "grad_norm": 1.442671298980713, + "learning_rate": 1.985962666666667e-05, + "loss": 0.2964, + "step": 3290 + }, + { + "epoch": 0.021088, + "grad_norm": 2.453997850418091, + "learning_rate": 1.9859413333333334e-05, + "loss": 0.2348, + "step": 3295 + }, + { + "epoch": 0.02112, + "grad_norm": 2.737931728363037, + "learning_rate": 1.98592e-05, + "loss": 0.3231, + "step": 3300 + }, + { + "epoch": 0.021152, + "grad_norm": 1.7084425687789917, + "learning_rate": 1.985898666666667e-05, + "loss": 0.3063, + "step": 3305 + }, + { + "epoch": 0.021184, + "grad_norm": 2.978282928466797, + "learning_rate": 1.9858773333333333e-05, + "loss": 0.2895, + "step": 3310 + }, + { + "epoch": 0.021216, + "grad_norm": 1.2507296800613403, + "learning_rate": 1.9858560000000004e-05, + "loss": 0.2557, + "step": 3315 + }, + { + "epoch": 0.021248, + "grad_norm": 0.9695463180541992, + "learning_rate": 1.9858346666666668e-05, + "loss": 0.2915, + "step": 3320 + }, + { + "epoch": 0.02128, + "grad_norm": 1.435197114944458, + "learning_rate": 1.9858133333333336e-05, + "loss": 0.2748, + "step": 3325 + }, + { + "epoch": 0.021312, + "grad_norm": 1.7329752445220947, + "learning_rate": 1.9857920000000003e-05, + "loss": 0.3017, + "step": 3330 + }, + { + "epoch": 0.021344, + "grad_norm": 1.5676262378692627, + "learning_rate": 1.9857706666666667e-05, + "loss": 0.2564, + "step": 3335 + }, + { + "epoch": 0.021376, + "grad_norm": 1.5652881860733032, + "learning_rate": 1.9857493333333335e-05, + "loss": 0.2446, + "step": 3340 + }, + { + "epoch": 0.021408, + "grad_norm": 3.1273193359375, + "learning_rate": 1.9857280000000002e-05, + "loss": 0.2225, + "step": 3345 + }, + { + "epoch": 0.02144, + "grad_norm": 2.0963587760925293, + "learning_rate": 1.985706666666667e-05, + "loss": 0.2588, + "step": 3350 + }, + { + "epoch": 0.021472, + "grad_norm": 10.88793659210205, + "learning_rate": 1.9856853333333334e-05, + "loss": 0.2855, + "step": 3355 + }, + { + "epoch": 0.021504, + "grad_norm": 1.5097213983535767, + "learning_rate": 1.9856640000000002e-05, + "loss": 0.255, + "step": 3360 + }, + { + "epoch": 0.021536, + "grad_norm": 1.094966173171997, + "learning_rate": 1.985642666666667e-05, + "loss": 0.2022, + "step": 3365 + }, + { + "epoch": 0.021568, + "grad_norm": 1.2488735914230347, + "learning_rate": 1.9856213333333333e-05, + "loss": 0.1515, + "step": 3370 + }, + { + "epoch": 0.0216, + "grad_norm": 1.616101622581482, + "learning_rate": 1.9856e-05, + "loss": 0.2907, + "step": 3375 + }, + { + "epoch": 0.021632, + "grad_norm": 3.70068359375, + "learning_rate": 1.985578666666667e-05, + "loss": 0.3078, + "step": 3380 + }, + { + "epoch": 0.021664, + "grad_norm": 2.412304162979126, + "learning_rate": 1.9855573333333336e-05, + "loss": 0.2903, + "step": 3385 + }, + { + "epoch": 0.021696, + "grad_norm": 2.3138647079467773, + "learning_rate": 1.985536e-05, + "loss": 0.3257, + "step": 3390 + }, + { + "epoch": 0.021728, + "grad_norm": 3.204770803451538, + "learning_rate": 1.9855146666666668e-05, + "loss": 0.2786, + "step": 3395 + }, + { + "epoch": 0.02176, + "grad_norm": 1.385291337966919, + "learning_rate": 1.9854933333333335e-05, + "loss": 0.2415, + "step": 3400 + }, + { + "epoch": 0.021792, + "grad_norm": 0.6798498034477234, + "learning_rate": 1.985472e-05, + "loss": 0.1857, + "step": 3405 + }, + { + "epoch": 0.021824, + "grad_norm": 1.5105513334274292, + "learning_rate": 1.9854506666666667e-05, + "loss": 0.26, + "step": 3410 + }, + { + "epoch": 0.021856, + "grad_norm": 2.204070806503296, + "learning_rate": 1.9854293333333335e-05, + "loss": 0.1804, + "step": 3415 + }, + { + "epoch": 0.021888, + "grad_norm": 1.1030082702636719, + "learning_rate": 1.9854080000000002e-05, + "loss": 0.2385, + "step": 3420 + }, + { + "epoch": 0.02192, + "grad_norm": 1.1055022478103638, + "learning_rate": 1.9853866666666666e-05, + "loss": 0.188, + "step": 3425 + }, + { + "epoch": 0.021952, + "grad_norm": 1.717888593673706, + "learning_rate": 1.9853653333333337e-05, + "loss": 0.4848, + "step": 3430 + }, + { + "epoch": 0.021984, + "grad_norm": 1.4369728565216064, + "learning_rate": 1.985344e-05, + "loss": 0.1794, + "step": 3435 + }, + { + "epoch": 0.022016, + "grad_norm": 1.9879990816116333, + "learning_rate": 1.9853226666666666e-05, + "loss": 0.2421, + "step": 3440 + }, + { + "epoch": 0.022048, + "grad_norm": 1.2406928539276123, + "learning_rate": 1.9853013333333337e-05, + "loss": 0.214, + "step": 3445 + }, + { + "epoch": 0.02208, + "grad_norm": 2.100419521331787, + "learning_rate": 1.98528e-05, + "loss": 0.2764, + "step": 3450 + }, + { + "epoch": 0.022112, + "grad_norm": 1.6767926216125488, + "learning_rate": 1.9852586666666668e-05, + "loss": 0.2364, + "step": 3455 + }, + { + "epoch": 0.022144, + "grad_norm": 1.9347953796386719, + "learning_rate": 1.9852373333333336e-05, + "loss": 0.249, + "step": 3460 + }, + { + "epoch": 0.022176, + "grad_norm": 0.976931631565094, + "learning_rate": 1.9852160000000003e-05, + "loss": 0.3017, + "step": 3465 + }, + { + "epoch": 0.022208, + "grad_norm": 1.409140706062317, + "learning_rate": 1.9851946666666668e-05, + "loss": 0.2116, + "step": 3470 + }, + { + "epoch": 0.02224, + "grad_norm": 1.358438491821289, + "learning_rate": 1.9851733333333335e-05, + "loss": 0.2229, + "step": 3475 + }, + { + "epoch": 0.022272, + "grad_norm": 0.9761528968811035, + "learning_rate": 1.9851520000000003e-05, + "loss": 0.2497, + "step": 3480 + }, + { + "epoch": 0.022304, + "grad_norm": 1.767830491065979, + "learning_rate": 1.9851306666666667e-05, + "loss": 0.2396, + "step": 3485 + }, + { + "epoch": 0.022336, + "grad_norm": 2.0543112754821777, + "learning_rate": 1.9851093333333334e-05, + "loss": 0.2248, + "step": 3490 + }, + { + "epoch": 0.022368, + "grad_norm": 1.3158499002456665, + "learning_rate": 1.9850880000000002e-05, + "loss": 0.3029, + "step": 3495 + }, + { + "epoch": 0.0224, + "grad_norm": 1.335902214050293, + "learning_rate": 1.985066666666667e-05, + "loss": 0.2258, + "step": 3500 + }, + { + "epoch": 0.022432, + "grad_norm": 3.4627676010131836, + "learning_rate": 1.9850453333333334e-05, + "loss": 0.2374, + "step": 3505 + }, + { + "epoch": 0.022464, + "grad_norm": 1.5874618291854858, + "learning_rate": 1.985024e-05, + "loss": 0.3094, + "step": 3510 + }, + { + "epoch": 0.022496, + "grad_norm": 1.5635329484939575, + "learning_rate": 1.985002666666667e-05, + "loss": 0.2443, + "step": 3515 + }, + { + "epoch": 0.022528, + "grad_norm": 5.799077987670898, + "learning_rate": 1.9849813333333333e-05, + "loss": 0.29, + "step": 3520 + }, + { + "epoch": 0.02256, + "grad_norm": 3.584589719772339, + "learning_rate": 1.9849600000000004e-05, + "loss": 0.2579, + "step": 3525 + }, + { + "epoch": 0.022592, + "grad_norm": 1.0196118354797363, + "learning_rate": 1.9849386666666668e-05, + "loss": 0.2886, + "step": 3530 + }, + { + "epoch": 0.022624, + "grad_norm": 3.397632122039795, + "learning_rate": 1.9849173333333336e-05, + "loss": 0.4498, + "step": 3535 + }, + { + "epoch": 0.022656, + "grad_norm": 2.27535080909729, + "learning_rate": 1.9848960000000003e-05, + "loss": 0.2137, + "step": 3540 + }, + { + "epoch": 0.022688, + "grad_norm": 1.2455013990402222, + "learning_rate": 1.9848746666666667e-05, + "loss": 0.2753, + "step": 3545 + }, + { + "epoch": 0.02272, + "grad_norm": 1.7641791105270386, + "learning_rate": 1.9848533333333335e-05, + "loss": 0.3053, + "step": 3550 + }, + { + "epoch": 0.022752, + "grad_norm": 1.8008112907409668, + "learning_rate": 1.9848320000000002e-05, + "loss": 0.2179, + "step": 3555 + }, + { + "epoch": 0.022784, + "grad_norm": 2.119673490524292, + "learning_rate": 1.984810666666667e-05, + "loss": 0.2134, + "step": 3560 + }, + { + "epoch": 0.022816, + "grad_norm": 1.1865493059158325, + "learning_rate": 1.9847893333333334e-05, + "loss": 0.2199, + "step": 3565 + }, + { + "epoch": 0.022848, + "grad_norm": 2.185202121734619, + "learning_rate": 1.9847680000000002e-05, + "loss": 0.2002, + "step": 3570 + }, + { + "epoch": 0.02288, + "grad_norm": 1.023646354675293, + "learning_rate": 1.984746666666667e-05, + "loss": 0.2479, + "step": 3575 + }, + { + "epoch": 0.022912, + "grad_norm": 1.0214383602142334, + "learning_rate": 1.9847253333333333e-05, + "loss": 0.1873, + "step": 3580 + }, + { + "epoch": 0.022944, + "grad_norm": 1.4200973510742188, + "learning_rate": 1.984704e-05, + "loss": 0.2474, + "step": 3585 + }, + { + "epoch": 0.022976, + "grad_norm": 1.8346006870269775, + "learning_rate": 1.984682666666667e-05, + "loss": 0.3098, + "step": 3590 + }, + { + "epoch": 0.023008, + "grad_norm": 2.36474609375, + "learning_rate": 1.9846613333333336e-05, + "loss": 0.2495, + "step": 3595 + }, + { + "epoch": 0.02304, + "grad_norm": 0.9168961048126221, + "learning_rate": 1.98464e-05, + "loss": 0.25, + "step": 3600 + }, + { + "epoch": 0.023072, + "grad_norm": 1.791917324066162, + "learning_rate": 1.9846186666666668e-05, + "loss": 0.2682, + "step": 3605 + }, + { + "epoch": 0.023104, + "grad_norm": 1.2049355506896973, + "learning_rate": 1.9845973333333335e-05, + "loss": 0.2087, + "step": 3610 + }, + { + "epoch": 0.023136, + "grad_norm": 1.9909908771514893, + "learning_rate": 1.984576e-05, + "loss": 0.2504, + "step": 3615 + }, + { + "epoch": 0.023168, + "grad_norm": 2.996415615081787, + "learning_rate": 1.9845546666666667e-05, + "loss": 0.1843, + "step": 3620 + }, + { + "epoch": 0.0232, + "grad_norm": 1.856428861618042, + "learning_rate": 1.9845333333333335e-05, + "loss": 0.2486, + "step": 3625 + }, + { + "epoch": 0.023232, + "grad_norm": 1.4996616840362549, + "learning_rate": 1.9845120000000002e-05, + "loss": 0.2761, + "step": 3630 + }, + { + "epoch": 0.023264, + "grad_norm": 2.635695695877075, + "learning_rate": 1.9844906666666666e-05, + "loss": 0.2605, + "step": 3635 + }, + { + "epoch": 0.023296, + "grad_norm": 2.452176570892334, + "learning_rate": 1.9844693333333337e-05, + "loss": 0.2686, + "step": 3640 + }, + { + "epoch": 0.023328, + "grad_norm": 1.8169552087783813, + "learning_rate": 1.984448e-05, + "loss": 0.2848, + "step": 3645 + }, + { + "epoch": 0.02336, + "grad_norm": 1.7684733867645264, + "learning_rate": 1.9844266666666666e-05, + "loss": 0.2397, + "step": 3650 + }, + { + "epoch": 0.023392, + "grad_norm": 1.209599494934082, + "learning_rate": 1.9844053333333337e-05, + "loss": 0.2114, + "step": 3655 + }, + { + "epoch": 0.023424, + "grad_norm": 1.147277593612671, + "learning_rate": 1.984384e-05, + "loss": 0.2578, + "step": 3660 + }, + { + "epoch": 0.023456, + "grad_norm": 3.531921148300171, + "learning_rate": 1.9843626666666668e-05, + "loss": 0.2827, + "step": 3665 + }, + { + "epoch": 0.023488, + "grad_norm": 1.2946100234985352, + "learning_rate": 1.9843413333333336e-05, + "loss": 0.2501, + "step": 3670 + }, + { + "epoch": 0.02352, + "grad_norm": 1.319838523864746, + "learning_rate": 1.9843200000000003e-05, + "loss": 0.1984, + "step": 3675 + }, + { + "epoch": 0.023552, + "grad_norm": 2.3502025604248047, + "learning_rate": 1.9842986666666668e-05, + "loss": 0.2456, + "step": 3680 + }, + { + "epoch": 0.023584, + "grad_norm": 1.7171063423156738, + "learning_rate": 1.9842773333333335e-05, + "loss": 0.2101, + "step": 3685 + }, + { + "epoch": 0.023616, + "grad_norm": 1.986240029335022, + "learning_rate": 1.9842560000000003e-05, + "loss": 0.2841, + "step": 3690 + }, + { + "epoch": 0.023648, + "grad_norm": 1.8453301191329956, + "learning_rate": 1.9842346666666667e-05, + "loss": 0.2266, + "step": 3695 + }, + { + "epoch": 0.02368, + "grad_norm": 2.693744659423828, + "learning_rate": 1.9842133333333334e-05, + "loss": 0.2527, + "step": 3700 + }, + { + "epoch": 0.023712, + "grad_norm": 1.3837658166885376, + "learning_rate": 1.9841920000000002e-05, + "loss": 0.2282, + "step": 3705 + }, + { + "epoch": 0.023744, + "grad_norm": 2.2670586109161377, + "learning_rate": 1.984170666666667e-05, + "loss": 0.2167, + "step": 3710 + }, + { + "epoch": 0.023776, + "grad_norm": 1.313951015472412, + "learning_rate": 1.9841493333333334e-05, + "loss": 0.2289, + "step": 3715 + }, + { + "epoch": 0.023808, + "grad_norm": 1.4254798889160156, + "learning_rate": 1.984128e-05, + "loss": 0.1977, + "step": 3720 + }, + { + "epoch": 0.02384, + "grad_norm": 2.415398597717285, + "learning_rate": 1.984106666666667e-05, + "loss": 0.2302, + "step": 3725 + }, + { + "epoch": 0.023872, + "grad_norm": 3.0655057430267334, + "learning_rate": 1.9840853333333333e-05, + "loss": 0.261, + "step": 3730 + }, + { + "epoch": 0.023904, + "grad_norm": 2.1129562854766846, + "learning_rate": 1.984064e-05, + "loss": 0.204, + "step": 3735 + }, + { + "epoch": 0.023936, + "grad_norm": 1.6971311569213867, + "learning_rate": 1.9840426666666668e-05, + "loss": 0.2584, + "step": 3740 + }, + { + "epoch": 0.023968, + "grad_norm": 3.650758981704712, + "learning_rate": 1.9840213333333336e-05, + "loss": 0.2558, + "step": 3745 + }, + { + "epoch": 0.024, + "grad_norm": 1.8657093048095703, + "learning_rate": 1.9840000000000003e-05, + "loss": 0.2161, + "step": 3750 + }, + { + "epoch": 0.024032, + "grad_norm": 1.1945997476577759, + "learning_rate": 1.9839786666666667e-05, + "loss": 0.2168, + "step": 3755 + }, + { + "epoch": 0.024064, + "grad_norm": 2.5341053009033203, + "learning_rate": 1.9839573333333335e-05, + "loss": 0.247, + "step": 3760 + }, + { + "epoch": 0.024096, + "grad_norm": 3.124924421310425, + "learning_rate": 1.9839360000000002e-05, + "loss": 0.2275, + "step": 3765 + }, + { + "epoch": 0.024128, + "grad_norm": 4.430130958557129, + "learning_rate": 1.983914666666667e-05, + "loss": 0.2911, + "step": 3770 + }, + { + "epoch": 0.02416, + "grad_norm": 1.9122942686080933, + "learning_rate": 1.9838933333333334e-05, + "loss": 0.2659, + "step": 3775 + }, + { + "epoch": 0.024192, + "grad_norm": 1.404612421989441, + "learning_rate": 1.9838720000000002e-05, + "loss": 0.2492, + "step": 3780 + }, + { + "epoch": 0.024224, + "grad_norm": 2.572749614715576, + "learning_rate": 1.983850666666667e-05, + "loss": 0.2899, + "step": 3785 + }, + { + "epoch": 0.024256, + "grad_norm": 1.4498484134674072, + "learning_rate": 1.9838293333333333e-05, + "loss": 0.2222, + "step": 3790 + }, + { + "epoch": 0.024288, + "grad_norm": 2.99235463142395, + "learning_rate": 1.983808e-05, + "loss": 0.3431, + "step": 3795 + }, + { + "epoch": 0.02432, + "grad_norm": 1.3859572410583496, + "learning_rate": 1.983786666666667e-05, + "loss": 0.1996, + "step": 3800 + }, + { + "epoch": 0.024352, + "grad_norm": 6.207029342651367, + "learning_rate": 1.9837653333333336e-05, + "loss": 0.234, + "step": 3805 + }, + { + "epoch": 0.024384, + "grad_norm": 1.767831802368164, + "learning_rate": 1.983744e-05, + "loss": 0.2174, + "step": 3810 + }, + { + "epoch": 0.024416, + "grad_norm": 4.328707695007324, + "learning_rate": 1.9837226666666668e-05, + "loss": 0.1975, + "step": 3815 + }, + { + "epoch": 0.024448, + "grad_norm": 0.9870373010635376, + "learning_rate": 1.9837013333333335e-05, + "loss": 0.1997, + "step": 3820 + }, + { + "epoch": 0.02448, + "grad_norm": 2.2345943450927734, + "learning_rate": 1.9836800000000003e-05, + "loss": 0.3257, + "step": 3825 + }, + { + "epoch": 0.024512, + "grad_norm": 2.121121406555176, + "learning_rate": 1.9836586666666667e-05, + "loss": 0.3205, + "step": 3830 + }, + { + "epoch": 0.024544, + "grad_norm": 1.088698387145996, + "learning_rate": 1.9836373333333335e-05, + "loss": 0.2389, + "step": 3835 + }, + { + "epoch": 0.024576, + "grad_norm": 1.3177151679992676, + "learning_rate": 1.9836160000000002e-05, + "loss": 0.2864, + "step": 3840 + }, + { + "epoch": 0.024608, + "grad_norm": 1.614312767982483, + "learning_rate": 1.9835946666666666e-05, + "loss": 0.2869, + "step": 3845 + }, + { + "epoch": 0.02464, + "grad_norm": 5.6798272132873535, + "learning_rate": 1.9835733333333337e-05, + "loss": 0.2774, + "step": 3850 + }, + { + "epoch": 0.024672, + "grad_norm": 1.2290470600128174, + "learning_rate": 1.983552e-05, + "loss": 0.2418, + "step": 3855 + }, + { + "epoch": 0.024704, + "grad_norm": 1.476166844367981, + "learning_rate": 1.983530666666667e-05, + "loss": 0.2259, + "step": 3860 + }, + { + "epoch": 0.024736, + "grad_norm": 1.2999646663665771, + "learning_rate": 1.9835093333333337e-05, + "loss": 0.2611, + "step": 3865 + }, + { + "epoch": 0.024768, + "grad_norm": 1.4646008014678955, + "learning_rate": 1.983488e-05, + "loss": 0.2347, + "step": 3870 + }, + { + "epoch": 0.0248, + "grad_norm": 3.665809154510498, + "learning_rate": 1.9834666666666668e-05, + "loss": 0.2557, + "step": 3875 + }, + { + "epoch": 0.024832, + "grad_norm": 1.679252028465271, + "learning_rate": 1.9834453333333336e-05, + "loss": 0.2162, + "step": 3880 + }, + { + "epoch": 0.024864, + "grad_norm": 1.8552249670028687, + "learning_rate": 1.9834240000000003e-05, + "loss": 0.2406, + "step": 3885 + }, + { + "epoch": 0.024896, + "grad_norm": 1.2523349523544312, + "learning_rate": 1.9834026666666668e-05, + "loss": 0.169, + "step": 3890 + }, + { + "epoch": 0.024928, + "grad_norm": 1.6187264919281006, + "learning_rate": 1.9833813333333335e-05, + "loss": 0.224, + "step": 3895 + }, + { + "epoch": 0.02496, + "grad_norm": 1.8340476751327515, + "learning_rate": 1.9833600000000003e-05, + "loss": 0.2389, + "step": 3900 + }, + { + "epoch": 0.024992, + "grad_norm": 1.957527995109558, + "learning_rate": 1.9833386666666667e-05, + "loss": 0.2623, + "step": 3905 + }, + { + "epoch": 0.025024, + "grad_norm": 1.5837323665618896, + "learning_rate": 1.9833173333333334e-05, + "loss": 0.2208, + "step": 3910 + }, + { + "epoch": 0.025056, + "grad_norm": 1.953684687614441, + "learning_rate": 1.9832960000000002e-05, + "loss": 0.2476, + "step": 3915 + }, + { + "epoch": 0.025088, + "grad_norm": 1.6596925258636475, + "learning_rate": 1.983274666666667e-05, + "loss": 0.1818, + "step": 3920 + }, + { + "epoch": 0.02512, + "grad_norm": 1.7505675554275513, + "learning_rate": 1.9832533333333334e-05, + "loss": 0.246, + "step": 3925 + }, + { + "epoch": 0.025152, + "grad_norm": 4.41434383392334, + "learning_rate": 1.983232e-05, + "loss": 0.2562, + "step": 3930 + }, + { + "epoch": 0.025184, + "grad_norm": 4.714686870574951, + "learning_rate": 1.983210666666667e-05, + "loss": 0.3245, + "step": 3935 + }, + { + "epoch": 0.025216, + "grad_norm": 1.9824702739715576, + "learning_rate": 1.9831893333333333e-05, + "loss": 0.2032, + "step": 3940 + }, + { + "epoch": 0.025248, + "grad_norm": 2.605746269226074, + "learning_rate": 1.983168e-05, + "loss": 0.2307, + "step": 3945 + }, + { + "epoch": 0.02528, + "grad_norm": 2.500556230545044, + "learning_rate": 1.9831466666666668e-05, + "loss": 0.2099, + "step": 3950 + }, + { + "epoch": 0.025312, + "grad_norm": 2.2787106037139893, + "learning_rate": 1.9831253333333336e-05, + "loss": 0.2206, + "step": 3955 + }, + { + "epoch": 0.025344, + "grad_norm": 2.828383207321167, + "learning_rate": 1.983104e-05, + "loss": 0.2143, + "step": 3960 + }, + { + "epoch": 0.025376, + "grad_norm": 1.8817384243011475, + "learning_rate": 1.983082666666667e-05, + "loss": 0.181, + "step": 3965 + }, + { + "epoch": 0.025408, + "grad_norm": 1.871917963027954, + "learning_rate": 1.9830613333333335e-05, + "loss": 0.1984, + "step": 3970 + }, + { + "epoch": 0.02544, + "grad_norm": 1.5791484117507935, + "learning_rate": 1.9830400000000002e-05, + "loss": 0.2055, + "step": 3975 + }, + { + "epoch": 0.025472, + "grad_norm": 1.157423973083496, + "learning_rate": 1.983018666666667e-05, + "loss": 0.221, + "step": 3980 + }, + { + "epoch": 0.025504, + "grad_norm": 1.485620379447937, + "learning_rate": 1.9829973333333334e-05, + "loss": 0.2152, + "step": 3985 + }, + { + "epoch": 0.025536, + "grad_norm": 2.9237990379333496, + "learning_rate": 1.9829760000000002e-05, + "loss": 0.2685, + "step": 3990 + }, + { + "epoch": 0.025568, + "grad_norm": 11.771492004394531, + "learning_rate": 1.982954666666667e-05, + "loss": 0.327, + "step": 3995 + }, + { + "epoch": 0.0256, + "grad_norm": 1.334395408630371, + "learning_rate": 1.9829333333333337e-05, + "loss": 0.2032, + "step": 4000 + }, + { + "epoch": 0.025632, + "grad_norm": 1.2384613752365112, + "learning_rate": 1.982912e-05, + "loss": 0.2696, + "step": 4005 + }, + { + "epoch": 0.025664, + "grad_norm": 3.4117002487182617, + "learning_rate": 1.982890666666667e-05, + "loss": 0.2837, + "step": 4010 + }, + { + "epoch": 0.025696, + "grad_norm": 1.7479307651519775, + "learning_rate": 1.9828693333333336e-05, + "loss": 0.2037, + "step": 4015 + }, + { + "epoch": 0.025728, + "grad_norm": 1.567860722541809, + "learning_rate": 1.982848e-05, + "loss": 0.2591, + "step": 4020 + }, + { + "epoch": 0.02576, + "grad_norm": 2.0147881507873535, + "learning_rate": 1.9828266666666668e-05, + "loss": 0.2124, + "step": 4025 + }, + { + "epoch": 0.025792, + "grad_norm": 1.2122639417648315, + "learning_rate": 1.9828053333333335e-05, + "loss": 0.2112, + "step": 4030 + }, + { + "epoch": 0.025824, + "grad_norm": 1.54405677318573, + "learning_rate": 1.9827840000000003e-05, + "loss": 0.1858, + "step": 4035 + }, + { + "epoch": 0.025856, + "grad_norm": 3.3773553371429443, + "learning_rate": 1.9827626666666667e-05, + "loss": 0.317, + "step": 4040 + }, + { + "epoch": 0.025888, + "grad_norm": 2.4201204776763916, + "learning_rate": 1.9827413333333335e-05, + "loss": 0.345, + "step": 4045 + }, + { + "epoch": 0.02592, + "grad_norm": 3.35575532913208, + "learning_rate": 1.9827200000000002e-05, + "loss": 0.2273, + "step": 4050 + }, + { + "epoch": 0.025952, + "grad_norm": 3.424764633178711, + "learning_rate": 1.9826986666666666e-05, + "loss": 0.2115, + "step": 4055 + }, + { + "epoch": 0.025984, + "grad_norm": 1.5830731391906738, + "learning_rate": 1.9826773333333337e-05, + "loss": 0.2946, + "step": 4060 + }, + { + "epoch": 0.026016, + "grad_norm": 1.8544315099716187, + "learning_rate": 1.982656e-05, + "loss": 0.2396, + "step": 4065 + }, + { + "epoch": 0.026048, + "grad_norm": 1.330355167388916, + "learning_rate": 1.982634666666667e-05, + "loss": 0.1702, + "step": 4070 + }, + { + "epoch": 0.02608, + "grad_norm": 3.6339168548583984, + "learning_rate": 1.9826133333333337e-05, + "loss": 0.2411, + "step": 4075 + }, + { + "epoch": 0.026112, + "grad_norm": 1.6411826610565186, + "learning_rate": 1.982592e-05, + "loss": 0.2515, + "step": 4080 + }, + { + "epoch": 0.026144, + "grad_norm": 1.2081396579742432, + "learning_rate": 1.982570666666667e-05, + "loss": 0.1824, + "step": 4085 + }, + { + "epoch": 0.026176, + "grad_norm": 1.0608248710632324, + "learning_rate": 1.9825493333333336e-05, + "loss": 0.1863, + "step": 4090 + }, + { + "epoch": 0.026208, + "grad_norm": 1.2301089763641357, + "learning_rate": 1.9825280000000003e-05, + "loss": 0.191, + "step": 4095 + }, + { + "epoch": 0.02624, + "grad_norm": 1.3736281394958496, + "learning_rate": 1.9825066666666668e-05, + "loss": 0.2448, + "step": 4100 + }, + { + "epoch": 0.026272, + "grad_norm": 1.4572136402130127, + "learning_rate": 1.9824853333333335e-05, + "loss": 0.2479, + "step": 4105 + }, + { + "epoch": 0.026304, + "grad_norm": 2.3709819316864014, + "learning_rate": 1.9824640000000003e-05, + "loss": 0.1975, + "step": 4110 + }, + { + "epoch": 0.026336, + "grad_norm": 3.1953940391540527, + "learning_rate": 1.9824426666666667e-05, + "loss": 0.1831, + "step": 4115 + }, + { + "epoch": 0.026368, + "grad_norm": 1.2000681161880493, + "learning_rate": 1.9824213333333334e-05, + "loss": 0.1956, + "step": 4120 + }, + { + "epoch": 0.0264, + "grad_norm": 2.9149012565612793, + "learning_rate": 1.9824000000000002e-05, + "loss": 0.3082, + "step": 4125 + }, + { + "epoch": 0.026432, + "grad_norm": 0.9310462474822998, + "learning_rate": 1.982378666666667e-05, + "loss": 0.1814, + "step": 4130 + }, + { + "epoch": 0.026464, + "grad_norm": 1.176850438117981, + "learning_rate": 1.9823573333333334e-05, + "loss": 0.1856, + "step": 4135 + }, + { + "epoch": 0.026496, + "grad_norm": 1.166380763053894, + "learning_rate": 1.982336e-05, + "loss": 0.1639, + "step": 4140 + }, + { + "epoch": 0.026528, + "grad_norm": 1.590172529220581, + "learning_rate": 1.982314666666667e-05, + "loss": 0.258, + "step": 4145 + }, + { + "epoch": 0.02656, + "grad_norm": 2.6972713470458984, + "learning_rate": 1.9822933333333333e-05, + "loss": 0.2078, + "step": 4150 + }, + { + "epoch": 0.026592, + "grad_norm": 2.026984214782715, + "learning_rate": 1.982272e-05, + "loss": 0.2864, + "step": 4155 + }, + { + "epoch": 0.026624, + "grad_norm": 1.9382137060165405, + "learning_rate": 1.9822506666666668e-05, + "loss": 0.1587, + "step": 4160 + }, + { + "epoch": 0.026656, + "grad_norm": 1.3717960119247437, + "learning_rate": 1.9822293333333336e-05, + "loss": 0.2228, + "step": 4165 + }, + { + "epoch": 0.026688, + "grad_norm": 2.2184970378875732, + "learning_rate": 1.982208e-05, + "loss": 0.2354, + "step": 4170 + }, + { + "epoch": 0.02672, + "grad_norm": 1.9632598161697388, + "learning_rate": 1.982186666666667e-05, + "loss": 0.2738, + "step": 4175 + }, + { + "epoch": 0.026752, + "grad_norm": 1.0929476022720337, + "learning_rate": 1.9821653333333335e-05, + "loss": 0.1894, + "step": 4180 + }, + { + "epoch": 0.026784, + "grad_norm": 1.829952359199524, + "learning_rate": 1.982144e-05, + "loss": 0.3042, + "step": 4185 + }, + { + "epoch": 0.026816, + "grad_norm": 1.7980440855026245, + "learning_rate": 1.982122666666667e-05, + "loss": 0.2206, + "step": 4190 + }, + { + "epoch": 0.026848, + "grad_norm": 0.942851722240448, + "learning_rate": 1.9821013333333334e-05, + "loss": 0.177, + "step": 4195 + }, + { + "epoch": 0.02688, + "grad_norm": 1.2818320989608765, + "learning_rate": 1.9820800000000002e-05, + "loss": 0.1877, + "step": 4200 + }, + { + "epoch": 0.026912, + "grad_norm": 1.5895777940750122, + "learning_rate": 1.982058666666667e-05, + "loss": 0.1972, + "step": 4205 + }, + { + "epoch": 0.026944, + "grad_norm": 1.3692619800567627, + "learning_rate": 1.9820373333333337e-05, + "loss": 0.1807, + "step": 4210 + }, + { + "epoch": 0.026976, + "grad_norm": 1.4792845249176025, + "learning_rate": 1.982016e-05, + "loss": 0.3413, + "step": 4215 + }, + { + "epoch": 0.027008, + "grad_norm": 1.3121294975280762, + "learning_rate": 1.981994666666667e-05, + "loss": 0.196, + "step": 4220 + }, + { + "epoch": 0.02704, + "grad_norm": 3.405238389968872, + "learning_rate": 1.9819733333333336e-05, + "loss": 0.2721, + "step": 4225 + }, + { + "epoch": 0.027072, + "grad_norm": 2.118858814239502, + "learning_rate": 1.981952e-05, + "loss": 0.2369, + "step": 4230 + }, + { + "epoch": 0.027104, + "grad_norm": 1.387369990348816, + "learning_rate": 1.9819306666666668e-05, + "loss": 0.2562, + "step": 4235 + }, + { + "epoch": 0.027136, + "grad_norm": 1.3335076570510864, + "learning_rate": 1.9819093333333335e-05, + "loss": 0.2406, + "step": 4240 + }, + { + "epoch": 0.027168, + "grad_norm": 2.7504992485046387, + "learning_rate": 1.9818880000000003e-05, + "loss": 0.2432, + "step": 4245 + }, + { + "epoch": 0.0272, + "grad_norm": 1.5779532194137573, + "learning_rate": 1.9818666666666667e-05, + "loss": 0.2007, + "step": 4250 + }, + { + "epoch": 0.027232, + "grad_norm": 2.450028419494629, + "learning_rate": 1.9818453333333335e-05, + "loss": 0.233, + "step": 4255 + }, + { + "epoch": 0.027264, + "grad_norm": 3.9706156253814697, + "learning_rate": 1.9818240000000002e-05, + "loss": 0.2058, + "step": 4260 + }, + { + "epoch": 0.027296, + "grad_norm": 1.231066107749939, + "learning_rate": 1.9818026666666666e-05, + "loss": 0.2015, + "step": 4265 + }, + { + "epoch": 0.027328, + "grad_norm": 1.6746279001235962, + "learning_rate": 1.9817813333333334e-05, + "loss": 0.2828, + "step": 4270 + }, + { + "epoch": 0.02736, + "grad_norm": 1.130147099494934, + "learning_rate": 1.98176e-05, + "loss": 0.2022, + "step": 4275 + }, + { + "epoch": 0.027392, + "grad_norm": 2.2250537872314453, + "learning_rate": 1.981738666666667e-05, + "loss": 0.2558, + "step": 4280 + }, + { + "epoch": 0.027424, + "grad_norm": 1.4366862773895264, + "learning_rate": 1.9817173333333337e-05, + "loss": 0.2345, + "step": 4285 + }, + { + "epoch": 0.027456, + "grad_norm": 2.76352858543396, + "learning_rate": 1.981696e-05, + "loss": 0.2487, + "step": 4290 + }, + { + "epoch": 0.027488, + "grad_norm": 2.566455841064453, + "learning_rate": 1.981674666666667e-05, + "loss": 0.195, + "step": 4295 + }, + { + "epoch": 0.02752, + "grad_norm": 1.913487434387207, + "learning_rate": 1.9816533333333336e-05, + "loss": 0.2133, + "step": 4300 + }, + { + "epoch": 0.027552, + "grad_norm": 3.7615909576416016, + "learning_rate": 1.9816320000000003e-05, + "loss": 0.2039, + "step": 4305 + }, + { + "epoch": 0.027584, + "grad_norm": 1.7100987434387207, + "learning_rate": 1.9816106666666668e-05, + "loss": 0.2473, + "step": 4310 + }, + { + "epoch": 0.027616, + "grad_norm": 1.5645960569381714, + "learning_rate": 1.9815893333333335e-05, + "loss": 0.1908, + "step": 4315 + }, + { + "epoch": 0.027648, + "grad_norm": 1.934211015701294, + "learning_rate": 1.9815680000000003e-05, + "loss": 0.2799, + "step": 4320 + }, + { + "epoch": 0.02768, + "grad_norm": 0.9888243675231934, + "learning_rate": 1.9815466666666667e-05, + "loss": 0.2183, + "step": 4325 + }, + { + "epoch": 0.027712, + "grad_norm": 1.5348420143127441, + "learning_rate": 1.9815253333333334e-05, + "loss": 0.1891, + "step": 4330 + }, + { + "epoch": 0.027744, + "grad_norm": 3.21364164352417, + "learning_rate": 1.9815040000000002e-05, + "loss": 0.2814, + "step": 4335 + }, + { + "epoch": 0.027776, + "grad_norm": 1.9290432929992676, + "learning_rate": 1.981482666666667e-05, + "loss": 0.2088, + "step": 4340 + }, + { + "epoch": 0.027808, + "grad_norm": 1.2400671243667603, + "learning_rate": 1.9814613333333334e-05, + "loss": 0.2522, + "step": 4345 + }, + { + "epoch": 0.02784, + "grad_norm": 1.0910062789916992, + "learning_rate": 1.98144e-05, + "loss": 0.2359, + "step": 4350 + }, + { + "epoch": 0.027872, + "grad_norm": 2.2441506385803223, + "learning_rate": 1.981418666666667e-05, + "loss": 0.2557, + "step": 4355 + }, + { + "epoch": 0.027904, + "grad_norm": 2.2083237171173096, + "learning_rate": 1.9813973333333333e-05, + "loss": 0.1704, + "step": 4360 + }, + { + "epoch": 0.027936, + "grad_norm": 1.0698214769363403, + "learning_rate": 1.981376e-05, + "loss": 0.3672, + "step": 4365 + }, + { + "epoch": 0.027968, + "grad_norm": 3.150331735610962, + "learning_rate": 1.9813546666666668e-05, + "loss": 0.2679, + "step": 4370 + }, + { + "epoch": 0.028, + "grad_norm": 1.8818185329437256, + "learning_rate": 1.9813333333333336e-05, + "loss": 0.2078, + "step": 4375 + }, + { + "epoch": 0.028032, + "grad_norm": 1.683121919631958, + "learning_rate": 1.981312e-05, + "loss": 0.2093, + "step": 4380 + }, + { + "epoch": 0.028064, + "grad_norm": 1.6398577690124512, + "learning_rate": 1.981290666666667e-05, + "loss": 0.219, + "step": 4385 + }, + { + "epoch": 0.028096, + "grad_norm": 1.7587149143218994, + "learning_rate": 1.9812693333333335e-05, + "loss": 0.1821, + "step": 4390 + }, + { + "epoch": 0.028128, + "grad_norm": 1.6040821075439453, + "learning_rate": 1.981248e-05, + "loss": 0.2421, + "step": 4395 + }, + { + "epoch": 0.02816, + "grad_norm": 1.5493030548095703, + "learning_rate": 1.981226666666667e-05, + "loss": 0.2258, + "step": 4400 + }, + { + "epoch": 0.028192, + "grad_norm": 2.164379835128784, + "learning_rate": 1.9812053333333334e-05, + "loss": 0.2018, + "step": 4405 + }, + { + "epoch": 0.028224, + "grad_norm": 1.2861756086349487, + "learning_rate": 1.9811840000000002e-05, + "loss": 0.174, + "step": 4410 + }, + { + "epoch": 0.028256, + "grad_norm": 1.5147525072097778, + "learning_rate": 1.981162666666667e-05, + "loss": 0.1841, + "step": 4415 + }, + { + "epoch": 0.028288, + "grad_norm": 1.0434340238571167, + "learning_rate": 1.9811413333333337e-05, + "loss": 0.2305, + "step": 4420 + }, + { + "epoch": 0.02832, + "grad_norm": 1.3325591087341309, + "learning_rate": 1.98112e-05, + "loss": 0.1964, + "step": 4425 + }, + { + "epoch": 0.028352, + "grad_norm": 1.4260740280151367, + "learning_rate": 1.981098666666667e-05, + "loss": 0.2153, + "step": 4430 + }, + { + "epoch": 0.028384, + "grad_norm": 1.1056020259857178, + "learning_rate": 1.9810773333333336e-05, + "loss": 0.2346, + "step": 4435 + }, + { + "epoch": 0.028416, + "grad_norm": 2.371356248855591, + "learning_rate": 1.981056e-05, + "loss": 0.2104, + "step": 4440 + }, + { + "epoch": 0.028448, + "grad_norm": 2.42299485206604, + "learning_rate": 1.9810346666666668e-05, + "loss": 0.2969, + "step": 4445 + }, + { + "epoch": 0.02848, + "grad_norm": 1.3946641683578491, + "learning_rate": 1.9810133333333335e-05, + "loss": 0.2838, + "step": 4450 + }, + { + "epoch": 0.028512, + "grad_norm": 1.1692453622817993, + "learning_rate": 1.9809920000000003e-05, + "loss": 0.2, + "step": 4455 + }, + { + "epoch": 0.028544, + "grad_norm": 1.1613022089004517, + "learning_rate": 1.9809706666666667e-05, + "loss": 0.2027, + "step": 4460 + }, + { + "epoch": 0.028576, + "grad_norm": 1.712264060974121, + "learning_rate": 1.9809493333333335e-05, + "loss": 0.1937, + "step": 4465 + }, + { + "epoch": 0.028608, + "grad_norm": 1.1278568506240845, + "learning_rate": 1.9809280000000002e-05, + "loss": 0.2258, + "step": 4470 + }, + { + "epoch": 0.02864, + "grad_norm": 1.2499109506607056, + "learning_rate": 1.9809066666666666e-05, + "loss": 0.2678, + "step": 4475 + }, + { + "epoch": 0.028672, + "grad_norm": 1.9327428340911865, + "learning_rate": 1.9808853333333334e-05, + "loss": 0.2654, + "step": 4480 + }, + { + "epoch": 0.028704, + "grad_norm": 1.5045572519302368, + "learning_rate": 1.980864e-05, + "loss": 0.1437, + "step": 4485 + }, + { + "epoch": 0.028736, + "grad_norm": 2.1332032680511475, + "learning_rate": 1.980842666666667e-05, + "loss": 0.2394, + "step": 4490 + }, + { + "epoch": 0.028768, + "grad_norm": 1.2588636875152588, + "learning_rate": 1.9808213333333333e-05, + "loss": 0.1755, + "step": 4495 + }, + { + "epoch": 0.0288, + "grad_norm": 1.286049246788025, + "learning_rate": 1.9808e-05, + "loss": 0.202, + "step": 4500 + }, + { + "epoch": 0.028832, + "grad_norm": 4.229677200317383, + "learning_rate": 1.980778666666667e-05, + "loss": 0.2716, + "step": 4505 + }, + { + "epoch": 0.028864, + "grad_norm": 1.492692470550537, + "learning_rate": 1.9807573333333336e-05, + "loss": 0.2072, + "step": 4510 + }, + { + "epoch": 0.028896, + "grad_norm": 2.144896984100342, + "learning_rate": 1.9807360000000003e-05, + "loss": 0.2504, + "step": 4515 + }, + { + "epoch": 0.028928, + "grad_norm": 0.7730261087417603, + "learning_rate": 1.9807146666666668e-05, + "loss": 0.2489, + "step": 4520 + }, + { + "epoch": 0.02896, + "grad_norm": 0.9369735717773438, + "learning_rate": 1.9806933333333335e-05, + "loss": 0.2288, + "step": 4525 + }, + { + "epoch": 0.028992, + "grad_norm": 1.158347725868225, + "learning_rate": 1.9806720000000003e-05, + "loss": 0.1343, + "step": 4530 + }, + { + "epoch": 0.029024, + "grad_norm": 1.5248668193817139, + "learning_rate": 1.9806506666666667e-05, + "loss": 0.226, + "step": 4535 + }, + { + "epoch": 0.029056, + "grad_norm": 2.363816022872925, + "learning_rate": 1.9806293333333334e-05, + "loss": 0.258, + "step": 4540 + }, + { + "epoch": 0.029088, + "grad_norm": 1.763911247253418, + "learning_rate": 1.9806080000000002e-05, + "loss": 0.234, + "step": 4545 + }, + { + "epoch": 0.02912, + "grad_norm": 2.9980554580688477, + "learning_rate": 1.980586666666667e-05, + "loss": 0.2042, + "step": 4550 + }, + { + "epoch": 0.029152, + "grad_norm": 0.9864068627357483, + "learning_rate": 1.9805653333333334e-05, + "loss": 0.2157, + "step": 4555 + }, + { + "epoch": 0.029184, + "grad_norm": 1.9214613437652588, + "learning_rate": 1.980544e-05, + "loss": 0.2692, + "step": 4560 + }, + { + "epoch": 0.029216, + "grad_norm": 1.999479055404663, + "learning_rate": 1.980522666666667e-05, + "loss": 0.2208, + "step": 4565 + }, + { + "epoch": 0.029248, + "grad_norm": 1.7105385065078735, + "learning_rate": 1.9805013333333333e-05, + "loss": 0.1328, + "step": 4570 + }, + { + "epoch": 0.02928, + "grad_norm": 1.7023824453353882, + "learning_rate": 1.98048e-05, + "loss": 0.1796, + "step": 4575 + }, + { + "epoch": 0.029312, + "grad_norm": 1.9726263284683228, + "learning_rate": 1.9804586666666668e-05, + "loss": 0.2176, + "step": 4580 + }, + { + "epoch": 0.029344, + "grad_norm": 3.732731342315674, + "learning_rate": 1.9804373333333336e-05, + "loss": 0.1817, + "step": 4585 + }, + { + "epoch": 0.029376, + "grad_norm": 1.386450171470642, + "learning_rate": 1.980416e-05, + "loss": 0.2159, + "step": 4590 + }, + { + "epoch": 0.029408, + "grad_norm": 1.6387807130813599, + "learning_rate": 1.980394666666667e-05, + "loss": 0.2071, + "step": 4595 + }, + { + "epoch": 0.02944, + "grad_norm": 1.6894460916519165, + "learning_rate": 1.9803733333333335e-05, + "loss": 0.2602, + "step": 4600 + }, + { + "epoch": 0.029472, + "grad_norm": 1.8176627159118652, + "learning_rate": 1.980352e-05, + "loss": 0.2273, + "step": 4605 + }, + { + "epoch": 0.029504, + "grad_norm": 1.6733149290084839, + "learning_rate": 1.980330666666667e-05, + "loss": 0.2601, + "step": 4610 + }, + { + "epoch": 0.029536, + "grad_norm": 3.062222480773926, + "learning_rate": 1.9803093333333334e-05, + "loss": 0.283, + "step": 4615 + }, + { + "epoch": 0.029568, + "grad_norm": 2.276888132095337, + "learning_rate": 1.9802880000000002e-05, + "loss": 0.2418, + "step": 4620 + }, + { + "epoch": 0.0296, + "grad_norm": 1.7891063690185547, + "learning_rate": 1.980266666666667e-05, + "loss": 0.2026, + "step": 4625 + }, + { + "epoch": 0.029632, + "grad_norm": 1.7070590257644653, + "learning_rate": 1.9802453333333337e-05, + "loss": 0.2566, + "step": 4630 + }, + { + "epoch": 0.029664, + "grad_norm": 2.071901798248291, + "learning_rate": 1.980224e-05, + "loss": 0.3081, + "step": 4635 + }, + { + "epoch": 0.029696, + "grad_norm": 3.158722162246704, + "learning_rate": 1.980202666666667e-05, + "loss": 0.2027, + "step": 4640 + }, + { + "epoch": 0.029728, + "grad_norm": 1.7094497680664062, + "learning_rate": 1.9801813333333336e-05, + "loss": 0.2405, + "step": 4645 + }, + { + "epoch": 0.02976, + "grad_norm": 1.6808104515075684, + "learning_rate": 1.98016e-05, + "loss": 0.1978, + "step": 4650 + }, + { + "epoch": 0.029792, + "grad_norm": 1.8917900323867798, + "learning_rate": 1.9801386666666668e-05, + "loss": 0.2302, + "step": 4655 + }, + { + "epoch": 0.029824, + "grad_norm": 3.520514965057373, + "learning_rate": 1.9801173333333335e-05, + "loss": 0.1655, + "step": 4660 + }, + { + "epoch": 0.029856, + "grad_norm": 1.406707763671875, + "learning_rate": 1.9800960000000003e-05, + "loss": 0.2489, + "step": 4665 + }, + { + "epoch": 0.029888, + "grad_norm": 1.2035514116287231, + "learning_rate": 1.9800746666666667e-05, + "loss": 0.1971, + "step": 4670 + }, + { + "epoch": 0.02992, + "grad_norm": 1.506135106086731, + "learning_rate": 1.9800533333333335e-05, + "loss": 0.2658, + "step": 4675 + }, + { + "epoch": 0.029952, + "grad_norm": 2.8565006256103516, + "learning_rate": 1.9800320000000002e-05, + "loss": 0.2359, + "step": 4680 + }, + { + "epoch": 0.029984, + "grad_norm": 1.0895322561264038, + "learning_rate": 1.9800106666666666e-05, + "loss": 0.2193, + "step": 4685 + }, + { + "epoch": 0.030016, + "grad_norm": 1.6744067668914795, + "learning_rate": 1.9799893333333334e-05, + "loss": 0.1704, + "step": 4690 + }, + { + "epoch": 0.030048, + "grad_norm": 2.720045328140259, + "learning_rate": 1.979968e-05, + "loss": 0.1937, + "step": 4695 + }, + { + "epoch": 0.03008, + "grad_norm": 2.14642333984375, + "learning_rate": 1.979946666666667e-05, + "loss": 0.2304, + "step": 4700 + }, + { + "epoch": 0.030112, + "grad_norm": 2.3210020065307617, + "learning_rate": 1.9799253333333333e-05, + "loss": 0.2196, + "step": 4705 + }, + { + "epoch": 0.030144, + "grad_norm": 1.040023922920227, + "learning_rate": 1.9799040000000004e-05, + "loss": 0.1922, + "step": 4710 + }, + { + "epoch": 0.030176, + "grad_norm": 0.8735603094100952, + "learning_rate": 1.979882666666667e-05, + "loss": 0.1426, + "step": 4715 + }, + { + "epoch": 0.030208, + "grad_norm": 1.7429354190826416, + "learning_rate": 1.9798613333333332e-05, + "loss": 0.2121, + "step": 4720 + }, + { + "epoch": 0.03024, + "grad_norm": 3.6835899353027344, + "learning_rate": 1.9798400000000003e-05, + "loss": 0.2586, + "step": 4725 + }, + { + "epoch": 0.030272, + "grad_norm": 3.7331085205078125, + "learning_rate": 1.9798186666666668e-05, + "loss": 0.2922, + "step": 4730 + }, + { + "epoch": 0.030304, + "grad_norm": 2.2662887573242188, + "learning_rate": 1.9797973333333335e-05, + "loss": 0.2701, + "step": 4735 + }, + { + "epoch": 0.030336, + "grad_norm": 2.119453191757202, + "learning_rate": 1.9797760000000003e-05, + "loss": 0.1687, + "step": 4740 + }, + { + "epoch": 0.030368, + "grad_norm": 1.3889141082763672, + "learning_rate": 1.979754666666667e-05, + "loss": 0.2766, + "step": 4745 + }, + { + "epoch": 0.0304, + "grad_norm": 1.3384408950805664, + "learning_rate": 1.9797333333333334e-05, + "loss": 0.2185, + "step": 4750 + }, + { + "epoch": 0.030432, + "grad_norm": 2.3915016651153564, + "learning_rate": 1.9797120000000002e-05, + "loss": 0.2627, + "step": 4755 + }, + { + "epoch": 0.030464, + "grad_norm": 3.483368396759033, + "learning_rate": 1.979690666666667e-05, + "loss": 0.3208, + "step": 4760 + }, + { + "epoch": 0.030496, + "grad_norm": 2.776261568069458, + "learning_rate": 1.9796693333333334e-05, + "loss": 0.1651, + "step": 4765 + }, + { + "epoch": 0.030528, + "grad_norm": 2.751038074493408, + "learning_rate": 1.979648e-05, + "loss": 0.1792, + "step": 4770 + }, + { + "epoch": 0.03056, + "grad_norm": 2.1716952323913574, + "learning_rate": 1.979626666666667e-05, + "loss": 0.2426, + "step": 4775 + }, + { + "epoch": 0.030592, + "grad_norm": 1.160506248474121, + "learning_rate": 1.9796053333333336e-05, + "loss": 0.2325, + "step": 4780 + }, + { + "epoch": 0.030624, + "grad_norm": 0.6978776454925537, + "learning_rate": 1.979584e-05, + "loss": 0.1736, + "step": 4785 + }, + { + "epoch": 0.030656, + "grad_norm": 1.0708057880401611, + "learning_rate": 1.9795626666666668e-05, + "loss": 0.2358, + "step": 4790 + }, + { + "epoch": 0.030688, + "grad_norm": 1.8957992792129517, + "learning_rate": 1.9795413333333336e-05, + "loss": 0.2543, + "step": 4795 + }, + { + "epoch": 0.03072, + "grad_norm": 3.2738704681396484, + "learning_rate": 1.97952e-05, + "loss": 0.2194, + "step": 4800 + }, + { + "epoch": 0.030752, + "grad_norm": 1.7315298318862915, + "learning_rate": 1.9794986666666667e-05, + "loss": 0.1879, + "step": 4805 + }, + { + "epoch": 0.030784, + "grad_norm": 1.178307056427002, + "learning_rate": 1.9794773333333335e-05, + "loss": 0.1894, + "step": 4810 + }, + { + "epoch": 0.030816, + "grad_norm": 1.3546398878097534, + "learning_rate": 1.9794560000000002e-05, + "loss": 0.2158, + "step": 4815 + }, + { + "epoch": 0.030848, + "grad_norm": 2.373002052307129, + "learning_rate": 1.979434666666667e-05, + "loss": 0.2795, + "step": 4820 + }, + { + "epoch": 0.03088, + "grad_norm": 1.6696751117706299, + "learning_rate": 1.9794133333333334e-05, + "loss": 0.1931, + "step": 4825 + }, + { + "epoch": 0.030912, + "grad_norm": 1.1981925964355469, + "learning_rate": 1.9793920000000002e-05, + "loss": 0.2006, + "step": 4830 + }, + { + "epoch": 0.030944, + "grad_norm": 2.4813079833984375, + "learning_rate": 1.979370666666667e-05, + "loss": 0.2268, + "step": 4835 + }, + { + "epoch": 0.030976, + "grad_norm": 1.7977429628372192, + "learning_rate": 1.9793493333333337e-05, + "loss": 0.2428, + "step": 4840 + }, + { + "epoch": 0.031008, + "grad_norm": 1.2293347120285034, + "learning_rate": 1.979328e-05, + "loss": 0.1652, + "step": 4845 + }, + { + "epoch": 0.03104, + "grad_norm": 1.512263298034668, + "learning_rate": 1.979306666666667e-05, + "loss": 0.2247, + "step": 4850 + }, + { + "epoch": 0.031072, + "grad_norm": 1.691751480102539, + "learning_rate": 1.9792853333333336e-05, + "loss": 0.1657, + "step": 4855 + }, + { + "epoch": 0.031104, + "grad_norm": 2.8220722675323486, + "learning_rate": 1.979264e-05, + "loss": 0.2226, + "step": 4860 + }, + { + "epoch": 0.031136, + "grad_norm": 3.1944360733032227, + "learning_rate": 1.9792426666666668e-05, + "loss": 0.1371, + "step": 4865 + }, + { + "epoch": 0.031168, + "grad_norm": 2.2226338386535645, + "learning_rate": 1.9792213333333335e-05, + "loss": 0.2116, + "step": 4870 + }, + { + "epoch": 0.0312, + "grad_norm": 1.2931560277938843, + "learning_rate": 1.9792000000000003e-05, + "loss": 0.175, + "step": 4875 + }, + { + "epoch": 0.031232, + "grad_norm": 2.180208444595337, + "learning_rate": 1.9791786666666667e-05, + "loss": 0.2055, + "step": 4880 + }, + { + "epoch": 0.031264, + "grad_norm": 1.0164928436279297, + "learning_rate": 1.9791573333333335e-05, + "loss": 0.185, + "step": 4885 + }, + { + "epoch": 0.031296, + "grad_norm": 2.6895530223846436, + "learning_rate": 1.9791360000000002e-05, + "loss": 0.2147, + "step": 4890 + }, + { + "epoch": 0.031328, + "grad_norm": 1.4516042470932007, + "learning_rate": 1.9791146666666666e-05, + "loss": 0.1753, + "step": 4895 + }, + { + "epoch": 0.03136, + "grad_norm": 2.2498252391815186, + "learning_rate": 1.9790933333333334e-05, + "loss": 0.2232, + "step": 4900 + }, + { + "epoch": 0.031392, + "grad_norm": 1.5289281606674194, + "learning_rate": 1.979072e-05, + "loss": 0.2158, + "step": 4905 + }, + { + "epoch": 0.031424, + "grad_norm": 1.6283118724822998, + "learning_rate": 1.979050666666667e-05, + "loss": 0.172, + "step": 4910 + }, + { + "epoch": 0.031456, + "grad_norm": 0.9542237520217896, + "learning_rate": 1.9790293333333333e-05, + "loss": 0.1987, + "step": 4915 + }, + { + "epoch": 0.031488, + "grad_norm": 1.7346760034561157, + "learning_rate": 1.9790080000000004e-05, + "loss": 0.1893, + "step": 4920 + }, + { + "epoch": 0.03152, + "grad_norm": 1.3980112075805664, + "learning_rate": 1.978986666666667e-05, + "loss": 0.1758, + "step": 4925 + }, + { + "epoch": 0.031552, + "grad_norm": 2.5861098766326904, + "learning_rate": 1.9789653333333332e-05, + "loss": 0.1756, + "step": 4930 + }, + { + "epoch": 0.031584, + "grad_norm": 2.3829050064086914, + "learning_rate": 1.9789440000000003e-05, + "loss": 0.1815, + "step": 4935 + }, + { + "epoch": 0.031616, + "grad_norm": 1.5545979738235474, + "learning_rate": 1.9789226666666668e-05, + "loss": 0.2317, + "step": 4940 + }, + { + "epoch": 0.031648, + "grad_norm": 1.3497164249420166, + "learning_rate": 1.9789013333333335e-05, + "loss": 0.2192, + "step": 4945 + }, + { + "epoch": 0.03168, + "grad_norm": 1.6002370119094849, + "learning_rate": 1.9788800000000003e-05, + "loss": 0.216, + "step": 4950 + }, + { + "epoch": 0.031712, + "grad_norm": 1.1899768114089966, + "learning_rate": 1.978858666666667e-05, + "loss": 0.1957, + "step": 4955 + }, + { + "epoch": 0.031744, + "grad_norm": 1.2151299715042114, + "learning_rate": 1.9788373333333334e-05, + "loss": 0.2112, + "step": 4960 + }, + { + "epoch": 0.031776, + "grad_norm": 0.8206506371498108, + "learning_rate": 1.9788160000000002e-05, + "loss": 0.2251, + "step": 4965 + }, + { + "epoch": 0.031808, + "grad_norm": 1.721313238143921, + "learning_rate": 1.978794666666667e-05, + "loss": 0.1865, + "step": 4970 + }, + { + "epoch": 0.03184, + "grad_norm": 1.6467241048812866, + "learning_rate": 1.9787733333333334e-05, + "loss": 0.2438, + "step": 4975 + }, + { + "epoch": 0.031872, + "grad_norm": 12.325636863708496, + "learning_rate": 1.978752e-05, + "loss": 0.1713, + "step": 4980 + }, + { + "epoch": 0.031904, + "grad_norm": 6.6045613288879395, + "learning_rate": 1.978730666666667e-05, + "loss": 0.1698, + "step": 4985 + }, + { + "epoch": 0.031936, + "grad_norm": 1.1341016292572021, + "learning_rate": 1.9787093333333336e-05, + "loss": 0.2071, + "step": 4990 + }, + { + "epoch": 0.031968, + "grad_norm": 1.2261439561843872, + "learning_rate": 1.978688e-05, + "loss": 0.1685, + "step": 4995 + }, + { + "epoch": 0.032, + "grad_norm": 1.1757737398147583, + "learning_rate": 1.9786666666666668e-05, + "loss": 0.2384, + "step": 5000 + }, + { + "epoch": 0.032032, + "grad_norm": 1.7167658805847168, + "learning_rate": 1.9786453333333336e-05, + "loss": 0.1903, + "step": 5005 + }, + { + "epoch": 0.032064, + "grad_norm": 1.9877361059188843, + "learning_rate": 1.978624e-05, + "loss": 0.1979, + "step": 5010 + }, + { + "epoch": 0.032096, + "grad_norm": 0.7982996702194214, + "learning_rate": 1.9786026666666667e-05, + "loss": 0.1779, + "step": 5015 + }, + { + "epoch": 0.032128, + "grad_norm": 2.9553844928741455, + "learning_rate": 1.9785813333333335e-05, + "loss": 0.1843, + "step": 5020 + }, + { + "epoch": 0.03216, + "grad_norm": 1.720400094985962, + "learning_rate": 1.9785600000000002e-05, + "loss": 0.2526, + "step": 5025 + }, + { + "epoch": 0.032192, + "grad_norm": 1.5326894521713257, + "learning_rate": 1.9785386666666667e-05, + "loss": 0.2366, + "step": 5030 + }, + { + "epoch": 0.032224, + "grad_norm": 1.8685451745986938, + "learning_rate": 1.9785173333333334e-05, + "loss": 0.1671, + "step": 5035 + }, + { + "epoch": 0.032256, + "grad_norm": 1.1960161924362183, + "learning_rate": 1.9784960000000002e-05, + "loss": 0.1705, + "step": 5040 + }, + { + "epoch": 0.032288, + "grad_norm": 1.3967373371124268, + "learning_rate": 1.978474666666667e-05, + "loss": 0.2704, + "step": 5045 + }, + { + "epoch": 0.03232, + "grad_norm": 0.7385855317115784, + "learning_rate": 1.9784533333333337e-05, + "loss": 0.1936, + "step": 5050 + }, + { + "epoch": 0.032352, + "grad_norm": 1.5543197393417358, + "learning_rate": 1.978432e-05, + "loss": 0.263, + "step": 5055 + }, + { + "epoch": 0.032384, + "grad_norm": 1.5870916843414307, + "learning_rate": 1.978410666666667e-05, + "loss": 0.2375, + "step": 5060 + }, + { + "epoch": 0.032416, + "grad_norm": 1.4327828884124756, + "learning_rate": 1.9783893333333336e-05, + "loss": 0.1962, + "step": 5065 + }, + { + "epoch": 0.032448, + "grad_norm": 1.1970174312591553, + "learning_rate": 1.978368e-05, + "loss": 0.1483, + "step": 5070 + }, + { + "epoch": 0.03248, + "grad_norm": 1.60548734664917, + "learning_rate": 1.9783466666666668e-05, + "loss": 0.1852, + "step": 5075 + }, + { + "epoch": 0.032512, + "grad_norm": 2.329571008682251, + "learning_rate": 1.9783253333333335e-05, + "loss": 0.1907, + "step": 5080 + }, + { + "epoch": 0.032544, + "grad_norm": 2.3266990184783936, + "learning_rate": 1.9783040000000003e-05, + "loss": 0.2035, + "step": 5085 + }, + { + "epoch": 0.032576, + "grad_norm": 1.2387787103652954, + "learning_rate": 1.9782826666666667e-05, + "loss": 0.2212, + "step": 5090 + }, + { + "epoch": 0.032608, + "grad_norm": 1.7940359115600586, + "learning_rate": 1.9782613333333335e-05, + "loss": 0.1897, + "step": 5095 + }, + { + "epoch": 0.03264, + "grad_norm": 1.3287465572357178, + "learning_rate": 1.9782400000000002e-05, + "loss": 0.1412, + "step": 5100 + }, + { + "epoch": 0.032672, + "grad_norm": 1.3010313510894775, + "learning_rate": 1.9782186666666666e-05, + "loss": 0.2026, + "step": 5105 + }, + { + "epoch": 0.032704, + "grad_norm": 2.850572347640991, + "learning_rate": 1.9781973333333334e-05, + "loss": 0.182, + "step": 5110 + }, + { + "epoch": 0.032736, + "grad_norm": 2.4435195922851562, + "learning_rate": 1.978176e-05, + "loss": 0.2612, + "step": 5115 + }, + { + "epoch": 0.032768, + "grad_norm": 1.3454474210739136, + "learning_rate": 1.978154666666667e-05, + "loss": 0.1306, + "step": 5120 + }, + { + "epoch": 0.0328, + "grad_norm": 1.2934197187423706, + "learning_rate": 1.9781333333333333e-05, + "loss": 0.2298, + "step": 5125 + }, + { + "epoch": 0.032832, + "grad_norm": 1.6444482803344727, + "learning_rate": 1.9781120000000004e-05, + "loss": 0.161, + "step": 5130 + }, + { + "epoch": 0.032864, + "grad_norm": 1.2923593521118164, + "learning_rate": 1.978090666666667e-05, + "loss": 0.2475, + "step": 5135 + }, + { + "epoch": 0.032896, + "grad_norm": 1.1700078248977661, + "learning_rate": 1.9780693333333332e-05, + "loss": 0.1242, + "step": 5140 + }, + { + "epoch": 0.032928, + "grad_norm": 1.0138822793960571, + "learning_rate": 1.9780480000000003e-05, + "loss": 0.1579, + "step": 5145 + }, + { + "epoch": 0.03296, + "grad_norm": 2.392418622970581, + "learning_rate": 1.9780266666666668e-05, + "loss": 0.2407, + "step": 5150 + }, + { + "epoch": 0.032992, + "grad_norm": 2.008841037750244, + "learning_rate": 1.9780053333333335e-05, + "loss": 0.2125, + "step": 5155 + }, + { + "epoch": 0.033024, + "grad_norm": 1.5173588991165161, + "learning_rate": 1.9779840000000003e-05, + "loss": 0.2373, + "step": 5160 + }, + { + "epoch": 0.033056, + "grad_norm": 1.5571701526641846, + "learning_rate": 1.977962666666667e-05, + "loss": 0.1785, + "step": 5165 + }, + { + "epoch": 0.033088, + "grad_norm": 1.1097588539123535, + "learning_rate": 1.9779413333333334e-05, + "loss": 0.1939, + "step": 5170 + }, + { + "epoch": 0.03312, + "grad_norm": 1.0397205352783203, + "learning_rate": 1.9779200000000002e-05, + "loss": 0.1673, + "step": 5175 + }, + { + "epoch": 0.033152, + "grad_norm": 0.8647733926773071, + "learning_rate": 1.977898666666667e-05, + "loss": 0.1975, + "step": 5180 + }, + { + "epoch": 0.033184, + "grad_norm": 0.902022123336792, + "learning_rate": 1.9778773333333334e-05, + "loss": 0.1523, + "step": 5185 + }, + { + "epoch": 0.033216, + "grad_norm": 1.8565335273742676, + "learning_rate": 1.977856e-05, + "loss": 0.1562, + "step": 5190 + }, + { + "epoch": 0.033248, + "grad_norm": 2.2572338581085205, + "learning_rate": 1.977834666666667e-05, + "loss": 0.1885, + "step": 5195 + }, + { + "epoch": 0.03328, + "grad_norm": 1.0421063899993896, + "learning_rate": 1.9778133333333336e-05, + "loss": 0.1926, + "step": 5200 + }, + { + "epoch": 0.033312, + "grad_norm": 1.5681499242782593, + "learning_rate": 1.977792e-05, + "loss": 0.1739, + "step": 5205 + }, + { + "epoch": 0.033344, + "grad_norm": 1.7738922834396362, + "learning_rate": 1.9777706666666668e-05, + "loss": 0.2369, + "step": 5210 + }, + { + "epoch": 0.033376, + "grad_norm": 1.4953508377075195, + "learning_rate": 1.9777493333333336e-05, + "loss": 0.2127, + "step": 5215 + }, + { + "epoch": 0.033408, + "grad_norm": 11.504867553710938, + "learning_rate": 1.977728e-05, + "loss": 0.2294, + "step": 5220 + }, + { + "epoch": 0.03344, + "grad_norm": 0.8724531531333923, + "learning_rate": 1.9777066666666667e-05, + "loss": 0.1994, + "step": 5225 + }, + { + "epoch": 0.033472, + "grad_norm": 1.256144404411316, + "learning_rate": 1.9776853333333335e-05, + "loss": 0.1584, + "step": 5230 + }, + { + "epoch": 0.033504, + "grad_norm": 2.6226301193237305, + "learning_rate": 1.9776640000000002e-05, + "loss": 0.2417, + "step": 5235 + }, + { + "epoch": 0.033536, + "grad_norm": 0.8075560927391052, + "learning_rate": 1.9776426666666667e-05, + "loss": 0.217, + "step": 5240 + }, + { + "epoch": 0.033568, + "grad_norm": 4.568291187286377, + "learning_rate": 1.9776213333333334e-05, + "loss": 0.1907, + "step": 5245 + }, + { + "epoch": 0.0336, + "grad_norm": 1.130158543586731, + "learning_rate": 1.9776000000000002e-05, + "loss": 0.193, + "step": 5250 + }, + { + "epoch": 0.033632, + "grad_norm": 2.0955193042755127, + "learning_rate": 1.9775786666666666e-05, + "loss": 0.2138, + "step": 5255 + }, + { + "epoch": 0.033664, + "grad_norm": 1.9797914028167725, + "learning_rate": 1.9775573333333337e-05, + "loss": 0.2794, + "step": 5260 + }, + { + "epoch": 0.033696, + "grad_norm": 3.380094051361084, + "learning_rate": 1.977536e-05, + "loss": 0.2182, + "step": 5265 + }, + { + "epoch": 0.033728, + "grad_norm": 2.1633362770080566, + "learning_rate": 1.977514666666667e-05, + "loss": 0.1922, + "step": 5270 + }, + { + "epoch": 0.03376, + "grad_norm": 1.34620201587677, + "learning_rate": 1.9774933333333336e-05, + "loss": 0.2129, + "step": 5275 + }, + { + "epoch": 0.033792, + "grad_norm": 1.0325733423233032, + "learning_rate": 1.977472e-05, + "loss": 0.2401, + "step": 5280 + }, + { + "epoch": 0.033824, + "grad_norm": 1.108197808265686, + "learning_rate": 1.9774506666666668e-05, + "loss": 0.2138, + "step": 5285 + }, + { + "epoch": 0.033856, + "grad_norm": 2.0000298023223877, + "learning_rate": 1.9774293333333335e-05, + "loss": 0.196, + "step": 5290 + }, + { + "epoch": 0.033888, + "grad_norm": 2.399219036102295, + "learning_rate": 1.9774080000000003e-05, + "loss": 0.1618, + "step": 5295 + }, + { + "epoch": 0.03392, + "grad_norm": 1.8206367492675781, + "learning_rate": 1.9773866666666667e-05, + "loss": 0.1786, + "step": 5300 + }, + { + "epoch": 0.033952, + "grad_norm": 0.9433857798576355, + "learning_rate": 1.9773653333333335e-05, + "loss": 0.2216, + "step": 5305 + }, + { + "epoch": 0.033984, + "grad_norm": 2.901665687561035, + "learning_rate": 1.9773440000000002e-05, + "loss": 0.2727, + "step": 5310 + }, + { + "epoch": 0.034016, + "grad_norm": 1.1526139974594116, + "learning_rate": 1.9773226666666666e-05, + "loss": 0.1753, + "step": 5315 + }, + { + "epoch": 0.034048, + "grad_norm": 1.030409574508667, + "learning_rate": 1.9773013333333334e-05, + "loss": 0.2036, + "step": 5320 + }, + { + "epoch": 0.03408, + "grad_norm": 1.5355299711227417, + "learning_rate": 1.97728e-05, + "loss": 0.1884, + "step": 5325 + }, + { + "epoch": 0.034112, + "grad_norm": 3.102842330932617, + "learning_rate": 1.977258666666667e-05, + "loss": 0.2235, + "step": 5330 + }, + { + "epoch": 0.034144, + "grad_norm": 1.7360903024673462, + "learning_rate": 1.9772373333333333e-05, + "loss": 0.2284, + "step": 5335 + }, + { + "epoch": 0.034176, + "grad_norm": 1.4808721542358398, + "learning_rate": 1.977216e-05, + "loss": 0.1419, + "step": 5340 + }, + { + "epoch": 0.034208, + "grad_norm": 1.024958610534668, + "learning_rate": 1.977194666666667e-05, + "loss": 0.1554, + "step": 5345 + }, + { + "epoch": 0.03424, + "grad_norm": 1.1023350954055786, + "learning_rate": 1.9771733333333333e-05, + "loss": 0.3166, + "step": 5350 + }, + { + "epoch": 0.034272, + "grad_norm": 13.283519744873047, + "learning_rate": 1.9771520000000003e-05, + "loss": 0.2876, + "step": 5355 + }, + { + "epoch": 0.034304, + "grad_norm": 1.9627193212509155, + "learning_rate": 1.9771306666666668e-05, + "loss": 0.2146, + "step": 5360 + }, + { + "epoch": 0.034336, + "grad_norm": 4.2076873779296875, + "learning_rate": 1.9771093333333335e-05, + "loss": 0.1875, + "step": 5365 + }, + { + "epoch": 0.034368, + "grad_norm": 1.5794382095336914, + "learning_rate": 1.9770880000000003e-05, + "loss": 0.316, + "step": 5370 + }, + { + "epoch": 0.0344, + "grad_norm": 1.353235125541687, + "learning_rate": 1.977066666666667e-05, + "loss": 0.1556, + "step": 5375 + }, + { + "epoch": 0.034432, + "grad_norm": 2.20878529548645, + "learning_rate": 1.9770453333333334e-05, + "loss": 0.2086, + "step": 5380 + }, + { + "epoch": 0.034464, + "grad_norm": 2.7580952644348145, + "learning_rate": 1.9770240000000002e-05, + "loss": 0.2101, + "step": 5385 + }, + { + "epoch": 0.034496, + "grad_norm": 2.009040117263794, + "learning_rate": 1.977002666666667e-05, + "loss": 0.2417, + "step": 5390 + }, + { + "epoch": 0.034528, + "grad_norm": 0.8781907558441162, + "learning_rate": 1.9769813333333334e-05, + "loss": 0.1671, + "step": 5395 + }, + { + "epoch": 0.03456, + "grad_norm": 1.6975963115692139, + "learning_rate": 1.97696e-05, + "loss": 0.2005, + "step": 5400 + }, + { + "epoch": 0.034592, + "grad_norm": 1.3910133838653564, + "learning_rate": 1.976938666666667e-05, + "loss": 0.2277, + "step": 5405 + }, + { + "epoch": 0.034624, + "grad_norm": 0.9382781982421875, + "learning_rate": 1.9769173333333336e-05, + "loss": 0.156, + "step": 5410 + }, + { + "epoch": 0.034656, + "grad_norm": 1.326711893081665, + "learning_rate": 1.976896e-05, + "loss": 0.206, + "step": 5415 + }, + { + "epoch": 0.034688, + "grad_norm": 0.8421342968940735, + "learning_rate": 1.9768746666666668e-05, + "loss": 0.1928, + "step": 5420 + }, + { + "epoch": 0.03472, + "grad_norm": 1.2594811916351318, + "learning_rate": 1.9768533333333336e-05, + "loss": 0.1423, + "step": 5425 + }, + { + "epoch": 0.034752, + "grad_norm": 1.3865658044815063, + "learning_rate": 1.976832e-05, + "loss": 0.1708, + "step": 5430 + }, + { + "epoch": 0.034784, + "grad_norm": 1.1354354619979858, + "learning_rate": 1.9768106666666667e-05, + "loss": 0.1788, + "step": 5435 + }, + { + "epoch": 0.034816, + "grad_norm": 1.738077163696289, + "learning_rate": 1.9767893333333335e-05, + "loss": 0.1968, + "step": 5440 + }, + { + "epoch": 0.034848, + "grad_norm": 3.454190254211426, + "learning_rate": 1.9767680000000002e-05, + "loss": 0.2361, + "step": 5445 + }, + { + "epoch": 0.03488, + "grad_norm": 1.428728461265564, + "learning_rate": 1.9767466666666667e-05, + "loss": 0.1582, + "step": 5450 + }, + { + "epoch": 0.034912, + "grad_norm": 1.5113321542739868, + "learning_rate": 1.9767253333333334e-05, + "loss": 0.2083, + "step": 5455 + }, + { + "epoch": 0.034944, + "grad_norm": 1.1798661947250366, + "learning_rate": 1.9767040000000002e-05, + "loss": 0.1615, + "step": 5460 + }, + { + "epoch": 0.034976, + "grad_norm": 1.361528754234314, + "learning_rate": 1.9766826666666666e-05, + "loss": 0.2069, + "step": 5465 + }, + { + "epoch": 0.035008, + "grad_norm": 1.043917179107666, + "learning_rate": 1.9766613333333337e-05, + "loss": 0.1741, + "step": 5470 + }, + { + "epoch": 0.03504, + "grad_norm": 1.9092628955841064, + "learning_rate": 1.97664e-05, + "loss": 0.1826, + "step": 5475 + }, + { + "epoch": 0.035072, + "grad_norm": 0.8428000211715698, + "learning_rate": 1.976618666666667e-05, + "loss": 0.1633, + "step": 5480 + }, + { + "epoch": 0.035104, + "grad_norm": 0.6972199082374573, + "learning_rate": 1.9765973333333336e-05, + "loss": 0.2218, + "step": 5485 + }, + { + "epoch": 0.035136, + "grad_norm": 2.4663829803466797, + "learning_rate": 1.9765760000000004e-05, + "loss": 0.2427, + "step": 5490 + }, + { + "epoch": 0.035168, + "grad_norm": 1.872668743133545, + "learning_rate": 1.9765546666666668e-05, + "loss": 0.1862, + "step": 5495 + }, + { + "epoch": 0.0352, + "grad_norm": 1.0908292531967163, + "learning_rate": 1.9765333333333335e-05, + "loss": 0.1895, + "step": 5500 + }, + { + "epoch": 0.035232, + "grad_norm": 1.2527222633361816, + "learning_rate": 1.9765120000000003e-05, + "loss": 0.2556, + "step": 5505 + }, + { + "epoch": 0.035264, + "grad_norm": 4.330355644226074, + "learning_rate": 1.9764906666666667e-05, + "loss": 0.1701, + "step": 5510 + }, + { + "epoch": 0.035296, + "grad_norm": 2.256347179412842, + "learning_rate": 1.9764693333333335e-05, + "loss": 0.2187, + "step": 5515 + }, + { + "epoch": 0.035328, + "grad_norm": 2.0517640113830566, + "learning_rate": 1.9764480000000002e-05, + "loss": 0.2142, + "step": 5520 + }, + { + "epoch": 0.03536, + "grad_norm": 1.7174865007400513, + "learning_rate": 1.976426666666667e-05, + "loss": 0.2336, + "step": 5525 + }, + { + "epoch": 0.035392, + "grad_norm": 2.241156578063965, + "learning_rate": 1.9764053333333334e-05, + "loss": 0.1886, + "step": 5530 + }, + { + "epoch": 0.035424, + "grad_norm": 4.9668684005737305, + "learning_rate": 1.976384e-05, + "loss": 0.2205, + "step": 5535 + }, + { + "epoch": 0.035456, + "grad_norm": 1.9344018697738647, + "learning_rate": 1.976362666666667e-05, + "loss": 0.253, + "step": 5540 + }, + { + "epoch": 0.035488, + "grad_norm": 1.256047248840332, + "learning_rate": 1.9763413333333333e-05, + "loss": 0.2454, + "step": 5545 + }, + { + "epoch": 0.03552, + "grad_norm": 1.2424733638763428, + "learning_rate": 1.97632e-05, + "loss": 0.1466, + "step": 5550 + }, + { + "epoch": 0.035552, + "grad_norm": 3.757870674133301, + "learning_rate": 1.976298666666667e-05, + "loss": 0.1861, + "step": 5555 + }, + { + "epoch": 0.035584, + "grad_norm": 1.5361779928207397, + "learning_rate": 1.9762773333333336e-05, + "loss": 0.2735, + "step": 5560 + }, + { + "epoch": 0.035616, + "grad_norm": 1.1006473302841187, + "learning_rate": 1.976256e-05, + "loss": 0.1797, + "step": 5565 + }, + { + "epoch": 0.035648, + "grad_norm": 2.4548304080963135, + "learning_rate": 1.9762346666666668e-05, + "loss": 0.2841, + "step": 5570 + }, + { + "epoch": 0.03568, + "grad_norm": 1.8654086589813232, + "learning_rate": 1.9762133333333335e-05, + "loss": 0.1896, + "step": 5575 + }, + { + "epoch": 0.035712, + "grad_norm": 1.0089083909988403, + "learning_rate": 1.9761920000000003e-05, + "loss": 0.2153, + "step": 5580 + }, + { + "epoch": 0.035744, + "grad_norm": 0.907910943031311, + "learning_rate": 1.976170666666667e-05, + "loss": 0.1991, + "step": 5585 + }, + { + "epoch": 0.035776, + "grad_norm": 1.6151964664459229, + "learning_rate": 1.9761493333333334e-05, + "loss": 0.2406, + "step": 5590 + }, + { + "epoch": 0.035808, + "grad_norm": 1.013454794883728, + "learning_rate": 1.9761280000000002e-05, + "loss": 0.2317, + "step": 5595 + }, + { + "epoch": 0.03584, + "grad_norm": 1.4275566339492798, + "learning_rate": 1.976106666666667e-05, + "loss": 0.2118, + "step": 5600 + }, + { + "epoch": 0.035872, + "grad_norm": 1.8280029296875, + "learning_rate": 1.9760853333333334e-05, + "loss": 0.1736, + "step": 5605 + }, + { + "epoch": 0.035904, + "grad_norm": 1.2133140563964844, + "learning_rate": 1.976064e-05, + "loss": 0.1802, + "step": 5610 + }, + { + "epoch": 0.035936, + "grad_norm": 0.9735623598098755, + "learning_rate": 1.976042666666667e-05, + "loss": 0.1705, + "step": 5615 + }, + { + "epoch": 0.035968, + "grad_norm": 5.054781436920166, + "learning_rate": 1.9760213333333336e-05, + "loss": 0.2201, + "step": 5620 + }, + { + "epoch": 0.036, + "grad_norm": 1.2734845876693726, + "learning_rate": 1.976e-05, + "loss": 0.1794, + "step": 5625 + }, + { + "epoch": 0.036032, + "grad_norm": 5.558135509490967, + "learning_rate": 1.9759786666666668e-05, + "loss": 0.2337, + "step": 5630 + }, + { + "epoch": 0.036064, + "grad_norm": 1.1035444736480713, + "learning_rate": 1.9759573333333336e-05, + "loss": 0.2417, + "step": 5635 + }, + { + "epoch": 0.036096, + "grad_norm": 1.7476104497909546, + "learning_rate": 1.975936e-05, + "loss": 0.2014, + "step": 5640 + }, + { + "epoch": 0.036128, + "grad_norm": 1.886977195739746, + "learning_rate": 1.9759146666666667e-05, + "loss": 0.2323, + "step": 5645 + }, + { + "epoch": 0.03616, + "grad_norm": 1.0384762287139893, + "learning_rate": 1.9758933333333335e-05, + "loss": 0.1943, + "step": 5650 + }, + { + "epoch": 0.036192, + "grad_norm": 2.082915782928467, + "learning_rate": 1.9758720000000002e-05, + "loss": 0.1971, + "step": 5655 + }, + { + "epoch": 0.036224, + "grad_norm": 2.933257818222046, + "learning_rate": 1.9758506666666667e-05, + "loss": 0.2591, + "step": 5660 + }, + { + "epoch": 0.036256, + "grad_norm": 1.9830538034439087, + "learning_rate": 1.9758293333333338e-05, + "loss": 0.1741, + "step": 5665 + }, + { + "epoch": 0.036288, + "grad_norm": 1.0713027715682983, + "learning_rate": 1.9758080000000002e-05, + "loss": 0.1366, + "step": 5670 + }, + { + "epoch": 0.03632, + "grad_norm": 1.5967433452606201, + "learning_rate": 1.9757866666666666e-05, + "loss": 0.1458, + "step": 5675 + }, + { + "epoch": 0.036352, + "grad_norm": 2.0370492935180664, + "learning_rate": 1.9757653333333337e-05, + "loss": 0.185, + "step": 5680 + }, + { + "epoch": 0.036384, + "grad_norm": 1.2924087047576904, + "learning_rate": 1.975744e-05, + "loss": 0.1949, + "step": 5685 + }, + { + "epoch": 0.036416, + "grad_norm": 1.4042152166366577, + "learning_rate": 1.975722666666667e-05, + "loss": 0.2319, + "step": 5690 + }, + { + "epoch": 0.036448, + "grad_norm": 1.9806263446807861, + "learning_rate": 1.9757013333333336e-05, + "loss": 0.2758, + "step": 5695 + }, + { + "epoch": 0.03648, + "grad_norm": 1.467994213104248, + "learning_rate": 1.9756800000000004e-05, + "loss": 0.1697, + "step": 5700 + }, + { + "epoch": 0.036512, + "grad_norm": 1.1370735168457031, + "learning_rate": 1.9756586666666668e-05, + "loss": 0.199, + "step": 5705 + }, + { + "epoch": 0.036544, + "grad_norm": 1.8655717372894287, + "learning_rate": 1.9756373333333335e-05, + "loss": 0.1565, + "step": 5710 + }, + { + "epoch": 0.036576, + "grad_norm": 2.3126916885375977, + "learning_rate": 1.9756160000000003e-05, + "loss": 0.1705, + "step": 5715 + }, + { + "epoch": 0.036608, + "grad_norm": 2.2329390048980713, + "learning_rate": 1.9755946666666667e-05, + "loss": 0.2002, + "step": 5720 + }, + { + "epoch": 0.03664, + "grad_norm": 2.0912344455718994, + "learning_rate": 1.9755733333333335e-05, + "loss": 0.1994, + "step": 5725 + }, + { + "epoch": 0.036672, + "grad_norm": 1.1064878702163696, + "learning_rate": 1.9755520000000002e-05, + "loss": 0.198, + "step": 5730 + }, + { + "epoch": 0.036704, + "grad_norm": 3.6957647800445557, + "learning_rate": 1.975530666666667e-05, + "loss": 0.2503, + "step": 5735 + }, + { + "epoch": 0.036736, + "grad_norm": 1.816199779510498, + "learning_rate": 1.9755093333333334e-05, + "loss": 0.1845, + "step": 5740 + }, + { + "epoch": 0.036768, + "grad_norm": 1.068606972694397, + "learning_rate": 1.975488e-05, + "loss": 0.2664, + "step": 5745 + }, + { + "epoch": 0.0368, + "grad_norm": 1.1056920289993286, + "learning_rate": 1.975466666666667e-05, + "loss": 0.195, + "step": 5750 + }, + { + "epoch": 0.036832, + "grad_norm": 2.4171605110168457, + "learning_rate": 1.9754453333333333e-05, + "loss": 0.2747, + "step": 5755 + }, + { + "epoch": 0.036864, + "grad_norm": 1.9079947471618652, + "learning_rate": 1.975424e-05, + "loss": 0.2263, + "step": 5760 + }, + { + "epoch": 0.036896, + "grad_norm": 1.0795307159423828, + "learning_rate": 1.975402666666667e-05, + "loss": 0.1765, + "step": 5765 + }, + { + "epoch": 0.036928, + "grad_norm": 1.7661811113357544, + "learning_rate": 1.9753813333333336e-05, + "loss": 0.2417, + "step": 5770 + }, + { + "epoch": 0.03696, + "grad_norm": 1.3441532850265503, + "learning_rate": 1.97536e-05, + "loss": 0.2048, + "step": 5775 + }, + { + "epoch": 0.036992, + "grad_norm": 1.3591915369033813, + "learning_rate": 1.9753386666666668e-05, + "loss": 0.1513, + "step": 5780 + }, + { + "epoch": 0.037024, + "grad_norm": 2.1343255043029785, + "learning_rate": 1.9753173333333335e-05, + "loss": 0.1993, + "step": 5785 + }, + { + "epoch": 0.037056, + "grad_norm": 1.3187859058380127, + "learning_rate": 1.975296e-05, + "loss": 0.1694, + "step": 5790 + }, + { + "epoch": 0.037088, + "grad_norm": 1.581418752670288, + "learning_rate": 1.975274666666667e-05, + "loss": 0.1739, + "step": 5795 + }, + { + "epoch": 0.03712, + "grad_norm": 1.3852207660675049, + "learning_rate": 1.9752533333333334e-05, + "loss": 0.1756, + "step": 5800 + }, + { + "epoch": 0.037152, + "grad_norm": 1.3229955434799194, + "learning_rate": 1.9752320000000002e-05, + "loss": 0.2242, + "step": 5805 + }, + { + "epoch": 0.037184, + "grad_norm": 1.4292879104614258, + "learning_rate": 1.975210666666667e-05, + "loss": 0.2163, + "step": 5810 + }, + { + "epoch": 0.037216, + "grad_norm": 1.8396105766296387, + "learning_rate": 1.9751893333333334e-05, + "loss": 0.2496, + "step": 5815 + }, + { + "epoch": 0.037248, + "grad_norm": 1.347259759902954, + "learning_rate": 1.975168e-05, + "loss": 0.173, + "step": 5820 + }, + { + "epoch": 0.03728, + "grad_norm": 2.323777437210083, + "learning_rate": 1.975146666666667e-05, + "loss": 0.162, + "step": 5825 + }, + { + "epoch": 0.037312, + "grad_norm": 1.066274642944336, + "learning_rate": 1.9751253333333336e-05, + "loss": 0.1759, + "step": 5830 + }, + { + "epoch": 0.037344, + "grad_norm": 1.4379044771194458, + "learning_rate": 1.975104e-05, + "loss": 0.2354, + "step": 5835 + }, + { + "epoch": 0.037376, + "grad_norm": 1.874855637550354, + "learning_rate": 1.9750826666666668e-05, + "loss": 0.1367, + "step": 5840 + }, + { + "epoch": 0.037408, + "grad_norm": 1.533423662185669, + "learning_rate": 1.9750613333333336e-05, + "loss": 0.2185, + "step": 5845 + }, + { + "epoch": 0.03744, + "grad_norm": 1.674620509147644, + "learning_rate": 1.97504e-05, + "loss": 0.1599, + "step": 5850 + }, + { + "epoch": 0.037472, + "grad_norm": 0.9954191446304321, + "learning_rate": 1.9750186666666667e-05, + "loss": 0.1403, + "step": 5855 + }, + { + "epoch": 0.037504, + "grad_norm": 1.0569303035736084, + "learning_rate": 1.9749973333333335e-05, + "loss": 0.1554, + "step": 5860 + }, + { + "epoch": 0.037536, + "grad_norm": 1.5982836484909058, + "learning_rate": 1.9749760000000002e-05, + "loss": 0.2221, + "step": 5865 + }, + { + "epoch": 0.037568, + "grad_norm": 1.718448519706726, + "learning_rate": 1.9749546666666667e-05, + "loss": 0.1997, + "step": 5870 + }, + { + "epoch": 0.0376, + "grad_norm": 1.1389667987823486, + "learning_rate": 1.9749333333333338e-05, + "loss": 0.18, + "step": 5875 + }, + { + "epoch": 0.037632, + "grad_norm": 1.6958574056625366, + "learning_rate": 1.9749120000000002e-05, + "loss": 0.1437, + "step": 5880 + }, + { + "epoch": 0.037664, + "grad_norm": 2.3098158836364746, + "learning_rate": 1.9748906666666666e-05, + "loss": 0.303, + "step": 5885 + }, + { + "epoch": 0.037696, + "grad_norm": 1.6482616662979126, + "learning_rate": 1.9748693333333337e-05, + "loss": 0.2201, + "step": 5890 + }, + { + "epoch": 0.037728, + "grad_norm": 1.6203789710998535, + "learning_rate": 1.974848e-05, + "loss": 0.1812, + "step": 5895 + }, + { + "epoch": 0.03776, + "grad_norm": 1.2637850046157837, + "learning_rate": 1.974826666666667e-05, + "loss": 0.1679, + "step": 5900 + }, + { + "epoch": 0.037792, + "grad_norm": 0.9876598715782166, + "learning_rate": 1.9748053333333336e-05, + "loss": 0.2301, + "step": 5905 + }, + { + "epoch": 0.037824, + "grad_norm": 2.029256582260132, + "learning_rate": 1.9747840000000004e-05, + "loss": 0.1994, + "step": 5910 + }, + { + "epoch": 0.037856, + "grad_norm": 0.6315456032752991, + "learning_rate": 1.9747626666666668e-05, + "loss": 0.1714, + "step": 5915 + }, + { + "epoch": 0.037888, + "grad_norm": 1.4571725130081177, + "learning_rate": 1.9747413333333335e-05, + "loss": 0.2422, + "step": 5920 + }, + { + "epoch": 0.03792, + "grad_norm": 2.557741165161133, + "learning_rate": 1.9747200000000003e-05, + "loss": 0.1546, + "step": 5925 + }, + { + "epoch": 0.037952, + "grad_norm": 1.296502709388733, + "learning_rate": 1.9746986666666667e-05, + "loss": 0.1651, + "step": 5930 + }, + { + "epoch": 0.037984, + "grad_norm": 1.1794004440307617, + "learning_rate": 1.9746773333333335e-05, + "loss": 0.1994, + "step": 5935 + }, + { + "epoch": 0.038016, + "grad_norm": 1.8587795495986938, + "learning_rate": 1.9746560000000002e-05, + "loss": 0.1745, + "step": 5940 + }, + { + "epoch": 0.038048, + "grad_norm": 2.991004705429077, + "learning_rate": 1.974634666666667e-05, + "loss": 0.2639, + "step": 5945 + }, + { + "epoch": 0.03808, + "grad_norm": 2.884263753890991, + "learning_rate": 1.9746133333333334e-05, + "loss": 0.1965, + "step": 5950 + }, + { + "epoch": 0.038112, + "grad_norm": 0.483254611492157, + "learning_rate": 1.974592e-05, + "loss": 0.1466, + "step": 5955 + }, + { + "epoch": 0.038144, + "grad_norm": 1.1423044204711914, + "learning_rate": 1.974570666666667e-05, + "loss": 0.1626, + "step": 5960 + }, + { + "epoch": 0.038176, + "grad_norm": 1.3293447494506836, + "learning_rate": 1.9745493333333333e-05, + "loss": 0.1744, + "step": 5965 + }, + { + "epoch": 0.038208, + "grad_norm": 1.6100927591323853, + "learning_rate": 1.974528e-05, + "loss": 0.1984, + "step": 5970 + }, + { + "epoch": 0.03824, + "grad_norm": 2.4063103199005127, + "learning_rate": 1.974506666666667e-05, + "loss": 0.1932, + "step": 5975 + }, + { + "epoch": 0.038272, + "grad_norm": 2.022830009460449, + "learning_rate": 1.9744853333333336e-05, + "loss": 0.2168, + "step": 5980 + }, + { + "epoch": 0.038304, + "grad_norm": 0.9791271686553955, + "learning_rate": 1.974464e-05, + "loss": 0.1375, + "step": 5985 + }, + { + "epoch": 0.038336, + "grad_norm": 1.2952778339385986, + "learning_rate": 1.9744426666666668e-05, + "loss": 0.1795, + "step": 5990 + }, + { + "epoch": 0.038368, + "grad_norm": 1.212201476097107, + "learning_rate": 1.9744213333333335e-05, + "loss": 0.1808, + "step": 5995 + }, + { + "epoch": 0.0384, + "grad_norm": 2.856383800506592, + "learning_rate": 1.9744e-05, + "loss": 0.1617, + "step": 6000 + }, + { + "epoch": 0.038432, + "grad_norm": 1.6421990394592285, + "learning_rate": 1.974378666666667e-05, + "loss": 0.1852, + "step": 6005 + }, + { + "epoch": 0.038464, + "grad_norm": 1.7349467277526855, + "learning_rate": 1.9743573333333334e-05, + "loss": 0.1572, + "step": 6010 + }, + { + "epoch": 0.038496, + "grad_norm": 2.95003342628479, + "learning_rate": 1.9743360000000002e-05, + "loss": 0.2039, + "step": 6015 + }, + { + "epoch": 0.038528, + "grad_norm": 1.6003957986831665, + "learning_rate": 1.974314666666667e-05, + "loss": 0.164, + "step": 6020 + }, + { + "epoch": 0.03856, + "grad_norm": 2.2338383197784424, + "learning_rate": 1.9742933333333334e-05, + "loss": 0.1882, + "step": 6025 + }, + { + "epoch": 0.038592, + "grad_norm": 0.9505215287208557, + "learning_rate": 1.974272e-05, + "loss": 0.1901, + "step": 6030 + }, + { + "epoch": 0.038624, + "grad_norm": 2.3138198852539062, + "learning_rate": 1.974250666666667e-05, + "loss": 0.2049, + "step": 6035 + }, + { + "epoch": 0.038656, + "grad_norm": 1.0799205303192139, + "learning_rate": 1.9742293333333336e-05, + "loss": 0.1857, + "step": 6040 + }, + { + "epoch": 0.038688, + "grad_norm": 1.9971119165420532, + "learning_rate": 1.974208e-05, + "loss": 0.1644, + "step": 6045 + }, + { + "epoch": 0.03872, + "grad_norm": 1.8572038412094116, + "learning_rate": 1.9741866666666668e-05, + "loss": 0.2162, + "step": 6050 + }, + { + "epoch": 0.038752, + "grad_norm": 0.9190854430198669, + "learning_rate": 1.9741653333333336e-05, + "loss": 0.1702, + "step": 6055 + }, + { + "epoch": 0.038784, + "grad_norm": 2.6522183418273926, + "learning_rate": 1.974144e-05, + "loss": 0.167, + "step": 6060 + }, + { + "epoch": 0.038816, + "grad_norm": 2.803851842880249, + "learning_rate": 1.9741226666666667e-05, + "loss": 0.1769, + "step": 6065 + }, + { + "epoch": 0.038848, + "grad_norm": 1.369688868522644, + "learning_rate": 1.9741013333333335e-05, + "loss": 0.1658, + "step": 6070 + }, + { + "epoch": 0.03888, + "grad_norm": 1.440727949142456, + "learning_rate": 1.9740800000000002e-05, + "loss": 0.1906, + "step": 6075 + }, + { + "epoch": 0.038912, + "grad_norm": 1.481595754623413, + "learning_rate": 1.9740586666666667e-05, + "loss": 0.1789, + "step": 6080 + }, + { + "epoch": 0.038944, + "grad_norm": 1.5298868417739868, + "learning_rate": 1.9740373333333334e-05, + "loss": 0.1565, + "step": 6085 + }, + { + "epoch": 0.038976, + "grad_norm": 2.6456735134124756, + "learning_rate": 1.9740160000000002e-05, + "loss": 0.2406, + "step": 6090 + }, + { + "epoch": 0.039008, + "grad_norm": 1.533368468284607, + "learning_rate": 1.9739946666666666e-05, + "loss": 0.1686, + "step": 6095 + }, + { + "epoch": 0.03904, + "grad_norm": 1.9385348558425903, + "learning_rate": 1.9739733333333337e-05, + "loss": 0.1481, + "step": 6100 + }, + { + "epoch": 0.039072, + "grad_norm": 1.3769006729125977, + "learning_rate": 1.973952e-05, + "loss": 0.1912, + "step": 6105 + }, + { + "epoch": 0.039104, + "grad_norm": 1.4831584692001343, + "learning_rate": 1.973930666666667e-05, + "loss": 0.1962, + "step": 6110 + }, + { + "epoch": 0.039136, + "grad_norm": 1.3819713592529297, + "learning_rate": 1.9739093333333336e-05, + "loss": 0.1884, + "step": 6115 + }, + { + "epoch": 0.039168, + "grad_norm": 2.030033826828003, + "learning_rate": 1.9738880000000004e-05, + "loss": 0.16, + "step": 6120 + }, + { + "epoch": 0.0392, + "grad_norm": 3.785362958908081, + "learning_rate": 1.9738666666666668e-05, + "loss": 0.166, + "step": 6125 + }, + { + "epoch": 0.039232, + "grad_norm": 1.754647135734558, + "learning_rate": 1.9738453333333335e-05, + "loss": 0.1801, + "step": 6130 + }, + { + "epoch": 0.039264, + "grad_norm": 1.5306679010391235, + "learning_rate": 1.9738240000000003e-05, + "loss": 0.1515, + "step": 6135 + }, + { + "epoch": 0.039296, + "grad_norm": 1.8439887762069702, + "learning_rate": 1.9738026666666667e-05, + "loss": 0.2459, + "step": 6140 + }, + { + "epoch": 0.039328, + "grad_norm": 2.8376009464263916, + "learning_rate": 1.9737813333333335e-05, + "loss": 0.2413, + "step": 6145 + }, + { + "epoch": 0.03936, + "grad_norm": 1.7821698188781738, + "learning_rate": 1.9737600000000002e-05, + "loss": 0.2302, + "step": 6150 + }, + { + "epoch": 0.039392, + "grad_norm": 1.799564242362976, + "learning_rate": 1.973738666666667e-05, + "loss": 0.1914, + "step": 6155 + }, + { + "epoch": 0.039424, + "grad_norm": 0.9424998760223389, + "learning_rate": 1.9737173333333334e-05, + "loss": 0.1528, + "step": 6160 + }, + { + "epoch": 0.039456, + "grad_norm": 1.7483736276626587, + "learning_rate": 1.973696e-05, + "loss": 0.2082, + "step": 6165 + }, + { + "epoch": 0.039488, + "grad_norm": 1.7884353399276733, + "learning_rate": 1.973674666666667e-05, + "loss": 0.2231, + "step": 6170 + }, + { + "epoch": 0.03952, + "grad_norm": 1.6423367261886597, + "learning_rate": 1.9736533333333333e-05, + "loss": 0.1648, + "step": 6175 + }, + { + "epoch": 0.039552, + "grad_norm": 1.0880056619644165, + "learning_rate": 1.973632e-05, + "loss": 0.1837, + "step": 6180 + }, + { + "epoch": 0.039584, + "grad_norm": 1.494446039199829, + "learning_rate": 1.973610666666667e-05, + "loss": 0.189, + "step": 6185 + }, + { + "epoch": 0.039616, + "grad_norm": 1.2170543670654297, + "learning_rate": 1.9735893333333336e-05, + "loss": 0.2036, + "step": 6190 + }, + { + "epoch": 0.039648, + "grad_norm": 2.044895648956299, + "learning_rate": 1.973568e-05, + "loss": 0.2038, + "step": 6195 + }, + { + "epoch": 0.03968, + "grad_norm": 1.356484055519104, + "learning_rate": 1.9735466666666668e-05, + "loss": 0.1813, + "step": 6200 + }, + { + "epoch": 0.039712, + "grad_norm": 0.871258020401001, + "learning_rate": 1.9735253333333335e-05, + "loss": 0.1608, + "step": 6205 + }, + { + "epoch": 0.039744, + "grad_norm": 1.7140382528305054, + "learning_rate": 1.973504e-05, + "loss": 0.1478, + "step": 6210 + }, + { + "epoch": 0.039776, + "grad_norm": 1.9188177585601807, + "learning_rate": 1.973482666666667e-05, + "loss": 0.2248, + "step": 6215 + }, + { + "epoch": 0.039808, + "grad_norm": 1.4902359247207642, + "learning_rate": 1.9734613333333334e-05, + "loss": 0.215, + "step": 6220 + }, + { + "epoch": 0.03984, + "grad_norm": 0.7451726794242859, + "learning_rate": 1.9734400000000002e-05, + "loss": 0.1448, + "step": 6225 + }, + { + "epoch": 0.039872, + "grad_norm": 1.0500510931015015, + "learning_rate": 1.973418666666667e-05, + "loss": 0.2259, + "step": 6230 + }, + { + "epoch": 0.039904, + "grad_norm": 3.1322286128997803, + "learning_rate": 1.9733973333333334e-05, + "loss": 0.1925, + "step": 6235 + }, + { + "epoch": 0.039936, + "grad_norm": 3.4094932079315186, + "learning_rate": 1.973376e-05, + "loss": 0.1875, + "step": 6240 + }, + { + "epoch": 0.039968, + "grad_norm": 4.052701473236084, + "learning_rate": 1.973354666666667e-05, + "loss": 0.186, + "step": 6245 + }, + { + "epoch": 0.04, + "grad_norm": 2.0343880653381348, + "learning_rate": 1.9733333333333336e-05, + "loss": 0.218, + "step": 6250 + }, + { + "epoch": 0.040032, + "grad_norm": 1.2445322275161743, + "learning_rate": 1.973312e-05, + "loss": 0.1835, + "step": 6255 + }, + { + "epoch": 0.040064, + "grad_norm": 1.1740186214447021, + "learning_rate": 1.9732906666666668e-05, + "loss": 0.1656, + "step": 6260 + }, + { + "epoch": 0.040096, + "grad_norm": 1.4683420658111572, + "learning_rate": 1.9732693333333336e-05, + "loss": 0.2402, + "step": 6265 + }, + { + "epoch": 0.040128, + "grad_norm": 2.9829835891723633, + "learning_rate": 1.973248e-05, + "loss": 0.1889, + "step": 6270 + }, + { + "epoch": 0.04016, + "grad_norm": 1.4181442260742188, + "learning_rate": 1.9732266666666667e-05, + "loss": 0.1922, + "step": 6275 + }, + { + "epoch": 0.040192, + "grad_norm": 1.7886110544204712, + "learning_rate": 1.9732053333333335e-05, + "loss": 0.2023, + "step": 6280 + }, + { + "epoch": 0.040224, + "grad_norm": 0.6978099942207336, + "learning_rate": 1.9731840000000002e-05, + "loss": 0.1716, + "step": 6285 + }, + { + "epoch": 0.040256, + "grad_norm": 1.2211050987243652, + "learning_rate": 1.9731626666666667e-05, + "loss": 0.1813, + "step": 6290 + }, + { + "epoch": 0.040288, + "grad_norm": 5.619513988494873, + "learning_rate": 1.9731413333333334e-05, + "loss": 0.1961, + "step": 6295 + }, + { + "epoch": 0.04032, + "grad_norm": 1.596153736114502, + "learning_rate": 1.9731200000000002e-05, + "loss": 0.1861, + "step": 6300 + }, + { + "epoch": 0.040352, + "grad_norm": 1.6297394037246704, + "learning_rate": 1.9730986666666666e-05, + "loss": 0.213, + "step": 6305 + }, + { + "epoch": 0.040384, + "grad_norm": 0.9625058174133301, + "learning_rate": 1.9730773333333333e-05, + "loss": 0.1574, + "step": 6310 + }, + { + "epoch": 0.040416, + "grad_norm": 1.1243199110031128, + "learning_rate": 1.973056e-05, + "loss": 0.1686, + "step": 6315 + }, + { + "epoch": 0.040448, + "grad_norm": 1.9565757513046265, + "learning_rate": 1.973034666666667e-05, + "loss": 0.1227, + "step": 6320 + }, + { + "epoch": 0.04048, + "grad_norm": 1.6787025928497314, + "learning_rate": 1.9730133333333336e-05, + "loss": 0.1923, + "step": 6325 + }, + { + "epoch": 0.040512, + "grad_norm": 4.871799468994141, + "learning_rate": 1.9729920000000004e-05, + "loss": 0.1426, + "step": 6330 + }, + { + "epoch": 0.040544, + "grad_norm": 1.4380509853363037, + "learning_rate": 1.9729706666666668e-05, + "loss": 0.2202, + "step": 6335 + }, + { + "epoch": 0.040576, + "grad_norm": 1.3213746547698975, + "learning_rate": 1.9729493333333335e-05, + "loss": 0.1994, + "step": 6340 + }, + { + "epoch": 0.040608, + "grad_norm": 3.778831958770752, + "learning_rate": 1.9729280000000003e-05, + "loss": 0.2074, + "step": 6345 + }, + { + "epoch": 0.04064, + "grad_norm": 0.8095938563346863, + "learning_rate": 1.9729066666666667e-05, + "loss": 0.1979, + "step": 6350 + }, + { + "epoch": 0.040672, + "grad_norm": 1.0706021785736084, + "learning_rate": 1.9728853333333335e-05, + "loss": 0.1896, + "step": 6355 + }, + { + "epoch": 0.040704, + "grad_norm": 1.9777060747146606, + "learning_rate": 1.9728640000000002e-05, + "loss": 0.1875, + "step": 6360 + }, + { + "epoch": 0.040736, + "grad_norm": 1.5872995853424072, + "learning_rate": 1.972842666666667e-05, + "loss": 0.1692, + "step": 6365 + }, + { + "epoch": 0.040768, + "grad_norm": 2.0154507160186768, + "learning_rate": 1.9728213333333334e-05, + "loss": 0.188, + "step": 6370 + }, + { + "epoch": 0.0408, + "grad_norm": 1.0837846994400024, + "learning_rate": 1.9728e-05, + "loss": 0.1565, + "step": 6375 + }, + { + "epoch": 0.040832, + "grad_norm": 1.2426557540893555, + "learning_rate": 1.972778666666667e-05, + "loss": 0.1915, + "step": 6380 + }, + { + "epoch": 0.040864, + "grad_norm": 1.4241604804992676, + "learning_rate": 1.9727573333333333e-05, + "loss": 0.2196, + "step": 6385 + }, + { + "epoch": 0.040896, + "grad_norm": 3.056022882461548, + "learning_rate": 1.972736e-05, + "loss": 0.2011, + "step": 6390 + }, + { + "epoch": 0.040928, + "grad_norm": 1.3783254623413086, + "learning_rate": 1.972714666666667e-05, + "loss": 0.1989, + "step": 6395 + }, + { + "epoch": 0.04096, + "grad_norm": 1.5121393203735352, + "learning_rate": 1.9726933333333336e-05, + "loss": 0.2108, + "step": 6400 + }, + { + "epoch": 0.040992, + "grad_norm": 0.8347940444946289, + "learning_rate": 1.972672e-05, + "loss": 0.2061, + "step": 6405 + }, + { + "epoch": 0.041024, + "grad_norm": 1.028227686882019, + "learning_rate": 1.972650666666667e-05, + "loss": 0.1564, + "step": 6410 + }, + { + "epoch": 0.041056, + "grad_norm": 1.4565073251724243, + "learning_rate": 1.9726293333333335e-05, + "loss": 0.1763, + "step": 6415 + }, + { + "epoch": 0.041088, + "grad_norm": 1.0896345376968384, + "learning_rate": 1.972608e-05, + "loss": 0.1908, + "step": 6420 + }, + { + "epoch": 0.04112, + "grad_norm": 1.4257392883300781, + "learning_rate": 1.972586666666667e-05, + "loss": 0.3076, + "step": 6425 + }, + { + "epoch": 0.041152, + "grad_norm": 3.459989547729492, + "learning_rate": 1.9725653333333334e-05, + "loss": 0.2244, + "step": 6430 + }, + { + "epoch": 0.041184, + "grad_norm": 2.517327308654785, + "learning_rate": 1.9725440000000002e-05, + "loss": 0.2059, + "step": 6435 + }, + { + "epoch": 0.041216, + "grad_norm": 0.8317486643791199, + "learning_rate": 1.972522666666667e-05, + "loss": 0.1162, + "step": 6440 + }, + { + "epoch": 0.041248, + "grad_norm": 0.7965670228004456, + "learning_rate": 1.9725013333333337e-05, + "loss": 0.1448, + "step": 6445 + }, + { + "epoch": 0.04128, + "grad_norm": 10.881892204284668, + "learning_rate": 1.97248e-05, + "loss": 0.3037, + "step": 6450 + }, + { + "epoch": 0.041312, + "grad_norm": 0.9423509836196899, + "learning_rate": 1.972458666666667e-05, + "loss": 0.2017, + "step": 6455 + }, + { + "epoch": 0.041344, + "grad_norm": 1.6450837850570679, + "learning_rate": 1.9724373333333336e-05, + "loss": 0.1582, + "step": 6460 + }, + { + "epoch": 0.041376, + "grad_norm": 1.1099179983139038, + "learning_rate": 1.972416e-05, + "loss": 0.1794, + "step": 6465 + }, + { + "epoch": 0.041408, + "grad_norm": 1.220065951347351, + "learning_rate": 1.9723946666666668e-05, + "loss": 0.1934, + "step": 6470 + }, + { + "epoch": 0.04144, + "grad_norm": 1.38154935836792, + "learning_rate": 1.9723733333333336e-05, + "loss": 0.1584, + "step": 6475 + }, + { + "epoch": 0.041472, + "grad_norm": 1.3923978805541992, + "learning_rate": 1.9723520000000003e-05, + "loss": 0.153, + "step": 6480 + }, + { + "epoch": 0.041504, + "grad_norm": 0.9686092734336853, + "learning_rate": 1.9723306666666667e-05, + "loss": 0.1551, + "step": 6485 + }, + { + "epoch": 0.041536, + "grad_norm": 2.716215133666992, + "learning_rate": 1.9723093333333335e-05, + "loss": 0.2109, + "step": 6490 + }, + { + "epoch": 0.041568, + "grad_norm": 1.7098444700241089, + "learning_rate": 1.9722880000000003e-05, + "loss": 0.1694, + "step": 6495 + }, + { + "epoch": 0.0416, + "grad_norm": 0.9894959330558777, + "learning_rate": 1.9722666666666667e-05, + "loss": 0.1427, + "step": 6500 + }, + { + "epoch": 0.041632, + "grad_norm": 1.1805660724639893, + "learning_rate": 1.9722453333333334e-05, + "loss": 0.206, + "step": 6505 + }, + { + "epoch": 0.041664, + "grad_norm": 3.471802234649658, + "learning_rate": 1.9722240000000002e-05, + "loss": 0.153, + "step": 6510 + }, + { + "epoch": 0.041696, + "grad_norm": 2.040432929992676, + "learning_rate": 1.972202666666667e-05, + "loss": 0.1883, + "step": 6515 + }, + { + "epoch": 0.041728, + "grad_norm": 1.0619468688964844, + "learning_rate": 1.9721813333333333e-05, + "loss": 0.145, + "step": 6520 + }, + { + "epoch": 0.04176, + "grad_norm": 1.3036227226257324, + "learning_rate": 1.97216e-05, + "loss": 0.1624, + "step": 6525 + }, + { + "epoch": 0.041792, + "grad_norm": 1.416155219078064, + "learning_rate": 1.972138666666667e-05, + "loss": 0.2138, + "step": 6530 + }, + { + "epoch": 0.041824, + "grad_norm": 1.7124676704406738, + "learning_rate": 1.9721173333333333e-05, + "loss": 0.1714, + "step": 6535 + }, + { + "epoch": 0.041856, + "grad_norm": 3.790567398071289, + "learning_rate": 1.9720960000000004e-05, + "loss": 0.2035, + "step": 6540 + }, + { + "epoch": 0.041888, + "grad_norm": 1.604751467704773, + "learning_rate": 1.9720746666666668e-05, + "loss": 0.1629, + "step": 6545 + }, + { + "epoch": 0.04192, + "grad_norm": 1.629614233970642, + "learning_rate": 1.9720533333333335e-05, + "loss": 0.25, + "step": 6550 + }, + { + "epoch": 0.041952, + "grad_norm": 1.0538817644119263, + "learning_rate": 1.9720320000000003e-05, + "loss": 0.201, + "step": 6555 + }, + { + "epoch": 0.041984, + "grad_norm": 1.4092321395874023, + "learning_rate": 1.9720106666666667e-05, + "loss": 0.1779, + "step": 6560 + }, + { + "epoch": 0.042016, + "grad_norm": 1.6215050220489502, + "learning_rate": 1.9719893333333335e-05, + "loss": 0.171, + "step": 6565 + }, + { + "epoch": 0.042048, + "grad_norm": 2.094006061553955, + "learning_rate": 1.9719680000000002e-05, + "loss": 0.2089, + "step": 6570 + }, + { + "epoch": 0.04208, + "grad_norm": 3.004606008529663, + "learning_rate": 1.971946666666667e-05, + "loss": 0.1678, + "step": 6575 + }, + { + "epoch": 0.042112, + "grad_norm": 1.1343469619750977, + "learning_rate": 1.9719253333333334e-05, + "loss": 0.1906, + "step": 6580 + }, + { + "epoch": 0.042144, + "grad_norm": 2.2255754470825195, + "learning_rate": 1.971904e-05, + "loss": 0.1829, + "step": 6585 + }, + { + "epoch": 0.042176, + "grad_norm": 0.9067403078079224, + "learning_rate": 1.971882666666667e-05, + "loss": 0.1276, + "step": 6590 + }, + { + "epoch": 0.042208, + "grad_norm": 1.0580580234527588, + "learning_rate": 1.9718613333333333e-05, + "loss": 0.1308, + "step": 6595 + }, + { + "epoch": 0.04224, + "grad_norm": 1.8504812717437744, + "learning_rate": 1.97184e-05, + "loss": 0.2105, + "step": 6600 + }, + { + "epoch": 0.042272, + "grad_norm": 0.7738302946090698, + "learning_rate": 1.971818666666667e-05, + "loss": 0.1914, + "step": 6605 + }, + { + "epoch": 0.042304, + "grad_norm": 1.43374764919281, + "learning_rate": 1.9717973333333336e-05, + "loss": 0.1921, + "step": 6610 + }, + { + "epoch": 0.042336, + "grad_norm": 2.0628316402435303, + "learning_rate": 1.971776e-05, + "loss": 0.221, + "step": 6615 + }, + { + "epoch": 0.042368, + "grad_norm": 2.7011725902557373, + "learning_rate": 1.9717546666666668e-05, + "loss": 0.1709, + "step": 6620 + }, + { + "epoch": 0.0424, + "grad_norm": 1.129194974899292, + "learning_rate": 1.9717333333333335e-05, + "loss": 0.1962, + "step": 6625 + }, + { + "epoch": 0.042432, + "grad_norm": 2.7671561241149902, + "learning_rate": 1.971712e-05, + "loss": 0.1677, + "step": 6630 + }, + { + "epoch": 0.042464, + "grad_norm": 1.3964189291000366, + "learning_rate": 1.971690666666667e-05, + "loss": 0.2532, + "step": 6635 + }, + { + "epoch": 0.042496, + "grad_norm": 1.154901385307312, + "learning_rate": 1.9716693333333334e-05, + "loss": 0.1438, + "step": 6640 + }, + { + "epoch": 0.042528, + "grad_norm": 1.3468506336212158, + "learning_rate": 1.9716480000000002e-05, + "loss": 0.1818, + "step": 6645 + }, + { + "epoch": 0.04256, + "grad_norm": 1.5363446474075317, + "learning_rate": 1.971626666666667e-05, + "loss": 0.2012, + "step": 6650 + }, + { + "epoch": 0.042592, + "grad_norm": 1.4600932598114014, + "learning_rate": 1.9716053333333337e-05, + "loss": 0.1424, + "step": 6655 + }, + { + "epoch": 0.042624, + "grad_norm": 1.8627649545669556, + "learning_rate": 1.971584e-05, + "loss": 0.1771, + "step": 6660 + }, + { + "epoch": 0.042656, + "grad_norm": 1.9389562606811523, + "learning_rate": 1.971562666666667e-05, + "loss": 0.1995, + "step": 6665 + }, + { + "epoch": 0.042688, + "grad_norm": 0.945991039276123, + "learning_rate": 1.9715413333333336e-05, + "loss": 0.1682, + "step": 6670 + }, + { + "epoch": 0.04272, + "grad_norm": 1.4568898677825928, + "learning_rate": 1.97152e-05, + "loss": 0.1722, + "step": 6675 + }, + { + "epoch": 0.042752, + "grad_norm": 1.4044370651245117, + "learning_rate": 1.9714986666666668e-05, + "loss": 0.2085, + "step": 6680 + }, + { + "epoch": 0.042784, + "grad_norm": 1.6442649364471436, + "learning_rate": 1.9714773333333336e-05, + "loss": 0.207, + "step": 6685 + }, + { + "epoch": 0.042816, + "grad_norm": 0.9127565622329712, + "learning_rate": 1.9714560000000003e-05, + "loss": 0.1623, + "step": 6690 + }, + { + "epoch": 0.042848, + "grad_norm": 0.9051191210746765, + "learning_rate": 1.9714346666666667e-05, + "loss": 0.2081, + "step": 6695 + }, + { + "epoch": 0.04288, + "grad_norm": 1.7986868619918823, + "learning_rate": 1.9714133333333335e-05, + "loss": 0.1817, + "step": 6700 + }, + { + "epoch": 0.042912, + "grad_norm": 1.252819538116455, + "learning_rate": 1.9713920000000003e-05, + "loss": 0.1406, + "step": 6705 + }, + { + "epoch": 0.042944, + "grad_norm": 1.123482584953308, + "learning_rate": 1.9713706666666667e-05, + "loss": 0.2144, + "step": 6710 + }, + { + "epoch": 0.042976, + "grad_norm": 2.778322458267212, + "learning_rate": 1.9713493333333334e-05, + "loss": 0.2025, + "step": 6715 + }, + { + "epoch": 0.043008, + "grad_norm": 2.713742971420288, + "learning_rate": 1.9713280000000002e-05, + "loss": 0.1749, + "step": 6720 + }, + { + "epoch": 0.04304, + "grad_norm": 0.710705578327179, + "learning_rate": 1.971306666666667e-05, + "loss": 0.1553, + "step": 6725 + }, + { + "epoch": 0.043072, + "grad_norm": 0.8035191893577576, + "learning_rate": 1.9712853333333333e-05, + "loss": 0.1959, + "step": 6730 + }, + { + "epoch": 0.043104, + "grad_norm": 1.240257978439331, + "learning_rate": 1.971264e-05, + "loss": 0.1799, + "step": 6735 + }, + { + "epoch": 0.043136, + "grad_norm": 1.6898666620254517, + "learning_rate": 1.971242666666667e-05, + "loss": 0.1956, + "step": 6740 + }, + { + "epoch": 0.043168, + "grad_norm": 1.145699381828308, + "learning_rate": 1.9712213333333333e-05, + "loss": 0.2584, + "step": 6745 + }, + { + "epoch": 0.0432, + "grad_norm": 1.5349663496017456, + "learning_rate": 1.9712000000000004e-05, + "loss": 0.164, + "step": 6750 + }, + { + "epoch": 0.043232, + "grad_norm": 1.7238460779190063, + "learning_rate": 1.9711786666666668e-05, + "loss": 0.1356, + "step": 6755 + }, + { + "epoch": 0.043264, + "grad_norm": 1.0966917276382446, + "learning_rate": 1.9711573333333335e-05, + "loss": 0.1897, + "step": 6760 + }, + { + "epoch": 0.043296, + "grad_norm": 1.3888421058654785, + "learning_rate": 1.9711360000000003e-05, + "loss": 0.2474, + "step": 6765 + }, + { + "epoch": 0.043328, + "grad_norm": 4.6105875968933105, + "learning_rate": 1.9711146666666667e-05, + "loss": 0.2321, + "step": 6770 + }, + { + "epoch": 0.04336, + "grad_norm": 0.9863848686218262, + "learning_rate": 1.9710933333333335e-05, + "loss": 0.1445, + "step": 6775 + }, + { + "epoch": 0.043392, + "grad_norm": 1.6040937900543213, + "learning_rate": 1.9710720000000002e-05, + "loss": 0.1406, + "step": 6780 + }, + { + "epoch": 0.043424, + "grad_norm": 2.161921977996826, + "learning_rate": 1.971050666666667e-05, + "loss": 0.1703, + "step": 6785 + }, + { + "epoch": 0.043456, + "grad_norm": 2.757361650466919, + "learning_rate": 1.9710293333333334e-05, + "loss": 0.2394, + "step": 6790 + }, + { + "epoch": 0.043488, + "grad_norm": 1.3140904903411865, + "learning_rate": 1.971008e-05, + "loss": 0.2135, + "step": 6795 + }, + { + "epoch": 0.04352, + "grad_norm": 1.3081368207931519, + "learning_rate": 1.970986666666667e-05, + "loss": 0.186, + "step": 6800 + }, + { + "epoch": 0.043552, + "grad_norm": 3.1483254432678223, + "learning_rate": 1.9709653333333333e-05, + "loss": 0.2538, + "step": 6805 + }, + { + "epoch": 0.043584, + "grad_norm": 1.2344075441360474, + "learning_rate": 1.970944e-05, + "loss": 0.1947, + "step": 6810 + }, + { + "epoch": 0.043616, + "grad_norm": 1.0507241487503052, + "learning_rate": 1.970922666666667e-05, + "loss": 0.1394, + "step": 6815 + }, + { + "epoch": 0.043648, + "grad_norm": 1.2412325143814087, + "learning_rate": 1.9709013333333336e-05, + "loss": 0.2249, + "step": 6820 + }, + { + "epoch": 0.04368, + "grad_norm": 0.6464352607727051, + "learning_rate": 1.97088e-05, + "loss": 0.1145, + "step": 6825 + }, + { + "epoch": 0.043712, + "grad_norm": 1.3915393352508545, + "learning_rate": 1.9708586666666668e-05, + "loss": 0.1535, + "step": 6830 + }, + { + "epoch": 0.043744, + "grad_norm": 1.1212674379348755, + "learning_rate": 1.9708373333333335e-05, + "loss": 0.1787, + "step": 6835 + }, + { + "epoch": 0.043776, + "grad_norm": 1.1419545412063599, + "learning_rate": 1.970816e-05, + "loss": 0.181, + "step": 6840 + }, + { + "epoch": 0.043808, + "grad_norm": 1.2513878345489502, + "learning_rate": 1.9707946666666667e-05, + "loss": 0.1545, + "step": 6845 + }, + { + "epoch": 0.04384, + "grad_norm": 1.2052253484725952, + "learning_rate": 1.9707733333333334e-05, + "loss": 0.1825, + "step": 6850 + }, + { + "epoch": 0.043872, + "grad_norm": 0.9225209355354309, + "learning_rate": 1.9707520000000002e-05, + "loss": 0.1694, + "step": 6855 + }, + { + "epoch": 0.043904, + "grad_norm": 1.1860308647155762, + "learning_rate": 1.970730666666667e-05, + "loss": 0.219, + "step": 6860 + }, + { + "epoch": 0.043936, + "grad_norm": 1.1717395782470703, + "learning_rate": 1.9707093333333337e-05, + "loss": 0.1706, + "step": 6865 + }, + { + "epoch": 0.043968, + "grad_norm": 1.8567156791687012, + "learning_rate": 1.970688e-05, + "loss": 0.2068, + "step": 6870 + }, + { + "epoch": 0.044, + "grad_norm": 1.0562312602996826, + "learning_rate": 1.970666666666667e-05, + "loss": 0.164, + "step": 6875 + }, + { + "epoch": 0.044032, + "grad_norm": 2.6862876415252686, + "learning_rate": 1.9706453333333336e-05, + "loss": 0.185, + "step": 6880 + }, + { + "epoch": 0.044064, + "grad_norm": 1.3276561498641968, + "learning_rate": 1.970624e-05, + "loss": 0.1796, + "step": 6885 + }, + { + "epoch": 0.044096, + "grad_norm": 0.7436338663101196, + "learning_rate": 1.9706026666666668e-05, + "loss": 0.1579, + "step": 6890 + }, + { + "epoch": 0.044128, + "grad_norm": 2.9774675369262695, + "learning_rate": 1.9705813333333336e-05, + "loss": 0.224, + "step": 6895 + }, + { + "epoch": 0.04416, + "grad_norm": 2.1951422691345215, + "learning_rate": 1.9705600000000003e-05, + "loss": 0.2608, + "step": 6900 + }, + { + "epoch": 0.044192, + "grad_norm": 1.8494493961334229, + "learning_rate": 1.9705386666666667e-05, + "loss": 0.1992, + "step": 6905 + }, + { + "epoch": 0.044224, + "grad_norm": 0.8959283828735352, + "learning_rate": 1.9705173333333335e-05, + "loss": 0.2001, + "step": 6910 + }, + { + "epoch": 0.044256, + "grad_norm": 0.9843445420265198, + "learning_rate": 1.9704960000000003e-05, + "loss": 0.1549, + "step": 6915 + }, + { + "epoch": 0.044288, + "grad_norm": 1.3803987503051758, + "learning_rate": 1.9704746666666667e-05, + "loss": 0.1385, + "step": 6920 + }, + { + "epoch": 0.04432, + "grad_norm": 2.4711709022521973, + "learning_rate": 1.9704533333333334e-05, + "loss": 0.1577, + "step": 6925 + }, + { + "epoch": 0.044352, + "grad_norm": 1.241303563117981, + "learning_rate": 1.9704320000000002e-05, + "loss": 0.2578, + "step": 6930 + }, + { + "epoch": 0.044384, + "grad_norm": 2.506870985031128, + "learning_rate": 1.970410666666667e-05, + "loss": 0.1991, + "step": 6935 + }, + { + "epoch": 0.044416, + "grad_norm": 1.6239782571792603, + "learning_rate": 1.9703893333333334e-05, + "loss": 0.1867, + "step": 6940 + }, + { + "epoch": 0.044448, + "grad_norm": 1.9762743711471558, + "learning_rate": 1.970368e-05, + "loss": 0.2035, + "step": 6945 + }, + { + "epoch": 0.04448, + "grad_norm": 1.6370081901550293, + "learning_rate": 1.970346666666667e-05, + "loss": 0.1821, + "step": 6950 + }, + { + "epoch": 0.044512, + "grad_norm": 1.0100980997085571, + "learning_rate": 1.9703253333333333e-05, + "loss": 0.1625, + "step": 6955 + }, + { + "epoch": 0.044544, + "grad_norm": 1.7042497396469116, + "learning_rate": 1.9703040000000004e-05, + "loss": 0.1939, + "step": 6960 + }, + { + "epoch": 0.044576, + "grad_norm": 1.024429440498352, + "learning_rate": 1.9702826666666668e-05, + "loss": 0.1833, + "step": 6965 + }, + { + "epoch": 0.044608, + "grad_norm": 2.312284469604492, + "learning_rate": 1.9702613333333335e-05, + "loss": 0.1429, + "step": 6970 + }, + { + "epoch": 0.04464, + "grad_norm": 0.9782038331031799, + "learning_rate": 1.9702400000000003e-05, + "loss": 0.1729, + "step": 6975 + }, + { + "epoch": 0.044672, + "grad_norm": 1.285091757774353, + "learning_rate": 1.9702186666666667e-05, + "loss": 0.1624, + "step": 6980 + }, + { + "epoch": 0.044704, + "grad_norm": 1.2151329517364502, + "learning_rate": 1.9701973333333335e-05, + "loss": 0.1739, + "step": 6985 + }, + { + "epoch": 0.044736, + "grad_norm": 0.7868188619613647, + "learning_rate": 1.9701760000000002e-05, + "loss": 0.1919, + "step": 6990 + }, + { + "epoch": 0.044768, + "grad_norm": 1.9350463151931763, + "learning_rate": 1.970154666666667e-05, + "loss": 0.1168, + "step": 6995 + }, + { + "epoch": 0.0448, + "grad_norm": 0.8956620693206787, + "learning_rate": 1.9701333333333334e-05, + "loss": 0.229, + "step": 7000 + }, + { + "epoch": 0.044832, + "grad_norm": 0.7747512459754944, + "learning_rate": 1.970112e-05, + "loss": 0.1597, + "step": 7005 + }, + { + "epoch": 0.044864, + "grad_norm": 1.6258633136749268, + "learning_rate": 1.970090666666667e-05, + "loss": 0.2002, + "step": 7010 + }, + { + "epoch": 0.044896, + "grad_norm": 2.917646884918213, + "learning_rate": 1.9700693333333333e-05, + "loss": 0.1781, + "step": 7015 + }, + { + "epoch": 0.044928, + "grad_norm": 3.6548702716827393, + "learning_rate": 1.970048e-05, + "loss": 0.1617, + "step": 7020 + }, + { + "epoch": 0.04496, + "grad_norm": 0.9437138438224792, + "learning_rate": 1.970026666666667e-05, + "loss": 0.2248, + "step": 7025 + }, + { + "epoch": 0.044992, + "grad_norm": 0.6643136143684387, + "learning_rate": 1.9700053333333336e-05, + "loss": 0.155, + "step": 7030 + }, + { + "epoch": 0.045024, + "grad_norm": 0.8657866716384888, + "learning_rate": 1.969984e-05, + "loss": 0.189, + "step": 7035 + }, + { + "epoch": 0.045056, + "grad_norm": 1.2796087265014648, + "learning_rate": 1.9699626666666668e-05, + "loss": 0.2321, + "step": 7040 + }, + { + "epoch": 0.045088, + "grad_norm": 1.6555712223052979, + "learning_rate": 1.9699413333333335e-05, + "loss": 0.2122, + "step": 7045 + }, + { + "epoch": 0.04512, + "grad_norm": 1.393359899520874, + "learning_rate": 1.96992e-05, + "loss": 0.1576, + "step": 7050 + }, + { + "epoch": 0.045152, + "grad_norm": 1.2812303304672241, + "learning_rate": 1.9698986666666667e-05, + "loss": 0.1506, + "step": 7055 + }, + { + "epoch": 0.045184, + "grad_norm": 2.289138078689575, + "learning_rate": 1.9698773333333334e-05, + "loss": 0.1878, + "step": 7060 + }, + { + "epoch": 0.045216, + "grad_norm": 1.6332710981369019, + "learning_rate": 1.9698560000000002e-05, + "loss": 0.1878, + "step": 7065 + }, + { + "epoch": 0.045248, + "grad_norm": 0.5747554898262024, + "learning_rate": 1.9698346666666666e-05, + "loss": 0.1499, + "step": 7070 + }, + { + "epoch": 0.04528, + "grad_norm": 1.7356975078582764, + "learning_rate": 1.9698133333333337e-05, + "loss": 0.1708, + "step": 7075 + }, + { + "epoch": 0.045312, + "grad_norm": 1.0103970766067505, + "learning_rate": 1.969792e-05, + "loss": 0.158, + "step": 7080 + }, + { + "epoch": 0.045344, + "grad_norm": 1.4785525798797607, + "learning_rate": 1.969770666666667e-05, + "loss": 0.1714, + "step": 7085 + }, + { + "epoch": 0.045376, + "grad_norm": 1.7740225791931152, + "learning_rate": 1.9697493333333336e-05, + "loss": 0.1887, + "step": 7090 + }, + { + "epoch": 0.045408, + "grad_norm": 4.130346775054932, + "learning_rate": 1.969728e-05, + "loss": 0.1508, + "step": 7095 + }, + { + "epoch": 0.04544, + "grad_norm": 1.2283310890197754, + "learning_rate": 1.9697066666666668e-05, + "loss": 0.1538, + "step": 7100 + }, + { + "epoch": 0.045472, + "grad_norm": 1.362185001373291, + "learning_rate": 1.9696853333333336e-05, + "loss": 0.1777, + "step": 7105 + }, + { + "epoch": 0.045504, + "grad_norm": 0.8409243226051331, + "learning_rate": 1.9696640000000003e-05, + "loss": 0.1431, + "step": 7110 + }, + { + "epoch": 0.045536, + "grad_norm": 1.352308750152588, + "learning_rate": 1.9696426666666667e-05, + "loss": 0.1563, + "step": 7115 + }, + { + "epoch": 0.045568, + "grad_norm": 1.1403582096099854, + "learning_rate": 1.9696213333333335e-05, + "loss": 0.1031, + "step": 7120 + }, + { + "epoch": 0.0456, + "grad_norm": 1.1771622896194458, + "learning_rate": 1.9696000000000003e-05, + "loss": 0.1604, + "step": 7125 + }, + { + "epoch": 0.045632, + "grad_norm": 1.677037239074707, + "learning_rate": 1.9695786666666667e-05, + "loss": 0.1596, + "step": 7130 + }, + { + "epoch": 0.045664, + "grad_norm": 1.7333611249923706, + "learning_rate": 1.9695573333333334e-05, + "loss": 0.1939, + "step": 7135 + }, + { + "epoch": 0.045696, + "grad_norm": 0.8077558279037476, + "learning_rate": 1.9695360000000002e-05, + "loss": 0.1223, + "step": 7140 + }, + { + "epoch": 0.045728, + "grad_norm": 1.7111443281173706, + "learning_rate": 1.969514666666667e-05, + "loss": 0.1862, + "step": 7145 + }, + { + "epoch": 0.04576, + "grad_norm": 1.0682364702224731, + "learning_rate": 1.9694933333333334e-05, + "loss": 0.159, + "step": 7150 + }, + { + "epoch": 0.045792, + "grad_norm": 0.9888131022453308, + "learning_rate": 1.969472e-05, + "loss": 0.1721, + "step": 7155 + }, + { + "epoch": 0.045824, + "grad_norm": 1.3526196479797363, + "learning_rate": 1.969450666666667e-05, + "loss": 0.1772, + "step": 7160 + }, + { + "epoch": 0.045856, + "grad_norm": 0.8515837788581848, + "learning_rate": 1.9694293333333333e-05, + "loss": 0.1627, + "step": 7165 + }, + { + "epoch": 0.045888, + "grad_norm": 1.0250015258789062, + "learning_rate": 1.9694080000000004e-05, + "loss": 0.1613, + "step": 7170 + }, + { + "epoch": 0.04592, + "grad_norm": 1.420474886894226, + "learning_rate": 1.9693866666666668e-05, + "loss": 0.1683, + "step": 7175 + }, + { + "epoch": 0.045952, + "grad_norm": 1.5529351234436035, + "learning_rate": 1.9693653333333335e-05, + "loss": 0.1619, + "step": 7180 + }, + { + "epoch": 0.045984, + "grad_norm": 1.1983287334442139, + "learning_rate": 1.9693440000000003e-05, + "loss": 0.1349, + "step": 7185 + }, + { + "epoch": 0.046016, + "grad_norm": 2.9589338302612305, + "learning_rate": 1.969322666666667e-05, + "loss": 0.2258, + "step": 7190 + }, + { + "epoch": 0.046048, + "grad_norm": 2.1928930282592773, + "learning_rate": 1.9693013333333335e-05, + "loss": 0.1655, + "step": 7195 + }, + { + "epoch": 0.04608, + "grad_norm": 0.9787953495979309, + "learning_rate": 1.9692800000000002e-05, + "loss": 0.1327, + "step": 7200 + }, + { + "epoch": 0.046112, + "grad_norm": 1.5366984605789185, + "learning_rate": 1.969258666666667e-05, + "loss": 0.2306, + "step": 7205 + }, + { + "epoch": 0.046144, + "grad_norm": 1.2970073223114014, + "learning_rate": 1.9692373333333334e-05, + "loss": 0.2122, + "step": 7210 + }, + { + "epoch": 0.046176, + "grad_norm": 0.9222725629806519, + "learning_rate": 1.969216e-05, + "loss": 0.1912, + "step": 7215 + }, + { + "epoch": 0.046208, + "grad_norm": 1.0649296045303345, + "learning_rate": 1.969194666666667e-05, + "loss": 0.202, + "step": 7220 + }, + { + "epoch": 0.04624, + "grad_norm": 2.185184955596924, + "learning_rate": 1.9691733333333337e-05, + "loss": 0.1831, + "step": 7225 + }, + { + "epoch": 0.046272, + "grad_norm": 1.4970864057540894, + "learning_rate": 1.969152e-05, + "loss": 0.1671, + "step": 7230 + }, + { + "epoch": 0.046304, + "grad_norm": 1.4168853759765625, + "learning_rate": 1.969130666666667e-05, + "loss": 0.1284, + "step": 7235 + }, + { + "epoch": 0.046336, + "grad_norm": 1.694923758506775, + "learning_rate": 1.9691093333333336e-05, + "loss": 0.1598, + "step": 7240 + }, + { + "epoch": 0.046368, + "grad_norm": 0.8584562540054321, + "learning_rate": 1.969088e-05, + "loss": 0.1228, + "step": 7245 + }, + { + "epoch": 0.0464, + "grad_norm": 1.1067179441452026, + "learning_rate": 1.9690666666666668e-05, + "loss": 0.1882, + "step": 7250 + }, + { + "epoch": 0.046432, + "grad_norm": 1.5249817371368408, + "learning_rate": 1.9690453333333335e-05, + "loss": 0.2078, + "step": 7255 + }, + { + "epoch": 0.046464, + "grad_norm": 1.1346651315689087, + "learning_rate": 1.9690240000000003e-05, + "loss": 0.153, + "step": 7260 + }, + { + "epoch": 0.046496, + "grad_norm": 1.4122563600540161, + "learning_rate": 1.9690026666666667e-05, + "loss": 0.1647, + "step": 7265 + }, + { + "epoch": 0.046528, + "grad_norm": 1.0181230306625366, + "learning_rate": 1.9689813333333334e-05, + "loss": 0.1473, + "step": 7270 + }, + { + "epoch": 0.04656, + "grad_norm": 0.7329280972480774, + "learning_rate": 1.9689600000000002e-05, + "loss": 0.1719, + "step": 7275 + }, + { + "epoch": 0.046592, + "grad_norm": 2.2234950065612793, + "learning_rate": 1.9689386666666666e-05, + "loss": 0.2681, + "step": 7280 + }, + { + "epoch": 0.046624, + "grad_norm": 0.7384020090103149, + "learning_rate": 1.9689173333333337e-05, + "loss": 0.1777, + "step": 7285 + }, + { + "epoch": 0.046656, + "grad_norm": 0.8996626138687134, + "learning_rate": 1.968896e-05, + "loss": 0.1816, + "step": 7290 + }, + { + "epoch": 0.046688, + "grad_norm": 2.230743408203125, + "learning_rate": 1.968874666666667e-05, + "loss": 0.1952, + "step": 7295 + }, + { + "epoch": 0.04672, + "grad_norm": 1.9954882860183716, + "learning_rate": 1.9688533333333336e-05, + "loss": 0.1634, + "step": 7300 + }, + { + "epoch": 0.046752, + "grad_norm": 1.0590996742248535, + "learning_rate": 1.968832e-05, + "loss": 0.1804, + "step": 7305 + }, + { + "epoch": 0.046784, + "grad_norm": 1.276151418685913, + "learning_rate": 1.9688106666666668e-05, + "loss": 0.1549, + "step": 7310 + }, + { + "epoch": 0.046816, + "grad_norm": 1.4494696855545044, + "learning_rate": 1.9687893333333336e-05, + "loss": 0.1624, + "step": 7315 + }, + { + "epoch": 0.046848, + "grad_norm": 1.1488062143325806, + "learning_rate": 1.9687680000000003e-05, + "loss": 0.1355, + "step": 7320 + }, + { + "epoch": 0.04688, + "grad_norm": 0.594973087310791, + "learning_rate": 1.9687466666666667e-05, + "loss": 0.1424, + "step": 7325 + }, + { + "epoch": 0.046912, + "grad_norm": 2.45222806930542, + "learning_rate": 1.9687253333333335e-05, + "loss": 0.1868, + "step": 7330 + }, + { + "epoch": 0.046944, + "grad_norm": 1.544849157333374, + "learning_rate": 1.9687040000000003e-05, + "loss": 0.1364, + "step": 7335 + }, + { + "epoch": 0.046976, + "grad_norm": 1.9695924520492554, + "learning_rate": 1.9686826666666667e-05, + "loss": 0.2096, + "step": 7340 + }, + { + "epoch": 0.047008, + "grad_norm": 1.2468640804290771, + "learning_rate": 1.9686613333333334e-05, + "loss": 0.167, + "step": 7345 + }, + { + "epoch": 0.04704, + "grad_norm": 1.3881651163101196, + "learning_rate": 1.9686400000000002e-05, + "loss": 0.1539, + "step": 7350 + }, + { + "epoch": 0.047072, + "grad_norm": 2.499842405319214, + "learning_rate": 1.968618666666667e-05, + "loss": 0.1665, + "step": 7355 + }, + { + "epoch": 0.047104, + "grad_norm": 1.551753044128418, + "learning_rate": 1.9685973333333334e-05, + "loss": 0.1816, + "step": 7360 + }, + { + "epoch": 0.047136, + "grad_norm": 1.1812119483947754, + "learning_rate": 1.968576e-05, + "loss": 0.1737, + "step": 7365 + }, + { + "epoch": 0.047168, + "grad_norm": 1.134540319442749, + "learning_rate": 1.968554666666667e-05, + "loss": 0.1286, + "step": 7370 + }, + { + "epoch": 0.0472, + "grad_norm": 1.1963754892349243, + "learning_rate": 1.9685333333333333e-05, + "loss": 0.2204, + "step": 7375 + }, + { + "epoch": 0.047232, + "grad_norm": 2.7428998947143555, + "learning_rate": 1.968512e-05, + "loss": 0.2446, + "step": 7380 + }, + { + "epoch": 0.047264, + "grad_norm": 1.5764689445495605, + "learning_rate": 1.9684906666666668e-05, + "loss": 0.2015, + "step": 7385 + }, + { + "epoch": 0.047296, + "grad_norm": 0.8461920619010925, + "learning_rate": 1.9684693333333335e-05, + "loss": 0.1369, + "step": 7390 + }, + { + "epoch": 0.047328, + "grad_norm": 1.4625060558319092, + "learning_rate": 1.9684480000000003e-05, + "loss": 0.1724, + "step": 7395 + }, + { + "epoch": 0.04736, + "grad_norm": 1.78692626953125, + "learning_rate": 1.968426666666667e-05, + "loss": 0.2408, + "step": 7400 + }, + { + "epoch": 0.047392, + "grad_norm": 1.3374074697494507, + "learning_rate": 1.9684053333333335e-05, + "loss": 0.2069, + "step": 7405 + }, + { + "epoch": 0.047424, + "grad_norm": 0.9745117425918579, + "learning_rate": 1.9683840000000002e-05, + "loss": 0.1253, + "step": 7410 + }, + { + "epoch": 0.047456, + "grad_norm": 1.2841371297836304, + "learning_rate": 1.968362666666667e-05, + "loss": 0.1569, + "step": 7415 + }, + { + "epoch": 0.047488, + "grad_norm": 1.5734317302703857, + "learning_rate": 1.9683413333333334e-05, + "loss": 0.148, + "step": 7420 + }, + { + "epoch": 0.04752, + "grad_norm": 2.1951541900634766, + "learning_rate": 1.96832e-05, + "loss": 0.17, + "step": 7425 + }, + { + "epoch": 0.047552, + "grad_norm": 0.983936607837677, + "learning_rate": 1.968298666666667e-05, + "loss": 0.1767, + "step": 7430 + }, + { + "epoch": 0.047584, + "grad_norm": 1.5882521867752075, + "learning_rate": 1.9682773333333337e-05, + "loss": 0.148, + "step": 7435 + }, + { + "epoch": 0.047616, + "grad_norm": 0.8186397552490234, + "learning_rate": 1.968256e-05, + "loss": 0.2018, + "step": 7440 + }, + { + "epoch": 0.047648, + "grad_norm": 1.2921173572540283, + "learning_rate": 1.968234666666667e-05, + "loss": 0.1158, + "step": 7445 + }, + { + "epoch": 0.04768, + "grad_norm": 1.7567181587219238, + "learning_rate": 1.9682133333333336e-05, + "loss": 0.1698, + "step": 7450 + }, + { + "epoch": 0.047712, + "grad_norm": 1.804672360420227, + "learning_rate": 1.968192e-05, + "loss": 0.218, + "step": 7455 + }, + { + "epoch": 0.047744, + "grad_norm": 2.2357184886932373, + "learning_rate": 1.9681706666666668e-05, + "loss": 0.2064, + "step": 7460 + }, + { + "epoch": 0.047776, + "grad_norm": 2.9205574989318848, + "learning_rate": 1.9681493333333335e-05, + "loss": 0.1786, + "step": 7465 + }, + { + "epoch": 0.047808, + "grad_norm": 1.2286019325256348, + "learning_rate": 1.9681280000000003e-05, + "loss": 0.1453, + "step": 7470 + }, + { + "epoch": 0.04784, + "grad_norm": 2.483903169631958, + "learning_rate": 1.9681066666666667e-05, + "loss": 0.1832, + "step": 7475 + }, + { + "epoch": 0.047872, + "grad_norm": 2.618978500366211, + "learning_rate": 1.9680853333333334e-05, + "loss": 0.192, + "step": 7480 + }, + { + "epoch": 0.047904, + "grad_norm": 1.1947611570358276, + "learning_rate": 1.9680640000000002e-05, + "loss": 0.153, + "step": 7485 + }, + { + "epoch": 0.047936, + "grad_norm": 0.8614025712013245, + "learning_rate": 1.9680426666666666e-05, + "loss": 0.181, + "step": 7490 + }, + { + "epoch": 0.047968, + "grad_norm": 1.2152669429779053, + "learning_rate": 1.9680213333333337e-05, + "loss": 0.1456, + "step": 7495 + }, + { + "epoch": 0.048, + "grad_norm": 1.3738855123519897, + "learning_rate": 1.968e-05, + "loss": 0.1781, + "step": 7500 + }, + { + "epoch": 0.048032, + "grad_norm": 1.8189560174942017, + "learning_rate": 1.967978666666667e-05, + "loss": 0.2229, + "step": 7505 + }, + { + "epoch": 0.048064, + "grad_norm": 0.7900586128234863, + "learning_rate": 1.9679573333333336e-05, + "loss": 0.1599, + "step": 7510 + }, + { + "epoch": 0.048096, + "grad_norm": 1.3206090927124023, + "learning_rate": 1.967936e-05, + "loss": 0.108, + "step": 7515 + }, + { + "epoch": 0.048128, + "grad_norm": 1.8457608222961426, + "learning_rate": 1.9679146666666668e-05, + "loss": 0.1182, + "step": 7520 + }, + { + "epoch": 0.04816, + "grad_norm": 0.7621937990188599, + "learning_rate": 1.9678933333333336e-05, + "loss": 0.1434, + "step": 7525 + }, + { + "epoch": 0.048192, + "grad_norm": 1.3762198686599731, + "learning_rate": 1.9678720000000003e-05, + "loss": 0.2066, + "step": 7530 + }, + { + "epoch": 0.048224, + "grad_norm": 1.0955687761306763, + "learning_rate": 1.9678506666666667e-05, + "loss": 0.1713, + "step": 7535 + }, + { + "epoch": 0.048256, + "grad_norm": 3.0062355995178223, + "learning_rate": 1.9678293333333335e-05, + "loss": 0.2246, + "step": 7540 + }, + { + "epoch": 0.048288, + "grad_norm": 6.344865798950195, + "learning_rate": 1.9678080000000003e-05, + "loss": 0.1493, + "step": 7545 + }, + { + "epoch": 0.04832, + "grad_norm": 1.4562252759933472, + "learning_rate": 1.9677866666666667e-05, + "loss": 0.139, + "step": 7550 + }, + { + "epoch": 0.048352, + "grad_norm": 1.4240309000015259, + "learning_rate": 1.9677653333333334e-05, + "loss": 0.1352, + "step": 7555 + }, + { + "epoch": 0.048384, + "grad_norm": 1.8683253526687622, + "learning_rate": 1.9677440000000002e-05, + "loss": 0.1769, + "step": 7560 + }, + { + "epoch": 0.048416, + "grad_norm": 1.4130390882492065, + "learning_rate": 1.967722666666667e-05, + "loss": 0.1914, + "step": 7565 + }, + { + "epoch": 0.048448, + "grad_norm": 2.076650381088257, + "learning_rate": 1.9677013333333334e-05, + "loss": 0.1407, + "step": 7570 + }, + { + "epoch": 0.04848, + "grad_norm": 0.8391802310943604, + "learning_rate": 1.96768e-05, + "loss": 0.1528, + "step": 7575 + }, + { + "epoch": 0.048512, + "grad_norm": 1.2705142498016357, + "learning_rate": 1.967658666666667e-05, + "loss": 0.14, + "step": 7580 + }, + { + "epoch": 0.048544, + "grad_norm": 3.4619410037994385, + "learning_rate": 1.9676373333333333e-05, + "loss": 0.1796, + "step": 7585 + }, + { + "epoch": 0.048576, + "grad_norm": 1.0627257823944092, + "learning_rate": 1.967616e-05, + "loss": 0.1803, + "step": 7590 + }, + { + "epoch": 0.048608, + "grad_norm": 1.3368924856185913, + "learning_rate": 1.9675946666666668e-05, + "loss": 0.1591, + "step": 7595 + }, + { + "epoch": 0.04864, + "grad_norm": 1.5625320672988892, + "learning_rate": 1.9675733333333335e-05, + "loss": 0.1826, + "step": 7600 + }, + { + "epoch": 0.048672, + "grad_norm": 1.5912317037582397, + "learning_rate": 1.967552e-05, + "loss": 0.1775, + "step": 7605 + }, + { + "epoch": 0.048704, + "grad_norm": 1.0326510667800903, + "learning_rate": 1.967530666666667e-05, + "loss": 0.1372, + "step": 7610 + }, + { + "epoch": 0.048736, + "grad_norm": 2.2271170616149902, + "learning_rate": 1.9675093333333335e-05, + "loss": 0.15, + "step": 7615 + }, + { + "epoch": 0.048768, + "grad_norm": 1.0620386600494385, + "learning_rate": 1.9674880000000002e-05, + "loss": 0.2247, + "step": 7620 + }, + { + "epoch": 0.0488, + "grad_norm": 1.4532480239868164, + "learning_rate": 1.967466666666667e-05, + "loss": 0.1797, + "step": 7625 + }, + { + "epoch": 0.048832, + "grad_norm": 3.3466713428497314, + "learning_rate": 1.9674453333333334e-05, + "loss": 0.1945, + "step": 7630 + }, + { + "epoch": 0.048864, + "grad_norm": 2.477829933166504, + "learning_rate": 1.967424e-05, + "loss": 0.1508, + "step": 7635 + }, + { + "epoch": 0.048896, + "grad_norm": 1.0854030847549438, + "learning_rate": 1.967402666666667e-05, + "loss": 0.1579, + "step": 7640 + }, + { + "epoch": 0.048928, + "grad_norm": 1.2525205612182617, + "learning_rate": 1.9673813333333337e-05, + "loss": 0.1441, + "step": 7645 + }, + { + "epoch": 0.04896, + "grad_norm": 1.8830525875091553, + "learning_rate": 1.96736e-05, + "loss": 0.1644, + "step": 7650 + }, + { + "epoch": 0.048992, + "grad_norm": 1.3622963428497314, + "learning_rate": 1.967338666666667e-05, + "loss": 0.1313, + "step": 7655 + }, + { + "epoch": 0.049024, + "grad_norm": 9.40041446685791, + "learning_rate": 1.9673173333333336e-05, + "loss": 0.1688, + "step": 7660 + }, + { + "epoch": 0.049056, + "grad_norm": 1.1464273929595947, + "learning_rate": 1.967296e-05, + "loss": 0.1552, + "step": 7665 + }, + { + "epoch": 0.049088, + "grad_norm": 0.9610471725463867, + "learning_rate": 1.9672746666666668e-05, + "loss": 0.1836, + "step": 7670 + }, + { + "epoch": 0.04912, + "grad_norm": 0.8584890365600586, + "learning_rate": 1.9672533333333335e-05, + "loss": 0.1567, + "step": 7675 + }, + { + "epoch": 0.049152, + "grad_norm": 0.9869946837425232, + "learning_rate": 1.9672320000000003e-05, + "loss": 0.1784, + "step": 7680 + }, + { + "epoch": 0.049184, + "grad_norm": 10.397720336914062, + "learning_rate": 1.9672106666666667e-05, + "loss": 0.2544, + "step": 7685 + }, + { + "epoch": 0.049216, + "grad_norm": 1.3182199001312256, + "learning_rate": 1.9671893333333334e-05, + "loss": 0.1705, + "step": 7690 + }, + { + "epoch": 0.049248, + "grad_norm": 1.8728660345077515, + "learning_rate": 1.9671680000000002e-05, + "loss": 0.1916, + "step": 7695 + }, + { + "epoch": 0.04928, + "grad_norm": 1.065349817276001, + "learning_rate": 1.9671466666666666e-05, + "loss": 0.2002, + "step": 7700 + }, + { + "epoch": 0.049312, + "grad_norm": 1.5996288061141968, + "learning_rate": 1.9671253333333337e-05, + "loss": 0.2138, + "step": 7705 + }, + { + "epoch": 0.049344, + "grad_norm": 1.1041762828826904, + "learning_rate": 1.967104e-05, + "loss": 0.174, + "step": 7710 + }, + { + "epoch": 0.049376, + "grad_norm": 1.8048125505447388, + "learning_rate": 1.967082666666667e-05, + "loss": 0.1624, + "step": 7715 + }, + { + "epoch": 0.049408, + "grad_norm": 1.4424753189086914, + "learning_rate": 1.9670613333333336e-05, + "loss": 0.1408, + "step": 7720 + }, + { + "epoch": 0.04944, + "grad_norm": 1.3274388313293457, + "learning_rate": 1.96704e-05, + "loss": 0.1825, + "step": 7725 + }, + { + "epoch": 0.049472, + "grad_norm": 1.3481554985046387, + "learning_rate": 1.9670186666666668e-05, + "loss": 0.1105, + "step": 7730 + }, + { + "epoch": 0.049504, + "grad_norm": 1.9272584915161133, + "learning_rate": 1.9669973333333336e-05, + "loss": 0.1466, + "step": 7735 + }, + { + "epoch": 0.049536, + "grad_norm": 1.7219820022583008, + "learning_rate": 1.9669760000000003e-05, + "loss": 0.17, + "step": 7740 + }, + { + "epoch": 0.049568, + "grad_norm": 1.7068147659301758, + "learning_rate": 1.9669546666666667e-05, + "loss": 0.1691, + "step": 7745 + }, + { + "epoch": 0.0496, + "grad_norm": 2.4185266494750977, + "learning_rate": 1.9669333333333335e-05, + "loss": 0.1505, + "step": 7750 + }, + { + "epoch": 0.049632, + "grad_norm": 1.1689908504486084, + "learning_rate": 1.9669120000000003e-05, + "loss": 0.1508, + "step": 7755 + }, + { + "epoch": 0.049664, + "grad_norm": 1.401150107383728, + "learning_rate": 1.9668906666666667e-05, + "loss": 0.1311, + "step": 7760 + }, + { + "epoch": 0.049696, + "grad_norm": 1.1476173400878906, + "learning_rate": 1.9668693333333334e-05, + "loss": 0.1394, + "step": 7765 + }, + { + "epoch": 0.049728, + "grad_norm": 0.9641066789627075, + "learning_rate": 1.9668480000000002e-05, + "loss": 0.1633, + "step": 7770 + }, + { + "epoch": 0.04976, + "grad_norm": 0.7844520807266235, + "learning_rate": 1.966826666666667e-05, + "loss": 0.1631, + "step": 7775 + }, + { + "epoch": 0.049792, + "grad_norm": 1.2487635612487793, + "learning_rate": 1.9668053333333334e-05, + "loss": 0.1496, + "step": 7780 + }, + { + "epoch": 0.049824, + "grad_norm": 1.1071696281433105, + "learning_rate": 1.966784e-05, + "loss": 0.1611, + "step": 7785 + }, + { + "epoch": 0.049856, + "grad_norm": 1.7147949934005737, + "learning_rate": 1.966762666666667e-05, + "loss": 0.187, + "step": 7790 + }, + { + "epoch": 0.049888, + "grad_norm": 4.398312091827393, + "learning_rate": 1.9667413333333333e-05, + "loss": 0.1814, + "step": 7795 + }, + { + "epoch": 0.04992, + "grad_norm": 5.581997871398926, + "learning_rate": 1.96672e-05, + "loss": 0.1441, + "step": 7800 + }, + { + "epoch": 0.049952, + "grad_norm": 1.4918115139007568, + "learning_rate": 1.9666986666666668e-05, + "loss": 0.1404, + "step": 7805 + }, + { + "epoch": 0.049984, + "grad_norm": 1.6416349411010742, + "learning_rate": 1.9666773333333335e-05, + "loss": 0.1665, + "step": 7810 + }, + { + "epoch": 0.050016, + "grad_norm": 0.7383416891098022, + "learning_rate": 1.966656e-05, + "loss": 0.2063, + "step": 7815 + }, + { + "epoch": 0.050048, + "grad_norm": 1.1438367366790771, + "learning_rate": 1.966634666666667e-05, + "loss": 0.1674, + "step": 7820 + }, + { + "epoch": 0.05008, + "grad_norm": 1.0437040328979492, + "learning_rate": 1.9666133333333335e-05, + "loss": 0.1236, + "step": 7825 + }, + { + "epoch": 0.050112, + "grad_norm": 1.64661705493927, + "learning_rate": 1.966592e-05, + "loss": 0.2365, + "step": 7830 + }, + { + "epoch": 0.050144, + "grad_norm": 0.8412394523620605, + "learning_rate": 1.966570666666667e-05, + "loss": 0.2182, + "step": 7835 + }, + { + "epoch": 0.050176, + "grad_norm": 1.1411914825439453, + "learning_rate": 1.9665493333333334e-05, + "loss": 0.1338, + "step": 7840 + }, + { + "epoch": 0.050208, + "grad_norm": 3.423903703689575, + "learning_rate": 1.966528e-05, + "loss": 0.132, + "step": 7845 + }, + { + "epoch": 0.05024, + "grad_norm": 1.081898808479309, + "learning_rate": 1.966506666666667e-05, + "loss": 0.166, + "step": 7850 + }, + { + "epoch": 0.050272, + "grad_norm": 2.0151281356811523, + "learning_rate": 1.9664853333333337e-05, + "loss": 0.1376, + "step": 7855 + }, + { + "epoch": 0.050304, + "grad_norm": 0.8478163480758667, + "learning_rate": 1.966464e-05, + "loss": 0.1144, + "step": 7860 + }, + { + "epoch": 0.050336, + "grad_norm": 2.477248191833496, + "learning_rate": 1.966442666666667e-05, + "loss": 0.1963, + "step": 7865 + }, + { + "epoch": 0.050368, + "grad_norm": 1.162814736366272, + "learning_rate": 1.9664213333333336e-05, + "loss": 0.1636, + "step": 7870 + }, + { + "epoch": 0.0504, + "grad_norm": 0.6678242087364197, + "learning_rate": 1.9664e-05, + "loss": 0.1331, + "step": 7875 + }, + { + "epoch": 0.050432, + "grad_norm": 1.998202919960022, + "learning_rate": 1.9663786666666668e-05, + "loss": 0.1877, + "step": 7880 + }, + { + "epoch": 0.050464, + "grad_norm": 0.9011030197143555, + "learning_rate": 1.9663573333333335e-05, + "loss": 0.1447, + "step": 7885 + }, + { + "epoch": 0.050496, + "grad_norm": 2.469007968902588, + "learning_rate": 1.9663360000000003e-05, + "loss": 0.1928, + "step": 7890 + }, + { + "epoch": 0.050528, + "grad_norm": 0.6043524742126465, + "learning_rate": 1.9663146666666667e-05, + "loss": 0.1677, + "step": 7895 + }, + { + "epoch": 0.05056, + "grad_norm": 0.8332013487815857, + "learning_rate": 1.9662933333333334e-05, + "loss": 0.1239, + "step": 7900 + }, + { + "epoch": 0.050592, + "grad_norm": 1.6521416902542114, + "learning_rate": 1.9662720000000002e-05, + "loss": 0.1132, + "step": 7905 + }, + { + "epoch": 0.050624, + "grad_norm": 1.187092900276184, + "learning_rate": 1.9662506666666666e-05, + "loss": 0.1566, + "step": 7910 + }, + { + "epoch": 0.050656, + "grad_norm": 1.572011113166809, + "learning_rate": 1.9662293333333334e-05, + "loss": 0.12, + "step": 7915 + }, + { + "epoch": 0.050688, + "grad_norm": 0.8788394331932068, + "learning_rate": 1.966208e-05, + "loss": 0.151, + "step": 7920 + }, + { + "epoch": 0.05072, + "grad_norm": 3.2561404705047607, + "learning_rate": 1.966186666666667e-05, + "loss": 0.1572, + "step": 7925 + }, + { + "epoch": 0.050752, + "grad_norm": 1.465036392211914, + "learning_rate": 1.9661653333333336e-05, + "loss": 0.1499, + "step": 7930 + }, + { + "epoch": 0.050784, + "grad_norm": 1.3496061563491821, + "learning_rate": 1.966144e-05, + "loss": 0.1628, + "step": 7935 + }, + { + "epoch": 0.050816, + "grad_norm": 1.5823718309402466, + "learning_rate": 1.9661226666666668e-05, + "loss": 0.1817, + "step": 7940 + }, + { + "epoch": 0.050848, + "grad_norm": 1.5107009410858154, + "learning_rate": 1.9661013333333336e-05, + "loss": 0.1708, + "step": 7945 + }, + { + "epoch": 0.05088, + "grad_norm": 3.6223561763763428, + "learning_rate": 1.9660800000000003e-05, + "loss": 0.1738, + "step": 7950 + }, + { + "epoch": 0.050912, + "grad_norm": 2.205817461013794, + "learning_rate": 1.9660586666666667e-05, + "loss": 0.1614, + "step": 7955 + }, + { + "epoch": 0.050944, + "grad_norm": 1.5134971141815186, + "learning_rate": 1.9660373333333335e-05, + "loss": 0.1901, + "step": 7960 + }, + { + "epoch": 0.050976, + "grad_norm": 1.0773600339889526, + "learning_rate": 1.9660160000000003e-05, + "loss": 0.1723, + "step": 7965 + }, + { + "epoch": 0.051008, + "grad_norm": 0.9549845457077026, + "learning_rate": 1.9659946666666667e-05, + "loss": 0.1384, + "step": 7970 + }, + { + "epoch": 0.05104, + "grad_norm": 2.1741135120391846, + "learning_rate": 1.9659733333333334e-05, + "loss": 0.1581, + "step": 7975 + }, + { + "epoch": 0.051072, + "grad_norm": 1.0761561393737793, + "learning_rate": 1.9659520000000002e-05, + "loss": 0.2091, + "step": 7980 + }, + { + "epoch": 0.051104, + "grad_norm": 1.33783757686615, + "learning_rate": 1.965930666666667e-05, + "loss": 0.1615, + "step": 7985 + }, + { + "epoch": 0.051136, + "grad_norm": 1.6768242120742798, + "learning_rate": 1.9659093333333334e-05, + "loss": 0.2267, + "step": 7990 + }, + { + "epoch": 0.051168, + "grad_norm": 1.8778605461120605, + "learning_rate": 1.965888e-05, + "loss": 0.1805, + "step": 7995 + }, + { + "epoch": 0.0512, + "grad_norm": 1.5154914855957031, + "learning_rate": 1.965866666666667e-05, + "loss": 0.1941, + "step": 8000 + }, + { + "epoch": 0.051232, + "grad_norm": 1.336095929145813, + "learning_rate": 1.9658453333333333e-05, + "loss": 0.1708, + "step": 8005 + }, + { + "epoch": 0.051264, + "grad_norm": 1.2948558330535889, + "learning_rate": 1.965824e-05, + "loss": 0.1656, + "step": 8010 + }, + { + "epoch": 0.051296, + "grad_norm": 2.26138973236084, + "learning_rate": 1.9658026666666668e-05, + "loss": 0.1914, + "step": 8015 + }, + { + "epoch": 0.051328, + "grad_norm": 3.518503427505493, + "learning_rate": 1.9657813333333335e-05, + "loss": 0.1199, + "step": 8020 + }, + { + "epoch": 0.05136, + "grad_norm": 3.1081736087799072, + "learning_rate": 1.96576e-05, + "loss": 0.2232, + "step": 8025 + }, + { + "epoch": 0.051392, + "grad_norm": 1.6007750034332275, + "learning_rate": 1.965738666666667e-05, + "loss": 0.1807, + "step": 8030 + }, + { + "epoch": 0.051424, + "grad_norm": 2.3009843826293945, + "learning_rate": 1.9657173333333335e-05, + "loss": 0.1607, + "step": 8035 + }, + { + "epoch": 0.051456, + "grad_norm": 2.0621023178100586, + "learning_rate": 1.9656960000000002e-05, + "loss": 0.1597, + "step": 8040 + }, + { + "epoch": 0.051488, + "grad_norm": 1.66610586643219, + "learning_rate": 1.965674666666667e-05, + "loss": 0.154, + "step": 8045 + }, + { + "epoch": 0.05152, + "grad_norm": 0.8945550918579102, + "learning_rate": 1.9656533333333334e-05, + "loss": 0.1423, + "step": 8050 + }, + { + "epoch": 0.051552, + "grad_norm": 1.4787272214889526, + "learning_rate": 1.965632e-05, + "loss": 0.1247, + "step": 8055 + }, + { + "epoch": 0.051584, + "grad_norm": 0.9375267624855042, + "learning_rate": 1.965610666666667e-05, + "loss": 0.1638, + "step": 8060 + }, + { + "epoch": 0.051616, + "grad_norm": 1.5428799390792847, + "learning_rate": 1.9655893333333337e-05, + "loss": 0.1569, + "step": 8065 + }, + { + "epoch": 0.051648, + "grad_norm": 1.236328125, + "learning_rate": 1.965568e-05, + "loss": 0.1985, + "step": 8070 + }, + { + "epoch": 0.05168, + "grad_norm": 10.765897750854492, + "learning_rate": 1.965546666666667e-05, + "loss": 0.1728, + "step": 8075 + }, + { + "epoch": 0.051712, + "grad_norm": 0.8279303908348083, + "learning_rate": 1.9655253333333336e-05, + "loss": 0.1136, + "step": 8080 + }, + { + "epoch": 0.051744, + "grad_norm": 1.6819227933883667, + "learning_rate": 1.965504e-05, + "loss": 0.1421, + "step": 8085 + }, + { + "epoch": 0.051776, + "grad_norm": 1.1693451404571533, + "learning_rate": 1.9654826666666668e-05, + "loss": 0.1841, + "step": 8090 + }, + { + "epoch": 0.051808, + "grad_norm": 1.2077577114105225, + "learning_rate": 1.9654613333333335e-05, + "loss": 0.1561, + "step": 8095 + }, + { + "epoch": 0.05184, + "grad_norm": 2.1844332218170166, + "learning_rate": 1.9654400000000003e-05, + "loss": 0.2051, + "step": 8100 + }, + { + "epoch": 0.051872, + "grad_norm": 1.3590891361236572, + "learning_rate": 1.9654186666666667e-05, + "loss": 0.1636, + "step": 8105 + }, + { + "epoch": 0.051904, + "grad_norm": 3.881462812423706, + "learning_rate": 1.9653973333333334e-05, + "loss": 0.1818, + "step": 8110 + }, + { + "epoch": 0.051936, + "grad_norm": 1.3154162168502808, + "learning_rate": 1.9653760000000002e-05, + "loss": 0.1377, + "step": 8115 + }, + { + "epoch": 0.051968, + "grad_norm": 2.007356643676758, + "learning_rate": 1.9653546666666666e-05, + "loss": 0.2356, + "step": 8120 + }, + { + "epoch": 0.052, + "grad_norm": 1.0214343070983887, + "learning_rate": 1.9653333333333334e-05, + "loss": 0.144, + "step": 8125 + }, + { + "epoch": 0.052032, + "grad_norm": 0.8700538277626038, + "learning_rate": 1.965312e-05, + "loss": 0.1469, + "step": 8130 + }, + { + "epoch": 0.052064, + "grad_norm": 0.6557683348655701, + "learning_rate": 1.965290666666667e-05, + "loss": 0.1797, + "step": 8135 + }, + { + "epoch": 0.052096, + "grad_norm": 1.1485843658447266, + "learning_rate": 1.9652693333333333e-05, + "loss": 0.1394, + "step": 8140 + }, + { + "epoch": 0.052128, + "grad_norm": 1.095996618270874, + "learning_rate": 1.9652480000000004e-05, + "loss": 0.1122, + "step": 8145 + }, + { + "epoch": 0.05216, + "grad_norm": 1.87969172000885, + "learning_rate": 1.9652266666666668e-05, + "loss": 0.1598, + "step": 8150 + }, + { + "epoch": 0.052192, + "grad_norm": 1.3407602310180664, + "learning_rate": 1.9652053333333336e-05, + "loss": 0.1275, + "step": 8155 + }, + { + "epoch": 0.052224, + "grad_norm": 1.037872076034546, + "learning_rate": 1.9651840000000003e-05, + "loss": 0.1986, + "step": 8160 + }, + { + "epoch": 0.052256, + "grad_norm": 2.8682940006256104, + "learning_rate": 1.9651626666666667e-05, + "loss": 0.1435, + "step": 8165 + }, + { + "epoch": 0.052288, + "grad_norm": 3.2148923873901367, + "learning_rate": 1.9651413333333335e-05, + "loss": 0.1324, + "step": 8170 + }, + { + "epoch": 0.05232, + "grad_norm": 2.1354737281799316, + "learning_rate": 1.9651200000000003e-05, + "loss": 0.1582, + "step": 8175 + }, + { + "epoch": 0.052352, + "grad_norm": 0.8993641138076782, + "learning_rate": 1.965098666666667e-05, + "loss": 0.1701, + "step": 8180 + }, + { + "epoch": 0.052384, + "grad_norm": 1.4004056453704834, + "learning_rate": 1.9650773333333334e-05, + "loss": 0.135, + "step": 8185 + }, + { + "epoch": 0.052416, + "grad_norm": 1.1276870965957642, + "learning_rate": 1.9650560000000002e-05, + "loss": 0.1498, + "step": 8190 + }, + { + "epoch": 0.052448, + "grad_norm": 1.0400463342666626, + "learning_rate": 1.965034666666667e-05, + "loss": 0.1748, + "step": 8195 + }, + { + "epoch": 0.05248, + "grad_norm": 0.9098876714706421, + "learning_rate": 1.9650133333333334e-05, + "loss": 0.137, + "step": 8200 + }, + { + "epoch": 0.052512, + "grad_norm": 1.4457855224609375, + "learning_rate": 1.964992e-05, + "loss": 0.1174, + "step": 8205 + }, + { + "epoch": 0.052544, + "grad_norm": 0.8866000175476074, + "learning_rate": 1.964970666666667e-05, + "loss": 0.1754, + "step": 8210 + }, + { + "epoch": 0.052576, + "grad_norm": 1.1184622049331665, + "learning_rate": 1.9649493333333336e-05, + "loss": 0.1532, + "step": 8215 + }, + { + "epoch": 0.052608, + "grad_norm": 1.635164499282837, + "learning_rate": 1.964928e-05, + "loss": 0.1705, + "step": 8220 + }, + { + "epoch": 0.05264, + "grad_norm": 1.1585060358047485, + "learning_rate": 1.9649066666666668e-05, + "loss": 0.1716, + "step": 8225 + }, + { + "epoch": 0.052672, + "grad_norm": 1.8856184482574463, + "learning_rate": 1.9648853333333335e-05, + "loss": 0.1812, + "step": 8230 + }, + { + "epoch": 0.052704, + "grad_norm": 1.031973958015442, + "learning_rate": 1.964864e-05, + "loss": 0.2151, + "step": 8235 + }, + { + "epoch": 0.052736, + "grad_norm": 1.806551456451416, + "learning_rate": 1.964842666666667e-05, + "loss": 0.1657, + "step": 8240 + }, + { + "epoch": 0.052768, + "grad_norm": 1.285465121269226, + "learning_rate": 1.9648213333333335e-05, + "loss": 0.1721, + "step": 8245 + }, + { + "epoch": 0.0528, + "grad_norm": 1.1387629508972168, + "learning_rate": 1.9648000000000002e-05, + "loss": 0.1273, + "step": 8250 + }, + { + "epoch": 0.052832, + "grad_norm": 1.4900333881378174, + "learning_rate": 1.964778666666667e-05, + "loss": 0.1291, + "step": 8255 + }, + { + "epoch": 0.052864, + "grad_norm": 1.4398103952407837, + "learning_rate": 1.9647573333333334e-05, + "loss": 0.1865, + "step": 8260 + }, + { + "epoch": 0.052896, + "grad_norm": 2.942563772201538, + "learning_rate": 1.964736e-05, + "loss": 0.2173, + "step": 8265 + }, + { + "epoch": 0.052928, + "grad_norm": 1.1817797422409058, + "learning_rate": 1.964714666666667e-05, + "loss": 0.1606, + "step": 8270 + }, + { + "epoch": 0.05296, + "grad_norm": 1.2810449600219727, + "learning_rate": 1.9646933333333337e-05, + "loss": 0.1922, + "step": 8275 + }, + { + "epoch": 0.052992, + "grad_norm": 1.2804533243179321, + "learning_rate": 1.964672e-05, + "loss": 0.131, + "step": 8280 + }, + { + "epoch": 0.053024, + "grad_norm": 1.3185728788375854, + "learning_rate": 1.964650666666667e-05, + "loss": 0.1612, + "step": 8285 + }, + { + "epoch": 0.053056, + "grad_norm": 1.3385530710220337, + "learning_rate": 1.9646293333333336e-05, + "loss": 0.1712, + "step": 8290 + }, + { + "epoch": 0.053088, + "grad_norm": 4.081315994262695, + "learning_rate": 1.964608e-05, + "loss": 0.1686, + "step": 8295 + }, + { + "epoch": 0.05312, + "grad_norm": 2.5077311992645264, + "learning_rate": 1.9645866666666668e-05, + "loss": 0.1851, + "step": 8300 + }, + { + "epoch": 0.053152, + "grad_norm": 1.26058828830719, + "learning_rate": 1.9645653333333335e-05, + "loss": 0.2723, + "step": 8305 + }, + { + "epoch": 0.053184, + "grad_norm": 1.7628954648971558, + "learning_rate": 1.9645440000000003e-05, + "loss": 0.1669, + "step": 8310 + }, + { + "epoch": 0.053216, + "grad_norm": 2.482984781265259, + "learning_rate": 1.9645226666666667e-05, + "loss": 0.1846, + "step": 8315 + }, + { + "epoch": 0.053248, + "grad_norm": 1.6279008388519287, + "learning_rate": 1.9645013333333335e-05, + "loss": 0.2121, + "step": 8320 + }, + { + "epoch": 0.05328, + "grad_norm": 1.532462477684021, + "learning_rate": 1.9644800000000002e-05, + "loss": 0.1597, + "step": 8325 + }, + { + "epoch": 0.053312, + "grad_norm": 0.9199845194816589, + "learning_rate": 1.9644586666666666e-05, + "loss": 0.1837, + "step": 8330 + }, + { + "epoch": 0.053344, + "grad_norm": 0.9609737992286682, + "learning_rate": 1.9644373333333334e-05, + "loss": 0.1672, + "step": 8335 + }, + { + "epoch": 0.053376, + "grad_norm": 1.2590590715408325, + "learning_rate": 1.964416e-05, + "loss": 0.1808, + "step": 8340 + }, + { + "epoch": 0.053408, + "grad_norm": 2.798198699951172, + "learning_rate": 1.964394666666667e-05, + "loss": 0.1605, + "step": 8345 + }, + { + "epoch": 0.05344, + "grad_norm": 0.9503707885742188, + "learning_rate": 1.9643733333333333e-05, + "loss": 0.1781, + "step": 8350 + }, + { + "epoch": 0.053472, + "grad_norm": 2.0606095790863037, + "learning_rate": 1.9643520000000004e-05, + "loss": 0.1419, + "step": 8355 + }, + { + "epoch": 0.053504, + "grad_norm": 1.8729456663131714, + "learning_rate": 1.9643306666666668e-05, + "loss": 0.1486, + "step": 8360 + }, + { + "epoch": 0.053536, + "grad_norm": 1.4860455989837646, + "learning_rate": 1.9643093333333332e-05, + "loss": 0.1752, + "step": 8365 + }, + { + "epoch": 0.053568, + "grad_norm": 1.1271655559539795, + "learning_rate": 1.9642880000000003e-05, + "loss": 0.17, + "step": 8370 + }, + { + "epoch": 0.0536, + "grad_norm": 0.7805905342102051, + "learning_rate": 1.9642666666666667e-05, + "loss": 0.184, + "step": 8375 + }, + { + "epoch": 0.053632, + "grad_norm": 1.8543339967727661, + "learning_rate": 1.9642453333333335e-05, + "loss": 0.1556, + "step": 8380 + }, + { + "epoch": 0.053664, + "grad_norm": 1.4050942659378052, + "learning_rate": 1.9642240000000003e-05, + "loss": 0.1778, + "step": 8385 + }, + { + "epoch": 0.053696, + "grad_norm": 0.7811746597290039, + "learning_rate": 1.964202666666667e-05, + "loss": 0.1154, + "step": 8390 + }, + { + "epoch": 0.053728, + "grad_norm": 0.8466198444366455, + "learning_rate": 1.9641813333333334e-05, + "loss": 0.2217, + "step": 8395 + }, + { + "epoch": 0.05376, + "grad_norm": 0.7181580662727356, + "learning_rate": 1.9641600000000002e-05, + "loss": 0.1285, + "step": 8400 + }, + { + "epoch": 0.053792, + "grad_norm": 1.9202120304107666, + "learning_rate": 1.964138666666667e-05, + "loss": 0.1362, + "step": 8405 + }, + { + "epoch": 0.053824, + "grad_norm": 4.343930244445801, + "learning_rate": 1.9641173333333334e-05, + "loss": 0.2038, + "step": 8410 + }, + { + "epoch": 0.053856, + "grad_norm": 0.961388349533081, + "learning_rate": 1.964096e-05, + "loss": 0.135, + "step": 8415 + }, + { + "epoch": 0.053888, + "grad_norm": 1.1152201890945435, + "learning_rate": 1.964074666666667e-05, + "loss": 0.168, + "step": 8420 + }, + { + "epoch": 0.05392, + "grad_norm": 1.2979774475097656, + "learning_rate": 1.9640533333333336e-05, + "loss": 0.1208, + "step": 8425 + }, + { + "epoch": 0.053952, + "grad_norm": 1.062151551246643, + "learning_rate": 1.964032e-05, + "loss": 0.1571, + "step": 8430 + }, + { + "epoch": 0.053984, + "grad_norm": 2.004491090774536, + "learning_rate": 1.9640106666666668e-05, + "loss": 0.1958, + "step": 8435 + }, + { + "epoch": 0.054016, + "grad_norm": 1.4633257389068604, + "learning_rate": 1.9639893333333335e-05, + "loss": 0.161, + "step": 8440 + }, + { + "epoch": 0.054048, + "grad_norm": 0.7893280982971191, + "learning_rate": 1.963968e-05, + "loss": 0.158, + "step": 8445 + }, + { + "epoch": 0.05408, + "grad_norm": 0.9231882691383362, + "learning_rate": 1.963946666666667e-05, + "loss": 0.1682, + "step": 8450 + }, + { + "epoch": 0.054112, + "grad_norm": 0.380494624376297, + "learning_rate": 1.9639253333333335e-05, + "loss": 0.1206, + "step": 8455 + }, + { + "epoch": 0.054144, + "grad_norm": 1.3427006006240845, + "learning_rate": 1.9639040000000002e-05, + "loss": 0.148, + "step": 8460 + }, + { + "epoch": 0.054176, + "grad_norm": 0.5943114757537842, + "learning_rate": 1.963882666666667e-05, + "loss": 0.1578, + "step": 8465 + }, + { + "epoch": 0.054208, + "grad_norm": 1.0413113832473755, + "learning_rate": 1.9638613333333334e-05, + "loss": 0.1517, + "step": 8470 + }, + { + "epoch": 0.05424, + "grad_norm": 1.8692529201507568, + "learning_rate": 1.96384e-05, + "loss": 0.1464, + "step": 8475 + }, + { + "epoch": 0.054272, + "grad_norm": 0.6099010109901428, + "learning_rate": 1.963818666666667e-05, + "loss": 0.1622, + "step": 8480 + }, + { + "epoch": 0.054304, + "grad_norm": 1.63070809841156, + "learning_rate": 1.9637973333333337e-05, + "loss": 0.2407, + "step": 8485 + }, + { + "epoch": 0.054336, + "grad_norm": 1.9084153175354004, + "learning_rate": 1.963776e-05, + "loss": 0.2021, + "step": 8490 + }, + { + "epoch": 0.054368, + "grad_norm": 1.1950567960739136, + "learning_rate": 1.963754666666667e-05, + "loss": 0.1435, + "step": 8495 + }, + { + "epoch": 0.0544, + "grad_norm": 1.3718148469924927, + "learning_rate": 1.9637333333333336e-05, + "loss": 0.268, + "step": 8500 + }, + { + "epoch": 0.054432, + "grad_norm": 1.289287805557251, + "learning_rate": 1.963712e-05, + "loss": 0.1919, + "step": 8505 + }, + { + "epoch": 0.054464, + "grad_norm": 1.2835146188735962, + "learning_rate": 1.9636906666666668e-05, + "loss": 0.1498, + "step": 8510 + }, + { + "epoch": 0.054496, + "grad_norm": 1.150329351425171, + "learning_rate": 1.9636693333333335e-05, + "loss": 0.1269, + "step": 8515 + }, + { + "epoch": 0.054528, + "grad_norm": 1.6726937294006348, + "learning_rate": 1.9636480000000003e-05, + "loss": 0.1672, + "step": 8520 + }, + { + "epoch": 0.05456, + "grad_norm": 0.8015499114990234, + "learning_rate": 1.9636266666666667e-05, + "loss": 0.1558, + "step": 8525 + }, + { + "epoch": 0.054592, + "grad_norm": 1.4908896684646606, + "learning_rate": 1.9636053333333335e-05, + "loss": 0.1819, + "step": 8530 + }, + { + "epoch": 0.054624, + "grad_norm": 1.6619967222213745, + "learning_rate": 1.9635840000000002e-05, + "loss": 0.1847, + "step": 8535 + }, + { + "epoch": 0.054656, + "grad_norm": 0.9136889576911926, + "learning_rate": 1.9635626666666666e-05, + "loss": 0.1262, + "step": 8540 + }, + { + "epoch": 0.054688, + "grad_norm": 0.9874057173728943, + "learning_rate": 1.9635413333333334e-05, + "loss": 0.1437, + "step": 8545 + }, + { + "epoch": 0.05472, + "grad_norm": 2.911374807357788, + "learning_rate": 1.96352e-05, + "loss": 0.1814, + "step": 8550 + }, + { + "epoch": 0.054752, + "grad_norm": 2.302389621734619, + "learning_rate": 1.963498666666667e-05, + "loss": 0.1749, + "step": 8555 + }, + { + "epoch": 0.054784, + "grad_norm": 0.8453502058982849, + "learning_rate": 1.9634773333333333e-05, + "loss": 0.1578, + "step": 8560 + }, + { + "epoch": 0.054816, + "grad_norm": 0.9178096652030945, + "learning_rate": 1.9634560000000004e-05, + "loss": 0.1464, + "step": 8565 + }, + { + "epoch": 0.054848, + "grad_norm": 0.7552884221076965, + "learning_rate": 1.9634346666666668e-05, + "loss": 0.1229, + "step": 8570 + }, + { + "epoch": 0.05488, + "grad_norm": 1.723694086074829, + "learning_rate": 1.9634133333333332e-05, + "loss": 0.1334, + "step": 8575 + }, + { + "epoch": 0.054912, + "grad_norm": 0.5082489848136902, + "learning_rate": 1.9633920000000003e-05, + "loss": 0.1439, + "step": 8580 + }, + { + "epoch": 0.054944, + "grad_norm": 1.0847190618515015, + "learning_rate": 1.9633706666666667e-05, + "loss": 0.1216, + "step": 8585 + }, + { + "epoch": 0.054976, + "grad_norm": 1.7204995155334473, + "learning_rate": 1.9633493333333335e-05, + "loss": 0.1934, + "step": 8590 + }, + { + "epoch": 0.055008, + "grad_norm": 0.999352753162384, + "learning_rate": 1.9633280000000003e-05, + "loss": 0.1863, + "step": 8595 + }, + { + "epoch": 0.05504, + "grad_norm": 0.9474396705627441, + "learning_rate": 1.963306666666667e-05, + "loss": 0.1467, + "step": 8600 + }, + { + "epoch": 0.055072, + "grad_norm": 0.7757860422134399, + "learning_rate": 1.9632853333333334e-05, + "loss": 0.1908, + "step": 8605 + }, + { + "epoch": 0.055104, + "grad_norm": 0.8977366089820862, + "learning_rate": 1.9632640000000002e-05, + "loss": 0.1536, + "step": 8610 + }, + { + "epoch": 0.055136, + "grad_norm": 1.1985721588134766, + "learning_rate": 1.963242666666667e-05, + "loss": 0.2314, + "step": 8615 + }, + { + "epoch": 0.055168, + "grad_norm": 0.9044879078865051, + "learning_rate": 1.9632213333333334e-05, + "loss": 0.1951, + "step": 8620 + }, + { + "epoch": 0.0552, + "grad_norm": 2.6080262660980225, + "learning_rate": 1.9632e-05, + "loss": 0.2321, + "step": 8625 + }, + { + "epoch": 0.055232, + "grad_norm": 1.012215495109558, + "learning_rate": 1.963178666666667e-05, + "loss": 0.113, + "step": 8630 + }, + { + "epoch": 0.055264, + "grad_norm": 1.713272213935852, + "learning_rate": 1.9631573333333336e-05, + "loss": 0.1735, + "step": 8635 + }, + { + "epoch": 0.055296, + "grad_norm": 2.4133262634277344, + "learning_rate": 1.963136e-05, + "loss": 0.2108, + "step": 8640 + }, + { + "epoch": 0.055328, + "grad_norm": 1.2998625040054321, + "learning_rate": 1.9631146666666668e-05, + "loss": 0.2454, + "step": 8645 + }, + { + "epoch": 0.05536, + "grad_norm": 0.7034420371055603, + "learning_rate": 1.9630933333333335e-05, + "loss": 0.136, + "step": 8650 + }, + { + "epoch": 0.055392, + "grad_norm": 1.4249060153961182, + "learning_rate": 1.963072e-05, + "loss": 0.1611, + "step": 8655 + }, + { + "epoch": 0.055424, + "grad_norm": 1.0042450428009033, + "learning_rate": 1.9630506666666667e-05, + "loss": 0.148, + "step": 8660 + }, + { + "epoch": 0.055456, + "grad_norm": 1.3828314542770386, + "learning_rate": 1.9630293333333335e-05, + "loss": 0.1419, + "step": 8665 + }, + { + "epoch": 0.055488, + "grad_norm": 1.0041629076004028, + "learning_rate": 1.9630080000000002e-05, + "loss": 0.2039, + "step": 8670 + }, + { + "epoch": 0.05552, + "grad_norm": 1.7849878072738647, + "learning_rate": 1.962986666666667e-05, + "loss": 0.1386, + "step": 8675 + }, + { + "epoch": 0.055552, + "grad_norm": 0.8401350378990173, + "learning_rate": 1.9629653333333334e-05, + "loss": 0.1154, + "step": 8680 + }, + { + "epoch": 0.055584, + "grad_norm": 2.0075643062591553, + "learning_rate": 1.962944e-05, + "loss": 0.2232, + "step": 8685 + }, + { + "epoch": 0.055616, + "grad_norm": 0.5637238025665283, + "learning_rate": 1.962922666666667e-05, + "loss": 0.1356, + "step": 8690 + }, + { + "epoch": 0.055648, + "grad_norm": 0.8230946660041809, + "learning_rate": 1.9629013333333337e-05, + "loss": 0.2109, + "step": 8695 + }, + { + "epoch": 0.05568, + "grad_norm": 1.4662582874298096, + "learning_rate": 1.96288e-05, + "loss": 0.1924, + "step": 8700 + }, + { + "epoch": 0.055712, + "grad_norm": 1.4603348970413208, + "learning_rate": 1.962858666666667e-05, + "loss": 0.1358, + "step": 8705 + }, + { + "epoch": 0.055744, + "grad_norm": 1.0540331602096558, + "learning_rate": 1.9628373333333336e-05, + "loss": 0.1643, + "step": 8710 + }, + { + "epoch": 0.055776, + "grad_norm": 1.202901840209961, + "learning_rate": 1.962816e-05, + "loss": 0.1474, + "step": 8715 + }, + { + "epoch": 0.055808, + "grad_norm": 0.7918314337730408, + "learning_rate": 1.9627946666666668e-05, + "loss": 0.1111, + "step": 8720 + }, + { + "epoch": 0.05584, + "grad_norm": 1.2338128089904785, + "learning_rate": 1.9627733333333335e-05, + "loss": 0.1967, + "step": 8725 + }, + { + "epoch": 0.055872, + "grad_norm": 1.2486335039138794, + "learning_rate": 1.9627520000000003e-05, + "loss": 0.2203, + "step": 8730 + }, + { + "epoch": 0.055904, + "grad_norm": 0.4994734227657318, + "learning_rate": 1.9627306666666667e-05, + "loss": 0.1, + "step": 8735 + }, + { + "epoch": 0.055936, + "grad_norm": 2.1894309520721436, + "learning_rate": 1.9627093333333335e-05, + "loss": 0.1993, + "step": 8740 + }, + { + "epoch": 0.055968, + "grad_norm": 0.9170650839805603, + "learning_rate": 1.9626880000000002e-05, + "loss": 0.1491, + "step": 8745 + }, + { + "epoch": 0.056, + "grad_norm": 1.4697540998458862, + "learning_rate": 1.9626666666666666e-05, + "loss": 0.1844, + "step": 8750 + }, + { + "epoch": 0.056032, + "grad_norm": 5.414676189422607, + "learning_rate": 1.9626453333333334e-05, + "loss": 0.2181, + "step": 8755 + }, + { + "epoch": 0.056064, + "grad_norm": 1.5546566247940063, + "learning_rate": 1.962624e-05, + "loss": 0.2042, + "step": 8760 + }, + { + "epoch": 0.056096, + "grad_norm": 1.0721418857574463, + "learning_rate": 1.962602666666667e-05, + "loss": 0.1288, + "step": 8765 + }, + { + "epoch": 0.056128, + "grad_norm": 1.9604215621948242, + "learning_rate": 1.9625813333333333e-05, + "loss": 0.1819, + "step": 8770 + }, + { + "epoch": 0.05616, + "grad_norm": 2.1266825199127197, + "learning_rate": 1.9625600000000004e-05, + "loss": 0.1882, + "step": 8775 + }, + { + "epoch": 0.056192, + "grad_norm": 1.1055138111114502, + "learning_rate": 1.9625386666666668e-05, + "loss": 0.1495, + "step": 8780 + }, + { + "epoch": 0.056224, + "grad_norm": 1.2590398788452148, + "learning_rate": 1.9625173333333332e-05, + "loss": 0.1328, + "step": 8785 + }, + { + "epoch": 0.056256, + "grad_norm": 0.9602493643760681, + "learning_rate": 1.9624960000000003e-05, + "loss": 0.1251, + "step": 8790 + }, + { + "epoch": 0.056288, + "grad_norm": 0.5583558678627014, + "learning_rate": 1.9624746666666667e-05, + "loss": 0.1313, + "step": 8795 + }, + { + "epoch": 0.05632, + "grad_norm": 1.3828167915344238, + "learning_rate": 1.9624533333333335e-05, + "loss": 0.1884, + "step": 8800 + }, + { + "epoch": 0.056352, + "grad_norm": 2.565185546875, + "learning_rate": 1.9624320000000003e-05, + "loss": 0.141, + "step": 8805 + }, + { + "epoch": 0.056384, + "grad_norm": 1.2187016010284424, + "learning_rate": 1.962410666666667e-05, + "loss": 0.1923, + "step": 8810 + }, + { + "epoch": 0.056416, + "grad_norm": 1.2707602977752686, + "learning_rate": 1.9623893333333334e-05, + "loss": 0.1776, + "step": 8815 + }, + { + "epoch": 0.056448, + "grad_norm": 1.3155051469802856, + "learning_rate": 1.9623680000000002e-05, + "loss": 0.1241, + "step": 8820 + }, + { + "epoch": 0.05648, + "grad_norm": 0.8839994072914124, + "learning_rate": 1.962346666666667e-05, + "loss": 0.1382, + "step": 8825 + }, + { + "epoch": 0.056512, + "grad_norm": 1.8452224731445312, + "learning_rate": 1.9623253333333334e-05, + "loss": 0.1545, + "step": 8830 + }, + { + "epoch": 0.056544, + "grad_norm": 2.0627601146698, + "learning_rate": 1.962304e-05, + "loss": 0.186, + "step": 8835 + }, + { + "epoch": 0.056576, + "grad_norm": 10.064130783081055, + "learning_rate": 1.962282666666667e-05, + "loss": 0.1564, + "step": 8840 + }, + { + "epoch": 0.056608, + "grad_norm": 1.7866275310516357, + "learning_rate": 1.9622613333333336e-05, + "loss": 0.1454, + "step": 8845 + }, + { + "epoch": 0.05664, + "grad_norm": 1.7093092203140259, + "learning_rate": 1.96224e-05, + "loss": 0.1805, + "step": 8850 + }, + { + "epoch": 0.056672, + "grad_norm": 1.3083113431930542, + "learning_rate": 1.9622186666666668e-05, + "loss": 0.1179, + "step": 8855 + }, + { + "epoch": 0.056704, + "grad_norm": 2.1377170085906982, + "learning_rate": 1.9621973333333335e-05, + "loss": 0.1919, + "step": 8860 + }, + { + "epoch": 0.056736, + "grad_norm": 1.2627737522125244, + "learning_rate": 1.962176e-05, + "loss": 0.1861, + "step": 8865 + }, + { + "epoch": 0.056768, + "grad_norm": 0.7756458520889282, + "learning_rate": 1.9621546666666667e-05, + "loss": 0.1352, + "step": 8870 + }, + { + "epoch": 0.0568, + "grad_norm": 1.6863917112350464, + "learning_rate": 1.9621333333333335e-05, + "loss": 0.1494, + "step": 8875 + }, + { + "epoch": 0.056832, + "grad_norm": 1.3237009048461914, + "learning_rate": 1.9621120000000002e-05, + "loss": 0.1836, + "step": 8880 + }, + { + "epoch": 0.056864, + "grad_norm": 2.9343478679656982, + "learning_rate": 1.9620906666666666e-05, + "loss": 0.1453, + "step": 8885 + }, + { + "epoch": 0.056896, + "grad_norm": 1.7162349224090576, + "learning_rate": 1.9620693333333337e-05, + "loss": 0.1839, + "step": 8890 + }, + { + "epoch": 0.056928, + "grad_norm": 0.9354363083839417, + "learning_rate": 1.962048e-05, + "loss": 0.1691, + "step": 8895 + }, + { + "epoch": 0.05696, + "grad_norm": 1.1136609315872192, + "learning_rate": 1.962026666666667e-05, + "loss": 0.1381, + "step": 8900 + }, + { + "epoch": 0.056992, + "grad_norm": 1.148414134979248, + "learning_rate": 1.9620053333333337e-05, + "loss": 0.1823, + "step": 8905 + }, + { + "epoch": 0.057024, + "grad_norm": 1.228712558746338, + "learning_rate": 1.961984e-05, + "loss": 0.162, + "step": 8910 + }, + { + "epoch": 0.057056, + "grad_norm": 0.9698301553726196, + "learning_rate": 1.961962666666667e-05, + "loss": 0.1179, + "step": 8915 + }, + { + "epoch": 0.057088, + "grad_norm": 1.544590711593628, + "learning_rate": 1.9619413333333336e-05, + "loss": 0.1863, + "step": 8920 + }, + { + "epoch": 0.05712, + "grad_norm": 1.0251325368881226, + "learning_rate": 1.9619200000000004e-05, + "loss": 0.1255, + "step": 8925 + }, + { + "epoch": 0.057152, + "grad_norm": 0.9754125475883484, + "learning_rate": 1.9618986666666668e-05, + "loss": 0.1634, + "step": 8930 + }, + { + "epoch": 0.057184, + "grad_norm": 1.721378207206726, + "learning_rate": 1.9618773333333335e-05, + "loss": 0.1907, + "step": 8935 + }, + { + "epoch": 0.057216, + "grad_norm": 0.9931775331497192, + "learning_rate": 1.9618560000000003e-05, + "loss": 0.1488, + "step": 8940 + }, + { + "epoch": 0.057248, + "grad_norm": 1.6833282709121704, + "learning_rate": 1.9618346666666667e-05, + "loss": 0.1684, + "step": 8945 + }, + { + "epoch": 0.05728, + "grad_norm": 1.3342113494873047, + "learning_rate": 1.9618133333333335e-05, + "loss": 0.1424, + "step": 8950 + }, + { + "epoch": 0.057312, + "grad_norm": 1.6649893522262573, + "learning_rate": 1.9617920000000002e-05, + "loss": 0.1781, + "step": 8955 + }, + { + "epoch": 0.057344, + "grad_norm": 1.00428307056427, + "learning_rate": 1.961770666666667e-05, + "loss": 0.1461, + "step": 8960 + }, + { + "epoch": 0.057376, + "grad_norm": 0.9445635676383972, + "learning_rate": 1.9617493333333334e-05, + "loss": 0.1604, + "step": 8965 + }, + { + "epoch": 0.057408, + "grad_norm": 1.0138760805130005, + "learning_rate": 1.961728e-05, + "loss": 0.1813, + "step": 8970 + }, + { + "epoch": 0.05744, + "grad_norm": 1.6865769624710083, + "learning_rate": 1.961706666666667e-05, + "loss": 0.1677, + "step": 8975 + }, + { + "epoch": 0.057472, + "grad_norm": 4.175657272338867, + "learning_rate": 1.9616853333333333e-05, + "loss": 0.1978, + "step": 8980 + }, + { + "epoch": 0.057504, + "grad_norm": 1.7164045572280884, + "learning_rate": 1.9616640000000004e-05, + "loss": 0.1799, + "step": 8985 + }, + { + "epoch": 0.057536, + "grad_norm": 0.8671611547470093, + "learning_rate": 1.9616426666666668e-05, + "loss": 0.1801, + "step": 8990 + }, + { + "epoch": 0.057568, + "grad_norm": 0.996172308921814, + "learning_rate": 1.9616213333333336e-05, + "loss": 0.135, + "step": 8995 + }, + { + "epoch": 0.0576, + "grad_norm": 2.0190036296844482, + "learning_rate": 1.9616000000000003e-05, + "loss": 0.1626, + "step": 9000 + }, + { + "epoch": 0.057632, + "grad_norm": 0.8388813734054565, + "learning_rate": 1.9615786666666667e-05, + "loss": 0.1559, + "step": 9005 + }, + { + "epoch": 0.057664, + "grad_norm": 1.8304572105407715, + "learning_rate": 1.9615573333333335e-05, + "loss": 0.1528, + "step": 9010 + }, + { + "epoch": 0.057696, + "grad_norm": 1.3819520473480225, + "learning_rate": 1.9615360000000003e-05, + "loss": 0.2189, + "step": 9015 + }, + { + "epoch": 0.057728, + "grad_norm": 0.8454130291938782, + "learning_rate": 1.961514666666667e-05, + "loss": 0.1273, + "step": 9020 + }, + { + "epoch": 0.05776, + "grad_norm": 1.0342522859573364, + "learning_rate": 1.9614933333333334e-05, + "loss": 0.1665, + "step": 9025 + }, + { + "epoch": 0.057792, + "grad_norm": 1.4045662879943848, + "learning_rate": 1.9614720000000002e-05, + "loss": 0.1336, + "step": 9030 + }, + { + "epoch": 0.057824, + "grad_norm": 1.1769452095031738, + "learning_rate": 1.961450666666667e-05, + "loss": 0.1179, + "step": 9035 + }, + { + "epoch": 0.057856, + "grad_norm": 1.5542166233062744, + "learning_rate": 1.9614293333333334e-05, + "loss": 0.133, + "step": 9040 + }, + { + "epoch": 0.057888, + "grad_norm": 1.79182767868042, + "learning_rate": 1.961408e-05, + "loss": 0.1232, + "step": 9045 + }, + { + "epoch": 0.05792, + "grad_norm": 1.1689987182617188, + "learning_rate": 1.961386666666667e-05, + "loss": 0.1394, + "step": 9050 + }, + { + "epoch": 0.057952, + "grad_norm": 1.028356909751892, + "learning_rate": 1.9613653333333336e-05, + "loss": 0.1141, + "step": 9055 + }, + { + "epoch": 0.057984, + "grad_norm": 1.0739814043045044, + "learning_rate": 1.961344e-05, + "loss": 0.1426, + "step": 9060 + }, + { + "epoch": 0.058016, + "grad_norm": 0.8425275087356567, + "learning_rate": 1.9613226666666668e-05, + "loss": 0.1456, + "step": 9065 + }, + { + "epoch": 0.058048, + "grad_norm": 1.758993148803711, + "learning_rate": 1.9613013333333335e-05, + "loss": 0.178, + "step": 9070 + }, + { + "epoch": 0.05808, + "grad_norm": 1.5842030048370361, + "learning_rate": 1.96128e-05, + "loss": 0.1605, + "step": 9075 + }, + { + "epoch": 0.058112, + "grad_norm": 1.6249501705169678, + "learning_rate": 1.9612586666666667e-05, + "loss": 0.1764, + "step": 9080 + }, + { + "epoch": 0.058144, + "grad_norm": 1.160933494567871, + "learning_rate": 1.9612373333333335e-05, + "loss": 0.1453, + "step": 9085 + }, + { + "epoch": 0.058176, + "grad_norm": 1.083130121231079, + "learning_rate": 1.9612160000000002e-05, + "loss": 0.1886, + "step": 9090 + }, + { + "epoch": 0.058208, + "grad_norm": 2.6093850135803223, + "learning_rate": 1.9611946666666666e-05, + "loss": 0.1862, + "step": 9095 + }, + { + "epoch": 0.05824, + "grad_norm": 0.9287691712379456, + "learning_rate": 1.9611733333333337e-05, + "loss": 0.193, + "step": 9100 + }, + { + "epoch": 0.058272, + "grad_norm": 1.5546040534973145, + "learning_rate": 1.961152e-05, + "loss": 0.1054, + "step": 9105 + }, + { + "epoch": 0.058304, + "grad_norm": 1.68356192111969, + "learning_rate": 1.9611306666666666e-05, + "loss": 0.1601, + "step": 9110 + }, + { + "epoch": 0.058336, + "grad_norm": 1.577315092086792, + "learning_rate": 1.9611093333333337e-05, + "loss": 0.1785, + "step": 9115 + }, + { + "epoch": 0.058368, + "grad_norm": 1.3347437381744385, + "learning_rate": 1.961088e-05, + "loss": 0.2137, + "step": 9120 + }, + { + "epoch": 0.0584, + "grad_norm": 1.3576850891113281, + "learning_rate": 1.961066666666667e-05, + "loss": 0.1256, + "step": 9125 + }, + { + "epoch": 0.058432, + "grad_norm": 10.195453643798828, + "learning_rate": 1.9610453333333336e-05, + "loss": 0.2054, + "step": 9130 + }, + { + "epoch": 0.058464, + "grad_norm": 0.7653616070747375, + "learning_rate": 1.9610240000000004e-05, + "loss": 0.1565, + "step": 9135 + }, + { + "epoch": 0.058496, + "grad_norm": 0.8609434962272644, + "learning_rate": 1.9610026666666668e-05, + "loss": 0.1372, + "step": 9140 + }, + { + "epoch": 0.058528, + "grad_norm": 3.121654987335205, + "learning_rate": 1.9609813333333335e-05, + "loss": 0.1356, + "step": 9145 + }, + { + "epoch": 0.05856, + "grad_norm": 1.0850439071655273, + "learning_rate": 1.9609600000000003e-05, + "loss": 0.1473, + "step": 9150 + }, + { + "epoch": 0.058592, + "grad_norm": 0.8591894507408142, + "learning_rate": 1.9609386666666667e-05, + "loss": 0.193, + "step": 9155 + }, + { + "epoch": 0.058624, + "grad_norm": 1.9752343893051147, + "learning_rate": 1.9609173333333335e-05, + "loss": 0.1679, + "step": 9160 + }, + { + "epoch": 0.058656, + "grad_norm": 1.1180963516235352, + "learning_rate": 1.9608960000000002e-05, + "loss": 0.1442, + "step": 9165 + }, + { + "epoch": 0.058688, + "grad_norm": 2.1088836193084717, + "learning_rate": 1.960874666666667e-05, + "loss": 0.1565, + "step": 9170 + }, + { + "epoch": 0.05872, + "grad_norm": 1.3999518156051636, + "learning_rate": 1.9608533333333334e-05, + "loss": 0.1391, + "step": 9175 + }, + { + "epoch": 0.058752, + "grad_norm": 2.4226927757263184, + "learning_rate": 1.960832e-05, + "loss": 0.1488, + "step": 9180 + }, + { + "epoch": 0.058784, + "grad_norm": 1.481932282447815, + "learning_rate": 1.960810666666667e-05, + "loss": 0.1321, + "step": 9185 + }, + { + "epoch": 0.058816, + "grad_norm": 1.2995026111602783, + "learning_rate": 1.9607893333333333e-05, + "loss": 0.1304, + "step": 9190 + }, + { + "epoch": 0.058848, + "grad_norm": 1.2796549797058105, + "learning_rate": 1.960768e-05, + "loss": 0.1518, + "step": 9195 + }, + { + "epoch": 0.05888, + "grad_norm": 0.8171905875205994, + "learning_rate": 1.9607466666666668e-05, + "loss": 0.1721, + "step": 9200 + }, + { + "epoch": 0.058912, + "grad_norm": 1.4470306634902954, + "learning_rate": 1.9607253333333336e-05, + "loss": 0.2028, + "step": 9205 + }, + { + "epoch": 0.058944, + "grad_norm": 1.0602855682373047, + "learning_rate": 1.9607040000000003e-05, + "loss": 0.1518, + "step": 9210 + }, + { + "epoch": 0.058976, + "grad_norm": 1.1441367864608765, + "learning_rate": 1.9606826666666667e-05, + "loss": 0.2151, + "step": 9215 + }, + { + "epoch": 0.059008, + "grad_norm": 2.2504124641418457, + "learning_rate": 1.9606613333333335e-05, + "loss": 0.1916, + "step": 9220 + }, + { + "epoch": 0.05904, + "grad_norm": 1.0878164768218994, + "learning_rate": 1.9606400000000003e-05, + "loss": 0.1296, + "step": 9225 + }, + { + "epoch": 0.059072, + "grad_norm": 1.4933544397354126, + "learning_rate": 1.960618666666667e-05, + "loss": 0.1884, + "step": 9230 + }, + { + "epoch": 0.059104, + "grad_norm": 0.9452672004699707, + "learning_rate": 1.9605973333333334e-05, + "loss": 0.1548, + "step": 9235 + }, + { + "epoch": 0.059136, + "grad_norm": 0.5153689980506897, + "learning_rate": 1.9605760000000002e-05, + "loss": 0.152, + "step": 9240 + }, + { + "epoch": 0.059168, + "grad_norm": 1.3045512437820435, + "learning_rate": 1.960554666666667e-05, + "loss": 0.1207, + "step": 9245 + }, + { + "epoch": 0.0592, + "grad_norm": 1.3735105991363525, + "learning_rate": 1.9605333333333334e-05, + "loss": 0.1379, + "step": 9250 + }, + { + "epoch": 0.059232, + "grad_norm": 6.681611061096191, + "learning_rate": 1.960512e-05, + "loss": 0.1484, + "step": 9255 + }, + { + "epoch": 0.059264, + "grad_norm": 1.1868879795074463, + "learning_rate": 1.960490666666667e-05, + "loss": 0.1652, + "step": 9260 + }, + { + "epoch": 0.059296, + "grad_norm": 2.490266799926758, + "learning_rate": 1.9604693333333336e-05, + "loss": 0.1818, + "step": 9265 + }, + { + "epoch": 0.059328, + "grad_norm": 3.2094924449920654, + "learning_rate": 1.960448e-05, + "loss": 0.1726, + "step": 9270 + }, + { + "epoch": 0.05936, + "grad_norm": 1.052932620048523, + "learning_rate": 1.9604266666666668e-05, + "loss": 0.1559, + "step": 9275 + }, + { + "epoch": 0.059392, + "grad_norm": 1.240086555480957, + "learning_rate": 1.9604053333333335e-05, + "loss": 0.1214, + "step": 9280 + }, + { + "epoch": 0.059424, + "grad_norm": 1.3068361282348633, + "learning_rate": 1.960384e-05, + "loss": 0.1903, + "step": 9285 + }, + { + "epoch": 0.059456, + "grad_norm": 1.527727723121643, + "learning_rate": 1.9603626666666667e-05, + "loss": 0.1224, + "step": 9290 + }, + { + "epoch": 0.059488, + "grad_norm": 1.7988364696502686, + "learning_rate": 1.9603413333333335e-05, + "loss": 0.2217, + "step": 9295 + }, + { + "epoch": 0.05952, + "grad_norm": 1.0456016063690186, + "learning_rate": 1.9603200000000002e-05, + "loss": 0.1453, + "step": 9300 + }, + { + "epoch": 0.059552, + "grad_norm": 0.6838209629058838, + "learning_rate": 1.9602986666666666e-05, + "loss": 0.1198, + "step": 9305 + }, + { + "epoch": 0.059584, + "grad_norm": 0.8307667970657349, + "learning_rate": 1.9602773333333337e-05, + "loss": 0.1212, + "step": 9310 + }, + { + "epoch": 0.059616, + "grad_norm": 1.9549258947372437, + "learning_rate": 1.960256e-05, + "loss": 0.1833, + "step": 9315 + }, + { + "epoch": 0.059648, + "grad_norm": 1.3089795112609863, + "learning_rate": 1.9602346666666666e-05, + "loss": 0.1992, + "step": 9320 + }, + { + "epoch": 0.05968, + "grad_norm": 0.4957435131072998, + "learning_rate": 1.9602133333333337e-05, + "loss": 0.1627, + "step": 9325 + }, + { + "epoch": 0.059712, + "grad_norm": 1.3352582454681396, + "learning_rate": 1.960192e-05, + "loss": 0.1108, + "step": 9330 + }, + { + "epoch": 0.059744, + "grad_norm": 1.881187915802002, + "learning_rate": 1.960170666666667e-05, + "loss": 0.1765, + "step": 9335 + }, + { + "epoch": 0.059776, + "grad_norm": 1.5597964525222778, + "learning_rate": 1.9601493333333336e-05, + "loss": 0.1553, + "step": 9340 + }, + { + "epoch": 0.059808, + "grad_norm": 1.7900177240371704, + "learning_rate": 1.9601280000000004e-05, + "loss": 0.1473, + "step": 9345 + }, + { + "epoch": 0.05984, + "grad_norm": 1.2641427516937256, + "learning_rate": 1.9601066666666668e-05, + "loss": 0.1312, + "step": 9350 + }, + { + "epoch": 0.059872, + "grad_norm": 1.9996278285980225, + "learning_rate": 1.9600853333333335e-05, + "loss": 0.2066, + "step": 9355 + }, + { + "epoch": 0.059904, + "grad_norm": 1.189648985862732, + "learning_rate": 1.9600640000000003e-05, + "loss": 0.1835, + "step": 9360 + }, + { + "epoch": 0.059936, + "grad_norm": 1.1304211616516113, + "learning_rate": 1.9600426666666667e-05, + "loss": 0.207, + "step": 9365 + }, + { + "epoch": 0.059968, + "grad_norm": 1.5603004693984985, + "learning_rate": 1.9600213333333335e-05, + "loss": 0.1451, + "step": 9370 + }, + { + "epoch": 0.06, + "grad_norm": 1.790034294128418, + "learning_rate": 1.9600000000000002e-05, + "loss": 0.1702, + "step": 9375 + }, + { + "epoch": 0.060032, + "grad_norm": 2.8327975273132324, + "learning_rate": 1.959978666666667e-05, + "loss": 0.1631, + "step": 9380 + }, + { + "epoch": 0.060064, + "grad_norm": 1.5125987529754639, + "learning_rate": 1.9599573333333334e-05, + "loss": 0.0951, + "step": 9385 + }, + { + "epoch": 0.060096, + "grad_norm": 1.2554630041122437, + "learning_rate": 1.959936e-05, + "loss": 0.1063, + "step": 9390 + }, + { + "epoch": 0.060128, + "grad_norm": 0.8640745878219604, + "learning_rate": 1.959914666666667e-05, + "loss": 0.1549, + "step": 9395 + }, + { + "epoch": 0.06016, + "grad_norm": 0.7640371918678284, + "learning_rate": 1.9598933333333333e-05, + "loss": 0.1308, + "step": 9400 + }, + { + "epoch": 0.060192, + "grad_norm": 0.9313526153564453, + "learning_rate": 1.959872e-05, + "loss": 0.1759, + "step": 9405 + }, + { + "epoch": 0.060224, + "grad_norm": 1.1318877935409546, + "learning_rate": 1.9598506666666668e-05, + "loss": 0.1842, + "step": 9410 + }, + { + "epoch": 0.060256, + "grad_norm": 0.8391222357749939, + "learning_rate": 1.9598293333333336e-05, + "loss": 0.1222, + "step": 9415 + }, + { + "epoch": 0.060288, + "grad_norm": 0.9652774930000305, + "learning_rate": 1.959808e-05, + "loss": 0.1349, + "step": 9420 + }, + { + "epoch": 0.06032, + "grad_norm": 1.2572401762008667, + "learning_rate": 1.9597866666666667e-05, + "loss": 0.2037, + "step": 9425 + }, + { + "epoch": 0.060352, + "grad_norm": 2.0938215255737305, + "learning_rate": 1.9597653333333335e-05, + "loss": 0.1999, + "step": 9430 + }, + { + "epoch": 0.060384, + "grad_norm": 1.4065181016921997, + "learning_rate": 1.9597440000000003e-05, + "loss": 0.1379, + "step": 9435 + }, + { + "epoch": 0.060416, + "grad_norm": 0.7100189328193665, + "learning_rate": 1.959722666666667e-05, + "loss": 0.1018, + "step": 9440 + }, + { + "epoch": 0.060448, + "grad_norm": 3.9189553260803223, + "learning_rate": 1.9597013333333334e-05, + "loss": 0.1698, + "step": 9445 + }, + { + "epoch": 0.06048, + "grad_norm": 0.7061973214149475, + "learning_rate": 1.9596800000000002e-05, + "loss": 0.1418, + "step": 9450 + }, + { + "epoch": 0.060512, + "grad_norm": 1.2103973627090454, + "learning_rate": 1.959658666666667e-05, + "loss": 0.1971, + "step": 9455 + }, + { + "epoch": 0.060544, + "grad_norm": 1.6119518280029297, + "learning_rate": 1.9596373333333334e-05, + "loss": 0.1633, + "step": 9460 + }, + { + "epoch": 0.060576, + "grad_norm": 1.2860877513885498, + "learning_rate": 1.959616e-05, + "loss": 0.1785, + "step": 9465 + }, + { + "epoch": 0.060608, + "grad_norm": 0.9109126329421997, + "learning_rate": 1.959594666666667e-05, + "loss": 0.1204, + "step": 9470 + }, + { + "epoch": 0.06064, + "grad_norm": 0.9419267773628235, + "learning_rate": 1.9595733333333336e-05, + "loss": 0.1126, + "step": 9475 + }, + { + "epoch": 0.060672, + "grad_norm": 3.703745126724243, + "learning_rate": 1.959552e-05, + "loss": 0.1625, + "step": 9480 + }, + { + "epoch": 0.060704, + "grad_norm": 0.77347332239151, + "learning_rate": 1.9595306666666668e-05, + "loss": 0.1683, + "step": 9485 + }, + { + "epoch": 0.060736, + "grad_norm": 2.165041446685791, + "learning_rate": 1.9595093333333335e-05, + "loss": 0.1343, + "step": 9490 + }, + { + "epoch": 0.060768, + "grad_norm": 1.7927753925323486, + "learning_rate": 1.959488e-05, + "loss": 0.1119, + "step": 9495 + }, + { + "epoch": 0.0608, + "grad_norm": 1.613338589668274, + "learning_rate": 1.9594666666666667e-05, + "loss": 0.1132, + "step": 9500 + }, + { + "epoch": 0.060832, + "grad_norm": 0.7287049889564514, + "learning_rate": 1.9594453333333335e-05, + "loss": 0.1506, + "step": 9505 + }, + { + "epoch": 0.060864, + "grad_norm": 1.0761231184005737, + "learning_rate": 1.9594240000000002e-05, + "loss": 0.1338, + "step": 9510 + }, + { + "epoch": 0.060896, + "grad_norm": 1.1970751285552979, + "learning_rate": 1.9594026666666666e-05, + "loss": 0.1324, + "step": 9515 + }, + { + "epoch": 0.060928, + "grad_norm": 1.578066110610962, + "learning_rate": 1.9593813333333337e-05, + "loss": 0.1535, + "step": 9520 + }, + { + "epoch": 0.06096, + "grad_norm": 1.3138601779937744, + "learning_rate": 1.95936e-05, + "loss": 0.1193, + "step": 9525 + }, + { + "epoch": 0.060992, + "grad_norm": 0.9594643712043762, + "learning_rate": 1.9593386666666666e-05, + "loss": 0.1996, + "step": 9530 + }, + { + "epoch": 0.061024, + "grad_norm": 0.7852259874343872, + "learning_rate": 1.9593173333333337e-05, + "loss": 0.1259, + "step": 9535 + }, + { + "epoch": 0.061056, + "grad_norm": 1.3088409900665283, + "learning_rate": 1.959296e-05, + "loss": 0.1555, + "step": 9540 + }, + { + "epoch": 0.061088, + "grad_norm": 0.8210006356239319, + "learning_rate": 1.959274666666667e-05, + "loss": 0.1242, + "step": 9545 + }, + { + "epoch": 0.06112, + "grad_norm": 0.739482581615448, + "learning_rate": 1.9592533333333336e-05, + "loss": 0.1432, + "step": 9550 + }, + { + "epoch": 0.061152, + "grad_norm": 0.9986401200294495, + "learning_rate": 1.9592320000000004e-05, + "loss": 0.1669, + "step": 9555 + }, + { + "epoch": 0.061184, + "grad_norm": 1.6770949363708496, + "learning_rate": 1.9592106666666668e-05, + "loss": 0.1851, + "step": 9560 + }, + { + "epoch": 0.061216, + "grad_norm": 1.3564023971557617, + "learning_rate": 1.9591893333333335e-05, + "loss": 0.1542, + "step": 9565 + }, + { + "epoch": 0.061248, + "grad_norm": 1.0032609701156616, + "learning_rate": 1.9591680000000003e-05, + "loss": 0.1548, + "step": 9570 + }, + { + "epoch": 0.06128, + "grad_norm": 1.883782982826233, + "learning_rate": 1.9591466666666667e-05, + "loss": 0.1406, + "step": 9575 + }, + { + "epoch": 0.061312, + "grad_norm": 1.0060310363769531, + "learning_rate": 1.9591253333333335e-05, + "loss": 0.1341, + "step": 9580 + }, + { + "epoch": 0.061344, + "grad_norm": 1.405991554260254, + "learning_rate": 1.9591040000000002e-05, + "loss": 0.1305, + "step": 9585 + }, + { + "epoch": 0.061376, + "grad_norm": 1.0890507698059082, + "learning_rate": 1.959082666666667e-05, + "loss": 0.1307, + "step": 9590 + }, + { + "epoch": 0.061408, + "grad_norm": 0.925755500793457, + "learning_rate": 1.9590613333333334e-05, + "loss": 0.2091, + "step": 9595 + }, + { + "epoch": 0.06144, + "grad_norm": 1.7945982217788696, + "learning_rate": 1.95904e-05, + "loss": 0.1075, + "step": 9600 + }, + { + "epoch": 0.061472, + "grad_norm": 1.451497197151184, + "learning_rate": 1.959018666666667e-05, + "loss": 0.1312, + "step": 9605 + }, + { + "epoch": 0.061504, + "grad_norm": 1.2553852796554565, + "learning_rate": 1.9589973333333333e-05, + "loss": 0.1656, + "step": 9610 + }, + { + "epoch": 0.061536, + "grad_norm": 1.6372634172439575, + "learning_rate": 1.958976e-05, + "loss": 0.1666, + "step": 9615 + }, + { + "epoch": 0.061568, + "grad_norm": 2.074730634689331, + "learning_rate": 1.9589546666666668e-05, + "loss": 0.1706, + "step": 9620 + }, + { + "epoch": 0.0616, + "grad_norm": 1.776881217956543, + "learning_rate": 1.9589333333333336e-05, + "loss": 0.1892, + "step": 9625 + }, + { + "epoch": 0.061632, + "grad_norm": 1.3763676881790161, + "learning_rate": 1.958912e-05, + "loss": 0.1717, + "step": 9630 + }, + { + "epoch": 0.061664, + "grad_norm": 0.7604646682739258, + "learning_rate": 1.9588906666666667e-05, + "loss": 0.1212, + "step": 9635 + }, + { + "epoch": 0.061696, + "grad_norm": 1.7935869693756104, + "learning_rate": 1.9588693333333335e-05, + "loss": 0.1814, + "step": 9640 + }, + { + "epoch": 0.061728, + "grad_norm": 1.4739139080047607, + "learning_rate": 1.958848e-05, + "loss": 0.1602, + "step": 9645 + }, + { + "epoch": 0.06176, + "grad_norm": 0.6915624141693115, + "learning_rate": 1.958826666666667e-05, + "loss": 0.1385, + "step": 9650 + }, + { + "epoch": 0.061792, + "grad_norm": 1.3517088890075684, + "learning_rate": 1.9588053333333334e-05, + "loss": 0.1264, + "step": 9655 + }, + { + "epoch": 0.061824, + "grad_norm": 1.201167345046997, + "learning_rate": 1.9587840000000002e-05, + "loss": 0.1737, + "step": 9660 + }, + { + "epoch": 0.061856, + "grad_norm": 1.653666615486145, + "learning_rate": 1.958762666666667e-05, + "loss": 0.1552, + "step": 9665 + }, + { + "epoch": 0.061888, + "grad_norm": 1.5558403730392456, + "learning_rate": 1.9587413333333334e-05, + "loss": 0.145, + "step": 9670 + }, + { + "epoch": 0.06192, + "grad_norm": 1.1124835014343262, + "learning_rate": 1.95872e-05, + "loss": 0.1654, + "step": 9675 + }, + { + "epoch": 0.061952, + "grad_norm": 0.8533827066421509, + "learning_rate": 1.958698666666667e-05, + "loss": 0.1467, + "step": 9680 + }, + { + "epoch": 0.061984, + "grad_norm": 0.8341544270515442, + "learning_rate": 1.9586773333333336e-05, + "loss": 0.2309, + "step": 9685 + }, + { + "epoch": 0.062016, + "grad_norm": 1.1800509691238403, + "learning_rate": 1.958656e-05, + "loss": 0.1581, + "step": 9690 + }, + { + "epoch": 0.062048, + "grad_norm": 0.7439433336257935, + "learning_rate": 1.9586346666666668e-05, + "loss": 0.1235, + "step": 9695 + }, + { + "epoch": 0.06208, + "grad_norm": 0.45564916729927063, + "learning_rate": 1.9586133333333335e-05, + "loss": 0.1058, + "step": 9700 + }, + { + "epoch": 0.062112, + "grad_norm": 1.1362971067428589, + "learning_rate": 1.9585920000000003e-05, + "loss": 0.1902, + "step": 9705 + }, + { + "epoch": 0.062144, + "grad_norm": 0.8463210463523865, + "learning_rate": 1.9585706666666667e-05, + "loss": 0.1353, + "step": 9710 + }, + { + "epoch": 0.062176, + "grad_norm": 1.2358375787734985, + "learning_rate": 1.9585493333333335e-05, + "loss": 0.1727, + "step": 9715 + }, + { + "epoch": 0.062208, + "grad_norm": 0.8312837481498718, + "learning_rate": 1.9585280000000002e-05, + "loss": 0.1307, + "step": 9720 + }, + { + "epoch": 0.06224, + "grad_norm": 0.9851358532905579, + "learning_rate": 1.9585066666666666e-05, + "loss": 0.1575, + "step": 9725 + }, + { + "epoch": 0.062272, + "grad_norm": 1.1437058448791504, + "learning_rate": 1.9584853333333334e-05, + "loss": 0.1291, + "step": 9730 + }, + { + "epoch": 0.062304, + "grad_norm": 1.8750121593475342, + "learning_rate": 1.958464e-05, + "loss": 0.1234, + "step": 9735 + }, + { + "epoch": 0.062336, + "grad_norm": 1.5328788757324219, + "learning_rate": 1.958442666666667e-05, + "loss": 0.14, + "step": 9740 + }, + { + "epoch": 0.062368, + "grad_norm": 1.8523920774459839, + "learning_rate": 1.9584213333333337e-05, + "loss": 0.1653, + "step": 9745 + }, + { + "epoch": 0.0624, + "grad_norm": 0.8321543335914612, + "learning_rate": 1.9584e-05, + "loss": 0.1186, + "step": 9750 + }, + { + "epoch": 0.062432, + "grad_norm": 0.6805566549301147, + "learning_rate": 1.958378666666667e-05, + "loss": 0.0981, + "step": 9755 + }, + { + "epoch": 0.062464, + "grad_norm": 1.899848461151123, + "learning_rate": 1.9583573333333336e-05, + "loss": 0.1543, + "step": 9760 + }, + { + "epoch": 0.062496, + "grad_norm": 1.5047783851623535, + "learning_rate": 1.9583360000000004e-05, + "loss": 0.1514, + "step": 9765 + }, + { + "epoch": 0.062528, + "grad_norm": 1.1115667819976807, + "learning_rate": 1.9583146666666668e-05, + "loss": 0.1275, + "step": 9770 + }, + { + "epoch": 0.06256, + "grad_norm": 2.089405059814453, + "learning_rate": 1.9582933333333335e-05, + "loss": 0.2063, + "step": 9775 + }, + { + "epoch": 0.062592, + "grad_norm": 1.1691838502883911, + "learning_rate": 1.9582720000000003e-05, + "loss": 0.1785, + "step": 9780 + }, + { + "epoch": 0.062624, + "grad_norm": 0.6887302398681641, + "learning_rate": 1.9582506666666667e-05, + "loss": 0.1238, + "step": 9785 + }, + { + "epoch": 0.062656, + "grad_norm": 1.803457498550415, + "learning_rate": 1.9582293333333335e-05, + "loss": 0.1536, + "step": 9790 + }, + { + "epoch": 0.062688, + "grad_norm": 0.9904093742370605, + "learning_rate": 1.9582080000000002e-05, + "loss": 0.1736, + "step": 9795 + }, + { + "epoch": 0.06272, + "grad_norm": 1.0508538484573364, + "learning_rate": 1.958186666666667e-05, + "loss": 0.1374, + "step": 9800 + }, + { + "epoch": 0.062752, + "grad_norm": 0.6739450097084045, + "learning_rate": 1.9581653333333334e-05, + "loss": 0.103, + "step": 9805 + }, + { + "epoch": 0.062784, + "grad_norm": 1.6030312776565552, + "learning_rate": 1.958144e-05, + "loss": 0.1553, + "step": 9810 + }, + { + "epoch": 0.062816, + "grad_norm": 0.7727541327476501, + "learning_rate": 1.958122666666667e-05, + "loss": 0.1363, + "step": 9815 + }, + { + "epoch": 0.062848, + "grad_norm": 1.8715324401855469, + "learning_rate": 1.9581013333333333e-05, + "loss": 0.1649, + "step": 9820 + }, + { + "epoch": 0.06288, + "grad_norm": 0.8361809849739075, + "learning_rate": 1.95808e-05, + "loss": 0.115, + "step": 9825 + }, + { + "epoch": 0.062912, + "grad_norm": 1.5531672239303589, + "learning_rate": 1.9580586666666668e-05, + "loss": 0.2223, + "step": 9830 + }, + { + "epoch": 0.062944, + "grad_norm": 1.1551859378814697, + "learning_rate": 1.9580373333333336e-05, + "loss": 0.201, + "step": 9835 + }, + { + "epoch": 0.062976, + "grad_norm": 1.0155035257339478, + "learning_rate": 1.958016e-05, + "loss": 0.1261, + "step": 9840 + }, + { + "epoch": 0.063008, + "grad_norm": 1.2797082662582397, + "learning_rate": 1.957994666666667e-05, + "loss": 0.1923, + "step": 9845 + }, + { + "epoch": 0.06304, + "grad_norm": 0.7648788690567017, + "learning_rate": 1.9579733333333335e-05, + "loss": 0.1425, + "step": 9850 + }, + { + "epoch": 0.063072, + "grad_norm": 3.459582805633545, + "learning_rate": 1.957952e-05, + "loss": 0.1359, + "step": 9855 + }, + { + "epoch": 0.063104, + "grad_norm": 0.8854352831840515, + "learning_rate": 1.957930666666667e-05, + "loss": 0.1202, + "step": 9860 + }, + { + "epoch": 0.063136, + "grad_norm": 1.609652042388916, + "learning_rate": 1.9579093333333334e-05, + "loss": 0.2171, + "step": 9865 + }, + { + "epoch": 0.063168, + "grad_norm": 1.3804641962051392, + "learning_rate": 1.9578880000000002e-05, + "loss": 0.1261, + "step": 9870 + }, + { + "epoch": 0.0632, + "grad_norm": 1.3985170125961304, + "learning_rate": 1.957866666666667e-05, + "loss": 0.1862, + "step": 9875 + }, + { + "epoch": 0.063232, + "grad_norm": 0.7873700857162476, + "learning_rate": 1.9578453333333337e-05, + "loss": 0.1503, + "step": 9880 + }, + { + "epoch": 0.063264, + "grad_norm": 1.6794759035110474, + "learning_rate": 1.957824e-05, + "loss": 0.1804, + "step": 9885 + }, + { + "epoch": 0.063296, + "grad_norm": 1.0971260070800781, + "learning_rate": 1.957802666666667e-05, + "loss": 0.1617, + "step": 9890 + }, + { + "epoch": 0.063328, + "grad_norm": 0.8479992747306824, + "learning_rate": 1.9577813333333336e-05, + "loss": 0.1414, + "step": 9895 + }, + { + "epoch": 0.06336, + "grad_norm": 1.6814125776290894, + "learning_rate": 1.95776e-05, + "loss": 0.1174, + "step": 9900 + }, + { + "epoch": 0.063392, + "grad_norm": 1.679189682006836, + "learning_rate": 1.9577386666666668e-05, + "loss": 0.1206, + "step": 9905 + }, + { + "epoch": 0.063424, + "grad_norm": 1.1235768795013428, + "learning_rate": 1.9577173333333336e-05, + "loss": 0.1891, + "step": 9910 + }, + { + "epoch": 0.063456, + "grad_norm": 1.4813957214355469, + "learning_rate": 1.9576960000000003e-05, + "loss": 0.1616, + "step": 9915 + }, + { + "epoch": 0.063488, + "grad_norm": 1.1151155233383179, + "learning_rate": 1.9576746666666667e-05, + "loss": 0.1442, + "step": 9920 + }, + { + "epoch": 0.06352, + "grad_norm": 1.626910924911499, + "learning_rate": 1.9576533333333335e-05, + "loss": 0.1983, + "step": 9925 + }, + { + "epoch": 0.063552, + "grad_norm": 1.2552846670150757, + "learning_rate": 1.9576320000000002e-05, + "loss": 0.1603, + "step": 9930 + }, + { + "epoch": 0.063584, + "grad_norm": 0.9335340261459351, + "learning_rate": 1.9576106666666666e-05, + "loss": 0.1396, + "step": 9935 + }, + { + "epoch": 0.063616, + "grad_norm": 0.8781799077987671, + "learning_rate": 1.9575893333333334e-05, + "loss": 0.093, + "step": 9940 + }, + { + "epoch": 0.063648, + "grad_norm": 1.2122138738632202, + "learning_rate": 1.957568e-05, + "loss": 0.1382, + "step": 9945 + }, + { + "epoch": 0.06368, + "grad_norm": 5.014459609985352, + "learning_rate": 1.957546666666667e-05, + "loss": 0.1395, + "step": 9950 + }, + { + "epoch": 0.063712, + "grad_norm": 0.93294358253479, + "learning_rate": 1.9575253333333333e-05, + "loss": 0.147, + "step": 9955 + }, + { + "epoch": 0.063744, + "grad_norm": 1.5973255634307861, + "learning_rate": 1.957504e-05, + "loss": 0.1479, + "step": 9960 + }, + { + "epoch": 0.063776, + "grad_norm": 1.3014057874679565, + "learning_rate": 1.957482666666667e-05, + "loss": 0.1417, + "step": 9965 + }, + { + "epoch": 0.063808, + "grad_norm": 0.9370535612106323, + "learning_rate": 1.9574613333333336e-05, + "loss": 0.0907, + "step": 9970 + }, + { + "epoch": 0.06384, + "grad_norm": 0.9259487390518188, + "learning_rate": 1.9574400000000004e-05, + "loss": 0.1242, + "step": 9975 + }, + { + "epoch": 0.063872, + "grad_norm": 1.3019781112670898, + "learning_rate": 1.9574186666666668e-05, + "loss": 0.1114, + "step": 9980 + }, + { + "epoch": 0.063904, + "grad_norm": 2.258570909500122, + "learning_rate": 1.9573973333333335e-05, + "loss": 0.1294, + "step": 9985 + }, + { + "epoch": 0.063936, + "grad_norm": 0.8706004619598389, + "learning_rate": 1.9573760000000003e-05, + "loss": 0.1747, + "step": 9990 + }, + { + "epoch": 0.063968, + "grad_norm": 0.9062966704368591, + "learning_rate": 1.9573546666666667e-05, + "loss": 0.1262, + "step": 9995 + }, + { + "epoch": 0.064, + "grad_norm": 1.475251317024231, + "learning_rate": 1.9573333333333335e-05, + "loss": 0.1718, + "step": 10000 + }, + { + "epoch": 0.064032, + "grad_norm": 0.8326916694641113, + "learning_rate": 1.9573120000000002e-05, + "loss": 0.1401, + "step": 10005 + }, + { + "epoch": 0.064064, + "grad_norm": 1.8469010591506958, + "learning_rate": 1.957290666666667e-05, + "loss": 0.176, + "step": 10010 + }, + { + "epoch": 0.064096, + "grad_norm": 4.228688716888428, + "learning_rate": 1.9572693333333334e-05, + "loss": 0.108, + "step": 10015 + }, + { + "epoch": 0.064128, + "grad_norm": 2.9951815605163574, + "learning_rate": 1.957248e-05, + "loss": 0.1711, + "step": 10020 + }, + { + "epoch": 0.06416, + "grad_norm": 5.465880393981934, + "learning_rate": 1.957226666666667e-05, + "loss": 0.1405, + "step": 10025 + }, + { + "epoch": 0.064192, + "grad_norm": 0.6201583743095398, + "learning_rate": 1.9572053333333333e-05, + "loss": 0.1195, + "step": 10030 + }, + { + "epoch": 0.064224, + "grad_norm": 1.2502481937408447, + "learning_rate": 1.957184e-05, + "loss": 0.127, + "step": 10035 + }, + { + "epoch": 0.064256, + "grad_norm": 1.2694172859191895, + "learning_rate": 1.9571626666666668e-05, + "loss": 0.1342, + "step": 10040 + }, + { + "epoch": 0.064288, + "grad_norm": 0.8459044098854065, + "learning_rate": 1.9571413333333336e-05, + "loss": 0.1173, + "step": 10045 + }, + { + "epoch": 0.06432, + "grad_norm": 1.494608759880066, + "learning_rate": 1.95712e-05, + "loss": 0.1553, + "step": 10050 + }, + { + "epoch": 0.064352, + "grad_norm": 1.0985862016677856, + "learning_rate": 1.957098666666667e-05, + "loss": 0.1687, + "step": 10055 + }, + { + "epoch": 0.064384, + "grad_norm": 1.1026898622512817, + "learning_rate": 1.9570773333333335e-05, + "loss": 0.1245, + "step": 10060 + }, + { + "epoch": 0.064416, + "grad_norm": 1.2032092809677124, + "learning_rate": 1.957056e-05, + "loss": 0.1605, + "step": 10065 + }, + { + "epoch": 0.064448, + "grad_norm": 0.8134869933128357, + "learning_rate": 1.957034666666667e-05, + "loss": 0.111, + "step": 10070 + }, + { + "epoch": 0.06448, + "grad_norm": 1.7050033807754517, + "learning_rate": 1.9570133333333334e-05, + "loss": 0.1728, + "step": 10075 + }, + { + "epoch": 0.064512, + "grad_norm": 2.3534605503082275, + "learning_rate": 1.9569920000000002e-05, + "loss": 0.168, + "step": 10080 + }, + { + "epoch": 0.064544, + "grad_norm": 0.8480852842330933, + "learning_rate": 1.956970666666667e-05, + "loss": 0.1418, + "step": 10085 + }, + { + "epoch": 0.064576, + "grad_norm": 1.4979609251022339, + "learning_rate": 1.9569493333333337e-05, + "loss": 0.1575, + "step": 10090 + }, + { + "epoch": 0.064608, + "grad_norm": 5.788512229919434, + "learning_rate": 1.956928e-05, + "loss": 0.1268, + "step": 10095 + }, + { + "epoch": 0.06464, + "grad_norm": 1.6261268854141235, + "learning_rate": 1.956906666666667e-05, + "loss": 0.1035, + "step": 10100 + }, + { + "epoch": 0.064672, + "grad_norm": 1.2091808319091797, + "learning_rate": 1.9568853333333336e-05, + "loss": 0.1514, + "step": 10105 + }, + { + "epoch": 0.064704, + "grad_norm": 1.2984340190887451, + "learning_rate": 1.956864e-05, + "loss": 0.1762, + "step": 10110 + }, + { + "epoch": 0.064736, + "grad_norm": 2.464404344558716, + "learning_rate": 1.9568426666666668e-05, + "loss": 0.1388, + "step": 10115 + }, + { + "epoch": 0.064768, + "grad_norm": 1.2077440023422241, + "learning_rate": 1.9568213333333336e-05, + "loss": 0.1464, + "step": 10120 + }, + { + "epoch": 0.0648, + "grad_norm": 0.7152355313301086, + "learning_rate": 1.9568000000000003e-05, + "loss": 0.122, + "step": 10125 + }, + { + "epoch": 0.064832, + "grad_norm": 1.165729284286499, + "learning_rate": 1.9567786666666667e-05, + "loss": 0.1461, + "step": 10130 + }, + { + "epoch": 0.064864, + "grad_norm": 0.49820104241371155, + "learning_rate": 1.9567573333333335e-05, + "loss": 0.1311, + "step": 10135 + }, + { + "epoch": 0.064896, + "grad_norm": 1.934600830078125, + "learning_rate": 1.9567360000000002e-05, + "loss": 0.1407, + "step": 10140 + }, + { + "epoch": 0.064928, + "grad_norm": 1.293714165687561, + "learning_rate": 1.9567146666666667e-05, + "loss": 0.1438, + "step": 10145 + }, + { + "epoch": 0.06496, + "grad_norm": 1.2306758165359497, + "learning_rate": 1.9566933333333334e-05, + "loss": 0.1193, + "step": 10150 + }, + { + "epoch": 0.064992, + "grad_norm": 1.461362600326538, + "learning_rate": 1.956672e-05, + "loss": 0.1148, + "step": 10155 + }, + { + "epoch": 0.065024, + "grad_norm": 1.0425183773040771, + "learning_rate": 1.956650666666667e-05, + "loss": 0.1678, + "step": 10160 + }, + { + "epoch": 0.065056, + "grad_norm": 1.067460536956787, + "learning_rate": 1.9566293333333333e-05, + "loss": 0.1338, + "step": 10165 + }, + { + "epoch": 0.065088, + "grad_norm": 1.6642663478851318, + "learning_rate": 1.956608e-05, + "loss": 0.1421, + "step": 10170 + }, + { + "epoch": 0.06512, + "grad_norm": 0.7258015275001526, + "learning_rate": 1.956586666666667e-05, + "loss": 0.127, + "step": 10175 + }, + { + "epoch": 0.065152, + "grad_norm": 1.9186677932739258, + "learning_rate": 1.9565653333333333e-05, + "loss": 0.1769, + "step": 10180 + }, + { + "epoch": 0.065184, + "grad_norm": 1.375910758972168, + "learning_rate": 1.9565440000000004e-05, + "loss": 0.1394, + "step": 10185 + }, + { + "epoch": 0.065216, + "grad_norm": 1.1827048063278198, + "learning_rate": 1.9565226666666668e-05, + "loss": 0.1598, + "step": 10190 + }, + { + "epoch": 0.065248, + "grad_norm": 0.9756931662559509, + "learning_rate": 1.9565013333333335e-05, + "loss": 0.108, + "step": 10195 + }, + { + "epoch": 0.06528, + "grad_norm": 0.6121276617050171, + "learning_rate": 1.9564800000000003e-05, + "loss": 0.1183, + "step": 10200 + }, + { + "epoch": 0.065312, + "grad_norm": 1.811094880104065, + "learning_rate": 1.9564586666666667e-05, + "loss": 0.197, + "step": 10205 + }, + { + "epoch": 0.065344, + "grad_norm": 1.2953137159347534, + "learning_rate": 1.9564373333333335e-05, + "loss": 0.1751, + "step": 10210 + }, + { + "epoch": 0.065376, + "grad_norm": 0.9368512034416199, + "learning_rate": 1.9564160000000002e-05, + "loss": 0.109, + "step": 10215 + }, + { + "epoch": 0.065408, + "grad_norm": 1.4705305099487305, + "learning_rate": 1.956394666666667e-05, + "loss": 0.2237, + "step": 10220 + }, + { + "epoch": 0.06544, + "grad_norm": 0.5741851925849915, + "learning_rate": 1.9563733333333334e-05, + "loss": 0.1268, + "step": 10225 + }, + { + "epoch": 0.065472, + "grad_norm": 1.9872727394104004, + "learning_rate": 1.956352e-05, + "loss": 0.163, + "step": 10230 + }, + { + "epoch": 0.065504, + "grad_norm": 1.4829522371292114, + "learning_rate": 1.956330666666667e-05, + "loss": 0.1257, + "step": 10235 + }, + { + "epoch": 0.065536, + "grad_norm": 1.0476402044296265, + "learning_rate": 1.9563093333333333e-05, + "loss": 0.1942, + "step": 10240 + }, + { + "epoch": 0.065568, + "grad_norm": 2.5500242710113525, + "learning_rate": 1.956288e-05, + "loss": 0.1462, + "step": 10245 + }, + { + "epoch": 0.0656, + "grad_norm": 1.698870301246643, + "learning_rate": 1.9562666666666668e-05, + "loss": 0.1805, + "step": 10250 + }, + { + "epoch": 0.065632, + "grad_norm": 0.9769229888916016, + "learning_rate": 1.9562453333333336e-05, + "loss": 0.1474, + "step": 10255 + }, + { + "epoch": 0.065664, + "grad_norm": 1.0486743450164795, + "learning_rate": 1.956224e-05, + "loss": 0.129, + "step": 10260 + }, + { + "epoch": 0.065696, + "grad_norm": 1.0174955129623413, + "learning_rate": 1.9562026666666667e-05, + "loss": 0.1403, + "step": 10265 + }, + { + "epoch": 0.065728, + "grad_norm": 0.983452558517456, + "learning_rate": 1.9561813333333335e-05, + "loss": 0.1131, + "step": 10270 + }, + { + "epoch": 0.06576, + "grad_norm": 1.0211211442947388, + "learning_rate": 1.95616e-05, + "loss": 0.1215, + "step": 10275 + }, + { + "epoch": 0.065792, + "grad_norm": 1.5200139284133911, + "learning_rate": 1.956138666666667e-05, + "loss": 0.1672, + "step": 10280 + }, + { + "epoch": 0.065824, + "grad_norm": 1.1895530223846436, + "learning_rate": 1.9561173333333334e-05, + "loss": 0.1607, + "step": 10285 + }, + { + "epoch": 0.065856, + "grad_norm": 1.0552500486373901, + "learning_rate": 1.9560960000000002e-05, + "loss": 0.1523, + "step": 10290 + }, + { + "epoch": 0.065888, + "grad_norm": 1.0721755027770996, + "learning_rate": 1.956074666666667e-05, + "loss": 0.0889, + "step": 10295 + }, + { + "epoch": 0.06592, + "grad_norm": 1.581353783607483, + "learning_rate": 1.9560533333333337e-05, + "loss": 0.2015, + "step": 10300 + }, + { + "epoch": 0.065952, + "grad_norm": 1.328619122505188, + "learning_rate": 1.956032e-05, + "loss": 0.1407, + "step": 10305 + }, + { + "epoch": 0.065984, + "grad_norm": 1.1308488845825195, + "learning_rate": 1.956010666666667e-05, + "loss": 0.1035, + "step": 10310 + }, + { + "epoch": 0.066016, + "grad_norm": 1.480788230895996, + "learning_rate": 1.9559893333333336e-05, + "loss": 0.1379, + "step": 10315 + }, + { + "epoch": 0.066048, + "grad_norm": 0.7776458263397217, + "learning_rate": 1.955968e-05, + "loss": 0.1251, + "step": 10320 + }, + { + "epoch": 0.06608, + "grad_norm": 1.6018760204315186, + "learning_rate": 1.9559466666666668e-05, + "loss": 0.1727, + "step": 10325 + }, + { + "epoch": 0.066112, + "grad_norm": 1.3108850717544556, + "learning_rate": 1.9559253333333336e-05, + "loss": 0.1643, + "step": 10330 + }, + { + "epoch": 0.066144, + "grad_norm": 0.9592978358268738, + "learning_rate": 1.9559040000000003e-05, + "loss": 0.1301, + "step": 10335 + }, + { + "epoch": 0.066176, + "grad_norm": 1.5814616680145264, + "learning_rate": 1.9558826666666667e-05, + "loss": 0.1772, + "step": 10340 + }, + { + "epoch": 0.066208, + "grad_norm": 1.7427068948745728, + "learning_rate": 1.9558613333333335e-05, + "loss": 0.1485, + "step": 10345 + }, + { + "epoch": 0.06624, + "grad_norm": 1.300019383430481, + "learning_rate": 1.9558400000000002e-05, + "loss": 0.1124, + "step": 10350 + }, + { + "epoch": 0.066272, + "grad_norm": 0.8376352787017822, + "learning_rate": 1.9558186666666667e-05, + "loss": 0.1258, + "step": 10355 + }, + { + "epoch": 0.066304, + "grad_norm": 0.631956160068512, + "learning_rate": 1.9557973333333334e-05, + "loss": 0.184, + "step": 10360 + }, + { + "epoch": 0.066336, + "grad_norm": 0.9290775060653687, + "learning_rate": 1.955776e-05, + "loss": 0.0951, + "step": 10365 + }, + { + "epoch": 0.066368, + "grad_norm": 1.1922123432159424, + "learning_rate": 1.955754666666667e-05, + "loss": 0.118, + "step": 10370 + }, + { + "epoch": 0.0664, + "grad_norm": 1.1224220991134644, + "learning_rate": 1.9557333333333333e-05, + "loss": 0.1398, + "step": 10375 + }, + { + "epoch": 0.066432, + "grad_norm": 0.9323801398277283, + "learning_rate": 1.955712e-05, + "loss": 0.1648, + "step": 10380 + }, + { + "epoch": 0.066464, + "grad_norm": 1.403387427330017, + "learning_rate": 1.955690666666667e-05, + "loss": 0.2262, + "step": 10385 + }, + { + "epoch": 0.066496, + "grad_norm": 2.2619290351867676, + "learning_rate": 1.9556693333333333e-05, + "loss": 0.2096, + "step": 10390 + }, + { + "epoch": 0.066528, + "grad_norm": 1.0146701335906982, + "learning_rate": 1.9556480000000004e-05, + "loss": 0.1312, + "step": 10395 + }, + { + "epoch": 0.06656, + "grad_norm": 0.8350374698638916, + "learning_rate": 1.9556266666666668e-05, + "loss": 0.1564, + "step": 10400 + }, + { + "epoch": 0.066592, + "grad_norm": 1.5320382118225098, + "learning_rate": 1.9556053333333335e-05, + "loss": 0.1773, + "step": 10405 + }, + { + "epoch": 0.066624, + "grad_norm": 1.17618727684021, + "learning_rate": 1.9555840000000003e-05, + "loss": 0.1574, + "step": 10410 + }, + { + "epoch": 0.066656, + "grad_norm": 1.284629464149475, + "learning_rate": 1.9555626666666667e-05, + "loss": 0.1716, + "step": 10415 + }, + { + "epoch": 0.066688, + "grad_norm": 2.4859025478363037, + "learning_rate": 1.9555413333333335e-05, + "loss": 0.1821, + "step": 10420 + }, + { + "epoch": 0.06672, + "grad_norm": 1.0862501859664917, + "learning_rate": 1.9555200000000002e-05, + "loss": 0.1082, + "step": 10425 + }, + { + "epoch": 0.066752, + "grad_norm": 0.803246259689331, + "learning_rate": 1.955498666666667e-05, + "loss": 0.1905, + "step": 10430 + }, + { + "epoch": 0.066784, + "grad_norm": 0.7461778521537781, + "learning_rate": 1.9554773333333334e-05, + "loss": 0.144, + "step": 10435 + }, + { + "epoch": 0.066816, + "grad_norm": 2.7353274822235107, + "learning_rate": 1.955456e-05, + "loss": 0.173, + "step": 10440 + }, + { + "epoch": 0.066848, + "grad_norm": 2.5333008766174316, + "learning_rate": 1.955434666666667e-05, + "loss": 0.1995, + "step": 10445 + }, + { + "epoch": 0.06688, + "grad_norm": 0.9970017075538635, + "learning_rate": 1.9554133333333333e-05, + "loss": 0.1238, + "step": 10450 + }, + { + "epoch": 0.066912, + "grad_norm": 1.598167896270752, + "learning_rate": 1.955392e-05, + "loss": 0.1168, + "step": 10455 + }, + { + "epoch": 0.066944, + "grad_norm": 1.2338948249816895, + "learning_rate": 1.9553706666666668e-05, + "loss": 0.1555, + "step": 10460 + }, + { + "epoch": 0.066976, + "grad_norm": 4.50486946105957, + "learning_rate": 1.9553493333333336e-05, + "loss": 0.1642, + "step": 10465 + }, + { + "epoch": 0.067008, + "grad_norm": 1.5634111166000366, + "learning_rate": 1.955328e-05, + "loss": 0.1614, + "step": 10470 + }, + { + "epoch": 0.06704, + "grad_norm": 1.053399682044983, + "learning_rate": 1.9553066666666667e-05, + "loss": 0.1365, + "step": 10475 + }, + { + "epoch": 0.067072, + "grad_norm": 1.5732892751693726, + "learning_rate": 1.9552853333333335e-05, + "loss": 0.16, + "step": 10480 + }, + { + "epoch": 0.067104, + "grad_norm": 1.077576756477356, + "learning_rate": 1.955264e-05, + "loss": 0.1399, + "step": 10485 + }, + { + "epoch": 0.067136, + "grad_norm": 1.5940309762954712, + "learning_rate": 1.9552426666666667e-05, + "loss": 0.1396, + "step": 10490 + }, + { + "epoch": 0.067168, + "grad_norm": 0.9549110531806946, + "learning_rate": 1.9552213333333334e-05, + "loss": 0.1245, + "step": 10495 + }, + { + "epoch": 0.0672, + "grad_norm": 1.026827335357666, + "learning_rate": 1.9552000000000002e-05, + "loss": 0.1386, + "step": 10500 + }, + { + "epoch": 0.067232, + "grad_norm": 0.5479032397270203, + "learning_rate": 1.955178666666667e-05, + "loss": 0.1226, + "step": 10505 + }, + { + "epoch": 0.067264, + "grad_norm": 0.8946020603179932, + "learning_rate": 1.9551573333333337e-05, + "loss": 0.1699, + "step": 10510 + }, + { + "epoch": 0.067296, + "grad_norm": 1.3195751905441284, + "learning_rate": 1.955136e-05, + "loss": 0.1798, + "step": 10515 + }, + { + "epoch": 0.067328, + "grad_norm": 1.1302765607833862, + "learning_rate": 1.955114666666667e-05, + "loss": 0.1503, + "step": 10520 + }, + { + "epoch": 0.06736, + "grad_norm": 1.8811073303222656, + "learning_rate": 1.9550933333333336e-05, + "loss": 0.1114, + "step": 10525 + }, + { + "epoch": 0.067392, + "grad_norm": 1.1784735918045044, + "learning_rate": 1.955072e-05, + "loss": 0.1551, + "step": 10530 + }, + { + "epoch": 0.067424, + "grad_norm": 1.392141342163086, + "learning_rate": 1.9550506666666668e-05, + "loss": 0.1657, + "step": 10535 + }, + { + "epoch": 0.067456, + "grad_norm": 1.011049509048462, + "learning_rate": 1.9550293333333336e-05, + "loss": 0.1095, + "step": 10540 + }, + { + "epoch": 0.067488, + "grad_norm": 2.695396661758423, + "learning_rate": 1.9550080000000003e-05, + "loss": 0.149, + "step": 10545 + }, + { + "epoch": 0.06752, + "grad_norm": 1.3854972124099731, + "learning_rate": 1.9549866666666667e-05, + "loss": 0.1745, + "step": 10550 + }, + { + "epoch": 0.067552, + "grad_norm": 1.3852771520614624, + "learning_rate": 1.9549653333333335e-05, + "loss": 0.1375, + "step": 10555 + }, + { + "epoch": 0.067584, + "grad_norm": 1.9972171783447266, + "learning_rate": 1.9549440000000002e-05, + "loss": 0.1444, + "step": 10560 + }, + { + "epoch": 0.067616, + "grad_norm": 1.154148817062378, + "learning_rate": 1.9549226666666667e-05, + "loss": 0.1224, + "step": 10565 + }, + { + "epoch": 0.067648, + "grad_norm": 1.3582921028137207, + "learning_rate": 1.9549013333333334e-05, + "loss": 0.2027, + "step": 10570 + }, + { + "epoch": 0.06768, + "grad_norm": 2.748405933380127, + "learning_rate": 1.95488e-05, + "loss": 0.1336, + "step": 10575 + }, + { + "epoch": 0.067712, + "grad_norm": 1.4979819059371948, + "learning_rate": 1.954858666666667e-05, + "loss": 0.1039, + "step": 10580 + }, + { + "epoch": 0.067744, + "grad_norm": 0.911190927028656, + "learning_rate": 1.9548373333333333e-05, + "loss": 0.1252, + "step": 10585 + }, + { + "epoch": 0.067776, + "grad_norm": 2.102527618408203, + "learning_rate": 1.9548160000000004e-05, + "loss": 0.0856, + "step": 10590 + }, + { + "epoch": 0.067808, + "grad_norm": 0.7349776029586792, + "learning_rate": 1.954794666666667e-05, + "loss": 0.152, + "step": 10595 + }, + { + "epoch": 0.06784, + "grad_norm": 0.8304855823516846, + "learning_rate": 1.9547733333333333e-05, + "loss": 0.114, + "step": 10600 + }, + { + "epoch": 0.067872, + "grad_norm": 1.7589260339736938, + "learning_rate": 1.9547520000000004e-05, + "loss": 0.1842, + "step": 10605 + }, + { + "epoch": 0.067904, + "grad_norm": 1.2867703437805176, + "learning_rate": 1.9547306666666668e-05, + "loss": 0.1096, + "step": 10610 + }, + { + "epoch": 0.067936, + "grad_norm": 1.230418086051941, + "learning_rate": 1.9547093333333335e-05, + "loss": 0.1299, + "step": 10615 + }, + { + "epoch": 0.067968, + "grad_norm": 0.9931920170783997, + "learning_rate": 1.9546880000000003e-05, + "loss": 0.135, + "step": 10620 + }, + { + "epoch": 0.068, + "grad_norm": 1.523560643196106, + "learning_rate": 1.954666666666667e-05, + "loss": 0.2084, + "step": 10625 + }, + { + "epoch": 0.068032, + "grad_norm": 1.5907267332077026, + "learning_rate": 1.9546453333333335e-05, + "loss": 0.1595, + "step": 10630 + }, + { + "epoch": 0.068064, + "grad_norm": 0.975943922996521, + "learning_rate": 1.9546240000000002e-05, + "loss": 0.1639, + "step": 10635 + }, + { + "epoch": 0.068096, + "grad_norm": 1.3950530290603638, + "learning_rate": 1.954602666666667e-05, + "loss": 0.1393, + "step": 10640 + }, + { + "epoch": 0.068128, + "grad_norm": 0.8834568858146667, + "learning_rate": 1.9545813333333334e-05, + "loss": 0.1298, + "step": 10645 + }, + { + "epoch": 0.06816, + "grad_norm": 1.581648349761963, + "learning_rate": 1.95456e-05, + "loss": 0.1636, + "step": 10650 + }, + { + "epoch": 0.068192, + "grad_norm": 1.6657376289367676, + "learning_rate": 1.954538666666667e-05, + "loss": 0.1181, + "step": 10655 + }, + { + "epoch": 0.068224, + "grad_norm": 1.3618594408035278, + "learning_rate": 1.9545173333333336e-05, + "loss": 0.1291, + "step": 10660 + }, + { + "epoch": 0.068256, + "grad_norm": 1.0586109161376953, + "learning_rate": 1.954496e-05, + "loss": 0.128, + "step": 10665 + }, + { + "epoch": 0.068288, + "grad_norm": 3.0510056018829346, + "learning_rate": 1.9544746666666668e-05, + "loss": 0.2573, + "step": 10670 + }, + { + "epoch": 0.06832, + "grad_norm": 0.9584221243858337, + "learning_rate": 1.9544533333333336e-05, + "loss": 0.132, + "step": 10675 + }, + { + "epoch": 0.068352, + "grad_norm": 0.9770032167434692, + "learning_rate": 1.954432e-05, + "loss": 0.1173, + "step": 10680 + }, + { + "epoch": 0.068384, + "grad_norm": 1.1848706007003784, + "learning_rate": 1.9544106666666667e-05, + "loss": 0.1699, + "step": 10685 + }, + { + "epoch": 0.068416, + "grad_norm": 0.9378204941749573, + "learning_rate": 1.9543893333333335e-05, + "loss": 0.1355, + "step": 10690 + }, + { + "epoch": 0.068448, + "grad_norm": 2.3420259952545166, + "learning_rate": 1.9543680000000003e-05, + "loss": 0.1467, + "step": 10695 + }, + { + "epoch": 0.06848, + "grad_norm": 0.5113003849983215, + "learning_rate": 1.9543466666666667e-05, + "loss": 0.1064, + "step": 10700 + }, + { + "epoch": 0.068512, + "grad_norm": 5.352704048156738, + "learning_rate": 1.9543253333333334e-05, + "loss": 0.1388, + "step": 10705 + }, + { + "epoch": 0.068544, + "grad_norm": 2.018761396408081, + "learning_rate": 1.9543040000000002e-05, + "loss": 0.1433, + "step": 10710 + }, + { + "epoch": 0.068576, + "grad_norm": 1.0633304119110107, + "learning_rate": 1.9542826666666666e-05, + "loss": 0.1717, + "step": 10715 + }, + { + "epoch": 0.068608, + "grad_norm": 0.7000950574874878, + "learning_rate": 1.9542613333333337e-05, + "loss": 0.1434, + "step": 10720 + }, + { + "epoch": 0.06864, + "grad_norm": 1.3318191766738892, + "learning_rate": 1.95424e-05, + "loss": 0.1432, + "step": 10725 + }, + { + "epoch": 0.068672, + "grad_norm": 0.8994879126548767, + "learning_rate": 1.954218666666667e-05, + "loss": 0.1291, + "step": 10730 + }, + { + "epoch": 0.068704, + "grad_norm": 1.696595311164856, + "learning_rate": 1.9541973333333336e-05, + "loss": 0.1607, + "step": 10735 + }, + { + "epoch": 0.068736, + "grad_norm": 0.8244947791099548, + "learning_rate": 1.954176e-05, + "loss": 0.1365, + "step": 10740 + }, + { + "epoch": 0.068768, + "grad_norm": 1.467729926109314, + "learning_rate": 1.9541546666666668e-05, + "loss": 0.1496, + "step": 10745 + }, + { + "epoch": 0.0688, + "grad_norm": 1.3920546770095825, + "learning_rate": 1.9541333333333336e-05, + "loss": 0.0962, + "step": 10750 + }, + { + "epoch": 0.068832, + "grad_norm": 0.9974095225334167, + "learning_rate": 1.9541120000000003e-05, + "loss": 0.1927, + "step": 10755 + }, + { + "epoch": 0.068864, + "grad_norm": 1.3646795749664307, + "learning_rate": 1.9540906666666667e-05, + "loss": 0.1623, + "step": 10760 + }, + { + "epoch": 0.068896, + "grad_norm": 0.8709051609039307, + "learning_rate": 1.9540693333333335e-05, + "loss": 0.1668, + "step": 10765 + }, + { + "epoch": 0.068928, + "grad_norm": 2.355196952819824, + "learning_rate": 1.9540480000000002e-05, + "loss": 0.1127, + "step": 10770 + }, + { + "epoch": 0.06896, + "grad_norm": 1.2194744348526, + "learning_rate": 1.9540266666666667e-05, + "loss": 0.1212, + "step": 10775 + }, + { + "epoch": 0.068992, + "grad_norm": 0.6913681030273438, + "learning_rate": 1.9540053333333334e-05, + "loss": 0.1334, + "step": 10780 + }, + { + "epoch": 0.069024, + "grad_norm": 3.7667746543884277, + "learning_rate": 1.953984e-05, + "loss": 0.1365, + "step": 10785 + }, + { + "epoch": 0.069056, + "grad_norm": 1.0379858016967773, + "learning_rate": 1.953962666666667e-05, + "loss": 0.1269, + "step": 10790 + }, + { + "epoch": 0.069088, + "grad_norm": 0.8115246295928955, + "learning_rate": 1.9539413333333333e-05, + "loss": 0.1147, + "step": 10795 + }, + { + "epoch": 0.06912, + "grad_norm": 0.8285379409790039, + "learning_rate": 1.9539200000000004e-05, + "loss": 0.1403, + "step": 10800 + }, + { + "epoch": 0.069152, + "grad_norm": 1.830071210861206, + "learning_rate": 1.953898666666667e-05, + "loss": 0.1286, + "step": 10805 + }, + { + "epoch": 0.069184, + "grad_norm": 1.3434635400772095, + "learning_rate": 1.9538773333333333e-05, + "loss": 0.0926, + "step": 10810 + }, + { + "epoch": 0.069216, + "grad_norm": 0.5853714346885681, + "learning_rate": 1.9538560000000004e-05, + "loss": 0.1559, + "step": 10815 + }, + { + "epoch": 0.069248, + "grad_norm": 1.1862980127334595, + "learning_rate": 1.9538346666666668e-05, + "loss": 0.1468, + "step": 10820 + }, + { + "epoch": 0.06928, + "grad_norm": 1.306531310081482, + "learning_rate": 1.9538133333333335e-05, + "loss": 0.1204, + "step": 10825 + }, + { + "epoch": 0.069312, + "grad_norm": 1.1499513387680054, + "learning_rate": 1.9537920000000003e-05, + "loss": 0.1707, + "step": 10830 + }, + { + "epoch": 0.069344, + "grad_norm": 1.461342215538025, + "learning_rate": 1.953770666666667e-05, + "loss": 0.2039, + "step": 10835 + }, + { + "epoch": 0.069376, + "grad_norm": 1.3403695821762085, + "learning_rate": 1.9537493333333335e-05, + "loss": 0.1447, + "step": 10840 + }, + { + "epoch": 0.069408, + "grad_norm": 1.0947202444076538, + "learning_rate": 1.9537280000000002e-05, + "loss": 0.1139, + "step": 10845 + }, + { + "epoch": 0.06944, + "grad_norm": 1.2746174335479736, + "learning_rate": 1.953706666666667e-05, + "loss": 0.095, + "step": 10850 + }, + { + "epoch": 0.069472, + "grad_norm": 2.2359983921051025, + "learning_rate": 1.9536853333333334e-05, + "loss": 0.157, + "step": 10855 + }, + { + "epoch": 0.069504, + "grad_norm": 6.794982433319092, + "learning_rate": 1.953664e-05, + "loss": 0.1457, + "step": 10860 + }, + { + "epoch": 0.069536, + "grad_norm": 1.471779465675354, + "learning_rate": 1.953642666666667e-05, + "loss": 0.1676, + "step": 10865 + }, + { + "epoch": 0.069568, + "grad_norm": 1.8242545127868652, + "learning_rate": 1.9536213333333336e-05, + "loss": 0.1626, + "step": 10870 + }, + { + "epoch": 0.0696, + "grad_norm": 0.9621659517288208, + "learning_rate": 1.9536e-05, + "loss": 0.107, + "step": 10875 + }, + { + "epoch": 0.069632, + "grad_norm": 1.0532597303390503, + "learning_rate": 1.9535786666666668e-05, + "loss": 0.1132, + "step": 10880 + }, + { + "epoch": 0.069664, + "grad_norm": 0.8913982510566711, + "learning_rate": 1.9535573333333336e-05, + "loss": 0.1367, + "step": 10885 + }, + { + "epoch": 0.069696, + "grad_norm": 1.2230316400527954, + "learning_rate": 1.953536e-05, + "loss": 0.1566, + "step": 10890 + }, + { + "epoch": 0.069728, + "grad_norm": 0.7029418349266052, + "learning_rate": 1.9535146666666667e-05, + "loss": 0.1039, + "step": 10895 + }, + { + "epoch": 0.06976, + "grad_norm": 1.0334354639053345, + "learning_rate": 1.9534933333333335e-05, + "loss": 0.1357, + "step": 10900 + }, + { + "epoch": 0.069792, + "grad_norm": 0.7442273497581482, + "learning_rate": 1.9534720000000003e-05, + "loss": 0.0857, + "step": 10905 + }, + { + "epoch": 0.069824, + "grad_norm": 0.9048529863357544, + "learning_rate": 1.9534506666666667e-05, + "loss": 0.1726, + "step": 10910 + }, + { + "epoch": 0.069856, + "grad_norm": 1.1737562417984009, + "learning_rate": 1.9534293333333334e-05, + "loss": 0.1445, + "step": 10915 + }, + { + "epoch": 0.069888, + "grad_norm": 0.9312185049057007, + "learning_rate": 1.9534080000000002e-05, + "loss": 0.1572, + "step": 10920 + }, + { + "epoch": 0.06992, + "grad_norm": 1.6174813508987427, + "learning_rate": 1.9533866666666666e-05, + "loss": 0.1451, + "step": 10925 + }, + { + "epoch": 0.069952, + "grad_norm": 11.49340534210205, + "learning_rate": 1.9533653333333337e-05, + "loss": 0.1929, + "step": 10930 + }, + { + "epoch": 0.069984, + "grad_norm": 0.7677350640296936, + "learning_rate": 1.953344e-05, + "loss": 0.1504, + "step": 10935 + }, + { + "epoch": 0.070016, + "grad_norm": 2.1667535305023193, + "learning_rate": 1.953322666666667e-05, + "loss": 0.1294, + "step": 10940 + }, + { + "epoch": 0.070048, + "grad_norm": 0.8660073280334473, + "learning_rate": 1.9533013333333336e-05, + "loss": 0.1254, + "step": 10945 + }, + { + "epoch": 0.07008, + "grad_norm": 0.7908834218978882, + "learning_rate": 1.95328e-05, + "loss": 0.1592, + "step": 10950 + }, + { + "epoch": 0.070112, + "grad_norm": 0.9594764709472656, + "learning_rate": 1.9532586666666668e-05, + "loss": 0.1014, + "step": 10955 + }, + { + "epoch": 0.070144, + "grad_norm": 1.492055058479309, + "learning_rate": 1.9532373333333336e-05, + "loss": 0.1908, + "step": 10960 + }, + { + "epoch": 0.070176, + "grad_norm": 1.8650729656219482, + "learning_rate": 1.9532160000000003e-05, + "loss": 0.1594, + "step": 10965 + }, + { + "epoch": 0.070208, + "grad_norm": 0.7384423017501831, + "learning_rate": 1.9531946666666667e-05, + "loss": 0.089, + "step": 10970 + }, + { + "epoch": 0.07024, + "grad_norm": 1.157235860824585, + "learning_rate": 1.9531733333333335e-05, + "loss": 0.1426, + "step": 10975 + }, + { + "epoch": 0.070272, + "grad_norm": 0.7553426027297974, + "learning_rate": 1.9531520000000002e-05, + "loss": 0.1168, + "step": 10980 + }, + { + "epoch": 0.070304, + "grad_norm": 0.9498768448829651, + "learning_rate": 1.9531306666666667e-05, + "loss": 0.1266, + "step": 10985 + }, + { + "epoch": 0.070336, + "grad_norm": 1.4208427667617798, + "learning_rate": 1.9531093333333334e-05, + "loss": 0.1465, + "step": 10990 + }, + { + "epoch": 0.070368, + "grad_norm": 1.325822353363037, + "learning_rate": 1.953088e-05, + "loss": 0.1283, + "step": 10995 + }, + { + "epoch": 0.0704, + "grad_norm": 0.896805465221405, + "learning_rate": 1.953066666666667e-05, + "loss": 0.1181, + "step": 11000 + }, + { + "epoch": 0.070432, + "grad_norm": 0.6642933487892151, + "learning_rate": 1.9530453333333333e-05, + "loss": 0.1453, + "step": 11005 + }, + { + "epoch": 0.070464, + "grad_norm": 1.4571796655654907, + "learning_rate": 1.953024e-05, + "loss": 0.2088, + "step": 11010 + }, + { + "epoch": 0.070496, + "grad_norm": 8.31596565246582, + "learning_rate": 1.953002666666667e-05, + "loss": 0.1194, + "step": 11015 + }, + { + "epoch": 0.070528, + "grad_norm": 0.9430341124534607, + "learning_rate": 1.9529813333333333e-05, + "loss": 0.1554, + "step": 11020 + }, + { + "epoch": 0.07056, + "grad_norm": 1.4059340953826904, + "learning_rate": 1.9529600000000004e-05, + "loss": 0.1221, + "step": 11025 + }, + { + "epoch": 0.070592, + "grad_norm": 1.1357365846633911, + "learning_rate": 1.9529386666666668e-05, + "loss": 0.1652, + "step": 11030 + }, + { + "epoch": 0.070624, + "grad_norm": 0.8593047261238098, + "learning_rate": 1.9529173333333335e-05, + "loss": 0.1773, + "step": 11035 + }, + { + "epoch": 0.070656, + "grad_norm": 1.6740955114364624, + "learning_rate": 1.9528960000000003e-05, + "loss": 0.1646, + "step": 11040 + }, + { + "epoch": 0.070688, + "grad_norm": 2.2117087841033936, + "learning_rate": 1.952874666666667e-05, + "loss": 0.1589, + "step": 11045 + }, + { + "epoch": 0.07072, + "grad_norm": 1.336666464805603, + "learning_rate": 1.9528533333333335e-05, + "loss": 0.1977, + "step": 11050 + }, + { + "epoch": 0.070752, + "grad_norm": 1.2300817966461182, + "learning_rate": 1.9528320000000002e-05, + "loss": 0.1224, + "step": 11055 + }, + { + "epoch": 0.070784, + "grad_norm": 1.1536779403686523, + "learning_rate": 1.952810666666667e-05, + "loss": 0.1007, + "step": 11060 + }, + { + "epoch": 0.070816, + "grad_norm": 1.3909856081008911, + "learning_rate": 1.9527893333333334e-05, + "loss": 0.1306, + "step": 11065 + }, + { + "epoch": 0.070848, + "grad_norm": 1.0753685235977173, + "learning_rate": 1.952768e-05, + "loss": 0.13, + "step": 11070 + }, + { + "epoch": 0.07088, + "grad_norm": 0.7668283581733704, + "learning_rate": 1.952746666666667e-05, + "loss": 0.1462, + "step": 11075 + }, + { + "epoch": 0.070912, + "grad_norm": 0.9805552363395691, + "learning_rate": 1.9527253333333336e-05, + "loss": 0.1816, + "step": 11080 + }, + { + "epoch": 0.070944, + "grad_norm": 1.009785532951355, + "learning_rate": 1.952704e-05, + "loss": 0.1387, + "step": 11085 + }, + { + "epoch": 0.070976, + "grad_norm": 1.4951369762420654, + "learning_rate": 1.9526826666666668e-05, + "loss": 0.1216, + "step": 11090 + }, + { + "epoch": 0.071008, + "grad_norm": 1.8817839622497559, + "learning_rate": 1.9526613333333336e-05, + "loss": 0.1435, + "step": 11095 + }, + { + "epoch": 0.07104, + "grad_norm": 0.8879979252815247, + "learning_rate": 1.95264e-05, + "loss": 0.1179, + "step": 11100 + }, + { + "epoch": 0.071072, + "grad_norm": 1.3713594675064087, + "learning_rate": 1.9526186666666667e-05, + "loss": 0.116, + "step": 11105 + }, + { + "epoch": 0.071104, + "grad_norm": 1.1491632461547852, + "learning_rate": 1.9525973333333335e-05, + "loss": 0.164, + "step": 11110 + }, + { + "epoch": 0.071136, + "grad_norm": 3.6864736080169678, + "learning_rate": 1.9525760000000003e-05, + "loss": 0.1508, + "step": 11115 + }, + { + "epoch": 0.071168, + "grad_norm": 0.9622429609298706, + "learning_rate": 1.9525546666666667e-05, + "loss": 0.151, + "step": 11120 + }, + { + "epoch": 0.0712, + "grad_norm": 1.00595223903656, + "learning_rate": 1.9525333333333334e-05, + "loss": 0.104, + "step": 11125 + }, + { + "epoch": 0.071232, + "grad_norm": 1.049741268157959, + "learning_rate": 1.9525120000000002e-05, + "loss": 0.1444, + "step": 11130 + }, + { + "epoch": 0.071264, + "grad_norm": 1.2168903350830078, + "learning_rate": 1.9524906666666666e-05, + "loss": 0.1594, + "step": 11135 + }, + { + "epoch": 0.071296, + "grad_norm": 1.1372565031051636, + "learning_rate": 1.9524693333333337e-05, + "loss": 0.1353, + "step": 11140 + }, + { + "epoch": 0.071328, + "grad_norm": 1.1448330879211426, + "learning_rate": 1.952448e-05, + "loss": 0.1896, + "step": 11145 + }, + { + "epoch": 0.07136, + "grad_norm": 0.6709342002868652, + "learning_rate": 1.952426666666667e-05, + "loss": 0.1084, + "step": 11150 + }, + { + "epoch": 0.071392, + "grad_norm": 1.4612149000167847, + "learning_rate": 1.9524053333333336e-05, + "loss": 0.1546, + "step": 11155 + }, + { + "epoch": 0.071424, + "grad_norm": 3.35150146484375, + "learning_rate": 1.952384e-05, + "loss": 0.1591, + "step": 11160 + }, + { + "epoch": 0.071456, + "grad_norm": 1.3351800441741943, + "learning_rate": 1.9523626666666668e-05, + "loss": 0.159, + "step": 11165 + }, + { + "epoch": 0.071488, + "grad_norm": 1.7995927333831787, + "learning_rate": 1.9523413333333336e-05, + "loss": 0.147, + "step": 11170 + }, + { + "epoch": 0.07152, + "grad_norm": 0.8154654502868652, + "learning_rate": 1.9523200000000003e-05, + "loss": 0.1394, + "step": 11175 + }, + { + "epoch": 0.071552, + "grad_norm": 0.5830126404762268, + "learning_rate": 1.9522986666666667e-05, + "loss": 0.1184, + "step": 11180 + }, + { + "epoch": 0.071584, + "grad_norm": 1.1296029090881348, + "learning_rate": 1.9522773333333335e-05, + "loss": 0.121, + "step": 11185 + }, + { + "epoch": 0.071616, + "grad_norm": 1.0402123928070068, + "learning_rate": 1.9522560000000002e-05, + "loss": 0.1273, + "step": 11190 + }, + { + "epoch": 0.071648, + "grad_norm": 1.0271787643432617, + "learning_rate": 1.9522346666666667e-05, + "loss": 0.1215, + "step": 11195 + }, + { + "epoch": 0.07168, + "grad_norm": 1.8767231702804565, + "learning_rate": 1.9522133333333334e-05, + "loss": 0.1161, + "step": 11200 + }, + { + "epoch": 0.071712, + "grad_norm": 0.9489032030105591, + "learning_rate": 1.952192e-05, + "loss": 0.1562, + "step": 11205 + }, + { + "epoch": 0.071744, + "grad_norm": 6.4845709800720215, + "learning_rate": 1.952170666666667e-05, + "loss": 0.1117, + "step": 11210 + }, + { + "epoch": 0.071776, + "grad_norm": 1.2193409204483032, + "learning_rate": 1.9521493333333333e-05, + "loss": 0.1623, + "step": 11215 + }, + { + "epoch": 0.071808, + "grad_norm": 5.182950973510742, + "learning_rate": 1.952128e-05, + "loss": 0.1868, + "step": 11220 + }, + { + "epoch": 0.07184, + "grad_norm": 2.6673569679260254, + "learning_rate": 1.952106666666667e-05, + "loss": 0.1486, + "step": 11225 + }, + { + "epoch": 0.071872, + "grad_norm": 1.503827452659607, + "learning_rate": 1.9520853333333333e-05, + "loss": 0.1504, + "step": 11230 + }, + { + "epoch": 0.071904, + "grad_norm": 1.110098958015442, + "learning_rate": 1.952064e-05, + "loss": 0.2212, + "step": 11235 + }, + { + "epoch": 0.071936, + "grad_norm": 1.2728215456008911, + "learning_rate": 1.9520426666666668e-05, + "loss": 0.1697, + "step": 11240 + }, + { + "epoch": 0.071968, + "grad_norm": 1.2443839311599731, + "learning_rate": 1.9520213333333335e-05, + "loss": 0.1341, + "step": 11245 + }, + { + "epoch": 0.072, + "grad_norm": 0.8851022124290466, + "learning_rate": 1.9520000000000003e-05, + "loss": 0.1039, + "step": 11250 + }, + { + "epoch": 0.072032, + "grad_norm": 11.438288688659668, + "learning_rate": 1.951978666666667e-05, + "loss": 0.1982, + "step": 11255 + }, + { + "epoch": 0.072064, + "grad_norm": 1.2471320629119873, + "learning_rate": 1.9519573333333335e-05, + "loss": 0.1501, + "step": 11260 + }, + { + "epoch": 0.072096, + "grad_norm": 1.063056230545044, + "learning_rate": 1.9519360000000002e-05, + "loss": 0.1338, + "step": 11265 + }, + { + "epoch": 0.072128, + "grad_norm": 1.325162410736084, + "learning_rate": 1.951914666666667e-05, + "loss": 0.1568, + "step": 11270 + }, + { + "epoch": 0.07216, + "grad_norm": 0.7340787053108215, + "learning_rate": 1.9518933333333334e-05, + "loss": 0.0943, + "step": 11275 + }, + { + "epoch": 0.072192, + "grad_norm": 2.2624008655548096, + "learning_rate": 1.951872e-05, + "loss": 0.1564, + "step": 11280 + }, + { + "epoch": 0.072224, + "grad_norm": 1.2678377628326416, + "learning_rate": 1.951850666666667e-05, + "loss": 0.1677, + "step": 11285 + }, + { + "epoch": 0.072256, + "grad_norm": 1.459445834159851, + "learning_rate": 1.9518293333333337e-05, + "loss": 0.1155, + "step": 11290 + }, + { + "epoch": 0.072288, + "grad_norm": 1.544034719467163, + "learning_rate": 1.951808e-05, + "loss": 0.179, + "step": 11295 + }, + { + "epoch": 0.07232, + "grad_norm": 0.7604386806488037, + "learning_rate": 1.9517866666666668e-05, + "loss": 0.1106, + "step": 11300 + }, + { + "epoch": 0.072352, + "grad_norm": 1.1479175090789795, + "learning_rate": 1.9517653333333336e-05, + "loss": 0.1254, + "step": 11305 + }, + { + "epoch": 0.072384, + "grad_norm": 1.063813328742981, + "learning_rate": 1.951744e-05, + "loss": 0.0846, + "step": 11310 + }, + { + "epoch": 0.072416, + "grad_norm": 1.4353030920028687, + "learning_rate": 1.9517226666666667e-05, + "loss": 0.1251, + "step": 11315 + }, + { + "epoch": 0.072448, + "grad_norm": 1.190551519393921, + "learning_rate": 1.9517013333333335e-05, + "loss": 0.1572, + "step": 11320 + }, + { + "epoch": 0.07248, + "grad_norm": 1.050115704536438, + "learning_rate": 1.9516800000000003e-05, + "loss": 0.1418, + "step": 11325 + }, + { + "epoch": 0.072512, + "grad_norm": 1.5230399370193481, + "learning_rate": 1.9516586666666667e-05, + "loss": 0.1116, + "step": 11330 + }, + { + "epoch": 0.072544, + "grad_norm": 0.8174132704734802, + "learning_rate": 1.9516373333333334e-05, + "loss": 0.1276, + "step": 11335 + }, + { + "epoch": 0.072576, + "grad_norm": 0.707564115524292, + "learning_rate": 1.9516160000000002e-05, + "loss": 0.1413, + "step": 11340 + }, + { + "epoch": 0.072608, + "grad_norm": 0.8028178215026855, + "learning_rate": 1.9515946666666666e-05, + "loss": 0.1104, + "step": 11345 + }, + { + "epoch": 0.07264, + "grad_norm": 1.0130486488342285, + "learning_rate": 1.9515733333333337e-05, + "loss": 0.1523, + "step": 11350 + }, + { + "epoch": 0.072672, + "grad_norm": 1.3322808742523193, + "learning_rate": 1.951552e-05, + "loss": 0.1218, + "step": 11355 + }, + { + "epoch": 0.072704, + "grad_norm": 1.3082752227783203, + "learning_rate": 1.951530666666667e-05, + "loss": 0.1005, + "step": 11360 + }, + { + "epoch": 0.072736, + "grad_norm": 0.8755704760551453, + "learning_rate": 1.9515093333333336e-05, + "loss": 0.1618, + "step": 11365 + }, + { + "epoch": 0.072768, + "grad_norm": 0.8792575001716614, + "learning_rate": 1.951488e-05, + "loss": 0.1186, + "step": 11370 + }, + { + "epoch": 0.0728, + "grad_norm": 5.9901580810546875, + "learning_rate": 1.9514666666666668e-05, + "loss": 0.1272, + "step": 11375 + }, + { + "epoch": 0.072832, + "grad_norm": 0.8352531790733337, + "learning_rate": 1.9514453333333336e-05, + "loss": 0.1278, + "step": 11380 + }, + { + "epoch": 0.072864, + "grad_norm": 0.4176015853881836, + "learning_rate": 1.9514240000000003e-05, + "loss": 0.1083, + "step": 11385 + }, + { + "epoch": 0.072896, + "grad_norm": 1.2146497964859009, + "learning_rate": 1.9514026666666667e-05, + "loss": 0.1005, + "step": 11390 + }, + { + "epoch": 0.072928, + "grad_norm": 1.659928798675537, + "learning_rate": 1.9513813333333335e-05, + "loss": 0.1369, + "step": 11395 + }, + { + "epoch": 0.07296, + "grad_norm": 1.006922721862793, + "learning_rate": 1.9513600000000002e-05, + "loss": 0.0922, + "step": 11400 + }, + { + "epoch": 0.072992, + "grad_norm": 1.1445353031158447, + "learning_rate": 1.951338666666667e-05, + "loss": 0.1378, + "step": 11405 + }, + { + "epoch": 0.073024, + "grad_norm": 1.4405498504638672, + "learning_rate": 1.9513173333333334e-05, + "loss": 0.1212, + "step": 11410 + }, + { + "epoch": 0.073056, + "grad_norm": 2.3031997680664062, + "learning_rate": 1.951296e-05, + "loss": 0.1722, + "step": 11415 + }, + { + "epoch": 0.073088, + "grad_norm": 1.1157878637313843, + "learning_rate": 1.951274666666667e-05, + "loss": 0.1543, + "step": 11420 + }, + { + "epoch": 0.07312, + "grad_norm": 1.8096975088119507, + "learning_rate": 1.9512533333333333e-05, + "loss": 0.1248, + "step": 11425 + }, + { + "epoch": 0.073152, + "grad_norm": 3.310462236404419, + "learning_rate": 1.951232e-05, + "loss": 0.1618, + "step": 11430 + }, + { + "epoch": 0.073184, + "grad_norm": 9.294960021972656, + "learning_rate": 1.951210666666667e-05, + "loss": 0.1318, + "step": 11435 + }, + { + "epoch": 0.073216, + "grad_norm": 2.3056397438049316, + "learning_rate": 1.9511893333333336e-05, + "loss": 0.0736, + "step": 11440 + }, + { + "epoch": 0.073248, + "grad_norm": 1.6653642654418945, + "learning_rate": 1.951168e-05, + "loss": 0.1048, + "step": 11445 + }, + { + "epoch": 0.07328, + "grad_norm": 1.4766072034835815, + "learning_rate": 1.9511466666666668e-05, + "loss": 0.0846, + "step": 11450 + }, + { + "epoch": 0.073312, + "grad_norm": 2.806464195251465, + "learning_rate": 1.9511253333333335e-05, + "loss": 0.1632, + "step": 11455 + }, + { + "epoch": 0.073344, + "grad_norm": 0.8439993262290955, + "learning_rate": 1.951104e-05, + "loss": 0.1346, + "step": 11460 + }, + { + "epoch": 0.073376, + "grad_norm": 1.9717298746109009, + "learning_rate": 1.951082666666667e-05, + "loss": 0.1797, + "step": 11465 + }, + { + "epoch": 0.073408, + "grad_norm": 1.4513486623764038, + "learning_rate": 1.9510613333333335e-05, + "loss": 0.1691, + "step": 11470 + }, + { + "epoch": 0.07344, + "grad_norm": 0.7440598607063293, + "learning_rate": 1.9510400000000002e-05, + "loss": 0.1557, + "step": 11475 + }, + { + "epoch": 0.073472, + "grad_norm": 0.9462094902992249, + "learning_rate": 1.951018666666667e-05, + "loss": 0.1054, + "step": 11480 + }, + { + "epoch": 0.073504, + "grad_norm": 1.5677696466445923, + "learning_rate": 1.9509973333333334e-05, + "loss": 0.1903, + "step": 11485 + }, + { + "epoch": 0.073536, + "grad_norm": 1.071807861328125, + "learning_rate": 1.950976e-05, + "loss": 0.1171, + "step": 11490 + }, + { + "epoch": 0.073568, + "grad_norm": 1.4170069694519043, + "learning_rate": 1.950954666666667e-05, + "loss": 0.129, + "step": 11495 + }, + { + "epoch": 0.0736, + "grad_norm": 1.063082218170166, + "learning_rate": 1.9509333333333337e-05, + "loss": 0.1107, + "step": 11500 + }, + { + "epoch": 0.073632, + "grad_norm": 1.160535216331482, + "learning_rate": 1.950912e-05, + "loss": 0.0901, + "step": 11505 + }, + { + "epoch": 0.073664, + "grad_norm": 1.0216243267059326, + "learning_rate": 1.9508906666666668e-05, + "loss": 0.1362, + "step": 11510 + }, + { + "epoch": 0.073696, + "grad_norm": 0.6839653253555298, + "learning_rate": 1.9508693333333336e-05, + "loss": 0.1018, + "step": 11515 + }, + { + "epoch": 0.073728, + "grad_norm": 1.038321614265442, + "learning_rate": 1.950848e-05, + "loss": 0.1442, + "step": 11520 + }, + { + "epoch": 0.07376, + "grad_norm": 0.8667789697647095, + "learning_rate": 1.9508266666666667e-05, + "loss": 0.112, + "step": 11525 + }, + { + "epoch": 0.073792, + "grad_norm": 1.604347586631775, + "learning_rate": 1.9508053333333335e-05, + "loss": 0.1583, + "step": 11530 + }, + { + "epoch": 0.073824, + "grad_norm": 1.5039888620376587, + "learning_rate": 1.9507840000000003e-05, + "loss": 0.1397, + "step": 11535 + }, + { + "epoch": 0.073856, + "grad_norm": 1.2874330282211304, + "learning_rate": 1.9507626666666667e-05, + "loss": 0.1842, + "step": 11540 + }, + { + "epoch": 0.073888, + "grad_norm": 1.0170598030090332, + "learning_rate": 1.9507413333333334e-05, + "loss": 0.1652, + "step": 11545 + }, + { + "epoch": 0.07392, + "grad_norm": 3.1646697521209717, + "learning_rate": 1.9507200000000002e-05, + "loss": 0.1495, + "step": 11550 + }, + { + "epoch": 0.073952, + "grad_norm": 0.990113377571106, + "learning_rate": 1.9506986666666666e-05, + "loss": 0.097, + "step": 11555 + }, + { + "epoch": 0.073984, + "grad_norm": 0.4285274147987366, + "learning_rate": 1.9506773333333337e-05, + "loss": 0.1419, + "step": 11560 + }, + { + "epoch": 0.074016, + "grad_norm": 1.5539499521255493, + "learning_rate": 1.950656e-05, + "loss": 0.1197, + "step": 11565 + }, + { + "epoch": 0.074048, + "grad_norm": 1.0665347576141357, + "learning_rate": 1.950634666666667e-05, + "loss": 0.1485, + "step": 11570 + }, + { + "epoch": 0.07408, + "grad_norm": 0.9316331744194031, + "learning_rate": 1.9506133333333336e-05, + "loss": 0.1141, + "step": 11575 + }, + { + "epoch": 0.074112, + "grad_norm": 1.4356569051742554, + "learning_rate": 1.9505920000000004e-05, + "loss": 0.1883, + "step": 11580 + }, + { + "epoch": 0.074144, + "grad_norm": 1.0264414548873901, + "learning_rate": 1.9505706666666668e-05, + "loss": 0.156, + "step": 11585 + }, + { + "epoch": 0.074176, + "grad_norm": 1.515404224395752, + "learning_rate": 1.9505493333333336e-05, + "loss": 0.1539, + "step": 11590 + }, + { + "epoch": 0.074208, + "grad_norm": 1.5590729713439941, + "learning_rate": 1.9505280000000003e-05, + "loss": 0.1517, + "step": 11595 + }, + { + "epoch": 0.07424, + "grad_norm": 1.141165018081665, + "learning_rate": 1.9505066666666667e-05, + "loss": 0.1241, + "step": 11600 + }, + { + "epoch": 0.074272, + "grad_norm": 1.2239596843719482, + "learning_rate": 1.9504853333333335e-05, + "loss": 0.0979, + "step": 11605 + }, + { + "epoch": 0.074304, + "grad_norm": 3.9401204586029053, + "learning_rate": 1.9504640000000002e-05, + "loss": 0.1204, + "step": 11610 + }, + { + "epoch": 0.074336, + "grad_norm": 1.0025361776351929, + "learning_rate": 1.950442666666667e-05, + "loss": 0.1253, + "step": 11615 + }, + { + "epoch": 0.074368, + "grad_norm": 6.003341197967529, + "learning_rate": 1.9504213333333334e-05, + "loss": 0.1464, + "step": 11620 + }, + { + "epoch": 0.0744, + "grad_norm": 1.1130146980285645, + "learning_rate": 1.9504e-05, + "loss": 0.1148, + "step": 11625 + }, + { + "epoch": 0.074432, + "grad_norm": 1.1446915864944458, + "learning_rate": 1.950378666666667e-05, + "loss": 0.1688, + "step": 11630 + }, + { + "epoch": 0.074464, + "grad_norm": 0.8489137291908264, + "learning_rate": 1.9503573333333333e-05, + "loss": 0.1242, + "step": 11635 + }, + { + "epoch": 0.074496, + "grad_norm": 1.2082480192184448, + "learning_rate": 1.950336e-05, + "loss": 0.1251, + "step": 11640 + }, + { + "epoch": 0.074528, + "grad_norm": 1.9988610744476318, + "learning_rate": 1.950314666666667e-05, + "loss": 0.1699, + "step": 11645 + }, + { + "epoch": 0.07456, + "grad_norm": 0.7400054931640625, + "learning_rate": 1.9502933333333336e-05, + "loss": 0.1766, + "step": 11650 + }, + { + "epoch": 0.074592, + "grad_norm": 1.184114694595337, + "learning_rate": 1.950272e-05, + "loss": 0.1869, + "step": 11655 + }, + { + "epoch": 0.074624, + "grad_norm": 1.1781182289123535, + "learning_rate": 1.9502506666666668e-05, + "loss": 0.1324, + "step": 11660 + }, + { + "epoch": 0.074656, + "grad_norm": 1.0994716882705688, + "learning_rate": 1.9502293333333335e-05, + "loss": 0.1186, + "step": 11665 + }, + { + "epoch": 0.074688, + "grad_norm": 2.9016618728637695, + "learning_rate": 1.950208e-05, + "loss": 0.1927, + "step": 11670 + }, + { + "epoch": 0.07472, + "grad_norm": 1.266798973083496, + "learning_rate": 1.950186666666667e-05, + "loss": 0.1678, + "step": 11675 + }, + { + "epoch": 0.074752, + "grad_norm": 3.2311489582061768, + "learning_rate": 1.9501653333333335e-05, + "loss": 0.1745, + "step": 11680 + }, + { + "epoch": 0.074784, + "grad_norm": 0.9611661434173584, + "learning_rate": 1.9501440000000002e-05, + "loss": 0.1595, + "step": 11685 + }, + { + "epoch": 0.074816, + "grad_norm": 1.1308799982070923, + "learning_rate": 1.950122666666667e-05, + "loss": 0.1187, + "step": 11690 + }, + { + "epoch": 0.074848, + "grad_norm": 3.1288747787475586, + "learning_rate": 1.9501013333333334e-05, + "loss": 0.0793, + "step": 11695 + }, + { + "epoch": 0.07488, + "grad_norm": 0.7134240865707397, + "learning_rate": 1.95008e-05, + "loss": 0.1795, + "step": 11700 + }, + { + "epoch": 0.074912, + "grad_norm": 0.5785374045372009, + "learning_rate": 1.950058666666667e-05, + "loss": 0.1046, + "step": 11705 + }, + { + "epoch": 0.074944, + "grad_norm": 1.5729758739471436, + "learning_rate": 1.9500373333333337e-05, + "loss": 0.1221, + "step": 11710 + }, + { + "epoch": 0.074976, + "grad_norm": 3.7379987239837646, + "learning_rate": 1.950016e-05, + "loss": 0.1385, + "step": 11715 + }, + { + "epoch": 0.075008, + "grad_norm": 0.8305572867393494, + "learning_rate": 1.9499946666666668e-05, + "loss": 0.1291, + "step": 11720 + }, + { + "epoch": 0.07504, + "grad_norm": 0.765654444694519, + "learning_rate": 1.9499733333333336e-05, + "loss": 0.0868, + "step": 11725 + }, + { + "epoch": 0.075072, + "grad_norm": 1.094438910484314, + "learning_rate": 1.949952e-05, + "loss": 0.1321, + "step": 11730 + }, + { + "epoch": 0.075104, + "grad_norm": 1.3156861066818237, + "learning_rate": 1.9499306666666668e-05, + "loss": 0.144, + "step": 11735 + }, + { + "epoch": 0.075136, + "grad_norm": 1.2320964336395264, + "learning_rate": 1.9499093333333335e-05, + "loss": 0.1061, + "step": 11740 + }, + { + "epoch": 0.075168, + "grad_norm": 1.7920608520507812, + "learning_rate": 1.9498880000000003e-05, + "loss": 0.1201, + "step": 11745 + }, + { + "epoch": 0.0752, + "grad_norm": 1.2814761400222778, + "learning_rate": 1.9498666666666667e-05, + "loss": 0.1334, + "step": 11750 + }, + { + "epoch": 0.075232, + "grad_norm": 1.2636370658874512, + "learning_rate": 1.9498453333333334e-05, + "loss": 0.0847, + "step": 11755 + }, + { + "epoch": 0.075264, + "grad_norm": 2.60929012298584, + "learning_rate": 1.9498240000000002e-05, + "loss": 0.1383, + "step": 11760 + }, + { + "epoch": 0.075296, + "grad_norm": 1.34501314163208, + "learning_rate": 1.9498026666666666e-05, + "loss": 0.1147, + "step": 11765 + }, + { + "epoch": 0.075328, + "grad_norm": 2.7074148654937744, + "learning_rate": 1.9497813333333334e-05, + "loss": 0.1227, + "step": 11770 + }, + { + "epoch": 0.07536, + "grad_norm": 4.755311489105225, + "learning_rate": 1.94976e-05, + "loss": 0.1029, + "step": 11775 + }, + { + "epoch": 0.075392, + "grad_norm": 1.1318279504776, + "learning_rate": 1.949738666666667e-05, + "loss": 0.1463, + "step": 11780 + }, + { + "epoch": 0.075424, + "grad_norm": 1.2062596082687378, + "learning_rate": 1.9497173333333336e-05, + "loss": 0.1246, + "step": 11785 + }, + { + "epoch": 0.075456, + "grad_norm": 1.0805978775024414, + "learning_rate": 1.9496960000000004e-05, + "loss": 0.1262, + "step": 11790 + }, + { + "epoch": 0.075488, + "grad_norm": 2.1322672367095947, + "learning_rate": 1.9496746666666668e-05, + "loss": 0.1282, + "step": 11795 + }, + { + "epoch": 0.07552, + "grad_norm": 5.642668724060059, + "learning_rate": 1.9496533333333336e-05, + "loss": 0.1515, + "step": 11800 + }, + { + "epoch": 0.075552, + "grad_norm": 1.0559759140014648, + "learning_rate": 1.9496320000000003e-05, + "loss": 0.1701, + "step": 11805 + }, + { + "epoch": 0.075584, + "grad_norm": 1.3384644985198975, + "learning_rate": 1.9496106666666667e-05, + "loss": 0.1281, + "step": 11810 + }, + { + "epoch": 0.075616, + "grad_norm": 0.8765466213226318, + "learning_rate": 1.9495893333333335e-05, + "loss": 0.1305, + "step": 11815 + }, + { + "epoch": 0.075648, + "grad_norm": 0.9014458060264587, + "learning_rate": 1.9495680000000002e-05, + "loss": 0.1398, + "step": 11820 + }, + { + "epoch": 0.07568, + "grad_norm": 1.617753267288208, + "learning_rate": 1.949546666666667e-05, + "loss": 0.1286, + "step": 11825 + }, + { + "epoch": 0.075712, + "grad_norm": 1.0823148488998413, + "learning_rate": 1.9495253333333334e-05, + "loss": 0.1381, + "step": 11830 + }, + { + "epoch": 0.075744, + "grad_norm": 1.424256443977356, + "learning_rate": 1.949504e-05, + "loss": 0.183, + "step": 11835 + }, + { + "epoch": 0.075776, + "grad_norm": 1.3539737462997437, + "learning_rate": 1.949482666666667e-05, + "loss": 0.1575, + "step": 11840 + }, + { + "epoch": 0.075808, + "grad_norm": 1.562162160873413, + "learning_rate": 1.9494613333333333e-05, + "loss": 0.1666, + "step": 11845 + }, + { + "epoch": 0.07584, + "grad_norm": 1.1878002882003784, + "learning_rate": 1.94944e-05, + "loss": 0.1342, + "step": 11850 + }, + { + "epoch": 0.075872, + "grad_norm": 0.8993897438049316, + "learning_rate": 1.949418666666667e-05, + "loss": 0.1304, + "step": 11855 + }, + { + "epoch": 0.075904, + "grad_norm": 1.074427604675293, + "learning_rate": 1.9493973333333336e-05, + "loss": 0.0825, + "step": 11860 + }, + { + "epoch": 0.075936, + "grad_norm": 0.8240259885787964, + "learning_rate": 1.949376e-05, + "loss": 0.1042, + "step": 11865 + }, + { + "epoch": 0.075968, + "grad_norm": 1.094044804573059, + "learning_rate": 1.9493546666666668e-05, + "loss": 0.1012, + "step": 11870 + }, + { + "epoch": 0.076, + "grad_norm": 0.7594157457351685, + "learning_rate": 1.9493333333333335e-05, + "loss": 0.0929, + "step": 11875 + }, + { + "epoch": 0.076032, + "grad_norm": 0.8931233882904053, + "learning_rate": 1.949312e-05, + "loss": 0.106, + "step": 11880 + }, + { + "epoch": 0.076064, + "grad_norm": 1.413175344467163, + "learning_rate": 1.949290666666667e-05, + "loss": 0.1641, + "step": 11885 + }, + { + "epoch": 0.076096, + "grad_norm": 1.9326024055480957, + "learning_rate": 1.9492693333333335e-05, + "loss": 0.1402, + "step": 11890 + }, + { + "epoch": 0.076128, + "grad_norm": 1.9400707483291626, + "learning_rate": 1.9492480000000002e-05, + "loss": 0.1165, + "step": 11895 + }, + { + "epoch": 0.07616, + "grad_norm": 0.9222548604011536, + "learning_rate": 1.949226666666667e-05, + "loss": 0.1251, + "step": 11900 + }, + { + "epoch": 0.076192, + "grad_norm": 0.8890534043312073, + "learning_rate": 1.9492053333333334e-05, + "loss": 0.1438, + "step": 11905 + }, + { + "epoch": 0.076224, + "grad_norm": 1.0811222791671753, + "learning_rate": 1.949184e-05, + "loss": 0.116, + "step": 11910 + }, + { + "epoch": 0.076256, + "grad_norm": 0.7368424534797668, + "learning_rate": 1.949162666666667e-05, + "loss": 0.1183, + "step": 11915 + }, + { + "epoch": 0.076288, + "grad_norm": 1.026262879371643, + "learning_rate": 1.9491413333333337e-05, + "loss": 0.1297, + "step": 11920 + }, + { + "epoch": 0.07632, + "grad_norm": 1.5546669960021973, + "learning_rate": 1.94912e-05, + "loss": 0.1465, + "step": 11925 + }, + { + "epoch": 0.076352, + "grad_norm": 0.8099391460418701, + "learning_rate": 1.9490986666666668e-05, + "loss": 0.1295, + "step": 11930 + }, + { + "epoch": 0.076384, + "grad_norm": 0.6974461674690247, + "learning_rate": 1.9490773333333336e-05, + "loss": 0.1434, + "step": 11935 + }, + { + "epoch": 0.076416, + "grad_norm": 0.7222439050674438, + "learning_rate": 1.949056e-05, + "loss": 0.1638, + "step": 11940 + }, + { + "epoch": 0.076448, + "grad_norm": 1.8121984004974365, + "learning_rate": 1.9490346666666668e-05, + "loss": 0.1347, + "step": 11945 + }, + { + "epoch": 0.07648, + "grad_norm": 1.4413435459136963, + "learning_rate": 1.9490133333333335e-05, + "loss": 0.1381, + "step": 11950 + }, + { + "epoch": 0.076512, + "grad_norm": 2.1139469146728516, + "learning_rate": 1.9489920000000003e-05, + "loss": 0.1102, + "step": 11955 + }, + { + "epoch": 0.076544, + "grad_norm": 2.389075517654419, + "learning_rate": 1.9489706666666667e-05, + "loss": 0.118, + "step": 11960 + }, + { + "epoch": 0.076576, + "grad_norm": 0.9162579774856567, + "learning_rate": 1.9489493333333334e-05, + "loss": 0.1491, + "step": 11965 + }, + { + "epoch": 0.076608, + "grad_norm": 1.5764859914779663, + "learning_rate": 1.9489280000000002e-05, + "loss": 0.1338, + "step": 11970 + }, + { + "epoch": 0.07664, + "grad_norm": 1.0781744718551636, + "learning_rate": 1.9489066666666666e-05, + "loss": 0.1325, + "step": 11975 + }, + { + "epoch": 0.076672, + "grad_norm": 0.5278237462043762, + "learning_rate": 1.9488853333333334e-05, + "loss": 0.1124, + "step": 11980 + }, + { + "epoch": 0.076704, + "grad_norm": 1.2671139240264893, + "learning_rate": 1.948864e-05, + "loss": 0.1058, + "step": 11985 + }, + { + "epoch": 0.076736, + "grad_norm": 1.4264849424362183, + "learning_rate": 1.948842666666667e-05, + "loss": 0.1608, + "step": 11990 + }, + { + "epoch": 0.076768, + "grad_norm": 1.4175450801849365, + "learning_rate": 1.9488213333333333e-05, + "loss": 0.187, + "step": 11995 + }, + { + "epoch": 0.0768, + "grad_norm": 0.9325103163719177, + "learning_rate": 1.9488000000000004e-05, + "loss": 0.1416, + "step": 12000 + }, + { + "epoch": 0.076832, + "grad_norm": 1.0026484727859497, + "learning_rate": 1.9487786666666668e-05, + "loss": 0.1184, + "step": 12005 + }, + { + "epoch": 0.076864, + "grad_norm": 2.8343591690063477, + "learning_rate": 1.9487573333333336e-05, + "loss": 0.1278, + "step": 12010 + }, + { + "epoch": 0.076896, + "grad_norm": 1.0111643075942993, + "learning_rate": 1.9487360000000003e-05, + "loss": 0.1477, + "step": 12015 + }, + { + "epoch": 0.076928, + "grad_norm": 1.0818111896514893, + "learning_rate": 1.9487146666666667e-05, + "loss": 0.1148, + "step": 12020 + }, + { + "epoch": 0.07696, + "grad_norm": 1.8396902084350586, + "learning_rate": 1.9486933333333335e-05, + "loss": 0.1341, + "step": 12025 + }, + { + "epoch": 0.076992, + "grad_norm": 1.2137115001678467, + "learning_rate": 1.9486720000000002e-05, + "loss": 0.1796, + "step": 12030 + }, + { + "epoch": 0.077024, + "grad_norm": 1.3983807563781738, + "learning_rate": 1.948650666666667e-05, + "loss": 0.134, + "step": 12035 + }, + { + "epoch": 0.077056, + "grad_norm": 1.5487126111984253, + "learning_rate": 1.9486293333333334e-05, + "loss": 0.1537, + "step": 12040 + }, + { + "epoch": 0.077088, + "grad_norm": 2.677001953125, + "learning_rate": 1.948608e-05, + "loss": 0.1187, + "step": 12045 + }, + { + "epoch": 0.07712, + "grad_norm": 1.3565982580184937, + "learning_rate": 1.948586666666667e-05, + "loss": 0.1866, + "step": 12050 + }, + { + "epoch": 0.077152, + "grad_norm": 1.3032914400100708, + "learning_rate": 1.9485653333333333e-05, + "loss": 0.0985, + "step": 12055 + }, + { + "epoch": 0.077184, + "grad_norm": 0.7786921262741089, + "learning_rate": 1.948544e-05, + "loss": 0.1216, + "step": 12060 + }, + { + "epoch": 0.077216, + "grad_norm": 1.1330761909484863, + "learning_rate": 1.948522666666667e-05, + "loss": 0.1207, + "step": 12065 + }, + { + "epoch": 0.077248, + "grad_norm": 0.8324586153030396, + "learning_rate": 1.9485013333333336e-05, + "loss": 0.1348, + "step": 12070 + }, + { + "epoch": 0.07728, + "grad_norm": 1.002773642539978, + "learning_rate": 1.94848e-05, + "loss": 0.1526, + "step": 12075 + }, + { + "epoch": 0.077312, + "grad_norm": 1.9408273696899414, + "learning_rate": 1.9484586666666668e-05, + "loss": 0.1571, + "step": 12080 + }, + { + "epoch": 0.077344, + "grad_norm": 2.146822452545166, + "learning_rate": 1.9484373333333335e-05, + "loss": 0.1324, + "step": 12085 + }, + { + "epoch": 0.077376, + "grad_norm": 1.3303483724594116, + "learning_rate": 1.948416e-05, + "loss": 0.1347, + "step": 12090 + }, + { + "epoch": 0.077408, + "grad_norm": 1.0900616645812988, + "learning_rate": 1.948394666666667e-05, + "loss": 0.1119, + "step": 12095 + }, + { + "epoch": 0.07744, + "grad_norm": 1.094088077545166, + "learning_rate": 1.9483733333333335e-05, + "loss": 0.1233, + "step": 12100 + }, + { + "epoch": 0.077472, + "grad_norm": 2.91278076171875, + "learning_rate": 1.9483520000000002e-05, + "loss": 0.163, + "step": 12105 + }, + { + "epoch": 0.077504, + "grad_norm": 1.2634145021438599, + "learning_rate": 1.948330666666667e-05, + "loss": 0.1033, + "step": 12110 + }, + { + "epoch": 0.077536, + "grad_norm": 1.3088314533233643, + "learning_rate": 1.9483093333333334e-05, + "loss": 0.1108, + "step": 12115 + }, + { + "epoch": 0.077568, + "grad_norm": 1.5869020223617554, + "learning_rate": 1.948288e-05, + "loss": 0.1154, + "step": 12120 + }, + { + "epoch": 0.0776, + "grad_norm": 0.6605610251426697, + "learning_rate": 1.948266666666667e-05, + "loss": 0.1022, + "step": 12125 + }, + { + "epoch": 0.077632, + "grad_norm": 1.352118968963623, + "learning_rate": 1.9482453333333337e-05, + "loss": 0.101, + "step": 12130 + }, + { + "epoch": 0.077664, + "grad_norm": 0.907976508140564, + "learning_rate": 1.948224e-05, + "loss": 0.2314, + "step": 12135 + }, + { + "epoch": 0.077696, + "grad_norm": 1.1571465730667114, + "learning_rate": 1.9482026666666668e-05, + "loss": 0.1666, + "step": 12140 + }, + { + "epoch": 0.077728, + "grad_norm": 1.0537834167480469, + "learning_rate": 1.9481813333333336e-05, + "loss": 0.1188, + "step": 12145 + }, + { + "epoch": 0.07776, + "grad_norm": 1.211042046546936, + "learning_rate": 1.94816e-05, + "loss": 0.1302, + "step": 12150 + }, + { + "epoch": 0.077792, + "grad_norm": 1.3231695890426636, + "learning_rate": 1.9481386666666668e-05, + "loss": 0.1511, + "step": 12155 + }, + { + "epoch": 0.077824, + "grad_norm": 0.8939371705055237, + "learning_rate": 1.9481173333333335e-05, + "loss": 0.09, + "step": 12160 + }, + { + "epoch": 0.077856, + "grad_norm": 3.2712996006011963, + "learning_rate": 1.9480960000000003e-05, + "loss": 0.153, + "step": 12165 + }, + { + "epoch": 0.077888, + "grad_norm": 0.8513129353523254, + "learning_rate": 1.9480746666666667e-05, + "loss": 0.1047, + "step": 12170 + }, + { + "epoch": 0.07792, + "grad_norm": 0.7475487589836121, + "learning_rate": 1.9480533333333334e-05, + "loss": 0.1303, + "step": 12175 + }, + { + "epoch": 0.077952, + "grad_norm": 1.0201653242111206, + "learning_rate": 1.9480320000000002e-05, + "loss": 0.1199, + "step": 12180 + }, + { + "epoch": 0.077984, + "grad_norm": 1.1133795976638794, + "learning_rate": 1.9480106666666666e-05, + "loss": 0.1253, + "step": 12185 + }, + { + "epoch": 0.078016, + "grad_norm": 1.601905107498169, + "learning_rate": 1.9479893333333334e-05, + "loss": 0.1339, + "step": 12190 + }, + { + "epoch": 0.078048, + "grad_norm": 1.023989200592041, + "learning_rate": 1.947968e-05, + "loss": 0.1217, + "step": 12195 + }, + { + "epoch": 0.07808, + "grad_norm": 1.0683743953704834, + "learning_rate": 1.947946666666667e-05, + "loss": 0.1467, + "step": 12200 + }, + { + "epoch": 0.078112, + "grad_norm": 1.3996905088424683, + "learning_rate": 1.9479253333333333e-05, + "loss": 0.1869, + "step": 12205 + }, + { + "epoch": 0.078144, + "grad_norm": 0.8227391242980957, + "learning_rate": 1.9479040000000004e-05, + "loss": 0.0932, + "step": 12210 + }, + { + "epoch": 0.078176, + "grad_norm": 1.6803585290908813, + "learning_rate": 1.9478826666666668e-05, + "loss": 0.1289, + "step": 12215 + }, + { + "epoch": 0.078208, + "grad_norm": 0.7713150382041931, + "learning_rate": 1.9478613333333332e-05, + "loss": 0.1037, + "step": 12220 + }, + { + "epoch": 0.07824, + "grad_norm": 1.1458232402801514, + "learning_rate": 1.9478400000000003e-05, + "loss": 0.1214, + "step": 12225 + }, + { + "epoch": 0.078272, + "grad_norm": 1.1307189464569092, + "learning_rate": 1.9478186666666667e-05, + "loss": 0.1252, + "step": 12230 + }, + { + "epoch": 0.078304, + "grad_norm": 0.7856818437576294, + "learning_rate": 1.9477973333333335e-05, + "loss": 0.1159, + "step": 12235 + }, + { + "epoch": 0.078336, + "grad_norm": 0.7603165507316589, + "learning_rate": 1.9477760000000002e-05, + "loss": 0.138, + "step": 12240 + }, + { + "epoch": 0.078368, + "grad_norm": 1.1607012748718262, + "learning_rate": 1.947754666666667e-05, + "loss": 0.1549, + "step": 12245 + }, + { + "epoch": 0.0784, + "grad_norm": 0.8585060834884644, + "learning_rate": 1.9477333333333334e-05, + "loss": 0.1353, + "step": 12250 + }, + { + "epoch": 0.078432, + "grad_norm": 1.524841547012329, + "learning_rate": 1.947712e-05, + "loss": 0.1419, + "step": 12255 + }, + { + "epoch": 0.078464, + "grad_norm": 1.8064781427383423, + "learning_rate": 1.947690666666667e-05, + "loss": 0.1198, + "step": 12260 + }, + { + "epoch": 0.078496, + "grad_norm": 3.2612085342407227, + "learning_rate": 1.9476693333333333e-05, + "loss": 0.1347, + "step": 12265 + }, + { + "epoch": 0.078528, + "grad_norm": 0.7609725594520569, + "learning_rate": 1.947648e-05, + "loss": 0.1471, + "step": 12270 + }, + { + "epoch": 0.07856, + "grad_norm": 1.4309782981872559, + "learning_rate": 1.947626666666667e-05, + "loss": 0.1746, + "step": 12275 + }, + { + "epoch": 0.078592, + "grad_norm": 2.076178550720215, + "learning_rate": 1.9476053333333336e-05, + "loss": 0.1569, + "step": 12280 + }, + { + "epoch": 0.078624, + "grad_norm": 0.8012721538543701, + "learning_rate": 1.947584e-05, + "loss": 0.1322, + "step": 12285 + }, + { + "epoch": 0.078656, + "grad_norm": 1.0973371267318726, + "learning_rate": 1.9475626666666668e-05, + "loss": 0.1058, + "step": 12290 + }, + { + "epoch": 0.078688, + "grad_norm": 0.7900465130805969, + "learning_rate": 1.9475413333333335e-05, + "loss": 0.1275, + "step": 12295 + }, + { + "epoch": 0.07872, + "grad_norm": 4.0562520027160645, + "learning_rate": 1.94752e-05, + "loss": 0.121, + "step": 12300 + }, + { + "epoch": 0.078752, + "grad_norm": 1.3851536512374878, + "learning_rate": 1.9474986666666667e-05, + "loss": 0.1538, + "step": 12305 + }, + { + "epoch": 0.078784, + "grad_norm": 1.2203768491744995, + "learning_rate": 1.9474773333333335e-05, + "loss": 0.1053, + "step": 12310 + }, + { + "epoch": 0.078816, + "grad_norm": 1.2428232431411743, + "learning_rate": 1.9474560000000002e-05, + "loss": 0.2074, + "step": 12315 + }, + { + "epoch": 0.078848, + "grad_norm": 0.8709145784378052, + "learning_rate": 1.947434666666667e-05, + "loss": 0.1088, + "step": 12320 + }, + { + "epoch": 0.07888, + "grad_norm": 1.3511438369750977, + "learning_rate": 1.9474133333333337e-05, + "loss": 0.1522, + "step": 12325 + }, + { + "epoch": 0.078912, + "grad_norm": 0.8445906639099121, + "learning_rate": 1.947392e-05, + "loss": 0.1301, + "step": 12330 + }, + { + "epoch": 0.078944, + "grad_norm": 1.5206364393234253, + "learning_rate": 1.947370666666667e-05, + "loss": 0.1629, + "step": 12335 + }, + { + "epoch": 0.078976, + "grad_norm": 0.9315274357795715, + "learning_rate": 1.9473493333333337e-05, + "loss": 0.1308, + "step": 12340 + }, + { + "epoch": 0.079008, + "grad_norm": 1.2710994482040405, + "learning_rate": 1.947328e-05, + "loss": 0.1262, + "step": 12345 + }, + { + "epoch": 0.07904, + "grad_norm": 1.0344377756118774, + "learning_rate": 1.9473066666666668e-05, + "loss": 0.1027, + "step": 12350 + }, + { + "epoch": 0.079072, + "grad_norm": 1.1857473850250244, + "learning_rate": 1.9472853333333336e-05, + "loss": 0.1124, + "step": 12355 + }, + { + "epoch": 0.079104, + "grad_norm": 1.5743217468261719, + "learning_rate": 1.9472640000000003e-05, + "loss": 0.1678, + "step": 12360 + }, + { + "epoch": 0.079136, + "grad_norm": 1.0562760829925537, + "learning_rate": 1.9472426666666668e-05, + "loss": 0.15, + "step": 12365 + }, + { + "epoch": 0.079168, + "grad_norm": 1.0656617879867554, + "learning_rate": 1.9472213333333335e-05, + "loss": 0.0876, + "step": 12370 + }, + { + "epoch": 0.0792, + "grad_norm": 0.9560867547988892, + "learning_rate": 1.9472000000000003e-05, + "loss": 0.1474, + "step": 12375 + }, + { + "epoch": 0.079232, + "grad_norm": 0.925705075263977, + "learning_rate": 1.9471786666666667e-05, + "loss": 0.1463, + "step": 12380 + }, + { + "epoch": 0.079264, + "grad_norm": 1.0650174617767334, + "learning_rate": 1.9471573333333334e-05, + "loss": 0.148, + "step": 12385 + }, + { + "epoch": 0.079296, + "grad_norm": 2.309077501296997, + "learning_rate": 1.9471360000000002e-05, + "loss": 0.1006, + "step": 12390 + }, + { + "epoch": 0.079328, + "grad_norm": 2.754539966583252, + "learning_rate": 1.947114666666667e-05, + "loss": 0.1605, + "step": 12395 + }, + { + "epoch": 0.07936, + "grad_norm": 1.3068205118179321, + "learning_rate": 1.9470933333333334e-05, + "loss": 0.1388, + "step": 12400 + }, + { + "epoch": 0.079392, + "grad_norm": 1.1655254364013672, + "learning_rate": 1.947072e-05, + "loss": 0.1, + "step": 12405 + }, + { + "epoch": 0.079424, + "grad_norm": 1.2783324718475342, + "learning_rate": 1.947050666666667e-05, + "loss": 0.1138, + "step": 12410 + }, + { + "epoch": 0.079456, + "grad_norm": 2.895747184753418, + "learning_rate": 1.9470293333333333e-05, + "loss": 0.1339, + "step": 12415 + }, + { + "epoch": 0.079488, + "grad_norm": 1.1427154541015625, + "learning_rate": 1.9470080000000004e-05, + "loss": 0.0915, + "step": 12420 + }, + { + "epoch": 0.07952, + "grad_norm": 1.0916986465454102, + "learning_rate": 1.9469866666666668e-05, + "loss": 0.1558, + "step": 12425 + }, + { + "epoch": 0.079552, + "grad_norm": 0.7605655193328857, + "learning_rate": 1.9469653333333336e-05, + "loss": 0.0826, + "step": 12430 + }, + { + "epoch": 0.079584, + "grad_norm": 1.7421165704727173, + "learning_rate": 1.9469440000000003e-05, + "loss": 0.1375, + "step": 12435 + }, + { + "epoch": 0.079616, + "grad_norm": 1.7632160186767578, + "learning_rate": 1.9469226666666667e-05, + "loss": 0.1692, + "step": 12440 + }, + { + "epoch": 0.079648, + "grad_norm": 1.4924660921096802, + "learning_rate": 1.9469013333333335e-05, + "loss": 0.1417, + "step": 12445 + }, + { + "epoch": 0.07968, + "grad_norm": 1.459075927734375, + "learning_rate": 1.9468800000000002e-05, + "loss": 0.1477, + "step": 12450 + }, + { + "epoch": 0.079712, + "grad_norm": 1.0219881534576416, + "learning_rate": 1.946858666666667e-05, + "loss": 0.1212, + "step": 12455 + }, + { + "epoch": 0.079744, + "grad_norm": 0.9123780727386475, + "learning_rate": 1.9468373333333334e-05, + "loss": 0.1375, + "step": 12460 + }, + { + "epoch": 0.079776, + "grad_norm": 1.5872862339019775, + "learning_rate": 1.946816e-05, + "loss": 0.1157, + "step": 12465 + }, + { + "epoch": 0.079808, + "grad_norm": 0.3532458543777466, + "learning_rate": 1.946794666666667e-05, + "loss": 0.1109, + "step": 12470 + }, + { + "epoch": 0.07984, + "grad_norm": 1.8910562992095947, + "learning_rate": 1.9467733333333333e-05, + "loss": 0.1806, + "step": 12475 + }, + { + "epoch": 0.079872, + "grad_norm": 0.7673067450523376, + "learning_rate": 1.946752e-05, + "loss": 0.0958, + "step": 12480 + }, + { + "epoch": 0.079904, + "grad_norm": 1.0123405456542969, + "learning_rate": 1.946730666666667e-05, + "loss": 0.1231, + "step": 12485 + }, + { + "epoch": 0.079936, + "grad_norm": 1.3152835369110107, + "learning_rate": 1.9467093333333336e-05, + "loss": 0.1124, + "step": 12490 + }, + { + "epoch": 0.079968, + "grad_norm": 1.432073712348938, + "learning_rate": 1.946688e-05, + "loss": 0.1301, + "step": 12495 + }, + { + "epoch": 0.08, + "grad_norm": 0.7127655148506165, + "learning_rate": 1.9466666666666668e-05, + "loss": 0.1602, + "step": 12500 + }, + { + "epoch": 0.080032, + "grad_norm": 0.9286007881164551, + "learning_rate": 1.9466453333333335e-05, + "loss": 0.123, + "step": 12505 + }, + { + "epoch": 0.080064, + "grad_norm": 0.8768848776817322, + "learning_rate": 1.946624e-05, + "loss": 0.0963, + "step": 12510 + }, + { + "epoch": 0.080096, + "grad_norm": 1.742248773574829, + "learning_rate": 1.9466026666666667e-05, + "loss": 0.1466, + "step": 12515 + }, + { + "epoch": 0.080128, + "grad_norm": 0.8961008787155151, + "learning_rate": 1.9465813333333335e-05, + "loss": 0.1293, + "step": 12520 + }, + { + "epoch": 0.08016, + "grad_norm": 1.3237226009368896, + "learning_rate": 1.9465600000000002e-05, + "loss": 0.0767, + "step": 12525 + }, + { + "epoch": 0.080192, + "grad_norm": 0.7860711812973022, + "learning_rate": 1.9465386666666666e-05, + "loss": 0.1373, + "step": 12530 + }, + { + "epoch": 0.080224, + "grad_norm": 1.2714048624038696, + "learning_rate": 1.9465173333333337e-05, + "loss": 0.1437, + "step": 12535 + }, + { + "epoch": 0.080256, + "grad_norm": 0.7732074856758118, + "learning_rate": 1.946496e-05, + "loss": 0.1023, + "step": 12540 + }, + { + "epoch": 0.080288, + "grad_norm": 1.997321605682373, + "learning_rate": 1.946474666666667e-05, + "loss": 0.136, + "step": 12545 + }, + { + "epoch": 0.08032, + "grad_norm": 1.0303785800933838, + "learning_rate": 1.9464533333333337e-05, + "loss": 0.108, + "step": 12550 + }, + { + "epoch": 0.080352, + "grad_norm": 1.2333755493164062, + "learning_rate": 1.946432e-05, + "loss": 0.0859, + "step": 12555 + }, + { + "epoch": 0.080384, + "grad_norm": 0.6340227127075195, + "learning_rate": 1.9464106666666668e-05, + "loss": 0.1733, + "step": 12560 + }, + { + "epoch": 0.080416, + "grad_norm": 7.9581193923950195, + "learning_rate": 1.9463893333333336e-05, + "loss": 0.1213, + "step": 12565 + }, + { + "epoch": 0.080448, + "grad_norm": 1.0446817874908447, + "learning_rate": 1.9463680000000003e-05, + "loss": 0.1385, + "step": 12570 + }, + { + "epoch": 0.08048, + "grad_norm": 0.8108590841293335, + "learning_rate": 1.9463466666666668e-05, + "loss": 0.117, + "step": 12575 + }, + { + "epoch": 0.080512, + "grad_norm": 1.7340705394744873, + "learning_rate": 1.9463253333333335e-05, + "loss": 0.1245, + "step": 12580 + }, + { + "epoch": 0.080544, + "grad_norm": 0.9727118015289307, + "learning_rate": 1.9463040000000003e-05, + "loss": 0.1639, + "step": 12585 + }, + { + "epoch": 0.080576, + "grad_norm": 1.8358848094940186, + "learning_rate": 1.9462826666666667e-05, + "loss": 0.1036, + "step": 12590 + }, + { + "epoch": 0.080608, + "grad_norm": 0.8653151392936707, + "learning_rate": 1.9462613333333334e-05, + "loss": 0.1323, + "step": 12595 + }, + { + "epoch": 0.08064, + "grad_norm": 1.0703842639923096, + "learning_rate": 1.9462400000000002e-05, + "loss": 0.1155, + "step": 12600 + }, + { + "epoch": 0.080672, + "grad_norm": 0.7824494242668152, + "learning_rate": 1.946218666666667e-05, + "loss": 0.0946, + "step": 12605 + }, + { + "epoch": 0.080704, + "grad_norm": 1.19135582447052, + "learning_rate": 1.9461973333333334e-05, + "loss": 0.1156, + "step": 12610 + }, + { + "epoch": 0.080736, + "grad_norm": 1.6982721090316772, + "learning_rate": 1.946176e-05, + "loss": 0.1361, + "step": 12615 + }, + { + "epoch": 0.080768, + "grad_norm": 1.0773978233337402, + "learning_rate": 1.946154666666667e-05, + "loss": 0.1873, + "step": 12620 + }, + { + "epoch": 0.0808, + "grad_norm": 1.6635445356369019, + "learning_rate": 1.9461333333333333e-05, + "loss": 0.2068, + "step": 12625 + }, + { + "epoch": 0.080832, + "grad_norm": 1.2319732904434204, + "learning_rate": 1.9461120000000004e-05, + "loss": 0.1478, + "step": 12630 + }, + { + "epoch": 0.080864, + "grad_norm": 1.4605844020843506, + "learning_rate": 1.9460906666666668e-05, + "loss": 0.1109, + "step": 12635 + }, + { + "epoch": 0.080896, + "grad_norm": 0.741137683391571, + "learning_rate": 1.9460693333333336e-05, + "loss": 0.1268, + "step": 12640 + }, + { + "epoch": 0.080928, + "grad_norm": 1.3230597972869873, + "learning_rate": 1.9460480000000003e-05, + "loss": 0.1822, + "step": 12645 + }, + { + "epoch": 0.08096, + "grad_norm": 1.1610254049301147, + "learning_rate": 1.9460266666666667e-05, + "loss": 0.1246, + "step": 12650 + }, + { + "epoch": 0.080992, + "grad_norm": 1.1499918699264526, + "learning_rate": 1.9460053333333335e-05, + "loss": 0.1333, + "step": 12655 + }, + { + "epoch": 0.081024, + "grad_norm": 0.7535412907600403, + "learning_rate": 1.9459840000000002e-05, + "loss": 0.1226, + "step": 12660 + }, + { + "epoch": 0.081056, + "grad_norm": 0.8285964131355286, + "learning_rate": 1.945962666666667e-05, + "loss": 0.132, + "step": 12665 + }, + { + "epoch": 0.081088, + "grad_norm": 1.4946174621582031, + "learning_rate": 1.9459413333333334e-05, + "loss": 0.1296, + "step": 12670 + }, + { + "epoch": 0.08112, + "grad_norm": 0.996980607509613, + "learning_rate": 1.94592e-05, + "loss": 0.1225, + "step": 12675 + }, + { + "epoch": 0.081152, + "grad_norm": 0.4476967751979828, + "learning_rate": 1.945898666666667e-05, + "loss": 0.1464, + "step": 12680 + }, + { + "epoch": 0.081184, + "grad_norm": 1.0793896913528442, + "learning_rate": 1.9458773333333333e-05, + "loss": 0.141, + "step": 12685 + }, + { + "epoch": 0.081216, + "grad_norm": 0.7743574380874634, + "learning_rate": 1.945856e-05, + "loss": 0.1042, + "step": 12690 + }, + { + "epoch": 0.081248, + "grad_norm": 1.2798466682434082, + "learning_rate": 1.945834666666667e-05, + "loss": 0.1707, + "step": 12695 + }, + { + "epoch": 0.08128, + "grad_norm": 2.023413896560669, + "learning_rate": 1.9458133333333336e-05, + "loss": 0.1463, + "step": 12700 + }, + { + "epoch": 0.081312, + "grad_norm": 1.1327850818634033, + "learning_rate": 1.945792e-05, + "loss": 0.106, + "step": 12705 + }, + { + "epoch": 0.081344, + "grad_norm": 0.8744807243347168, + "learning_rate": 1.9457706666666668e-05, + "loss": 0.1086, + "step": 12710 + }, + { + "epoch": 0.081376, + "grad_norm": 1.1435784101486206, + "learning_rate": 1.9457493333333335e-05, + "loss": 0.1116, + "step": 12715 + }, + { + "epoch": 0.081408, + "grad_norm": 0.647343635559082, + "learning_rate": 1.945728e-05, + "loss": 0.1315, + "step": 12720 + }, + { + "epoch": 0.08144, + "grad_norm": 2.354666233062744, + "learning_rate": 1.9457066666666667e-05, + "loss": 0.1538, + "step": 12725 + }, + { + "epoch": 0.081472, + "grad_norm": 0.7717297673225403, + "learning_rate": 1.9456853333333335e-05, + "loss": 0.1058, + "step": 12730 + }, + { + "epoch": 0.081504, + "grad_norm": 1.7777674198150635, + "learning_rate": 1.9456640000000002e-05, + "loss": 0.1712, + "step": 12735 + }, + { + "epoch": 0.081536, + "grad_norm": 1.1031856536865234, + "learning_rate": 1.9456426666666666e-05, + "loss": 0.1214, + "step": 12740 + }, + { + "epoch": 0.081568, + "grad_norm": 1.3789957761764526, + "learning_rate": 1.9456213333333337e-05, + "loss": 0.131, + "step": 12745 + }, + { + "epoch": 0.0816, + "grad_norm": 0.6202802062034607, + "learning_rate": 1.9456e-05, + "loss": 0.1042, + "step": 12750 + }, + { + "epoch": 0.081632, + "grad_norm": 0.967707097530365, + "learning_rate": 1.9455786666666666e-05, + "loss": 0.144, + "step": 12755 + }, + { + "epoch": 0.081664, + "grad_norm": 1.1337523460388184, + "learning_rate": 1.9455573333333337e-05, + "loss": 0.1546, + "step": 12760 + }, + { + "epoch": 0.081696, + "grad_norm": 2.1088149547576904, + "learning_rate": 1.945536e-05, + "loss": 0.1608, + "step": 12765 + }, + { + "epoch": 0.081728, + "grad_norm": 1.902990460395813, + "learning_rate": 1.9455146666666668e-05, + "loss": 0.1726, + "step": 12770 + }, + { + "epoch": 0.08176, + "grad_norm": 0.8517387509346008, + "learning_rate": 1.9454933333333336e-05, + "loss": 0.1021, + "step": 12775 + }, + { + "epoch": 0.081792, + "grad_norm": 1.2695441246032715, + "learning_rate": 1.9454720000000003e-05, + "loss": 0.149, + "step": 12780 + }, + { + "epoch": 0.081824, + "grad_norm": 1.8518400192260742, + "learning_rate": 1.9454506666666668e-05, + "loss": 0.1703, + "step": 12785 + }, + { + "epoch": 0.081856, + "grad_norm": 1.0672497749328613, + "learning_rate": 1.9454293333333335e-05, + "loss": 0.1338, + "step": 12790 + }, + { + "epoch": 0.081888, + "grad_norm": 0.8432419300079346, + "learning_rate": 1.9454080000000003e-05, + "loss": 0.1078, + "step": 12795 + }, + { + "epoch": 0.08192, + "grad_norm": 1.0402350425720215, + "learning_rate": 1.9453866666666667e-05, + "loss": 0.1207, + "step": 12800 + }, + { + "epoch": 0.081952, + "grad_norm": 0.9975345730781555, + "learning_rate": 1.9453653333333334e-05, + "loss": 0.1366, + "step": 12805 + }, + { + "epoch": 0.081984, + "grad_norm": 1.0269285440444946, + "learning_rate": 1.9453440000000002e-05, + "loss": 0.0679, + "step": 12810 + }, + { + "epoch": 0.082016, + "grad_norm": 1.1704879999160767, + "learning_rate": 1.945322666666667e-05, + "loss": 0.0853, + "step": 12815 + }, + { + "epoch": 0.082048, + "grad_norm": 2.5131232738494873, + "learning_rate": 1.9453013333333334e-05, + "loss": 0.1527, + "step": 12820 + }, + { + "epoch": 0.08208, + "grad_norm": 0.8043220043182373, + "learning_rate": 1.94528e-05, + "loss": 0.1137, + "step": 12825 + }, + { + "epoch": 0.082112, + "grad_norm": 1.1593551635742188, + "learning_rate": 1.945258666666667e-05, + "loss": 0.1343, + "step": 12830 + }, + { + "epoch": 0.082144, + "grad_norm": 0.8416908979415894, + "learning_rate": 1.9452373333333333e-05, + "loss": 0.1271, + "step": 12835 + }, + { + "epoch": 0.082176, + "grad_norm": 0.9985088109970093, + "learning_rate": 1.9452160000000004e-05, + "loss": 0.0867, + "step": 12840 + }, + { + "epoch": 0.082208, + "grad_norm": 1.139420509338379, + "learning_rate": 1.9451946666666668e-05, + "loss": 0.1428, + "step": 12845 + }, + { + "epoch": 0.08224, + "grad_norm": 1.1183478832244873, + "learning_rate": 1.9451733333333336e-05, + "loss": 0.1467, + "step": 12850 + }, + { + "epoch": 0.082272, + "grad_norm": 1.305976390838623, + "learning_rate": 1.9451520000000003e-05, + "loss": 0.1314, + "step": 12855 + }, + { + "epoch": 0.082304, + "grad_norm": 1.649921178817749, + "learning_rate": 1.9451306666666667e-05, + "loss": 0.1725, + "step": 12860 + }, + { + "epoch": 0.082336, + "grad_norm": 0.7143556475639343, + "learning_rate": 1.9451093333333335e-05, + "loss": 0.1308, + "step": 12865 + }, + { + "epoch": 0.082368, + "grad_norm": 1.2185983657836914, + "learning_rate": 1.9450880000000002e-05, + "loss": 0.1463, + "step": 12870 + }, + { + "epoch": 0.0824, + "grad_norm": 1.2012054920196533, + "learning_rate": 1.945066666666667e-05, + "loss": 0.1491, + "step": 12875 + }, + { + "epoch": 0.082432, + "grad_norm": 1.1932870149612427, + "learning_rate": 1.9450453333333334e-05, + "loss": 0.1099, + "step": 12880 + }, + { + "epoch": 0.082464, + "grad_norm": 1.1090701818466187, + "learning_rate": 1.945024e-05, + "loss": 0.1284, + "step": 12885 + }, + { + "epoch": 0.082496, + "grad_norm": 1.9221328496932983, + "learning_rate": 1.945002666666667e-05, + "loss": 0.1424, + "step": 12890 + }, + { + "epoch": 0.082528, + "grad_norm": 0.915337085723877, + "learning_rate": 1.9449813333333333e-05, + "loss": 0.1344, + "step": 12895 + }, + { + "epoch": 0.08256, + "grad_norm": 1.390285611152649, + "learning_rate": 1.94496e-05, + "loss": 0.1392, + "step": 12900 + }, + { + "epoch": 0.082592, + "grad_norm": 1.1823556423187256, + "learning_rate": 1.944938666666667e-05, + "loss": 0.1718, + "step": 12905 + }, + { + "epoch": 0.082624, + "grad_norm": 3.856147289276123, + "learning_rate": 1.9449173333333336e-05, + "loss": 0.1446, + "step": 12910 + }, + { + "epoch": 0.082656, + "grad_norm": 2.518054723739624, + "learning_rate": 1.944896e-05, + "loss": 0.1381, + "step": 12915 + }, + { + "epoch": 0.082688, + "grad_norm": 0.9294987320899963, + "learning_rate": 1.9448746666666668e-05, + "loss": 0.1282, + "step": 12920 + }, + { + "epoch": 0.08272, + "grad_norm": 5.672919750213623, + "learning_rate": 1.9448533333333335e-05, + "loss": 0.1068, + "step": 12925 + }, + { + "epoch": 0.082752, + "grad_norm": 0.9279241561889648, + "learning_rate": 1.944832e-05, + "loss": 0.1499, + "step": 12930 + }, + { + "epoch": 0.082784, + "grad_norm": 6.73824405670166, + "learning_rate": 1.9448106666666667e-05, + "loss": 0.1061, + "step": 12935 + }, + { + "epoch": 0.082816, + "grad_norm": 1.7428170442581177, + "learning_rate": 1.9447893333333335e-05, + "loss": 0.1303, + "step": 12940 + }, + { + "epoch": 0.082848, + "grad_norm": 0.8936402797698975, + "learning_rate": 1.9447680000000002e-05, + "loss": 0.1222, + "step": 12945 + }, + { + "epoch": 0.08288, + "grad_norm": 1.040537714958191, + "learning_rate": 1.9447466666666666e-05, + "loss": 0.0902, + "step": 12950 + }, + { + "epoch": 0.082912, + "grad_norm": 0.3664611279964447, + "learning_rate": 1.9447253333333337e-05, + "loss": 0.0901, + "step": 12955 + }, + { + "epoch": 0.082944, + "grad_norm": 0.708983302116394, + "learning_rate": 1.944704e-05, + "loss": 0.1299, + "step": 12960 + }, + { + "epoch": 0.082976, + "grad_norm": 2.4711437225341797, + "learning_rate": 1.9446826666666666e-05, + "loss": 0.133, + "step": 12965 + }, + { + "epoch": 0.083008, + "grad_norm": 1.0368540287017822, + "learning_rate": 1.9446613333333337e-05, + "loss": 0.1436, + "step": 12970 + }, + { + "epoch": 0.08304, + "grad_norm": 1.9227089881896973, + "learning_rate": 1.94464e-05, + "loss": 0.1643, + "step": 12975 + }, + { + "epoch": 0.083072, + "grad_norm": 1.530425786972046, + "learning_rate": 1.9446186666666668e-05, + "loss": 0.1068, + "step": 12980 + }, + { + "epoch": 0.083104, + "grad_norm": 2.554349660873413, + "learning_rate": 1.9445973333333336e-05, + "loss": 0.1295, + "step": 12985 + }, + { + "epoch": 0.083136, + "grad_norm": 1.2702536582946777, + "learning_rate": 1.9445760000000003e-05, + "loss": 0.1009, + "step": 12990 + }, + { + "epoch": 0.083168, + "grad_norm": 1.6195110082626343, + "learning_rate": 1.9445546666666668e-05, + "loss": 0.1139, + "step": 12995 + }, + { + "epoch": 0.0832, + "grad_norm": 0.977285623550415, + "learning_rate": 1.9445333333333335e-05, + "loss": 0.1373, + "step": 13000 + }, + { + "epoch": 0.083232, + "grad_norm": 1.3228168487548828, + "learning_rate": 1.9445120000000003e-05, + "loss": 0.1281, + "step": 13005 + }, + { + "epoch": 0.083264, + "grad_norm": 1.1094609498977661, + "learning_rate": 1.9444906666666667e-05, + "loss": 0.1321, + "step": 13010 + }, + { + "epoch": 0.083296, + "grad_norm": 1.0396840572357178, + "learning_rate": 1.9444693333333334e-05, + "loss": 0.096, + "step": 13015 + }, + { + "epoch": 0.083328, + "grad_norm": 1.5193854570388794, + "learning_rate": 1.9444480000000002e-05, + "loss": 0.1417, + "step": 13020 + }, + { + "epoch": 0.08336, + "grad_norm": 0.818000078201294, + "learning_rate": 1.944426666666667e-05, + "loss": 0.1388, + "step": 13025 + }, + { + "epoch": 0.083392, + "grad_norm": 1.3641443252563477, + "learning_rate": 1.9444053333333334e-05, + "loss": 0.1208, + "step": 13030 + }, + { + "epoch": 0.083424, + "grad_norm": 1.0796369314193726, + "learning_rate": 1.944384e-05, + "loss": 0.1284, + "step": 13035 + }, + { + "epoch": 0.083456, + "grad_norm": 3.488605499267578, + "learning_rate": 1.944362666666667e-05, + "loss": 0.1008, + "step": 13040 + }, + { + "epoch": 0.083488, + "grad_norm": 0.6860669851303101, + "learning_rate": 1.9443413333333333e-05, + "loss": 0.11, + "step": 13045 + }, + { + "epoch": 0.08352, + "grad_norm": 0.8261404633522034, + "learning_rate": 1.94432e-05, + "loss": 0.1148, + "step": 13050 + }, + { + "epoch": 0.083552, + "grad_norm": 1.3150638341903687, + "learning_rate": 1.9442986666666668e-05, + "loss": 0.0848, + "step": 13055 + }, + { + "epoch": 0.083584, + "grad_norm": 1.5596145391464233, + "learning_rate": 1.9442773333333336e-05, + "loss": 0.1416, + "step": 13060 + }, + { + "epoch": 0.083616, + "grad_norm": 0.9790977239608765, + "learning_rate": 1.9442560000000003e-05, + "loss": 0.1311, + "step": 13065 + }, + { + "epoch": 0.083648, + "grad_norm": 0.7753530740737915, + "learning_rate": 1.944234666666667e-05, + "loss": 0.096, + "step": 13070 + }, + { + "epoch": 0.08368, + "grad_norm": 1.1173832416534424, + "learning_rate": 1.9442133333333335e-05, + "loss": 0.1217, + "step": 13075 + }, + { + "epoch": 0.083712, + "grad_norm": 0.7011626362800598, + "learning_rate": 1.9441920000000002e-05, + "loss": 0.1251, + "step": 13080 + }, + { + "epoch": 0.083744, + "grad_norm": 1.7433232069015503, + "learning_rate": 1.944170666666667e-05, + "loss": 0.1317, + "step": 13085 + }, + { + "epoch": 0.083776, + "grad_norm": 1.2644091844558716, + "learning_rate": 1.9441493333333334e-05, + "loss": 0.1232, + "step": 13090 + }, + { + "epoch": 0.083808, + "grad_norm": 0.5804405212402344, + "learning_rate": 1.944128e-05, + "loss": 0.1102, + "step": 13095 + }, + { + "epoch": 0.08384, + "grad_norm": 1.6391782760620117, + "learning_rate": 1.944106666666667e-05, + "loss": 0.0781, + "step": 13100 + }, + { + "epoch": 0.083872, + "grad_norm": 0.7204803824424744, + "learning_rate": 1.9440853333333337e-05, + "loss": 0.1068, + "step": 13105 + }, + { + "epoch": 0.083904, + "grad_norm": 1.455991268157959, + "learning_rate": 1.944064e-05, + "loss": 0.1174, + "step": 13110 + }, + { + "epoch": 0.083936, + "grad_norm": 0.6901964545249939, + "learning_rate": 1.944042666666667e-05, + "loss": 0.1277, + "step": 13115 + }, + { + "epoch": 0.083968, + "grad_norm": 0.8970001935958862, + "learning_rate": 1.9440213333333336e-05, + "loss": 0.1531, + "step": 13120 + }, + { + "epoch": 0.084, + "grad_norm": 0.9697026014328003, + "learning_rate": 1.944e-05, + "loss": 0.1266, + "step": 13125 + }, + { + "epoch": 0.084032, + "grad_norm": 0.5907070636749268, + "learning_rate": 1.9439786666666668e-05, + "loss": 0.1336, + "step": 13130 + }, + { + "epoch": 0.084064, + "grad_norm": 1.6183892488479614, + "learning_rate": 1.9439573333333335e-05, + "loss": 0.146, + "step": 13135 + }, + { + "epoch": 0.084096, + "grad_norm": 0.9025448560714722, + "learning_rate": 1.9439360000000003e-05, + "loss": 0.1094, + "step": 13140 + }, + { + "epoch": 0.084128, + "grad_norm": 1.8271973133087158, + "learning_rate": 1.9439146666666667e-05, + "loss": 0.1461, + "step": 13145 + }, + { + "epoch": 0.08416, + "grad_norm": 1.6452072858810425, + "learning_rate": 1.9438933333333335e-05, + "loss": 0.1386, + "step": 13150 + }, + { + "epoch": 0.084192, + "grad_norm": 1.038697600364685, + "learning_rate": 1.9438720000000002e-05, + "loss": 0.1323, + "step": 13155 + }, + { + "epoch": 0.084224, + "grad_norm": 1.3735487461090088, + "learning_rate": 1.9438506666666666e-05, + "loss": 0.2058, + "step": 13160 + }, + { + "epoch": 0.084256, + "grad_norm": 0.7352781891822815, + "learning_rate": 1.9438293333333337e-05, + "loss": 0.081, + "step": 13165 + }, + { + "epoch": 0.084288, + "grad_norm": 1.2541074752807617, + "learning_rate": 1.943808e-05, + "loss": 0.1176, + "step": 13170 + }, + { + "epoch": 0.08432, + "grad_norm": 0.5608147978782654, + "learning_rate": 1.943786666666667e-05, + "loss": 0.1108, + "step": 13175 + }, + { + "epoch": 0.084352, + "grad_norm": 0.7342579364776611, + "learning_rate": 1.9437653333333337e-05, + "loss": 0.1904, + "step": 13180 + }, + { + "epoch": 0.084384, + "grad_norm": 0.8736896514892578, + "learning_rate": 1.943744e-05, + "loss": 0.1198, + "step": 13185 + }, + { + "epoch": 0.084416, + "grad_norm": 0.7882916927337646, + "learning_rate": 1.9437226666666668e-05, + "loss": 0.1118, + "step": 13190 + }, + { + "epoch": 0.084448, + "grad_norm": 1.1790385246276855, + "learning_rate": 1.9437013333333336e-05, + "loss": 0.1459, + "step": 13195 + }, + { + "epoch": 0.08448, + "grad_norm": 0.8156028985977173, + "learning_rate": 1.9436800000000003e-05, + "loss": 0.117, + "step": 13200 + }, + { + "epoch": 0.084512, + "grad_norm": 1.0303031206130981, + "learning_rate": 1.9436586666666668e-05, + "loss": 0.1147, + "step": 13205 + }, + { + "epoch": 0.084544, + "grad_norm": 0.7629737854003906, + "learning_rate": 1.9436373333333335e-05, + "loss": 0.1087, + "step": 13210 + }, + { + "epoch": 0.084576, + "grad_norm": 0.8431394100189209, + "learning_rate": 1.9436160000000003e-05, + "loss": 0.1244, + "step": 13215 + }, + { + "epoch": 0.084608, + "grad_norm": 1.75907564163208, + "learning_rate": 1.9435946666666667e-05, + "loss": 0.1364, + "step": 13220 + }, + { + "epoch": 0.08464, + "grad_norm": 0.782403290271759, + "learning_rate": 1.9435733333333334e-05, + "loss": 0.1105, + "step": 13225 + }, + { + "epoch": 0.084672, + "grad_norm": 1.4349515438079834, + "learning_rate": 1.9435520000000002e-05, + "loss": 0.1367, + "step": 13230 + }, + { + "epoch": 0.084704, + "grad_norm": 0.8121026158332825, + "learning_rate": 1.943530666666667e-05, + "loss": 0.1158, + "step": 13235 + }, + { + "epoch": 0.084736, + "grad_norm": 0.9359267950057983, + "learning_rate": 1.9435093333333334e-05, + "loss": 0.1282, + "step": 13240 + }, + { + "epoch": 0.084768, + "grad_norm": 1.2758480310440063, + "learning_rate": 1.943488e-05, + "loss": 0.1389, + "step": 13245 + }, + { + "epoch": 0.0848, + "grad_norm": 0.7001373767852783, + "learning_rate": 1.943466666666667e-05, + "loss": 0.1249, + "step": 13250 + }, + { + "epoch": 0.084832, + "grad_norm": 0.6219000816345215, + "learning_rate": 1.9434453333333333e-05, + "loss": 0.1299, + "step": 13255 + }, + { + "epoch": 0.084864, + "grad_norm": 0.9052069783210754, + "learning_rate": 1.943424e-05, + "loss": 0.1085, + "step": 13260 + }, + { + "epoch": 0.084896, + "grad_norm": 0.8621492385864258, + "learning_rate": 1.9434026666666668e-05, + "loss": 0.1387, + "step": 13265 + }, + { + "epoch": 0.084928, + "grad_norm": 1.1211987733840942, + "learning_rate": 1.9433813333333336e-05, + "loss": 0.1066, + "step": 13270 + }, + { + "epoch": 0.08496, + "grad_norm": 0.7974053025245667, + "learning_rate": 1.94336e-05, + "loss": 0.1339, + "step": 13275 + }, + { + "epoch": 0.084992, + "grad_norm": 1.0145751237869263, + "learning_rate": 1.943338666666667e-05, + "loss": 0.1139, + "step": 13280 + }, + { + "epoch": 0.085024, + "grad_norm": 1.0082948207855225, + "learning_rate": 1.9433173333333335e-05, + "loss": 0.1576, + "step": 13285 + }, + { + "epoch": 0.085056, + "grad_norm": 3.1285130977630615, + "learning_rate": 1.9432960000000002e-05, + "loss": 0.111, + "step": 13290 + }, + { + "epoch": 0.085088, + "grad_norm": 1.1301017999649048, + "learning_rate": 1.943274666666667e-05, + "loss": 0.1051, + "step": 13295 + }, + { + "epoch": 0.08512, + "grad_norm": 1.1430150270462036, + "learning_rate": 1.9432533333333334e-05, + "loss": 0.1472, + "step": 13300 + }, + { + "epoch": 0.085152, + "grad_norm": 1.5277824401855469, + "learning_rate": 1.943232e-05, + "loss": 0.1368, + "step": 13305 + }, + { + "epoch": 0.085184, + "grad_norm": 1.23432457447052, + "learning_rate": 1.943210666666667e-05, + "loss": 0.1811, + "step": 13310 + }, + { + "epoch": 0.085216, + "grad_norm": 0.8952438235282898, + "learning_rate": 1.9431893333333337e-05, + "loss": 0.1462, + "step": 13315 + }, + { + "epoch": 0.085248, + "grad_norm": 1.046553134918213, + "learning_rate": 1.943168e-05, + "loss": 0.1187, + "step": 13320 + }, + { + "epoch": 0.08528, + "grad_norm": 1.0823726654052734, + "learning_rate": 1.943146666666667e-05, + "loss": 0.119, + "step": 13325 + }, + { + "epoch": 0.085312, + "grad_norm": 2.7051219940185547, + "learning_rate": 1.9431253333333336e-05, + "loss": 0.0967, + "step": 13330 + }, + { + "epoch": 0.085344, + "grad_norm": 1.1866968870162964, + "learning_rate": 1.943104e-05, + "loss": 0.1332, + "step": 13335 + }, + { + "epoch": 0.085376, + "grad_norm": 1.0148075819015503, + "learning_rate": 1.9430826666666668e-05, + "loss": 0.1057, + "step": 13340 + }, + { + "epoch": 0.085408, + "grad_norm": 0.6209167242050171, + "learning_rate": 1.9430613333333335e-05, + "loss": 0.1104, + "step": 13345 + }, + { + "epoch": 0.08544, + "grad_norm": 1.1187993288040161, + "learning_rate": 1.9430400000000003e-05, + "loss": 0.1433, + "step": 13350 + }, + { + "epoch": 0.085472, + "grad_norm": 0.9484360218048096, + "learning_rate": 1.9430186666666667e-05, + "loss": 0.0869, + "step": 13355 + }, + { + "epoch": 0.085504, + "grad_norm": 1.0240862369537354, + "learning_rate": 1.9429973333333335e-05, + "loss": 0.1314, + "step": 13360 + }, + { + "epoch": 0.085536, + "grad_norm": 0.9374200105667114, + "learning_rate": 1.9429760000000002e-05, + "loss": 0.1057, + "step": 13365 + }, + { + "epoch": 0.085568, + "grad_norm": 1.5775158405303955, + "learning_rate": 1.9429546666666666e-05, + "loss": 0.1155, + "step": 13370 + }, + { + "epoch": 0.0856, + "grad_norm": 5.506560325622559, + "learning_rate": 1.9429333333333337e-05, + "loss": 0.1248, + "step": 13375 + }, + { + "epoch": 0.085632, + "grad_norm": 1.0392738580703735, + "learning_rate": 1.942912e-05, + "loss": 0.117, + "step": 13380 + }, + { + "epoch": 0.085664, + "grad_norm": 0.9010313749313354, + "learning_rate": 1.942890666666667e-05, + "loss": 0.1268, + "step": 13385 + }, + { + "epoch": 0.085696, + "grad_norm": 0.655945360660553, + "learning_rate": 1.9428693333333337e-05, + "loss": 0.1039, + "step": 13390 + }, + { + "epoch": 0.085728, + "grad_norm": 0.6227132678031921, + "learning_rate": 1.942848e-05, + "loss": 0.0943, + "step": 13395 + }, + { + "epoch": 0.08576, + "grad_norm": 1.0493613481521606, + "learning_rate": 1.9428266666666668e-05, + "loss": 0.1196, + "step": 13400 + }, + { + "epoch": 0.085792, + "grad_norm": 1.5578923225402832, + "learning_rate": 1.9428053333333336e-05, + "loss": 0.1631, + "step": 13405 + }, + { + "epoch": 0.085824, + "grad_norm": 0.8592440485954285, + "learning_rate": 1.9427840000000003e-05, + "loss": 0.1323, + "step": 13410 + }, + { + "epoch": 0.085856, + "grad_norm": 1.662114143371582, + "learning_rate": 1.9427626666666668e-05, + "loss": 0.1109, + "step": 13415 + }, + { + "epoch": 0.085888, + "grad_norm": 1.281921625137329, + "learning_rate": 1.9427413333333335e-05, + "loss": 0.074, + "step": 13420 + }, + { + "epoch": 0.08592, + "grad_norm": 1.288541555404663, + "learning_rate": 1.9427200000000003e-05, + "loss": 0.1082, + "step": 13425 + }, + { + "epoch": 0.085952, + "grad_norm": 0.7830274701118469, + "learning_rate": 1.9426986666666667e-05, + "loss": 0.1245, + "step": 13430 + }, + { + "epoch": 0.085984, + "grad_norm": 1.2991502285003662, + "learning_rate": 1.9426773333333334e-05, + "loss": 0.1448, + "step": 13435 + }, + { + "epoch": 0.086016, + "grad_norm": 1.35886549949646, + "learning_rate": 1.9426560000000002e-05, + "loss": 0.1565, + "step": 13440 + }, + { + "epoch": 0.086048, + "grad_norm": 0.848483145236969, + "learning_rate": 1.942634666666667e-05, + "loss": 0.0796, + "step": 13445 + }, + { + "epoch": 0.08608, + "grad_norm": 1.1672276258468628, + "learning_rate": 1.9426133333333334e-05, + "loss": 0.1199, + "step": 13450 + }, + { + "epoch": 0.086112, + "grad_norm": 1.2307558059692383, + "learning_rate": 1.942592e-05, + "loss": 0.1663, + "step": 13455 + }, + { + "epoch": 0.086144, + "grad_norm": 0.6549947261810303, + "learning_rate": 1.942570666666667e-05, + "loss": 0.1078, + "step": 13460 + }, + { + "epoch": 0.086176, + "grad_norm": 1.9290974140167236, + "learning_rate": 1.9425493333333333e-05, + "loss": 0.143, + "step": 13465 + }, + { + "epoch": 0.086208, + "grad_norm": 2.085566520690918, + "learning_rate": 1.942528e-05, + "loss": 0.1186, + "step": 13470 + }, + { + "epoch": 0.08624, + "grad_norm": 2.273871660232544, + "learning_rate": 1.9425066666666668e-05, + "loss": 0.1668, + "step": 13475 + }, + { + "epoch": 0.086272, + "grad_norm": 0.6150913238525391, + "learning_rate": 1.9424853333333336e-05, + "loss": 0.0832, + "step": 13480 + }, + { + "epoch": 0.086304, + "grad_norm": 3.5081422328948975, + "learning_rate": 1.942464e-05, + "loss": 0.1422, + "step": 13485 + }, + { + "epoch": 0.086336, + "grad_norm": 0.3271747827529907, + "learning_rate": 1.942442666666667e-05, + "loss": 0.0935, + "step": 13490 + }, + { + "epoch": 0.086368, + "grad_norm": 1.3339178562164307, + "learning_rate": 1.9424213333333335e-05, + "loss": 0.12, + "step": 13495 + }, + { + "epoch": 0.0864, + "grad_norm": 2.0108530521392822, + "learning_rate": 1.9424e-05, + "loss": 0.1207, + "step": 13500 + }, + { + "epoch": 0.086432, + "grad_norm": 0.6493755578994751, + "learning_rate": 1.942378666666667e-05, + "loss": 0.1263, + "step": 13505 + }, + { + "epoch": 0.086464, + "grad_norm": 1.6417533159255981, + "learning_rate": 1.9423573333333334e-05, + "loss": 0.222, + "step": 13510 + }, + { + "epoch": 0.086496, + "grad_norm": 0.8122704029083252, + "learning_rate": 1.942336e-05, + "loss": 0.0963, + "step": 13515 + }, + { + "epoch": 0.086528, + "grad_norm": 1.9788013696670532, + "learning_rate": 1.942314666666667e-05, + "loss": 0.1461, + "step": 13520 + }, + { + "epoch": 0.08656, + "grad_norm": 1.5004931688308716, + "learning_rate": 1.9422933333333337e-05, + "loss": 0.1297, + "step": 13525 + }, + { + "epoch": 0.086592, + "grad_norm": 2.514404773712158, + "learning_rate": 1.942272e-05, + "loss": 0.1081, + "step": 13530 + }, + { + "epoch": 0.086624, + "grad_norm": 0.9988606572151184, + "learning_rate": 1.942250666666667e-05, + "loss": 0.1108, + "step": 13535 + }, + { + "epoch": 0.086656, + "grad_norm": 0.8161372542381287, + "learning_rate": 1.9422293333333336e-05, + "loss": 0.1372, + "step": 13540 + }, + { + "epoch": 0.086688, + "grad_norm": 0.7302746176719666, + "learning_rate": 1.942208e-05, + "loss": 0.1194, + "step": 13545 + }, + { + "epoch": 0.08672, + "grad_norm": 1.0112926959991455, + "learning_rate": 1.9421866666666668e-05, + "loss": 0.1321, + "step": 13550 + }, + { + "epoch": 0.086752, + "grad_norm": 1.66300368309021, + "learning_rate": 1.9421653333333335e-05, + "loss": 0.141, + "step": 13555 + }, + { + "epoch": 0.086784, + "grad_norm": 0.7416738867759705, + "learning_rate": 1.9421440000000003e-05, + "loss": 0.118, + "step": 13560 + }, + { + "epoch": 0.086816, + "grad_norm": 1.242194414138794, + "learning_rate": 1.9421226666666667e-05, + "loss": 0.1385, + "step": 13565 + }, + { + "epoch": 0.086848, + "grad_norm": 1.0434824228286743, + "learning_rate": 1.9421013333333335e-05, + "loss": 0.1673, + "step": 13570 + }, + { + "epoch": 0.08688, + "grad_norm": 0.9555284380912781, + "learning_rate": 1.9420800000000002e-05, + "loss": 0.1166, + "step": 13575 + }, + { + "epoch": 0.086912, + "grad_norm": 1.6441650390625, + "learning_rate": 1.9420586666666666e-05, + "loss": 0.1045, + "step": 13580 + }, + { + "epoch": 0.086944, + "grad_norm": 0.9719003438949585, + "learning_rate": 1.9420373333333334e-05, + "loss": 0.1557, + "step": 13585 + }, + { + "epoch": 0.086976, + "grad_norm": 1.0432446002960205, + "learning_rate": 1.942016e-05, + "loss": 0.1462, + "step": 13590 + }, + { + "epoch": 0.087008, + "grad_norm": 1.128684401512146, + "learning_rate": 1.941994666666667e-05, + "loss": 0.0946, + "step": 13595 + }, + { + "epoch": 0.08704, + "grad_norm": 2.1558589935302734, + "learning_rate": 1.9419733333333337e-05, + "loss": 0.1283, + "step": 13600 + }, + { + "epoch": 0.087072, + "grad_norm": 0.9120055437088013, + "learning_rate": 1.941952e-05, + "loss": 0.1081, + "step": 13605 + }, + { + "epoch": 0.087104, + "grad_norm": 1.2352626323699951, + "learning_rate": 1.9419306666666668e-05, + "loss": 0.1275, + "step": 13610 + }, + { + "epoch": 0.087136, + "grad_norm": 2.4816439151763916, + "learning_rate": 1.9419093333333336e-05, + "loss": 0.1083, + "step": 13615 + }, + { + "epoch": 0.087168, + "grad_norm": 2.339831590652466, + "learning_rate": 1.9418880000000003e-05, + "loss": 0.0958, + "step": 13620 + }, + { + "epoch": 0.0872, + "grad_norm": 2.0546131134033203, + "learning_rate": 1.9418666666666668e-05, + "loss": 0.1515, + "step": 13625 + }, + { + "epoch": 0.087232, + "grad_norm": 0.6301755309104919, + "learning_rate": 1.9418453333333335e-05, + "loss": 0.1071, + "step": 13630 + }, + { + "epoch": 0.087264, + "grad_norm": 0.6556514501571655, + "learning_rate": 1.9418240000000003e-05, + "loss": 0.1335, + "step": 13635 + }, + { + "epoch": 0.087296, + "grad_norm": 0.6015962362289429, + "learning_rate": 1.9418026666666667e-05, + "loss": 0.0742, + "step": 13640 + }, + { + "epoch": 0.087328, + "grad_norm": 1.7183750867843628, + "learning_rate": 1.9417813333333334e-05, + "loss": 0.1519, + "step": 13645 + }, + { + "epoch": 0.08736, + "grad_norm": 3.3861982822418213, + "learning_rate": 1.9417600000000002e-05, + "loss": 0.1479, + "step": 13650 + }, + { + "epoch": 0.087392, + "grad_norm": 1.9488604068756104, + "learning_rate": 1.941738666666667e-05, + "loss": 0.098, + "step": 13655 + }, + { + "epoch": 0.087424, + "grad_norm": 1.4704991579055786, + "learning_rate": 1.9417173333333334e-05, + "loss": 0.1558, + "step": 13660 + }, + { + "epoch": 0.087456, + "grad_norm": 1.7873327732086182, + "learning_rate": 1.941696e-05, + "loss": 0.1283, + "step": 13665 + }, + { + "epoch": 0.087488, + "grad_norm": 2.1607394218444824, + "learning_rate": 1.941674666666667e-05, + "loss": 0.1232, + "step": 13670 + }, + { + "epoch": 0.08752, + "grad_norm": 1.6276295185089111, + "learning_rate": 1.9416533333333333e-05, + "loss": 0.1574, + "step": 13675 + }, + { + "epoch": 0.087552, + "grad_norm": 0.8989419341087341, + "learning_rate": 1.941632e-05, + "loss": 0.1343, + "step": 13680 + }, + { + "epoch": 0.087584, + "grad_norm": 1.3093854188919067, + "learning_rate": 1.9416106666666668e-05, + "loss": 0.1136, + "step": 13685 + }, + { + "epoch": 0.087616, + "grad_norm": 1.2505013942718506, + "learning_rate": 1.9415893333333336e-05, + "loss": 0.1327, + "step": 13690 + }, + { + "epoch": 0.087648, + "grad_norm": 0.8529815673828125, + "learning_rate": 1.941568e-05, + "loss": 0.1047, + "step": 13695 + }, + { + "epoch": 0.08768, + "grad_norm": 5.688438415527344, + "learning_rate": 1.941546666666667e-05, + "loss": 0.0923, + "step": 13700 + }, + { + "epoch": 0.087712, + "grad_norm": 1.0674264430999756, + "learning_rate": 1.9415253333333335e-05, + "loss": 0.1457, + "step": 13705 + }, + { + "epoch": 0.087744, + "grad_norm": 0.7079544067382812, + "learning_rate": 1.941504e-05, + "loss": 0.1362, + "step": 13710 + }, + { + "epoch": 0.087776, + "grad_norm": 0.886581540107727, + "learning_rate": 1.941482666666667e-05, + "loss": 0.0951, + "step": 13715 + }, + { + "epoch": 0.087808, + "grad_norm": 1.5873453617095947, + "learning_rate": 1.9414613333333334e-05, + "loss": 0.1365, + "step": 13720 + }, + { + "epoch": 0.08784, + "grad_norm": 1.3269672393798828, + "learning_rate": 1.94144e-05, + "loss": 0.1481, + "step": 13725 + }, + { + "epoch": 0.087872, + "grad_norm": 0.8175510764122009, + "learning_rate": 1.941418666666667e-05, + "loss": 0.1218, + "step": 13730 + }, + { + "epoch": 0.087904, + "grad_norm": 1.2217745780944824, + "learning_rate": 1.9413973333333337e-05, + "loss": 0.167, + "step": 13735 + }, + { + "epoch": 0.087936, + "grad_norm": 0.7582699656486511, + "learning_rate": 1.941376e-05, + "loss": 0.085, + "step": 13740 + }, + { + "epoch": 0.087968, + "grad_norm": 1.7359541654586792, + "learning_rate": 1.941354666666667e-05, + "loss": 0.1168, + "step": 13745 + }, + { + "epoch": 0.088, + "grad_norm": 0.7639580368995667, + "learning_rate": 1.9413333333333336e-05, + "loss": 0.0694, + "step": 13750 + }, + { + "epoch": 0.088032, + "grad_norm": 1.233746886253357, + "learning_rate": 1.941312e-05, + "loss": 0.1056, + "step": 13755 + }, + { + "epoch": 0.088064, + "grad_norm": 0.5953723788261414, + "learning_rate": 1.9412906666666668e-05, + "loss": 0.0878, + "step": 13760 + }, + { + "epoch": 0.088096, + "grad_norm": 0.8621111512184143, + "learning_rate": 1.9412693333333335e-05, + "loss": 0.0921, + "step": 13765 + }, + { + "epoch": 0.088128, + "grad_norm": 0.7950834631919861, + "learning_rate": 1.9412480000000003e-05, + "loss": 0.0788, + "step": 13770 + }, + { + "epoch": 0.08816, + "grad_norm": 1.4165655374526978, + "learning_rate": 1.9412266666666667e-05, + "loss": 0.1337, + "step": 13775 + }, + { + "epoch": 0.088192, + "grad_norm": 1.0701457262039185, + "learning_rate": 1.9412053333333335e-05, + "loss": 0.1216, + "step": 13780 + }, + { + "epoch": 0.088224, + "grad_norm": 1.2055189609527588, + "learning_rate": 1.9411840000000002e-05, + "loss": 0.1387, + "step": 13785 + }, + { + "epoch": 0.088256, + "grad_norm": 1.080935001373291, + "learning_rate": 1.9411626666666666e-05, + "loss": 0.0764, + "step": 13790 + }, + { + "epoch": 0.088288, + "grad_norm": 0.8515735268592834, + "learning_rate": 1.9411413333333334e-05, + "loss": 0.1299, + "step": 13795 + }, + { + "epoch": 0.08832, + "grad_norm": 1.8354313373565674, + "learning_rate": 1.94112e-05, + "loss": 0.1145, + "step": 13800 + }, + { + "epoch": 0.088352, + "grad_norm": 1.2260135412216187, + "learning_rate": 1.941098666666667e-05, + "loss": 0.0853, + "step": 13805 + }, + { + "epoch": 0.088384, + "grad_norm": 0.8935285210609436, + "learning_rate": 1.9410773333333333e-05, + "loss": 0.1384, + "step": 13810 + }, + { + "epoch": 0.088416, + "grad_norm": 0.7876750826835632, + "learning_rate": 1.941056e-05, + "loss": 0.102, + "step": 13815 + }, + { + "epoch": 0.088448, + "grad_norm": 0.8486297726631165, + "learning_rate": 1.9410346666666668e-05, + "loss": 0.1215, + "step": 13820 + }, + { + "epoch": 0.08848, + "grad_norm": 1.0400267839431763, + "learning_rate": 1.9410133333333336e-05, + "loss": 0.0931, + "step": 13825 + }, + { + "epoch": 0.088512, + "grad_norm": 0.9616486430168152, + "learning_rate": 1.9409920000000003e-05, + "loss": 0.0993, + "step": 13830 + }, + { + "epoch": 0.088544, + "grad_norm": 1.3646262884140015, + "learning_rate": 1.9409706666666668e-05, + "loss": 0.1495, + "step": 13835 + }, + { + "epoch": 0.088576, + "grad_norm": 0.9245927929878235, + "learning_rate": 1.9409493333333335e-05, + "loss": 0.1033, + "step": 13840 + }, + { + "epoch": 0.088608, + "grad_norm": 1.725152611732483, + "learning_rate": 1.9409280000000003e-05, + "loss": 0.1599, + "step": 13845 + }, + { + "epoch": 0.08864, + "grad_norm": 0.6676945090293884, + "learning_rate": 1.9409066666666667e-05, + "loss": 0.1209, + "step": 13850 + }, + { + "epoch": 0.088672, + "grad_norm": 0.7897409200668335, + "learning_rate": 1.9408853333333334e-05, + "loss": 0.1326, + "step": 13855 + }, + { + "epoch": 0.088704, + "grad_norm": 0.4076409637928009, + "learning_rate": 1.9408640000000002e-05, + "loss": 0.0699, + "step": 13860 + }, + { + "epoch": 0.088736, + "grad_norm": 1.8190093040466309, + "learning_rate": 1.940842666666667e-05, + "loss": 0.1133, + "step": 13865 + }, + { + "epoch": 0.088768, + "grad_norm": 0.6313049793243408, + "learning_rate": 1.9408213333333334e-05, + "loss": 0.0915, + "step": 13870 + }, + { + "epoch": 0.0888, + "grad_norm": 0.4660337269306183, + "learning_rate": 1.9408e-05, + "loss": 0.145, + "step": 13875 + }, + { + "epoch": 0.088832, + "grad_norm": 0.8978264331817627, + "learning_rate": 1.940778666666667e-05, + "loss": 0.1261, + "step": 13880 + }, + { + "epoch": 0.088864, + "grad_norm": 1.5587332248687744, + "learning_rate": 1.9407573333333333e-05, + "loss": 0.1091, + "step": 13885 + }, + { + "epoch": 0.088896, + "grad_norm": 1.3045592308044434, + "learning_rate": 1.940736e-05, + "loss": 0.1053, + "step": 13890 + }, + { + "epoch": 0.088928, + "grad_norm": 1.5963876247406006, + "learning_rate": 1.9407146666666668e-05, + "loss": 0.1144, + "step": 13895 + }, + { + "epoch": 0.08896, + "grad_norm": 1.8397732973098755, + "learning_rate": 1.9406933333333336e-05, + "loss": 0.0721, + "step": 13900 + }, + { + "epoch": 0.088992, + "grad_norm": 1.1164640188217163, + "learning_rate": 1.940672e-05, + "loss": 0.1411, + "step": 13905 + }, + { + "epoch": 0.089024, + "grad_norm": 1.544926404953003, + "learning_rate": 1.940650666666667e-05, + "loss": 0.0997, + "step": 13910 + }, + { + "epoch": 0.089056, + "grad_norm": 0.4661619961261749, + "learning_rate": 1.9406293333333335e-05, + "loss": 0.1033, + "step": 13915 + }, + { + "epoch": 0.089088, + "grad_norm": 2.765770435333252, + "learning_rate": 1.9406080000000002e-05, + "loss": 0.1447, + "step": 13920 + }, + { + "epoch": 0.08912, + "grad_norm": 1.6437554359436035, + "learning_rate": 1.940586666666667e-05, + "loss": 0.1094, + "step": 13925 + }, + { + "epoch": 0.089152, + "grad_norm": 0.7148213386535645, + "learning_rate": 1.9405653333333334e-05, + "loss": 0.1488, + "step": 13930 + }, + { + "epoch": 0.089184, + "grad_norm": 2.9144060611724854, + "learning_rate": 1.940544e-05, + "loss": 0.1423, + "step": 13935 + }, + { + "epoch": 0.089216, + "grad_norm": 1.75809645652771, + "learning_rate": 1.940522666666667e-05, + "loss": 0.0818, + "step": 13940 + }, + { + "epoch": 0.089248, + "grad_norm": 0.7369871139526367, + "learning_rate": 1.9405013333333337e-05, + "loss": 0.1199, + "step": 13945 + }, + { + "epoch": 0.08928, + "grad_norm": 3.3757541179656982, + "learning_rate": 1.94048e-05, + "loss": 0.1535, + "step": 13950 + }, + { + "epoch": 0.089312, + "grad_norm": 1.0659633874893188, + "learning_rate": 1.940458666666667e-05, + "loss": 0.122, + "step": 13955 + }, + { + "epoch": 0.089344, + "grad_norm": 0.9373767375946045, + "learning_rate": 1.9404373333333336e-05, + "loss": 0.1065, + "step": 13960 + }, + { + "epoch": 0.089376, + "grad_norm": 1.050042986869812, + "learning_rate": 1.940416e-05, + "loss": 0.1105, + "step": 13965 + }, + { + "epoch": 0.089408, + "grad_norm": 0.7597797513008118, + "learning_rate": 1.9403946666666668e-05, + "loss": 0.105, + "step": 13970 + }, + { + "epoch": 0.08944, + "grad_norm": 1.0355103015899658, + "learning_rate": 1.9403733333333335e-05, + "loss": 0.1229, + "step": 13975 + }, + { + "epoch": 0.089472, + "grad_norm": 1.0024652481079102, + "learning_rate": 1.9403520000000003e-05, + "loss": 0.087, + "step": 13980 + }, + { + "epoch": 0.089504, + "grad_norm": 1.0868093967437744, + "learning_rate": 1.9403306666666667e-05, + "loss": 0.0878, + "step": 13985 + }, + { + "epoch": 0.089536, + "grad_norm": 0.4581741392612457, + "learning_rate": 1.9403093333333335e-05, + "loss": 0.108, + "step": 13990 + }, + { + "epoch": 0.089568, + "grad_norm": 2.2568891048431396, + "learning_rate": 1.9402880000000002e-05, + "loss": 0.151, + "step": 13995 + }, + { + "epoch": 0.0896, + "grad_norm": 3.5935568809509277, + "learning_rate": 1.9402666666666666e-05, + "loss": 0.1043, + "step": 14000 + }, + { + "epoch": 0.089632, + "grad_norm": 1.084402322769165, + "learning_rate": 1.9402453333333334e-05, + "loss": 0.0914, + "step": 14005 + }, + { + "epoch": 0.089664, + "grad_norm": 1.2568609714508057, + "learning_rate": 1.940224e-05, + "loss": 0.1275, + "step": 14010 + }, + { + "epoch": 0.089696, + "grad_norm": 0.6571006774902344, + "learning_rate": 1.940202666666667e-05, + "loss": 0.0893, + "step": 14015 + }, + { + "epoch": 0.089728, + "grad_norm": 0.7243066430091858, + "learning_rate": 1.9401813333333333e-05, + "loss": 0.0871, + "step": 14020 + }, + { + "epoch": 0.08976, + "grad_norm": 1.0315297842025757, + "learning_rate": 1.9401600000000004e-05, + "loss": 0.0937, + "step": 14025 + }, + { + "epoch": 0.089792, + "grad_norm": 1.456162929534912, + "learning_rate": 1.9401386666666668e-05, + "loss": 0.1216, + "step": 14030 + }, + { + "epoch": 0.089824, + "grad_norm": 1.3606886863708496, + "learning_rate": 1.9401173333333332e-05, + "loss": 0.0888, + "step": 14035 + }, + { + "epoch": 0.089856, + "grad_norm": 1.6381456851959229, + "learning_rate": 1.9400960000000003e-05, + "loss": 0.1329, + "step": 14040 + }, + { + "epoch": 0.089888, + "grad_norm": 1.2601311206817627, + "learning_rate": 1.9400746666666668e-05, + "loss": 0.1568, + "step": 14045 + }, + { + "epoch": 0.08992, + "grad_norm": 0.9614671468734741, + "learning_rate": 1.9400533333333335e-05, + "loss": 0.1227, + "step": 14050 + }, + { + "epoch": 0.089952, + "grad_norm": 2.452604293823242, + "learning_rate": 1.9400320000000003e-05, + "loss": 0.1548, + "step": 14055 + }, + { + "epoch": 0.089984, + "grad_norm": 1.7881933450698853, + "learning_rate": 1.940010666666667e-05, + "loss": 0.1619, + "step": 14060 + }, + { + "epoch": 0.090016, + "grad_norm": 0.7368676066398621, + "learning_rate": 1.9399893333333334e-05, + "loss": 0.1046, + "step": 14065 + }, + { + "epoch": 0.090048, + "grad_norm": 0.7343247532844543, + "learning_rate": 1.9399680000000002e-05, + "loss": 0.1246, + "step": 14070 + }, + { + "epoch": 0.09008, + "grad_norm": 1.1336045265197754, + "learning_rate": 1.939946666666667e-05, + "loss": 0.1138, + "step": 14075 + }, + { + "epoch": 0.090112, + "grad_norm": 4.760594844818115, + "learning_rate": 1.9399253333333334e-05, + "loss": 0.1378, + "step": 14080 + }, + { + "epoch": 0.090144, + "grad_norm": 0.48297280073165894, + "learning_rate": 1.939904e-05, + "loss": 0.1376, + "step": 14085 + }, + { + "epoch": 0.090176, + "grad_norm": 2.278022527694702, + "learning_rate": 1.939882666666667e-05, + "loss": 0.1155, + "step": 14090 + }, + { + "epoch": 0.090208, + "grad_norm": 0.7171838879585266, + "learning_rate": 1.9398613333333336e-05, + "loss": 0.0977, + "step": 14095 + }, + { + "epoch": 0.09024, + "grad_norm": 1.274113416671753, + "learning_rate": 1.93984e-05, + "loss": 0.1517, + "step": 14100 + }, + { + "epoch": 0.090272, + "grad_norm": 0.9170488715171814, + "learning_rate": 1.9398186666666668e-05, + "loss": 0.099, + "step": 14105 + }, + { + "epoch": 0.090304, + "grad_norm": 1.6693943738937378, + "learning_rate": 1.9397973333333336e-05, + "loss": 0.0962, + "step": 14110 + }, + { + "epoch": 0.090336, + "grad_norm": 0.992648184299469, + "learning_rate": 1.939776e-05, + "loss": 0.1916, + "step": 14115 + }, + { + "epoch": 0.090368, + "grad_norm": 1.704832673072815, + "learning_rate": 1.9397546666666667e-05, + "loss": 0.1323, + "step": 14120 + }, + { + "epoch": 0.0904, + "grad_norm": 1.379698634147644, + "learning_rate": 1.9397333333333335e-05, + "loss": 0.1079, + "step": 14125 + }, + { + "epoch": 0.090432, + "grad_norm": 1.1060857772827148, + "learning_rate": 1.9397120000000002e-05, + "loss": 0.142, + "step": 14130 + }, + { + "epoch": 0.090464, + "grad_norm": 1.1017893552780151, + "learning_rate": 1.939690666666667e-05, + "loss": 0.1315, + "step": 14135 + }, + { + "epoch": 0.090496, + "grad_norm": 0.7465759515762329, + "learning_rate": 1.9396693333333334e-05, + "loss": 0.1272, + "step": 14140 + }, + { + "epoch": 0.090528, + "grad_norm": 1.792677640914917, + "learning_rate": 1.9396480000000002e-05, + "loss": 0.1307, + "step": 14145 + }, + { + "epoch": 0.09056, + "grad_norm": 1.1308115720748901, + "learning_rate": 1.939626666666667e-05, + "loss": 0.1224, + "step": 14150 + }, + { + "epoch": 0.090592, + "grad_norm": 0.9899905323982239, + "learning_rate": 1.9396053333333337e-05, + "loss": 0.1218, + "step": 14155 + }, + { + "epoch": 0.090624, + "grad_norm": 1.2590224742889404, + "learning_rate": 1.939584e-05, + "loss": 0.1013, + "step": 14160 + }, + { + "epoch": 0.090656, + "grad_norm": 0.9608787298202515, + "learning_rate": 1.939562666666667e-05, + "loss": 0.1328, + "step": 14165 + }, + { + "epoch": 0.090688, + "grad_norm": 0.7634959816932678, + "learning_rate": 1.9395413333333336e-05, + "loss": 0.1167, + "step": 14170 + }, + { + "epoch": 0.09072, + "grad_norm": 1.0459035634994507, + "learning_rate": 1.93952e-05, + "loss": 0.1276, + "step": 14175 + }, + { + "epoch": 0.090752, + "grad_norm": 0.961949348449707, + "learning_rate": 1.9394986666666668e-05, + "loss": 0.0992, + "step": 14180 + }, + { + "epoch": 0.090784, + "grad_norm": 1.2165452241897583, + "learning_rate": 1.9394773333333335e-05, + "loss": 0.1265, + "step": 14185 + }, + { + "epoch": 0.090816, + "grad_norm": 1.047218680381775, + "learning_rate": 1.9394560000000003e-05, + "loss": 0.1258, + "step": 14190 + }, + { + "epoch": 0.090848, + "grad_norm": 0.7316172122955322, + "learning_rate": 1.9394346666666667e-05, + "loss": 0.1197, + "step": 14195 + }, + { + "epoch": 0.09088, + "grad_norm": 0.5832025408744812, + "learning_rate": 1.9394133333333335e-05, + "loss": 0.1488, + "step": 14200 + }, + { + "epoch": 0.090912, + "grad_norm": 1.1949976682662964, + "learning_rate": 1.9393920000000002e-05, + "loss": 0.0802, + "step": 14205 + }, + { + "epoch": 0.090944, + "grad_norm": 1.9747074842453003, + "learning_rate": 1.9393706666666666e-05, + "loss": 0.1293, + "step": 14210 + }, + { + "epoch": 0.090976, + "grad_norm": 0.8626883625984192, + "learning_rate": 1.9393493333333334e-05, + "loss": 0.1462, + "step": 14215 + }, + { + "epoch": 0.091008, + "grad_norm": 1.2910610437393188, + "learning_rate": 1.939328e-05, + "loss": 0.1126, + "step": 14220 + }, + { + "epoch": 0.09104, + "grad_norm": 0.9065753817558289, + "learning_rate": 1.939306666666667e-05, + "loss": 0.0861, + "step": 14225 + }, + { + "epoch": 0.091072, + "grad_norm": 0.8423489928245544, + "learning_rate": 1.9392853333333333e-05, + "loss": 0.1002, + "step": 14230 + }, + { + "epoch": 0.091104, + "grad_norm": 3.028001308441162, + "learning_rate": 1.9392640000000004e-05, + "loss": 0.1158, + "step": 14235 + }, + { + "epoch": 0.091136, + "grad_norm": 0.7250972986221313, + "learning_rate": 1.9392426666666668e-05, + "loss": 0.1059, + "step": 14240 + }, + { + "epoch": 0.091168, + "grad_norm": 0.9266324639320374, + "learning_rate": 1.9392213333333332e-05, + "loss": 0.1364, + "step": 14245 + }, + { + "epoch": 0.0912, + "grad_norm": 1.1219583749771118, + "learning_rate": 1.9392000000000003e-05, + "loss": 0.1352, + "step": 14250 + }, + { + "epoch": 0.091232, + "grad_norm": 0.7033084034919739, + "learning_rate": 1.9391786666666668e-05, + "loss": 0.1104, + "step": 14255 + }, + { + "epoch": 0.091264, + "grad_norm": 2.1384003162384033, + "learning_rate": 1.9391573333333335e-05, + "loss": 0.1424, + "step": 14260 + }, + { + "epoch": 0.091296, + "grad_norm": 0.8077026605606079, + "learning_rate": 1.9391360000000003e-05, + "loss": 0.102, + "step": 14265 + }, + { + "epoch": 0.091328, + "grad_norm": 1.0874041318893433, + "learning_rate": 1.939114666666667e-05, + "loss": 0.1147, + "step": 14270 + }, + { + "epoch": 0.09136, + "grad_norm": 1.579803466796875, + "learning_rate": 1.9390933333333334e-05, + "loss": 0.1237, + "step": 14275 + }, + { + "epoch": 0.091392, + "grad_norm": 4.845735549926758, + "learning_rate": 1.9390720000000002e-05, + "loss": 0.1761, + "step": 14280 + }, + { + "epoch": 0.091424, + "grad_norm": 1.258250117301941, + "learning_rate": 1.939050666666667e-05, + "loss": 0.1422, + "step": 14285 + }, + { + "epoch": 0.091456, + "grad_norm": 0.821086049079895, + "learning_rate": 1.9390293333333334e-05, + "loss": 0.1156, + "step": 14290 + }, + { + "epoch": 0.091488, + "grad_norm": 0.8238183259963989, + "learning_rate": 1.939008e-05, + "loss": 0.1331, + "step": 14295 + }, + { + "epoch": 0.09152, + "grad_norm": 0.6822744011878967, + "learning_rate": 1.938986666666667e-05, + "loss": 0.0885, + "step": 14300 + }, + { + "epoch": 0.091552, + "grad_norm": 1.856520175933838, + "learning_rate": 1.9389653333333336e-05, + "loss": 0.1319, + "step": 14305 + }, + { + "epoch": 0.091584, + "grad_norm": 1.9785627126693726, + "learning_rate": 1.938944e-05, + "loss": 0.1189, + "step": 14310 + }, + { + "epoch": 0.091616, + "grad_norm": 1.1190862655639648, + "learning_rate": 1.9389226666666668e-05, + "loss": 0.1263, + "step": 14315 + }, + { + "epoch": 0.091648, + "grad_norm": 0.7811822295188904, + "learning_rate": 1.9389013333333336e-05, + "loss": 0.0819, + "step": 14320 + }, + { + "epoch": 0.09168, + "grad_norm": 1.6721895933151245, + "learning_rate": 1.93888e-05, + "loss": 0.11, + "step": 14325 + }, + { + "epoch": 0.091712, + "grad_norm": 3.1942179203033447, + "learning_rate": 1.9388586666666667e-05, + "loss": 0.1762, + "step": 14330 + }, + { + "epoch": 0.091744, + "grad_norm": 1.9707063436508179, + "learning_rate": 1.9388373333333335e-05, + "loss": 0.1646, + "step": 14335 + }, + { + "epoch": 0.091776, + "grad_norm": 1.2111899852752686, + "learning_rate": 1.9388160000000002e-05, + "loss": 0.1741, + "step": 14340 + }, + { + "epoch": 0.091808, + "grad_norm": 1.621297836303711, + "learning_rate": 1.9387946666666667e-05, + "loss": 0.1239, + "step": 14345 + }, + { + "epoch": 0.09184, + "grad_norm": 1.2270784378051758, + "learning_rate": 1.9387733333333334e-05, + "loss": 0.1532, + "step": 14350 + }, + { + "epoch": 0.091872, + "grad_norm": 1.2467756271362305, + "learning_rate": 1.9387520000000002e-05, + "loss": 0.1394, + "step": 14355 + }, + { + "epoch": 0.091904, + "grad_norm": 1.0333747863769531, + "learning_rate": 1.938730666666667e-05, + "loss": 0.1404, + "step": 14360 + }, + { + "epoch": 0.091936, + "grad_norm": 2.054232597351074, + "learning_rate": 1.9387093333333337e-05, + "loss": 0.1406, + "step": 14365 + }, + { + "epoch": 0.091968, + "grad_norm": 1.0968800783157349, + "learning_rate": 1.938688e-05, + "loss": 0.0979, + "step": 14370 + }, + { + "epoch": 0.092, + "grad_norm": 1.128126621246338, + "learning_rate": 1.938666666666667e-05, + "loss": 0.1249, + "step": 14375 + }, + { + "epoch": 0.092032, + "grad_norm": 0.9421114921569824, + "learning_rate": 1.9386453333333336e-05, + "loss": 0.1473, + "step": 14380 + }, + { + "epoch": 0.092064, + "grad_norm": 1.011230230331421, + "learning_rate": 1.938624e-05, + "loss": 0.0818, + "step": 14385 + }, + { + "epoch": 0.092096, + "grad_norm": 1.1415657997131348, + "learning_rate": 1.9386026666666668e-05, + "loss": 0.1096, + "step": 14390 + }, + { + "epoch": 0.092128, + "grad_norm": 1.639162540435791, + "learning_rate": 1.9385813333333335e-05, + "loss": 0.1374, + "step": 14395 + }, + { + "epoch": 0.09216, + "grad_norm": 2.5738232135772705, + "learning_rate": 1.9385600000000003e-05, + "loss": 0.1265, + "step": 14400 + }, + { + "epoch": 0.092192, + "grad_norm": 1.5974218845367432, + "learning_rate": 1.9385386666666667e-05, + "loss": 0.1295, + "step": 14405 + }, + { + "epoch": 0.092224, + "grad_norm": 1.9547653198242188, + "learning_rate": 1.9385173333333335e-05, + "loss": 0.1367, + "step": 14410 + }, + { + "epoch": 0.092256, + "grad_norm": 2.9143218994140625, + "learning_rate": 1.9384960000000002e-05, + "loss": 0.1123, + "step": 14415 + }, + { + "epoch": 0.092288, + "grad_norm": 1.0005333423614502, + "learning_rate": 1.9384746666666666e-05, + "loss": 0.0962, + "step": 14420 + }, + { + "epoch": 0.09232, + "grad_norm": 1.500900149345398, + "learning_rate": 1.9384533333333334e-05, + "loss": 0.1331, + "step": 14425 + }, + { + "epoch": 0.092352, + "grad_norm": 1.3612648248672485, + "learning_rate": 1.938432e-05, + "loss": 0.1045, + "step": 14430 + }, + { + "epoch": 0.092384, + "grad_norm": 1.1440742015838623, + "learning_rate": 1.938410666666667e-05, + "loss": 0.1213, + "step": 14435 + }, + { + "epoch": 0.092416, + "grad_norm": 0.7235056757926941, + "learning_rate": 1.9383893333333333e-05, + "loss": 0.0829, + "step": 14440 + }, + { + "epoch": 0.092448, + "grad_norm": 1.1996023654937744, + "learning_rate": 1.9383680000000004e-05, + "loss": 0.1153, + "step": 14445 + }, + { + "epoch": 0.09248, + "grad_norm": 0.8253241777420044, + "learning_rate": 1.9383466666666668e-05, + "loss": 0.1299, + "step": 14450 + }, + { + "epoch": 0.092512, + "grad_norm": 0.7830061912536621, + "learning_rate": 1.9383253333333332e-05, + "loss": 0.0866, + "step": 14455 + }, + { + "epoch": 0.092544, + "grad_norm": 0.8988640904426575, + "learning_rate": 1.9383040000000003e-05, + "loss": 0.1097, + "step": 14460 + }, + { + "epoch": 0.092576, + "grad_norm": 0.9446114301681519, + "learning_rate": 1.9382826666666668e-05, + "loss": 0.1423, + "step": 14465 + }, + { + "epoch": 0.092608, + "grad_norm": 1.159773588180542, + "learning_rate": 1.9382613333333335e-05, + "loss": 0.1265, + "step": 14470 + }, + { + "epoch": 0.09264, + "grad_norm": 1.08280611038208, + "learning_rate": 1.9382400000000003e-05, + "loss": 0.0882, + "step": 14475 + }, + { + "epoch": 0.092672, + "grad_norm": 1.0857360363006592, + "learning_rate": 1.938218666666667e-05, + "loss": 0.1282, + "step": 14480 + }, + { + "epoch": 0.092704, + "grad_norm": 0.9738480448722839, + "learning_rate": 1.9381973333333334e-05, + "loss": 0.0872, + "step": 14485 + }, + { + "epoch": 0.092736, + "grad_norm": 2.2816007137298584, + "learning_rate": 1.9381760000000002e-05, + "loss": 0.1874, + "step": 14490 + }, + { + "epoch": 0.092768, + "grad_norm": 1.9302964210510254, + "learning_rate": 1.938154666666667e-05, + "loss": 0.1177, + "step": 14495 + }, + { + "epoch": 0.0928, + "grad_norm": 1.2054985761642456, + "learning_rate": 1.9381333333333334e-05, + "loss": 0.1692, + "step": 14500 + }, + { + "epoch": 0.092832, + "grad_norm": 0.6548629999160767, + "learning_rate": 1.938112e-05, + "loss": 0.0928, + "step": 14505 + }, + { + "epoch": 0.092864, + "grad_norm": 3.7874953746795654, + "learning_rate": 1.938090666666667e-05, + "loss": 0.1427, + "step": 14510 + }, + { + "epoch": 0.092896, + "grad_norm": 1.2181106805801392, + "learning_rate": 1.9380693333333336e-05, + "loss": 0.1018, + "step": 14515 + }, + { + "epoch": 0.092928, + "grad_norm": 0.78133624792099, + "learning_rate": 1.938048e-05, + "loss": 0.1009, + "step": 14520 + }, + { + "epoch": 0.09296, + "grad_norm": 0.7699316740036011, + "learning_rate": 1.9380266666666668e-05, + "loss": 0.1428, + "step": 14525 + }, + { + "epoch": 0.092992, + "grad_norm": 1.78187096118927, + "learning_rate": 1.9380053333333336e-05, + "loss": 0.1199, + "step": 14530 + }, + { + "epoch": 0.093024, + "grad_norm": 1.4909065961837769, + "learning_rate": 1.937984e-05, + "loss": 0.0983, + "step": 14535 + }, + { + "epoch": 0.093056, + "grad_norm": 1.0363301038742065, + "learning_rate": 1.9379626666666667e-05, + "loss": 0.0851, + "step": 14540 + }, + { + "epoch": 0.093088, + "grad_norm": 0.5872441530227661, + "learning_rate": 1.9379413333333335e-05, + "loss": 0.0853, + "step": 14545 + }, + { + "epoch": 0.09312, + "grad_norm": 0.9275485873222351, + "learning_rate": 1.9379200000000002e-05, + "loss": 0.1101, + "step": 14550 + }, + { + "epoch": 0.093152, + "grad_norm": 2.302725076675415, + "learning_rate": 1.9378986666666667e-05, + "loss": 0.132, + "step": 14555 + }, + { + "epoch": 0.093184, + "grad_norm": 1.96910560131073, + "learning_rate": 1.9378773333333334e-05, + "loss": 0.1227, + "step": 14560 + }, + { + "epoch": 0.093216, + "grad_norm": 0.573292076587677, + "learning_rate": 1.9378560000000002e-05, + "loss": 0.1088, + "step": 14565 + }, + { + "epoch": 0.093248, + "grad_norm": 0.6847367882728577, + "learning_rate": 1.9378346666666666e-05, + "loss": 0.0884, + "step": 14570 + }, + { + "epoch": 0.09328, + "grad_norm": 1.0522807836532593, + "learning_rate": 1.9378133333333337e-05, + "loss": 0.1204, + "step": 14575 + }, + { + "epoch": 0.093312, + "grad_norm": 1.2087401151657104, + "learning_rate": 1.937792e-05, + "loss": 0.1566, + "step": 14580 + }, + { + "epoch": 0.093344, + "grad_norm": 1.3027037382125854, + "learning_rate": 1.937770666666667e-05, + "loss": 0.1261, + "step": 14585 + }, + { + "epoch": 0.093376, + "grad_norm": 0.7252960801124573, + "learning_rate": 1.9377493333333336e-05, + "loss": 0.0999, + "step": 14590 + }, + { + "epoch": 0.093408, + "grad_norm": 0.5866671800613403, + "learning_rate": 1.937728e-05, + "loss": 0.1252, + "step": 14595 + }, + { + "epoch": 0.09344, + "grad_norm": 0.705203115940094, + "learning_rate": 1.9377066666666668e-05, + "loss": 0.0939, + "step": 14600 + }, + { + "epoch": 0.093472, + "grad_norm": 1.466073751449585, + "learning_rate": 1.9376853333333335e-05, + "loss": 0.0993, + "step": 14605 + }, + { + "epoch": 0.093504, + "grad_norm": 1.5011786222457886, + "learning_rate": 1.9376640000000003e-05, + "loss": 0.1739, + "step": 14610 + }, + { + "epoch": 0.093536, + "grad_norm": 1.8867878913879395, + "learning_rate": 1.9376426666666667e-05, + "loss": 0.1442, + "step": 14615 + }, + { + "epoch": 0.093568, + "grad_norm": 1.1132668256759644, + "learning_rate": 1.9376213333333335e-05, + "loss": 0.1459, + "step": 14620 + }, + { + "epoch": 0.0936, + "grad_norm": 0.939752459526062, + "learning_rate": 1.9376000000000002e-05, + "loss": 0.116, + "step": 14625 + }, + { + "epoch": 0.093632, + "grad_norm": 1.7732771635055542, + "learning_rate": 1.9375786666666666e-05, + "loss": 0.1184, + "step": 14630 + }, + { + "epoch": 0.093664, + "grad_norm": 1.8914283514022827, + "learning_rate": 1.9375573333333334e-05, + "loss": 0.1328, + "step": 14635 + }, + { + "epoch": 0.093696, + "grad_norm": 1.5431629419326782, + "learning_rate": 1.937536e-05, + "loss": 0.1277, + "step": 14640 + }, + { + "epoch": 0.093728, + "grad_norm": 1.997977375984192, + "learning_rate": 1.937514666666667e-05, + "loss": 0.1528, + "step": 14645 + }, + { + "epoch": 0.09376, + "grad_norm": 0.8658587336540222, + "learning_rate": 1.9374933333333333e-05, + "loss": 0.1779, + "step": 14650 + }, + { + "epoch": 0.093792, + "grad_norm": 0.9877001643180847, + "learning_rate": 1.937472e-05, + "loss": 0.1439, + "step": 14655 + }, + { + "epoch": 0.093824, + "grad_norm": 0.7477400898933411, + "learning_rate": 1.9374506666666668e-05, + "loss": 0.0894, + "step": 14660 + }, + { + "epoch": 0.093856, + "grad_norm": 0.8262857794761658, + "learning_rate": 1.9374293333333332e-05, + "loss": 0.0998, + "step": 14665 + }, + { + "epoch": 0.093888, + "grad_norm": 0.6821895241737366, + "learning_rate": 1.9374080000000003e-05, + "loss": 0.1081, + "step": 14670 + }, + { + "epoch": 0.09392, + "grad_norm": 1.5434458255767822, + "learning_rate": 1.9373866666666668e-05, + "loss": 0.0861, + "step": 14675 + }, + { + "epoch": 0.093952, + "grad_norm": 0.9477568864822388, + "learning_rate": 1.9373653333333335e-05, + "loss": 0.0824, + "step": 14680 + }, + { + "epoch": 0.093984, + "grad_norm": 0.38653096556663513, + "learning_rate": 1.9373440000000003e-05, + "loss": 0.0812, + "step": 14685 + }, + { + "epoch": 0.094016, + "grad_norm": 2.3520708084106445, + "learning_rate": 1.937322666666667e-05, + "loss": 0.1375, + "step": 14690 + }, + { + "epoch": 0.094048, + "grad_norm": 0.9690337777137756, + "learning_rate": 1.9373013333333334e-05, + "loss": 0.0917, + "step": 14695 + }, + { + "epoch": 0.09408, + "grad_norm": 0.7220008969306946, + "learning_rate": 1.9372800000000002e-05, + "loss": 0.1127, + "step": 14700 + }, + { + "epoch": 0.094112, + "grad_norm": 1.1979738473892212, + "learning_rate": 1.937258666666667e-05, + "loss": 0.0962, + "step": 14705 + }, + { + "epoch": 0.094144, + "grad_norm": 1.0522867441177368, + "learning_rate": 1.9372373333333334e-05, + "loss": 0.1267, + "step": 14710 + }, + { + "epoch": 0.094176, + "grad_norm": 1.4267593622207642, + "learning_rate": 1.937216e-05, + "loss": 0.1369, + "step": 14715 + }, + { + "epoch": 0.094208, + "grad_norm": 1.099310040473938, + "learning_rate": 1.937194666666667e-05, + "loss": 0.1497, + "step": 14720 + }, + { + "epoch": 0.09424, + "grad_norm": 0.6128382086753845, + "learning_rate": 1.9371733333333336e-05, + "loss": 0.127, + "step": 14725 + }, + { + "epoch": 0.094272, + "grad_norm": 0.8541406393051147, + "learning_rate": 1.937152e-05, + "loss": 0.0987, + "step": 14730 + }, + { + "epoch": 0.094304, + "grad_norm": 1.054916262626648, + "learning_rate": 1.9371306666666668e-05, + "loss": 0.1304, + "step": 14735 + }, + { + "epoch": 0.094336, + "grad_norm": 1.9420267343521118, + "learning_rate": 1.9371093333333336e-05, + "loss": 0.1202, + "step": 14740 + }, + { + "epoch": 0.094368, + "grad_norm": 1.924444556236267, + "learning_rate": 1.937088e-05, + "loss": 0.1071, + "step": 14745 + }, + { + "epoch": 0.0944, + "grad_norm": 1.1843920946121216, + "learning_rate": 1.9370666666666667e-05, + "loss": 0.1134, + "step": 14750 + }, + { + "epoch": 0.094432, + "grad_norm": 0.9186893701553345, + "learning_rate": 1.9370453333333335e-05, + "loss": 0.1292, + "step": 14755 + }, + { + "epoch": 0.094464, + "grad_norm": 5.4284443855285645, + "learning_rate": 1.9370240000000002e-05, + "loss": 0.1253, + "step": 14760 + }, + { + "epoch": 0.094496, + "grad_norm": 1.5426676273345947, + "learning_rate": 1.9370026666666667e-05, + "loss": 0.1055, + "step": 14765 + }, + { + "epoch": 0.094528, + "grad_norm": 1.744821548461914, + "learning_rate": 1.9369813333333338e-05, + "loss": 0.0985, + "step": 14770 + }, + { + "epoch": 0.09456, + "grad_norm": 1.5952941179275513, + "learning_rate": 1.9369600000000002e-05, + "loss": 0.1312, + "step": 14775 + }, + { + "epoch": 0.094592, + "grad_norm": 0.6776891350746155, + "learning_rate": 1.9369386666666666e-05, + "loss": 0.1084, + "step": 14780 + }, + { + "epoch": 0.094624, + "grad_norm": 1.7573328018188477, + "learning_rate": 1.9369173333333337e-05, + "loss": 0.1748, + "step": 14785 + }, + { + "epoch": 0.094656, + "grad_norm": 1.737428903579712, + "learning_rate": 1.936896e-05, + "loss": 0.129, + "step": 14790 + }, + { + "epoch": 0.094688, + "grad_norm": 1.136891484260559, + "learning_rate": 1.936874666666667e-05, + "loss": 0.1081, + "step": 14795 + }, + { + "epoch": 0.09472, + "grad_norm": 1.459376573562622, + "learning_rate": 1.9368533333333336e-05, + "loss": 0.1287, + "step": 14800 + }, + { + "epoch": 0.094752, + "grad_norm": 1.4028488397598267, + "learning_rate": 1.9368320000000004e-05, + "loss": 0.1522, + "step": 14805 + }, + { + "epoch": 0.094784, + "grad_norm": 1.1940650939941406, + "learning_rate": 1.9368106666666668e-05, + "loss": 0.1774, + "step": 14810 + }, + { + "epoch": 0.094816, + "grad_norm": 3.173072338104248, + "learning_rate": 1.9367893333333335e-05, + "loss": 0.1255, + "step": 14815 + }, + { + "epoch": 0.094848, + "grad_norm": 1.7985060214996338, + "learning_rate": 1.9367680000000003e-05, + "loss": 0.0961, + "step": 14820 + }, + { + "epoch": 0.09488, + "grad_norm": 1.174285650253296, + "learning_rate": 1.9367466666666667e-05, + "loss": 0.1425, + "step": 14825 + }, + { + "epoch": 0.094912, + "grad_norm": 2.606005907058716, + "learning_rate": 1.9367253333333335e-05, + "loss": 0.1074, + "step": 14830 + }, + { + "epoch": 0.094944, + "grad_norm": 0.9806460738182068, + "learning_rate": 1.9367040000000002e-05, + "loss": 0.1422, + "step": 14835 + }, + { + "epoch": 0.094976, + "grad_norm": 0.6597467064857483, + "learning_rate": 1.936682666666667e-05, + "loss": 0.1081, + "step": 14840 + }, + { + "epoch": 0.095008, + "grad_norm": 3.4943454265594482, + "learning_rate": 1.9366613333333334e-05, + "loss": 0.158, + "step": 14845 + }, + { + "epoch": 0.09504, + "grad_norm": 0.6141418814659119, + "learning_rate": 1.93664e-05, + "loss": 0.1401, + "step": 14850 + }, + { + "epoch": 0.095072, + "grad_norm": 0.878122091293335, + "learning_rate": 1.936618666666667e-05, + "loss": 0.1078, + "step": 14855 + }, + { + "epoch": 0.095104, + "grad_norm": 0.7388058304786682, + "learning_rate": 1.9365973333333333e-05, + "loss": 0.1229, + "step": 14860 + }, + { + "epoch": 0.095136, + "grad_norm": 1.2746729850769043, + "learning_rate": 1.936576e-05, + "loss": 0.0927, + "step": 14865 + }, + { + "epoch": 0.095168, + "grad_norm": 1.1845439672470093, + "learning_rate": 1.9365546666666668e-05, + "loss": 0.0839, + "step": 14870 + }, + { + "epoch": 0.0952, + "grad_norm": 1.5281991958618164, + "learning_rate": 1.9365333333333336e-05, + "loss": 0.1306, + "step": 14875 + }, + { + "epoch": 0.095232, + "grad_norm": 1.1706151962280273, + "learning_rate": 1.936512e-05, + "loss": 0.1237, + "step": 14880 + }, + { + "epoch": 0.095264, + "grad_norm": 0.7291823029518127, + "learning_rate": 1.9364906666666668e-05, + "loss": 0.0826, + "step": 14885 + }, + { + "epoch": 0.095296, + "grad_norm": 1.9814714193344116, + "learning_rate": 1.9364693333333335e-05, + "loss": 0.1527, + "step": 14890 + }, + { + "epoch": 0.095328, + "grad_norm": 2.2517597675323486, + "learning_rate": 1.9364480000000003e-05, + "loss": 0.1162, + "step": 14895 + }, + { + "epoch": 0.09536, + "grad_norm": 1.615624189376831, + "learning_rate": 1.936426666666667e-05, + "loss": 0.1074, + "step": 14900 + }, + { + "epoch": 0.095392, + "grad_norm": 0.9057033061981201, + "learning_rate": 1.9364053333333334e-05, + "loss": 0.1448, + "step": 14905 + }, + { + "epoch": 0.095424, + "grad_norm": 0.8090547919273376, + "learning_rate": 1.9363840000000002e-05, + "loss": 0.0945, + "step": 14910 + }, + { + "epoch": 0.095456, + "grad_norm": 1.5430437326431274, + "learning_rate": 1.936362666666667e-05, + "loss": 0.0903, + "step": 14915 + }, + { + "epoch": 0.095488, + "grad_norm": 0.8068225979804993, + "learning_rate": 1.9363413333333334e-05, + "loss": 0.1464, + "step": 14920 + }, + { + "epoch": 0.09552, + "grad_norm": 0.6854236125946045, + "learning_rate": 1.93632e-05, + "loss": 0.0881, + "step": 14925 + }, + { + "epoch": 0.095552, + "grad_norm": 0.6376011371612549, + "learning_rate": 1.936298666666667e-05, + "loss": 0.0833, + "step": 14930 + }, + { + "epoch": 0.095584, + "grad_norm": 1.5025138854980469, + "learning_rate": 1.9362773333333336e-05, + "loss": 0.1335, + "step": 14935 + }, + { + "epoch": 0.095616, + "grad_norm": 1.6229026317596436, + "learning_rate": 1.936256e-05, + "loss": 0.1065, + "step": 14940 + }, + { + "epoch": 0.095648, + "grad_norm": 0.8267592191696167, + "learning_rate": 1.9362346666666668e-05, + "loss": 0.1123, + "step": 14945 + }, + { + "epoch": 0.09568, + "grad_norm": 1.952945590019226, + "learning_rate": 1.9362133333333336e-05, + "loss": 0.1248, + "step": 14950 + }, + { + "epoch": 0.095712, + "grad_norm": 0.9833604693412781, + "learning_rate": 1.936192e-05, + "loss": 0.0876, + "step": 14955 + }, + { + "epoch": 0.095744, + "grad_norm": 1.0725045204162598, + "learning_rate": 1.9361706666666667e-05, + "loss": 0.152, + "step": 14960 + }, + { + "epoch": 0.095776, + "grad_norm": 3.308809995651245, + "learning_rate": 1.9361493333333335e-05, + "loss": 0.121, + "step": 14965 + }, + { + "epoch": 0.095808, + "grad_norm": 1.701680302619934, + "learning_rate": 1.9361280000000002e-05, + "loss": 0.1395, + "step": 14970 + }, + { + "epoch": 0.09584, + "grad_norm": 1.3820526599884033, + "learning_rate": 1.9361066666666667e-05, + "loss": 0.1169, + "step": 14975 + }, + { + "epoch": 0.095872, + "grad_norm": 1.6885429620742798, + "learning_rate": 1.9360853333333338e-05, + "loss": 0.0939, + "step": 14980 + }, + { + "epoch": 0.095904, + "grad_norm": 1.334404706954956, + "learning_rate": 1.9360640000000002e-05, + "loss": 0.0912, + "step": 14985 + }, + { + "epoch": 0.095936, + "grad_norm": 3.2719132900238037, + "learning_rate": 1.9360426666666666e-05, + "loss": 0.1021, + "step": 14990 + }, + { + "epoch": 0.095968, + "grad_norm": 0.7349984049797058, + "learning_rate": 1.9360213333333337e-05, + "loss": 0.1099, + "step": 14995 + }, + { + "epoch": 0.096, + "grad_norm": 0.8785617351531982, + "learning_rate": 1.936e-05, + "loss": 0.1261, + "step": 15000 + }, + { + "epoch": 0.096032, + "grad_norm": 8.98462963104248, + "learning_rate": 1.935978666666667e-05, + "loss": 0.1293, + "step": 15005 + }, + { + "epoch": 0.096064, + "grad_norm": 1.7987581491470337, + "learning_rate": 1.9359573333333336e-05, + "loss": 0.2056, + "step": 15010 + }, + { + "epoch": 0.096096, + "grad_norm": 0.6065044403076172, + "learning_rate": 1.9359360000000004e-05, + "loss": 0.0987, + "step": 15015 + }, + { + "epoch": 0.096128, + "grad_norm": 2.232825756072998, + "learning_rate": 1.9359146666666668e-05, + "loss": 0.1354, + "step": 15020 + }, + { + "epoch": 0.09616, + "grad_norm": 1.5959392786026, + "learning_rate": 1.9358933333333335e-05, + "loss": 0.111, + "step": 15025 + }, + { + "epoch": 0.096192, + "grad_norm": 1.5390911102294922, + "learning_rate": 1.9358720000000003e-05, + "loss": 0.1298, + "step": 15030 + }, + { + "epoch": 0.096224, + "grad_norm": 1.4647754430770874, + "learning_rate": 1.9358506666666667e-05, + "loss": 0.1212, + "step": 15035 + }, + { + "epoch": 0.096256, + "grad_norm": 0.680010199546814, + "learning_rate": 1.9358293333333335e-05, + "loss": 0.1409, + "step": 15040 + }, + { + "epoch": 0.096288, + "grad_norm": 0.7828500866889954, + "learning_rate": 1.9358080000000002e-05, + "loss": 0.1023, + "step": 15045 + }, + { + "epoch": 0.09632, + "grad_norm": 1.616686463356018, + "learning_rate": 1.935786666666667e-05, + "loss": 0.1176, + "step": 15050 + }, + { + "epoch": 0.096352, + "grad_norm": 1.5456993579864502, + "learning_rate": 1.9357653333333334e-05, + "loss": 0.1402, + "step": 15055 + }, + { + "epoch": 0.096384, + "grad_norm": 0.9410173296928406, + "learning_rate": 1.935744e-05, + "loss": 0.1362, + "step": 15060 + }, + { + "epoch": 0.096416, + "grad_norm": 2.2496540546417236, + "learning_rate": 1.935722666666667e-05, + "loss": 0.1215, + "step": 15065 + }, + { + "epoch": 0.096448, + "grad_norm": 0.8932589888572693, + "learning_rate": 1.9357013333333333e-05, + "loss": 0.1023, + "step": 15070 + }, + { + "epoch": 0.09648, + "grad_norm": 2.421820878982544, + "learning_rate": 1.93568e-05, + "loss": 0.1641, + "step": 15075 + }, + { + "epoch": 0.096512, + "grad_norm": 0.8823586702346802, + "learning_rate": 1.9356586666666668e-05, + "loss": 0.0889, + "step": 15080 + }, + { + "epoch": 0.096544, + "grad_norm": 1.3401381969451904, + "learning_rate": 1.9356373333333336e-05, + "loss": 0.1182, + "step": 15085 + }, + { + "epoch": 0.096576, + "grad_norm": 1.148237705230713, + "learning_rate": 1.935616e-05, + "loss": 0.1235, + "step": 15090 + }, + { + "epoch": 0.096608, + "grad_norm": 3.277554750442505, + "learning_rate": 1.9355946666666668e-05, + "loss": 0.1704, + "step": 15095 + }, + { + "epoch": 0.09664, + "grad_norm": 2.720695972442627, + "learning_rate": 1.9355733333333335e-05, + "loss": 0.0901, + "step": 15100 + }, + { + "epoch": 0.096672, + "grad_norm": 1.913440227508545, + "learning_rate": 1.935552e-05, + "loss": 0.1009, + "step": 15105 + }, + { + "epoch": 0.096704, + "grad_norm": 1.1660500764846802, + "learning_rate": 1.935530666666667e-05, + "loss": 0.1526, + "step": 15110 + }, + { + "epoch": 0.096736, + "grad_norm": 0.8696768283843994, + "learning_rate": 1.9355093333333334e-05, + "loss": 0.1013, + "step": 15115 + }, + { + "epoch": 0.096768, + "grad_norm": 3.325608253479004, + "learning_rate": 1.9354880000000002e-05, + "loss": 0.1304, + "step": 15120 + }, + { + "epoch": 0.0968, + "grad_norm": 4.387989521026611, + "learning_rate": 1.935466666666667e-05, + "loss": 0.0923, + "step": 15125 + }, + { + "epoch": 0.096832, + "grad_norm": 1.5963983535766602, + "learning_rate": 1.9354453333333334e-05, + "loss": 0.1076, + "step": 15130 + }, + { + "epoch": 0.096864, + "grad_norm": 1.1280633211135864, + "learning_rate": 1.935424e-05, + "loss": 0.1616, + "step": 15135 + }, + { + "epoch": 0.096896, + "grad_norm": 19.313697814941406, + "learning_rate": 1.935402666666667e-05, + "loss": 0.1169, + "step": 15140 + }, + { + "epoch": 0.096928, + "grad_norm": 2.2304916381835938, + "learning_rate": 1.9353813333333336e-05, + "loss": 0.114, + "step": 15145 + }, + { + "epoch": 0.09696, + "grad_norm": 0.8218557238578796, + "learning_rate": 1.93536e-05, + "loss": 0.1225, + "step": 15150 + }, + { + "epoch": 0.096992, + "grad_norm": 0.736717164516449, + "learning_rate": 1.9353386666666668e-05, + "loss": 0.104, + "step": 15155 + }, + { + "epoch": 0.097024, + "grad_norm": 0.8044075965881348, + "learning_rate": 1.9353173333333336e-05, + "loss": 0.134, + "step": 15160 + }, + { + "epoch": 0.097056, + "grad_norm": 2.105952024459839, + "learning_rate": 1.935296e-05, + "loss": 0.1013, + "step": 15165 + }, + { + "epoch": 0.097088, + "grad_norm": 3.3707938194274902, + "learning_rate": 1.9352746666666667e-05, + "loss": 0.1324, + "step": 15170 + }, + { + "epoch": 0.09712, + "grad_norm": 0.8396654725074768, + "learning_rate": 1.9352533333333335e-05, + "loss": 0.1112, + "step": 15175 + }, + { + "epoch": 0.097152, + "grad_norm": 1.030032992362976, + "learning_rate": 1.9352320000000002e-05, + "loss": 0.1151, + "step": 15180 + }, + { + "epoch": 0.097184, + "grad_norm": 1.4559870958328247, + "learning_rate": 1.9352106666666667e-05, + "loss": 0.1415, + "step": 15185 + }, + { + "epoch": 0.097216, + "grad_norm": 1.0806893110275269, + "learning_rate": 1.9351893333333338e-05, + "loss": 0.126, + "step": 15190 + }, + { + "epoch": 0.097248, + "grad_norm": 0.8173173069953918, + "learning_rate": 1.9351680000000002e-05, + "loss": 0.1123, + "step": 15195 + }, + { + "epoch": 0.09728, + "grad_norm": 1.3776298761367798, + "learning_rate": 1.9351466666666666e-05, + "loss": 0.1072, + "step": 15200 + }, + { + "epoch": 0.097312, + "grad_norm": 1.3673343658447266, + "learning_rate": 1.9351253333333337e-05, + "loss": 0.1427, + "step": 15205 + }, + { + "epoch": 0.097344, + "grad_norm": 1.0314912796020508, + "learning_rate": 1.935104e-05, + "loss": 0.1319, + "step": 15210 + }, + { + "epoch": 0.097376, + "grad_norm": 0.7595058083534241, + "learning_rate": 1.935082666666667e-05, + "loss": 0.1772, + "step": 15215 + }, + { + "epoch": 0.097408, + "grad_norm": 0.9971747398376465, + "learning_rate": 1.9350613333333336e-05, + "loss": 0.0824, + "step": 15220 + }, + { + "epoch": 0.09744, + "grad_norm": 1.071668267250061, + "learning_rate": 1.9350400000000004e-05, + "loss": 0.1359, + "step": 15225 + }, + { + "epoch": 0.097472, + "grad_norm": 0.9046707153320312, + "learning_rate": 1.9350186666666668e-05, + "loss": 0.0989, + "step": 15230 + }, + { + "epoch": 0.097504, + "grad_norm": 1.6165666580200195, + "learning_rate": 1.9349973333333335e-05, + "loss": 0.1357, + "step": 15235 + }, + { + "epoch": 0.097536, + "grad_norm": 2.106642007827759, + "learning_rate": 1.9349760000000003e-05, + "loss": 0.1751, + "step": 15240 + }, + { + "epoch": 0.097568, + "grad_norm": 0.9776021838188171, + "learning_rate": 1.9349546666666667e-05, + "loss": 0.0915, + "step": 15245 + }, + { + "epoch": 0.0976, + "grad_norm": 0.711586594581604, + "learning_rate": 1.9349333333333335e-05, + "loss": 0.1579, + "step": 15250 + }, + { + "epoch": 0.097632, + "grad_norm": 1.0465885400772095, + "learning_rate": 1.9349120000000002e-05, + "loss": 0.0771, + "step": 15255 + }, + { + "epoch": 0.097664, + "grad_norm": 1.5388680696487427, + "learning_rate": 1.934890666666667e-05, + "loss": 0.0543, + "step": 15260 + }, + { + "epoch": 0.097696, + "grad_norm": 1.3109557628631592, + "learning_rate": 1.9348693333333334e-05, + "loss": 0.1009, + "step": 15265 + }, + { + "epoch": 0.097728, + "grad_norm": 1.2164767980575562, + "learning_rate": 1.934848e-05, + "loss": 0.1589, + "step": 15270 + }, + { + "epoch": 0.09776, + "grad_norm": 0.7116701602935791, + "learning_rate": 1.934826666666667e-05, + "loss": 0.0817, + "step": 15275 + }, + { + "epoch": 0.097792, + "grad_norm": 1.39485502243042, + "learning_rate": 1.9348053333333333e-05, + "loss": 0.1233, + "step": 15280 + }, + { + "epoch": 0.097824, + "grad_norm": 2.69266414642334, + "learning_rate": 1.934784e-05, + "loss": 0.1592, + "step": 15285 + }, + { + "epoch": 0.097856, + "grad_norm": 1.6924563646316528, + "learning_rate": 1.9347626666666668e-05, + "loss": 0.1354, + "step": 15290 + }, + { + "epoch": 0.097888, + "grad_norm": 41.5787353515625, + "learning_rate": 1.9347413333333336e-05, + "loss": 0.0989, + "step": 15295 + }, + { + "epoch": 0.09792, + "grad_norm": 0.731589138507843, + "learning_rate": 1.93472e-05, + "loss": 0.0991, + "step": 15300 + }, + { + "epoch": 0.097952, + "grad_norm": 0.8978270292282104, + "learning_rate": 1.9346986666666668e-05, + "loss": 0.159, + "step": 15305 + }, + { + "epoch": 0.097984, + "grad_norm": 70.77143859863281, + "learning_rate": 1.9346773333333335e-05, + "loss": 0.1473, + "step": 15310 + }, + { + "epoch": 0.098016, + "grad_norm": 0.9310997724533081, + "learning_rate": 1.934656e-05, + "loss": 0.0909, + "step": 15315 + }, + { + "epoch": 0.098048, + "grad_norm": 1.2599068880081177, + "learning_rate": 1.934634666666667e-05, + "loss": 0.0789, + "step": 15320 + }, + { + "epoch": 0.09808, + "grad_norm": 1.473997950553894, + "learning_rate": 1.9346133333333334e-05, + "loss": 0.0713, + "step": 15325 + }, + { + "epoch": 0.098112, + "grad_norm": 3.260373592376709, + "learning_rate": 1.9345920000000002e-05, + "loss": 0.1549, + "step": 15330 + }, + { + "epoch": 0.098144, + "grad_norm": 3.7705111503601074, + "learning_rate": 1.934570666666667e-05, + "loss": 0.1037, + "step": 15335 + }, + { + "epoch": 0.098176, + "grad_norm": 0.688834011554718, + "learning_rate": 1.9345493333333334e-05, + "loss": 0.1241, + "step": 15340 + }, + { + "epoch": 0.098208, + "grad_norm": 2.2606112957000732, + "learning_rate": 1.934528e-05, + "loss": 0.1205, + "step": 15345 + }, + { + "epoch": 0.09824, + "grad_norm": 3.3006577491760254, + "learning_rate": 1.934506666666667e-05, + "loss": 0.1052, + "step": 15350 + }, + { + "epoch": 0.098272, + "grad_norm": 0.8495701551437378, + "learning_rate": 1.9344853333333336e-05, + "loss": 0.1277, + "step": 15355 + }, + { + "epoch": 0.098304, + "grad_norm": 10.828245162963867, + "learning_rate": 1.934464e-05, + "loss": 0.1129, + "step": 15360 + }, + { + "epoch": 0.098336, + "grad_norm": 0.6076919436454773, + "learning_rate": 1.9344426666666668e-05, + "loss": 0.088, + "step": 15365 + }, + { + "epoch": 0.098368, + "grad_norm": 1.2858312129974365, + "learning_rate": 1.9344213333333336e-05, + "loss": 0.0926, + "step": 15370 + }, + { + "epoch": 0.0984, + "grad_norm": 1.1599302291870117, + "learning_rate": 1.9344e-05, + "loss": 0.1485, + "step": 15375 + }, + { + "epoch": 0.098432, + "grad_norm": 1.8413598537445068, + "learning_rate": 1.9343786666666667e-05, + "loss": 0.1337, + "step": 15380 + }, + { + "epoch": 0.098464, + "grad_norm": 0.7793406248092651, + "learning_rate": 1.9343573333333335e-05, + "loss": 0.1026, + "step": 15385 + }, + { + "epoch": 0.098496, + "grad_norm": 0.7206210494041443, + "learning_rate": 1.9343360000000002e-05, + "loss": 0.1024, + "step": 15390 + }, + { + "epoch": 0.098528, + "grad_norm": 0.6059669256210327, + "learning_rate": 1.9343146666666667e-05, + "loss": 0.0772, + "step": 15395 + }, + { + "epoch": 0.09856, + "grad_norm": 1.4470340013504028, + "learning_rate": 1.9342933333333334e-05, + "loss": 0.1458, + "step": 15400 + }, + { + "epoch": 0.098592, + "grad_norm": 0.6687420606613159, + "learning_rate": 1.9342720000000002e-05, + "loss": 0.1501, + "step": 15405 + }, + { + "epoch": 0.098624, + "grad_norm": 0.5465275645256042, + "learning_rate": 1.9342506666666666e-05, + "loss": 0.0696, + "step": 15410 + }, + { + "epoch": 0.098656, + "grad_norm": 1.3225617408752441, + "learning_rate": 1.9342293333333337e-05, + "loss": 0.1245, + "step": 15415 + }, + { + "epoch": 0.098688, + "grad_norm": 1.267985224723816, + "learning_rate": 1.934208e-05, + "loss": 0.129, + "step": 15420 + }, + { + "epoch": 0.09872, + "grad_norm": 0.7307817935943604, + "learning_rate": 1.934186666666667e-05, + "loss": 0.1539, + "step": 15425 + }, + { + "epoch": 0.098752, + "grad_norm": 1.7870744466781616, + "learning_rate": 1.9341653333333336e-05, + "loss": 0.1551, + "step": 15430 + }, + { + "epoch": 0.098784, + "grad_norm": 3.5069854259490967, + "learning_rate": 1.9341440000000004e-05, + "loss": 0.142, + "step": 15435 + }, + { + "epoch": 0.098816, + "grad_norm": 0.9386849999427795, + "learning_rate": 1.9341226666666668e-05, + "loss": 0.1249, + "step": 15440 + }, + { + "epoch": 0.098848, + "grad_norm": 0.9211949706077576, + "learning_rate": 1.9341013333333335e-05, + "loss": 0.1122, + "step": 15445 + }, + { + "epoch": 0.09888, + "grad_norm": 1.194190502166748, + "learning_rate": 1.9340800000000003e-05, + "loss": 0.0959, + "step": 15450 + }, + { + "epoch": 0.098912, + "grad_norm": 1.5564591884613037, + "learning_rate": 1.9340586666666667e-05, + "loss": 0.0763, + "step": 15455 + }, + { + "epoch": 0.098944, + "grad_norm": 1.0297329425811768, + "learning_rate": 1.9340373333333335e-05, + "loss": 0.1413, + "step": 15460 + }, + { + "epoch": 0.098976, + "grad_norm": 1.0142474174499512, + "learning_rate": 1.9340160000000002e-05, + "loss": 0.1253, + "step": 15465 + }, + { + "epoch": 0.099008, + "grad_norm": 1.5645021200180054, + "learning_rate": 1.933994666666667e-05, + "loss": 0.127, + "step": 15470 + }, + { + "epoch": 0.09904, + "grad_norm": 0.7064893841743469, + "learning_rate": 1.9339733333333334e-05, + "loss": 0.1176, + "step": 15475 + }, + { + "epoch": 0.099072, + "grad_norm": 1.0519723892211914, + "learning_rate": 1.933952e-05, + "loss": 0.0865, + "step": 15480 + }, + { + "epoch": 0.099104, + "grad_norm": 0.9187127947807312, + "learning_rate": 1.933930666666667e-05, + "loss": 0.1562, + "step": 15485 + }, + { + "epoch": 0.099136, + "grad_norm": 1.9582889080047607, + "learning_rate": 1.9339093333333333e-05, + "loss": 0.1327, + "step": 15490 + }, + { + "epoch": 0.099168, + "grad_norm": 1.5957744121551514, + "learning_rate": 1.933888e-05, + "loss": 0.1072, + "step": 15495 + }, + { + "epoch": 0.0992, + "grad_norm": 1.4831161499023438, + "learning_rate": 1.933866666666667e-05, + "loss": 0.091, + "step": 15500 + }, + { + "epoch": 0.099232, + "grad_norm": 1.0814998149871826, + "learning_rate": 1.9338453333333336e-05, + "loss": 0.1086, + "step": 15505 + }, + { + "epoch": 0.099264, + "grad_norm": 0.7573399543762207, + "learning_rate": 1.933824e-05, + "loss": 0.0943, + "step": 15510 + }, + { + "epoch": 0.099296, + "grad_norm": 2.8059027194976807, + "learning_rate": 1.9338026666666668e-05, + "loss": 0.1006, + "step": 15515 + }, + { + "epoch": 0.099328, + "grad_norm": 0.9411940574645996, + "learning_rate": 1.9337813333333335e-05, + "loss": 0.1231, + "step": 15520 + }, + { + "epoch": 0.09936, + "grad_norm": 0.9598962664604187, + "learning_rate": 1.93376e-05, + "loss": 0.13, + "step": 15525 + }, + { + "epoch": 0.099392, + "grad_norm": 1.0483533143997192, + "learning_rate": 1.933738666666667e-05, + "loss": 0.1013, + "step": 15530 + }, + { + "epoch": 0.099424, + "grad_norm": 1.9855448007583618, + "learning_rate": 1.9337173333333334e-05, + "loss": 0.0967, + "step": 15535 + }, + { + "epoch": 0.099456, + "grad_norm": 2.274646759033203, + "learning_rate": 1.9336960000000002e-05, + "loss": 0.1283, + "step": 15540 + }, + { + "epoch": 0.099488, + "grad_norm": 1.1104309558868408, + "learning_rate": 1.933674666666667e-05, + "loss": 0.1371, + "step": 15545 + }, + { + "epoch": 0.09952, + "grad_norm": 0.8343079090118408, + "learning_rate": 1.9336533333333334e-05, + "loss": 0.1148, + "step": 15550 + }, + { + "epoch": 0.099552, + "grad_norm": 1.2786203622817993, + "learning_rate": 1.933632e-05, + "loss": 0.0965, + "step": 15555 + }, + { + "epoch": 0.099584, + "grad_norm": 1.5956519842147827, + "learning_rate": 1.933610666666667e-05, + "loss": 0.1376, + "step": 15560 + }, + { + "epoch": 0.099616, + "grad_norm": 1.4849191904067993, + "learning_rate": 1.9335893333333336e-05, + "loss": 0.1569, + "step": 15565 + }, + { + "epoch": 0.099648, + "grad_norm": 1.4631438255310059, + "learning_rate": 1.933568e-05, + "loss": 0.1238, + "step": 15570 + }, + { + "epoch": 0.09968, + "grad_norm": 1.1506212949752808, + "learning_rate": 1.9335466666666668e-05, + "loss": 0.1286, + "step": 15575 + }, + { + "epoch": 0.099712, + "grad_norm": 1.483062982559204, + "learning_rate": 1.9335253333333336e-05, + "loss": 0.1001, + "step": 15580 + }, + { + "epoch": 0.099744, + "grad_norm": 0.6089542508125305, + "learning_rate": 1.933504e-05, + "loss": 0.1058, + "step": 15585 + }, + { + "epoch": 0.099776, + "grad_norm": 1.300567388534546, + "learning_rate": 1.9334826666666667e-05, + "loss": 0.0908, + "step": 15590 + }, + { + "epoch": 0.099808, + "grad_norm": 0.9661495089530945, + "learning_rate": 1.9334613333333335e-05, + "loss": 0.1335, + "step": 15595 + }, + { + "epoch": 0.09984, + "grad_norm": 1.1219465732574463, + "learning_rate": 1.9334400000000002e-05, + "loss": 0.113, + "step": 15600 + }, + { + "epoch": 0.099872, + "grad_norm": 0.7894590497016907, + "learning_rate": 1.9334186666666667e-05, + "loss": 0.0978, + "step": 15605 + }, + { + "epoch": 0.099904, + "grad_norm": 1.2411688566207886, + "learning_rate": 1.9333973333333334e-05, + "loss": 0.0984, + "step": 15610 + }, + { + "epoch": 0.099936, + "grad_norm": 1.2833600044250488, + "learning_rate": 1.9333760000000002e-05, + "loss": 0.0993, + "step": 15615 + }, + { + "epoch": 0.099968, + "grad_norm": 0.9049772024154663, + "learning_rate": 1.933354666666667e-05, + "loss": 0.1511, + "step": 15620 + }, + { + "epoch": 0.1, + "grad_norm": 1.2832977771759033, + "learning_rate": 1.9333333333333333e-05, + "loss": 0.1056, + "step": 15625 + }, + { + "epoch": 0.100032, + "grad_norm": 1.5789114236831665, + "learning_rate": 1.933312e-05, + "loss": 0.1159, + "step": 15630 + }, + { + "epoch": 0.100064, + "grad_norm": 2.2580344676971436, + "learning_rate": 1.933290666666667e-05, + "loss": 0.0858, + "step": 15635 + }, + { + "epoch": 0.100096, + "grad_norm": 1.534163236618042, + "learning_rate": 1.9332693333333336e-05, + "loss": 0.1467, + "step": 15640 + }, + { + "epoch": 0.100128, + "grad_norm": 1.2906839847564697, + "learning_rate": 1.9332480000000004e-05, + "loss": 0.1617, + "step": 15645 + }, + { + "epoch": 0.10016, + "grad_norm": 0.7725052833557129, + "learning_rate": 1.9332266666666668e-05, + "loss": 0.1133, + "step": 15650 + }, + { + "epoch": 0.100192, + "grad_norm": 2.6627910137176514, + "learning_rate": 1.9332053333333335e-05, + "loss": 0.1403, + "step": 15655 + }, + { + "epoch": 0.100224, + "grad_norm": 1.6649746894836426, + "learning_rate": 1.9331840000000003e-05, + "loss": 0.1297, + "step": 15660 + }, + { + "epoch": 0.100256, + "grad_norm": 0.915799617767334, + "learning_rate": 1.9331626666666667e-05, + "loss": 0.1438, + "step": 15665 + }, + { + "epoch": 0.100288, + "grad_norm": 0.6330090165138245, + "learning_rate": 1.9331413333333335e-05, + "loss": 0.0757, + "step": 15670 + }, + { + "epoch": 0.10032, + "grad_norm": 0.9273442625999451, + "learning_rate": 1.9331200000000002e-05, + "loss": 0.0991, + "step": 15675 + }, + { + "epoch": 0.100352, + "grad_norm": 1.412081003189087, + "learning_rate": 1.933098666666667e-05, + "loss": 0.1418, + "step": 15680 + }, + { + "epoch": 0.100384, + "grad_norm": 1.3206508159637451, + "learning_rate": 1.9330773333333334e-05, + "loss": 0.1305, + "step": 15685 + }, + { + "epoch": 0.100416, + "grad_norm": 2.590970993041992, + "learning_rate": 1.933056e-05, + "loss": 0.114, + "step": 15690 + }, + { + "epoch": 0.100448, + "grad_norm": 1.551795482635498, + "learning_rate": 1.933034666666667e-05, + "loss": 0.1149, + "step": 15695 + }, + { + "epoch": 0.10048, + "grad_norm": 1.665276288986206, + "learning_rate": 1.9330133333333333e-05, + "loss": 0.1246, + "step": 15700 + }, + { + "epoch": 0.100512, + "grad_norm": 1.7677818536758423, + "learning_rate": 1.932992e-05, + "loss": 0.148, + "step": 15705 + }, + { + "epoch": 0.100544, + "grad_norm": 1.0081967115402222, + "learning_rate": 1.932970666666667e-05, + "loss": 0.1055, + "step": 15710 + }, + { + "epoch": 0.100576, + "grad_norm": 0.8436036109924316, + "learning_rate": 1.9329493333333336e-05, + "loss": 0.118, + "step": 15715 + }, + { + "epoch": 0.100608, + "grad_norm": 1.185593605041504, + "learning_rate": 1.932928e-05, + "loss": 0.1351, + "step": 15720 + }, + { + "epoch": 0.10064, + "grad_norm": 1.202512502670288, + "learning_rate": 1.932906666666667e-05, + "loss": 0.1082, + "step": 15725 + }, + { + "epoch": 0.100672, + "grad_norm": 1.0713273286819458, + "learning_rate": 1.9328853333333335e-05, + "loss": 0.1383, + "step": 15730 + }, + { + "epoch": 0.100704, + "grad_norm": 1.7722539901733398, + "learning_rate": 1.932864e-05, + "loss": 0.1492, + "step": 15735 + }, + { + "epoch": 0.100736, + "grad_norm": 0.64251708984375, + "learning_rate": 1.932842666666667e-05, + "loss": 0.084, + "step": 15740 + }, + { + "epoch": 0.100768, + "grad_norm": 2.081232786178589, + "learning_rate": 1.9328213333333334e-05, + "loss": 0.1165, + "step": 15745 + }, + { + "epoch": 0.1008, + "grad_norm": 51.93954849243164, + "learning_rate": 1.9328000000000002e-05, + "loss": 0.1168, + "step": 15750 + }, + { + "epoch": 0.100832, + "grad_norm": 0.6280474066734314, + "learning_rate": 1.932778666666667e-05, + "loss": 0.1028, + "step": 15755 + }, + { + "epoch": 0.100864, + "grad_norm": 1.2255250215530396, + "learning_rate": 1.9327573333333337e-05, + "loss": 0.1316, + "step": 15760 + }, + { + "epoch": 0.100896, + "grad_norm": 1.219433069229126, + "learning_rate": 1.932736e-05, + "loss": 0.0989, + "step": 15765 + }, + { + "epoch": 0.100928, + "grad_norm": 1.020013689994812, + "learning_rate": 1.932714666666667e-05, + "loss": 0.118, + "step": 15770 + }, + { + "epoch": 0.10096, + "grad_norm": 3.047560930252075, + "learning_rate": 1.9326933333333336e-05, + "loss": 0.1101, + "step": 15775 + }, + { + "epoch": 0.100992, + "grad_norm": 0.5222949981689453, + "learning_rate": 1.932672e-05, + "loss": 0.0788, + "step": 15780 + }, + { + "epoch": 0.101024, + "grad_norm": 0.8669522404670715, + "learning_rate": 1.9326506666666668e-05, + "loss": 0.0885, + "step": 15785 + }, + { + "epoch": 0.101056, + "grad_norm": 1.4924510717391968, + "learning_rate": 1.9326293333333336e-05, + "loss": 0.1081, + "step": 15790 + }, + { + "epoch": 0.101088, + "grad_norm": 0.9806978702545166, + "learning_rate": 1.9326080000000003e-05, + "loss": 0.1206, + "step": 15795 + }, + { + "epoch": 0.10112, + "grad_norm": 1.5708314180374146, + "learning_rate": 1.9325866666666667e-05, + "loss": 0.0636, + "step": 15800 + }, + { + "epoch": 0.101152, + "grad_norm": 0.6028025150299072, + "learning_rate": 1.9325653333333335e-05, + "loss": 0.1283, + "step": 15805 + }, + { + "epoch": 0.101184, + "grad_norm": 0.3925341069698334, + "learning_rate": 1.9325440000000002e-05, + "loss": 0.1093, + "step": 15810 + }, + { + "epoch": 0.101216, + "grad_norm": 1.1847378015518188, + "learning_rate": 1.9325226666666667e-05, + "loss": 0.0695, + "step": 15815 + }, + { + "epoch": 0.101248, + "grad_norm": 0.9571182131767273, + "learning_rate": 1.9325013333333334e-05, + "loss": 0.0982, + "step": 15820 + }, + { + "epoch": 0.10128, + "grad_norm": 1.4481120109558105, + "learning_rate": 1.9324800000000002e-05, + "loss": 0.0918, + "step": 15825 + }, + { + "epoch": 0.101312, + "grad_norm": 1.630534052848816, + "learning_rate": 1.932458666666667e-05, + "loss": 0.1149, + "step": 15830 + }, + { + "epoch": 0.101344, + "grad_norm": 0.7514750957489014, + "learning_rate": 1.9324373333333333e-05, + "loss": 0.1366, + "step": 15835 + }, + { + "epoch": 0.101376, + "grad_norm": 1.2877649068832397, + "learning_rate": 1.932416e-05, + "loss": 0.0972, + "step": 15840 + }, + { + "epoch": 0.101408, + "grad_norm": 2.1550824642181396, + "learning_rate": 1.932394666666667e-05, + "loss": 0.1498, + "step": 15845 + }, + { + "epoch": 0.10144, + "grad_norm": 1.2021875381469727, + "learning_rate": 1.9323733333333333e-05, + "loss": 0.0931, + "step": 15850 + }, + { + "epoch": 0.101472, + "grad_norm": 1.0948312282562256, + "learning_rate": 1.9323520000000004e-05, + "loss": 0.1542, + "step": 15855 + }, + { + "epoch": 0.101504, + "grad_norm": 0.7581303715705872, + "learning_rate": 1.9323306666666668e-05, + "loss": 0.0774, + "step": 15860 + }, + { + "epoch": 0.101536, + "grad_norm": 0.8766255974769592, + "learning_rate": 1.9323093333333335e-05, + "loss": 0.0931, + "step": 15865 + }, + { + "epoch": 0.101568, + "grad_norm": 2.9260265827178955, + "learning_rate": 1.9322880000000003e-05, + "loss": 0.1816, + "step": 15870 + }, + { + "epoch": 0.1016, + "grad_norm": 1.2159881591796875, + "learning_rate": 1.9322666666666667e-05, + "loss": 0.1378, + "step": 15875 + }, + { + "epoch": 0.101632, + "grad_norm": 2.5073633193969727, + "learning_rate": 1.9322453333333335e-05, + "loss": 0.1342, + "step": 15880 + }, + { + "epoch": 0.101664, + "grad_norm": 1.031934380531311, + "learning_rate": 1.9322240000000002e-05, + "loss": 0.1342, + "step": 15885 + }, + { + "epoch": 0.101696, + "grad_norm": 1.5606310367584229, + "learning_rate": 1.932202666666667e-05, + "loss": 0.1507, + "step": 15890 + }, + { + "epoch": 0.101728, + "grad_norm": 2.132082462310791, + "learning_rate": 1.9321813333333334e-05, + "loss": 0.1444, + "step": 15895 + }, + { + "epoch": 0.10176, + "grad_norm": 1.5435805320739746, + "learning_rate": 1.93216e-05, + "loss": 0.0857, + "step": 15900 + }, + { + "epoch": 0.101792, + "grad_norm": 1.565983772277832, + "learning_rate": 1.932138666666667e-05, + "loss": 0.1459, + "step": 15905 + }, + { + "epoch": 0.101824, + "grad_norm": 0.44200843572616577, + "learning_rate": 1.9321173333333333e-05, + "loss": 0.0861, + "step": 15910 + }, + { + "epoch": 0.101856, + "grad_norm": 1.6320680379867554, + "learning_rate": 1.932096e-05, + "loss": 0.1218, + "step": 15915 + }, + { + "epoch": 0.101888, + "grad_norm": 1.245566964149475, + "learning_rate": 1.932074666666667e-05, + "loss": 0.1196, + "step": 15920 + }, + { + "epoch": 0.10192, + "grad_norm": 0.9018930792808533, + "learning_rate": 1.9320533333333336e-05, + "loss": 0.1259, + "step": 15925 + }, + { + "epoch": 0.101952, + "grad_norm": 0.9822403788566589, + "learning_rate": 1.932032e-05, + "loss": 0.1027, + "step": 15930 + }, + { + "epoch": 0.101984, + "grad_norm": 0.8747830390930176, + "learning_rate": 1.9320106666666668e-05, + "loss": 0.0982, + "step": 15935 + }, + { + "epoch": 0.102016, + "grad_norm": 1.1146795749664307, + "learning_rate": 1.9319893333333335e-05, + "loss": 0.1608, + "step": 15940 + }, + { + "epoch": 0.102048, + "grad_norm": 2.7279837131500244, + "learning_rate": 1.931968e-05, + "loss": 0.1212, + "step": 15945 + }, + { + "epoch": 0.10208, + "grad_norm": 0.8750343918800354, + "learning_rate": 1.931946666666667e-05, + "loss": 0.1137, + "step": 15950 + }, + { + "epoch": 0.102112, + "grad_norm": 2.876314640045166, + "learning_rate": 1.9319253333333334e-05, + "loss": 0.1232, + "step": 15955 + }, + { + "epoch": 0.102144, + "grad_norm": 1.3830716609954834, + "learning_rate": 1.9319040000000002e-05, + "loss": 0.1282, + "step": 15960 + }, + { + "epoch": 0.102176, + "grad_norm": 1.5706337690353394, + "learning_rate": 1.931882666666667e-05, + "loss": 0.131, + "step": 15965 + }, + { + "epoch": 0.102208, + "grad_norm": 0.774878740310669, + "learning_rate": 1.9318613333333337e-05, + "loss": 0.1117, + "step": 15970 + }, + { + "epoch": 0.10224, + "grad_norm": 1.9487015008926392, + "learning_rate": 1.93184e-05, + "loss": 0.1296, + "step": 15975 + }, + { + "epoch": 0.102272, + "grad_norm": 0.8187025189399719, + "learning_rate": 1.931818666666667e-05, + "loss": 0.0903, + "step": 15980 + }, + { + "epoch": 0.102304, + "grad_norm": 1.1987415552139282, + "learning_rate": 1.9317973333333336e-05, + "loss": 0.1, + "step": 15985 + }, + { + "epoch": 0.102336, + "grad_norm": 1.6579854488372803, + "learning_rate": 1.931776e-05, + "loss": 0.1128, + "step": 15990 + }, + { + "epoch": 0.102368, + "grad_norm": 0.21828410029411316, + "learning_rate": 1.9317546666666668e-05, + "loss": 0.0577, + "step": 15995 + }, + { + "epoch": 0.1024, + "grad_norm": 1.5462266206741333, + "learning_rate": 1.9317333333333336e-05, + "loss": 0.1407, + "step": 16000 + }, + { + "epoch": 0.102432, + "grad_norm": 1.4578114748001099, + "learning_rate": 1.9317120000000003e-05, + "loss": 0.1235, + "step": 16005 + }, + { + "epoch": 0.102464, + "grad_norm": 1.0016002655029297, + "learning_rate": 1.9316906666666667e-05, + "loss": 0.11, + "step": 16010 + }, + { + "epoch": 0.102496, + "grad_norm": 1.1500589847564697, + "learning_rate": 1.9316693333333335e-05, + "loss": 0.115, + "step": 16015 + }, + { + "epoch": 0.102528, + "grad_norm": 1.0717216730117798, + "learning_rate": 1.9316480000000002e-05, + "loss": 0.1087, + "step": 16020 + }, + { + "epoch": 0.10256, + "grad_norm": 0.3779233992099762, + "learning_rate": 1.9316266666666667e-05, + "loss": 0.0934, + "step": 16025 + }, + { + "epoch": 0.102592, + "grad_norm": 0.5105558037757874, + "learning_rate": 1.9316053333333334e-05, + "loss": 0.1296, + "step": 16030 + }, + { + "epoch": 0.102624, + "grad_norm": 1.1601839065551758, + "learning_rate": 1.9315840000000002e-05, + "loss": 0.0777, + "step": 16035 + }, + { + "epoch": 0.102656, + "grad_norm": 1.1916230916976929, + "learning_rate": 1.931562666666667e-05, + "loss": 0.1438, + "step": 16040 + }, + { + "epoch": 0.102688, + "grad_norm": 0.957431435585022, + "learning_rate": 1.9315413333333333e-05, + "loss": 0.1483, + "step": 16045 + }, + { + "epoch": 0.10272, + "grad_norm": 2.1848349571228027, + "learning_rate": 1.93152e-05, + "loss": 0.1045, + "step": 16050 + }, + { + "epoch": 0.102752, + "grad_norm": 0.7301079034805298, + "learning_rate": 1.931498666666667e-05, + "loss": 0.1117, + "step": 16055 + }, + { + "epoch": 0.102784, + "grad_norm": 1.4014281034469604, + "learning_rate": 1.9314773333333333e-05, + "loss": 0.1282, + "step": 16060 + }, + { + "epoch": 0.102816, + "grad_norm": 3.5046513080596924, + "learning_rate": 1.9314560000000004e-05, + "loss": 0.1075, + "step": 16065 + }, + { + "epoch": 0.102848, + "grad_norm": 0.7072165012359619, + "learning_rate": 1.9314346666666668e-05, + "loss": 0.119, + "step": 16070 + }, + { + "epoch": 0.10288, + "grad_norm": 0.6985360980033875, + "learning_rate": 1.9314133333333335e-05, + "loss": 0.0832, + "step": 16075 + }, + { + "epoch": 0.102912, + "grad_norm": 1.5164905786514282, + "learning_rate": 1.9313920000000003e-05, + "loss": 0.1225, + "step": 16080 + }, + { + "epoch": 0.102944, + "grad_norm": 1.2651302814483643, + "learning_rate": 1.9313706666666667e-05, + "loss": 0.1058, + "step": 16085 + }, + { + "epoch": 0.102976, + "grad_norm": 1.2936460971832275, + "learning_rate": 1.9313493333333335e-05, + "loss": 0.117, + "step": 16090 + }, + { + "epoch": 0.103008, + "grad_norm": 0.7033714056015015, + "learning_rate": 1.9313280000000002e-05, + "loss": 0.1027, + "step": 16095 + }, + { + "epoch": 0.10304, + "grad_norm": 0.6699474453926086, + "learning_rate": 1.931306666666667e-05, + "loss": 0.1244, + "step": 16100 + }, + { + "epoch": 0.103072, + "grad_norm": 1.3947316408157349, + "learning_rate": 1.9312853333333334e-05, + "loss": 0.1631, + "step": 16105 + }, + { + "epoch": 0.103104, + "grad_norm": 1.2944968938827515, + "learning_rate": 1.931264e-05, + "loss": 0.1193, + "step": 16110 + }, + { + "epoch": 0.103136, + "grad_norm": 0.5846468806266785, + "learning_rate": 1.931242666666667e-05, + "loss": 0.1031, + "step": 16115 + }, + { + "epoch": 0.103168, + "grad_norm": 0.6158643364906311, + "learning_rate": 1.9312213333333333e-05, + "loss": 0.1245, + "step": 16120 + }, + { + "epoch": 0.1032, + "grad_norm": 1.4445041418075562, + "learning_rate": 1.9312e-05, + "loss": 0.1008, + "step": 16125 + }, + { + "epoch": 0.103232, + "grad_norm": 1.351098656654358, + "learning_rate": 1.931178666666667e-05, + "loss": 0.1028, + "step": 16130 + }, + { + "epoch": 0.103264, + "grad_norm": 0.8945595026016235, + "learning_rate": 1.9311573333333336e-05, + "loss": 0.0971, + "step": 16135 + }, + { + "epoch": 0.103296, + "grad_norm": 0.7257127165794373, + "learning_rate": 1.931136e-05, + "loss": 0.0888, + "step": 16140 + }, + { + "epoch": 0.103328, + "grad_norm": 1.7736822366714478, + "learning_rate": 1.9311146666666668e-05, + "loss": 0.0863, + "step": 16145 + }, + { + "epoch": 0.10336, + "grad_norm": 9.57360553741455, + "learning_rate": 1.9310933333333335e-05, + "loss": 0.0983, + "step": 16150 + }, + { + "epoch": 0.103392, + "grad_norm": 0.8536657691001892, + "learning_rate": 1.931072e-05, + "loss": 0.095, + "step": 16155 + }, + { + "epoch": 0.103424, + "grad_norm": 0.69800865650177, + "learning_rate": 1.9310506666666667e-05, + "loss": 0.1329, + "step": 16160 + }, + { + "epoch": 0.103456, + "grad_norm": 0.9571471214294434, + "learning_rate": 1.9310293333333334e-05, + "loss": 0.1229, + "step": 16165 + }, + { + "epoch": 0.103488, + "grad_norm": 0.9208847284317017, + "learning_rate": 1.9310080000000002e-05, + "loss": 0.1085, + "step": 16170 + }, + { + "epoch": 0.10352, + "grad_norm": 0.6127330660820007, + "learning_rate": 1.930986666666667e-05, + "loss": 0.0937, + "step": 16175 + }, + { + "epoch": 0.103552, + "grad_norm": 1.231612205505371, + "learning_rate": 1.9309653333333337e-05, + "loss": 0.1224, + "step": 16180 + }, + { + "epoch": 0.103584, + "grad_norm": 0.8321629166603088, + "learning_rate": 1.930944e-05, + "loss": 0.1447, + "step": 16185 + }, + { + "epoch": 0.103616, + "grad_norm": 0.8570355176925659, + "learning_rate": 1.930922666666667e-05, + "loss": 0.0777, + "step": 16190 + }, + { + "epoch": 0.103648, + "grad_norm": 0.5366877317428589, + "learning_rate": 1.9309013333333336e-05, + "loss": 0.0802, + "step": 16195 + }, + { + "epoch": 0.10368, + "grad_norm": 0.9792131781578064, + "learning_rate": 1.93088e-05, + "loss": 0.1041, + "step": 16200 + }, + { + "epoch": 0.103712, + "grad_norm": 0.6862731575965881, + "learning_rate": 1.9308586666666668e-05, + "loss": 0.1176, + "step": 16205 + }, + { + "epoch": 0.103744, + "grad_norm": 0.932965874671936, + "learning_rate": 1.9308373333333336e-05, + "loss": 0.1168, + "step": 16210 + }, + { + "epoch": 0.103776, + "grad_norm": 2.2335116863250732, + "learning_rate": 1.9308160000000003e-05, + "loss": 0.0741, + "step": 16215 + }, + { + "epoch": 0.103808, + "grad_norm": 1.0943272113800049, + "learning_rate": 1.9307946666666667e-05, + "loss": 0.1265, + "step": 16220 + }, + { + "epoch": 0.10384, + "grad_norm": 1.0052845478057861, + "learning_rate": 1.9307733333333335e-05, + "loss": 0.0814, + "step": 16225 + }, + { + "epoch": 0.103872, + "grad_norm": 1.0242489576339722, + "learning_rate": 1.9307520000000002e-05, + "loss": 0.0994, + "step": 16230 + }, + { + "epoch": 0.103904, + "grad_norm": 0.7554215788841248, + "learning_rate": 1.9307306666666667e-05, + "loss": 0.1098, + "step": 16235 + }, + { + "epoch": 0.103936, + "grad_norm": 0.5822969079017639, + "learning_rate": 1.9307093333333334e-05, + "loss": 0.1176, + "step": 16240 + }, + { + "epoch": 0.103968, + "grad_norm": 1.7427451610565186, + "learning_rate": 1.9306880000000002e-05, + "loss": 0.1334, + "step": 16245 + }, + { + "epoch": 0.104, + "grad_norm": 0.7322484850883484, + "learning_rate": 1.930666666666667e-05, + "loss": 0.1085, + "step": 16250 + }, + { + "epoch": 0.104032, + "grad_norm": 0.8166365623474121, + "learning_rate": 1.9306453333333333e-05, + "loss": 0.1088, + "step": 16255 + }, + { + "epoch": 0.104064, + "grad_norm": 1.0600258111953735, + "learning_rate": 1.930624e-05, + "loss": 0.1039, + "step": 16260 + }, + { + "epoch": 0.104096, + "grad_norm": 0.7941910028457642, + "learning_rate": 1.930602666666667e-05, + "loss": 0.1364, + "step": 16265 + }, + { + "epoch": 0.104128, + "grad_norm": 1.324855089187622, + "learning_rate": 1.9305813333333333e-05, + "loss": 0.1022, + "step": 16270 + }, + { + "epoch": 0.10416, + "grad_norm": 1.4357402324676514, + "learning_rate": 1.9305600000000004e-05, + "loss": 0.0987, + "step": 16275 + }, + { + "epoch": 0.104192, + "grad_norm": 1.6167018413543701, + "learning_rate": 1.9305386666666668e-05, + "loss": 0.0979, + "step": 16280 + }, + { + "epoch": 0.104224, + "grad_norm": 1.3741217851638794, + "learning_rate": 1.9305173333333335e-05, + "loss": 0.1264, + "step": 16285 + }, + { + "epoch": 0.104256, + "grad_norm": 0.63543701171875, + "learning_rate": 1.9304960000000003e-05, + "loss": 0.0925, + "step": 16290 + }, + { + "epoch": 0.104288, + "grad_norm": 2.1381359100341797, + "learning_rate": 1.9304746666666667e-05, + "loss": 0.1335, + "step": 16295 + }, + { + "epoch": 0.10432, + "grad_norm": 1.1109418869018555, + "learning_rate": 1.9304533333333335e-05, + "loss": 0.1147, + "step": 16300 + }, + { + "epoch": 0.104352, + "grad_norm": 1.5181432962417603, + "learning_rate": 1.9304320000000002e-05, + "loss": 0.1728, + "step": 16305 + }, + { + "epoch": 0.104384, + "grad_norm": 0.9761212468147278, + "learning_rate": 1.930410666666667e-05, + "loss": 0.0818, + "step": 16310 + }, + { + "epoch": 0.104416, + "grad_norm": 1.2957336902618408, + "learning_rate": 1.9303893333333334e-05, + "loss": 0.1015, + "step": 16315 + }, + { + "epoch": 0.104448, + "grad_norm": 3.5469369888305664, + "learning_rate": 1.930368e-05, + "loss": 0.1296, + "step": 16320 + }, + { + "epoch": 0.10448, + "grad_norm": 1.4133896827697754, + "learning_rate": 1.930346666666667e-05, + "loss": 0.1414, + "step": 16325 + }, + { + "epoch": 0.104512, + "grad_norm": 1.0062333345413208, + "learning_rate": 1.9303253333333333e-05, + "loss": 0.1251, + "step": 16330 + }, + { + "epoch": 0.104544, + "grad_norm": 0.9180964827537537, + "learning_rate": 1.930304e-05, + "loss": 0.1029, + "step": 16335 + }, + { + "epoch": 0.104576, + "grad_norm": 1.136040210723877, + "learning_rate": 1.930282666666667e-05, + "loss": 0.0941, + "step": 16340 + }, + { + "epoch": 0.104608, + "grad_norm": 1.361952781677246, + "learning_rate": 1.9302613333333336e-05, + "loss": 0.1332, + "step": 16345 + }, + { + "epoch": 0.10464, + "grad_norm": 1.1864546537399292, + "learning_rate": 1.93024e-05, + "loss": 0.1021, + "step": 16350 + }, + { + "epoch": 0.104672, + "grad_norm": 0.5433654189109802, + "learning_rate": 1.9302186666666668e-05, + "loss": 0.0906, + "step": 16355 + }, + { + "epoch": 0.104704, + "grad_norm": 2.685729742050171, + "learning_rate": 1.9301973333333335e-05, + "loss": 0.0952, + "step": 16360 + }, + { + "epoch": 0.104736, + "grad_norm": 0.3902570307254791, + "learning_rate": 1.930176e-05, + "loss": 0.1054, + "step": 16365 + }, + { + "epoch": 0.104768, + "grad_norm": 1.8007817268371582, + "learning_rate": 1.9301546666666667e-05, + "loss": 0.1351, + "step": 16370 + }, + { + "epoch": 0.1048, + "grad_norm": 0.7676927447319031, + "learning_rate": 1.9301333333333334e-05, + "loss": 0.0932, + "step": 16375 + }, + { + "epoch": 0.104832, + "grad_norm": 0.9123730659484863, + "learning_rate": 1.9301120000000002e-05, + "loss": 0.1031, + "step": 16380 + }, + { + "epoch": 0.104864, + "grad_norm": 1.061262845993042, + "learning_rate": 1.9300906666666666e-05, + "loss": 0.1005, + "step": 16385 + }, + { + "epoch": 0.104896, + "grad_norm": 3.701279878616333, + "learning_rate": 1.9300693333333337e-05, + "loss": 0.0961, + "step": 16390 + }, + { + "epoch": 0.104928, + "grad_norm": 0.9211506247520447, + "learning_rate": 1.930048e-05, + "loss": 0.1181, + "step": 16395 + }, + { + "epoch": 0.10496, + "grad_norm": 0.9538713097572327, + "learning_rate": 1.930026666666667e-05, + "loss": 0.0693, + "step": 16400 + }, + { + "epoch": 0.104992, + "grad_norm": 3.4916558265686035, + "learning_rate": 1.9300053333333336e-05, + "loss": 0.1252, + "step": 16405 + }, + { + "epoch": 0.105024, + "grad_norm": 1.245131492614746, + "learning_rate": 1.929984e-05, + "loss": 0.1097, + "step": 16410 + }, + { + "epoch": 0.105056, + "grad_norm": 0.45041176676750183, + "learning_rate": 1.9299626666666668e-05, + "loss": 0.1246, + "step": 16415 + }, + { + "epoch": 0.105088, + "grad_norm": 1.1562081575393677, + "learning_rate": 1.9299413333333336e-05, + "loss": 0.0847, + "step": 16420 + }, + { + "epoch": 0.10512, + "grad_norm": 1.5174102783203125, + "learning_rate": 1.9299200000000003e-05, + "loss": 0.1329, + "step": 16425 + }, + { + "epoch": 0.105152, + "grad_norm": 0.6193433403968811, + "learning_rate": 1.9298986666666667e-05, + "loss": 0.0962, + "step": 16430 + }, + { + "epoch": 0.105184, + "grad_norm": 0.8684967756271362, + "learning_rate": 1.9298773333333335e-05, + "loss": 0.1248, + "step": 16435 + }, + { + "epoch": 0.105216, + "grad_norm": 1.2337446212768555, + "learning_rate": 1.9298560000000002e-05, + "loss": 0.1224, + "step": 16440 + }, + { + "epoch": 0.105248, + "grad_norm": 1.0835899114608765, + "learning_rate": 1.9298346666666667e-05, + "loss": 0.0836, + "step": 16445 + }, + { + "epoch": 0.10528, + "grad_norm": 1.5261566638946533, + "learning_rate": 1.9298133333333334e-05, + "loss": 0.1387, + "step": 16450 + }, + { + "epoch": 0.105312, + "grad_norm": 2.6770570278167725, + "learning_rate": 1.9297920000000002e-05, + "loss": 0.111, + "step": 16455 + }, + { + "epoch": 0.105344, + "grad_norm": 0.6385577321052551, + "learning_rate": 1.929770666666667e-05, + "loss": 0.1012, + "step": 16460 + }, + { + "epoch": 0.105376, + "grad_norm": 7.673532009124756, + "learning_rate": 1.9297493333333333e-05, + "loss": 0.1327, + "step": 16465 + }, + { + "epoch": 0.105408, + "grad_norm": 0.8023529052734375, + "learning_rate": 1.929728e-05, + "loss": 0.0846, + "step": 16470 + }, + { + "epoch": 0.10544, + "grad_norm": 1.4629237651824951, + "learning_rate": 1.929706666666667e-05, + "loss": 0.1289, + "step": 16475 + }, + { + "epoch": 0.105472, + "grad_norm": 1.2391159534454346, + "learning_rate": 1.9296853333333333e-05, + "loss": 0.1066, + "step": 16480 + }, + { + "epoch": 0.105504, + "grad_norm": 3.446453809738159, + "learning_rate": 1.9296640000000004e-05, + "loss": 0.1241, + "step": 16485 + }, + { + "epoch": 0.105536, + "grad_norm": 1.5472166538238525, + "learning_rate": 1.9296426666666668e-05, + "loss": 0.1367, + "step": 16490 + }, + { + "epoch": 0.105568, + "grad_norm": 1.639917016029358, + "learning_rate": 1.9296213333333335e-05, + "loss": 0.1096, + "step": 16495 + }, + { + "epoch": 0.1056, + "grad_norm": 0.655932605266571, + "learning_rate": 1.9296000000000003e-05, + "loss": 0.081, + "step": 16500 + }, + { + "epoch": 0.105632, + "grad_norm": 0.5783280730247498, + "learning_rate": 1.929578666666667e-05, + "loss": 0.0959, + "step": 16505 + }, + { + "epoch": 0.105664, + "grad_norm": 0.9544311165809631, + "learning_rate": 1.9295573333333335e-05, + "loss": 0.0894, + "step": 16510 + }, + { + "epoch": 0.105696, + "grad_norm": 1.0138574838638306, + "learning_rate": 1.9295360000000002e-05, + "loss": 0.1101, + "step": 16515 + }, + { + "epoch": 0.105728, + "grad_norm": 1.1726903915405273, + "learning_rate": 1.929514666666667e-05, + "loss": 0.1193, + "step": 16520 + }, + { + "epoch": 0.10576, + "grad_norm": 0.5785002708435059, + "learning_rate": 1.9294933333333334e-05, + "loss": 0.0596, + "step": 16525 + }, + { + "epoch": 0.105792, + "grad_norm": 1.0859943628311157, + "learning_rate": 1.929472e-05, + "loss": 0.1212, + "step": 16530 + }, + { + "epoch": 0.105824, + "grad_norm": 1.0235756635665894, + "learning_rate": 1.929450666666667e-05, + "loss": 0.0977, + "step": 16535 + }, + { + "epoch": 0.105856, + "grad_norm": 1.8299661874771118, + "learning_rate": 1.9294293333333337e-05, + "loss": 0.1243, + "step": 16540 + }, + { + "epoch": 0.105888, + "grad_norm": 0.8523579835891724, + "learning_rate": 1.929408e-05, + "loss": 0.0898, + "step": 16545 + }, + { + "epoch": 0.10592, + "grad_norm": 1.4717594385147095, + "learning_rate": 1.929386666666667e-05, + "loss": 0.1062, + "step": 16550 + }, + { + "epoch": 0.105952, + "grad_norm": 0.867582380771637, + "learning_rate": 1.9293653333333336e-05, + "loss": 0.0955, + "step": 16555 + }, + { + "epoch": 0.105984, + "grad_norm": 0.9413795471191406, + "learning_rate": 1.929344e-05, + "loss": 0.1308, + "step": 16560 + }, + { + "epoch": 0.106016, + "grad_norm": 0.7336774468421936, + "learning_rate": 1.9293226666666668e-05, + "loss": 0.0733, + "step": 16565 + }, + { + "epoch": 0.106048, + "grad_norm": 0.7710850834846497, + "learning_rate": 1.9293013333333335e-05, + "loss": 0.1106, + "step": 16570 + }, + { + "epoch": 0.10608, + "grad_norm": 1.2464632987976074, + "learning_rate": 1.9292800000000003e-05, + "loss": 0.1525, + "step": 16575 + }, + { + "epoch": 0.106112, + "grad_norm": 0.9335325360298157, + "learning_rate": 1.9292586666666667e-05, + "loss": 0.1046, + "step": 16580 + }, + { + "epoch": 0.106144, + "grad_norm": 0.560693085193634, + "learning_rate": 1.9292373333333334e-05, + "loss": 0.0863, + "step": 16585 + }, + { + "epoch": 0.106176, + "grad_norm": 0.8148316144943237, + "learning_rate": 1.9292160000000002e-05, + "loss": 0.1292, + "step": 16590 + }, + { + "epoch": 0.106208, + "grad_norm": 1.3598103523254395, + "learning_rate": 1.9291946666666666e-05, + "loss": 0.1012, + "step": 16595 + }, + { + "epoch": 0.10624, + "grad_norm": 1.3652169704437256, + "learning_rate": 1.9291733333333337e-05, + "loss": 0.1245, + "step": 16600 + }, + { + "epoch": 0.106272, + "grad_norm": 0.9595164656639099, + "learning_rate": 1.929152e-05, + "loss": 0.1311, + "step": 16605 + }, + { + "epoch": 0.106304, + "grad_norm": 1.3759387731552124, + "learning_rate": 1.929130666666667e-05, + "loss": 0.0978, + "step": 16610 + }, + { + "epoch": 0.106336, + "grad_norm": 0.801659107208252, + "learning_rate": 1.9291093333333336e-05, + "loss": 0.0924, + "step": 16615 + }, + { + "epoch": 0.106368, + "grad_norm": 1.054309368133545, + "learning_rate": 1.929088e-05, + "loss": 0.0856, + "step": 16620 + }, + { + "epoch": 0.1064, + "grad_norm": 2.2018580436706543, + "learning_rate": 1.9290666666666668e-05, + "loss": 0.1175, + "step": 16625 + }, + { + "epoch": 0.106432, + "grad_norm": 1.1976428031921387, + "learning_rate": 1.9290453333333336e-05, + "loss": 0.1286, + "step": 16630 + }, + { + "epoch": 0.106464, + "grad_norm": 0.8534319996833801, + "learning_rate": 1.9290240000000003e-05, + "loss": 0.1465, + "step": 16635 + }, + { + "epoch": 0.106496, + "grad_norm": 0.6055594682693481, + "learning_rate": 1.9290026666666667e-05, + "loss": 0.0645, + "step": 16640 + }, + { + "epoch": 0.106528, + "grad_norm": 2.5539886951446533, + "learning_rate": 1.9289813333333335e-05, + "loss": 0.0956, + "step": 16645 + }, + { + "epoch": 0.10656, + "grad_norm": 2.534942865371704, + "learning_rate": 1.9289600000000002e-05, + "loss": 0.1262, + "step": 16650 + }, + { + "epoch": 0.106592, + "grad_norm": 0.516399621963501, + "learning_rate": 1.9289386666666667e-05, + "loss": 0.101, + "step": 16655 + }, + { + "epoch": 0.106624, + "grad_norm": 2.250485420227051, + "learning_rate": 1.9289173333333334e-05, + "loss": 0.1609, + "step": 16660 + }, + { + "epoch": 0.106656, + "grad_norm": 1.0655421018600464, + "learning_rate": 1.9288960000000002e-05, + "loss": 0.1067, + "step": 16665 + }, + { + "epoch": 0.106688, + "grad_norm": 0.8514693975448608, + "learning_rate": 1.928874666666667e-05, + "loss": 0.0812, + "step": 16670 + }, + { + "epoch": 0.10672, + "grad_norm": 2.4149410724639893, + "learning_rate": 1.9288533333333333e-05, + "loss": 0.1489, + "step": 16675 + }, + { + "epoch": 0.106752, + "grad_norm": 0.6790228486061096, + "learning_rate": 1.928832e-05, + "loss": 0.1116, + "step": 16680 + }, + { + "epoch": 0.106784, + "grad_norm": 1.5879780054092407, + "learning_rate": 1.928810666666667e-05, + "loss": 0.1089, + "step": 16685 + }, + { + "epoch": 0.106816, + "grad_norm": 1.4644701480865479, + "learning_rate": 1.9287893333333333e-05, + "loss": 0.1057, + "step": 16690 + }, + { + "epoch": 0.106848, + "grad_norm": 1.3641400337219238, + "learning_rate": 1.928768e-05, + "loss": 0.1313, + "step": 16695 + }, + { + "epoch": 0.10688, + "grad_norm": 1.0180569887161255, + "learning_rate": 1.9287466666666668e-05, + "loss": 0.1088, + "step": 16700 + }, + { + "epoch": 0.106912, + "grad_norm": 2.0136020183563232, + "learning_rate": 1.9287253333333335e-05, + "loss": 0.0982, + "step": 16705 + }, + { + "epoch": 0.106944, + "grad_norm": 3.4168941974639893, + "learning_rate": 1.9287040000000003e-05, + "loss": 0.1556, + "step": 16710 + }, + { + "epoch": 0.106976, + "grad_norm": 4.115284442901611, + "learning_rate": 1.928682666666667e-05, + "loss": 0.1815, + "step": 16715 + }, + { + "epoch": 0.107008, + "grad_norm": 1.222993016242981, + "learning_rate": 1.9286613333333335e-05, + "loss": 0.0981, + "step": 16720 + }, + { + "epoch": 0.10704, + "grad_norm": 0.8396468758583069, + "learning_rate": 1.9286400000000002e-05, + "loss": 0.1002, + "step": 16725 + }, + { + "epoch": 0.107072, + "grad_norm": 1.165336012840271, + "learning_rate": 1.928618666666667e-05, + "loss": 0.1147, + "step": 16730 + }, + { + "epoch": 0.107104, + "grad_norm": 1.1149252653121948, + "learning_rate": 1.9285973333333334e-05, + "loss": 0.1204, + "step": 16735 + }, + { + "epoch": 0.107136, + "grad_norm": 1.1303701400756836, + "learning_rate": 1.928576e-05, + "loss": 0.0829, + "step": 16740 + }, + { + "epoch": 0.107168, + "grad_norm": 0.6626193523406982, + "learning_rate": 1.928554666666667e-05, + "loss": 0.1217, + "step": 16745 + }, + { + "epoch": 0.1072, + "grad_norm": 0.8831205368041992, + "learning_rate": 1.9285333333333337e-05, + "loss": 0.0902, + "step": 16750 + }, + { + "epoch": 0.107232, + "grad_norm": 0.6994113922119141, + "learning_rate": 1.928512e-05, + "loss": 0.1229, + "step": 16755 + }, + { + "epoch": 0.107264, + "grad_norm": 1.239085078239441, + "learning_rate": 1.928490666666667e-05, + "loss": 0.1098, + "step": 16760 + }, + { + "epoch": 0.107296, + "grad_norm": 0.8000752925872803, + "learning_rate": 1.9284693333333336e-05, + "loss": 0.1092, + "step": 16765 + }, + { + "epoch": 0.107328, + "grad_norm": 1.2693207263946533, + "learning_rate": 1.928448e-05, + "loss": 0.1172, + "step": 16770 + }, + { + "epoch": 0.10736, + "grad_norm": 1.7784838676452637, + "learning_rate": 1.9284266666666668e-05, + "loss": 0.1119, + "step": 16775 + }, + { + "epoch": 0.107392, + "grad_norm": 2.0515048503875732, + "learning_rate": 1.9284053333333335e-05, + "loss": 0.0895, + "step": 16780 + }, + { + "epoch": 0.107424, + "grad_norm": 1.0475527048110962, + "learning_rate": 1.9283840000000003e-05, + "loss": 0.1167, + "step": 16785 + }, + { + "epoch": 0.107456, + "grad_norm": 0.8027638792991638, + "learning_rate": 1.9283626666666667e-05, + "loss": 0.1259, + "step": 16790 + }, + { + "epoch": 0.107488, + "grad_norm": 0.8361276984214783, + "learning_rate": 1.9283413333333334e-05, + "loss": 0.13, + "step": 16795 + }, + { + "epoch": 0.10752, + "grad_norm": 0.38533613085746765, + "learning_rate": 1.9283200000000002e-05, + "loss": 0.0655, + "step": 16800 + }, + { + "epoch": 0.107552, + "grad_norm": 0.7053869366645813, + "learning_rate": 1.9282986666666666e-05, + "loss": 0.106, + "step": 16805 + }, + { + "epoch": 0.107584, + "grad_norm": 0.9688791632652283, + "learning_rate": 1.9282773333333337e-05, + "loss": 0.0714, + "step": 16810 + }, + { + "epoch": 0.107616, + "grad_norm": 1.0990968942642212, + "learning_rate": 1.928256e-05, + "loss": 0.1815, + "step": 16815 + }, + { + "epoch": 0.107648, + "grad_norm": 1.0934414863586426, + "learning_rate": 1.928234666666667e-05, + "loss": 0.0896, + "step": 16820 + }, + { + "epoch": 0.10768, + "grad_norm": 3.1012141704559326, + "learning_rate": 1.9282133333333336e-05, + "loss": 0.1122, + "step": 16825 + }, + { + "epoch": 0.107712, + "grad_norm": 0.9334972500801086, + "learning_rate": 1.928192e-05, + "loss": 0.1326, + "step": 16830 + }, + { + "epoch": 0.107744, + "grad_norm": 0.7201645970344543, + "learning_rate": 1.9281706666666668e-05, + "loss": 0.1138, + "step": 16835 + }, + { + "epoch": 0.107776, + "grad_norm": 1.821796178817749, + "learning_rate": 1.9281493333333336e-05, + "loss": 0.1216, + "step": 16840 + }, + { + "epoch": 0.107808, + "grad_norm": 0.8366442918777466, + "learning_rate": 1.9281280000000003e-05, + "loss": 0.0846, + "step": 16845 + }, + { + "epoch": 0.10784, + "grad_norm": 0.7806950807571411, + "learning_rate": 1.9281066666666667e-05, + "loss": 0.0878, + "step": 16850 + }, + { + "epoch": 0.107872, + "grad_norm": 1.7232294082641602, + "learning_rate": 1.9280853333333335e-05, + "loss": 0.1322, + "step": 16855 + }, + { + "epoch": 0.107904, + "grad_norm": 0.9260635375976562, + "learning_rate": 1.9280640000000002e-05, + "loss": 0.1334, + "step": 16860 + }, + { + "epoch": 0.107936, + "grad_norm": 1.030919075012207, + "learning_rate": 1.9280426666666667e-05, + "loss": 0.1145, + "step": 16865 + }, + { + "epoch": 0.107968, + "grad_norm": 0.9515635371208191, + "learning_rate": 1.9280213333333334e-05, + "loss": 0.1255, + "step": 16870 + }, + { + "epoch": 0.108, + "grad_norm": 0.6445164084434509, + "learning_rate": 1.9280000000000002e-05, + "loss": 0.1018, + "step": 16875 + }, + { + "epoch": 0.108032, + "grad_norm": 4.748899459838867, + "learning_rate": 1.927978666666667e-05, + "loss": 0.1109, + "step": 16880 + }, + { + "epoch": 0.108064, + "grad_norm": 0.6421310305595398, + "learning_rate": 1.9279573333333333e-05, + "loss": 0.0714, + "step": 16885 + }, + { + "epoch": 0.108096, + "grad_norm": 0.8651405572891235, + "learning_rate": 1.927936e-05, + "loss": 0.0819, + "step": 16890 + }, + { + "epoch": 0.108128, + "grad_norm": 1.2486629486083984, + "learning_rate": 1.927914666666667e-05, + "loss": 0.1095, + "step": 16895 + }, + { + "epoch": 0.10816, + "grad_norm": 1.102742314338684, + "learning_rate": 1.9278933333333333e-05, + "loss": 0.1217, + "step": 16900 + }, + { + "epoch": 0.108192, + "grad_norm": 0.9265273809432983, + "learning_rate": 1.927872e-05, + "loss": 0.0721, + "step": 16905 + }, + { + "epoch": 0.108224, + "grad_norm": 0.7020538449287415, + "learning_rate": 1.9278506666666668e-05, + "loss": 0.1118, + "step": 16910 + }, + { + "epoch": 0.108256, + "grad_norm": 1.3016529083251953, + "learning_rate": 1.9278293333333335e-05, + "loss": 0.1098, + "step": 16915 + }, + { + "epoch": 0.108288, + "grad_norm": 0.9689261317253113, + "learning_rate": 1.927808e-05, + "loss": 0.1233, + "step": 16920 + }, + { + "epoch": 0.10832, + "grad_norm": 1.1067547798156738, + "learning_rate": 1.927786666666667e-05, + "loss": 0.1048, + "step": 16925 + }, + { + "epoch": 0.108352, + "grad_norm": 1.025962471961975, + "learning_rate": 1.9277653333333335e-05, + "loss": 0.1207, + "step": 16930 + }, + { + "epoch": 0.108384, + "grad_norm": 1.41056227684021, + "learning_rate": 1.9277440000000002e-05, + "loss": 0.0789, + "step": 16935 + }, + { + "epoch": 0.108416, + "grad_norm": 1.0895869731903076, + "learning_rate": 1.927722666666667e-05, + "loss": 0.0833, + "step": 16940 + }, + { + "epoch": 0.108448, + "grad_norm": 0.7645325064659119, + "learning_rate": 1.9277013333333334e-05, + "loss": 0.0945, + "step": 16945 + }, + { + "epoch": 0.10848, + "grad_norm": 0.9287527203559875, + "learning_rate": 1.92768e-05, + "loss": 0.1341, + "step": 16950 + }, + { + "epoch": 0.108512, + "grad_norm": 2.8128409385681152, + "learning_rate": 1.927658666666667e-05, + "loss": 0.0932, + "step": 16955 + }, + { + "epoch": 0.108544, + "grad_norm": 1.3479636907577515, + "learning_rate": 1.9276373333333337e-05, + "loss": 0.0948, + "step": 16960 + }, + { + "epoch": 0.108576, + "grad_norm": 0.7072871327400208, + "learning_rate": 1.927616e-05, + "loss": 0.0924, + "step": 16965 + }, + { + "epoch": 0.108608, + "grad_norm": 1.1300184726715088, + "learning_rate": 1.927594666666667e-05, + "loss": 0.1304, + "step": 16970 + }, + { + "epoch": 0.10864, + "grad_norm": 1.228309988975525, + "learning_rate": 1.9275733333333336e-05, + "loss": 0.1484, + "step": 16975 + }, + { + "epoch": 0.108672, + "grad_norm": 2.7901339530944824, + "learning_rate": 1.927552e-05, + "loss": 0.0905, + "step": 16980 + }, + { + "epoch": 0.108704, + "grad_norm": 0.927362322807312, + "learning_rate": 1.9275306666666668e-05, + "loss": 0.1303, + "step": 16985 + }, + { + "epoch": 0.108736, + "grad_norm": 1.1801396608352661, + "learning_rate": 1.9275093333333335e-05, + "loss": 0.1134, + "step": 16990 + }, + { + "epoch": 0.108768, + "grad_norm": 0.9083877205848694, + "learning_rate": 1.9274880000000003e-05, + "loss": 0.0884, + "step": 16995 + }, + { + "epoch": 0.1088, + "grad_norm": 0.6984732151031494, + "learning_rate": 1.9274666666666667e-05, + "loss": 0.1141, + "step": 17000 + }, + { + "epoch": 0.108832, + "grad_norm": 0.9803880453109741, + "learning_rate": 1.9274453333333334e-05, + "loss": 0.1444, + "step": 17005 + }, + { + "epoch": 0.108864, + "grad_norm": 0.500174880027771, + "learning_rate": 1.9274240000000002e-05, + "loss": 0.0695, + "step": 17010 + }, + { + "epoch": 0.108896, + "grad_norm": 1.0166507959365845, + "learning_rate": 1.9274026666666666e-05, + "loss": 0.1287, + "step": 17015 + }, + { + "epoch": 0.108928, + "grad_norm": 0.7257317304611206, + "learning_rate": 1.9273813333333337e-05, + "loss": 0.0638, + "step": 17020 + }, + { + "epoch": 0.10896, + "grad_norm": 0.7887831926345825, + "learning_rate": 1.92736e-05, + "loss": 0.1039, + "step": 17025 + }, + { + "epoch": 0.108992, + "grad_norm": 0.8619911074638367, + "learning_rate": 1.927338666666667e-05, + "loss": 0.1115, + "step": 17030 + }, + { + "epoch": 0.109024, + "grad_norm": 1.581671118736267, + "learning_rate": 1.9273173333333336e-05, + "loss": 0.1115, + "step": 17035 + }, + { + "epoch": 0.109056, + "grad_norm": 0.5793488621711731, + "learning_rate": 1.927296e-05, + "loss": 0.0674, + "step": 17040 + }, + { + "epoch": 0.109088, + "grad_norm": 1.0323060750961304, + "learning_rate": 1.9272746666666668e-05, + "loss": 0.1372, + "step": 17045 + }, + { + "epoch": 0.10912, + "grad_norm": 0.6273195147514343, + "learning_rate": 1.9272533333333336e-05, + "loss": 0.116, + "step": 17050 + }, + { + "epoch": 0.109152, + "grad_norm": 1.1740813255310059, + "learning_rate": 1.9272320000000003e-05, + "loss": 0.113, + "step": 17055 + }, + { + "epoch": 0.109184, + "grad_norm": 0.7490251660346985, + "learning_rate": 1.9272106666666667e-05, + "loss": 0.1252, + "step": 17060 + }, + { + "epoch": 0.109216, + "grad_norm": 0.8648466467857361, + "learning_rate": 1.9271893333333335e-05, + "loss": 0.089, + "step": 17065 + }, + { + "epoch": 0.109248, + "grad_norm": 0.8079918622970581, + "learning_rate": 1.9271680000000002e-05, + "loss": 0.0959, + "step": 17070 + }, + { + "epoch": 0.10928, + "grad_norm": 2.064790725708008, + "learning_rate": 1.9271466666666667e-05, + "loss": 0.1451, + "step": 17075 + }, + { + "epoch": 0.109312, + "grad_norm": 1.0996768474578857, + "learning_rate": 1.9271253333333334e-05, + "loss": 0.1002, + "step": 17080 + }, + { + "epoch": 0.109344, + "grad_norm": 1.0666053295135498, + "learning_rate": 1.9271040000000002e-05, + "loss": 0.0949, + "step": 17085 + }, + { + "epoch": 0.109376, + "grad_norm": 0.7640371918678284, + "learning_rate": 1.927082666666667e-05, + "loss": 0.1009, + "step": 17090 + }, + { + "epoch": 0.109408, + "grad_norm": 1.7789615392684937, + "learning_rate": 1.9270613333333333e-05, + "loss": 0.1428, + "step": 17095 + }, + { + "epoch": 0.10944, + "grad_norm": 2.1174979209899902, + "learning_rate": 1.92704e-05, + "loss": 0.117, + "step": 17100 + }, + { + "epoch": 0.109472, + "grad_norm": 0.9820488095283508, + "learning_rate": 1.927018666666667e-05, + "loss": 0.1464, + "step": 17105 + }, + { + "epoch": 0.109504, + "grad_norm": 0.9416676759719849, + "learning_rate": 1.9269973333333333e-05, + "loss": 0.0986, + "step": 17110 + }, + { + "epoch": 0.109536, + "grad_norm": 1.21039617061615, + "learning_rate": 1.926976e-05, + "loss": 0.1253, + "step": 17115 + }, + { + "epoch": 0.109568, + "grad_norm": 1.0363259315490723, + "learning_rate": 1.9269546666666668e-05, + "loss": 0.0662, + "step": 17120 + }, + { + "epoch": 0.1096, + "grad_norm": 1.833070993423462, + "learning_rate": 1.9269333333333335e-05, + "loss": 0.1258, + "step": 17125 + }, + { + "epoch": 0.109632, + "grad_norm": 1.4482293128967285, + "learning_rate": 1.926912e-05, + "loss": 0.0722, + "step": 17130 + }, + { + "epoch": 0.109664, + "grad_norm": 1.1595995426177979, + "learning_rate": 1.926890666666667e-05, + "loss": 0.0976, + "step": 17135 + }, + { + "epoch": 0.109696, + "grad_norm": 2.1274869441986084, + "learning_rate": 1.9268693333333335e-05, + "loss": 0.0932, + "step": 17140 + }, + { + "epoch": 0.109728, + "grad_norm": 0.7874888181686401, + "learning_rate": 1.926848e-05, + "loss": 0.1194, + "step": 17145 + }, + { + "epoch": 0.10976, + "grad_norm": 0.7593056559562683, + "learning_rate": 1.926826666666667e-05, + "loss": 0.0885, + "step": 17150 + }, + { + "epoch": 0.109792, + "grad_norm": 0.9955095648765564, + "learning_rate": 1.9268053333333334e-05, + "loss": 0.0603, + "step": 17155 + }, + { + "epoch": 0.109824, + "grad_norm": 1.5480884313583374, + "learning_rate": 1.926784e-05, + "loss": 0.094, + "step": 17160 + }, + { + "epoch": 0.109856, + "grad_norm": 0.6422209739685059, + "learning_rate": 1.926762666666667e-05, + "loss": 0.1048, + "step": 17165 + }, + { + "epoch": 0.109888, + "grad_norm": 1.298012614250183, + "learning_rate": 1.9267413333333337e-05, + "loss": 0.1162, + "step": 17170 + }, + { + "epoch": 0.10992, + "grad_norm": 0.6823738813400269, + "learning_rate": 1.92672e-05, + "loss": 0.0617, + "step": 17175 + }, + { + "epoch": 0.109952, + "grad_norm": 0.6197265982627869, + "learning_rate": 1.926698666666667e-05, + "loss": 0.1105, + "step": 17180 + }, + { + "epoch": 0.109984, + "grad_norm": 0.9501969218254089, + "learning_rate": 1.9266773333333336e-05, + "loss": 0.0917, + "step": 17185 + }, + { + "epoch": 0.110016, + "grad_norm": 0.8035513162612915, + "learning_rate": 1.926656e-05, + "loss": 0.0794, + "step": 17190 + }, + { + "epoch": 0.110048, + "grad_norm": 1.2436726093292236, + "learning_rate": 1.9266346666666668e-05, + "loss": 0.111, + "step": 17195 + }, + { + "epoch": 0.11008, + "grad_norm": 0.7453322410583496, + "learning_rate": 1.9266133333333335e-05, + "loss": 0.1129, + "step": 17200 + }, + { + "epoch": 0.110112, + "grad_norm": 1.1966757774353027, + "learning_rate": 1.9265920000000003e-05, + "loss": 0.1381, + "step": 17205 + }, + { + "epoch": 0.110144, + "grad_norm": 1.0153428316116333, + "learning_rate": 1.9265706666666667e-05, + "loss": 0.1046, + "step": 17210 + }, + { + "epoch": 0.110176, + "grad_norm": 0.934384822845459, + "learning_rate": 1.9265493333333334e-05, + "loss": 0.1552, + "step": 17215 + }, + { + "epoch": 0.110208, + "grad_norm": 0.46045982837677, + "learning_rate": 1.9265280000000002e-05, + "loss": 0.1217, + "step": 17220 + }, + { + "epoch": 0.11024, + "grad_norm": 1.0968436002731323, + "learning_rate": 1.9265066666666666e-05, + "loss": 0.1268, + "step": 17225 + }, + { + "epoch": 0.110272, + "grad_norm": 0.9859189391136169, + "learning_rate": 1.9264853333333334e-05, + "loss": 0.1195, + "step": 17230 + }, + { + "epoch": 0.110304, + "grad_norm": 2.050813913345337, + "learning_rate": 1.926464e-05, + "loss": 0.1289, + "step": 17235 + }, + { + "epoch": 0.110336, + "grad_norm": 0.8499617576599121, + "learning_rate": 1.926442666666667e-05, + "loss": 0.0972, + "step": 17240 + }, + { + "epoch": 0.110368, + "grad_norm": 0.7154746651649475, + "learning_rate": 1.9264213333333336e-05, + "loss": 0.0963, + "step": 17245 + }, + { + "epoch": 0.1104, + "grad_norm": 1.6034009456634521, + "learning_rate": 1.9264e-05, + "loss": 0.1256, + "step": 17250 + }, + { + "epoch": 0.110432, + "grad_norm": 0.4798932373523712, + "learning_rate": 1.9263786666666668e-05, + "loss": 0.1006, + "step": 17255 + }, + { + "epoch": 0.110464, + "grad_norm": 0.636769711971283, + "learning_rate": 1.9263573333333336e-05, + "loss": 0.1123, + "step": 17260 + }, + { + "epoch": 0.110496, + "grad_norm": 1.4979543685913086, + "learning_rate": 1.9263360000000003e-05, + "loss": 0.149, + "step": 17265 + }, + { + "epoch": 0.110528, + "grad_norm": 1.4730446338653564, + "learning_rate": 1.9263146666666667e-05, + "loss": 0.0814, + "step": 17270 + }, + { + "epoch": 0.11056, + "grad_norm": 2.52353835105896, + "learning_rate": 1.9262933333333335e-05, + "loss": 0.1273, + "step": 17275 + }, + { + "epoch": 0.110592, + "grad_norm": 0.6453437805175781, + "learning_rate": 1.9262720000000002e-05, + "loss": 0.1078, + "step": 17280 + }, + { + "epoch": 0.110624, + "grad_norm": 1.0830752849578857, + "learning_rate": 1.926250666666667e-05, + "loss": 0.0996, + "step": 17285 + }, + { + "epoch": 0.110656, + "grad_norm": 1.440205693244934, + "learning_rate": 1.9262293333333334e-05, + "loss": 0.0555, + "step": 17290 + }, + { + "epoch": 0.110688, + "grad_norm": 1.943076729774475, + "learning_rate": 1.9262080000000002e-05, + "loss": 0.0949, + "step": 17295 + }, + { + "epoch": 0.11072, + "grad_norm": 2.0376546382904053, + "learning_rate": 1.926186666666667e-05, + "loss": 0.108, + "step": 17300 + }, + { + "epoch": 0.110752, + "grad_norm": 1.0162900686264038, + "learning_rate": 1.9261653333333333e-05, + "loss": 0.087, + "step": 17305 + }, + { + "epoch": 0.110784, + "grad_norm": 0.8029734492301941, + "learning_rate": 1.926144e-05, + "loss": 0.0973, + "step": 17310 + }, + { + "epoch": 0.110816, + "grad_norm": 1.187225103378296, + "learning_rate": 1.926122666666667e-05, + "loss": 0.1528, + "step": 17315 + }, + { + "epoch": 0.110848, + "grad_norm": 1.8739711046218872, + "learning_rate": 1.9261013333333336e-05, + "loss": 0.1166, + "step": 17320 + }, + { + "epoch": 0.11088, + "grad_norm": 0.5130699872970581, + "learning_rate": 1.92608e-05, + "loss": 0.1001, + "step": 17325 + }, + { + "epoch": 0.110912, + "grad_norm": 1.2456450462341309, + "learning_rate": 1.9260586666666668e-05, + "loss": 0.1314, + "step": 17330 + }, + { + "epoch": 0.110944, + "grad_norm": 0.8674888014793396, + "learning_rate": 1.9260373333333335e-05, + "loss": 0.1127, + "step": 17335 + }, + { + "epoch": 0.110976, + "grad_norm": 1.978785514831543, + "learning_rate": 1.926016e-05, + "loss": 0.0811, + "step": 17340 + }, + { + "epoch": 0.111008, + "grad_norm": 1.029267430305481, + "learning_rate": 1.925994666666667e-05, + "loss": 0.075, + "step": 17345 + }, + { + "epoch": 0.11104, + "grad_norm": 0.6144205927848816, + "learning_rate": 1.9259733333333335e-05, + "loss": 0.0837, + "step": 17350 + }, + { + "epoch": 0.111072, + "grad_norm": 1.0069923400878906, + "learning_rate": 1.9259520000000002e-05, + "loss": 0.1239, + "step": 17355 + }, + { + "epoch": 0.111104, + "grad_norm": 0.788248598575592, + "learning_rate": 1.925930666666667e-05, + "loss": 0.0972, + "step": 17360 + }, + { + "epoch": 0.111136, + "grad_norm": 0.887702226638794, + "learning_rate": 1.9259093333333334e-05, + "loss": 0.0793, + "step": 17365 + }, + { + "epoch": 0.111168, + "grad_norm": 2.283054828643799, + "learning_rate": 1.925888e-05, + "loss": 0.159, + "step": 17370 + }, + { + "epoch": 0.1112, + "grad_norm": 0.8479687571525574, + "learning_rate": 1.925866666666667e-05, + "loss": 0.1108, + "step": 17375 + }, + { + "epoch": 0.111232, + "grad_norm": 1.3820428848266602, + "learning_rate": 1.9258453333333337e-05, + "loss": 0.1353, + "step": 17380 + }, + { + "epoch": 0.111264, + "grad_norm": 1.6547349691390991, + "learning_rate": 1.925824e-05, + "loss": 0.1317, + "step": 17385 + }, + { + "epoch": 0.111296, + "grad_norm": 0.8415936231613159, + "learning_rate": 1.925802666666667e-05, + "loss": 0.104, + "step": 17390 + }, + { + "epoch": 0.111328, + "grad_norm": 0.8688727617263794, + "learning_rate": 1.9257813333333336e-05, + "loss": 0.0994, + "step": 17395 + }, + { + "epoch": 0.11136, + "grad_norm": 2.26936936378479, + "learning_rate": 1.92576e-05, + "loss": 0.1213, + "step": 17400 + }, + { + "epoch": 0.111392, + "grad_norm": 2.9328811168670654, + "learning_rate": 1.9257386666666668e-05, + "loss": 0.1332, + "step": 17405 + }, + { + "epoch": 0.111424, + "grad_norm": 2.0194427967071533, + "learning_rate": 1.9257173333333335e-05, + "loss": 0.1053, + "step": 17410 + }, + { + "epoch": 0.111456, + "grad_norm": 0.7049270272254944, + "learning_rate": 1.9256960000000003e-05, + "loss": 0.0888, + "step": 17415 + }, + { + "epoch": 0.111488, + "grad_norm": 2.089406728744507, + "learning_rate": 1.9256746666666667e-05, + "loss": 0.0746, + "step": 17420 + }, + { + "epoch": 0.11152, + "grad_norm": 1.0220268964767456, + "learning_rate": 1.9256533333333334e-05, + "loss": 0.0969, + "step": 17425 + }, + { + "epoch": 0.111552, + "grad_norm": 0.8786883354187012, + "learning_rate": 1.9256320000000002e-05, + "loss": 0.1052, + "step": 17430 + }, + { + "epoch": 0.111584, + "grad_norm": 0.936307430267334, + "learning_rate": 1.9256106666666666e-05, + "loss": 0.0882, + "step": 17435 + }, + { + "epoch": 0.111616, + "grad_norm": 1.0549049377441406, + "learning_rate": 1.9255893333333334e-05, + "loss": 0.1106, + "step": 17440 + }, + { + "epoch": 0.111648, + "grad_norm": 0.9197902679443359, + "learning_rate": 1.925568e-05, + "loss": 0.0903, + "step": 17445 + }, + { + "epoch": 0.11168, + "grad_norm": 0.6190248131752014, + "learning_rate": 1.925546666666667e-05, + "loss": 0.0825, + "step": 17450 + }, + { + "epoch": 0.111712, + "grad_norm": 0.9317325353622437, + "learning_rate": 1.9255253333333333e-05, + "loss": 0.0741, + "step": 17455 + }, + { + "epoch": 0.111744, + "grad_norm": 0.6387611627578735, + "learning_rate": 1.9255040000000004e-05, + "loss": 0.1105, + "step": 17460 + }, + { + "epoch": 0.111776, + "grad_norm": 1.0278620719909668, + "learning_rate": 1.9254826666666668e-05, + "loss": 0.0716, + "step": 17465 + }, + { + "epoch": 0.111808, + "grad_norm": 1.0292611122131348, + "learning_rate": 1.9254613333333336e-05, + "loss": 0.1117, + "step": 17470 + }, + { + "epoch": 0.11184, + "grad_norm": 0.7553941607475281, + "learning_rate": 1.9254400000000003e-05, + "loss": 0.1283, + "step": 17475 + }, + { + "epoch": 0.111872, + "grad_norm": 1.1312891244888306, + "learning_rate": 1.9254186666666667e-05, + "loss": 0.0786, + "step": 17480 + }, + { + "epoch": 0.111904, + "grad_norm": 1.080391764640808, + "learning_rate": 1.9253973333333335e-05, + "loss": 0.1367, + "step": 17485 + }, + { + "epoch": 0.111936, + "grad_norm": 0.7037165760993958, + "learning_rate": 1.9253760000000002e-05, + "loss": 0.0506, + "step": 17490 + }, + { + "epoch": 0.111968, + "grad_norm": 0.8201012015342712, + "learning_rate": 1.925354666666667e-05, + "loss": 0.128, + "step": 17495 + }, + { + "epoch": 0.112, + "grad_norm": 2.29421067237854, + "learning_rate": 1.9253333333333334e-05, + "loss": 0.1607, + "step": 17500 + }, + { + "epoch": 0.112032, + "grad_norm": 0.9112119674682617, + "learning_rate": 1.9253120000000002e-05, + "loss": 0.1112, + "step": 17505 + }, + { + "epoch": 0.112064, + "grad_norm": 1.267496109008789, + "learning_rate": 1.925290666666667e-05, + "loss": 0.0996, + "step": 17510 + }, + { + "epoch": 0.112096, + "grad_norm": 0.7144182324409485, + "learning_rate": 1.9252693333333333e-05, + "loss": 0.0782, + "step": 17515 + }, + { + "epoch": 0.112128, + "grad_norm": 0.6781579256057739, + "learning_rate": 1.925248e-05, + "loss": 0.1056, + "step": 17520 + }, + { + "epoch": 0.11216, + "grad_norm": 0.9804227352142334, + "learning_rate": 1.925226666666667e-05, + "loss": 0.1286, + "step": 17525 + }, + { + "epoch": 0.112192, + "grad_norm": 1.0186887979507446, + "learning_rate": 1.9252053333333336e-05, + "loss": 0.1248, + "step": 17530 + }, + { + "epoch": 0.112224, + "grad_norm": 0.9720841646194458, + "learning_rate": 1.925184e-05, + "loss": 0.1304, + "step": 17535 + }, + { + "epoch": 0.112256, + "grad_norm": 0.7578803896903992, + "learning_rate": 1.9251626666666668e-05, + "loss": 0.1057, + "step": 17540 + }, + { + "epoch": 0.112288, + "grad_norm": 1.2718298435211182, + "learning_rate": 1.9251413333333335e-05, + "loss": 0.1675, + "step": 17545 + }, + { + "epoch": 0.11232, + "grad_norm": 0.8269109725952148, + "learning_rate": 1.92512e-05, + "loss": 0.0897, + "step": 17550 + }, + { + "epoch": 0.112352, + "grad_norm": 0.6933055520057678, + "learning_rate": 1.925098666666667e-05, + "loss": 0.1006, + "step": 17555 + }, + { + "epoch": 0.112384, + "grad_norm": 1.2935837507247925, + "learning_rate": 1.9250773333333335e-05, + "loss": 0.0891, + "step": 17560 + }, + { + "epoch": 0.112416, + "grad_norm": 0.9392703771591187, + "learning_rate": 1.9250560000000002e-05, + "loss": 0.1316, + "step": 17565 + }, + { + "epoch": 0.112448, + "grad_norm": 2.646635055541992, + "learning_rate": 1.925034666666667e-05, + "loss": 0.1114, + "step": 17570 + }, + { + "epoch": 0.11248, + "grad_norm": 0.8262301683425903, + "learning_rate": 1.9250133333333334e-05, + "loss": 0.0764, + "step": 17575 + }, + { + "epoch": 0.112512, + "grad_norm": 1.3559225797653198, + "learning_rate": 1.924992e-05, + "loss": 0.0694, + "step": 17580 + }, + { + "epoch": 0.112544, + "grad_norm": 0.8479766249656677, + "learning_rate": 1.924970666666667e-05, + "loss": 0.1178, + "step": 17585 + }, + { + "epoch": 0.112576, + "grad_norm": 0.6078841090202332, + "learning_rate": 1.9249493333333337e-05, + "loss": 0.1025, + "step": 17590 + }, + { + "epoch": 0.112608, + "grad_norm": 1.0916868448257446, + "learning_rate": 1.924928e-05, + "loss": 0.1019, + "step": 17595 + }, + { + "epoch": 0.11264, + "grad_norm": 1.0241484642028809, + "learning_rate": 1.924906666666667e-05, + "loss": 0.1118, + "step": 17600 + }, + { + "epoch": 0.112672, + "grad_norm": 0.8460029363632202, + "learning_rate": 1.9248853333333336e-05, + "loss": 0.0751, + "step": 17605 + }, + { + "epoch": 0.112704, + "grad_norm": 0.5145394206047058, + "learning_rate": 1.924864e-05, + "loss": 0.1125, + "step": 17610 + }, + { + "epoch": 0.112736, + "grad_norm": 0.5293954610824585, + "learning_rate": 1.9248426666666668e-05, + "loss": 0.0774, + "step": 17615 + }, + { + "epoch": 0.112768, + "grad_norm": 1.3063288927078247, + "learning_rate": 1.9248213333333335e-05, + "loss": 0.0892, + "step": 17620 + }, + { + "epoch": 0.1128, + "grad_norm": 0.8513811230659485, + "learning_rate": 1.9248000000000003e-05, + "loss": 0.1251, + "step": 17625 + }, + { + "epoch": 0.112832, + "grad_norm": 1.7528181076049805, + "learning_rate": 1.9247786666666667e-05, + "loss": 0.1019, + "step": 17630 + }, + { + "epoch": 0.112864, + "grad_norm": 0.7240461707115173, + "learning_rate": 1.9247573333333334e-05, + "loss": 0.1086, + "step": 17635 + }, + { + "epoch": 0.112896, + "grad_norm": 2.8088572025299072, + "learning_rate": 1.9247360000000002e-05, + "loss": 0.1231, + "step": 17640 + }, + { + "epoch": 0.112928, + "grad_norm": 0.8421493172645569, + "learning_rate": 1.9247146666666666e-05, + "loss": 0.102, + "step": 17645 + }, + { + "epoch": 0.11296, + "grad_norm": 0.905775785446167, + "learning_rate": 1.9246933333333334e-05, + "loss": 0.1297, + "step": 17650 + }, + { + "epoch": 0.112992, + "grad_norm": 1.267409086227417, + "learning_rate": 1.924672e-05, + "loss": 0.0808, + "step": 17655 + }, + { + "epoch": 0.113024, + "grad_norm": 0.6479328870773315, + "learning_rate": 1.924650666666667e-05, + "loss": 0.1073, + "step": 17660 + }, + { + "epoch": 0.113056, + "grad_norm": 3.314833164215088, + "learning_rate": 1.9246293333333333e-05, + "loss": 0.1212, + "step": 17665 + }, + { + "epoch": 0.113088, + "grad_norm": 2.6558713912963867, + "learning_rate": 1.9246080000000004e-05, + "loss": 0.1294, + "step": 17670 + }, + { + "epoch": 0.11312, + "grad_norm": 1.2330033779144287, + "learning_rate": 1.9245866666666668e-05, + "loss": 0.1072, + "step": 17675 + }, + { + "epoch": 0.113152, + "grad_norm": 1.9433013200759888, + "learning_rate": 1.9245653333333332e-05, + "loss": 0.0926, + "step": 17680 + }, + { + "epoch": 0.113184, + "grad_norm": 0.9159369468688965, + "learning_rate": 1.9245440000000003e-05, + "loss": 0.0901, + "step": 17685 + }, + { + "epoch": 0.113216, + "grad_norm": 1.0941922664642334, + "learning_rate": 1.9245226666666667e-05, + "loss": 0.083, + "step": 17690 + }, + { + "epoch": 0.113248, + "grad_norm": 1.446078896522522, + "learning_rate": 1.9245013333333335e-05, + "loss": 0.0948, + "step": 17695 + }, + { + "epoch": 0.11328, + "grad_norm": 0.6111514568328857, + "learning_rate": 1.9244800000000002e-05, + "loss": 0.0983, + "step": 17700 + }, + { + "epoch": 0.113312, + "grad_norm": 1.8927785158157349, + "learning_rate": 1.924458666666667e-05, + "loss": 0.1238, + "step": 17705 + }, + { + "epoch": 0.113344, + "grad_norm": 0.9711155295372009, + "learning_rate": 1.9244373333333334e-05, + "loss": 0.0982, + "step": 17710 + }, + { + "epoch": 0.113376, + "grad_norm": 0.8121253848075867, + "learning_rate": 1.9244160000000002e-05, + "loss": 0.1133, + "step": 17715 + }, + { + "epoch": 0.113408, + "grad_norm": 0.5491713285446167, + "learning_rate": 1.924394666666667e-05, + "loss": 0.1033, + "step": 17720 + }, + { + "epoch": 0.11344, + "grad_norm": 1.072390079498291, + "learning_rate": 1.9243733333333333e-05, + "loss": 0.1168, + "step": 17725 + }, + { + "epoch": 0.113472, + "grad_norm": 1.3974260091781616, + "learning_rate": 1.924352e-05, + "loss": 0.1227, + "step": 17730 + }, + { + "epoch": 0.113504, + "grad_norm": 0.7346909642219543, + "learning_rate": 1.924330666666667e-05, + "loss": 0.0933, + "step": 17735 + }, + { + "epoch": 0.113536, + "grad_norm": 0.761447548866272, + "learning_rate": 1.9243093333333336e-05, + "loss": 0.0529, + "step": 17740 + }, + { + "epoch": 0.113568, + "grad_norm": 0.8642650246620178, + "learning_rate": 1.924288e-05, + "loss": 0.11, + "step": 17745 + }, + { + "epoch": 0.1136, + "grad_norm": 1.1251487731933594, + "learning_rate": 1.9242666666666668e-05, + "loss": 0.0843, + "step": 17750 + }, + { + "epoch": 0.113632, + "grad_norm": 1.0122902393341064, + "learning_rate": 1.9242453333333335e-05, + "loss": 0.1063, + "step": 17755 + }, + { + "epoch": 0.113664, + "grad_norm": 1.2300523519515991, + "learning_rate": 1.924224e-05, + "loss": 0.0754, + "step": 17760 + }, + { + "epoch": 0.113696, + "grad_norm": 1.0082191228866577, + "learning_rate": 1.924202666666667e-05, + "loss": 0.099, + "step": 17765 + }, + { + "epoch": 0.113728, + "grad_norm": 1.0596598386764526, + "learning_rate": 1.9241813333333335e-05, + "loss": 0.1224, + "step": 17770 + }, + { + "epoch": 0.11376, + "grad_norm": 0.4875269830226898, + "learning_rate": 1.9241600000000002e-05, + "loss": 0.0917, + "step": 17775 + }, + { + "epoch": 0.113792, + "grad_norm": 1.2931864261627197, + "learning_rate": 1.924138666666667e-05, + "loss": 0.0736, + "step": 17780 + }, + { + "epoch": 0.113824, + "grad_norm": 0.5731356739997864, + "learning_rate": 1.9241173333333334e-05, + "loss": 0.0796, + "step": 17785 + }, + { + "epoch": 0.113856, + "grad_norm": 0.7857938408851624, + "learning_rate": 1.924096e-05, + "loss": 0.1128, + "step": 17790 + }, + { + "epoch": 0.113888, + "grad_norm": 0.8984907269477844, + "learning_rate": 1.924074666666667e-05, + "loss": 0.0901, + "step": 17795 + }, + { + "epoch": 0.11392, + "grad_norm": 0.9811171889305115, + "learning_rate": 1.9240533333333337e-05, + "loss": 0.1327, + "step": 17800 + }, + { + "epoch": 0.113952, + "grad_norm": 1.331908941268921, + "learning_rate": 1.924032e-05, + "loss": 0.1085, + "step": 17805 + }, + { + "epoch": 0.113984, + "grad_norm": 1.092834234237671, + "learning_rate": 1.924010666666667e-05, + "loss": 0.1287, + "step": 17810 + }, + { + "epoch": 0.114016, + "grad_norm": 1.0448921918869019, + "learning_rate": 1.9239893333333336e-05, + "loss": 0.1013, + "step": 17815 + }, + { + "epoch": 0.114048, + "grad_norm": 1.4933806657791138, + "learning_rate": 1.923968e-05, + "loss": 0.1335, + "step": 17820 + }, + { + "epoch": 0.11408, + "grad_norm": 1.781483769416809, + "learning_rate": 1.9239466666666668e-05, + "loss": 0.1142, + "step": 17825 + }, + { + "epoch": 0.114112, + "grad_norm": 1.4187191724777222, + "learning_rate": 1.9239253333333335e-05, + "loss": 0.1076, + "step": 17830 + }, + { + "epoch": 0.114144, + "grad_norm": 2.394742727279663, + "learning_rate": 1.9239040000000003e-05, + "loss": 0.1121, + "step": 17835 + }, + { + "epoch": 0.114176, + "grad_norm": 1.973084568977356, + "learning_rate": 1.9238826666666667e-05, + "loss": 0.0996, + "step": 17840 + }, + { + "epoch": 0.114208, + "grad_norm": 0.9810220003128052, + "learning_rate": 1.9238613333333334e-05, + "loss": 0.1159, + "step": 17845 + }, + { + "epoch": 0.11424, + "grad_norm": 6.88784122467041, + "learning_rate": 1.9238400000000002e-05, + "loss": 0.1116, + "step": 17850 + }, + { + "epoch": 0.114272, + "grad_norm": 1.1682549715042114, + "learning_rate": 1.9238186666666666e-05, + "loss": 0.1094, + "step": 17855 + }, + { + "epoch": 0.114304, + "grad_norm": 0.9662094116210938, + "learning_rate": 1.9237973333333334e-05, + "loss": 0.1088, + "step": 17860 + }, + { + "epoch": 0.114336, + "grad_norm": 1.0990314483642578, + "learning_rate": 1.923776e-05, + "loss": 0.0771, + "step": 17865 + }, + { + "epoch": 0.114368, + "grad_norm": 0.8387492895126343, + "learning_rate": 1.923754666666667e-05, + "loss": 0.133, + "step": 17870 + }, + { + "epoch": 0.1144, + "grad_norm": 0.9073432087898254, + "learning_rate": 1.9237333333333333e-05, + "loss": 0.0747, + "step": 17875 + }, + { + "epoch": 0.114432, + "grad_norm": 0.47060126066207886, + "learning_rate": 1.9237120000000004e-05, + "loss": 0.0905, + "step": 17880 + }, + { + "epoch": 0.114464, + "grad_norm": 0.6112989187240601, + "learning_rate": 1.9236906666666668e-05, + "loss": 0.0975, + "step": 17885 + }, + { + "epoch": 0.114496, + "grad_norm": 1.13718843460083, + "learning_rate": 1.9236693333333332e-05, + "loss": 0.0724, + "step": 17890 + }, + { + "epoch": 0.114528, + "grad_norm": 0.9453594088554382, + "learning_rate": 1.9236480000000003e-05, + "loss": 0.0772, + "step": 17895 + }, + { + "epoch": 0.11456, + "grad_norm": 1.6780309677124023, + "learning_rate": 1.9236266666666667e-05, + "loss": 0.0936, + "step": 17900 + }, + { + "epoch": 0.114592, + "grad_norm": 1.3762338161468506, + "learning_rate": 1.9236053333333335e-05, + "loss": 0.0757, + "step": 17905 + }, + { + "epoch": 0.114624, + "grad_norm": 0.8236669898033142, + "learning_rate": 1.9235840000000003e-05, + "loss": 0.0881, + "step": 17910 + }, + { + "epoch": 0.114656, + "grad_norm": 1.1368883848190308, + "learning_rate": 1.923562666666667e-05, + "loss": 0.0902, + "step": 17915 + }, + { + "epoch": 0.114688, + "grad_norm": 1.8606401681900024, + "learning_rate": 1.9235413333333334e-05, + "loss": 0.1176, + "step": 17920 + }, + { + "epoch": 0.11472, + "grad_norm": 0.9462851285934448, + "learning_rate": 1.9235200000000002e-05, + "loss": 0.1329, + "step": 17925 + }, + { + "epoch": 0.114752, + "grad_norm": 0.865496039390564, + "learning_rate": 1.923498666666667e-05, + "loss": 0.0855, + "step": 17930 + }, + { + "epoch": 0.114784, + "grad_norm": 0.8964935541152954, + "learning_rate": 1.9234773333333333e-05, + "loss": 0.1034, + "step": 17935 + }, + { + "epoch": 0.114816, + "grad_norm": 0.7708156108856201, + "learning_rate": 1.923456e-05, + "loss": 0.0892, + "step": 17940 + }, + { + "epoch": 0.114848, + "grad_norm": 1.0157462358474731, + "learning_rate": 1.923434666666667e-05, + "loss": 0.0955, + "step": 17945 + }, + { + "epoch": 0.11488, + "grad_norm": 1.5968317985534668, + "learning_rate": 1.9234133333333336e-05, + "loss": 0.1003, + "step": 17950 + }, + { + "epoch": 0.114912, + "grad_norm": 1.1091747283935547, + "learning_rate": 1.923392e-05, + "loss": 0.0774, + "step": 17955 + }, + { + "epoch": 0.114944, + "grad_norm": 3.9890122413635254, + "learning_rate": 1.9233706666666668e-05, + "loss": 0.0784, + "step": 17960 + }, + { + "epoch": 0.114976, + "grad_norm": 1.111055850982666, + "learning_rate": 1.9233493333333335e-05, + "loss": 0.1247, + "step": 17965 + }, + { + "epoch": 0.115008, + "grad_norm": 1.3947900533676147, + "learning_rate": 1.923328e-05, + "loss": 0.0835, + "step": 17970 + }, + { + "epoch": 0.11504, + "grad_norm": 0.9912117123603821, + "learning_rate": 1.9233066666666667e-05, + "loss": 0.1125, + "step": 17975 + }, + { + "epoch": 0.115072, + "grad_norm": 1.5029549598693848, + "learning_rate": 1.9232853333333335e-05, + "loss": 0.107, + "step": 17980 + }, + { + "epoch": 0.115104, + "grad_norm": 1.1967934370040894, + "learning_rate": 1.9232640000000002e-05, + "loss": 0.119, + "step": 17985 + }, + { + "epoch": 0.115136, + "grad_norm": 0.6880435347557068, + "learning_rate": 1.923242666666667e-05, + "loss": 0.0923, + "step": 17990 + }, + { + "epoch": 0.115168, + "grad_norm": 0.6249286532402039, + "learning_rate": 1.9232213333333334e-05, + "loss": 0.0851, + "step": 17995 + }, + { + "epoch": 0.1152, + "grad_norm": 2.1527769565582275, + "learning_rate": 1.9232e-05, + "loss": 0.1482, + "step": 18000 + }, + { + "epoch": 0.115232, + "grad_norm": 1.5233618021011353, + "learning_rate": 1.923178666666667e-05, + "loss": 0.1341, + "step": 18005 + }, + { + "epoch": 0.115264, + "grad_norm": 1.5749415159225464, + "learning_rate": 1.9231573333333337e-05, + "loss": 0.1241, + "step": 18010 + }, + { + "epoch": 0.115296, + "grad_norm": 0.6176897287368774, + "learning_rate": 1.923136e-05, + "loss": 0.1118, + "step": 18015 + }, + { + "epoch": 0.115328, + "grad_norm": 1.0879639387130737, + "learning_rate": 1.923114666666667e-05, + "loss": 0.1106, + "step": 18020 + }, + { + "epoch": 0.11536, + "grad_norm": 1.5647618770599365, + "learning_rate": 1.9230933333333336e-05, + "loss": 0.1204, + "step": 18025 + }, + { + "epoch": 0.115392, + "grad_norm": 1.5294241905212402, + "learning_rate": 1.923072e-05, + "loss": 0.0737, + "step": 18030 + }, + { + "epoch": 0.115424, + "grad_norm": 0.513834536075592, + "learning_rate": 1.9230506666666668e-05, + "loss": 0.0869, + "step": 18035 + }, + { + "epoch": 0.115456, + "grad_norm": 1.2348344326019287, + "learning_rate": 1.9230293333333335e-05, + "loss": 0.1211, + "step": 18040 + }, + { + "epoch": 0.115488, + "grad_norm": 1.3873999118804932, + "learning_rate": 1.9230080000000003e-05, + "loss": 0.1122, + "step": 18045 + }, + { + "epoch": 0.11552, + "grad_norm": 1.3380690813064575, + "learning_rate": 1.9229866666666667e-05, + "loss": 0.1322, + "step": 18050 + }, + { + "epoch": 0.115552, + "grad_norm": 1.5067172050476074, + "learning_rate": 1.9229653333333334e-05, + "loss": 0.0899, + "step": 18055 + }, + { + "epoch": 0.115584, + "grad_norm": 0.7635603547096252, + "learning_rate": 1.9229440000000002e-05, + "loss": 0.1093, + "step": 18060 + }, + { + "epoch": 0.115616, + "grad_norm": 0.5227054953575134, + "learning_rate": 1.9229226666666666e-05, + "loss": 0.0803, + "step": 18065 + }, + { + "epoch": 0.115648, + "grad_norm": 1.012494444847107, + "learning_rate": 1.9229013333333334e-05, + "loss": 0.1165, + "step": 18070 + }, + { + "epoch": 0.11568, + "grad_norm": 0.8625109791755676, + "learning_rate": 1.92288e-05, + "loss": 0.1026, + "step": 18075 + }, + { + "epoch": 0.115712, + "grad_norm": 1.8905119895935059, + "learning_rate": 1.922858666666667e-05, + "loss": 0.1286, + "step": 18080 + }, + { + "epoch": 0.115744, + "grad_norm": 0.6886681914329529, + "learning_rate": 1.9228373333333333e-05, + "loss": 0.117, + "step": 18085 + }, + { + "epoch": 0.115776, + "grad_norm": 0.5911722183227539, + "learning_rate": 1.9228160000000004e-05, + "loss": 0.1104, + "step": 18090 + }, + { + "epoch": 0.115808, + "grad_norm": 2.4105606079101562, + "learning_rate": 1.9227946666666668e-05, + "loss": 0.1979, + "step": 18095 + }, + { + "epoch": 0.11584, + "grad_norm": 1.064361333847046, + "learning_rate": 1.9227733333333332e-05, + "loss": 0.0916, + "step": 18100 + }, + { + "epoch": 0.115872, + "grad_norm": 1.1209746599197388, + "learning_rate": 1.9227520000000003e-05, + "loss": 0.0925, + "step": 18105 + }, + { + "epoch": 0.115904, + "grad_norm": 1.4801645278930664, + "learning_rate": 1.9227306666666667e-05, + "loss": 0.1232, + "step": 18110 + }, + { + "epoch": 0.115936, + "grad_norm": 1.0825337171554565, + "learning_rate": 1.9227093333333335e-05, + "loss": 0.0934, + "step": 18115 + }, + { + "epoch": 0.115968, + "grad_norm": 2.5063579082489014, + "learning_rate": 1.9226880000000003e-05, + "loss": 0.1239, + "step": 18120 + }, + { + "epoch": 0.116, + "grad_norm": 0.7986218929290771, + "learning_rate": 1.922666666666667e-05, + "loss": 0.1348, + "step": 18125 + }, + { + "epoch": 0.116032, + "grad_norm": 1.718833327293396, + "learning_rate": 1.9226453333333334e-05, + "loss": 0.105, + "step": 18130 + }, + { + "epoch": 0.116064, + "grad_norm": 0.7771503925323486, + "learning_rate": 1.9226240000000002e-05, + "loss": 0.0855, + "step": 18135 + }, + { + "epoch": 0.116096, + "grad_norm": 0.8787851333618164, + "learning_rate": 1.922602666666667e-05, + "loss": 0.0888, + "step": 18140 + }, + { + "epoch": 0.116128, + "grad_norm": 3.4976248741149902, + "learning_rate": 1.9225813333333334e-05, + "loss": 0.1342, + "step": 18145 + }, + { + "epoch": 0.11616, + "grad_norm": 0.7919019460678101, + "learning_rate": 1.92256e-05, + "loss": 0.1172, + "step": 18150 + }, + { + "epoch": 0.116192, + "grad_norm": 0.9675508141517639, + "learning_rate": 1.922538666666667e-05, + "loss": 0.0994, + "step": 18155 + }, + { + "epoch": 0.116224, + "grad_norm": 0.8904166221618652, + "learning_rate": 1.9225173333333336e-05, + "loss": 0.096, + "step": 18160 + }, + { + "epoch": 0.116256, + "grad_norm": 0.9322862029075623, + "learning_rate": 1.922496e-05, + "loss": 0.111, + "step": 18165 + }, + { + "epoch": 0.116288, + "grad_norm": 0.7146742343902588, + "learning_rate": 1.9224746666666668e-05, + "loss": 0.1389, + "step": 18170 + }, + { + "epoch": 0.11632, + "grad_norm": 0.8094581365585327, + "learning_rate": 1.9224533333333335e-05, + "loss": 0.0727, + "step": 18175 + }, + { + "epoch": 0.116352, + "grad_norm": 1.1736987829208374, + "learning_rate": 1.922432e-05, + "loss": 0.1093, + "step": 18180 + }, + { + "epoch": 0.116384, + "grad_norm": 1.2656012773513794, + "learning_rate": 1.9224106666666667e-05, + "loss": 0.1359, + "step": 18185 + }, + { + "epoch": 0.116416, + "grad_norm": 0.7703884840011597, + "learning_rate": 1.9223893333333335e-05, + "loss": 0.0724, + "step": 18190 + }, + { + "epoch": 0.116448, + "grad_norm": 0.9749085903167725, + "learning_rate": 1.9223680000000002e-05, + "loss": 0.1105, + "step": 18195 + }, + { + "epoch": 0.11648, + "grad_norm": 0.6926946043968201, + "learning_rate": 1.9223466666666666e-05, + "loss": 0.1214, + "step": 18200 + }, + { + "epoch": 0.116512, + "grad_norm": 4.651258945465088, + "learning_rate": 1.9223253333333337e-05, + "loss": 0.0791, + "step": 18205 + }, + { + "epoch": 0.116544, + "grad_norm": 0.7327783703804016, + "learning_rate": 1.922304e-05, + "loss": 0.1031, + "step": 18210 + }, + { + "epoch": 0.116576, + "grad_norm": 0.7729554772377014, + "learning_rate": 1.922282666666667e-05, + "loss": 0.1021, + "step": 18215 + }, + { + "epoch": 0.116608, + "grad_norm": 0.5935357213020325, + "learning_rate": 1.9222613333333337e-05, + "loss": 0.0798, + "step": 18220 + }, + { + "epoch": 0.11664, + "grad_norm": 0.8462238907814026, + "learning_rate": 1.92224e-05, + "loss": 0.0868, + "step": 18225 + }, + { + "epoch": 0.116672, + "grad_norm": 1.1257383823394775, + "learning_rate": 1.922218666666667e-05, + "loss": 0.1073, + "step": 18230 + }, + { + "epoch": 0.116704, + "grad_norm": 0.8214700818061829, + "learning_rate": 1.9221973333333336e-05, + "loss": 0.0978, + "step": 18235 + }, + { + "epoch": 0.116736, + "grad_norm": 0.8121496438980103, + "learning_rate": 1.9221760000000003e-05, + "loss": 0.1339, + "step": 18240 + }, + { + "epoch": 0.116768, + "grad_norm": 0.9694331288337708, + "learning_rate": 1.9221546666666668e-05, + "loss": 0.0715, + "step": 18245 + }, + { + "epoch": 0.1168, + "grad_norm": 1.3113253116607666, + "learning_rate": 1.9221333333333335e-05, + "loss": 0.1194, + "step": 18250 + }, + { + "epoch": 0.116832, + "grad_norm": 1.8911449909210205, + "learning_rate": 1.9221120000000003e-05, + "loss": 0.1139, + "step": 18255 + }, + { + "epoch": 0.116864, + "grad_norm": 6.471909999847412, + "learning_rate": 1.9220906666666667e-05, + "loss": 0.1244, + "step": 18260 + }, + { + "epoch": 0.116896, + "grad_norm": 1.656404733657837, + "learning_rate": 1.9220693333333334e-05, + "loss": 0.1852, + "step": 18265 + }, + { + "epoch": 0.116928, + "grad_norm": 0.7126744985580444, + "learning_rate": 1.9220480000000002e-05, + "loss": 0.0842, + "step": 18270 + }, + { + "epoch": 0.11696, + "grad_norm": 1.015968918800354, + "learning_rate": 1.922026666666667e-05, + "loss": 0.091, + "step": 18275 + }, + { + "epoch": 0.116992, + "grad_norm": 0.652645468711853, + "learning_rate": 1.9220053333333334e-05, + "loss": 0.0682, + "step": 18280 + }, + { + "epoch": 0.117024, + "grad_norm": 1.0207314491271973, + "learning_rate": 1.921984e-05, + "loss": 0.1217, + "step": 18285 + }, + { + "epoch": 0.117056, + "grad_norm": 0.8628469109535217, + "learning_rate": 1.921962666666667e-05, + "loss": 0.0638, + "step": 18290 + }, + { + "epoch": 0.117088, + "grad_norm": 0.630364179611206, + "learning_rate": 1.9219413333333333e-05, + "loss": 0.0981, + "step": 18295 + }, + { + "epoch": 0.11712, + "grad_norm": 1.1252877712249756, + "learning_rate": 1.9219200000000004e-05, + "loss": 0.1075, + "step": 18300 + }, + { + "epoch": 0.117152, + "grad_norm": 1.8130815029144287, + "learning_rate": 1.9218986666666668e-05, + "loss": 0.1165, + "step": 18305 + }, + { + "epoch": 0.117184, + "grad_norm": 0.8843502402305603, + "learning_rate": 1.9218773333333336e-05, + "loss": 0.0907, + "step": 18310 + }, + { + "epoch": 0.117216, + "grad_norm": 0.7609126567840576, + "learning_rate": 1.9218560000000003e-05, + "loss": 0.1151, + "step": 18315 + }, + { + "epoch": 0.117248, + "grad_norm": 2.116994857788086, + "learning_rate": 1.9218346666666667e-05, + "loss": 0.1336, + "step": 18320 + }, + { + "epoch": 0.11728, + "grad_norm": 1.650950312614441, + "learning_rate": 1.9218133333333335e-05, + "loss": 0.1471, + "step": 18325 + }, + { + "epoch": 0.117312, + "grad_norm": 1.4270638227462769, + "learning_rate": 1.9217920000000003e-05, + "loss": 0.1728, + "step": 18330 + }, + { + "epoch": 0.117344, + "grad_norm": 0.8241220712661743, + "learning_rate": 1.921770666666667e-05, + "loss": 0.1038, + "step": 18335 + }, + { + "epoch": 0.117376, + "grad_norm": 0.9302663207054138, + "learning_rate": 1.9217493333333334e-05, + "loss": 0.1033, + "step": 18340 + }, + { + "epoch": 0.117408, + "grad_norm": 3.150516986846924, + "learning_rate": 1.9217280000000002e-05, + "loss": 0.0955, + "step": 18345 + }, + { + "epoch": 0.11744, + "grad_norm": 0.6674517393112183, + "learning_rate": 1.921706666666667e-05, + "loss": 0.0906, + "step": 18350 + }, + { + "epoch": 0.117472, + "grad_norm": 0.990044355392456, + "learning_rate": 1.9216853333333334e-05, + "loss": 0.0855, + "step": 18355 + }, + { + "epoch": 0.117504, + "grad_norm": 1.3883304595947266, + "learning_rate": 1.921664e-05, + "loss": 0.112, + "step": 18360 + }, + { + "epoch": 0.117536, + "grad_norm": 0.9959221482276917, + "learning_rate": 1.921642666666667e-05, + "loss": 0.0943, + "step": 18365 + }, + { + "epoch": 0.117568, + "grad_norm": 1.2037564516067505, + "learning_rate": 1.9216213333333336e-05, + "loss": 0.075, + "step": 18370 + }, + { + "epoch": 0.1176, + "grad_norm": 1.5753756761550903, + "learning_rate": 1.9216e-05, + "loss": 0.082, + "step": 18375 + }, + { + "epoch": 0.117632, + "grad_norm": 1.8530559539794922, + "learning_rate": 1.9215786666666668e-05, + "loss": 0.1334, + "step": 18380 + }, + { + "epoch": 0.117664, + "grad_norm": 1.1903709173202515, + "learning_rate": 1.9215573333333335e-05, + "loss": 0.0885, + "step": 18385 + }, + { + "epoch": 0.117696, + "grad_norm": 1.2868767976760864, + "learning_rate": 1.921536e-05, + "loss": 0.1382, + "step": 18390 + }, + { + "epoch": 0.117728, + "grad_norm": 0.7320302724838257, + "learning_rate": 1.9215146666666667e-05, + "loss": 0.0973, + "step": 18395 + }, + { + "epoch": 0.11776, + "grad_norm": 1.3900654315948486, + "learning_rate": 1.9214933333333335e-05, + "loss": 0.1174, + "step": 18400 + }, + { + "epoch": 0.117792, + "grad_norm": 0.590517520904541, + "learning_rate": 1.9214720000000002e-05, + "loss": 0.0744, + "step": 18405 + }, + { + "epoch": 0.117824, + "grad_norm": 1.0787580013275146, + "learning_rate": 1.9214506666666666e-05, + "loss": 0.1535, + "step": 18410 + }, + { + "epoch": 0.117856, + "grad_norm": 0.733427107334137, + "learning_rate": 1.9214293333333337e-05, + "loss": 0.0935, + "step": 18415 + }, + { + "epoch": 0.117888, + "grad_norm": 1.738689661026001, + "learning_rate": 1.921408e-05, + "loss": 0.0887, + "step": 18420 + }, + { + "epoch": 0.11792, + "grad_norm": 1.6943042278289795, + "learning_rate": 1.9213866666666666e-05, + "loss": 0.1194, + "step": 18425 + }, + { + "epoch": 0.117952, + "grad_norm": 1.141141414642334, + "learning_rate": 1.9213653333333337e-05, + "loss": 0.1415, + "step": 18430 + }, + { + "epoch": 0.117984, + "grad_norm": 0.7466761469841003, + "learning_rate": 1.921344e-05, + "loss": 0.074, + "step": 18435 + }, + { + "epoch": 0.118016, + "grad_norm": 0.6975829601287842, + "learning_rate": 1.921322666666667e-05, + "loss": 0.0636, + "step": 18440 + }, + { + "epoch": 0.118048, + "grad_norm": 1.316178321838379, + "learning_rate": 1.9213013333333336e-05, + "loss": 0.1002, + "step": 18445 + }, + { + "epoch": 0.11808, + "grad_norm": 1.3183168172836304, + "learning_rate": 1.9212800000000003e-05, + "loss": 0.0773, + "step": 18450 + }, + { + "epoch": 0.118112, + "grad_norm": 1.4125746488571167, + "learning_rate": 1.9212586666666668e-05, + "loss": 0.0884, + "step": 18455 + }, + { + "epoch": 0.118144, + "grad_norm": 1.1795985698699951, + "learning_rate": 1.9212373333333335e-05, + "loss": 0.1056, + "step": 18460 + }, + { + "epoch": 0.118176, + "grad_norm": 1.1776645183563232, + "learning_rate": 1.9212160000000003e-05, + "loss": 0.1318, + "step": 18465 + }, + { + "epoch": 0.118208, + "grad_norm": 0.9539929032325745, + "learning_rate": 1.9211946666666667e-05, + "loss": 0.1261, + "step": 18470 + }, + { + "epoch": 0.11824, + "grad_norm": 3.298877239227295, + "learning_rate": 1.9211733333333334e-05, + "loss": 0.0753, + "step": 18475 + }, + { + "epoch": 0.118272, + "grad_norm": 1.07090425491333, + "learning_rate": 1.9211520000000002e-05, + "loss": 0.1067, + "step": 18480 + }, + { + "epoch": 0.118304, + "grad_norm": 1.271252155303955, + "learning_rate": 1.921130666666667e-05, + "loss": 0.1332, + "step": 18485 + }, + { + "epoch": 0.118336, + "grad_norm": 1.0414047241210938, + "learning_rate": 1.9211093333333334e-05, + "loss": 0.105, + "step": 18490 + }, + { + "epoch": 0.118368, + "grad_norm": 0.3759189248085022, + "learning_rate": 1.921088e-05, + "loss": 0.1049, + "step": 18495 + }, + { + "epoch": 0.1184, + "grad_norm": 1.1348932981491089, + "learning_rate": 1.921066666666667e-05, + "loss": 0.1123, + "step": 18500 + }, + { + "epoch": 0.118432, + "grad_norm": 1.7544872760772705, + "learning_rate": 1.9210453333333333e-05, + "loss": 0.1243, + "step": 18505 + }, + { + "epoch": 0.118464, + "grad_norm": 1.2368369102478027, + "learning_rate": 1.921024e-05, + "loss": 0.1425, + "step": 18510 + }, + { + "epoch": 0.118496, + "grad_norm": 0.6716660261154175, + "learning_rate": 1.9210026666666668e-05, + "loss": 0.1288, + "step": 18515 + }, + { + "epoch": 0.118528, + "grad_norm": 0.4618237018585205, + "learning_rate": 1.9209813333333336e-05, + "loss": 0.1255, + "step": 18520 + }, + { + "epoch": 0.11856, + "grad_norm": 0.9569565653800964, + "learning_rate": 1.9209600000000003e-05, + "loss": 0.1379, + "step": 18525 + }, + { + "epoch": 0.118592, + "grad_norm": 1.0331380367279053, + "learning_rate": 1.9209386666666667e-05, + "loss": 0.0971, + "step": 18530 + }, + { + "epoch": 0.118624, + "grad_norm": 0.6452990174293518, + "learning_rate": 1.9209173333333335e-05, + "loss": 0.1085, + "step": 18535 + }, + { + "epoch": 0.118656, + "grad_norm": 0.6755465269088745, + "learning_rate": 1.9208960000000003e-05, + "loss": 0.1008, + "step": 18540 + }, + { + "epoch": 0.118688, + "grad_norm": 1.3119198083877563, + "learning_rate": 1.920874666666667e-05, + "loss": 0.1053, + "step": 18545 + }, + { + "epoch": 0.11872, + "grad_norm": 1.8246054649353027, + "learning_rate": 1.9208533333333334e-05, + "loss": 0.0789, + "step": 18550 + }, + { + "epoch": 0.118752, + "grad_norm": 0.8652815818786621, + "learning_rate": 1.9208320000000002e-05, + "loss": 0.1085, + "step": 18555 + }, + { + "epoch": 0.118784, + "grad_norm": 0.7582435011863708, + "learning_rate": 1.920810666666667e-05, + "loss": 0.0962, + "step": 18560 + }, + { + "epoch": 0.118816, + "grad_norm": 0.9803141951560974, + "learning_rate": 1.9207893333333334e-05, + "loss": 0.1258, + "step": 18565 + }, + { + "epoch": 0.118848, + "grad_norm": 2.4876370429992676, + "learning_rate": 1.920768e-05, + "loss": 0.1081, + "step": 18570 + }, + { + "epoch": 0.11888, + "grad_norm": 1.047410488128662, + "learning_rate": 1.920746666666667e-05, + "loss": 0.1213, + "step": 18575 + }, + { + "epoch": 0.118912, + "grad_norm": 0.46366754174232483, + "learning_rate": 1.9207253333333336e-05, + "loss": 0.14, + "step": 18580 + }, + { + "epoch": 0.118944, + "grad_norm": 1.5819473266601562, + "learning_rate": 1.920704e-05, + "loss": 0.0831, + "step": 18585 + }, + { + "epoch": 0.118976, + "grad_norm": 0.9743027091026306, + "learning_rate": 1.9206826666666668e-05, + "loss": 0.1, + "step": 18590 + }, + { + "epoch": 0.119008, + "grad_norm": 1.1981139183044434, + "learning_rate": 1.9206613333333335e-05, + "loss": 0.1023, + "step": 18595 + }, + { + "epoch": 0.11904, + "grad_norm": 0.7179081439971924, + "learning_rate": 1.92064e-05, + "loss": 0.1163, + "step": 18600 + }, + { + "epoch": 0.119072, + "grad_norm": 1.1638323068618774, + "learning_rate": 1.9206186666666667e-05, + "loss": 0.1004, + "step": 18605 + }, + { + "epoch": 0.119104, + "grad_norm": 2.1327195167541504, + "learning_rate": 1.9205973333333335e-05, + "loss": 0.1207, + "step": 18610 + }, + { + "epoch": 0.119136, + "grad_norm": 1.5483981370925903, + "learning_rate": 1.9205760000000002e-05, + "loss": 0.083, + "step": 18615 + }, + { + "epoch": 0.119168, + "grad_norm": 1.600250244140625, + "learning_rate": 1.9205546666666666e-05, + "loss": 0.1005, + "step": 18620 + }, + { + "epoch": 0.1192, + "grad_norm": 1.1677976846694946, + "learning_rate": 1.9205333333333337e-05, + "loss": 0.0984, + "step": 18625 + }, + { + "epoch": 0.119232, + "grad_norm": 1.1135271787643433, + "learning_rate": 1.920512e-05, + "loss": 0.1332, + "step": 18630 + }, + { + "epoch": 0.119264, + "grad_norm": 1.6840488910675049, + "learning_rate": 1.9204906666666666e-05, + "loss": 0.1383, + "step": 18635 + }, + { + "epoch": 0.119296, + "grad_norm": 0.6937466263771057, + "learning_rate": 1.9204693333333337e-05, + "loss": 0.12, + "step": 18640 + }, + { + "epoch": 0.119328, + "grad_norm": 1.9797847270965576, + "learning_rate": 1.920448e-05, + "loss": 0.0973, + "step": 18645 + }, + { + "epoch": 0.11936, + "grad_norm": 3.329362154006958, + "learning_rate": 1.920426666666667e-05, + "loss": 0.1405, + "step": 18650 + }, + { + "epoch": 0.119392, + "grad_norm": 0.8678842186927795, + "learning_rate": 1.9204053333333336e-05, + "loss": 0.1698, + "step": 18655 + }, + { + "epoch": 0.119424, + "grad_norm": 0.8177276849746704, + "learning_rate": 1.9203840000000003e-05, + "loss": 0.1129, + "step": 18660 + }, + { + "epoch": 0.119456, + "grad_norm": 0.5598371028900146, + "learning_rate": 1.9203626666666668e-05, + "loss": 0.0567, + "step": 18665 + }, + { + "epoch": 0.119488, + "grad_norm": 0.761864185333252, + "learning_rate": 1.9203413333333335e-05, + "loss": 0.0826, + "step": 18670 + }, + { + "epoch": 0.11952, + "grad_norm": 0.8571198582649231, + "learning_rate": 1.9203200000000003e-05, + "loss": 0.1155, + "step": 18675 + }, + { + "epoch": 0.119552, + "grad_norm": 0.6757278442382812, + "learning_rate": 1.9202986666666667e-05, + "loss": 0.0953, + "step": 18680 + }, + { + "epoch": 0.119584, + "grad_norm": 1.6613166332244873, + "learning_rate": 1.9202773333333334e-05, + "loss": 0.0907, + "step": 18685 + }, + { + "epoch": 0.119616, + "grad_norm": 0.86822509765625, + "learning_rate": 1.9202560000000002e-05, + "loss": 0.0973, + "step": 18690 + }, + { + "epoch": 0.119648, + "grad_norm": 0.5912057161331177, + "learning_rate": 1.920234666666667e-05, + "loss": 0.0893, + "step": 18695 + }, + { + "epoch": 0.11968, + "grad_norm": 0.758268415927887, + "learning_rate": 1.9202133333333334e-05, + "loss": 0.0874, + "step": 18700 + }, + { + "epoch": 0.119712, + "grad_norm": 0.6753396391868591, + "learning_rate": 1.920192e-05, + "loss": 0.1057, + "step": 18705 + }, + { + "epoch": 0.119744, + "grad_norm": 0.49757567048072815, + "learning_rate": 1.920170666666667e-05, + "loss": 0.1112, + "step": 18710 + }, + { + "epoch": 0.119776, + "grad_norm": 0.7726407051086426, + "learning_rate": 1.9201493333333333e-05, + "loss": 0.0894, + "step": 18715 + }, + { + "epoch": 0.119808, + "grad_norm": 0.8627469539642334, + "learning_rate": 1.920128e-05, + "loss": 0.0978, + "step": 18720 + }, + { + "epoch": 0.11984, + "grad_norm": 1.0194658041000366, + "learning_rate": 1.9201066666666668e-05, + "loss": 0.0956, + "step": 18725 + }, + { + "epoch": 0.119872, + "grad_norm": 1.6111764907836914, + "learning_rate": 1.9200853333333336e-05, + "loss": 0.0899, + "step": 18730 + }, + { + "epoch": 0.119904, + "grad_norm": 0.840908944606781, + "learning_rate": 1.920064e-05, + "loss": 0.0933, + "step": 18735 + }, + { + "epoch": 0.119936, + "grad_norm": 0.8839567303657532, + "learning_rate": 1.9200426666666667e-05, + "loss": 0.0828, + "step": 18740 + }, + { + "epoch": 0.119968, + "grad_norm": 1.124716877937317, + "learning_rate": 1.9200213333333335e-05, + "loss": 0.0663, + "step": 18745 + }, + { + "epoch": 0.12, + "grad_norm": 0.9711991548538208, + "learning_rate": 1.9200000000000003e-05, + "loss": 0.0955, + "step": 18750 + }, + { + "epoch": 0.120032, + "grad_norm": 0.9900487661361694, + "learning_rate": 1.919978666666667e-05, + "loss": 0.1079, + "step": 18755 + }, + { + "epoch": 0.120064, + "grad_norm": 0.8017605543136597, + "learning_rate": 1.9199573333333334e-05, + "loss": 0.093, + "step": 18760 + }, + { + "epoch": 0.120096, + "grad_norm": 0.7147476673126221, + "learning_rate": 1.9199360000000002e-05, + "loss": 0.1166, + "step": 18765 + }, + { + "epoch": 0.120128, + "grad_norm": 1.675560712814331, + "learning_rate": 1.919914666666667e-05, + "loss": 0.0772, + "step": 18770 + }, + { + "epoch": 0.12016, + "grad_norm": 0.8548873662948608, + "learning_rate": 1.9198933333333334e-05, + "loss": 0.1027, + "step": 18775 + }, + { + "epoch": 0.120192, + "grad_norm": 0.7560623288154602, + "learning_rate": 1.919872e-05, + "loss": 0.0933, + "step": 18780 + }, + { + "epoch": 0.120224, + "grad_norm": 0.8772810697555542, + "learning_rate": 1.919850666666667e-05, + "loss": 0.1057, + "step": 18785 + }, + { + "epoch": 0.120256, + "grad_norm": 0.7547442317008972, + "learning_rate": 1.9198293333333336e-05, + "loss": 0.0964, + "step": 18790 + }, + { + "epoch": 0.120288, + "grad_norm": 1.9533206224441528, + "learning_rate": 1.919808e-05, + "loss": 0.0788, + "step": 18795 + }, + { + "epoch": 0.12032, + "grad_norm": 0.8660644888877869, + "learning_rate": 1.9197866666666668e-05, + "loss": 0.0933, + "step": 18800 + }, + { + "epoch": 0.120352, + "grad_norm": 1.08028244972229, + "learning_rate": 1.9197653333333335e-05, + "loss": 0.0797, + "step": 18805 + }, + { + "epoch": 0.120384, + "grad_norm": 0.5803304314613342, + "learning_rate": 1.919744e-05, + "loss": 0.1154, + "step": 18810 + }, + { + "epoch": 0.120416, + "grad_norm": 0.9049976468086243, + "learning_rate": 1.9197226666666667e-05, + "loss": 0.09, + "step": 18815 + }, + { + "epoch": 0.120448, + "grad_norm": 1.2189947366714478, + "learning_rate": 1.9197013333333335e-05, + "loss": 0.0656, + "step": 18820 + }, + { + "epoch": 0.12048, + "grad_norm": 2.188450813293457, + "learning_rate": 1.9196800000000002e-05, + "loss": 0.1513, + "step": 18825 + }, + { + "epoch": 0.120512, + "grad_norm": 1.1742726564407349, + "learning_rate": 1.9196586666666666e-05, + "loss": 0.1258, + "step": 18830 + }, + { + "epoch": 0.120544, + "grad_norm": 1.2956346273422241, + "learning_rate": 1.9196373333333337e-05, + "loss": 0.0927, + "step": 18835 + }, + { + "epoch": 0.120576, + "grad_norm": 0.7494931221008301, + "learning_rate": 1.919616e-05, + "loss": 0.0712, + "step": 18840 + }, + { + "epoch": 0.120608, + "grad_norm": 0.23671114444732666, + "learning_rate": 1.9195946666666666e-05, + "loss": 0.101, + "step": 18845 + }, + { + "epoch": 0.12064, + "grad_norm": 1.0375373363494873, + "learning_rate": 1.9195733333333337e-05, + "loss": 0.1162, + "step": 18850 + }, + { + "epoch": 0.120672, + "grad_norm": 0.38476037979125977, + "learning_rate": 1.919552e-05, + "loss": 0.103, + "step": 18855 + }, + { + "epoch": 0.120704, + "grad_norm": 1.3404123783111572, + "learning_rate": 1.919530666666667e-05, + "loss": 0.0879, + "step": 18860 + }, + { + "epoch": 0.120736, + "grad_norm": 0.7095018029212952, + "learning_rate": 1.9195093333333336e-05, + "loss": 0.1449, + "step": 18865 + }, + { + "epoch": 0.120768, + "grad_norm": 2.8193814754486084, + "learning_rate": 1.9194880000000003e-05, + "loss": 0.1199, + "step": 18870 + }, + { + "epoch": 0.1208, + "grad_norm": 0.5953580737113953, + "learning_rate": 1.9194666666666668e-05, + "loss": 0.1106, + "step": 18875 + }, + { + "epoch": 0.120832, + "grad_norm": 0.6546008586883545, + "learning_rate": 1.9194453333333335e-05, + "loss": 0.0985, + "step": 18880 + }, + { + "epoch": 0.120864, + "grad_norm": 1.3222060203552246, + "learning_rate": 1.9194240000000003e-05, + "loss": 0.114, + "step": 18885 + }, + { + "epoch": 0.120896, + "grad_norm": 0.9590566754341125, + "learning_rate": 1.9194026666666667e-05, + "loss": 0.0875, + "step": 18890 + }, + { + "epoch": 0.120928, + "grad_norm": 0.6579165458679199, + "learning_rate": 1.9193813333333334e-05, + "loss": 0.0867, + "step": 18895 + }, + { + "epoch": 0.12096, + "grad_norm": 2.8213486671447754, + "learning_rate": 1.9193600000000002e-05, + "loss": 0.1145, + "step": 18900 + }, + { + "epoch": 0.120992, + "grad_norm": 1.29982328414917, + "learning_rate": 1.919338666666667e-05, + "loss": 0.1626, + "step": 18905 + }, + { + "epoch": 0.121024, + "grad_norm": 0.7665907740592957, + "learning_rate": 1.9193173333333334e-05, + "loss": 0.0869, + "step": 18910 + }, + { + "epoch": 0.121056, + "grad_norm": 1.2328801155090332, + "learning_rate": 1.919296e-05, + "loss": 0.1324, + "step": 18915 + }, + { + "epoch": 0.121088, + "grad_norm": 0.8519964218139648, + "learning_rate": 1.919274666666667e-05, + "loss": 0.0722, + "step": 18920 + }, + { + "epoch": 0.12112, + "grad_norm": 4.873566627502441, + "learning_rate": 1.9192533333333333e-05, + "loss": 0.1308, + "step": 18925 + }, + { + "epoch": 0.121152, + "grad_norm": 0.8253137469291687, + "learning_rate": 1.919232e-05, + "loss": 0.0602, + "step": 18930 + }, + { + "epoch": 0.121184, + "grad_norm": 0.6005880236625671, + "learning_rate": 1.9192106666666668e-05, + "loss": 0.0837, + "step": 18935 + }, + { + "epoch": 0.121216, + "grad_norm": 0.8393807411193848, + "learning_rate": 1.9191893333333336e-05, + "loss": 0.0743, + "step": 18940 + }, + { + "epoch": 0.121248, + "grad_norm": 1.2812012434005737, + "learning_rate": 1.919168e-05, + "loss": 0.1152, + "step": 18945 + }, + { + "epoch": 0.12128, + "grad_norm": 0.7537688612937927, + "learning_rate": 1.9191466666666667e-05, + "loss": 0.105, + "step": 18950 + }, + { + "epoch": 0.121312, + "grad_norm": 0.6249088048934937, + "learning_rate": 1.9191253333333335e-05, + "loss": 0.1261, + "step": 18955 + }, + { + "epoch": 0.121344, + "grad_norm": 0.563465416431427, + "learning_rate": 1.919104e-05, + "loss": 0.0951, + "step": 18960 + }, + { + "epoch": 0.121376, + "grad_norm": 0.5481194853782654, + "learning_rate": 1.919082666666667e-05, + "loss": 0.098, + "step": 18965 + }, + { + "epoch": 0.121408, + "grad_norm": 0.9765037298202515, + "learning_rate": 1.9190613333333334e-05, + "loss": 0.1019, + "step": 18970 + }, + { + "epoch": 0.12144, + "grad_norm": 0.6501812934875488, + "learning_rate": 1.9190400000000002e-05, + "loss": 0.0857, + "step": 18975 + }, + { + "epoch": 0.121472, + "grad_norm": 0.2439981997013092, + "learning_rate": 1.919018666666667e-05, + "loss": 0.0726, + "step": 18980 + }, + { + "epoch": 0.121504, + "grad_norm": 1.260848045349121, + "learning_rate": 1.9189973333333337e-05, + "loss": 0.1314, + "step": 18985 + }, + { + "epoch": 0.121536, + "grad_norm": 0.8007827997207642, + "learning_rate": 1.918976e-05, + "loss": 0.0794, + "step": 18990 + }, + { + "epoch": 0.121568, + "grad_norm": 3.8867340087890625, + "learning_rate": 1.918954666666667e-05, + "loss": 0.0908, + "step": 18995 + }, + { + "epoch": 0.1216, + "grad_norm": 1.067764401435852, + "learning_rate": 1.9189333333333336e-05, + "loss": 0.1312, + "step": 19000 + }, + { + "epoch": 0.121632, + "grad_norm": 0.8861750960350037, + "learning_rate": 1.918912e-05, + "loss": 0.0758, + "step": 19005 + }, + { + "epoch": 0.121664, + "grad_norm": 3.231994152069092, + "learning_rate": 1.9188906666666668e-05, + "loss": 0.1311, + "step": 19010 + }, + { + "epoch": 0.121696, + "grad_norm": 0.8775118589401245, + "learning_rate": 1.9188693333333335e-05, + "loss": 0.1021, + "step": 19015 + }, + { + "epoch": 0.121728, + "grad_norm": 1.036942720413208, + "learning_rate": 1.9188480000000003e-05, + "loss": 0.1159, + "step": 19020 + }, + { + "epoch": 0.12176, + "grad_norm": 0.6452130079269409, + "learning_rate": 1.9188266666666667e-05, + "loss": 0.1045, + "step": 19025 + }, + { + "epoch": 0.121792, + "grad_norm": 0.8901990652084351, + "learning_rate": 1.9188053333333335e-05, + "loss": 0.1154, + "step": 19030 + }, + { + "epoch": 0.121824, + "grad_norm": 1.1570260524749756, + "learning_rate": 1.9187840000000002e-05, + "loss": 0.1015, + "step": 19035 + }, + { + "epoch": 0.121856, + "grad_norm": 0.42991331219673157, + "learning_rate": 1.9187626666666666e-05, + "loss": 0.0876, + "step": 19040 + }, + { + "epoch": 0.121888, + "grad_norm": 3.4165823459625244, + "learning_rate": 1.9187413333333334e-05, + "loss": 0.0794, + "step": 19045 + }, + { + "epoch": 0.12192, + "grad_norm": 1.087998628616333, + "learning_rate": 1.91872e-05, + "loss": 0.105, + "step": 19050 + }, + { + "epoch": 0.121952, + "grad_norm": 1.7468303442001343, + "learning_rate": 1.918698666666667e-05, + "loss": 0.1155, + "step": 19055 + }, + { + "epoch": 0.121984, + "grad_norm": 2.3873581886291504, + "learning_rate": 1.9186773333333337e-05, + "loss": 0.1113, + "step": 19060 + }, + { + "epoch": 0.122016, + "grad_norm": 0.7041262984275818, + "learning_rate": 1.918656e-05, + "loss": 0.1043, + "step": 19065 + }, + { + "epoch": 0.122048, + "grad_norm": 0.8802327513694763, + "learning_rate": 1.918634666666667e-05, + "loss": 0.1164, + "step": 19070 + }, + { + "epoch": 0.12208, + "grad_norm": 0.8946376442909241, + "learning_rate": 1.9186133333333336e-05, + "loss": 0.1143, + "step": 19075 + }, + { + "epoch": 0.122112, + "grad_norm": 1.0640860795974731, + "learning_rate": 1.9185920000000003e-05, + "loss": 0.1228, + "step": 19080 + }, + { + "epoch": 0.122144, + "grad_norm": 0.7901614308357239, + "learning_rate": 1.9185706666666668e-05, + "loss": 0.0863, + "step": 19085 + }, + { + "epoch": 0.122176, + "grad_norm": 0.7843159437179565, + "learning_rate": 1.9185493333333335e-05, + "loss": 0.0756, + "step": 19090 + }, + { + "epoch": 0.122208, + "grad_norm": 0.5481838583946228, + "learning_rate": 1.9185280000000003e-05, + "loss": 0.0997, + "step": 19095 + }, + { + "epoch": 0.12224, + "grad_norm": 0.9340497851371765, + "learning_rate": 1.9185066666666667e-05, + "loss": 0.1015, + "step": 19100 + }, + { + "epoch": 0.122272, + "grad_norm": 1.0081777572631836, + "learning_rate": 1.9184853333333334e-05, + "loss": 0.0585, + "step": 19105 + }, + { + "epoch": 0.122304, + "grad_norm": 0.9498385190963745, + "learning_rate": 1.9184640000000002e-05, + "loss": 0.1044, + "step": 19110 + }, + { + "epoch": 0.122336, + "grad_norm": 2.034637689590454, + "learning_rate": 1.918442666666667e-05, + "loss": 0.1087, + "step": 19115 + }, + { + "epoch": 0.122368, + "grad_norm": 1.0656014680862427, + "learning_rate": 1.9184213333333334e-05, + "loss": 0.0986, + "step": 19120 + }, + { + "epoch": 0.1224, + "grad_norm": 0.7242832183837891, + "learning_rate": 1.9184e-05, + "loss": 0.0781, + "step": 19125 + }, + { + "epoch": 0.122432, + "grad_norm": 1.088496208190918, + "learning_rate": 1.918378666666667e-05, + "loss": 0.1037, + "step": 19130 + }, + { + "epoch": 0.122464, + "grad_norm": 0.5322329998016357, + "learning_rate": 1.9183573333333333e-05, + "loss": 0.0817, + "step": 19135 + }, + { + "epoch": 0.122496, + "grad_norm": 0.7228826284408569, + "learning_rate": 1.918336e-05, + "loss": 0.0844, + "step": 19140 + }, + { + "epoch": 0.122528, + "grad_norm": 0.988352358341217, + "learning_rate": 1.9183146666666668e-05, + "loss": 0.0938, + "step": 19145 + }, + { + "epoch": 0.12256, + "grad_norm": 0.7162219882011414, + "learning_rate": 1.9182933333333336e-05, + "loss": 0.0853, + "step": 19150 + }, + { + "epoch": 0.122592, + "grad_norm": 0.6030868291854858, + "learning_rate": 1.918272e-05, + "loss": 0.1166, + "step": 19155 + }, + { + "epoch": 0.122624, + "grad_norm": 0.9681873321533203, + "learning_rate": 1.918250666666667e-05, + "loss": 0.0964, + "step": 19160 + }, + { + "epoch": 0.122656, + "grad_norm": 0.7127659320831299, + "learning_rate": 1.9182293333333335e-05, + "loss": 0.1027, + "step": 19165 + }, + { + "epoch": 0.122688, + "grad_norm": 1.6875113248825073, + "learning_rate": 1.918208e-05, + "loss": 0.1201, + "step": 19170 + }, + { + "epoch": 0.12272, + "grad_norm": 1.2578343152999878, + "learning_rate": 1.918186666666667e-05, + "loss": 0.1072, + "step": 19175 + }, + { + "epoch": 0.122752, + "grad_norm": 0.571926474571228, + "learning_rate": 1.9181653333333334e-05, + "loss": 0.0896, + "step": 19180 + }, + { + "epoch": 0.122784, + "grad_norm": 1.9424585103988647, + "learning_rate": 1.9181440000000002e-05, + "loss": 0.1239, + "step": 19185 + }, + { + "epoch": 0.122816, + "grad_norm": 0.7904422283172607, + "learning_rate": 1.918122666666667e-05, + "loss": 0.0808, + "step": 19190 + }, + { + "epoch": 0.122848, + "grad_norm": 1.1093710660934448, + "learning_rate": 1.9181013333333337e-05, + "loss": 0.1338, + "step": 19195 + }, + { + "epoch": 0.12288, + "grad_norm": 0.7586408257484436, + "learning_rate": 1.91808e-05, + "loss": 0.0713, + "step": 19200 + }, + { + "epoch": 0.122912, + "grad_norm": 0.5342010259628296, + "learning_rate": 1.918058666666667e-05, + "loss": 0.107, + "step": 19205 + }, + { + "epoch": 0.122944, + "grad_norm": 0.41109880805015564, + "learning_rate": 1.9180373333333336e-05, + "loss": 0.059, + "step": 19210 + }, + { + "epoch": 0.122976, + "grad_norm": 0.725240170955658, + "learning_rate": 1.918016e-05, + "loss": 0.0904, + "step": 19215 + }, + { + "epoch": 0.123008, + "grad_norm": 0.9639695882797241, + "learning_rate": 1.9179946666666668e-05, + "loss": 0.0896, + "step": 19220 + }, + { + "epoch": 0.12304, + "grad_norm": 0.6197553277015686, + "learning_rate": 1.9179733333333335e-05, + "loss": 0.1033, + "step": 19225 + }, + { + "epoch": 0.123072, + "grad_norm": 0.8490912914276123, + "learning_rate": 1.9179520000000003e-05, + "loss": 0.0918, + "step": 19230 + }, + { + "epoch": 0.123104, + "grad_norm": 1.2044744491577148, + "learning_rate": 1.9179306666666667e-05, + "loss": 0.0906, + "step": 19235 + }, + { + "epoch": 0.123136, + "grad_norm": 2.3431646823883057, + "learning_rate": 1.9179093333333335e-05, + "loss": 0.1147, + "step": 19240 + }, + { + "epoch": 0.123168, + "grad_norm": 1.0871968269348145, + "learning_rate": 1.9178880000000002e-05, + "loss": 0.0881, + "step": 19245 + }, + { + "epoch": 0.1232, + "grad_norm": 1.2580314874649048, + "learning_rate": 1.9178666666666666e-05, + "loss": 0.0916, + "step": 19250 + }, + { + "epoch": 0.123232, + "grad_norm": 1.5049638748168945, + "learning_rate": 1.9178453333333334e-05, + "loss": 0.1182, + "step": 19255 + }, + { + "epoch": 0.123264, + "grad_norm": 1.1628894805908203, + "learning_rate": 1.917824e-05, + "loss": 0.1331, + "step": 19260 + }, + { + "epoch": 0.123296, + "grad_norm": 0.6840386986732483, + "learning_rate": 1.917802666666667e-05, + "loss": 0.0786, + "step": 19265 + }, + { + "epoch": 0.123328, + "grad_norm": 1.1836353540420532, + "learning_rate": 1.9177813333333333e-05, + "loss": 0.1062, + "step": 19270 + }, + { + "epoch": 0.12336, + "grad_norm": 1.508692979812622, + "learning_rate": 1.91776e-05, + "loss": 0.1002, + "step": 19275 + }, + { + "epoch": 0.123392, + "grad_norm": 1.3041958808898926, + "learning_rate": 1.917738666666667e-05, + "loss": 0.0877, + "step": 19280 + }, + { + "epoch": 0.123424, + "grad_norm": 1.7619622945785522, + "learning_rate": 1.9177173333333336e-05, + "loss": 0.066, + "step": 19285 + }, + { + "epoch": 0.123456, + "grad_norm": 0.525297999382019, + "learning_rate": 1.9176960000000003e-05, + "loss": 0.0839, + "step": 19290 + }, + { + "epoch": 0.123488, + "grad_norm": 0.5955857634544373, + "learning_rate": 1.9176746666666668e-05, + "loss": 0.0913, + "step": 19295 + }, + { + "epoch": 0.12352, + "grad_norm": 1.1271002292633057, + "learning_rate": 1.9176533333333335e-05, + "loss": 0.094, + "step": 19300 + }, + { + "epoch": 0.123552, + "grad_norm": 0.6976211071014404, + "learning_rate": 1.9176320000000003e-05, + "loss": 0.0755, + "step": 19305 + }, + { + "epoch": 0.123584, + "grad_norm": 0.727879524230957, + "learning_rate": 1.9176106666666667e-05, + "loss": 0.0828, + "step": 19310 + }, + { + "epoch": 0.123616, + "grad_norm": 1.0689589977264404, + "learning_rate": 1.9175893333333334e-05, + "loss": 0.1056, + "step": 19315 + }, + { + "epoch": 0.123648, + "grad_norm": 0.7879129648208618, + "learning_rate": 1.9175680000000002e-05, + "loss": 0.1217, + "step": 19320 + }, + { + "epoch": 0.12368, + "grad_norm": 1.5747573375701904, + "learning_rate": 1.917546666666667e-05, + "loss": 0.0897, + "step": 19325 + }, + { + "epoch": 0.123712, + "grad_norm": 0.5851641297340393, + "learning_rate": 1.9175253333333334e-05, + "loss": 0.0792, + "step": 19330 + }, + { + "epoch": 0.123744, + "grad_norm": 0.7961184978485107, + "learning_rate": 1.917504e-05, + "loss": 0.0768, + "step": 19335 + }, + { + "epoch": 0.123776, + "grad_norm": 0.5258662700653076, + "learning_rate": 1.917482666666667e-05, + "loss": 0.0861, + "step": 19340 + }, + { + "epoch": 0.123808, + "grad_norm": 1.3244333267211914, + "learning_rate": 1.9174613333333333e-05, + "loss": 0.108, + "step": 19345 + }, + { + "epoch": 0.12384, + "grad_norm": 0.47353383898735046, + "learning_rate": 1.91744e-05, + "loss": 0.0683, + "step": 19350 + }, + { + "epoch": 0.123872, + "grad_norm": 0.8369333148002625, + "learning_rate": 1.9174186666666668e-05, + "loss": 0.1139, + "step": 19355 + }, + { + "epoch": 0.123904, + "grad_norm": 1.3146015405654907, + "learning_rate": 1.9173973333333336e-05, + "loss": 0.1084, + "step": 19360 + }, + { + "epoch": 0.123936, + "grad_norm": 1.2627369165420532, + "learning_rate": 1.917376e-05, + "loss": 0.1399, + "step": 19365 + }, + { + "epoch": 0.123968, + "grad_norm": 1.4622782468795776, + "learning_rate": 1.917354666666667e-05, + "loss": 0.1051, + "step": 19370 + }, + { + "epoch": 0.124, + "grad_norm": 0.904947817325592, + "learning_rate": 1.9173333333333335e-05, + "loss": 0.0976, + "step": 19375 + }, + { + "epoch": 0.124032, + "grad_norm": 0.4363226592540741, + "learning_rate": 1.917312e-05, + "loss": 0.0782, + "step": 19380 + }, + { + "epoch": 0.124064, + "grad_norm": 1.9094318151474, + "learning_rate": 1.917290666666667e-05, + "loss": 0.1127, + "step": 19385 + }, + { + "epoch": 0.124096, + "grad_norm": 1.5162551403045654, + "learning_rate": 1.9172693333333334e-05, + "loss": 0.0819, + "step": 19390 + }, + { + "epoch": 0.124128, + "grad_norm": 1.9097756147384644, + "learning_rate": 1.9172480000000002e-05, + "loss": 0.0927, + "step": 19395 + }, + { + "epoch": 0.12416, + "grad_norm": 0.5473203063011169, + "learning_rate": 1.917226666666667e-05, + "loss": 0.0605, + "step": 19400 + }, + { + "epoch": 0.124192, + "grad_norm": 0.8188507556915283, + "learning_rate": 1.9172053333333337e-05, + "loss": 0.0662, + "step": 19405 + }, + { + "epoch": 0.124224, + "grad_norm": 1.1941676139831543, + "learning_rate": 1.917184e-05, + "loss": 0.1197, + "step": 19410 + }, + { + "epoch": 0.124256, + "grad_norm": 0.5999334454536438, + "learning_rate": 1.917162666666667e-05, + "loss": 0.0669, + "step": 19415 + }, + { + "epoch": 0.124288, + "grad_norm": 1.0906825065612793, + "learning_rate": 1.9171413333333336e-05, + "loss": 0.1105, + "step": 19420 + }, + { + "epoch": 0.12432, + "grad_norm": 4.199492454528809, + "learning_rate": 1.91712e-05, + "loss": 0.102, + "step": 19425 + }, + { + "epoch": 0.124352, + "grad_norm": 1.6436724662780762, + "learning_rate": 1.9170986666666668e-05, + "loss": 0.0973, + "step": 19430 + }, + { + "epoch": 0.124384, + "grad_norm": 0.967103123664856, + "learning_rate": 1.9170773333333335e-05, + "loss": 0.0799, + "step": 19435 + }, + { + "epoch": 0.124416, + "grad_norm": 1.5711370706558228, + "learning_rate": 1.9170560000000003e-05, + "loss": 0.1119, + "step": 19440 + }, + { + "epoch": 0.124448, + "grad_norm": 0.7769523859024048, + "learning_rate": 1.9170346666666667e-05, + "loss": 0.1174, + "step": 19445 + }, + { + "epoch": 0.12448, + "grad_norm": 0.7427621483802795, + "learning_rate": 1.9170133333333335e-05, + "loss": 0.0966, + "step": 19450 + }, + { + "epoch": 0.124512, + "grad_norm": 0.8211779594421387, + "learning_rate": 1.9169920000000002e-05, + "loss": 0.0974, + "step": 19455 + }, + { + "epoch": 0.124544, + "grad_norm": 1.8358268737792969, + "learning_rate": 1.9169706666666666e-05, + "loss": 0.0978, + "step": 19460 + }, + { + "epoch": 0.124576, + "grad_norm": 0.8571951985359192, + "learning_rate": 1.9169493333333334e-05, + "loss": 0.1041, + "step": 19465 + }, + { + "epoch": 0.124608, + "grad_norm": 10.018698692321777, + "learning_rate": 1.916928e-05, + "loss": 0.1458, + "step": 19470 + }, + { + "epoch": 0.12464, + "grad_norm": 0.7012988328933716, + "learning_rate": 1.916906666666667e-05, + "loss": 0.0734, + "step": 19475 + }, + { + "epoch": 0.124672, + "grad_norm": 1.2919954061508179, + "learning_rate": 1.9168853333333333e-05, + "loss": 0.0922, + "step": 19480 + }, + { + "epoch": 0.124704, + "grad_norm": 1.5612412691116333, + "learning_rate": 1.916864e-05, + "loss": 0.0901, + "step": 19485 + }, + { + "epoch": 0.124736, + "grad_norm": 0.9083320498466492, + "learning_rate": 1.916842666666667e-05, + "loss": 0.0797, + "step": 19490 + }, + { + "epoch": 0.124768, + "grad_norm": 1.3982101678848267, + "learning_rate": 1.9168213333333333e-05, + "loss": 0.1496, + "step": 19495 + }, + { + "epoch": 0.1248, + "grad_norm": 0.4648939073085785, + "learning_rate": 1.9168000000000004e-05, + "loss": 0.0554, + "step": 19500 + }, + { + "epoch": 0.124832, + "grad_norm": 1.0482165813446045, + "learning_rate": 1.9167786666666668e-05, + "loss": 0.1021, + "step": 19505 + }, + { + "epoch": 0.124864, + "grad_norm": 1.044492483139038, + "learning_rate": 1.9167573333333335e-05, + "loss": 0.1121, + "step": 19510 + }, + { + "epoch": 0.124896, + "grad_norm": 0.5289962887763977, + "learning_rate": 1.9167360000000003e-05, + "loss": 0.0592, + "step": 19515 + }, + { + "epoch": 0.124928, + "grad_norm": 0.8482415080070496, + "learning_rate": 1.9167146666666667e-05, + "loss": 0.1174, + "step": 19520 + }, + { + "epoch": 0.12496, + "grad_norm": 2.1639530658721924, + "learning_rate": 1.9166933333333334e-05, + "loss": 0.0783, + "step": 19525 + }, + { + "epoch": 0.124992, + "grad_norm": 0.6051033735275269, + "learning_rate": 1.9166720000000002e-05, + "loss": 0.0968, + "step": 19530 + }, + { + "epoch": 0.125024, + "grad_norm": 0.941482424736023, + "learning_rate": 1.916650666666667e-05, + "loss": 0.1039, + "step": 19535 + }, + { + "epoch": 0.125056, + "grad_norm": 1.5719996690750122, + "learning_rate": 1.9166293333333334e-05, + "loss": 0.1155, + "step": 19540 + }, + { + "epoch": 0.125088, + "grad_norm": 0.6549006104469299, + "learning_rate": 1.916608e-05, + "loss": 0.0918, + "step": 19545 + }, + { + "epoch": 0.12512, + "grad_norm": 0.5554603338241577, + "learning_rate": 1.916586666666667e-05, + "loss": 0.0671, + "step": 19550 + }, + { + "epoch": 0.125152, + "grad_norm": 1.0188673734664917, + "learning_rate": 1.9165653333333333e-05, + "loss": 0.0821, + "step": 19555 + }, + { + "epoch": 0.125184, + "grad_norm": 6.350477695465088, + "learning_rate": 1.916544e-05, + "loss": 0.0966, + "step": 19560 + }, + { + "epoch": 0.125216, + "grad_norm": 2.839916229248047, + "learning_rate": 1.9165226666666668e-05, + "loss": 0.1258, + "step": 19565 + }, + { + "epoch": 0.125248, + "grad_norm": 1.7164714336395264, + "learning_rate": 1.9165013333333336e-05, + "loss": 0.1244, + "step": 19570 + }, + { + "epoch": 0.12528, + "grad_norm": 1.3091868162155151, + "learning_rate": 1.91648e-05, + "loss": 0.0784, + "step": 19575 + }, + { + "epoch": 0.125312, + "grad_norm": 0.636227011680603, + "learning_rate": 1.9164586666666667e-05, + "loss": 0.106, + "step": 19580 + }, + { + "epoch": 0.125344, + "grad_norm": 0.9722976088523865, + "learning_rate": 1.9164373333333335e-05, + "loss": 0.1189, + "step": 19585 + }, + { + "epoch": 0.125376, + "grad_norm": 3.2689108848571777, + "learning_rate": 1.916416e-05, + "loss": 0.095, + "step": 19590 + }, + { + "epoch": 0.125408, + "grad_norm": 1.747193455696106, + "learning_rate": 1.916394666666667e-05, + "loss": 0.1207, + "step": 19595 + }, + { + "epoch": 0.12544, + "grad_norm": 1.0946003198623657, + "learning_rate": 1.9163733333333334e-05, + "loss": 0.1319, + "step": 19600 + }, + { + "epoch": 0.125472, + "grad_norm": 0.9105933904647827, + "learning_rate": 1.9163520000000002e-05, + "loss": 0.0705, + "step": 19605 + }, + { + "epoch": 0.125504, + "grad_norm": 3.0702192783355713, + "learning_rate": 1.916330666666667e-05, + "loss": 0.1176, + "step": 19610 + }, + { + "epoch": 0.125536, + "grad_norm": 1.0095021724700928, + "learning_rate": 1.9163093333333337e-05, + "loss": 0.0879, + "step": 19615 + }, + { + "epoch": 0.125568, + "grad_norm": 3.7239718437194824, + "learning_rate": 1.916288e-05, + "loss": 0.1475, + "step": 19620 + }, + { + "epoch": 0.1256, + "grad_norm": 1.152743935585022, + "learning_rate": 1.916266666666667e-05, + "loss": 0.1358, + "step": 19625 + }, + { + "epoch": 0.125632, + "grad_norm": 2.8924479484558105, + "learning_rate": 1.9162453333333336e-05, + "loss": 0.1282, + "step": 19630 + }, + { + "epoch": 0.125664, + "grad_norm": 0.7597571015357971, + "learning_rate": 1.916224e-05, + "loss": 0.0819, + "step": 19635 + }, + { + "epoch": 0.125696, + "grad_norm": 2.118732452392578, + "learning_rate": 1.9162026666666668e-05, + "loss": 0.0924, + "step": 19640 + }, + { + "epoch": 0.125728, + "grad_norm": 3.557697057723999, + "learning_rate": 1.9161813333333335e-05, + "loss": 0.1041, + "step": 19645 + }, + { + "epoch": 0.12576, + "grad_norm": 1.1579697132110596, + "learning_rate": 1.9161600000000003e-05, + "loss": 0.0869, + "step": 19650 + }, + { + "epoch": 0.125792, + "grad_norm": 1.0617350339889526, + "learning_rate": 1.9161386666666667e-05, + "loss": 0.0836, + "step": 19655 + }, + { + "epoch": 0.125824, + "grad_norm": 1.3667482137680054, + "learning_rate": 1.9161173333333335e-05, + "loss": 0.0792, + "step": 19660 + }, + { + "epoch": 0.125856, + "grad_norm": 0.5999741554260254, + "learning_rate": 1.9160960000000002e-05, + "loss": 0.0785, + "step": 19665 + }, + { + "epoch": 0.125888, + "grad_norm": 0.7819477915763855, + "learning_rate": 1.9160746666666666e-05, + "loss": 0.0924, + "step": 19670 + }, + { + "epoch": 0.12592, + "grad_norm": 0.730000376701355, + "learning_rate": 1.9160533333333334e-05, + "loss": 0.0634, + "step": 19675 + }, + { + "epoch": 0.125952, + "grad_norm": 1.9376509189605713, + "learning_rate": 1.916032e-05, + "loss": 0.1016, + "step": 19680 + }, + { + "epoch": 0.125984, + "grad_norm": 1.064294695854187, + "learning_rate": 1.916010666666667e-05, + "loss": 0.109, + "step": 19685 + }, + { + "epoch": 0.126016, + "grad_norm": 0.4083932042121887, + "learning_rate": 1.9159893333333333e-05, + "loss": 0.0902, + "step": 19690 + }, + { + "epoch": 0.126048, + "grad_norm": 1.1848279237747192, + "learning_rate": 1.915968e-05, + "loss": 0.1034, + "step": 19695 + }, + { + "epoch": 0.12608, + "grad_norm": 1.0001713037490845, + "learning_rate": 1.915946666666667e-05, + "loss": 0.128, + "step": 19700 + }, + { + "epoch": 0.126112, + "grad_norm": 0.6972441077232361, + "learning_rate": 1.9159253333333333e-05, + "loss": 0.1133, + "step": 19705 + }, + { + "epoch": 0.126144, + "grad_norm": 0.9076221585273743, + "learning_rate": 1.9159040000000004e-05, + "loss": 0.1043, + "step": 19710 + }, + { + "epoch": 0.126176, + "grad_norm": 0.7254889011383057, + "learning_rate": 1.9158826666666668e-05, + "loss": 0.113, + "step": 19715 + }, + { + "epoch": 0.126208, + "grad_norm": 1.3121658563613892, + "learning_rate": 1.9158613333333335e-05, + "loss": 0.1114, + "step": 19720 + }, + { + "epoch": 0.12624, + "grad_norm": 1.4471436738967896, + "learning_rate": 1.9158400000000003e-05, + "loss": 0.0944, + "step": 19725 + }, + { + "epoch": 0.126272, + "grad_norm": 0.551453173160553, + "learning_rate": 1.9158186666666667e-05, + "loss": 0.1042, + "step": 19730 + }, + { + "epoch": 0.126304, + "grad_norm": 1.4423716068267822, + "learning_rate": 1.9157973333333335e-05, + "loss": 0.0964, + "step": 19735 + }, + { + "epoch": 0.126336, + "grad_norm": 0.8064810633659363, + "learning_rate": 1.9157760000000002e-05, + "loss": 0.1237, + "step": 19740 + }, + { + "epoch": 0.126368, + "grad_norm": 0.862432062625885, + "learning_rate": 1.915754666666667e-05, + "loss": 0.1001, + "step": 19745 + }, + { + "epoch": 0.1264, + "grad_norm": 0.9582370519638062, + "learning_rate": 1.9157333333333334e-05, + "loss": 0.0942, + "step": 19750 + }, + { + "epoch": 0.126432, + "grad_norm": 0.9768581390380859, + "learning_rate": 1.915712e-05, + "loss": 0.1147, + "step": 19755 + }, + { + "epoch": 0.126464, + "grad_norm": 0.7781589031219482, + "learning_rate": 1.915690666666667e-05, + "loss": 0.1088, + "step": 19760 + }, + { + "epoch": 0.126496, + "grad_norm": 2.9035940170288086, + "learning_rate": 1.9156693333333333e-05, + "loss": 0.098, + "step": 19765 + }, + { + "epoch": 0.126528, + "grad_norm": 1.150325894355774, + "learning_rate": 1.915648e-05, + "loss": 0.0834, + "step": 19770 + }, + { + "epoch": 0.12656, + "grad_norm": 0.7245394587516785, + "learning_rate": 1.9156266666666668e-05, + "loss": 0.1185, + "step": 19775 + }, + { + "epoch": 0.126592, + "grad_norm": 0.8219919204711914, + "learning_rate": 1.9156053333333336e-05, + "loss": 0.1055, + "step": 19780 + }, + { + "epoch": 0.126624, + "grad_norm": 1.2786076068878174, + "learning_rate": 1.915584e-05, + "loss": 0.0969, + "step": 19785 + }, + { + "epoch": 0.126656, + "grad_norm": 0.6363784074783325, + "learning_rate": 1.9155626666666667e-05, + "loss": 0.0873, + "step": 19790 + }, + { + "epoch": 0.126688, + "grad_norm": 1.926660180091858, + "learning_rate": 1.9155413333333335e-05, + "loss": 0.1289, + "step": 19795 + }, + { + "epoch": 0.12672, + "grad_norm": 0.9580313563346863, + "learning_rate": 1.91552e-05, + "loss": 0.113, + "step": 19800 + }, + { + "epoch": 0.126752, + "grad_norm": 0.649614691734314, + "learning_rate": 1.9154986666666667e-05, + "loss": 0.1019, + "step": 19805 + }, + { + "epoch": 0.126784, + "grad_norm": 1.2923712730407715, + "learning_rate": 1.9154773333333334e-05, + "loss": 0.0752, + "step": 19810 + }, + { + "epoch": 0.126816, + "grad_norm": 0.6012394428253174, + "learning_rate": 1.9154560000000002e-05, + "loss": 0.1134, + "step": 19815 + }, + { + "epoch": 0.126848, + "grad_norm": 2.018234968185425, + "learning_rate": 1.915434666666667e-05, + "loss": 0.115, + "step": 19820 + }, + { + "epoch": 0.12688, + "grad_norm": 0.954275369644165, + "learning_rate": 1.9154133333333337e-05, + "loss": 0.1094, + "step": 19825 + }, + { + "epoch": 0.126912, + "grad_norm": 1.4859106540679932, + "learning_rate": 1.915392e-05, + "loss": 0.0826, + "step": 19830 + }, + { + "epoch": 0.126944, + "grad_norm": 1.3017627000808716, + "learning_rate": 1.915370666666667e-05, + "loss": 0.1175, + "step": 19835 + }, + { + "epoch": 0.126976, + "grad_norm": 1.5837382078170776, + "learning_rate": 1.9153493333333336e-05, + "loss": 0.1054, + "step": 19840 + }, + { + "epoch": 0.127008, + "grad_norm": 0.9523773789405823, + "learning_rate": 1.915328e-05, + "loss": 0.0935, + "step": 19845 + }, + { + "epoch": 0.12704, + "grad_norm": 1.162619948387146, + "learning_rate": 1.9153066666666668e-05, + "loss": 0.0975, + "step": 19850 + }, + { + "epoch": 0.127072, + "grad_norm": 1.8792341947555542, + "learning_rate": 1.9152853333333335e-05, + "loss": 0.0624, + "step": 19855 + }, + { + "epoch": 0.127104, + "grad_norm": 0.9753268957138062, + "learning_rate": 1.9152640000000003e-05, + "loss": 0.1114, + "step": 19860 + }, + { + "epoch": 0.127136, + "grad_norm": 0.8942662477493286, + "learning_rate": 1.9152426666666667e-05, + "loss": 0.1048, + "step": 19865 + }, + { + "epoch": 0.127168, + "grad_norm": 1.2344756126403809, + "learning_rate": 1.9152213333333335e-05, + "loss": 0.1208, + "step": 19870 + }, + { + "epoch": 0.1272, + "grad_norm": 0.6351550221443176, + "learning_rate": 1.9152000000000002e-05, + "loss": 0.0944, + "step": 19875 + }, + { + "epoch": 0.127232, + "grad_norm": 1.1960726976394653, + "learning_rate": 1.9151786666666666e-05, + "loss": 0.1049, + "step": 19880 + }, + { + "epoch": 0.127264, + "grad_norm": 0.7783894538879395, + "learning_rate": 1.9151573333333334e-05, + "loss": 0.1057, + "step": 19885 + }, + { + "epoch": 0.127296, + "grad_norm": 1.6388123035430908, + "learning_rate": 1.915136e-05, + "loss": 0.0684, + "step": 19890 + }, + { + "epoch": 0.127328, + "grad_norm": 1.3884224891662598, + "learning_rate": 1.915114666666667e-05, + "loss": 0.0782, + "step": 19895 + }, + { + "epoch": 0.12736, + "grad_norm": 1.1671128273010254, + "learning_rate": 1.9150933333333333e-05, + "loss": 0.1476, + "step": 19900 + }, + { + "epoch": 0.127392, + "grad_norm": 1.028201937675476, + "learning_rate": 1.9150720000000004e-05, + "loss": 0.1049, + "step": 19905 + }, + { + "epoch": 0.127424, + "grad_norm": 1.7514066696166992, + "learning_rate": 1.915050666666667e-05, + "loss": 0.143, + "step": 19910 + }, + { + "epoch": 0.127456, + "grad_norm": 1.7173759937286377, + "learning_rate": 1.9150293333333333e-05, + "loss": 0.1259, + "step": 19915 + }, + { + "epoch": 0.127488, + "grad_norm": 1.3927809000015259, + "learning_rate": 1.9150080000000004e-05, + "loss": 0.1304, + "step": 19920 + }, + { + "epoch": 0.12752, + "grad_norm": 0.9564328789710999, + "learning_rate": 1.9149866666666668e-05, + "loss": 0.0919, + "step": 19925 + }, + { + "epoch": 0.127552, + "grad_norm": 2.1236748695373535, + "learning_rate": 1.9149653333333335e-05, + "loss": 0.1079, + "step": 19930 + }, + { + "epoch": 0.127584, + "grad_norm": 0.682470440864563, + "learning_rate": 1.9149440000000003e-05, + "loss": 0.0819, + "step": 19935 + }, + { + "epoch": 0.127616, + "grad_norm": 0.7159396409988403, + "learning_rate": 1.914922666666667e-05, + "loss": 0.0867, + "step": 19940 + }, + { + "epoch": 0.127648, + "grad_norm": 1.7138558626174927, + "learning_rate": 1.9149013333333335e-05, + "loss": 0.1077, + "step": 19945 + }, + { + "epoch": 0.12768, + "grad_norm": 0.5110577344894409, + "learning_rate": 1.9148800000000002e-05, + "loss": 0.0808, + "step": 19950 + }, + { + "epoch": 0.127712, + "grad_norm": 1.17658531665802, + "learning_rate": 1.914858666666667e-05, + "loss": 0.1214, + "step": 19955 + }, + { + "epoch": 0.127744, + "grad_norm": 0.23054584860801697, + "learning_rate": 1.9148373333333334e-05, + "loss": 0.0946, + "step": 19960 + }, + { + "epoch": 0.127776, + "grad_norm": 0.743182361125946, + "learning_rate": 1.914816e-05, + "loss": 0.1026, + "step": 19965 + }, + { + "epoch": 0.127808, + "grad_norm": 0.5981689095497131, + "learning_rate": 1.914794666666667e-05, + "loss": 0.0829, + "step": 19970 + }, + { + "epoch": 0.12784, + "grad_norm": 0.9951754212379456, + "learning_rate": 1.9147733333333336e-05, + "loss": 0.0896, + "step": 19975 + }, + { + "epoch": 0.127872, + "grad_norm": 1.9063880443572998, + "learning_rate": 1.914752e-05, + "loss": 0.1509, + "step": 19980 + }, + { + "epoch": 0.127904, + "grad_norm": 1.6798090934753418, + "learning_rate": 1.9147306666666668e-05, + "loss": 0.1356, + "step": 19985 + }, + { + "epoch": 0.127936, + "grad_norm": 1.0123648643493652, + "learning_rate": 1.9147093333333336e-05, + "loss": 0.1377, + "step": 19990 + }, + { + "epoch": 0.127968, + "grad_norm": 0.752170741558075, + "learning_rate": 1.914688e-05, + "loss": 0.0958, + "step": 19995 + }, + { + "epoch": 0.128, + "grad_norm": 0.5940294861793518, + "learning_rate": 1.9146666666666667e-05, + "loss": 0.0897, + "step": 20000 + }, + { + "epoch": 0.128032, + "grad_norm": 0.6990218758583069, + "learning_rate": 1.9146453333333335e-05, + "loss": 0.0788, + "step": 20005 + }, + { + "epoch": 0.128064, + "grad_norm": 1.176011085510254, + "learning_rate": 1.9146240000000003e-05, + "loss": 0.0652, + "step": 20010 + }, + { + "epoch": 0.128096, + "grad_norm": 1.0669478178024292, + "learning_rate": 1.9146026666666667e-05, + "loss": 0.0724, + "step": 20015 + }, + { + "epoch": 0.128128, + "grad_norm": 0.48727649450302124, + "learning_rate": 1.9145813333333334e-05, + "loss": 0.0672, + "step": 20020 + }, + { + "epoch": 0.12816, + "grad_norm": 0.8456182479858398, + "learning_rate": 1.9145600000000002e-05, + "loss": 0.1357, + "step": 20025 + }, + { + "epoch": 0.128192, + "grad_norm": 1.2011330127716064, + "learning_rate": 1.9145386666666666e-05, + "loss": 0.1078, + "step": 20030 + }, + { + "epoch": 0.128224, + "grad_norm": 1.6882333755493164, + "learning_rate": 1.9145173333333337e-05, + "loss": 0.122, + "step": 20035 + }, + { + "epoch": 0.128256, + "grad_norm": 1.8281663656234741, + "learning_rate": 1.914496e-05, + "loss": 0.0833, + "step": 20040 + }, + { + "epoch": 0.128288, + "grad_norm": 2.1303606033325195, + "learning_rate": 1.914474666666667e-05, + "loss": 0.088, + "step": 20045 + }, + { + "epoch": 0.12832, + "grad_norm": 0.7575634121894836, + "learning_rate": 1.9144533333333336e-05, + "loss": 0.0648, + "step": 20050 + }, + { + "epoch": 0.128352, + "grad_norm": 1.4467930793762207, + "learning_rate": 1.914432e-05, + "loss": 0.082, + "step": 20055 + }, + { + "epoch": 0.128384, + "grad_norm": 0.5337039828300476, + "learning_rate": 1.9144106666666668e-05, + "loss": 0.0884, + "step": 20060 + }, + { + "epoch": 0.128416, + "grad_norm": 0.9186877608299255, + "learning_rate": 1.9143893333333335e-05, + "loss": 0.0729, + "step": 20065 + }, + { + "epoch": 0.128448, + "grad_norm": 1.2036405801773071, + "learning_rate": 1.9143680000000003e-05, + "loss": 0.1219, + "step": 20070 + }, + { + "epoch": 0.12848, + "grad_norm": 0.9838584661483765, + "learning_rate": 1.9143466666666667e-05, + "loss": 0.0785, + "step": 20075 + }, + { + "epoch": 0.128512, + "grad_norm": 1.3725879192352295, + "learning_rate": 1.9143253333333335e-05, + "loss": 0.1021, + "step": 20080 + }, + { + "epoch": 0.128544, + "grad_norm": 1.781423807144165, + "learning_rate": 1.9143040000000002e-05, + "loss": 0.0917, + "step": 20085 + }, + { + "epoch": 0.128576, + "grad_norm": 1.0347187519073486, + "learning_rate": 1.9142826666666666e-05, + "loss": 0.0707, + "step": 20090 + }, + { + "epoch": 0.128608, + "grad_norm": 1.3275797367095947, + "learning_rate": 1.9142613333333334e-05, + "loss": 0.0898, + "step": 20095 + }, + { + "epoch": 0.12864, + "grad_norm": 0.8358518481254578, + "learning_rate": 1.91424e-05, + "loss": 0.0887, + "step": 20100 + }, + { + "epoch": 0.128672, + "grad_norm": 0.9438275694847107, + "learning_rate": 1.914218666666667e-05, + "loss": 0.1043, + "step": 20105 + }, + { + "epoch": 0.128704, + "grad_norm": 0.8068518042564392, + "learning_rate": 1.9141973333333333e-05, + "loss": 0.0985, + "step": 20110 + }, + { + "epoch": 0.128736, + "grad_norm": 1.0138936042785645, + "learning_rate": 1.9141760000000004e-05, + "loss": 0.1821, + "step": 20115 + }, + { + "epoch": 0.128768, + "grad_norm": 1.6222580671310425, + "learning_rate": 1.914154666666667e-05, + "loss": 0.078, + "step": 20120 + }, + { + "epoch": 0.1288, + "grad_norm": 0.8443977236747742, + "learning_rate": 1.9141333333333333e-05, + "loss": 0.0984, + "step": 20125 + }, + { + "epoch": 0.128832, + "grad_norm": 1.202919602394104, + "learning_rate": 1.9141120000000004e-05, + "loss": 0.0909, + "step": 20130 + }, + { + "epoch": 0.128864, + "grad_norm": 0.8487488627433777, + "learning_rate": 1.9140906666666668e-05, + "loss": 0.0642, + "step": 20135 + }, + { + "epoch": 0.128896, + "grad_norm": 0.7999836802482605, + "learning_rate": 1.9140693333333335e-05, + "loss": 0.0788, + "step": 20140 + }, + { + "epoch": 0.128928, + "grad_norm": 0.7387419939041138, + "learning_rate": 1.9140480000000003e-05, + "loss": 0.0917, + "step": 20145 + }, + { + "epoch": 0.12896, + "grad_norm": 0.5404531955718994, + "learning_rate": 1.914026666666667e-05, + "loss": 0.0836, + "step": 20150 + }, + { + "epoch": 0.128992, + "grad_norm": 0.875326931476593, + "learning_rate": 1.9140053333333335e-05, + "loss": 0.096, + "step": 20155 + }, + { + "epoch": 0.129024, + "grad_norm": 1.0888981819152832, + "learning_rate": 1.9139840000000002e-05, + "loss": 0.0754, + "step": 20160 + }, + { + "epoch": 0.129056, + "grad_norm": 0.9337945580482483, + "learning_rate": 1.913962666666667e-05, + "loss": 0.0994, + "step": 20165 + }, + { + "epoch": 0.129088, + "grad_norm": 1.3184634447097778, + "learning_rate": 1.9139413333333334e-05, + "loss": 0.0831, + "step": 20170 + }, + { + "epoch": 0.12912, + "grad_norm": 3.3572635650634766, + "learning_rate": 1.91392e-05, + "loss": 0.1051, + "step": 20175 + }, + { + "epoch": 0.129152, + "grad_norm": 1.7801127433776855, + "learning_rate": 1.913898666666667e-05, + "loss": 0.1031, + "step": 20180 + }, + { + "epoch": 0.129184, + "grad_norm": 0.5184241533279419, + "learning_rate": 1.9138773333333336e-05, + "loss": 0.073, + "step": 20185 + }, + { + "epoch": 0.129216, + "grad_norm": 1.3606857061386108, + "learning_rate": 1.913856e-05, + "loss": 0.1073, + "step": 20190 + }, + { + "epoch": 0.129248, + "grad_norm": 2.259699583053589, + "learning_rate": 1.9138346666666668e-05, + "loss": 0.0866, + "step": 20195 + }, + { + "epoch": 0.12928, + "grad_norm": 1.5599559545516968, + "learning_rate": 1.9138133333333336e-05, + "loss": 0.1226, + "step": 20200 + }, + { + "epoch": 0.129312, + "grad_norm": 1.4125646352767944, + "learning_rate": 1.913792e-05, + "loss": 0.1248, + "step": 20205 + }, + { + "epoch": 0.129344, + "grad_norm": 0.6763226985931396, + "learning_rate": 1.9137706666666667e-05, + "loss": 0.07, + "step": 20210 + }, + { + "epoch": 0.129376, + "grad_norm": 1.1933262348175049, + "learning_rate": 1.9137493333333335e-05, + "loss": 0.0819, + "step": 20215 + }, + { + "epoch": 0.129408, + "grad_norm": 1.0000083446502686, + "learning_rate": 1.9137280000000003e-05, + "loss": 0.0922, + "step": 20220 + }, + { + "epoch": 0.12944, + "grad_norm": 0.8792434334754944, + "learning_rate": 1.9137066666666667e-05, + "loss": 0.0864, + "step": 20225 + }, + { + "epoch": 0.129472, + "grad_norm": 1.1487597227096558, + "learning_rate": 1.9136853333333334e-05, + "loss": 0.1297, + "step": 20230 + }, + { + "epoch": 0.129504, + "grad_norm": 0.8686034083366394, + "learning_rate": 1.9136640000000002e-05, + "loss": 0.0898, + "step": 20235 + }, + { + "epoch": 0.129536, + "grad_norm": 1.428114652633667, + "learning_rate": 1.9136426666666666e-05, + "loss": 0.0929, + "step": 20240 + }, + { + "epoch": 0.129568, + "grad_norm": 1.5091902017593384, + "learning_rate": 1.9136213333333337e-05, + "loss": 0.0851, + "step": 20245 + }, + { + "epoch": 0.1296, + "grad_norm": 0.7575894594192505, + "learning_rate": 1.9136e-05, + "loss": 0.104, + "step": 20250 + }, + { + "epoch": 0.129632, + "grad_norm": 0.5859439373016357, + "learning_rate": 1.913578666666667e-05, + "loss": 0.0824, + "step": 20255 + }, + { + "epoch": 0.129664, + "grad_norm": 0.9224937558174133, + "learning_rate": 1.9135573333333336e-05, + "loss": 0.0774, + "step": 20260 + }, + { + "epoch": 0.129696, + "grad_norm": 0.5763657689094543, + "learning_rate": 1.913536e-05, + "loss": 0.0784, + "step": 20265 + }, + { + "epoch": 0.129728, + "grad_norm": 1.1888962984085083, + "learning_rate": 1.9135146666666668e-05, + "loss": 0.0956, + "step": 20270 + }, + { + "epoch": 0.12976, + "grad_norm": 1.5917071104049683, + "learning_rate": 1.9134933333333335e-05, + "loss": 0.0851, + "step": 20275 + }, + { + "epoch": 0.129792, + "grad_norm": 0.876437246799469, + "learning_rate": 1.9134720000000003e-05, + "loss": 0.0786, + "step": 20280 + }, + { + "epoch": 0.129824, + "grad_norm": 0.7110821604728699, + "learning_rate": 1.9134506666666667e-05, + "loss": 0.0578, + "step": 20285 + }, + { + "epoch": 0.129856, + "grad_norm": 0.6119043231010437, + "learning_rate": 1.9134293333333335e-05, + "loss": 0.0962, + "step": 20290 + }, + { + "epoch": 0.129888, + "grad_norm": 1.3674739599227905, + "learning_rate": 1.9134080000000002e-05, + "loss": 0.0724, + "step": 20295 + }, + { + "epoch": 0.12992, + "grad_norm": 0.44296565651893616, + "learning_rate": 1.9133866666666666e-05, + "loss": 0.0935, + "step": 20300 + }, + { + "epoch": 0.129952, + "grad_norm": 0.8739424347877502, + "learning_rate": 1.9133653333333334e-05, + "loss": 0.0875, + "step": 20305 + }, + { + "epoch": 0.129984, + "grad_norm": 0.6924093961715698, + "learning_rate": 1.913344e-05, + "loss": 0.0747, + "step": 20310 + }, + { + "epoch": 0.130016, + "grad_norm": 1.2225173711776733, + "learning_rate": 1.913322666666667e-05, + "loss": 0.0615, + "step": 20315 + }, + { + "epoch": 0.130048, + "grad_norm": 0.780914306640625, + "learning_rate": 1.9133013333333333e-05, + "loss": 0.0916, + "step": 20320 + }, + { + "epoch": 0.13008, + "grad_norm": 0.8669296503067017, + "learning_rate": 1.91328e-05, + "loss": 0.1021, + "step": 20325 + }, + { + "epoch": 0.130112, + "grad_norm": 0.9290061593055725, + "learning_rate": 1.913258666666667e-05, + "loss": 0.1014, + "step": 20330 + }, + { + "epoch": 0.130144, + "grad_norm": 1.8423235416412354, + "learning_rate": 1.9132373333333333e-05, + "loss": 0.1163, + "step": 20335 + }, + { + "epoch": 0.130176, + "grad_norm": 1.203881859779358, + "learning_rate": 1.9132160000000004e-05, + "loss": 0.0782, + "step": 20340 + }, + { + "epoch": 0.130208, + "grad_norm": 2.4167025089263916, + "learning_rate": 1.9131946666666668e-05, + "loss": 0.1034, + "step": 20345 + }, + { + "epoch": 0.13024, + "grad_norm": 0.7997910976409912, + "learning_rate": 1.9131733333333335e-05, + "loss": 0.1001, + "step": 20350 + }, + { + "epoch": 0.130272, + "grad_norm": 1.2062920331954956, + "learning_rate": 1.9131520000000003e-05, + "loss": 0.0841, + "step": 20355 + }, + { + "epoch": 0.130304, + "grad_norm": 0.91655433177948, + "learning_rate": 1.913130666666667e-05, + "loss": 0.0696, + "step": 20360 + }, + { + "epoch": 0.130336, + "grad_norm": 1.7394235134124756, + "learning_rate": 1.9131093333333335e-05, + "loss": 0.1198, + "step": 20365 + }, + { + "epoch": 0.130368, + "grad_norm": 1.0169140100479126, + "learning_rate": 1.9130880000000002e-05, + "loss": 0.1021, + "step": 20370 + }, + { + "epoch": 0.1304, + "grad_norm": 1.6103599071502686, + "learning_rate": 1.913066666666667e-05, + "loss": 0.092, + "step": 20375 + }, + { + "epoch": 0.130432, + "grad_norm": 1.073259711265564, + "learning_rate": 1.9130453333333334e-05, + "loss": 0.0873, + "step": 20380 + }, + { + "epoch": 0.130464, + "grad_norm": 0.7441604137420654, + "learning_rate": 1.913024e-05, + "loss": 0.0743, + "step": 20385 + }, + { + "epoch": 0.130496, + "grad_norm": 0.8394902348518372, + "learning_rate": 1.913002666666667e-05, + "loss": 0.0905, + "step": 20390 + }, + { + "epoch": 0.130528, + "grad_norm": 1.0852030515670776, + "learning_rate": 1.9129813333333336e-05, + "loss": 0.068, + "step": 20395 + }, + { + "epoch": 0.13056, + "grad_norm": 2.3590877056121826, + "learning_rate": 1.91296e-05, + "loss": 0.1024, + "step": 20400 + }, + { + "epoch": 0.130592, + "grad_norm": 0.8024155497550964, + "learning_rate": 1.9129386666666668e-05, + "loss": 0.0782, + "step": 20405 + }, + { + "epoch": 0.130624, + "grad_norm": 0.74580979347229, + "learning_rate": 1.9129173333333336e-05, + "loss": 0.0889, + "step": 20410 + }, + { + "epoch": 0.130656, + "grad_norm": 0.6727371215820312, + "learning_rate": 1.912896e-05, + "loss": 0.1097, + "step": 20415 + }, + { + "epoch": 0.130688, + "grad_norm": 0.8402761816978455, + "learning_rate": 1.9128746666666667e-05, + "loss": 0.1085, + "step": 20420 + }, + { + "epoch": 0.13072, + "grad_norm": 4.785394191741943, + "learning_rate": 1.9128533333333335e-05, + "loss": 0.1013, + "step": 20425 + }, + { + "epoch": 0.130752, + "grad_norm": 0.7484161257743835, + "learning_rate": 1.9128320000000003e-05, + "loss": 0.0839, + "step": 20430 + }, + { + "epoch": 0.130784, + "grad_norm": 0.572738528251648, + "learning_rate": 1.9128106666666667e-05, + "loss": 0.1141, + "step": 20435 + }, + { + "epoch": 0.130816, + "grad_norm": 1.0943198204040527, + "learning_rate": 1.9127893333333334e-05, + "loss": 0.1125, + "step": 20440 + }, + { + "epoch": 0.130848, + "grad_norm": 3.5732243061065674, + "learning_rate": 1.9127680000000002e-05, + "loss": 0.1442, + "step": 20445 + }, + { + "epoch": 0.13088, + "grad_norm": 0.7594587206840515, + "learning_rate": 1.9127466666666666e-05, + "loss": 0.0399, + "step": 20450 + }, + { + "epoch": 0.130912, + "grad_norm": 0.6407736539840698, + "learning_rate": 1.9127253333333337e-05, + "loss": 0.0786, + "step": 20455 + }, + { + "epoch": 0.130944, + "grad_norm": 0.9949200749397278, + "learning_rate": 1.912704e-05, + "loss": 0.0903, + "step": 20460 + }, + { + "epoch": 0.130976, + "grad_norm": 0.8326058983802795, + "learning_rate": 1.912682666666667e-05, + "loss": 0.0947, + "step": 20465 + }, + { + "epoch": 0.131008, + "grad_norm": 1.15629243850708, + "learning_rate": 1.9126613333333336e-05, + "loss": 0.1124, + "step": 20470 + }, + { + "epoch": 0.13104, + "grad_norm": 1.1469358205795288, + "learning_rate": 1.91264e-05, + "loss": 0.1058, + "step": 20475 + }, + { + "epoch": 0.131072, + "grad_norm": 0.6918727159500122, + "learning_rate": 1.9126186666666668e-05, + "loss": 0.116, + "step": 20480 + }, + { + "epoch": 0.131104, + "grad_norm": 0.8287702798843384, + "learning_rate": 1.9125973333333335e-05, + "loss": 0.0648, + "step": 20485 + }, + { + "epoch": 0.131136, + "grad_norm": 1.0339679718017578, + "learning_rate": 1.9125760000000003e-05, + "loss": 0.1049, + "step": 20490 + }, + { + "epoch": 0.131168, + "grad_norm": 0.7091467976570129, + "learning_rate": 1.9125546666666667e-05, + "loss": 0.0814, + "step": 20495 + }, + { + "epoch": 0.1312, + "grad_norm": 0.8299417495727539, + "learning_rate": 1.9125333333333335e-05, + "loss": 0.0996, + "step": 20500 + }, + { + "epoch": 0.131232, + "grad_norm": 0.6551600694656372, + "learning_rate": 1.9125120000000002e-05, + "loss": 0.0991, + "step": 20505 + }, + { + "epoch": 0.131264, + "grad_norm": 0.9431588649749756, + "learning_rate": 1.9124906666666666e-05, + "loss": 0.0996, + "step": 20510 + }, + { + "epoch": 0.131296, + "grad_norm": 2.1499862670898438, + "learning_rate": 1.9124693333333334e-05, + "loss": 0.0814, + "step": 20515 + }, + { + "epoch": 0.131328, + "grad_norm": 0.6379446387290955, + "learning_rate": 1.912448e-05, + "loss": 0.0692, + "step": 20520 + }, + { + "epoch": 0.13136, + "grad_norm": 0.6723646521568298, + "learning_rate": 1.912426666666667e-05, + "loss": 0.0992, + "step": 20525 + }, + { + "epoch": 0.131392, + "grad_norm": 1.1468654870986938, + "learning_rate": 1.9124053333333333e-05, + "loss": 0.1028, + "step": 20530 + }, + { + "epoch": 0.131424, + "grad_norm": 1.0064290761947632, + "learning_rate": 1.912384e-05, + "loss": 0.0915, + "step": 20535 + }, + { + "epoch": 0.131456, + "grad_norm": 1.7932085990905762, + "learning_rate": 1.912362666666667e-05, + "loss": 0.1364, + "step": 20540 + }, + { + "epoch": 0.131488, + "grad_norm": 0.6878232359886169, + "learning_rate": 1.9123413333333333e-05, + "loss": 0.1078, + "step": 20545 + }, + { + "epoch": 0.13152, + "grad_norm": 0.4795481860637665, + "learning_rate": 1.91232e-05, + "loss": 0.0611, + "step": 20550 + }, + { + "epoch": 0.131552, + "grad_norm": 1.8465991020202637, + "learning_rate": 1.9122986666666668e-05, + "loss": 0.0988, + "step": 20555 + }, + { + "epoch": 0.131584, + "grad_norm": 1.0172851085662842, + "learning_rate": 1.9122773333333335e-05, + "loss": 0.1029, + "step": 20560 + }, + { + "epoch": 0.131616, + "grad_norm": 1.545203447341919, + "learning_rate": 1.9122560000000003e-05, + "loss": 0.0969, + "step": 20565 + }, + { + "epoch": 0.131648, + "grad_norm": 1.0309722423553467, + "learning_rate": 1.912234666666667e-05, + "loss": 0.0773, + "step": 20570 + }, + { + "epoch": 0.13168, + "grad_norm": 0.5677997469902039, + "learning_rate": 1.9122133333333335e-05, + "loss": 0.0932, + "step": 20575 + }, + { + "epoch": 0.131712, + "grad_norm": 0.6082404851913452, + "learning_rate": 1.9121920000000002e-05, + "loss": 0.1006, + "step": 20580 + }, + { + "epoch": 0.131744, + "grad_norm": 0.5048864483833313, + "learning_rate": 1.912170666666667e-05, + "loss": 0.0826, + "step": 20585 + }, + { + "epoch": 0.131776, + "grad_norm": 0.517116367816925, + "learning_rate": 1.9121493333333334e-05, + "loss": 0.09, + "step": 20590 + }, + { + "epoch": 0.131808, + "grad_norm": 0.8972383737564087, + "learning_rate": 1.912128e-05, + "loss": 0.1194, + "step": 20595 + }, + { + "epoch": 0.13184, + "grad_norm": 1.1962482929229736, + "learning_rate": 1.912106666666667e-05, + "loss": 0.0976, + "step": 20600 + }, + { + "epoch": 0.131872, + "grad_norm": 0.9177481532096863, + "learning_rate": 1.9120853333333336e-05, + "loss": 0.101, + "step": 20605 + }, + { + "epoch": 0.131904, + "grad_norm": 1.4590613842010498, + "learning_rate": 1.912064e-05, + "loss": 0.0869, + "step": 20610 + }, + { + "epoch": 0.131936, + "grad_norm": 1.0837677717208862, + "learning_rate": 1.9120426666666668e-05, + "loss": 0.0731, + "step": 20615 + }, + { + "epoch": 0.131968, + "grad_norm": 4.444059371948242, + "learning_rate": 1.9120213333333336e-05, + "loss": 0.0855, + "step": 20620 + }, + { + "epoch": 0.132, + "grad_norm": 2.4453237056732178, + "learning_rate": 1.912e-05, + "loss": 0.1119, + "step": 20625 + }, + { + "epoch": 0.132032, + "grad_norm": 1.3376774787902832, + "learning_rate": 1.9119786666666667e-05, + "loss": 0.0994, + "step": 20630 + }, + { + "epoch": 0.132064, + "grad_norm": 0.7554147243499756, + "learning_rate": 1.9119573333333335e-05, + "loss": 0.0741, + "step": 20635 + }, + { + "epoch": 0.132096, + "grad_norm": 0.6735085248947144, + "learning_rate": 1.9119360000000003e-05, + "loss": 0.0878, + "step": 20640 + }, + { + "epoch": 0.132128, + "grad_norm": 1.2537531852722168, + "learning_rate": 1.9119146666666667e-05, + "loss": 0.1107, + "step": 20645 + }, + { + "epoch": 0.13216, + "grad_norm": 0.5275871753692627, + "learning_rate": 1.9118933333333334e-05, + "loss": 0.0913, + "step": 20650 + }, + { + "epoch": 0.132192, + "grad_norm": 0.9335519075393677, + "learning_rate": 1.9118720000000002e-05, + "loss": 0.0968, + "step": 20655 + }, + { + "epoch": 0.132224, + "grad_norm": 1.0495655536651611, + "learning_rate": 1.9118506666666666e-05, + "loss": 0.1016, + "step": 20660 + }, + { + "epoch": 0.132256, + "grad_norm": 0.4557645320892334, + "learning_rate": 1.9118293333333337e-05, + "loss": 0.1078, + "step": 20665 + }, + { + "epoch": 0.132288, + "grad_norm": 1.305086612701416, + "learning_rate": 1.911808e-05, + "loss": 0.089, + "step": 20670 + }, + { + "epoch": 0.13232, + "grad_norm": 2.7232751846313477, + "learning_rate": 1.911786666666667e-05, + "loss": 0.0906, + "step": 20675 + }, + { + "epoch": 0.132352, + "grad_norm": 0.713077187538147, + "learning_rate": 1.9117653333333336e-05, + "loss": 0.1013, + "step": 20680 + }, + { + "epoch": 0.132384, + "grad_norm": 0.685876190662384, + "learning_rate": 1.9117440000000004e-05, + "loss": 0.0777, + "step": 20685 + }, + { + "epoch": 0.132416, + "grad_norm": 1.0632790327072144, + "learning_rate": 1.9117226666666668e-05, + "loss": 0.1152, + "step": 20690 + }, + { + "epoch": 0.132448, + "grad_norm": 0.8725447058677673, + "learning_rate": 1.9117013333333335e-05, + "loss": 0.0942, + "step": 20695 + }, + { + "epoch": 0.13248, + "grad_norm": 0.5306334495544434, + "learning_rate": 1.9116800000000003e-05, + "loss": 0.1048, + "step": 20700 + }, + { + "epoch": 0.132512, + "grad_norm": 1.202004075050354, + "learning_rate": 1.9116586666666667e-05, + "loss": 0.0899, + "step": 20705 + }, + { + "epoch": 0.132544, + "grad_norm": 0.6784230470657349, + "learning_rate": 1.9116373333333335e-05, + "loss": 0.0844, + "step": 20710 + }, + { + "epoch": 0.132576, + "grad_norm": 1.2421461343765259, + "learning_rate": 1.9116160000000002e-05, + "loss": 0.0925, + "step": 20715 + }, + { + "epoch": 0.132608, + "grad_norm": 1.1359505653381348, + "learning_rate": 1.911594666666667e-05, + "loss": 0.0635, + "step": 20720 + }, + { + "epoch": 0.13264, + "grad_norm": 1.1282495260238647, + "learning_rate": 1.9115733333333334e-05, + "loss": 0.0755, + "step": 20725 + }, + { + "epoch": 0.132672, + "grad_norm": 1.3338749408721924, + "learning_rate": 1.911552e-05, + "loss": 0.0806, + "step": 20730 + }, + { + "epoch": 0.132704, + "grad_norm": 1.1678792238235474, + "learning_rate": 1.911530666666667e-05, + "loss": 0.0809, + "step": 20735 + }, + { + "epoch": 0.132736, + "grad_norm": 0.9534857869148254, + "learning_rate": 1.9115093333333333e-05, + "loss": 0.1052, + "step": 20740 + }, + { + "epoch": 0.132768, + "grad_norm": 0.6337345838546753, + "learning_rate": 1.911488e-05, + "loss": 0.0548, + "step": 20745 + }, + { + "epoch": 0.1328, + "grad_norm": 0.7895796298980713, + "learning_rate": 1.911466666666667e-05, + "loss": 0.1033, + "step": 20750 + }, + { + "epoch": 0.132832, + "grad_norm": 1.3013736009597778, + "learning_rate": 1.9114453333333336e-05, + "loss": 0.1159, + "step": 20755 + }, + { + "epoch": 0.132864, + "grad_norm": 0.9768223166465759, + "learning_rate": 1.911424e-05, + "loss": 0.142, + "step": 20760 + }, + { + "epoch": 0.132896, + "grad_norm": 0.9448747634887695, + "learning_rate": 1.9114026666666668e-05, + "loss": 0.0613, + "step": 20765 + }, + { + "epoch": 0.132928, + "grad_norm": 0.8371902108192444, + "learning_rate": 1.9113813333333335e-05, + "loss": 0.1059, + "step": 20770 + }, + { + "epoch": 0.13296, + "grad_norm": 1.4026483297348022, + "learning_rate": 1.91136e-05, + "loss": 0.1059, + "step": 20775 + }, + { + "epoch": 0.132992, + "grad_norm": 0.681337296962738, + "learning_rate": 1.911338666666667e-05, + "loss": 0.0935, + "step": 20780 + }, + { + "epoch": 0.133024, + "grad_norm": 0.7558616399765015, + "learning_rate": 1.9113173333333335e-05, + "loss": 0.0784, + "step": 20785 + }, + { + "epoch": 0.133056, + "grad_norm": 1.079921007156372, + "learning_rate": 1.9112960000000002e-05, + "loss": 0.1149, + "step": 20790 + }, + { + "epoch": 0.133088, + "grad_norm": 0.4562439024448395, + "learning_rate": 1.911274666666667e-05, + "loss": 0.0958, + "step": 20795 + }, + { + "epoch": 0.13312, + "grad_norm": 1.0555155277252197, + "learning_rate": 1.9112533333333334e-05, + "loss": 0.0826, + "step": 20800 + }, + { + "epoch": 0.133152, + "grad_norm": 1.1154074668884277, + "learning_rate": 1.911232e-05, + "loss": 0.0817, + "step": 20805 + }, + { + "epoch": 0.133184, + "grad_norm": 1.110891342163086, + "learning_rate": 1.911210666666667e-05, + "loss": 0.1085, + "step": 20810 + }, + { + "epoch": 0.133216, + "grad_norm": 0.7104697823524475, + "learning_rate": 1.9111893333333336e-05, + "loss": 0.0958, + "step": 20815 + }, + { + "epoch": 0.133248, + "grad_norm": 0.851695716381073, + "learning_rate": 1.911168e-05, + "loss": 0.0896, + "step": 20820 + }, + { + "epoch": 0.13328, + "grad_norm": 2.0150749683380127, + "learning_rate": 1.9111466666666668e-05, + "loss": 0.1175, + "step": 20825 + }, + { + "epoch": 0.133312, + "grad_norm": 1.489295244216919, + "learning_rate": 1.9111253333333336e-05, + "loss": 0.115, + "step": 20830 + }, + { + "epoch": 0.133344, + "grad_norm": 1.5497243404388428, + "learning_rate": 1.911104e-05, + "loss": 0.0911, + "step": 20835 + }, + { + "epoch": 0.133376, + "grad_norm": 1.2181841135025024, + "learning_rate": 1.9110826666666667e-05, + "loss": 0.1434, + "step": 20840 + }, + { + "epoch": 0.133408, + "grad_norm": 1.252384066581726, + "learning_rate": 1.9110613333333335e-05, + "loss": 0.0881, + "step": 20845 + }, + { + "epoch": 0.13344, + "grad_norm": 1.0378402471542358, + "learning_rate": 1.9110400000000003e-05, + "loss": 0.0878, + "step": 20850 + }, + { + "epoch": 0.133472, + "grad_norm": 0.7493253946304321, + "learning_rate": 1.9110186666666667e-05, + "loss": 0.1118, + "step": 20855 + }, + { + "epoch": 0.133504, + "grad_norm": 1.1586413383483887, + "learning_rate": 1.9109973333333334e-05, + "loss": 0.0752, + "step": 20860 + }, + { + "epoch": 0.133536, + "grad_norm": 1.2458688020706177, + "learning_rate": 1.9109760000000002e-05, + "loss": 0.1589, + "step": 20865 + }, + { + "epoch": 0.133568, + "grad_norm": 1.2534657716751099, + "learning_rate": 1.9109546666666666e-05, + "loss": 0.0881, + "step": 20870 + }, + { + "epoch": 0.1336, + "grad_norm": 0.9705221056938171, + "learning_rate": 1.9109333333333337e-05, + "loss": 0.1291, + "step": 20875 + }, + { + "epoch": 0.133632, + "grad_norm": 0.9015491008758545, + "learning_rate": 1.910912e-05, + "loss": 0.0966, + "step": 20880 + }, + { + "epoch": 0.133664, + "grad_norm": 0.8229776620864868, + "learning_rate": 1.910890666666667e-05, + "loss": 0.0773, + "step": 20885 + }, + { + "epoch": 0.133696, + "grad_norm": 1.677748203277588, + "learning_rate": 1.9108693333333336e-05, + "loss": 0.0859, + "step": 20890 + }, + { + "epoch": 0.133728, + "grad_norm": 1.0966399908065796, + "learning_rate": 1.9108480000000004e-05, + "loss": 0.066, + "step": 20895 + }, + { + "epoch": 0.13376, + "grad_norm": 1.2487411499023438, + "learning_rate": 1.9108266666666668e-05, + "loss": 0.1039, + "step": 20900 + }, + { + "epoch": 0.133792, + "grad_norm": 2.27699875831604, + "learning_rate": 1.9108053333333335e-05, + "loss": 0.0843, + "step": 20905 + }, + { + "epoch": 0.133824, + "grad_norm": 1.397349238395691, + "learning_rate": 1.9107840000000003e-05, + "loss": 0.1059, + "step": 20910 + }, + { + "epoch": 0.133856, + "grad_norm": 0.6998018622398376, + "learning_rate": 1.9107626666666667e-05, + "loss": 0.0817, + "step": 20915 + }, + { + "epoch": 0.133888, + "grad_norm": 2.04248046875, + "learning_rate": 1.9107413333333335e-05, + "loss": 0.0927, + "step": 20920 + }, + { + "epoch": 0.13392, + "grad_norm": 1.5215063095092773, + "learning_rate": 1.9107200000000002e-05, + "loss": 0.097, + "step": 20925 + }, + { + "epoch": 0.133952, + "grad_norm": 1.2629393339157104, + "learning_rate": 1.910698666666667e-05, + "loss": 0.103, + "step": 20930 + }, + { + "epoch": 0.133984, + "grad_norm": 2.555586814880371, + "learning_rate": 1.9106773333333334e-05, + "loss": 0.0874, + "step": 20935 + }, + { + "epoch": 0.134016, + "grad_norm": 1.51961350440979, + "learning_rate": 1.910656e-05, + "loss": 0.0998, + "step": 20940 + }, + { + "epoch": 0.134048, + "grad_norm": 0.7467644214630127, + "learning_rate": 1.910634666666667e-05, + "loss": 0.0697, + "step": 20945 + }, + { + "epoch": 0.13408, + "grad_norm": 2.194908380508423, + "learning_rate": 1.9106133333333333e-05, + "loss": 0.0767, + "step": 20950 + }, + { + "epoch": 0.134112, + "grad_norm": 0.8067470192909241, + "learning_rate": 1.910592e-05, + "loss": 0.0825, + "step": 20955 + }, + { + "epoch": 0.134144, + "grad_norm": 0.8176409602165222, + "learning_rate": 1.910570666666667e-05, + "loss": 0.0837, + "step": 20960 + }, + { + "epoch": 0.134176, + "grad_norm": 0.9223708510398865, + "learning_rate": 1.9105493333333336e-05, + "loss": 0.1256, + "step": 20965 + }, + { + "epoch": 0.134208, + "grad_norm": 1.698636770248413, + "learning_rate": 1.910528e-05, + "loss": 0.0884, + "step": 20970 + }, + { + "epoch": 0.13424, + "grad_norm": 0.6437734961509705, + "learning_rate": 1.9105066666666668e-05, + "loss": 0.1236, + "step": 20975 + }, + { + "epoch": 0.134272, + "grad_norm": 1.2474101781845093, + "learning_rate": 1.9104853333333335e-05, + "loss": 0.0729, + "step": 20980 + }, + { + "epoch": 0.134304, + "grad_norm": 1.775172233581543, + "learning_rate": 1.910464e-05, + "loss": 0.1003, + "step": 20985 + }, + { + "epoch": 0.134336, + "grad_norm": 0.9806075096130371, + "learning_rate": 1.910442666666667e-05, + "loss": 0.1016, + "step": 20990 + }, + { + "epoch": 0.134368, + "grad_norm": 0.959163248538971, + "learning_rate": 1.9104213333333335e-05, + "loss": 0.0761, + "step": 20995 + }, + { + "epoch": 0.1344, + "grad_norm": 0.5624547004699707, + "learning_rate": 1.9104000000000002e-05, + "loss": 0.08, + "step": 21000 + }, + { + "epoch": 0.134432, + "grad_norm": 1.2233829498291016, + "learning_rate": 1.910378666666667e-05, + "loss": 0.1028, + "step": 21005 + }, + { + "epoch": 0.134464, + "grad_norm": 0.525265097618103, + "learning_rate": 1.9103573333333334e-05, + "loss": 0.1471, + "step": 21010 + }, + { + "epoch": 0.134496, + "grad_norm": 1.3917557001113892, + "learning_rate": 1.910336e-05, + "loss": 0.0992, + "step": 21015 + }, + { + "epoch": 0.134528, + "grad_norm": 0.709295392036438, + "learning_rate": 1.910314666666667e-05, + "loss": 0.1121, + "step": 21020 + }, + { + "epoch": 0.13456, + "grad_norm": 1.1745725870132446, + "learning_rate": 1.9102933333333336e-05, + "loss": 0.0747, + "step": 21025 + }, + { + "epoch": 0.134592, + "grad_norm": 0.6608985662460327, + "learning_rate": 1.910272e-05, + "loss": 0.0961, + "step": 21030 + }, + { + "epoch": 0.134624, + "grad_norm": 0.8266478180885315, + "learning_rate": 1.9102506666666668e-05, + "loss": 0.0899, + "step": 21035 + }, + { + "epoch": 0.134656, + "grad_norm": 0.8565461039543152, + "learning_rate": 1.9102293333333336e-05, + "loss": 0.0978, + "step": 21040 + }, + { + "epoch": 0.134688, + "grad_norm": 0.7254678606987, + "learning_rate": 1.910208e-05, + "loss": 0.1035, + "step": 21045 + }, + { + "epoch": 0.13472, + "grad_norm": 0.7684305310249329, + "learning_rate": 1.9101866666666667e-05, + "loss": 0.0672, + "step": 21050 + }, + { + "epoch": 0.134752, + "grad_norm": 1.6781914234161377, + "learning_rate": 1.9101653333333335e-05, + "loss": 0.0673, + "step": 21055 + }, + { + "epoch": 0.134784, + "grad_norm": 2.521489381790161, + "learning_rate": 1.9101440000000003e-05, + "loss": 0.0665, + "step": 21060 + }, + { + "epoch": 0.134816, + "grad_norm": 0.7678163051605225, + "learning_rate": 1.9101226666666667e-05, + "loss": 0.0751, + "step": 21065 + }, + { + "epoch": 0.134848, + "grad_norm": 0.6559489369392395, + "learning_rate": 1.9101013333333334e-05, + "loss": 0.1286, + "step": 21070 + }, + { + "epoch": 0.13488, + "grad_norm": 0.6447233557701111, + "learning_rate": 1.9100800000000002e-05, + "loss": 0.092, + "step": 21075 + }, + { + "epoch": 0.134912, + "grad_norm": 0.9473770260810852, + "learning_rate": 1.9100586666666666e-05, + "loss": 0.1173, + "step": 21080 + }, + { + "epoch": 0.134944, + "grad_norm": 1.05503249168396, + "learning_rate": 1.9100373333333334e-05, + "loss": 0.1011, + "step": 21085 + }, + { + "epoch": 0.134976, + "grad_norm": 1.1111000776290894, + "learning_rate": 1.910016e-05, + "loss": 0.1193, + "step": 21090 + }, + { + "epoch": 0.135008, + "grad_norm": 0.9202250838279724, + "learning_rate": 1.909994666666667e-05, + "loss": 0.0784, + "step": 21095 + }, + { + "epoch": 0.13504, + "grad_norm": 1.3821772336959839, + "learning_rate": 1.9099733333333336e-05, + "loss": 0.0639, + "step": 21100 + }, + { + "epoch": 0.135072, + "grad_norm": 1.901233434677124, + "learning_rate": 1.9099520000000004e-05, + "loss": 0.1388, + "step": 21105 + }, + { + "epoch": 0.135104, + "grad_norm": 1.3700321912765503, + "learning_rate": 1.9099306666666668e-05, + "loss": 0.1149, + "step": 21110 + }, + { + "epoch": 0.135136, + "grad_norm": 0.6038232445716858, + "learning_rate": 1.9099093333333335e-05, + "loss": 0.1322, + "step": 21115 + }, + { + "epoch": 0.135168, + "grad_norm": 0.6469644904136658, + "learning_rate": 1.9098880000000003e-05, + "loss": 0.0779, + "step": 21120 + }, + { + "epoch": 0.1352, + "grad_norm": 0.6646663546562195, + "learning_rate": 1.9098666666666667e-05, + "loss": 0.1003, + "step": 21125 + }, + { + "epoch": 0.135232, + "grad_norm": 1.1580076217651367, + "learning_rate": 1.9098453333333335e-05, + "loss": 0.107, + "step": 21130 + }, + { + "epoch": 0.135264, + "grad_norm": 0.7991302609443665, + "learning_rate": 1.9098240000000002e-05, + "loss": 0.0883, + "step": 21135 + }, + { + "epoch": 0.135296, + "grad_norm": 1.3408156633377075, + "learning_rate": 1.909802666666667e-05, + "loss": 0.0671, + "step": 21140 + }, + { + "epoch": 0.135328, + "grad_norm": 1.570523738861084, + "learning_rate": 1.9097813333333334e-05, + "loss": 0.0962, + "step": 21145 + }, + { + "epoch": 0.13536, + "grad_norm": 1.3187355995178223, + "learning_rate": 1.90976e-05, + "loss": 0.0859, + "step": 21150 + }, + { + "epoch": 0.135392, + "grad_norm": 1.141356348991394, + "learning_rate": 1.909738666666667e-05, + "loss": 0.0695, + "step": 21155 + }, + { + "epoch": 0.135424, + "grad_norm": 1.6432589292526245, + "learning_rate": 1.9097173333333333e-05, + "loss": 0.1102, + "step": 21160 + }, + { + "epoch": 0.135456, + "grad_norm": 0.7269613146781921, + "learning_rate": 1.909696e-05, + "loss": 0.1062, + "step": 21165 + }, + { + "epoch": 0.135488, + "grad_norm": 0.8113056421279907, + "learning_rate": 1.909674666666667e-05, + "loss": 0.114, + "step": 21170 + }, + { + "epoch": 0.13552, + "grad_norm": 1.2263880968093872, + "learning_rate": 1.9096533333333336e-05, + "loss": 0.0866, + "step": 21175 + }, + { + "epoch": 0.135552, + "grad_norm": 0.9753981828689575, + "learning_rate": 1.909632e-05, + "loss": 0.0786, + "step": 21180 + }, + { + "epoch": 0.135584, + "grad_norm": 1.1315221786499023, + "learning_rate": 1.9096106666666668e-05, + "loss": 0.0645, + "step": 21185 + }, + { + "epoch": 0.135616, + "grad_norm": 2.203303337097168, + "learning_rate": 1.9095893333333335e-05, + "loss": 0.146, + "step": 21190 + }, + { + "epoch": 0.135648, + "grad_norm": 1.3452064990997314, + "learning_rate": 1.909568e-05, + "loss": 0.1422, + "step": 21195 + }, + { + "epoch": 0.13568, + "grad_norm": 0.9269710183143616, + "learning_rate": 1.909546666666667e-05, + "loss": 0.0929, + "step": 21200 + }, + { + "epoch": 0.135712, + "grad_norm": 1.5165882110595703, + "learning_rate": 1.9095253333333335e-05, + "loss": 0.0851, + "step": 21205 + }, + { + "epoch": 0.135744, + "grad_norm": 0.5300561785697937, + "learning_rate": 1.9095040000000002e-05, + "loss": 0.0717, + "step": 21210 + }, + { + "epoch": 0.135776, + "grad_norm": 0.5753846764564514, + "learning_rate": 1.909482666666667e-05, + "loss": 0.0478, + "step": 21215 + }, + { + "epoch": 0.135808, + "grad_norm": 2.6879780292510986, + "learning_rate": 1.9094613333333334e-05, + "loss": 0.0739, + "step": 21220 + }, + { + "epoch": 0.13584, + "grad_norm": 0.5827820301055908, + "learning_rate": 1.90944e-05, + "loss": 0.0842, + "step": 21225 + }, + { + "epoch": 0.135872, + "grad_norm": 0.8565513491630554, + "learning_rate": 1.909418666666667e-05, + "loss": 0.0966, + "step": 21230 + }, + { + "epoch": 0.135904, + "grad_norm": 1.2608580589294434, + "learning_rate": 1.9093973333333336e-05, + "loss": 0.102, + "step": 21235 + }, + { + "epoch": 0.135936, + "grad_norm": 2.3655078411102295, + "learning_rate": 1.909376e-05, + "loss": 0.0859, + "step": 21240 + }, + { + "epoch": 0.135968, + "grad_norm": 1.01192045211792, + "learning_rate": 1.9093546666666668e-05, + "loss": 0.1064, + "step": 21245 + }, + { + "epoch": 0.136, + "grad_norm": 1.7917848825454712, + "learning_rate": 1.9093333333333336e-05, + "loss": 0.0873, + "step": 21250 + }, + { + "epoch": 0.136032, + "grad_norm": 0.9139285087585449, + "learning_rate": 1.909312e-05, + "loss": 0.0788, + "step": 21255 + }, + { + "epoch": 0.136064, + "grad_norm": 0.5683268904685974, + "learning_rate": 1.9092906666666667e-05, + "loss": 0.0893, + "step": 21260 + }, + { + "epoch": 0.136096, + "grad_norm": 0.5980516672134399, + "learning_rate": 1.9092693333333335e-05, + "loss": 0.0903, + "step": 21265 + }, + { + "epoch": 0.136128, + "grad_norm": 1.255990982055664, + "learning_rate": 1.9092480000000003e-05, + "loss": 0.1263, + "step": 21270 + }, + { + "epoch": 0.13616, + "grad_norm": 0.688448429107666, + "learning_rate": 1.9092266666666667e-05, + "loss": 0.103, + "step": 21275 + }, + { + "epoch": 0.136192, + "grad_norm": 0.7335435748100281, + "learning_rate": 1.9092053333333334e-05, + "loss": 0.1213, + "step": 21280 + }, + { + "epoch": 0.136224, + "grad_norm": 1.313384771347046, + "learning_rate": 1.9091840000000002e-05, + "loss": 0.1087, + "step": 21285 + }, + { + "epoch": 0.136256, + "grad_norm": 1.1561459302902222, + "learning_rate": 1.9091626666666666e-05, + "loss": 0.1135, + "step": 21290 + }, + { + "epoch": 0.136288, + "grad_norm": 0.5608543157577515, + "learning_rate": 1.9091413333333334e-05, + "loss": 0.0791, + "step": 21295 + }, + { + "epoch": 0.13632, + "grad_norm": 0.4763590395450592, + "learning_rate": 1.90912e-05, + "loss": 0.0852, + "step": 21300 + }, + { + "epoch": 0.136352, + "grad_norm": 0.902810275554657, + "learning_rate": 1.909098666666667e-05, + "loss": 0.1, + "step": 21305 + }, + { + "epoch": 0.136384, + "grad_norm": 0.3082636296749115, + "learning_rate": 1.9090773333333333e-05, + "loss": 0.1145, + "step": 21310 + }, + { + "epoch": 0.136416, + "grad_norm": 1.0121554136276245, + "learning_rate": 1.9090560000000004e-05, + "loss": 0.1323, + "step": 21315 + }, + { + "epoch": 0.136448, + "grad_norm": 0.8050553202629089, + "learning_rate": 1.9090346666666668e-05, + "loss": 0.0976, + "step": 21320 + }, + { + "epoch": 0.13648, + "grad_norm": 0.8306804895401001, + "learning_rate": 1.9090133333333336e-05, + "loss": 0.0997, + "step": 21325 + }, + { + "epoch": 0.136512, + "grad_norm": 0.41666555404663086, + "learning_rate": 1.9089920000000003e-05, + "loss": 0.0883, + "step": 21330 + }, + { + "epoch": 0.136544, + "grad_norm": 1.0523852109909058, + "learning_rate": 1.9089706666666667e-05, + "loss": 0.0969, + "step": 21335 + }, + { + "epoch": 0.136576, + "grad_norm": 0.9869889616966248, + "learning_rate": 1.9089493333333335e-05, + "loss": 0.1098, + "step": 21340 + }, + { + "epoch": 0.136608, + "grad_norm": 1.3817613124847412, + "learning_rate": 1.9089280000000002e-05, + "loss": 0.1093, + "step": 21345 + }, + { + "epoch": 0.13664, + "grad_norm": 0.8594047427177429, + "learning_rate": 1.908906666666667e-05, + "loss": 0.0968, + "step": 21350 + }, + { + "epoch": 0.136672, + "grad_norm": 0.5065487027168274, + "learning_rate": 1.9088853333333334e-05, + "loss": 0.1126, + "step": 21355 + }, + { + "epoch": 0.136704, + "grad_norm": 0.8067166805267334, + "learning_rate": 1.908864e-05, + "loss": 0.0903, + "step": 21360 + }, + { + "epoch": 0.136736, + "grad_norm": 1.8333580493927002, + "learning_rate": 1.908842666666667e-05, + "loss": 0.0846, + "step": 21365 + }, + { + "epoch": 0.136768, + "grad_norm": 0.4585812985897064, + "learning_rate": 1.9088213333333333e-05, + "loss": 0.105, + "step": 21370 + }, + { + "epoch": 0.1368, + "grad_norm": 0.7663976550102234, + "learning_rate": 1.9088e-05, + "loss": 0.0901, + "step": 21375 + }, + { + "epoch": 0.136832, + "grad_norm": 8.021535873413086, + "learning_rate": 1.908778666666667e-05, + "loss": 0.1113, + "step": 21380 + }, + { + "epoch": 0.136864, + "grad_norm": 0.7722479701042175, + "learning_rate": 1.9087573333333336e-05, + "loss": 0.1074, + "step": 21385 + }, + { + "epoch": 0.136896, + "grad_norm": 1.6033148765563965, + "learning_rate": 1.908736e-05, + "loss": 0.0913, + "step": 21390 + }, + { + "epoch": 0.136928, + "grad_norm": 0.6403942704200745, + "learning_rate": 1.9087146666666668e-05, + "loss": 0.0841, + "step": 21395 + }, + { + "epoch": 0.13696, + "grad_norm": 0.8704822659492493, + "learning_rate": 1.9086933333333335e-05, + "loss": 0.0977, + "step": 21400 + }, + { + "epoch": 0.136992, + "grad_norm": 1.5050337314605713, + "learning_rate": 1.908672e-05, + "loss": 0.1078, + "step": 21405 + }, + { + "epoch": 0.137024, + "grad_norm": 0.9938706159591675, + "learning_rate": 1.908650666666667e-05, + "loss": 0.0834, + "step": 21410 + }, + { + "epoch": 0.137056, + "grad_norm": 1.1015055179595947, + "learning_rate": 1.9086293333333335e-05, + "loss": 0.1063, + "step": 21415 + }, + { + "epoch": 0.137088, + "grad_norm": 0.5982458591461182, + "learning_rate": 1.9086080000000002e-05, + "loss": 0.0923, + "step": 21420 + }, + { + "epoch": 0.13712, + "grad_norm": 0.43066391348838806, + "learning_rate": 1.908586666666667e-05, + "loss": 0.0973, + "step": 21425 + }, + { + "epoch": 0.137152, + "grad_norm": 0.33329981565475464, + "learning_rate": 1.9085653333333334e-05, + "loss": 0.0679, + "step": 21430 + }, + { + "epoch": 0.137184, + "grad_norm": 0.7971067428588867, + "learning_rate": 1.908544e-05, + "loss": 0.0992, + "step": 21435 + }, + { + "epoch": 0.137216, + "grad_norm": 0.9951561093330383, + "learning_rate": 1.908522666666667e-05, + "loss": 0.0828, + "step": 21440 + }, + { + "epoch": 0.137248, + "grad_norm": 0.549018144607544, + "learning_rate": 1.9085013333333336e-05, + "loss": 0.0947, + "step": 21445 + }, + { + "epoch": 0.13728, + "grad_norm": 1.2982972860336304, + "learning_rate": 1.90848e-05, + "loss": 0.1077, + "step": 21450 + }, + { + "epoch": 0.137312, + "grad_norm": 1.4482107162475586, + "learning_rate": 1.9084586666666668e-05, + "loss": 0.0959, + "step": 21455 + }, + { + "epoch": 0.137344, + "grad_norm": 1.6960983276367188, + "learning_rate": 1.9084373333333336e-05, + "loss": 0.1427, + "step": 21460 + }, + { + "epoch": 0.137376, + "grad_norm": 1.0304882526397705, + "learning_rate": 1.908416e-05, + "loss": 0.1268, + "step": 21465 + }, + { + "epoch": 0.137408, + "grad_norm": 0.9532496929168701, + "learning_rate": 1.9083946666666667e-05, + "loss": 0.1019, + "step": 21470 + }, + { + "epoch": 0.13744, + "grad_norm": 1.6452932357788086, + "learning_rate": 1.9083733333333335e-05, + "loss": 0.0877, + "step": 21475 + }, + { + "epoch": 0.137472, + "grad_norm": 1.5587228536605835, + "learning_rate": 1.9083520000000003e-05, + "loss": 0.1, + "step": 21480 + }, + { + "epoch": 0.137504, + "grad_norm": 1.0062823295593262, + "learning_rate": 1.9083306666666667e-05, + "loss": 0.1149, + "step": 21485 + }, + { + "epoch": 0.137536, + "grad_norm": 0.5835421085357666, + "learning_rate": 1.9083093333333334e-05, + "loss": 0.0696, + "step": 21490 + }, + { + "epoch": 0.137568, + "grad_norm": 0.7754268646240234, + "learning_rate": 1.9082880000000002e-05, + "loss": 0.0801, + "step": 21495 + }, + { + "epoch": 0.1376, + "grad_norm": 2.5632989406585693, + "learning_rate": 1.908266666666667e-05, + "loss": 0.0978, + "step": 21500 + }, + { + "epoch": 0.137632, + "grad_norm": 0.7783756852149963, + "learning_rate": 1.9082453333333334e-05, + "loss": 0.0701, + "step": 21505 + }, + { + "epoch": 0.137664, + "grad_norm": 1.4852615594863892, + "learning_rate": 1.908224e-05, + "loss": 0.1087, + "step": 21510 + }, + { + "epoch": 0.137696, + "grad_norm": 0.49670854210853577, + "learning_rate": 1.908202666666667e-05, + "loss": 0.0664, + "step": 21515 + }, + { + "epoch": 0.137728, + "grad_norm": 1.6156175136566162, + "learning_rate": 1.9081813333333333e-05, + "loss": 0.098, + "step": 21520 + }, + { + "epoch": 0.13776, + "grad_norm": 7.814883232116699, + "learning_rate": 1.9081600000000004e-05, + "loss": 0.0826, + "step": 21525 + }, + { + "epoch": 0.137792, + "grad_norm": 0.6018180251121521, + "learning_rate": 1.9081386666666668e-05, + "loss": 0.1343, + "step": 21530 + }, + { + "epoch": 0.137824, + "grad_norm": 1.7699326276779175, + "learning_rate": 1.9081173333333336e-05, + "loss": 0.0667, + "step": 21535 + }, + { + "epoch": 0.137856, + "grad_norm": 0.7732372879981995, + "learning_rate": 1.9080960000000003e-05, + "loss": 0.1036, + "step": 21540 + }, + { + "epoch": 0.137888, + "grad_norm": 0.6282795667648315, + "learning_rate": 1.9080746666666667e-05, + "loss": 0.1007, + "step": 21545 + }, + { + "epoch": 0.13792, + "grad_norm": 0.4634484648704529, + "learning_rate": 1.9080533333333335e-05, + "loss": 0.052, + "step": 21550 + }, + { + "epoch": 0.137952, + "grad_norm": 1.044321060180664, + "learning_rate": 1.9080320000000002e-05, + "loss": 0.1388, + "step": 21555 + }, + { + "epoch": 0.137984, + "grad_norm": 1.2907041311264038, + "learning_rate": 1.908010666666667e-05, + "loss": 0.0879, + "step": 21560 + }, + { + "epoch": 0.138016, + "grad_norm": 0.6505182385444641, + "learning_rate": 1.9079893333333334e-05, + "loss": 0.0956, + "step": 21565 + }, + { + "epoch": 0.138048, + "grad_norm": 0.8614875078201294, + "learning_rate": 1.907968e-05, + "loss": 0.0715, + "step": 21570 + }, + { + "epoch": 0.13808, + "grad_norm": 1.0204094648361206, + "learning_rate": 1.907946666666667e-05, + "loss": 0.0901, + "step": 21575 + }, + { + "epoch": 0.138112, + "grad_norm": 1.1473057270050049, + "learning_rate": 1.9079253333333333e-05, + "loss": 0.1422, + "step": 21580 + }, + { + "epoch": 0.138144, + "grad_norm": 0.8889469504356384, + "learning_rate": 1.907904e-05, + "loss": 0.0847, + "step": 21585 + }, + { + "epoch": 0.138176, + "grad_norm": 0.8412412405014038, + "learning_rate": 1.907882666666667e-05, + "loss": 0.1032, + "step": 21590 + }, + { + "epoch": 0.138208, + "grad_norm": 0.8773772120475769, + "learning_rate": 1.9078613333333336e-05, + "loss": 0.1039, + "step": 21595 + }, + { + "epoch": 0.13824, + "grad_norm": 0.890485942363739, + "learning_rate": 1.90784e-05, + "loss": 0.0842, + "step": 21600 + }, + { + "epoch": 0.138272, + "grad_norm": 1.143154263496399, + "learning_rate": 1.9078186666666668e-05, + "loss": 0.131, + "step": 21605 + }, + { + "epoch": 0.138304, + "grad_norm": 0.8907942175865173, + "learning_rate": 1.9077973333333335e-05, + "loss": 0.0668, + "step": 21610 + }, + { + "epoch": 0.138336, + "grad_norm": 0.9099034667015076, + "learning_rate": 1.907776e-05, + "loss": 0.097, + "step": 21615 + }, + { + "epoch": 0.138368, + "grad_norm": 1.1698534488677979, + "learning_rate": 1.9077546666666667e-05, + "loss": 0.1344, + "step": 21620 + }, + { + "epoch": 0.1384, + "grad_norm": 1.5968220233917236, + "learning_rate": 1.9077333333333335e-05, + "loss": 0.1019, + "step": 21625 + }, + { + "epoch": 0.138432, + "grad_norm": 0.9236773252487183, + "learning_rate": 1.9077120000000002e-05, + "loss": 0.0862, + "step": 21630 + }, + { + "epoch": 0.138464, + "grad_norm": 1.282623291015625, + "learning_rate": 1.907690666666667e-05, + "loss": 0.0971, + "step": 21635 + }, + { + "epoch": 0.138496, + "grad_norm": 1.8397163152694702, + "learning_rate": 1.9076693333333337e-05, + "loss": 0.124, + "step": 21640 + }, + { + "epoch": 0.138528, + "grad_norm": 0.9219886064529419, + "learning_rate": 1.907648e-05, + "loss": 0.0978, + "step": 21645 + }, + { + "epoch": 0.13856, + "grad_norm": 1.3380740880966187, + "learning_rate": 1.907626666666667e-05, + "loss": 0.0945, + "step": 21650 + }, + { + "epoch": 0.138592, + "grad_norm": 1.0497963428497314, + "learning_rate": 1.9076053333333336e-05, + "loss": 0.07, + "step": 21655 + }, + { + "epoch": 0.138624, + "grad_norm": 1.6113994121551514, + "learning_rate": 1.907584e-05, + "loss": 0.0978, + "step": 21660 + }, + { + "epoch": 0.138656, + "grad_norm": 1.5379672050476074, + "learning_rate": 1.9075626666666668e-05, + "loss": 0.1101, + "step": 21665 + }, + { + "epoch": 0.138688, + "grad_norm": 0.560554027557373, + "learning_rate": 1.9075413333333336e-05, + "loss": 0.0678, + "step": 21670 + }, + { + "epoch": 0.13872, + "grad_norm": 0.5806717872619629, + "learning_rate": 1.9075200000000003e-05, + "loss": 0.0937, + "step": 21675 + }, + { + "epoch": 0.138752, + "grad_norm": 0.6943618059158325, + "learning_rate": 1.9074986666666667e-05, + "loss": 0.0779, + "step": 21680 + }, + { + "epoch": 0.138784, + "grad_norm": 0.6014808416366577, + "learning_rate": 1.9074773333333335e-05, + "loss": 0.0569, + "step": 21685 + }, + { + "epoch": 0.138816, + "grad_norm": 0.5971227884292603, + "learning_rate": 1.9074560000000003e-05, + "loss": 0.1011, + "step": 21690 + }, + { + "epoch": 0.138848, + "grad_norm": 0.9069852828979492, + "learning_rate": 1.9074346666666667e-05, + "loss": 0.1394, + "step": 21695 + }, + { + "epoch": 0.13888, + "grad_norm": 0.841341495513916, + "learning_rate": 1.9074133333333334e-05, + "loss": 0.0899, + "step": 21700 + }, + { + "epoch": 0.138912, + "grad_norm": 0.6809254884719849, + "learning_rate": 1.9073920000000002e-05, + "loss": 0.0877, + "step": 21705 + }, + { + "epoch": 0.138944, + "grad_norm": 1.8527345657348633, + "learning_rate": 1.907370666666667e-05, + "loss": 0.0648, + "step": 21710 + }, + { + "epoch": 0.138976, + "grad_norm": 1.2962725162506104, + "learning_rate": 1.9073493333333334e-05, + "loss": 0.0468, + "step": 21715 + }, + { + "epoch": 0.139008, + "grad_norm": 0.9074452519416809, + "learning_rate": 1.907328e-05, + "loss": 0.0912, + "step": 21720 + }, + { + "epoch": 0.13904, + "grad_norm": 0.781222403049469, + "learning_rate": 1.907306666666667e-05, + "loss": 0.1255, + "step": 21725 + }, + { + "epoch": 0.139072, + "grad_norm": 1.2189899682998657, + "learning_rate": 1.9072853333333333e-05, + "loss": 0.122, + "step": 21730 + }, + { + "epoch": 0.139104, + "grad_norm": 0.7960752248764038, + "learning_rate": 1.9072640000000004e-05, + "loss": 0.0989, + "step": 21735 + }, + { + "epoch": 0.139136, + "grad_norm": 0.7382561564445496, + "learning_rate": 1.9072426666666668e-05, + "loss": 0.0831, + "step": 21740 + }, + { + "epoch": 0.139168, + "grad_norm": 1.3152730464935303, + "learning_rate": 1.9072213333333336e-05, + "loss": 0.0992, + "step": 21745 + }, + { + "epoch": 0.1392, + "grad_norm": 0.32804298400878906, + "learning_rate": 1.9072000000000003e-05, + "loss": 0.0544, + "step": 21750 + }, + { + "epoch": 0.139232, + "grad_norm": 0.9213865995407104, + "learning_rate": 1.9071786666666667e-05, + "loss": 0.1089, + "step": 21755 + }, + { + "epoch": 0.139264, + "grad_norm": 0.9197105169296265, + "learning_rate": 1.9071573333333335e-05, + "loss": 0.1086, + "step": 21760 + }, + { + "epoch": 0.139296, + "grad_norm": 0.5535599589347839, + "learning_rate": 1.9071360000000002e-05, + "loss": 0.0794, + "step": 21765 + }, + { + "epoch": 0.139328, + "grad_norm": 0.55743008852005, + "learning_rate": 1.907114666666667e-05, + "loss": 0.0908, + "step": 21770 + }, + { + "epoch": 0.13936, + "grad_norm": 0.6578792333602905, + "learning_rate": 1.9070933333333334e-05, + "loss": 0.0939, + "step": 21775 + }, + { + "epoch": 0.139392, + "grad_norm": 1.2328026294708252, + "learning_rate": 1.907072e-05, + "loss": 0.0921, + "step": 21780 + }, + { + "epoch": 0.139424, + "grad_norm": 0.6245838403701782, + "learning_rate": 1.907050666666667e-05, + "loss": 0.0882, + "step": 21785 + }, + { + "epoch": 0.139456, + "grad_norm": 1.1336778402328491, + "learning_rate": 1.9070293333333333e-05, + "loss": 0.0966, + "step": 21790 + }, + { + "epoch": 0.139488, + "grad_norm": 0.7081326246261597, + "learning_rate": 1.907008e-05, + "loss": 0.0592, + "step": 21795 + }, + { + "epoch": 0.13952, + "grad_norm": 0.8100599050521851, + "learning_rate": 1.906986666666667e-05, + "loss": 0.0738, + "step": 21800 + }, + { + "epoch": 0.139552, + "grad_norm": 0.6992727518081665, + "learning_rate": 1.9069653333333336e-05, + "loss": 0.0766, + "step": 21805 + }, + { + "epoch": 0.139584, + "grad_norm": 0.7707880735397339, + "learning_rate": 1.906944e-05, + "loss": 0.1092, + "step": 21810 + }, + { + "epoch": 0.139616, + "grad_norm": 0.8590207099914551, + "learning_rate": 1.9069226666666668e-05, + "loss": 0.1298, + "step": 21815 + }, + { + "epoch": 0.139648, + "grad_norm": 0.6992776393890381, + "learning_rate": 1.9069013333333335e-05, + "loss": 0.0742, + "step": 21820 + }, + { + "epoch": 0.13968, + "grad_norm": 0.5471635460853577, + "learning_rate": 1.90688e-05, + "loss": 0.0909, + "step": 21825 + }, + { + "epoch": 0.139712, + "grad_norm": 0.6634390950202942, + "learning_rate": 1.9068586666666667e-05, + "loss": 0.0842, + "step": 21830 + }, + { + "epoch": 0.139744, + "grad_norm": 1.7956528663635254, + "learning_rate": 1.9068373333333335e-05, + "loss": 0.0772, + "step": 21835 + }, + { + "epoch": 0.139776, + "grad_norm": 2.762512683868408, + "learning_rate": 1.9068160000000002e-05, + "loss": 0.1523, + "step": 21840 + }, + { + "epoch": 0.139808, + "grad_norm": 0.7662566900253296, + "learning_rate": 1.9067946666666666e-05, + "loss": 0.1024, + "step": 21845 + }, + { + "epoch": 0.13984, + "grad_norm": 1.4529409408569336, + "learning_rate": 1.9067733333333337e-05, + "loss": 0.1093, + "step": 21850 + }, + { + "epoch": 0.139872, + "grad_norm": 0.6049599051475525, + "learning_rate": 1.906752e-05, + "loss": 0.0997, + "step": 21855 + }, + { + "epoch": 0.139904, + "grad_norm": 1.1062144041061401, + "learning_rate": 1.906730666666667e-05, + "loss": 0.0971, + "step": 21860 + }, + { + "epoch": 0.139936, + "grad_norm": 0.923120379447937, + "learning_rate": 1.9067093333333336e-05, + "loss": 0.1088, + "step": 21865 + }, + { + "epoch": 0.139968, + "grad_norm": 0.5574434995651245, + "learning_rate": 1.906688e-05, + "loss": 0.0768, + "step": 21870 + }, + { + "epoch": 0.14, + "grad_norm": 0.7294589877128601, + "learning_rate": 1.9066666666666668e-05, + "loss": 0.0651, + "step": 21875 + }, + { + "epoch": 0.140032, + "grad_norm": 0.6886541843414307, + "learning_rate": 1.9066453333333336e-05, + "loss": 0.071, + "step": 21880 + }, + { + "epoch": 0.140064, + "grad_norm": 1.399963140487671, + "learning_rate": 1.9066240000000003e-05, + "loss": 0.092, + "step": 21885 + }, + { + "epoch": 0.140096, + "grad_norm": 1.769030213356018, + "learning_rate": 1.9066026666666667e-05, + "loss": 0.1052, + "step": 21890 + }, + { + "epoch": 0.140128, + "grad_norm": 0.47633376717567444, + "learning_rate": 1.9065813333333335e-05, + "loss": 0.0883, + "step": 21895 + }, + { + "epoch": 0.14016, + "grad_norm": 0.8836192488670349, + "learning_rate": 1.9065600000000003e-05, + "loss": 0.1002, + "step": 21900 + }, + { + "epoch": 0.140192, + "grad_norm": 1.2535778284072876, + "learning_rate": 1.9065386666666667e-05, + "loss": 0.1114, + "step": 21905 + }, + { + "epoch": 0.140224, + "grad_norm": 0.7987645268440247, + "learning_rate": 1.9065173333333334e-05, + "loss": 0.0723, + "step": 21910 + }, + { + "epoch": 0.140256, + "grad_norm": 0.6190733313560486, + "learning_rate": 1.9064960000000002e-05, + "loss": 0.0816, + "step": 21915 + }, + { + "epoch": 0.140288, + "grad_norm": 0.7877193093299866, + "learning_rate": 1.906474666666667e-05, + "loss": 0.1053, + "step": 21920 + }, + { + "epoch": 0.14032, + "grad_norm": 0.9528490304946899, + "learning_rate": 1.9064533333333334e-05, + "loss": 0.0837, + "step": 21925 + }, + { + "epoch": 0.140352, + "grad_norm": 1.070457935333252, + "learning_rate": 1.906432e-05, + "loss": 0.081, + "step": 21930 + }, + { + "epoch": 0.140384, + "grad_norm": 0.7284868359565735, + "learning_rate": 1.906410666666667e-05, + "loss": 0.0768, + "step": 21935 + }, + { + "epoch": 0.140416, + "grad_norm": 1.1686787605285645, + "learning_rate": 1.9063893333333333e-05, + "loss": 0.0959, + "step": 21940 + }, + { + "epoch": 0.140448, + "grad_norm": 0.8962511420249939, + "learning_rate": 1.9063680000000004e-05, + "loss": 0.085, + "step": 21945 + }, + { + "epoch": 0.14048, + "grad_norm": 0.8285786509513855, + "learning_rate": 1.9063466666666668e-05, + "loss": 0.11, + "step": 21950 + }, + { + "epoch": 0.140512, + "grad_norm": 0.6567421555519104, + "learning_rate": 1.9063253333333336e-05, + "loss": 0.0813, + "step": 21955 + }, + { + "epoch": 0.140544, + "grad_norm": 0.41768816113471985, + "learning_rate": 1.9063040000000003e-05, + "loss": 0.0594, + "step": 21960 + }, + { + "epoch": 0.140576, + "grad_norm": 0.8926967978477478, + "learning_rate": 1.9062826666666667e-05, + "loss": 0.0822, + "step": 21965 + }, + { + "epoch": 0.140608, + "grad_norm": 0.8730080723762512, + "learning_rate": 1.9062613333333335e-05, + "loss": 0.087, + "step": 21970 + }, + { + "epoch": 0.14064, + "grad_norm": 0.6669255495071411, + "learning_rate": 1.9062400000000002e-05, + "loss": 0.0831, + "step": 21975 + }, + { + "epoch": 0.140672, + "grad_norm": 1.2630391120910645, + "learning_rate": 1.906218666666667e-05, + "loss": 0.0966, + "step": 21980 + }, + { + "epoch": 0.140704, + "grad_norm": 1.2045276165008545, + "learning_rate": 1.9061973333333334e-05, + "loss": 0.0835, + "step": 21985 + }, + { + "epoch": 0.140736, + "grad_norm": 0.4757959246635437, + "learning_rate": 1.906176e-05, + "loss": 0.0619, + "step": 21990 + }, + { + "epoch": 0.140768, + "grad_norm": 0.9032667279243469, + "learning_rate": 1.906154666666667e-05, + "loss": 0.1003, + "step": 21995 + }, + { + "epoch": 0.1408, + "grad_norm": 0.8864343762397766, + "learning_rate": 1.9061333333333333e-05, + "loss": 0.0547, + "step": 22000 + }, + { + "epoch": 0.140832, + "grad_norm": 1.2336409091949463, + "learning_rate": 1.906112e-05, + "loss": 0.082, + "step": 22005 + }, + { + "epoch": 0.140864, + "grad_norm": 0.8699790835380554, + "learning_rate": 1.906090666666667e-05, + "loss": 0.0802, + "step": 22010 + }, + { + "epoch": 0.140896, + "grad_norm": 1.6142665147781372, + "learning_rate": 1.9060693333333336e-05, + "loss": 0.0754, + "step": 22015 + }, + { + "epoch": 0.140928, + "grad_norm": 2.938095808029175, + "learning_rate": 1.906048e-05, + "loss": 0.0847, + "step": 22020 + }, + { + "epoch": 0.14096, + "grad_norm": 1.2881449460983276, + "learning_rate": 1.9060266666666668e-05, + "loss": 0.0934, + "step": 22025 + }, + { + "epoch": 0.140992, + "grad_norm": 1.2582337856292725, + "learning_rate": 1.9060053333333335e-05, + "loss": 0.0989, + "step": 22030 + }, + { + "epoch": 0.141024, + "grad_norm": 0.8651610612869263, + "learning_rate": 1.905984e-05, + "loss": 0.0711, + "step": 22035 + }, + { + "epoch": 0.141056, + "grad_norm": 1.232475757598877, + "learning_rate": 1.9059626666666667e-05, + "loss": 0.0893, + "step": 22040 + }, + { + "epoch": 0.141088, + "grad_norm": 1.6936906576156616, + "learning_rate": 1.9059413333333335e-05, + "loss": 0.0973, + "step": 22045 + }, + { + "epoch": 0.14112, + "grad_norm": 1.4080239534378052, + "learning_rate": 1.9059200000000002e-05, + "loss": 0.0888, + "step": 22050 + }, + { + "epoch": 0.141152, + "grad_norm": 1.0073742866516113, + "learning_rate": 1.9058986666666666e-05, + "loss": 0.0807, + "step": 22055 + }, + { + "epoch": 0.141184, + "grad_norm": 1.0916857719421387, + "learning_rate": 1.9058773333333337e-05, + "loss": 0.0872, + "step": 22060 + }, + { + "epoch": 0.141216, + "grad_norm": 0.5282754898071289, + "learning_rate": 1.905856e-05, + "loss": 0.0605, + "step": 22065 + }, + { + "epoch": 0.141248, + "grad_norm": 0.6216934323310852, + "learning_rate": 1.9058346666666666e-05, + "loss": 0.1123, + "step": 22070 + }, + { + "epoch": 0.14128, + "grad_norm": 1.0941543579101562, + "learning_rate": 1.9058133333333336e-05, + "loss": 0.0882, + "step": 22075 + }, + { + "epoch": 0.141312, + "grad_norm": 1.7291932106018066, + "learning_rate": 1.905792e-05, + "loss": 0.0948, + "step": 22080 + }, + { + "epoch": 0.141344, + "grad_norm": 0.8117579221725464, + "learning_rate": 1.9057706666666668e-05, + "loss": 0.1145, + "step": 22085 + }, + { + "epoch": 0.141376, + "grad_norm": 1.0350220203399658, + "learning_rate": 1.9057493333333336e-05, + "loss": 0.1067, + "step": 22090 + }, + { + "epoch": 0.141408, + "grad_norm": 1.5557290315628052, + "learning_rate": 1.9057280000000003e-05, + "loss": 0.0891, + "step": 22095 + }, + { + "epoch": 0.14144, + "grad_norm": 0.7294421792030334, + "learning_rate": 1.9057066666666667e-05, + "loss": 0.0671, + "step": 22100 + }, + { + "epoch": 0.141472, + "grad_norm": 1.920127034187317, + "learning_rate": 1.9056853333333335e-05, + "loss": 0.0853, + "step": 22105 + }, + { + "epoch": 0.141504, + "grad_norm": 1.0767184495925903, + "learning_rate": 1.9056640000000003e-05, + "loss": 0.094, + "step": 22110 + }, + { + "epoch": 0.141536, + "grad_norm": 0.7827721238136292, + "learning_rate": 1.9056426666666667e-05, + "loss": 0.09, + "step": 22115 + }, + { + "epoch": 0.141568, + "grad_norm": 1.1320215463638306, + "learning_rate": 1.9056213333333334e-05, + "loss": 0.0705, + "step": 22120 + }, + { + "epoch": 0.1416, + "grad_norm": 3.06177020072937, + "learning_rate": 1.9056000000000002e-05, + "loss": 0.1005, + "step": 22125 + }, + { + "epoch": 0.141632, + "grad_norm": 1.3642191886901855, + "learning_rate": 1.905578666666667e-05, + "loss": 0.0931, + "step": 22130 + }, + { + "epoch": 0.141664, + "grad_norm": 1.2506667375564575, + "learning_rate": 1.9055573333333334e-05, + "loss": 0.0867, + "step": 22135 + }, + { + "epoch": 0.141696, + "grad_norm": 1.0763349533081055, + "learning_rate": 1.905536e-05, + "loss": 0.0988, + "step": 22140 + }, + { + "epoch": 0.141728, + "grad_norm": 0.6614647507667542, + "learning_rate": 1.905514666666667e-05, + "loss": 0.0602, + "step": 22145 + }, + { + "epoch": 0.14176, + "grad_norm": 0.7559067606925964, + "learning_rate": 1.9054933333333333e-05, + "loss": 0.0706, + "step": 22150 + }, + { + "epoch": 0.141792, + "grad_norm": 0.6692915558815002, + "learning_rate": 1.905472e-05, + "loss": 0.1005, + "step": 22155 + }, + { + "epoch": 0.141824, + "grad_norm": 1.6317379474639893, + "learning_rate": 1.9054506666666668e-05, + "loss": 0.069, + "step": 22160 + }, + { + "epoch": 0.141856, + "grad_norm": 1.461434006690979, + "learning_rate": 1.9054293333333336e-05, + "loss": 0.0993, + "step": 22165 + }, + { + "epoch": 0.141888, + "grad_norm": 0.3404715657234192, + "learning_rate": 1.9054080000000003e-05, + "loss": 0.0657, + "step": 22170 + }, + { + "epoch": 0.14192, + "grad_norm": 1.0339415073394775, + "learning_rate": 1.9053866666666667e-05, + "loss": 0.0867, + "step": 22175 + }, + { + "epoch": 0.141952, + "grad_norm": 1.0881181955337524, + "learning_rate": 1.9053653333333335e-05, + "loss": 0.1198, + "step": 22180 + }, + { + "epoch": 0.141984, + "grad_norm": 0.44185909628868103, + "learning_rate": 1.9053440000000002e-05, + "loss": 0.062, + "step": 22185 + }, + { + "epoch": 0.142016, + "grad_norm": 0.4566505551338196, + "learning_rate": 1.905322666666667e-05, + "loss": 0.0638, + "step": 22190 + }, + { + "epoch": 0.142048, + "grad_norm": 1.3128241300582886, + "learning_rate": 1.9053013333333334e-05, + "loss": 0.1209, + "step": 22195 + }, + { + "epoch": 0.14208, + "grad_norm": 0.4137434661388397, + "learning_rate": 1.90528e-05, + "loss": 0.0844, + "step": 22200 + }, + { + "epoch": 0.142112, + "grad_norm": 2.3021912574768066, + "learning_rate": 1.905258666666667e-05, + "loss": 0.0695, + "step": 22205 + }, + { + "epoch": 0.142144, + "grad_norm": 1.9078599214553833, + "learning_rate": 1.9052373333333333e-05, + "loss": 0.1181, + "step": 22210 + }, + { + "epoch": 0.142176, + "grad_norm": 1.2951322793960571, + "learning_rate": 1.905216e-05, + "loss": 0.1232, + "step": 22215 + }, + { + "epoch": 0.142208, + "grad_norm": 0.7631246447563171, + "learning_rate": 1.905194666666667e-05, + "loss": 0.0888, + "step": 22220 + }, + { + "epoch": 0.14224, + "grad_norm": 0.7872022390365601, + "learning_rate": 1.9051733333333336e-05, + "loss": 0.0855, + "step": 22225 + }, + { + "epoch": 0.142272, + "grad_norm": 0.6993018388748169, + "learning_rate": 1.905152e-05, + "loss": 0.0893, + "step": 22230 + }, + { + "epoch": 0.142304, + "grad_norm": 0.8561848402023315, + "learning_rate": 1.9051306666666668e-05, + "loss": 0.0989, + "step": 22235 + }, + { + "epoch": 0.142336, + "grad_norm": 0.8660705089569092, + "learning_rate": 1.9051093333333335e-05, + "loss": 0.106, + "step": 22240 + }, + { + "epoch": 0.142368, + "grad_norm": 0.9763913750648499, + "learning_rate": 1.905088e-05, + "loss": 0.0768, + "step": 22245 + }, + { + "epoch": 0.1424, + "grad_norm": 0.8258506655693054, + "learning_rate": 1.9050666666666667e-05, + "loss": 0.0657, + "step": 22250 + }, + { + "epoch": 0.142432, + "grad_norm": 0.5902250409126282, + "learning_rate": 1.9050453333333335e-05, + "loss": 0.073, + "step": 22255 + }, + { + "epoch": 0.142464, + "grad_norm": 0.5389965176582336, + "learning_rate": 1.9050240000000002e-05, + "loss": 0.0912, + "step": 22260 + }, + { + "epoch": 0.142496, + "grad_norm": 1.251725196838379, + "learning_rate": 1.9050026666666666e-05, + "loss": 0.1088, + "step": 22265 + }, + { + "epoch": 0.142528, + "grad_norm": 0.4792659878730774, + "learning_rate": 1.9049813333333337e-05, + "loss": 0.067, + "step": 22270 + }, + { + "epoch": 0.14256, + "grad_norm": 2.0574915409088135, + "learning_rate": 1.90496e-05, + "loss": 0.0859, + "step": 22275 + }, + { + "epoch": 0.142592, + "grad_norm": 1.351243495941162, + "learning_rate": 1.9049386666666666e-05, + "loss": 0.0961, + "step": 22280 + }, + { + "epoch": 0.142624, + "grad_norm": 0.8096958994865417, + "learning_rate": 1.9049173333333336e-05, + "loss": 0.0719, + "step": 22285 + }, + { + "epoch": 0.142656, + "grad_norm": 0.7856565117835999, + "learning_rate": 1.904896e-05, + "loss": 0.0882, + "step": 22290 + }, + { + "epoch": 0.142688, + "grad_norm": 0.6568953990936279, + "learning_rate": 1.9048746666666668e-05, + "loss": 0.0941, + "step": 22295 + }, + { + "epoch": 0.14272, + "grad_norm": 0.8879045844078064, + "learning_rate": 1.9048533333333336e-05, + "loss": 0.0652, + "step": 22300 + }, + { + "epoch": 0.142752, + "grad_norm": 1.9920910596847534, + "learning_rate": 1.9048320000000003e-05, + "loss": 0.1252, + "step": 22305 + }, + { + "epoch": 0.142784, + "grad_norm": 1.3345144987106323, + "learning_rate": 1.9048106666666667e-05, + "loss": 0.0866, + "step": 22310 + }, + { + "epoch": 0.142816, + "grad_norm": 0.7674004435539246, + "learning_rate": 1.9047893333333335e-05, + "loss": 0.0835, + "step": 22315 + }, + { + "epoch": 0.142848, + "grad_norm": 1.1984591484069824, + "learning_rate": 1.9047680000000003e-05, + "loss": 0.1143, + "step": 22320 + }, + { + "epoch": 0.14288, + "grad_norm": 0.6873487234115601, + "learning_rate": 1.9047466666666667e-05, + "loss": 0.1103, + "step": 22325 + }, + { + "epoch": 0.142912, + "grad_norm": 0.796249508857727, + "learning_rate": 1.9047253333333334e-05, + "loss": 0.0714, + "step": 22330 + }, + { + "epoch": 0.142944, + "grad_norm": 0.891827404499054, + "learning_rate": 1.9047040000000002e-05, + "loss": 0.0556, + "step": 22335 + }, + { + "epoch": 0.142976, + "grad_norm": 1.1550190448760986, + "learning_rate": 1.904682666666667e-05, + "loss": 0.1067, + "step": 22340 + }, + { + "epoch": 0.143008, + "grad_norm": 1.0034618377685547, + "learning_rate": 1.9046613333333334e-05, + "loss": 0.0671, + "step": 22345 + }, + { + "epoch": 0.14304, + "grad_norm": 1.1036497354507446, + "learning_rate": 1.90464e-05, + "loss": 0.0811, + "step": 22350 + }, + { + "epoch": 0.143072, + "grad_norm": 0.13919086754322052, + "learning_rate": 1.904618666666667e-05, + "loss": 0.0848, + "step": 22355 + }, + { + "epoch": 0.143104, + "grad_norm": 0.8540017604827881, + "learning_rate": 1.9045973333333333e-05, + "loss": 0.0985, + "step": 22360 + }, + { + "epoch": 0.143136, + "grad_norm": 1.0685570240020752, + "learning_rate": 1.904576e-05, + "loss": 0.089, + "step": 22365 + }, + { + "epoch": 0.143168, + "grad_norm": 1.2965569496154785, + "learning_rate": 1.9045546666666668e-05, + "loss": 0.1218, + "step": 22370 + }, + { + "epoch": 0.1432, + "grad_norm": 0.6138573884963989, + "learning_rate": 1.9045333333333336e-05, + "loss": 0.0829, + "step": 22375 + }, + { + "epoch": 0.143232, + "grad_norm": 0.8376991152763367, + "learning_rate": 1.904512e-05, + "loss": 0.1299, + "step": 22380 + }, + { + "epoch": 0.143264, + "grad_norm": 0.7784582376480103, + "learning_rate": 1.904490666666667e-05, + "loss": 0.0908, + "step": 22385 + }, + { + "epoch": 0.143296, + "grad_norm": 1.1440235376358032, + "learning_rate": 1.9044693333333335e-05, + "loss": 0.0827, + "step": 22390 + }, + { + "epoch": 0.143328, + "grad_norm": 0.7706326842308044, + "learning_rate": 1.9044480000000002e-05, + "loss": 0.087, + "step": 22395 + }, + { + "epoch": 0.14336, + "grad_norm": 0.33612170815467834, + "learning_rate": 1.904426666666667e-05, + "loss": 0.084, + "step": 22400 + }, + { + "epoch": 0.143392, + "grad_norm": 1.45396888256073, + "learning_rate": 1.9044053333333334e-05, + "loss": 0.1014, + "step": 22405 + }, + { + "epoch": 0.143424, + "grad_norm": 1.09981369972229, + "learning_rate": 1.904384e-05, + "loss": 0.0736, + "step": 22410 + }, + { + "epoch": 0.143456, + "grad_norm": 1.3804742097854614, + "learning_rate": 1.904362666666667e-05, + "loss": 0.1164, + "step": 22415 + }, + { + "epoch": 0.143488, + "grad_norm": 0.7892926335334778, + "learning_rate": 1.9043413333333337e-05, + "loss": 0.1064, + "step": 22420 + }, + { + "epoch": 0.14352, + "grad_norm": 0.8468009233474731, + "learning_rate": 1.90432e-05, + "loss": 0.0959, + "step": 22425 + }, + { + "epoch": 0.143552, + "grad_norm": 1.3465131521224976, + "learning_rate": 1.904298666666667e-05, + "loss": 0.0947, + "step": 22430 + }, + { + "epoch": 0.143584, + "grad_norm": 0.744293749332428, + "learning_rate": 1.9042773333333336e-05, + "loss": 0.1101, + "step": 22435 + }, + { + "epoch": 0.143616, + "grad_norm": 2.7345361709594727, + "learning_rate": 1.904256e-05, + "loss": 0.0875, + "step": 22440 + }, + { + "epoch": 0.143648, + "grad_norm": 0.9837074875831604, + "learning_rate": 1.9042346666666668e-05, + "loss": 0.1148, + "step": 22445 + }, + { + "epoch": 0.14368, + "grad_norm": 1.0012820959091187, + "learning_rate": 1.9042133333333335e-05, + "loss": 0.102, + "step": 22450 + }, + { + "epoch": 0.143712, + "grad_norm": 0.8990621566772461, + "learning_rate": 1.9041920000000003e-05, + "loss": 0.0757, + "step": 22455 + }, + { + "epoch": 0.143744, + "grad_norm": 1.0080519914627075, + "learning_rate": 1.9041706666666667e-05, + "loss": 0.0974, + "step": 22460 + }, + { + "epoch": 0.143776, + "grad_norm": 1.3525251150131226, + "learning_rate": 1.9041493333333335e-05, + "loss": 0.0782, + "step": 22465 + }, + { + "epoch": 0.143808, + "grad_norm": 1.81215238571167, + "learning_rate": 1.9041280000000002e-05, + "loss": 0.1351, + "step": 22470 + }, + { + "epoch": 0.14384, + "grad_norm": 0.4473457932472229, + "learning_rate": 1.9041066666666666e-05, + "loss": 0.0915, + "step": 22475 + }, + { + "epoch": 0.143872, + "grad_norm": 2.867893934249878, + "learning_rate": 1.9040853333333337e-05, + "loss": 0.0705, + "step": 22480 + }, + { + "epoch": 0.143904, + "grad_norm": 1.1985032558441162, + "learning_rate": 1.904064e-05, + "loss": 0.0887, + "step": 22485 + }, + { + "epoch": 0.143936, + "grad_norm": 6.237161636352539, + "learning_rate": 1.904042666666667e-05, + "loss": 0.1457, + "step": 22490 + }, + { + "epoch": 0.143968, + "grad_norm": 1.317368745803833, + "learning_rate": 1.9040213333333336e-05, + "loss": 0.1027, + "step": 22495 + }, + { + "epoch": 0.144, + "grad_norm": 2.5422232151031494, + "learning_rate": 1.904e-05, + "loss": 0.0536, + "step": 22500 + }, + { + "epoch": 0.144032, + "grad_norm": 0.5261259078979492, + "learning_rate": 1.9039786666666668e-05, + "loss": 0.0693, + "step": 22505 + }, + { + "epoch": 0.144064, + "grad_norm": 0.5983794927597046, + "learning_rate": 1.9039573333333336e-05, + "loss": 0.1067, + "step": 22510 + }, + { + "epoch": 0.144096, + "grad_norm": 1.243623971939087, + "learning_rate": 1.9039360000000003e-05, + "loss": 0.064, + "step": 22515 + }, + { + "epoch": 0.144128, + "grad_norm": 0.9170613884925842, + "learning_rate": 1.9039146666666667e-05, + "loss": 0.043, + "step": 22520 + }, + { + "epoch": 0.14416, + "grad_norm": 0.8025103211402893, + "learning_rate": 1.9038933333333335e-05, + "loss": 0.0974, + "step": 22525 + }, + { + "epoch": 0.144192, + "grad_norm": 0.6810587048530579, + "learning_rate": 1.9038720000000003e-05, + "loss": 0.0975, + "step": 22530 + }, + { + "epoch": 0.144224, + "grad_norm": 1.0371687412261963, + "learning_rate": 1.9038506666666667e-05, + "loss": 0.0782, + "step": 22535 + }, + { + "epoch": 0.144256, + "grad_norm": 1.1199871301651, + "learning_rate": 1.9038293333333334e-05, + "loss": 0.0843, + "step": 22540 + }, + { + "epoch": 0.144288, + "grad_norm": 1.0682473182678223, + "learning_rate": 1.9038080000000002e-05, + "loss": 0.1027, + "step": 22545 + }, + { + "epoch": 0.14432, + "grad_norm": 0.6585949659347534, + "learning_rate": 1.903786666666667e-05, + "loss": 0.0899, + "step": 22550 + }, + { + "epoch": 0.144352, + "grad_norm": 1.1148045063018799, + "learning_rate": 1.9037653333333334e-05, + "loss": 0.1321, + "step": 22555 + }, + { + "epoch": 0.144384, + "grad_norm": 1.0874947309494019, + "learning_rate": 1.903744e-05, + "loss": 0.0895, + "step": 22560 + }, + { + "epoch": 0.144416, + "grad_norm": 0.5454956293106079, + "learning_rate": 1.903722666666667e-05, + "loss": 0.0703, + "step": 22565 + }, + { + "epoch": 0.144448, + "grad_norm": 0.9875715374946594, + "learning_rate": 1.9037013333333333e-05, + "loss": 0.0783, + "step": 22570 + }, + { + "epoch": 0.14448, + "grad_norm": 0.7471771240234375, + "learning_rate": 1.90368e-05, + "loss": 0.1058, + "step": 22575 + }, + { + "epoch": 0.144512, + "grad_norm": 0.8870118260383606, + "learning_rate": 1.9036586666666668e-05, + "loss": 0.0718, + "step": 22580 + }, + { + "epoch": 0.144544, + "grad_norm": 0.7200286388397217, + "learning_rate": 1.9036373333333336e-05, + "loss": 0.0872, + "step": 22585 + }, + { + "epoch": 0.144576, + "grad_norm": 0.8750149607658386, + "learning_rate": 1.903616e-05, + "loss": 0.0625, + "step": 22590 + }, + { + "epoch": 0.144608, + "grad_norm": 1.981658935546875, + "learning_rate": 1.903594666666667e-05, + "loss": 0.1131, + "step": 22595 + }, + { + "epoch": 0.14464, + "grad_norm": 0.568164050579071, + "learning_rate": 1.9035733333333335e-05, + "loss": 0.0539, + "step": 22600 + }, + { + "epoch": 0.144672, + "grad_norm": 0.6049259901046753, + "learning_rate": 1.903552e-05, + "loss": 0.1191, + "step": 22605 + }, + { + "epoch": 0.144704, + "grad_norm": 0.5438196659088135, + "learning_rate": 1.903530666666667e-05, + "loss": 0.074, + "step": 22610 + }, + { + "epoch": 0.144736, + "grad_norm": 0.6104851365089417, + "learning_rate": 1.9035093333333334e-05, + "loss": 0.054, + "step": 22615 + }, + { + "epoch": 0.144768, + "grad_norm": 0.7550009489059448, + "learning_rate": 1.903488e-05, + "loss": 0.0754, + "step": 22620 + }, + { + "epoch": 0.1448, + "grad_norm": 0.674591600894928, + "learning_rate": 1.903466666666667e-05, + "loss": 0.0533, + "step": 22625 + }, + { + "epoch": 0.144832, + "grad_norm": 0.5911674499511719, + "learning_rate": 1.9034453333333337e-05, + "loss": 0.0832, + "step": 22630 + }, + { + "epoch": 0.144864, + "grad_norm": 0.6063936948776245, + "learning_rate": 1.903424e-05, + "loss": 0.0563, + "step": 22635 + }, + { + "epoch": 0.144896, + "grad_norm": 0.7419305443763733, + "learning_rate": 1.903402666666667e-05, + "loss": 0.076, + "step": 22640 + }, + { + "epoch": 0.144928, + "grad_norm": 2.3354580402374268, + "learning_rate": 1.9033813333333336e-05, + "loss": 0.0785, + "step": 22645 + }, + { + "epoch": 0.14496, + "grad_norm": 0.6244720816612244, + "learning_rate": 1.90336e-05, + "loss": 0.0857, + "step": 22650 + }, + { + "epoch": 0.144992, + "grad_norm": 1.1204577684402466, + "learning_rate": 1.9033386666666668e-05, + "loss": 0.0594, + "step": 22655 + }, + { + "epoch": 0.145024, + "grad_norm": 0.7362520098686218, + "learning_rate": 1.9033173333333335e-05, + "loss": 0.0999, + "step": 22660 + }, + { + "epoch": 0.145056, + "grad_norm": 2.0907673835754395, + "learning_rate": 1.9032960000000003e-05, + "loss": 0.104, + "step": 22665 + }, + { + "epoch": 0.145088, + "grad_norm": 4.719919204711914, + "learning_rate": 1.9032746666666667e-05, + "loss": 0.0862, + "step": 22670 + }, + { + "epoch": 0.14512, + "grad_norm": 0.8466856479644775, + "learning_rate": 1.9032533333333335e-05, + "loss": 0.1089, + "step": 22675 + }, + { + "epoch": 0.145152, + "grad_norm": 1.54439377784729, + "learning_rate": 1.9032320000000002e-05, + "loss": 0.0969, + "step": 22680 + }, + { + "epoch": 0.145184, + "grad_norm": 0.7812750935554504, + "learning_rate": 1.9032106666666666e-05, + "loss": 0.0684, + "step": 22685 + }, + { + "epoch": 0.145216, + "grad_norm": 0.7884843945503235, + "learning_rate": 1.9031893333333337e-05, + "loss": 0.0649, + "step": 22690 + }, + { + "epoch": 0.145248, + "grad_norm": 1.0272108316421509, + "learning_rate": 1.903168e-05, + "loss": 0.1228, + "step": 22695 + }, + { + "epoch": 0.14528, + "grad_norm": 1.038508653640747, + "learning_rate": 1.903146666666667e-05, + "loss": 0.1445, + "step": 22700 + }, + { + "epoch": 0.145312, + "grad_norm": 1.1458747386932373, + "learning_rate": 1.9031253333333337e-05, + "loss": 0.0735, + "step": 22705 + }, + { + "epoch": 0.145344, + "grad_norm": 0.5574299097061157, + "learning_rate": 1.903104e-05, + "loss": 0.0874, + "step": 22710 + }, + { + "epoch": 0.145376, + "grad_norm": 0.8385530114173889, + "learning_rate": 1.9030826666666668e-05, + "loss": 0.1259, + "step": 22715 + }, + { + "epoch": 0.145408, + "grad_norm": 0.6580138802528381, + "learning_rate": 1.9030613333333336e-05, + "loss": 0.0898, + "step": 22720 + }, + { + "epoch": 0.14544, + "grad_norm": 0.6600567102432251, + "learning_rate": 1.9030400000000003e-05, + "loss": 0.0766, + "step": 22725 + }, + { + "epoch": 0.145472, + "grad_norm": 1.0063587427139282, + "learning_rate": 1.9030186666666667e-05, + "loss": 0.0971, + "step": 22730 + }, + { + "epoch": 0.145504, + "grad_norm": 2.04843807220459, + "learning_rate": 1.9029973333333335e-05, + "loss": 0.106, + "step": 22735 + }, + { + "epoch": 0.145536, + "grad_norm": 1.4653043746948242, + "learning_rate": 1.9029760000000003e-05, + "loss": 0.1201, + "step": 22740 + }, + { + "epoch": 0.145568, + "grad_norm": 1.1644715070724487, + "learning_rate": 1.9029546666666667e-05, + "loss": 0.0805, + "step": 22745 + }, + { + "epoch": 0.1456, + "grad_norm": 1.2802698612213135, + "learning_rate": 1.9029333333333334e-05, + "loss": 0.0734, + "step": 22750 + }, + { + "epoch": 0.145632, + "grad_norm": 1.4416093826293945, + "learning_rate": 1.9029120000000002e-05, + "loss": 0.1039, + "step": 22755 + }, + { + "epoch": 0.145664, + "grad_norm": 0.9748807549476624, + "learning_rate": 1.902890666666667e-05, + "loss": 0.0622, + "step": 22760 + }, + { + "epoch": 0.145696, + "grad_norm": 1.5315231084823608, + "learning_rate": 1.9028693333333334e-05, + "loss": 0.1157, + "step": 22765 + }, + { + "epoch": 0.145728, + "grad_norm": 1.1615173816680908, + "learning_rate": 1.902848e-05, + "loss": 0.0744, + "step": 22770 + }, + { + "epoch": 0.14576, + "grad_norm": 0.642659068107605, + "learning_rate": 1.902826666666667e-05, + "loss": 0.0649, + "step": 22775 + }, + { + "epoch": 0.145792, + "grad_norm": 1.1869572401046753, + "learning_rate": 1.9028053333333333e-05, + "loss": 0.1006, + "step": 22780 + }, + { + "epoch": 0.145824, + "grad_norm": 1.053774356842041, + "learning_rate": 1.902784e-05, + "loss": 0.078, + "step": 22785 + }, + { + "epoch": 0.145856, + "grad_norm": 0.7402283549308777, + "learning_rate": 1.9027626666666668e-05, + "loss": 0.0677, + "step": 22790 + }, + { + "epoch": 0.145888, + "grad_norm": 0.609101414680481, + "learning_rate": 1.9027413333333336e-05, + "loss": 0.0722, + "step": 22795 + }, + { + "epoch": 0.14592, + "grad_norm": 0.530268669128418, + "learning_rate": 1.90272e-05, + "loss": 0.0863, + "step": 22800 + }, + { + "epoch": 0.145952, + "grad_norm": 0.6650732159614563, + "learning_rate": 1.902698666666667e-05, + "loss": 0.0884, + "step": 22805 + }, + { + "epoch": 0.145984, + "grad_norm": 0.7254103422164917, + "learning_rate": 1.9026773333333335e-05, + "loss": 0.0911, + "step": 22810 + }, + { + "epoch": 0.146016, + "grad_norm": 1.031928300857544, + "learning_rate": 1.902656e-05, + "loss": 0.0618, + "step": 22815 + }, + { + "epoch": 0.146048, + "grad_norm": 1.1234647035598755, + "learning_rate": 1.902634666666667e-05, + "loss": 0.0941, + "step": 22820 + }, + { + "epoch": 0.14608, + "grad_norm": 0.8922110199928284, + "learning_rate": 1.9026133333333334e-05, + "loss": 0.1003, + "step": 22825 + }, + { + "epoch": 0.146112, + "grad_norm": 0.5728625655174255, + "learning_rate": 1.902592e-05, + "loss": 0.0604, + "step": 22830 + }, + { + "epoch": 0.146144, + "grad_norm": 1.2585710287094116, + "learning_rate": 1.902570666666667e-05, + "loss": 0.0976, + "step": 22835 + }, + { + "epoch": 0.146176, + "grad_norm": 0.9822584986686707, + "learning_rate": 1.9025493333333337e-05, + "loss": 0.1343, + "step": 22840 + }, + { + "epoch": 0.146208, + "grad_norm": 0.8725280165672302, + "learning_rate": 1.902528e-05, + "loss": 0.0711, + "step": 22845 + }, + { + "epoch": 0.14624, + "grad_norm": 1.4821360111236572, + "learning_rate": 1.902506666666667e-05, + "loss": 0.1228, + "step": 22850 + }, + { + "epoch": 0.146272, + "grad_norm": 0.9569385647773743, + "learning_rate": 1.9024853333333336e-05, + "loss": 0.0887, + "step": 22855 + }, + { + "epoch": 0.146304, + "grad_norm": 1.666210651397705, + "learning_rate": 1.902464e-05, + "loss": 0.1355, + "step": 22860 + }, + { + "epoch": 0.146336, + "grad_norm": 0.7837823629379272, + "learning_rate": 1.9024426666666668e-05, + "loss": 0.0862, + "step": 22865 + }, + { + "epoch": 0.146368, + "grad_norm": 1.9955613613128662, + "learning_rate": 1.9024213333333335e-05, + "loss": 0.0907, + "step": 22870 + }, + { + "epoch": 0.1464, + "grad_norm": 0.9200124144554138, + "learning_rate": 1.9024000000000003e-05, + "loss": 0.0871, + "step": 22875 + }, + { + "epoch": 0.146432, + "grad_norm": 0.6654586791992188, + "learning_rate": 1.9023786666666667e-05, + "loss": 0.0807, + "step": 22880 + }, + { + "epoch": 0.146464, + "grad_norm": 0.810207188129425, + "learning_rate": 1.9023573333333335e-05, + "loss": 0.0746, + "step": 22885 + }, + { + "epoch": 0.146496, + "grad_norm": 1.4416768550872803, + "learning_rate": 1.9023360000000002e-05, + "loss": 0.0915, + "step": 22890 + }, + { + "epoch": 0.146528, + "grad_norm": 1.0031788349151611, + "learning_rate": 1.9023146666666666e-05, + "loss": 0.0526, + "step": 22895 + }, + { + "epoch": 0.14656, + "grad_norm": 1.0022943019866943, + "learning_rate": 1.9022933333333334e-05, + "loss": 0.0882, + "step": 22900 + }, + { + "epoch": 0.146592, + "grad_norm": 2.9368655681610107, + "learning_rate": 1.902272e-05, + "loss": 0.1217, + "step": 22905 + }, + { + "epoch": 0.146624, + "grad_norm": 2.239438056945801, + "learning_rate": 1.902250666666667e-05, + "loss": 0.0852, + "step": 22910 + }, + { + "epoch": 0.146656, + "grad_norm": 0.39827752113342285, + "learning_rate": 1.9022293333333337e-05, + "loss": 0.0754, + "step": 22915 + }, + { + "epoch": 0.146688, + "grad_norm": 0.5528264045715332, + "learning_rate": 1.902208e-05, + "loss": 0.0964, + "step": 22920 + }, + { + "epoch": 0.14672, + "grad_norm": 0.47277650237083435, + "learning_rate": 1.9021866666666668e-05, + "loss": 0.0848, + "step": 22925 + }, + { + "epoch": 0.146752, + "grad_norm": 0.9496167898178101, + "learning_rate": 1.9021653333333336e-05, + "loss": 0.0932, + "step": 22930 + }, + { + "epoch": 0.146784, + "grad_norm": 1.208787202835083, + "learning_rate": 1.9021440000000003e-05, + "loss": 0.1237, + "step": 22935 + }, + { + "epoch": 0.146816, + "grad_norm": 0.6704745888710022, + "learning_rate": 1.9021226666666668e-05, + "loss": 0.0803, + "step": 22940 + }, + { + "epoch": 0.146848, + "grad_norm": 0.6115182042121887, + "learning_rate": 1.9021013333333335e-05, + "loss": 0.0864, + "step": 22945 + }, + { + "epoch": 0.14688, + "grad_norm": 1.6703261137008667, + "learning_rate": 1.9020800000000003e-05, + "loss": 0.0954, + "step": 22950 + }, + { + "epoch": 0.146912, + "grad_norm": 0.8417483568191528, + "learning_rate": 1.9020586666666667e-05, + "loss": 0.0784, + "step": 22955 + }, + { + "epoch": 0.146944, + "grad_norm": 1.7375179529190063, + "learning_rate": 1.9020373333333334e-05, + "loss": 0.1201, + "step": 22960 + }, + { + "epoch": 0.146976, + "grad_norm": 0.8055101633071899, + "learning_rate": 1.9020160000000002e-05, + "loss": 0.1112, + "step": 22965 + }, + { + "epoch": 0.147008, + "grad_norm": 1.1010147333145142, + "learning_rate": 1.901994666666667e-05, + "loss": 0.0837, + "step": 22970 + }, + { + "epoch": 0.14704, + "grad_norm": 1.1494790315628052, + "learning_rate": 1.9019733333333334e-05, + "loss": 0.0651, + "step": 22975 + }, + { + "epoch": 0.147072, + "grad_norm": 1.108620047569275, + "learning_rate": 1.901952e-05, + "loss": 0.0861, + "step": 22980 + }, + { + "epoch": 0.147104, + "grad_norm": 0.9910009503364563, + "learning_rate": 1.901930666666667e-05, + "loss": 0.0703, + "step": 22985 + }, + { + "epoch": 0.147136, + "grad_norm": 0.47504761815071106, + "learning_rate": 1.9019093333333333e-05, + "loss": 0.0678, + "step": 22990 + }, + { + "epoch": 0.147168, + "grad_norm": 0.6793185472488403, + "learning_rate": 1.901888e-05, + "loss": 0.0511, + "step": 22995 + }, + { + "epoch": 0.1472, + "grad_norm": 1.473241925239563, + "learning_rate": 1.9018666666666668e-05, + "loss": 0.0868, + "step": 23000 + }, + { + "epoch": 0.147232, + "grad_norm": 0.8293493986129761, + "learning_rate": 1.9018453333333336e-05, + "loss": 0.0879, + "step": 23005 + }, + { + "epoch": 0.147264, + "grad_norm": 0.40086179971694946, + "learning_rate": 1.901824e-05, + "loss": 0.0662, + "step": 23010 + }, + { + "epoch": 0.147296, + "grad_norm": 1.53928542137146, + "learning_rate": 1.901802666666667e-05, + "loss": 0.1126, + "step": 23015 + }, + { + "epoch": 0.147328, + "grad_norm": 0.821792483329773, + "learning_rate": 1.9017813333333335e-05, + "loss": 0.0854, + "step": 23020 + }, + { + "epoch": 0.14736, + "grad_norm": 0.8004368543624878, + "learning_rate": 1.90176e-05, + "loss": 0.1164, + "step": 23025 + }, + { + "epoch": 0.147392, + "grad_norm": 0.9024498462677002, + "learning_rate": 1.901738666666667e-05, + "loss": 0.0962, + "step": 23030 + }, + { + "epoch": 0.147424, + "grad_norm": 0.8565772771835327, + "learning_rate": 1.9017173333333334e-05, + "loss": 0.0635, + "step": 23035 + }, + { + "epoch": 0.147456, + "grad_norm": 1.0638374090194702, + "learning_rate": 1.901696e-05, + "loss": 0.0993, + "step": 23040 + }, + { + "epoch": 0.147488, + "grad_norm": 1.3246712684631348, + "learning_rate": 1.901674666666667e-05, + "loss": 0.0814, + "step": 23045 + }, + { + "epoch": 0.14752, + "grad_norm": 1.6425349712371826, + "learning_rate": 1.9016533333333337e-05, + "loss": 0.0689, + "step": 23050 + }, + { + "epoch": 0.147552, + "grad_norm": 0.7768430113792419, + "learning_rate": 1.901632e-05, + "loss": 0.0663, + "step": 23055 + }, + { + "epoch": 0.147584, + "grad_norm": 0.9015811085700989, + "learning_rate": 1.901610666666667e-05, + "loss": 0.0881, + "step": 23060 + }, + { + "epoch": 0.147616, + "grad_norm": 0.8142736554145813, + "learning_rate": 1.9015893333333336e-05, + "loss": 0.0703, + "step": 23065 + }, + { + "epoch": 0.147648, + "grad_norm": 0.6928207278251648, + "learning_rate": 1.901568e-05, + "loss": 0.0839, + "step": 23070 + }, + { + "epoch": 0.14768, + "grad_norm": 1.395226001739502, + "learning_rate": 1.9015466666666668e-05, + "loss": 0.0719, + "step": 23075 + }, + { + "epoch": 0.147712, + "grad_norm": 0.9454600214958191, + "learning_rate": 1.9015253333333335e-05, + "loss": 0.0689, + "step": 23080 + }, + { + "epoch": 0.147744, + "grad_norm": 2.0839385986328125, + "learning_rate": 1.9015040000000003e-05, + "loss": 0.1123, + "step": 23085 + }, + { + "epoch": 0.147776, + "grad_norm": 2.1164474487304688, + "learning_rate": 1.9014826666666667e-05, + "loss": 0.0713, + "step": 23090 + }, + { + "epoch": 0.147808, + "grad_norm": 1.3262213468551636, + "learning_rate": 1.9014613333333335e-05, + "loss": 0.0765, + "step": 23095 + }, + { + "epoch": 0.14784, + "grad_norm": 0.8860594034194946, + "learning_rate": 1.9014400000000002e-05, + "loss": 0.0663, + "step": 23100 + }, + { + "epoch": 0.147872, + "grad_norm": 1.213213324546814, + "learning_rate": 1.9014186666666666e-05, + "loss": 0.1069, + "step": 23105 + }, + { + "epoch": 0.147904, + "grad_norm": 0.4602176547050476, + "learning_rate": 1.9013973333333334e-05, + "loss": 0.0683, + "step": 23110 + }, + { + "epoch": 0.147936, + "grad_norm": 1.1338828802108765, + "learning_rate": 1.901376e-05, + "loss": 0.11, + "step": 23115 + }, + { + "epoch": 0.147968, + "grad_norm": 1.2903813123703003, + "learning_rate": 1.901354666666667e-05, + "loss": 0.0819, + "step": 23120 + }, + { + "epoch": 0.148, + "grad_norm": 0.9302852749824524, + "learning_rate": 1.9013333333333333e-05, + "loss": 0.0702, + "step": 23125 + }, + { + "epoch": 0.148032, + "grad_norm": 1.9245067834854126, + "learning_rate": 1.901312e-05, + "loss": 0.0922, + "step": 23130 + }, + { + "epoch": 0.148064, + "grad_norm": 0.6986055970191956, + "learning_rate": 1.9012906666666668e-05, + "loss": 0.0841, + "step": 23135 + }, + { + "epoch": 0.148096, + "grad_norm": 0.918864369392395, + "learning_rate": 1.9012693333333336e-05, + "loss": 0.1067, + "step": 23140 + }, + { + "epoch": 0.148128, + "grad_norm": 0.9433552622795105, + "learning_rate": 1.9012480000000003e-05, + "loss": 0.0681, + "step": 23145 + }, + { + "epoch": 0.14816, + "grad_norm": 1.1013445854187012, + "learning_rate": 1.9012266666666668e-05, + "loss": 0.0884, + "step": 23150 + }, + { + "epoch": 0.148192, + "grad_norm": 0.7449496984481812, + "learning_rate": 1.9012053333333335e-05, + "loss": 0.0998, + "step": 23155 + }, + { + "epoch": 0.148224, + "grad_norm": 0.9190978407859802, + "learning_rate": 1.9011840000000003e-05, + "loss": 0.0635, + "step": 23160 + }, + { + "epoch": 0.148256, + "grad_norm": 1.0868984460830688, + "learning_rate": 1.9011626666666667e-05, + "loss": 0.0796, + "step": 23165 + }, + { + "epoch": 0.148288, + "grad_norm": 0.37696734070777893, + "learning_rate": 1.9011413333333334e-05, + "loss": 0.0848, + "step": 23170 + }, + { + "epoch": 0.14832, + "grad_norm": 0.963405966758728, + "learning_rate": 1.9011200000000002e-05, + "loss": 0.0878, + "step": 23175 + }, + { + "epoch": 0.148352, + "grad_norm": 0.7927380204200745, + "learning_rate": 1.901098666666667e-05, + "loss": 0.086, + "step": 23180 + }, + { + "epoch": 0.148384, + "grad_norm": 0.715580403804779, + "learning_rate": 1.9010773333333334e-05, + "loss": 0.0665, + "step": 23185 + }, + { + "epoch": 0.148416, + "grad_norm": 1.6970635652542114, + "learning_rate": 1.901056e-05, + "loss": 0.1034, + "step": 23190 + }, + { + "epoch": 0.148448, + "grad_norm": 1.1897670030593872, + "learning_rate": 1.901034666666667e-05, + "loss": 0.0823, + "step": 23195 + }, + { + "epoch": 0.14848, + "grad_norm": 0.40596991777420044, + "learning_rate": 1.9010133333333336e-05, + "loss": 0.0808, + "step": 23200 + }, + { + "epoch": 0.148512, + "grad_norm": 0.8843274712562561, + "learning_rate": 1.900992e-05, + "loss": 0.0993, + "step": 23205 + }, + { + "epoch": 0.148544, + "grad_norm": 0.6644881963729858, + "learning_rate": 1.9009706666666668e-05, + "loss": 0.0744, + "step": 23210 + }, + { + "epoch": 0.148576, + "grad_norm": 0.9023177027702332, + "learning_rate": 1.9009493333333336e-05, + "loss": 0.0856, + "step": 23215 + }, + { + "epoch": 0.148608, + "grad_norm": 0.22053387761116028, + "learning_rate": 1.900928e-05, + "loss": 0.055, + "step": 23220 + }, + { + "epoch": 0.14864, + "grad_norm": 1.4013464450836182, + "learning_rate": 1.900906666666667e-05, + "loss": 0.101, + "step": 23225 + }, + { + "epoch": 0.148672, + "grad_norm": 0.9399171471595764, + "learning_rate": 1.9008853333333335e-05, + "loss": 0.0539, + "step": 23230 + }, + { + "epoch": 0.148704, + "grad_norm": 0.8548815846443176, + "learning_rate": 1.9008640000000002e-05, + "loss": 0.1146, + "step": 23235 + }, + { + "epoch": 0.148736, + "grad_norm": 0.8989670276641846, + "learning_rate": 1.900842666666667e-05, + "loss": 0.0775, + "step": 23240 + }, + { + "epoch": 0.148768, + "grad_norm": 4.260717391967773, + "learning_rate": 1.9008213333333334e-05, + "loss": 0.0964, + "step": 23245 + }, + { + "epoch": 0.1488, + "grad_norm": 0.9606093168258667, + "learning_rate": 1.9008e-05, + "loss": 0.0653, + "step": 23250 + }, + { + "epoch": 0.148832, + "grad_norm": 0.6255712509155273, + "learning_rate": 1.900778666666667e-05, + "loss": 0.0892, + "step": 23255 + }, + { + "epoch": 0.148864, + "grad_norm": 0.8130149841308594, + "learning_rate": 1.9007573333333337e-05, + "loss": 0.0952, + "step": 23260 + }, + { + "epoch": 0.148896, + "grad_norm": 2.4499335289001465, + "learning_rate": 1.900736e-05, + "loss": 0.0697, + "step": 23265 + }, + { + "epoch": 0.148928, + "grad_norm": 1.5453497171401978, + "learning_rate": 1.900714666666667e-05, + "loss": 0.103, + "step": 23270 + }, + { + "epoch": 0.14896, + "grad_norm": 0.5231108069419861, + "learning_rate": 1.9006933333333336e-05, + "loss": 0.0844, + "step": 23275 + }, + { + "epoch": 0.148992, + "grad_norm": 0.8755027055740356, + "learning_rate": 1.900672e-05, + "loss": 0.0757, + "step": 23280 + }, + { + "epoch": 0.149024, + "grad_norm": 0.5230838656425476, + "learning_rate": 1.9006506666666668e-05, + "loss": 0.0854, + "step": 23285 + }, + { + "epoch": 0.149056, + "grad_norm": 0.9508649110794067, + "learning_rate": 1.9006293333333335e-05, + "loss": 0.059, + "step": 23290 + }, + { + "epoch": 0.149088, + "grad_norm": 1.3481194972991943, + "learning_rate": 1.9006080000000003e-05, + "loss": 0.0775, + "step": 23295 + }, + { + "epoch": 0.14912, + "grad_norm": 0.7177407145500183, + "learning_rate": 1.9005866666666667e-05, + "loss": 0.0898, + "step": 23300 + }, + { + "epoch": 0.149152, + "grad_norm": 0.585426926612854, + "learning_rate": 1.9005653333333335e-05, + "loss": 0.1486, + "step": 23305 + }, + { + "epoch": 0.149184, + "grad_norm": 0.9788582921028137, + "learning_rate": 1.9005440000000002e-05, + "loss": 0.0967, + "step": 23310 + }, + { + "epoch": 0.149216, + "grad_norm": 1.3124111890792847, + "learning_rate": 1.9005226666666666e-05, + "loss": 0.0897, + "step": 23315 + }, + { + "epoch": 0.149248, + "grad_norm": 1.209986686706543, + "learning_rate": 1.9005013333333334e-05, + "loss": 0.0749, + "step": 23320 + }, + { + "epoch": 0.14928, + "grad_norm": 0.9943646788597107, + "learning_rate": 1.90048e-05, + "loss": 0.0985, + "step": 23325 + }, + { + "epoch": 0.149312, + "grad_norm": 0.8002524971961975, + "learning_rate": 1.900458666666667e-05, + "loss": 0.0898, + "step": 23330 + }, + { + "epoch": 0.149344, + "grad_norm": 0.2718195617198944, + "learning_rate": 1.9004373333333333e-05, + "loss": 0.1242, + "step": 23335 + }, + { + "epoch": 0.149376, + "grad_norm": 0.5899308919906616, + "learning_rate": 1.9004160000000004e-05, + "loss": 0.0727, + "step": 23340 + }, + { + "epoch": 0.149408, + "grad_norm": 0.7786296606063843, + "learning_rate": 1.9003946666666668e-05, + "loss": 0.0632, + "step": 23345 + }, + { + "epoch": 0.14944, + "grad_norm": 1.136031985282898, + "learning_rate": 1.9003733333333332e-05, + "loss": 0.1002, + "step": 23350 + }, + { + "epoch": 0.149472, + "grad_norm": 1.6531752347946167, + "learning_rate": 1.9003520000000003e-05, + "loss": 0.0928, + "step": 23355 + }, + { + "epoch": 0.149504, + "grad_norm": 0.5338490009307861, + "learning_rate": 1.9003306666666668e-05, + "loss": 0.0795, + "step": 23360 + }, + { + "epoch": 0.149536, + "grad_norm": 0.7572566866874695, + "learning_rate": 1.9003093333333335e-05, + "loss": 0.0713, + "step": 23365 + }, + { + "epoch": 0.149568, + "grad_norm": 0.7880591750144958, + "learning_rate": 1.9002880000000003e-05, + "loss": 0.108, + "step": 23370 + }, + { + "epoch": 0.1496, + "grad_norm": 0.43804848194122314, + "learning_rate": 1.900266666666667e-05, + "loss": 0.0822, + "step": 23375 + }, + { + "epoch": 0.149632, + "grad_norm": 0.6222441792488098, + "learning_rate": 1.9002453333333334e-05, + "loss": 0.0757, + "step": 23380 + }, + { + "epoch": 0.149664, + "grad_norm": 0.7607654333114624, + "learning_rate": 1.9002240000000002e-05, + "loss": 0.0835, + "step": 23385 + }, + { + "epoch": 0.149696, + "grad_norm": 0.7018030285835266, + "learning_rate": 1.900202666666667e-05, + "loss": 0.078, + "step": 23390 + }, + { + "epoch": 0.149728, + "grad_norm": 1.1053426265716553, + "learning_rate": 1.9001813333333334e-05, + "loss": 0.0905, + "step": 23395 + }, + { + "epoch": 0.14976, + "grad_norm": 1.0468816757202148, + "learning_rate": 1.90016e-05, + "loss": 0.1101, + "step": 23400 + }, + { + "epoch": 0.149792, + "grad_norm": 1.2741138935089111, + "learning_rate": 1.900138666666667e-05, + "loss": 0.0884, + "step": 23405 + }, + { + "epoch": 0.149824, + "grad_norm": 0.7940964698791504, + "learning_rate": 1.9001173333333336e-05, + "loss": 0.0715, + "step": 23410 + }, + { + "epoch": 0.149856, + "grad_norm": 1.359560251235962, + "learning_rate": 1.900096e-05, + "loss": 0.0994, + "step": 23415 + }, + { + "epoch": 0.149888, + "grad_norm": 1.9574311971664429, + "learning_rate": 1.9000746666666668e-05, + "loss": 0.0682, + "step": 23420 + }, + { + "epoch": 0.14992, + "grad_norm": 1.0000197887420654, + "learning_rate": 1.9000533333333336e-05, + "loss": 0.1335, + "step": 23425 + }, + { + "epoch": 0.149952, + "grad_norm": 1.7473368644714355, + "learning_rate": 1.900032e-05, + "loss": 0.0648, + "step": 23430 + }, + { + "epoch": 0.149984, + "grad_norm": 0.743361234664917, + "learning_rate": 1.9000106666666667e-05, + "loss": 0.1007, + "step": 23435 + }, + { + "epoch": 0.150016, + "grad_norm": 0.6128876805305481, + "learning_rate": 1.8999893333333335e-05, + "loss": 0.0682, + "step": 23440 + }, + { + "epoch": 0.150048, + "grad_norm": 1.0004973411560059, + "learning_rate": 1.8999680000000002e-05, + "loss": 0.1133, + "step": 23445 + }, + { + "epoch": 0.15008, + "grad_norm": 1.0246163606643677, + "learning_rate": 1.899946666666667e-05, + "loss": 0.0937, + "step": 23450 + }, + { + "epoch": 0.150112, + "grad_norm": 2.155120372772217, + "learning_rate": 1.8999253333333334e-05, + "loss": 0.0862, + "step": 23455 + }, + { + "epoch": 0.150144, + "grad_norm": 0.9889230728149414, + "learning_rate": 1.899904e-05, + "loss": 0.0848, + "step": 23460 + }, + { + "epoch": 0.150176, + "grad_norm": 0.6045379638671875, + "learning_rate": 1.899882666666667e-05, + "loss": 0.063, + "step": 23465 + }, + { + "epoch": 0.150208, + "grad_norm": 1.323850154876709, + "learning_rate": 1.8998613333333337e-05, + "loss": 0.0609, + "step": 23470 + }, + { + "epoch": 0.15024, + "grad_norm": 2.8539395332336426, + "learning_rate": 1.89984e-05, + "loss": 0.1574, + "step": 23475 + }, + { + "epoch": 0.150272, + "grad_norm": 0.8633188009262085, + "learning_rate": 1.899818666666667e-05, + "loss": 0.0729, + "step": 23480 + }, + { + "epoch": 0.150304, + "grad_norm": 0.801562488079071, + "learning_rate": 1.8997973333333336e-05, + "loss": 0.1065, + "step": 23485 + }, + { + "epoch": 0.150336, + "grad_norm": 1.6056666374206543, + "learning_rate": 1.899776e-05, + "loss": 0.1189, + "step": 23490 + }, + { + "epoch": 0.150368, + "grad_norm": 1.782135009765625, + "learning_rate": 1.8997546666666668e-05, + "loss": 0.1296, + "step": 23495 + }, + { + "epoch": 0.1504, + "grad_norm": 0.8969205021858215, + "learning_rate": 1.8997333333333335e-05, + "loss": 0.0744, + "step": 23500 + }, + { + "epoch": 0.150432, + "grad_norm": 0.9386404156684875, + "learning_rate": 1.8997120000000003e-05, + "loss": 0.0928, + "step": 23505 + }, + { + "epoch": 0.150464, + "grad_norm": 0.6290164589881897, + "learning_rate": 1.8996906666666667e-05, + "loss": 0.0868, + "step": 23510 + }, + { + "epoch": 0.150496, + "grad_norm": 0.6150859594345093, + "learning_rate": 1.8996693333333335e-05, + "loss": 0.082, + "step": 23515 + }, + { + "epoch": 0.150528, + "grad_norm": 0.7357646822929382, + "learning_rate": 1.8996480000000002e-05, + "loss": 0.0778, + "step": 23520 + }, + { + "epoch": 0.15056, + "grad_norm": 1.3504801988601685, + "learning_rate": 1.8996266666666666e-05, + "loss": 0.1254, + "step": 23525 + }, + { + "epoch": 0.150592, + "grad_norm": 1.567063808441162, + "learning_rate": 1.8996053333333334e-05, + "loss": 0.0836, + "step": 23530 + }, + { + "epoch": 0.150624, + "grad_norm": 1.368857741355896, + "learning_rate": 1.899584e-05, + "loss": 0.0867, + "step": 23535 + }, + { + "epoch": 0.150656, + "grad_norm": 3.135266065597534, + "learning_rate": 1.899562666666667e-05, + "loss": 0.1056, + "step": 23540 + }, + { + "epoch": 0.150688, + "grad_norm": 0.8429180979728699, + "learning_rate": 1.8995413333333333e-05, + "loss": 0.0683, + "step": 23545 + }, + { + "epoch": 0.15072, + "grad_norm": 0.9621772766113281, + "learning_rate": 1.8995200000000004e-05, + "loss": 0.0916, + "step": 23550 + }, + { + "epoch": 0.150752, + "grad_norm": 1.013167142868042, + "learning_rate": 1.8994986666666668e-05, + "loss": 0.0808, + "step": 23555 + }, + { + "epoch": 0.150784, + "grad_norm": 1.7336351871490479, + "learning_rate": 1.8994773333333332e-05, + "loss": 0.0599, + "step": 23560 + }, + { + "epoch": 0.150816, + "grad_norm": 1.2159732580184937, + "learning_rate": 1.8994560000000003e-05, + "loss": 0.0602, + "step": 23565 + }, + { + "epoch": 0.150848, + "grad_norm": 0.6480636596679688, + "learning_rate": 1.8994346666666668e-05, + "loss": 0.0791, + "step": 23570 + }, + { + "epoch": 0.15088, + "grad_norm": 1.2335238456726074, + "learning_rate": 1.8994133333333335e-05, + "loss": 0.0889, + "step": 23575 + }, + { + "epoch": 0.150912, + "grad_norm": 1.0231146812438965, + "learning_rate": 1.8993920000000003e-05, + "loss": 0.0823, + "step": 23580 + }, + { + "epoch": 0.150944, + "grad_norm": 0.8195967078208923, + "learning_rate": 1.899370666666667e-05, + "loss": 0.0804, + "step": 23585 + }, + { + "epoch": 0.150976, + "grad_norm": 0.6776622533798218, + "learning_rate": 1.8993493333333334e-05, + "loss": 0.082, + "step": 23590 + }, + { + "epoch": 0.151008, + "grad_norm": 0.5080822706222534, + "learning_rate": 1.8993280000000002e-05, + "loss": 0.1053, + "step": 23595 + }, + { + "epoch": 0.15104, + "grad_norm": 0.6180532574653625, + "learning_rate": 1.899306666666667e-05, + "loss": 0.0742, + "step": 23600 + }, + { + "epoch": 0.151072, + "grad_norm": 3.033419609069824, + "learning_rate": 1.8992853333333334e-05, + "loss": 0.0702, + "step": 23605 + }, + { + "epoch": 0.151104, + "grad_norm": 0.37266406416893005, + "learning_rate": 1.899264e-05, + "loss": 0.0761, + "step": 23610 + }, + { + "epoch": 0.151136, + "grad_norm": 1.1857986450195312, + "learning_rate": 1.899242666666667e-05, + "loss": 0.0557, + "step": 23615 + }, + { + "epoch": 0.151168, + "grad_norm": 0.8700276613235474, + "learning_rate": 1.8992213333333336e-05, + "loss": 0.1222, + "step": 23620 + }, + { + "epoch": 0.1512, + "grad_norm": 1.0214594602584839, + "learning_rate": 1.8992e-05, + "loss": 0.0972, + "step": 23625 + }, + { + "epoch": 0.151232, + "grad_norm": 0.7669883370399475, + "learning_rate": 1.8991786666666668e-05, + "loss": 0.0862, + "step": 23630 + }, + { + "epoch": 0.151264, + "grad_norm": 1.2186311483383179, + "learning_rate": 1.8991573333333336e-05, + "loss": 0.0747, + "step": 23635 + }, + { + "epoch": 0.151296, + "grad_norm": 0.7115461230278015, + "learning_rate": 1.899136e-05, + "loss": 0.0808, + "step": 23640 + }, + { + "epoch": 0.151328, + "grad_norm": 1.3697659969329834, + "learning_rate": 1.8991146666666667e-05, + "loss": 0.093, + "step": 23645 + }, + { + "epoch": 0.15136, + "grad_norm": 0.7093856334686279, + "learning_rate": 1.8990933333333335e-05, + "loss": 0.0989, + "step": 23650 + }, + { + "epoch": 0.151392, + "grad_norm": 0.6497441530227661, + "learning_rate": 1.8990720000000002e-05, + "loss": 0.0946, + "step": 23655 + }, + { + "epoch": 0.151424, + "grad_norm": 0.789178192615509, + "learning_rate": 1.8990506666666667e-05, + "loss": 0.1064, + "step": 23660 + }, + { + "epoch": 0.151456, + "grad_norm": 0.6765008568763733, + "learning_rate": 1.8990293333333334e-05, + "loss": 0.0953, + "step": 23665 + }, + { + "epoch": 0.151488, + "grad_norm": 0.631708025932312, + "learning_rate": 1.899008e-05, + "loss": 0.0759, + "step": 23670 + }, + { + "epoch": 0.15152, + "grad_norm": 1.395520567893982, + "learning_rate": 1.898986666666667e-05, + "loss": 0.0748, + "step": 23675 + }, + { + "epoch": 0.151552, + "grad_norm": 0.599570631980896, + "learning_rate": 1.8989653333333337e-05, + "loss": 0.1007, + "step": 23680 + }, + { + "epoch": 0.151584, + "grad_norm": 1.090898036956787, + "learning_rate": 1.898944e-05, + "loss": 0.0904, + "step": 23685 + }, + { + "epoch": 0.151616, + "grad_norm": 0.990484356880188, + "learning_rate": 1.898922666666667e-05, + "loss": 0.1069, + "step": 23690 + }, + { + "epoch": 0.151648, + "grad_norm": 0.7315467000007629, + "learning_rate": 1.8989013333333336e-05, + "loss": 0.1402, + "step": 23695 + }, + { + "epoch": 0.15168, + "grad_norm": 1.6342742443084717, + "learning_rate": 1.89888e-05, + "loss": 0.0953, + "step": 23700 + }, + { + "epoch": 0.151712, + "grad_norm": 0.9343111515045166, + "learning_rate": 1.8988586666666668e-05, + "loss": 0.0678, + "step": 23705 + }, + { + "epoch": 0.151744, + "grad_norm": 0.7538066506385803, + "learning_rate": 1.8988373333333335e-05, + "loss": 0.074, + "step": 23710 + }, + { + "epoch": 0.151776, + "grad_norm": 1.1459755897521973, + "learning_rate": 1.8988160000000003e-05, + "loss": 0.0828, + "step": 23715 + }, + { + "epoch": 0.151808, + "grad_norm": 0.31765854358673096, + "learning_rate": 1.8987946666666667e-05, + "loss": 0.0586, + "step": 23720 + }, + { + "epoch": 0.15184, + "grad_norm": 0.6651280522346497, + "learning_rate": 1.8987733333333335e-05, + "loss": 0.0977, + "step": 23725 + }, + { + "epoch": 0.151872, + "grad_norm": 3.17181396484375, + "learning_rate": 1.8987520000000002e-05, + "loss": 0.1143, + "step": 23730 + }, + { + "epoch": 0.151904, + "grad_norm": 1.0698739290237427, + "learning_rate": 1.8987306666666666e-05, + "loss": 0.0876, + "step": 23735 + }, + { + "epoch": 0.151936, + "grad_norm": 0.7767348289489746, + "learning_rate": 1.8987093333333334e-05, + "loss": 0.0622, + "step": 23740 + }, + { + "epoch": 0.151968, + "grad_norm": 1.5140461921691895, + "learning_rate": 1.898688e-05, + "loss": 0.1025, + "step": 23745 + }, + { + "epoch": 0.152, + "grad_norm": 0.542066752910614, + "learning_rate": 1.898666666666667e-05, + "loss": 0.0915, + "step": 23750 + }, + { + "epoch": 0.152032, + "grad_norm": 1.2448538541793823, + "learning_rate": 1.8986453333333333e-05, + "loss": 0.0937, + "step": 23755 + }, + { + "epoch": 0.152064, + "grad_norm": 1.1705728769302368, + "learning_rate": 1.8986240000000004e-05, + "loss": 0.1034, + "step": 23760 + }, + { + "epoch": 0.152096, + "grad_norm": 0.7886084318161011, + "learning_rate": 1.8986026666666668e-05, + "loss": 0.055, + "step": 23765 + }, + { + "epoch": 0.152128, + "grad_norm": 7.063121795654297, + "learning_rate": 1.8985813333333332e-05, + "loss": 0.0843, + "step": 23770 + }, + { + "epoch": 0.15216, + "grad_norm": 0.9979680776596069, + "learning_rate": 1.8985600000000003e-05, + "loss": 0.0773, + "step": 23775 + }, + { + "epoch": 0.152192, + "grad_norm": 0.7310963869094849, + "learning_rate": 1.8985386666666668e-05, + "loss": 0.0717, + "step": 23780 + }, + { + "epoch": 0.152224, + "grad_norm": 0.474220335483551, + "learning_rate": 1.8985173333333335e-05, + "loss": 0.0478, + "step": 23785 + }, + { + "epoch": 0.152256, + "grad_norm": 0.4795185625553131, + "learning_rate": 1.8984960000000003e-05, + "loss": 0.0532, + "step": 23790 + }, + { + "epoch": 0.152288, + "grad_norm": 2.6520636081695557, + "learning_rate": 1.898474666666667e-05, + "loss": 0.0777, + "step": 23795 + }, + { + "epoch": 0.15232, + "grad_norm": 0.565631091594696, + "learning_rate": 1.8984533333333334e-05, + "loss": 0.0864, + "step": 23800 + }, + { + "epoch": 0.152352, + "grad_norm": 1.7482796907424927, + "learning_rate": 1.8984320000000002e-05, + "loss": 0.0901, + "step": 23805 + }, + { + "epoch": 0.152384, + "grad_norm": 1.364035725593567, + "learning_rate": 1.898410666666667e-05, + "loss": 0.0771, + "step": 23810 + }, + { + "epoch": 0.152416, + "grad_norm": 1.2430641651153564, + "learning_rate": 1.8983893333333334e-05, + "loss": 0.0946, + "step": 23815 + }, + { + "epoch": 0.152448, + "grad_norm": 0.8119330406188965, + "learning_rate": 1.898368e-05, + "loss": 0.074, + "step": 23820 + }, + { + "epoch": 0.15248, + "grad_norm": 0.6800937652587891, + "learning_rate": 1.898346666666667e-05, + "loss": 0.0623, + "step": 23825 + }, + { + "epoch": 0.152512, + "grad_norm": 0.9780198335647583, + "learning_rate": 1.8983253333333336e-05, + "loss": 0.0891, + "step": 23830 + }, + { + "epoch": 0.152544, + "grad_norm": 1.2011611461639404, + "learning_rate": 1.898304e-05, + "loss": 0.07, + "step": 23835 + }, + { + "epoch": 0.152576, + "grad_norm": 1.4253127574920654, + "learning_rate": 1.8982826666666668e-05, + "loss": 0.0413, + "step": 23840 + }, + { + "epoch": 0.152608, + "grad_norm": 0.9462090730667114, + "learning_rate": 1.8982613333333336e-05, + "loss": 0.0655, + "step": 23845 + }, + { + "epoch": 0.15264, + "grad_norm": 1.407423973083496, + "learning_rate": 1.89824e-05, + "loss": 0.0978, + "step": 23850 + }, + { + "epoch": 0.152672, + "grad_norm": 1.5255013704299927, + "learning_rate": 1.8982186666666667e-05, + "loss": 0.0879, + "step": 23855 + }, + { + "epoch": 0.152704, + "grad_norm": 0.34228792786598206, + "learning_rate": 1.8981973333333335e-05, + "loss": 0.0464, + "step": 23860 + }, + { + "epoch": 0.152736, + "grad_norm": 1.0359150171279907, + "learning_rate": 1.8981760000000002e-05, + "loss": 0.1176, + "step": 23865 + }, + { + "epoch": 0.152768, + "grad_norm": 0.6860590577125549, + "learning_rate": 1.8981546666666667e-05, + "loss": 0.0659, + "step": 23870 + }, + { + "epoch": 0.1528, + "grad_norm": 0.9015109539031982, + "learning_rate": 1.8981333333333334e-05, + "loss": 0.0824, + "step": 23875 + }, + { + "epoch": 0.152832, + "grad_norm": 0.5976732969284058, + "learning_rate": 1.898112e-05, + "loss": 0.077, + "step": 23880 + }, + { + "epoch": 0.152864, + "grad_norm": 0.3573610782623291, + "learning_rate": 1.8980906666666666e-05, + "loss": 0.0516, + "step": 23885 + }, + { + "epoch": 0.152896, + "grad_norm": 0.4998641312122345, + "learning_rate": 1.8980693333333337e-05, + "loss": 0.0597, + "step": 23890 + }, + { + "epoch": 0.152928, + "grad_norm": 1.3519587516784668, + "learning_rate": 1.898048e-05, + "loss": 0.1198, + "step": 23895 + }, + { + "epoch": 0.15296, + "grad_norm": 0.9126020669937134, + "learning_rate": 1.898026666666667e-05, + "loss": 0.0848, + "step": 23900 + }, + { + "epoch": 0.152992, + "grad_norm": 0.7449130415916443, + "learning_rate": 1.8980053333333336e-05, + "loss": 0.0675, + "step": 23905 + }, + { + "epoch": 0.153024, + "grad_norm": 0.6380635499954224, + "learning_rate": 1.897984e-05, + "loss": 0.0779, + "step": 23910 + }, + { + "epoch": 0.153056, + "grad_norm": 0.40362292528152466, + "learning_rate": 1.8979626666666668e-05, + "loss": 0.0614, + "step": 23915 + }, + { + "epoch": 0.153088, + "grad_norm": 0.5258607864379883, + "learning_rate": 1.8979413333333335e-05, + "loss": 0.07, + "step": 23920 + }, + { + "epoch": 0.15312, + "grad_norm": 1.4234488010406494, + "learning_rate": 1.8979200000000003e-05, + "loss": 0.1153, + "step": 23925 + }, + { + "epoch": 0.153152, + "grad_norm": 5.300212860107422, + "learning_rate": 1.8978986666666667e-05, + "loss": 0.125, + "step": 23930 + }, + { + "epoch": 0.153184, + "grad_norm": 1.355806589126587, + "learning_rate": 1.8978773333333335e-05, + "loss": 0.08, + "step": 23935 + }, + { + "epoch": 0.153216, + "grad_norm": 1.04290771484375, + "learning_rate": 1.8978560000000002e-05, + "loss": 0.0597, + "step": 23940 + }, + { + "epoch": 0.153248, + "grad_norm": 0.920125424861908, + "learning_rate": 1.8978346666666666e-05, + "loss": 0.0808, + "step": 23945 + }, + { + "epoch": 0.15328, + "grad_norm": 1.0787700414657593, + "learning_rate": 1.8978133333333334e-05, + "loss": 0.119, + "step": 23950 + }, + { + "epoch": 0.153312, + "grad_norm": 0.9912985563278198, + "learning_rate": 1.897792e-05, + "loss": 0.0721, + "step": 23955 + }, + { + "epoch": 0.153344, + "grad_norm": 1.1512126922607422, + "learning_rate": 1.897770666666667e-05, + "loss": 0.0899, + "step": 23960 + }, + { + "epoch": 0.153376, + "grad_norm": 0.4015202522277832, + "learning_rate": 1.8977493333333333e-05, + "loss": 0.0754, + "step": 23965 + }, + { + "epoch": 0.153408, + "grad_norm": 0.6920040845870972, + "learning_rate": 1.897728e-05, + "loss": 0.0343, + "step": 23970 + }, + { + "epoch": 0.15344, + "grad_norm": 0.7435387372970581, + "learning_rate": 1.8977066666666668e-05, + "loss": 0.0692, + "step": 23975 + }, + { + "epoch": 0.153472, + "grad_norm": 1.314899206161499, + "learning_rate": 1.8976853333333332e-05, + "loss": 0.0987, + "step": 23980 + }, + { + "epoch": 0.153504, + "grad_norm": 1.1373651027679443, + "learning_rate": 1.8976640000000003e-05, + "loss": 0.0698, + "step": 23985 + }, + { + "epoch": 0.153536, + "grad_norm": 0.8573621511459351, + "learning_rate": 1.8976426666666668e-05, + "loss": 0.0842, + "step": 23990 + }, + { + "epoch": 0.153568, + "grad_norm": 0.581095278263092, + "learning_rate": 1.8976213333333335e-05, + "loss": 0.0886, + "step": 23995 + }, + { + "epoch": 0.1536, + "grad_norm": 0.723635196685791, + "learning_rate": 1.8976000000000003e-05, + "loss": 0.1088, + "step": 24000 + }, + { + "epoch": 0.153632, + "grad_norm": 1.0031311511993408, + "learning_rate": 1.897578666666667e-05, + "loss": 0.0846, + "step": 24005 + }, + { + "epoch": 0.153664, + "grad_norm": 0.6392595171928406, + "learning_rate": 1.8975573333333334e-05, + "loss": 0.0872, + "step": 24010 + }, + { + "epoch": 0.153696, + "grad_norm": 0.8007165193557739, + "learning_rate": 1.8975360000000002e-05, + "loss": 0.0668, + "step": 24015 + }, + { + "epoch": 0.153728, + "grad_norm": 0.7004491090774536, + "learning_rate": 1.897514666666667e-05, + "loss": 0.0582, + "step": 24020 + }, + { + "epoch": 0.15376, + "grad_norm": 0.4638501703739166, + "learning_rate": 1.8974933333333334e-05, + "loss": 0.0692, + "step": 24025 + }, + { + "epoch": 0.153792, + "grad_norm": 0.5242648124694824, + "learning_rate": 1.897472e-05, + "loss": 0.0557, + "step": 24030 + }, + { + "epoch": 0.153824, + "grad_norm": 0.9398580193519592, + "learning_rate": 1.897450666666667e-05, + "loss": 0.0702, + "step": 24035 + }, + { + "epoch": 0.153856, + "grad_norm": 1.000168800354004, + "learning_rate": 1.8974293333333336e-05, + "loss": 0.1009, + "step": 24040 + }, + { + "epoch": 0.153888, + "grad_norm": 1.01503586769104, + "learning_rate": 1.897408e-05, + "loss": 0.0975, + "step": 24045 + }, + { + "epoch": 0.15392, + "grad_norm": 1.023969054222107, + "learning_rate": 1.8973866666666668e-05, + "loss": 0.065, + "step": 24050 + }, + { + "epoch": 0.153952, + "grad_norm": 0.8891869783401489, + "learning_rate": 1.8973653333333336e-05, + "loss": 0.112, + "step": 24055 + }, + { + "epoch": 0.153984, + "grad_norm": 1.2533923387527466, + "learning_rate": 1.897344e-05, + "loss": 0.1046, + "step": 24060 + }, + { + "epoch": 0.154016, + "grad_norm": 0.9916090965270996, + "learning_rate": 1.8973226666666667e-05, + "loss": 0.1048, + "step": 24065 + }, + { + "epoch": 0.154048, + "grad_norm": 1.4223662614822388, + "learning_rate": 1.8973013333333335e-05, + "loss": 0.0796, + "step": 24070 + }, + { + "epoch": 0.15408, + "grad_norm": 0.8544431924819946, + "learning_rate": 1.8972800000000002e-05, + "loss": 0.0576, + "step": 24075 + }, + { + "epoch": 0.154112, + "grad_norm": 0.8565126657485962, + "learning_rate": 1.8972586666666667e-05, + "loss": 0.0888, + "step": 24080 + }, + { + "epoch": 0.154144, + "grad_norm": 2.3405611515045166, + "learning_rate": 1.8972373333333337e-05, + "loss": 0.1053, + "step": 24085 + }, + { + "epoch": 0.154176, + "grad_norm": 0.8200116753578186, + "learning_rate": 1.897216e-05, + "loss": 0.0768, + "step": 24090 + }, + { + "epoch": 0.154208, + "grad_norm": 0.6656478047370911, + "learning_rate": 1.8971946666666666e-05, + "loss": 0.0819, + "step": 24095 + }, + { + "epoch": 0.15424, + "grad_norm": 2.0731184482574463, + "learning_rate": 1.8971733333333337e-05, + "loss": 0.0766, + "step": 24100 + }, + { + "epoch": 0.154272, + "grad_norm": 0.5379918813705444, + "learning_rate": 1.897152e-05, + "loss": 0.1112, + "step": 24105 + }, + { + "epoch": 0.154304, + "grad_norm": 0.763629674911499, + "learning_rate": 1.897130666666667e-05, + "loss": 0.0702, + "step": 24110 + }, + { + "epoch": 0.154336, + "grad_norm": 1.4886733293533325, + "learning_rate": 1.8971093333333336e-05, + "loss": 0.1058, + "step": 24115 + }, + { + "epoch": 0.154368, + "grad_norm": 0.8014852404594421, + "learning_rate": 1.8970880000000004e-05, + "loss": 0.0808, + "step": 24120 + }, + { + "epoch": 0.1544, + "grad_norm": 1.7195754051208496, + "learning_rate": 1.8970666666666668e-05, + "loss": 0.0543, + "step": 24125 + }, + { + "epoch": 0.154432, + "grad_norm": 0.638663649559021, + "learning_rate": 1.8970453333333335e-05, + "loss": 0.1029, + "step": 24130 + }, + { + "epoch": 0.154464, + "grad_norm": 1.4105905294418335, + "learning_rate": 1.8970240000000003e-05, + "loss": 0.0911, + "step": 24135 + }, + { + "epoch": 0.154496, + "grad_norm": 1.3762807846069336, + "learning_rate": 1.8970026666666667e-05, + "loss": 0.0892, + "step": 24140 + }, + { + "epoch": 0.154528, + "grad_norm": 0.9280996322631836, + "learning_rate": 1.8969813333333335e-05, + "loss": 0.0618, + "step": 24145 + }, + { + "epoch": 0.15456, + "grad_norm": 0.6614633202552795, + "learning_rate": 1.8969600000000002e-05, + "loss": 0.073, + "step": 24150 + }, + { + "epoch": 0.154592, + "grad_norm": 0.7096932530403137, + "learning_rate": 1.896938666666667e-05, + "loss": 0.0728, + "step": 24155 + }, + { + "epoch": 0.154624, + "grad_norm": 1.2386904954910278, + "learning_rate": 1.8969173333333334e-05, + "loss": 0.0983, + "step": 24160 + }, + { + "epoch": 0.154656, + "grad_norm": 1.8280118703842163, + "learning_rate": 1.896896e-05, + "loss": 0.1042, + "step": 24165 + }, + { + "epoch": 0.154688, + "grad_norm": 0.7788021564483643, + "learning_rate": 1.896874666666667e-05, + "loss": 0.1124, + "step": 24170 + }, + { + "epoch": 0.15472, + "grad_norm": 0.4586769640445709, + "learning_rate": 1.8968533333333333e-05, + "loss": 0.0916, + "step": 24175 + }, + { + "epoch": 0.154752, + "grad_norm": 0.4687824547290802, + "learning_rate": 1.896832e-05, + "loss": 0.0599, + "step": 24180 + }, + { + "epoch": 0.154784, + "grad_norm": 0.6804715991020203, + "learning_rate": 1.8968106666666668e-05, + "loss": 0.0863, + "step": 24185 + }, + { + "epoch": 0.154816, + "grad_norm": 0.7794185280799866, + "learning_rate": 1.8967893333333336e-05, + "loss": 0.073, + "step": 24190 + }, + { + "epoch": 0.154848, + "grad_norm": 1.302044153213501, + "learning_rate": 1.896768e-05, + "loss": 0.089, + "step": 24195 + }, + { + "epoch": 0.15488, + "grad_norm": 1.065876841545105, + "learning_rate": 1.8967466666666668e-05, + "loss": 0.1135, + "step": 24200 + }, + { + "epoch": 0.154912, + "grad_norm": 0.8574426174163818, + "learning_rate": 1.8967253333333335e-05, + "loss": 0.0955, + "step": 24205 + }, + { + "epoch": 0.154944, + "grad_norm": 0.8718901872634888, + "learning_rate": 1.8967040000000003e-05, + "loss": 0.0927, + "step": 24210 + }, + { + "epoch": 0.154976, + "grad_norm": 1.1246334314346313, + "learning_rate": 1.896682666666667e-05, + "loss": 0.0815, + "step": 24215 + }, + { + "epoch": 0.155008, + "grad_norm": 0.17606329917907715, + "learning_rate": 1.8966613333333334e-05, + "loss": 0.0581, + "step": 24220 + }, + { + "epoch": 0.15504, + "grad_norm": 1.3652750253677368, + "learning_rate": 1.8966400000000002e-05, + "loss": 0.1128, + "step": 24225 + }, + { + "epoch": 0.155072, + "grad_norm": 0.4965117573738098, + "learning_rate": 1.896618666666667e-05, + "loss": 0.0906, + "step": 24230 + }, + { + "epoch": 0.155104, + "grad_norm": 1.170913815498352, + "learning_rate": 1.8965973333333334e-05, + "loss": 0.0921, + "step": 24235 + }, + { + "epoch": 0.155136, + "grad_norm": 0.8256462216377258, + "learning_rate": 1.896576e-05, + "loss": 0.0888, + "step": 24240 + }, + { + "epoch": 0.155168, + "grad_norm": 1.5002057552337646, + "learning_rate": 1.896554666666667e-05, + "loss": 0.1055, + "step": 24245 + }, + { + "epoch": 0.1552, + "grad_norm": 1.0141589641571045, + "learning_rate": 1.8965333333333336e-05, + "loss": 0.0731, + "step": 24250 + }, + { + "epoch": 0.155232, + "grad_norm": 0.523918628692627, + "learning_rate": 1.896512e-05, + "loss": 0.071, + "step": 24255 + }, + { + "epoch": 0.155264, + "grad_norm": 1.173537254333496, + "learning_rate": 1.8964906666666668e-05, + "loss": 0.0797, + "step": 24260 + }, + { + "epoch": 0.155296, + "grad_norm": 2.019744396209717, + "learning_rate": 1.8964693333333336e-05, + "loss": 0.081, + "step": 24265 + }, + { + "epoch": 0.155328, + "grad_norm": 0.7798823118209839, + "learning_rate": 1.896448e-05, + "loss": 0.0572, + "step": 24270 + }, + { + "epoch": 0.15536, + "grad_norm": 1.597164273262024, + "learning_rate": 1.8964266666666667e-05, + "loss": 0.0745, + "step": 24275 + }, + { + "epoch": 0.155392, + "grad_norm": 0.6070507168769836, + "learning_rate": 1.8964053333333335e-05, + "loss": 0.0543, + "step": 24280 + }, + { + "epoch": 0.155424, + "grad_norm": 1.416436791419983, + "learning_rate": 1.8963840000000002e-05, + "loss": 0.0968, + "step": 24285 + }, + { + "epoch": 0.155456, + "grad_norm": 1.005831241607666, + "learning_rate": 1.8963626666666667e-05, + "loss": 0.0845, + "step": 24290 + }, + { + "epoch": 0.155488, + "grad_norm": 1.2801936864852905, + "learning_rate": 1.8963413333333338e-05, + "loss": 0.0912, + "step": 24295 + }, + { + "epoch": 0.15552, + "grad_norm": 2.6269454956054688, + "learning_rate": 1.89632e-05, + "loss": 0.0838, + "step": 24300 + }, + { + "epoch": 0.155552, + "grad_norm": 0.917479932308197, + "learning_rate": 1.8962986666666666e-05, + "loss": 0.0862, + "step": 24305 + }, + { + "epoch": 0.155584, + "grad_norm": 1.573820948600769, + "learning_rate": 1.8962773333333337e-05, + "loss": 0.0914, + "step": 24310 + }, + { + "epoch": 0.155616, + "grad_norm": 1.1954814195632935, + "learning_rate": 1.896256e-05, + "loss": 0.0854, + "step": 24315 + }, + { + "epoch": 0.155648, + "grad_norm": 0.5470885038375854, + "learning_rate": 1.896234666666667e-05, + "loss": 0.0826, + "step": 24320 + }, + { + "epoch": 0.15568, + "grad_norm": 0.791714072227478, + "learning_rate": 1.8962133333333336e-05, + "loss": 0.1231, + "step": 24325 + }, + { + "epoch": 0.155712, + "grad_norm": 0.9213447570800781, + "learning_rate": 1.8961920000000004e-05, + "loss": 0.1427, + "step": 24330 + }, + { + "epoch": 0.155744, + "grad_norm": 1.080445647239685, + "learning_rate": 1.8961706666666668e-05, + "loss": 0.0659, + "step": 24335 + }, + { + "epoch": 0.155776, + "grad_norm": 0.8968519568443298, + "learning_rate": 1.8961493333333335e-05, + "loss": 0.124, + "step": 24340 + }, + { + "epoch": 0.155808, + "grad_norm": 1.377075433731079, + "learning_rate": 1.8961280000000003e-05, + "loss": 0.1041, + "step": 24345 + }, + { + "epoch": 0.15584, + "grad_norm": 1.1758278608322144, + "learning_rate": 1.8961066666666667e-05, + "loss": 0.0786, + "step": 24350 + }, + { + "epoch": 0.155872, + "grad_norm": 1.5470685958862305, + "learning_rate": 1.8960853333333335e-05, + "loss": 0.0828, + "step": 24355 + }, + { + "epoch": 0.155904, + "grad_norm": 0.33300256729125977, + "learning_rate": 1.8960640000000002e-05, + "loss": 0.0851, + "step": 24360 + }, + { + "epoch": 0.155936, + "grad_norm": 3.163142204284668, + "learning_rate": 1.896042666666667e-05, + "loss": 0.1309, + "step": 24365 + }, + { + "epoch": 0.155968, + "grad_norm": 0.722561240196228, + "learning_rate": 1.8960213333333334e-05, + "loss": 0.0849, + "step": 24370 + }, + { + "epoch": 0.156, + "grad_norm": 0.970065176486969, + "learning_rate": 1.896e-05, + "loss": 0.0763, + "step": 24375 + }, + { + "epoch": 0.156032, + "grad_norm": 0.5866426825523376, + "learning_rate": 1.895978666666667e-05, + "loss": 0.096, + "step": 24380 + }, + { + "epoch": 0.156064, + "grad_norm": 1.9512028694152832, + "learning_rate": 1.8959573333333333e-05, + "loss": 0.0975, + "step": 24385 + }, + { + "epoch": 0.156096, + "grad_norm": 1.1082382202148438, + "learning_rate": 1.895936e-05, + "loss": 0.0841, + "step": 24390 + }, + { + "epoch": 0.156128, + "grad_norm": 0.9174641966819763, + "learning_rate": 1.8959146666666668e-05, + "loss": 0.0974, + "step": 24395 + }, + { + "epoch": 0.15616, + "grad_norm": 0.9086483716964722, + "learning_rate": 1.8958933333333336e-05, + "loss": 0.0547, + "step": 24400 + }, + { + "epoch": 0.156192, + "grad_norm": 0.9076887369155884, + "learning_rate": 1.895872e-05, + "loss": 0.0731, + "step": 24405 + }, + { + "epoch": 0.156224, + "grad_norm": 0.6977834105491638, + "learning_rate": 1.8958506666666668e-05, + "loss": 0.0798, + "step": 24410 + }, + { + "epoch": 0.156256, + "grad_norm": 1.7069238424301147, + "learning_rate": 1.8958293333333335e-05, + "loss": 0.1063, + "step": 24415 + }, + { + "epoch": 0.156288, + "grad_norm": 1.4896240234375, + "learning_rate": 1.895808e-05, + "loss": 0.1061, + "step": 24420 + }, + { + "epoch": 0.15632, + "grad_norm": 0.7609965801239014, + "learning_rate": 1.895786666666667e-05, + "loss": 0.0899, + "step": 24425 + }, + { + "epoch": 0.156352, + "grad_norm": 0.5972744822502136, + "learning_rate": 1.8957653333333334e-05, + "loss": 0.0859, + "step": 24430 + }, + { + "epoch": 0.156384, + "grad_norm": 0.5982617735862732, + "learning_rate": 1.8957440000000002e-05, + "loss": 0.0963, + "step": 24435 + }, + { + "epoch": 0.156416, + "grad_norm": 1.5048314332962036, + "learning_rate": 1.895722666666667e-05, + "loss": 0.1274, + "step": 24440 + }, + { + "epoch": 0.156448, + "grad_norm": 0.3276190459728241, + "learning_rate": 1.8957013333333334e-05, + "loss": 0.0683, + "step": 24445 + }, + { + "epoch": 0.15648, + "grad_norm": 0.4782102406024933, + "learning_rate": 1.89568e-05, + "loss": 0.0773, + "step": 24450 + }, + { + "epoch": 0.156512, + "grad_norm": 1.3516926765441895, + "learning_rate": 1.895658666666667e-05, + "loss": 0.0789, + "step": 24455 + }, + { + "epoch": 0.156544, + "grad_norm": 1.2723562717437744, + "learning_rate": 1.8956373333333336e-05, + "loss": 0.1201, + "step": 24460 + }, + { + "epoch": 0.156576, + "grad_norm": 0.9407135844230652, + "learning_rate": 1.895616e-05, + "loss": 0.1109, + "step": 24465 + }, + { + "epoch": 0.156608, + "grad_norm": 1.5452574491500854, + "learning_rate": 1.8955946666666668e-05, + "loss": 0.0765, + "step": 24470 + }, + { + "epoch": 0.15664, + "grad_norm": 1.2723407745361328, + "learning_rate": 1.8955733333333336e-05, + "loss": 0.1001, + "step": 24475 + }, + { + "epoch": 0.156672, + "grad_norm": 0.17644324898719788, + "learning_rate": 1.895552e-05, + "loss": 0.05, + "step": 24480 + }, + { + "epoch": 0.156704, + "grad_norm": 0.9044705629348755, + "learning_rate": 1.8955306666666667e-05, + "loss": 0.0799, + "step": 24485 + }, + { + "epoch": 0.156736, + "grad_norm": 0.7332596778869629, + "learning_rate": 1.8955093333333335e-05, + "loss": 0.0865, + "step": 24490 + }, + { + "epoch": 0.156768, + "grad_norm": 1.7707502841949463, + "learning_rate": 1.8954880000000002e-05, + "loss": 0.1078, + "step": 24495 + }, + { + "epoch": 0.1568, + "grad_norm": 0.8523561954498291, + "learning_rate": 1.8954666666666667e-05, + "loss": 0.076, + "step": 24500 + }, + { + "epoch": 0.156832, + "grad_norm": 1.4514577388763428, + "learning_rate": 1.8954453333333338e-05, + "loss": 0.0483, + "step": 24505 + }, + { + "epoch": 0.156864, + "grad_norm": 1.294076681137085, + "learning_rate": 1.895424e-05, + "loss": 0.0899, + "step": 24510 + }, + { + "epoch": 0.156896, + "grad_norm": 2.3730409145355225, + "learning_rate": 1.8954026666666666e-05, + "loss": 0.0791, + "step": 24515 + }, + { + "epoch": 0.156928, + "grad_norm": 2.672795057296753, + "learning_rate": 1.8953813333333337e-05, + "loss": 0.0785, + "step": 24520 + }, + { + "epoch": 0.15696, + "grad_norm": 1.9955615997314453, + "learning_rate": 1.89536e-05, + "loss": 0.0796, + "step": 24525 + }, + { + "epoch": 0.156992, + "grad_norm": 1.0889688730239868, + "learning_rate": 1.895338666666667e-05, + "loss": 0.0842, + "step": 24530 + }, + { + "epoch": 0.157024, + "grad_norm": 0.651038408279419, + "learning_rate": 1.8953173333333336e-05, + "loss": 0.0887, + "step": 24535 + }, + { + "epoch": 0.157056, + "grad_norm": 0.5062692165374756, + "learning_rate": 1.8952960000000004e-05, + "loss": 0.0676, + "step": 24540 + }, + { + "epoch": 0.157088, + "grad_norm": 0.7806404232978821, + "learning_rate": 1.8952746666666668e-05, + "loss": 0.1248, + "step": 24545 + }, + { + "epoch": 0.15712, + "grad_norm": 0.7654659152030945, + "learning_rate": 1.8952533333333335e-05, + "loss": 0.077, + "step": 24550 + }, + { + "epoch": 0.157152, + "grad_norm": 1.5860576629638672, + "learning_rate": 1.8952320000000003e-05, + "loss": 0.0793, + "step": 24555 + }, + { + "epoch": 0.157184, + "grad_norm": 0.6375876665115356, + "learning_rate": 1.8952106666666667e-05, + "loss": 0.0843, + "step": 24560 + }, + { + "epoch": 0.157216, + "grad_norm": 0.5545789003372192, + "learning_rate": 1.8951893333333335e-05, + "loss": 0.079, + "step": 24565 + }, + { + "epoch": 0.157248, + "grad_norm": 0.7909380197525024, + "learning_rate": 1.8951680000000002e-05, + "loss": 0.0664, + "step": 24570 + }, + { + "epoch": 0.15728, + "grad_norm": 0.6363375186920166, + "learning_rate": 1.895146666666667e-05, + "loss": 0.0787, + "step": 24575 + }, + { + "epoch": 0.157312, + "grad_norm": 1.0985844135284424, + "learning_rate": 1.8951253333333334e-05, + "loss": 0.0661, + "step": 24580 + }, + { + "epoch": 0.157344, + "grad_norm": 0.6713147163391113, + "learning_rate": 1.895104e-05, + "loss": 0.111, + "step": 24585 + }, + { + "epoch": 0.157376, + "grad_norm": 0.5298691391944885, + "learning_rate": 1.895082666666667e-05, + "loss": 0.0619, + "step": 24590 + }, + { + "epoch": 0.157408, + "grad_norm": 1.7648355960845947, + "learning_rate": 1.8950613333333333e-05, + "loss": 0.0702, + "step": 24595 + }, + { + "epoch": 0.15744, + "grad_norm": 0.37597692012786865, + "learning_rate": 1.89504e-05, + "loss": 0.0581, + "step": 24600 + }, + { + "epoch": 0.157472, + "grad_norm": 0.909875214099884, + "learning_rate": 1.8950186666666668e-05, + "loss": 0.0672, + "step": 24605 + }, + { + "epoch": 0.157504, + "grad_norm": 0.9791384935379028, + "learning_rate": 1.8949973333333336e-05, + "loss": 0.0775, + "step": 24610 + }, + { + "epoch": 0.157536, + "grad_norm": 0.6949634552001953, + "learning_rate": 1.894976e-05, + "loss": 0.067, + "step": 24615 + }, + { + "epoch": 0.157568, + "grad_norm": 0.33460715413093567, + "learning_rate": 1.8949546666666668e-05, + "loss": 0.1124, + "step": 24620 + }, + { + "epoch": 0.1576, + "grad_norm": 0.5607559680938721, + "learning_rate": 1.8949333333333335e-05, + "loss": 0.058, + "step": 24625 + }, + { + "epoch": 0.157632, + "grad_norm": 0.6958907246589661, + "learning_rate": 1.894912e-05, + "loss": 0.0818, + "step": 24630 + }, + { + "epoch": 0.157664, + "grad_norm": 0.6928664445877075, + "learning_rate": 1.894890666666667e-05, + "loss": 0.0543, + "step": 24635 + }, + { + "epoch": 0.157696, + "grad_norm": 0.7378361821174622, + "learning_rate": 1.8948693333333334e-05, + "loss": 0.07, + "step": 24640 + }, + { + "epoch": 0.157728, + "grad_norm": 0.4169483482837677, + "learning_rate": 1.8948480000000002e-05, + "loss": 0.0764, + "step": 24645 + }, + { + "epoch": 0.15776, + "grad_norm": 1.9332786798477173, + "learning_rate": 1.894826666666667e-05, + "loss": 0.066, + "step": 24650 + }, + { + "epoch": 0.157792, + "grad_norm": 0.9556353688240051, + "learning_rate": 1.8948053333333334e-05, + "loss": 0.0667, + "step": 24655 + }, + { + "epoch": 0.157824, + "grad_norm": 1.7982374429702759, + "learning_rate": 1.894784e-05, + "loss": 0.0771, + "step": 24660 + }, + { + "epoch": 0.157856, + "grad_norm": 0.4291779100894928, + "learning_rate": 1.894762666666667e-05, + "loss": 0.0632, + "step": 24665 + }, + { + "epoch": 0.157888, + "grad_norm": 1.195482850074768, + "learning_rate": 1.8947413333333336e-05, + "loss": 0.0749, + "step": 24670 + }, + { + "epoch": 0.15792, + "grad_norm": 0.7633480429649353, + "learning_rate": 1.89472e-05, + "loss": 0.0857, + "step": 24675 + }, + { + "epoch": 0.157952, + "grad_norm": 0.8954285383224487, + "learning_rate": 1.8946986666666668e-05, + "loss": 0.0678, + "step": 24680 + }, + { + "epoch": 0.157984, + "grad_norm": 1.6350234746932983, + "learning_rate": 1.8946773333333336e-05, + "loss": 0.1175, + "step": 24685 + }, + { + "epoch": 0.158016, + "grad_norm": 1.6424078941345215, + "learning_rate": 1.894656e-05, + "loss": 0.064, + "step": 24690 + }, + { + "epoch": 0.158048, + "grad_norm": 0.9948151707649231, + "learning_rate": 1.8946346666666667e-05, + "loss": 0.0884, + "step": 24695 + }, + { + "epoch": 0.15808, + "grad_norm": 2.635155439376831, + "learning_rate": 1.8946133333333335e-05, + "loss": 0.1067, + "step": 24700 + }, + { + "epoch": 0.158112, + "grad_norm": 0.36943915486335754, + "learning_rate": 1.8945920000000002e-05, + "loss": 0.0859, + "step": 24705 + }, + { + "epoch": 0.158144, + "grad_norm": 0.7192756533622742, + "learning_rate": 1.8945706666666667e-05, + "loss": 0.059, + "step": 24710 + }, + { + "epoch": 0.158176, + "grad_norm": 0.7466847896575928, + "learning_rate": 1.8945493333333334e-05, + "loss": 0.0851, + "step": 24715 + }, + { + "epoch": 0.158208, + "grad_norm": 1.6013941764831543, + "learning_rate": 1.894528e-05, + "loss": 0.0798, + "step": 24720 + }, + { + "epoch": 0.15824, + "grad_norm": 0.7186107635498047, + "learning_rate": 1.8945066666666666e-05, + "loss": 0.0944, + "step": 24725 + }, + { + "epoch": 0.158272, + "grad_norm": 2.513551950454712, + "learning_rate": 1.8944853333333337e-05, + "loss": 0.1092, + "step": 24730 + }, + { + "epoch": 0.158304, + "grad_norm": 0.7208786606788635, + "learning_rate": 1.894464e-05, + "loss": 0.0956, + "step": 24735 + }, + { + "epoch": 0.158336, + "grad_norm": 0.9749380946159363, + "learning_rate": 1.894442666666667e-05, + "loss": 0.1001, + "step": 24740 + }, + { + "epoch": 0.158368, + "grad_norm": 0.5995701551437378, + "learning_rate": 1.8944213333333336e-05, + "loss": 0.0912, + "step": 24745 + }, + { + "epoch": 0.1584, + "grad_norm": 1.0493643283843994, + "learning_rate": 1.8944000000000004e-05, + "loss": 0.0859, + "step": 24750 + }, + { + "epoch": 0.158432, + "grad_norm": 1.2468494176864624, + "learning_rate": 1.8943786666666668e-05, + "loss": 0.0853, + "step": 24755 + }, + { + "epoch": 0.158464, + "grad_norm": 0.5407779216766357, + "learning_rate": 1.8943573333333335e-05, + "loss": 0.0803, + "step": 24760 + }, + { + "epoch": 0.158496, + "grad_norm": 0.8592785000801086, + "learning_rate": 1.8943360000000003e-05, + "loss": 0.0772, + "step": 24765 + }, + { + "epoch": 0.158528, + "grad_norm": 0.6643487811088562, + "learning_rate": 1.8943146666666667e-05, + "loss": 0.0799, + "step": 24770 + }, + { + "epoch": 0.15856, + "grad_norm": 0.7220429182052612, + "learning_rate": 1.8942933333333335e-05, + "loss": 0.0734, + "step": 24775 + }, + { + "epoch": 0.158592, + "grad_norm": 1.1330335140228271, + "learning_rate": 1.8942720000000002e-05, + "loss": 0.1088, + "step": 24780 + }, + { + "epoch": 0.158624, + "grad_norm": 0.3350631594657898, + "learning_rate": 1.894250666666667e-05, + "loss": 0.0666, + "step": 24785 + }, + { + "epoch": 0.158656, + "grad_norm": 1.2483984231948853, + "learning_rate": 1.8942293333333334e-05, + "loss": 0.111, + "step": 24790 + }, + { + "epoch": 0.158688, + "grad_norm": 2.170318365097046, + "learning_rate": 1.894208e-05, + "loss": 0.0764, + "step": 24795 + }, + { + "epoch": 0.15872, + "grad_norm": 0.3913255035877228, + "learning_rate": 1.894186666666667e-05, + "loss": 0.091, + "step": 24800 + }, + { + "epoch": 0.158752, + "grad_norm": 0.6226819753646851, + "learning_rate": 1.8941653333333333e-05, + "loss": 0.1124, + "step": 24805 + }, + { + "epoch": 0.158784, + "grad_norm": 0.7163285613059998, + "learning_rate": 1.894144e-05, + "loss": 0.0724, + "step": 24810 + }, + { + "epoch": 0.158816, + "grad_norm": 1.159083604812622, + "learning_rate": 1.8941226666666668e-05, + "loss": 0.0665, + "step": 24815 + }, + { + "epoch": 0.158848, + "grad_norm": 4.406625270843506, + "learning_rate": 1.8941013333333336e-05, + "loss": 0.1062, + "step": 24820 + }, + { + "epoch": 0.15888, + "grad_norm": 0.7594180703163147, + "learning_rate": 1.89408e-05, + "loss": 0.0987, + "step": 24825 + }, + { + "epoch": 0.158912, + "grad_norm": 0.5463625192642212, + "learning_rate": 1.8940586666666668e-05, + "loss": 0.1011, + "step": 24830 + }, + { + "epoch": 0.158944, + "grad_norm": 0.89402174949646, + "learning_rate": 1.8940373333333335e-05, + "loss": 0.0845, + "step": 24835 + }, + { + "epoch": 0.158976, + "grad_norm": 0.8940234184265137, + "learning_rate": 1.894016e-05, + "loss": 0.1032, + "step": 24840 + }, + { + "epoch": 0.159008, + "grad_norm": 1.0957049131393433, + "learning_rate": 1.893994666666667e-05, + "loss": 0.0974, + "step": 24845 + }, + { + "epoch": 0.15904, + "grad_norm": 1.1425386667251587, + "learning_rate": 1.8939733333333334e-05, + "loss": 0.1049, + "step": 24850 + }, + { + "epoch": 0.159072, + "grad_norm": 0.7176614999771118, + "learning_rate": 1.8939520000000002e-05, + "loss": 0.0675, + "step": 24855 + }, + { + "epoch": 0.159104, + "grad_norm": 0.7109452486038208, + "learning_rate": 1.893930666666667e-05, + "loss": 0.1016, + "step": 24860 + }, + { + "epoch": 0.159136, + "grad_norm": 0.9777568578720093, + "learning_rate": 1.8939093333333334e-05, + "loss": 0.0753, + "step": 24865 + }, + { + "epoch": 0.159168, + "grad_norm": 1.1535658836364746, + "learning_rate": 1.893888e-05, + "loss": 0.0502, + "step": 24870 + }, + { + "epoch": 0.1592, + "grad_norm": 1.1022323369979858, + "learning_rate": 1.893866666666667e-05, + "loss": 0.0857, + "step": 24875 + }, + { + "epoch": 0.159232, + "grad_norm": 0.9021469354629517, + "learning_rate": 1.8938453333333336e-05, + "loss": 0.1039, + "step": 24880 + }, + { + "epoch": 0.159264, + "grad_norm": 1.1002469062805176, + "learning_rate": 1.893824e-05, + "loss": 0.0819, + "step": 24885 + }, + { + "epoch": 0.159296, + "grad_norm": 0.8208646774291992, + "learning_rate": 1.8938026666666668e-05, + "loss": 0.0823, + "step": 24890 + }, + { + "epoch": 0.159328, + "grad_norm": 0.5181926488876343, + "learning_rate": 1.8937813333333336e-05, + "loss": 0.0482, + "step": 24895 + }, + { + "epoch": 0.15936, + "grad_norm": 1.5957728624343872, + "learning_rate": 1.8937600000000003e-05, + "loss": 0.0836, + "step": 24900 + }, + { + "epoch": 0.159392, + "grad_norm": 1.086075782775879, + "learning_rate": 1.8937386666666667e-05, + "loss": 0.0791, + "step": 24905 + }, + { + "epoch": 0.159424, + "grad_norm": 0.6451590657234192, + "learning_rate": 1.8937173333333335e-05, + "loss": 0.0939, + "step": 24910 + }, + { + "epoch": 0.159456, + "grad_norm": 1.4568785429000854, + "learning_rate": 1.8936960000000002e-05, + "loss": 0.0802, + "step": 24915 + }, + { + "epoch": 0.159488, + "grad_norm": 1.1652638912200928, + "learning_rate": 1.8936746666666667e-05, + "loss": 0.0918, + "step": 24920 + }, + { + "epoch": 0.15952, + "grad_norm": 0.9414244890213013, + "learning_rate": 1.8936533333333334e-05, + "loss": 0.091, + "step": 24925 + }, + { + "epoch": 0.159552, + "grad_norm": 1.0548779964447021, + "learning_rate": 1.893632e-05, + "loss": 0.0991, + "step": 24930 + }, + { + "epoch": 0.159584, + "grad_norm": 0.6757224798202515, + "learning_rate": 1.893610666666667e-05, + "loss": 0.0999, + "step": 24935 + }, + { + "epoch": 0.159616, + "grad_norm": 0.4512772858142853, + "learning_rate": 1.8935893333333333e-05, + "loss": 0.0702, + "step": 24940 + }, + { + "epoch": 0.159648, + "grad_norm": 0.4984322786331177, + "learning_rate": 1.893568e-05, + "loss": 0.0588, + "step": 24945 + }, + { + "epoch": 0.15968, + "grad_norm": 0.5116990804672241, + "learning_rate": 1.893546666666667e-05, + "loss": 0.0963, + "step": 24950 + }, + { + "epoch": 0.159712, + "grad_norm": 1.1127156019210815, + "learning_rate": 1.8935253333333336e-05, + "loss": 0.0946, + "step": 24955 + }, + { + "epoch": 0.159744, + "grad_norm": 1.2486708164215088, + "learning_rate": 1.8935040000000004e-05, + "loss": 0.0972, + "step": 24960 + }, + { + "epoch": 0.159776, + "grad_norm": 1.469752311706543, + "learning_rate": 1.8934826666666668e-05, + "loss": 0.0923, + "step": 24965 + }, + { + "epoch": 0.159808, + "grad_norm": 0.7514040470123291, + "learning_rate": 1.8934613333333335e-05, + "loss": 0.0843, + "step": 24970 + }, + { + "epoch": 0.15984, + "grad_norm": 0.25429144501686096, + "learning_rate": 1.8934400000000003e-05, + "loss": 0.0653, + "step": 24975 + }, + { + "epoch": 0.159872, + "grad_norm": 2.1899988651275635, + "learning_rate": 1.8934186666666667e-05, + "loss": 0.0716, + "step": 24980 + }, + { + "epoch": 0.159904, + "grad_norm": 0.9591771364212036, + "learning_rate": 1.8933973333333335e-05, + "loss": 0.0907, + "step": 24985 + }, + { + "epoch": 0.159936, + "grad_norm": 0.5121625065803528, + "learning_rate": 1.8933760000000002e-05, + "loss": 0.0961, + "step": 24990 + }, + { + "epoch": 0.159968, + "grad_norm": 0.5688075423240662, + "learning_rate": 1.893354666666667e-05, + "loss": 0.0554, + "step": 24995 + }, + { + "epoch": 0.16, + "grad_norm": 0.9107204079627991, + "learning_rate": 1.8933333333333334e-05, + "loss": 0.0659, + "step": 25000 + }, + { + "epoch": 0.160032, + "grad_norm": 1.2215147018432617, + "learning_rate": 1.893312e-05, + "loss": 0.1056, + "step": 25005 + }, + { + "epoch": 0.160064, + "grad_norm": 0.5947335362434387, + "learning_rate": 1.893290666666667e-05, + "loss": 0.0996, + "step": 25010 + }, + { + "epoch": 0.160096, + "grad_norm": 0.5284674167633057, + "learning_rate": 1.8932693333333333e-05, + "loss": 0.0869, + "step": 25015 + }, + { + "epoch": 0.160128, + "grad_norm": 0.6691303253173828, + "learning_rate": 1.893248e-05, + "loss": 0.0589, + "step": 25020 + }, + { + "epoch": 0.16016, + "grad_norm": 0.9416087865829468, + "learning_rate": 1.8932266666666668e-05, + "loss": 0.0568, + "step": 25025 + }, + { + "epoch": 0.160192, + "grad_norm": 0.9632612466812134, + "learning_rate": 1.8932053333333336e-05, + "loss": 0.0839, + "step": 25030 + }, + { + "epoch": 0.160224, + "grad_norm": 1.4055815935134888, + "learning_rate": 1.893184e-05, + "loss": 0.0956, + "step": 25035 + }, + { + "epoch": 0.160256, + "grad_norm": 0.5372774600982666, + "learning_rate": 1.893162666666667e-05, + "loss": 0.0827, + "step": 25040 + }, + { + "epoch": 0.160288, + "grad_norm": 1.5610448122024536, + "learning_rate": 1.8931413333333335e-05, + "loss": 0.0904, + "step": 25045 + }, + { + "epoch": 0.16032, + "grad_norm": 0.6621756553649902, + "learning_rate": 1.89312e-05, + "loss": 0.0828, + "step": 25050 + }, + { + "epoch": 0.160352, + "grad_norm": 1.873427391052246, + "learning_rate": 1.893098666666667e-05, + "loss": 0.0842, + "step": 25055 + }, + { + "epoch": 0.160384, + "grad_norm": 0.6604638695716858, + "learning_rate": 1.8930773333333334e-05, + "loss": 0.0723, + "step": 25060 + }, + { + "epoch": 0.160416, + "grad_norm": 1.0736125707626343, + "learning_rate": 1.8930560000000002e-05, + "loss": 0.0896, + "step": 25065 + }, + { + "epoch": 0.160448, + "grad_norm": 0.9685420989990234, + "learning_rate": 1.893034666666667e-05, + "loss": 0.0916, + "step": 25070 + }, + { + "epoch": 0.16048, + "grad_norm": 0.8630346059799194, + "learning_rate": 1.8930133333333337e-05, + "loss": 0.0853, + "step": 25075 + }, + { + "epoch": 0.160512, + "grad_norm": 0.7143282890319824, + "learning_rate": 1.892992e-05, + "loss": 0.0825, + "step": 25080 + }, + { + "epoch": 0.160544, + "grad_norm": 1.0281559228897095, + "learning_rate": 1.892970666666667e-05, + "loss": 0.0839, + "step": 25085 + }, + { + "epoch": 0.160576, + "grad_norm": 1.2948163747787476, + "learning_rate": 1.8929493333333336e-05, + "loss": 0.0989, + "step": 25090 + }, + { + "epoch": 0.160608, + "grad_norm": 1.5194730758666992, + "learning_rate": 1.892928e-05, + "loss": 0.0786, + "step": 25095 + }, + { + "epoch": 0.16064, + "grad_norm": 0.7342478632926941, + "learning_rate": 1.8929066666666668e-05, + "loss": 0.0664, + "step": 25100 + }, + { + "epoch": 0.160672, + "grad_norm": 0.6519489288330078, + "learning_rate": 1.8928853333333336e-05, + "loss": 0.0727, + "step": 25105 + }, + { + "epoch": 0.160704, + "grad_norm": 0.8827324509620667, + "learning_rate": 1.8928640000000003e-05, + "loss": 0.0563, + "step": 25110 + }, + { + "epoch": 0.160736, + "grad_norm": 0.6606528759002686, + "learning_rate": 1.8928426666666667e-05, + "loss": 0.0914, + "step": 25115 + }, + { + "epoch": 0.160768, + "grad_norm": 1.3209309577941895, + "learning_rate": 1.8928213333333335e-05, + "loss": 0.0871, + "step": 25120 + }, + { + "epoch": 0.1608, + "grad_norm": 3.1462349891662598, + "learning_rate": 1.8928000000000002e-05, + "loss": 0.0779, + "step": 25125 + }, + { + "epoch": 0.160832, + "grad_norm": 0.860845685005188, + "learning_rate": 1.8927786666666667e-05, + "loss": 0.1016, + "step": 25130 + }, + { + "epoch": 0.160864, + "grad_norm": 0.49142858386039734, + "learning_rate": 1.8927573333333334e-05, + "loss": 0.0578, + "step": 25135 + }, + { + "epoch": 0.160896, + "grad_norm": 0.7510759234428406, + "learning_rate": 1.892736e-05, + "loss": 0.0705, + "step": 25140 + }, + { + "epoch": 0.160928, + "grad_norm": 1.3283774852752686, + "learning_rate": 1.892714666666667e-05, + "loss": 0.0876, + "step": 25145 + }, + { + "epoch": 0.16096, + "grad_norm": 1.4423168897628784, + "learning_rate": 1.8926933333333333e-05, + "loss": 0.0814, + "step": 25150 + }, + { + "epoch": 0.160992, + "grad_norm": 0.7360126376152039, + "learning_rate": 1.892672e-05, + "loss": 0.0631, + "step": 25155 + }, + { + "epoch": 0.161024, + "grad_norm": 1.5044214725494385, + "learning_rate": 1.892650666666667e-05, + "loss": 0.1201, + "step": 25160 + }, + { + "epoch": 0.161056, + "grad_norm": 1.2666544914245605, + "learning_rate": 1.8926293333333333e-05, + "loss": 0.0962, + "step": 25165 + }, + { + "epoch": 0.161088, + "grad_norm": 0.7391407489776611, + "learning_rate": 1.8926080000000004e-05, + "loss": 0.1054, + "step": 25170 + }, + { + "epoch": 0.16112, + "grad_norm": 0.5168232917785645, + "learning_rate": 1.8925866666666668e-05, + "loss": 0.0644, + "step": 25175 + }, + { + "epoch": 0.161152, + "grad_norm": 1.155061960220337, + "learning_rate": 1.8925653333333335e-05, + "loss": 0.0598, + "step": 25180 + }, + { + "epoch": 0.161184, + "grad_norm": 0.8784208297729492, + "learning_rate": 1.8925440000000003e-05, + "loss": 0.0578, + "step": 25185 + }, + { + "epoch": 0.161216, + "grad_norm": 2.05393385887146, + "learning_rate": 1.8925226666666667e-05, + "loss": 0.084, + "step": 25190 + }, + { + "epoch": 0.161248, + "grad_norm": 0.7905705571174622, + "learning_rate": 1.8925013333333335e-05, + "loss": 0.0704, + "step": 25195 + }, + { + "epoch": 0.16128, + "grad_norm": 0.6438857316970825, + "learning_rate": 1.8924800000000002e-05, + "loss": 0.1101, + "step": 25200 + }, + { + "epoch": 0.161312, + "grad_norm": 1.304761290550232, + "learning_rate": 1.892458666666667e-05, + "loss": 0.0533, + "step": 25205 + }, + { + "epoch": 0.161344, + "grad_norm": 0.3928182125091553, + "learning_rate": 1.8924373333333334e-05, + "loss": 0.0455, + "step": 25210 + }, + { + "epoch": 0.161376, + "grad_norm": 1.0117056369781494, + "learning_rate": 1.892416e-05, + "loss": 0.0778, + "step": 25215 + }, + { + "epoch": 0.161408, + "grad_norm": 0.9804854393005371, + "learning_rate": 1.892394666666667e-05, + "loss": 0.0933, + "step": 25220 + }, + { + "epoch": 0.16144, + "grad_norm": 0.9415536522865295, + "learning_rate": 1.8923733333333333e-05, + "loss": 0.0613, + "step": 25225 + }, + { + "epoch": 0.161472, + "grad_norm": 0.5674802660942078, + "learning_rate": 1.892352e-05, + "loss": 0.057, + "step": 25230 + }, + { + "epoch": 0.161504, + "grad_norm": 0.9435981512069702, + "learning_rate": 1.8923306666666668e-05, + "loss": 0.0864, + "step": 25235 + }, + { + "epoch": 0.161536, + "grad_norm": 2.0045971870422363, + "learning_rate": 1.8923093333333336e-05, + "loss": 0.0741, + "step": 25240 + }, + { + "epoch": 0.161568, + "grad_norm": 0.7051092386245728, + "learning_rate": 1.892288e-05, + "loss": 0.0553, + "step": 25245 + }, + { + "epoch": 0.1616, + "grad_norm": 0.6163768768310547, + "learning_rate": 1.8922666666666668e-05, + "loss": 0.0633, + "step": 25250 + }, + { + "epoch": 0.161632, + "grad_norm": 0.8455480933189392, + "learning_rate": 1.8922453333333335e-05, + "loss": 0.0961, + "step": 25255 + }, + { + "epoch": 0.161664, + "grad_norm": 0.7407299280166626, + "learning_rate": 1.892224e-05, + "loss": 0.0726, + "step": 25260 + }, + { + "epoch": 0.161696, + "grad_norm": 1.0621095895767212, + "learning_rate": 1.892202666666667e-05, + "loss": 0.0686, + "step": 25265 + }, + { + "epoch": 0.161728, + "grad_norm": 0.8604041934013367, + "learning_rate": 1.8921813333333334e-05, + "loss": 0.0713, + "step": 25270 + }, + { + "epoch": 0.16176, + "grad_norm": 0.6683613657951355, + "learning_rate": 1.8921600000000002e-05, + "loss": 0.0789, + "step": 25275 + }, + { + "epoch": 0.161792, + "grad_norm": 0.7806771993637085, + "learning_rate": 1.892138666666667e-05, + "loss": 0.0765, + "step": 25280 + }, + { + "epoch": 0.161824, + "grad_norm": 0.9500735402107239, + "learning_rate": 1.8921173333333337e-05, + "loss": 0.0951, + "step": 25285 + }, + { + "epoch": 0.161856, + "grad_norm": 1.0399311780929565, + "learning_rate": 1.892096e-05, + "loss": 0.0803, + "step": 25290 + }, + { + "epoch": 0.161888, + "grad_norm": 0.8142144083976746, + "learning_rate": 1.892074666666667e-05, + "loss": 0.0646, + "step": 25295 + }, + { + "epoch": 0.16192, + "grad_norm": 0.6816583871841431, + "learning_rate": 1.8920533333333336e-05, + "loss": 0.0739, + "step": 25300 + }, + { + "epoch": 0.161952, + "grad_norm": 1.2737759351730347, + "learning_rate": 1.892032e-05, + "loss": 0.0628, + "step": 25305 + }, + { + "epoch": 0.161984, + "grad_norm": 1.5147005319595337, + "learning_rate": 1.8920106666666668e-05, + "loss": 0.1114, + "step": 25310 + }, + { + "epoch": 0.162016, + "grad_norm": 3.936537027359009, + "learning_rate": 1.8919893333333336e-05, + "loss": 0.1084, + "step": 25315 + }, + { + "epoch": 0.162048, + "grad_norm": 2.0721774101257324, + "learning_rate": 1.8919680000000003e-05, + "loss": 0.0831, + "step": 25320 + }, + { + "epoch": 0.16208, + "grad_norm": 0.7496902346611023, + "learning_rate": 1.8919466666666667e-05, + "loss": 0.0866, + "step": 25325 + }, + { + "epoch": 0.162112, + "grad_norm": 1.197357177734375, + "learning_rate": 1.8919253333333335e-05, + "loss": 0.0959, + "step": 25330 + }, + { + "epoch": 0.162144, + "grad_norm": 0.9467041492462158, + "learning_rate": 1.8919040000000002e-05, + "loss": 0.0799, + "step": 25335 + }, + { + "epoch": 0.162176, + "grad_norm": 2.7163851261138916, + "learning_rate": 1.8918826666666667e-05, + "loss": 0.0916, + "step": 25340 + }, + { + "epoch": 0.162208, + "grad_norm": 0.36138761043548584, + "learning_rate": 1.8918613333333334e-05, + "loss": 0.049, + "step": 25345 + }, + { + "epoch": 0.16224, + "grad_norm": 0.6921914219856262, + "learning_rate": 1.89184e-05, + "loss": 0.0812, + "step": 25350 + }, + { + "epoch": 0.162272, + "grad_norm": 0.777466356754303, + "learning_rate": 1.891818666666667e-05, + "loss": 0.0755, + "step": 25355 + }, + { + "epoch": 0.162304, + "grad_norm": 0.7590090036392212, + "learning_rate": 1.8917973333333333e-05, + "loss": 0.0792, + "step": 25360 + }, + { + "epoch": 0.162336, + "grad_norm": 0.9114500880241394, + "learning_rate": 1.891776e-05, + "loss": 0.0764, + "step": 25365 + }, + { + "epoch": 0.162368, + "grad_norm": 0.8409807682037354, + "learning_rate": 1.891754666666667e-05, + "loss": 0.0763, + "step": 25370 + }, + { + "epoch": 0.1624, + "grad_norm": 1.3441541194915771, + "learning_rate": 1.8917333333333333e-05, + "loss": 0.069, + "step": 25375 + }, + { + "epoch": 0.162432, + "grad_norm": 0.7984849214553833, + "learning_rate": 1.8917120000000004e-05, + "loss": 0.074, + "step": 25380 + }, + { + "epoch": 0.162464, + "grad_norm": 0.8120570778846741, + "learning_rate": 1.8916906666666668e-05, + "loss": 0.1011, + "step": 25385 + }, + { + "epoch": 0.162496, + "grad_norm": 0.7849632501602173, + "learning_rate": 1.8916693333333335e-05, + "loss": 0.093, + "step": 25390 + }, + { + "epoch": 0.162528, + "grad_norm": 0.6629817485809326, + "learning_rate": 1.8916480000000003e-05, + "loss": 0.055, + "step": 25395 + }, + { + "epoch": 0.16256, + "grad_norm": 0.9000328779220581, + "learning_rate": 1.8916266666666667e-05, + "loss": 0.0854, + "step": 25400 + }, + { + "epoch": 0.162592, + "grad_norm": 0.2219408005475998, + "learning_rate": 1.8916053333333335e-05, + "loss": 0.0634, + "step": 25405 + }, + { + "epoch": 0.162624, + "grad_norm": 2.3658156394958496, + "learning_rate": 1.8915840000000002e-05, + "loss": 0.1082, + "step": 25410 + }, + { + "epoch": 0.162656, + "grad_norm": 0.9420753121376038, + "learning_rate": 1.891562666666667e-05, + "loss": 0.06, + "step": 25415 + }, + { + "epoch": 0.162688, + "grad_norm": 1.2615572214126587, + "learning_rate": 1.8915413333333334e-05, + "loss": 0.0878, + "step": 25420 + }, + { + "epoch": 0.16272, + "grad_norm": 0.9155110120773315, + "learning_rate": 1.89152e-05, + "loss": 0.0747, + "step": 25425 + }, + { + "epoch": 0.162752, + "grad_norm": 0.6341336369514465, + "learning_rate": 1.891498666666667e-05, + "loss": 0.0671, + "step": 25430 + }, + { + "epoch": 0.162784, + "grad_norm": 2.69909930229187, + "learning_rate": 1.8914773333333333e-05, + "loss": 0.1123, + "step": 25435 + }, + { + "epoch": 0.162816, + "grad_norm": 1.1555041074752808, + "learning_rate": 1.891456e-05, + "loss": 0.0859, + "step": 25440 + }, + { + "epoch": 0.162848, + "grad_norm": 0.75452721118927, + "learning_rate": 1.8914346666666668e-05, + "loss": 0.0506, + "step": 25445 + }, + { + "epoch": 0.16288, + "grad_norm": 1.27620530128479, + "learning_rate": 1.8914133333333336e-05, + "loss": 0.0881, + "step": 25450 + }, + { + "epoch": 0.162912, + "grad_norm": 0.49216338992118835, + "learning_rate": 1.891392e-05, + "loss": 0.0998, + "step": 25455 + }, + { + "epoch": 0.162944, + "grad_norm": 1.9734151363372803, + "learning_rate": 1.8913706666666668e-05, + "loss": 0.0751, + "step": 25460 + }, + { + "epoch": 0.162976, + "grad_norm": 1.5442754030227661, + "learning_rate": 1.8913493333333335e-05, + "loss": 0.0901, + "step": 25465 + }, + { + "epoch": 0.163008, + "grad_norm": 1.0434229373931885, + "learning_rate": 1.891328e-05, + "loss": 0.0828, + "step": 25470 + }, + { + "epoch": 0.16304, + "grad_norm": 0.634980320930481, + "learning_rate": 1.8913066666666667e-05, + "loss": 0.0707, + "step": 25475 + }, + { + "epoch": 0.163072, + "grad_norm": 0.5869841575622559, + "learning_rate": 1.8912853333333334e-05, + "loss": 0.0511, + "step": 25480 + }, + { + "epoch": 0.163104, + "grad_norm": 0.501905083656311, + "learning_rate": 1.8912640000000002e-05, + "loss": 0.1194, + "step": 25485 + }, + { + "epoch": 0.163136, + "grad_norm": 2.4658491611480713, + "learning_rate": 1.891242666666667e-05, + "loss": 0.1193, + "step": 25490 + }, + { + "epoch": 0.163168, + "grad_norm": 0.24999366700649261, + "learning_rate": 1.8912213333333337e-05, + "loss": 0.0729, + "step": 25495 + }, + { + "epoch": 0.1632, + "grad_norm": 0.4829012155532837, + "learning_rate": 1.8912e-05, + "loss": 0.0738, + "step": 25500 + }, + { + "epoch": 0.163232, + "grad_norm": 1.135970950126648, + "learning_rate": 1.891178666666667e-05, + "loss": 0.0711, + "step": 25505 + }, + { + "epoch": 0.163264, + "grad_norm": 0.6260480284690857, + "learning_rate": 1.8911573333333336e-05, + "loss": 0.0375, + "step": 25510 + }, + { + "epoch": 0.163296, + "grad_norm": 1.353110671043396, + "learning_rate": 1.891136e-05, + "loss": 0.0518, + "step": 25515 + }, + { + "epoch": 0.163328, + "grad_norm": 1.1372699737548828, + "learning_rate": 1.8911146666666668e-05, + "loss": 0.0841, + "step": 25520 + }, + { + "epoch": 0.16336, + "grad_norm": 1.7138429880142212, + "learning_rate": 1.8910933333333336e-05, + "loss": 0.0749, + "step": 25525 + }, + { + "epoch": 0.163392, + "grad_norm": 0.8546808958053589, + "learning_rate": 1.8910720000000003e-05, + "loss": 0.0731, + "step": 25530 + }, + { + "epoch": 0.163424, + "grad_norm": 0.932861864566803, + "learning_rate": 1.8910506666666667e-05, + "loss": 0.0657, + "step": 25535 + }, + { + "epoch": 0.163456, + "grad_norm": 0.9793232083320618, + "learning_rate": 1.8910293333333335e-05, + "loss": 0.0951, + "step": 25540 + }, + { + "epoch": 0.163488, + "grad_norm": 1.1199699640274048, + "learning_rate": 1.8910080000000002e-05, + "loss": 0.0788, + "step": 25545 + }, + { + "epoch": 0.16352, + "grad_norm": 1.4109746217727661, + "learning_rate": 1.8909866666666667e-05, + "loss": 0.0734, + "step": 25550 + }, + { + "epoch": 0.163552, + "grad_norm": 0.7445229291915894, + "learning_rate": 1.8909653333333334e-05, + "loss": 0.0762, + "step": 25555 + }, + { + "epoch": 0.163584, + "grad_norm": 0.8919306993484497, + "learning_rate": 1.8909440000000002e-05, + "loss": 0.0868, + "step": 25560 + }, + { + "epoch": 0.163616, + "grad_norm": 4.934514045715332, + "learning_rate": 1.890922666666667e-05, + "loss": 0.0889, + "step": 25565 + }, + { + "epoch": 0.163648, + "grad_norm": 0.564937949180603, + "learning_rate": 1.8909013333333333e-05, + "loss": 0.0754, + "step": 25570 + }, + { + "epoch": 0.16368, + "grad_norm": 1.1307072639465332, + "learning_rate": 1.89088e-05, + "loss": 0.0617, + "step": 25575 + }, + { + "epoch": 0.163712, + "grad_norm": 0.5073367357254028, + "learning_rate": 1.890858666666667e-05, + "loss": 0.0807, + "step": 25580 + }, + { + "epoch": 0.163744, + "grad_norm": 0.7362700700759888, + "learning_rate": 1.8908373333333333e-05, + "loss": 0.0842, + "step": 25585 + }, + { + "epoch": 0.163776, + "grad_norm": 1.1550328731536865, + "learning_rate": 1.8908160000000004e-05, + "loss": 0.1003, + "step": 25590 + }, + { + "epoch": 0.163808, + "grad_norm": 1.633277177810669, + "learning_rate": 1.8907946666666668e-05, + "loss": 0.0877, + "step": 25595 + }, + { + "epoch": 0.16384, + "grad_norm": 0.7117769718170166, + "learning_rate": 1.8907733333333335e-05, + "loss": 0.0751, + "step": 25600 + }, + { + "epoch": 0.163872, + "grad_norm": 1.2061254978179932, + "learning_rate": 1.8907520000000003e-05, + "loss": 0.0882, + "step": 25605 + }, + { + "epoch": 0.163904, + "grad_norm": 2.0309054851531982, + "learning_rate": 1.8907306666666667e-05, + "loss": 0.0759, + "step": 25610 + }, + { + "epoch": 0.163936, + "grad_norm": 0.7199434041976929, + "learning_rate": 1.8907093333333335e-05, + "loss": 0.0813, + "step": 25615 + }, + { + "epoch": 0.163968, + "grad_norm": 3.655618906021118, + "learning_rate": 1.8906880000000002e-05, + "loss": 0.0585, + "step": 25620 + }, + { + "epoch": 0.164, + "grad_norm": 0.6324217319488525, + "learning_rate": 1.890666666666667e-05, + "loss": 0.0995, + "step": 25625 + }, + { + "epoch": 0.164032, + "grad_norm": 0.7188462615013123, + "learning_rate": 1.8906453333333334e-05, + "loss": 0.1202, + "step": 25630 + }, + { + "epoch": 0.164064, + "grad_norm": 1.3718971014022827, + "learning_rate": 1.890624e-05, + "loss": 0.0964, + "step": 25635 + }, + { + "epoch": 0.164096, + "grad_norm": 0.6701053977012634, + "learning_rate": 1.890602666666667e-05, + "loss": 0.0772, + "step": 25640 + }, + { + "epoch": 0.164128, + "grad_norm": 0.8545049428939819, + "learning_rate": 1.8905813333333333e-05, + "loss": 0.0848, + "step": 25645 + }, + { + "epoch": 0.16416, + "grad_norm": 1.4561378955841064, + "learning_rate": 1.89056e-05, + "loss": 0.121, + "step": 25650 + }, + { + "epoch": 0.164192, + "grad_norm": 1.2319746017456055, + "learning_rate": 1.8905386666666668e-05, + "loss": 0.0466, + "step": 25655 + }, + { + "epoch": 0.164224, + "grad_norm": 1.930701732635498, + "learning_rate": 1.8905173333333336e-05, + "loss": 0.0877, + "step": 25660 + }, + { + "epoch": 0.164256, + "grad_norm": 0.6996351480484009, + "learning_rate": 1.890496e-05, + "loss": 0.0664, + "step": 25665 + }, + { + "epoch": 0.164288, + "grad_norm": 0.5438418388366699, + "learning_rate": 1.8904746666666668e-05, + "loss": 0.061, + "step": 25670 + }, + { + "epoch": 0.16432, + "grad_norm": 0.6944240927696228, + "learning_rate": 1.8904533333333335e-05, + "loss": 0.0705, + "step": 25675 + }, + { + "epoch": 0.164352, + "grad_norm": 0.6563352942466736, + "learning_rate": 1.890432e-05, + "loss": 0.1047, + "step": 25680 + }, + { + "epoch": 0.164384, + "grad_norm": 1.4882794618606567, + "learning_rate": 1.8904106666666667e-05, + "loss": 0.0736, + "step": 25685 + }, + { + "epoch": 0.164416, + "grad_norm": 1.3307726383209229, + "learning_rate": 1.8903893333333334e-05, + "loss": 0.0704, + "step": 25690 + }, + { + "epoch": 0.164448, + "grad_norm": 1.549852967262268, + "learning_rate": 1.8903680000000002e-05, + "loss": 0.0858, + "step": 25695 + }, + { + "epoch": 0.16448, + "grad_norm": 1.2547158002853394, + "learning_rate": 1.8903466666666666e-05, + "loss": 0.0892, + "step": 25700 + }, + { + "epoch": 0.164512, + "grad_norm": 0.8732553720474243, + "learning_rate": 1.8903253333333337e-05, + "loss": 0.1236, + "step": 25705 + }, + { + "epoch": 0.164544, + "grad_norm": 1.887119174003601, + "learning_rate": 1.890304e-05, + "loss": 0.0805, + "step": 25710 + }, + { + "epoch": 0.164576, + "grad_norm": 1.6959611177444458, + "learning_rate": 1.890282666666667e-05, + "loss": 0.0912, + "step": 25715 + }, + { + "epoch": 0.164608, + "grad_norm": 0.7930012941360474, + "learning_rate": 1.8902613333333336e-05, + "loss": 0.0357, + "step": 25720 + }, + { + "epoch": 0.16464, + "grad_norm": 2.7079856395721436, + "learning_rate": 1.89024e-05, + "loss": 0.0635, + "step": 25725 + }, + { + "epoch": 0.164672, + "grad_norm": 1.4167741537094116, + "learning_rate": 1.8902186666666668e-05, + "loss": 0.0653, + "step": 25730 + }, + { + "epoch": 0.164704, + "grad_norm": 1.1175960302352905, + "learning_rate": 1.8901973333333336e-05, + "loss": 0.0845, + "step": 25735 + }, + { + "epoch": 0.164736, + "grad_norm": 0.7730573415756226, + "learning_rate": 1.8901760000000003e-05, + "loss": 0.0555, + "step": 25740 + }, + { + "epoch": 0.164768, + "grad_norm": 0.574778139591217, + "learning_rate": 1.8901546666666667e-05, + "loss": 0.0962, + "step": 25745 + }, + { + "epoch": 0.1648, + "grad_norm": 0.9236593842506409, + "learning_rate": 1.8901333333333335e-05, + "loss": 0.0804, + "step": 25750 + }, + { + "epoch": 0.164832, + "grad_norm": 0.683058500289917, + "learning_rate": 1.8901120000000002e-05, + "loss": 0.0747, + "step": 25755 + }, + { + "epoch": 0.164864, + "grad_norm": 1.7985414266586304, + "learning_rate": 1.8900906666666667e-05, + "loss": 0.1076, + "step": 25760 + }, + { + "epoch": 0.164896, + "grad_norm": 0.8010689616203308, + "learning_rate": 1.8900693333333334e-05, + "loss": 0.0927, + "step": 25765 + }, + { + "epoch": 0.164928, + "grad_norm": 1.092941164970398, + "learning_rate": 1.8900480000000002e-05, + "loss": 0.0943, + "step": 25770 + }, + { + "epoch": 0.16496, + "grad_norm": 1.166458010673523, + "learning_rate": 1.890026666666667e-05, + "loss": 0.0915, + "step": 25775 + }, + { + "epoch": 0.164992, + "grad_norm": 0.5645202398300171, + "learning_rate": 1.8900053333333333e-05, + "loss": 0.0857, + "step": 25780 + }, + { + "epoch": 0.165024, + "grad_norm": 0.9197021722793579, + "learning_rate": 1.889984e-05, + "loss": 0.0806, + "step": 25785 + }, + { + "epoch": 0.165056, + "grad_norm": 1.8940316438674927, + "learning_rate": 1.889962666666667e-05, + "loss": 0.0847, + "step": 25790 + }, + { + "epoch": 0.165088, + "grad_norm": 4.547077655792236, + "learning_rate": 1.8899413333333333e-05, + "loss": 0.1106, + "step": 25795 + }, + { + "epoch": 0.16512, + "grad_norm": 1.3055447340011597, + "learning_rate": 1.8899200000000004e-05, + "loss": 0.0668, + "step": 25800 + }, + { + "epoch": 0.165152, + "grad_norm": 1.113997459411621, + "learning_rate": 1.8898986666666668e-05, + "loss": 0.1068, + "step": 25805 + }, + { + "epoch": 0.165184, + "grad_norm": 0.5936049222946167, + "learning_rate": 1.8898773333333335e-05, + "loss": 0.0795, + "step": 25810 + }, + { + "epoch": 0.165216, + "grad_norm": 1.0910029411315918, + "learning_rate": 1.8898560000000003e-05, + "loss": 0.0923, + "step": 25815 + }, + { + "epoch": 0.165248, + "grad_norm": 1.9593636989593506, + "learning_rate": 1.889834666666667e-05, + "loss": 0.126, + "step": 25820 + }, + { + "epoch": 0.16528, + "grad_norm": 1.7399439811706543, + "learning_rate": 1.8898133333333335e-05, + "loss": 0.0602, + "step": 25825 + }, + { + "epoch": 0.165312, + "grad_norm": 0.4430137872695923, + "learning_rate": 1.8897920000000002e-05, + "loss": 0.0628, + "step": 25830 + }, + { + "epoch": 0.165344, + "grad_norm": 4.242189884185791, + "learning_rate": 1.889770666666667e-05, + "loss": 0.076, + "step": 25835 + }, + { + "epoch": 0.165376, + "grad_norm": 1.1651581525802612, + "learning_rate": 1.8897493333333334e-05, + "loss": 0.0813, + "step": 25840 + }, + { + "epoch": 0.165408, + "grad_norm": 1.3358588218688965, + "learning_rate": 1.889728e-05, + "loss": 0.0853, + "step": 25845 + }, + { + "epoch": 0.16544, + "grad_norm": 1.1877524852752686, + "learning_rate": 1.889706666666667e-05, + "loss": 0.0659, + "step": 25850 + }, + { + "epoch": 0.165472, + "grad_norm": 0.7559563517570496, + "learning_rate": 1.8896853333333337e-05, + "loss": 0.0734, + "step": 25855 + }, + { + "epoch": 0.165504, + "grad_norm": 1.9230002164840698, + "learning_rate": 1.889664e-05, + "loss": 0.1006, + "step": 25860 + }, + { + "epoch": 0.165536, + "grad_norm": 1.0400633811950684, + "learning_rate": 1.8896426666666668e-05, + "loss": 0.0777, + "step": 25865 + }, + { + "epoch": 0.165568, + "grad_norm": 2.1769816875457764, + "learning_rate": 1.8896213333333336e-05, + "loss": 0.0921, + "step": 25870 + }, + { + "epoch": 0.1656, + "grad_norm": 2.544915199279785, + "learning_rate": 1.8896e-05, + "loss": 0.124, + "step": 25875 + }, + { + "epoch": 0.165632, + "grad_norm": 0.7325231432914734, + "learning_rate": 1.8895786666666668e-05, + "loss": 0.0825, + "step": 25880 + }, + { + "epoch": 0.165664, + "grad_norm": 1.3797909021377563, + "learning_rate": 1.8895573333333335e-05, + "loss": 0.0861, + "step": 25885 + }, + { + "epoch": 0.165696, + "grad_norm": 3.210531711578369, + "learning_rate": 1.8895360000000003e-05, + "loss": 0.0922, + "step": 25890 + }, + { + "epoch": 0.165728, + "grad_norm": 1.2147828340530396, + "learning_rate": 1.8895146666666667e-05, + "loss": 0.106, + "step": 25895 + }, + { + "epoch": 0.16576, + "grad_norm": 0.36468496918678284, + "learning_rate": 1.8894933333333334e-05, + "loss": 0.0891, + "step": 25900 + }, + { + "epoch": 0.165792, + "grad_norm": 1.6003155708312988, + "learning_rate": 1.8894720000000002e-05, + "loss": 0.1113, + "step": 25905 + }, + { + "epoch": 0.165824, + "grad_norm": 1.088867425918579, + "learning_rate": 1.8894506666666666e-05, + "loss": 0.1252, + "step": 25910 + }, + { + "epoch": 0.165856, + "grad_norm": 1.2820870876312256, + "learning_rate": 1.8894293333333337e-05, + "loss": 0.0963, + "step": 25915 + }, + { + "epoch": 0.165888, + "grad_norm": 0.9255316257476807, + "learning_rate": 1.889408e-05, + "loss": 0.1413, + "step": 25920 + }, + { + "epoch": 0.16592, + "grad_norm": 1.2738927602767944, + "learning_rate": 1.889386666666667e-05, + "loss": 0.103, + "step": 25925 + }, + { + "epoch": 0.165952, + "grad_norm": 0.8282099366188049, + "learning_rate": 1.8893653333333336e-05, + "loss": 0.0826, + "step": 25930 + }, + { + "epoch": 0.165984, + "grad_norm": 1.0286654233932495, + "learning_rate": 1.889344e-05, + "loss": 0.0768, + "step": 25935 + }, + { + "epoch": 0.166016, + "grad_norm": 0.518876850605011, + "learning_rate": 1.8893226666666668e-05, + "loss": 0.0663, + "step": 25940 + }, + { + "epoch": 0.166048, + "grad_norm": 0.7454228401184082, + "learning_rate": 1.8893013333333336e-05, + "loss": 0.0676, + "step": 25945 + }, + { + "epoch": 0.16608, + "grad_norm": 0.6041266918182373, + "learning_rate": 1.8892800000000003e-05, + "loss": 0.0666, + "step": 25950 + }, + { + "epoch": 0.166112, + "grad_norm": 0.5299702286720276, + "learning_rate": 1.8892586666666667e-05, + "loss": 0.0658, + "step": 25955 + }, + { + "epoch": 0.166144, + "grad_norm": 0.7769107222557068, + "learning_rate": 1.8892373333333335e-05, + "loss": 0.0831, + "step": 25960 + }, + { + "epoch": 0.166176, + "grad_norm": 0.5107939839363098, + "learning_rate": 1.8892160000000002e-05, + "loss": 0.0924, + "step": 25965 + }, + { + "epoch": 0.166208, + "grad_norm": 0.5965323448181152, + "learning_rate": 1.8891946666666667e-05, + "loss": 0.0494, + "step": 25970 + }, + { + "epoch": 0.16624, + "grad_norm": 0.5015934705734253, + "learning_rate": 1.8891733333333334e-05, + "loss": 0.0596, + "step": 25975 + }, + { + "epoch": 0.166272, + "grad_norm": 0.8935298323631287, + "learning_rate": 1.8891520000000002e-05, + "loss": 0.0777, + "step": 25980 + }, + { + "epoch": 0.166304, + "grad_norm": 0.5903613567352295, + "learning_rate": 1.889130666666667e-05, + "loss": 0.0573, + "step": 25985 + }, + { + "epoch": 0.166336, + "grad_norm": 0.3675086200237274, + "learning_rate": 1.8891093333333333e-05, + "loss": 0.0616, + "step": 25990 + }, + { + "epoch": 0.166368, + "grad_norm": 1.065421462059021, + "learning_rate": 1.889088e-05, + "loss": 0.1028, + "step": 25995 + }, + { + "epoch": 0.1664, + "grad_norm": 1.8804833889007568, + "learning_rate": 1.889066666666667e-05, + "loss": 0.0726, + "step": 26000 + }, + { + "epoch": 0.166432, + "grad_norm": 1.0763704776763916, + "learning_rate": 1.8890453333333333e-05, + "loss": 0.0782, + "step": 26005 + }, + { + "epoch": 0.166464, + "grad_norm": 0.8248564600944519, + "learning_rate": 1.889024e-05, + "loss": 0.0653, + "step": 26010 + }, + { + "epoch": 0.166496, + "grad_norm": 0.7066953778266907, + "learning_rate": 1.8890026666666668e-05, + "loss": 0.0751, + "step": 26015 + }, + { + "epoch": 0.166528, + "grad_norm": 1.2076867818832397, + "learning_rate": 1.8889813333333335e-05, + "loss": 0.0718, + "step": 26020 + }, + { + "epoch": 0.16656, + "grad_norm": 0.6726069450378418, + "learning_rate": 1.8889600000000003e-05, + "loss": 0.0751, + "step": 26025 + }, + { + "epoch": 0.166592, + "grad_norm": 1.7127641439437866, + "learning_rate": 1.888938666666667e-05, + "loss": 0.0929, + "step": 26030 + }, + { + "epoch": 0.166624, + "grad_norm": 1.2591464519500732, + "learning_rate": 1.8889173333333335e-05, + "loss": 0.1036, + "step": 26035 + }, + { + "epoch": 0.166656, + "grad_norm": 0.7812241911888123, + "learning_rate": 1.8888960000000002e-05, + "loss": 0.0724, + "step": 26040 + }, + { + "epoch": 0.166688, + "grad_norm": 0.5552234053611755, + "learning_rate": 1.888874666666667e-05, + "loss": 0.0532, + "step": 26045 + }, + { + "epoch": 0.16672, + "grad_norm": 0.8299493193626404, + "learning_rate": 1.8888533333333334e-05, + "loss": 0.0922, + "step": 26050 + }, + { + "epoch": 0.166752, + "grad_norm": 0.504220724105835, + "learning_rate": 1.888832e-05, + "loss": 0.0644, + "step": 26055 + }, + { + "epoch": 0.166784, + "grad_norm": 0.879410445690155, + "learning_rate": 1.888810666666667e-05, + "loss": 0.1294, + "step": 26060 + }, + { + "epoch": 0.166816, + "grad_norm": 1.1928380727767944, + "learning_rate": 1.8887893333333337e-05, + "loss": 0.0825, + "step": 26065 + }, + { + "epoch": 0.166848, + "grad_norm": 0.9338058829307556, + "learning_rate": 1.888768e-05, + "loss": 0.0825, + "step": 26070 + }, + { + "epoch": 0.16688, + "grad_norm": 0.9692838191986084, + "learning_rate": 1.8887466666666668e-05, + "loss": 0.0743, + "step": 26075 + }, + { + "epoch": 0.166912, + "grad_norm": 1.1620888710021973, + "learning_rate": 1.8887253333333336e-05, + "loss": 0.0624, + "step": 26080 + }, + { + "epoch": 0.166944, + "grad_norm": 0.43040645122528076, + "learning_rate": 1.888704e-05, + "loss": 0.0753, + "step": 26085 + }, + { + "epoch": 0.166976, + "grad_norm": 1.3965409994125366, + "learning_rate": 1.8886826666666668e-05, + "loss": 0.0828, + "step": 26090 + }, + { + "epoch": 0.167008, + "grad_norm": 0.6778383255004883, + "learning_rate": 1.8886613333333335e-05, + "loss": 0.0934, + "step": 26095 + }, + { + "epoch": 0.16704, + "grad_norm": 0.8167584538459778, + "learning_rate": 1.8886400000000003e-05, + "loss": 0.0649, + "step": 26100 + }, + { + "epoch": 0.167072, + "grad_norm": 0.8086106181144714, + "learning_rate": 1.8886186666666667e-05, + "loss": 0.0989, + "step": 26105 + }, + { + "epoch": 0.167104, + "grad_norm": 1.115587592124939, + "learning_rate": 1.8885973333333334e-05, + "loss": 0.0822, + "step": 26110 + }, + { + "epoch": 0.167136, + "grad_norm": 1.3100706338882446, + "learning_rate": 1.8885760000000002e-05, + "loss": 0.097, + "step": 26115 + }, + { + "epoch": 0.167168, + "grad_norm": 0.7457265853881836, + "learning_rate": 1.8885546666666666e-05, + "loss": 0.0653, + "step": 26120 + }, + { + "epoch": 0.1672, + "grad_norm": 1.1054339408874512, + "learning_rate": 1.8885333333333337e-05, + "loss": 0.0907, + "step": 26125 + }, + { + "epoch": 0.167232, + "grad_norm": 3.68208384513855, + "learning_rate": 1.888512e-05, + "loss": 0.0938, + "step": 26130 + }, + { + "epoch": 0.167264, + "grad_norm": 1.7720056772232056, + "learning_rate": 1.888490666666667e-05, + "loss": 0.0756, + "step": 26135 + }, + { + "epoch": 0.167296, + "grad_norm": 0.7390766739845276, + "learning_rate": 1.8884693333333336e-05, + "loss": 0.0734, + "step": 26140 + }, + { + "epoch": 0.167328, + "grad_norm": 1.649129033088684, + "learning_rate": 1.888448e-05, + "loss": 0.0855, + "step": 26145 + }, + { + "epoch": 0.16736, + "grad_norm": 0.47160202264785767, + "learning_rate": 1.8884266666666668e-05, + "loss": 0.0841, + "step": 26150 + }, + { + "epoch": 0.167392, + "grad_norm": 0.9108409285545349, + "learning_rate": 1.8884053333333336e-05, + "loss": 0.1005, + "step": 26155 + }, + { + "epoch": 0.167424, + "grad_norm": 1.1209090948104858, + "learning_rate": 1.8883840000000003e-05, + "loss": 0.115, + "step": 26160 + }, + { + "epoch": 0.167456, + "grad_norm": 0.4674942195415497, + "learning_rate": 1.8883626666666667e-05, + "loss": 0.0757, + "step": 26165 + }, + { + "epoch": 0.167488, + "grad_norm": 0.445634126663208, + "learning_rate": 1.8883413333333335e-05, + "loss": 0.0847, + "step": 26170 + }, + { + "epoch": 0.16752, + "grad_norm": 0.8505331873893738, + "learning_rate": 1.8883200000000002e-05, + "loss": 0.0887, + "step": 26175 + }, + { + "epoch": 0.167552, + "grad_norm": 0.7634239196777344, + "learning_rate": 1.8882986666666667e-05, + "loss": 0.0633, + "step": 26180 + }, + { + "epoch": 0.167584, + "grad_norm": 1.2386144399642944, + "learning_rate": 1.8882773333333334e-05, + "loss": 0.0679, + "step": 26185 + }, + { + "epoch": 0.167616, + "grad_norm": 1.7813397645950317, + "learning_rate": 1.8882560000000002e-05, + "loss": 0.0839, + "step": 26190 + }, + { + "epoch": 0.167648, + "grad_norm": 1.0809229612350464, + "learning_rate": 1.888234666666667e-05, + "loss": 0.1116, + "step": 26195 + }, + { + "epoch": 0.16768, + "grad_norm": 0.6633902788162231, + "learning_rate": 1.8882133333333333e-05, + "loss": 0.0465, + "step": 26200 + }, + { + "epoch": 0.167712, + "grad_norm": 0.8603063821792603, + "learning_rate": 1.888192e-05, + "loss": 0.0685, + "step": 26205 + }, + { + "epoch": 0.167744, + "grad_norm": 0.8211546540260315, + "learning_rate": 1.888170666666667e-05, + "loss": 0.0527, + "step": 26210 + }, + { + "epoch": 0.167776, + "grad_norm": 0.6113367080688477, + "learning_rate": 1.8881493333333333e-05, + "loss": 0.0664, + "step": 26215 + }, + { + "epoch": 0.167808, + "grad_norm": 0.33917057514190674, + "learning_rate": 1.888128e-05, + "loss": 0.0793, + "step": 26220 + }, + { + "epoch": 0.16784, + "grad_norm": 1.4365181922912598, + "learning_rate": 1.8881066666666668e-05, + "loss": 0.0953, + "step": 26225 + }, + { + "epoch": 0.167872, + "grad_norm": 0.8680991530418396, + "learning_rate": 1.8880853333333335e-05, + "loss": 0.0668, + "step": 26230 + }, + { + "epoch": 0.167904, + "grad_norm": 1.4623546600341797, + "learning_rate": 1.888064e-05, + "loss": 0.1065, + "step": 26235 + }, + { + "epoch": 0.167936, + "grad_norm": 0.8025525808334351, + "learning_rate": 1.888042666666667e-05, + "loss": 0.0946, + "step": 26240 + }, + { + "epoch": 0.167968, + "grad_norm": 1.2379536628723145, + "learning_rate": 1.8880213333333335e-05, + "loss": 0.0811, + "step": 26245 + }, + { + "epoch": 0.168, + "grad_norm": 0.5177322626113892, + "learning_rate": 1.8880000000000002e-05, + "loss": 0.0625, + "step": 26250 + }, + { + "epoch": 0.168032, + "grad_norm": 1.2090624570846558, + "learning_rate": 1.887978666666667e-05, + "loss": 0.0605, + "step": 26255 + }, + { + "epoch": 0.168064, + "grad_norm": 0.5243541598320007, + "learning_rate": 1.8879573333333334e-05, + "loss": 0.0484, + "step": 26260 + }, + { + "epoch": 0.168096, + "grad_norm": 0.5131157040596008, + "learning_rate": 1.887936e-05, + "loss": 0.0714, + "step": 26265 + }, + { + "epoch": 0.168128, + "grad_norm": 0.8580605387687683, + "learning_rate": 1.887914666666667e-05, + "loss": 0.0633, + "step": 26270 + }, + { + "epoch": 0.16816, + "grad_norm": 0.7337278127670288, + "learning_rate": 1.8878933333333337e-05, + "loss": 0.0549, + "step": 26275 + }, + { + "epoch": 0.168192, + "grad_norm": 5.195380210876465, + "learning_rate": 1.887872e-05, + "loss": 0.1339, + "step": 26280 + }, + { + "epoch": 0.168224, + "grad_norm": 0.6457063555717468, + "learning_rate": 1.8878506666666668e-05, + "loss": 0.0687, + "step": 26285 + }, + { + "epoch": 0.168256, + "grad_norm": 1.0264519453048706, + "learning_rate": 1.8878293333333336e-05, + "loss": 0.0734, + "step": 26290 + }, + { + "epoch": 0.168288, + "grad_norm": 0.8765072822570801, + "learning_rate": 1.887808e-05, + "loss": 0.0699, + "step": 26295 + }, + { + "epoch": 0.16832, + "grad_norm": 0.4658273458480835, + "learning_rate": 1.8877866666666668e-05, + "loss": 0.0732, + "step": 26300 + }, + { + "epoch": 0.168352, + "grad_norm": 1.8118901252746582, + "learning_rate": 1.8877653333333335e-05, + "loss": 0.0867, + "step": 26305 + }, + { + "epoch": 0.168384, + "grad_norm": 0.36499157547950745, + "learning_rate": 1.8877440000000003e-05, + "loss": 0.0902, + "step": 26310 + }, + { + "epoch": 0.168416, + "grad_norm": 0.6775027513504028, + "learning_rate": 1.8877226666666667e-05, + "loss": 0.0879, + "step": 26315 + }, + { + "epoch": 0.168448, + "grad_norm": 0.4779512286186218, + "learning_rate": 1.8877013333333334e-05, + "loss": 0.0615, + "step": 26320 + }, + { + "epoch": 0.16848, + "grad_norm": 0.7161115407943726, + "learning_rate": 1.8876800000000002e-05, + "loss": 0.0632, + "step": 26325 + }, + { + "epoch": 0.168512, + "grad_norm": 0.6947250962257385, + "learning_rate": 1.8876586666666666e-05, + "loss": 0.0756, + "step": 26330 + }, + { + "epoch": 0.168544, + "grad_norm": 1.0744280815124512, + "learning_rate": 1.8876373333333337e-05, + "loss": 0.0994, + "step": 26335 + }, + { + "epoch": 0.168576, + "grad_norm": 0.48331418633461, + "learning_rate": 1.887616e-05, + "loss": 0.0541, + "step": 26340 + }, + { + "epoch": 0.168608, + "grad_norm": 0.7215983271598816, + "learning_rate": 1.887594666666667e-05, + "loss": 0.0509, + "step": 26345 + }, + { + "epoch": 0.16864, + "grad_norm": 2.380650758743286, + "learning_rate": 1.8875733333333336e-05, + "loss": 0.0726, + "step": 26350 + }, + { + "epoch": 0.168672, + "grad_norm": 3.1010890007019043, + "learning_rate": 1.887552e-05, + "loss": 0.128, + "step": 26355 + }, + { + "epoch": 0.168704, + "grad_norm": 0.67604660987854, + "learning_rate": 1.8875306666666668e-05, + "loss": 0.0787, + "step": 26360 + }, + { + "epoch": 0.168736, + "grad_norm": 0.9929381012916565, + "learning_rate": 1.8875093333333336e-05, + "loss": 0.0876, + "step": 26365 + }, + { + "epoch": 0.168768, + "grad_norm": 2.213376522064209, + "learning_rate": 1.8874880000000003e-05, + "loss": 0.1227, + "step": 26370 + }, + { + "epoch": 0.1688, + "grad_norm": 0.9325432777404785, + "learning_rate": 1.8874666666666667e-05, + "loss": 0.0703, + "step": 26375 + }, + { + "epoch": 0.168832, + "grad_norm": 0.731356143951416, + "learning_rate": 1.8874453333333335e-05, + "loss": 0.0735, + "step": 26380 + }, + { + "epoch": 0.168864, + "grad_norm": 0.617421567440033, + "learning_rate": 1.8874240000000002e-05, + "loss": 0.0887, + "step": 26385 + }, + { + "epoch": 0.168896, + "grad_norm": 1.7746883630752563, + "learning_rate": 1.8874026666666667e-05, + "loss": 0.0822, + "step": 26390 + }, + { + "epoch": 0.168928, + "grad_norm": 1.004631757736206, + "learning_rate": 1.8873813333333334e-05, + "loss": 0.0929, + "step": 26395 + }, + { + "epoch": 0.16896, + "grad_norm": 0.9598084688186646, + "learning_rate": 1.8873600000000002e-05, + "loss": 0.0981, + "step": 26400 + }, + { + "epoch": 0.168992, + "grad_norm": 1.0397459268569946, + "learning_rate": 1.887338666666667e-05, + "loss": 0.0747, + "step": 26405 + }, + { + "epoch": 0.169024, + "grad_norm": 0.6357936859130859, + "learning_rate": 1.8873173333333333e-05, + "loss": 0.0614, + "step": 26410 + }, + { + "epoch": 0.169056, + "grad_norm": 0.7247200012207031, + "learning_rate": 1.887296e-05, + "loss": 0.0573, + "step": 26415 + }, + { + "epoch": 0.169088, + "grad_norm": 1.165392518043518, + "learning_rate": 1.887274666666667e-05, + "loss": 0.0969, + "step": 26420 + }, + { + "epoch": 0.16912, + "grad_norm": 1.0716603994369507, + "learning_rate": 1.8872533333333333e-05, + "loss": 0.0818, + "step": 26425 + }, + { + "epoch": 0.169152, + "grad_norm": 0.43318575620651245, + "learning_rate": 1.887232e-05, + "loss": 0.0521, + "step": 26430 + }, + { + "epoch": 0.169184, + "grad_norm": 0.6151745915412903, + "learning_rate": 1.8872106666666668e-05, + "loss": 0.0912, + "step": 26435 + }, + { + "epoch": 0.169216, + "grad_norm": 0.690228283405304, + "learning_rate": 1.8871893333333335e-05, + "loss": 0.0914, + "step": 26440 + }, + { + "epoch": 0.169248, + "grad_norm": 0.5661653280258179, + "learning_rate": 1.887168e-05, + "loss": 0.0522, + "step": 26445 + }, + { + "epoch": 0.16928, + "grad_norm": 0.5976043343544006, + "learning_rate": 1.887146666666667e-05, + "loss": 0.0623, + "step": 26450 + }, + { + "epoch": 0.169312, + "grad_norm": 1.9546750783920288, + "learning_rate": 1.8871253333333335e-05, + "loss": 0.0556, + "step": 26455 + }, + { + "epoch": 0.169344, + "grad_norm": 1.4456158876419067, + "learning_rate": 1.887104e-05, + "loss": 0.1123, + "step": 26460 + }, + { + "epoch": 0.169376, + "grad_norm": 0.7551736235618591, + "learning_rate": 1.887082666666667e-05, + "loss": 0.0642, + "step": 26465 + }, + { + "epoch": 0.169408, + "grad_norm": 1.0205330848693848, + "learning_rate": 1.8870613333333334e-05, + "loss": 0.0705, + "step": 26470 + }, + { + "epoch": 0.16944, + "grad_norm": 0.8168544173240662, + "learning_rate": 1.88704e-05, + "loss": 0.0751, + "step": 26475 + }, + { + "epoch": 0.169472, + "grad_norm": 0.7859406471252441, + "learning_rate": 1.887018666666667e-05, + "loss": 0.088, + "step": 26480 + }, + { + "epoch": 0.169504, + "grad_norm": 0.7353724837303162, + "learning_rate": 1.8869973333333337e-05, + "loss": 0.0797, + "step": 26485 + }, + { + "epoch": 0.169536, + "grad_norm": 0.9216796159744263, + "learning_rate": 1.886976e-05, + "loss": 0.0651, + "step": 26490 + }, + { + "epoch": 0.169568, + "grad_norm": 1.8683936595916748, + "learning_rate": 1.8869546666666668e-05, + "loss": 0.1009, + "step": 26495 + }, + { + "epoch": 0.1696, + "grad_norm": 1.861942172050476, + "learning_rate": 1.8869333333333336e-05, + "loss": 0.0815, + "step": 26500 + }, + { + "epoch": 0.169632, + "grad_norm": 0.7259340882301331, + "learning_rate": 1.886912e-05, + "loss": 0.065, + "step": 26505 + }, + { + "epoch": 0.169664, + "grad_norm": 0.7928194403648376, + "learning_rate": 1.8868906666666668e-05, + "loss": 0.0651, + "step": 26510 + }, + { + "epoch": 0.169696, + "grad_norm": 0.7860654592514038, + "learning_rate": 1.8868693333333335e-05, + "loss": 0.0682, + "step": 26515 + }, + { + "epoch": 0.169728, + "grad_norm": 0.5287975668907166, + "learning_rate": 1.8868480000000003e-05, + "loss": 0.0826, + "step": 26520 + }, + { + "epoch": 0.16976, + "grad_norm": 1.0782150030136108, + "learning_rate": 1.8868266666666667e-05, + "loss": 0.0983, + "step": 26525 + }, + { + "epoch": 0.169792, + "grad_norm": 1.9024004936218262, + "learning_rate": 1.8868053333333334e-05, + "loss": 0.0757, + "step": 26530 + }, + { + "epoch": 0.169824, + "grad_norm": 0.6815075874328613, + "learning_rate": 1.8867840000000002e-05, + "loss": 0.0614, + "step": 26535 + }, + { + "epoch": 0.169856, + "grad_norm": 0.7628219127655029, + "learning_rate": 1.8867626666666666e-05, + "loss": 0.0638, + "step": 26540 + }, + { + "epoch": 0.169888, + "grad_norm": 0.9305546879768372, + "learning_rate": 1.8867413333333334e-05, + "loss": 0.0775, + "step": 26545 + }, + { + "epoch": 0.16992, + "grad_norm": 1.8359436988830566, + "learning_rate": 1.88672e-05, + "loss": 0.109, + "step": 26550 + }, + { + "epoch": 0.169952, + "grad_norm": 0.49913981556892395, + "learning_rate": 1.886698666666667e-05, + "loss": 0.1038, + "step": 26555 + }, + { + "epoch": 0.169984, + "grad_norm": 0.8041639924049377, + "learning_rate": 1.8866773333333336e-05, + "loss": 0.0878, + "step": 26560 + }, + { + "epoch": 0.170016, + "grad_norm": 0.44923487305641174, + "learning_rate": 1.8866560000000004e-05, + "loss": 0.0642, + "step": 26565 + }, + { + "epoch": 0.170048, + "grad_norm": 0.9629747271537781, + "learning_rate": 1.8866346666666668e-05, + "loss": 0.0691, + "step": 26570 + }, + { + "epoch": 0.17008, + "grad_norm": 0.7666428685188293, + "learning_rate": 1.8866133333333336e-05, + "loss": 0.1171, + "step": 26575 + }, + { + "epoch": 0.170112, + "grad_norm": 1.1014021635055542, + "learning_rate": 1.8865920000000003e-05, + "loss": 0.0587, + "step": 26580 + }, + { + "epoch": 0.170144, + "grad_norm": 0.9196445941925049, + "learning_rate": 1.8865706666666667e-05, + "loss": 0.0639, + "step": 26585 + }, + { + "epoch": 0.170176, + "grad_norm": 0.6261336207389832, + "learning_rate": 1.8865493333333335e-05, + "loss": 0.0541, + "step": 26590 + }, + { + "epoch": 0.170208, + "grad_norm": 0.5876752734184265, + "learning_rate": 1.8865280000000002e-05, + "loss": 0.0831, + "step": 26595 + }, + { + "epoch": 0.17024, + "grad_norm": 5.636234283447266, + "learning_rate": 1.886506666666667e-05, + "loss": 0.0729, + "step": 26600 + }, + { + "epoch": 0.170272, + "grad_norm": 0.5240442156791687, + "learning_rate": 1.8864853333333334e-05, + "loss": 0.0784, + "step": 26605 + }, + { + "epoch": 0.170304, + "grad_norm": 0.6852684020996094, + "learning_rate": 1.8864640000000002e-05, + "loss": 0.1017, + "step": 26610 + }, + { + "epoch": 0.170336, + "grad_norm": 0.7992226481437683, + "learning_rate": 1.886442666666667e-05, + "loss": 0.0644, + "step": 26615 + }, + { + "epoch": 0.170368, + "grad_norm": 0.6983016729354858, + "learning_rate": 1.8864213333333333e-05, + "loss": 0.1071, + "step": 26620 + }, + { + "epoch": 0.1704, + "grad_norm": 0.5929586291313171, + "learning_rate": 1.8864e-05, + "loss": 0.0477, + "step": 26625 + }, + { + "epoch": 0.170432, + "grad_norm": 0.9543728232383728, + "learning_rate": 1.886378666666667e-05, + "loss": 0.0785, + "step": 26630 + }, + { + "epoch": 0.170464, + "grad_norm": 0.7184844017028809, + "learning_rate": 1.8863573333333336e-05, + "loss": 0.0662, + "step": 26635 + }, + { + "epoch": 0.170496, + "grad_norm": 0.7359132170677185, + "learning_rate": 1.886336e-05, + "loss": 0.1002, + "step": 26640 + }, + { + "epoch": 0.170528, + "grad_norm": 1.0489501953125, + "learning_rate": 1.8863146666666668e-05, + "loss": 0.097, + "step": 26645 + }, + { + "epoch": 0.17056, + "grad_norm": 0.8552536368370056, + "learning_rate": 1.8862933333333335e-05, + "loss": 0.0719, + "step": 26650 + }, + { + "epoch": 0.170592, + "grad_norm": 1.0048450231552124, + "learning_rate": 1.886272e-05, + "loss": 0.0882, + "step": 26655 + }, + { + "epoch": 0.170624, + "grad_norm": 0.9895948171615601, + "learning_rate": 1.886250666666667e-05, + "loss": 0.1265, + "step": 26660 + }, + { + "epoch": 0.170656, + "grad_norm": 0.4614739418029785, + "learning_rate": 1.8862293333333335e-05, + "loss": 0.0593, + "step": 26665 + }, + { + "epoch": 0.170688, + "grad_norm": 0.8070104718208313, + "learning_rate": 1.8862080000000002e-05, + "loss": 0.079, + "step": 26670 + }, + { + "epoch": 0.17072, + "grad_norm": 1.5573214292526245, + "learning_rate": 1.886186666666667e-05, + "loss": 0.0831, + "step": 26675 + }, + { + "epoch": 0.170752, + "grad_norm": 0.7848817110061646, + "learning_rate": 1.8861653333333334e-05, + "loss": 0.067, + "step": 26680 + }, + { + "epoch": 0.170784, + "grad_norm": 0.6325376033782959, + "learning_rate": 1.886144e-05, + "loss": 0.0871, + "step": 26685 + }, + { + "epoch": 0.170816, + "grad_norm": 0.9617151021957397, + "learning_rate": 1.886122666666667e-05, + "loss": 0.0662, + "step": 26690 + }, + { + "epoch": 0.170848, + "grad_norm": 1.8367931842803955, + "learning_rate": 1.8861013333333337e-05, + "loss": 0.0788, + "step": 26695 + }, + { + "epoch": 0.17088, + "grad_norm": 2.182162046432495, + "learning_rate": 1.88608e-05, + "loss": 0.1188, + "step": 26700 + }, + { + "epoch": 0.170912, + "grad_norm": 0.8852284550666809, + "learning_rate": 1.886058666666667e-05, + "loss": 0.0632, + "step": 26705 + }, + { + "epoch": 0.170944, + "grad_norm": 1.2631046772003174, + "learning_rate": 1.8860373333333336e-05, + "loss": 0.0814, + "step": 26710 + }, + { + "epoch": 0.170976, + "grad_norm": 0.8857564926147461, + "learning_rate": 1.886016e-05, + "loss": 0.0519, + "step": 26715 + }, + { + "epoch": 0.171008, + "grad_norm": 0.6946351528167725, + "learning_rate": 1.8859946666666668e-05, + "loss": 0.0779, + "step": 26720 + }, + { + "epoch": 0.17104, + "grad_norm": 0.38144445419311523, + "learning_rate": 1.8859733333333335e-05, + "loss": 0.0578, + "step": 26725 + }, + { + "epoch": 0.171072, + "grad_norm": 1.1204980611801147, + "learning_rate": 1.8859520000000003e-05, + "loss": 0.1006, + "step": 26730 + }, + { + "epoch": 0.171104, + "grad_norm": 0.6135522723197937, + "learning_rate": 1.8859306666666667e-05, + "loss": 0.0691, + "step": 26735 + }, + { + "epoch": 0.171136, + "grad_norm": 1.508374571800232, + "learning_rate": 1.8859093333333334e-05, + "loss": 0.0997, + "step": 26740 + }, + { + "epoch": 0.171168, + "grad_norm": 0.9435314536094666, + "learning_rate": 1.8858880000000002e-05, + "loss": 0.1075, + "step": 26745 + }, + { + "epoch": 0.1712, + "grad_norm": 0.8213304281234741, + "learning_rate": 1.8858666666666666e-05, + "loss": 0.0686, + "step": 26750 + }, + { + "epoch": 0.171232, + "grad_norm": 0.6389747262001038, + "learning_rate": 1.8858453333333334e-05, + "loss": 0.0814, + "step": 26755 + }, + { + "epoch": 0.171264, + "grad_norm": 0.9658028483390808, + "learning_rate": 1.885824e-05, + "loss": 0.0837, + "step": 26760 + }, + { + "epoch": 0.171296, + "grad_norm": 0.8267484903335571, + "learning_rate": 1.885802666666667e-05, + "loss": 0.0743, + "step": 26765 + }, + { + "epoch": 0.171328, + "grad_norm": 0.40586280822753906, + "learning_rate": 1.8857813333333333e-05, + "loss": 0.0664, + "step": 26770 + }, + { + "epoch": 0.17136, + "grad_norm": 2.0269579887390137, + "learning_rate": 1.8857600000000004e-05, + "loss": 0.0692, + "step": 26775 + }, + { + "epoch": 0.171392, + "grad_norm": 0.5878812670707703, + "learning_rate": 1.8857386666666668e-05, + "loss": 0.1057, + "step": 26780 + }, + { + "epoch": 0.171424, + "grad_norm": 0.9914450645446777, + "learning_rate": 1.8857173333333336e-05, + "loss": 0.0842, + "step": 26785 + }, + { + "epoch": 0.171456, + "grad_norm": 1.3583284616470337, + "learning_rate": 1.8856960000000003e-05, + "loss": 0.0793, + "step": 26790 + }, + { + "epoch": 0.171488, + "grad_norm": 0.9276377558708191, + "learning_rate": 1.8856746666666667e-05, + "loss": 0.133, + "step": 26795 + }, + { + "epoch": 0.17152, + "grad_norm": 0.5697050094604492, + "learning_rate": 1.8856533333333335e-05, + "loss": 0.071, + "step": 26800 + }, + { + "epoch": 0.171552, + "grad_norm": 0.5799030065536499, + "learning_rate": 1.8856320000000002e-05, + "loss": 0.0503, + "step": 26805 + }, + { + "epoch": 0.171584, + "grad_norm": 0.4819639325141907, + "learning_rate": 1.885610666666667e-05, + "loss": 0.064, + "step": 26810 + }, + { + "epoch": 0.171616, + "grad_norm": 1.67769193649292, + "learning_rate": 1.8855893333333334e-05, + "loss": 0.0778, + "step": 26815 + }, + { + "epoch": 0.171648, + "grad_norm": 0.770937979221344, + "learning_rate": 1.8855680000000002e-05, + "loss": 0.0556, + "step": 26820 + }, + { + "epoch": 0.17168, + "grad_norm": 0.4436497092247009, + "learning_rate": 1.885546666666667e-05, + "loss": 0.0766, + "step": 26825 + }, + { + "epoch": 0.171712, + "grad_norm": 0.5085470080375671, + "learning_rate": 1.8855253333333333e-05, + "loss": 0.0952, + "step": 26830 + }, + { + "epoch": 0.171744, + "grad_norm": 0.7714484333992004, + "learning_rate": 1.885504e-05, + "loss": 0.0628, + "step": 26835 + }, + { + "epoch": 0.171776, + "grad_norm": 1.2227015495300293, + "learning_rate": 1.885482666666667e-05, + "loss": 0.076, + "step": 26840 + }, + { + "epoch": 0.171808, + "grad_norm": 0.7144148349761963, + "learning_rate": 1.8854613333333336e-05, + "loss": 0.0941, + "step": 26845 + }, + { + "epoch": 0.17184, + "grad_norm": 0.8080433011054993, + "learning_rate": 1.88544e-05, + "loss": 0.0776, + "step": 26850 + }, + { + "epoch": 0.171872, + "grad_norm": 0.7975564002990723, + "learning_rate": 1.8854186666666668e-05, + "loss": 0.0843, + "step": 26855 + }, + { + "epoch": 0.171904, + "grad_norm": 1.2875279188156128, + "learning_rate": 1.8853973333333335e-05, + "loss": 0.0902, + "step": 26860 + }, + { + "epoch": 0.171936, + "grad_norm": 0.5834057927131653, + "learning_rate": 1.885376e-05, + "loss": 0.0848, + "step": 26865 + }, + { + "epoch": 0.171968, + "grad_norm": 4.4813151359558105, + "learning_rate": 1.885354666666667e-05, + "loss": 0.062, + "step": 26870 + }, + { + "epoch": 0.172, + "grad_norm": 1.473745584487915, + "learning_rate": 1.8853333333333335e-05, + "loss": 0.1059, + "step": 26875 + }, + { + "epoch": 0.172032, + "grad_norm": 2.1723499298095703, + "learning_rate": 1.8853120000000002e-05, + "loss": 0.0895, + "step": 26880 + }, + { + "epoch": 0.172064, + "grad_norm": 0.6214539408683777, + "learning_rate": 1.885290666666667e-05, + "loss": 0.068, + "step": 26885 + }, + { + "epoch": 0.172096, + "grad_norm": 1.1521614789962769, + "learning_rate": 1.8852693333333334e-05, + "loss": 0.0755, + "step": 26890 + }, + { + "epoch": 0.172128, + "grad_norm": 1.3715389966964722, + "learning_rate": 1.885248e-05, + "loss": 0.0766, + "step": 26895 + }, + { + "epoch": 0.17216, + "grad_norm": 0.8935876488685608, + "learning_rate": 1.885226666666667e-05, + "loss": 0.0637, + "step": 26900 + }, + { + "epoch": 0.172192, + "grad_norm": 1.6428223848342896, + "learning_rate": 1.8852053333333337e-05, + "loss": 0.0646, + "step": 26905 + }, + { + "epoch": 0.172224, + "grad_norm": 0.6369943618774414, + "learning_rate": 1.885184e-05, + "loss": 0.0649, + "step": 26910 + }, + { + "epoch": 0.172256, + "grad_norm": 0.7520778179168701, + "learning_rate": 1.885162666666667e-05, + "loss": 0.0563, + "step": 26915 + }, + { + "epoch": 0.172288, + "grad_norm": 0.9589207768440247, + "learning_rate": 1.8851413333333336e-05, + "loss": 0.0791, + "step": 26920 + }, + { + "epoch": 0.17232, + "grad_norm": 0.6856869459152222, + "learning_rate": 1.88512e-05, + "loss": 0.0997, + "step": 26925 + }, + { + "epoch": 0.172352, + "grad_norm": 0.4913995862007141, + "learning_rate": 1.8850986666666668e-05, + "loss": 0.0558, + "step": 26930 + }, + { + "epoch": 0.172384, + "grad_norm": 1.3862520456314087, + "learning_rate": 1.8850773333333335e-05, + "loss": 0.0556, + "step": 26935 + }, + { + "epoch": 0.172416, + "grad_norm": 0.8042112588882446, + "learning_rate": 1.8850560000000003e-05, + "loss": 0.0768, + "step": 26940 + }, + { + "epoch": 0.172448, + "grad_norm": 0.44408929347991943, + "learning_rate": 1.8850346666666667e-05, + "loss": 0.0721, + "step": 26945 + }, + { + "epoch": 0.17248, + "grad_norm": 2.93040132522583, + "learning_rate": 1.8850133333333334e-05, + "loss": 0.0968, + "step": 26950 + }, + { + "epoch": 0.172512, + "grad_norm": 1.6189496517181396, + "learning_rate": 1.8849920000000002e-05, + "loss": 0.0833, + "step": 26955 + }, + { + "epoch": 0.172544, + "grad_norm": 1.0526853799819946, + "learning_rate": 1.8849706666666666e-05, + "loss": 0.0503, + "step": 26960 + }, + { + "epoch": 0.172576, + "grad_norm": 0.527574360370636, + "learning_rate": 1.8849493333333334e-05, + "loss": 0.055, + "step": 26965 + }, + { + "epoch": 0.172608, + "grad_norm": 1.3636586666107178, + "learning_rate": 1.884928e-05, + "loss": 0.0852, + "step": 26970 + }, + { + "epoch": 0.17264, + "grad_norm": 0.7299489378929138, + "learning_rate": 1.884906666666667e-05, + "loss": 0.0497, + "step": 26975 + }, + { + "epoch": 0.172672, + "grad_norm": 0.42715591192245483, + "learning_rate": 1.8848853333333333e-05, + "loss": 0.073, + "step": 26980 + }, + { + "epoch": 0.172704, + "grad_norm": 0.6439793705940247, + "learning_rate": 1.8848640000000004e-05, + "loss": 0.0695, + "step": 26985 + }, + { + "epoch": 0.172736, + "grad_norm": 0.4805085062980652, + "learning_rate": 1.8848426666666668e-05, + "loss": 0.0756, + "step": 26990 + }, + { + "epoch": 0.172768, + "grad_norm": 0.4307228922843933, + "learning_rate": 1.8848213333333332e-05, + "loss": 0.0763, + "step": 26995 + }, + { + "epoch": 0.1728, + "grad_norm": 0.512886106967926, + "learning_rate": 1.8848000000000003e-05, + "loss": 0.0559, + "step": 27000 + }, + { + "epoch": 0.172832, + "grad_norm": 1.360175371170044, + "learning_rate": 1.8847786666666667e-05, + "loss": 0.0919, + "step": 27005 + }, + { + "epoch": 0.172864, + "grad_norm": 0.5394627451896667, + "learning_rate": 1.8847573333333335e-05, + "loss": 0.0415, + "step": 27010 + }, + { + "epoch": 0.172896, + "grad_norm": 0.8133760094642639, + "learning_rate": 1.8847360000000002e-05, + "loss": 0.0944, + "step": 27015 + }, + { + "epoch": 0.172928, + "grad_norm": 0.6896673440933228, + "learning_rate": 1.884714666666667e-05, + "loss": 0.0663, + "step": 27020 + }, + { + "epoch": 0.17296, + "grad_norm": 1.625905990600586, + "learning_rate": 1.8846933333333334e-05, + "loss": 0.0659, + "step": 27025 + }, + { + "epoch": 0.172992, + "grad_norm": 1.107042670249939, + "learning_rate": 1.8846720000000002e-05, + "loss": 0.075, + "step": 27030 + }, + { + "epoch": 0.173024, + "grad_norm": 1.0004853010177612, + "learning_rate": 1.884650666666667e-05, + "loss": 0.1083, + "step": 27035 + }, + { + "epoch": 0.173056, + "grad_norm": 0.7645845413208008, + "learning_rate": 1.8846293333333333e-05, + "loss": 0.1013, + "step": 27040 + }, + { + "epoch": 0.173088, + "grad_norm": 0.9517920017242432, + "learning_rate": 1.884608e-05, + "loss": 0.071, + "step": 27045 + }, + { + "epoch": 0.17312, + "grad_norm": 0.9415313005447388, + "learning_rate": 1.884586666666667e-05, + "loss": 0.0731, + "step": 27050 + }, + { + "epoch": 0.173152, + "grad_norm": 1.274215579032898, + "learning_rate": 1.8845653333333336e-05, + "loss": 0.0556, + "step": 27055 + }, + { + "epoch": 0.173184, + "grad_norm": 0.6700530648231506, + "learning_rate": 1.884544e-05, + "loss": 0.059, + "step": 27060 + }, + { + "epoch": 0.173216, + "grad_norm": 0.8425483703613281, + "learning_rate": 1.8845226666666668e-05, + "loss": 0.0627, + "step": 27065 + }, + { + "epoch": 0.173248, + "grad_norm": 0.5658236145973206, + "learning_rate": 1.8845013333333335e-05, + "loss": 0.0632, + "step": 27070 + }, + { + "epoch": 0.17328, + "grad_norm": 1.1874500513076782, + "learning_rate": 1.88448e-05, + "loss": 0.0928, + "step": 27075 + }, + { + "epoch": 0.173312, + "grad_norm": 0.8174422383308411, + "learning_rate": 1.884458666666667e-05, + "loss": 0.0512, + "step": 27080 + }, + { + "epoch": 0.173344, + "grad_norm": 0.5825375914573669, + "learning_rate": 1.8844373333333335e-05, + "loss": 0.0668, + "step": 27085 + }, + { + "epoch": 0.173376, + "grad_norm": 1.4697595834732056, + "learning_rate": 1.8844160000000002e-05, + "loss": 0.0696, + "step": 27090 + }, + { + "epoch": 0.173408, + "grad_norm": 0.8414777517318726, + "learning_rate": 1.884394666666667e-05, + "loss": 0.0754, + "step": 27095 + }, + { + "epoch": 0.17344, + "grad_norm": 1.0155003070831299, + "learning_rate": 1.8843733333333334e-05, + "loss": 0.0876, + "step": 27100 + }, + { + "epoch": 0.173472, + "grad_norm": 1.3041837215423584, + "learning_rate": 1.884352e-05, + "loss": 0.0498, + "step": 27105 + }, + { + "epoch": 0.173504, + "grad_norm": 1.7820544242858887, + "learning_rate": 1.884330666666667e-05, + "loss": 0.085, + "step": 27110 + }, + { + "epoch": 0.173536, + "grad_norm": 0.6141012907028198, + "learning_rate": 1.8843093333333337e-05, + "loss": 0.0773, + "step": 27115 + }, + { + "epoch": 0.173568, + "grad_norm": 0.8463537096977234, + "learning_rate": 1.884288e-05, + "loss": 0.0604, + "step": 27120 + }, + { + "epoch": 0.1736, + "grad_norm": 0.8438717722892761, + "learning_rate": 1.884266666666667e-05, + "loss": 0.0485, + "step": 27125 + }, + { + "epoch": 0.173632, + "grad_norm": 0.9147143959999084, + "learning_rate": 1.8842453333333336e-05, + "loss": 0.0908, + "step": 27130 + }, + { + "epoch": 0.173664, + "grad_norm": 1.4677670001983643, + "learning_rate": 1.884224e-05, + "loss": 0.0928, + "step": 27135 + }, + { + "epoch": 0.173696, + "grad_norm": 4.882437229156494, + "learning_rate": 1.8842026666666668e-05, + "loss": 0.0578, + "step": 27140 + }, + { + "epoch": 0.173728, + "grad_norm": 0.5934078097343445, + "learning_rate": 1.8841813333333335e-05, + "loss": 0.0912, + "step": 27145 + }, + { + "epoch": 0.17376, + "grad_norm": 0.7941186428070068, + "learning_rate": 1.8841600000000003e-05, + "loss": 0.0726, + "step": 27150 + }, + { + "epoch": 0.173792, + "grad_norm": 0.7747945785522461, + "learning_rate": 1.8841386666666667e-05, + "loss": 0.0795, + "step": 27155 + }, + { + "epoch": 0.173824, + "grad_norm": 1.3626294136047363, + "learning_rate": 1.8841173333333334e-05, + "loss": 0.0497, + "step": 27160 + }, + { + "epoch": 0.173856, + "grad_norm": 0.875180184841156, + "learning_rate": 1.8840960000000002e-05, + "loss": 0.1043, + "step": 27165 + }, + { + "epoch": 0.173888, + "grad_norm": 0.7869507670402527, + "learning_rate": 1.8840746666666666e-05, + "loss": 0.0776, + "step": 27170 + }, + { + "epoch": 0.17392, + "grad_norm": 0.41361886262893677, + "learning_rate": 1.8840533333333334e-05, + "loss": 0.0796, + "step": 27175 + }, + { + "epoch": 0.173952, + "grad_norm": 0.34309902787208557, + "learning_rate": 1.884032e-05, + "loss": 0.0637, + "step": 27180 + }, + { + "epoch": 0.173984, + "grad_norm": 1.0011543035507202, + "learning_rate": 1.884010666666667e-05, + "loss": 0.0657, + "step": 27185 + }, + { + "epoch": 0.174016, + "grad_norm": 3.0844244956970215, + "learning_rate": 1.8839893333333333e-05, + "loss": 0.1092, + "step": 27190 + }, + { + "epoch": 0.174048, + "grad_norm": 0.24404633045196533, + "learning_rate": 1.8839680000000004e-05, + "loss": 0.0494, + "step": 27195 + }, + { + "epoch": 0.17408, + "grad_norm": 1.3948346376419067, + "learning_rate": 1.8839466666666668e-05, + "loss": 0.0857, + "step": 27200 + }, + { + "epoch": 0.174112, + "grad_norm": 2.845269203186035, + "learning_rate": 1.8839253333333332e-05, + "loss": 0.0775, + "step": 27205 + }, + { + "epoch": 0.174144, + "grad_norm": 6.7410478591918945, + "learning_rate": 1.8839040000000003e-05, + "loss": 0.0834, + "step": 27210 + }, + { + "epoch": 0.174176, + "grad_norm": 0.42753180861473083, + "learning_rate": 1.8838826666666667e-05, + "loss": 0.0647, + "step": 27215 + }, + { + "epoch": 0.174208, + "grad_norm": 0.7552394866943359, + "learning_rate": 1.8838613333333335e-05, + "loss": 0.0601, + "step": 27220 + }, + { + "epoch": 0.17424, + "grad_norm": 1.4629008769989014, + "learning_rate": 1.8838400000000002e-05, + "loss": 0.0676, + "step": 27225 + }, + { + "epoch": 0.174272, + "grad_norm": 1.0831133127212524, + "learning_rate": 1.883818666666667e-05, + "loss": 0.071, + "step": 27230 + }, + { + "epoch": 0.174304, + "grad_norm": 1.2446527481079102, + "learning_rate": 1.8837973333333334e-05, + "loss": 0.1019, + "step": 27235 + }, + { + "epoch": 0.174336, + "grad_norm": 0.8546487092971802, + "learning_rate": 1.8837760000000002e-05, + "loss": 0.0655, + "step": 27240 + }, + { + "epoch": 0.174368, + "grad_norm": 0.5479549765586853, + "learning_rate": 1.883754666666667e-05, + "loss": 0.0624, + "step": 27245 + }, + { + "epoch": 0.1744, + "grad_norm": 0.762129008769989, + "learning_rate": 1.8837333333333333e-05, + "loss": 0.0701, + "step": 27250 + }, + { + "epoch": 0.174432, + "grad_norm": 0.8623217344284058, + "learning_rate": 1.883712e-05, + "loss": 0.0647, + "step": 27255 + }, + { + "epoch": 0.174464, + "grad_norm": 1.1115983724594116, + "learning_rate": 1.883690666666667e-05, + "loss": 0.0739, + "step": 27260 + }, + { + "epoch": 0.174496, + "grad_norm": 2.4926538467407227, + "learning_rate": 1.8836693333333336e-05, + "loss": 0.0929, + "step": 27265 + }, + { + "epoch": 0.174528, + "grad_norm": 0.8754520416259766, + "learning_rate": 1.883648e-05, + "loss": 0.064, + "step": 27270 + }, + { + "epoch": 0.17456, + "grad_norm": 0.9355021119117737, + "learning_rate": 1.8836266666666668e-05, + "loss": 0.0805, + "step": 27275 + }, + { + "epoch": 0.174592, + "grad_norm": 0.9423568844795227, + "learning_rate": 1.8836053333333335e-05, + "loss": 0.0703, + "step": 27280 + }, + { + "epoch": 0.174624, + "grad_norm": 1.565482497215271, + "learning_rate": 1.883584e-05, + "loss": 0.0937, + "step": 27285 + }, + { + "epoch": 0.174656, + "grad_norm": 1.6431618928909302, + "learning_rate": 1.8835626666666667e-05, + "loss": 0.0986, + "step": 27290 + }, + { + "epoch": 0.174688, + "grad_norm": 0.8080949187278748, + "learning_rate": 1.8835413333333335e-05, + "loss": 0.089, + "step": 27295 + }, + { + "epoch": 0.17472, + "grad_norm": 0.4292367100715637, + "learning_rate": 1.8835200000000002e-05, + "loss": 0.045, + "step": 27300 + }, + { + "epoch": 0.174752, + "grad_norm": 0.6690787076950073, + "learning_rate": 1.883498666666667e-05, + "loss": 0.0573, + "step": 27305 + }, + { + "epoch": 0.174784, + "grad_norm": 0.6881754994392395, + "learning_rate": 1.8834773333333334e-05, + "loss": 0.0629, + "step": 27310 + }, + { + "epoch": 0.174816, + "grad_norm": 0.7749515175819397, + "learning_rate": 1.883456e-05, + "loss": 0.0676, + "step": 27315 + }, + { + "epoch": 0.174848, + "grad_norm": 1.1672778129577637, + "learning_rate": 1.883434666666667e-05, + "loss": 0.0833, + "step": 27320 + }, + { + "epoch": 0.17488, + "grad_norm": 0.6156787872314453, + "learning_rate": 1.8834133333333337e-05, + "loss": 0.0537, + "step": 27325 + }, + { + "epoch": 0.174912, + "grad_norm": 0.8249478340148926, + "learning_rate": 1.883392e-05, + "loss": 0.0628, + "step": 27330 + }, + { + "epoch": 0.174944, + "grad_norm": 1.6086735725402832, + "learning_rate": 1.883370666666667e-05, + "loss": 0.0766, + "step": 27335 + }, + { + "epoch": 0.174976, + "grad_norm": 0.7262110710144043, + "learning_rate": 1.8833493333333336e-05, + "loss": 0.0687, + "step": 27340 + }, + { + "epoch": 0.175008, + "grad_norm": 1.2752221822738647, + "learning_rate": 1.883328e-05, + "loss": 0.0841, + "step": 27345 + }, + { + "epoch": 0.17504, + "grad_norm": 0.806695282459259, + "learning_rate": 1.8833066666666668e-05, + "loss": 0.0654, + "step": 27350 + }, + { + "epoch": 0.175072, + "grad_norm": 0.5467084050178528, + "learning_rate": 1.8832853333333335e-05, + "loss": 0.0826, + "step": 27355 + }, + { + "epoch": 0.175104, + "grad_norm": 0.4900367259979248, + "learning_rate": 1.8832640000000003e-05, + "loss": 0.0594, + "step": 27360 + }, + { + "epoch": 0.175136, + "grad_norm": 1.571004867553711, + "learning_rate": 1.8832426666666667e-05, + "loss": 0.1122, + "step": 27365 + }, + { + "epoch": 0.175168, + "grad_norm": 0.7659704089164734, + "learning_rate": 1.8832213333333334e-05, + "loss": 0.0772, + "step": 27370 + }, + { + "epoch": 0.1752, + "grad_norm": 1.750006914138794, + "learning_rate": 1.8832000000000002e-05, + "loss": 0.0736, + "step": 27375 + }, + { + "epoch": 0.175232, + "grad_norm": 0.980676531791687, + "learning_rate": 1.8831786666666666e-05, + "loss": 0.065, + "step": 27380 + }, + { + "epoch": 0.175264, + "grad_norm": 5.100941181182861, + "learning_rate": 1.8831573333333334e-05, + "loss": 0.0717, + "step": 27385 + }, + { + "epoch": 0.175296, + "grad_norm": 0.5257977843284607, + "learning_rate": 1.883136e-05, + "loss": 0.0479, + "step": 27390 + }, + { + "epoch": 0.175328, + "grad_norm": 0.9126645922660828, + "learning_rate": 1.883114666666667e-05, + "loss": 0.0637, + "step": 27395 + }, + { + "epoch": 0.17536, + "grad_norm": 1.0829299688339233, + "learning_rate": 1.8830933333333333e-05, + "loss": 0.0564, + "step": 27400 + }, + { + "epoch": 0.175392, + "grad_norm": 1.2702454328536987, + "learning_rate": 1.8830720000000004e-05, + "loss": 0.0716, + "step": 27405 + }, + { + "epoch": 0.175424, + "grad_norm": 1.197625756263733, + "learning_rate": 1.8830506666666668e-05, + "loss": 0.0703, + "step": 27410 + }, + { + "epoch": 0.175456, + "grad_norm": 1.418654203414917, + "learning_rate": 1.8830293333333336e-05, + "loss": 0.0864, + "step": 27415 + }, + { + "epoch": 0.175488, + "grad_norm": 2.299271821975708, + "learning_rate": 1.8830080000000003e-05, + "loss": 0.0701, + "step": 27420 + }, + { + "epoch": 0.17552, + "grad_norm": 2.4891114234924316, + "learning_rate": 1.8829866666666667e-05, + "loss": 0.103, + "step": 27425 + }, + { + "epoch": 0.175552, + "grad_norm": 0.6852788329124451, + "learning_rate": 1.8829653333333335e-05, + "loss": 0.0877, + "step": 27430 + }, + { + "epoch": 0.175584, + "grad_norm": 0.6790066361427307, + "learning_rate": 1.8829440000000002e-05, + "loss": 0.1179, + "step": 27435 + }, + { + "epoch": 0.175616, + "grad_norm": 0.6052371263504028, + "learning_rate": 1.882922666666667e-05, + "loss": 0.0799, + "step": 27440 + }, + { + "epoch": 0.175648, + "grad_norm": 0.5411189794540405, + "learning_rate": 1.8829013333333334e-05, + "loss": 0.0664, + "step": 27445 + }, + { + "epoch": 0.17568, + "grad_norm": 2.0748369693756104, + "learning_rate": 1.8828800000000002e-05, + "loss": 0.069, + "step": 27450 + }, + { + "epoch": 0.175712, + "grad_norm": 0.5040516257286072, + "learning_rate": 1.882858666666667e-05, + "loss": 0.06, + "step": 27455 + }, + { + "epoch": 0.175744, + "grad_norm": 0.9909127950668335, + "learning_rate": 1.8828373333333333e-05, + "loss": 0.0888, + "step": 27460 + }, + { + "epoch": 0.175776, + "grad_norm": 1.3317769765853882, + "learning_rate": 1.882816e-05, + "loss": 0.1023, + "step": 27465 + }, + { + "epoch": 0.175808, + "grad_norm": 0.946456789970398, + "learning_rate": 1.882794666666667e-05, + "loss": 0.0971, + "step": 27470 + }, + { + "epoch": 0.17584, + "grad_norm": 4.6306657791137695, + "learning_rate": 1.8827733333333336e-05, + "loss": 0.0708, + "step": 27475 + }, + { + "epoch": 0.175872, + "grad_norm": 1.355460524559021, + "learning_rate": 1.882752e-05, + "loss": 0.0894, + "step": 27480 + }, + { + "epoch": 0.175904, + "grad_norm": 2.0023231506347656, + "learning_rate": 1.8827306666666668e-05, + "loss": 0.0727, + "step": 27485 + }, + { + "epoch": 0.175936, + "grad_norm": 0.5878258943557739, + "learning_rate": 1.8827093333333335e-05, + "loss": 0.0761, + "step": 27490 + }, + { + "epoch": 0.175968, + "grad_norm": 0.7226154804229736, + "learning_rate": 1.882688e-05, + "loss": 0.0643, + "step": 27495 + }, + { + "epoch": 0.176, + "grad_norm": 0.6676209568977356, + "learning_rate": 1.8826666666666667e-05, + "loss": 0.063, + "step": 27500 + }, + { + "epoch": 0.176032, + "grad_norm": 0.6059287786483765, + "learning_rate": 1.8826453333333335e-05, + "loss": 0.0557, + "step": 27505 + }, + { + "epoch": 0.176064, + "grad_norm": 0.5060149431228638, + "learning_rate": 1.8826240000000002e-05, + "loss": 0.045, + "step": 27510 + }, + { + "epoch": 0.176096, + "grad_norm": 2.018833875656128, + "learning_rate": 1.8826026666666666e-05, + "loss": 0.0681, + "step": 27515 + }, + { + "epoch": 0.176128, + "grad_norm": 0.8296768665313721, + "learning_rate": 1.8825813333333337e-05, + "loss": 0.0852, + "step": 27520 + }, + { + "epoch": 0.17616, + "grad_norm": 0.8018898367881775, + "learning_rate": 1.88256e-05, + "loss": 0.073, + "step": 27525 + }, + { + "epoch": 0.176192, + "grad_norm": 2.943748712539673, + "learning_rate": 1.882538666666667e-05, + "loss": 0.084, + "step": 27530 + }, + { + "epoch": 0.176224, + "grad_norm": 0.7873653769493103, + "learning_rate": 1.8825173333333337e-05, + "loss": 0.0838, + "step": 27535 + }, + { + "epoch": 0.176256, + "grad_norm": 3.1667850017547607, + "learning_rate": 1.882496e-05, + "loss": 0.0628, + "step": 27540 + }, + { + "epoch": 0.176288, + "grad_norm": 0.5464056730270386, + "learning_rate": 1.882474666666667e-05, + "loss": 0.0687, + "step": 27545 + }, + { + "epoch": 0.17632, + "grad_norm": 0.512967586517334, + "learning_rate": 1.8824533333333336e-05, + "loss": 0.0752, + "step": 27550 + }, + { + "epoch": 0.176352, + "grad_norm": 0.3601852059364319, + "learning_rate": 1.8824320000000003e-05, + "loss": 0.1068, + "step": 27555 + }, + { + "epoch": 0.176384, + "grad_norm": 0.6860799193382263, + "learning_rate": 1.8824106666666668e-05, + "loss": 0.0861, + "step": 27560 + }, + { + "epoch": 0.176416, + "grad_norm": 0.8597486615180969, + "learning_rate": 1.8823893333333335e-05, + "loss": 0.1052, + "step": 27565 + }, + { + "epoch": 0.176448, + "grad_norm": 1.0291205644607544, + "learning_rate": 1.8823680000000003e-05, + "loss": 0.0548, + "step": 27570 + }, + { + "epoch": 0.17648, + "grad_norm": 0.9012206792831421, + "learning_rate": 1.8823466666666667e-05, + "loss": 0.0733, + "step": 27575 + }, + { + "epoch": 0.176512, + "grad_norm": 0.8788408041000366, + "learning_rate": 1.8823253333333334e-05, + "loss": 0.0656, + "step": 27580 + }, + { + "epoch": 0.176544, + "grad_norm": 0.5969944596290588, + "learning_rate": 1.8823040000000002e-05, + "loss": 0.0702, + "step": 27585 + }, + { + "epoch": 0.176576, + "grad_norm": 0.9888590574264526, + "learning_rate": 1.882282666666667e-05, + "loss": 0.0728, + "step": 27590 + }, + { + "epoch": 0.176608, + "grad_norm": 0.9921272397041321, + "learning_rate": 1.8822613333333334e-05, + "loss": 0.0682, + "step": 27595 + }, + { + "epoch": 0.17664, + "grad_norm": 3.142441749572754, + "learning_rate": 1.88224e-05, + "loss": 0.0748, + "step": 27600 + }, + { + "epoch": 0.176672, + "grad_norm": 0.9521263241767883, + "learning_rate": 1.882218666666667e-05, + "loss": 0.0722, + "step": 27605 + }, + { + "epoch": 0.176704, + "grad_norm": 0.6360094547271729, + "learning_rate": 1.8821973333333333e-05, + "loss": 0.0856, + "step": 27610 + }, + { + "epoch": 0.176736, + "grad_norm": 0.6837030649185181, + "learning_rate": 1.8821760000000004e-05, + "loss": 0.0819, + "step": 27615 + }, + { + "epoch": 0.176768, + "grad_norm": 1.9366859197616577, + "learning_rate": 1.8821546666666668e-05, + "loss": 0.1262, + "step": 27620 + }, + { + "epoch": 0.1768, + "grad_norm": 0.3106115758419037, + "learning_rate": 1.8821333333333336e-05, + "loss": 0.0944, + "step": 27625 + }, + { + "epoch": 0.176832, + "grad_norm": 0.727143406867981, + "learning_rate": 1.8821120000000003e-05, + "loss": 0.0618, + "step": 27630 + }, + { + "epoch": 0.176864, + "grad_norm": 0.7374162673950195, + "learning_rate": 1.8820906666666667e-05, + "loss": 0.074, + "step": 27635 + }, + { + "epoch": 0.176896, + "grad_norm": 0.6419209837913513, + "learning_rate": 1.8820693333333335e-05, + "loss": 0.0767, + "step": 27640 + }, + { + "epoch": 0.176928, + "grad_norm": 0.43597137928009033, + "learning_rate": 1.8820480000000002e-05, + "loss": 0.0505, + "step": 27645 + }, + { + "epoch": 0.17696, + "grad_norm": 0.5467760562896729, + "learning_rate": 1.882026666666667e-05, + "loss": 0.0562, + "step": 27650 + }, + { + "epoch": 0.176992, + "grad_norm": 0.6783322691917419, + "learning_rate": 1.8820053333333334e-05, + "loss": 0.074, + "step": 27655 + }, + { + "epoch": 0.177024, + "grad_norm": 1.2595065832138062, + "learning_rate": 1.8819840000000002e-05, + "loss": 0.0933, + "step": 27660 + }, + { + "epoch": 0.177056, + "grad_norm": 0.6781144142150879, + "learning_rate": 1.881962666666667e-05, + "loss": 0.0626, + "step": 27665 + }, + { + "epoch": 0.177088, + "grad_norm": 0.8530731201171875, + "learning_rate": 1.8819413333333333e-05, + "loss": 0.0714, + "step": 27670 + }, + { + "epoch": 0.17712, + "grad_norm": 0.5216811299324036, + "learning_rate": 1.88192e-05, + "loss": 0.0677, + "step": 27675 + }, + { + "epoch": 0.177152, + "grad_norm": 0.4592142105102539, + "learning_rate": 1.881898666666667e-05, + "loss": 0.0515, + "step": 27680 + }, + { + "epoch": 0.177184, + "grad_norm": 0.7770706415176392, + "learning_rate": 1.8818773333333336e-05, + "loss": 0.0948, + "step": 27685 + }, + { + "epoch": 0.177216, + "grad_norm": 0.48815709352493286, + "learning_rate": 1.881856e-05, + "loss": 0.0682, + "step": 27690 + }, + { + "epoch": 0.177248, + "grad_norm": 0.7870097756385803, + "learning_rate": 1.8818346666666668e-05, + "loss": 0.0547, + "step": 27695 + }, + { + "epoch": 0.17728, + "grad_norm": 1.1472564935684204, + "learning_rate": 1.8818133333333335e-05, + "loss": 0.0724, + "step": 27700 + }, + { + "epoch": 0.177312, + "grad_norm": 1.0604608058929443, + "learning_rate": 1.881792e-05, + "loss": 0.0818, + "step": 27705 + }, + { + "epoch": 0.177344, + "grad_norm": 1.024900197982788, + "learning_rate": 1.8817706666666667e-05, + "loss": 0.0666, + "step": 27710 + }, + { + "epoch": 0.177376, + "grad_norm": 1.401111125946045, + "learning_rate": 1.8817493333333335e-05, + "loss": 0.0451, + "step": 27715 + }, + { + "epoch": 0.177408, + "grad_norm": 0.4394242465496063, + "learning_rate": 1.8817280000000002e-05, + "loss": 0.0589, + "step": 27720 + }, + { + "epoch": 0.17744, + "grad_norm": 0.8741134405136108, + "learning_rate": 1.8817066666666666e-05, + "loss": 0.0573, + "step": 27725 + }, + { + "epoch": 0.177472, + "grad_norm": 0.8111103177070618, + "learning_rate": 1.8816853333333337e-05, + "loss": 0.0654, + "step": 27730 + }, + { + "epoch": 0.177504, + "grad_norm": 0.6124541163444519, + "learning_rate": 1.881664e-05, + "loss": 0.0599, + "step": 27735 + }, + { + "epoch": 0.177536, + "grad_norm": 3.253415107727051, + "learning_rate": 1.8816426666666666e-05, + "loss": 0.0479, + "step": 27740 + }, + { + "epoch": 0.177568, + "grad_norm": 0.7767477631568909, + "learning_rate": 1.8816213333333337e-05, + "loss": 0.0546, + "step": 27745 + }, + { + "epoch": 0.1776, + "grad_norm": 0.5571759343147278, + "learning_rate": 1.8816e-05, + "loss": 0.0538, + "step": 27750 + }, + { + "epoch": 0.177632, + "grad_norm": 1.660595417022705, + "learning_rate": 1.881578666666667e-05, + "loss": 0.1108, + "step": 27755 + }, + { + "epoch": 0.177664, + "grad_norm": 1.2919062376022339, + "learning_rate": 1.8815573333333336e-05, + "loss": 0.0679, + "step": 27760 + }, + { + "epoch": 0.177696, + "grad_norm": 0.8178008198738098, + "learning_rate": 1.8815360000000003e-05, + "loss": 0.0874, + "step": 27765 + }, + { + "epoch": 0.177728, + "grad_norm": 0.647893488407135, + "learning_rate": 1.8815146666666668e-05, + "loss": 0.0905, + "step": 27770 + }, + { + "epoch": 0.17776, + "grad_norm": 1.3819447755813599, + "learning_rate": 1.8814933333333335e-05, + "loss": 0.0514, + "step": 27775 + }, + { + "epoch": 0.177792, + "grad_norm": 0.8886038064956665, + "learning_rate": 1.8814720000000003e-05, + "loss": 0.094, + "step": 27780 + }, + { + "epoch": 0.177824, + "grad_norm": 0.9331804513931274, + "learning_rate": 1.8814506666666667e-05, + "loss": 0.0613, + "step": 27785 + }, + { + "epoch": 0.177856, + "grad_norm": 2.6667704582214355, + "learning_rate": 1.8814293333333334e-05, + "loss": 0.1347, + "step": 27790 + }, + { + "epoch": 0.177888, + "grad_norm": 1.0059022903442383, + "learning_rate": 1.8814080000000002e-05, + "loss": 0.0803, + "step": 27795 + }, + { + "epoch": 0.17792, + "grad_norm": 0.8879026174545288, + "learning_rate": 1.881386666666667e-05, + "loss": 0.0629, + "step": 27800 + }, + { + "epoch": 0.177952, + "grad_norm": 0.577053427696228, + "learning_rate": 1.8813653333333334e-05, + "loss": 0.0656, + "step": 27805 + }, + { + "epoch": 0.177984, + "grad_norm": 0.9455633759498596, + "learning_rate": 1.881344e-05, + "loss": 0.0634, + "step": 27810 + }, + { + "epoch": 0.178016, + "grad_norm": 0.5969014167785645, + "learning_rate": 1.881322666666667e-05, + "loss": 0.0692, + "step": 27815 + }, + { + "epoch": 0.178048, + "grad_norm": 0.7563513517379761, + "learning_rate": 1.8813013333333333e-05, + "loss": 0.0821, + "step": 27820 + }, + { + "epoch": 0.17808, + "grad_norm": 0.6998310089111328, + "learning_rate": 1.88128e-05, + "loss": 0.0763, + "step": 27825 + }, + { + "epoch": 0.178112, + "grad_norm": 0.7702348232269287, + "learning_rate": 1.8812586666666668e-05, + "loss": 0.0836, + "step": 27830 + }, + { + "epoch": 0.178144, + "grad_norm": 0.6419638991355896, + "learning_rate": 1.8812373333333336e-05, + "loss": 0.0528, + "step": 27835 + }, + { + "epoch": 0.178176, + "grad_norm": 0.8876884579658508, + "learning_rate": 1.8812160000000003e-05, + "loss": 0.0812, + "step": 27840 + }, + { + "epoch": 0.178208, + "grad_norm": 1.096636176109314, + "learning_rate": 1.8811946666666667e-05, + "loss": 0.0729, + "step": 27845 + }, + { + "epoch": 0.17824, + "grad_norm": 0.9978181719779968, + "learning_rate": 1.8811733333333335e-05, + "loss": 0.0657, + "step": 27850 + }, + { + "epoch": 0.178272, + "grad_norm": 1.1747026443481445, + "learning_rate": 1.8811520000000002e-05, + "loss": 0.0978, + "step": 27855 + }, + { + "epoch": 0.178304, + "grad_norm": 0.6315510272979736, + "learning_rate": 1.881130666666667e-05, + "loss": 0.0697, + "step": 27860 + }, + { + "epoch": 0.178336, + "grad_norm": 0.641255795955658, + "learning_rate": 1.8811093333333334e-05, + "loss": 0.1164, + "step": 27865 + }, + { + "epoch": 0.178368, + "grad_norm": 0.6772993803024292, + "learning_rate": 1.8810880000000002e-05, + "loss": 0.053, + "step": 27870 + }, + { + "epoch": 0.1784, + "grad_norm": 1.9447013139724731, + "learning_rate": 1.881066666666667e-05, + "loss": 0.0868, + "step": 27875 + }, + { + "epoch": 0.178432, + "grad_norm": 0.8851326107978821, + "learning_rate": 1.8810453333333333e-05, + "loss": 0.0559, + "step": 27880 + }, + { + "epoch": 0.178464, + "grad_norm": 0.6806856989860535, + "learning_rate": 1.881024e-05, + "loss": 0.0533, + "step": 27885 + }, + { + "epoch": 0.178496, + "grad_norm": 0.6804715394973755, + "learning_rate": 1.881002666666667e-05, + "loss": 0.052, + "step": 27890 + }, + { + "epoch": 0.178528, + "grad_norm": 1.2472751140594482, + "learning_rate": 1.8809813333333336e-05, + "loss": 0.0618, + "step": 27895 + }, + { + "epoch": 0.17856, + "grad_norm": 1.0302847623825073, + "learning_rate": 1.88096e-05, + "loss": 0.0743, + "step": 27900 + }, + { + "epoch": 0.178592, + "grad_norm": 0.9499160647392273, + "learning_rate": 1.8809386666666668e-05, + "loss": 0.1178, + "step": 27905 + }, + { + "epoch": 0.178624, + "grad_norm": 1.685520887374878, + "learning_rate": 1.8809173333333335e-05, + "loss": 0.0666, + "step": 27910 + }, + { + "epoch": 0.178656, + "grad_norm": 1.0033748149871826, + "learning_rate": 1.880896e-05, + "loss": 0.082, + "step": 27915 + }, + { + "epoch": 0.178688, + "grad_norm": 0.49674350023269653, + "learning_rate": 1.8808746666666667e-05, + "loss": 0.0744, + "step": 27920 + }, + { + "epoch": 0.17872, + "grad_norm": 0.7428032755851746, + "learning_rate": 1.8808533333333335e-05, + "loss": 0.053, + "step": 27925 + }, + { + "epoch": 0.178752, + "grad_norm": 1.1785383224487305, + "learning_rate": 1.8808320000000002e-05, + "loss": 0.0757, + "step": 27930 + }, + { + "epoch": 0.178784, + "grad_norm": 1.0485478639602661, + "learning_rate": 1.8808106666666666e-05, + "loss": 0.0812, + "step": 27935 + }, + { + "epoch": 0.178816, + "grad_norm": 1.3686407804489136, + "learning_rate": 1.8807893333333337e-05, + "loss": 0.0939, + "step": 27940 + }, + { + "epoch": 0.178848, + "grad_norm": 0.9823570251464844, + "learning_rate": 1.880768e-05, + "loss": 0.0721, + "step": 27945 + }, + { + "epoch": 0.17888, + "grad_norm": 2.396718978881836, + "learning_rate": 1.8807466666666666e-05, + "loss": 0.074, + "step": 27950 + }, + { + "epoch": 0.178912, + "grad_norm": 0.6694524884223938, + "learning_rate": 1.8807253333333337e-05, + "loss": 0.0741, + "step": 27955 + }, + { + "epoch": 0.178944, + "grad_norm": 0.8281314373016357, + "learning_rate": 1.880704e-05, + "loss": 0.1042, + "step": 27960 + }, + { + "epoch": 0.178976, + "grad_norm": 3.8991270065307617, + "learning_rate": 1.880682666666667e-05, + "loss": 0.0961, + "step": 27965 + }, + { + "epoch": 0.179008, + "grad_norm": 0.7655233144760132, + "learning_rate": 1.8806613333333336e-05, + "loss": 0.0509, + "step": 27970 + }, + { + "epoch": 0.17904, + "grad_norm": 0.6013712882995605, + "learning_rate": 1.8806400000000003e-05, + "loss": 0.0522, + "step": 27975 + }, + { + "epoch": 0.179072, + "grad_norm": 1.107775330543518, + "learning_rate": 1.8806186666666668e-05, + "loss": 0.1144, + "step": 27980 + }, + { + "epoch": 0.179104, + "grad_norm": 0.6434164047241211, + "learning_rate": 1.8805973333333335e-05, + "loss": 0.0733, + "step": 27985 + }, + { + "epoch": 0.179136, + "grad_norm": 0.601784884929657, + "learning_rate": 1.8805760000000003e-05, + "loss": 0.0428, + "step": 27990 + }, + { + "epoch": 0.179168, + "grad_norm": 1.291176438331604, + "learning_rate": 1.8805546666666667e-05, + "loss": 0.0832, + "step": 27995 + }, + { + "epoch": 0.1792, + "grad_norm": 0.831948459148407, + "learning_rate": 1.8805333333333334e-05, + "loss": 0.067, + "step": 28000 + }, + { + "epoch": 0.179232, + "grad_norm": 0.7365033030509949, + "learning_rate": 1.8805120000000002e-05, + "loss": 0.0475, + "step": 28005 + }, + { + "epoch": 0.179264, + "grad_norm": 1.5433650016784668, + "learning_rate": 1.880490666666667e-05, + "loss": 0.0784, + "step": 28010 + }, + { + "epoch": 0.179296, + "grad_norm": 0.7071625590324402, + "learning_rate": 1.8804693333333334e-05, + "loss": 0.0626, + "step": 28015 + }, + { + "epoch": 0.179328, + "grad_norm": 1.1903904676437378, + "learning_rate": 1.880448e-05, + "loss": 0.0841, + "step": 28020 + }, + { + "epoch": 0.17936, + "grad_norm": 0.6019833087921143, + "learning_rate": 1.880426666666667e-05, + "loss": 0.0865, + "step": 28025 + }, + { + "epoch": 0.179392, + "grad_norm": 0.6480472683906555, + "learning_rate": 1.8804053333333333e-05, + "loss": 0.0625, + "step": 28030 + }, + { + "epoch": 0.179424, + "grad_norm": 1.343501329421997, + "learning_rate": 1.880384e-05, + "loss": 0.0928, + "step": 28035 + }, + { + "epoch": 0.179456, + "grad_norm": 0.9406567215919495, + "learning_rate": 1.8803626666666668e-05, + "loss": 0.0767, + "step": 28040 + }, + { + "epoch": 0.179488, + "grad_norm": 0.5622150301933289, + "learning_rate": 1.8803413333333336e-05, + "loss": 0.0635, + "step": 28045 + }, + { + "epoch": 0.17952, + "grad_norm": 1.869563341140747, + "learning_rate": 1.88032e-05, + "loss": 0.0696, + "step": 28050 + }, + { + "epoch": 0.179552, + "grad_norm": 0.6136658787727356, + "learning_rate": 1.8802986666666667e-05, + "loss": 0.0454, + "step": 28055 + }, + { + "epoch": 0.179584, + "grad_norm": 0.48943641781806946, + "learning_rate": 1.8802773333333335e-05, + "loss": 0.0837, + "step": 28060 + }, + { + "epoch": 0.179616, + "grad_norm": 0.6260716319084167, + "learning_rate": 1.8802560000000002e-05, + "loss": 0.09, + "step": 28065 + }, + { + "epoch": 0.179648, + "grad_norm": 1.2887731790542603, + "learning_rate": 1.880234666666667e-05, + "loss": 0.0851, + "step": 28070 + }, + { + "epoch": 0.17968, + "grad_norm": 0.6087837219238281, + "learning_rate": 1.8802133333333334e-05, + "loss": 0.0569, + "step": 28075 + }, + { + "epoch": 0.179712, + "grad_norm": 0.7855980396270752, + "learning_rate": 1.8801920000000002e-05, + "loss": 0.0847, + "step": 28080 + }, + { + "epoch": 0.179744, + "grad_norm": 2.0967540740966797, + "learning_rate": 1.880170666666667e-05, + "loss": 0.1089, + "step": 28085 + }, + { + "epoch": 0.179776, + "grad_norm": 0.45811712741851807, + "learning_rate": 1.8801493333333333e-05, + "loss": 0.0934, + "step": 28090 + }, + { + "epoch": 0.179808, + "grad_norm": 0.3417031764984131, + "learning_rate": 1.880128e-05, + "loss": 0.0741, + "step": 28095 + }, + { + "epoch": 0.17984, + "grad_norm": 1.4099392890930176, + "learning_rate": 1.880106666666667e-05, + "loss": 0.0846, + "step": 28100 + }, + { + "epoch": 0.179872, + "grad_norm": 0.9903750419616699, + "learning_rate": 1.8800853333333336e-05, + "loss": 0.0764, + "step": 28105 + }, + { + "epoch": 0.179904, + "grad_norm": 0.5189297795295715, + "learning_rate": 1.880064e-05, + "loss": 0.0594, + "step": 28110 + }, + { + "epoch": 0.179936, + "grad_norm": 1.225261926651001, + "learning_rate": 1.8800426666666668e-05, + "loss": 0.0541, + "step": 28115 + }, + { + "epoch": 0.179968, + "grad_norm": 1.2056258916854858, + "learning_rate": 1.8800213333333335e-05, + "loss": 0.0701, + "step": 28120 + }, + { + "epoch": 0.18, + "grad_norm": 1.1790019273757935, + "learning_rate": 1.88e-05, + "loss": 0.0647, + "step": 28125 + }, + { + "epoch": 0.180032, + "grad_norm": 0.7552635073661804, + "learning_rate": 1.8799786666666667e-05, + "loss": 0.0791, + "step": 28130 + }, + { + "epoch": 0.180064, + "grad_norm": 0.6096236705780029, + "learning_rate": 1.8799573333333335e-05, + "loss": 0.0932, + "step": 28135 + }, + { + "epoch": 0.180096, + "grad_norm": 1.1608680486679077, + "learning_rate": 1.8799360000000002e-05, + "loss": 0.06, + "step": 28140 + }, + { + "epoch": 0.180128, + "grad_norm": 0.6244502663612366, + "learning_rate": 1.8799146666666666e-05, + "loss": 0.0569, + "step": 28145 + }, + { + "epoch": 0.18016, + "grad_norm": 1.7983299493789673, + "learning_rate": 1.8798933333333337e-05, + "loss": 0.0698, + "step": 28150 + }, + { + "epoch": 0.180192, + "grad_norm": 0.4517064392566681, + "learning_rate": 1.879872e-05, + "loss": 0.0722, + "step": 28155 + }, + { + "epoch": 0.180224, + "grad_norm": 1.7232881784439087, + "learning_rate": 1.8798506666666666e-05, + "loss": 0.0877, + "step": 28160 + }, + { + "epoch": 0.180256, + "grad_norm": 0.6620636582374573, + "learning_rate": 1.8798293333333337e-05, + "loss": 0.0733, + "step": 28165 + }, + { + "epoch": 0.180288, + "grad_norm": 0.74518221616745, + "learning_rate": 1.879808e-05, + "loss": 0.0812, + "step": 28170 + }, + { + "epoch": 0.18032, + "grad_norm": 1.3451277017593384, + "learning_rate": 1.879786666666667e-05, + "loss": 0.0809, + "step": 28175 + }, + { + "epoch": 0.180352, + "grad_norm": 2.524465322494507, + "learning_rate": 1.8797653333333336e-05, + "loss": 0.0641, + "step": 28180 + }, + { + "epoch": 0.180384, + "grad_norm": 0.9131026864051819, + "learning_rate": 1.8797440000000003e-05, + "loss": 0.0755, + "step": 28185 + }, + { + "epoch": 0.180416, + "grad_norm": 0.7107080817222595, + "learning_rate": 1.8797226666666668e-05, + "loss": 0.0664, + "step": 28190 + }, + { + "epoch": 0.180448, + "grad_norm": 0.8824415802955627, + "learning_rate": 1.8797013333333335e-05, + "loss": 0.0852, + "step": 28195 + }, + { + "epoch": 0.18048, + "grad_norm": 0.5342402458190918, + "learning_rate": 1.8796800000000003e-05, + "loss": 0.0522, + "step": 28200 + }, + { + "epoch": 0.180512, + "grad_norm": 0.8531771302223206, + "learning_rate": 1.8796586666666667e-05, + "loss": 0.0573, + "step": 28205 + }, + { + "epoch": 0.180544, + "grad_norm": 0.4188840687274933, + "learning_rate": 1.8796373333333334e-05, + "loss": 0.0612, + "step": 28210 + }, + { + "epoch": 0.180576, + "grad_norm": 0.7882623076438904, + "learning_rate": 1.8796160000000002e-05, + "loss": 0.0681, + "step": 28215 + }, + { + "epoch": 0.180608, + "grad_norm": 1.2351012229919434, + "learning_rate": 1.879594666666667e-05, + "loss": 0.0547, + "step": 28220 + }, + { + "epoch": 0.18064, + "grad_norm": 0.5451518297195435, + "learning_rate": 1.8795733333333334e-05, + "loss": 0.0567, + "step": 28225 + }, + { + "epoch": 0.180672, + "grad_norm": 2.452699661254883, + "learning_rate": 1.879552e-05, + "loss": 0.0835, + "step": 28230 + }, + { + "epoch": 0.180704, + "grad_norm": 1.1075090169906616, + "learning_rate": 1.879530666666667e-05, + "loss": 0.057, + "step": 28235 + }, + { + "epoch": 0.180736, + "grad_norm": 0.6151077151298523, + "learning_rate": 1.8795093333333333e-05, + "loss": 0.0524, + "step": 28240 + }, + { + "epoch": 0.180768, + "grad_norm": 1.002013087272644, + "learning_rate": 1.879488e-05, + "loss": 0.0516, + "step": 28245 + }, + { + "epoch": 0.1808, + "grad_norm": 0.7698884010314941, + "learning_rate": 1.8794666666666668e-05, + "loss": 0.0598, + "step": 28250 + }, + { + "epoch": 0.180832, + "grad_norm": 0.5604845881462097, + "learning_rate": 1.8794453333333336e-05, + "loss": 0.0702, + "step": 28255 + }, + { + "epoch": 0.180864, + "grad_norm": 0.7489162087440491, + "learning_rate": 1.879424e-05, + "loss": 0.0755, + "step": 28260 + }, + { + "epoch": 0.180896, + "grad_norm": 0.6769046783447266, + "learning_rate": 1.879402666666667e-05, + "loss": 0.0969, + "step": 28265 + }, + { + "epoch": 0.180928, + "grad_norm": 0.7582240700721741, + "learning_rate": 1.8793813333333335e-05, + "loss": 0.0508, + "step": 28270 + }, + { + "epoch": 0.18096, + "grad_norm": 1.1514335870742798, + "learning_rate": 1.87936e-05, + "loss": 0.0851, + "step": 28275 + }, + { + "epoch": 0.180992, + "grad_norm": 0.9284347891807556, + "learning_rate": 1.879338666666667e-05, + "loss": 0.0857, + "step": 28280 + }, + { + "epoch": 0.181024, + "grad_norm": 0.7761626243591309, + "learning_rate": 1.8793173333333334e-05, + "loss": 0.049, + "step": 28285 + }, + { + "epoch": 0.181056, + "grad_norm": 0.5717920064926147, + "learning_rate": 1.8792960000000002e-05, + "loss": 0.0562, + "step": 28290 + }, + { + "epoch": 0.181088, + "grad_norm": 0.5886335968971252, + "learning_rate": 1.879274666666667e-05, + "loss": 0.0695, + "step": 28295 + }, + { + "epoch": 0.18112, + "grad_norm": 2.2253341674804688, + "learning_rate": 1.8792533333333337e-05, + "loss": 0.0946, + "step": 28300 + }, + { + "epoch": 0.181152, + "grad_norm": 0.46273064613342285, + "learning_rate": 1.879232e-05, + "loss": 0.1166, + "step": 28305 + }, + { + "epoch": 0.181184, + "grad_norm": 0.5771301984786987, + "learning_rate": 1.879210666666667e-05, + "loss": 0.0694, + "step": 28310 + }, + { + "epoch": 0.181216, + "grad_norm": 0.7116892337799072, + "learning_rate": 1.8791893333333336e-05, + "loss": 0.0589, + "step": 28315 + }, + { + "epoch": 0.181248, + "grad_norm": 0.9247997403144836, + "learning_rate": 1.879168e-05, + "loss": 0.0729, + "step": 28320 + }, + { + "epoch": 0.18128, + "grad_norm": 1.1478281021118164, + "learning_rate": 1.8791466666666668e-05, + "loss": 0.0759, + "step": 28325 + }, + { + "epoch": 0.181312, + "grad_norm": 0.7058981657028198, + "learning_rate": 1.8791253333333335e-05, + "loss": 0.0495, + "step": 28330 + }, + { + "epoch": 0.181344, + "grad_norm": 0.5515741109848022, + "learning_rate": 1.8791040000000003e-05, + "loss": 0.053, + "step": 28335 + }, + { + "epoch": 0.181376, + "grad_norm": 1.003088116645813, + "learning_rate": 1.8790826666666667e-05, + "loss": 0.0555, + "step": 28340 + }, + { + "epoch": 0.181408, + "grad_norm": 0.8947374820709229, + "learning_rate": 1.8790613333333335e-05, + "loss": 0.0894, + "step": 28345 + }, + { + "epoch": 0.18144, + "grad_norm": 1.055854082107544, + "learning_rate": 1.8790400000000002e-05, + "loss": 0.1004, + "step": 28350 + }, + { + "epoch": 0.181472, + "grad_norm": 0.6791960000991821, + "learning_rate": 1.8790186666666666e-05, + "loss": 0.0536, + "step": 28355 + }, + { + "epoch": 0.181504, + "grad_norm": 0.6851559281349182, + "learning_rate": 1.8789973333333334e-05, + "loss": 0.0683, + "step": 28360 + }, + { + "epoch": 0.181536, + "grad_norm": 1.9063820838928223, + "learning_rate": 1.878976e-05, + "loss": 0.1247, + "step": 28365 + }, + { + "epoch": 0.181568, + "grad_norm": 0.7583574056625366, + "learning_rate": 1.878954666666667e-05, + "loss": 0.0805, + "step": 28370 + }, + { + "epoch": 0.1816, + "grad_norm": 0.8519429564476013, + "learning_rate": 1.8789333333333337e-05, + "loss": 0.0689, + "step": 28375 + }, + { + "epoch": 0.181632, + "grad_norm": 0.8828197121620178, + "learning_rate": 1.878912e-05, + "loss": 0.0753, + "step": 28380 + }, + { + "epoch": 0.181664, + "grad_norm": 0.6761442422866821, + "learning_rate": 1.878890666666667e-05, + "loss": 0.07, + "step": 28385 + }, + { + "epoch": 0.181696, + "grad_norm": 0.4036506712436676, + "learning_rate": 1.8788693333333336e-05, + "loss": 0.0752, + "step": 28390 + }, + { + "epoch": 0.181728, + "grad_norm": 0.8599086999893188, + "learning_rate": 1.8788480000000003e-05, + "loss": 0.0627, + "step": 28395 + }, + { + "epoch": 0.18176, + "grad_norm": 2.515894889831543, + "learning_rate": 1.8788266666666668e-05, + "loss": 0.1065, + "step": 28400 + }, + { + "epoch": 0.181792, + "grad_norm": 0.40313565731048584, + "learning_rate": 1.8788053333333335e-05, + "loss": 0.0847, + "step": 28405 + }, + { + "epoch": 0.181824, + "grad_norm": 1.0396584272384644, + "learning_rate": 1.8787840000000003e-05, + "loss": 0.0646, + "step": 28410 + }, + { + "epoch": 0.181856, + "grad_norm": 0.5623132586479187, + "learning_rate": 1.8787626666666667e-05, + "loss": 0.0459, + "step": 28415 + }, + { + "epoch": 0.181888, + "grad_norm": 0.756645679473877, + "learning_rate": 1.8787413333333334e-05, + "loss": 0.0997, + "step": 28420 + }, + { + "epoch": 0.18192, + "grad_norm": 0.8009641766548157, + "learning_rate": 1.8787200000000002e-05, + "loss": 0.0749, + "step": 28425 + }, + { + "epoch": 0.181952, + "grad_norm": 0.7407450079917908, + "learning_rate": 1.878698666666667e-05, + "loss": 0.0533, + "step": 28430 + }, + { + "epoch": 0.181984, + "grad_norm": 6.047570705413818, + "learning_rate": 1.8786773333333334e-05, + "loss": 0.1045, + "step": 28435 + }, + { + "epoch": 0.182016, + "grad_norm": 0.8082200288772583, + "learning_rate": 1.878656e-05, + "loss": 0.0898, + "step": 28440 + }, + { + "epoch": 0.182048, + "grad_norm": 0.65238356590271, + "learning_rate": 1.878634666666667e-05, + "loss": 0.0959, + "step": 28445 + }, + { + "epoch": 0.18208, + "grad_norm": 0.7796077132225037, + "learning_rate": 1.8786133333333333e-05, + "loss": 0.0652, + "step": 28450 + }, + { + "epoch": 0.182112, + "grad_norm": 0.47046998143196106, + "learning_rate": 1.878592e-05, + "loss": 0.0841, + "step": 28455 + }, + { + "epoch": 0.182144, + "grad_norm": 0.9212060570716858, + "learning_rate": 1.8785706666666668e-05, + "loss": 0.058, + "step": 28460 + }, + { + "epoch": 0.182176, + "grad_norm": 2.507556438446045, + "learning_rate": 1.8785493333333336e-05, + "loss": 0.1, + "step": 28465 + }, + { + "epoch": 0.182208, + "grad_norm": 1.6478058099746704, + "learning_rate": 1.878528e-05, + "loss": 0.049, + "step": 28470 + }, + { + "epoch": 0.18224, + "grad_norm": 0.4637296795845032, + "learning_rate": 1.878506666666667e-05, + "loss": 0.0611, + "step": 28475 + }, + { + "epoch": 0.182272, + "grad_norm": 1.2954915761947632, + "learning_rate": 1.8784853333333335e-05, + "loss": 0.0726, + "step": 28480 + }, + { + "epoch": 0.182304, + "grad_norm": 2.055224895477295, + "learning_rate": 1.878464e-05, + "loss": 0.0804, + "step": 28485 + }, + { + "epoch": 0.182336, + "grad_norm": 0.5170761346817017, + "learning_rate": 1.878442666666667e-05, + "loss": 0.0836, + "step": 28490 + }, + { + "epoch": 0.182368, + "grad_norm": 2.751293182373047, + "learning_rate": 1.8784213333333334e-05, + "loss": 0.0852, + "step": 28495 + }, + { + "epoch": 0.1824, + "grad_norm": 0.27262261509895325, + "learning_rate": 1.8784000000000002e-05, + "loss": 0.0624, + "step": 28500 + }, + { + "epoch": 0.182432, + "grad_norm": 0.4614257514476776, + "learning_rate": 1.878378666666667e-05, + "loss": 0.0685, + "step": 28505 + }, + { + "epoch": 0.182464, + "grad_norm": 0.7386288642883301, + "learning_rate": 1.8783573333333337e-05, + "loss": 0.0755, + "step": 28510 + }, + { + "epoch": 0.182496, + "grad_norm": 1.1645421981811523, + "learning_rate": 1.878336e-05, + "loss": 0.0732, + "step": 28515 + }, + { + "epoch": 0.182528, + "grad_norm": 0.7362539768218994, + "learning_rate": 1.878314666666667e-05, + "loss": 0.0619, + "step": 28520 + }, + { + "epoch": 0.18256, + "grad_norm": 0.7831101417541504, + "learning_rate": 1.8782933333333336e-05, + "loss": 0.0841, + "step": 28525 + }, + { + "epoch": 0.182592, + "grad_norm": 0.8458551168441772, + "learning_rate": 1.878272e-05, + "loss": 0.0818, + "step": 28530 + }, + { + "epoch": 0.182624, + "grad_norm": 1.540581226348877, + "learning_rate": 1.8782506666666668e-05, + "loss": 0.1177, + "step": 28535 + }, + { + "epoch": 0.182656, + "grad_norm": 0.5075065493583679, + "learning_rate": 1.8782293333333335e-05, + "loss": 0.0789, + "step": 28540 + }, + { + "epoch": 0.182688, + "grad_norm": 1.376339077949524, + "learning_rate": 1.8782080000000003e-05, + "loss": 0.0771, + "step": 28545 + }, + { + "epoch": 0.18272, + "grad_norm": 0.8867130875587463, + "learning_rate": 1.8781866666666667e-05, + "loss": 0.0814, + "step": 28550 + }, + { + "epoch": 0.182752, + "grad_norm": 0.8846707344055176, + "learning_rate": 1.8781653333333335e-05, + "loss": 0.0586, + "step": 28555 + }, + { + "epoch": 0.182784, + "grad_norm": 1.3244925737380981, + "learning_rate": 1.8781440000000002e-05, + "loss": 0.0692, + "step": 28560 + }, + { + "epoch": 0.182816, + "grad_norm": 0.46264997124671936, + "learning_rate": 1.8781226666666666e-05, + "loss": 0.0722, + "step": 28565 + }, + { + "epoch": 0.182848, + "grad_norm": 0.630820631980896, + "learning_rate": 1.8781013333333334e-05, + "loss": 0.0726, + "step": 28570 + }, + { + "epoch": 0.18288, + "grad_norm": 0.7807086110115051, + "learning_rate": 1.87808e-05, + "loss": 0.1004, + "step": 28575 + }, + { + "epoch": 0.182912, + "grad_norm": 0.6356774568557739, + "learning_rate": 1.878058666666667e-05, + "loss": 0.0576, + "step": 28580 + }, + { + "epoch": 0.182944, + "grad_norm": 1.5403300523757935, + "learning_rate": 1.8780373333333333e-05, + "loss": 0.0664, + "step": 28585 + }, + { + "epoch": 0.182976, + "grad_norm": 0.6197381019592285, + "learning_rate": 1.878016e-05, + "loss": 0.0502, + "step": 28590 + }, + { + "epoch": 0.183008, + "grad_norm": 0.434143990278244, + "learning_rate": 1.877994666666667e-05, + "loss": 0.054, + "step": 28595 + }, + { + "epoch": 0.18304, + "grad_norm": 1.3323510885238647, + "learning_rate": 1.8779733333333336e-05, + "loss": 0.0611, + "step": 28600 + }, + { + "epoch": 0.183072, + "grad_norm": 1.4064425230026245, + "learning_rate": 1.8779520000000003e-05, + "loss": 0.0734, + "step": 28605 + }, + { + "epoch": 0.183104, + "grad_norm": 1.4487417936325073, + "learning_rate": 1.8779306666666668e-05, + "loss": 0.0773, + "step": 28610 + }, + { + "epoch": 0.183136, + "grad_norm": 1.3676283359527588, + "learning_rate": 1.8779093333333335e-05, + "loss": 0.0676, + "step": 28615 + }, + { + "epoch": 0.183168, + "grad_norm": 0.7319049835205078, + "learning_rate": 1.8778880000000003e-05, + "loss": 0.0769, + "step": 28620 + }, + { + "epoch": 0.1832, + "grad_norm": 0.6951290965080261, + "learning_rate": 1.8778666666666667e-05, + "loss": 0.1051, + "step": 28625 + }, + { + "epoch": 0.183232, + "grad_norm": 1.0787315368652344, + "learning_rate": 1.8778453333333334e-05, + "loss": 0.1144, + "step": 28630 + }, + { + "epoch": 0.183264, + "grad_norm": 0.864837646484375, + "learning_rate": 1.8778240000000002e-05, + "loss": 0.0648, + "step": 28635 + }, + { + "epoch": 0.183296, + "grad_norm": 0.30423516035079956, + "learning_rate": 1.877802666666667e-05, + "loss": 0.0686, + "step": 28640 + }, + { + "epoch": 0.183328, + "grad_norm": 1.0041203498840332, + "learning_rate": 1.8777813333333334e-05, + "loss": 0.0581, + "step": 28645 + }, + { + "epoch": 0.18336, + "grad_norm": 0.6547045707702637, + "learning_rate": 1.87776e-05, + "loss": 0.1154, + "step": 28650 + }, + { + "epoch": 0.183392, + "grad_norm": 0.6637216210365295, + "learning_rate": 1.877738666666667e-05, + "loss": 0.0467, + "step": 28655 + }, + { + "epoch": 0.183424, + "grad_norm": 0.4128682613372803, + "learning_rate": 1.8777173333333333e-05, + "loss": 0.0818, + "step": 28660 + }, + { + "epoch": 0.183456, + "grad_norm": 0.6852233409881592, + "learning_rate": 1.877696e-05, + "loss": 0.0508, + "step": 28665 + }, + { + "epoch": 0.183488, + "grad_norm": 0.8043198585510254, + "learning_rate": 1.8776746666666668e-05, + "loss": 0.0701, + "step": 28670 + }, + { + "epoch": 0.18352, + "grad_norm": 0.49997442960739136, + "learning_rate": 1.8776533333333336e-05, + "loss": 0.0707, + "step": 28675 + }, + { + "epoch": 0.183552, + "grad_norm": 0.8745033740997314, + "learning_rate": 1.877632e-05, + "loss": 0.0833, + "step": 28680 + }, + { + "epoch": 0.183584, + "grad_norm": 0.6709303259849548, + "learning_rate": 1.877610666666667e-05, + "loss": 0.0723, + "step": 28685 + }, + { + "epoch": 0.183616, + "grad_norm": 0.4117172360420227, + "learning_rate": 1.8775893333333335e-05, + "loss": 0.05, + "step": 28690 + }, + { + "epoch": 0.183648, + "grad_norm": 1.1111754179000854, + "learning_rate": 1.877568e-05, + "loss": 0.0762, + "step": 28695 + }, + { + "epoch": 0.18368, + "grad_norm": 0.542593240737915, + "learning_rate": 1.877546666666667e-05, + "loss": 0.0574, + "step": 28700 + }, + { + "epoch": 0.183712, + "grad_norm": 0.9588935375213623, + "learning_rate": 1.8775253333333334e-05, + "loss": 0.076, + "step": 28705 + }, + { + "epoch": 0.183744, + "grad_norm": 0.7953871488571167, + "learning_rate": 1.8775040000000002e-05, + "loss": 0.0553, + "step": 28710 + }, + { + "epoch": 0.183776, + "grad_norm": 0.38099679350852966, + "learning_rate": 1.877482666666667e-05, + "loss": 0.0526, + "step": 28715 + }, + { + "epoch": 0.183808, + "grad_norm": 1.1188985109329224, + "learning_rate": 1.8774613333333337e-05, + "loss": 0.0863, + "step": 28720 + }, + { + "epoch": 0.18384, + "grad_norm": 0.8275417685508728, + "learning_rate": 1.87744e-05, + "loss": 0.08, + "step": 28725 + }, + { + "epoch": 0.183872, + "grad_norm": 1.501610517501831, + "learning_rate": 1.877418666666667e-05, + "loss": 0.0802, + "step": 28730 + }, + { + "epoch": 0.183904, + "grad_norm": 0.5320984721183777, + "learning_rate": 1.8773973333333336e-05, + "loss": 0.0501, + "step": 28735 + }, + { + "epoch": 0.183936, + "grad_norm": 0.7889139652252197, + "learning_rate": 1.877376e-05, + "loss": 0.0606, + "step": 28740 + }, + { + "epoch": 0.183968, + "grad_norm": 0.9587754011154175, + "learning_rate": 1.8773546666666668e-05, + "loss": 0.0649, + "step": 28745 + }, + { + "epoch": 0.184, + "grad_norm": 1.1042706966400146, + "learning_rate": 1.8773333333333335e-05, + "loss": 0.064, + "step": 28750 + }, + { + "epoch": 0.184032, + "grad_norm": 0.5654526948928833, + "learning_rate": 1.8773120000000003e-05, + "loss": 0.0569, + "step": 28755 + }, + { + "epoch": 0.184064, + "grad_norm": 1.0242812633514404, + "learning_rate": 1.8772906666666667e-05, + "loss": 0.0911, + "step": 28760 + }, + { + "epoch": 0.184096, + "grad_norm": 0.9500765800476074, + "learning_rate": 1.8772693333333335e-05, + "loss": 0.0849, + "step": 28765 + }, + { + "epoch": 0.184128, + "grad_norm": 0.5611110329627991, + "learning_rate": 1.8772480000000002e-05, + "loss": 0.0717, + "step": 28770 + }, + { + "epoch": 0.18416, + "grad_norm": 1.2589813470840454, + "learning_rate": 1.8772266666666666e-05, + "loss": 0.0746, + "step": 28775 + }, + { + "epoch": 0.184192, + "grad_norm": 0.6447285413742065, + "learning_rate": 1.8772053333333334e-05, + "loss": 0.0946, + "step": 28780 + }, + { + "epoch": 0.184224, + "grad_norm": 0.7929027676582336, + "learning_rate": 1.877184e-05, + "loss": 0.0648, + "step": 28785 + }, + { + "epoch": 0.184256, + "grad_norm": 1.0919480323791504, + "learning_rate": 1.877162666666667e-05, + "loss": 0.071, + "step": 28790 + }, + { + "epoch": 0.184288, + "grad_norm": 0.9564689993858337, + "learning_rate": 1.8771413333333333e-05, + "loss": 0.0698, + "step": 28795 + }, + { + "epoch": 0.18432, + "grad_norm": 0.5098646879196167, + "learning_rate": 1.87712e-05, + "loss": 0.0638, + "step": 28800 + }, + { + "epoch": 0.184352, + "grad_norm": 0.9592462778091431, + "learning_rate": 1.877098666666667e-05, + "loss": 0.0862, + "step": 28805 + }, + { + "epoch": 0.184384, + "grad_norm": 0.3897557556629181, + "learning_rate": 1.8770773333333333e-05, + "loss": 0.0529, + "step": 28810 + }, + { + "epoch": 0.184416, + "grad_norm": 1.4739176034927368, + "learning_rate": 1.8770560000000003e-05, + "loss": 0.0629, + "step": 28815 + }, + { + "epoch": 0.184448, + "grad_norm": 1.0214226245880127, + "learning_rate": 1.8770346666666668e-05, + "loss": 0.065, + "step": 28820 + }, + { + "epoch": 0.18448, + "grad_norm": 1.0083544254302979, + "learning_rate": 1.8770133333333335e-05, + "loss": 0.0648, + "step": 28825 + }, + { + "epoch": 0.184512, + "grad_norm": 1.2902761697769165, + "learning_rate": 1.8769920000000003e-05, + "loss": 0.0872, + "step": 28830 + }, + { + "epoch": 0.184544, + "grad_norm": 1.2653950452804565, + "learning_rate": 1.8769706666666667e-05, + "loss": 0.0785, + "step": 28835 + }, + { + "epoch": 0.184576, + "grad_norm": 0.6372331380844116, + "learning_rate": 1.8769493333333334e-05, + "loss": 0.0545, + "step": 28840 + }, + { + "epoch": 0.184608, + "grad_norm": 2.2163307666778564, + "learning_rate": 1.8769280000000002e-05, + "loss": 0.1129, + "step": 28845 + }, + { + "epoch": 0.18464, + "grad_norm": 0.8615557551383972, + "learning_rate": 1.876906666666667e-05, + "loss": 0.0845, + "step": 28850 + }, + { + "epoch": 0.184672, + "grad_norm": 0.7227851748466492, + "learning_rate": 1.8768853333333334e-05, + "loss": 0.0677, + "step": 28855 + }, + { + "epoch": 0.184704, + "grad_norm": 1.0894775390625, + "learning_rate": 1.876864e-05, + "loss": 0.0976, + "step": 28860 + }, + { + "epoch": 0.184736, + "grad_norm": 0.912599503993988, + "learning_rate": 1.876842666666667e-05, + "loss": 0.0815, + "step": 28865 + }, + { + "epoch": 0.184768, + "grad_norm": 1.0996837615966797, + "learning_rate": 1.8768213333333333e-05, + "loss": 0.0742, + "step": 28870 + }, + { + "epoch": 0.1848, + "grad_norm": 1.2799558639526367, + "learning_rate": 1.8768e-05, + "loss": 0.0772, + "step": 28875 + }, + { + "epoch": 0.184832, + "grad_norm": 3.1746408939361572, + "learning_rate": 1.8767786666666668e-05, + "loss": 0.0657, + "step": 28880 + }, + { + "epoch": 0.184864, + "grad_norm": 1.5910487174987793, + "learning_rate": 1.8767573333333336e-05, + "loss": 0.0584, + "step": 28885 + }, + { + "epoch": 0.184896, + "grad_norm": 0.767961859703064, + "learning_rate": 1.876736e-05, + "loss": 0.0721, + "step": 28890 + }, + { + "epoch": 0.184928, + "grad_norm": 0.7789673209190369, + "learning_rate": 1.8767146666666667e-05, + "loss": 0.0699, + "step": 28895 + }, + { + "epoch": 0.18496, + "grad_norm": 0.38805028796195984, + "learning_rate": 1.8766933333333335e-05, + "loss": 0.07, + "step": 28900 + }, + { + "epoch": 0.184992, + "grad_norm": 1.1759055852890015, + "learning_rate": 1.876672e-05, + "loss": 0.063, + "step": 28905 + }, + { + "epoch": 0.185024, + "grad_norm": 1.4427937269210815, + "learning_rate": 1.876650666666667e-05, + "loss": 0.0825, + "step": 28910 + }, + { + "epoch": 0.185056, + "grad_norm": 0.9155466556549072, + "learning_rate": 1.8766293333333334e-05, + "loss": 0.0909, + "step": 28915 + }, + { + "epoch": 0.185088, + "grad_norm": 0.671891450881958, + "learning_rate": 1.8766080000000002e-05, + "loss": 0.0604, + "step": 28920 + }, + { + "epoch": 0.18512, + "grad_norm": 1.1448032855987549, + "learning_rate": 1.876586666666667e-05, + "loss": 0.08, + "step": 28925 + }, + { + "epoch": 0.185152, + "grad_norm": 0.7731033563613892, + "learning_rate": 1.8765653333333337e-05, + "loss": 0.0589, + "step": 28930 + }, + { + "epoch": 0.185184, + "grad_norm": 0.6051406860351562, + "learning_rate": 1.876544e-05, + "loss": 0.078, + "step": 28935 + }, + { + "epoch": 0.185216, + "grad_norm": 0.3469563126564026, + "learning_rate": 1.876522666666667e-05, + "loss": 0.0638, + "step": 28940 + }, + { + "epoch": 0.185248, + "grad_norm": 1.5558067560195923, + "learning_rate": 1.8765013333333336e-05, + "loss": 0.0759, + "step": 28945 + }, + { + "epoch": 0.18528, + "grad_norm": 0.5259215235710144, + "learning_rate": 1.87648e-05, + "loss": 0.077, + "step": 28950 + }, + { + "epoch": 0.185312, + "grad_norm": 0.704351544380188, + "learning_rate": 1.8764586666666668e-05, + "loss": 0.0507, + "step": 28955 + }, + { + "epoch": 0.185344, + "grad_norm": 0.5781269073486328, + "learning_rate": 1.8764373333333335e-05, + "loss": 0.0615, + "step": 28960 + }, + { + "epoch": 0.185376, + "grad_norm": 0.8646726012229919, + "learning_rate": 1.8764160000000003e-05, + "loss": 0.1322, + "step": 28965 + }, + { + "epoch": 0.185408, + "grad_norm": 1.0054951906204224, + "learning_rate": 1.8763946666666667e-05, + "loss": 0.0808, + "step": 28970 + }, + { + "epoch": 0.18544, + "grad_norm": 0.5773823857307434, + "learning_rate": 1.8763733333333335e-05, + "loss": 0.0584, + "step": 28975 + }, + { + "epoch": 0.185472, + "grad_norm": 1.150370478630066, + "learning_rate": 1.8763520000000002e-05, + "loss": 0.104, + "step": 28980 + }, + { + "epoch": 0.185504, + "grad_norm": 0.8903433084487915, + "learning_rate": 1.8763306666666666e-05, + "loss": 0.0924, + "step": 28985 + }, + { + "epoch": 0.185536, + "grad_norm": 0.8255375027656555, + "learning_rate": 1.8763093333333334e-05, + "loss": 0.0611, + "step": 28990 + }, + { + "epoch": 0.185568, + "grad_norm": 0.8326976299285889, + "learning_rate": 1.876288e-05, + "loss": 0.0507, + "step": 28995 + }, + { + "epoch": 0.1856, + "grad_norm": 0.7009860277175903, + "learning_rate": 1.876266666666667e-05, + "loss": 0.0874, + "step": 29000 + }, + { + "epoch": 0.185632, + "grad_norm": 0.985729455947876, + "learning_rate": 1.8762453333333333e-05, + "loss": 0.0552, + "step": 29005 + }, + { + "epoch": 0.185664, + "grad_norm": 0.6304189562797546, + "learning_rate": 1.876224e-05, + "loss": 0.0561, + "step": 29010 + }, + { + "epoch": 0.185696, + "grad_norm": 0.8430753350257874, + "learning_rate": 1.876202666666667e-05, + "loss": 0.125, + "step": 29015 + }, + { + "epoch": 0.185728, + "grad_norm": 0.6233096718788147, + "learning_rate": 1.8761813333333333e-05, + "loss": 0.063, + "step": 29020 + }, + { + "epoch": 0.18576, + "grad_norm": 1.191578984260559, + "learning_rate": 1.8761600000000003e-05, + "loss": 0.0719, + "step": 29025 + }, + { + "epoch": 0.185792, + "grad_norm": 0.40953660011291504, + "learning_rate": 1.8761386666666668e-05, + "loss": 0.0714, + "step": 29030 + }, + { + "epoch": 0.185824, + "grad_norm": 0.30603548884391785, + "learning_rate": 1.8761173333333335e-05, + "loss": 0.0463, + "step": 29035 + }, + { + "epoch": 0.185856, + "grad_norm": 0.780343234539032, + "learning_rate": 1.8760960000000003e-05, + "loss": 0.0791, + "step": 29040 + }, + { + "epoch": 0.185888, + "grad_norm": 1.2257548570632935, + "learning_rate": 1.8760746666666667e-05, + "loss": 0.0911, + "step": 29045 + }, + { + "epoch": 0.18592, + "grad_norm": 2.4747674465179443, + "learning_rate": 1.8760533333333334e-05, + "loss": 0.0916, + "step": 29050 + }, + { + "epoch": 0.185952, + "grad_norm": 0.914781391620636, + "learning_rate": 1.8760320000000002e-05, + "loss": 0.0859, + "step": 29055 + }, + { + "epoch": 0.185984, + "grad_norm": 1.2432013750076294, + "learning_rate": 1.876010666666667e-05, + "loss": 0.0692, + "step": 29060 + }, + { + "epoch": 0.186016, + "grad_norm": 0.8215287327766418, + "learning_rate": 1.8759893333333334e-05, + "loss": 0.0831, + "step": 29065 + }, + { + "epoch": 0.186048, + "grad_norm": 0.9820877313613892, + "learning_rate": 1.875968e-05, + "loss": 0.0543, + "step": 29070 + }, + { + "epoch": 0.18608, + "grad_norm": 1.0518397092819214, + "learning_rate": 1.875946666666667e-05, + "loss": 0.106, + "step": 29075 + }, + { + "epoch": 0.186112, + "grad_norm": 0.9698681235313416, + "learning_rate": 1.8759253333333333e-05, + "loss": 0.0663, + "step": 29080 + }, + { + "epoch": 0.186144, + "grad_norm": 1.7712491750717163, + "learning_rate": 1.875904e-05, + "loss": 0.0653, + "step": 29085 + }, + { + "epoch": 0.186176, + "grad_norm": 0.9729946851730347, + "learning_rate": 1.8758826666666668e-05, + "loss": 0.0497, + "step": 29090 + }, + { + "epoch": 0.186208, + "grad_norm": 0.9886394143104553, + "learning_rate": 1.8758613333333336e-05, + "loss": 0.0605, + "step": 29095 + }, + { + "epoch": 0.18624, + "grad_norm": 0.9802259206771851, + "learning_rate": 1.87584e-05, + "loss": 0.098, + "step": 29100 + }, + { + "epoch": 0.186272, + "grad_norm": 1.2495784759521484, + "learning_rate": 1.8758186666666667e-05, + "loss": 0.0772, + "step": 29105 + }, + { + "epoch": 0.186304, + "grad_norm": 1.4294523000717163, + "learning_rate": 1.8757973333333335e-05, + "loss": 0.082, + "step": 29110 + }, + { + "epoch": 0.186336, + "grad_norm": 0.26433613896369934, + "learning_rate": 1.8757760000000002e-05, + "loss": 0.0528, + "step": 29115 + }, + { + "epoch": 0.186368, + "grad_norm": 0.9782798290252686, + "learning_rate": 1.8757546666666667e-05, + "loss": 0.0662, + "step": 29120 + }, + { + "epoch": 0.1864, + "grad_norm": 1.0664327144622803, + "learning_rate": 1.8757333333333334e-05, + "loss": 0.0674, + "step": 29125 + }, + { + "epoch": 0.186432, + "grad_norm": 0.36346176266670227, + "learning_rate": 1.8757120000000002e-05, + "loss": 0.0859, + "step": 29130 + }, + { + "epoch": 0.186464, + "grad_norm": 0.7481279969215393, + "learning_rate": 1.875690666666667e-05, + "loss": 0.1331, + "step": 29135 + }, + { + "epoch": 0.186496, + "grad_norm": 0.8377702236175537, + "learning_rate": 1.8756693333333337e-05, + "loss": 0.081, + "step": 29140 + }, + { + "epoch": 0.186528, + "grad_norm": 0.8482376337051392, + "learning_rate": 1.875648e-05, + "loss": 0.0809, + "step": 29145 + }, + { + "epoch": 0.18656, + "grad_norm": 1.3509525060653687, + "learning_rate": 1.875626666666667e-05, + "loss": 0.0506, + "step": 29150 + }, + { + "epoch": 0.186592, + "grad_norm": 0.9441237449645996, + "learning_rate": 1.8756053333333336e-05, + "loss": 0.068, + "step": 29155 + }, + { + "epoch": 0.186624, + "grad_norm": 0.6438314914703369, + "learning_rate": 1.875584e-05, + "loss": 0.0486, + "step": 29160 + }, + { + "epoch": 0.186656, + "grad_norm": 1.133749008178711, + "learning_rate": 1.8755626666666668e-05, + "loss": 0.0671, + "step": 29165 + }, + { + "epoch": 0.186688, + "grad_norm": 1.191577672958374, + "learning_rate": 1.8755413333333335e-05, + "loss": 0.0703, + "step": 29170 + }, + { + "epoch": 0.18672, + "grad_norm": 0.8838803768157959, + "learning_rate": 1.8755200000000003e-05, + "loss": 0.07, + "step": 29175 + }, + { + "epoch": 0.186752, + "grad_norm": 1.0166499614715576, + "learning_rate": 1.8754986666666667e-05, + "loss": 0.0802, + "step": 29180 + }, + { + "epoch": 0.186784, + "grad_norm": 0.7376788854598999, + "learning_rate": 1.8754773333333335e-05, + "loss": 0.0586, + "step": 29185 + }, + { + "epoch": 0.186816, + "grad_norm": 1.1409212350845337, + "learning_rate": 1.8754560000000002e-05, + "loss": 0.0598, + "step": 29190 + }, + { + "epoch": 0.186848, + "grad_norm": 0.8040958642959595, + "learning_rate": 1.8754346666666666e-05, + "loss": 0.0523, + "step": 29195 + }, + { + "epoch": 0.18688, + "grad_norm": 1.6735434532165527, + "learning_rate": 1.8754133333333334e-05, + "loss": 0.0754, + "step": 29200 + }, + { + "epoch": 0.186912, + "grad_norm": 0.8814963698387146, + "learning_rate": 1.875392e-05, + "loss": 0.07, + "step": 29205 + }, + { + "epoch": 0.186944, + "grad_norm": 0.3042168915271759, + "learning_rate": 1.875370666666667e-05, + "loss": 0.0507, + "step": 29210 + }, + { + "epoch": 0.186976, + "grad_norm": 0.8633115887641907, + "learning_rate": 1.8753493333333333e-05, + "loss": 0.1058, + "step": 29215 + }, + { + "epoch": 0.187008, + "grad_norm": 1.1423414945602417, + "learning_rate": 1.8753280000000004e-05, + "loss": 0.0835, + "step": 29220 + }, + { + "epoch": 0.18704, + "grad_norm": 0.5969032645225525, + "learning_rate": 1.875306666666667e-05, + "loss": 0.0784, + "step": 29225 + }, + { + "epoch": 0.187072, + "grad_norm": 1.2188918590545654, + "learning_rate": 1.8752853333333333e-05, + "loss": 0.1227, + "step": 29230 + }, + { + "epoch": 0.187104, + "grad_norm": 0.33073410391807556, + "learning_rate": 1.8752640000000003e-05, + "loss": 0.0728, + "step": 29235 + }, + { + "epoch": 0.187136, + "grad_norm": 0.6520895957946777, + "learning_rate": 1.8752426666666668e-05, + "loss": 0.0536, + "step": 29240 + }, + { + "epoch": 0.187168, + "grad_norm": 1.3429844379425049, + "learning_rate": 1.8752213333333335e-05, + "loss": 0.0513, + "step": 29245 + }, + { + "epoch": 0.1872, + "grad_norm": 1.4458503723144531, + "learning_rate": 1.8752000000000003e-05, + "loss": 0.0644, + "step": 29250 + }, + { + "epoch": 0.187232, + "grad_norm": 0.9760922193527222, + "learning_rate": 1.875178666666667e-05, + "loss": 0.0817, + "step": 29255 + }, + { + "epoch": 0.187264, + "grad_norm": 0.8233217000961304, + "learning_rate": 1.8751573333333334e-05, + "loss": 0.0866, + "step": 29260 + }, + { + "epoch": 0.187296, + "grad_norm": 1.3734360933303833, + "learning_rate": 1.8751360000000002e-05, + "loss": 0.0777, + "step": 29265 + }, + { + "epoch": 0.187328, + "grad_norm": 0.5596151947975159, + "learning_rate": 1.875114666666667e-05, + "loss": 0.0644, + "step": 29270 + }, + { + "epoch": 0.18736, + "grad_norm": 0.6562637686729431, + "learning_rate": 1.8750933333333334e-05, + "loss": 0.0557, + "step": 29275 + }, + { + "epoch": 0.187392, + "grad_norm": 0.2619294822216034, + "learning_rate": 1.875072e-05, + "loss": 0.0527, + "step": 29280 + }, + { + "epoch": 0.187424, + "grad_norm": 0.8950801491737366, + "learning_rate": 1.875050666666667e-05, + "loss": 0.0844, + "step": 29285 + }, + { + "epoch": 0.187456, + "grad_norm": 0.3569127321243286, + "learning_rate": 1.8750293333333336e-05, + "loss": 0.0426, + "step": 29290 + }, + { + "epoch": 0.187488, + "grad_norm": 4.005134582519531, + "learning_rate": 1.875008e-05, + "loss": 0.0768, + "step": 29295 + }, + { + "epoch": 0.18752, + "grad_norm": 0.49421271681785583, + "learning_rate": 1.8749866666666668e-05, + "loss": 0.0476, + "step": 29300 + }, + { + "epoch": 0.187552, + "grad_norm": 0.4790271520614624, + "learning_rate": 1.8749653333333336e-05, + "loss": 0.0812, + "step": 29305 + }, + { + "epoch": 0.187584, + "grad_norm": 1.2782644033432007, + "learning_rate": 1.874944e-05, + "loss": 0.0834, + "step": 29310 + }, + { + "epoch": 0.187616, + "grad_norm": 1.3850764036178589, + "learning_rate": 1.8749226666666667e-05, + "loss": 0.0844, + "step": 29315 + }, + { + "epoch": 0.187648, + "grad_norm": 0.4626811146736145, + "learning_rate": 1.8749013333333335e-05, + "loss": 0.0621, + "step": 29320 + }, + { + "epoch": 0.18768, + "grad_norm": 1.118098497390747, + "learning_rate": 1.8748800000000003e-05, + "loss": 0.0941, + "step": 29325 + }, + { + "epoch": 0.187712, + "grad_norm": 1.0383132696151733, + "learning_rate": 1.8748586666666667e-05, + "loss": 0.063, + "step": 29330 + }, + { + "epoch": 0.187744, + "grad_norm": 0.6547616720199585, + "learning_rate": 1.8748373333333334e-05, + "loss": 0.0642, + "step": 29335 + }, + { + "epoch": 0.187776, + "grad_norm": 1.0894747972488403, + "learning_rate": 1.8748160000000002e-05, + "loss": 0.0481, + "step": 29340 + }, + { + "epoch": 0.187808, + "grad_norm": 1.0722845792770386, + "learning_rate": 1.8747946666666666e-05, + "loss": 0.0604, + "step": 29345 + }, + { + "epoch": 0.18784, + "grad_norm": 0.822239339351654, + "learning_rate": 1.8747733333333337e-05, + "loss": 0.0816, + "step": 29350 + }, + { + "epoch": 0.187872, + "grad_norm": 0.491865873336792, + "learning_rate": 1.874752e-05, + "loss": 0.0725, + "step": 29355 + }, + { + "epoch": 0.187904, + "grad_norm": 0.5581490993499756, + "learning_rate": 1.874730666666667e-05, + "loss": 0.0438, + "step": 29360 + }, + { + "epoch": 0.187936, + "grad_norm": 0.717671275138855, + "learning_rate": 1.8747093333333336e-05, + "loss": 0.0856, + "step": 29365 + }, + { + "epoch": 0.187968, + "grad_norm": 1.2003110647201538, + "learning_rate": 1.874688e-05, + "loss": 0.0804, + "step": 29370 + }, + { + "epoch": 0.188, + "grad_norm": 1.1812599897384644, + "learning_rate": 1.8746666666666668e-05, + "loss": 0.0833, + "step": 29375 + }, + { + "epoch": 0.188032, + "grad_norm": 0.6337344646453857, + "learning_rate": 1.8746453333333335e-05, + "loss": 0.072, + "step": 29380 + }, + { + "epoch": 0.188064, + "grad_norm": 1.2644017934799194, + "learning_rate": 1.8746240000000003e-05, + "loss": 0.1109, + "step": 29385 + }, + { + "epoch": 0.188096, + "grad_norm": 0.5267110466957092, + "learning_rate": 1.8746026666666667e-05, + "loss": 0.0381, + "step": 29390 + }, + { + "epoch": 0.188128, + "grad_norm": 1.1657805442810059, + "learning_rate": 1.8745813333333335e-05, + "loss": 0.0914, + "step": 29395 + }, + { + "epoch": 0.18816, + "grad_norm": 1.1991952657699585, + "learning_rate": 1.8745600000000002e-05, + "loss": 0.0925, + "step": 29400 + }, + { + "epoch": 0.188192, + "grad_norm": 2.4292023181915283, + "learning_rate": 1.8745386666666666e-05, + "loss": 0.0707, + "step": 29405 + }, + { + "epoch": 0.188224, + "grad_norm": 1.0146178007125854, + "learning_rate": 1.8745173333333334e-05, + "loss": 0.0743, + "step": 29410 + }, + { + "epoch": 0.188256, + "grad_norm": 0.9466942548751831, + "learning_rate": 1.874496e-05, + "loss": 0.0689, + "step": 29415 + }, + { + "epoch": 0.188288, + "grad_norm": 0.37389737367630005, + "learning_rate": 1.874474666666667e-05, + "loss": 0.0519, + "step": 29420 + }, + { + "epoch": 0.18832, + "grad_norm": 0.4735623002052307, + "learning_rate": 1.8744533333333333e-05, + "loss": 0.0385, + "step": 29425 + }, + { + "epoch": 0.188352, + "grad_norm": 0.6733344197273254, + "learning_rate": 1.8744320000000004e-05, + "loss": 0.0459, + "step": 29430 + }, + { + "epoch": 0.188384, + "grad_norm": 1.6734579801559448, + "learning_rate": 1.874410666666667e-05, + "loss": 0.0826, + "step": 29435 + }, + { + "epoch": 0.188416, + "grad_norm": 1.2153725624084473, + "learning_rate": 1.8743893333333333e-05, + "loss": 0.1005, + "step": 29440 + }, + { + "epoch": 0.188448, + "grad_norm": 0.8212366700172424, + "learning_rate": 1.8743680000000003e-05, + "loss": 0.0907, + "step": 29445 + }, + { + "epoch": 0.18848, + "grad_norm": 0.6299567222595215, + "learning_rate": 1.8743466666666668e-05, + "loss": 0.0676, + "step": 29450 + }, + { + "epoch": 0.188512, + "grad_norm": 0.21401801705360413, + "learning_rate": 1.8743253333333335e-05, + "loss": 0.0473, + "step": 29455 + }, + { + "epoch": 0.188544, + "grad_norm": 0.5725039839744568, + "learning_rate": 1.8743040000000003e-05, + "loss": 0.0963, + "step": 29460 + }, + { + "epoch": 0.188576, + "grad_norm": 0.8225672245025635, + "learning_rate": 1.874282666666667e-05, + "loss": 0.0717, + "step": 29465 + }, + { + "epoch": 0.188608, + "grad_norm": 0.8759727478027344, + "learning_rate": 1.8742613333333334e-05, + "loss": 0.0497, + "step": 29470 + }, + { + "epoch": 0.18864, + "grad_norm": 0.645827054977417, + "learning_rate": 1.8742400000000002e-05, + "loss": 0.0594, + "step": 29475 + }, + { + "epoch": 0.188672, + "grad_norm": 0.7626542448997498, + "learning_rate": 1.874218666666667e-05, + "loss": 0.0582, + "step": 29480 + }, + { + "epoch": 0.188704, + "grad_norm": 1.3511011600494385, + "learning_rate": 1.8741973333333334e-05, + "loss": 0.0931, + "step": 29485 + }, + { + "epoch": 0.188736, + "grad_norm": 1.1098296642303467, + "learning_rate": 1.874176e-05, + "loss": 0.081, + "step": 29490 + }, + { + "epoch": 0.188768, + "grad_norm": 0.7062692642211914, + "learning_rate": 1.874154666666667e-05, + "loss": 0.0588, + "step": 29495 + }, + { + "epoch": 0.1888, + "grad_norm": 0.8291204571723938, + "learning_rate": 1.8741333333333336e-05, + "loss": 0.0518, + "step": 29500 + }, + { + "epoch": 0.188832, + "grad_norm": 1.0137109756469727, + "learning_rate": 1.874112e-05, + "loss": 0.0745, + "step": 29505 + }, + { + "epoch": 0.188864, + "grad_norm": 1.1944628953933716, + "learning_rate": 1.8740906666666668e-05, + "loss": 0.0588, + "step": 29510 + }, + { + "epoch": 0.188896, + "grad_norm": 0.6279972791671753, + "learning_rate": 1.8740693333333336e-05, + "loss": 0.0933, + "step": 29515 + }, + { + "epoch": 0.188928, + "grad_norm": 0.8689444065093994, + "learning_rate": 1.874048e-05, + "loss": 0.0451, + "step": 29520 + }, + { + "epoch": 0.18896, + "grad_norm": 0.7375327944755554, + "learning_rate": 1.8740266666666667e-05, + "loss": 0.0826, + "step": 29525 + }, + { + "epoch": 0.188992, + "grad_norm": 1.6571146249771118, + "learning_rate": 1.8740053333333335e-05, + "loss": 0.092, + "step": 29530 + }, + { + "epoch": 0.189024, + "grad_norm": 3.4024176597595215, + "learning_rate": 1.8739840000000003e-05, + "loss": 0.1367, + "step": 29535 + }, + { + "epoch": 0.189056, + "grad_norm": 0.6015492677688599, + "learning_rate": 1.8739626666666667e-05, + "loss": 0.0686, + "step": 29540 + }, + { + "epoch": 0.189088, + "grad_norm": 0.8228293061256409, + "learning_rate": 1.8739413333333334e-05, + "loss": 0.062, + "step": 29545 + }, + { + "epoch": 0.18912, + "grad_norm": 1.2404251098632812, + "learning_rate": 1.8739200000000002e-05, + "loss": 0.0869, + "step": 29550 + }, + { + "epoch": 0.189152, + "grad_norm": 1.2550164461135864, + "learning_rate": 1.8738986666666666e-05, + "loss": 0.0764, + "step": 29555 + }, + { + "epoch": 0.189184, + "grad_norm": 1.0983935594558716, + "learning_rate": 1.8738773333333337e-05, + "loss": 0.0939, + "step": 29560 + }, + { + "epoch": 0.189216, + "grad_norm": 0.6032723784446716, + "learning_rate": 1.873856e-05, + "loss": 0.1213, + "step": 29565 + }, + { + "epoch": 0.189248, + "grad_norm": 0.5269939303398132, + "learning_rate": 1.873834666666667e-05, + "loss": 0.0763, + "step": 29570 + }, + { + "epoch": 0.18928, + "grad_norm": 1.1606388092041016, + "learning_rate": 1.8738133333333336e-05, + "loss": 0.0806, + "step": 29575 + }, + { + "epoch": 0.189312, + "grad_norm": 0.6582093238830566, + "learning_rate": 1.873792e-05, + "loss": 0.0849, + "step": 29580 + }, + { + "epoch": 0.189344, + "grad_norm": 0.8717990517616272, + "learning_rate": 1.8737706666666668e-05, + "loss": 0.073, + "step": 29585 + }, + { + "epoch": 0.189376, + "grad_norm": 0.9406243562698364, + "learning_rate": 1.8737493333333335e-05, + "loss": 0.0698, + "step": 29590 + }, + { + "epoch": 0.189408, + "grad_norm": 0.9889177083969116, + "learning_rate": 1.8737280000000003e-05, + "loss": 0.0634, + "step": 29595 + }, + { + "epoch": 0.18944, + "grad_norm": 1.592612385749817, + "learning_rate": 1.8737066666666667e-05, + "loss": 0.0813, + "step": 29600 + }, + { + "epoch": 0.189472, + "grad_norm": 0.7483420968055725, + "learning_rate": 1.8736853333333335e-05, + "loss": 0.0716, + "step": 29605 + }, + { + "epoch": 0.189504, + "grad_norm": 1.0659494400024414, + "learning_rate": 1.8736640000000002e-05, + "loss": 0.096, + "step": 29610 + }, + { + "epoch": 0.189536, + "grad_norm": 0.9964174032211304, + "learning_rate": 1.8736426666666666e-05, + "loss": 0.0748, + "step": 29615 + }, + { + "epoch": 0.189568, + "grad_norm": 1.2358136177062988, + "learning_rate": 1.8736213333333334e-05, + "loss": 0.0575, + "step": 29620 + }, + { + "epoch": 0.1896, + "grad_norm": 1.4826451539993286, + "learning_rate": 1.8736e-05, + "loss": 0.1058, + "step": 29625 + }, + { + "epoch": 0.189632, + "grad_norm": 0.8968808650970459, + "learning_rate": 1.873578666666667e-05, + "loss": 0.0725, + "step": 29630 + }, + { + "epoch": 0.189664, + "grad_norm": 0.7603878974914551, + "learning_rate": 1.8735573333333333e-05, + "loss": 0.0552, + "step": 29635 + }, + { + "epoch": 0.189696, + "grad_norm": 1.2957030534744263, + "learning_rate": 1.873536e-05, + "loss": 0.0629, + "step": 29640 + }, + { + "epoch": 0.189728, + "grad_norm": 0.6613101959228516, + "learning_rate": 1.873514666666667e-05, + "loss": 0.0382, + "step": 29645 + }, + { + "epoch": 0.18976, + "grad_norm": 0.7953345775604248, + "learning_rate": 1.8734933333333333e-05, + "loss": 0.0528, + "step": 29650 + }, + { + "epoch": 0.189792, + "grad_norm": 0.4709487855434418, + "learning_rate": 1.8734720000000003e-05, + "loss": 0.0707, + "step": 29655 + }, + { + "epoch": 0.189824, + "grad_norm": 0.9036303162574768, + "learning_rate": 1.8734506666666668e-05, + "loss": 0.0788, + "step": 29660 + }, + { + "epoch": 0.189856, + "grad_norm": 0.47833922505378723, + "learning_rate": 1.8734293333333335e-05, + "loss": 0.056, + "step": 29665 + }, + { + "epoch": 0.189888, + "grad_norm": 0.6452212929725647, + "learning_rate": 1.8734080000000003e-05, + "loss": 0.0737, + "step": 29670 + }, + { + "epoch": 0.18992, + "grad_norm": 0.6384187936782837, + "learning_rate": 1.873386666666667e-05, + "loss": 0.064, + "step": 29675 + }, + { + "epoch": 0.189952, + "grad_norm": 0.6594139337539673, + "learning_rate": 1.8733653333333334e-05, + "loss": 0.0734, + "step": 29680 + }, + { + "epoch": 0.189984, + "grad_norm": 0.8519874811172485, + "learning_rate": 1.8733440000000002e-05, + "loss": 0.0405, + "step": 29685 + }, + { + "epoch": 0.190016, + "grad_norm": 0.8994202613830566, + "learning_rate": 1.873322666666667e-05, + "loss": 0.065, + "step": 29690 + }, + { + "epoch": 0.190048, + "grad_norm": 4.449401378631592, + "learning_rate": 1.8733013333333334e-05, + "loss": 0.0725, + "step": 29695 + }, + { + "epoch": 0.19008, + "grad_norm": 0.7401438355445862, + "learning_rate": 1.87328e-05, + "loss": 0.0712, + "step": 29700 + }, + { + "epoch": 0.190112, + "grad_norm": 0.8775275945663452, + "learning_rate": 1.873258666666667e-05, + "loss": 0.0576, + "step": 29705 + }, + { + "epoch": 0.190144, + "grad_norm": 1.5216386318206787, + "learning_rate": 1.8732373333333336e-05, + "loss": 0.0808, + "step": 29710 + }, + { + "epoch": 0.190176, + "grad_norm": 1.1744215488433838, + "learning_rate": 1.873216e-05, + "loss": 0.0604, + "step": 29715 + }, + { + "epoch": 0.190208, + "grad_norm": 0.8754657506942749, + "learning_rate": 1.8731946666666668e-05, + "loss": 0.0675, + "step": 29720 + }, + { + "epoch": 0.19024, + "grad_norm": 0.8790310025215149, + "learning_rate": 1.8731733333333336e-05, + "loss": 0.061, + "step": 29725 + }, + { + "epoch": 0.190272, + "grad_norm": 0.5460544228553772, + "learning_rate": 1.873152e-05, + "loss": 0.0487, + "step": 29730 + }, + { + "epoch": 0.190304, + "grad_norm": 1.1920218467712402, + "learning_rate": 1.8731306666666667e-05, + "loss": 0.0735, + "step": 29735 + }, + { + "epoch": 0.190336, + "grad_norm": 1.0825341939926147, + "learning_rate": 1.8731093333333335e-05, + "loss": 0.0567, + "step": 29740 + }, + { + "epoch": 0.190368, + "grad_norm": 0.6257606744766235, + "learning_rate": 1.8730880000000003e-05, + "loss": 0.0591, + "step": 29745 + }, + { + "epoch": 0.1904, + "grad_norm": 1.75575852394104, + "learning_rate": 1.8730666666666667e-05, + "loss": 0.1154, + "step": 29750 + }, + { + "epoch": 0.190432, + "grad_norm": 0.14022454619407654, + "learning_rate": 1.8730453333333334e-05, + "loss": 0.0483, + "step": 29755 + }, + { + "epoch": 0.190464, + "grad_norm": 0.4305623173713684, + "learning_rate": 1.8730240000000002e-05, + "loss": 0.0691, + "step": 29760 + }, + { + "epoch": 0.190496, + "grad_norm": 0.6577735543251038, + "learning_rate": 1.8730026666666666e-05, + "loss": 0.0652, + "step": 29765 + }, + { + "epoch": 0.190528, + "grad_norm": 1.3689171075820923, + "learning_rate": 1.8729813333333337e-05, + "loss": 0.0652, + "step": 29770 + }, + { + "epoch": 0.19056, + "grad_norm": 1.1430816650390625, + "learning_rate": 1.87296e-05, + "loss": 0.0645, + "step": 29775 + }, + { + "epoch": 0.190592, + "grad_norm": 0.774457573890686, + "learning_rate": 1.872938666666667e-05, + "loss": 0.0883, + "step": 29780 + }, + { + "epoch": 0.190624, + "grad_norm": 1.271633505821228, + "learning_rate": 1.8729173333333336e-05, + "loss": 0.0781, + "step": 29785 + }, + { + "epoch": 0.190656, + "grad_norm": 0.4589463472366333, + "learning_rate": 1.872896e-05, + "loss": 0.0458, + "step": 29790 + }, + { + "epoch": 0.190688, + "grad_norm": 1.0937532186508179, + "learning_rate": 1.8728746666666668e-05, + "loss": 0.0813, + "step": 29795 + }, + { + "epoch": 0.19072, + "grad_norm": 0.6436727046966553, + "learning_rate": 1.8728533333333335e-05, + "loss": 0.0615, + "step": 29800 + }, + { + "epoch": 0.190752, + "grad_norm": 0.4138658046722412, + "learning_rate": 1.8728320000000003e-05, + "loss": 0.0949, + "step": 29805 + }, + { + "epoch": 0.190784, + "grad_norm": 0.5278406143188477, + "learning_rate": 1.8728106666666667e-05, + "loss": 0.0445, + "step": 29810 + }, + { + "epoch": 0.190816, + "grad_norm": 0.39716288447380066, + "learning_rate": 1.8727893333333335e-05, + "loss": 0.0857, + "step": 29815 + }, + { + "epoch": 0.190848, + "grad_norm": 0.4716304838657379, + "learning_rate": 1.8727680000000002e-05, + "loss": 0.0887, + "step": 29820 + }, + { + "epoch": 0.19088, + "grad_norm": 1.017846941947937, + "learning_rate": 1.8727466666666666e-05, + "loss": 0.0898, + "step": 29825 + }, + { + "epoch": 0.190912, + "grad_norm": 0.5373570919036865, + "learning_rate": 1.8727253333333334e-05, + "loss": 0.0647, + "step": 29830 + }, + { + "epoch": 0.190944, + "grad_norm": 0.8748616576194763, + "learning_rate": 1.872704e-05, + "loss": 0.0621, + "step": 29835 + }, + { + "epoch": 0.190976, + "grad_norm": 0.931637704372406, + "learning_rate": 1.872682666666667e-05, + "loss": 0.0738, + "step": 29840 + }, + { + "epoch": 0.191008, + "grad_norm": 0.8644478917121887, + "learning_rate": 1.8726613333333333e-05, + "loss": 0.0671, + "step": 29845 + }, + { + "epoch": 0.19104, + "grad_norm": 2.4967877864837646, + "learning_rate": 1.87264e-05, + "loss": 0.0867, + "step": 29850 + }, + { + "epoch": 0.191072, + "grad_norm": 1.2815635204315186, + "learning_rate": 1.872618666666667e-05, + "loss": 0.0636, + "step": 29855 + }, + { + "epoch": 0.191104, + "grad_norm": 1.9518632888793945, + "learning_rate": 1.8725973333333333e-05, + "loss": 0.067, + "step": 29860 + }, + { + "epoch": 0.191136, + "grad_norm": 0.7030643224716187, + "learning_rate": 1.872576e-05, + "loss": 0.0707, + "step": 29865 + }, + { + "epoch": 0.191168, + "grad_norm": 0.753463625907898, + "learning_rate": 1.8725546666666668e-05, + "loss": 0.0672, + "step": 29870 + }, + { + "epoch": 0.1912, + "grad_norm": 2.657346248626709, + "learning_rate": 1.8725333333333335e-05, + "loss": 0.0544, + "step": 29875 + }, + { + "epoch": 0.191232, + "grad_norm": 2.7300193309783936, + "learning_rate": 1.8725120000000003e-05, + "loss": 0.0863, + "step": 29880 + }, + { + "epoch": 0.191264, + "grad_norm": 1.2733466625213623, + "learning_rate": 1.872490666666667e-05, + "loss": 0.0956, + "step": 29885 + }, + { + "epoch": 0.191296, + "grad_norm": 1.4939355850219727, + "learning_rate": 1.8724693333333334e-05, + "loss": 0.0435, + "step": 29890 + }, + { + "epoch": 0.191328, + "grad_norm": 2.659066915512085, + "learning_rate": 1.8724480000000002e-05, + "loss": 0.0946, + "step": 29895 + }, + { + "epoch": 0.19136, + "grad_norm": 0.7578024864196777, + "learning_rate": 1.872426666666667e-05, + "loss": 0.0554, + "step": 29900 + }, + { + "epoch": 0.191392, + "grad_norm": 0.46576759219169617, + "learning_rate": 1.8724053333333334e-05, + "loss": 0.0698, + "step": 29905 + }, + { + "epoch": 0.191424, + "grad_norm": 0.6780076026916504, + "learning_rate": 1.872384e-05, + "loss": 0.041, + "step": 29910 + }, + { + "epoch": 0.191456, + "grad_norm": 0.7877971529960632, + "learning_rate": 1.872362666666667e-05, + "loss": 0.0741, + "step": 29915 + }, + { + "epoch": 0.191488, + "grad_norm": 1.1880791187286377, + "learning_rate": 1.8723413333333336e-05, + "loss": 0.0656, + "step": 29920 + }, + { + "epoch": 0.19152, + "grad_norm": 1.0079197883605957, + "learning_rate": 1.87232e-05, + "loss": 0.0457, + "step": 29925 + }, + { + "epoch": 0.191552, + "grad_norm": 0.606034517288208, + "learning_rate": 1.8722986666666668e-05, + "loss": 0.07, + "step": 29930 + }, + { + "epoch": 0.191584, + "grad_norm": 0.809511125087738, + "learning_rate": 1.8722773333333336e-05, + "loss": 0.0474, + "step": 29935 + }, + { + "epoch": 0.191616, + "grad_norm": 0.6594947576522827, + "learning_rate": 1.872256e-05, + "loss": 0.056, + "step": 29940 + }, + { + "epoch": 0.191648, + "grad_norm": 3.133303165435791, + "learning_rate": 1.8722346666666667e-05, + "loss": 0.087, + "step": 29945 + }, + { + "epoch": 0.19168, + "grad_norm": 2.5207831859588623, + "learning_rate": 1.8722133333333335e-05, + "loss": 0.0873, + "step": 29950 + }, + { + "epoch": 0.191712, + "grad_norm": 1.170986294746399, + "learning_rate": 1.8721920000000003e-05, + "loss": 0.0869, + "step": 29955 + }, + { + "epoch": 0.191744, + "grad_norm": 0.984062135219574, + "learning_rate": 1.8721706666666667e-05, + "loss": 0.0735, + "step": 29960 + }, + { + "epoch": 0.191776, + "grad_norm": 1.1812411546707153, + "learning_rate": 1.8721493333333338e-05, + "loss": 0.0625, + "step": 29965 + }, + { + "epoch": 0.191808, + "grad_norm": 0.7321771383285522, + "learning_rate": 1.8721280000000002e-05, + "loss": 0.0705, + "step": 29970 + }, + { + "epoch": 0.19184, + "grad_norm": 1.1076411008834839, + "learning_rate": 1.8721066666666666e-05, + "loss": 0.0798, + "step": 29975 + }, + { + "epoch": 0.191872, + "grad_norm": 0.7847452163696289, + "learning_rate": 1.8720853333333337e-05, + "loss": 0.0519, + "step": 29980 + }, + { + "epoch": 0.191904, + "grad_norm": 0.9322636723518372, + "learning_rate": 1.872064e-05, + "loss": 0.0875, + "step": 29985 + }, + { + "epoch": 0.191936, + "grad_norm": 2.8153281211853027, + "learning_rate": 1.872042666666667e-05, + "loss": 0.0872, + "step": 29990 + }, + { + "epoch": 0.191968, + "grad_norm": 0.4227105379104614, + "learning_rate": 1.8720213333333336e-05, + "loss": 0.1011, + "step": 29995 + }, + { + "epoch": 0.192, + "grad_norm": 0.21596531569957733, + "learning_rate": 1.8720000000000004e-05, + "loss": 0.0386, + "step": 30000 + }, + { + "epoch": 0.192032, + "grad_norm": 0.8407052755355835, + "learning_rate": 1.8719786666666668e-05, + "loss": 0.0725, + "step": 30005 + }, + { + "epoch": 0.192064, + "grad_norm": 1.8161680698394775, + "learning_rate": 1.8719573333333335e-05, + "loss": 0.0799, + "step": 30010 + }, + { + "epoch": 0.192096, + "grad_norm": 0.32321271300315857, + "learning_rate": 1.8719360000000003e-05, + "loss": 0.0648, + "step": 30015 + }, + { + "epoch": 0.192128, + "grad_norm": 1.2299087047576904, + "learning_rate": 1.8719146666666667e-05, + "loss": 0.0614, + "step": 30020 + }, + { + "epoch": 0.19216, + "grad_norm": 0.7887839674949646, + "learning_rate": 1.8718933333333335e-05, + "loss": 0.0674, + "step": 30025 + }, + { + "epoch": 0.192192, + "grad_norm": 0.7964618802070618, + "learning_rate": 1.8718720000000002e-05, + "loss": 0.0507, + "step": 30030 + }, + { + "epoch": 0.192224, + "grad_norm": 0.818153977394104, + "learning_rate": 1.871850666666667e-05, + "loss": 0.0465, + "step": 30035 + }, + { + "epoch": 0.192256, + "grad_norm": 0.5352870225906372, + "learning_rate": 1.8718293333333334e-05, + "loss": 0.0557, + "step": 30040 + }, + { + "epoch": 0.192288, + "grad_norm": 0.7136095762252808, + "learning_rate": 1.871808e-05, + "loss": 0.1097, + "step": 30045 + }, + { + "epoch": 0.19232, + "grad_norm": 1.3134220838546753, + "learning_rate": 1.871786666666667e-05, + "loss": 0.0692, + "step": 30050 + }, + { + "epoch": 0.192352, + "grad_norm": 1.1973901987075806, + "learning_rate": 1.8717653333333333e-05, + "loss": 0.0483, + "step": 30055 + }, + { + "epoch": 0.192384, + "grad_norm": 0.8221871852874756, + "learning_rate": 1.871744e-05, + "loss": 0.0495, + "step": 30060 + }, + { + "epoch": 0.192416, + "grad_norm": 0.509030282497406, + "learning_rate": 1.871722666666667e-05, + "loss": 0.0431, + "step": 30065 + }, + { + "epoch": 0.192448, + "grad_norm": 0.393998920917511, + "learning_rate": 1.8717013333333336e-05, + "loss": 0.0656, + "step": 30070 + }, + { + "epoch": 0.19248, + "grad_norm": 0.7042349576950073, + "learning_rate": 1.87168e-05, + "loss": 0.0462, + "step": 30075 + }, + { + "epoch": 0.192512, + "grad_norm": 0.9061809182167053, + "learning_rate": 1.8716586666666668e-05, + "loss": 0.0731, + "step": 30080 + }, + { + "epoch": 0.192544, + "grad_norm": 0.6867650747299194, + "learning_rate": 1.8716373333333335e-05, + "loss": 0.0467, + "step": 30085 + }, + { + "epoch": 0.192576, + "grad_norm": 0.9613224267959595, + "learning_rate": 1.871616e-05, + "loss": 0.0856, + "step": 30090 + }, + { + "epoch": 0.192608, + "grad_norm": 1.1346452236175537, + "learning_rate": 1.871594666666667e-05, + "loss": 0.1061, + "step": 30095 + }, + { + "epoch": 0.19264, + "grad_norm": 0.5679963231086731, + "learning_rate": 1.8715733333333334e-05, + "loss": 0.0598, + "step": 30100 + }, + { + "epoch": 0.192672, + "grad_norm": 1.7653999328613281, + "learning_rate": 1.8715520000000002e-05, + "loss": 0.0546, + "step": 30105 + }, + { + "epoch": 0.192704, + "grad_norm": 2.4225926399230957, + "learning_rate": 1.871530666666667e-05, + "loss": 0.0811, + "step": 30110 + }, + { + "epoch": 0.192736, + "grad_norm": 1.3813756704330444, + "learning_rate": 1.8715093333333334e-05, + "loss": 0.0549, + "step": 30115 + }, + { + "epoch": 0.192768, + "grad_norm": 0.4908483624458313, + "learning_rate": 1.871488e-05, + "loss": 0.0714, + "step": 30120 + }, + { + "epoch": 0.1928, + "grad_norm": 0.5507524013519287, + "learning_rate": 1.871466666666667e-05, + "loss": 0.1131, + "step": 30125 + }, + { + "epoch": 0.192832, + "grad_norm": 0.6617987751960754, + "learning_rate": 1.8714453333333336e-05, + "loss": 0.083, + "step": 30130 + }, + { + "epoch": 0.192864, + "grad_norm": 0.5897564888000488, + "learning_rate": 1.871424e-05, + "loss": 0.0579, + "step": 30135 + }, + { + "epoch": 0.192896, + "grad_norm": 0.7018936276435852, + "learning_rate": 1.8714026666666668e-05, + "loss": 0.0434, + "step": 30140 + }, + { + "epoch": 0.192928, + "grad_norm": 0.42993804812431335, + "learning_rate": 1.8713813333333336e-05, + "loss": 0.0394, + "step": 30145 + }, + { + "epoch": 0.19296, + "grad_norm": 1.2135381698608398, + "learning_rate": 1.87136e-05, + "loss": 0.0773, + "step": 30150 + }, + { + "epoch": 0.192992, + "grad_norm": 0.5137724876403809, + "learning_rate": 1.8713386666666667e-05, + "loss": 0.0417, + "step": 30155 + }, + { + "epoch": 0.193024, + "grad_norm": 1.1798030138015747, + "learning_rate": 1.8713173333333335e-05, + "loss": 0.0723, + "step": 30160 + }, + { + "epoch": 0.193056, + "grad_norm": 0.5298455953598022, + "learning_rate": 1.8712960000000003e-05, + "loss": 0.0658, + "step": 30165 + }, + { + "epoch": 0.193088, + "grad_norm": 0.4857389032840729, + "learning_rate": 1.8712746666666667e-05, + "loss": 0.0612, + "step": 30170 + }, + { + "epoch": 0.19312, + "grad_norm": 0.4215035140514374, + "learning_rate": 1.8712533333333334e-05, + "loss": 0.0606, + "step": 30175 + }, + { + "epoch": 0.193152, + "grad_norm": 0.6199203133583069, + "learning_rate": 1.8712320000000002e-05, + "loss": 0.0612, + "step": 30180 + }, + { + "epoch": 0.193184, + "grad_norm": 0.6739866137504578, + "learning_rate": 1.8712106666666666e-05, + "loss": 0.0694, + "step": 30185 + }, + { + "epoch": 0.193216, + "grad_norm": 0.709775447845459, + "learning_rate": 1.8711893333333337e-05, + "loss": 0.0775, + "step": 30190 + }, + { + "epoch": 0.193248, + "grad_norm": 0.3997800946235657, + "learning_rate": 1.871168e-05, + "loss": 0.0534, + "step": 30195 + }, + { + "epoch": 0.19328, + "grad_norm": 0.6128084063529968, + "learning_rate": 1.871146666666667e-05, + "loss": 0.0596, + "step": 30200 + }, + { + "epoch": 0.193312, + "grad_norm": 0.4533671438694, + "learning_rate": 1.8711253333333336e-05, + "loss": 0.0653, + "step": 30205 + }, + { + "epoch": 0.193344, + "grad_norm": 1.364065408706665, + "learning_rate": 1.8711040000000004e-05, + "loss": 0.0736, + "step": 30210 + }, + { + "epoch": 0.193376, + "grad_norm": 1.2693630456924438, + "learning_rate": 1.8710826666666668e-05, + "loss": 0.0826, + "step": 30215 + }, + { + "epoch": 0.193408, + "grad_norm": 0.6221753358840942, + "learning_rate": 1.8710613333333335e-05, + "loss": 0.0719, + "step": 30220 + }, + { + "epoch": 0.19344, + "grad_norm": 1.2961970567703247, + "learning_rate": 1.8710400000000003e-05, + "loss": 0.1099, + "step": 30225 + }, + { + "epoch": 0.193472, + "grad_norm": 0.6776670217514038, + "learning_rate": 1.8710186666666667e-05, + "loss": 0.0651, + "step": 30230 + }, + { + "epoch": 0.193504, + "grad_norm": 0.6316564083099365, + "learning_rate": 1.8709973333333335e-05, + "loss": 0.0945, + "step": 30235 + }, + { + "epoch": 0.193536, + "grad_norm": 0.6227225661277771, + "learning_rate": 1.8709760000000002e-05, + "loss": 0.0577, + "step": 30240 + }, + { + "epoch": 0.193568, + "grad_norm": 0.7710944414138794, + "learning_rate": 1.870954666666667e-05, + "loss": 0.0754, + "step": 30245 + }, + { + "epoch": 0.1936, + "grad_norm": 0.7777487635612488, + "learning_rate": 1.8709333333333334e-05, + "loss": 0.1104, + "step": 30250 + }, + { + "epoch": 0.193632, + "grad_norm": 0.9921910762786865, + "learning_rate": 1.870912e-05, + "loss": 0.0601, + "step": 30255 + }, + { + "epoch": 0.193664, + "grad_norm": 1.1866939067840576, + "learning_rate": 1.870890666666667e-05, + "loss": 0.07, + "step": 30260 + }, + { + "epoch": 0.193696, + "grad_norm": 0.6222583055496216, + "learning_rate": 1.8708693333333333e-05, + "loss": 0.0525, + "step": 30265 + }, + { + "epoch": 0.193728, + "grad_norm": 1.1978416442871094, + "learning_rate": 1.870848e-05, + "loss": 0.0736, + "step": 30270 + }, + { + "epoch": 0.19376, + "grad_norm": 0.6121238470077515, + "learning_rate": 1.870826666666667e-05, + "loss": 0.0608, + "step": 30275 + }, + { + "epoch": 0.193792, + "grad_norm": 1.0649871826171875, + "learning_rate": 1.8708053333333336e-05, + "loss": 0.0923, + "step": 30280 + }, + { + "epoch": 0.193824, + "grad_norm": 0.8481746912002563, + "learning_rate": 1.870784e-05, + "loss": 0.0841, + "step": 30285 + }, + { + "epoch": 0.193856, + "grad_norm": 0.8052806258201599, + "learning_rate": 1.8707626666666668e-05, + "loss": 0.0931, + "step": 30290 + }, + { + "epoch": 0.193888, + "grad_norm": 0.6093761920928955, + "learning_rate": 1.8707413333333335e-05, + "loss": 0.0738, + "step": 30295 + }, + { + "epoch": 0.19392, + "grad_norm": 0.20373690128326416, + "learning_rate": 1.87072e-05, + "loss": 0.0668, + "step": 30300 + }, + { + "epoch": 0.193952, + "grad_norm": 1.620511770248413, + "learning_rate": 1.870698666666667e-05, + "loss": 0.0947, + "step": 30305 + }, + { + "epoch": 0.193984, + "grad_norm": 0.742631733417511, + "learning_rate": 1.8706773333333334e-05, + "loss": 0.0644, + "step": 30310 + }, + { + "epoch": 0.194016, + "grad_norm": 0.3432316780090332, + "learning_rate": 1.8706560000000002e-05, + "loss": 0.0865, + "step": 30315 + }, + { + "epoch": 0.194048, + "grad_norm": 0.7298884391784668, + "learning_rate": 1.870634666666667e-05, + "loss": 0.0849, + "step": 30320 + }, + { + "epoch": 0.19408, + "grad_norm": 0.8128486275672913, + "learning_rate": 1.8706133333333334e-05, + "loss": 0.0529, + "step": 30325 + }, + { + "epoch": 0.194112, + "grad_norm": 0.6350470781326294, + "learning_rate": 1.870592e-05, + "loss": 0.0593, + "step": 30330 + }, + { + "epoch": 0.194144, + "grad_norm": 2.554361581802368, + "learning_rate": 1.870570666666667e-05, + "loss": 0.0622, + "step": 30335 + }, + { + "epoch": 0.194176, + "grad_norm": 0.7301338315010071, + "learning_rate": 1.8705493333333336e-05, + "loss": 0.0592, + "step": 30340 + }, + { + "epoch": 0.194208, + "grad_norm": 1.0220155715942383, + "learning_rate": 1.870528e-05, + "loss": 0.0681, + "step": 30345 + }, + { + "epoch": 0.19424, + "grad_norm": 0.8158782124519348, + "learning_rate": 1.8705066666666668e-05, + "loss": 0.0876, + "step": 30350 + }, + { + "epoch": 0.194272, + "grad_norm": 1.4152146577835083, + "learning_rate": 1.8704853333333336e-05, + "loss": 0.0531, + "step": 30355 + }, + { + "epoch": 0.194304, + "grad_norm": 2.097864866256714, + "learning_rate": 1.870464e-05, + "loss": 0.0654, + "step": 30360 + }, + { + "epoch": 0.194336, + "grad_norm": 0.5809714794158936, + "learning_rate": 1.8704426666666667e-05, + "loss": 0.066, + "step": 30365 + }, + { + "epoch": 0.194368, + "grad_norm": 2.03796648979187, + "learning_rate": 1.8704213333333335e-05, + "loss": 0.0478, + "step": 30370 + }, + { + "epoch": 0.1944, + "grad_norm": 5.0669732093811035, + "learning_rate": 1.8704000000000003e-05, + "loss": 0.0756, + "step": 30375 + }, + { + "epoch": 0.194432, + "grad_norm": 0.48761603236198425, + "learning_rate": 1.8703786666666667e-05, + "loss": 0.0474, + "step": 30380 + }, + { + "epoch": 0.194464, + "grad_norm": 0.5780288577079773, + "learning_rate": 1.8703573333333334e-05, + "loss": 0.0568, + "step": 30385 + }, + { + "epoch": 0.194496, + "grad_norm": 0.42695149779319763, + "learning_rate": 1.8703360000000002e-05, + "loss": 0.0556, + "step": 30390 + }, + { + "epoch": 0.194528, + "grad_norm": 0.5268104076385498, + "learning_rate": 1.8703146666666666e-05, + "loss": 0.0463, + "step": 30395 + }, + { + "epoch": 0.19456, + "grad_norm": 1.0304478406906128, + "learning_rate": 1.8702933333333334e-05, + "loss": 0.0564, + "step": 30400 + }, + { + "epoch": 0.194592, + "grad_norm": 1.035660743713379, + "learning_rate": 1.870272e-05, + "loss": 0.0706, + "step": 30405 + }, + { + "epoch": 0.194624, + "grad_norm": 0.6186417937278748, + "learning_rate": 1.870250666666667e-05, + "loss": 0.0586, + "step": 30410 + }, + { + "epoch": 0.194656, + "grad_norm": 0.8727006912231445, + "learning_rate": 1.8702293333333336e-05, + "loss": 0.0811, + "step": 30415 + }, + { + "epoch": 0.194688, + "grad_norm": 0.7349333763122559, + "learning_rate": 1.8702080000000004e-05, + "loss": 0.0763, + "step": 30420 + }, + { + "epoch": 0.19472, + "grad_norm": 0.8773009181022644, + "learning_rate": 1.8701866666666668e-05, + "loss": 0.0968, + "step": 30425 + }, + { + "epoch": 0.194752, + "grad_norm": 0.9325413703918457, + "learning_rate": 1.8701653333333335e-05, + "loss": 0.0767, + "step": 30430 + }, + { + "epoch": 0.194784, + "grad_norm": 0.7024932503700256, + "learning_rate": 1.8701440000000003e-05, + "loss": 0.0425, + "step": 30435 + }, + { + "epoch": 0.194816, + "grad_norm": 0.7896331548690796, + "learning_rate": 1.8701226666666667e-05, + "loss": 0.099, + "step": 30440 + }, + { + "epoch": 0.194848, + "grad_norm": 1.5374635457992554, + "learning_rate": 1.8701013333333335e-05, + "loss": 0.12, + "step": 30445 + }, + { + "epoch": 0.19488, + "grad_norm": 1.1369092464447021, + "learning_rate": 1.8700800000000002e-05, + "loss": 0.0705, + "step": 30450 + }, + { + "epoch": 0.194912, + "grad_norm": 1.116530418395996, + "learning_rate": 1.870058666666667e-05, + "loss": 0.0631, + "step": 30455 + }, + { + "epoch": 0.194944, + "grad_norm": 0.7561081051826477, + "learning_rate": 1.8700373333333334e-05, + "loss": 0.0624, + "step": 30460 + }, + { + "epoch": 0.194976, + "grad_norm": 1.0499118566513062, + "learning_rate": 1.870016e-05, + "loss": 0.173, + "step": 30465 + }, + { + "epoch": 0.195008, + "grad_norm": 0.7114505767822266, + "learning_rate": 1.869994666666667e-05, + "loss": 0.0623, + "step": 30470 + }, + { + "epoch": 0.19504, + "grad_norm": 1.5688027143478394, + "learning_rate": 1.8699733333333333e-05, + "loss": 0.0908, + "step": 30475 + }, + { + "epoch": 0.195072, + "grad_norm": 1.4882341623306274, + "learning_rate": 1.869952e-05, + "loss": 0.0746, + "step": 30480 + }, + { + "epoch": 0.195104, + "grad_norm": 0.8027908205986023, + "learning_rate": 1.869930666666667e-05, + "loss": 0.085, + "step": 30485 + }, + { + "epoch": 0.195136, + "grad_norm": 1.5402090549468994, + "learning_rate": 1.8699093333333336e-05, + "loss": 0.0687, + "step": 30490 + }, + { + "epoch": 0.195168, + "grad_norm": 1.162978172302246, + "learning_rate": 1.869888e-05, + "loss": 0.0447, + "step": 30495 + }, + { + "epoch": 0.1952, + "grad_norm": 0.5337843894958496, + "learning_rate": 1.8698666666666668e-05, + "loss": 0.0701, + "step": 30500 + }, + { + "epoch": 0.195232, + "grad_norm": 0.4571223556995392, + "learning_rate": 1.8698453333333335e-05, + "loss": 0.0637, + "step": 30505 + }, + { + "epoch": 0.195264, + "grad_norm": 0.5678180456161499, + "learning_rate": 1.869824e-05, + "loss": 0.1082, + "step": 30510 + }, + { + "epoch": 0.195296, + "grad_norm": 0.7517141699790955, + "learning_rate": 1.869802666666667e-05, + "loss": 0.0348, + "step": 30515 + }, + { + "epoch": 0.195328, + "grad_norm": 0.6723551750183105, + "learning_rate": 1.8697813333333334e-05, + "loss": 0.1285, + "step": 30520 + }, + { + "epoch": 0.19536, + "grad_norm": 0.8663029074668884, + "learning_rate": 1.8697600000000002e-05, + "loss": 0.0483, + "step": 30525 + }, + { + "epoch": 0.195392, + "grad_norm": 0.6495262980461121, + "learning_rate": 1.869738666666667e-05, + "loss": 0.0618, + "step": 30530 + }, + { + "epoch": 0.195424, + "grad_norm": 0.9453617334365845, + "learning_rate": 1.8697173333333334e-05, + "loss": 0.0737, + "step": 30535 + }, + { + "epoch": 0.195456, + "grad_norm": 1.1609946489334106, + "learning_rate": 1.869696e-05, + "loss": 0.0572, + "step": 30540 + }, + { + "epoch": 0.195488, + "grad_norm": 2.1575071811676025, + "learning_rate": 1.869674666666667e-05, + "loss": 0.0673, + "step": 30545 + }, + { + "epoch": 0.19552, + "grad_norm": 0.38069948554039, + "learning_rate": 1.8696533333333336e-05, + "loss": 0.0748, + "step": 30550 + }, + { + "epoch": 0.195552, + "grad_norm": 1.0938459634780884, + "learning_rate": 1.869632e-05, + "loss": 0.0724, + "step": 30555 + }, + { + "epoch": 0.195584, + "grad_norm": 1.1187084913253784, + "learning_rate": 1.8696106666666668e-05, + "loss": 0.0782, + "step": 30560 + }, + { + "epoch": 0.195616, + "grad_norm": 1.0613808631896973, + "learning_rate": 1.8695893333333336e-05, + "loss": 0.0532, + "step": 30565 + }, + { + "epoch": 0.195648, + "grad_norm": 0.6558733582496643, + "learning_rate": 1.869568e-05, + "loss": 0.0899, + "step": 30570 + }, + { + "epoch": 0.19568, + "grad_norm": 2.029839277267456, + "learning_rate": 1.8695466666666667e-05, + "loss": 0.0927, + "step": 30575 + }, + { + "epoch": 0.195712, + "grad_norm": 0.4963659346103668, + "learning_rate": 1.8695253333333335e-05, + "loss": 0.0732, + "step": 30580 + }, + { + "epoch": 0.195744, + "grad_norm": 0.6364545226097107, + "learning_rate": 1.8695040000000003e-05, + "loss": 0.0458, + "step": 30585 + }, + { + "epoch": 0.195776, + "grad_norm": 0.934640645980835, + "learning_rate": 1.8694826666666667e-05, + "loss": 0.049, + "step": 30590 + }, + { + "epoch": 0.195808, + "grad_norm": 0.9141886234283447, + "learning_rate": 1.8694613333333334e-05, + "loss": 0.088, + "step": 30595 + }, + { + "epoch": 0.19584, + "grad_norm": 0.9290318489074707, + "learning_rate": 1.8694400000000002e-05, + "loss": 0.09, + "step": 30600 + }, + { + "epoch": 0.195872, + "grad_norm": 0.44611498713493347, + "learning_rate": 1.8694186666666666e-05, + "loss": 0.0711, + "step": 30605 + }, + { + "epoch": 0.195904, + "grad_norm": 0.8537507057189941, + "learning_rate": 1.8693973333333334e-05, + "loss": 0.1035, + "step": 30610 + }, + { + "epoch": 0.195936, + "grad_norm": 0.7247503399848938, + "learning_rate": 1.869376e-05, + "loss": 0.0712, + "step": 30615 + }, + { + "epoch": 0.195968, + "grad_norm": 0.8954591155052185, + "learning_rate": 1.869354666666667e-05, + "loss": 0.0664, + "step": 30620 + }, + { + "epoch": 0.196, + "grad_norm": 0.8713160157203674, + "learning_rate": 1.8693333333333333e-05, + "loss": 0.0704, + "step": 30625 + }, + { + "epoch": 0.196032, + "grad_norm": 1.3678972721099854, + "learning_rate": 1.8693120000000004e-05, + "loss": 0.0735, + "step": 30630 + }, + { + "epoch": 0.196064, + "grad_norm": 0.5532981753349304, + "learning_rate": 1.8692906666666668e-05, + "loss": 0.0548, + "step": 30635 + }, + { + "epoch": 0.196096, + "grad_norm": 0.5783208608627319, + "learning_rate": 1.8692693333333335e-05, + "loss": 0.053, + "step": 30640 + }, + { + "epoch": 0.196128, + "grad_norm": 0.6403569579124451, + "learning_rate": 1.8692480000000003e-05, + "loss": 0.0602, + "step": 30645 + }, + { + "epoch": 0.19616, + "grad_norm": 0.8773919343948364, + "learning_rate": 1.8692266666666667e-05, + "loss": 0.0712, + "step": 30650 + }, + { + "epoch": 0.196192, + "grad_norm": 1.0201104879379272, + "learning_rate": 1.8692053333333335e-05, + "loss": 0.0731, + "step": 30655 + }, + { + "epoch": 0.196224, + "grad_norm": 1.0244485139846802, + "learning_rate": 1.8691840000000002e-05, + "loss": 0.0653, + "step": 30660 + }, + { + "epoch": 0.196256, + "grad_norm": 0.7944142818450928, + "learning_rate": 1.869162666666667e-05, + "loss": 0.1165, + "step": 30665 + }, + { + "epoch": 0.196288, + "grad_norm": 0.20723965764045715, + "learning_rate": 1.8691413333333334e-05, + "loss": 0.0718, + "step": 30670 + }, + { + "epoch": 0.19632, + "grad_norm": 0.97840815782547, + "learning_rate": 1.86912e-05, + "loss": 0.0682, + "step": 30675 + }, + { + "epoch": 0.196352, + "grad_norm": 0.7381628155708313, + "learning_rate": 1.869098666666667e-05, + "loss": 0.0544, + "step": 30680 + }, + { + "epoch": 0.196384, + "grad_norm": 0.8776670098304749, + "learning_rate": 1.8690773333333333e-05, + "loss": 0.0768, + "step": 30685 + }, + { + "epoch": 0.196416, + "grad_norm": 0.9453132152557373, + "learning_rate": 1.869056e-05, + "loss": 0.0641, + "step": 30690 + }, + { + "epoch": 0.196448, + "grad_norm": 1.0241731405258179, + "learning_rate": 1.869034666666667e-05, + "loss": 0.0777, + "step": 30695 + }, + { + "epoch": 0.19648, + "grad_norm": 0.633358359336853, + "learning_rate": 1.8690133333333336e-05, + "loss": 0.0608, + "step": 30700 + }, + { + "epoch": 0.196512, + "grad_norm": 6.108067989349365, + "learning_rate": 1.868992e-05, + "loss": 0.0691, + "step": 30705 + }, + { + "epoch": 0.196544, + "grad_norm": 0.6808054447174072, + "learning_rate": 1.8689706666666668e-05, + "loss": 0.0528, + "step": 30710 + }, + { + "epoch": 0.196576, + "grad_norm": 0.5839124917984009, + "learning_rate": 1.8689493333333335e-05, + "loss": 0.0475, + "step": 30715 + }, + { + "epoch": 0.196608, + "grad_norm": 0.8790525197982788, + "learning_rate": 1.868928e-05, + "loss": 0.0833, + "step": 30720 + }, + { + "epoch": 0.19664, + "grad_norm": 0.4777270555496216, + "learning_rate": 1.868906666666667e-05, + "loss": 0.0732, + "step": 30725 + }, + { + "epoch": 0.196672, + "grad_norm": 0.9842364192008972, + "learning_rate": 1.8688853333333334e-05, + "loss": 0.0592, + "step": 30730 + }, + { + "epoch": 0.196704, + "grad_norm": 0.4922086298465729, + "learning_rate": 1.8688640000000002e-05, + "loss": 0.0488, + "step": 30735 + }, + { + "epoch": 0.196736, + "grad_norm": 1.1241432428359985, + "learning_rate": 1.868842666666667e-05, + "loss": 0.0712, + "step": 30740 + }, + { + "epoch": 0.196768, + "grad_norm": 1.0268553495407104, + "learning_rate": 1.8688213333333334e-05, + "loss": 0.0507, + "step": 30745 + }, + { + "epoch": 0.1968, + "grad_norm": 1.2894901037216187, + "learning_rate": 1.8688e-05, + "loss": 0.0614, + "step": 30750 + }, + { + "epoch": 0.196832, + "grad_norm": 2.2716405391693115, + "learning_rate": 1.868778666666667e-05, + "loss": 0.0823, + "step": 30755 + }, + { + "epoch": 0.196864, + "grad_norm": 1.1821094751358032, + "learning_rate": 1.8687573333333336e-05, + "loss": 0.084, + "step": 30760 + }, + { + "epoch": 0.196896, + "grad_norm": 0.3794775903224945, + "learning_rate": 1.868736e-05, + "loss": 0.069, + "step": 30765 + }, + { + "epoch": 0.196928, + "grad_norm": 0.9069995284080505, + "learning_rate": 1.8687146666666668e-05, + "loss": 0.0541, + "step": 30770 + }, + { + "epoch": 0.19696, + "grad_norm": 2.0032217502593994, + "learning_rate": 1.8686933333333336e-05, + "loss": 0.0749, + "step": 30775 + }, + { + "epoch": 0.196992, + "grad_norm": 0.6406182646751404, + "learning_rate": 1.8686720000000003e-05, + "loss": 0.0827, + "step": 30780 + }, + { + "epoch": 0.197024, + "grad_norm": 0.8905153274536133, + "learning_rate": 1.8686506666666667e-05, + "loss": 0.0818, + "step": 30785 + }, + { + "epoch": 0.197056, + "grad_norm": 1.0909770727157593, + "learning_rate": 1.8686293333333335e-05, + "loss": 0.0486, + "step": 30790 + }, + { + "epoch": 0.197088, + "grad_norm": 0.5416555404663086, + "learning_rate": 1.8686080000000003e-05, + "loss": 0.0534, + "step": 30795 + }, + { + "epoch": 0.19712, + "grad_norm": 1.0778559446334839, + "learning_rate": 1.8685866666666667e-05, + "loss": 0.0644, + "step": 30800 + }, + { + "epoch": 0.197152, + "grad_norm": 0.5609413385391235, + "learning_rate": 1.8685653333333334e-05, + "loss": 0.0525, + "step": 30805 + }, + { + "epoch": 0.197184, + "grad_norm": 0.46300849318504333, + "learning_rate": 1.8685440000000002e-05, + "loss": 0.0671, + "step": 30810 + }, + { + "epoch": 0.197216, + "grad_norm": 0.42575034499168396, + "learning_rate": 1.868522666666667e-05, + "loss": 0.0594, + "step": 30815 + }, + { + "epoch": 0.197248, + "grad_norm": 0.25238752365112305, + "learning_rate": 1.8685013333333334e-05, + "loss": 0.0599, + "step": 30820 + }, + { + "epoch": 0.19728, + "grad_norm": 0.844120979309082, + "learning_rate": 1.86848e-05, + "loss": 0.0697, + "step": 30825 + }, + { + "epoch": 0.197312, + "grad_norm": 0.7559294104576111, + "learning_rate": 1.868458666666667e-05, + "loss": 0.0646, + "step": 30830 + }, + { + "epoch": 0.197344, + "grad_norm": 2.4471983909606934, + "learning_rate": 1.8684373333333333e-05, + "loss": 0.0552, + "step": 30835 + }, + { + "epoch": 0.197376, + "grad_norm": 0.6616622805595398, + "learning_rate": 1.8684160000000004e-05, + "loss": 0.0445, + "step": 30840 + }, + { + "epoch": 0.197408, + "grad_norm": 1.7361552715301514, + "learning_rate": 1.8683946666666668e-05, + "loss": 0.0839, + "step": 30845 + }, + { + "epoch": 0.19744, + "grad_norm": 2.851405382156372, + "learning_rate": 1.8683733333333335e-05, + "loss": 0.0712, + "step": 30850 + }, + { + "epoch": 0.197472, + "grad_norm": 1.9272253513336182, + "learning_rate": 1.8683520000000003e-05, + "loss": 0.0773, + "step": 30855 + }, + { + "epoch": 0.197504, + "grad_norm": 1.4262887239456177, + "learning_rate": 1.8683306666666667e-05, + "loss": 0.1058, + "step": 30860 + }, + { + "epoch": 0.197536, + "grad_norm": 0.6644641757011414, + "learning_rate": 1.8683093333333335e-05, + "loss": 0.054, + "step": 30865 + }, + { + "epoch": 0.197568, + "grad_norm": 0.8290741443634033, + "learning_rate": 1.8682880000000002e-05, + "loss": 0.0841, + "step": 30870 + }, + { + "epoch": 0.1976, + "grad_norm": 0.8165510296821594, + "learning_rate": 1.868266666666667e-05, + "loss": 0.061, + "step": 30875 + }, + { + "epoch": 0.197632, + "grad_norm": 0.5856859087944031, + "learning_rate": 1.8682453333333334e-05, + "loss": 0.0666, + "step": 30880 + }, + { + "epoch": 0.197664, + "grad_norm": 0.5627486705780029, + "learning_rate": 1.868224e-05, + "loss": 0.0604, + "step": 30885 + }, + { + "epoch": 0.197696, + "grad_norm": 0.8618512749671936, + "learning_rate": 1.868202666666667e-05, + "loss": 0.0487, + "step": 30890 + }, + { + "epoch": 0.197728, + "grad_norm": 0.535384476184845, + "learning_rate": 1.8681813333333333e-05, + "loss": 0.0857, + "step": 30895 + }, + { + "epoch": 0.19776, + "grad_norm": 0.668595552444458, + "learning_rate": 1.86816e-05, + "loss": 0.0915, + "step": 30900 + }, + { + "epoch": 0.197792, + "grad_norm": 1.0229449272155762, + "learning_rate": 1.868138666666667e-05, + "loss": 0.1068, + "step": 30905 + }, + { + "epoch": 0.197824, + "grad_norm": 0.8332461714744568, + "learning_rate": 1.8681173333333336e-05, + "loss": 0.0662, + "step": 30910 + }, + { + "epoch": 0.197856, + "grad_norm": 0.6111575365066528, + "learning_rate": 1.868096e-05, + "loss": 0.0867, + "step": 30915 + }, + { + "epoch": 0.197888, + "grad_norm": 1.1451051235198975, + "learning_rate": 1.8680746666666668e-05, + "loss": 0.044, + "step": 30920 + }, + { + "epoch": 0.19792, + "grad_norm": 1.2591367959976196, + "learning_rate": 1.8680533333333335e-05, + "loss": 0.0746, + "step": 30925 + }, + { + "epoch": 0.197952, + "grad_norm": 1.7271645069122314, + "learning_rate": 1.868032e-05, + "loss": 0.0661, + "step": 30930 + }, + { + "epoch": 0.197984, + "grad_norm": 0.6488189101219177, + "learning_rate": 1.8680106666666667e-05, + "loss": 0.0468, + "step": 30935 + }, + { + "epoch": 0.198016, + "grad_norm": 0.5971429347991943, + "learning_rate": 1.8679893333333334e-05, + "loss": 0.0671, + "step": 30940 + }, + { + "epoch": 0.198048, + "grad_norm": 0.7617079019546509, + "learning_rate": 1.8679680000000002e-05, + "loss": 0.0631, + "step": 30945 + }, + { + "epoch": 0.19808, + "grad_norm": 1.2447680234909058, + "learning_rate": 1.867946666666667e-05, + "loss": 0.0728, + "step": 30950 + }, + { + "epoch": 0.198112, + "grad_norm": 1.1556944847106934, + "learning_rate": 1.8679253333333337e-05, + "loss": 0.0875, + "step": 30955 + }, + { + "epoch": 0.198144, + "grad_norm": 0.5914197564125061, + "learning_rate": 1.867904e-05, + "loss": 0.0554, + "step": 30960 + }, + { + "epoch": 0.198176, + "grad_norm": 1.1714105606079102, + "learning_rate": 1.867882666666667e-05, + "loss": 0.1064, + "step": 30965 + }, + { + "epoch": 0.198208, + "grad_norm": 1.176908254623413, + "learning_rate": 1.8678613333333336e-05, + "loss": 0.0901, + "step": 30970 + }, + { + "epoch": 0.19824, + "grad_norm": 0.6442533135414124, + "learning_rate": 1.86784e-05, + "loss": 0.0819, + "step": 30975 + }, + { + "epoch": 0.198272, + "grad_norm": 0.5386626720428467, + "learning_rate": 1.8678186666666668e-05, + "loss": 0.0457, + "step": 30980 + }, + { + "epoch": 0.198304, + "grad_norm": 2.5229694843292236, + "learning_rate": 1.8677973333333336e-05, + "loss": 0.061, + "step": 30985 + }, + { + "epoch": 0.198336, + "grad_norm": 0.5119165182113647, + "learning_rate": 1.8677760000000003e-05, + "loss": 0.0718, + "step": 30990 + }, + { + "epoch": 0.198368, + "grad_norm": 0.895387589931488, + "learning_rate": 1.8677546666666667e-05, + "loss": 0.0575, + "step": 30995 + }, + { + "epoch": 0.1984, + "grad_norm": 3.4251465797424316, + "learning_rate": 1.8677333333333335e-05, + "loss": 0.1108, + "step": 31000 + }, + { + "epoch": 0.198432, + "grad_norm": 0.6109212636947632, + "learning_rate": 1.8677120000000003e-05, + "loss": 0.0675, + "step": 31005 + }, + { + "epoch": 0.198464, + "grad_norm": 1.127453088760376, + "learning_rate": 1.8676906666666667e-05, + "loss": 0.0991, + "step": 31010 + }, + { + "epoch": 0.198496, + "grad_norm": 0.7834374308586121, + "learning_rate": 1.8676693333333334e-05, + "loss": 0.0303, + "step": 31015 + }, + { + "epoch": 0.198528, + "grad_norm": 0.8549349308013916, + "learning_rate": 1.8676480000000002e-05, + "loss": 0.0674, + "step": 31020 + }, + { + "epoch": 0.19856, + "grad_norm": 1.1041882038116455, + "learning_rate": 1.867626666666667e-05, + "loss": 0.0692, + "step": 31025 + }, + { + "epoch": 0.198592, + "grad_norm": 1.1440485715866089, + "learning_rate": 1.8676053333333334e-05, + "loss": 0.0505, + "step": 31030 + }, + { + "epoch": 0.198624, + "grad_norm": 1.1335031986236572, + "learning_rate": 1.867584e-05, + "loss": 0.0472, + "step": 31035 + }, + { + "epoch": 0.198656, + "grad_norm": 0.6388855576515198, + "learning_rate": 1.867562666666667e-05, + "loss": 0.0393, + "step": 31040 + }, + { + "epoch": 0.198688, + "grad_norm": 0.845868706703186, + "learning_rate": 1.8675413333333333e-05, + "loss": 0.0485, + "step": 31045 + }, + { + "epoch": 0.19872, + "grad_norm": 1.0646324157714844, + "learning_rate": 1.8675200000000004e-05, + "loss": 0.0929, + "step": 31050 + }, + { + "epoch": 0.198752, + "grad_norm": 0.6490287184715271, + "learning_rate": 1.8674986666666668e-05, + "loss": 0.0956, + "step": 31055 + }, + { + "epoch": 0.198784, + "grad_norm": 0.5735757350921631, + "learning_rate": 1.8674773333333335e-05, + "loss": 0.0727, + "step": 31060 + }, + { + "epoch": 0.198816, + "grad_norm": 0.6604233384132385, + "learning_rate": 1.8674560000000003e-05, + "loss": 0.0733, + "step": 31065 + }, + { + "epoch": 0.198848, + "grad_norm": 0.34041398763656616, + "learning_rate": 1.8674346666666667e-05, + "loss": 0.0962, + "step": 31070 + }, + { + "epoch": 0.19888, + "grad_norm": 0.3488897681236267, + "learning_rate": 1.8674133333333335e-05, + "loss": 0.0415, + "step": 31075 + }, + { + "epoch": 0.198912, + "grad_norm": 0.36323490738868713, + "learning_rate": 1.8673920000000002e-05, + "loss": 0.0496, + "step": 31080 + }, + { + "epoch": 0.198944, + "grad_norm": 0.6759201288223267, + "learning_rate": 1.867370666666667e-05, + "loss": 0.0519, + "step": 31085 + }, + { + "epoch": 0.198976, + "grad_norm": 1.2423667907714844, + "learning_rate": 1.8673493333333334e-05, + "loss": 0.0718, + "step": 31090 + }, + { + "epoch": 0.199008, + "grad_norm": 1.4002243280410767, + "learning_rate": 1.867328e-05, + "loss": 0.0752, + "step": 31095 + }, + { + "epoch": 0.19904, + "grad_norm": 0.5334765911102295, + "learning_rate": 1.867306666666667e-05, + "loss": 0.0744, + "step": 31100 + }, + { + "epoch": 0.199072, + "grad_norm": 0.9313812851905823, + "learning_rate": 1.8672853333333333e-05, + "loss": 0.0623, + "step": 31105 + }, + { + "epoch": 0.199104, + "grad_norm": 1.2729871273040771, + "learning_rate": 1.867264e-05, + "loss": 0.0732, + "step": 31110 + }, + { + "epoch": 0.199136, + "grad_norm": 0.6043180823326111, + "learning_rate": 1.867242666666667e-05, + "loss": 0.0514, + "step": 31115 + }, + { + "epoch": 0.199168, + "grad_norm": 0.42203524708747864, + "learning_rate": 1.8672213333333336e-05, + "loss": 0.0782, + "step": 31120 + }, + { + "epoch": 0.1992, + "grad_norm": 0.9504323601722717, + "learning_rate": 1.8672e-05, + "loss": 0.0838, + "step": 31125 + }, + { + "epoch": 0.199232, + "grad_norm": 0.751017689704895, + "learning_rate": 1.8671786666666668e-05, + "loss": 0.0694, + "step": 31130 + }, + { + "epoch": 0.199264, + "grad_norm": 0.21286353468894958, + "learning_rate": 1.8671573333333335e-05, + "loss": 0.0653, + "step": 31135 + }, + { + "epoch": 0.199296, + "grad_norm": 0.593334972858429, + "learning_rate": 1.867136e-05, + "loss": 0.0636, + "step": 31140 + }, + { + "epoch": 0.199328, + "grad_norm": 0.7194398641586304, + "learning_rate": 1.8671146666666667e-05, + "loss": 0.0657, + "step": 31145 + }, + { + "epoch": 0.19936, + "grad_norm": 0.504816472530365, + "learning_rate": 1.8670933333333335e-05, + "loss": 0.0342, + "step": 31150 + }, + { + "epoch": 0.199392, + "grad_norm": 0.821952760219574, + "learning_rate": 1.8670720000000002e-05, + "loss": 0.0878, + "step": 31155 + }, + { + "epoch": 0.199424, + "grad_norm": 0.3283558487892151, + "learning_rate": 1.8670506666666666e-05, + "loss": 0.0485, + "step": 31160 + }, + { + "epoch": 0.199456, + "grad_norm": 0.9132267236709595, + "learning_rate": 1.8670293333333337e-05, + "loss": 0.046, + "step": 31165 + }, + { + "epoch": 0.199488, + "grad_norm": 0.6021801233291626, + "learning_rate": 1.867008e-05, + "loss": 0.0664, + "step": 31170 + }, + { + "epoch": 0.19952, + "grad_norm": 0.9993462562561035, + "learning_rate": 1.866986666666667e-05, + "loss": 0.0603, + "step": 31175 + }, + { + "epoch": 0.199552, + "grad_norm": 0.8455141186714172, + "learning_rate": 1.8669653333333336e-05, + "loss": 0.0409, + "step": 31180 + }, + { + "epoch": 0.199584, + "grad_norm": 1.0259978771209717, + "learning_rate": 1.866944e-05, + "loss": 0.0796, + "step": 31185 + }, + { + "epoch": 0.199616, + "grad_norm": 0.6232216358184814, + "learning_rate": 1.8669226666666668e-05, + "loss": 0.0847, + "step": 31190 + }, + { + "epoch": 0.199648, + "grad_norm": 0.22050052881240845, + "learning_rate": 1.8669013333333336e-05, + "loss": 0.0542, + "step": 31195 + }, + { + "epoch": 0.19968, + "grad_norm": 0.7245397567749023, + "learning_rate": 1.8668800000000003e-05, + "loss": 0.069, + "step": 31200 + }, + { + "epoch": 0.199712, + "grad_norm": 0.5442522764205933, + "learning_rate": 1.8668586666666667e-05, + "loss": 0.0529, + "step": 31205 + }, + { + "epoch": 0.199744, + "grad_norm": 0.6514368653297424, + "learning_rate": 1.8668373333333335e-05, + "loss": 0.0544, + "step": 31210 + }, + { + "epoch": 0.199776, + "grad_norm": 1.3224117755889893, + "learning_rate": 1.8668160000000003e-05, + "loss": 0.085, + "step": 31215 + }, + { + "epoch": 0.199808, + "grad_norm": 0.409286230802536, + "learning_rate": 1.8667946666666667e-05, + "loss": 0.0481, + "step": 31220 + }, + { + "epoch": 0.19984, + "grad_norm": 1.3696129322052002, + "learning_rate": 1.8667733333333334e-05, + "loss": 0.0689, + "step": 31225 + }, + { + "epoch": 0.199872, + "grad_norm": 0.905036211013794, + "learning_rate": 1.8667520000000002e-05, + "loss": 0.0723, + "step": 31230 + }, + { + "epoch": 0.199904, + "grad_norm": 0.4987866282463074, + "learning_rate": 1.866730666666667e-05, + "loss": 0.0909, + "step": 31235 + }, + { + "epoch": 0.199936, + "grad_norm": 0.46732446551322937, + "learning_rate": 1.8667093333333334e-05, + "loss": 0.0673, + "step": 31240 + }, + { + "epoch": 0.199968, + "grad_norm": 2.268537759780884, + "learning_rate": 1.866688e-05, + "loss": 0.0628, + "step": 31245 + }, + { + "epoch": 0.2, + "grad_norm": 0.405945360660553, + "learning_rate": 1.866666666666667e-05, + "loss": 0.0646, + "step": 31250 + }, + { + "epoch": 0.200032, + "grad_norm": 0.63700932264328, + "learning_rate": 1.8666453333333333e-05, + "loss": 0.0601, + "step": 31255 + }, + { + "epoch": 0.200064, + "grad_norm": 1.2468329668045044, + "learning_rate": 1.8666240000000004e-05, + "loss": 0.0946, + "step": 31260 + }, + { + "epoch": 0.200096, + "grad_norm": 0.5405364632606506, + "learning_rate": 1.8666026666666668e-05, + "loss": 0.0418, + "step": 31265 + }, + { + "epoch": 0.200128, + "grad_norm": 0.6267741918563843, + "learning_rate": 1.8665813333333335e-05, + "loss": 0.0425, + "step": 31270 + }, + { + "epoch": 0.20016, + "grad_norm": 0.6068973541259766, + "learning_rate": 1.8665600000000003e-05, + "loss": 0.048, + "step": 31275 + }, + { + "epoch": 0.200192, + "grad_norm": 0.6338387727737427, + "learning_rate": 1.8665386666666667e-05, + "loss": 0.0546, + "step": 31280 + }, + { + "epoch": 0.200224, + "grad_norm": 0.9210502505302429, + "learning_rate": 1.8665173333333335e-05, + "loss": 0.0879, + "step": 31285 + }, + { + "epoch": 0.200256, + "grad_norm": 0.7566566467285156, + "learning_rate": 1.8664960000000002e-05, + "loss": 0.0623, + "step": 31290 + }, + { + "epoch": 0.200288, + "grad_norm": 0.6151012778282166, + "learning_rate": 1.866474666666667e-05, + "loss": 0.0408, + "step": 31295 + }, + { + "epoch": 0.20032, + "grad_norm": 0.5677979588508606, + "learning_rate": 1.8664533333333334e-05, + "loss": 0.042, + "step": 31300 + }, + { + "epoch": 0.200352, + "grad_norm": 1.716500163078308, + "learning_rate": 1.866432e-05, + "loss": 0.088, + "step": 31305 + }, + { + "epoch": 0.200384, + "grad_norm": 1.0041402578353882, + "learning_rate": 1.866410666666667e-05, + "loss": 0.0898, + "step": 31310 + }, + { + "epoch": 0.200416, + "grad_norm": 0.4584113359451294, + "learning_rate": 1.8663893333333333e-05, + "loss": 0.0435, + "step": 31315 + }, + { + "epoch": 0.200448, + "grad_norm": 1.4342695474624634, + "learning_rate": 1.866368e-05, + "loss": 0.087, + "step": 31320 + }, + { + "epoch": 0.20048, + "grad_norm": 0.570046603679657, + "learning_rate": 1.866346666666667e-05, + "loss": 0.0634, + "step": 31325 + }, + { + "epoch": 0.200512, + "grad_norm": 0.24118177592754364, + "learning_rate": 1.8663253333333336e-05, + "loss": 0.0606, + "step": 31330 + }, + { + "epoch": 0.200544, + "grad_norm": 0.5609991550445557, + "learning_rate": 1.866304e-05, + "loss": 0.0649, + "step": 31335 + }, + { + "epoch": 0.200576, + "grad_norm": 1.11986243724823, + "learning_rate": 1.8662826666666668e-05, + "loss": 0.0815, + "step": 31340 + }, + { + "epoch": 0.200608, + "grad_norm": 0.4190700650215149, + "learning_rate": 1.8662613333333335e-05, + "loss": 0.0663, + "step": 31345 + }, + { + "epoch": 0.20064, + "grad_norm": 1.629308819770813, + "learning_rate": 1.86624e-05, + "loss": 0.0353, + "step": 31350 + }, + { + "epoch": 0.200672, + "grad_norm": 0.5605047345161438, + "learning_rate": 1.8662186666666667e-05, + "loss": 0.0942, + "step": 31355 + }, + { + "epoch": 0.200704, + "grad_norm": 0.9471636414527893, + "learning_rate": 1.8661973333333335e-05, + "loss": 0.1044, + "step": 31360 + }, + { + "epoch": 0.200736, + "grad_norm": 1.134949803352356, + "learning_rate": 1.8661760000000002e-05, + "loss": 0.0579, + "step": 31365 + }, + { + "epoch": 0.200768, + "grad_norm": 0.8478037714958191, + "learning_rate": 1.8661546666666666e-05, + "loss": 0.0681, + "step": 31370 + }, + { + "epoch": 0.2008, + "grad_norm": 1.3067001104354858, + "learning_rate": 1.8661333333333337e-05, + "loss": 0.0808, + "step": 31375 + }, + { + "epoch": 0.200832, + "grad_norm": 0.7778072357177734, + "learning_rate": 1.866112e-05, + "loss": 0.0449, + "step": 31380 + }, + { + "epoch": 0.200864, + "grad_norm": 0.760250985622406, + "learning_rate": 1.8660906666666666e-05, + "loss": 0.0412, + "step": 31385 + }, + { + "epoch": 0.200896, + "grad_norm": 1.3104467391967773, + "learning_rate": 1.8660693333333336e-05, + "loss": 0.0737, + "step": 31390 + }, + { + "epoch": 0.200928, + "grad_norm": 0.8638226389884949, + "learning_rate": 1.866048e-05, + "loss": 0.1083, + "step": 31395 + }, + { + "epoch": 0.20096, + "grad_norm": 0.7272813320159912, + "learning_rate": 1.8660266666666668e-05, + "loss": 0.0634, + "step": 31400 + }, + { + "epoch": 0.200992, + "grad_norm": 0.5833224654197693, + "learning_rate": 1.8660053333333336e-05, + "loss": 0.0848, + "step": 31405 + }, + { + "epoch": 0.201024, + "grad_norm": 0.7101030349731445, + "learning_rate": 1.8659840000000003e-05, + "loss": 0.0728, + "step": 31410 + }, + { + "epoch": 0.201056, + "grad_norm": 0.9797529578208923, + "learning_rate": 1.8659626666666667e-05, + "loss": 0.0602, + "step": 31415 + }, + { + "epoch": 0.201088, + "grad_norm": 0.6744961142539978, + "learning_rate": 1.8659413333333335e-05, + "loss": 0.059, + "step": 31420 + }, + { + "epoch": 0.20112, + "grad_norm": 0.8818472027778625, + "learning_rate": 1.8659200000000003e-05, + "loss": 0.0956, + "step": 31425 + }, + { + "epoch": 0.201152, + "grad_norm": 0.6563231348991394, + "learning_rate": 1.8658986666666667e-05, + "loss": 0.0543, + "step": 31430 + }, + { + "epoch": 0.201184, + "grad_norm": 0.7517828345298767, + "learning_rate": 1.8658773333333334e-05, + "loss": 0.043, + "step": 31435 + }, + { + "epoch": 0.201216, + "grad_norm": 0.7733061909675598, + "learning_rate": 1.8658560000000002e-05, + "loss": 0.0591, + "step": 31440 + }, + { + "epoch": 0.201248, + "grad_norm": 0.6018683910369873, + "learning_rate": 1.865834666666667e-05, + "loss": 0.069, + "step": 31445 + }, + { + "epoch": 0.20128, + "grad_norm": 1.2149949073791504, + "learning_rate": 1.8658133333333334e-05, + "loss": 0.0648, + "step": 31450 + }, + { + "epoch": 0.201312, + "grad_norm": 1.0008622407913208, + "learning_rate": 1.865792e-05, + "loss": 0.0645, + "step": 31455 + }, + { + "epoch": 0.201344, + "grad_norm": 0.4779752790927887, + "learning_rate": 1.865770666666667e-05, + "loss": 0.0768, + "step": 31460 + }, + { + "epoch": 0.201376, + "grad_norm": 0.5222717523574829, + "learning_rate": 1.8657493333333333e-05, + "loss": 0.0591, + "step": 31465 + }, + { + "epoch": 0.201408, + "grad_norm": 0.6548097133636475, + "learning_rate": 1.865728e-05, + "loss": 0.052, + "step": 31470 + }, + { + "epoch": 0.20144, + "grad_norm": 1.6605409383773804, + "learning_rate": 1.8657066666666668e-05, + "loss": 0.096, + "step": 31475 + }, + { + "epoch": 0.201472, + "grad_norm": 0.753247857093811, + "learning_rate": 1.8656853333333335e-05, + "loss": 0.049, + "step": 31480 + }, + { + "epoch": 0.201504, + "grad_norm": 0.5131433606147766, + "learning_rate": 1.8656640000000003e-05, + "loss": 0.0734, + "step": 31485 + }, + { + "epoch": 0.201536, + "grad_norm": 0.4797998368740082, + "learning_rate": 1.8656426666666667e-05, + "loss": 0.0752, + "step": 31490 + }, + { + "epoch": 0.201568, + "grad_norm": 1.3395791053771973, + "learning_rate": 1.8656213333333335e-05, + "loss": 0.0697, + "step": 31495 + }, + { + "epoch": 0.2016, + "grad_norm": 1.0552936792373657, + "learning_rate": 1.8656000000000002e-05, + "loss": 0.0884, + "step": 31500 + }, + { + "epoch": 0.201632, + "grad_norm": 0.9183487296104431, + "learning_rate": 1.865578666666667e-05, + "loss": 0.0579, + "step": 31505 + }, + { + "epoch": 0.201664, + "grad_norm": 0.5268404483795166, + "learning_rate": 1.8655573333333334e-05, + "loss": 0.059, + "step": 31510 + }, + { + "epoch": 0.201696, + "grad_norm": 0.6265766024589539, + "learning_rate": 1.865536e-05, + "loss": 0.0459, + "step": 31515 + }, + { + "epoch": 0.201728, + "grad_norm": 1.0401827096939087, + "learning_rate": 1.865514666666667e-05, + "loss": 0.0582, + "step": 31520 + }, + { + "epoch": 0.20176, + "grad_norm": 0.598904550075531, + "learning_rate": 1.8654933333333333e-05, + "loss": 0.044, + "step": 31525 + }, + { + "epoch": 0.201792, + "grad_norm": 0.5824559330940247, + "learning_rate": 1.865472e-05, + "loss": 0.08, + "step": 31530 + }, + { + "epoch": 0.201824, + "grad_norm": 0.8495755195617676, + "learning_rate": 1.865450666666667e-05, + "loss": 0.0797, + "step": 31535 + }, + { + "epoch": 0.201856, + "grad_norm": 0.719663679599762, + "learning_rate": 1.8654293333333336e-05, + "loss": 0.0553, + "step": 31540 + }, + { + "epoch": 0.201888, + "grad_norm": 0.8745089173316956, + "learning_rate": 1.865408e-05, + "loss": 0.0986, + "step": 31545 + }, + { + "epoch": 0.20192, + "grad_norm": 0.5100749731063843, + "learning_rate": 1.8653866666666668e-05, + "loss": 0.0636, + "step": 31550 + }, + { + "epoch": 0.201952, + "grad_norm": 2.9242618083953857, + "learning_rate": 1.8653653333333335e-05, + "loss": 0.0654, + "step": 31555 + }, + { + "epoch": 0.201984, + "grad_norm": 1.1908597946166992, + "learning_rate": 1.865344e-05, + "loss": 0.0542, + "step": 31560 + }, + { + "epoch": 0.202016, + "grad_norm": 0.72383713722229, + "learning_rate": 1.8653226666666667e-05, + "loss": 0.0472, + "step": 31565 + }, + { + "epoch": 0.202048, + "grad_norm": 1.1077086925506592, + "learning_rate": 1.8653013333333335e-05, + "loss": 0.0791, + "step": 31570 + }, + { + "epoch": 0.20208, + "grad_norm": 1.4357738494873047, + "learning_rate": 1.8652800000000002e-05, + "loss": 0.0702, + "step": 31575 + }, + { + "epoch": 0.202112, + "grad_norm": 0.9265731573104858, + "learning_rate": 1.8652586666666666e-05, + "loss": 0.0554, + "step": 31580 + }, + { + "epoch": 0.202144, + "grad_norm": 0.4541524350643158, + "learning_rate": 1.8652373333333337e-05, + "loss": 0.0548, + "step": 31585 + }, + { + "epoch": 0.202176, + "grad_norm": 0.8847360610961914, + "learning_rate": 1.865216e-05, + "loss": 0.0594, + "step": 31590 + }, + { + "epoch": 0.202208, + "grad_norm": 0.46148550510406494, + "learning_rate": 1.8651946666666666e-05, + "loss": 0.0606, + "step": 31595 + }, + { + "epoch": 0.20224, + "grad_norm": 1.0871751308441162, + "learning_rate": 1.8651733333333336e-05, + "loss": 0.0738, + "step": 31600 + }, + { + "epoch": 0.202272, + "grad_norm": 0.8866326808929443, + "learning_rate": 1.865152e-05, + "loss": 0.0538, + "step": 31605 + }, + { + "epoch": 0.202304, + "grad_norm": 1.2062095403671265, + "learning_rate": 1.8651306666666668e-05, + "loss": 0.0896, + "step": 31610 + }, + { + "epoch": 0.202336, + "grad_norm": 0.3058345317840576, + "learning_rate": 1.8651093333333336e-05, + "loss": 0.0361, + "step": 31615 + }, + { + "epoch": 0.202368, + "grad_norm": 0.8422684669494629, + "learning_rate": 1.8650880000000003e-05, + "loss": 0.0523, + "step": 31620 + }, + { + "epoch": 0.2024, + "grad_norm": 1.1008679866790771, + "learning_rate": 1.8650666666666667e-05, + "loss": 0.1022, + "step": 31625 + }, + { + "epoch": 0.202432, + "grad_norm": 1.149354338645935, + "learning_rate": 1.8650453333333335e-05, + "loss": 0.0833, + "step": 31630 + }, + { + "epoch": 0.202464, + "grad_norm": 1.6213247776031494, + "learning_rate": 1.8650240000000003e-05, + "loss": 0.0863, + "step": 31635 + }, + { + "epoch": 0.202496, + "grad_norm": 0.9342741370201111, + "learning_rate": 1.8650026666666667e-05, + "loss": 0.0572, + "step": 31640 + }, + { + "epoch": 0.202528, + "grad_norm": 1.6636654138565063, + "learning_rate": 1.8649813333333334e-05, + "loss": 0.0993, + "step": 31645 + }, + { + "epoch": 0.20256, + "grad_norm": 0.9875333309173584, + "learning_rate": 1.8649600000000002e-05, + "loss": 0.0679, + "step": 31650 + }, + { + "epoch": 0.202592, + "grad_norm": 1.2447972297668457, + "learning_rate": 1.864938666666667e-05, + "loss": 0.0886, + "step": 31655 + }, + { + "epoch": 0.202624, + "grad_norm": 0.7301216125488281, + "learning_rate": 1.8649173333333334e-05, + "loss": 0.0416, + "step": 31660 + }, + { + "epoch": 0.202656, + "grad_norm": 1.3309541940689087, + "learning_rate": 1.864896e-05, + "loss": 0.0935, + "step": 31665 + }, + { + "epoch": 0.202688, + "grad_norm": 0.6959498524665833, + "learning_rate": 1.864874666666667e-05, + "loss": 0.0348, + "step": 31670 + }, + { + "epoch": 0.20272, + "grad_norm": 0.7690452337265015, + "learning_rate": 1.8648533333333333e-05, + "loss": 0.0799, + "step": 31675 + }, + { + "epoch": 0.202752, + "grad_norm": 0.6893089413642883, + "learning_rate": 1.864832e-05, + "loss": 0.0486, + "step": 31680 + }, + { + "epoch": 0.202784, + "grad_norm": 1.3376376628875732, + "learning_rate": 1.8648106666666668e-05, + "loss": 0.0572, + "step": 31685 + }, + { + "epoch": 0.202816, + "grad_norm": 0.7285064458847046, + "learning_rate": 1.8647893333333335e-05, + "loss": 0.0288, + "step": 31690 + }, + { + "epoch": 0.202848, + "grad_norm": 2.1764421463012695, + "learning_rate": 1.864768e-05, + "loss": 0.0486, + "step": 31695 + }, + { + "epoch": 0.20288, + "grad_norm": 0.761726438999176, + "learning_rate": 1.864746666666667e-05, + "loss": 0.0522, + "step": 31700 + }, + { + "epoch": 0.202912, + "grad_norm": 0.8929960131645203, + "learning_rate": 1.8647253333333335e-05, + "loss": 0.0606, + "step": 31705 + }, + { + "epoch": 0.202944, + "grad_norm": 0.6729002594947815, + "learning_rate": 1.8647040000000002e-05, + "loss": 0.063, + "step": 31710 + }, + { + "epoch": 0.202976, + "grad_norm": 0.9106857776641846, + "learning_rate": 1.864682666666667e-05, + "loss": 0.0501, + "step": 31715 + }, + { + "epoch": 0.203008, + "grad_norm": 0.548708975315094, + "learning_rate": 1.8646613333333334e-05, + "loss": 0.0883, + "step": 31720 + }, + { + "epoch": 0.20304, + "grad_norm": 0.6135234832763672, + "learning_rate": 1.86464e-05, + "loss": 0.0744, + "step": 31725 + }, + { + "epoch": 0.203072, + "grad_norm": 1.2039202451705933, + "learning_rate": 1.864618666666667e-05, + "loss": 0.0652, + "step": 31730 + }, + { + "epoch": 0.203104, + "grad_norm": 1.434387445449829, + "learning_rate": 1.8645973333333337e-05, + "loss": 0.0874, + "step": 31735 + }, + { + "epoch": 0.203136, + "grad_norm": 0.5540319085121155, + "learning_rate": 1.864576e-05, + "loss": 0.0657, + "step": 31740 + }, + { + "epoch": 0.203168, + "grad_norm": 1.256332278251648, + "learning_rate": 1.864554666666667e-05, + "loss": 0.0574, + "step": 31745 + }, + { + "epoch": 0.2032, + "grad_norm": 0.41377460956573486, + "learning_rate": 1.8645333333333336e-05, + "loss": 0.0447, + "step": 31750 + }, + { + "epoch": 0.203232, + "grad_norm": 0.7879400253295898, + "learning_rate": 1.864512e-05, + "loss": 0.0527, + "step": 31755 + }, + { + "epoch": 0.203264, + "grad_norm": 0.6322789192199707, + "learning_rate": 1.8644906666666668e-05, + "loss": 0.0514, + "step": 31760 + }, + { + "epoch": 0.203296, + "grad_norm": 0.8092946410179138, + "learning_rate": 1.8644693333333335e-05, + "loss": 0.0753, + "step": 31765 + }, + { + "epoch": 0.203328, + "grad_norm": 0.5876675844192505, + "learning_rate": 1.8644480000000003e-05, + "loss": 0.0519, + "step": 31770 + }, + { + "epoch": 0.20336, + "grad_norm": 1.2628183364868164, + "learning_rate": 1.8644266666666667e-05, + "loss": 0.091, + "step": 31775 + }, + { + "epoch": 0.203392, + "grad_norm": 1.0446056127548218, + "learning_rate": 1.8644053333333335e-05, + "loss": 0.0819, + "step": 31780 + }, + { + "epoch": 0.203424, + "grad_norm": 0.9788114428520203, + "learning_rate": 1.8643840000000002e-05, + "loss": 0.0871, + "step": 31785 + }, + { + "epoch": 0.203456, + "grad_norm": 0.6996715664863586, + "learning_rate": 1.8643626666666666e-05, + "loss": 0.0628, + "step": 31790 + }, + { + "epoch": 0.203488, + "grad_norm": 0.9745461940765381, + "learning_rate": 1.8643413333333337e-05, + "loss": 0.0463, + "step": 31795 + }, + { + "epoch": 0.20352, + "grad_norm": 1.297491192817688, + "learning_rate": 1.86432e-05, + "loss": 0.0611, + "step": 31800 + }, + { + "epoch": 0.203552, + "grad_norm": 0.8680226802825928, + "learning_rate": 1.864298666666667e-05, + "loss": 0.0424, + "step": 31805 + }, + { + "epoch": 0.203584, + "grad_norm": 0.3924921751022339, + "learning_rate": 1.8642773333333336e-05, + "loss": 0.0944, + "step": 31810 + }, + { + "epoch": 0.203616, + "grad_norm": 1.165932536125183, + "learning_rate": 1.864256e-05, + "loss": 0.0868, + "step": 31815 + }, + { + "epoch": 0.203648, + "grad_norm": 1.1222889423370361, + "learning_rate": 1.8642346666666668e-05, + "loss": 0.0481, + "step": 31820 + }, + { + "epoch": 0.20368, + "grad_norm": 0.7800469994544983, + "learning_rate": 1.8642133333333336e-05, + "loss": 0.0479, + "step": 31825 + }, + { + "epoch": 0.203712, + "grad_norm": 1.12155282497406, + "learning_rate": 1.8641920000000003e-05, + "loss": 0.0753, + "step": 31830 + }, + { + "epoch": 0.203744, + "grad_norm": 0.9188711643218994, + "learning_rate": 1.8641706666666667e-05, + "loss": 0.0403, + "step": 31835 + }, + { + "epoch": 0.203776, + "grad_norm": 0.5928150415420532, + "learning_rate": 1.8641493333333335e-05, + "loss": 0.0524, + "step": 31840 + }, + { + "epoch": 0.203808, + "grad_norm": 0.736568033695221, + "learning_rate": 1.8641280000000003e-05, + "loss": 0.0582, + "step": 31845 + }, + { + "epoch": 0.20384, + "grad_norm": 0.7796260118484497, + "learning_rate": 1.8641066666666667e-05, + "loss": 0.0661, + "step": 31850 + }, + { + "epoch": 0.203872, + "grad_norm": 0.7250210642814636, + "learning_rate": 1.8640853333333334e-05, + "loss": 0.0852, + "step": 31855 + }, + { + "epoch": 0.203904, + "grad_norm": 0.951962947845459, + "learning_rate": 1.8640640000000002e-05, + "loss": 0.0594, + "step": 31860 + }, + { + "epoch": 0.203936, + "grad_norm": 1.5960135459899902, + "learning_rate": 1.864042666666667e-05, + "loss": 0.0884, + "step": 31865 + }, + { + "epoch": 0.203968, + "grad_norm": 0.3015678822994232, + "learning_rate": 1.8640213333333334e-05, + "loss": 0.0573, + "step": 31870 + }, + { + "epoch": 0.204, + "grad_norm": 0.8587766289710999, + "learning_rate": 1.864e-05, + "loss": 0.07, + "step": 31875 + }, + { + "epoch": 0.204032, + "grad_norm": 0.783646821975708, + "learning_rate": 1.863978666666667e-05, + "loss": 0.0651, + "step": 31880 + }, + { + "epoch": 0.204064, + "grad_norm": 0.5514187812805176, + "learning_rate": 1.8639573333333333e-05, + "loss": 0.0432, + "step": 31885 + }, + { + "epoch": 0.204096, + "grad_norm": 0.19991233944892883, + "learning_rate": 1.863936e-05, + "loss": 0.0691, + "step": 31890 + }, + { + "epoch": 0.204128, + "grad_norm": 0.570026159286499, + "learning_rate": 1.8639146666666668e-05, + "loss": 0.0898, + "step": 31895 + }, + { + "epoch": 0.20416, + "grad_norm": 0.8266991376876831, + "learning_rate": 1.8638933333333335e-05, + "loss": 0.0603, + "step": 31900 + }, + { + "epoch": 0.204192, + "grad_norm": 1.892194151878357, + "learning_rate": 1.863872e-05, + "loss": 0.1158, + "step": 31905 + }, + { + "epoch": 0.204224, + "grad_norm": 0.9531850218772888, + "learning_rate": 1.863850666666667e-05, + "loss": 0.0632, + "step": 31910 + }, + { + "epoch": 0.204256, + "grad_norm": 0.9189927577972412, + "learning_rate": 1.8638293333333335e-05, + "loss": 0.0627, + "step": 31915 + }, + { + "epoch": 0.204288, + "grad_norm": 2.115788698196411, + "learning_rate": 1.863808e-05, + "loss": 0.0722, + "step": 31920 + }, + { + "epoch": 0.20432, + "grad_norm": 0.7932195663452148, + "learning_rate": 1.863786666666667e-05, + "loss": 0.0484, + "step": 31925 + }, + { + "epoch": 0.204352, + "grad_norm": 8.751775741577148, + "learning_rate": 1.8637653333333334e-05, + "loss": 0.0972, + "step": 31930 + }, + { + "epoch": 0.204384, + "grad_norm": 0.9697094559669495, + "learning_rate": 1.863744e-05, + "loss": 0.061, + "step": 31935 + }, + { + "epoch": 0.204416, + "grad_norm": 0.7902233004570007, + "learning_rate": 1.863722666666667e-05, + "loss": 0.0762, + "step": 31940 + }, + { + "epoch": 0.204448, + "grad_norm": 0.4023435711860657, + "learning_rate": 1.8637013333333337e-05, + "loss": 0.089, + "step": 31945 + }, + { + "epoch": 0.20448, + "grad_norm": 0.633291482925415, + "learning_rate": 1.86368e-05, + "loss": 0.0551, + "step": 31950 + }, + { + "epoch": 0.204512, + "grad_norm": 0.9140468239784241, + "learning_rate": 1.863658666666667e-05, + "loss": 0.0702, + "step": 31955 + }, + { + "epoch": 0.204544, + "grad_norm": 0.9307716488838196, + "learning_rate": 1.8636373333333336e-05, + "loss": 0.0777, + "step": 31960 + }, + { + "epoch": 0.204576, + "grad_norm": 1.118284821510315, + "learning_rate": 1.863616e-05, + "loss": 0.1075, + "step": 31965 + }, + { + "epoch": 0.204608, + "grad_norm": 0.9636626839637756, + "learning_rate": 1.8635946666666668e-05, + "loss": 0.0621, + "step": 31970 + }, + { + "epoch": 0.20464, + "grad_norm": 0.8242521286010742, + "learning_rate": 1.8635733333333335e-05, + "loss": 0.0598, + "step": 31975 + }, + { + "epoch": 0.204672, + "grad_norm": 0.14490114152431488, + "learning_rate": 1.8635520000000003e-05, + "loss": 0.0505, + "step": 31980 + }, + { + "epoch": 0.204704, + "grad_norm": 1.8206734657287598, + "learning_rate": 1.8635306666666667e-05, + "loss": 0.0723, + "step": 31985 + }, + { + "epoch": 0.204736, + "grad_norm": 0.3153192400932312, + "learning_rate": 1.8635093333333335e-05, + "loss": 0.0472, + "step": 31990 + }, + { + "epoch": 0.204768, + "grad_norm": 3.327051877975464, + "learning_rate": 1.8634880000000002e-05, + "loss": 0.0744, + "step": 31995 + }, + { + "epoch": 0.2048, + "grad_norm": 2.3542308807373047, + "learning_rate": 1.8634666666666666e-05, + "loss": 0.0656, + "step": 32000 + }, + { + "epoch": 0.204832, + "grad_norm": 0.42964431643486023, + "learning_rate": 1.8634453333333337e-05, + "loss": 0.0613, + "step": 32005 + }, + { + "epoch": 0.204864, + "grad_norm": 0.862911581993103, + "learning_rate": 1.863424e-05, + "loss": 0.0967, + "step": 32010 + }, + { + "epoch": 0.204896, + "grad_norm": 1.123637318611145, + "learning_rate": 1.863402666666667e-05, + "loss": 0.0793, + "step": 32015 + }, + { + "epoch": 0.204928, + "grad_norm": 0.44989901781082153, + "learning_rate": 1.8633813333333336e-05, + "loss": 0.0458, + "step": 32020 + }, + { + "epoch": 0.20496, + "grad_norm": 1.2694958448410034, + "learning_rate": 1.86336e-05, + "loss": 0.0726, + "step": 32025 + }, + { + "epoch": 0.204992, + "grad_norm": 0.31312671303749084, + "learning_rate": 1.8633386666666668e-05, + "loss": 0.067, + "step": 32030 + }, + { + "epoch": 0.205024, + "grad_norm": 0.8485270738601685, + "learning_rate": 1.8633173333333336e-05, + "loss": 0.0537, + "step": 32035 + }, + { + "epoch": 0.205056, + "grad_norm": 0.8177501559257507, + "learning_rate": 1.8632960000000003e-05, + "loss": 0.0881, + "step": 32040 + }, + { + "epoch": 0.205088, + "grad_norm": 1.6827499866485596, + "learning_rate": 1.8632746666666667e-05, + "loss": 0.0809, + "step": 32045 + }, + { + "epoch": 0.20512, + "grad_norm": 0.6970888376235962, + "learning_rate": 1.8632533333333335e-05, + "loss": 0.0715, + "step": 32050 + }, + { + "epoch": 0.205152, + "grad_norm": 0.7715008854866028, + "learning_rate": 1.8632320000000003e-05, + "loss": 0.066, + "step": 32055 + }, + { + "epoch": 0.205184, + "grad_norm": 4.62114143371582, + "learning_rate": 1.8632106666666667e-05, + "loss": 0.0527, + "step": 32060 + }, + { + "epoch": 0.205216, + "grad_norm": 0.7978187799453735, + "learning_rate": 1.8631893333333334e-05, + "loss": 0.0527, + "step": 32065 + }, + { + "epoch": 0.205248, + "grad_norm": 1.333804965019226, + "learning_rate": 1.8631680000000002e-05, + "loss": 0.0906, + "step": 32070 + }, + { + "epoch": 0.20528, + "grad_norm": 1.001619577407837, + "learning_rate": 1.863146666666667e-05, + "loss": 0.0494, + "step": 32075 + }, + { + "epoch": 0.205312, + "grad_norm": 1.6327942609786987, + "learning_rate": 1.8631253333333334e-05, + "loss": 0.0857, + "step": 32080 + }, + { + "epoch": 0.205344, + "grad_norm": 0.9564329981803894, + "learning_rate": 1.863104e-05, + "loss": 0.0645, + "step": 32085 + }, + { + "epoch": 0.205376, + "grad_norm": 0.6230449080467224, + "learning_rate": 1.863082666666667e-05, + "loss": 0.0949, + "step": 32090 + }, + { + "epoch": 0.205408, + "grad_norm": 0.7851229310035706, + "learning_rate": 1.8630613333333333e-05, + "loss": 0.0791, + "step": 32095 + }, + { + "epoch": 0.20544, + "grad_norm": 0.8118330240249634, + "learning_rate": 1.86304e-05, + "loss": 0.0562, + "step": 32100 + }, + { + "epoch": 0.205472, + "grad_norm": 0.7259781360626221, + "learning_rate": 1.8630186666666668e-05, + "loss": 0.1108, + "step": 32105 + }, + { + "epoch": 0.205504, + "grad_norm": 0.5527932643890381, + "learning_rate": 1.8629973333333335e-05, + "loss": 0.0493, + "step": 32110 + }, + { + "epoch": 0.205536, + "grad_norm": 1.088409662246704, + "learning_rate": 1.862976e-05, + "loss": 0.0568, + "step": 32115 + }, + { + "epoch": 0.205568, + "grad_norm": 0.6352946162223816, + "learning_rate": 1.862954666666667e-05, + "loss": 0.0694, + "step": 32120 + }, + { + "epoch": 0.2056, + "grad_norm": 1.7791564464569092, + "learning_rate": 1.8629333333333335e-05, + "loss": 0.0908, + "step": 32125 + }, + { + "epoch": 0.205632, + "grad_norm": 0.4322466552257538, + "learning_rate": 1.862912e-05, + "loss": 0.0425, + "step": 32130 + }, + { + "epoch": 0.205664, + "grad_norm": 0.9495923519134521, + "learning_rate": 1.862890666666667e-05, + "loss": 0.0602, + "step": 32135 + }, + { + "epoch": 0.205696, + "grad_norm": 0.6168540120124817, + "learning_rate": 1.8628693333333334e-05, + "loss": 0.0388, + "step": 32140 + }, + { + "epoch": 0.205728, + "grad_norm": 0.5604828000068665, + "learning_rate": 1.862848e-05, + "loss": 0.041, + "step": 32145 + }, + { + "epoch": 0.20576, + "grad_norm": 0.661888837814331, + "learning_rate": 1.862826666666667e-05, + "loss": 0.0486, + "step": 32150 + }, + { + "epoch": 0.205792, + "grad_norm": 0.708284318447113, + "learning_rate": 1.8628053333333337e-05, + "loss": 0.0702, + "step": 32155 + }, + { + "epoch": 0.205824, + "grad_norm": 0.9274369478225708, + "learning_rate": 1.862784e-05, + "loss": 0.0912, + "step": 32160 + }, + { + "epoch": 0.205856, + "grad_norm": 1.6681874990463257, + "learning_rate": 1.862762666666667e-05, + "loss": 0.0617, + "step": 32165 + }, + { + "epoch": 0.205888, + "grad_norm": 0.6222985982894897, + "learning_rate": 1.8627413333333336e-05, + "loss": 0.0823, + "step": 32170 + }, + { + "epoch": 0.20592, + "grad_norm": 0.551615297794342, + "learning_rate": 1.86272e-05, + "loss": 0.0956, + "step": 32175 + }, + { + "epoch": 0.205952, + "grad_norm": 0.8219022154808044, + "learning_rate": 1.8626986666666668e-05, + "loss": 0.066, + "step": 32180 + }, + { + "epoch": 0.205984, + "grad_norm": 0.8538643717765808, + "learning_rate": 1.8626773333333335e-05, + "loss": 0.074, + "step": 32185 + }, + { + "epoch": 0.206016, + "grad_norm": 0.9545273184776306, + "learning_rate": 1.8626560000000003e-05, + "loss": 0.0724, + "step": 32190 + }, + { + "epoch": 0.206048, + "grad_norm": 1.487639307975769, + "learning_rate": 1.8626346666666667e-05, + "loss": 0.0553, + "step": 32195 + }, + { + "epoch": 0.20608, + "grad_norm": 0.8686173558235168, + "learning_rate": 1.8626133333333335e-05, + "loss": 0.0527, + "step": 32200 + }, + { + "epoch": 0.206112, + "grad_norm": 1.8948169946670532, + "learning_rate": 1.8625920000000002e-05, + "loss": 0.1031, + "step": 32205 + }, + { + "epoch": 0.206144, + "grad_norm": 1.1078753471374512, + "learning_rate": 1.8625706666666666e-05, + "loss": 0.0665, + "step": 32210 + }, + { + "epoch": 0.206176, + "grad_norm": 0.8908771276473999, + "learning_rate": 1.8625493333333334e-05, + "loss": 0.0638, + "step": 32215 + }, + { + "epoch": 0.206208, + "grad_norm": 1.361846923828125, + "learning_rate": 1.862528e-05, + "loss": 0.0579, + "step": 32220 + }, + { + "epoch": 0.20624, + "grad_norm": 0.5388741493225098, + "learning_rate": 1.862506666666667e-05, + "loss": 0.0774, + "step": 32225 + }, + { + "epoch": 0.206272, + "grad_norm": 0.4431638717651367, + "learning_rate": 1.8624853333333336e-05, + "loss": 0.0504, + "step": 32230 + }, + { + "epoch": 0.206304, + "grad_norm": 0.673272967338562, + "learning_rate": 1.862464e-05, + "loss": 0.0631, + "step": 32235 + }, + { + "epoch": 0.206336, + "grad_norm": 0.8398301005363464, + "learning_rate": 1.8624426666666668e-05, + "loss": 0.0798, + "step": 32240 + }, + { + "epoch": 0.206368, + "grad_norm": 0.5668120384216309, + "learning_rate": 1.8624213333333336e-05, + "loss": 0.0675, + "step": 32245 + }, + { + "epoch": 0.2064, + "grad_norm": 1.3784615993499756, + "learning_rate": 1.8624000000000003e-05, + "loss": 0.0689, + "step": 32250 + }, + { + "epoch": 0.206432, + "grad_norm": 0.5973677039146423, + "learning_rate": 1.8623786666666667e-05, + "loss": 0.0488, + "step": 32255 + }, + { + "epoch": 0.206464, + "grad_norm": 0.7347044944763184, + "learning_rate": 1.8623573333333335e-05, + "loss": 0.0912, + "step": 32260 + }, + { + "epoch": 0.206496, + "grad_norm": 0.31421637535095215, + "learning_rate": 1.8623360000000003e-05, + "loss": 0.0545, + "step": 32265 + }, + { + "epoch": 0.206528, + "grad_norm": 0.8653407096862793, + "learning_rate": 1.8623146666666667e-05, + "loss": 0.0554, + "step": 32270 + }, + { + "epoch": 0.20656, + "grad_norm": 1.2157593965530396, + "learning_rate": 1.8622933333333334e-05, + "loss": 0.0877, + "step": 32275 + }, + { + "epoch": 0.206592, + "grad_norm": 0.8739213943481445, + "learning_rate": 1.8622720000000002e-05, + "loss": 0.0487, + "step": 32280 + }, + { + "epoch": 0.206624, + "grad_norm": 1.9036391973495483, + "learning_rate": 1.862250666666667e-05, + "loss": 0.0741, + "step": 32285 + }, + { + "epoch": 0.206656, + "grad_norm": 1.378688931465149, + "learning_rate": 1.8622293333333334e-05, + "loss": 0.0705, + "step": 32290 + }, + { + "epoch": 0.206688, + "grad_norm": 1.6446541547775269, + "learning_rate": 1.862208e-05, + "loss": 0.0405, + "step": 32295 + }, + { + "epoch": 0.20672, + "grad_norm": 0.42198047041893005, + "learning_rate": 1.862186666666667e-05, + "loss": 0.0666, + "step": 32300 + }, + { + "epoch": 0.206752, + "grad_norm": 0.36600133776664734, + "learning_rate": 1.8621653333333333e-05, + "loss": 0.0566, + "step": 32305 + }, + { + "epoch": 0.206784, + "grad_norm": 0.3839799761772156, + "learning_rate": 1.862144e-05, + "loss": 0.0477, + "step": 32310 + }, + { + "epoch": 0.206816, + "grad_norm": 0.4860696792602539, + "learning_rate": 1.8621226666666668e-05, + "loss": 0.053, + "step": 32315 + }, + { + "epoch": 0.206848, + "grad_norm": 0.31831133365631104, + "learning_rate": 1.8621013333333335e-05, + "loss": 0.0623, + "step": 32320 + }, + { + "epoch": 0.20688, + "grad_norm": 0.4583723545074463, + "learning_rate": 1.86208e-05, + "loss": 0.0484, + "step": 32325 + }, + { + "epoch": 0.206912, + "grad_norm": 0.9522683620452881, + "learning_rate": 1.862058666666667e-05, + "loss": 0.0619, + "step": 32330 + }, + { + "epoch": 0.206944, + "grad_norm": 1.740805745124817, + "learning_rate": 1.8620373333333335e-05, + "loss": 0.0597, + "step": 32335 + }, + { + "epoch": 0.206976, + "grad_norm": 1.0879640579223633, + "learning_rate": 1.862016e-05, + "loss": 0.1138, + "step": 32340 + }, + { + "epoch": 0.207008, + "grad_norm": 1.7847318649291992, + "learning_rate": 1.861994666666667e-05, + "loss": 0.0656, + "step": 32345 + }, + { + "epoch": 0.20704, + "grad_norm": 0.4567979574203491, + "learning_rate": 1.8619733333333334e-05, + "loss": 0.0801, + "step": 32350 + }, + { + "epoch": 0.207072, + "grad_norm": 0.6596596837043762, + "learning_rate": 1.861952e-05, + "loss": 0.058, + "step": 32355 + }, + { + "epoch": 0.207104, + "grad_norm": 2.0161478519439697, + "learning_rate": 1.861930666666667e-05, + "loss": 0.099, + "step": 32360 + }, + { + "epoch": 0.207136, + "grad_norm": 0.7974885106086731, + "learning_rate": 1.8619093333333337e-05, + "loss": 0.0691, + "step": 32365 + }, + { + "epoch": 0.207168, + "grad_norm": 0.3835785984992981, + "learning_rate": 1.861888e-05, + "loss": 0.0375, + "step": 32370 + }, + { + "epoch": 0.2072, + "grad_norm": 0.8839564919471741, + "learning_rate": 1.861866666666667e-05, + "loss": 0.0578, + "step": 32375 + }, + { + "epoch": 0.207232, + "grad_norm": 1.0081970691680908, + "learning_rate": 1.8618453333333336e-05, + "loss": 0.0664, + "step": 32380 + }, + { + "epoch": 0.207264, + "grad_norm": 2.274444103240967, + "learning_rate": 1.861824e-05, + "loss": 0.0798, + "step": 32385 + }, + { + "epoch": 0.207296, + "grad_norm": 0.5153372287750244, + "learning_rate": 1.8618026666666668e-05, + "loss": 0.0545, + "step": 32390 + }, + { + "epoch": 0.207328, + "grad_norm": 0.6003587245941162, + "learning_rate": 1.8617813333333335e-05, + "loss": 0.0403, + "step": 32395 + }, + { + "epoch": 0.20736, + "grad_norm": 0.6683100461959839, + "learning_rate": 1.8617600000000003e-05, + "loss": 0.0957, + "step": 32400 + }, + { + "epoch": 0.207392, + "grad_norm": 1.157199501991272, + "learning_rate": 1.8617386666666667e-05, + "loss": 0.0602, + "step": 32405 + }, + { + "epoch": 0.207424, + "grad_norm": 0.7050336003303528, + "learning_rate": 1.8617173333333335e-05, + "loss": 0.0784, + "step": 32410 + }, + { + "epoch": 0.207456, + "grad_norm": 0.5530083775520325, + "learning_rate": 1.8616960000000002e-05, + "loss": 0.0482, + "step": 32415 + }, + { + "epoch": 0.207488, + "grad_norm": 0.7394365668296814, + "learning_rate": 1.8616746666666666e-05, + "loss": 0.0737, + "step": 32420 + }, + { + "epoch": 0.20752, + "grad_norm": 0.8754170536994934, + "learning_rate": 1.8616533333333334e-05, + "loss": 0.0632, + "step": 32425 + }, + { + "epoch": 0.207552, + "grad_norm": 0.3201698958873749, + "learning_rate": 1.861632e-05, + "loss": 0.0797, + "step": 32430 + }, + { + "epoch": 0.207584, + "grad_norm": 0.7035073041915894, + "learning_rate": 1.861610666666667e-05, + "loss": 0.0666, + "step": 32435 + }, + { + "epoch": 0.207616, + "grad_norm": 1.4190490245819092, + "learning_rate": 1.8615893333333333e-05, + "loss": 0.0496, + "step": 32440 + }, + { + "epoch": 0.207648, + "grad_norm": 0.7672295570373535, + "learning_rate": 1.861568e-05, + "loss": 0.0666, + "step": 32445 + }, + { + "epoch": 0.20768, + "grad_norm": 0.7741474509239197, + "learning_rate": 1.8615466666666668e-05, + "loss": 0.0654, + "step": 32450 + }, + { + "epoch": 0.207712, + "grad_norm": 0.6893045902252197, + "learning_rate": 1.8615253333333336e-05, + "loss": 0.0412, + "step": 32455 + }, + { + "epoch": 0.207744, + "grad_norm": 0.8211466073989868, + "learning_rate": 1.8615040000000003e-05, + "loss": 0.0667, + "step": 32460 + }, + { + "epoch": 0.207776, + "grad_norm": 1.0969984531402588, + "learning_rate": 1.8614826666666667e-05, + "loss": 0.0718, + "step": 32465 + }, + { + "epoch": 0.207808, + "grad_norm": 1.2679260969161987, + "learning_rate": 1.8614613333333335e-05, + "loss": 0.0576, + "step": 32470 + }, + { + "epoch": 0.20784, + "grad_norm": 1.5607601404190063, + "learning_rate": 1.8614400000000003e-05, + "loss": 0.0827, + "step": 32475 + }, + { + "epoch": 0.207872, + "grad_norm": 0.5078591108322144, + "learning_rate": 1.861418666666667e-05, + "loss": 0.1059, + "step": 32480 + }, + { + "epoch": 0.207904, + "grad_norm": 0.5448830723762512, + "learning_rate": 1.8613973333333334e-05, + "loss": 0.0677, + "step": 32485 + }, + { + "epoch": 0.207936, + "grad_norm": 0.4744459390640259, + "learning_rate": 1.8613760000000002e-05, + "loss": 0.055, + "step": 32490 + }, + { + "epoch": 0.207968, + "grad_norm": 0.8560283780097961, + "learning_rate": 1.861354666666667e-05, + "loss": 0.0884, + "step": 32495 + }, + { + "epoch": 0.208, + "grad_norm": 0.47589269280433655, + "learning_rate": 1.8613333333333334e-05, + "loss": 0.0572, + "step": 32500 + }, + { + "epoch": 0.208032, + "grad_norm": 0.7498196363449097, + "learning_rate": 1.861312e-05, + "loss": 0.0586, + "step": 32505 + }, + { + "epoch": 0.208064, + "grad_norm": 0.5706783533096313, + "learning_rate": 1.861290666666667e-05, + "loss": 0.0743, + "step": 32510 + }, + { + "epoch": 0.208096, + "grad_norm": 0.5252224206924438, + "learning_rate": 1.8612693333333336e-05, + "loss": 0.0536, + "step": 32515 + }, + { + "epoch": 0.208128, + "grad_norm": 0.7064864039421082, + "learning_rate": 1.861248e-05, + "loss": 0.0618, + "step": 32520 + }, + { + "epoch": 0.20816, + "grad_norm": 0.7178502678871155, + "learning_rate": 1.8612266666666668e-05, + "loss": 0.0668, + "step": 32525 + }, + { + "epoch": 0.208192, + "grad_norm": 0.9029119610786438, + "learning_rate": 1.8612053333333336e-05, + "loss": 0.0506, + "step": 32530 + }, + { + "epoch": 0.208224, + "grad_norm": 1.440065860748291, + "learning_rate": 1.861184e-05, + "loss": 0.0841, + "step": 32535 + }, + { + "epoch": 0.208256, + "grad_norm": 0.5180948376655579, + "learning_rate": 1.861162666666667e-05, + "loss": 0.0582, + "step": 32540 + }, + { + "epoch": 0.208288, + "grad_norm": 0.6500795483589172, + "learning_rate": 1.8611413333333335e-05, + "loss": 0.0643, + "step": 32545 + }, + { + "epoch": 0.20832, + "grad_norm": 0.7364712953567505, + "learning_rate": 1.8611200000000002e-05, + "loss": 0.0666, + "step": 32550 + }, + { + "epoch": 0.208352, + "grad_norm": 1.168204665184021, + "learning_rate": 1.861098666666667e-05, + "loss": 0.074, + "step": 32555 + }, + { + "epoch": 0.208384, + "grad_norm": 0.4552442729473114, + "learning_rate": 1.8610773333333334e-05, + "loss": 0.0398, + "step": 32560 + }, + { + "epoch": 0.208416, + "grad_norm": 2.019908905029297, + "learning_rate": 1.861056e-05, + "loss": 0.06, + "step": 32565 + }, + { + "epoch": 0.208448, + "grad_norm": 1.6236741542816162, + "learning_rate": 1.861034666666667e-05, + "loss": 0.0792, + "step": 32570 + }, + { + "epoch": 0.20848, + "grad_norm": 0.885107159614563, + "learning_rate": 1.8610133333333337e-05, + "loss": 0.0559, + "step": 32575 + }, + { + "epoch": 0.208512, + "grad_norm": 0.8515350818634033, + "learning_rate": 1.860992e-05, + "loss": 0.0656, + "step": 32580 + }, + { + "epoch": 0.208544, + "grad_norm": 2.027224540710449, + "learning_rate": 1.860970666666667e-05, + "loss": 0.0563, + "step": 32585 + }, + { + "epoch": 0.208576, + "grad_norm": 0.4657341539859772, + "learning_rate": 1.8609493333333336e-05, + "loss": 0.0779, + "step": 32590 + }, + { + "epoch": 0.208608, + "grad_norm": 0.7524310946464539, + "learning_rate": 1.860928e-05, + "loss": 0.0891, + "step": 32595 + }, + { + "epoch": 0.20864, + "grad_norm": 1.1081151962280273, + "learning_rate": 1.8609066666666668e-05, + "loss": 0.089, + "step": 32600 + }, + { + "epoch": 0.208672, + "grad_norm": 1.0681724548339844, + "learning_rate": 1.8608853333333335e-05, + "loss": 0.0783, + "step": 32605 + }, + { + "epoch": 0.208704, + "grad_norm": 0.6173509955406189, + "learning_rate": 1.8608640000000003e-05, + "loss": 0.059, + "step": 32610 + }, + { + "epoch": 0.208736, + "grad_norm": 2.128166437149048, + "learning_rate": 1.8608426666666667e-05, + "loss": 0.0763, + "step": 32615 + }, + { + "epoch": 0.208768, + "grad_norm": 3.5823843479156494, + "learning_rate": 1.8608213333333335e-05, + "loss": 0.0662, + "step": 32620 + }, + { + "epoch": 0.2088, + "grad_norm": 1.575068473815918, + "learning_rate": 1.8608000000000002e-05, + "loss": 0.0869, + "step": 32625 + }, + { + "epoch": 0.208832, + "grad_norm": 0.8224306106567383, + "learning_rate": 1.8607786666666666e-05, + "loss": 0.0572, + "step": 32630 + }, + { + "epoch": 0.208864, + "grad_norm": 0.8513212203979492, + "learning_rate": 1.8607573333333334e-05, + "loss": 0.0638, + "step": 32635 + }, + { + "epoch": 0.208896, + "grad_norm": 1.3052833080291748, + "learning_rate": 1.860736e-05, + "loss": 0.0713, + "step": 32640 + }, + { + "epoch": 0.208928, + "grad_norm": 0.7886834144592285, + "learning_rate": 1.860714666666667e-05, + "loss": 0.0603, + "step": 32645 + }, + { + "epoch": 0.20896, + "grad_norm": 1.0634088516235352, + "learning_rate": 1.8606933333333333e-05, + "loss": 0.0594, + "step": 32650 + }, + { + "epoch": 0.208992, + "grad_norm": 0.631790280342102, + "learning_rate": 1.8606720000000004e-05, + "loss": 0.0539, + "step": 32655 + }, + { + "epoch": 0.209024, + "grad_norm": 0.4534769654273987, + "learning_rate": 1.8606506666666668e-05, + "loss": 0.0738, + "step": 32660 + }, + { + "epoch": 0.209056, + "grad_norm": 0.7635747194290161, + "learning_rate": 1.8606293333333332e-05, + "loss": 0.0459, + "step": 32665 + }, + { + "epoch": 0.209088, + "grad_norm": 0.716134786605835, + "learning_rate": 1.8606080000000003e-05, + "loss": 0.0723, + "step": 32670 + }, + { + "epoch": 0.20912, + "grad_norm": 0.38774359226226807, + "learning_rate": 1.8605866666666667e-05, + "loss": 0.0797, + "step": 32675 + }, + { + "epoch": 0.209152, + "grad_norm": 1.3755496740341187, + "learning_rate": 1.8605653333333335e-05, + "loss": 0.0733, + "step": 32680 + }, + { + "epoch": 0.209184, + "grad_norm": 1.2201578617095947, + "learning_rate": 1.8605440000000003e-05, + "loss": 0.0771, + "step": 32685 + }, + { + "epoch": 0.209216, + "grad_norm": 0.9901043176651001, + "learning_rate": 1.860522666666667e-05, + "loss": 0.0661, + "step": 32690 + }, + { + "epoch": 0.209248, + "grad_norm": 2.534621000289917, + "learning_rate": 1.8605013333333334e-05, + "loss": 0.0542, + "step": 32695 + }, + { + "epoch": 0.20928, + "grad_norm": 0.6112549901008606, + "learning_rate": 1.8604800000000002e-05, + "loss": 0.074, + "step": 32700 + }, + { + "epoch": 0.209312, + "grad_norm": 0.573091983795166, + "learning_rate": 1.860458666666667e-05, + "loss": 0.0557, + "step": 32705 + }, + { + "epoch": 0.209344, + "grad_norm": 0.6493924856185913, + "learning_rate": 1.8604373333333334e-05, + "loss": 0.1002, + "step": 32710 + }, + { + "epoch": 0.209376, + "grad_norm": 0.4123806655406952, + "learning_rate": 1.860416e-05, + "loss": 0.063, + "step": 32715 + }, + { + "epoch": 0.209408, + "grad_norm": 0.5250429511070251, + "learning_rate": 1.860394666666667e-05, + "loss": 0.0782, + "step": 32720 + }, + { + "epoch": 0.20944, + "grad_norm": 0.5218948721885681, + "learning_rate": 1.8603733333333336e-05, + "loss": 0.0888, + "step": 32725 + }, + { + "epoch": 0.209472, + "grad_norm": 0.6004189848899841, + "learning_rate": 1.860352e-05, + "loss": 0.0686, + "step": 32730 + }, + { + "epoch": 0.209504, + "grad_norm": 0.8437333703041077, + "learning_rate": 1.8603306666666668e-05, + "loss": 0.0624, + "step": 32735 + }, + { + "epoch": 0.209536, + "grad_norm": 1.3174293041229248, + "learning_rate": 1.8603093333333336e-05, + "loss": 0.0702, + "step": 32740 + }, + { + "epoch": 0.209568, + "grad_norm": 1.7364751100540161, + "learning_rate": 1.860288e-05, + "loss": 0.0865, + "step": 32745 + }, + { + "epoch": 0.2096, + "grad_norm": 0.845198929309845, + "learning_rate": 1.8602666666666667e-05, + "loss": 0.0426, + "step": 32750 + }, + { + "epoch": 0.209632, + "grad_norm": 0.6774147152900696, + "learning_rate": 1.8602453333333335e-05, + "loss": 0.0509, + "step": 32755 + }, + { + "epoch": 0.209664, + "grad_norm": 0.7724084258079529, + "learning_rate": 1.8602240000000002e-05, + "loss": 0.0656, + "step": 32760 + }, + { + "epoch": 0.209696, + "grad_norm": 0.6009702086448669, + "learning_rate": 1.860202666666667e-05, + "loss": 0.0431, + "step": 32765 + }, + { + "epoch": 0.209728, + "grad_norm": 0.4952661097049713, + "learning_rate": 1.8601813333333334e-05, + "loss": 0.086, + "step": 32770 + }, + { + "epoch": 0.20976, + "grad_norm": 1.3661566972732544, + "learning_rate": 1.86016e-05, + "loss": 0.0601, + "step": 32775 + }, + { + "epoch": 0.209792, + "grad_norm": 0.2159034013748169, + "learning_rate": 1.860138666666667e-05, + "loss": 0.038, + "step": 32780 + }, + { + "epoch": 0.209824, + "grad_norm": 1.021155834197998, + "learning_rate": 1.8601173333333337e-05, + "loss": 0.0915, + "step": 32785 + }, + { + "epoch": 0.209856, + "grad_norm": 0.9135885238647461, + "learning_rate": 1.860096e-05, + "loss": 0.0572, + "step": 32790 + }, + { + "epoch": 0.209888, + "grad_norm": 1.0571333169937134, + "learning_rate": 1.860074666666667e-05, + "loss": 0.0621, + "step": 32795 + }, + { + "epoch": 0.20992, + "grad_norm": 1.2889302968978882, + "learning_rate": 1.8600533333333336e-05, + "loss": 0.0809, + "step": 32800 + }, + { + "epoch": 0.209952, + "grad_norm": 1.3273206949234009, + "learning_rate": 1.860032e-05, + "loss": 0.0607, + "step": 32805 + }, + { + "epoch": 0.209984, + "grad_norm": 0.6080804467201233, + "learning_rate": 1.8600106666666668e-05, + "loss": 0.0618, + "step": 32810 + }, + { + "epoch": 0.210016, + "grad_norm": 0.5031158328056335, + "learning_rate": 1.8599893333333335e-05, + "loss": 0.0455, + "step": 32815 + }, + { + "epoch": 0.210048, + "grad_norm": 0.7168058753013611, + "learning_rate": 1.8599680000000003e-05, + "loss": 0.0575, + "step": 32820 + }, + { + "epoch": 0.21008, + "grad_norm": 1.2542152404785156, + "learning_rate": 1.8599466666666667e-05, + "loss": 0.0528, + "step": 32825 + }, + { + "epoch": 0.210112, + "grad_norm": 1.0559693574905396, + "learning_rate": 1.8599253333333335e-05, + "loss": 0.112, + "step": 32830 + }, + { + "epoch": 0.210144, + "grad_norm": 0.23952654004096985, + "learning_rate": 1.8599040000000002e-05, + "loss": 0.0787, + "step": 32835 + }, + { + "epoch": 0.210176, + "grad_norm": 2.112278938293457, + "learning_rate": 1.8598826666666666e-05, + "loss": 0.0597, + "step": 32840 + }, + { + "epoch": 0.210208, + "grad_norm": 0.5091857314109802, + "learning_rate": 1.8598613333333334e-05, + "loss": 0.074, + "step": 32845 + }, + { + "epoch": 0.21024, + "grad_norm": 0.7917532324790955, + "learning_rate": 1.85984e-05, + "loss": 0.0453, + "step": 32850 + }, + { + "epoch": 0.210272, + "grad_norm": 1.38578462600708, + "learning_rate": 1.859818666666667e-05, + "loss": 0.088, + "step": 32855 + }, + { + "epoch": 0.210304, + "grad_norm": 1.075671672821045, + "learning_rate": 1.8597973333333333e-05, + "loss": 0.0639, + "step": 32860 + }, + { + "epoch": 0.210336, + "grad_norm": 0.8247308731079102, + "learning_rate": 1.8597760000000004e-05, + "loss": 0.0509, + "step": 32865 + }, + { + "epoch": 0.210368, + "grad_norm": 0.6723119616508484, + "learning_rate": 1.8597546666666668e-05, + "loss": 0.068, + "step": 32870 + }, + { + "epoch": 0.2104, + "grad_norm": 0.7504411935806274, + "learning_rate": 1.8597333333333332e-05, + "loss": 0.0781, + "step": 32875 + }, + { + "epoch": 0.210432, + "grad_norm": 1.372538685798645, + "learning_rate": 1.8597120000000003e-05, + "loss": 0.0644, + "step": 32880 + }, + { + "epoch": 0.210464, + "grad_norm": 0.3289129436016083, + "learning_rate": 1.8596906666666667e-05, + "loss": 0.0696, + "step": 32885 + }, + { + "epoch": 0.210496, + "grad_norm": 0.5491334795951843, + "learning_rate": 1.8596693333333335e-05, + "loss": 0.0537, + "step": 32890 + }, + { + "epoch": 0.210528, + "grad_norm": 0.43094366788864136, + "learning_rate": 1.8596480000000003e-05, + "loss": 0.0489, + "step": 32895 + }, + { + "epoch": 0.21056, + "grad_norm": 3.0741701126098633, + "learning_rate": 1.859626666666667e-05, + "loss": 0.0603, + "step": 32900 + }, + { + "epoch": 0.210592, + "grad_norm": 1.9219896793365479, + "learning_rate": 1.8596053333333334e-05, + "loss": 0.0834, + "step": 32905 + }, + { + "epoch": 0.210624, + "grad_norm": 0.8819135427474976, + "learning_rate": 1.8595840000000002e-05, + "loss": 0.0811, + "step": 32910 + }, + { + "epoch": 0.210656, + "grad_norm": 0.8629421591758728, + "learning_rate": 1.859562666666667e-05, + "loss": 0.0592, + "step": 32915 + }, + { + "epoch": 0.210688, + "grad_norm": 0.81217360496521, + "learning_rate": 1.8595413333333334e-05, + "loss": 0.0689, + "step": 32920 + }, + { + "epoch": 0.21072, + "grad_norm": 0.4259878695011139, + "learning_rate": 1.85952e-05, + "loss": 0.0429, + "step": 32925 + }, + { + "epoch": 0.210752, + "grad_norm": 0.9192120432853699, + "learning_rate": 1.859498666666667e-05, + "loss": 0.062, + "step": 32930 + }, + { + "epoch": 0.210784, + "grad_norm": 1.368174433708191, + "learning_rate": 1.8594773333333336e-05, + "loss": 0.0542, + "step": 32935 + }, + { + "epoch": 0.210816, + "grad_norm": 0.4902030825614929, + "learning_rate": 1.859456e-05, + "loss": 0.0493, + "step": 32940 + }, + { + "epoch": 0.210848, + "grad_norm": 0.5203835368156433, + "learning_rate": 1.8594346666666668e-05, + "loss": 0.0515, + "step": 32945 + }, + { + "epoch": 0.21088, + "grad_norm": 0.5932891964912415, + "learning_rate": 1.8594133333333336e-05, + "loss": 0.0564, + "step": 32950 + }, + { + "epoch": 0.210912, + "grad_norm": 0.4847118556499481, + "learning_rate": 1.859392e-05, + "loss": 0.076, + "step": 32955 + }, + { + "epoch": 0.210944, + "grad_norm": 1.2731618881225586, + "learning_rate": 1.8593706666666667e-05, + "loss": 0.0713, + "step": 32960 + }, + { + "epoch": 0.210976, + "grad_norm": 0.876453161239624, + "learning_rate": 1.8593493333333335e-05, + "loss": 0.055, + "step": 32965 + }, + { + "epoch": 0.211008, + "grad_norm": 1.9494274854660034, + "learning_rate": 1.8593280000000002e-05, + "loss": 0.0779, + "step": 32970 + }, + { + "epoch": 0.21104, + "grad_norm": 1.6566473245620728, + "learning_rate": 1.8593066666666667e-05, + "loss": 0.0548, + "step": 32975 + }, + { + "epoch": 0.211072, + "grad_norm": 0.8629732728004456, + "learning_rate": 1.8592853333333334e-05, + "loss": 0.0806, + "step": 32980 + }, + { + "epoch": 0.211104, + "grad_norm": 0.4279082119464874, + "learning_rate": 1.859264e-05, + "loss": 0.0746, + "step": 32985 + }, + { + "epoch": 0.211136, + "grad_norm": 1.5852984189987183, + "learning_rate": 1.859242666666667e-05, + "loss": 0.1058, + "step": 32990 + }, + { + "epoch": 0.211168, + "grad_norm": 4.382099628448486, + "learning_rate": 1.8592213333333337e-05, + "loss": 0.0596, + "step": 32995 + }, + { + "epoch": 0.2112, + "grad_norm": 1.0304162502288818, + "learning_rate": 1.8592e-05, + "loss": 0.0939, + "step": 33000 + }, + { + "epoch": 0.211232, + "grad_norm": 0.48032137751579285, + "learning_rate": 1.859178666666667e-05, + "loss": 0.0531, + "step": 33005 + }, + { + "epoch": 0.211264, + "grad_norm": 0.6843695640563965, + "learning_rate": 1.8591573333333336e-05, + "loss": 0.0526, + "step": 33010 + }, + { + "epoch": 0.211296, + "grad_norm": 1.6231352090835571, + "learning_rate": 1.859136e-05, + "loss": 0.0625, + "step": 33015 + }, + { + "epoch": 0.211328, + "grad_norm": 1.6408652067184448, + "learning_rate": 1.8591146666666668e-05, + "loss": 0.0777, + "step": 33020 + }, + { + "epoch": 0.21136, + "grad_norm": 0.660851776599884, + "learning_rate": 1.8590933333333335e-05, + "loss": 0.0482, + "step": 33025 + }, + { + "epoch": 0.211392, + "grad_norm": 1.3153377771377563, + "learning_rate": 1.8590720000000003e-05, + "loss": 0.0689, + "step": 33030 + }, + { + "epoch": 0.211424, + "grad_norm": 0.8402776718139648, + "learning_rate": 1.8590506666666667e-05, + "loss": 0.0475, + "step": 33035 + }, + { + "epoch": 0.211456, + "grad_norm": 0.9762380123138428, + "learning_rate": 1.8590293333333335e-05, + "loss": 0.0644, + "step": 33040 + }, + { + "epoch": 0.211488, + "grad_norm": 0.9818191528320312, + "learning_rate": 1.8590080000000002e-05, + "loss": 0.0408, + "step": 33045 + }, + { + "epoch": 0.21152, + "grad_norm": 1.3020192384719849, + "learning_rate": 1.8589866666666666e-05, + "loss": 0.0744, + "step": 33050 + }, + { + "epoch": 0.211552, + "grad_norm": 4.187436103820801, + "learning_rate": 1.8589653333333334e-05, + "loss": 0.1182, + "step": 33055 + }, + { + "epoch": 0.211584, + "grad_norm": 1.1889190673828125, + "learning_rate": 1.858944e-05, + "loss": 0.0703, + "step": 33060 + }, + { + "epoch": 0.211616, + "grad_norm": 1.4674333333969116, + "learning_rate": 1.858922666666667e-05, + "loss": 0.0732, + "step": 33065 + }, + { + "epoch": 0.211648, + "grad_norm": 0.7320592403411865, + "learning_rate": 1.8589013333333333e-05, + "loss": 0.0539, + "step": 33070 + }, + { + "epoch": 0.21168, + "grad_norm": 0.7175710201263428, + "learning_rate": 1.8588800000000004e-05, + "loss": 0.0908, + "step": 33075 + }, + { + "epoch": 0.211712, + "grad_norm": 0.6195038557052612, + "learning_rate": 1.8588586666666668e-05, + "loss": 0.0521, + "step": 33080 + }, + { + "epoch": 0.211744, + "grad_norm": 0.45184677839279175, + "learning_rate": 1.8588373333333332e-05, + "loss": 0.0449, + "step": 33085 + }, + { + "epoch": 0.211776, + "grad_norm": 0.7526200413703918, + "learning_rate": 1.8588160000000003e-05, + "loss": 0.0578, + "step": 33090 + }, + { + "epoch": 0.211808, + "grad_norm": 1.1646648645401, + "learning_rate": 1.8587946666666667e-05, + "loss": 0.0664, + "step": 33095 + }, + { + "epoch": 0.21184, + "grad_norm": 1.4985711574554443, + "learning_rate": 1.8587733333333335e-05, + "loss": 0.0799, + "step": 33100 + }, + { + "epoch": 0.211872, + "grad_norm": 0.8622305989265442, + "learning_rate": 1.8587520000000003e-05, + "loss": 0.052, + "step": 33105 + }, + { + "epoch": 0.211904, + "grad_norm": 0.75845867395401, + "learning_rate": 1.858730666666667e-05, + "loss": 0.0577, + "step": 33110 + }, + { + "epoch": 0.211936, + "grad_norm": 0.5097707509994507, + "learning_rate": 1.8587093333333334e-05, + "loss": 0.0395, + "step": 33115 + }, + { + "epoch": 0.211968, + "grad_norm": 1.3838883638381958, + "learning_rate": 1.8586880000000002e-05, + "loss": 0.0581, + "step": 33120 + }, + { + "epoch": 0.212, + "grad_norm": 0.7802982926368713, + "learning_rate": 1.858666666666667e-05, + "loss": 0.0645, + "step": 33125 + }, + { + "epoch": 0.212032, + "grad_norm": 1.459268569946289, + "learning_rate": 1.8586453333333334e-05, + "loss": 0.0837, + "step": 33130 + }, + { + "epoch": 0.212064, + "grad_norm": 0.5715023875236511, + "learning_rate": 1.858624e-05, + "loss": 0.0481, + "step": 33135 + }, + { + "epoch": 0.212096, + "grad_norm": 1.1308324337005615, + "learning_rate": 1.858602666666667e-05, + "loss": 0.0577, + "step": 33140 + }, + { + "epoch": 0.212128, + "grad_norm": 1.1230543851852417, + "learning_rate": 1.8585813333333336e-05, + "loss": 0.0301, + "step": 33145 + }, + { + "epoch": 0.21216, + "grad_norm": 1.1766297817230225, + "learning_rate": 1.85856e-05, + "loss": 0.0893, + "step": 33150 + }, + { + "epoch": 0.212192, + "grad_norm": 2.123260736465454, + "learning_rate": 1.8585386666666668e-05, + "loss": 0.0797, + "step": 33155 + }, + { + "epoch": 0.212224, + "grad_norm": 0.9219343066215515, + "learning_rate": 1.8585173333333336e-05, + "loss": 0.0659, + "step": 33160 + }, + { + "epoch": 0.212256, + "grad_norm": 0.6089274883270264, + "learning_rate": 1.858496e-05, + "loss": 0.0738, + "step": 33165 + }, + { + "epoch": 0.212288, + "grad_norm": 1.112313985824585, + "learning_rate": 1.8584746666666667e-05, + "loss": 0.0677, + "step": 33170 + }, + { + "epoch": 0.21232, + "grad_norm": 0.6671018004417419, + "learning_rate": 1.8584533333333335e-05, + "loss": 0.0688, + "step": 33175 + }, + { + "epoch": 0.212352, + "grad_norm": 0.5349329113960266, + "learning_rate": 1.8584320000000002e-05, + "loss": 0.0618, + "step": 33180 + }, + { + "epoch": 0.212384, + "grad_norm": 0.5830901861190796, + "learning_rate": 1.8584106666666667e-05, + "loss": 0.0453, + "step": 33185 + }, + { + "epoch": 0.212416, + "grad_norm": 1.3102059364318848, + "learning_rate": 1.8583893333333334e-05, + "loss": 0.0641, + "step": 33190 + }, + { + "epoch": 0.212448, + "grad_norm": 0.6416542530059814, + "learning_rate": 1.858368e-05, + "loss": 0.0626, + "step": 33195 + }, + { + "epoch": 0.21248, + "grad_norm": 0.5921637415885925, + "learning_rate": 1.8583466666666666e-05, + "loss": 0.046, + "step": 33200 + }, + { + "epoch": 0.212512, + "grad_norm": 0.6983665227890015, + "learning_rate": 1.8583253333333337e-05, + "loss": 0.063, + "step": 33205 + }, + { + "epoch": 0.212544, + "grad_norm": 0.5795415043830872, + "learning_rate": 1.858304e-05, + "loss": 0.0607, + "step": 33210 + }, + { + "epoch": 0.212576, + "grad_norm": 1.473816156387329, + "learning_rate": 1.858282666666667e-05, + "loss": 0.0911, + "step": 33215 + }, + { + "epoch": 0.212608, + "grad_norm": 0.5495258569717407, + "learning_rate": 1.8582613333333336e-05, + "loss": 0.0564, + "step": 33220 + }, + { + "epoch": 0.21264, + "grad_norm": 0.39777427911758423, + "learning_rate": 1.85824e-05, + "loss": 0.0548, + "step": 33225 + }, + { + "epoch": 0.212672, + "grad_norm": 0.5241890549659729, + "learning_rate": 1.8582186666666668e-05, + "loss": 0.0436, + "step": 33230 + }, + { + "epoch": 0.212704, + "grad_norm": 2.884417772293091, + "learning_rate": 1.8581973333333335e-05, + "loss": 0.0966, + "step": 33235 + }, + { + "epoch": 0.212736, + "grad_norm": 0.4862188994884491, + "learning_rate": 1.8581760000000003e-05, + "loss": 0.0539, + "step": 33240 + }, + { + "epoch": 0.212768, + "grad_norm": 0.6268970966339111, + "learning_rate": 1.8581546666666667e-05, + "loss": 0.053, + "step": 33245 + }, + { + "epoch": 0.2128, + "grad_norm": 0.43984654545783997, + "learning_rate": 1.8581333333333335e-05, + "loss": 0.0744, + "step": 33250 + }, + { + "epoch": 0.212832, + "grad_norm": 1.6605361700057983, + "learning_rate": 1.8581120000000002e-05, + "loss": 0.0577, + "step": 33255 + }, + { + "epoch": 0.212864, + "grad_norm": 0.6554079651832581, + "learning_rate": 1.8580906666666666e-05, + "loss": 0.0425, + "step": 33260 + }, + { + "epoch": 0.212896, + "grad_norm": 0.5632967352867126, + "learning_rate": 1.8580693333333334e-05, + "loss": 0.0488, + "step": 33265 + }, + { + "epoch": 0.212928, + "grad_norm": 0.6761627197265625, + "learning_rate": 1.858048e-05, + "loss": 0.0549, + "step": 33270 + }, + { + "epoch": 0.21296, + "grad_norm": 0.47146525979042053, + "learning_rate": 1.858026666666667e-05, + "loss": 0.0438, + "step": 33275 + }, + { + "epoch": 0.212992, + "grad_norm": 0.9474681615829468, + "learning_rate": 1.8580053333333333e-05, + "loss": 0.0745, + "step": 33280 + }, + { + "epoch": 0.213024, + "grad_norm": 1.329108476638794, + "learning_rate": 1.857984e-05, + "loss": 0.0839, + "step": 33285 + }, + { + "epoch": 0.213056, + "grad_norm": 1.0404599905014038, + "learning_rate": 1.8579626666666668e-05, + "loss": 0.0837, + "step": 33290 + }, + { + "epoch": 0.213088, + "grad_norm": 0.8301873803138733, + "learning_rate": 1.8579413333333332e-05, + "loss": 0.0803, + "step": 33295 + }, + { + "epoch": 0.21312, + "grad_norm": 1.332392692565918, + "learning_rate": 1.8579200000000003e-05, + "loss": 0.0624, + "step": 33300 + }, + { + "epoch": 0.213152, + "grad_norm": 1.188839077949524, + "learning_rate": 1.8578986666666667e-05, + "loss": 0.091, + "step": 33305 + }, + { + "epoch": 0.213184, + "grad_norm": 0.3734988868236542, + "learning_rate": 1.8578773333333335e-05, + "loss": 0.0645, + "step": 33310 + }, + { + "epoch": 0.213216, + "grad_norm": 2.4679441452026367, + "learning_rate": 1.8578560000000003e-05, + "loss": 0.0952, + "step": 33315 + }, + { + "epoch": 0.213248, + "grad_norm": 0.8809096217155457, + "learning_rate": 1.857834666666667e-05, + "loss": 0.0663, + "step": 33320 + }, + { + "epoch": 0.21328, + "grad_norm": 0.6640533208847046, + "learning_rate": 1.8578133333333334e-05, + "loss": 0.0465, + "step": 33325 + }, + { + "epoch": 0.213312, + "grad_norm": 0.6422806978225708, + "learning_rate": 1.8577920000000002e-05, + "loss": 0.07, + "step": 33330 + }, + { + "epoch": 0.213344, + "grad_norm": 1.1945240497589111, + "learning_rate": 1.857770666666667e-05, + "loss": 0.0584, + "step": 33335 + }, + { + "epoch": 0.213376, + "grad_norm": 1.1376748085021973, + "learning_rate": 1.8577493333333334e-05, + "loss": 0.0876, + "step": 33340 + }, + { + "epoch": 0.213408, + "grad_norm": 1.2258411645889282, + "learning_rate": 1.857728e-05, + "loss": 0.0666, + "step": 33345 + }, + { + "epoch": 0.21344, + "grad_norm": 0.5968559980392456, + "learning_rate": 1.857706666666667e-05, + "loss": 0.041, + "step": 33350 + }, + { + "epoch": 0.213472, + "grad_norm": 0.6996557712554932, + "learning_rate": 1.8576853333333336e-05, + "loss": 0.051, + "step": 33355 + }, + { + "epoch": 0.213504, + "grad_norm": 1.2486764192581177, + "learning_rate": 1.857664e-05, + "loss": 0.0821, + "step": 33360 + }, + { + "epoch": 0.213536, + "grad_norm": 0.7625285983085632, + "learning_rate": 1.8576426666666668e-05, + "loss": 0.0958, + "step": 33365 + }, + { + "epoch": 0.213568, + "grad_norm": 0.8954099416732788, + "learning_rate": 1.8576213333333336e-05, + "loss": 0.0766, + "step": 33370 + }, + { + "epoch": 0.2136, + "grad_norm": 0.9558114409446716, + "learning_rate": 1.8576e-05, + "loss": 0.0455, + "step": 33375 + }, + { + "epoch": 0.213632, + "grad_norm": 0.5733234882354736, + "learning_rate": 1.8575786666666667e-05, + "loss": 0.0591, + "step": 33380 + }, + { + "epoch": 0.213664, + "grad_norm": 0.4938294589519501, + "learning_rate": 1.8575573333333335e-05, + "loss": 0.0809, + "step": 33385 + }, + { + "epoch": 0.213696, + "grad_norm": 0.6934466361999512, + "learning_rate": 1.8575360000000002e-05, + "loss": 0.0594, + "step": 33390 + }, + { + "epoch": 0.213728, + "grad_norm": 0.3769211769104004, + "learning_rate": 1.8575146666666667e-05, + "loss": 0.0536, + "step": 33395 + }, + { + "epoch": 0.21376, + "grad_norm": 0.7271353602409363, + "learning_rate": 1.8574933333333337e-05, + "loss": 0.0568, + "step": 33400 + }, + { + "epoch": 0.213792, + "grad_norm": 0.8226220011711121, + "learning_rate": 1.857472e-05, + "loss": 0.0788, + "step": 33405 + }, + { + "epoch": 0.213824, + "grad_norm": 0.8390476703643799, + "learning_rate": 1.8574506666666666e-05, + "loss": 0.0659, + "step": 33410 + }, + { + "epoch": 0.213856, + "grad_norm": 0.8887110948562622, + "learning_rate": 1.8574293333333337e-05, + "loss": 0.0584, + "step": 33415 + }, + { + "epoch": 0.213888, + "grad_norm": 0.6446293592453003, + "learning_rate": 1.857408e-05, + "loss": 0.0528, + "step": 33420 + }, + { + "epoch": 0.21392, + "grad_norm": 1.0438681840896606, + "learning_rate": 1.857386666666667e-05, + "loss": 0.0434, + "step": 33425 + }, + { + "epoch": 0.213952, + "grad_norm": 0.6256290674209595, + "learning_rate": 1.8573653333333336e-05, + "loss": 0.0634, + "step": 33430 + }, + { + "epoch": 0.213984, + "grad_norm": 0.8663391470909119, + "learning_rate": 1.8573440000000004e-05, + "loss": 0.0629, + "step": 33435 + }, + { + "epoch": 0.214016, + "grad_norm": 0.7842894196510315, + "learning_rate": 1.8573226666666668e-05, + "loss": 0.0766, + "step": 33440 + }, + { + "epoch": 0.214048, + "grad_norm": 0.8900336623191833, + "learning_rate": 1.8573013333333335e-05, + "loss": 0.091, + "step": 33445 + }, + { + "epoch": 0.21408, + "grad_norm": 3.3922762870788574, + "learning_rate": 1.8572800000000003e-05, + "loss": 0.0692, + "step": 33450 + }, + { + "epoch": 0.214112, + "grad_norm": 0.9865435361862183, + "learning_rate": 1.8572586666666667e-05, + "loss": 0.0627, + "step": 33455 + }, + { + "epoch": 0.214144, + "grad_norm": 0.7735474109649658, + "learning_rate": 1.8572373333333335e-05, + "loss": 0.0628, + "step": 33460 + }, + { + "epoch": 0.214176, + "grad_norm": 0.8593829870223999, + "learning_rate": 1.8572160000000002e-05, + "loss": 0.0512, + "step": 33465 + }, + { + "epoch": 0.214208, + "grad_norm": 0.44887763261795044, + "learning_rate": 1.857194666666667e-05, + "loss": 0.0598, + "step": 33470 + }, + { + "epoch": 0.21424, + "grad_norm": 1.4814324378967285, + "learning_rate": 1.8571733333333334e-05, + "loss": 0.0634, + "step": 33475 + }, + { + "epoch": 0.214272, + "grad_norm": 0.2630654573440552, + "learning_rate": 1.857152e-05, + "loss": 0.0614, + "step": 33480 + }, + { + "epoch": 0.214304, + "grad_norm": 0.27789202332496643, + "learning_rate": 1.857130666666667e-05, + "loss": 0.0691, + "step": 33485 + }, + { + "epoch": 0.214336, + "grad_norm": 1.0287734270095825, + "learning_rate": 1.8571093333333333e-05, + "loss": 0.0437, + "step": 33490 + }, + { + "epoch": 0.214368, + "grad_norm": 1.734144687652588, + "learning_rate": 1.857088e-05, + "loss": 0.0737, + "step": 33495 + }, + { + "epoch": 0.2144, + "grad_norm": 0.6916624307632446, + "learning_rate": 1.8570666666666668e-05, + "loss": 0.0462, + "step": 33500 + }, + { + "epoch": 0.214432, + "grad_norm": 1.2889723777770996, + "learning_rate": 1.8570453333333336e-05, + "loss": 0.0629, + "step": 33505 + }, + { + "epoch": 0.214464, + "grad_norm": 5.856196880340576, + "learning_rate": 1.857024e-05, + "loss": 0.0581, + "step": 33510 + }, + { + "epoch": 0.214496, + "grad_norm": 1.1368342638015747, + "learning_rate": 1.8570026666666667e-05, + "loss": 0.0406, + "step": 33515 + }, + { + "epoch": 0.214528, + "grad_norm": 1.6017547845840454, + "learning_rate": 1.8569813333333335e-05, + "loss": 0.0582, + "step": 33520 + }, + { + "epoch": 0.21456, + "grad_norm": 0.7723857760429382, + "learning_rate": 1.8569600000000003e-05, + "loss": 0.0686, + "step": 33525 + }, + { + "epoch": 0.214592, + "grad_norm": 1.1390485763549805, + "learning_rate": 1.856938666666667e-05, + "loss": 0.0711, + "step": 33530 + }, + { + "epoch": 0.214624, + "grad_norm": 1.673075795173645, + "learning_rate": 1.8569173333333334e-05, + "loss": 0.0988, + "step": 33535 + }, + { + "epoch": 0.214656, + "grad_norm": 0.6022703647613525, + "learning_rate": 1.8568960000000002e-05, + "loss": 0.0453, + "step": 33540 + }, + { + "epoch": 0.214688, + "grad_norm": 0.4810647964477539, + "learning_rate": 1.856874666666667e-05, + "loss": 0.0487, + "step": 33545 + }, + { + "epoch": 0.21472, + "grad_norm": 0.3477063477039337, + "learning_rate": 1.8568533333333334e-05, + "loss": 0.0646, + "step": 33550 + }, + { + "epoch": 0.214752, + "grad_norm": 1.097992181777954, + "learning_rate": 1.856832e-05, + "loss": 0.0743, + "step": 33555 + }, + { + "epoch": 0.214784, + "grad_norm": 1.090175986289978, + "learning_rate": 1.856810666666667e-05, + "loss": 0.0739, + "step": 33560 + }, + { + "epoch": 0.214816, + "grad_norm": 1.0319839715957642, + "learning_rate": 1.8567893333333336e-05, + "loss": 0.0634, + "step": 33565 + }, + { + "epoch": 0.214848, + "grad_norm": 0.9903698563575745, + "learning_rate": 1.856768e-05, + "loss": 0.0918, + "step": 33570 + }, + { + "epoch": 0.21488, + "grad_norm": 1.9313119649887085, + "learning_rate": 1.8567466666666668e-05, + "loss": 0.0807, + "step": 33575 + }, + { + "epoch": 0.214912, + "grad_norm": 0.8611412644386292, + "learning_rate": 1.8567253333333336e-05, + "loss": 0.0498, + "step": 33580 + }, + { + "epoch": 0.214944, + "grad_norm": 0.60527104139328, + "learning_rate": 1.856704e-05, + "loss": 0.0522, + "step": 33585 + }, + { + "epoch": 0.214976, + "grad_norm": 0.6316080689430237, + "learning_rate": 1.8566826666666667e-05, + "loss": 0.0687, + "step": 33590 + }, + { + "epoch": 0.215008, + "grad_norm": 1.3703172206878662, + "learning_rate": 1.8566613333333335e-05, + "loss": 0.0741, + "step": 33595 + }, + { + "epoch": 0.21504, + "grad_norm": 1.235562801361084, + "learning_rate": 1.8566400000000002e-05, + "loss": 0.0519, + "step": 33600 + }, + { + "epoch": 0.215072, + "grad_norm": 1.1654704809188843, + "learning_rate": 1.8566186666666667e-05, + "loss": 0.0624, + "step": 33605 + }, + { + "epoch": 0.215104, + "grad_norm": 0.8619036674499512, + "learning_rate": 1.8565973333333337e-05, + "loss": 0.025, + "step": 33610 + }, + { + "epoch": 0.215136, + "grad_norm": 0.9382398128509521, + "learning_rate": 1.856576e-05, + "loss": 0.0624, + "step": 33615 + }, + { + "epoch": 0.215168, + "grad_norm": 1.321211814880371, + "learning_rate": 1.8565546666666666e-05, + "loss": 0.0897, + "step": 33620 + }, + { + "epoch": 0.2152, + "grad_norm": 0.8506933450698853, + "learning_rate": 1.8565333333333337e-05, + "loss": 0.0425, + "step": 33625 + }, + { + "epoch": 0.215232, + "grad_norm": 0.7009761333465576, + "learning_rate": 1.856512e-05, + "loss": 0.0647, + "step": 33630 + }, + { + "epoch": 0.215264, + "grad_norm": 1.067124605178833, + "learning_rate": 1.856490666666667e-05, + "loss": 0.0733, + "step": 33635 + }, + { + "epoch": 0.215296, + "grad_norm": 0.7378343939781189, + "learning_rate": 1.8564693333333336e-05, + "loss": 0.0602, + "step": 33640 + }, + { + "epoch": 0.215328, + "grad_norm": 0.5118243098258972, + "learning_rate": 1.8564480000000004e-05, + "loss": 0.0522, + "step": 33645 + }, + { + "epoch": 0.21536, + "grad_norm": 0.7487213015556335, + "learning_rate": 1.8564266666666668e-05, + "loss": 0.0526, + "step": 33650 + }, + { + "epoch": 0.215392, + "grad_norm": 0.8430607318878174, + "learning_rate": 1.8564053333333335e-05, + "loss": 0.0523, + "step": 33655 + }, + { + "epoch": 0.215424, + "grad_norm": 1.0309302806854248, + "learning_rate": 1.8563840000000003e-05, + "loss": 0.0718, + "step": 33660 + }, + { + "epoch": 0.215456, + "grad_norm": 1.7755365371704102, + "learning_rate": 1.8563626666666667e-05, + "loss": 0.0958, + "step": 33665 + }, + { + "epoch": 0.215488, + "grad_norm": 1.1993540525436401, + "learning_rate": 1.8563413333333335e-05, + "loss": 0.0866, + "step": 33670 + }, + { + "epoch": 0.21552, + "grad_norm": 0.7323974370956421, + "learning_rate": 1.8563200000000002e-05, + "loss": 0.0756, + "step": 33675 + }, + { + "epoch": 0.215552, + "grad_norm": 0.3997129797935486, + "learning_rate": 1.856298666666667e-05, + "loss": 0.0625, + "step": 33680 + }, + { + "epoch": 0.215584, + "grad_norm": 0.9904359579086304, + "learning_rate": 1.8562773333333334e-05, + "loss": 0.0751, + "step": 33685 + }, + { + "epoch": 0.215616, + "grad_norm": 0.5206975936889648, + "learning_rate": 1.856256e-05, + "loss": 0.0529, + "step": 33690 + }, + { + "epoch": 0.215648, + "grad_norm": 0.6766982078552246, + "learning_rate": 1.856234666666667e-05, + "loss": 0.0433, + "step": 33695 + }, + { + "epoch": 0.21568, + "grad_norm": 0.3934764564037323, + "learning_rate": 1.8562133333333333e-05, + "loss": 0.0621, + "step": 33700 + }, + { + "epoch": 0.215712, + "grad_norm": 0.9352672100067139, + "learning_rate": 1.856192e-05, + "loss": 0.0624, + "step": 33705 + }, + { + "epoch": 0.215744, + "grad_norm": 1.3324977159500122, + "learning_rate": 1.8561706666666668e-05, + "loss": 0.0563, + "step": 33710 + }, + { + "epoch": 0.215776, + "grad_norm": 0.8789570331573486, + "learning_rate": 1.8561493333333336e-05, + "loss": 0.1129, + "step": 33715 + }, + { + "epoch": 0.215808, + "grad_norm": 0.430562824010849, + "learning_rate": 1.856128e-05, + "loss": 0.0529, + "step": 33720 + }, + { + "epoch": 0.21584, + "grad_norm": 1.2536240816116333, + "learning_rate": 1.8561066666666667e-05, + "loss": 0.0513, + "step": 33725 + }, + { + "epoch": 0.215872, + "grad_norm": 0.7399984002113342, + "learning_rate": 1.8560853333333335e-05, + "loss": 0.0637, + "step": 33730 + }, + { + "epoch": 0.215904, + "grad_norm": 1.5261814594268799, + "learning_rate": 1.856064e-05, + "loss": 0.0541, + "step": 33735 + }, + { + "epoch": 0.215936, + "grad_norm": 0.2760258913040161, + "learning_rate": 1.856042666666667e-05, + "loss": 0.0779, + "step": 33740 + }, + { + "epoch": 0.215968, + "grad_norm": 0.3924800753593445, + "learning_rate": 1.8560213333333334e-05, + "loss": 0.0553, + "step": 33745 + }, + { + "epoch": 0.216, + "grad_norm": 0.14818477630615234, + "learning_rate": 1.8560000000000002e-05, + "loss": 0.0455, + "step": 33750 + }, + { + "epoch": 0.216032, + "grad_norm": 0.8969846367835999, + "learning_rate": 1.855978666666667e-05, + "loss": 0.0639, + "step": 33755 + }, + { + "epoch": 0.216064, + "grad_norm": 0.6229144334793091, + "learning_rate": 1.8559573333333334e-05, + "loss": 0.061, + "step": 33760 + }, + { + "epoch": 0.216096, + "grad_norm": 2.0322723388671875, + "learning_rate": 1.855936e-05, + "loss": 0.0427, + "step": 33765 + }, + { + "epoch": 0.216128, + "grad_norm": 0.7176132202148438, + "learning_rate": 1.855914666666667e-05, + "loss": 0.0554, + "step": 33770 + }, + { + "epoch": 0.21616, + "grad_norm": 0.37541115283966064, + "learning_rate": 1.8558933333333336e-05, + "loss": 0.0486, + "step": 33775 + }, + { + "epoch": 0.216192, + "grad_norm": 0.6869967579841614, + "learning_rate": 1.855872e-05, + "loss": 0.0652, + "step": 33780 + }, + { + "epoch": 0.216224, + "grad_norm": 1.3563255071640015, + "learning_rate": 1.8558506666666668e-05, + "loss": 0.0924, + "step": 33785 + }, + { + "epoch": 0.216256, + "grad_norm": 0.7996907234191895, + "learning_rate": 1.8558293333333336e-05, + "loss": 0.0456, + "step": 33790 + }, + { + "epoch": 0.216288, + "grad_norm": 1.1007671356201172, + "learning_rate": 1.855808e-05, + "loss": 0.0567, + "step": 33795 + }, + { + "epoch": 0.21632, + "grad_norm": 0.7379441261291504, + "learning_rate": 1.8557866666666667e-05, + "loss": 0.0561, + "step": 33800 + }, + { + "epoch": 0.216352, + "grad_norm": 0.6113427877426147, + "learning_rate": 1.8557653333333335e-05, + "loss": 0.056, + "step": 33805 + }, + { + "epoch": 0.216384, + "grad_norm": 0.5011605620384216, + "learning_rate": 1.8557440000000002e-05, + "loss": 0.0504, + "step": 33810 + }, + { + "epoch": 0.216416, + "grad_norm": 0.49220216274261475, + "learning_rate": 1.8557226666666667e-05, + "loss": 0.0534, + "step": 33815 + }, + { + "epoch": 0.216448, + "grad_norm": 0.4991430938243866, + "learning_rate": 1.8557013333333334e-05, + "loss": 0.0516, + "step": 33820 + }, + { + "epoch": 0.21648, + "grad_norm": 0.6401021480560303, + "learning_rate": 1.85568e-05, + "loss": 0.055, + "step": 33825 + }, + { + "epoch": 0.216512, + "grad_norm": 0.9227206110954285, + "learning_rate": 1.8556586666666666e-05, + "loss": 0.0602, + "step": 33830 + }, + { + "epoch": 0.216544, + "grad_norm": 1.0350227355957031, + "learning_rate": 1.8556373333333337e-05, + "loss": 0.0457, + "step": 33835 + }, + { + "epoch": 0.216576, + "grad_norm": 0.7150176167488098, + "learning_rate": 1.855616e-05, + "loss": 0.0402, + "step": 33840 + }, + { + "epoch": 0.216608, + "grad_norm": 0.572129487991333, + "learning_rate": 1.855594666666667e-05, + "loss": 0.0561, + "step": 33845 + }, + { + "epoch": 0.21664, + "grad_norm": 0.9595076441764832, + "learning_rate": 1.8555733333333336e-05, + "loss": 0.059, + "step": 33850 + }, + { + "epoch": 0.216672, + "grad_norm": 0.6606729030609131, + "learning_rate": 1.8555520000000004e-05, + "loss": 0.0587, + "step": 33855 + }, + { + "epoch": 0.216704, + "grad_norm": 1.7332113981246948, + "learning_rate": 1.8555306666666668e-05, + "loss": 0.0849, + "step": 33860 + }, + { + "epoch": 0.216736, + "grad_norm": 0.783625602722168, + "learning_rate": 1.8555093333333335e-05, + "loss": 0.0763, + "step": 33865 + }, + { + "epoch": 0.216768, + "grad_norm": 0.4047727584838867, + "learning_rate": 1.8554880000000003e-05, + "loss": 0.0616, + "step": 33870 + }, + { + "epoch": 0.2168, + "grad_norm": 0.3588543236255646, + "learning_rate": 1.8554666666666667e-05, + "loss": 0.0526, + "step": 33875 + }, + { + "epoch": 0.216832, + "grad_norm": 0.9292559623718262, + "learning_rate": 1.8554453333333335e-05, + "loss": 0.0682, + "step": 33880 + }, + { + "epoch": 0.216864, + "grad_norm": 0.6730011701583862, + "learning_rate": 1.8554240000000002e-05, + "loss": 0.0415, + "step": 33885 + }, + { + "epoch": 0.216896, + "grad_norm": 1.1566929817199707, + "learning_rate": 1.855402666666667e-05, + "loss": 0.08, + "step": 33890 + }, + { + "epoch": 0.216928, + "grad_norm": 0.9958926439285278, + "learning_rate": 1.8553813333333334e-05, + "loss": 0.0561, + "step": 33895 + }, + { + "epoch": 0.21696, + "grad_norm": 0.42309778928756714, + "learning_rate": 1.85536e-05, + "loss": 0.0486, + "step": 33900 + }, + { + "epoch": 0.216992, + "grad_norm": 1.0648897886276245, + "learning_rate": 1.855338666666667e-05, + "loss": 0.0304, + "step": 33905 + }, + { + "epoch": 0.217024, + "grad_norm": 0.7290206551551819, + "learning_rate": 1.8553173333333333e-05, + "loss": 0.0462, + "step": 33910 + }, + { + "epoch": 0.217056, + "grad_norm": 0.4636741578578949, + "learning_rate": 1.855296e-05, + "loss": 0.0936, + "step": 33915 + }, + { + "epoch": 0.217088, + "grad_norm": 0.8963649272918701, + "learning_rate": 1.8552746666666668e-05, + "loss": 0.0825, + "step": 33920 + }, + { + "epoch": 0.21712, + "grad_norm": 2.53562331199646, + "learning_rate": 1.8552533333333336e-05, + "loss": 0.0593, + "step": 33925 + }, + { + "epoch": 0.217152, + "grad_norm": 0.7223821878433228, + "learning_rate": 1.855232e-05, + "loss": 0.0632, + "step": 33930 + }, + { + "epoch": 0.217184, + "grad_norm": 0.9998026490211487, + "learning_rate": 1.8552106666666667e-05, + "loss": 0.0887, + "step": 33935 + }, + { + "epoch": 0.217216, + "grad_norm": 0.5783005952835083, + "learning_rate": 1.8551893333333335e-05, + "loss": 0.0645, + "step": 33940 + }, + { + "epoch": 0.217248, + "grad_norm": 0.7221624851226807, + "learning_rate": 1.855168e-05, + "loss": 0.0782, + "step": 33945 + }, + { + "epoch": 0.21728, + "grad_norm": 1.2342195510864258, + "learning_rate": 1.855146666666667e-05, + "loss": 0.0573, + "step": 33950 + }, + { + "epoch": 0.217312, + "grad_norm": 1.8554638624191284, + "learning_rate": 1.8551253333333334e-05, + "loss": 0.0871, + "step": 33955 + }, + { + "epoch": 0.217344, + "grad_norm": 0.34112221002578735, + "learning_rate": 1.8551040000000002e-05, + "loss": 0.0869, + "step": 33960 + }, + { + "epoch": 0.217376, + "grad_norm": 0.69279944896698, + "learning_rate": 1.855082666666667e-05, + "loss": 0.0634, + "step": 33965 + }, + { + "epoch": 0.217408, + "grad_norm": 0.6949842572212219, + "learning_rate": 1.8550613333333334e-05, + "loss": 0.0475, + "step": 33970 + }, + { + "epoch": 0.21744, + "grad_norm": 0.9417067170143127, + "learning_rate": 1.85504e-05, + "loss": 0.0556, + "step": 33975 + }, + { + "epoch": 0.217472, + "grad_norm": 0.39256879687309265, + "learning_rate": 1.855018666666667e-05, + "loss": 0.0495, + "step": 33980 + }, + { + "epoch": 0.217504, + "grad_norm": 0.7029554843902588, + "learning_rate": 1.8549973333333336e-05, + "loss": 0.0763, + "step": 33985 + }, + { + "epoch": 0.217536, + "grad_norm": 0.6570247411727905, + "learning_rate": 1.854976e-05, + "loss": 0.1045, + "step": 33990 + }, + { + "epoch": 0.217568, + "grad_norm": 1.208595633506775, + "learning_rate": 1.8549546666666668e-05, + "loss": 0.049, + "step": 33995 + }, + { + "epoch": 0.2176, + "grad_norm": 1.0197545289993286, + "learning_rate": 1.8549333333333336e-05, + "loss": 0.0856, + "step": 34000 + }, + { + "epoch": 0.217632, + "grad_norm": 0.6764013171195984, + "learning_rate": 1.854912e-05, + "loss": 0.0576, + "step": 34005 + }, + { + "epoch": 0.217664, + "grad_norm": 0.878271222114563, + "learning_rate": 1.8548906666666667e-05, + "loss": 0.0727, + "step": 34010 + }, + { + "epoch": 0.217696, + "grad_norm": 0.5531656742095947, + "learning_rate": 1.8548693333333335e-05, + "loss": 0.0411, + "step": 34015 + }, + { + "epoch": 0.217728, + "grad_norm": 1.0604976415634155, + "learning_rate": 1.8548480000000002e-05, + "loss": 0.0562, + "step": 34020 + }, + { + "epoch": 0.21776, + "grad_norm": 1.4887242317199707, + "learning_rate": 1.8548266666666667e-05, + "loss": 0.0494, + "step": 34025 + }, + { + "epoch": 0.217792, + "grad_norm": 0.703033447265625, + "learning_rate": 1.8548053333333334e-05, + "loss": 0.0925, + "step": 34030 + }, + { + "epoch": 0.217824, + "grad_norm": 0.7288529872894287, + "learning_rate": 1.854784e-05, + "loss": 0.0809, + "step": 34035 + }, + { + "epoch": 0.217856, + "grad_norm": 1.2192656993865967, + "learning_rate": 1.8547626666666666e-05, + "loss": 0.0473, + "step": 34040 + }, + { + "epoch": 0.217888, + "grad_norm": 0.8385860323905945, + "learning_rate": 1.8547413333333333e-05, + "loss": 0.046, + "step": 34045 + }, + { + "epoch": 0.21792, + "grad_norm": 1.1617847681045532, + "learning_rate": 1.85472e-05, + "loss": 0.067, + "step": 34050 + }, + { + "epoch": 0.217952, + "grad_norm": 0.7779415845870972, + "learning_rate": 1.854698666666667e-05, + "loss": 0.0614, + "step": 34055 + }, + { + "epoch": 0.217984, + "grad_norm": 0.7386088371276855, + "learning_rate": 1.8546773333333336e-05, + "loss": 0.0519, + "step": 34060 + }, + { + "epoch": 0.218016, + "grad_norm": 1.174057960510254, + "learning_rate": 1.8546560000000004e-05, + "loss": 0.0835, + "step": 34065 + }, + { + "epoch": 0.218048, + "grad_norm": 0.5135036706924438, + "learning_rate": 1.8546346666666668e-05, + "loss": 0.0394, + "step": 34070 + }, + { + "epoch": 0.21808, + "grad_norm": 0.7052847146987915, + "learning_rate": 1.8546133333333335e-05, + "loss": 0.0475, + "step": 34075 + }, + { + "epoch": 0.218112, + "grad_norm": 1.264561653137207, + "learning_rate": 1.8545920000000003e-05, + "loss": 0.0723, + "step": 34080 + }, + { + "epoch": 0.218144, + "grad_norm": 0.8400242328643799, + "learning_rate": 1.8545706666666667e-05, + "loss": 0.0443, + "step": 34085 + }, + { + "epoch": 0.218176, + "grad_norm": 0.8240525126457214, + "learning_rate": 1.8545493333333335e-05, + "loss": 0.0626, + "step": 34090 + }, + { + "epoch": 0.218208, + "grad_norm": 0.7561810612678528, + "learning_rate": 1.8545280000000002e-05, + "loss": 0.0689, + "step": 34095 + }, + { + "epoch": 0.21824, + "grad_norm": 0.42894768714904785, + "learning_rate": 1.854506666666667e-05, + "loss": 0.0552, + "step": 34100 + }, + { + "epoch": 0.218272, + "grad_norm": 0.4163806140422821, + "learning_rate": 1.8544853333333334e-05, + "loss": 0.0465, + "step": 34105 + }, + { + "epoch": 0.218304, + "grad_norm": 0.32110315561294556, + "learning_rate": 1.854464e-05, + "loss": 0.035, + "step": 34110 + }, + { + "epoch": 0.218336, + "grad_norm": 0.6963700652122498, + "learning_rate": 1.854442666666667e-05, + "loss": 0.0556, + "step": 34115 + }, + { + "epoch": 0.218368, + "grad_norm": 0.552595853805542, + "learning_rate": 1.8544213333333333e-05, + "loss": 0.062, + "step": 34120 + }, + { + "epoch": 0.2184, + "grad_norm": 0.579353392124176, + "learning_rate": 1.8544e-05, + "loss": 0.0721, + "step": 34125 + }, + { + "epoch": 0.218432, + "grad_norm": 0.6425808668136597, + "learning_rate": 1.8543786666666668e-05, + "loss": 0.0461, + "step": 34130 + }, + { + "epoch": 0.218464, + "grad_norm": 1.0552092790603638, + "learning_rate": 1.8543573333333336e-05, + "loss": 0.0804, + "step": 34135 + }, + { + "epoch": 0.218496, + "grad_norm": 0.45177456736564636, + "learning_rate": 1.854336e-05, + "loss": 0.0615, + "step": 34140 + }, + { + "epoch": 0.218528, + "grad_norm": 0.7454301118850708, + "learning_rate": 1.854314666666667e-05, + "loss": 0.0554, + "step": 34145 + }, + { + "epoch": 0.21856, + "grad_norm": 2.163123846054077, + "learning_rate": 1.8542933333333335e-05, + "loss": 0.0452, + "step": 34150 + }, + { + "epoch": 0.218592, + "grad_norm": 0.8996390104293823, + "learning_rate": 1.854272e-05, + "loss": 0.06, + "step": 34155 + }, + { + "epoch": 0.218624, + "grad_norm": 0.8913840651512146, + "learning_rate": 1.854250666666667e-05, + "loss": 0.0557, + "step": 34160 + }, + { + "epoch": 0.218656, + "grad_norm": 0.7183677554130554, + "learning_rate": 1.8542293333333334e-05, + "loss": 0.0599, + "step": 34165 + }, + { + "epoch": 0.218688, + "grad_norm": 1.8770158290863037, + "learning_rate": 1.8542080000000002e-05, + "loss": 0.095, + "step": 34170 + }, + { + "epoch": 0.21872, + "grad_norm": 0.9327181577682495, + "learning_rate": 1.854186666666667e-05, + "loss": 0.0465, + "step": 34175 + }, + { + "epoch": 0.218752, + "grad_norm": 2.2459073066711426, + "learning_rate": 1.8541653333333337e-05, + "loss": 0.074, + "step": 34180 + }, + { + "epoch": 0.218784, + "grad_norm": 0.22191816568374634, + "learning_rate": 1.854144e-05, + "loss": 0.0368, + "step": 34185 + }, + { + "epoch": 0.218816, + "grad_norm": 0.8156808614730835, + "learning_rate": 1.854122666666667e-05, + "loss": 0.0638, + "step": 34190 + }, + { + "epoch": 0.218848, + "grad_norm": 0.8175629377365112, + "learning_rate": 1.8541013333333336e-05, + "loss": 0.061, + "step": 34195 + }, + { + "epoch": 0.21888, + "grad_norm": 1.4316002130508423, + "learning_rate": 1.85408e-05, + "loss": 0.0807, + "step": 34200 + }, + { + "epoch": 0.218912, + "grad_norm": 0.9986082911491394, + "learning_rate": 1.8540586666666668e-05, + "loss": 0.0545, + "step": 34205 + }, + { + "epoch": 0.218944, + "grad_norm": 1.4572542905807495, + "learning_rate": 1.8540373333333336e-05, + "loss": 0.0784, + "step": 34210 + }, + { + "epoch": 0.218976, + "grad_norm": 0.8199253678321838, + "learning_rate": 1.8540160000000003e-05, + "loss": 0.0666, + "step": 34215 + }, + { + "epoch": 0.219008, + "grad_norm": 2.291022300720215, + "learning_rate": 1.8539946666666667e-05, + "loss": 0.0764, + "step": 34220 + }, + { + "epoch": 0.21904, + "grad_norm": 0.626606285572052, + "learning_rate": 1.8539733333333335e-05, + "loss": 0.0581, + "step": 34225 + }, + { + "epoch": 0.219072, + "grad_norm": 1.030137300491333, + "learning_rate": 1.8539520000000002e-05, + "loss": 0.0611, + "step": 34230 + }, + { + "epoch": 0.219104, + "grad_norm": 0.3492216169834137, + "learning_rate": 1.8539306666666667e-05, + "loss": 0.098, + "step": 34235 + }, + { + "epoch": 0.219136, + "grad_norm": 0.44479823112487793, + "learning_rate": 1.8539093333333334e-05, + "loss": 0.045, + "step": 34240 + }, + { + "epoch": 0.219168, + "grad_norm": 0.7848477959632874, + "learning_rate": 1.853888e-05, + "loss": 0.0556, + "step": 34245 + }, + { + "epoch": 0.2192, + "grad_norm": 0.728629469871521, + "learning_rate": 1.853866666666667e-05, + "loss": 0.0535, + "step": 34250 + }, + { + "epoch": 0.219232, + "grad_norm": 0.8214535117149353, + "learning_rate": 1.8538453333333333e-05, + "loss": 0.0627, + "step": 34255 + }, + { + "epoch": 0.219264, + "grad_norm": 1.252929925918579, + "learning_rate": 1.853824e-05, + "loss": 0.0807, + "step": 34260 + }, + { + "epoch": 0.219296, + "grad_norm": 0.9563746452331543, + "learning_rate": 1.853802666666667e-05, + "loss": 0.084, + "step": 34265 + }, + { + "epoch": 0.219328, + "grad_norm": 0.9596664905548096, + "learning_rate": 1.8537813333333333e-05, + "loss": 0.0481, + "step": 34270 + }, + { + "epoch": 0.21936, + "grad_norm": 0.5973542332649231, + "learning_rate": 1.8537600000000004e-05, + "loss": 0.0577, + "step": 34275 + }, + { + "epoch": 0.219392, + "grad_norm": 0.8670726418495178, + "learning_rate": 1.8537386666666668e-05, + "loss": 0.0656, + "step": 34280 + }, + { + "epoch": 0.219424, + "grad_norm": 0.8713914752006531, + "learning_rate": 1.8537173333333335e-05, + "loss": 0.0485, + "step": 34285 + }, + { + "epoch": 0.219456, + "grad_norm": 0.5895548462867737, + "learning_rate": 1.8536960000000003e-05, + "loss": 0.0543, + "step": 34290 + }, + { + "epoch": 0.219488, + "grad_norm": 15.63848876953125, + "learning_rate": 1.8536746666666667e-05, + "loss": 0.072, + "step": 34295 + }, + { + "epoch": 0.21952, + "grad_norm": 0.547480046749115, + "learning_rate": 1.8536533333333335e-05, + "loss": 0.0648, + "step": 34300 + }, + { + "epoch": 0.219552, + "grad_norm": 1.1571029424667358, + "learning_rate": 1.8536320000000002e-05, + "loss": 0.0472, + "step": 34305 + }, + { + "epoch": 0.219584, + "grad_norm": 0.9733225107192993, + "learning_rate": 1.853610666666667e-05, + "loss": 0.0434, + "step": 34310 + }, + { + "epoch": 0.219616, + "grad_norm": 0.6524149179458618, + "learning_rate": 1.8535893333333334e-05, + "loss": 0.0508, + "step": 34315 + }, + { + "epoch": 0.219648, + "grad_norm": 0.5143552422523499, + "learning_rate": 1.853568e-05, + "loss": 0.054, + "step": 34320 + }, + { + "epoch": 0.21968, + "grad_norm": 1.152497410774231, + "learning_rate": 1.853546666666667e-05, + "loss": 0.0745, + "step": 34325 + }, + { + "epoch": 0.219712, + "grad_norm": 0.6534569263458252, + "learning_rate": 1.8535253333333333e-05, + "loss": 0.0537, + "step": 34330 + }, + { + "epoch": 0.219744, + "grad_norm": 0.8947351574897766, + "learning_rate": 1.853504e-05, + "loss": 0.0743, + "step": 34335 + }, + { + "epoch": 0.219776, + "grad_norm": 0.5214102864265442, + "learning_rate": 1.8534826666666668e-05, + "loss": 0.051, + "step": 34340 + }, + { + "epoch": 0.219808, + "grad_norm": 0.9664846658706665, + "learning_rate": 1.8534613333333336e-05, + "loss": 0.0545, + "step": 34345 + }, + { + "epoch": 0.21984, + "grad_norm": 1.0434274673461914, + "learning_rate": 1.85344e-05, + "loss": 0.0953, + "step": 34350 + }, + { + "epoch": 0.219872, + "grad_norm": 0.7637156248092651, + "learning_rate": 1.853418666666667e-05, + "loss": 0.0664, + "step": 34355 + }, + { + "epoch": 0.219904, + "grad_norm": 0.689098596572876, + "learning_rate": 1.8533973333333335e-05, + "loss": 0.0578, + "step": 34360 + }, + { + "epoch": 0.219936, + "grad_norm": 0.6843304634094238, + "learning_rate": 1.853376e-05, + "loss": 0.0857, + "step": 34365 + }, + { + "epoch": 0.219968, + "grad_norm": 1.2876638174057007, + "learning_rate": 1.853354666666667e-05, + "loss": 0.0871, + "step": 34370 + }, + { + "epoch": 0.22, + "grad_norm": 0.5453609824180603, + "learning_rate": 1.8533333333333334e-05, + "loss": 0.0618, + "step": 34375 + }, + { + "epoch": 0.220032, + "grad_norm": 0.4098800718784332, + "learning_rate": 1.8533120000000002e-05, + "loss": 0.0497, + "step": 34380 + }, + { + "epoch": 0.220064, + "grad_norm": 0.8922106623649597, + "learning_rate": 1.853290666666667e-05, + "loss": 0.0763, + "step": 34385 + }, + { + "epoch": 0.220096, + "grad_norm": 0.6564911603927612, + "learning_rate": 1.8532693333333337e-05, + "loss": 0.0573, + "step": 34390 + }, + { + "epoch": 0.220128, + "grad_norm": 0.3692399263381958, + "learning_rate": 1.853248e-05, + "loss": 0.088, + "step": 34395 + }, + { + "epoch": 0.22016, + "grad_norm": 0.488727867603302, + "learning_rate": 1.853226666666667e-05, + "loss": 0.0542, + "step": 34400 + }, + { + "epoch": 0.220192, + "grad_norm": 0.8133832216262817, + "learning_rate": 1.8532053333333336e-05, + "loss": 0.066, + "step": 34405 + }, + { + "epoch": 0.220224, + "grad_norm": 0.8711170554161072, + "learning_rate": 1.853184e-05, + "loss": 0.0579, + "step": 34410 + }, + { + "epoch": 0.220256, + "grad_norm": 0.6019931435585022, + "learning_rate": 1.8531626666666668e-05, + "loss": 0.077, + "step": 34415 + }, + { + "epoch": 0.220288, + "grad_norm": 2.4658398628234863, + "learning_rate": 1.8531413333333336e-05, + "loss": 0.064, + "step": 34420 + }, + { + "epoch": 0.22032, + "grad_norm": 0.6816524863243103, + "learning_rate": 1.8531200000000003e-05, + "loss": 0.054, + "step": 34425 + }, + { + "epoch": 0.220352, + "grad_norm": 1.0928242206573486, + "learning_rate": 1.8530986666666667e-05, + "loss": 0.0405, + "step": 34430 + }, + { + "epoch": 0.220384, + "grad_norm": 0.8534476161003113, + "learning_rate": 1.8530773333333335e-05, + "loss": 0.05, + "step": 34435 + }, + { + "epoch": 0.220416, + "grad_norm": 1.4329842329025269, + "learning_rate": 1.8530560000000002e-05, + "loss": 0.0577, + "step": 34440 + }, + { + "epoch": 0.220448, + "grad_norm": 1.1524823904037476, + "learning_rate": 1.8530346666666667e-05, + "loss": 0.0884, + "step": 34445 + }, + { + "epoch": 0.22048, + "grad_norm": 0.7298815250396729, + "learning_rate": 1.8530133333333334e-05, + "loss": 0.0554, + "step": 34450 + }, + { + "epoch": 0.220512, + "grad_norm": 1.3518378734588623, + "learning_rate": 1.852992e-05, + "loss": 0.0596, + "step": 34455 + }, + { + "epoch": 0.220544, + "grad_norm": 0.7563559412956238, + "learning_rate": 1.852970666666667e-05, + "loss": 0.0602, + "step": 34460 + }, + { + "epoch": 0.220576, + "grad_norm": 0.830735981464386, + "learning_rate": 1.8529493333333333e-05, + "loss": 0.0538, + "step": 34465 + }, + { + "epoch": 0.220608, + "grad_norm": 0.9053446054458618, + "learning_rate": 1.852928e-05, + "loss": 0.0486, + "step": 34470 + }, + { + "epoch": 0.22064, + "grad_norm": 0.4923628568649292, + "learning_rate": 1.852906666666667e-05, + "loss": 0.0682, + "step": 34475 + }, + { + "epoch": 0.220672, + "grad_norm": 1.0877909660339355, + "learning_rate": 1.8528853333333333e-05, + "loss": 0.0831, + "step": 34480 + }, + { + "epoch": 0.220704, + "grad_norm": 0.5075260400772095, + "learning_rate": 1.8528640000000004e-05, + "loss": 0.0533, + "step": 34485 + }, + { + "epoch": 0.220736, + "grad_norm": 0.9403645396232605, + "learning_rate": 1.8528426666666668e-05, + "loss": 0.0533, + "step": 34490 + }, + { + "epoch": 0.220768, + "grad_norm": 0.80841064453125, + "learning_rate": 1.8528213333333335e-05, + "loss": 0.0684, + "step": 34495 + }, + { + "epoch": 0.2208, + "grad_norm": 0.9947097897529602, + "learning_rate": 1.8528000000000003e-05, + "loss": 0.0441, + "step": 34500 + }, + { + "epoch": 0.220832, + "grad_norm": 1.5505733489990234, + "learning_rate": 1.8527786666666667e-05, + "loss": 0.0855, + "step": 34505 + }, + { + "epoch": 0.220864, + "grad_norm": 0.7626590728759766, + "learning_rate": 1.8527573333333335e-05, + "loss": 0.0843, + "step": 34510 + }, + { + "epoch": 0.220896, + "grad_norm": 0.5390903949737549, + "learning_rate": 1.8527360000000002e-05, + "loss": 0.0343, + "step": 34515 + }, + { + "epoch": 0.220928, + "grad_norm": 0.503683865070343, + "learning_rate": 1.852714666666667e-05, + "loss": 0.0555, + "step": 34520 + }, + { + "epoch": 0.22096, + "grad_norm": 1.3113933801651, + "learning_rate": 1.8526933333333334e-05, + "loss": 0.0505, + "step": 34525 + }, + { + "epoch": 0.220992, + "grad_norm": 0.5817009210586548, + "learning_rate": 1.852672e-05, + "loss": 0.0606, + "step": 34530 + }, + { + "epoch": 0.221024, + "grad_norm": 0.5372323989868164, + "learning_rate": 1.852650666666667e-05, + "loss": 0.0477, + "step": 34535 + }, + { + "epoch": 0.221056, + "grad_norm": 0.9635547399520874, + "learning_rate": 1.8526293333333333e-05, + "loss": 0.0678, + "step": 34540 + }, + { + "epoch": 0.221088, + "grad_norm": 0.8160194158554077, + "learning_rate": 1.852608e-05, + "loss": 0.0511, + "step": 34545 + }, + { + "epoch": 0.22112, + "grad_norm": 0.37159624695777893, + "learning_rate": 1.8525866666666668e-05, + "loss": 0.0684, + "step": 34550 + }, + { + "epoch": 0.221152, + "grad_norm": 0.5928983092308044, + "learning_rate": 1.8525653333333336e-05, + "loss": 0.063, + "step": 34555 + }, + { + "epoch": 0.221184, + "grad_norm": 0.32057324051856995, + "learning_rate": 1.852544e-05, + "loss": 0.0743, + "step": 34560 + }, + { + "epoch": 0.221216, + "grad_norm": 1.1414469480514526, + "learning_rate": 1.8525226666666668e-05, + "loss": 0.0544, + "step": 34565 + }, + { + "epoch": 0.221248, + "grad_norm": 0.39354220032691956, + "learning_rate": 1.8525013333333335e-05, + "loss": 0.078, + "step": 34570 + }, + { + "epoch": 0.22128, + "grad_norm": 0.2675805985927582, + "learning_rate": 1.85248e-05, + "loss": 0.034, + "step": 34575 + }, + { + "epoch": 0.221312, + "grad_norm": 1.1584770679473877, + "learning_rate": 1.852458666666667e-05, + "loss": 0.0669, + "step": 34580 + }, + { + "epoch": 0.221344, + "grad_norm": 0.8640382885932922, + "learning_rate": 1.8524373333333334e-05, + "loss": 0.0613, + "step": 34585 + }, + { + "epoch": 0.221376, + "grad_norm": 0.631287693977356, + "learning_rate": 1.8524160000000002e-05, + "loss": 0.0633, + "step": 34590 + }, + { + "epoch": 0.221408, + "grad_norm": 0.5600847601890564, + "learning_rate": 1.852394666666667e-05, + "loss": 0.0674, + "step": 34595 + }, + { + "epoch": 0.22144, + "grad_norm": 0.8738476634025574, + "learning_rate": 1.8523733333333337e-05, + "loss": 0.0959, + "step": 34600 + }, + { + "epoch": 0.221472, + "grad_norm": 0.593987762928009, + "learning_rate": 1.852352e-05, + "loss": 0.0576, + "step": 34605 + }, + { + "epoch": 0.221504, + "grad_norm": 0.37633568048477173, + "learning_rate": 1.852330666666667e-05, + "loss": 0.0675, + "step": 34610 + }, + { + "epoch": 0.221536, + "grad_norm": 0.512732982635498, + "learning_rate": 1.8523093333333336e-05, + "loss": 0.0696, + "step": 34615 + }, + { + "epoch": 0.221568, + "grad_norm": 1.0321710109710693, + "learning_rate": 1.852288e-05, + "loss": 0.0484, + "step": 34620 + }, + { + "epoch": 0.2216, + "grad_norm": 0.9003421664237976, + "learning_rate": 1.8522666666666668e-05, + "loss": 0.0522, + "step": 34625 + }, + { + "epoch": 0.221632, + "grad_norm": 1.4750431776046753, + "learning_rate": 1.8522453333333336e-05, + "loss": 0.0555, + "step": 34630 + }, + { + "epoch": 0.221664, + "grad_norm": 1.4380760192871094, + "learning_rate": 1.8522240000000003e-05, + "loss": 0.0588, + "step": 34635 + }, + { + "epoch": 0.221696, + "grad_norm": 1.0582069158554077, + "learning_rate": 1.8522026666666667e-05, + "loss": 0.0493, + "step": 34640 + }, + { + "epoch": 0.221728, + "grad_norm": 0.6713325381278992, + "learning_rate": 1.8521813333333335e-05, + "loss": 0.0851, + "step": 34645 + }, + { + "epoch": 0.22176, + "grad_norm": 0.14444053173065186, + "learning_rate": 1.8521600000000002e-05, + "loss": 0.0417, + "step": 34650 + }, + { + "epoch": 0.221792, + "grad_norm": 1.7842559814453125, + "learning_rate": 1.8521386666666667e-05, + "loss": 0.0509, + "step": 34655 + }, + { + "epoch": 0.221824, + "grad_norm": 1.5228915214538574, + "learning_rate": 1.8521173333333334e-05, + "loss": 0.0582, + "step": 34660 + }, + { + "epoch": 0.221856, + "grad_norm": 1.2080882787704468, + "learning_rate": 1.852096e-05, + "loss": 0.0665, + "step": 34665 + }, + { + "epoch": 0.221888, + "grad_norm": 1.2396725416183472, + "learning_rate": 1.852074666666667e-05, + "loss": 0.0723, + "step": 34670 + }, + { + "epoch": 0.22192, + "grad_norm": 0.6393688917160034, + "learning_rate": 1.8520533333333333e-05, + "loss": 0.0596, + "step": 34675 + }, + { + "epoch": 0.221952, + "grad_norm": 1.1797676086425781, + "learning_rate": 1.852032e-05, + "loss": 0.065, + "step": 34680 + }, + { + "epoch": 0.221984, + "grad_norm": 0.4423315227031708, + "learning_rate": 1.852010666666667e-05, + "loss": 0.0757, + "step": 34685 + }, + { + "epoch": 0.222016, + "grad_norm": 0.858983039855957, + "learning_rate": 1.8519893333333333e-05, + "loss": 0.0696, + "step": 34690 + }, + { + "epoch": 0.222048, + "grad_norm": 1.0979409217834473, + "learning_rate": 1.8519680000000004e-05, + "loss": 0.0537, + "step": 34695 + }, + { + "epoch": 0.22208, + "grad_norm": 1.4022475481033325, + "learning_rate": 1.8519466666666668e-05, + "loss": 0.1195, + "step": 34700 + }, + { + "epoch": 0.222112, + "grad_norm": 1.0988940000534058, + "learning_rate": 1.8519253333333335e-05, + "loss": 0.0946, + "step": 34705 + }, + { + "epoch": 0.222144, + "grad_norm": 1.0066438913345337, + "learning_rate": 1.8519040000000003e-05, + "loss": 0.0493, + "step": 34710 + }, + { + "epoch": 0.222176, + "grad_norm": 1.66317617893219, + "learning_rate": 1.8518826666666667e-05, + "loss": 0.0957, + "step": 34715 + }, + { + "epoch": 0.222208, + "grad_norm": 0.7205571532249451, + "learning_rate": 1.8518613333333335e-05, + "loss": 0.078, + "step": 34720 + }, + { + "epoch": 0.22224, + "grad_norm": 0.47241953015327454, + "learning_rate": 1.8518400000000002e-05, + "loss": 0.0562, + "step": 34725 + }, + { + "epoch": 0.222272, + "grad_norm": 6.006451606750488, + "learning_rate": 1.851818666666667e-05, + "loss": 0.0776, + "step": 34730 + }, + { + "epoch": 0.222304, + "grad_norm": 0.9420551657676697, + "learning_rate": 1.8517973333333334e-05, + "loss": 0.0821, + "step": 34735 + }, + { + "epoch": 0.222336, + "grad_norm": 0.6084997057914734, + "learning_rate": 1.851776e-05, + "loss": 0.0554, + "step": 34740 + }, + { + "epoch": 0.222368, + "grad_norm": 0.4093056619167328, + "learning_rate": 1.851754666666667e-05, + "loss": 0.068, + "step": 34745 + }, + { + "epoch": 0.2224, + "grad_norm": 0.68022221326828, + "learning_rate": 1.8517333333333333e-05, + "loss": 0.074, + "step": 34750 + }, + { + "epoch": 0.222432, + "grad_norm": 0.8345741629600525, + "learning_rate": 1.851712e-05, + "loss": 0.0498, + "step": 34755 + }, + { + "epoch": 0.222464, + "grad_norm": 0.6626870632171631, + "learning_rate": 1.8516906666666668e-05, + "loss": 0.0516, + "step": 34760 + }, + { + "epoch": 0.222496, + "grad_norm": 0.9134652018547058, + "learning_rate": 1.8516693333333336e-05, + "loss": 0.0677, + "step": 34765 + }, + { + "epoch": 0.222528, + "grad_norm": 0.773581862449646, + "learning_rate": 1.851648e-05, + "loss": 0.0623, + "step": 34770 + }, + { + "epoch": 0.22256, + "grad_norm": 1.633128046989441, + "learning_rate": 1.8516266666666668e-05, + "loss": 0.0719, + "step": 34775 + }, + { + "epoch": 0.222592, + "grad_norm": 1.3211257457733154, + "learning_rate": 1.8516053333333335e-05, + "loss": 0.078, + "step": 34780 + }, + { + "epoch": 0.222624, + "grad_norm": 0.39624664187431335, + "learning_rate": 1.851584e-05, + "loss": 0.0421, + "step": 34785 + }, + { + "epoch": 0.222656, + "grad_norm": 0.5485644340515137, + "learning_rate": 1.8515626666666667e-05, + "loss": 0.0392, + "step": 34790 + }, + { + "epoch": 0.222688, + "grad_norm": 1.274169683456421, + "learning_rate": 1.8515413333333334e-05, + "loss": 0.048, + "step": 34795 + }, + { + "epoch": 0.22272, + "grad_norm": 0.49204397201538086, + "learning_rate": 1.8515200000000002e-05, + "loss": 0.045, + "step": 34800 + }, + { + "epoch": 0.222752, + "grad_norm": 1.063145637512207, + "learning_rate": 1.851498666666667e-05, + "loss": 0.0514, + "step": 34805 + }, + { + "epoch": 0.222784, + "grad_norm": 0.819161057472229, + "learning_rate": 1.8514773333333337e-05, + "loss": 0.0702, + "step": 34810 + }, + { + "epoch": 0.222816, + "grad_norm": 0.6471185088157654, + "learning_rate": 1.851456e-05, + "loss": 0.0593, + "step": 34815 + }, + { + "epoch": 0.222848, + "grad_norm": 1.135362148284912, + "learning_rate": 1.851434666666667e-05, + "loss": 0.0819, + "step": 34820 + }, + { + "epoch": 0.22288, + "grad_norm": 0.9011925458908081, + "learning_rate": 1.8514133333333336e-05, + "loss": 0.0564, + "step": 34825 + }, + { + "epoch": 0.222912, + "grad_norm": 0.7500312924385071, + "learning_rate": 1.851392e-05, + "loss": 0.0776, + "step": 34830 + }, + { + "epoch": 0.222944, + "grad_norm": 0.30553245544433594, + "learning_rate": 1.8513706666666668e-05, + "loss": 0.0474, + "step": 34835 + }, + { + "epoch": 0.222976, + "grad_norm": 0.8592770099639893, + "learning_rate": 1.8513493333333336e-05, + "loss": 0.0718, + "step": 34840 + }, + { + "epoch": 0.223008, + "grad_norm": 1.249620795249939, + "learning_rate": 1.8513280000000003e-05, + "loss": 0.0792, + "step": 34845 + }, + { + "epoch": 0.22304, + "grad_norm": 1.377024531364441, + "learning_rate": 1.8513066666666667e-05, + "loss": 0.123, + "step": 34850 + }, + { + "epoch": 0.223072, + "grad_norm": 0.5446467399597168, + "learning_rate": 1.8512853333333335e-05, + "loss": 0.0532, + "step": 34855 + }, + { + "epoch": 0.223104, + "grad_norm": 0.5927236080169678, + "learning_rate": 1.8512640000000002e-05, + "loss": 0.0551, + "step": 34860 + }, + { + "epoch": 0.223136, + "grad_norm": 0.8143985867500305, + "learning_rate": 1.8512426666666667e-05, + "loss": 0.041, + "step": 34865 + }, + { + "epoch": 0.223168, + "grad_norm": 0.32423242926597595, + "learning_rate": 1.8512213333333334e-05, + "loss": 0.0434, + "step": 34870 + }, + { + "epoch": 0.2232, + "grad_norm": 1.2364997863769531, + "learning_rate": 1.8512e-05, + "loss": 0.0656, + "step": 34875 + }, + { + "epoch": 0.223232, + "grad_norm": 0.9495341181755066, + "learning_rate": 1.851178666666667e-05, + "loss": 0.0593, + "step": 34880 + }, + { + "epoch": 0.223264, + "grad_norm": 0.9374191164970398, + "learning_rate": 1.8511573333333333e-05, + "loss": 0.0648, + "step": 34885 + }, + { + "epoch": 0.223296, + "grad_norm": 0.7401478290557861, + "learning_rate": 1.851136e-05, + "loss": 0.0605, + "step": 34890 + }, + { + "epoch": 0.223328, + "grad_norm": 5.983330726623535, + "learning_rate": 1.851114666666667e-05, + "loss": 0.1196, + "step": 34895 + }, + { + "epoch": 0.22336, + "grad_norm": 0.5027076005935669, + "learning_rate": 1.8510933333333333e-05, + "loss": 0.0563, + "step": 34900 + }, + { + "epoch": 0.223392, + "grad_norm": 1.204813838005066, + "learning_rate": 1.8510720000000004e-05, + "loss": 0.0953, + "step": 34905 + }, + { + "epoch": 0.223424, + "grad_norm": 0.5064460635185242, + "learning_rate": 1.8510506666666668e-05, + "loss": 0.0443, + "step": 34910 + }, + { + "epoch": 0.223456, + "grad_norm": 0.8271646499633789, + "learning_rate": 1.8510293333333335e-05, + "loss": 0.0715, + "step": 34915 + }, + { + "epoch": 0.223488, + "grad_norm": 0.49287617206573486, + "learning_rate": 1.8510080000000003e-05, + "loss": 0.0448, + "step": 34920 + }, + { + "epoch": 0.22352, + "grad_norm": 1.0249381065368652, + "learning_rate": 1.8509866666666667e-05, + "loss": 0.0868, + "step": 34925 + }, + { + "epoch": 0.223552, + "grad_norm": 0.5739201307296753, + "learning_rate": 1.8509653333333335e-05, + "loss": 0.0388, + "step": 34930 + }, + { + "epoch": 0.223584, + "grad_norm": 0.5077999830245972, + "learning_rate": 1.8509440000000002e-05, + "loss": 0.0509, + "step": 34935 + }, + { + "epoch": 0.223616, + "grad_norm": 1.0280109643936157, + "learning_rate": 1.850922666666667e-05, + "loss": 0.0769, + "step": 34940 + }, + { + "epoch": 0.223648, + "grad_norm": 0.9939008355140686, + "learning_rate": 1.8509013333333334e-05, + "loss": 0.0614, + "step": 34945 + }, + { + "epoch": 0.22368, + "grad_norm": 1.0188316106796265, + "learning_rate": 1.85088e-05, + "loss": 0.063, + "step": 34950 + }, + { + "epoch": 0.223712, + "grad_norm": 2.9950287342071533, + "learning_rate": 1.850858666666667e-05, + "loss": 0.0704, + "step": 34955 + }, + { + "epoch": 0.223744, + "grad_norm": 0.33114877343177795, + "learning_rate": 1.8508373333333333e-05, + "loss": 0.0786, + "step": 34960 + }, + { + "epoch": 0.223776, + "grad_norm": 0.6777476072311401, + "learning_rate": 1.850816e-05, + "loss": 0.0529, + "step": 34965 + }, + { + "epoch": 0.223808, + "grad_norm": 0.8974038362503052, + "learning_rate": 1.8507946666666668e-05, + "loss": 0.058, + "step": 34970 + }, + { + "epoch": 0.22384, + "grad_norm": 0.6149561405181885, + "learning_rate": 1.8507733333333336e-05, + "loss": 0.0611, + "step": 34975 + }, + { + "epoch": 0.223872, + "grad_norm": 0.978711724281311, + "learning_rate": 1.850752e-05, + "loss": 0.0911, + "step": 34980 + }, + { + "epoch": 0.223904, + "grad_norm": 0.5528157353401184, + "learning_rate": 1.8507306666666668e-05, + "loss": 0.0497, + "step": 34985 + }, + { + "epoch": 0.223936, + "grad_norm": 1.7766999006271362, + "learning_rate": 1.8507093333333335e-05, + "loss": 0.0743, + "step": 34990 + }, + { + "epoch": 0.223968, + "grad_norm": 0.6660608053207397, + "learning_rate": 1.8506880000000003e-05, + "loss": 0.0676, + "step": 34995 + }, + { + "epoch": 0.224, + "grad_norm": 0.255854070186615, + "learning_rate": 1.8506666666666667e-05, + "loss": 0.0401, + "step": 35000 + }, + { + "epoch": 0.224032, + "grad_norm": 0.5584330558776855, + "learning_rate": 1.8506453333333334e-05, + "loss": 0.0556, + "step": 35005 + }, + { + "epoch": 0.224064, + "grad_norm": 0.9308560490608215, + "learning_rate": 1.8506240000000002e-05, + "loss": 0.0749, + "step": 35010 + }, + { + "epoch": 0.224096, + "grad_norm": 0.527145504951477, + "learning_rate": 1.8506026666666666e-05, + "loss": 0.0447, + "step": 35015 + }, + { + "epoch": 0.224128, + "grad_norm": 1.2134499549865723, + "learning_rate": 1.8505813333333337e-05, + "loss": 0.0883, + "step": 35020 + }, + { + "epoch": 0.22416, + "grad_norm": 0.6104066371917725, + "learning_rate": 1.85056e-05, + "loss": 0.0753, + "step": 35025 + }, + { + "epoch": 0.224192, + "grad_norm": 3.513237476348877, + "learning_rate": 1.850538666666667e-05, + "loss": 0.0592, + "step": 35030 + }, + { + "epoch": 0.224224, + "grad_norm": 1.1864523887634277, + "learning_rate": 1.8505173333333336e-05, + "loss": 0.0501, + "step": 35035 + }, + { + "epoch": 0.224256, + "grad_norm": 1.5972018241882324, + "learning_rate": 1.850496e-05, + "loss": 0.0502, + "step": 35040 + }, + { + "epoch": 0.224288, + "grad_norm": 0.42238548398017883, + "learning_rate": 1.8504746666666668e-05, + "loss": 0.0708, + "step": 35045 + }, + { + "epoch": 0.22432, + "grad_norm": 0.7221266031265259, + "learning_rate": 1.8504533333333336e-05, + "loss": 0.0474, + "step": 35050 + }, + { + "epoch": 0.224352, + "grad_norm": 1.8988205194473267, + "learning_rate": 1.8504320000000003e-05, + "loss": 0.0756, + "step": 35055 + }, + { + "epoch": 0.224384, + "grad_norm": 1.3595472574234009, + "learning_rate": 1.8504106666666667e-05, + "loss": 0.0644, + "step": 35060 + }, + { + "epoch": 0.224416, + "grad_norm": 0.8571324944496155, + "learning_rate": 1.8503893333333335e-05, + "loss": 0.0415, + "step": 35065 + }, + { + "epoch": 0.224448, + "grad_norm": 0.7713865041732788, + "learning_rate": 1.8503680000000002e-05, + "loss": 0.0761, + "step": 35070 + }, + { + "epoch": 0.22448, + "grad_norm": 1.0532985925674438, + "learning_rate": 1.8503466666666667e-05, + "loss": 0.0852, + "step": 35075 + }, + { + "epoch": 0.224512, + "grad_norm": 0.26754993200302124, + "learning_rate": 1.8503253333333334e-05, + "loss": 0.0479, + "step": 35080 + }, + { + "epoch": 0.224544, + "grad_norm": 1.1107829809188843, + "learning_rate": 1.850304e-05, + "loss": 0.0421, + "step": 35085 + }, + { + "epoch": 0.224576, + "grad_norm": 1.0397247076034546, + "learning_rate": 1.850282666666667e-05, + "loss": 0.0574, + "step": 35090 + }, + { + "epoch": 0.224608, + "grad_norm": 0.7668716311454773, + "learning_rate": 1.8502613333333333e-05, + "loss": 0.0823, + "step": 35095 + }, + { + "epoch": 0.22464, + "grad_norm": 1.491754174232483, + "learning_rate": 1.85024e-05, + "loss": 0.0603, + "step": 35100 + }, + { + "epoch": 0.224672, + "grad_norm": 0.8300331830978394, + "learning_rate": 1.850218666666667e-05, + "loss": 0.0432, + "step": 35105 + }, + { + "epoch": 0.224704, + "grad_norm": 0.6784313917160034, + "learning_rate": 1.8501973333333333e-05, + "loss": 0.1063, + "step": 35110 + }, + { + "epoch": 0.224736, + "grad_norm": 0.88956218957901, + "learning_rate": 1.8501760000000004e-05, + "loss": 0.0476, + "step": 35115 + }, + { + "epoch": 0.224768, + "grad_norm": 1.1989611387252808, + "learning_rate": 1.8501546666666668e-05, + "loss": 0.0469, + "step": 35120 + }, + { + "epoch": 0.2248, + "grad_norm": 0.5355021357536316, + "learning_rate": 1.8501333333333335e-05, + "loss": 0.0551, + "step": 35125 + }, + { + "epoch": 0.224832, + "grad_norm": 1.2685744762420654, + "learning_rate": 1.8501120000000003e-05, + "loss": 0.0486, + "step": 35130 + }, + { + "epoch": 0.224864, + "grad_norm": 0.6992546319961548, + "learning_rate": 1.850090666666667e-05, + "loss": 0.0725, + "step": 35135 + }, + { + "epoch": 0.224896, + "grad_norm": 0.9895725846290588, + "learning_rate": 1.8500693333333335e-05, + "loss": 0.0699, + "step": 35140 + }, + { + "epoch": 0.224928, + "grad_norm": 0.9597273468971252, + "learning_rate": 1.8500480000000002e-05, + "loss": 0.0706, + "step": 35145 + }, + { + "epoch": 0.22496, + "grad_norm": 6.128406047821045, + "learning_rate": 1.850026666666667e-05, + "loss": 0.0791, + "step": 35150 + }, + { + "epoch": 0.224992, + "grad_norm": 0.4080878794193268, + "learning_rate": 1.8500053333333334e-05, + "loss": 0.044, + "step": 35155 + }, + { + "epoch": 0.225024, + "grad_norm": 1.982993245124817, + "learning_rate": 1.849984e-05, + "loss": 0.0557, + "step": 35160 + }, + { + "epoch": 0.225056, + "grad_norm": 0.36452919244766235, + "learning_rate": 1.849962666666667e-05, + "loss": 0.0471, + "step": 35165 + }, + { + "epoch": 0.225088, + "grad_norm": 0.6606404185295105, + "learning_rate": 1.8499413333333337e-05, + "loss": 0.0752, + "step": 35170 + }, + { + "epoch": 0.22512, + "grad_norm": 0.664600133895874, + "learning_rate": 1.84992e-05, + "loss": 0.0724, + "step": 35175 + }, + { + "epoch": 0.225152, + "grad_norm": 0.8991987109184265, + "learning_rate": 1.8498986666666668e-05, + "loss": 0.0672, + "step": 35180 + }, + { + "epoch": 0.225184, + "grad_norm": 0.2902693748474121, + "learning_rate": 1.8498773333333336e-05, + "loss": 0.0395, + "step": 35185 + }, + { + "epoch": 0.225216, + "grad_norm": 1.2158777713775635, + "learning_rate": 1.849856e-05, + "loss": 0.0759, + "step": 35190 + }, + { + "epoch": 0.225248, + "grad_norm": 6.884814739227295, + "learning_rate": 1.8498346666666668e-05, + "loss": 0.0482, + "step": 35195 + }, + { + "epoch": 0.22528, + "grad_norm": 1.5938420295715332, + "learning_rate": 1.8498133333333335e-05, + "loss": 0.0884, + "step": 35200 + }, + { + "epoch": 0.225312, + "grad_norm": 0.34013843536376953, + "learning_rate": 1.8497920000000003e-05, + "loss": 0.0455, + "step": 35205 + }, + { + "epoch": 0.225344, + "grad_norm": 0.9690936207771301, + "learning_rate": 1.8497706666666667e-05, + "loss": 0.0421, + "step": 35210 + }, + { + "epoch": 0.225376, + "grad_norm": 0.8733105659484863, + "learning_rate": 1.8497493333333334e-05, + "loss": 0.0516, + "step": 35215 + }, + { + "epoch": 0.225408, + "grad_norm": 0.3095375597476959, + "learning_rate": 1.8497280000000002e-05, + "loss": 0.0445, + "step": 35220 + }, + { + "epoch": 0.22544, + "grad_norm": 0.6210022568702698, + "learning_rate": 1.8497066666666666e-05, + "loss": 0.0429, + "step": 35225 + }, + { + "epoch": 0.225472, + "grad_norm": 0.6546083092689514, + "learning_rate": 1.8496853333333337e-05, + "loss": 0.0589, + "step": 35230 + }, + { + "epoch": 0.225504, + "grad_norm": 0.7445104718208313, + "learning_rate": 1.849664e-05, + "loss": 0.0527, + "step": 35235 + }, + { + "epoch": 0.225536, + "grad_norm": 0.6669852137565613, + "learning_rate": 1.849642666666667e-05, + "loss": 0.0585, + "step": 35240 + }, + { + "epoch": 0.225568, + "grad_norm": 0.6501421332359314, + "learning_rate": 1.8496213333333336e-05, + "loss": 0.0615, + "step": 35245 + }, + { + "epoch": 0.2256, + "grad_norm": 0.6664370894432068, + "learning_rate": 1.8496e-05, + "loss": 0.062, + "step": 35250 + }, + { + "epoch": 0.225632, + "grad_norm": 0.9998883008956909, + "learning_rate": 1.8495786666666668e-05, + "loss": 0.0869, + "step": 35255 + }, + { + "epoch": 0.225664, + "grad_norm": 1.5015194416046143, + "learning_rate": 1.8495573333333336e-05, + "loss": 0.0509, + "step": 35260 + }, + { + "epoch": 0.225696, + "grad_norm": 0.3784685730934143, + "learning_rate": 1.8495360000000003e-05, + "loss": 0.0444, + "step": 35265 + }, + { + "epoch": 0.225728, + "grad_norm": 0.9518657326698303, + "learning_rate": 1.8495146666666667e-05, + "loss": 0.0602, + "step": 35270 + }, + { + "epoch": 0.22576, + "grad_norm": 0.444173663854599, + "learning_rate": 1.8494933333333335e-05, + "loss": 0.0467, + "step": 35275 + }, + { + "epoch": 0.225792, + "grad_norm": 0.9138150811195374, + "learning_rate": 1.8494720000000002e-05, + "loss": 0.0754, + "step": 35280 + }, + { + "epoch": 0.225824, + "grad_norm": 0.9775164723396301, + "learning_rate": 1.8494506666666667e-05, + "loss": 0.0706, + "step": 35285 + }, + { + "epoch": 0.225856, + "grad_norm": 0.46743857860565186, + "learning_rate": 1.8494293333333334e-05, + "loss": 0.0562, + "step": 35290 + }, + { + "epoch": 0.225888, + "grad_norm": 0.5454367399215698, + "learning_rate": 1.849408e-05, + "loss": 0.0453, + "step": 35295 + }, + { + "epoch": 0.22592, + "grad_norm": 1.2696839570999146, + "learning_rate": 1.849386666666667e-05, + "loss": 0.0426, + "step": 35300 + }, + { + "epoch": 0.225952, + "grad_norm": 1.0022903680801392, + "learning_rate": 1.8493653333333333e-05, + "loss": 0.0422, + "step": 35305 + }, + { + "epoch": 0.225984, + "grad_norm": 1.4006268978118896, + "learning_rate": 1.849344e-05, + "loss": 0.1134, + "step": 35310 + }, + { + "epoch": 0.226016, + "grad_norm": 0.7608733177185059, + "learning_rate": 1.849322666666667e-05, + "loss": 0.0512, + "step": 35315 + }, + { + "epoch": 0.226048, + "grad_norm": 0.4336566925048828, + "learning_rate": 1.8493013333333333e-05, + "loss": 0.0456, + "step": 35320 + }, + { + "epoch": 0.22608, + "grad_norm": 1.275424599647522, + "learning_rate": 1.84928e-05, + "loss": 0.0735, + "step": 35325 + }, + { + "epoch": 0.226112, + "grad_norm": 0.47018197178840637, + "learning_rate": 1.8492586666666668e-05, + "loss": 0.0629, + "step": 35330 + }, + { + "epoch": 0.226144, + "grad_norm": 0.5758857727050781, + "learning_rate": 1.8492373333333335e-05, + "loss": 0.0517, + "step": 35335 + }, + { + "epoch": 0.226176, + "grad_norm": 0.8099128007888794, + "learning_rate": 1.8492160000000003e-05, + "loss": 0.0427, + "step": 35340 + }, + { + "epoch": 0.226208, + "grad_norm": 2.401078462600708, + "learning_rate": 1.849194666666667e-05, + "loss": 0.0441, + "step": 35345 + }, + { + "epoch": 0.22624, + "grad_norm": 0.7761704325675964, + "learning_rate": 1.8491733333333335e-05, + "loss": 0.0518, + "step": 35350 + }, + { + "epoch": 0.226272, + "grad_norm": 0.6111268997192383, + "learning_rate": 1.8491520000000002e-05, + "loss": 0.045, + "step": 35355 + }, + { + "epoch": 0.226304, + "grad_norm": 2.011927366256714, + "learning_rate": 1.849130666666667e-05, + "loss": 0.0521, + "step": 35360 + }, + { + "epoch": 0.226336, + "grad_norm": 1.670204997062683, + "learning_rate": 1.8491093333333334e-05, + "loss": 0.0827, + "step": 35365 + }, + { + "epoch": 0.226368, + "grad_norm": 1.0658316612243652, + "learning_rate": 1.849088e-05, + "loss": 0.0441, + "step": 35370 + }, + { + "epoch": 0.2264, + "grad_norm": 0.461934357881546, + "learning_rate": 1.849066666666667e-05, + "loss": 0.0471, + "step": 35375 + }, + { + "epoch": 0.226432, + "grad_norm": 2.280848503112793, + "learning_rate": 1.8490453333333337e-05, + "loss": 0.0771, + "step": 35380 + }, + { + "epoch": 0.226464, + "grad_norm": 0.6456670165061951, + "learning_rate": 1.849024e-05, + "loss": 0.0653, + "step": 35385 + }, + { + "epoch": 0.226496, + "grad_norm": 1.1773232221603394, + "learning_rate": 1.8490026666666668e-05, + "loss": 0.0555, + "step": 35390 + }, + { + "epoch": 0.226528, + "grad_norm": 0.6681210994720459, + "learning_rate": 1.8489813333333336e-05, + "loss": 0.0438, + "step": 35395 + }, + { + "epoch": 0.22656, + "grad_norm": 2.542158365249634, + "learning_rate": 1.84896e-05, + "loss": 0.082, + "step": 35400 + }, + { + "epoch": 0.226592, + "grad_norm": 1.1838276386260986, + "learning_rate": 1.8489386666666668e-05, + "loss": 0.0695, + "step": 35405 + }, + { + "epoch": 0.226624, + "grad_norm": 1.5876020193099976, + "learning_rate": 1.8489173333333335e-05, + "loss": 0.1035, + "step": 35410 + }, + { + "epoch": 0.226656, + "grad_norm": 1.0138356685638428, + "learning_rate": 1.8488960000000003e-05, + "loss": 0.0582, + "step": 35415 + }, + { + "epoch": 0.226688, + "grad_norm": 0.8345808386802673, + "learning_rate": 1.8488746666666667e-05, + "loss": 0.0711, + "step": 35420 + }, + { + "epoch": 0.22672, + "grad_norm": 0.6121370792388916, + "learning_rate": 1.8488533333333334e-05, + "loss": 0.0552, + "step": 35425 + }, + { + "epoch": 0.226752, + "grad_norm": 1.6976468563079834, + "learning_rate": 1.8488320000000002e-05, + "loss": 0.0573, + "step": 35430 + }, + { + "epoch": 0.226784, + "grad_norm": 0.5244342684745789, + "learning_rate": 1.8488106666666666e-05, + "loss": 0.0497, + "step": 35435 + }, + { + "epoch": 0.226816, + "grad_norm": 0.46463659405708313, + "learning_rate": 1.8487893333333337e-05, + "loss": 0.0465, + "step": 35440 + }, + { + "epoch": 0.226848, + "grad_norm": 0.33430129289627075, + "learning_rate": 1.848768e-05, + "loss": 0.0541, + "step": 35445 + }, + { + "epoch": 0.22688, + "grad_norm": 0.998049795627594, + "learning_rate": 1.848746666666667e-05, + "loss": 0.058, + "step": 35450 + }, + { + "epoch": 0.226912, + "grad_norm": 0.5833964347839355, + "learning_rate": 1.8487253333333336e-05, + "loss": 0.0452, + "step": 35455 + }, + { + "epoch": 0.226944, + "grad_norm": 0.69999760389328, + "learning_rate": 1.848704e-05, + "loss": 0.0593, + "step": 35460 + }, + { + "epoch": 0.226976, + "grad_norm": 3.541368246078491, + "learning_rate": 1.8486826666666668e-05, + "loss": 0.0563, + "step": 35465 + }, + { + "epoch": 0.227008, + "grad_norm": 1.070930004119873, + "learning_rate": 1.8486613333333336e-05, + "loss": 0.0681, + "step": 35470 + }, + { + "epoch": 0.22704, + "grad_norm": 0.7873933911323547, + "learning_rate": 1.8486400000000003e-05, + "loss": 0.048, + "step": 35475 + }, + { + "epoch": 0.227072, + "grad_norm": 0.6823844909667969, + "learning_rate": 1.8486186666666667e-05, + "loss": 0.0485, + "step": 35480 + }, + { + "epoch": 0.227104, + "grad_norm": 0.716764509677887, + "learning_rate": 1.8485973333333335e-05, + "loss": 0.0435, + "step": 35485 + }, + { + "epoch": 0.227136, + "grad_norm": 0.9216992855072021, + "learning_rate": 1.8485760000000002e-05, + "loss": 0.0366, + "step": 35490 + }, + { + "epoch": 0.227168, + "grad_norm": 0.7622694969177246, + "learning_rate": 1.8485546666666667e-05, + "loss": 0.0595, + "step": 35495 + }, + { + "epoch": 0.2272, + "grad_norm": 2.3445186614990234, + "learning_rate": 1.8485333333333334e-05, + "loss": 0.0613, + "step": 35500 + }, + { + "epoch": 0.227232, + "grad_norm": 0.9021306037902832, + "learning_rate": 1.848512e-05, + "loss": 0.0533, + "step": 35505 + }, + { + "epoch": 0.227264, + "grad_norm": 1.5155256986618042, + "learning_rate": 1.848490666666667e-05, + "loss": 0.0659, + "step": 35510 + }, + { + "epoch": 0.227296, + "grad_norm": 1.739254355430603, + "learning_rate": 1.8484693333333333e-05, + "loss": 0.045, + "step": 35515 + }, + { + "epoch": 0.227328, + "grad_norm": 0.7347487211227417, + "learning_rate": 1.848448e-05, + "loss": 0.0702, + "step": 35520 + }, + { + "epoch": 0.22736, + "grad_norm": 0.5410801768302917, + "learning_rate": 1.848426666666667e-05, + "loss": 0.0501, + "step": 35525 + }, + { + "epoch": 0.227392, + "grad_norm": 0.7133593559265137, + "learning_rate": 1.8484053333333333e-05, + "loss": 0.0495, + "step": 35530 + }, + { + "epoch": 0.227424, + "grad_norm": 0.3296505808830261, + "learning_rate": 1.848384e-05, + "loss": 0.0629, + "step": 35535 + }, + { + "epoch": 0.227456, + "grad_norm": 1.079660415649414, + "learning_rate": 1.8483626666666668e-05, + "loss": 0.1039, + "step": 35540 + }, + { + "epoch": 0.227488, + "grad_norm": 0.7660923600196838, + "learning_rate": 1.8483413333333335e-05, + "loss": 0.1094, + "step": 35545 + }, + { + "epoch": 0.22752, + "grad_norm": 1.040125846862793, + "learning_rate": 1.84832e-05, + "loss": 0.0818, + "step": 35550 + }, + { + "epoch": 0.227552, + "grad_norm": 0.4217974543571472, + "learning_rate": 1.848298666666667e-05, + "loss": 0.0733, + "step": 35555 + }, + { + "epoch": 0.227584, + "grad_norm": 0.6504346132278442, + "learning_rate": 1.8482773333333335e-05, + "loss": 0.0443, + "step": 35560 + }, + { + "epoch": 0.227616, + "grad_norm": 1.9949783086776733, + "learning_rate": 1.8482560000000002e-05, + "loss": 0.0706, + "step": 35565 + }, + { + "epoch": 0.227648, + "grad_norm": 0.46736258268356323, + "learning_rate": 1.848234666666667e-05, + "loss": 0.0805, + "step": 35570 + }, + { + "epoch": 0.22768, + "grad_norm": 1.1851195096969604, + "learning_rate": 1.8482133333333334e-05, + "loss": 0.0861, + "step": 35575 + }, + { + "epoch": 0.227712, + "grad_norm": 1.004014253616333, + "learning_rate": 1.848192e-05, + "loss": 0.051, + "step": 35580 + }, + { + "epoch": 0.227744, + "grad_norm": 0.7606385350227356, + "learning_rate": 1.848170666666667e-05, + "loss": 0.0648, + "step": 35585 + }, + { + "epoch": 0.227776, + "grad_norm": 1.4207429885864258, + "learning_rate": 1.8481493333333337e-05, + "loss": 0.0683, + "step": 35590 + }, + { + "epoch": 0.227808, + "grad_norm": 0.8984713554382324, + "learning_rate": 1.848128e-05, + "loss": 0.0706, + "step": 35595 + }, + { + "epoch": 0.22784, + "grad_norm": 0.7195748090744019, + "learning_rate": 1.8481066666666668e-05, + "loss": 0.0513, + "step": 35600 + }, + { + "epoch": 0.227872, + "grad_norm": 1.0348445177078247, + "learning_rate": 1.8480853333333336e-05, + "loss": 0.0758, + "step": 35605 + }, + { + "epoch": 0.227904, + "grad_norm": 1.2210954427719116, + "learning_rate": 1.848064e-05, + "loss": 0.0884, + "step": 35610 + }, + { + "epoch": 0.227936, + "grad_norm": 1.1222602128982544, + "learning_rate": 1.8480426666666668e-05, + "loss": 0.0721, + "step": 35615 + }, + { + "epoch": 0.227968, + "grad_norm": 0.770318329334259, + "learning_rate": 1.8480213333333335e-05, + "loss": 0.0658, + "step": 35620 + }, + { + "epoch": 0.228, + "grad_norm": 0.8219025135040283, + "learning_rate": 1.8480000000000003e-05, + "loss": 0.0671, + "step": 35625 + }, + { + "epoch": 0.228032, + "grad_norm": 0.6935349106788635, + "learning_rate": 1.8479786666666667e-05, + "loss": 0.0458, + "step": 35630 + }, + { + "epoch": 0.228064, + "grad_norm": 0.6309146881103516, + "learning_rate": 1.8479573333333334e-05, + "loss": 0.0506, + "step": 35635 + }, + { + "epoch": 0.228096, + "grad_norm": 0.6152012348175049, + "learning_rate": 1.8479360000000002e-05, + "loss": 0.0507, + "step": 35640 + }, + { + "epoch": 0.228128, + "grad_norm": 0.7939969897270203, + "learning_rate": 1.8479146666666666e-05, + "loss": 0.0895, + "step": 35645 + }, + { + "epoch": 0.22816, + "grad_norm": 0.3034539520740509, + "learning_rate": 1.8478933333333337e-05, + "loss": 0.0483, + "step": 35650 + }, + { + "epoch": 0.228192, + "grad_norm": 1.050048828125, + "learning_rate": 1.847872e-05, + "loss": 0.0722, + "step": 35655 + }, + { + "epoch": 0.228224, + "grad_norm": 0.5835153460502625, + "learning_rate": 1.847850666666667e-05, + "loss": 0.0346, + "step": 35660 + }, + { + "epoch": 0.228256, + "grad_norm": 0.7582274675369263, + "learning_rate": 1.8478293333333336e-05, + "loss": 0.0925, + "step": 35665 + }, + { + "epoch": 0.228288, + "grad_norm": 0.57872074842453, + "learning_rate": 1.847808e-05, + "loss": 0.0773, + "step": 35670 + }, + { + "epoch": 0.22832, + "grad_norm": 0.476822167634964, + "learning_rate": 1.8477866666666668e-05, + "loss": 0.0492, + "step": 35675 + }, + { + "epoch": 0.228352, + "grad_norm": 1.0814107656478882, + "learning_rate": 1.8477653333333336e-05, + "loss": 0.0607, + "step": 35680 + }, + { + "epoch": 0.228384, + "grad_norm": 0.966261088848114, + "learning_rate": 1.8477440000000003e-05, + "loss": 0.0373, + "step": 35685 + }, + { + "epoch": 0.228416, + "grad_norm": 0.5387365818023682, + "learning_rate": 1.8477226666666667e-05, + "loss": 0.085, + "step": 35690 + }, + { + "epoch": 0.228448, + "grad_norm": 1.7176966667175293, + "learning_rate": 1.8477013333333335e-05, + "loss": 0.0505, + "step": 35695 + }, + { + "epoch": 0.22848, + "grad_norm": 1.0989519357681274, + "learning_rate": 1.8476800000000002e-05, + "loss": 0.0816, + "step": 35700 + }, + { + "epoch": 0.228512, + "grad_norm": 0.6685349941253662, + "learning_rate": 1.8476586666666667e-05, + "loss": 0.0347, + "step": 35705 + }, + { + "epoch": 0.228544, + "grad_norm": 4.312918186187744, + "learning_rate": 1.8476373333333334e-05, + "loss": 0.0867, + "step": 35710 + }, + { + "epoch": 0.228576, + "grad_norm": 0.7930489778518677, + "learning_rate": 1.847616e-05, + "loss": 0.075, + "step": 35715 + }, + { + "epoch": 0.228608, + "grad_norm": 0.4645361304283142, + "learning_rate": 1.847594666666667e-05, + "loss": 0.0328, + "step": 35720 + }, + { + "epoch": 0.22864, + "grad_norm": 0.538801372051239, + "learning_rate": 1.8475733333333333e-05, + "loss": 0.0575, + "step": 35725 + }, + { + "epoch": 0.228672, + "grad_norm": 1.1971135139465332, + "learning_rate": 1.847552e-05, + "loss": 0.0591, + "step": 35730 + }, + { + "epoch": 0.228704, + "grad_norm": 0.4826449155807495, + "learning_rate": 1.847530666666667e-05, + "loss": 0.0497, + "step": 35735 + }, + { + "epoch": 0.228736, + "grad_norm": 2.0738508701324463, + "learning_rate": 1.8475093333333333e-05, + "loss": 0.088, + "step": 35740 + }, + { + "epoch": 0.228768, + "grad_norm": 0.5601683855056763, + "learning_rate": 1.847488e-05, + "loss": 0.0513, + "step": 35745 + }, + { + "epoch": 0.2288, + "grad_norm": 0.8481561541557312, + "learning_rate": 1.8474666666666668e-05, + "loss": 0.0689, + "step": 35750 + }, + { + "epoch": 0.228832, + "grad_norm": 6.73529052734375, + "learning_rate": 1.8474453333333335e-05, + "loss": 0.0644, + "step": 35755 + }, + { + "epoch": 0.228864, + "grad_norm": 0.40169185400009155, + "learning_rate": 1.847424e-05, + "loss": 0.0529, + "step": 35760 + }, + { + "epoch": 0.228896, + "grad_norm": 0.5787258148193359, + "learning_rate": 1.847402666666667e-05, + "loss": 0.0563, + "step": 35765 + }, + { + "epoch": 0.228928, + "grad_norm": 0.8139479756355286, + "learning_rate": 1.8473813333333335e-05, + "loss": 0.0712, + "step": 35770 + }, + { + "epoch": 0.22896, + "grad_norm": 0.39313071966171265, + "learning_rate": 1.84736e-05, + "loss": 0.0583, + "step": 35775 + }, + { + "epoch": 0.228992, + "grad_norm": 3.7249653339385986, + "learning_rate": 1.847338666666667e-05, + "loss": 0.0727, + "step": 35780 + }, + { + "epoch": 0.229024, + "grad_norm": 0.6043630242347717, + "learning_rate": 1.8473173333333334e-05, + "loss": 0.0765, + "step": 35785 + }, + { + "epoch": 0.229056, + "grad_norm": 1.1364611387252808, + "learning_rate": 1.847296e-05, + "loss": 0.0612, + "step": 35790 + }, + { + "epoch": 0.229088, + "grad_norm": 0.4371783137321472, + "learning_rate": 1.847274666666667e-05, + "loss": 0.0296, + "step": 35795 + }, + { + "epoch": 0.22912, + "grad_norm": 0.7759138941764832, + "learning_rate": 1.8472533333333337e-05, + "loss": 0.0417, + "step": 35800 + }, + { + "epoch": 0.229152, + "grad_norm": 0.43182697892189026, + "learning_rate": 1.847232e-05, + "loss": 0.0528, + "step": 35805 + }, + { + "epoch": 0.229184, + "grad_norm": 0.5549015998840332, + "learning_rate": 1.8472106666666668e-05, + "loss": 0.0912, + "step": 35810 + }, + { + "epoch": 0.229216, + "grad_norm": 1.2019307613372803, + "learning_rate": 1.8471893333333336e-05, + "loss": 0.0804, + "step": 35815 + }, + { + "epoch": 0.229248, + "grad_norm": 0.563793420791626, + "learning_rate": 1.847168e-05, + "loss": 0.0665, + "step": 35820 + }, + { + "epoch": 0.22928, + "grad_norm": 1.4818015098571777, + "learning_rate": 1.8471466666666668e-05, + "loss": 0.0595, + "step": 35825 + }, + { + "epoch": 0.229312, + "grad_norm": 1.8138030767440796, + "learning_rate": 1.8471253333333335e-05, + "loss": 0.1021, + "step": 35830 + }, + { + "epoch": 0.229344, + "grad_norm": 0.6898245811462402, + "learning_rate": 1.8471040000000003e-05, + "loss": 0.0678, + "step": 35835 + }, + { + "epoch": 0.229376, + "grad_norm": 0.9294241070747375, + "learning_rate": 1.8470826666666667e-05, + "loss": 0.069, + "step": 35840 + }, + { + "epoch": 0.229408, + "grad_norm": 0.7351222038269043, + "learning_rate": 1.8470613333333334e-05, + "loss": 0.0659, + "step": 35845 + }, + { + "epoch": 0.22944, + "grad_norm": 0.49154940247535706, + "learning_rate": 1.8470400000000002e-05, + "loss": 0.0621, + "step": 35850 + }, + { + "epoch": 0.229472, + "grad_norm": 0.5923020243644714, + "learning_rate": 1.8470186666666666e-05, + "loss": 0.0418, + "step": 35855 + }, + { + "epoch": 0.229504, + "grad_norm": 0.7947628498077393, + "learning_rate": 1.8469973333333334e-05, + "loss": 0.0501, + "step": 35860 + }, + { + "epoch": 0.229536, + "grad_norm": 0.71802818775177, + "learning_rate": 1.846976e-05, + "loss": 0.058, + "step": 35865 + }, + { + "epoch": 0.229568, + "grad_norm": 0.6745785474777222, + "learning_rate": 1.846954666666667e-05, + "loss": 0.0574, + "step": 35870 + }, + { + "epoch": 0.2296, + "grad_norm": 0.5020785927772522, + "learning_rate": 1.8469333333333336e-05, + "loss": 0.0493, + "step": 35875 + }, + { + "epoch": 0.229632, + "grad_norm": 1.1055512428283691, + "learning_rate": 1.8469120000000004e-05, + "loss": 0.0597, + "step": 35880 + }, + { + "epoch": 0.229664, + "grad_norm": 0.4991587698459625, + "learning_rate": 1.8468906666666668e-05, + "loss": 0.0561, + "step": 35885 + }, + { + "epoch": 0.229696, + "grad_norm": 0.09104396402835846, + "learning_rate": 1.8468693333333336e-05, + "loss": 0.033, + "step": 35890 + }, + { + "epoch": 0.229728, + "grad_norm": 0.5913974642753601, + "learning_rate": 1.8468480000000003e-05, + "loss": 0.0405, + "step": 35895 + }, + { + "epoch": 0.22976, + "grad_norm": 0.8089327812194824, + "learning_rate": 1.8468266666666667e-05, + "loss": 0.0384, + "step": 35900 + }, + { + "epoch": 0.229792, + "grad_norm": 0.6225524544715881, + "learning_rate": 1.8468053333333335e-05, + "loss": 0.0567, + "step": 35905 + }, + { + "epoch": 0.229824, + "grad_norm": 0.7485496997833252, + "learning_rate": 1.8467840000000002e-05, + "loss": 0.038, + "step": 35910 + }, + { + "epoch": 0.229856, + "grad_norm": 0.4802223742008209, + "learning_rate": 1.846762666666667e-05, + "loss": 0.0394, + "step": 35915 + }, + { + "epoch": 0.229888, + "grad_norm": 0.9753006100654602, + "learning_rate": 1.8467413333333334e-05, + "loss": 0.0519, + "step": 35920 + }, + { + "epoch": 0.22992, + "grad_norm": 0.7730255126953125, + "learning_rate": 1.84672e-05, + "loss": 0.0613, + "step": 35925 + }, + { + "epoch": 0.229952, + "grad_norm": 0.6889216303825378, + "learning_rate": 1.846698666666667e-05, + "loss": 0.0478, + "step": 35930 + }, + { + "epoch": 0.229984, + "grad_norm": 0.8580741882324219, + "learning_rate": 1.8466773333333333e-05, + "loss": 0.0545, + "step": 35935 + }, + { + "epoch": 0.230016, + "grad_norm": 0.7979427576065063, + "learning_rate": 1.846656e-05, + "loss": 0.0659, + "step": 35940 + }, + { + "epoch": 0.230048, + "grad_norm": 0.6634429693222046, + "learning_rate": 1.846634666666667e-05, + "loss": 0.0558, + "step": 35945 + }, + { + "epoch": 0.23008, + "grad_norm": 1.452690839767456, + "learning_rate": 1.8466133333333336e-05, + "loss": 0.0652, + "step": 35950 + }, + { + "epoch": 0.230112, + "grad_norm": 1.1262941360473633, + "learning_rate": 1.846592e-05, + "loss": 0.0706, + "step": 35955 + }, + { + "epoch": 0.230144, + "grad_norm": 2.30863618850708, + "learning_rate": 1.8465706666666668e-05, + "loss": 0.0705, + "step": 35960 + }, + { + "epoch": 0.230176, + "grad_norm": 0.8852083683013916, + "learning_rate": 1.8465493333333335e-05, + "loss": 0.077, + "step": 35965 + }, + { + "epoch": 0.230208, + "grad_norm": 1.6558645963668823, + "learning_rate": 1.846528e-05, + "loss": 0.0532, + "step": 35970 + }, + { + "epoch": 0.23024, + "grad_norm": 0.5504420399665833, + "learning_rate": 1.846506666666667e-05, + "loss": 0.0634, + "step": 35975 + }, + { + "epoch": 0.230272, + "grad_norm": 0.5131158232688904, + "learning_rate": 1.8464853333333335e-05, + "loss": 0.0786, + "step": 35980 + }, + { + "epoch": 0.230304, + "grad_norm": 1.2142672538757324, + "learning_rate": 1.8464640000000002e-05, + "loss": 0.05, + "step": 35985 + }, + { + "epoch": 0.230336, + "grad_norm": 0.4989441931247711, + "learning_rate": 1.846442666666667e-05, + "loss": 0.0413, + "step": 35990 + }, + { + "epoch": 0.230368, + "grad_norm": 0.5945309400558472, + "learning_rate": 1.8464213333333334e-05, + "loss": 0.0907, + "step": 35995 + }, + { + "epoch": 0.2304, + "grad_norm": 0.45348092913627625, + "learning_rate": 1.8464e-05, + "loss": 0.0634, + "step": 36000 + }, + { + "epoch": 0.230432, + "grad_norm": 1.1719257831573486, + "learning_rate": 1.846378666666667e-05, + "loss": 0.0674, + "step": 36005 + }, + { + "epoch": 0.230464, + "grad_norm": 0.5452207326889038, + "learning_rate": 1.8463573333333337e-05, + "loss": 0.0757, + "step": 36010 + }, + { + "epoch": 0.230496, + "grad_norm": 0.7386784553527832, + "learning_rate": 1.846336e-05, + "loss": 0.0476, + "step": 36015 + }, + { + "epoch": 0.230528, + "grad_norm": 0.8983534574508667, + "learning_rate": 1.8463146666666668e-05, + "loss": 0.0591, + "step": 36020 + }, + { + "epoch": 0.23056, + "grad_norm": 0.7007008194923401, + "learning_rate": 1.8462933333333336e-05, + "loss": 0.0623, + "step": 36025 + }, + { + "epoch": 0.230592, + "grad_norm": 0.5333337187767029, + "learning_rate": 1.846272e-05, + "loss": 0.042, + "step": 36030 + }, + { + "epoch": 0.230624, + "grad_norm": 1.4079387187957764, + "learning_rate": 1.8462506666666668e-05, + "loss": 0.0621, + "step": 36035 + }, + { + "epoch": 0.230656, + "grad_norm": 0.9416072964668274, + "learning_rate": 1.8462293333333335e-05, + "loss": 0.0557, + "step": 36040 + }, + { + "epoch": 0.230688, + "grad_norm": 0.8635236024856567, + "learning_rate": 1.8462080000000003e-05, + "loss": 0.0629, + "step": 36045 + }, + { + "epoch": 0.23072, + "grad_norm": 0.8764116168022156, + "learning_rate": 1.8461866666666667e-05, + "loss": 0.0701, + "step": 36050 + }, + { + "epoch": 0.230752, + "grad_norm": 0.7486390471458435, + "learning_rate": 1.8461653333333334e-05, + "loss": 0.0512, + "step": 36055 + }, + { + "epoch": 0.230784, + "grad_norm": 1.2672038078308105, + "learning_rate": 1.8461440000000002e-05, + "loss": 0.0675, + "step": 36060 + }, + { + "epoch": 0.230816, + "grad_norm": 0.6465201377868652, + "learning_rate": 1.8461226666666666e-05, + "loss": 0.0643, + "step": 36065 + }, + { + "epoch": 0.230848, + "grad_norm": 0.4548710584640503, + "learning_rate": 1.8461013333333334e-05, + "loss": 0.0514, + "step": 36070 + }, + { + "epoch": 0.23088, + "grad_norm": 0.7767463326454163, + "learning_rate": 1.84608e-05, + "loss": 0.0573, + "step": 36075 + }, + { + "epoch": 0.230912, + "grad_norm": 0.5883668661117554, + "learning_rate": 1.846058666666667e-05, + "loss": 0.0691, + "step": 36080 + }, + { + "epoch": 0.230944, + "grad_norm": 1.5646700859069824, + "learning_rate": 1.8460373333333333e-05, + "loss": 0.0537, + "step": 36085 + }, + { + "epoch": 0.230976, + "grad_norm": 0.6519387364387512, + "learning_rate": 1.8460160000000004e-05, + "loss": 0.0383, + "step": 36090 + }, + { + "epoch": 0.231008, + "grad_norm": 0.8864619731903076, + "learning_rate": 1.8459946666666668e-05, + "loss": 0.0544, + "step": 36095 + }, + { + "epoch": 0.23104, + "grad_norm": 0.958878219127655, + "learning_rate": 1.8459733333333336e-05, + "loss": 0.0701, + "step": 36100 + }, + { + "epoch": 0.231072, + "grad_norm": 0.7884402871131897, + "learning_rate": 1.8459520000000003e-05, + "loss": 0.0906, + "step": 36105 + }, + { + "epoch": 0.231104, + "grad_norm": 1.5571151971817017, + "learning_rate": 1.8459306666666667e-05, + "loss": 0.0613, + "step": 36110 + }, + { + "epoch": 0.231136, + "grad_norm": 0.8482728600502014, + "learning_rate": 1.8459093333333335e-05, + "loss": 0.0596, + "step": 36115 + }, + { + "epoch": 0.231168, + "grad_norm": 0.7349541187286377, + "learning_rate": 1.8458880000000002e-05, + "loss": 0.0366, + "step": 36120 + }, + { + "epoch": 0.2312, + "grad_norm": 0.6039267778396606, + "learning_rate": 1.845866666666667e-05, + "loss": 0.0472, + "step": 36125 + }, + { + "epoch": 0.231232, + "grad_norm": 0.7679694890975952, + "learning_rate": 1.8458453333333334e-05, + "loss": 0.0636, + "step": 36130 + }, + { + "epoch": 0.231264, + "grad_norm": 0.6403402090072632, + "learning_rate": 1.845824e-05, + "loss": 0.0537, + "step": 36135 + }, + { + "epoch": 0.231296, + "grad_norm": 0.8400693535804749, + "learning_rate": 1.845802666666667e-05, + "loss": 0.0657, + "step": 36140 + }, + { + "epoch": 0.231328, + "grad_norm": 1.3480032682418823, + "learning_rate": 1.8457813333333333e-05, + "loss": 0.0768, + "step": 36145 + }, + { + "epoch": 0.23136, + "grad_norm": 1.1653332710266113, + "learning_rate": 1.84576e-05, + "loss": 0.038, + "step": 36150 + }, + { + "epoch": 0.231392, + "grad_norm": 0.9936622381210327, + "learning_rate": 1.845738666666667e-05, + "loss": 0.0373, + "step": 36155 + }, + { + "epoch": 0.231424, + "grad_norm": 0.5526289939880371, + "learning_rate": 1.8457173333333336e-05, + "loss": 0.0613, + "step": 36160 + }, + { + "epoch": 0.231456, + "grad_norm": 0.9124786853790283, + "learning_rate": 1.845696e-05, + "loss": 0.0388, + "step": 36165 + }, + { + "epoch": 0.231488, + "grad_norm": 1.5076649188995361, + "learning_rate": 1.8456746666666668e-05, + "loss": 0.0633, + "step": 36170 + }, + { + "epoch": 0.23152, + "grad_norm": 0.5479613542556763, + "learning_rate": 1.8456533333333335e-05, + "loss": 0.0627, + "step": 36175 + }, + { + "epoch": 0.231552, + "grad_norm": 0.8680140376091003, + "learning_rate": 1.845632e-05, + "loss": 0.0509, + "step": 36180 + }, + { + "epoch": 0.231584, + "grad_norm": 0.9099031090736389, + "learning_rate": 1.845610666666667e-05, + "loss": 0.0785, + "step": 36185 + }, + { + "epoch": 0.231616, + "grad_norm": 1.838659644126892, + "learning_rate": 1.8455893333333335e-05, + "loss": 0.0741, + "step": 36190 + }, + { + "epoch": 0.231648, + "grad_norm": 1.1274548768997192, + "learning_rate": 1.8455680000000002e-05, + "loss": 0.0542, + "step": 36195 + }, + { + "epoch": 0.23168, + "grad_norm": 1.5494834184646606, + "learning_rate": 1.845546666666667e-05, + "loss": 0.0875, + "step": 36200 + }, + { + "epoch": 0.231712, + "grad_norm": 1.056126594543457, + "learning_rate": 1.8455253333333334e-05, + "loss": 0.0301, + "step": 36205 + }, + { + "epoch": 0.231744, + "grad_norm": 1.1861572265625, + "learning_rate": 1.845504e-05, + "loss": 0.0506, + "step": 36210 + }, + { + "epoch": 0.231776, + "grad_norm": 1.1567351818084717, + "learning_rate": 1.845482666666667e-05, + "loss": 0.0649, + "step": 36215 + }, + { + "epoch": 0.231808, + "grad_norm": 0.6176290512084961, + "learning_rate": 1.8454613333333337e-05, + "loss": 0.0679, + "step": 36220 + }, + { + "epoch": 0.23184, + "grad_norm": 1.6087746620178223, + "learning_rate": 1.84544e-05, + "loss": 0.0633, + "step": 36225 + }, + { + "epoch": 0.231872, + "grad_norm": 1.0596712827682495, + "learning_rate": 1.8454186666666668e-05, + "loss": 0.0603, + "step": 36230 + }, + { + "epoch": 0.231904, + "grad_norm": 1.636578917503357, + "learning_rate": 1.8453973333333336e-05, + "loss": 0.0815, + "step": 36235 + }, + { + "epoch": 0.231936, + "grad_norm": 0.7104544043540955, + "learning_rate": 1.845376e-05, + "loss": 0.0554, + "step": 36240 + }, + { + "epoch": 0.231968, + "grad_norm": 1.8149305582046509, + "learning_rate": 1.8453546666666668e-05, + "loss": 0.0518, + "step": 36245 + }, + { + "epoch": 0.232, + "grad_norm": 0.6092338562011719, + "learning_rate": 1.8453333333333335e-05, + "loss": 0.0624, + "step": 36250 + }, + { + "epoch": 0.232032, + "grad_norm": 0.4815963804721832, + "learning_rate": 1.8453120000000003e-05, + "loss": 0.0475, + "step": 36255 + }, + { + "epoch": 0.232064, + "grad_norm": 1.6884267330169678, + "learning_rate": 1.8452906666666667e-05, + "loss": 0.0744, + "step": 36260 + }, + { + "epoch": 0.232096, + "grad_norm": 1.7883437871932983, + "learning_rate": 1.8452693333333334e-05, + "loss": 0.06, + "step": 36265 + }, + { + "epoch": 0.232128, + "grad_norm": 0.5085764527320862, + "learning_rate": 1.8452480000000002e-05, + "loss": 0.0575, + "step": 36270 + }, + { + "epoch": 0.23216, + "grad_norm": 0.6616873741149902, + "learning_rate": 1.8452266666666666e-05, + "loss": 0.0707, + "step": 36275 + }, + { + "epoch": 0.232192, + "grad_norm": 1.720008134841919, + "learning_rate": 1.8452053333333334e-05, + "loss": 0.0981, + "step": 36280 + }, + { + "epoch": 0.232224, + "grad_norm": 1.1004815101623535, + "learning_rate": 1.845184e-05, + "loss": 0.0531, + "step": 36285 + }, + { + "epoch": 0.232256, + "grad_norm": 0.6342201232910156, + "learning_rate": 1.845162666666667e-05, + "loss": 0.0481, + "step": 36290 + }, + { + "epoch": 0.232288, + "grad_norm": 1.1235663890838623, + "learning_rate": 1.8451413333333333e-05, + "loss": 0.0872, + "step": 36295 + }, + { + "epoch": 0.23232, + "grad_norm": 0.9894741773605347, + "learning_rate": 1.8451200000000004e-05, + "loss": 0.0501, + "step": 36300 + }, + { + "epoch": 0.232352, + "grad_norm": 1.0167500972747803, + "learning_rate": 1.8450986666666668e-05, + "loss": 0.0493, + "step": 36305 + }, + { + "epoch": 0.232384, + "grad_norm": 0.5858124494552612, + "learning_rate": 1.8450773333333332e-05, + "loss": 0.0635, + "step": 36310 + }, + { + "epoch": 0.232416, + "grad_norm": 1.0398510694503784, + "learning_rate": 1.8450560000000003e-05, + "loss": 0.0494, + "step": 36315 + }, + { + "epoch": 0.232448, + "grad_norm": 1.9766193628311157, + "learning_rate": 1.8450346666666667e-05, + "loss": 0.0859, + "step": 36320 + }, + { + "epoch": 0.23248, + "grad_norm": 0.9975392818450928, + "learning_rate": 1.8450133333333335e-05, + "loss": 0.0562, + "step": 36325 + }, + { + "epoch": 0.232512, + "grad_norm": 0.9810841679573059, + "learning_rate": 1.8449920000000002e-05, + "loss": 0.0519, + "step": 36330 + }, + { + "epoch": 0.232544, + "grad_norm": 1.3417097330093384, + "learning_rate": 1.844970666666667e-05, + "loss": 0.0721, + "step": 36335 + }, + { + "epoch": 0.232576, + "grad_norm": 0.6867195963859558, + "learning_rate": 1.8449493333333334e-05, + "loss": 0.0563, + "step": 36340 + }, + { + "epoch": 0.232608, + "grad_norm": 0.6478199362754822, + "learning_rate": 1.844928e-05, + "loss": 0.0488, + "step": 36345 + }, + { + "epoch": 0.23264, + "grad_norm": 1.1633228063583374, + "learning_rate": 1.844906666666667e-05, + "loss": 0.0754, + "step": 36350 + }, + { + "epoch": 0.232672, + "grad_norm": 0.9704732894897461, + "learning_rate": 1.8448853333333333e-05, + "loss": 0.0393, + "step": 36355 + }, + { + "epoch": 0.232704, + "grad_norm": 0.8608797788619995, + "learning_rate": 1.844864e-05, + "loss": 0.0547, + "step": 36360 + }, + { + "epoch": 0.232736, + "grad_norm": 2.9216811656951904, + "learning_rate": 1.844842666666667e-05, + "loss": 0.0544, + "step": 36365 + }, + { + "epoch": 0.232768, + "grad_norm": 0.7172655463218689, + "learning_rate": 1.8448213333333336e-05, + "loss": 0.0652, + "step": 36370 + }, + { + "epoch": 0.2328, + "grad_norm": 0.23691660165786743, + "learning_rate": 1.8448e-05, + "loss": 0.0416, + "step": 36375 + }, + { + "epoch": 0.232832, + "grad_norm": 0.9483441710472107, + "learning_rate": 1.8447786666666668e-05, + "loss": 0.0438, + "step": 36380 + }, + { + "epoch": 0.232864, + "grad_norm": 1.0886858701705933, + "learning_rate": 1.8447573333333335e-05, + "loss": 0.0443, + "step": 36385 + }, + { + "epoch": 0.232896, + "grad_norm": 0.49866440892219543, + "learning_rate": 1.844736e-05, + "loss": 0.0592, + "step": 36390 + }, + { + "epoch": 0.232928, + "grad_norm": 0.9542658925056458, + "learning_rate": 1.844714666666667e-05, + "loss": 0.045, + "step": 36395 + }, + { + "epoch": 0.23296, + "grad_norm": 0.742253839969635, + "learning_rate": 1.8446933333333335e-05, + "loss": 0.0513, + "step": 36400 + }, + { + "epoch": 0.232992, + "grad_norm": 2.020346164703369, + "learning_rate": 1.8446720000000002e-05, + "loss": 0.0565, + "step": 36405 + }, + { + "epoch": 0.233024, + "grad_norm": 1.165623664855957, + "learning_rate": 1.844650666666667e-05, + "loss": 0.0956, + "step": 36410 + }, + { + "epoch": 0.233056, + "grad_norm": 1.4544787406921387, + "learning_rate": 1.8446293333333334e-05, + "loss": 0.0532, + "step": 36415 + }, + { + "epoch": 0.233088, + "grad_norm": 1.0331459045410156, + "learning_rate": 1.844608e-05, + "loss": 0.0445, + "step": 36420 + }, + { + "epoch": 0.23312, + "grad_norm": 0.9317115545272827, + "learning_rate": 1.844586666666667e-05, + "loss": 0.0995, + "step": 36425 + }, + { + "epoch": 0.233152, + "grad_norm": 1.0095161199569702, + "learning_rate": 1.8445653333333337e-05, + "loss": 0.071, + "step": 36430 + }, + { + "epoch": 0.233184, + "grad_norm": 1.0335427522659302, + "learning_rate": 1.844544e-05, + "loss": 0.0645, + "step": 36435 + }, + { + "epoch": 0.233216, + "grad_norm": 0.7423069477081299, + "learning_rate": 1.8445226666666668e-05, + "loss": 0.0633, + "step": 36440 + }, + { + "epoch": 0.233248, + "grad_norm": 0.23078085482120514, + "learning_rate": 1.8445013333333336e-05, + "loss": 0.0304, + "step": 36445 + }, + { + "epoch": 0.23328, + "grad_norm": 0.8211575746536255, + "learning_rate": 1.84448e-05, + "loss": 0.097, + "step": 36450 + }, + { + "epoch": 0.233312, + "grad_norm": 0.5919979214668274, + "learning_rate": 1.8444586666666668e-05, + "loss": 0.0506, + "step": 36455 + }, + { + "epoch": 0.233344, + "grad_norm": 1.396774172782898, + "learning_rate": 1.8444373333333335e-05, + "loss": 0.0911, + "step": 36460 + }, + { + "epoch": 0.233376, + "grad_norm": 3.426089286804199, + "learning_rate": 1.8444160000000003e-05, + "loss": 0.0724, + "step": 36465 + }, + { + "epoch": 0.233408, + "grad_norm": 0.7085340619087219, + "learning_rate": 1.8443946666666667e-05, + "loss": 0.0668, + "step": 36470 + }, + { + "epoch": 0.23344, + "grad_norm": 1.0786898136138916, + "learning_rate": 1.8443733333333334e-05, + "loss": 0.081, + "step": 36475 + }, + { + "epoch": 0.233472, + "grad_norm": 0.5640256404876709, + "learning_rate": 1.8443520000000002e-05, + "loss": 0.0392, + "step": 36480 + }, + { + "epoch": 0.233504, + "grad_norm": 1.0035781860351562, + "learning_rate": 1.8443306666666666e-05, + "loss": 0.0612, + "step": 36485 + }, + { + "epoch": 0.233536, + "grad_norm": 0.6292641162872314, + "learning_rate": 1.8443093333333334e-05, + "loss": 0.0572, + "step": 36490 + }, + { + "epoch": 0.233568, + "grad_norm": 0.7906711101531982, + "learning_rate": 1.844288e-05, + "loss": 0.0592, + "step": 36495 + }, + { + "epoch": 0.2336, + "grad_norm": 1.6998472213745117, + "learning_rate": 1.844266666666667e-05, + "loss": 0.0674, + "step": 36500 + }, + { + "epoch": 0.233632, + "grad_norm": 1.2805954217910767, + "learning_rate": 1.8442453333333333e-05, + "loss": 0.0726, + "step": 36505 + }, + { + "epoch": 0.233664, + "grad_norm": 0.7566220760345459, + "learning_rate": 1.8442240000000004e-05, + "loss": 0.0551, + "step": 36510 + }, + { + "epoch": 0.233696, + "grad_norm": 0.9252102971076965, + "learning_rate": 1.8442026666666668e-05, + "loss": 0.066, + "step": 36515 + }, + { + "epoch": 0.233728, + "grad_norm": 0.9219521284103394, + "learning_rate": 1.8441813333333332e-05, + "loss": 0.0618, + "step": 36520 + }, + { + "epoch": 0.23376, + "grad_norm": 0.9207861423492432, + "learning_rate": 1.8441600000000003e-05, + "loss": 0.073, + "step": 36525 + }, + { + "epoch": 0.233792, + "grad_norm": 1.8234373331069946, + "learning_rate": 1.8441386666666667e-05, + "loss": 0.0767, + "step": 36530 + }, + { + "epoch": 0.233824, + "grad_norm": 0.8813302516937256, + "learning_rate": 1.8441173333333335e-05, + "loss": 0.0495, + "step": 36535 + }, + { + "epoch": 0.233856, + "grad_norm": 1.1787500381469727, + "learning_rate": 1.8440960000000002e-05, + "loss": 0.0661, + "step": 36540 + }, + { + "epoch": 0.233888, + "grad_norm": 0.6804667711257935, + "learning_rate": 1.844074666666667e-05, + "loss": 0.0588, + "step": 36545 + }, + { + "epoch": 0.23392, + "grad_norm": 1.0634664297103882, + "learning_rate": 1.8440533333333334e-05, + "loss": 0.0578, + "step": 36550 + }, + { + "epoch": 0.233952, + "grad_norm": 0.6139218211174011, + "learning_rate": 1.844032e-05, + "loss": 0.0434, + "step": 36555 + }, + { + "epoch": 0.233984, + "grad_norm": 0.4539683759212494, + "learning_rate": 1.844010666666667e-05, + "loss": 0.0454, + "step": 36560 + }, + { + "epoch": 0.234016, + "grad_norm": 1.7390327453613281, + "learning_rate": 1.8439893333333333e-05, + "loss": 0.0705, + "step": 36565 + }, + { + "epoch": 0.234048, + "grad_norm": 3.3163373470306396, + "learning_rate": 1.843968e-05, + "loss": 0.0483, + "step": 36570 + }, + { + "epoch": 0.23408, + "grad_norm": 0.8791408538818359, + "learning_rate": 1.843946666666667e-05, + "loss": 0.0672, + "step": 36575 + }, + { + "epoch": 0.234112, + "grad_norm": 0.8787975311279297, + "learning_rate": 1.8439253333333336e-05, + "loss": 0.0622, + "step": 36580 + }, + { + "epoch": 0.234144, + "grad_norm": 0.863187849521637, + "learning_rate": 1.843904e-05, + "loss": 0.0471, + "step": 36585 + }, + { + "epoch": 0.234176, + "grad_norm": 0.9543731212615967, + "learning_rate": 1.8438826666666668e-05, + "loss": 0.0725, + "step": 36590 + }, + { + "epoch": 0.234208, + "grad_norm": 0.6781026721000671, + "learning_rate": 1.8438613333333335e-05, + "loss": 0.0531, + "step": 36595 + }, + { + "epoch": 0.23424, + "grad_norm": 0.8333640694618225, + "learning_rate": 1.84384e-05, + "loss": 0.055, + "step": 36600 + }, + { + "epoch": 0.234272, + "grad_norm": 1.0180294513702393, + "learning_rate": 1.8438186666666667e-05, + "loss": 0.0584, + "step": 36605 + }, + { + "epoch": 0.234304, + "grad_norm": 0.3791709542274475, + "learning_rate": 1.8437973333333335e-05, + "loss": 0.0581, + "step": 36610 + }, + { + "epoch": 0.234336, + "grad_norm": 0.48606473207473755, + "learning_rate": 1.8437760000000002e-05, + "loss": 0.0454, + "step": 36615 + }, + { + "epoch": 0.234368, + "grad_norm": 1.812866449356079, + "learning_rate": 1.843754666666667e-05, + "loss": 0.0746, + "step": 36620 + }, + { + "epoch": 0.2344, + "grad_norm": 1.0183219909667969, + "learning_rate": 1.8437333333333334e-05, + "loss": 0.0885, + "step": 36625 + }, + { + "epoch": 0.234432, + "grad_norm": 0.8126312494277954, + "learning_rate": 1.843712e-05, + "loss": 0.0458, + "step": 36630 + }, + { + "epoch": 0.234464, + "grad_norm": 0.2918887734413147, + "learning_rate": 1.843690666666667e-05, + "loss": 0.0493, + "step": 36635 + }, + { + "epoch": 0.234496, + "grad_norm": 1.0779893398284912, + "learning_rate": 1.8436693333333337e-05, + "loss": 0.0637, + "step": 36640 + }, + { + "epoch": 0.234528, + "grad_norm": 0.7859554290771484, + "learning_rate": 1.843648e-05, + "loss": 0.0561, + "step": 36645 + }, + { + "epoch": 0.23456, + "grad_norm": 1.144020676612854, + "learning_rate": 1.8436266666666668e-05, + "loss": 0.0714, + "step": 36650 + }, + { + "epoch": 0.234592, + "grad_norm": 0.6108705997467041, + "learning_rate": 1.8436053333333336e-05, + "loss": 0.0551, + "step": 36655 + }, + { + "epoch": 0.234624, + "grad_norm": 1.1880742311477661, + "learning_rate": 1.843584e-05, + "loss": 0.051, + "step": 36660 + }, + { + "epoch": 0.234656, + "grad_norm": 1.052695631980896, + "learning_rate": 1.8435626666666668e-05, + "loss": 0.0636, + "step": 36665 + }, + { + "epoch": 0.234688, + "grad_norm": 1.3710001707077026, + "learning_rate": 1.8435413333333335e-05, + "loss": 0.0456, + "step": 36670 + }, + { + "epoch": 0.23472, + "grad_norm": 0.5720120668411255, + "learning_rate": 1.8435200000000003e-05, + "loss": 0.0559, + "step": 36675 + }, + { + "epoch": 0.234752, + "grad_norm": 1.3340339660644531, + "learning_rate": 1.8434986666666667e-05, + "loss": 0.0688, + "step": 36680 + }, + { + "epoch": 0.234784, + "grad_norm": 0.975765585899353, + "learning_rate": 1.8434773333333334e-05, + "loss": 0.0358, + "step": 36685 + }, + { + "epoch": 0.234816, + "grad_norm": 0.5023096799850464, + "learning_rate": 1.8434560000000002e-05, + "loss": 0.0585, + "step": 36690 + }, + { + "epoch": 0.234848, + "grad_norm": 0.3500249683856964, + "learning_rate": 1.843434666666667e-05, + "loss": 0.0521, + "step": 36695 + }, + { + "epoch": 0.23488, + "grad_norm": 2.9058597087860107, + "learning_rate": 1.8434133333333334e-05, + "loss": 0.1267, + "step": 36700 + }, + { + "epoch": 0.234912, + "grad_norm": 1.2290072441101074, + "learning_rate": 1.843392e-05, + "loss": 0.0871, + "step": 36705 + }, + { + "epoch": 0.234944, + "grad_norm": 0.7654308080673218, + "learning_rate": 1.843370666666667e-05, + "loss": 0.0617, + "step": 36710 + }, + { + "epoch": 0.234976, + "grad_norm": 0.9954264163970947, + "learning_rate": 1.8433493333333333e-05, + "loss": 0.0642, + "step": 36715 + }, + { + "epoch": 0.235008, + "grad_norm": 0.2238042950630188, + "learning_rate": 1.8433280000000004e-05, + "loss": 0.0542, + "step": 36720 + }, + { + "epoch": 0.23504, + "grad_norm": 0.7975263595581055, + "learning_rate": 1.8433066666666668e-05, + "loss": 0.0739, + "step": 36725 + }, + { + "epoch": 0.235072, + "grad_norm": 2.3100297451019287, + "learning_rate": 1.8432853333333336e-05, + "loss": 0.0816, + "step": 36730 + }, + { + "epoch": 0.235104, + "grad_norm": 0.33045539259910583, + "learning_rate": 1.8432640000000003e-05, + "loss": 0.094, + "step": 36735 + }, + { + "epoch": 0.235136, + "grad_norm": 0.7744429707527161, + "learning_rate": 1.8432426666666667e-05, + "loss": 0.0598, + "step": 36740 + }, + { + "epoch": 0.235168, + "grad_norm": 0.5861408710479736, + "learning_rate": 1.8432213333333335e-05, + "loss": 0.0521, + "step": 36745 + }, + { + "epoch": 0.2352, + "grad_norm": 0.4699787497520447, + "learning_rate": 1.8432000000000002e-05, + "loss": 0.0492, + "step": 36750 + }, + { + "epoch": 0.235232, + "grad_norm": 1.2295721769332886, + "learning_rate": 1.843178666666667e-05, + "loss": 0.0654, + "step": 36755 + }, + { + "epoch": 0.235264, + "grad_norm": 4.68494987487793, + "learning_rate": 1.8431573333333334e-05, + "loss": 0.0589, + "step": 36760 + }, + { + "epoch": 0.235296, + "grad_norm": 0.6304804682731628, + "learning_rate": 1.843136e-05, + "loss": 0.0556, + "step": 36765 + }, + { + "epoch": 0.235328, + "grad_norm": 0.42180293798446655, + "learning_rate": 1.843114666666667e-05, + "loss": 0.0504, + "step": 36770 + }, + { + "epoch": 0.23536, + "grad_norm": 1.5663425922393799, + "learning_rate": 1.8430933333333333e-05, + "loss": 0.091, + "step": 36775 + }, + { + "epoch": 0.235392, + "grad_norm": 17.014875411987305, + "learning_rate": 1.843072e-05, + "loss": 0.0885, + "step": 36780 + }, + { + "epoch": 0.235424, + "grad_norm": 1.1685247421264648, + "learning_rate": 1.843050666666667e-05, + "loss": 0.0491, + "step": 36785 + }, + { + "epoch": 0.235456, + "grad_norm": 0.6903650164604187, + "learning_rate": 1.8430293333333336e-05, + "loss": 0.0657, + "step": 36790 + }, + { + "epoch": 0.235488, + "grad_norm": 0.8714417219161987, + "learning_rate": 1.843008e-05, + "loss": 0.0515, + "step": 36795 + }, + { + "epoch": 0.23552, + "grad_norm": 0.2170226126909256, + "learning_rate": 1.8429866666666668e-05, + "loss": 0.0343, + "step": 36800 + }, + { + "epoch": 0.235552, + "grad_norm": 0.49606385827064514, + "learning_rate": 1.8429653333333335e-05, + "loss": 0.0584, + "step": 36805 + }, + { + "epoch": 0.235584, + "grad_norm": 0.6448318362236023, + "learning_rate": 1.842944e-05, + "loss": 0.0522, + "step": 36810 + }, + { + "epoch": 0.235616, + "grad_norm": 1.8576149940490723, + "learning_rate": 1.8429226666666667e-05, + "loss": 0.0491, + "step": 36815 + }, + { + "epoch": 0.235648, + "grad_norm": 0.5934827327728271, + "learning_rate": 1.8429013333333335e-05, + "loss": 0.0588, + "step": 36820 + }, + { + "epoch": 0.23568, + "grad_norm": 2.0407557487487793, + "learning_rate": 1.8428800000000002e-05, + "loss": 0.0758, + "step": 36825 + }, + { + "epoch": 0.235712, + "grad_norm": 0.7417685389518738, + "learning_rate": 1.8428586666666666e-05, + "loss": 0.0589, + "step": 36830 + }, + { + "epoch": 0.235744, + "grad_norm": 1.240400791168213, + "learning_rate": 1.8428373333333337e-05, + "loss": 0.0696, + "step": 36835 + }, + { + "epoch": 0.235776, + "grad_norm": 0.9249901175498962, + "learning_rate": 1.842816e-05, + "loss": 0.0653, + "step": 36840 + }, + { + "epoch": 0.235808, + "grad_norm": 1.2856255769729614, + "learning_rate": 1.842794666666667e-05, + "loss": 0.1069, + "step": 36845 + }, + { + "epoch": 0.23584, + "grad_norm": 0.9037070870399475, + "learning_rate": 1.8427733333333337e-05, + "loss": 0.0708, + "step": 36850 + }, + { + "epoch": 0.235872, + "grad_norm": 0.8299956321716309, + "learning_rate": 1.842752e-05, + "loss": 0.0638, + "step": 36855 + }, + { + "epoch": 0.235904, + "grad_norm": 1.1390103101730347, + "learning_rate": 1.8427306666666668e-05, + "loss": 0.0394, + "step": 36860 + }, + { + "epoch": 0.235936, + "grad_norm": 0.5893927216529846, + "learning_rate": 1.8427093333333336e-05, + "loss": 0.0595, + "step": 36865 + }, + { + "epoch": 0.235968, + "grad_norm": 0.5731373429298401, + "learning_rate": 1.8426880000000003e-05, + "loss": 0.0806, + "step": 36870 + }, + { + "epoch": 0.236, + "grad_norm": 0.8425784707069397, + "learning_rate": 1.8426666666666668e-05, + "loss": 0.0733, + "step": 36875 + }, + { + "epoch": 0.236032, + "grad_norm": 1.1742011308670044, + "learning_rate": 1.8426453333333335e-05, + "loss": 0.0577, + "step": 36880 + }, + { + "epoch": 0.236064, + "grad_norm": 0.7940601706504822, + "learning_rate": 1.8426240000000003e-05, + "loss": 0.0398, + "step": 36885 + }, + { + "epoch": 0.236096, + "grad_norm": 0.6844959855079651, + "learning_rate": 1.8426026666666667e-05, + "loss": 0.0448, + "step": 36890 + }, + { + "epoch": 0.236128, + "grad_norm": 0.6028726100921631, + "learning_rate": 1.8425813333333334e-05, + "loss": 0.049, + "step": 36895 + }, + { + "epoch": 0.23616, + "grad_norm": 0.7491631507873535, + "learning_rate": 1.8425600000000002e-05, + "loss": 0.0907, + "step": 36900 + }, + { + "epoch": 0.236192, + "grad_norm": 0.9438832998275757, + "learning_rate": 1.842538666666667e-05, + "loss": 0.0541, + "step": 36905 + }, + { + "epoch": 0.236224, + "grad_norm": 0.7586203813552856, + "learning_rate": 1.8425173333333334e-05, + "loss": 0.0351, + "step": 36910 + }, + { + "epoch": 0.236256, + "grad_norm": 1.2729395627975464, + "learning_rate": 1.842496e-05, + "loss": 0.059, + "step": 36915 + }, + { + "epoch": 0.236288, + "grad_norm": 0.9395568370819092, + "learning_rate": 1.842474666666667e-05, + "loss": 0.0632, + "step": 36920 + }, + { + "epoch": 0.23632, + "grad_norm": 0.6315180659294128, + "learning_rate": 1.8424533333333333e-05, + "loss": 0.0504, + "step": 36925 + }, + { + "epoch": 0.236352, + "grad_norm": 0.4587498605251312, + "learning_rate": 1.8424320000000004e-05, + "loss": 0.0445, + "step": 36930 + }, + { + "epoch": 0.236384, + "grad_norm": 1.4409602880477905, + "learning_rate": 1.8424106666666668e-05, + "loss": 0.0679, + "step": 36935 + }, + { + "epoch": 0.236416, + "grad_norm": 0.80552077293396, + "learning_rate": 1.8423893333333336e-05, + "loss": 0.0461, + "step": 36940 + }, + { + "epoch": 0.236448, + "grad_norm": 0.8652312755584717, + "learning_rate": 1.8423680000000003e-05, + "loss": 0.036, + "step": 36945 + }, + { + "epoch": 0.23648, + "grad_norm": 0.6099827289581299, + "learning_rate": 1.8423466666666667e-05, + "loss": 0.0342, + "step": 36950 + }, + { + "epoch": 0.236512, + "grad_norm": 0.4825662076473236, + "learning_rate": 1.8423253333333335e-05, + "loss": 0.0463, + "step": 36955 + }, + { + "epoch": 0.236544, + "grad_norm": 1.3561680316925049, + "learning_rate": 1.8423040000000002e-05, + "loss": 0.0484, + "step": 36960 + }, + { + "epoch": 0.236576, + "grad_norm": 1.5126547813415527, + "learning_rate": 1.842282666666667e-05, + "loss": 0.0683, + "step": 36965 + }, + { + "epoch": 0.236608, + "grad_norm": 0.5551987290382385, + "learning_rate": 1.8422613333333334e-05, + "loss": 0.0597, + "step": 36970 + }, + { + "epoch": 0.23664, + "grad_norm": 1.2407091856002808, + "learning_rate": 1.8422400000000002e-05, + "loss": 0.0752, + "step": 36975 + }, + { + "epoch": 0.236672, + "grad_norm": 1.0271894931793213, + "learning_rate": 1.842218666666667e-05, + "loss": 0.0775, + "step": 36980 + }, + { + "epoch": 0.236704, + "grad_norm": 0.8201429843902588, + "learning_rate": 1.8421973333333333e-05, + "loss": 0.0491, + "step": 36985 + }, + { + "epoch": 0.236736, + "grad_norm": 0.5992603302001953, + "learning_rate": 1.842176e-05, + "loss": 0.0601, + "step": 36990 + }, + { + "epoch": 0.236768, + "grad_norm": 1.436872124671936, + "learning_rate": 1.842154666666667e-05, + "loss": 0.0448, + "step": 36995 + }, + { + "epoch": 0.2368, + "grad_norm": 0.26619234681129456, + "learning_rate": 1.8421333333333336e-05, + "loss": 0.0367, + "step": 37000 + }, + { + "epoch": 0.236832, + "grad_norm": 0.637105405330658, + "learning_rate": 1.842112e-05, + "loss": 0.0424, + "step": 37005 + }, + { + "epoch": 0.236864, + "grad_norm": 1.0342328548431396, + "learning_rate": 1.8420906666666668e-05, + "loss": 0.0642, + "step": 37010 + }, + { + "epoch": 0.236896, + "grad_norm": 1.1036001443862915, + "learning_rate": 1.8420693333333335e-05, + "loss": 0.0578, + "step": 37015 + }, + { + "epoch": 0.236928, + "grad_norm": 2.06913685798645, + "learning_rate": 1.842048e-05, + "loss": 0.0742, + "step": 37020 + }, + { + "epoch": 0.23696, + "grad_norm": 2.8773677349090576, + "learning_rate": 1.8420266666666667e-05, + "loss": 0.0668, + "step": 37025 + }, + { + "epoch": 0.236992, + "grad_norm": 0.6071045994758606, + "learning_rate": 1.8420053333333335e-05, + "loss": 0.0544, + "step": 37030 + }, + { + "epoch": 0.237024, + "grad_norm": 0.8291250467300415, + "learning_rate": 1.8419840000000002e-05, + "loss": 0.0492, + "step": 37035 + }, + { + "epoch": 0.237056, + "grad_norm": 0.4083407521247864, + "learning_rate": 1.8419626666666666e-05, + "loss": 0.0539, + "step": 37040 + }, + { + "epoch": 0.237088, + "grad_norm": 0.6379097104072571, + "learning_rate": 1.8419413333333337e-05, + "loss": 0.0442, + "step": 37045 + }, + { + "epoch": 0.23712, + "grad_norm": 0.647234320640564, + "learning_rate": 1.84192e-05, + "loss": 0.046, + "step": 37050 + }, + { + "epoch": 0.237152, + "grad_norm": 0.4009794294834137, + "learning_rate": 1.8418986666666666e-05, + "loss": 0.0628, + "step": 37055 + }, + { + "epoch": 0.237184, + "grad_norm": 1.2178051471710205, + "learning_rate": 1.8418773333333337e-05, + "loss": 0.0789, + "step": 37060 + }, + { + "epoch": 0.237216, + "grad_norm": 0.6701936721801758, + "learning_rate": 1.841856e-05, + "loss": 0.0473, + "step": 37065 + }, + { + "epoch": 0.237248, + "grad_norm": 0.6578972935676575, + "learning_rate": 1.8418346666666668e-05, + "loss": 0.0702, + "step": 37070 + }, + { + "epoch": 0.23728, + "grad_norm": 0.8226967453956604, + "learning_rate": 1.8418133333333336e-05, + "loss": 0.0611, + "step": 37075 + }, + { + "epoch": 0.237312, + "grad_norm": 0.513754665851593, + "learning_rate": 1.8417920000000003e-05, + "loss": 0.0401, + "step": 37080 + }, + { + "epoch": 0.237344, + "grad_norm": 1.0679543018341064, + "learning_rate": 1.8417706666666668e-05, + "loss": 0.0513, + "step": 37085 + }, + { + "epoch": 0.237376, + "grad_norm": 0.5973435044288635, + "learning_rate": 1.8417493333333335e-05, + "loss": 0.0514, + "step": 37090 + }, + { + "epoch": 0.237408, + "grad_norm": 1.4682044982910156, + "learning_rate": 1.8417280000000003e-05, + "loss": 0.0441, + "step": 37095 + }, + { + "epoch": 0.23744, + "grad_norm": 0.5582915544509888, + "learning_rate": 1.8417066666666667e-05, + "loss": 0.0325, + "step": 37100 + }, + { + "epoch": 0.237472, + "grad_norm": 0.4085966944694519, + "learning_rate": 1.8416853333333334e-05, + "loss": 0.0421, + "step": 37105 + }, + { + "epoch": 0.237504, + "grad_norm": 0.4652617871761322, + "learning_rate": 1.8416640000000002e-05, + "loss": 0.0457, + "step": 37110 + }, + { + "epoch": 0.237536, + "grad_norm": 0.5355679988861084, + "learning_rate": 1.841642666666667e-05, + "loss": 0.039, + "step": 37115 + }, + { + "epoch": 0.237568, + "grad_norm": 0.7818264961242676, + "learning_rate": 1.8416213333333334e-05, + "loss": 0.0632, + "step": 37120 + }, + { + "epoch": 0.2376, + "grad_norm": 0.6377139091491699, + "learning_rate": 1.8416e-05, + "loss": 0.058, + "step": 37125 + }, + { + "epoch": 0.237632, + "grad_norm": 0.9298644065856934, + "learning_rate": 1.841578666666667e-05, + "loss": 0.0498, + "step": 37130 + }, + { + "epoch": 0.237664, + "grad_norm": 0.588975191116333, + "learning_rate": 1.8415573333333333e-05, + "loss": 0.0715, + "step": 37135 + }, + { + "epoch": 0.237696, + "grad_norm": 0.6419161558151245, + "learning_rate": 1.841536e-05, + "loss": 0.0508, + "step": 37140 + }, + { + "epoch": 0.237728, + "grad_norm": 0.9203408360481262, + "learning_rate": 1.8415146666666668e-05, + "loss": 0.0492, + "step": 37145 + }, + { + "epoch": 0.23776, + "grad_norm": 0.8999016880989075, + "learning_rate": 1.8414933333333336e-05, + "loss": 0.0564, + "step": 37150 + }, + { + "epoch": 0.237792, + "grad_norm": 0.5705316662788391, + "learning_rate": 1.8414720000000003e-05, + "loss": 0.0574, + "step": 37155 + }, + { + "epoch": 0.237824, + "grad_norm": 1.0070163011550903, + "learning_rate": 1.8414506666666667e-05, + "loss": 0.0548, + "step": 37160 + }, + { + "epoch": 0.237856, + "grad_norm": 0.6379958391189575, + "learning_rate": 1.8414293333333335e-05, + "loss": 0.0469, + "step": 37165 + }, + { + "epoch": 0.237888, + "grad_norm": 0.4534127414226532, + "learning_rate": 1.8414080000000002e-05, + "loss": 0.0577, + "step": 37170 + }, + { + "epoch": 0.23792, + "grad_norm": 0.8375675082206726, + "learning_rate": 1.841386666666667e-05, + "loss": 0.0475, + "step": 37175 + }, + { + "epoch": 0.237952, + "grad_norm": 1.1904953718185425, + "learning_rate": 1.8413653333333334e-05, + "loss": 0.0722, + "step": 37180 + }, + { + "epoch": 0.237984, + "grad_norm": 0.5177884697914124, + "learning_rate": 1.8413440000000002e-05, + "loss": 0.0703, + "step": 37185 + }, + { + "epoch": 0.238016, + "grad_norm": 1.906757116317749, + "learning_rate": 1.841322666666667e-05, + "loss": 0.0791, + "step": 37190 + }, + { + "epoch": 0.238048, + "grad_norm": 0.3894926905632019, + "learning_rate": 1.8413013333333333e-05, + "loss": 0.065, + "step": 37195 + }, + { + "epoch": 0.23808, + "grad_norm": 0.8901563882827759, + "learning_rate": 1.84128e-05, + "loss": 0.0437, + "step": 37200 + }, + { + "epoch": 0.238112, + "grad_norm": 0.6345416903495789, + "learning_rate": 1.841258666666667e-05, + "loss": 0.0972, + "step": 37205 + }, + { + "epoch": 0.238144, + "grad_norm": 0.6265894174575806, + "learning_rate": 1.8412373333333336e-05, + "loss": 0.0462, + "step": 37210 + }, + { + "epoch": 0.238176, + "grad_norm": 0.38314059376716614, + "learning_rate": 1.841216e-05, + "loss": 0.0497, + "step": 37215 + }, + { + "epoch": 0.238208, + "grad_norm": 2.3274624347686768, + "learning_rate": 1.8411946666666668e-05, + "loss": 0.0826, + "step": 37220 + }, + { + "epoch": 0.23824, + "grad_norm": 0.43292492628097534, + "learning_rate": 1.8411733333333335e-05, + "loss": 0.0436, + "step": 37225 + }, + { + "epoch": 0.238272, + "grad_norm": 0.7694980502128601, + "learning_rate": 1.841152e-05, + "loss": 0.0659, + "step": 37230 + }, + { + "epoch": 0.238304, + "grad_norm": 0.49585503339767456, + "learning_rate": 1.8411306666666667e-05, + "loss": 0.059, + "step": 37235 + }, + { + "epoch": 0.238336, + "grad_norm": 0.35292452573776245, + "learning_rate": 1.8411093333333335e-05, + "loss": 0.0553, + "step": 37240 + }, + { + "epoch": 0.238368, + "grad_norm": 0.15639080107212067, + "learning_rate": 1.8410880000000002e-05, + "loss": 0.0756, + "step": 37245 + }, + { + "epoch": 0.2384, + "grad_norm": 1.4256172180175781, + "learning_rate": 1.8410666666666666e-05, + "loss": 0.0759, + "step": 37250 + }, + { + "epoch": 0.238432, + "grad_norm": 1.3561347723007202, + "learning_rate": 1.8410453333333337e-05, + "loss": 0.0479, + "step": 37255 + }, + { + "epoch": 0.238464, + "grad_norm": 0.4934241771697998, + "learning_rate": 1.841024e-05, + "loss": 0.0605, + "step": 37260 + }, + { + "epoch": 0.238496, + "grad_norm": 0.9198540449142456, + "learning_rate": 1.8410026666666666e-05, + "loss": 0.0621, + "step": 37265 + }, + { + "epoch": 0.238528, + "grad_norm": 0.42230233550071716, + "learning_rate": 1.8409813333333337e-05, + "loss": 0.091, + "step": 37270 + }, + { + "epoch": 0.23856, + "grad_norm": 0.987956702709198, + "learning_rate": 1.84096e-05, + "loss": 0.0633, + "step": 37275 + }, + { + "epoch": 0.238592, + "grad_norm": 0.2153838872909546, + "learning_rate": 1.8409386666666668e-05, + "loss": 0.0457, + "step": 37280 + }, + { + "epoch": 0.238624, + "grad_norm": 0.6263962388038635, + "learning_rate": 1.8409173333333336e-05, + "loss": 0.063, + "step": 37285 + }, + { + "epoch": 0.238656, + "grad_norm": 0.9603183269500732, + "learning_rate": 1.8408960000000003e-05, + "loss": 0.0821, + "step": 37290 + }, + { + "epoch": 0.238688, + "grad_norm": 2.4224371910095215, + "learning_rate": 1.8408746666666668e-05, + "loss": 0.0575, + "step": 37295 + }, + { + "epoch": 0.23872, + "grad_norm": 1.2695159912109375, + "learning_rate": 1.8408533333333335e-05, + "loss": 0.0514, + "step": 37300 + }, + { + "epoch": 0.238752, + "grad_norm": 0.5643275380134583, + "learning_rate": 1.8408320000000003e-05, + "loss": 0.0549, + "step": 37305 + }, + { + "epoch": 0.238784, + "grad_norm": 0.8284386992454529, + "learning_rate": 1.8408106666666667e-05, + "loss": 0.0617, + "step": 37310 + }, + { + "epoch": 0.238816, + "grad_norm": 0.7960143685340881, + "learning_rate": 1.8407893333333334e-05, + "loss": 0.0488, + "step": 37315 + }, + { + "epoch": 0.238848, + "grad_norm": 1.1980807781219482, + "learning_rate": 1.8407680000000002e-05, + "loss": 0.0498, + "step": 37320 + }, + { + "epoch": 0.23888, + "grad_norm": 0.39442336559295654, + "learning_rate": 1.840746666666667e-05, + "loss": 0.0289, + "step": 37325 + }, + { + "epoch": 0.238912, + "grad_norm": 0.71697598695755, + "learning_rate": 1.8407253333333334e-05, + "loss": 0.0625, + "step": 37330 + }, + { + "epoch": 0.238944, + "grad_norm": 0.5492876768112183, + "learning_rate": 1.840704e-05, + "loss": 0.0664, + "step": 37335 + }, + { + "epoch": 0.238976, + "grad_norm": 2.3114705085754395, + "learning_rate": 1.840682666666667e-05, + "loss": 0.0594, + "step": 37340 + }, + { + "epoch": 0.239008, + "grad_norm": 0.476593554019928, + "learning_rate": 1.8406613333333333e-05, + "loss": 0.0991, + "step": 37345 + }, + { + "epoch": 0.23904, + "grad_norm": 0.6548924446105957, + "learning_rate": 1.84064e-05, + "loss": 0.1027, + "step": 37350 + }, + { + "epoch": 0.239072, + "grad_norm": 0.5233021974563599, + "learning_rate": 1.8406186666666668e-05, + "loss": 0.0404, + "step": 37355 + }, + { + "epoch": 0.239104, + "grad_norm": 0.5757102370262146, + "learning_rate": 1.8405973333333336e-05, + "loss": 0.0396, + "step": 37360 + }, + { + "epoch": 0.239136, + "grad_norm": 0.8159421682357788, + "learning_rate": 1.840576e-05, + "loss": 0.0454, + "step": 37365 + }, + { + "epoch": 0.239168, + "grad_norm": 1.5522578954696655, + "learning_rate": 1.8405546666666667e-05, + "loss": 0.0417, + "step": 37370 + }, + { + "epoch": 0.2392, + "grad_norm": 0.9712057113647461, + "learning_rate": 1.8405333333333335e-05, + "loss": 0.0527, + "step": 37375 + }, + { + "epoch": 0.239232, + "grad_norm": 1.6244312524795532, + "learning_rate": 1.8405120000000002e-05, + "loss": 0.0814, + "step": 37380 + }, + { + "epoch": 0.239264, + "grad_norm": 0.9533494710922241, + "learning_rate": 1.840490666666667e-05, + "loss": 0.0601, + "step": 37385 + }, + { + "epoch": 0.239296, + "grad_norm": 0.4829665422439575, + "learning_rate": 1.8404693333333334e-05, + "loss": 0.0548, + "step": 37390 + }, + { + "epoch": 0.239328, + "grad_norm": 0.7944651246070862, + "learning_rate": 1.8404480000000002e-05, + "loss": 0.0612, + "step": 37395 + }, + { + "epoch": 0.23936, + "grad_norm": 0.7440739274024963, + "learning_rate": 1.840426666666667e-05, + "loss": 0.0815, + "step": 37400 + }, + { + "epoch": 0.239392, + "grad_norm": 0.6411098837852478, + "learning_rate": 1.8404053333333333e-05, + "loss": 0.0626, + "step": 37405 + }, + { + "epoch": 0.239424, + "grad_norm": 0.8936495184898376, + "learning_rate": 1.840384e-05, + "loss": 0.0664, + "step": 37410 + }, + { + "epoch": 0.239456, + "grad_norm": 0.4384573698043823, + "learning_rate": 1.840362666666667e-05, + "loss": 0.0796, + "step": 37415 + }, + { + "epoch": 0.239488, + "grad_norm": 0.40691134333610535, + "learning_rate": 1.8403413333333336e-05, + "loss": 0.0241, + "step": 37420 + }, + { + "epoch": 0.23952, + "grad_norm": 0.7849404811859131, + "learning_rate": 1.84032e-05, + "loss": 0.0616, + "step": 37425 + }, + { + "epoch": 0.239552, + "grad_norm": 0.12587326765060425, + "learning_rate": 1.8402986666666668e-05, + "loss": 0.0375, + "step": 37430 + }, + { + "epoch": 0.239584, + "grad_norm": 1.0516846179962158, + "learning_rate": 1.8402773333333335e-05, + "loss": 0.052, + "step": 37435 + }, + { + "epoch": 0.239616, + "grad_norm": 0.7050809860229492, + "learning_rate": 1.840256e-05, + "loss": 0.0774, + "step": 37440 + }, + { + "epoch": 0.239648, + "grad_norm": 0.4089762568473816, + "learning_rate": 1.8402346666666667e-05, + "loss": 0.0306, + "step": 37445 + }, + { + "epoch": 0.23968, + "grad_norm": 0.5962475538253784, + "learning_rate": 1.8402133333333335e-05, + "loss": 0.0536, + "step": 37450 + }, + { + "epoch": 0.239712, + "grad_norm": 0.1191779375076294, + "learning_rate": 1.8401920000000002e-05, + "loss": 0.0616, + "step": 37455 + }, + { + "epoch": 0.239744, + "grad_norm": 1.7301181554794312, + "learning_rate": 1.8401706666666666e-05, + "loss": 0.0481, + "step": 37460 + }, + { + "epoch": 0.239776, + "grad_norm": 0.8362598419189453, + "learning_rate": 1.8401493333333337e-05, + "loss": 0.0555, + "step": 37465 + }, + { + "epoch": 0.239808, + "grad_norm": 0.9816339015960693, + "learning_rate": 1.840128e-05, + "loss": 0.067, + "step": 37470 + }, + { + "epoch": 0.23984, + "grad_norm": 0.6384831070899963, + "learning_rate": 1.8401066666666666e-05, + "loss": 0.046, + "step": 37475 + }, + { + "epoch": 0.239872, + "grad_norm": 0.39182376861572266, + "learning_rate": 1.8400853333333337e-05, + "loss": 0.0322, + "step": 37480 + }, + { + "epoch": 0.239904, + "grad_norm": 0.5742980241775513, + "learning_rate": 1.840064e-05, + "loss": 0.0508, + "step": 37485 + }, + { + "epoch": 0.239936, + "grad_norm": 1.7959308624267578, + "learning_rate": 1.8400426666666668e-05, + "loss": 0.0684, + "step": 37490 + }, + { + "epoch": 0.239968, + "grad_norm": 0.2602686285972595, + "learning_rate": 1.8400213333333336e-05, + "loss": 0.0508, + "step": 37495 + }, + { + "epoch": 0.24, + "grad_norm": 0.5447359681129456, + "learning_rate": 1.8400000000000003e-05, + "loss": 0.0623, + "step": 37500 + }, + { + "epoch": 0.240032, + "grad_norm": 0.6120820045471191, + "learning_rate": 1.8399786666666668e-05, + "loss": 0.0507, + "step": 37505 + }, + { + "epoch": 0.240064, + "grad_norm": 0.32001546025276184, + "learning_rate": 1.8399573333333335e-05, + "loss": 0.0399, + "step": 37510 + }, + { + "epoch": 0.240096, + "grad_norm": 1.0477051734924316, + "learning_rate": 1.8399360000000003e-05, + "loss": 0.0607, + "step": 37515 + }, + { + "epoch": 0.240128, + "grad_norm": 0.6673609018325806, + "learning_rate": 1.8399146666666667e-05, + "loss": 0.0432, + "step": 37520 + }, + { + "epoch": 0.24016, + "grad_norm": 0.3840157687664032, + "learning_rate": 1.8398933333333334e-05, + "loss": 0.0493, + "step": 37525 + }, + { + "epoch": 0.240192, + "grad_norm": 1.195008635520935, + "learning_rate": 1.8398720000000002e-05, + "loss": 0.0559, + "step": 37530 + }, + { + "epoch": 0.240224, + "grad_norm": 1.617836356163025, + "learning_rate": 1.839850666666667e-05, + "loss": 0.0666, + "step": 37535 + }, + { + "epoch": 0.240256, + "grad_norm": 1.071385145187378, + "learning_rate": 1.8398293333333334e-05, + "loss": 0.0592, + "step": 37540 + }, + { + "epoch": 0.240288, + "grad_norm": 0.9231404662132263, + "learning_rate": 1.839808e-05, + "loss": 0.0697, + "step": 37545 + }, + { + "epoch": 0.24032, + "grad_norm": 0.7250649929046631, + "learning_rate": 1.839786666666667e-05, + "loss": 0.0449, + "step": 37550 + }, + { + "epoch": 0.240352, + "grad_norm": 2.1235828399658203, + "learning_rate": 1.8397653333333333e-05, + "loss": 0.0946, + "step": 37555 + }, + { + "epoch": 0.240384, + "grad_norm": 0.3178313076496124, + "learning_rate": 1.839744e-05, + "loss": 0.0531, + "step": 37560 + }, + { + "epoch": 0.240416, + "grad_norm": 2.03493332862854, + "learning_rate": 1.8397226666666668e-05, + "loss": 0.0719, + "step": 37565 + }, + { + "epoch": 0.240448, + "grad_norm": 0.8250563144683838, + "learning_rate": 1.8397013333333336e-05, + "loss": 0.039, + "step": 37570 + }, + { + "epoch": 0.24048, + "grad_norm": 0.880621612071991, + "learning_rate": 1.83968e-05, + "loss": 0.0444, + "step": 37575 + }, + { + "epoch": 0.240512, + "grad_norm": 1.5385864973068237, + "learning_rate": 1.839658666666667e-05, + "loss": 0.0555, + "step": 37580 + }, + { + "epoch": 0.240544, + "grad_norm": 0.9154313206672668, + "learning_rate": 1.8396373333333335e-05, + "loss": 0.0584, + "step": 37585 + }, + { + "epoch": 0.240576, + "grad_norm": 1.17009699344635, + "learning_rate": 1.839616e-05, + "loss": 0.0861, + "step": 37590 + }, + { + "epoch": 0.240608, + "grad_norm": 0.27580395340919495, + "learning_rate": 1.839594666666667e-05, + "loss": 0.0539, + "step": 37595 + }, + { + "epoch": 0.24064, + "grad_norm": 0.5786165595054626, + "learning_rate": 1.8395733333333334e-05, + "loss": 0.0585, + "step": 37600 + }, + { + "epoch": 0.240672, + "grad_norm": 0.5183877348899841, + "learning_rate": 1.8395520000000002e-05, + "loss": 0.0346, + "step": 37605 + }, + { + "epoch": 0.240704, + "grad_norm": 0.8843567967414856, + "learning_rate": 1.839530666666667e-05, + "loss": 0.048, + "step": 37610 + }, + { + "epoch": 0.240736, + "grad_norm": 0.8526740074157715, + "learning_rate": 1.8395093333333337e-05, + "loss": 0.0545, + "step": 37615 + }, + { + "epoch": 0.240768, + "grad_norm": 0.5324336290359497, + "learning_rate": 1.839488e-05, + "loss": 0.0553, + "step": 37620 + }, + { + "epoch": 0.2408, + "grad_norm": 0.7786142230033875, + "learning_rate": 1.839466666666667e-05, + "loss": 0.0335, + "step": 37625 + }, + { + "epoch": 0.240832, + "grad_norm": 0.42819538712501526, + "learning_rate": 1.8394453333333336e-05, + "loss": 0.0531, + "step": 37630 + }, + { + "epoch": 0.240864, + "grad_norm": 1.5633639097213745, + "learning_rate": 1.839424e-05, + "loss": 0.0504, + "step": 37635 + }, + { + "epoch": 0.240896, + "grad_norm": 0.6206732988357544, + "learning_rate": 1.8394026666666668e-05, + "loss": 0.0469, + "step": 37640 + }, + { + "epoch": 0.240928, + "grad_norm": 0.582589328289032, + "learning_rate": 1.8393813333333335e-05, + "loss": 0.0605, + "step": 37645 + }, + { + "epoch": 0.24096, + "grad_norm": 0.5624682903289795, + "learning_rate": 1.8393600000000003e-05, + "loss": 0.0586, + "step": 37650 + }, + { + "epoch": 0.240992, + "grad_norm": 0.7983444929122925, + "learning_rate": 1.8393386666666667e-05, + "loss": 0.0658, + "step": 37655 + }, + { + "epoch": 0.241024, + "grad_norm": 1.1867048740386963, + "learning_rate": 1.8393173333333335e-05, + "loss": 0.0268, + "step": 37660 + }, + { + "epoch": 0.241056, + "grad_norm": 0.6408258080482483, + "learning_rate": 1.8392960000000002e-05, + "loss": 0.0724, + "step": 37665 + }, + { + "epoch": 0.241088, + "grad_norm": 0.331282377243042, + "learning_rate": 1.8392746666666666e-05, + "loss": 0.0479, + "step": 37670 + }, + { + "epoch": 0.24112, + "grad_norm": 0.3111608624458313, + "learning_rate": 1.8392533333333334e-05, + "loss": 0.0565, + "step": 37675 + }, + { + "epoch": 0.241152, + "grad_norm": 0.9035035371780396, + "learning_rate": 1.839232e-05, + "loss": 0.0609, + "step": 37680 + }, + { + "epoch": 0.241184, + "grad_norm": 1.4975306987762451, + "learning_rate": 1.839210666666667e-05, + "loss": 0.0517, + "step": 37685 + }, + { + "epoch": 0.241216, + "grad_norm": 1.1643887758255005, + "learning_rate": 1.8391893333333337e-05, + "loss": 0.0716, + "step": 37690 + }, + { + "epoch": 0.241248, + "grad_norm": 0.45018231868743896, + "learning_rate": 1.839168e-05, + "loss": 0.0524, + "step": 37695 + }, + { + "epoch": 0.24128, + "grad_norm": 1.1372884511947632, + "learning_rate": 1.8391466666666668e-05, + "loss": 0.0569, + "step": 37700 + }, + { + "epoch": 0.241312, + "grad_norm": 0.5231363773345947, + "learning_rate": 1.8391253333333336e-05, + "loss": 0.0564, + "step": 37705 + }, + { + "epoch": 0.241344, + "grad_norm": 1.6899354457855225, + "learning_rate": 1.8391040000000003e-05, + "loss": 0.0657, + "step": 37710 + }, + { + "epoch": 0.241376, + "grad_norm": 0.6638023257255554, + "learning_rate": 1.8390826666666668e-05, + "loss": 0.0496, + "step": 37715 + }, + { + "epoch": 0.241408, + "grad_norm": 0.9452676773071289, + "learning_rate": 1.8390613333333335e-05, + "loss": 0.0863, + "step": 37720 + }, + { + "epoch": 0.24144, + "grad_norm": 1.4160822629928589, + "learning_rate": 1.8390400000000003e-05, + "loss": 0.0526, + "step": 37725 + }, + { + "epoch": 0.241472, + "grad_norm": 0.5447364449501038, + "learning_rate": 1.8390186666666667e-05, + "loss": 0.0571, + "step": 37730 + }, + { + "epoch": 0.241504, + "grad_norm": 0.8087313175201416, + "learning_rate": 1.8389973333333334e-05, + "loss": 0.0525, + "step": 37735 + }, + { + "epoch": 0.241536, + "grad_norm": 0.8206396698951721, + "learning_rate": 1.8389760000000002e-05, + "loss": 0.0295, + "step": 37740 + }, + { + "epoch": 0.241568, + "grad_norm": 1.7307184934616089, + "learning_rate": 1.838954666666667e-05, + "loss": 0.0504, + "step": 37745 + }, + { + "epoch": 0.2416, + "grad_norm": 1.1323562860488892, + "learning_rate": 1.8389333333333334e-05, + "loss": 0.0669, + "step": 37750 + }, + { + "epoch": 0.241632, + "grad_norm": 0.9567458629608154, + "learning_rate": 1.838912e-05, + "loss": 0.0649, + "step": 37755 + }, + { + "epoch": 0.241664, + "grad_norm": 1.9469548463821411, + "learning_rate": 1.838890666666667e-05, + "loss": 0.0763, + "step": 37760 + }, + { + "epoch": 0.241696, + "grad_norm": 0.41559842228889465, + "learning_rate": 1.8388693333333333e-05, + "loss": 0.0717, + "step": 37765 + }, + { + "epoch": 0.241728, + "grad_norm": 1.5498498678207397, + "learning_rate": 1.838848e-05, + "loss": 0.0562, + "step": 37770 + }, + { + "epoch": 0.24176, + "grad_norm": 0.9262927770614624, + "learning_rate": 1.8388266666666668e-05, + "loss": 0.0555, + "step": 37775 + }, + { + "epoch": 0.241792, + "grad_norm": 0.30542194843292236, + "learning_rate": 1.8388053333333336e-05, + "loss": 0.0555, + "step": 37780 + }, + { + "epoch": 0.241824, + "grad_norm": 0.4364238381385803, + "learning_rate": 1.838784e-05, + "loss": 0.0535, + "step": 37785 + }, + { + "epoch": 0.241856, + "grad_norm": 1.1160082817077637, + "learning_rate": 1.838762666666667e-05, + "loss": 0.0389, + "step": 37790 + }, + { + "epoch": 0.241888, + "grad_norm": 0.8756774067878723, + "learning_rate": 1.8387413333333335e-05, + "loss": 0.0598, + "step": 37795 + }, + { + "epoch": 0.24192, + "grad_norm": 0.5128272771835327, + "learning_rate": 1.83872e-05, + "loss": 0.0596, + "step": 37800 + }, + { + "epoch": 0.241952, + "grad_norm": 0.5009192824363708, + "learning_rate": 1.838698666666667e-05, + "loss": 0.0509, + "step": 37805 + }, + { + "epoch": 0.241984, + "grad_norm": 7.216699123382568, + "learning_rate": 1.8386773333333334e-05, + "loss": 0.041, + "step": 37810 + }, + { + "epoch": 0.242016, + "grad_norm": 0.6749567985534668, + "learning_rate": 1.8386560000000002e-05, + "loss": 0.0797, + "step": 37815 + }, + { + "epoch": 0.242048, + "grad_norm": 1.1313972473144531, + "learning_rate": 1.838634666666667e-05, + "loss": 0.068, + "step": 37820 + }, + { + "epoch": 0.24208, + "grad_norm": 0.41025105118751526, + "learning_rate": 1.8386133333333337e-05, + "loss": 0.0369, + "step": 37825 + }, + { + "epoch": 0.242112, + "grad_norm": 0.6352942585945129, + "learning_rate": 1.838592e-05, + "loss": 0.041, + "step": 37830 + }, + { + "epoch": 0.242144, + "grad_norm": 0.5781429409980774, + "learning_rate": 1.838570666666667e-05, + "loss": 0.0438, + "step": 37835 + }, + { + "epoch": 0.242176, + "grad_norm": 0.604459822177887, + "learning_rate": 1.8385493333333336e-05, + "loss": 0.0673, + "step": 37840 + }, + { + "epoch": 0.242208, + "grad_norm": 2.4333934783935547, + "learning_rate": 1.838528e-05, + "loss": 0.0499, + "step": 37845 + }, + { + "epoch": 0.24224, + "grad_norm": 0.4092234969139099, + "learning_rate": 1.8385066666666668e-05, + "loss": 0.0659, + "step": 37850 + }, + { + "epoch": 0.242272, + "grad_norm": 1.1848206520080566, + "learning_rate": 1.8384853333333335e-05, + "loss": 0.0587, + "step": 37855 + }, + { + "epoch": 0.242304, + "grad_norm": 1.5592421293258667, + "learning_rate": 1.8384640000000003e-05, + "loss": 0.0626, + "step": 37860 + }, + { + "epoch": 0.242336, + "grad_norm": 0.916819155216217, + "learning_rate": 1.8384426666666667e-05, + "loss": 0.07, + "step": 37865 + }, + { + "epoch": 0.242368, + "grad_norm": 0.37052321434020996, + "learning_rate": 1.8384213333333335e-05, + "loss": 0.0496, + "step": 37870 + }, + { + "epoch": 0.2424, + "grad_norm": 0.477924644947052, + "learning_rate": 1.8384000000000002e-05, + "loss": 0.0411, + "step": 37875 + }, + { + "epoch": 0.242432, + "grad_norm": 0.7817985415458679, + "learning_rate": 1.8383786666666666e-05, + "loss": 0.0306, + "step": 37880 + }, + { + "epoch": 0.242464, + "grad_norm": 0.4849250912666321, + "learning_rate": 1.8383573333333334e-05, + "loss": 0.0368, + "step": 37885 + }, + { + "epoch": 0.242496, + "grad_norm": 0.9382723569869995, + "learning_rate": 1.838336e-05, + "loss": 0.0602, + "step": 37890 + }, + { + "epoch": 0.242528, + "grad_norm": 3.446237087249756, + "learning_rate": 1.838314666666667e-05, + "loss": 0.0562, + "step": 37895 + }, + { + "epoch": 0.24256, + "grad_norm": 0.5886014699935913, + "learning_rate": 1.8382933333333333e-05, + "loss": 0.0543, + "step": 37900 + }, + { + "epoch": 0.242592, + "grad_norm": 0.8533406853675842, + "learning_rate": 1.838272e-05, + "loss": 0.0445, + "step": 37905 + }, + { + "epoch": 0.242624, + "grad_norm": 1.0532764196395874, + "learning_rate": 1.8382506666666668e-05, + "loss": 0.0593, + "step": 37910 + }, + { + "epoch": 0.242656, + "grad_norm": 1.103776454925537, + "learning_rate": 1.8382293333333336e-05, + "loss": 0.0423, + "step": 37915 + }, + { + "epoch": 0.242688, + "grad_norm": 0.7732768654823303, + "learning_rate": 1.8382080000000003e-05, + "loss": 0.0739, + "step": 37920 + }, + { + "epoch": 0.24272, + "grad_norm": 0.8996108770370483, + "learning_rate": 1.8381866666666668e-05, + "loss": 0.0783, + "step": 37925 + }, + { + "epoch": 0.242752, + "grad_norm": 0.7075698375701904, + "learning_rate": 1.8381653333333335e-05, + "loss": 0.047, + "step": 37930 + }, + { + "epoch": 0.242784, + "grad_norm": 0.5276722311973572, + "learning_rate": 1.8381440000000003e-05, + "loss": 0.0514, + "step": 37935 + }, + { + "epoch": 0.242816, + "grad_norm": 0.8837838172912598, + "learning_rate": 1.8381226666666667e-05, + "loss": 0.0314, + "step": 37940 + }, + { + "epoch": 0.242848, + "grad_norm": 3.3410282135009766, + "learning_rate": 1.8381013333333334e-05, + "loss": 0.0786, + "step": 37945 + }, + { + "epoch": 0.24288, + "grad_norm": 0.5857595801353455, + "learning_rate": 1.8380800000000002e-05, + "loss": 0.0542, + "step": 37950 + }, + { + "epoch": 0.242912, + "grad_norm": 0.5176069736480713, + "learning_rate": 1.838058666666667e-05, + "loss": 0.0581, + "step": 37955 + }, + { + "epoch": 0.242944, + "grad_norm": 0.7193460464477539, + "learning_rate": 1.8380373333333334e-05, + "loss": 0.0517, + "step": 37960 + }, + { + "epoch": 0.242976, + "grad_norm": 0.559670090675354, + "learning_rate": 1.838016e-05, + "loss": 0.0588, + "step": 37965 + }, + { + "epoch": 0.243008, + "grad_norm": 0.5741512775421143, + "learning_rate": 1.837994666666667e-05, + "loss": 0.0762, + "step": 37970 + }, + { + "epoch": 0.24304, + "grad_norm": 0.9423655867576599, + "learning_rate": 1.8379733333333333e-05, + "loss": 0.0823, + "step": 37975 + }, + { + "epoch": 0.243072, + "grad_norm": 1.0712532997131348, + "learning_rate": 1.837952e-05, + "loss": 0.0597, + "step": 37980 + }, + { + "epoch": 0.243104, + "grad_norm": 0.5585420727729797, + "learning_rate": 1.8379306666666668e-05, + "loss": 0.0352, + "step": 37985 + }, + { + "epoch": 0.243136, + "grad_norm": 0.8220025300979614, + "learning_rate": 1.8379093333333336e-05, + "loss": 0.0351, + "step": 37990 + }, + { + "epoch": 0.243168, + "grad_norm": 1.2384047508239746, + "learning_rate": 1.837888e-05, + "loss": 0.0712, + "step": 37995 + }, + { + "epoch": 0.2432, + "grad_norm": 0.439595490694046, + "learning_rate": 1.837866666666667e-05, + "loss": 0.0384, + "step": 38000 + }, + { + "epoch": 0.243232, + "grad_norm": 0.45353221893310547, + "learning_rate": 1.8378453333333335e-05, + "loss": 0.0402, + "step": 38005 + }, + { + "epoch": 0.243264, + "grad_norm": 0.6980796456336975, + "learning_rate": 1.837824e-05, + "loss": 0.0506, + "step": 38010 + }, + { + "epoch": 0.243296, + "grad_norm": 0.3363654613494873, + "learning_rate": 1.837802666666667e-05, + "loss": 0.0601, + "step": 38015 + }, + { + "epoch": 0.243328, + "grad_norm": 1.1973674297332764, + "learning_rate": 1.8377813333333334e-05, + "loss": 0.0697, + "step": 38020 + }, + { + "epoch": 0.24336, + "grad_norm": 0.9902765154838562, + "learning_rate": 1.8377600000000002e-05, + "loss": 0.0667, + "step": 38025 + }, + { + "epoch": 0.243392, + "grad_norm": 0.769140899181366, + "learning_rate": 1.837738666666667e-05, + "loss": 0.043, + "step": 38030 + }, + { + "epoch": 0.243424, + "grad_norm": 0.6651462912559509, + "learning_rate": 1.8377173333333337e-05, + "loss": 0.0657, + "step": 38035 + }, + { + "epoch": 0.243456, + "grad_norm": 0.5231066942214966, + "learning_rate": 1.837696e-05, + "loss": 0.0463, + "step": 38040 + }, + { + "epoch": 0.243488, + "grad_norm": 0.5097802877426147, + "learning_rate": 1.837674666666667e-05, + "loss": 0.0365, + "step": 38045 + }, + { + "epoch": 0.24352, + "grad_norm": 0.7776026725769043, + "learning_rate": 1.8376533333333336e-05, + "loss": 0.0368, + "step": 38050 + }, + { + "epoch": 0.243552, + "grad_norm": 1.0337945222854614, + "learning_rate": 1.837632e-05, + "loss": 0.0954, + "step": 38055 + }, + { + "epoch": 0.243584, + "grad_norm": 0.3962561786174774, + "learning_rate": 1.8376106666666668e-05, + "loss": 0.0394, + "step": 38060 + }, + { + "epoch": 0.243616, + "grad_norm": 0.6389564871788025, + "learning_rate": 1.8375893333333335e-05, + "loss": 0.0601, + "step": 38065 + }, + { + "epoch": 0.243648, + "grad_norm": 0.5948938131332397, + "learning_rate": 1.8375680000000003e-05, + "loss": 0.0505, + "step": 38070 + }, + { + "epoch": 0.24368, + "grad_norm": 0.5653403997421265, + "learning_rate": 1.8375466666666667e-05, + "loss": 0.0662, + "step": 38075 + }, + { + "epoch": 0.243712, + "grad_norm": 0.5388033986091614, + "learning_rate": 1.8375253333333335e-05, + "loss": 0.031, + "step": 38080 + }, + { + "epoch": 0.243744, + "grad_norm": 0.40709957480430603, + "learning_rate": 1.8375040000000002e-05, + "loss": 0.082, + "step": 38085 + }, + { + "epoch": 0.243776, + "grad_norm": 1.2571513652801514, + "learning_rate": 1.8374826666666666e-05, + "loss": 0.0317, + "step": 38090 + }, + { + "epoch": 0.243808, + "grad_norm": 0.49091461300849915, + "learning_rate": 1.8374613333333334e-05, + "loss": 0.0465, + "step": 38095 + }, + { + "epoch": 0.24384, + "grad_norm": 0.6790105700492859, + "learning_rate": 1.83744e-05, + "loss": 0.052, + "step": 38100 + }, + { + "epoch": 0.243872, + "grad_norm": 0.6097052693367004, + "learning_rate": 1.837418666666667e-05, + "loss": 0.0416, + "step": 38105 + }, + { + "epoch": 0.243904, + "grad_norm": 0.8325270414352417, + "learning_rate": 1.8373973333333333e-05, + "loss": 0.0573, + "step": 38110 + }, + { + "epoch": 0.243936, + "grad_norm": 1.40211820602417, + "learning_rate": 1.837376e-05, + "loss": 0.067, + "step": 38115 + }, + { + "epoch": 0.243968, + "grad_norm": 1.0485713481903076, + "learning_rate": 1.837354666666667e-05, + "loss": 0.0599, + "step": 38120 + }, + { + "epoch": 0.244, + "grad_norm": 0.6867913007736206, + "learning_rate": 1.8373333333333332e-05, + "loss": 0.0681, + "step": 38125 + }, + { + "epoch": 0.244032, + "grad_norm": 0.43253087997436523, + "learning_rate": 1.8373120000000003e-05, + "loss": 0.057, + "step": 38130 + }, + { + "epoch": 0.244064, + "grad_norm": 1.1732518672943115, + "learning_rate": 1.8372906666666668e-05, + "loss": 0.0719, + "step": 38135 + }, + { + "epoch": 0.244096, + "grad_norm": 0.3362181782722473, + "learning_rate": 1.8372693333333335e-05, + "loss": 0.0385, + "step": 38140 + }, + { + "epoch": 0.244128, + "grad_norm": 0.35674434900283813, + "learning_rate": 1.8372480000000003e-05, + "loss": 0.0406, + "step": 38145 + }, + { + "epoch": 0.24416, + "grad_norm": 1.3500499725341797, + "learning_rate": 1.8372266666666667e-05, + "loss": 0.0455, + "step": 38150 + }, + { + "epoch": 0.244192, + "grad_norm": 0.574994683265686, + "learning_rate": 1.8372053333333334e-05, + "loss": 0.0329, + "step": 38155 + }, + { + "epoch": 0.244224, + "grad_norm": 0.5424598455429077, + "learning_rate": 1.8371840000000002e-05, + "loss": 0.0714, + "step": 38160 + }, + { + "epoch": 0.244256, + "grad_norm": 0.2559197247028351, + "learning_rate": 1.837162666666667e-05, + "loss": 0.0412, + "step": 38165 + }, + { + "epoch": 0.244288, + "grad_norm": 0.47579672932624817, + "learning_rate": 1.8371413333333334e-05, + "loss": 0.0539, + "step": 38170 + }, + { + "epoch": 0.24432, + "grad_norm": 0.8582704663276672, + "learning_rate": 1.83712e-05, + "loss": 0.0775, + "step": 38175 + }, + { + "epoch": 0.244352, + "grad_norm": 0.8488937020301819, + "learning_rate": 1.837098666666667e-05, + "loss": 0.0624, + "step": 38180 + }, + { + "epoch": 0.244384, + "grad_norm": 1.4720638990402222, + "learning_rate": 1.8370773333333333e-05, + "loss": 0.0611, + "step": 38185 + }, + { + "epoch": 0.244416, + "grad_norm": 0.6650334000587463, + "learning_rate": 1.837056e-05, + "loss": 0.0433, + "step": 38190 + }, + { + "epoch": 0.244448, + "grad_norm": 0.7643641829490662, + "learning_rate": 1.8370346666666668e-05, + "loss": 0.053, + "step": 38195 + }, + { + "epoch": 0.24448, + "grad_norm": 1.0362486839294434, + "learning_rate": 1.8370133333333336e-05, + "loss": 0.072, + "step": 38200 + }, + { + "epoch": 0.244512, + "grad_norm": 0.579653263092041, + "learning_rate": 1.836992e-05, + "loss": 0.047, + "step": 38205 + }, + { + "epoch": 0.244544, + "grad_norm": 0.6740440130233765, + "learning_rate": 1.8369706666666667e-05, + "loss": 0.0608, + "step": 38210 + }, + { + "epoch": 0.244576, + "grad_norm": 0.6805717945098877, + "learning_rate": 1.8369493333333335e-05, + "loss": 0.0288, + "step": 38215 + }, + { + "epoch": 0.244608, + "grad_norm": 1.2014366388320923, + "learning_rate": 1.836928e-05, + "loss": 0.0898, + "step": 38220 + }, + { + "epoch": 0.24464, + "grad_norm": 0.7986353635787964, + "learning_rate": 1.836906666666667e-05, + "loss": 0.0431, + "step": 38225 + }, + { + "epoch": 0.244672, + "grad_norm": 0.8372498154640198, + "learning_rate": 1.8368853333333334e-05, + "loss": 0.0574, + "step": 38230 + }, + { + "epoch": 0.244704, + "grad_norm": 0.592542290687561, + "learning_rate": 1.8368640000000002e-05, + "loss": 0.0418, + "step": 38235 + }, + { + "epoch": 0.244736, + "grad_norm": 0.46708619594573975, + "learning_rate": 1.836842666666667e-05, + "loss": 0.0547, + "step": 38240 + }, + { + "epoch": 0.244768, + "grad_norm": 1.3544877767562866, + "learning_rate": 1.8368213333333337e-05, + "loss": 0.0859, + "step": 38245 + }, + { + "epoch": 0.2448, + "grad_norm": 0.5253264307975769, + "learning_rate": 1.8368e-05, + "loss": 0.0598, + "step": 38250 + }, + { + "epoch": 0.244832, + "grad_norm": 0.6482951641082764, + "learning_rate": 1.836778666666667e-05, + "loss": 0.0585, + "step": 38255 + }, + { + "epoch": 0.244864, + "grad_norm": 1.4672836065292358, + "learning_rate": 1.8367573333333336e-05, + "loss": 0.0744, + "step": 38260 + }, + { + "epoch": 0.244896, + "grad_norm": 0.6684130430221558, + "learning_rate": 1.836736e-05, + "loss": 0.0505, + "step": 38265 + }, + { + "epoch": 0.244928, + "grad_norm": 0.5378235578536987, + "learning_rate": 1.8367146666666668e-05, + "loss": 0.0446, + "step": 38270 + }, + { + "epoch": 0.24496, + "grad_norm": 0.6660892367362976, + "learning_rate": 1.8366933333333335e-05, + "loss": 0.0631, + "step": 38275 + }, + { + "epoch": 0.244992, + "grad_norm": 4.003737926483154, + "learning_rate": 1.8366720000000003e-05, + "loss": 0.0481, + "step": 38280 + }, + { + "epoch": 0.245024, + "grad_norm": 0.5601021647453308, + "learning_rate": 1.8366506666666667e-05, + "loss": 0.0484, + "step": 38285 + }, + { + "epoch": 0.245056, + "grad_norm": 0.9300280213356018, + "learning_rate": 1.8366293333333335e-05, + "loss": 0.0568, + "step": 38290 + }, + { + "epoch": 0.245088, + "grad_norm": 0.9490105509757996, + "learning_rate": 1.8366080000000002e-05, + "loss": 0.0443, + "step": 38295 + }, + { + "epoch": 0.24512, + "grad_norm": 0.637035608291626, + "learning_rate": 1.8365866666666666e-05, + "loss": 0.0487, + "step": 38300 + }, + { + "epoch": 0.245152, + "grad_norm": 1.578267216682434, + "learning_rate": 1.8365653333333334e-05, + "loss": 0.064, + "step": 38305 + }, + { + "epoch": 0.245184, + "grad_norm": 0.5983637571334839, + "learning_rate": 1.836544e-05, + "loss": 0.035, + "step": 38310 + }, + { + "epoch": 0.245216, + "grad_norm": 0.8468403816223145, + "learning_rate": 1.836522666666667e-05, + "loss": 0.0434, + "step": 38315 + }, + { + "epoch": 0.245248, + "grad_norm": 0.7395219802856445, + "learning_rate": 1.8365013333333333e-05, + "loss": 0.0328, + "step": 38320 + }, + { + "epoch": 0.24528, + "grad_norm": 0.7611563205718994, + "learning_rate": 1.83648e-05, + "loss": 0.0364, + "step": 38325 + }, + { + "epoch": 0.245312, + "grad_norm": 0.7580504417419434, + "learning_rate": 1.836458666666667e-05, + "loss": 0.0485, + "step": 38330 + }, + { + "epoch": 0.245344, + "grad_norm": 0.5550503730773926, + "learning_rate": 1.8364373333333332e-05, + "loss": 0.0463, + "step": 38335 + }, + { + "epoch": 0.245376, + "grad_norm": 0.6538017988204956, + "learning_rate": 1.8364160000000003e-05, + "loss": 0.0269, + "step": 38340 + }, + { + "epoch": 0.245408, + "grad_norm": 0.3284294605255127, + "learning_rate": 1.8363946666666668e-05, + "loss": 0.0399, + "step": 38345 + }, + { + "epoch": 0.24544, + "grad_norm": 0.6123236417770386, + "learning_rate": 1.8363733333333335e-05, + "loss": 0.0429, + "step": 38350 + }, + { + "epoch": 0.245472, + "grad_norm": 0.8215142488479614, + "learning_rate": 1.8363520000000003e-05, + "loss": 0.058, + "step": 38355 + }, + { + "epoch": 0.245504, + "grad_norm": 1.3081157207489014, + "learning_rate": 1.836330666666667e-05, + "loss": 0.0608, + "step": 38360 + }, + { + "epoch": 0.245536, + "grad_norm": 0.8563439846038818, + "learning_rate": 1.8363093333333334e-05, + "loss": 0.059, + "step": 38365 + }, + { + "epoch": 0.245568, + "grad_norm": 0.6061312556266785, + "learning_rate": 1.8362880000000002e-05, + "loss": 0.0538, + "step": 38370 + }, + { + "epoch": 0.2456, + "grad_norm": 0.5084028840065002, + "learning_rate": 1.836266666666667e-05, + "loss": 0.0737, + "step": 38375 + }, + { + "epoch": 0.245632, + "grad_norm": 1.471773386001587, + "learning_rate": 1.8362453333333334e-05, + "loss": 0.0918, + "step": 38380 + }, + { + "epoch": 0.245664, + "grad_norm": 0.7163558602333069, + "learning_rate": 1.836224e-05, + "loss": 0.0557, + "step": 38385 + }, + { + "epoch": 0.245696, + "grad_norm": 1.2445317506790161, + "learning_rate": 1.836202666666667e-05, + "loss": 0.054, + "step": 38390 + }, + { + "epoch": 0.245728, + "grad_norm": 0.909339964389801, + "learning_rate": 1.8361813333333336e-05, + "loss": 0.0898, + "step": 38395 + }, + { + "epoch": 0.24576, + "grad_norm": 1.007493495941162, + "learning_rate": 1.83616e-05, + "loss": 0.075, + "step": 38400 + }, + { + "epoch": 0.245792, + "grad_norm": 0.6834063529968262, + "learning_rate": 1.8361386666666668e-05, + "loss": 0.0697, + "step": 38405 + }, + { + "epoch": 0.245824, + "grad_norm": 0.4891852140426636, + "learning_rate": 1.8361173333333336e-05, + "loss": 0.0479, + "step": 38410 + }, + { + "epoch": 0.245856, + "grad_norm": 0.8705089688301086, + "learning_rate": 1.836096e-05, + "loss": 0.0397, + "step": 38415 + }, + { + "epoch": 0.245888, + "grad_norm": 0.5888856053352356, + "learning_rate": 1.8360746666666667e-05, + "loss": 0.0544, + "step": 38420 + }, + { + "epoch": 0.24592, + "grad_norm": 0.6655998229980469, + "learning_rate": 1.8360533333333335e-05, + "loss": 0.0846, + "step": 38425 + }, + { + "epoch": 0.245952, + "grad_norm": 0.7246758937835693, + "learning_rate": 1.8360320000000002e-05, + "loss": 0.0728, + "step": 38430 + }, + { + "epoch": 0.245984, + "grad_norm": 1.0504387617111206, + "learning_rate": 1.8360106666666667e-05, + "loss": 0.0862, + "step": 38435 + }, + { + "epoch": 0.246016, + "grad_norm": 0.3855803310871124, + "learning_rate": 1.8359893333333334e-05, + "loss": 0.0321, + "step": 38440 + }, + { + "epoch": 0.246048, + "grad_norm": 1.1613106727600098, + "learning_rate": 1.8359680000000002e-05, + "loss": 0.0625, + "step": 38445 + }, + { + "epoch": 0.24608, + "grad_norm": 0.4807297885417938, + "learning_rate": 1.835946666666667e-05, + "loss": 0.0606, + "step": 38450 + }, + { + "epoch": 0.246112, + "grad_norm": 0.7082202434539795, + "learning_rate": 1.8359253333333337e-05, + "loss": 0.0717, + "step": 38455 + }, + { + "epoch": 0.246144, + "grad_norm": 1.450534462928772, + "learning_rate": 1.835904e-05, + "loss": 0.106, + "step": 38460 + }, + { + "epoch": 0.246176, + "grad_norm": 0.9623432159423828, + "learning_rate": 1.835882666666667e-05, + "loss": 0.0612, + "step": 38465 + }, + { + "epoch": 0.246208, + "grad_norm": 0.377810001373291, + "learning_rate": 1.8358613333333336e-05, + "loss": 0.053, + "step": 38470 + }, + { + "epoch": 0.24624, + "grad_norm": 0.818338930606842, + "learning_rate": 1.83584e-05, + "loss": 0.068, + "step": 38475 + }, + { + "epoch": 0.246272, + "grad_norm": 0.7313656806945801, + "learning_rate": 1.8358186666666668e-05, + "loss": 0.0527, + "step": 38480 + }, + { + "epoch": 0.246304, + "grad_norm": 1.0376007556915283, + "learning_rate": 1.8357973333333335e-05, + "loss": 0.0506, + "step": 38485 + }, + { + "epoch": 0.246336, + "grad_norm": 0.6412497162818909, + "learning_rate": 1.8357760000000003e-05, + "loss": 0.0512, + "step": 38490 + }, + { + "epoch": 0.246368, + "grad_norm": 1.223144769668579, + "learning_rate": 1.8357546666666667e-05, + "loss": 0.0604, + "step": 38495 + }, + { + "epoch": 0.2464, + "grad_norm": 0.45622482895851135, + "learning_rate": 1.8357333333333335e-05, + "loss": 0.0488, + "step": 38500 + }, + { + "epoch": 0.246432, + "grad_norm": 0.6104459166526794, + "learning_rate": 1.8357120000000002e-05, + "loss": 0.0754, + "step": 38505 + }, + { + "epoch": 0.246464, + "grad_norm": 1.0744731426239014, + "learning_rate": 1.8356906666666666e-05, + "loss": 0.0542, + "step": 38510 + }, + { + "epoch": 0.246496, + "grad_norm": 0.9426608085632324, + "learning_rate": 1.8356693333333334e-05, + "loss": 0.0498, + "step": 38515 + }, + { + "epoch": 0.246528, + "grad_norm": 1.0410343408584595, + "learning_rate": 1.835648e-05, + "loss": 0.0673, + "step": 38520 + }, + { + "epoch": 0.24656, + "grad_norm": 0.7666288018226624, + "learning_rate": 1.835626666666667e-05, + "loss": 0.0735, + "step": 38525 + }, + { + "epoch": 0.246592, + "grad_norm": 0.4740670919418335, + "learning_rate": 1.8356053333333333e-05, + "loss": 0.0375, + "step": 38530 + }, + { + "epoch": 0.246624, + "grad_norm": 0.9778685569763184, + "learning_rate": 1.8355840000000004e-05, + "loss": 0.0585, + "step": 38535 + }, + { + "epoch": 0.246656, + "grad_norm": 0.8927087783813477, + "learning_rate": 1.835562666666667e-05, + "loss": 0.0558, + "step": 38540 + }, + { + "epoch": 0.246688, + "grad_norm": 0.33043378591537476, + "learning_rate": 1.8355413333333332e-05, + "loss": 0.0974, + "step": 38545 + }, + { + "epoch": 0.24672, + "grad_norm": 0.5158395171165466, + "learning_rate": 1.8355200000000003e-05, + "loss": 0.0487, + "step": 38550 + }, + { + "epoch": 0.246752, + "grad_norm": 1.0040767192840576, + "learning_rate": 1.8354986666666668e-05, + "loss": 0.0517, + "step": 38555 + }, + { + "epoch": 0.246784, + "grad_norm": 0.6298558712005615, + "learning_rate": 1.8354773333333335e-05, + "loss": 0.0539, + "step": 38560 + }, + { + "epoch": 0.246816, + "grad_norm": 1.423007845878601, + "learning_rate": 1.8354560000000003e-05, + "loss": 0.057, + "step": 38565 + }, + { + "epoch": 0.246848, + "grad_norm": 0.7488066554069519, + "learning_rate": 1.835434666666667e-05, + "loss": 0.0463, + "step": 38570 + }, + { + "epoch": 0.24688, + "grad_norm": 0.9736982583999634, + "learning_rate": 1.8354133333333334e-05, + "loss": 0.0678, + "step": 38575 + }, + { + "epoch": 0.246912, + "grad_norm": 0.7458223700523376, + "learning_rate": 1.8353920000000002e-05, + "loss": 0.0481, + "step": 38580 + }, + { + "epoch": 0.246944, + "grad_norm": 0.958290696144104, + "learning_rate": 1.835370666666667e-05, + "loss": 0.0715, + "step": 38585 + }, + { + "epoch": 0.246976, + "grad_norm": 1.7038586139678955, + "learning_rate": 1.8353493333333334e-05, + "loss": 0.0851, + "step": 38590 + }, + { + "epoch": 0.247008, + "grad_norm": 0.7614572644233704, + "learning_rate": 1.835328e-05, + "loss": 0.0568, + "step": 38595 + }, + { + "epoch": 0.24704, + "grad_norm": 1.8127179145812988, + "learning_rate": 1.835306666666667e-05, + "loss": 0.0734, + "step": 38600 + }, + { + "epoch": 0.247072, + "grad_norm": 1.2895567417144775, + "learning_rate": 1.8352853333333336e-05, + "loss": 0.0768, + "step": 38605 + }, + { + "epoch": 0.247104, + "grad_norm": 1.38942551612854, + "learning_rate": 1.835264e-05, + "loss": 0.0615, + "step": 38610 + }, + { + "epoch": 0.247136, + "grad_norm": 6.696420192718506, + "learning_rate": 1.8352426666666668e-05, + "loss": 0.0832, + "step": 38615 + }, + { + "epoch": 0.247168, + "grad_norm": 0.6713582873344421, + "learning_rate": 1.8352213333333336e-05, + "loss": 0.0583, + "step": 38620 + }, + { + "epoch": 0.2472, + "grad_norm": 0.9993793368339539, + "learning_rate": 1.8352e-05, + "loss": 0.0502, + "step": 38625 + }, + { + "epoch": 0.247232, + "grad_norm": 0.8573927879333496, + "learning_rate": 1.8351786666666667e-05, + "loss": 0.0461, + "step": 38630 + }, + { + "epoch": 0.247264, + "grad_norm": 0.8936583995819092, + "learning_rate": 1.8351573333333335e-05, + "loss": 0.0561, + "step": 38635 + }, + { + "epoch": 0.247296, + "grad_norm": 1.0801512002944946, + "learning_rate": 1.8351360000000002e-05, + "loss": 0.0464, + "step": 38640 + }, + { + "epoch": 0.247328, + "grad_norm": 0.5424084067344666, + "learning_rate": 1.8351146666666667e-05, + "loss": 0.0621, + "step": 38645 + }, + { + "epoch": 0.24736, + "grad_norm": 0.6264737248420715, + "learning_rate": 1.8350933333333334e-05, + "loss": 0.044, + "step": 38650 + }, + { + "epoch": 0.247392, + "grad_norm": 1.0283540487289429, + "learning_rate": 1.8350720000000002e-05, + "loss": 0.0458, + "step": 38655 + }, + { + "epoch": 0.247424, + "grad_norm": 1.5502278804779053, + "learning_rate": 1.8350506666666666e-05, + "loss": 0.0724, + "step": 38660 + }, + { + "epoch": 0.247456, + "grad_norm": 0.06967681646347046, + "learning_rate": 1.8350293333333337e-05, + "loss": 0.0461, + "step": 38665 + }, + { + "epoch": 0.247488, + "grad_norm": 0.37429991364479065, + "learning_rate": 1.835008e-05, + "loss": 0.0453, + "step": 38670 + }, + { + "epoch": 0.24752, + "grad_norm": 0.9254516959190369, + "learning_rate": 1.834986666666667e-05, + "loss": 0.0443, + "step": 38675 + }, + { + "epoch": 0.247552, + "grad_norm": 1.210276484489441, + "learning_rate": 1.8349653333333336e-05, + "loss": 0.0611, + "step": 38680 + }, + { + "epoch": 0.247584, + "grad_norm": 0.44256392121315, + "learning_rate": 1.834944e-05, + "loss": 0.0585, + "step": 38685 + }, + { + "epoch": 0.247616, + "grad_norm": 0.8166854977607727, + "learning_rate": 1.8349226666666668e-05, + "loss": 0.0665, + "step": 38690 + }, + { + "epoch": 0.247648, + "grad_norm": 0.4455624222755432, + "learning_rate": 1.8349013333333335e-05, + "loss": 0.052, + "step": 38695 + }, + { + "epoch": 0.24768, + "grad_norm": 0.6272415518760681, + "learning_rate": 1.8348800000000003e-05, + "loss": 0.0403, + "step": 38700 + }, + { + "epoch": 0.247712, + "grad_norm": 0.987396240234375, + "learning_rate": 1.8348586666666667e-05, + "loss": 0.0528, + "step": 38705 + }, + { + "epoch": 0.247744, + "grad_norm": 1.1836769580841064, + "learning_rate": 1.8348373333333335e-05, + "loss": 0.0456, + "step": 38710 + }, + { + "epoch": 0.247776, + "grad_norm": 0.8668085336685181, + "learning_rate": 1.8348160000000002e-05, + "loss": 0.0497, + "step": 38715 + }, + { + "epoch": 0.247808, + "grad_norm": 1.8300621509552002, + "learning_rate": 1.8347946666666666e-05, + "loss": 0.0621, + "step": 38720 + }, + { + "epoch": 0.24784, + "grad_norm": 0.46674588322639465, + "learning_rate": 1.8347733333333334e-05, + "loss": 0.035, + "step": 38725 + }, + { + "epoch": 0.247872, + "grad_norm": 0.8746234774589539, + "learning_rate": 1.834752e-05, + "loss": 0.0474, + "step": 38730 + }, + { + "epoch": 0.247904, + "grad_norm": 1.1019048690795898, + "learning_rate": 1.834730666666667e-05, + "loss": 0.0588, + "step": 38735 + }, + { + "epoch": 0.247936, + "grad_norm": 0.22470733523368835, + "learning_rate": 1.8347093333333333e-05, + "loss": 0.0281, + "step": 38740 + }, + { + "epoch": 0.247968, + "grad_norm": 0.8996902704238892, + "learning_rate": 1.8346880000000004e-05, + "loss": 0.0724, + "step": 38745 + }, + { + "epoch": 0.248, + "grad_norm": 0.9598321914672852, + "learning_rate": 1.834666666666667e-05, + "loss": 0.0485, + "step": 38750 + }, + { + "epoch": 0.248032, + "grad_norm": 2.061091184616089, + "learning_rate": 1.8346453333333332e-05, + "loss": 0.0695, + "step": 38755 + }, + { + "epoch": 0.248064, + "grad_norm": 0.3526691496372223, + "learning_rate": 1.8346240000000003e-05, + "loss": 0.0474, + "step": 38760 + }, + { + "epoch": 0.248096, + "grad_norm": 1.1738028526306152, + "learning_rate": 1.8346026666666668e-05, + "loss": 0.0761, + "step": 38765 + }, + { + "epoch": 0.248128, + "grad_norm": 0.538012683391571, + "learning_rate": 1.8345813333333335e-05, + "loss": 0.0513, + "step": 38770 + }, + { + "epoch": 0.24816, + "grad_norm": 5.2383623123168945, + "learning_rate": 1.8345600000000003e-05, + "loss": 0.0487, + "step": 38775 + }, + { + "epoch": 0.248192, + "grad_norm": 0.746604323387146, + "learning_rate": 1.834538666666667e-05, + "loss": 0.0517, + "step": 38780 + }, + { + "epoch": 0.248224, + "grad_norm": 0.4970112442970276, + "learning_rate": 1.8345173333333334e-05, + "loss": 0.0555, + "step": 38785 + }, + { + "epoch": 0.248256, + "grad_norm": 0.5094128251075745, + "learning_rate": 1.8344960000000002e-05, + "loss": 0.046, + "step": 38790 + }, + { + "epoch": 0.248288, + "grad_norm": 0.5105900168418884, + "learning_rate": 1.834474666666667e-05, + "loss": 0.0614, + "step": 38795 + }, + { + "epoch": 0.24832, + "grad_norm": 0.7139715552330017, + "learning_rate": 1.8344533333333334e-05, + "loss": 0.054, + "step": 38800 + }, + { + "epoch": 0.248352, + "grad_norm": 1.798790693283081, + "learning_rate": 1.834432e-05, + "loss": 0.0454, + "step": 38805 + }, + { + "epoch": 0.248384, + "grad_norm": 1.6529966592788696, + "learning_rate": 1.834410666666667e-05, + "loss": 0.0768, + "step": 38810 + }, + { + "epoch": 0.248416, + "grad_norm": 0.7780346274375916, + "learning_rate": 1.8343893333333336e-05, + "loss": 0.0795, + "step": 38815 + }, + { + "epoch": 0.248448, + "grad_norm": 0.43294015526771545, + "learning_rate": 1.834368e-05, + "loss": 0.0399, + "step": 38820 + }, + { + "epoch": 0.24848, + "grad_norm": 0.6504418849945068, + "learning_rate": 1.8343466666666668e-05, + "loss": 0.0377, + "step": 38825 + }, + { + "epoch": 0.248512, + "grad_norm": 0.7504146695137024, + "learning_rate": 1.8343253333333336e-05, + "loss": 0.0405, + "step": 38830 + }, + { + "epoch": 0.248544, + "grad_norm": 0.3106693625450134, + "learning_rate": 1.834304e-05, + "loss": 0.0737, + "step": 38835 + }, + { + "epoch": 0.248576, + "grad_norm": 0.8566030859947205, + "learning_rate": 1.8342826666666667e-05, + "loss": 0.0298, + "step": 38840 + }, + { + "epoch": 0.248608, + "grad_norm": 0.3631168603897095, + "learning_rate": 1.8342613333333335e-05, + "loss": 0.0414, + "step": 38845 + }, + { + "epoch": 0.24864, + "grad_norm": 0.6792131662368774, + "learning_rate": 1.8342400000000002e-05, + "loss": 0.0479, + "step": 38850 + }, + { + "epoch": 0.248672, + "grad_norm": 0.7602499723434448, + "learning_rate": 1.8342186666666667e-05, + "loss": 0.0543, + "step": 38855 + }, + { + "epoch": 0.248704, + "grad_norm": 0.8992869853973389, + "learning_rate": 1.8341973333333334e-05, + "loss": 0.0681, + "step": 38860 + }, + { + "epoch": 0.248736, + "grad_norm": 1.0733762979507446, + "learning_rate": 1.8341760000000002e-05, + "loss": 0.0778, + "step": 38865 + }, + { + "epoch": 0.248768, + "grad_norm": 0.5337748527526855, + "learning_rate": 1.8341546666666666e-05, + "loss": 0.0764, + "step": 38870 + }, + { + "epoch": 0.2488, + "grad_norm": 0.9791101813316345, + "learning_rate": 1.8341333333333337e-05, + "loss": 0.0558, + "step": 38875 + }, + { + "epoch": 0.248832, + "grad_norm": 1.7709041833877563, + "learning_rate": 1.834112e-05, + "loss": 0.0983, + "step": 38880 + }, + { + "epoch": 0.248864, + "grad_norm": 0.578082263469696, + "learning_rate": 1.834090666666667e-05, + "loss": 0.0391, + "step": 38885 + }, + { + "epoch": 0.248896, + "grad_norm": 0.5423288345336914, + "learning_rate": 1.8340693333333336e-05, + "loss": 0.0796, + "step": 38890 + }, + { + "epoch": 0.248928, + "grad_norm": 0.9205137491226196, + "learning_rate": 1.834048e-05, + "loss": 0.0587, + "step": 38895 + }, + { + "epoch": 0.24896, + "grad_norm": 0.9792043566703796, + "learning_rate": 1.8340266666666668e-05, + "loss": 0.0868, + "step": 38900 + }, + { + "epoch": 0.248992, + "grad_norm": 0.8976978659629822, + "learning_rate": 1.8340053333333335e-05, + "loss": 0.0531, + "step": 38905 + }, + { + "epoch": 0.249024, + "grad_norm": 0.5954282283782959, + "learning_rate": 1.8339840000000003e-05, + "loss": 0.061, + "step": 38910 + }, + { + "epoch": 0.249056, + "grad_norm": 0.8094061613082886, + "learning_rate": 1.8339626666666667e-05, + "loss": 0.049, + "step": 38915 + }, + { + "epoch": 0.249088, + "grad_norm": 0.30354011058807373, + "learning_rate": 1.8339413333333335e-05, + "loss": 0.0242, + "step": 38920 + }, + { + "epoch": 0.24912, + "grad_norm": 1.2939918041229248, + "learning_rate": 1.8339200000000002e-05, + "loss": 0.0634, + "step": 38925 + }, + { + "epoch": 0.249152, + "grad_norm": 0.4911360740661621, + "learning_rate": 1.8338986666666666e-05, + "loss": 0.0725, + "step": 38930 + }, + { + "epoch": 0.249184, + "grad_norm": 0.9820436835289001, + "learning_rate": 1.8338773333333334e-05, + "loss": 0.0572, + "step": 38935 + }, + { + "epoch": 0.249216, + "grad_norm": 0.7167511582374573, + "learning_rate": 1.833856e-05, + "loss": 0.1028, + "step": 38940 + }, + { + "epoch": 0.249248, + "grad_norm": 1.064623236656189, + "learning_rate": 1.833834666666667e-05, + "loss": 0.047, + "step": 38945 + }, + { + "epoch": 0.24928, + "grad_norm": 0.9443748593330383, + "learning_rate": 1.8338133333333333e-05, + "loss": 0.0731, + "step": 38950 + }, + { + "epoch": 0.249312, + "grad_norm": 0.8834532499313354, + "learning_rate": 1.833792e-05, + "loss": 0.0521, + "step": 38955 + }, + { + "epoch": 0.249344, + "grad_norm": 1.7253795862197876, + "learning_rate": 1.833770666666667e-05, + "loss": 0.0675, + "step": 38960 + }, + { + "epoch": 0.249376, + "grad_norm": 2.9840662479400635, + "learning_rate": 1.8337493333333332e-05, + "loss": 0.0505, + "step": 38965 + }, + { + "epoch": 0.249408, + "grad_norm": 0.8609230518341064, + "learning_rate": 1.8337280000000003e-05, + "loss": 0.0898, + "step": 38970 + }, + { + "epoch": 0.24944, + "grad_norm": 1.054345726966858, + "learning_rate": 1.8337066666666668e-05, + "loss": 0.0772, + "step": 38975 + }, + { + "epoch": 0.249472, + "grad_norm": 1.0504505634307861, + "learning_rate": 1.8336853333333335e-05, + "loss": 0.0815, + "step": 38980 + }, + { + "epoch": 0.249504, + "grad_norm": 0.8674598932266235, + "learning_rate": 1.8336640000000003e-05, + "loss": 0.041, + "step": 38985 + }, + { + "epoch": 0.249536, + "grad_norm": 0.4552060663700104, + "learning_rate": 1.833642666666667e-05, + "loss": 0.0509, + "step": 38990 + }, + { + "epoch": 0.249568, + "grad_norm": 0.6721519231796265, + "learning_rate": 1.8336213333333334e-05, + "loss": 0.0514, + "step": 38995 + }, + { + "epoch": 0.2496, + "grad_norm": 5.007691860198975, + "learning_rate": 1.8336000000000002e-05, + "loss": 0.0577, + "step": 39000 + }, + { + "epoch": 0.249632, + "grad_norm": 2.841036081314087, + "learning_rate": 1.833578666666667e-05, + "loss": 0.0509, + "step": 39005 + }, + { + "epoch": 0.249664, + "grad_norm": 0.8245683312416077, + "learning_rate": 1.8335573333333334e-05, + "loss": 0.061, + "step": 39010 + }, + { + "epoch": 0.249696, + "grad_norm": 0.42174428701400757, + "learning_rate": 1.833536e-05, + "loss": 0.0721, + "step": 39015 + }, + { + "epoch": 0.249728, + "grad_norm": 1.8583989143371582, + "learning_rate": 1.833514666666667e-05, + "loss": 0.0558, + "step": 39020 + }, + { + "epoch": 0.24976, + "grad_norm": 1.6115070581436157, + "learning_rate": 1.8334933333333336e-05, + "loss": 0.0531, + "step": 39025 + }, + { + "epoch": 0.249792, + "grad_norm": 1.0972356796264648, + "learning_rate": 1.833472e-05, + "loss": 0.0603, + "step": 39030 + }, + { + "epoch": 0.249824, + "grad_norm": 2.0171313285827637, + "learning_rate": 1.8334506666666668e-05, + "loss": 0.0784, + "step": 39035 + }, + { + "epoch": 0.249856, + "grad_norm": 1.3335165977478027, + "learning_rate": 1.8334293333333336e-05, + "loss": 0.0721, + "step": 39040 + }, + { + "epoch": 0.249888, + "grad_norm": 0.3879057765007019, + "learning_rate": 1.833408e-05, + "loss": 0.0376, + "step": 39045 + }, + { + "epoch": 0.24992, + "grad_norm": 0.7487163543701172, + "learning_rate": 1.8333866666666667e-05, + "loss": 0.0522, + "step": 39050 + }, + { + "epoch": 0.249952, + "grad_norm": 0.8730911612510681, + "learning_rate": 1.8333653333333335e-05, + "loss": 0.0504, + "step": 39055 + }, + { + "epoch": 0.249984, + "grad_norm": 1.0968908071517944, + "learning_rate": 1.8333440000000002e-05, + "loss": 0.0477, + "step": 39060 + }, + { + "epoch": 0.250016, + "grad_norm": 0.5139339566230774, + "learning_rate": 1.8333226666666667e-05, + "loss": 0.0417, + "step": 39065 + }, + { + "epoch": 0.250048, + "grad_norm": 0.805070698261261, + "learning_rate": 1.8333013333333334e-05, + "loss": 0.0494, + "step": 39070 + }, + { + "epoch": 0.25008, + "grad_norm": 0.631915807723999, + "learning_rate": 1.8332800000000002e-05, + "loss": 0.0443, + "step": 39075 + }, + { + "epoch": 0.250112, + "grad_norm": 0.29416632652282715, + "learning_rate": 1.8332586666666666e-05, + "loss": 0.0621, + "step": 39080 + }, + { + "epoch": 0.250144, + "grad_norm": 0.8188953995704651, + "learning_rate": 1.8332373333333337e-05, + "loss": 0.063, + "step": 39085 + }, + { + "epoch": 0.250176, + "grad_norm": 0.6600176692008972, + "learning_rate": 1.833216e-05, + "loss": 0.0468, + "step": 39090 + }, + { + "epoch": 0.250208, + "grad_norm": 1.2471046447753906, + "learning_rate": 1.833194666666667e-05, + "loss": 0.0597, + "step": 39095 + }, + { + "epoch": 0.25024, + "grad_norm": 1.0146592855453491, + "learning_rate": 1.8331733333333336e-05, + "loss": 0.0603, + "step": 39100 + }, + { + "epoch": 0.250272, + "grad_norm": 0.9414553046226501, + "learning_rate": 1.833152e-05, + "loss": 0.0537, + "step": 39105 + }, + { + "epoch": 0.250304, + "grad_norm": 0.32705092430114746, + "learning_rate": 1.8331306666666668e-05, + "loss": 0.0508, + "step": 39110 + }, + { + "epoch": 0.250336, + "grad_norm": 1.3718042373657227, + "learning_rate": 1.8331093333333335e-05, + "loss": 0.0561, + "step": 39115 + }, + { + "epoch": 0.250368, + "grad_norm": 1.265520453453064, + "learning_rate": 1.8330880000000003e-05, + "loss": 0.0679, + "step": 39120 + }, + { + "epoch": 0.2504, + "grad_norm": 2.887907028198242, + "learning_rate": 1.8330666666666667e-05, + "loss": 0.0749, + "step": 39125 + }, + { + "epoch": 0.250432, + "grad_norm": 0.7187012434005737, + "learning_rate": 1.8330453333333335e-05, + "loss": 0.0724, + "step": 39130 + }, + { + "epoch": 0.250464, + "grad_norm": 19.51080322265625, + "learning_rate": 1.8330240000000002e-05, + "loss": 0.0348, + "step": 39135 + }, + { + "epoch": 0.250496, + "grad_norm": 0.44238555431365967, + "learning_rate": 1.8330026666666666e-05, + "loss": 0.0424, + "step": 39140 + }, + { + "epoch": 0.250528, + "grad_norm": 2.639134168624878, + "learning_rate": 1.8329813333333334e-05, + "loss": 0.0705, + "step": 39145 + }, + { + "epoch": 0.25056, + "grad_norm": 0.6481160521507263, + "learning_rate": 1.83296e-05, + "loss": 0.0369, + "step": 39150 + }, + { + "epoch": 0.250592, + "grad_norm": 2.3894383907318115, + "learning_rate": 1.832938666666667e-05, + "loss": 0.0608, + "step": 39155 + }, + { + "epoch": 0.250624, + "grad_norm": 0.6651713848114014, + "learning_rate": 1.8329173333333333e-05, + "loss": 0.0366, + "step": 39160 + }, + { + "epoch": 0.250656, + "grad_norm": 0.8929778933525085, + "learning_rate": 1.832896e-05, + "loss": 0.0548, + "step": 39165 + }, + { + "epoch": 0.250688, + "grad_norm": 4.289219379425049, + "learning_rate": 1.832874666666667e-05, + "loss": 0.0763, + "step": 39170 + }, + { + "epoch": 0.25072, + "grad_norm": 1.1259502172470093, + "learning_rate": 1.8328533333333332e-05, + "loss": 0.0608, + "step": 39175 + }, + { + "epoch": 0.250752, + "grad_norm": 0.5017176866531372, + "learning_rate": 1.832832e-05, + "loss": 0.0407, + "step": 39180 + }, + { + "epoch": 0.250784, + "grad_norm": 0.31132879853248596, + "learning_rate": 1.8328106666666668e-05, + "loss": 0.0374, + "step": 39185 + }, + { + "epoch": 0.250816, + "grad_norm": 0.6616854071617126, + "learning_rate": 1.8327893333333335e-05, + "loss": 0.0479, + "step": 39190 + }, + { + "epoch": 0.250848, + "grad_norm": 0.7039852738380432, + "learning_rate": 1.8327680000000003e-05, + "loss": 0.0391, + "step": 39195 + }, + { + "epoch": 0.25088, + "grad_norm": 1.075994849205017, + "learning_rate": 1.832746666666667e-05, + "loss": 0.0416, + "step": 39200 + }, + { + "epoch": 0.250912, + "grad_norm": 0.6271408200263977, + "learning_rate": 1.8327253333333334e-05, + "loss": 0.0326, + "step": 39205 + }, + { + "epoch": 0.250944, + "grad_norm": 0.5747997164726257, + "learning_rate": 1.8327040000000002e-05, + "loss": 0.0344, + "step": 39210 + }, + { + "epoch": 0.250976, + "grad_norm": 0.6074476838111877, + "learning_rate": 1.832682666666667e-05, + "loss": 0.0605, + "step": 39215 + }, + { + "epoch": 0.251008, + "grad_norm": 0.8879980444908142, + "learning_rate": 1.8326613333333334e-05, + "loss": 0.064, + "step": 39220 + }, + { + "epoch": 0.25104, + "grad_norm": 0.6195811629295349, + "learning_rate": 1.83264e-05, + "loss": 0.0404, + "step": 39225 + }, + { + "epoch": 0.251072, + "grad_norm": 0.556776225566864, + "learning_rate": 1.832618666666667e-05, + "loss": 0.0361, + "step": 39230 + }, + { + "epoch": 0.251104, + "grad_norm": 0.6391658782958984, + "learning_rate": 1.8325973333333336e-05, + "loss": 0.0609, + "step": 39235 + }, + { + "epoch": 0.251136, + "grad_norm": 1.7270841598510742, + "learning_rate": 1.832576e-05, + "loss": 0.089, + "step": 39240 + }, + { + "epoch": 0.251168, + "grad_norm": 4.471441268920898, + "learning_rate": 1.8325546666666668e-05, + "loss": 0.0489, + "step": 39245 + }, + { + "epoch": 0.2512, + "grad_norm": 0.8376675248146057, + "learning_rate": 1.8325333333333336e-05, + "loss": 0.0458, + "step": 39250 + }, + { + "epoch": 0.251232, + "grad_norm": 0.4650842547416687, + "learning_rate": 1.832512e-05, + "loss": 0.0462, + "step": 39255 + }, + { + "epoch": 0.251264, + "grad_norm": 0.9146194458007812, + "learning_rate": 1.8324906666666667e-05, + "loss": 0.0503, + "step": 39260 + }, + { + "epoch": 0.251296, + "grad_norm": 0.9838358163833618, + "learning_rate": 1.8324693333333335e-05, + "loss": 0.0884, + "step": 39265 + }, + { + "epoch": 0.251328, + "grad_norm": 0.549988329410553, + "learning_rate": 1.8324480000000002e-05, + "loss": 0.0491, + "step": 39270 + }, + { + "epoch": 0.25136, + "grad_norm": 2.191499710083008, + "learning_rate": 1.8324266666666667e-05, + "loss": 0.0748, + "step": 39275 + }, + { + "epoch": 0.251392, + "grad_norm": 0.8564455509185791, + "learning_rate": 1.8324053333333338e-05, + "loss": 0.059, + "step": 39280 + }, + { + "epoch": 0.251424, + "grad_norm": 1.7444920539855957, + "learning_rate": 1.8323840000000002e-05, + "loss": 0.0497, + "step": 39285 + }, + { + "epoch": 0.251456, + "grad_norm": 0.35493919253349304, + "learning_rate": 1.8323626666666666e-05, + "loss": 0.0277, + "step": 39290 + }, + { + "epoch": 0.251488, + "grad_norm": 0.8882970213890076, + "learning_rate": 1.8323413333333337e-05, + "loss": 0.0497, + "step": 39295 + }, + { + "epoch": 0.25152, + "grad_norm": 1.2578809261322021, + "learning_rate": 1.83232e-05, + "loss": 0.0384, + "step": 39300 + }, + { + "epoch": 0.251552, + "grad_norm": 0.5130095481872559, + "learning_rate": 1.832298666666667e-05, + "loss": 0.0389, + "step": 39305 + }, + { + "epoch": 0.251584, + "grad_norm": 0.8740478754043579, + "learning_rate": 1.8322773333333336e-05, + "loss": 0.0518, + "step": 39310 + }, + { + "epoch": 0.251616, + "grad_norm": 0.6520752310752869, + "learning_rate": 1.8322560000000004e-05, + "loss": 0.048, + "step": 39315 + }, + { + "epoch": 0.251648, + "grad_norm": 0.8315759897232056, + "learning_rate": 1.8322346666666668e-05, + "loss": 0.0609, + "step": 39320 + }, + { + "epoch": 0.25168, + "grad_norm": 0.5672290325164795, + "learning_rate": 1.8322133333333335e-05, + "loss": 0.0449, + "step": 39325 + }, + { + "epoch": 0.251712, + "grad_norm": 1.1163570880889893, + "learning_rate": 1.8321920000000003e-05, + "loss": 0.1029, + "step": 39330 + }, + { + "epoch": 0.251744, + "grad_norm": 1.7017256021499634, + "learning_rate": 1.8321706666666667e-05, + "loss": 0.0556, + "step": 39335 + }, + { + "epoch": 0.251776, + "grad_norm": 0.8015258312225342, + "learning_rate": 1.8321493333333335e-05, + "loss": 0.0778, + "step": 39340 + }, + { + "epoch": 0.251808, + "grad_norm": 0.6569901704788208, + "learning_rate": 1.8321280000000002e-05, + "loss": 0.0848, + "step": 39345 + }, + { + "epoch": 0.25184, + "grad_norm": 0.6141621470451355, + "learning_rate": 1.832106666666667e-05, + "loss": 0.0355, + "step": 39350 + }, + { + "epoch": 0.251872, + "grad_norm": 1.3845504522323608, + "learning_rate": 1.8320853333333334e-05, + "loss": 0.0707, + "step": 39355 + }, + { + "epoch": 0.251904, + "grad_norm": 1.0876253843307495, + "learning_rate": 1.832064e-05, + "loss": 0.0678, + "step": 39360 + }, + { + "epoch": 0.251936, + "grad_norm": 0.863597571849823, + "learning_rate": 1.832042666666667e-05, + "loss": 0.0448, + "step": 39365 + }, + { + "epoch": 0.251968, + "grad_norm": 0.814035952091217, + "learning_rate": 1.8320213333333333e-05, + "loss": 0.0384, + "step": 39370 + }, + { + "epoch": 0.252, + "grad_norm": 0.9715273380279541, + "learning_rate": 1.832e-05, + "loss": 0.0725, + "step": 39375 + }, + { + "epoch": 0.252032, + "grad_norm": 0.8045901656150818, + "learning_rate": 1.831978666666667e-05, + "loss": 0.0519, + "step": 39380 + }, + { + "epoch": 0.252064, + "grad_norm": 0.8899343013763428, + "learning_rate": 1.8319573333333336e-05, + "loss": 0.064, + "step": 39385 + }, + { + "epoch": 0.252096, + "grad_norm": 0.28248080611228943, + "learning_rate": 1.831936e-05, + "loss": 0.039, + "step": 39390 + }, + { + "epoch": 0.252128, + "grad_norm": 0.8284199833869934, + "learning_rate": 1.8319146666666668e-05, + "loss": 0.0636, + "step": 39395 + }, + { + "epoch": 0.25216, + "grad_norm": 1.1850814819335938, + "learning_rate": 1.8318933333333335e-05, + "loss": 0.0671, + "step": 39400 + }, + { + "epoch": 0.252192, + "grad_norm": 0.6494349837303162, + "learning_rate": 1.831872e-05, + "loss": 0.0645, + "step": 39405 + }, + { + "epoch": 0.252224, + "grad_norm": 0.33095210790634155, + "learning_rate": 1.831850666666667e-05, + "loss": 0.0542, + "step": 39410 + }, + { + "epoch": 0.252256, + "grad_norm": 1.5461574792861938, + "learning_rate": 1.8318293333333334e-05, + "loss": 0.0671, + "step": 39415 + }, + { + "epoch": 0.252288, + "grad_norm": 0.8666257858276367, + "learning_rate": 1.8318080000000002e-05, + "loss": 0.0478, + "step": 39420 + }, + { + "epoch": 0.25232, + "grad_norm": 0.6529853343963623, + "learning_rate": 1.831786666666667e-05, + "loss": 0.0396, + "step": 39425 + }, + { + "epoch": 0.252352, + "grad_norm": 1.5258880853652954, + "learning_rate": 1.8317653333333334e-05, + "loss": 0.0829, + "step": 39430 + }, + { + "epoch": 0.252384, + "grad_norm": 0.5180487632751465, + "learning_rate": 1.831744e-05, + "loss": 0.0526, + "step": 39435 + }, + { + "epoch": 0.252416, + "grad_norm": 0.8448675870895386, + "learning_rate": 1.831722666666667e-05, + "loss": 0.0468, + "step": 39440 + }, + { + "epoch": 0.252448, + "grad_norm": 0.6704591512680054, + "learning_rate": 1.8317013333333336e-05, + "loss": 0.0398, + "step": 39445 + }, + { + "epoch": 0.25248, + "grad_norm": 0.19238735735416412, + "learning_rate": 1.83168e-05, + "loss": 0.0433, + "step": 39450 + }, + { + "epoch": 0.252512, + "grad_norm": 0.8774006962776184, + "learning_rate": 1.8316586666666668e-05, + "loss": 0.056, + "step": 39455 + }, + { + "epoch": 0.252544, + "grad_norm": 6.5109405517578125, + "learning_rate": 1.8316373333333336e-05, + "loss": 0.0653, + "step": 39460 + }, + { + "epoch": 0.252576, + "grad_norm": 0.975286066532135, + "learning_rate": 1.831616e-05, + "loss": 0.0724, + "step": 39465 + }, + { + "epoch": 0.252608, + "grad_norm": 0.27121666073799133, + "learning_rate": 1.8315946666666667e-05, + "loss": 0.0514, + "step": 39470 + }, + { + "epoch": 0.25264, + "grad_norm": 0.5219674110412598, + "learning_rate": 1.8315733333333335e-05, + "loss": 0.0725, + "step": 39475 + }, + { + "epoch": 0.252672, + "grad_norm": 0.6076714396476746, + "learning_rate": 1.8315520000000002e-05, + "loss": 0.0363, + "step": 39480 + }, + { + "epoch": 0.252704, + "grad_norm": 0.39761191606521606, + "learning_rate": 1.8315306666666667e-05, + "loss": 0.0363, + "step": 39485 + }, + { + "epoch": 0.252736, + "grad_norm": 1.2102341651916504, + "learning_rate": 1.8315093333333334e-05, + "loss": 0.0653, + "step": 39490 + }, + { + "epoch": 0.252768, + "grad_norm": 1.551321268081665, + "learning_rate": 1.8314880000000002e-05, + "loss": 0.0945, + "step": 39495 + }, + { + "epoch": 0.2528, + "grad_norm": 1.5840309858322144, + "learning_rate": 1.8314666666666666e-05, + "loss": 0.0452, + "step": 39500 + }, + { + "epoch": 0.252832, + "grad_norm": 0.46362096071243286, + "learning_rate": 1.8314453333333337e-05, + "loss": 0.0491, + "step": 39505 + }, + { + "epoch": 0.252864, + "grad_norm": 1.447656273841858, + "learning_rate": 1.831424e-05, + "loss": 0.0916, + "step": 39510 + }, + { + "epoch": 0.252896, + "grad_norm": 0.6115331053733826, + "learning_rate": 1.831402666666667e-05, + "loss": 0.0347, + "step": 39515 + }, + { + "epoch": 0.252928, + "grad_norm": 0.6969025135040283, + "learning_rate": 1.8313813333333336e-05, + "loss": 0.0613, + "step": 39520 + }, + { + "epoch": 0.25296, + "grad_norm": 0.646026074886322, + "learning_rate": 1.8313600000000004e-05, + "loss": 0.048, + "step": 39525 + }, + { + "epoch": 0.252992, + "grad_norm": 0.3996715247631073, + "learning_rate": 1.8313386666666668e-05, + "loss": 0.0329, + "step": 39530 + }, + { + "epoch": 0.253024, + "grad_norm": 0.7268760800361633, + "learning_rate": 1.8313173333333335e-05, + "loss": 0.0513, + "step": 39535 + }, + { + "epoch": 0.253056, + "grad_norm": 0.9814903736114502, + "learning_rate": 1.8312960000000003e-05, + "loss": 0.0376, + "step": 39540 + }, + { + "epoch": 0.253088, + "grad_norm": 1.490697979927063, + "learning_rate": 1.8312746666666667e-05, + "loss": 0.0746, + "step": 39545 + }, + { + "epoch": 0.25312, + "grad_norm": 1.1553176641464233, + "learning_rate": 1.8312533333333335e-05, + "loss": 0.0478, + "step": 39550 + }, + { + "epoch": 0.253152, + "grad_norm": 1.3561874628067017, + "learning_rate": 1.8312320000000002e-05, + "loss": 0.0505, + "step": 39555 + }, + { + "epoch": 0.253184, + "grad_norm": 0.6031838655471802, + "learning_rate": 1.831210666666667e-05, + "loss": 0.0304, + "step": 39560 + }, + { + "epoch": 0.253216, + "grad_norm": 0.7017866373062134, + "learning_rate": 1.8311893333333334e-05, + "loss": 0.0445, + "step": 39565 + }, + { + "epoch": 0.253248, + "grad_norm": 0.6469283699989319, + "learning_rate": 1.831168e-05, + "loss": 0.0638, + "step": 39570 + }, + { + "epoch": 0.25328, + "grad_norm": 0.7943115830421448, + "learning_rate": 1.831146666666667e-05, + "loss": 0.079, + "step": 39575 + }, + { + "epoch": 0.253312, + "grad_norm": 0.7497092485427856, + "learning_rate": 1.8311253333333333e-05, + "loss": 0.085, + "step": 39580 + }, + { + "epoch": 0.253344, + "grad_norm": 0.92018061876297, + "learning_rate": 1.831104e-05, + "loss": 0.0595, + "step": 39585 + }, + { + "epoch": 0.253376, + "grad_norm": 1.232181429862976, + "learning_rate": 1.831082666666667e-05, + "loss": 0.0476, + "step": 39590 + }, + { + "epoch": 0.253408, + "grad_norm": 1.011250615119934, + "learning_rate": 1.8310613333333336e-05, + "loss": 0.0663, + "step": 39595 + }, + { + "epoch": 0.25344, + "grad_norm": 1.4710609912872314, + "learning_rate": 1.83104e-05, + "loss": 0.0407, + "step": 39600 + }, + { + "epoch": 0.253472, + "grad_norm": 0.3878927230834961, + "learning_rate": 1.8310186666666668e-05, + "loss": 0.0251, + "step": 39605 + }, + { + "epoch": 0.253504, + "grad_norm": 1.0565475225448608, + "learning_rate": 1.8309973333333335e-05, + "loss": 0.0468, + "step": 39610 + }, + { + "epoch": 0.253536, + "grad_norm": 0.8414392471313477, + "learning_rate": 1.830976e-05, + "loss": 0.0449, + "step": 39615 + }, + { + "epoch": 0.253568, + "grad_norm": 0.7951829433441162, + "learning_rate": 1.830954666666667e-05, + "loss": 0.0445, + "step": 39620 + }, + { + "epoch": 0.2536, + "grad_norm": 0.33781471848487854, + "learning_rate": 1.8309333333333334e-05, + "loss": 0.0409, + "step": 39625 + }, + { + "epoch": 0.253632, + "grad_norm": 0.947632372379303, + "learning_rate": 1.8309120000000002e-05, + "loss": 0.0647, + "step": 39630 + }, + { + "epoch": 0.253664, + "grad_norm": 0.43973132967948914, + "learning_rate": 1.830890666666667e-05, + "loss": 0.0468, + "step": 39635 + }, + { + "epoch": 0.253696, + "grad_norm": 0.41034996509552, + "learning_rate": 1.8308693333333334e-05, + "loss": 0.0394, + "step": 39640 + }, + { + "epoch": 0.253728, + "grad_norm": 0.8734927773475647, + "learning_rate": 1.830848e-05, + "loss": 0.0623, + "step": 39645 + }, + { + "epoch": 0.25376, + "grad_norm": 1.5649961233139038, + "learning_rate": 1.830826666666667e-05, + "loss": 0.0723, + "step": 39650 + }, + { + "epoch": 0.253792, + "grad_norm": 0.8761662840843201, + "learning_rate": 1.8308053333333336e-05, + "loss": 0.0516, + "step": 39655 + }, + { + "epoch": 0.253824, + "grad_norm": 1.0399868488311768, + "learning_rate": 1.830784e-05, + "loss": 0.0826, + "step": 39660 + }, + { + "epoch": 0.253856, + "grad_norm": 4.4433722496032715, + "learning_rate": 1.8307626666666668e-05, + "loss": 0.0494, + "step": 39665 + }, + { + "epoch": 0.253888, + "grad_norm": 0.40986746549606323, + "learning_rate": 1.8307413333333336e-05, + "loss": 0.0237, + "step": 39670 + }, + { + "epoch": 0.25392, + "grad_norm": 0.2572328448295593, + "learning_rate": 1.83072e-05, + "loss": 0.0402, + "step": 39675 + }, + { + "epoch": 0.253952, + "grad_norm": 2.574695110321045, + "learning_rate": 1.8306986666666667e-05, + "loss": 0.1046, + "step": 39680 + }, + { + "epoch": 0.253984, + "grad_norm": 0.6027469038963318, + "learning_rate": 1.8306773333333335e-05, + "loss": 0.0371, + "step": 39685 + }, + { + "epoch": 0.254016, + "grad_norm": 1.1402384042739868, + "learning_rate": 1.8306560000000002e-05, + "loss": 0.0668, + "step": 39690 + }, + { + "epoch": 0.254048, + "grad_norm": 0.6824908256530762, + "learning_rate": 1.8306346666666667e-05, + "loss": 0.0426, + "step": 39695 + }, + { + "epoch": 0.25408, + "grad_norm": 1.0821458101272583, + "learning_rate": 1.8306133333333334e-05, + "loss": 0.0456, + "step": 39700 + }, + { + "epoch": 0.254112, + "grad_norm": 0.6759358644485474, + "learning_rate": 1.8305920000000002e-05, + "loss": 0.0609, + "step": 39705 + }, + { + "epoch": 0.254144, + "grad_norm": 0.6882304549217224, + "learning_rate": 1.8305706666666666e-05, + "loss": 0.0398, + "step": 39710 + }, + { + "epoch": 0.254176, + "grad_norm": 0.5210286378860474, + "learning_rate": 1.8305493333333333e-05, + "loss": 0.0762, + "step": 39715 + }, + { + "epoch": 0.254208, + "grad_norm": 0.5092090964317322, + "learning_rate": 1.830528e-05, + "loss": 0.0734, + "step": 39720 + }, + { + "epoch": 0.25424, + "grad_norm": 1.0082483291625977, + "learning_rate": 1.830506666666667e-05, + "loss": 0.0471, + "step": 39725 + }, + { + "epoch": 0.254272, + "grad_norm": 0.6374893188476562, + "learning_rate": 1.8304853333333336e-05, + "loss": 0.0591, + "step": 39730 + }, + { + "epoch": 0.254304, + "grad_norm": 1.2195565700531006, + "learning_rate": 1.8304640000000004e-05, + "loss": 0.0839, + "step": 39735 + }, + { + "epoch": 0.254336, + "grad_norm": 1.5115429162979126, + "learning_rate": 1.8304426666666668e-05, + "loss": 0.0463, + "step": 39740 + }, + { + "epoch": 0.254368, + "grad_norm": 1.0236471891403198, + "learning_rate": 1.8304213333333335e-05, + "loss": 0.0626, + "step": 39745 + }, + { + "epoch": 0.2544, + "grad_norm": 0.6718958020210266, + "learning_rate": 1.8304000000000003e-05, + "loss": 0.0662, + "step": 39750 + }, + { + "epoch": 0.254432, + "grad_norm": 0.5471539497375488, + "learning_rate": 1.8303786666666667e-05, + "loss": 0.0566, + "step": 39755 + }, + { + "epoch": 0.254464, + "grad_norm": 0.8403558731079102, + "learning_rate": 1.8303573333333335e-05, + "loss": 0.0666, + "step": 39760 + }, + { + "epoch": 0.254496, + "grad_norm": 1.0551539659500122, + "learning_rate": 1.8303360000000002e-05, + "loss": 0.047, + "step": 39765 + }, + { + "epoch": 0.254528, + "grad_norm": 1.2764240503311157, + "learning_rate": 1.830314666666667e-05, + "loss": 0.0614, + "step": 39770 + }, + { + "epoch": 0.25456, + "grad_norm": 0.993742823600769, + "learning_rate": 1.8302933333333334e-05, + "loss": 0.0585, + "step": 39775 + }, + { + "epoch": 0.254592, + "grad_norm": 0.6040553450584412, + "learning_rate": 1.830272e-05, + "loss": 0.0336, + "step": 39780 + }, + { + "epoch": 0.254624, + "grad_norm": 0.5951240062713623, + "learning_rate": 1.830250666666667e-05, + "loss": 0.0384, + "step": 39785 + }, + { + "epoch": 0.254656, + "grad_norm": 0.2971208691596985, + "learning_rate": 1.8302293333333333e-05, + "loss": 0.0708, + "step": 39790 + }, + { + "epoch": 0.254688, + "grad_norm": 0.33132392168045044, + "learning_rate": 1.830208e-05, + "loss": 0.0363, + "step": 39795 + }, + { + "epoch": 0.25472, + "grad_norm": 1.0361719131469727, + "learning_rate": 1.830186666666667e-05, + "loss": 0.0594, + "step": 39800 + }, + { + "epoch": 0.254752, + "grad_norm": 0.40745142102241516, + "learning_rate": 1.8301653333333336e-05, + "loss": 0.0592, + "step": 39805 + }, + { + "epoch": 0.254784, + "grad_norm": 1.1880419254302979, + "learning_rate": 1.830144e-05, + "loss": 0.0574, + "step": 39810 + }, + { + "epoch": 0.254816, + "grad_norm": 1.1233494281768799, + "learning_rate": 1.8301226666666668e-05, + "loss": 0.0613, + "step": 39815 + }, + { + "epoch": 0.254848, + "grad_norm": 1.135375738143921, + "learning_rate": 1.8301013333333335e-05, + "loss": 0.0704, + "step": 39820 + }, + { + "epoch": 0.25488, + "grad_norm": 1.2563855648040771, + "learning_rate": 1.83008e-05, + "loss": 0.0503, + "step": 39825 + }, + { + "epoch": 0.254912, + "grad_norm": 1.5430649518966675, + "learning_rate": 1.830058666666667e-05, + "loss": 0.0722, + "step": 39830 + }, + { + "epoch": 0.254944, + "grad_norm": 0.7237385511398315, + "learning_rate": 1.8300373333333334e-05, + "loss": 0.061, + "step": 39835 + }, + { + "epoch": 0.254976, + "grad_norm": 0.7275168895721436, + "learning_rate": 1.8300160000000002e-05, + "loss": 0.0554, + "step": 39840 + }, + { + "epoch": 0.255008, + "grad_norm": 1.1055446863174438, + "learning_rate": 1.829994666666667e-05, + "loss": 0.0521, + "step": 39845 + }, + { + "epoch": 0.25504, + "grad_norm": 1.2241549491882324, + "learning_rate": 1.8299733333333334e-05, + "loss": 0.0429, + "step": 39850 + }, + { + "epoch": 0.255072, + "grad_norm": 0.97672438621521, + "learning_rate": 1.829952e-05, + "loss": 0.0718, + "step": 39855 + }, + { + "epoch": 0.255104, + "grad_norm": 0.5230234861373901, + "learning_rate": 1.829930666666667e-05, + "loss": 0.0628, + "step": 39860 + }, + { + "epoch": 0.255136, + "grad_norm": 3.374338150024414, + "learning_rate": 1.8299093333333336e-05, + "loss": 0.0733, + "step": 39865 + }, + { + "epoch": 0.255168, + "grad_norm": 0.9092457890510559, + "learning_rate": 1.829888e-05, + "loss": 0.0554, + "step": 39870 + }, + { + "epoch": 0.2552, + "grad_norm": 0.3203871548175812, + "learning_rate": 1.8298666666666668e-05, + "loss": 0.0515, + "step": 39875 + }, + { + "epoch": 0.255232, + "grad_norm": 0.4685688614845276, + "learning_rate": 1.8298453333333336e-05, + "loss": 0.0442, + "step": 39880 + }, + { + "epoch": 0.255264, + "grad_norm": 0.9555045366287231, + "learning_rate": 1.829824e-05, + "loss": 0.0493, + "step": 39885 + }, + { + "epoch": 0.255296, + "grad_norm": 1.1908643245697021, + "learning_rate": 1.8298026666666667e-05, + "loss": 0.0692, + "step": 39890 + }, + { + "epoch": 0.255328, + "grad_norm": 0.5176312327384949, + "learning_rate": 1.8297813333333335e-05, + "loss": 0.0431, + "step": 39895 + }, + { + "epoch": 0.25536, + "grad_norm": 0.8489658832550049, + "learning_rate": 1.8297600000000002e-05, + "loss": 0.0631, + "step": 39900 + }, + { + "epoch": 0.255392, + "grad_norm": 0.7176491618156433, + "learning_rate": 1.8297386666666667e-05, + "loss": 0.0758, + "step": 39905 + }, + { + "epoch": 0.255424, + "grad_norm": 1.0190720558166504, + "learning_rate": 1.8297173333333334e-05, + "loss": 0.0694, + "step": 39910 + }, + { + "epoch": 0.255456, + "grad_norm": 0.5801463723182678, + "learning_rate": 1.8296960000000002e-05, + "loss": 0.0682, + "step": 39915 + }, + { + "epoch": 0.255488, + "grad_norm": 0.5709547400474548, + "learning_rate": 1.8296746666666666e-05, + "loss": 0.0516, + "step": 39920 + }, + { + "epoch": 0.25552, + "grad_norm": 0.45863622426986694, + "learning_rate": 1.8296533333333333e-05, + "loss": 0.0682, + "step": 39925 + }, + { + "epoch": 0.255552, + "grad_norm": 1.182518720626831, + "learning_rate": 1.829632e-05, + "loss": 0.0439, + "step": 39930 + }, + { + "epoch": 0.255584, + "grad_norm": 0.5730273723602295, + "learning_rate": 1.829610666666667e-05, + "loss": 0.0632, + "step": 39935 + }, + { + "epoch": 0.255616, + "grad_norm": 1.0667306184768677, + "learning_rate": 1.8295893333333333e-05, + "loss": 0.0409, + "step": 39940 + }, + { + "epoch": 0.255648, + "grad_norm": 1.0575566291809082, + "learning_rate": 1.8295680000000004e-05, + "loss": 0.0767, + "step": 39945 + }, + { + "epoch": 0.25568, + "grad_norm": 2.013822555541992, + "learning_rate": 1.8295466666666668e-05, + "loss": 0.0568, + "step": 39950 + }, + { + "epoch": 0.255712, + "grad_norm": 0.629241943359375, + "learning_rate": 1.8295253333333335e-05, + "loss": 0.0461, + "step": 39955 + }, + { + "epoch": 0.255744, + "grad_norm": 0.7439124584197998, + "learning_rate": 1.8295040000000003e-05, + "loss": 0.0468, + "step": 39960 + }, + { + "epoch": 0.255776, + "grad_norm": 0.7965888977050781, + "learning_rate": 1.8294826666666667e-05, + "loss": 0.0684, + "step": 39965 + }, + { + "epoch": 0.255808, + "grad_norm": 6.452781677246094, + "learning_rate": 1.8294613333333335e-05, + "loss": 0.0601, + "step": 39970 + }, + { + "epoch": 0.25584, + "grad_norm": 3.6453700065612793, + "learning_rate": 1.8294400000000002e-05, + "loss": 0.0728, + "step": 39975 + }, + { + "epoch": 0.255872, + "grad_norm": 1.0970133543014526, + "learning_rate": 1.829418666666667e-05, + "loss": 0.0636, + "step": 39980 + }, + { + "epoch": 0.255904, + "grad_norm": 0.6967398524284363, + "learning_rate": 1.8293973333333334e-05, + "loss": 0.0672, + "step": 39985 + }, + { + "epoch": 0.255936, + "grad_norm": 1.0086416006088257, + "learning_rate": 1.829376e-05, + "loss": 0.0784, + "step": 39990 + }, + { + "epoch": 0.255968, + "grad_norm": 0.5497161149978638, + "learning_rate": 1.829354666666667e-05, + "loss": 0.0597, + "step": 39995 + }, + { + "epoch": 0.256, + "grad_norm": 1.258360505104065, + "learning_rate": 1.8293333333333333e-05, + "loss": 0.062, + "step": 40000 + }, + { + "epoch": 0.256032, + "grad_norm": 1.3533135652542114, + "learning_rate": 1.829312e-05, + "loss": 0.0754, + "step": 40005 + }, + { + "epoch": 0.256064, + "grad_norm": 0.676263153553009, + "learning_rate": 1.829290666666667e-05, + "loss": 0.0631, + "step": 40010 + }, + { + "epoch": 0.256096, + "grad_norm": 1.6070479154586792, + "learning_rate": 1.8292693333333336e-05, + "loss": 0.0734, + "step": 40015 + }, + { + "epoch": 0.256128, + "grad_norm": 0.4955999255180359, + "learning_rate": 1.829248e-05, + "loss": 0.0472, + "step": 40020 + }, + { + "epoch": 0.25616, + "grad_norm": 1.402706265449524, + "learning_rate": 1.8292266666666668e-05, + "loss": 0.055, + "step": 40025 + }, + { + "epoch": 0.256192, + "grad_norm": 0.5866668820381165, + "learning_rate": 1.8292053333333335e-05, + "loss": 0.0289, + "step": 40030 + }, + { + "epoch": 0.256224, + "grad_norm": 1.0560386180877686, + "learning_rate": 1.829184e-05, + "loss": 0.0485, + "step": 40035 + }, + { + "epoch": 0.256256, + "grad_norm": 0.8096356391906738, + "learning_rate": 1.829162666666667e-05, + "loss": 0.0921, + "step": 40040 + }, + { + "epoch": 0.256288, + "grad_norm": 1.1667189598083496, + "learning_rate": 1.8291413333333334e-05, + "loss": 0.063, + "step": 40045 + }, + { + "epoch": 0.25632, + "grad_norm": 1.0101791620254517, + "learning_rate": 1.8291200000000002e-05, + "loss": 0.0517, + "step": 40050 + }, + { + "epoch": 0.256352, + "grad_norm": 2.4239978790283203, + "learning_rate": 1.829098666666667e-05, + "loss": 0.0439, + "step": 40055 + }, + { + "epoch": 0.256384, + "grad_norm": 2.222621440887451, + "learning_rate": 1.8290773333333337e-05, + "loss": 0.0381, + "step": 40060 + }, + { + "epoch": 0.256416, + "grad_norm": 1.3203742504119873, + "learning_rate": 1.829056e-05, + "loss": 0.0447, + "step": 40065 + }, + { + "epoch": 0.256448, + "grad_norm": 0.6759002208709717, + "learning_rate": 1.829034666666667e-05, + "loss": 0.0282, + "step": 40070 + }, + { + "epoch": 0.25648, + "grad_norm": 0.5789764523506165, + "learning_rate": 1.8290133333333336e-05, + "loss": 0.0433, + "step": 40075 + }, + { + "epoch": 0.256512, + "grad_norm": 1.0268428325653076, + "learning_rate": 1.828992e-05, + "loss": 0.0402, + "step": 40080 + }, + { + "epoch": 0.256544, + "grad_norm": 1.1431305408477783, + "learning_rate": 1.8289706666666668e-05, + "loss": 0.0541, + "step": 40085 + }, + { + "epoch": 0.256576, + "grad_norm": 0.5514737963676453, + "learning_rate": 1.8289493333333336e-05, + "loss": 0.0268, + "step": 40090 + }, + { + "epoch": 0.256608, + "grad_norm": 0.7595718502998352, + "learning_rate": 1.8289280000000003e-05, + "loss": 0.0383, + "step": 40095 + }, + { + "epoch": 0.25664, + "grad_norm": 0.41314056515693665, + "learning_rate": 1.8289066666666667e-05, + "loss": 0.0325, + "step": 40100 + }, + { + "epoch": 0.256672, + "grad_norm": 0.5935527682304382, + "learning_rate": 1.8288853333333335e-05, + "loss": 0.0462, + "step": 40105 + }, + { + "epoch": 0.256704, + "grad_norm": 1.1639600992202759, + "learning_rate": 1.8288640000000002e-05, + "loss": 0.0664, + "step": 40110 + }, + { + "epoch": 0.256736, + "grad_norm": 0.9762628078460693, + "learning_rate": 1.8288426666666667e-05, + "loss": 0.0503, + "step": 40115 + }, + { + "epoch": 0.256768, + "grad_norm": 0.6680211424827576, + "learning_rate": 1.8288213333333334e-05, + "loss": 0.0644, + "step": 40120 + }, + { + "epoch": 0.2568, + "grad_norm": 0.6831151247024536, + "learning_rate": 1.8288000000000002e-05, + "loss": 0.0544, + "step": 40125 + }, + { + "epoch": 0.256832, + "grad_norm": 0.46290019154548645, + "learning_rate": 1.828778666666667e-05, + "loss": 0.0428, + "step": 40130 + }, + { + "epoch": 0.256864, + "grad_norm": 0.7097043395042419, + "learning_rate": 1.8287573333333333e-05, + "loss": 0.0655, + "step": 40135 + }, + { + "epoch": 0.256896, + "grad_norm": 0.7303903102874756, + "learning_rate": 1.828736e-05, + "loss": 0.0529, + "step": 40140 + }, + { + "epoch": 0.256928, + "grad_norm": 0.9023743867874146, + "learning_rate": 1.828714666666667e-05, + "loss": 0.0452, + "step": 40145 + }, + { + "epoch": 0.25696, + "grad_norm": 0.6423947811126709, + "learning_rate": 1.8286933333333333e-05, + "loss": 0.0718, + "step": 40150 + }, + { + "epoch": 0.256992, + "grad_norm": 0.4195987582206726, + "learning_rate": 1.8286720000000004e-05, + "loss": 0.0343, + "step": 40155 + }, + { + "epoch": 0.257024, + "grad_norm": 0.6805942058563232, + "learning_rate": 1.8286506666666668e-05, + "loss": 0.0547, + "step": 40160 + }, + { + "epoch": 0.257056, + "grad_norm": 0.5681576132774353, + "learning_rate": 1.8286293333333335e-05, + "loss": 0.052, + "step": 40165 + }, + { + "epoch": 0.257088, + "grad_norm": 1.9702560901641846, + "learning_rate": 1.8286080000000003e-05, + "loss": 0.0729, + "step": 40170 + }, + { + "epoch": 0.25712, + "grad_norm": 0.6656897664070129, + "learning_rate": 1.8285866666666667e-05, + "loss": 0.0537, + "step": 40175 + }, + { + "epoch": 0.257152, + "grad_norm": 0.882411539554596, + "learning_rate": 1.8285653333333335e-05, + "loss": 0.0535, + "step": 40180 + }, + { + "epoch": 0.257184, + "grad_norm": 0.7009050250053406, + "learning_rate": 1.8285440000000002e-05, + "loss": 0.0514, + "step": 40185 + }, + { + "epoch": 0.257216, + "grad_norm": 0.40063807368278503, + "learning_rate": 1.828522666666667e-05, + "loss": 0.0437, + "step": 40190 + }, + { + "epoch": 0.257248, + "grad_norm": 0.7851967215538025, + "learning_rate": 1.8285013333333334e-05, + "loss": 0.0704, + "step": 40195 + }, + { + "epoch": 0.25728, + "grad_norm": 0.8279549479484558, + "learning_rate": 1.82848e-05, + "loss": 0.0504, + "step": 40200 + }, + { + "epoch": 0.257312, + "grad_norm": 0.9967070817947388, + "learning_rate": 1.828458666666667e-05, + "loss": 0.048, + "step": 40205 + }, + { + "epoch": 0.257344, + "grad_norm": 0.7702980041503906, + "learning_rate": 1.8284373333333333e-05, + "loss": 0.0608, + "step": 40210 + }, + { + "epoch": 0.257376, + "grad_norm": 0.8835928440093994, + "learning_rate": 1.828416e-05, + "loss": 0.0579, + "step": 40215 + }, + { + "epoch": 0.257408, + "grad_norm": 1.2127419710159302, + "learning_rate": 1.828394666666667e-05, + "loss": 0.0326, + "step": 40220 + }, + { + "epoch": 0.25744, + "grad_norm": 0.6862520575523376, + "learning_rate": 1.8283733333333336e-05, + "loss": 0.057, + "step": 40225 + }, + { + "epoch": 0.257472, + "grad_norm": 0.8145979642868042, + "learning_rate": 1.828352e-05, + "loss": 0.0365, + "step": 40230 + }, + { + "epoch": 0.257504, + "grad_norm": 1.1826510429382324, + "learning_rate": 1.8283306666666668e-05, + "loss": 0.0442, + "step": 40235 + }, + { + "epoch": 0.257536, + "grad_norm": 0.7733957171440125, + "learning_rate": 1.8283093333333335e-05, + "loss": 0.0545, + "step": 40240 + }, + { + "epoch": 0.257568, + "grad_norm": 0.40251240134239197, + "learning_rate": 1.828288e-05, + "loss": 0.0413, + "step": 40245 + }, + { + "epoch": 0.2576, + "grad_norm": 0.8533630967140198, + "learning_rate": 1.8282666666666667e-05, + "loss": 0.0593, + "step": 40250 + }, + { + "epoch": 0.257632, + "grad_norm": 0.6918773651123047, + "learning_rate": 1.8282453333333334e-05, + "loss": 0.0367, + "step": 40255 + }, + { + "epoch": 0.257664, + "grad_norm": 0.884765625, + "learning_rate": 1.8282240000000002e-05, + "loss": 0.0389, + "step": 40260 + }, + { + "epoch": 0.257696, + "grad_norm": 0.8760161399841309, + "learning_rate": 1.828202666666667e-05, + "loss": 0.0399, + "step": 40265 + }, + { + "epoch": 0.257728, + "grad_norm": 0.5058689117431641, + "learning_rate": 1.8281813333333337e-05, + "loss": 0.0357, + "step": 40270 + }, + { + "epoch": 0.25776, + "grad_norm": 1.0422883033752441, + "learning_rate": 1.82816e-05, + "loss": 0.0776, + "step": 40275 + }, + { + "epoch": 0.257792, + "grad_norm": 1.0838004350662231, + "learning_rate": 1.828138666666667e-05, + "loss": 0.0407, + "step": 40280 + }, + { + "epoch": 0.257824, + "grad_norm": 0.7079343199729919, + "learning_rate": 1.8281173333333336e-05, + "loss": 0.0751, + "step": 40285 + }, + { + "epoch": 0.257856, + "grad_norm": 0.8879657983779907, + "learning_rate": 1.828096e-05, + "loss": 0.0628, + "step": 40290 + }, + { + "epoch": 0.257888, + "grad_norm": 0.6365771293640137, + "learning_rate": 1.8280746666666668e-05, + "loss": 0.056, + "step": 40295 + }, + { + "epoch": 0.25792, + "grad_norm": 0.35312679409980774, + "learning_rate": 1.8280533333333336e-05, + "loss": 0.0412, + "step": 40300 + }, + { + "epoch": 0.257952, + "grad_norm": 0.5375311374664307, + "learning_rate": 1.8280320000000003e-05, + "loss": 0.0523, + "step": 40305 + }, + { + "epoch": 0.257984, + "grad_norm": 0.6756770014762878, + "learning_rate": 1.8280106666666667e-05, + "loss": 0.0422, + "step": 40310 + }, + { + "epoch": 0.258016, + "grad_norm": 0.6221423149108887, + "learning_rate": 1.8279893333333335e-05, + "loss": 0.0831, + "step": 40315 + }, + { + "epoch": 0.258048, + "grad_norm": 0.6683822274208069, + "learning_rate": 1.8279680000000002e-05, + "loss": 0.0462, + "step": 40320 + }, + { + "epoch": 0.25808, + "grad_norm": 1.1853129863739014, + "learning_rate": 1.8279466666666667e-05, + "loss": 0.047, + "step": 40325 + }, + { + "epoch": 0.258112, + "grad_norm": 1.067980408668518, + "learning_rate": 1.8279253333333334e-05, + "loss": 0.0725, + "step": 40330 + }, + { + "epoch": 0.258144, + "grad_norm": 0.9271880984306335, + "learning_rate": 1.8279040000000002e-05, + "loss": 0.0556, + "step": 40335 + }, + { + "epoch": 0.258176, + "grad_norm": 2.220632791519165, + "learning_rate": 1.827882666666667e-05, + "loss": 0.0827, + "step": 40340 + }, + { + "epoch": 0.258208, + "grad_norm": 1.3237096071243286, + "learning_rate": 1.8278613333333333e-05, + "loss": 0.0456, + "step": 40345 + }, + { + "epoch": 0.25824, + "grad_norm": 0.46872082352638245, + "learning_rate": 1.82784e-05, + "loss": 0.0624, + "step": 40350 + }, + { + "epoch": 0.258272, + "grad_norm": 0.5586472153663635, + "learning_rate": 1.827818666666667e-05, + "loss": 0.0544, + "step": 40355 + }, + { + "epoch": 0.258304, + "grad_norm": 1.011094093322754, + "learning_rate": 1.8277973333333333e-05, + "loss": 0.062, + "step": 40360 + }, + { + "epoch": 0.258336, + "grad_norm": 2.9091711044311523, + "learning_rate": 1.8277760000000004e-05, + "loss": 0.0576, + "step": 40365 + }, + { + "epoch": 0.258368, + "grad_norm": 0.6705952286720276, + "learning_rate": 1.8277546666666668e-05, + "loss": 0.0652, + "step": 40370 + }, + { + "epoch": 0.2584, + "grad_norm": 1.494396686553955, + "learning_rate": 1.8277333333333335e-05, + "loss": 0.0497, + "step": 40375 + }, + { + "epoch": 0.258432, + "grad_norm": 0.4877753257751465, + "learning_rate": 1.8277120000000003e-05, + "loss": 0.057, + "step": 40380 + }, + { + "epoch": 0.258464, + "grad_norm": 0.6270919442176819, + "learning_rate": 1.8276906666666667e-05, + "loss": 0.0364, + "step": 40385 + }, + { + "epoch": 0.258496, + "grad_norm": 0.40264633297920227, + "learning_rate": 1.8276693333333335e-05, + "loss": 0.0307, + "step": 40390 + }, + { + "epoch": 0.258528, + "grad_norm": 0.637104868888855, + "learning_rate": 1.8276480000000002e-05, + "loss": 0.0428, + "step": 40395 + }, + { + "epoch": 0.25856, + "grad_norm": 0.26917341351509094, + "learning_rate": 1.827626666666667e-05, + "loss": 0.0429, + "step": 40400 + }, + { + "epoch": 0.258592, + "grad_norm": 1.1984151601791382, + "learning_rate": 1.8276053333333334e-05, + "loss": 0.0442, + "step": 40405 + }, + { + "epoch": 0.258624, + "grad_norm": 0.8695807456970215, + "learning_rate": 1.827584e-05, + "loss": 0.0753, + "step": 40410 + }, + { + "epoch": 0.258656, + "grad_norm": 1.9214903116226196, + "learning_rate": 1.827562666666667e-05, + "loss": 0.0612, + "step": 40415 + }, + { + "epoch": 0.258688, + "grad_norm": 0.8756436705589294, + "learning_rate": 1.8275413333333333e-05, + "loss": 0.034, + "step": 40420 + }, + { + "epoch": 0.25872, + "grad_norm": 0.567409098148346, + "learning_rate": 1.82752e-05, + "loss": 0.0802, + "step": 40425 + }, + { + "epoch": 0.258752, + "grad_norm": 1.1973819732666016, + "learning_rate": 1.827498666666667e-05, + "loss": 0.0692, + "step": 40430 + }, + { + "epoch": 0.258784, + "grad_norm": 0.9715558290481567, + "learning_rate": 1.8274773333333336e-05, + "loss": 0.0511, + "step": 40435 + }, + { + "epoch": 0.258816, + "grad_norm": 1.223808765411377, + "learning_rate": 1.827456e-05, + "loss": 0.0407, + "step": 40440 + }, + { + "epoch": 0.258848, + "grad_norm": 0.9504113793373108, + "learning_rate": 1.8274346666666668e-05, + "loss": 0.064, + "step": 40445 + }, + { + "epoch": 0.25888, + "grad_norm": 1.7215231657028198, + "learning_rate": 1.8274133333333335e-05, + "loss": 0.0576, + "step": 40450 + }, + { + "epoch": 0.258912, + "grad_norm": 1.771716833114624, + "learning_rate": 1.827392e-05, + "loss": 0.0877, + "step": 40455 + }, + { + "epoch": 0.258944, + "grad_norm": 1.3628078699111938, + "learning_rate": 1.8273706666666667e-05, + "loss": 0.0587, + "step": 40460 + }, + { + "epoch": 0.258976, + "grad_norm": 0.7357895970344543, + "learning_rate": 1.8273493333333334e-05, + "loss": 0.0577, + "step": 40465 + }, + { + "epoch": 0.259008, + "grad_norm": 1.2692956924438477, + "learning_rate": 1.8273280000000002e-05, + "loss": 0.0442, + "step": 40470 + }, + { + "epoch": 0.25904, + "grad_norm": 0.8351559638977051, + "learning_rate": 1.8273066666666666e-05, + "loss": 0.0358, + "step": 40475 + }, + { + "epoch": 0.259072, + "grad_norm": 1.565999150276184, + "learning_rate": 1.8272853333333337e-05, + "loss": 0.0726, + "step": 40480 + }, + { + "epoch": 0.259104, + "grad_norm": 1.2237333059310913, + "learning_rate": 1.827264e-05, + "loss": 0.0424, + "step": 40485 + }, + { + "epoch": 0.259136, + "grad_norm": 0.3913828432559967, + "learning_rate": 1.827242666666667e-05, + "loss": 0.035, + "step": 40490 + }, + { + "epoch": 0.259168, + "grad_norm": 0.7330387830734253, + "learning_rate": 1.8272213333333336e-05, + "loss": 0.0599, + "step": 40495 + }, + { + "epoch": 0.2592, + "grad_norm": 1.3488761186599731, + "learning_rate": 1.8272e-05, + "loss": 0.0366, + "step": 40500 + }, + { + "epoch": 0.259232, + "grad_norm": 0.5519099235534668, + "learning_rate": 1.8271786666666668e-05, + "loss": 0.0351, + "step": 40505 + }, + { + "epoch": 0.259264, + "grad_norm": 0.8453781008720398, + "learning_rate": 1.8271573333333336e-05, + "loss": 0.0676, + "step": 40510 + }, + { + "epoch": 0.259296, + "grad_norm": 0.6520081758499146, + "learning_rate": 1.8271360000000003e-05, + "loss": 0.0429, + "step": 40515 + }, + { + "epoch": 0.259328, + "grad_norm": 0.35520991683006287, + "learning_rate": 1.8271146666666667e-05, + "loss": 0.0614, + "step": 40520 + }, + { + "epoch": 0.25936, + "grad_norm": 0.39296862483024597, + "learning_rate": 1.8270933333333335e-05, + "loss": 0.0361, + "step": 40525 + }, + { + "epoch": 0.259392, + "grad_norm": 1.117377758026123, + "learning_rate": 1.8270720000000002e-05, + "loss": 0.0583, + "step": 40530 + }, + { + "epoch": 0.259424, + "grad_norm": 0.7606405019760132, + "learning_rate": 1.8270506666666667e-05, + "loss": 0.0509, + "step": 40535 + }, + { + "epoch": 0.259456, + "grad_norm": 0.8324886560440063, + "learning_rate": 1.8270293333333334e-05, + "loss": 0.0411, + "step": 40540 + }, + { + "epoch": 0.259488, + "grad_norm": 0.47944018244743347, + "learning_rate": 1.8270080000000002e-05, + "loss": 0.0876, + "step": 40545 + }, + { + "epoch": 0.25952, + "grad_norm": 1.3536064624786377, + "learning_rate": 1.826986666666667e-05, + "loss": 0.049, + "step": 40550 + }, + { + "epoch": 0.259552, + "grad_norm": 0.14529074728488922, + "learning_rate": 1.8269653333333333e-05, + "loss": 0.0548, + "step": 40555 + }, + { + "epoch": 0.259584, + "grad_norm": 0.9167484641075134, + "learning_rate": 1.826944e-05, + "loss": 0.0392, + "step": 40560 + }, + { + "epoch": 0.259616, + "grad_norm": 0.7628629207611084, + "learning_rate": 1.826922666666667e-05, + "loss": 0.053, + "step": 40565 + }, + { + "epoch": 0.259648, + "grad_norm": 0.6495574116706848, + "learning_rate": 1.8269013333333333e-05, + "loss": 0.0681, + "step": 40570 + }, + { + "epoch": 0.25968, + "grad_norm": 1.3753257989883423, + "learning_rate": 1.8268800000000004e-05, + "loss": 0.0505, + "step": 40575 + }, + { + "epoch": 0.259712, + "grad_norm": 0.6366766095161438, + "learning_rate": 1.8268586666666668e-05, + "loss": 0.0631, + "step": 40580 + }, + { + "epoch": 0.259744, + "grad_norm": 0.43067291378974915, + "learning_rate": 1.8268373333333335e-05, + "loss": 0.0519, + "step": 40585 + }, + { + "epoch": 0.259776, + "grad_norm": 0.6713993549346924, + "learning_rate": 1.8268160000000003e-05, + "loss": 0.0388, + "step": 40590 + }, + { + "epoch": 0.259808, + "grad_norm": 2.8760502338409424, + "learning_rate": 1.8267946666666667e-05, + "loss": 0.0527, + "step": 40595 + }, + { + "epoch": 0.25984, + "grad_norm": 0.4852526783943176, + "learning_rate": 1.8267733333333335e-05, + "loss": 0.0529, + "step": 40600 + }, + { + "epoch": 0.259872, + "grad_norm": 0.5875875353813171, + "learning_rate": 1.8267520000000002e-05, + "loss": 0.0417, + "step": 40605 + }, + { + "epoch": 0.259904, + "grad_norm": 0.9480805993080139, + "learning_rate": 1.826730666666667e-05, + "loss": 0.0632, + "step": 40610 + }, + { + "epoch": 0.259936, + "grad_norm": 0.5895159244537354, + "learning_rate": 1.8267093333333334e-05, + "loss": 0.0454, + "step": 40615 + }, + { + "epoch": 0.259968, + "grad_norm": 0.7171286940574646, + "learning_rate": 1.826688e-05, + "loss": 0.0552, + "step": 40620 + }, + { + "epoch": 0.26, + "grad_norm": 0.7113520503044128, + "learning_rate": 1.826666666666667e-05, + "loss": 0.0391, + "step": 40625 + }, + { + "epoch": 0.260032, + "grad_norm": 0.5130749344825745, + "learning_rate": 1.8266453333333333e-05, + "loss": 0.0526, + "step": 40630 + }, + { + "epoch": 0.260064, + "grad_norm": 1.3671653270721436, + "learning_rate": 1.826624e-05, + "loss": 0.0745, + "step": 40635 + }, + { + "epoch": 0.260096, + "grad_norm": 0.7969070672988892, + "learning_rate": 1.826602666666667e-05, + "loss": 0.0518, + "step": 40640 + }, + { + "epoch": 0.260128, + "grad_norm": 0.4354826509952545, + "learning_rate": 1.8265813333333336e-05, + "loss": 0.0467, + "step": 40645 + }, + { + "epoch": 0.26016, + "grad_norm": 0.40307870507240295, + "learning_rate": 1.82656e-05, + "loss": 0.0531, + "step": 40650 + }, + { + "epoch": 0.260192, + "grad_norm": 1.7054023742675781, + "learning_rate": 1.8265386666666668e-05, + "loss": 0.0532, + "step": 40655 + }, + { + "epoch": 0.260224, + "grad_norm": 0.5591159462928772, + "learning_rate": 1.8265173333333335e-05, + "loss": 0.0707, + "step": 40660 + }, + { + "epoch": 0.260256, + "grad_norm": 0.42027074098587036, + "learning_rate": 1.826496e-05, + "loss": 0.0479, + "step": 40665 + }, + { + "epoch": 0.260288, + "grad_norm": 0.3433068096637726, + "learning_rate": 1.8264746666666667e-05, + "loss": 0.0336, + "step": 40670 + }, + { + "epoch": 0.26032, + "grad_norm": 2.258732557296753, + "learning_rate": 1.8264533333333334e-05, + "loss": 0.064, + "step": 40675 + }, + { + "epoch": 0.260352, + "grad_norm": 2.2773375511169434, + "learning_rate": 1.8264320000000002e-05, + "loss": 0.0625, + "step": 40680 + }, + { + "epoch": 0.260384, + "grad_norm": 1.025593876838684, + "learning_rate": 1.8264106666666666e-05, + "loss": 0.0484, + "step": 40685 + }, + { + "epoch": 0.260416, + "grad_norm": 0.5552129149436951, + "learning_rate": 1.8263893333333337e-05, + "loss": 0.0645, + "step": 40690 + }, + { + "epoch": 0.260448, + "grad_norm": 0.3687349557876587, + "learning_rate": 1.826368e-05, + "loss": 0.035, + "step": 40695 + }, + { + "epoch": 0.26048, + "grad_norm": 0.9218056201934814, + "learning_rate": 1.8263466666666665e-05, + "loss": 0.0544, + "step": 40700 + }, + { + "epoch": 0.260512, + "grad_norm": 1.1087372303009033, + "learning_rate": 1.8263253333333336e-05, + "loss": 0.054, + "step": 40705 + }, + { + "epoch": 0.260544, + "grad_norm": 0.5105219483375549, + "learning_rate": 1.826304e-05, + "loss": 0.0285, + "step": 40710 + }, + { + "epoch": 0.260576, + "grad_norm": 1.2532958984375, + "learning_rate": 1.8262826666666668e-05, + "loss": 0.0476, + "step": 40715 + }, + { + "epoch": 0.260608, + "grad_norm": 0.7463222742080688, + "learning_rate": 1.8262613333333336e-05, + "loss": 0.0401, + "step": 40720 + }, + { + "epoch": 0.26064, + "grad_norm": 1.3135554790496826, + "learning_rate": 1.8262400000000003e-05, + "loss": 0.0331, + "step": 40725 + }, + { + "epoch": 0.260672, + "grad_norm": 3.911761999130249, + "learning_rate": 1.8262186666666667e-05, + "loss": 0.0325, + "step": 40730 + }, + { + "epoch": 0.260704, + "grad_norm": 0.28920233249664307, + "learning_rate": 1.8261973333333335e-05, + "loss": 0.0335, + "step": 40735 + }, + { + "epoch": 0.260736, + "grad_norm": 0.8446497917175293, + "learning_rate": 1.8261760000000003e-05, + "loss": 0.0567, + "step": 40740 + }, + { + "epoch": 0.260768, + "grad_norm": 0.6291283369064331, + "learning_rate": 1.8261546666666667e-05, + "loss": 0.0398, + "step": 40745 + }, + { + "epoch": 0.2608, + "grad_norm": 0.9302975535392761, + "learning_rate": 1.8261333333333334e-05, + "loss": 0.0403, + "step": 40750 + }, + { + "epoch": 0.260832, + "grad_norm": 0.7795020341873169, + "learning_rate": 1.8261120000000002e-05, + "loss": 0.0509, + "step": 40755 + }, + { + "epoch": 0.260864, + "grad_norm": 1.291439414024353, + "learning_rate": 1.826090666666667e-05, + "loss": 0.0517, + "step": 40760 + }, + { + "epoch": 0.260896, + "grad_norm": 1.2575924396514893, + "learning_rate": 1.8260693333333333e-05, + "loss": 0.0708, + "step": 40765 + }, + { + "epoch": 0.260928, + "grad_norm": 0.41224101185798645, + "learning_rate": 1.826048e-05, + "loss": 0.0513, + "step": 40770 + }, + { + "epoch": 0.26096, + "grad_norm": 1.306503176689148, + "learning_rate": 1.826026666666667e-05, + "loss": 0.038, + "step": 40775 + }, + { + "epoch": 0.260992, + "grad_norm": 0.8112332820892334, + "learning_rate": 1.8260053333333333e-05, + "loss": 0.056, + "step": 40780 + }, + { + "epoch": 0.261024, + "grad_norm": 0.5080301761627197, + "learning_rate": 1.825984e-05, + "loss": 0.0471, + "step": 40785 + }, + { + "epoch": 0.261056, + "grad_norm": 1.5021132230758667, + "learning_rate": 1.8259626666666668e-05, + "loss": 0.0408, + "step": 40790 + }, + { + "epoch": 0.261088, + "grad_norm": 1.0539181232452393, + "learning_rate": 1.8259413333333335e-05, + "loss": 0.0477, + "step": 40795 + }, + { + "epoch": 0.26112, + "grad_norm": 1.1735649108886719, + "learning_rate": 1.8259200000000003e-05, + "loss": 0.0544, + "step": 40800 + }, + { + "epoch": 0.261152, + "grad_norm": 1.0688070058822632, + "learning_rate": 1.8258986666666667e-05, + "loss": 0.0487, + "step": 40805 + }, + { + "epoch": 0.261184, + "grad_norm": 1.0273551940917969, + "learning_rate": 1.8258773333333335e-05, + "loss": 0.0878, + "step": 40810 + }, + { + "epoch": 0.261216, + "grad_norm": 0.685250997543335, + "learning_rate": 1.8258560000000002e-05, + "loss": 0.0897, + "step": 40815 + }, + { + "epoch": 0.261248, + "grad_norm": 1.0928643941879272, + "learning_rate": 1.825834666666667e-05, + "loss": 0.045, + "step": 40820 + }, + { + "epoch": 0.26128, + "grad_norm": 1.1808998584747314, + "learning_rate": 1.8258133333333334e-05, + "loss": 0.0541, + "step": 40825 + }, + { + "epoch": 0.261312, + "grad_norm": 1.2520153522491455, + "learning_rate": 1.825792e-05, + "loss": 0.0676, + "step": 40830 + }, + { + "epoch": 0.261344, + "grad_norm": 0.8421784043312073, + "learning_rate": 1.825770666666667e-05, + "loss": 0.0593, + "step": 40835 + }, + { + "epoch": 0.261376, + "grad_norm": 0.7449072003364563, + "learning_rate": 1.8257493333333333e-05, + "loss": 0.0373, + "step": 40840 + }, + { + "epoch": 0.261408, + "grad_norm": 0.8335636258125305, + "learning_rate": 1.825728e-05, + "loss": 0.0885, + "step": 40845 + }, + { + "epoch": 0.26144, + "grad_norm": 0.3939891755580902, + "learning_rate": 1.825706666666667e-05, + "loss": 0.0531, + "step": 40850 + }, + { + "epoch": 0.261472, + "grad_norm": 0.3048286736011505, + "learning_rate": 1.8256853333333336e-05, + "loss": 0.0435, + "step": 40855 + }, + { + "epoch": 0.261504, + "grad_norm": 0.6103681921958923, + "learning_rate": 1.825664e-05, + "loss": 0.0577, + "step": 40860 + }, + { + "epoch": 0.261536, + "grad_norm": 0.6168161034584045, + "learning_rate": 1.8256426666666668e-05, + "loss": 0.0565, + "step": 40865 + }, + { + "epoch": 0.261568, + "grad_norm": 1.1001313924789429, + "learning_rate": 1.8256213333333335e-05, + "loss": 0.0504, + "step": 40870 + }, + { + "epoch": 0.2616, + "grad_norm": 1.0984389781951904, + "learning_rate": 1.8256e-05, + "loss": 0.08, + "step": 40875 + }, + { + "epoch": 0.261632, + "grad_norm": 0.7377138733863831, + "learning_rate": 1.8255786666666667e-05, + "loss": 0.0707, + "step": 40880 + }, + { + "epoch": 0.261664, + "grad_norm": 0.7114437222480774, + "learning_rate": 1.8255573333333334e-05, + "loss": 0.0243, + "step": 40885 + }, + { + "epoch": 0.261696, + "grad_norm": 0.81979900598526, + "learning_rate": 1.8255360000000002e-05, + "loss": 0.0343, + "step": 40890 + }, + { + "epoch": 0.261728, + "grad_norm": 0.8930228352546692, + "learning_rate": 1.8255146666666666e-05, + "loss": 0.0303, + "step": 40895 + }, + { + "epoch": 0.26176, + "grad_norm": 0.2854648232460022, + "learning_rate": 1.8254933333333337e-05, + "loss": 0.0328, + "step": 40900 + }, + { + "epoch": 0.261792, + "grad_norm": 0.3828328847885132, + "learning_rate": 1.825472e-05, + "loss": 0.0483, + "step": 40905 + }, + { + "epoch": 0.261824, + "grad_norm": 0.4130479097366333, + "learning_rate": 1.825450666666667e-05, + "loss": 0.0316, + "step": 40910 + }, + { + "epoch": 0.261856, + "grad_norm": 0.5611714124679565, + "learning_rate": 1.8254293333333336e-05, + "loss": 0.0439, + "step": 40915 + }, + { + "epoch": 0.261888, + "grad_norm": 0.6100079417228699, + "learning_rate": 1.825408e-05, + "loss": 0.0508, + "step": 40920 + }, + { + "epoch": 0.26192, + "grad_norm": 1.055332899093628, + "learning_rate": 1.8253866666666668e-05, + "loss": 0.1023, + "step": 40925 + }, + { + "epoch": 0.261952, + "grad_norm": 0.39260658621788025, + "learning_rate": 1.8253653333333336e-05, + "loss": 0.0355, + "step": 40930 + }, + { + "epoch": 0.261984, + "grad_norm": 2.162720203399658, + "learning_rate": 1.8253440000000003e-05, + "loss": 0.0302, + "step": 40935 + }, + { + "epoch": 0.262016, + "grad_norm": 1.349663496017456, + "learning_rate": 1.8253226666666667e-05, + "loss": 0.062, + "step": 40940 + }, + { + "epoch": 0.262048, + "grad_norm": 0.6988645195960999, + "learning_rate": 1.8253013333333335e-05, + "loss": 0.0705, + "step": 40945 + }, + { + "epoch": 0.26208, + "grad_norm": 1.0262043476104736, + "learning_rate": 1.8252800000000003e-05, + "loss": 0.0569, + "step": 40950 + }, + { + "epoch": 0.262112, + "grad_norm": 1.7047977447509766, + "learning_rate": 1.8252586666666667e-05, + "loss": 0.0441, + "step": 40955 + }, + { + "epoch": 0.262144, + "grad_norm": 0.6030635833740234, + "learning_rate": 1.8252373333333334e-05, + "loss": 0.0502, + "step": 40960 + }, + { + "epoch": 0.262176, + "grad_norm": 0.6977068185806274, + "learning_rate": 1.8252160000000002e-05, + "loss": 0.0449, + "step": 40965 + }, + { + "epoch": 0.262208, + "grad_norm": 0.6290916204452515, + "learning_rate": 1.825194666666667e-05, + "loss": 0.0454, + "step": 40970 + }, + { + "epoch": 0.26224, + "grad_norm": 1.2933778762817383, + "learning_rate": 1.8251733333333334e-05, + "loss": 0.0834, + "step": 40975 + }, + { + "epoch": 0.262272, + "grad_norm": 1.2954370975494385, + "learning_rate": 1.825152e-05, + "loss": 0.0405, + "step": 40980 + }, + { + "epoch": 0.262304, + "grad_norm": 0.6746639013290405, + "learning_rate": 1.825130666666667e-05, + "loss": 0.052, + "step": 40985 + }, + { + "epoch": 0.262336, + "grad_norm": 0.4283762276172638, + "learning_rate": 1.8251093333333333e-05, + "loss": 0.0575, + "step": 40990 + }, + { + "epoch": 0.262368, + "grad_norm": 0.6857548952102661, + "learning_rate": 1.825088e-05, + "loss": 0.0757, + "step": 40995 + }, + { + "epoch": 0.2624, + "grad_norm": 0.42023324966430664, + "learning_rate": 1.8250666666666668e-05, + "loss": 0.0557, + "step": 41000 + }, + { + "epoch": 0.262432, + "grad_norm": 3.2672407627105713, + "learning_rate": 1.8250453333333335e-05, + "loss": 0.0489, + "step": 41005 + }, + { + "epoch": 0.262464, + "grad_norm": 1.2520360946655273, + "learning_rate": 1.825024e-05, + "loss": 0.052, + "step": 41010 + }, + { + "epoch": 0.262496, + "grad_norm": 2.046893358230591, + "learning_rate": 1.825002666666667e-05, + "loss": 0.1243, + "step": 41015 + }, + { + "epoch": 0.262528, + "grad_norm": 1.3051979541778564, + "learning_rate": 1.8249813333333335e-05, + "loss": 0.0612, + "step": 41020 + }, + { + "epoch": 0.26256, + "grad_norm": 0.8661211729049683, + "learning_rate": 1.8249600000000002e-05, + "loss": 0.0456, + "step": 41025 + }, + { + "epoch": 0.262592, + "grad_norm": 1.462835669517517, + "learning_rate": 1.824938666666667e-05, + "loss": 0.05, + "step": 41030 + }, + { + "epoch": 0.262624, + "grad_norm": 0.9002225399017334, + "learning_rate": 1.8249173333333334e-05, + "loss": 0.0558, + "step": 41035 + }, + { + "epoch": 0.262656, + "grad_norm": 1.0507069826126099, + "learning_rate": 1.824896e-05, + "loss": 0.0578, + "step": 41040 + }, + { + "epoch": 0.262688, + "grad_norm": 0.5055895447731018, + "learning_rate": 1.824874666666667e-05, + "loss": 0.0527, + "step": 41045 + }, + { + "epoch": 0.26272, + "grad_norm": 0.7836705446243286, + "learning_rate": 1.8248533333333337e-05, + "loss": 0.0509, + "step": 41050 + }, + { + "epoch": 0.262752, + "grad_norm": 0.2640821635723114, + "learning_rate": 1.824832e-05, + "loss": 0.0528, + "step": 41055 + }, + { + "epoch": 0.262784, + "grad_norm": 0.5003906488418579, + "learning_rate": 1.824810666666667e-05, + "loss": 0.0591, + "step": 41060 + }, + { + "epoch": 0.262816, + "grad_norm": 1.729411244392395, + "learning_rate": 1.8247893333333336e-05, + "loss": 0.0534, + "step": 41065 + }, + { + "epoch": 0.262848, + "grad_norm": 1.1528644561767578, + "learning_rate": 1.824768e-05, + "loss": 0.0388, + "step": 41070 + }, + { + "epoch": 0.26288, + "grad_norm": 1.4595707654953003, + "learning_rate": 1.8247466666666668e-05, + "loss": 0.0425, + "step": 41075 + }, + { + "epoch": 0.262912, + "grad_norm": 0.5200392007827759, + "learning_rate": 1.8247253333333335e-05, + "loss": 0.0687, + "step": 41080 + }, + { + "epoch": 0.262944, + "grad_norm": 1.042330026626587, + "learning_rate": 1.8247040000000003e-05, + "loss": 0.0745, + "step": 41085 + }, + { + "epoch": 0.262976, + "grad_norm": 1.9615389108657837, + "learning_rate": 1.8246826666666667e-05, + "loss": 0.0673, + "step": 41090 + }, + { + "epoch": 0.263008, + "grad_norm": 0.9527074098587036, + "learning_rate": 1.8246613333333334e-05, + "loss": 0.0437, + "step": 41095 + }, + { + "epoch": 0.26304, + "grad_norm": 0.7125138640403748, + "learning_rate": 1.8246400000000002e-05, + "loss": 0.0425, + "step": 41100 + }, + { + "epoch": 0.263072, + "grad_norm": 1.0931583642959595, + "learning_rate": 1.8246186666666666e-05, + "loss": 0.053, + "step": 41105 + }, + { + "epoch": 0.263104, + "grad_norm": 0.5235060453414917, + "learning_rate": 1.8245973333333337e-05, + "loss": 0.0361, + "step": 41110 + }, + { + "epoch": 0.263136, + "grad_norm": 0.7183437347412109, + "learning_rate": 1.824576e-05, + "loss": 0.0463, + "step": 41115 + }, + { + "epoch": 0.263168, + "grad_norm": 0.957914412021637, + "learning_rate": 1.824554666666667e-05, + "loss": 0.0395, + "step": 41120 + }, + { + "epoch": 0.2632, + "grad_norm": 0.5869123935699463, + "learning_rate": 1.8245333333333336e-05, + "loss": 0.0417, + "step": 41125 + }, + { + "epoch": 0.263232, + "grad_norm": 0.8958181142807007, + "learning_rate": 1.824512e-05, + "loss": 0.0798, + "step": 41130 + }, + { + "epoch": 0.263264, + "grad_norm": 0.7001484036445618, + "learning_rate": 1.8244906666666668e-05, + "loss": 0.0405, + "step": 41135 + }, + { + "epoch": 0.263296, + "grad_norm": 1.043285846710205, + "learning_rate": 1.8244693333333336e-05, + "loss": 0.0483, + "step": 41140 + }, + { + "epoch": 0.263328, + "grad_norm": 2.5159711837768555, + "learning_rate": 1.8244480000000003e-05, + "loss": 0.0762, + "step": 41145 + }, + { + "epoch": 0.26336, + "grad_norm": 1.0072414875030518, + "learning_rate": 1.8244266666666667e-05, + "loss": 0.0606, + "step": 41150 + }, + { + "epoch": 0.263392, + "grad_norm": 0.7543826699256897, + "learning_rate": 1.8244053333333335e-05, + "loss": 0.0714, + "step": 41155 + }, + { + "epoch": 0.263424, + "grad_norm": 0.49519121646881104, + "learning_rate": 1.8243840000000003e-05, + "loss": 0.0516, + "step": 41160 + }, + { + "epoch": 0.263456, + "grad_norm": 1.2979902029037476, + "learning_rate": 1.8243626666666667e-05, + "loss": 0.0743, + "step": 41165 + }, + { + "epoch": 0.263488, + "grad_norm": 0.7504149675369263, + "learning_rate": 1.8243413333333334e-05, + "loss": 0.0581, + "step": 41170 + }, + { + "epoch": 0.26352, + "grad_norm": 0.5896683931350708, + "learning_rate": 1.8243200000000002e-05, + "loss": 0.0358, + "step": 41175 + }, + { + "epoch": 0.263552, + "grad_norm": 0.939845085144043, + "learning_rate": 1.824298666666667e-05, + "loss": 0.0417, + "step": 41180 + }, + { + "epoch": 0.263584, + "grad_norm": 1.0990642309188843, + "learning_rate": 1.8242773333333334e-05, + "loss": 0.0517, + "step": 41185 + }, + { + "epoch": 0.263616, + "grad_norm": 0.5761801600456238, + "learning_rate": 1.824256e-05, + "loss": 0.0519, + "step": 41190 + }, + { + "epoch": 0.263648, + "grad_norm": 1.6602665185928345, + "learning_rate": 1.824234666666667e-05, + "loss": 0.054, + "step": 41195 + }, + { + "epoch": 0.26368, + "grad_norm": 0.41363725066185, + "learning_rate": 1.8242133333333333e-05, + "loss": 0.0518, + "step": 41200 + }, + { + "epoch": 0.263712, + "grad_norm": 0.7011259198188782, + "learning_rate": 1.824192e-05, + "loss": 0.0558, + "step": 41205 + }, + { + "epoch": 0.263744, + "grad_norm": 0.6125708222389221, + "learning_rate": 1.8241706666666668e-05, + "loss": 0.0539, + "step": 41210 + }, + { + "epoch": 0.263776, + "grad_norm": 1.0486335754394531, + "learning_rate": 1.8241493333333335e-05, + "loss": 0.0376, + "step": 41215 + }, + { + "epoch": 0.263808, + "grad_norm": 0.8263061046600342, + "learning_rate": 1.824128e-05, + "loss": 0.0638, + "step": 41220 + }, + { + "epoch": 0.26384, + "grad_norm": 0.399972528219223, + "learning_rate": 1.824106666666667e-05, + "loss": 0.0571, + "step": 41225 + }, + { + "epoch": 0.263872, + "grad_norm": 0.45832473039627075, + "learning_rate": 1.8240853333333335e-05, + "loss": 0.043, + "step": 41230 + }, + { + "epoch": 0.263904, + "grad_norm": 0.5731076002120972, + "learning_rate": 1.824064e-05, + "loss": 0.0509, + "step": 41235 + }, + { + "epoch": 0.263936, + "grad_norm": 0.4397955536842346, + "learning_rate": 1.824042666666667e-05, + "loss": 0.0724, + "step": 41240 + }, + { + "epoch": 0.263968, + "grad_norm": 0.601598858833313, + "learning_rate": 1.8240213333333334e-05, + "loss": 0.0386, + "step": 41245 + }, + { + "epoch": 0.264, + "grad_norm": 1.3258193731307983, + "learning_rate": 1.824e-05, + "loss": 0.0443, + "step": 41250 + }, + { + "epoch": 0.264032, + "grad_norm": 1.1038134098052979, + "learning_rate": 1.823978666666667e-05, + "loss": 0.0562, + "step": 41255 + }, + { + "epoch": 0.264064, + "grad_norm": 3.303358554840088, + "learning_rate": 1.8239573333333337e-05, + "loss": 0.0743, + "step": 41260 + }, + { + "epoch": 0.264096, + "grad_norm": 2.05901837348938, + "learning_rate": 1.823936e-05, + "loss": 0.0484, + "step": 41265 + }, + { + "epoch": 0.264128, + "grad_norm": 0.4740748107433319, + "learning_rate": 1.823914666666667e-05, + "loss": 0.054, + "step": 41270 + }, + { + "epoch": 0.26416, + "grad_norm": 0.7555460929870605, + "learning_rate": 1.8238933333333336e-05, + "loss": 0.044, + "step": 41275 + }, + { + "epoch": 0.264192, + "grad_norm": 1.0758984088897705, + "learning_rate": 1.823872e-05, + "loss": 0.0692, + "step": 41280 + }, + { + "epoch": 0.264224, + "grad_norm": 0.715158224105835, + "learning_rate": 1.8238506666666668e-05, + "loss": 0.0631, + "step": 41285 + }, + { + "epoch": 0.264256, + "grad_norm": 0.4570502042770386, + "learning_rate": 1.8238293333333335e-05, + "loss": 0.051, + "step": 41290 + }, + { + "epoch": 0.264288, + "grad_norm": 0.7595027089118958, + "learning_rate": 1.8238080000000003e-05, + "loss": 0.0833, + "step": 41295 + }, + { + "epoch": 0.26432, + "grad_norm": 0.7544736266136169, + "learning_rate": 1.8237866666666667e-05, + "loss": 0.0421, + "step": 41300 + }, + { + "epoch": 0.264352, + "grad_norm": 0.48451200127601624, + "learning_rate": 1.8237653333333334e-05, + "loss": 0.058, + "step": 41305 + }, + { + "epoch": 0.264384, + "grad_norm": 0.7797971367835999, + "learning_rate": 1.8237440000000002e-05, + "loss": 0.0419, + "step": 41310 + }, + { + "epoch": 0.264416, + "grad_norm": 0.6904684901237488, + "learning_rate": 1.8237226666666666e-05, + "loss": 0.0477, + "step": 41315 + }, + { + "epoch": 0.264448, + "grad_norm": 0.7807123064994812, + "learning_rate": 1.8237013333333337e-05, + "loss": 0.0512, + "step": 41320 + }, + { + "epoch": 0.26448, + "grad_norm": 1.6821857690811157, + "learning_rate": 1.82368e-05, + "loss": 0.0605, + "step": 41325 + }, + { + "epoch": 0.264512, + "grad_norm": 0.6726873517036438, + "learning_rate": 1.823658666666667e-05, + "loss": 0.0401, + "step": 41330 + }, + { + "epoch": 0.264544, + "grad_norm": 0.4942675530910492, + "learning_rate": 1.8236373333333336e-05, + "loss": 0.0355, + "step": 41335 + }, + { + "epoch": 0.264576, + "grad_norm": 0.77590411901474, + "learning_rate": 1.823616e-05, + "loss": 0.0462, + "step": 41340 + }, + { + "epoch": 0.264608, + "grad_norm": 0.4731754660606384, + "learning_rate": 1.8235946666666668e-05, + "loss": 0.0432, + "step": 41345 + }, + { + "epoch": 0.26464, + "grad_norm": 0.34120896458625793, + "learning_rate": 1.8235733333333336e-05, + "loss": 0.0394, + "step": 41350 + }, + { + "epoch": 0.264672, + "grad_norm": 1.0474777221679688, + "learning_rate": 1.8235520000000003e-05, + "loss": 0.0454, + "step": 41355 + }, + { + "epoch": 0.264704, + "grad_norm": 0.5869708061218262, + "learning_rate": 1.8235306666666667e-05, + "loss": 0.0409, + "step": 41360 + }, + { + "epoch": 0.264736, + "grad_norm": 2.105297327041626, + "learning_rate": 1.8235093333333335e-05, + "loss": 0.0501, + "step": 41365 + }, + { + "epoch": 0.264768, + "grad_norm": 1.5689500570297241, + "learning_rate": 1.8234880000000003e-05, + "loss": 0.0537, + "step": 41370 + }, + { + "epoch": 0.2648, + "grad_norm": 0.8775600790977478, + "learning_rate": 1.8234666666666667e-05, + "loss": 0.0597, + "step": 41375 + }, + { + "epoch": 0.264832, + "grad_norm": 0.4690139591693878, + "learning_rate": 1.8234453333333334e-05, + "loss": 0.0442, + "step": 41380 + }, + { + "epoch": 0.264864, + "grad_norm": 0.4998927116394043, + "learning_rate": 1.8234240000000002e-05, + "loss": 0.0548, + "step": 41385 + }, + { + "epoch": 0.264896, + "grad_norm": 0.6336308121681213, + "learning_rate": 1.823402666666667e-05, + "loss": 0.0517, + "step": 41390 + }, + { + "epoch": 0.264928, + "grad_norm": 0.9591891765594482, + "learning_rate": 1.8233813333333334e-05, + "loss": 0.056, + "step": 41395 + }, + { + "epoch": 0.26496, + "grad_norm": 0.8931435942649841, + "learning_rate": 1.82336e-05, + "loss": 0.0774, + "step": 41400 + }, + { + "epoch": 0.264992, + "grad_norm": 0.8963963985443115, + "learning_rate": 1.823338666666667e-05, + "loss": 0.0532, + "step": 41405 + }, + { + "epoch": 0.265024, + "grad_norm": 0.551272451877594, + "learning_rate": 1.8233173333333333e-05, + "loss": 0.0329, + "step": 41410 + }, + { + "epoch": 0.265056, + "grad_norm": 0.4688817858695984, + "learning_rate": 1.823296e-05, + "loss": 0.0435, + "step": 41415 + }, + { + "epoch": 0.265088, + "grad_norm": 0.6518407464027405, + "learning_rate": 1.8232746666666668e-05, + "loss": 0.0719, + "step": 41420 + }, + { + "epoch": 0.26512, + "grad_norm": 1.187172770500183, + "learning_rate": 1.8232533333333335e-05, + "loss": 0.069, + "step": 41425 + }, + { + "epoch": 0.265152, + "grad_norm": 0.755761444568634, + "learning_rate": 1.823232e-05, + "loss": 0.0466, + "step": 41430 + }, + { + "epoch": 0.265184, + "grad_norm": 0.6826712489128113, + "learning_rate": 1.823210666666667e-05, + "loss": 0.0316, + "step": 41435 + }, + { + "epoch": 0.265216, + "grad_norm": 0.6747794151306152, + "learning_rate": 1.8231893333333335e-05, + "loss": 0.0266, + "step": 41440 + }, + { + "epoch": 0.265248, + "grad_norm": 1.1335088014602661, + "learning_rate": 1.823168e-05, + "loss": 0.0677, + "step": 41445 + }, + { + "epoch": 0.26528, + "grad_norm": 1.037026047706604, + "learning_rate": 1.823146666666667e-05, + "loss": 0.0572, + "step": 41450 + }, + { + "epoch": 0.265312, + "grad_norm": 0.6629129648208618, + "learning_rate": 1.8231253333333334e-05, + "loss": 0.0792, + "step": 41455 + }, + { + "epoch": 0.265344, + "grad_norm": 0.39063194394111633, + "learning_rate": 1.823104e-05, + "loss": 0.0304, + "step": 41460 + }, + { + "epoch": 0.265376, + "grad_norm": 0.8835738897323608, + "learning_rate": 1.823082666666667e-05, + "loss": 0.0418, + "step": 41465 + }, + { + "epoch": 0.265408, + "grad_norm": 1.157463788986206, + "learning_rate": 1.8230613333333337e-05, + "loss": 0.0758, + "step": 41470 + }, + { + "epoch": 0.26544, + "grad_norm": 1.1846563816070557, + "learning_rate": 1.82304e-05, + "loss": 0.0849, + "step": 41475 + }, + { + "epoch": 0.265472, + "grad_norm": 1.2657687664031982, + "learning_rate": 1.823018666666667e-05, + "loss": 0.0647, + "step": 41480 + }, + { + "epoch": 0.265504, + "grad_norm": 0.8352263569831848, + "learning_rate": 1.8229973333333336e-05, + "loss": 0.0327, + "step": 41485 + }, + { + "epoch": 0.265536, + "grad_norm": 0.5270764827728271, + "learning_rate": 1.822976e-05, + "loss": 0.0463, + "step": 41490 + }, + { + "epoch": 0.265568, + "grad_norm": 0.5887987017631531, + "learning_rate": 1.8229546666666668e-05, + "loss": 0.0446, + "step": 41495 + }, + { + "epoch": 0.2656, + "grad_norm": 0.2612372934818268, + "learning_rate": 1.8229333333333335e-05, + "loss": 0.0529, + "step": 41500 + }, + { + "epoch": 0.265632, + "grad_norm": 0.9686959385871887, + "learning_rate": 1.8229120000000003e-05, + "loss": 0.0546, + "step": 41505 + }, + { + "epoch": 0.265664, + "grad_norm": 1.841587781906128, + "learning_rate": 1.8228906666666667e-05, + "loss": 0.0406, + "step": 41510 + }, + { + "epoch": 0.265696, + "grad_norm": 0.3266644775867462, + "learning_rate": 1.8228693333333334e-05, + "loss": 0.0244, + "step": 41515 + }, + { + "epoch": 0.265728, + "grad_norm": 0.5596766471862793, + "learning_rate": 1.8228480000000002e-05, + "loss": 0.0462, + "step": 41520 + }, + { + "epoch": 0.26576, + "grad_norm": 0.5130163431167603, + "learning_rate": 1.8228266666666666e-05, + "loss": 0.0552, + "step": 41525 + }, + { + "epoch": 0.265792, + "grad_norm": 1.3600398302078247, + "learning_rate": 1.8228053333333334e-05, + "loss": 0.0411, + "step": 41530 + }, + { + "epoch": 0.265824, + "grad_norm": 0.18703648447990417, + "learning_rate": 1.822784e-05, + "loss": 0.0329, + "step": 41535 + }, + { + "epoch": 0.265856, + "grad_norm": 0.7319720387458801, + "learning_rate": 1.822762666666667e-05, + "loss": 0.0503, + "step": 41540 + }, + { + "epoch": 0.265888, + "grad_norm": 0.5488800406455994, + "learning_rate": 1.8227413333333336e-05, + "loss": 0.0492, + "step": 41545 + }, + { + "epoch": 0.26592, + "grad_norm": 0.6244211196899414, + "learning_rate": 1.82272e-05, + "loss": 0.0346, + "step": 41550 + }, + { + "epoch": 0.265952, + "grad_norm": 0.5695905089378357, + "learning_rate": 1.8226986666666668e-05, + "loss": 0.0489, + "step": 41555 + }, + { + "epoch": 0.265984, + "grad_norm": 0.16345180571079254, + "learning_rate": 1.8226773333333336e-05, + "loss": 0.0617, + "step": 41560 + }, + { + "epoch": 0.266016, + "grad_norm": 0.6803256869316101, + "learning_rate": 1.8226560000000003e-05, + "loss": 0.0451, + "step": 41565 + }, + { + "epoch": 0.266048, + "grad_norm": 0.6956088542938232, + "learning_rate": 1.8226346666666667e-05, + "loss": 0.0539, + "step": 41570 + }, + { + "epoch": 0.26608, + "grad_norm": 0.45687204599380493, + "learning_rate": 1.8226133333333335e-05, + "loss": 0.0298, + "step": 41575 + }, + { + "epoch": 0.266112, + "grad_norm": 1.0806655883789062, + "learning_rate": 1.8225920000000003e-05, + "loss": 0.0441, + "step": 41580 + }, + { + "epoch": 0.266144, + "grad_norm": 1.0030461549758911, + "learning_rate": 1.8225706666666667e-05, + "loss": 0.037, + "step": 41585 + }, + { + "epoch": 0.266176, + "grad_norm": 1.320892333984375, + "learning_rate": 1.8225493333333334e-05, + "loss": 0.0709, + "step": 41590 + }, + { + "epoch": 0.266208, + "grad_norm": 0.44422128796577454, + "learning_rate": 1.8225280000000002e-05, + "loss": 0.0515, + "step": 41595 + }, + { + "epoch": 0.26624, + "grad_norm": 0.9088339805603027, + "learning_rate": 1.822506666666667e-05, + "loss": 0.0613, + "step": 41600 + }, + { + "epoch": 0.266272, + "grad_norm": 1.107689380645752, + "learning_rate": 1.8224853333333334e-05, + "loss": 0.0354, + "step": 41605 + }, + { + "epoch": 0.266304, + "grad_norm": 0.9761804342269897, + "learning_rate": 1.822464e-05, + "loss": 0.0596, + "step": 41610 + }, + { + "epoch": 0.266336, + "grad_norm": 1.1409599781036377, + "learning_rate": 1.822442666666667e-05, + "loss": 0.0364, + "step": 41615 + }, + { + "epoch": 0.266368, + "grad_norm": 1.0367509126663208, + "learning_rate": 1.8224213333333333e-05, + "loss": 0.0432, + "step": 41620 + }, + { + "epoch": 0.2664, + "grad_norm": 0.8107278943061829, + "learning_rate": 1.8224e-05, + "loss": 0.0441, + "step": 41625 + }, + { + "epoch": 0.266432, + "grad_norm": 0.4143781363964081, + "learning_rate": 1.8223786666666668e-05, + "loss": 0.0607, + "step": 41630 + }, + { + "epoch": 0.266464, + "grad_norm": 0.9920789003372192, + "learning_rate": 1.8223573333333335e-05, + "loss": 0.054, + "step": 41635 + }, + { + "epoch": 0.266496, + "grad_norm": 0.8734646439552307, + "learning_rate": 1.822336e-05, + "loss": 0.0516, + "step": 41640 + }, + { + "epoch": 0.266528, + "grad_norm": 0.4991355240345001, + "learning_rate": 1.822314666666667e-05, + "loss": 0.0404, + "step": 41645 + }, + { + "epoch": 0.26656, + "grad_norm": 0.9202514290809631, + "learning_rate": 1.8222933333333335e-05, + "loss": 0.0512, + "step": 41650 + }, + { + "epoch": 0.266592, + "grad_norm": 0.7565878629684448, + "learning_rate": 1.822272e-05, + "loss": 0.0441, + "step": 41655 + }, + { + "epoch": 0.266624, + "grad_norm": 0.4842246174812317, + "learning_rate": 1.822250666666667e-05, + "loss": 0.0495, + "step": 41660 + }, + { + "epoch": 0.266656, + "grad_norm": 0.8231946229934692, + "learning_rate": 1.8222293333333334e-05, + "loss": 0.0419, + "step": 41665 + }, + { + "epoch": 0.266688, + "grad_norm": 0.6829705834388733, + "learning_rate": 1.822208e-05, + "loss": 0.0297, + "step": 41670 + }, + { + "epoch": 0.26672, + "grad_norm": 0.9760172367095947, + "learning_rate": 1.822186666666667e-05, + "loss": 0.0915, + "step": 41675 + }, + { + "epoch": 0.266752, + "grad_norm": 0.8540410399436951, + "learning_rate": 1.8221653333333337e-05, + "loss": 0.0743, + "step": 41680 + }, + { + "epoch": 0.266784, + "grad_norm": 0.7725513577461243, + "learning_rate": 1.822144e-05, + "loss": 0.0377, + "step": 41685 + }, + { + "epoch": 0.266816, + "grad_norm": 0.6005904674530029, + "learning_rate": 1.822122666666667e-05, + "loss": 0.0618, + "step": 41690 + }, + { + "epoch": 0.266848, + "grad_norm": 1.1414694786071777, + "learning_rate": 1.8221013333333336e-05, + "loss": 0.0283, + "step": 41695 + }, + { + "epoch": 0.26688, + "grad_norm": 1.1661641597747803, + "learning_rate": 1.82208e-05, + "loss": 0.0514, + "step": 41700 + }, + { + "epoch": 0.266912, + "grad_norm": 0.343068391084671, + "learning_rate": 1.8220586666666668e-05, + "loss": 0.0338, + "step": 41705 + }, + { + "epoch": 0.266944, + "grad_norm": 0.9357048273086548, + "learning_rate": 1.8220373333333335e-05, + "loss": 0.0543, + "step": 41710 + }, + { + "epoch": 0.266976, + "grad_norm": 0.3234786093235016, + "learning_rate": 1.8220160000000003e-05, + "loss": 0.0448, + "step": 41715 + }, + { + "epoch": 0.267008, + "grad_norm": 1.1373693943023682, + "learning_rate": 1.8219946666666667e-05, + "loss": 0.039, + "step": 41720 + }, + { + "epoch": 0.26704, + "grad_norm": 0.8527905344963074, + "learning_rate": 1.8219733333333334e-05, + "loss": 0.0604, + "step": 41725 + }, + { + "epoch": 0.267072, + "grad_norm": 0.6351599097251892, + "learning_rate": 1.8219520000000002e-05, + "loss": 0.0719, + "step": 41730 + }, + { + "epoch": 0.267104, + "grad_norm": 0.6559977531433105, + "learning_rate": 1.8219306666666666e-05, + "loss": 0.0382, + "step": 41735 + }, + { + "epoch": 0.267136, + "grad_norm": 0.8287721872329712, + "learning_rate": 1.8219093333333334e-05, + "loss": 0.0342, + "step": 41740 + }, + { + "epoch": 0.267168, + "grad_norm": 0.890163242816925, + "learning_rate": 1.821888e-05, + "loss": 0.0525, + "step": 41745 + }, + { + "epoch": 0.2672, + "grad_norm": 1.5436949729919434, + "learning_rate": 1.821866666666667e-05, + "loss": 0.0529, + "step": 41750 + }, + { + "epoch": 0.267232, + "grad_norm": 0.9542995691299438, + "learning_rate": 1.8218453333333333e-05, + "loss": 0.0857, + "step": 41755 + }, + { + "epoch": 0.267264, + "grad_norm": 1.3762377500534058, + "learning_rate": 1.8218240000000004e-05, + "loss": 0.064, + "step": 41760 + }, + { + "epoch": 0.267296, + "grad_norm": 0.4508879482746124, + "learning_rate": 1.8218026666666668e-05, + "loss": 0.0381, + "step": 41765 + }, + { + "epoch": 0.267328, + "grad_norm": 0.5258904099464417, + "learning_rate": 1.8217813333333336e-05, + "loss": 0.0544, + "step": 41770 + }, + { + "epoch": 0.26736, + "grad_norm": 0.3772485852241516, + "learning_rate": 1.8217600000000003e-05, + "loss": 0.038, + "step": 41775 + }, + { + "epoch": 0.267392, + "grad_norm": 0.4681968688964844, + "learning_rate": 1.8217386666666667e-05, + "loss": 0.0381, + "step": 41780 + }, + { + "epoch": 0.267424, + "grad_norm": 0.9458236694335938, + "learning_rate": 1.8217173333333335e-05, + "loss": 0.0476, + "step": 41785 + }, + { + "epoch": 0.267456, + "grad_norm": 0.8049666285514832, + "learning_rate": 1.8216960000000003e-05, + "loss": 0.0534, + "step": 41790 + }, + { + "epoch": 0.267488, + "grad_norm": 0.7816535830497742, + "learning_rate": 1.821674666666667e-05, + "loss": 0.0395, + "step": 41795 + }, + { + "epoch": 0.26752, + "grad_norm": 0.5369452238082886, + "learning_rate": 1.8216533333333334e-05, + "loss": 0.0548, + "step": 41800 + }, + { + "epoch": 0.267552, + "grad_norm": 0.5558534860610962, + "learning_rate": 1.8216320000000002e-05, + "loss": 0.044, + "step": 41805 + }, + { + "epoch": 0.267584, + "grad_norm": 0.7518385052680969, + "learning_rate": 1.821610666666667e-05, + "loss": 0.053, + "step": 41810 + }, + { + "epoch": 0.267616, + "grad_norm": 1.0154829025268555, + "learning_rate": 1.8215893333333334e-05, + "loss": 0.0582, + "step": 41815 + }, + { + "epoch": 0.267648, + "grad_norm": 1.1350038051605225, + "learning_rate": 1.821568e-05, + "loss": 0.0577, + "step": 41820 + }, + { + "epoch": 0.26768, + "grad_norm": 0.10323923826217651, + "learning_rate": 1.821546666666667e-05, + "loss": 0.0326, + "step": 41825 + }, + { + "epoch": 0.267712, + "grad_norm": 0.6199421882629395, + "learning_rate": 1.8215253333333336e-05, + "loss": 0.0346, + "step": 41830 + }, + { + "epoch": 0.267744, + "grad_norm": 1.1886234283447266, + "learning_rate": 1.821504e-05, + "loss": 0.0408, + "step": 41835 + }, + { + "epoch": 0.267776, + "grad_norm": 0.4701620936393738, + "learning_rate": 1.8214826666666668e-05, + "loss": 0.0375, + "step": 41840 + }, + { + "epoch": 0.267808, + "grad_norm": 0.7405332326889038, + "learning_rate": 1.8214613333333335e-05, + "loss": 0.0654, + "step": 41845 + }, + { + "epoch": 0.26784, + "grad_norm": 0.5219171047210693, + "learning_rate": 1.82144e-05, + "loss": 0.0543, + "step": 41850 + }, + { + "epoch": 0.267872, + "grad_norm": 0.569060742855072, + "learning_rate": 1.821418666666667e-05, + "loss": 0.0446, + "step": 41855 + }, + { + "epoch": 0.267904, + "grad_norm": 0.4839307367801666, + "learning_rate": 1.8213973333333335e-05, + "loss": 0.0584, + "step": 41860 + }, + { + "epoch": 0.267936, + "grad_norm": 0.3446430563926697, + "learning_rate": 1.8213760000000002e-05, + "loss": 0.0415, + "step": 41865 + }, + { + "epoch": 0.267968, + "grad_norm": 0.6541970372200012, + "learning_rate": 1.821354666666667e-05, + "loss": 0.0548, + "step": 41870 + }, + { + "epoch": 0.268, + "grad_norm": 0.9787664413452148, + "learning_rate": 1.8213333333333334e-05, + "loss": 0.0339, + "step": 41875 + }, + { + "epoch": 0.268032, + "grad_norm": 1.0680335760116577, + "learning_rate": 1.821312e-05, + "loss": 0.0658, + "step": 41880 + }, + { + "epoch": 0.268064, + "grad_norm": 2.93668270111084, + "learning_rate": 1.821290666666667e-05, + "loss": 0.042, + "step": 41885 + }, + { + "epoch": 0.268096, + "grad_norm": 0.3337536156177521, + "learning_rate": 1.8212693333333337e-05, + "loss": 0.0317, + "step": 41890 + }, + { + "epoch": 0.268128, + "grad_norm": 0.826217770576477, + "learning_rate": 1.821248e-05, + "loss": 0.0681, + "step": 41895 + }, + { + "epoch": 0.26816, + "grad_norm": 1.1366982460021973, + "learning_rate": 1.821226666666667e-05, + "loss": 0.0333, + "step": 41900 + }, + { + "epoch": 0.268192, + "grad_norm": 0.5880082845687866, + "learning_rate": 1.8212053333333336e-05, + "loss": 0.0426, + "step": 41905 + }, + { + "epoch": 0.268224, + "grad_norm": 1.0987615585327148, + "learning_rate": 1.821184e-05, + "loss": 0.091, + "step": 41910 + }, + { + "epoch": 0.268256, + "grad_norm": 0.6610952615737915, + "learning_rate": 1.8211626666666668e-05, + "loss": 0.059, + "step": 41915 + }, + { + "epoch": 0.268288, + "grad_norm": 1.0789213180541992, + "learning_rate": 1.8211413333333335e-05, + "loss": 0.0621, + "step": 41920 + }, + { + "epoch": 0.26832, + "grad_norm": 1.0031877756118774, + "learning_rate": 1.8211200000000003e-05, + "loss": 0.0657, + "step": 41925 + }, + { + "epoch": 0.268352, + "grad_norm": 0.1897914856672287, + "learning_rate": 1.8210986666666667e-05, + "loss": 0.0628, + "step": 41930 + }, + { + "epoch": 0.268384, + "grad_norm": 1.4806978702545166, + "learning_rate": 1.8210773333333334e-05, + "loss": 0.0459, + "step": 41935 + }, + { + "epoch": 0.268416, + "grad_norm": 0.659965991973877, + "learning_rate": 1.8210560000000002e-05, + "loss": 0.059, + "step": 41940 + }, + { + "epoch": 0.268448, + "grad_norm": 0.5062994360923767, + "learning_rate": 1.8210346666666666e-05, + "loss": 0.0603, + "step": 41945 + }, + { + "epoch": 0.26848, + "grad_norm": 0.23899288475513458, + "learning_rate": 1.8210133333333334e-05, + "loss": 0.0373, + "step": 41950 + }, + { + "epoch": 0.268512, + "grad_norm": 0.24763526022434235, + "learning_rate": 1.820992e-05, + "loss": 0.0516, + "step": 41955 + }, + { + "epoch": 0.268544, + "grad_norm": 1.6503713130950928, + "learning_rate": 1.820970666666667e-05, + "loss": 0.0447, + "step": 41960 + }, + { + "epoch": 0.268576, + "grad_norm": 0.7625502347946167, + "learning_rate": 1.8209493333333333e-05, + "loss": 0.0567, + "step": 41965 + }, + { + "epoch": 0.268608, + "grad_norm": 0.5595636367797852, + "learning_rate": 1.8209280000000004e-05, + "loss": 0.0604, + "step": 41970 + }, + { + "epoch": 0.26864, + "grad_norm": 0.9012465476989746, + "learning_rate": 1.8209066666666668e-05, + "loss": 0.0355, + "step": 41975 + }, + { + "epoch": 0.268672, + "grad_norm": 0.3373135030269623, + "learning_rate": 1.8208853333333332e-05, + "loss": 0.036, + "step": 41980 + }, + { + "epoch": 0.268704, + "grad_norm": 0.6814948916435242, + "learning_rate": 1.8208640000000003e-05, + "loss": 0.0447, + "step": 41985 + }, + { + "epoch": 0.268736, + "grad_norm": 0.6401057243347168, + "learning_rate": 1.8208426666666667e-05, + "loss": 0.0602, + "step": 41990 + }, + { + "epoch": 0.268768, + "grad_norm": 0.6696997284889221, + "learning_rate": 1.8208213333333335e-05, + "loss": 0.0718, + "step": 41995 + }, + { + "epoch": 0.2688, + "grad_norm": 0.625413179397583, + "learning_rate": 1.8208000000000003e-05, + "loss": 0.0479, + "step": 42000 + }, + { + "epoch": 0.268832, + "grad_norm": 1.2454991340637207, + "learning_rate": 1.820778666666667e-05, + "loss": 0.0547, + "step": 42005 + }, + { + "epoch": 0.268864, + "grad_norm": 1.0312280654907227, + "learning_rate": 1.8207573333333334e-05, + "loss": 0.0606, + "step": 42010 + }, + { + "epoch": 0.268896, + "grad_norm": 0.6385096907615662, + "learning_rate": 1.8207360000000002e-05, + "loss": 0.0547, + "step": 42015 + }, + { + "epoch": 0.268928, + "grad_norm": 0.8002830743789673, + "learning_rate": 1.820714666666667e-05, + "loss": 0.0516, + "step": 42020 + }, + { + "epoch": 0.26896, + "grad_norm": 0.3914698362350464, + "learning_rate": 1.8206933333333334e-05, + "loss": 0.0484, + "step": 42025 + }, + { + "epoch": 0.268992, + "grad_norm": 1.4755252599716187, + "learning_rate": 1.820672e-05, + "loss": 0.0493, + "step": 42030 + }, + { + "epoch": 0.269024, + "grad_norm": 0.39614611864089966, + "learning_rate": 1.820650666666667e-05, + "loss": 0.0503, + "step": 42035 + }, + { + "epoch": 0.269056, + "grad_norm": 0.5300782918930054, + "learning_rate": 1.8206293333333336e-05, + "loss": 0.037, + "step": 42040 + }, + { + "epoch": 0.269088, + "grad_norm": 0.48108741641044617, + "learning_rate": 1.820608e-05, + "loss": 0.062, + "step": 42045 + }, + { + "epoch": 0.26912, + "grad_norm": 2.0770750045776367, + "learning_rate": 1.8205866666666668e-05, + "loss": 0.0369, + "step": 42050 + }, + { + "epoch": 0.269152, + "grad_norm": 1.1001007556915283, + "learning_rate": 1.8205653333333335e-05, + "loss": 0.034, + "step": 42055 + }, + { + "epoch": 0.269184, + "grad_norm": 0.7706366181373596, + "learning_rate": 1.820544e-05, + "loss": 0.059, + "step": 42060 + }, + { + "epoch": 0.269216, + "grad_norm": 0.7288941144943237, + "learning_rate": 1.8205226666666667e-05, + "loss": 0.0486, + "step": 42065 + }, + { + "epoch": 0.269248, + "grad_norm": 1.0382312536239624, + "learning_rate": 1.8205013333333335e-05, + "loss": 0.0389, + "step": 42070 + }, + { + "epoch": 0.26928, + "grad_norm": 4.250786781311035, + "learning_rate": 1.8204800000000002e-05, + "loss": 0.0673, + "step": 42075 + }, + { + "epoch": 0.269312, + "grad_norm": 0.6293043494224548, + "learning_rate": 1.820458666666667e-05, + "loss": 0.0382, + "step": 42080 + }, + { + "epoch": 0.269344, + "grad_norm": 0.5440407991409302, + "learning_rate": 1.8204373333333334e-05, + "loss": 0.0415, + "step": 42085 + }, + { + "epoch": 0.269376, + "grad_norm": 0.5975745320320129, + "learning_rate": 1.820416e-05, + "loss": 0.0392, + "step": 42090 + }, + { + "epoch": 0.269408, + "grad_norm": 1.091627836227417, + "learning_rate": 1.820394666666667e-05, + "loss": 0.0818, + "step": 42095 + }, + { + "epoch": 0.26944, + "grad_norm": 0.6525999903678894, + "learning_rate": 1.8203733333333337e-05, + "loss": 0.0707, + "step": 42100 + }, + { + "epoch": 0.269472, + "grad_norm": 1.1061546802520752, + "learning_rate": 1.820352e-05, + "loss": 0.0946, + "step": 42105 + }, + { + "epoch": 0.269504, + "grad_norm": 0.859523355960846, + "learning_rate": 1.820330666666667e-05, + "loss": 0.0371, + "step": 42110 + }, + { + "epoch": 0.269536, + "grad_norm": 0.8463276028633118, + "learning_rate": 1.8203093333333336e-05, + "loss": 0.0539, + "step": 42115 + }, + { + "epoch": 0.269568, + "grad_norm": 0.44813114404678345, + "learning_rate": 1.820288e-05, + "loss": 0.0372, + "step": 42120 + }, + { + "epoch": 0.2696, + "grad_norm": 0.13705870509147644, + "learning_rate": 1.8202666666666668e-05, + "loss": 0.043, + "step": 42125 + }, + { + "epoch": 0.269632, + "grad_norm": 2.872966766357422, + "learning_rate": 1.8202453333333335e-05, + "loss": 0.0338, + "step": 42130 + }, + { + "epoch": 0.269664, + "grad_norm": 0.5708380341529846, + "learning_rate": 1.8202240000000003e-05, + "loss": 0.0608, + "step": 42135 + }, + { + "epoch": 0.269696, + "grad_norm": 1.840254545211792, + "learning_rate": 1.8202026666666667e-05, + "loss": 0.0536, + "step": 42140 + }, + { + "epoch": 0.269728, + "grad_norm": 0.6841657161712646, + "learning_rate": 1.8201813333333334e-05, + "loss": 0.0383, + "step": 42145 + }, + { + "epoch": 0.26976, + "grad_norm": 0.7335231900215149, + "learning_rate": 1.8201600000000002e-05, + "loss": 0.0321, + "step": 42150 + }, + { + "epoch": 0.269792, + "grad_norm": 0.7552627921104431, + "learning_rate": 1.8201386666666666e-05, + "loss": 0.0417, + "step": 42155 + }, + { + "epoch": 0.269824, + "grad_norm": 0.7919160723686218, + "learning_rate": 1.8201173333333334e-05, + "loss": 0.0577, + "step": 42160 + }, + { + "epoch": 0.269856, + "grad_norm": 0.8542550802230835, + "learning_rate": 1.820096e-05, + "loss": 0.0485, + "step": 42165 + }, + { + "epoch": 0.269888, + "grad_norm": 0.4575556516647339, + "learning_rate": 1.820074666666667e-05, + "loss": 0.0409, + "step": 42170 + }, + { + "epoch": 0.26992, + "grad_norm": 0.5008904933929443, + "learning_rate": 1.8200533333333333e-05, + "loss": 0.0459, + "step": 42175 + }, + { + "epoch": 0.269952, + "grad_norm": 10.003090858459473, + "learning_rate": 1.8200320000000004e-05, + "loss": 0.0646, + "step": 42180 + }, + { + "epoch": 0.269984, + "grad_norm": 0.8622663617134094, + "learning_rate": 1.8200106666666668e-05, + "loss": 0.0743, + "step": 42185 + }, + { + "epoch": 0.270016, + "grad_norm": 0.30678609013557434, + "learning_rate": 1.8199893333333332e-05, + "loss": 0.0532, + "step": 42190 + }, + { + "epoch": 0.270048, + "grad_norm": 0.6035606265068054, + "learning_rate": 1.8199680000000003e-05, + "loss": 0.0439, + "step": 42195 + }, + { + "epoch": 0.27008, + "grad_norm": 0.47350749373435974, + "learning_rate": 1.8199466666666667e-05, + "loss": 0.0404, + "step": 42200 + }, + { + "epoch": 0.270112, + "grad_norm": 0.9693645238876343, + "learning_rate": 1.8199253333333335e-05, + "loss": 0.0341, + "step": 42205 + }, + { + "epoch": 0.270144, + "grad_norm": 0.8593382835388184, + "learning_rate": 1.8199040000000003e-05, + "loss": 0.0535, + "step": 42210 + }, + { + "epoch": 0.270176, + "grad_norm": 0.5664457678794861, + "learning_rate": 1.819882666666667e-05, + "loss": 0.0419, + "step": 42215 + }, + { + "epoch": 0.270208, + "grad_norm": 0.44990259408950806, + "learning_rate": 1.8198613333333334e-05, + "loss": 0.0426, + "step": 42220 + }, + { + "epoch": 0.27024, + "grad_norm": 0.63167804479599, + "learning_rate": 1.8198400000000002e-05, + "loss": 0.0531, + "step": 42225 + }, + { + "epoch": 0.270272, + "grad_norm": 0.7080096006393433, + "learning_rate": 1.819818666666667e-05, + "loss": 0.0555, + "step": 42230 + }, + { + "epoch": 0.270304, + "grad_norm": 1.440708041191101, + "learning_rate": 1.8197973333333334e-05, + "loss": 0.0478, + "step": 42235 + }, + { + "epoch": 0.270336, + "grad_norm": 0.6570239663124084, + "learning_rate": 1.819776e-05, + "loss": 0.0519, + "step": 42240 + }, + { + "epoch": 0.270368, + "grad_norm": 0.6779561042785645, + "learning_rate": 1.819754666666667e-05, + "loss": 0.0506, + "step": 42245 + }, + { + "epoch": 0.2704, + "grad_norm": 1.2470334768295288, + "learning_rate": 1.8197333333333336e-05, + "loss": 0.0453, + "step": 42250 + }, + { + "epoch": 0.270432, + "grad_norm": 0.6525710821151733, + "learning_rate": 1.819712e-05, + "loss": 0.0784, + "step": 42255 + }, + { + "epoch": 0.270464, + "grad_norm": 1.0469319820404053, + "learning_rate": 1.8196906666666668e-05, + "loss": 0.0713, + "step": 42260 + }, + { + "epoch": 0.270496, + "grad_norm": 0.6351831555366516, + "learning_rate": 1.8196693333333335e-05, + "loss": 0.0614, + "step": 42265 + }, + { + "epoch": 0.270528, + "grad_norm": 1.9033703804016113, + "learning_rate": 1.819648e-05, + "loss": 0.0533, + "step": 42270 + }, + { + "epoch": 0.27056, + "grad_norm": 0.7787255644798279, + "learning_rate": 1.8196266666666667e-05, + "loss": 0.0427, + "step": 42275 + }, + { + "epoch": 0.270592, + "grad_norm": 0.10439366847276688, + "learning_rate": 1.8196053333333335e-05, + "loss": 0.055, + "step": 42280 + }, + { + "epoch": 0.270624, + "grad_norm": 0.7088556885719299, + "learning_rate": 1.8195840000000002e-05, + "loss": 0.035, + "step": 42285 + }, + { + "epoch": 0.270656, + "grad_norm": 0.8209266662597656, + "learning_rate": 1.8195626666666666e-05, + "loss": 0.0521, + "step": 42290 + }, + { + "epoch": 0.270688, + "grad_norm": 1.0312986373901367, + "learning_rate": 1.8195413333333334e-05, + "loss": 0.0412, + "step": 42295 + }, + { + "epoch": 0.27072, + "grad_norm": 1.2944191694259644, + "learning_rate": 1.81952e-05, + "loss": 0.041, + "step": 42300 + }, + { + "epoch": 0.270752, + "grad_norm": 0.6378918290138245, + "learning_rate": 1.819498666666667e-05, + "loss": 0.0283, + "step": 42305 + }, + { + "epoch": 0.270784, + "grad_norm": 1.1400485038757324, + "learning_rate": 1.8194773333333337e-05, + "loss": 0.0591, + "step": 42310 + }, + { + "epoch": 0.270816, + "grad_norm": 0.1640125960111618, + "learning_rate": 1.819456e-05, + "loss": 0.0261, + "step": 42315 + }, + { + "epoch": 0.270848, + "grad_norm": 0.48403096199035645, + "learning_rate": 1.819434666666667e-05, + "loss": 0.035, + "step": 42320 + }, + { + "epoch": 0.27088, + "grad_norm": 2.742438316345215, + "learning_rate": 1.8194133333333336e-05, + "loss": 0.0803, + "step": 42325 + }, + { + "epoch": 0.270912, + "grad_norm": 0.699408233165741, + "learning_rate": 1.819392e-05, + "loss": 0.0404, + "step": 42330 + }, + { + "epoch": 0.270944, + "grad_norm": 0.9117031097412109, + "learning_rate": 1.8193706666666668e-05, + "loss": 0.0539, + "step": 42335 + }, + { + "epoch": 0.270976, + "grad_norm": 0.7560949921607971, + "learning_rate": 1.8193493333333335e-05, + "loss": 0.0314, + "step": 42340 + }, + { + "epoch": 0.271008, + "grad_norm": 0.8935176134109497, + "learning_rate": 1.8193280000000003e-05, + "loss": 0.0424, + "step": 42345 + }, + { + "epoch": 0.27104, + "grad_norm": 0.4823809862136841, + "learning_rate": 1.8193066666666667e-05, + "loss": 0.0445, + "step": 42350 + }, + { + "epoch": 0.271072, + "grad_norm": 0.5400367975234985, + "learning_rate": 1.8192853333333334e-05, + "loss": 0.0459, + "step": 42355 + }, + { + "epoch": 0.271104, + "grad_norm": 2.2706055641174316, + "learning_rate": 1.8192640000000002e-05, + "loss": 0.0404, + "step": 42360 + }, + { + "epoch": 0.271136, + "grad_norm": 0.9397267699241638, + "learning_rate": 1.8192426666666666e-05, + "loss": 0.0501, + "step": 42365 + }, + { + "epoch": 0.271168, + "grad_norm": 0.4113491475582123, + "learning_rate": 1.8192213333333334e-05, + "loss": 0.0545, + "step": 42370 + }, + { + "epoch": 0.2712, + "grad_norm": 0.3938351273536682, + "learning_rate": 1.8192e-05, + "loss": 0.039, + "step": 42375 + }, + { + "epoch": 0.271232, + "grad_norm": 0.5352588891983032, + "learning_rate": 1.819178666666667e-05, + "loss": 0.0538, + "step": 42380 + }, + { + "epoch": 0.271264, + "grad_norm": 1.11553955078125, + "learning_rate": 1.8191573333333333e-05, + "loss": 0.0546, + "step": 42385 + }, + { + "epoch": 0.271296, + "grad_norm": 3.302029848098755, + "learning_rate": 1.8191360000000004e-05, + "loss": 0.0622, + "step": 42390 + }, + { + "epoch": 0.271328, + "grad_norm": 0.7075603604316711, + "learning_rate": 1.8191146666666668e-05, + "loss": 0.0508, + "step": 42395 + }, + { + "epoch": 0.27136, + "grad_norm": 0.7468063831329346, + "learning_rate": 1.8190933333333332e-05, + "loss": 0.0284, + "step": 42400 + }, + { + "epoch": 0.271392, + "grad_norm": 1.2345492839813232, + "learning_rate": 1.8190720000000003e-05, + "loss": 0.0505, + "step": 42405 + }, + { + "epoch": 0.271424, + "grad_norm": 2.039109468460083, + "learning_rate": 1.8190506666666667e-05, + "loss": 0.0504, + "step": 42410 + }, + { + "epoch": 0.271456, + "grad_norm": 0.48494771122932434, + "learning_rate": 1.8190293333333335e-05, + "loss": 0.0543, + "step": 42415 + }, + { + "epoch": 0.271488, + "grad_norm": 0.45233991742134094, + "learning_rate": 1.8190080000000003e-05, + "loss": 0.0323, + "step": 42420 + }, + { + "epoch": 0.27152, + "grad_norm": 2.8671774864196777, + "learning_rate": 1.818986666666667e-05, + "loss": 0.1385, + "step": 42425 + }, + { + "epoch": 0.271552, + "grad_norm": 0.32882678508758545, + "learning_rate": 1.8189653333333334e-05, + "loss": 0.0262, + "step": 42430 + }, + { + "epoch": 0.271584, + "grad_norm": 0.7111918926239014, + "learning_rate": 1.8189440000000002e-05, + "loss": 0.0361, + "step": 42435 + }, + { + "epoch": 0.271616, + "grad_norm": 0.678650975227356, + "learning_rate": 1.818922666666667e-05, + "loss": 0.0393, + "step": 42440 + }, + { + "epoch": 0.271648, + "grad_norm": 0.9910246729850769, + "learning_rate": 1.8189013333333334e-05, + "loss": 0.0663, + "step": 42445 + }, + { + "epoch": 0.27168, + "grad_norm": 1.793333649635315, + "learning_rate": 1.81888e-05, + "loss": 0.0552, + "step": 42450 + }, + { + "epoch": 0.271712, + "grad_norm": 0.7051880955696106, + "learning_rate": 1.818858666666667e-05, + "loss": 0.0469, + "step": 42455 + }, + { + "epoch": 0.271744, + "grad_norm": 0.36864086985588074, + "learning_rate": 1.8188373333333336e-05, + "loss": 0.0691, + "step": 42460 + }, + { + "epoch": 0.271776, + "grad_norm": 1.8215426206588745, + "learning_rate": 1.818816e-05, + "loss": 0.0844, + "step": 42465 + }, + { + "epoch": 0.271808, + "grad_norm": 1.2162909507751465, + "learning_rate": 1.8187946666666668e-05, + "loss": 0.0561, + "step": 42470 + }, + { + "epoch": 0.27184, + "grad_norm": 0.7933067083358765, + "learning_rate": 1.8187733333333335e-05, + "loss": 0.0317, + "step": 42475 + }, + { + "epoch": 0.271872, + "grad_norm": 0.3654597997665405, + "learning_rate": 1.818752e-05, + "loss": 0.0429, + "step": 42480 + }, + { + "epoch": 0.271904, + "grad_norm": 0.6767065525054932, + "learning_rate": 1.8187306666666667e-05, + "loss": 0.0488, + "step": 42485 + }, + { + "epoch": 0.271936, + "grad_norm": 0.9875654578208923, + "learning_rate": 1.8187093333333335e-05, + "loss": 0.0467, + "step": 42490 + }, + { + "epoch": 0.271968, + "grad_norm": 0.35731813311576843, + "learning_rate": 1.8186880000000002e-05, + "loss": 0.0614, + "step": 42495 + }, + { + "epoch": 0.272, + "grad_norm": 1.2955678701400757, + "learning_rate": 1.8186666666666666e-05, + "loss": 0.0424, + "step": 42500 + }, + { + "epoch": 0.272032, + "grad_norm": 0.7302002310752869, + "learning_rate": 1.8186453333333334e-05, + "loss": 0.048, + "step": 42505 + }, + { + "epoch": 0.272064, + "grad_norm": 2.6231658458709717, + "learning_rate": 1.818624e-05, + "loss": 0.0685, + "step": 42510 + }, + { + "epoch": 0.272096, + "grad_norm": 1.7928487062454224, + "learning_rate": 1.8186026666666666e-05, + "loss": 0.0504, + "step": 42515 + }, + { + "epoch": 0.272128, + "grad_norm": 0.5230533480644226, + "learning_rate": 1.8185813333333337e-05, + "loss": 0.0423, + "step": 42520 + }, + { + "epoch": 0.27216, + "grad_norm": 0.736273467540741, + "learning_rate": 1.81856e-05, + "loss": 0.0812, + "step": 42525 + }, + { + "epoch": 0.272192, + "grad_norm": 0.902777373790741, + "learning_rate": 1.818538666666667e-05, + "loss": 0.0616, + "step": 42530 + }, + { + "epoch": 0.272224, + "grad_norm": 0.9693489074707031, + "learning_rate": 1.8185173333333336e-05, + "loss": 0.0535, + "step": 42535 + }, + { + "epoch": 0.272256, + "grad_norm": 1.3297220468521118, + "learning_rate": 1.818496e-05, + "loss": 0.0847, + "step": 42540 + }, + { + "epoch": 0.272288, + "grad_norm": 0.8212045431137085, + "learning_rate": 1.8184746666666668e-05, + "loss": 0.0366, + "step": 42545 + }, + { + "epoch": 0.27232, + "grad_norm": 1.1299383640289307, + "learning_rate": 1.8184533333333335e-05, + "loss": 0.0396, + "step": 42550 + }, + { + "epoch": 0.272352, + "grad_norm": 1.760094404220581, + "learning_rate": 1.8184320000000003e-05, + "loss": 0.0398, + "step": 42555 + }, + { + "epoch": 0.272384, + "grad_norm": 0.7546228170394897, + "learning_rate": 1.8184106666666667e-05, + "loss": 0.0386, + "step": 42560 + }, + { + "epoch": 0.272416, + "grad_norm": 0.900318443775177, + "learning_rate": 1.8183893333333335e-05, + "loss": 0.067, + "step": 42565 + }, + { + "epoch": 0.272448, + "grad_norm": 0.7296985387802124, + "learning_rate": 1.8183680000000002e-05, + "loss": 0.073, + "step": 42570 + }, + { + "epoch": 0.27248, + "grad_norm": 0.6294652223587036, + "learning_rate": 1.8183466666666666e-05, + "loss": 0.032, + "step": 42575 + }, + { + "epoch": 0.272512, + "grad_norm": 1.35722017288208, + "learning_rate": 1.8183253333333334e-05, + "loss": 0.0692, + "step": 42580 + }, + { + "epoch": 0.272544, + "grad_norm": 0.8320999145507812, + "learning_rate": 1.818304e-05, + "loss": 0.0303, + "step": 42585 + }, + { + "epoch": 0.272576, + "grad_norm": 0.6045333743095398, + "learning_rate": 1.818282666666667e-05, + "loss": 0.0439, + "step": 42590 + }, + { + "epoch": 0.272608, + "grad_norm": 0.921929121017456, + "learning_rate": 1.8182613333333333e-05, + "loss": 0.07, + "step": 42595 + }, + { + "epoch": 0.27264, + "grad_norm": 0.9054204821586609, + "learning_rate": 1.81824e-05, + "loss": 0.0787, + "step": 42600 + }, + { + "epoch": 0.272672, + "grad_norm": 0.24640309810638428, + "learning_rate": 1.8182186666666668e-05, + "loss": 0.0483, + "step": 42605 + }, + { + "epoch": 0.272704, + "grad_norm": 0.518308699131012, + "learning_rate": 1.8181973333333336e-05, + "loss": 0.0262, + "step": 42610 + }, + { + "epoch": 0.272736, + "grad_norm": 1.017891764640808, + "learning_rate": 1.8181760000000003e-05, + "loss": 0.0468, + "step": 42615 + }, + { + "epoch": 0.272768, + "grad_norm": 0.3886837959289551, + "learning_rate": 1.8181546666666667e-05, + "loss": 0.0669, + "step": 42620 + }, + { + "epoch": 0.2728, + "grad_norm": 0.8255334496498108, + "learning_rate": 1.8181333333333335e-05, + "loss": 0.0544, + "step": 42625 + }, + { + "epoch": 0.272832, + "grad_norm": 1.5172343254089355, + "learning_rate": 1.8181120000000003e-05, + "loss": 0.0372, + "step": 42630 + }, + { + "epoch": 0.272864, + "grad_norm": 0.865689754486084, + "learning_rate": 1.818090666666667e-05, + "loss": 0.0307, + "step": 42635 + }, + { + "epoch": 0.272896, + "grad_norm": 1.4228206872940063, + "learning_rate": 1.8180693333333334e-05, + "loss": 0.0516, + "step": 42640 + }, + { + "epoch": 0.272928, + "grad_norm": 0.26639604568481445, + "learning_rate": 1.8180480000000002e-05, + "loss": 0.0342, + "step": 42645 + }, + { + "epoch": 0.27296, + "grad_norm": 0.44824862480163574, + "learning_rate": 1.818026666666667e-05, + "loss": 0.0522, + "step": 42650 + }, + { + "epoch": 0.272992, + "grad_norm": 1.0261691808700562, + "learning_rate": 1.8180053333333334e-05, + "loss": 0.0347, + "step": 42655 + }, + { + "epoch": 0.273024, + "grad_norm": 0.5918779373168945, + "learning_rate": 1.817984e-05, + "loss": 0.0569, + "step": 42660 + }, + { + "epoch": 0.273056, + "grad_norm": 0.8859594464302063, + "learning_rate": 1.817962666666667e-05, + "loss": 0.0856, + "step": 42665 + }, + { + "epoch": 0.273088, + "grad_norm": 0.5689077973365784, + "learning_rate": 1.8179413333333336e-05, + "loss": 0.0475, + "step": 42670 + }, + { + "epoch": 0.27312, + "grad_norm": 0.6434427499771118, + "learning_rate": 1.81792e-05, + "loss": 0.0709, + "step": 42675 + }, + { + "epoch": 0.273152, + "grad_norm": 1.1853642463684082, + "learning_rate": 1.8178986666666668e-05, + "loss": 0.0449, + "step": 42680 + }, + { + "epoch": 0.273184, + "grad_norm": 0.32686468958854675, + "learning_rate": 1.8178773333333335e-05, + "loss": 0.0624, + "step": 42685 + }, + { + "epoch": 0.273216, + "grad_norm": 0.7096461057662964, + "learning_rate": 1.817856e-05, + "loss": 0.0352, + "step": 42690 + }, + { + "epoch": 0.273248, + "grad_norm": 0.3760336637496948, + "learning_rate": 1.8178346666666667e-05, + "loss": 0.0574, + "step": 42695 + }, + { + "epoch": 0.27328, + "grad_norm": 1.7093260288238525, + "learning_rate": 1.8178133333333335e-05, + "loss": 0.0676, + "step": 42700 + }, + { + "epoch": 0.273312, + "grad_norm": 0.4782593250274658, + "learning_rate": 1.8177920000000002e-05, + "loss": 0.0365, + "step": 42705 + }, + { + "epoch": 0.273344, + "grad_norm": 0.4323544204235077, + "learning_rate": 1.8177706666666666e-05, + "loss": 0.0654, + "step": 42710 + }, + { + "epoch": 0.273376, + "grad_norm": 1.1725462675094604, + "learning_rate": 1.8177493333333337e-05, + "loss": 0.063, + "step": 42715 + }, + { + "epoch": 0.273408, + "grad_norm": 0.7560043334960938, + "learning_rate": 1.817728e-05, + "loss": 0.057, + "step": 42720 + }, + { + "epoch": 0.27344, + "grad_norm": 0.37429842352867126, + "learning_rate": 1.8177066666666666e-05, + "loss": 0.0255, + "step": 42725 + }, + { + "epoch": 0.273472, + "grad_norm": 1.0722248554229736, + "learning_rate": 1.8176853333333337e-05, + "loss": 0.0304, + "step": 42730 + }, + { + "epoch": 0.273504, + "grad_norm": 0.8406952023506165, + "learning_rate": 1.817664e-05, + "loss": 0.0505, + "step": 42735 + }, + { + "epoch": 0.273536, + "grad_norm": 0.5228822827339172, + "learning_rate": 1.817642666666667e-05, + "loss": 0.0428, + "step": 42740 + }, + { + "epoch": 0.273568, + "grad_norm": 1.4816679954528809, + "learning_rate": 1.8176213333333336e-05, + "loss": 0.06, + "step": 42745 + }, + { + "epoch": 0.2736, + "grad_norm": 0.6780311465263367, + "learning_rate": 1.8176000000000004e-05, + "loss": 0.0436, + "step": 42750 + }, + { + "epoch": 0.273632, + "grad_norm": 0.3765747547149658, + "learning_rate": 1.8175786666666668e-05, + "loss": 0.0299, + "step": 42755 + }, + { + "epoch": 0.273664, + "grad_norm": 0.7245537042617798, + "learning_rate": 1.8175573333333335e-05, + "loss": 0.0492, + "step": 42760 + }, + { + "epoch": 0.273696, + "grad_norm": 0.7632403373718262, + "learning_rate": 1.8175360000000003e-05, + "loss": 0.0467, + "step": 42765 + }, + { + "epoch": 0.273728, + "grad_norm": 2.2446296215057373, + "learning_rate": 1.8175146666666667e-05, + "loss": 0.0781, + "step": 42770 + }, + { + "epoch": 0.27376, + "grad_norm": 0.5517950057983398, + "learning_rate": 1.8174933333333335e-05, + "loss": 0.0599, + "step": 42775 + }, + { + "epoch": 0.273792, + "grad_norm": 0.7139872908592224, + "learning_rate": 1.8174720000000002e-05, + "loss": 0.0361, + "step": 42780 + }, + { + "epoch": 0.273824, + "grad_norm": 3.271238088607788, + "learning_rate": 1.817450666666667e-05, + "loss": 0.0524, + "step": 42785 + }, + { + "epoch": 0.273856, + "grad_norm": 1.1247050762176514, + "learning_rate": 1.8174293333333334e-05, + "loss": 0.0377, + "step": 42790 + }, + { + "epoch": 0.273888, + "grad_norm": 1.3239662647247314, + "learning_rate": 1.817408e-05, + "loss": 0.077, + "step": 42795 + }, + { + "epoch": 0.27392, + "grad_norm": 0.5514082908630371, + "learning_rate": 1.817386666666667e-05, + "loss": 0.0813, + "step": 42800 + }, + { + "epoch": 0.273952, + "grad_norm": 0.597669243812561, + "learning_rate": 1.8173653333333333e-05, + "loss": 0.054, + "step": 42805 + }, + { + "epoch": 0.273984, + "grad_norm": 1.0444811582565308, + "learning_rate": 1.817344e-05, + "loss": 0.0563, + "step": 42810 + }, + { + "epoch": 0.274016, + "grad_norm": 0.8232992887496948, + "learning_rate": 1.8173226666666668e-05, + "loss": 0.0429, + "step": 42815 + }, + { + "epoch": 0.274048, + "grad_norm": 1.0103150606155396, + "learning_rate": 1.8173013333333336e-05, + "loss": 0.0576, + "step": 42820 + }, + { + "epoch": 0.27408, + "grad_norm": 0.855168879032135, + "learning_rate": 1.81728e-05, + "loss": 0.0707, + "step": 42825 + }, + { + "epoch": 0.274112, + "grad_norm": 0.9150325655937195, + "learning_rate": 1.8172586666666667e-05, + "loss": 0.0618, + "step": 42830 + }, + { + "epoch": 0.274144, + "grad_norm": 1.1663782596588135, + "learning_rate": 1.8172373333333335e-05, + "loss": 0.053, + "step": 42835 + }, + { + "epoch": 0.274176, + "grad_norm": 0.3226112723350525, + "learning_rate": 1.8172160000000003e-05, + "loss": 0.0552, + "step": 42840 + }, + { + "epoch": 0.274208, + "grad_norm": 0.4871733784675598, + "learning_rate": 1.817194666666667e-05, + "loss": 0.0443, + "step": 42845 + }, + { + "epoch": 0.27424, + "grad_norm": 1.033108115196228, + "learning_rate": 1.8171733333333334e-05, + "loss": 0.06, + "step": 42850 + }, + { + "epoch": 0.274272, + "grad_norm": 0.5913012623786926, + "learning_rate": 1.8171520000000002e-05, + "loss": 0.036, + "step": 42855 + }, + { + "epoch": 0.274304, + "grad_norm": 1.040204405784607, + "learning_rate": 1.817130666666667e-05, + "loss": 0.0461, + "step": 42860 + }, + { + "epoch": 0.274336, + "grad_norm": 0.8464316725730896, + "learning_rate": 1.8171093333333334e-05, + "loss": 0.0364, + "step": 42865 + }, + { + "epoch": 0.274368, + "grad_norm": 0.7857195734977722, + "learning_rate": 1.817088e-05, + "loss": 0.0369, + "step": 42870 + }, + { + "epoch": 0.2744, + "grad_norm": 0.3733220398426056, + "learning_rate": 1.817066666666667e-05, + "loss": 0.0349, + "step": 42875 + }, + { + "epoch": 0.274432, + "grad_norm": 1.0459154844284058, + "learning_rate": 1.8170453333333336e-05, + "loss": 0.0785, + "step": 42880 + }, + { + "epoch": 0.274464, + "grad_norm": 0.7886748909950256, + "learning_rate": 1.817024e-05, + "loss": 0.0698, + "step": 42885 + }, + { + "epoch": 0.274496, + "grad_norm": 0.2886821925640106, + "learning_rate": 1.8170026666666668e-05, + "loss": 0.048, + "step": 42890 + }, + { + "epoch": 0.274528, + "grad_norm": 0.46526429057121277, + "learning_rate": 1.8169813333333335e-05, + "loss": 0.0515, + "step": 42895 + }, + { + "epoch": 0.27456, + "grad_norm": 0.4194965064525604, + "learning_rate": 1.81696e-05, + "loss": 0.0367, + "step": 42900 + }, + { + "epoch": 0.274592, + "grad_norm": 3.213627338409424, + "learning_rate": 1.8169386666666667e-05, + "loss": 0.0415, + "step": 42905 + }, + { + "epoch": 0.274624, + "grad_norm": 0.7012135982513428, + "learning_rate": 1.8169173333333335e-05, + "loss": 0.0426, + "step": 42910 + }, + { + "epoch": 0.274656, + "grad_norm": 0.9040088653564453, + "learning_rate": 1.8168960000000002e-05, + "loss": 0.0314, + "step": 42915 + }, + { + "epoch": 0.274688, + "grad_norm": 0.38460850715637207, + "learning_rate": 1.8168746666666666e-05, + "loss": 0.0653, + "step": 42920 + }, + { + "epoch": 0.27472, + "grad_norm": 0.6822468042373657, + "learning_rate": 1.8168533333333337e-05, + "loss": 0.0488, + "step": 42925 + }, + { + "epoch": 0.274752, + "grad_norm": 0.8482620716094971, + "learning_rate": 1.816832e-05, + "loss": 0.0624, + "step": 42930 + }, + { + "epoch": 0.274784, + "grad_norm": 1.0943070650100708, + "learning_rate": 1.8168106666666666e-05, + "loss": 0.0596, + "step": 42935 + }, + { + "epoch": 0.274816, + "grad_norm": 0.4444594383239746, + "learning_rate": 1.8167893333333337e-05, + "loss": 0.0257, + "step": 42940 + }, + { + "epoch": 0.274848, + "grad_norm": 0.5767887234687805, + "learning_rate": 1.816768e-05, + "loss": 0.0416, + "step": 42945 + }, + { + "epoch": 0.27488, + "grad_norm": 1.3752247095108032, + "learning_rate": 1.816746666666667e-05, + "loss": 0.0515, + "step": 42950 + }, + { + "epoch": 0.274912, + "grad_norm": 0.6155894994735718, + "learning_rate": 1.8167253333333336e-05, + "loss": 0.0416, + "step": 42955 + }, + { + "epoch": 0.274944, + "grad_norm": 1.304932951927185, + "learning_rate": 1.8167040000000004e-05, + "loss": 0.0537, + "step": 42960 + }, + { + "epoch": 0.274976, + "grad_norm": 0.9587770700454712, + "learning_rate": 1.8166826666666668e-05, + "loss": 0.0551, + "step": 42965 + }, + { + "epoch": 0.275008, + "grad_norm": 0.6197547912597656, + "learning_rate": 1.8166613333333335e-05, + "loss": 0.0494, + "step": 42970 + }, + { + "epoch": 0.27504, + "grad_norm": 0.48565730452537537, + "learning_rate": 1.8166400000000003e-05, + "loss": 0.0394, + "step": 42975 + }, + { + "epoch": 0.275072, + "grad_norm": 0.8843490481376648, + "learning_rate": 1.8166186666666667e-05, + "loss": 0.0609, + "step": 42980 + }, + { + "epoch": 0.275104, + "grad_norm": 0.9129186272621155, + "learning_rate": 1.8165973333333335e-05, + "loss": 0.0543, + "step": 42985 + }, + { + "epoch": 0.275136, + "grad_norm": 1.5683706998825073, + "learning_rate": 1.8165760000000002e-05, + "loss": 0.0913, + "step": 42990 + }, + { + "epoch": 0.275168, + "grad_norm": 1.0628472566604614, + "learning_rate": 1.816554666666667e-05, + "loss": 0.0537, + "step": 42995 + }, + { + "epoch": 0.2752, + "grad_norm": 0.7091201543807983, + "learning_rate": 1.8165333333333334e-05, + "loss": 0.0394, + "step": 43000 + }, + { + "epoch": 0.275232, + "grad_norm": 0.8185727596282959, + "learning_rate": 1.816512e-05, + "loss": 0.0434, + "step": 43005 + }, + { + "epoch": 0.275264, + "grad_norm": 0.7710232138633728, + "learning_rate": 1.816490666666667e-05, + "loss": 0.0422, + "step": 43010 + }, + { + "epoch": 0.275296, + "grad_norm": 0.7978144884109497, + "learning_rate": 1.8164693333333333e-05, + "loss": 0.0363, + "step": 43015 + }, + { + "epoch": 0.275328, + "grad_norm": 0.41964855790138245, + "learning_rate": 1.816448e-05, + "loss": 0.0376, + "step": 43020 + }, + { + "epoch": 0.27536, + "grad_norm": 0.5100238919258118, + "learning_rate": 1.8164266666666668e-05, + "loss": 0.0308, + "step": 43025 + }, + { + "epoch": 0.275392, + "grad_norm": 1.0574883222579956, + "learning_rate": 1.8164053333333336e-05, + "loss": 0.0488, + "step": 43030 + }, + { + "epoch": 0.275424, + "grad_norm": 0.7972544431686401, + "learning_rate": 1.816384e-05, + "loss": 0.0595, + "step": 43035 + }, + { + "epoch": 0.275456, + "grad_norm": 0.5904451012611389, + "learning_rate": 1.8163626666666667e-05, + "loss": 0.0251, + "step": 43040 + }, + { + "epoch": 0.275488, + "grad_norm": 0.882749617099762, + "learning_rate": 1.8163413333333335e-05, + "loss": 0.0382, + "step": 43045 + }, + { + "epoch": 0.27552, + "grad_norm": 0.33243465423583984, + "learning_rate": 1.81632e-05, + "loss": 0.0598, + "step": 43050 + }, + { + "epoch": 0.275552, + "grad_norm": 0.666267991065979, + "learning_rate": 1.816298666666667e-05, + "loss": 0.0338, + "step": 43055 + }, + { + "epoch": 0.275584, + "grad_norm": 1.3738645315170288, + "learning_rate": 1.8162773333333334e-05, + "loss": 0.036, + "step": 43060 + }, + { + "epoch": 0.275616, + "grad_norm": 0.38387227058410645, + "learning_rate": 1.8162560000000002e-05, + "loss": 0.0442, + "step": 43065 + }, + { + "epoch": 0.275648, + "grad_norm": 0.5004956126213074, + "learning_rate": 1.816234666666667e-05, + "loss": 0.0489, + "step": 43070 + }, + { + "epoch": 0.27568, + "grad_norm": 1.8183518648147583, + "learning_rate": 1.8162133333333334e-05, + "loss": 0.0935, + "step": 43075 + }, + { + "epoch": 0.275712, + "grad_norm": 1.119084119796753, + "learning_rate": 1.816192e-05, + "loss": 0.0632, + "step": 43080 + }, + { + "epoch": 0.275744, + "grad_norm": 0.6477505564689636, + "learning_rate": 1.816170666666667e-05, + "loss": 0.0377, + "step": 43085 + }, + { + "epoch": 0.275776, + "grad_norm": 0.5159603357315063, + "learning_rate": 1.8161493333333336e-05, + "loss": 0.0448, + "step": 43090 + }, + { + "epoch": 0.275808, + "grad_norm": 1.727877140045166, + "learning_rate": 1.816128e-05, + "loss": 0.0562, + "step": 43095 + }, + { + "epoch": 0.27584, + "grad_norm": 1.453739047050476, + "learning_rate": 1.8161066666666668e-05, + "loss": 0.0621, + "step": 43100 + }, + { + "epoch": 0.275872, + "grad_norm": 0.7002239227294922, + "learning_rate": 1.8160853333333335e-05, + "loss": 0.0533, + "step": 43105 + }, + { + "epoch": 0.275904, + "grad_norm": 0.5204627513885498, + "learning_rate": 1.816064e-05, + "loss": 0.0677, + "step": 43110 + }, + { + "epoch": 0.275936, + "grad_norm": 0.3849268853664398, + "learning_rate": 1.8160426666666667e-05, + "loss": 0.0424, + "step": 43115 + }, + { + "epoch": 0.275968, + "grad_norm": 1.1847511529922485, + "learning_rate": 1.8160213333333335e-05, + "loss": 0.0621, + "step": 43120 + }, + { + "epoch": 0.276, + "grad_norm": 1.2558690309524536, + "learning_rate": 1.8160000000000002e-05, + "loss": 0.069, + "step": 43125 + }, + { + "epoch": 0.276032, + "grad_norm": 1.0411274433135986, + "learning_rate": 1.8159786666666666e-05, + "loss": 0.0304, + "step": 43130 + }, + { + "epoch": 0.276064, + "grad_norm": 1.714381456375122, + "learning_rate": 1.8159573333333334e-05, + "loss": 0.0719, + "step": 43135 + }, + { + "epoch": 0.276096, + "grad_norm": 0.6460301280021667, + "learning_rate": 1.815936e-05, + "loss": 0.0606, + "step": 43140 + }, + { + "epoch": 0.276128, + "grad_norm": 0.772837221622467, + "learning_rate": 1.8159146666666666e-05, + "loss": 0.0452, + "step": 43145 + }, + { + "epoch": 0.27616, + "grad_norm": 0.6920050978660583, + "learning_rate": 1.8158933333333337e-05, + "loss": 0.0292, + "step": 43150 + }, + { + "epoch": 0.276192, + "grad_norm": 1.562292218208313, + "learning_rate": 1.815872e-05, + "loss": 0.0783, + "step": 43155 + }, + { + "epoch": 0.276224, + "grad_norm": 0.7728713154792786, + "learning_rate": 1.815850666666667e-05, + "loss": 0.0386, + "step": 43160 + }, + { + "epoch": 0.276256, + "grad_norm": 0.7351603507995605, + "learning_rate": 1.8158293333333336e-05, + "loss": 0.0644, + "step": 43165 + }, + { + "epoch": 0.276288, + "grad_norm": 2.849980592727661, + "learning_rate": 1.8158080000000004e-05, + "loss": 0.0356, + "step": 43170 + }, + { + "epoch": 0.27632, + "grad_norm": 0.5595393776893616, + "learning_rate": 1.8157866666666668e-05, + "loss": 0.063, + "step": 43175 + }, + { + "epoch": 0.276352, + "grad_norm": 1.1763806343078613, + "learning_rate": 1.8157653333333335e-05, + "loss": 0.0629, + "step": 43180 + }, + { + "epoch": 0.276384, + "grad_norm": 0.9127318859100342, + "learning_rate": 1.8157440000000003e-05, + "loss": 0.0283, + "step": 43185 + }, + { + "epoch": 0.276416, + "grad_norm": 0.839869499206543, + "learning_rate": 1.8157226666666667e-05, + "loss": 0.0561, + "step": 43190 + }, + { + "epoch": 0.276448, + "grad_norm": 0.9607061743736267, + "learning_rate": 1.8157013333333335e-05, + "loss": 0.0379, + "step": 43195 + }, + { + "epoch": 0.27648, + "grad_norm": 0.3298138380050659, + "learning_rate": 1.8156800000000002e-05, + "loss": 0.0741, + "step": 43200 + }, + { + "epoch": 0.276512, + "grad_norm": 0.42285123467445374, + "learning_rate": 1.815658666666667e-05, + "loss": 0.0424, + "step": 43205 + }, + { + "epoch": 0.276544, + "grad_norm": 0.865665853023529, + "learning_rate": 1.8156373333333334e-05, + "loss": 0.0551, + "step": 43210 + }, + { + "epoch": 0.276576, + "grad_norm": 0.7842244505882263, + "learning_rate": 1.815616e-05, + "loss": 0.0804, + "step": 43215 + }, + { + "epoch": 0.276608, + "grad_norm": 0.9412257075309753, + "learning_rate": 1.815594666666667e-05, + "loss": 0.0807, + "step": 43220 + }, + { + "epoch": 0.27664, + "grad_norm": 0.46569663286209106, + "learning_rate": 1.8155733333333333e-05, + "loss": 0.0443, + "step": 43225 + }, + { + "epoch": 0.276672, + "grad_norm": 0.7590069770812988, + "learning_rate": 1.815552e-05, + "loss": 0.0471, + "step": 43230 + }, + { + "epoch": 0.276704, + "grad_norm": 0.6379315257072449, + "learning_rate": 1.8155306666666668e-05, + "loss": 0.0487, + "step": 43235 + }, + { + "epoch": 0.276736, + "grad_norm": 0.6945528984069824, + "learning_rate": 1.8155093333333336e-05, + "loss": 0.063, + "step": 43240 + }, + { + "epoch": 0.276768, + "grad_norm": 0.46810054779052734, + "learning_rate": 1.815488e-05, + "loss": 0.0515, + "step": 43245 + }, + { + "epoch": 0.2768, + "grad_norm": 0.8470566272735596, + "learning_rate": 1.8154666666666667e-05, + "loss": 0.0508, + "step": 43250 + }, + { + "epoch": 0.276832, + "grad_norm": 0.6800200343132019, + "learning_rate": 1.8154453333333335e-05, + "loss": 0.0558, + "step": 43255 + }, + { + "epoch": 0.276864, + "grad_norm": 0.7976855635643005, + "learning_rate": 1.815424e-05, + "loss": 0.0619, + "step": 43260 + }, + { + "epoch": 0.276896, + "grad_norm": 0.7542977929115295, + "learning_rate": 1.815402666666667e-05, + "loss": 0.0536, + "step": 43265 + }, + { + "epoch": 0.276928, + "grad_norm": 0.12096396088600159, + "learning_rate": 1.8153813333333334e-05, + "loss": 0.0245, + "step": 43270 + }, + { + "epoch": 0.27696, + "grad_norm": 1.4305875301361084, + "learning_rate": 1.8153600000000002e-05, + "loss": 0.0523, + "step": 43275 + }, + { + "epoch": 0.276992, + "grad_norm": 1.1391950845718384, + "learning_rate": 1.815338666666667e-05, + "loss": 0.0608, + "step": 43280 + }, + { + "epoch": 0.277024, + "grad_norm": 1.3347734212875366, + "learning_rate": 1.8153173333333334e-05, + "loss": 0.0349, + "step": 43285 + }, + { + "epoch": 0.277056, + "grad_norm": 0.9565756320953369, + "learning_rate": 1.815296e-05, + "loss": 0.0607, + "step": 43290 + }, + { + "epoch": 0.277088, + "grad_norm": 1.0169802904129028, + "learning_rate": 1.815274666666667e-05, + "loss": 0.0475, + "step": 43295 + }, + { + "epoch": 0.27712, + "grad_norm": 0.7883473038673401, + "learning_rate": 1.8152533333333336e-05, + "loss": 0.0565, + "step": 43300 + }, + { + "epoch": 0.277152, + "grad_norm": 0.5554654598236084, + "learning_rate": 1.815232e-05, + "loss": 0.0511, + "step": 43305 + }, + { + "epoch": 0.277184, + "grad_norm": 0.18805517256259918, + "learning_rate": 1.8152106666666668e-05, + "loss": 0.0524, + "step": 43310 + }, + { + "epoch": 0.277216, + "grad_norm": 1.0051475763320923, + "learning_rate": 1.8151893333333335e-05, + "loss": 0.0582, + "step": 43315 + }, + { + "epoch": 0.277248, + "grad_norm": 1.0553563833236694, + "learning_rate": 1.815168e-05, + "loss": 0.0416, + "step": 43320 + }, + { + "epoch": 0.27728, + "grad_norm": 0.5315860509872437, + "learning_rate": 1.8151466666666667e-05, + "loss": 0.0414, + "step": 43325 + }, + { + "epoch": 0.277312, + "grad_norm": 0.30018702149391174, + "learning_rate": 1.8151253333333335e-05, + "loss": 0.0454, + "step": 43330 + }, + { + "epoch": 0.277344, + "grad_norm": 0.7624406814575195, + "learning_rate": 1.8151040000000002e-05, + "loss": 0.0431, + "step": 43335 + }, + { + "epoch": 0.277376, + "grad_norm": 0.9577926993370056, + "learning_rate": 1.8150826666666666e-05, + "loss": 0.0806, + "step": 43340 + }, + { + "epoch": 0.277408, + "grad_norm": 0.5595424175262451, + "learning_rate": 1.8150613333333334e-05, + "loss": 0.0319, + "step": 43345 + }, + { + "epoch": 0.27744, + "grad_norm": 0.34694892168045044, + "learning_rate": 1.81504e-05, + "loss": 0.032, + "step": 43350 + }, + { + "epoch": 0.277472, + "grad_norm": 1.036924123764038, + "learning_rate": 1.8150186666666666e-05, + "loss": 0.0452, + "step": 43355 + }, + { + "epoch": 0.277504, + "grad_norm": 0.2669346332550049, + "learning_rate": 1.8149973333333333e-05, + "loss": 0.043, + "step": 43360 + }, + { + "epoch": 0.277536, + "grad_norm": 0.6160948872566223, + "learning_rate": 1.814976e-05, + "loss": 0.0635, + "step": 43365 + }, + { + "epoch": 0.277568, + "grad_norm": 2.36616849899292, + "learning_rate": 1.814954666666667e-05, + "loss": 0.0424, + "step": 43370 + }, + { + "epoch": 0.2776, + "grad_norm": 1.7715944051742554, + "learning_rate": 1.8149333333333336e-05, + "loss": 0.0826, + "step": 43375 + }, + { + "epoch": 0.277632, + "grad_norm": 0.6375123262405396, + "learning_rate": 1.8149120000000004e-05, + "loss": 0.0368, + "step": 43380 + }, + { + "epoch": 0.277664, + "grad_norm": 1.4349069595336914, + "learning_rate": 1.8148906666666668e-05, + "loss": 0.046, + "step": 43385 + }, + { + "epoch": 0.277696, + "grad_norm": 0.36370471119880676, + "learning_rate": 1.8148693333333335e-05, + "loss": 0.0275, + "step": 43390 + }, + { + "epoch": 0.277728, + "grad_norm": 0.6287187337875366, + "learning_rate": 1.8148480000000003e-05, + "loss": 0.0548, + "step": 43395 + }, + { + "epoch": 0.27776, + "grad_norm": 0.9218004941940308, + "learning_rate": 1.8148266666666667e-05, + "loss": 0.0403, + "step": 43400 + }, + { + "epoch": 0.277792, + "grad_norm": 1.041609525680542, + "learning_rate": 1.8148053333333335e-05, + "loss": 0.0993, + "step": 43405 + }, + { + "epoch": 0.277824, + "grad_norm": 1.000344157218933, + "learning_rate": 1.8147840000000002e-05, + "loss": 0.033, + "step": 43410 + }, + { + "epoch": 0.277856, + "grad_norm": 0.93077552318573, + "learning_rate": 1.814762666666667e-05, + "loss": 0.0339, + "step": 43415 + }, + { + "epoch": 0.277888, + "grad_norm": 1.3481618165969849, + "learning_rate": 1.8147413333333334e-05, + "loss": 0.0667, + "step": 43420 + }, + { + "epoch": 0.27792, + "grad_norm": 0.3423100709915161, + "learning_rate": 1.81472e-05, + "loss": 0.0419, + "step": 43425 + }, + { + "epoch": 0.277952, + "grad_norm": 0.7540667057037354, + "learning_rate": 1.814698666666667e-05, + "loss": 0.0497, + "step": 43430 + }, + { + "epoch": 0.277984, + "grad_norm": 0.6815860867500305, + "learning_rate": 1.8146773333333333e-05, + "loss": 0.0572, + "step": 43435 + }, + { + "epoch": 0.278016, + "grad_norm": 0.7473568320274353, + "learning_rate": 1.814656e-05, + "loss": 0.0467, + "step": 43440 + }, + { + "epoch": 0.278048, + "grad_norm": 0.8461171388626099, + "learning_rate": 1.8146346666666668e-05, + "loss": 0.04, + "step": 43445 + }, + { + "epoch": 0.27808, + "grad_norm": 0.7982944250106812, + "learning_rate": 1.8146133333333336e-05, + "loss": 0.0475, + "step": 43450 + }, + { + "epoch": 0.278112, + "grad_norm": 1.1288456916809082, + "learning_rate": 1.814592e-05, + "loss": 0.0929, + "step": 43455 + }, + { + "epoch": 0.278144, + "grad_norm": 0.33336231112480164, + "learning_rate": 1.814570666666667e-05, + "loss": 0.0238, + "step": 43460 + }, + { + "epoch": 0.278176, + "grad_norm": 1.0243228673934937, + "learning_rate": 1.8145493333333335e-05, + "loss": 0.0437, + "step": 43465 + }, + { + "epoch": 0.278208, + "grad_norm": 0.9608368277549744, + "learning_rate": 1.814528e-05, + "loss": 0.0385, + "step": 43470 + }, + { + "epoch": 0.27824, + "grad_norm": 1.6227730512619019, + "learning_rate": 1.814506666666667e-05, + "loss": 0.0313, + "step": 43475 + }, + { + "epoch": 0.278272, + "grad_norm": 0.4743454158306122, + "learning_rate": 1.8144853333333334e-05, + "loss": 0.0624, + "step": 43480 + }, + { + "epoch": 0.278304, + "grad_norm": 1.0352336168289185, + "learning_rate": 1.8144640000000002e-05, + "loss": 0.0613, + "step": 43485 + }, + { + "epoch": 0.278336, + "grad_norm": 0.4162270128726959, + "learning_rate": 1.814442666666667e-05, + "loss": 0.0366, + "step": 43490 + }, + { + "epoch": 0.278368, + "grad_norm": 0.786461591720581, + "learning_rate": 1.8144213333333337e-05, + "loss": 0.0557, + "step": 43495 + }, + { + "epoch": 0.2784, + "grad_norm": 0.24957892298698425, + "learning_rate": 1.8144e-05, + "loss": 0.0345, + "step": 43500 + }, + { + "epoch": 0.278432, + "grad_norm": 1.167214274406433, + "learning_rate": 1.814378666666667e-05, + "loss": 0.0645, + "step": 43505 + }, + { + "epoch": 0.278464, + "grad_norm": 0.6322108507156372, + "learning_rate": 1.8143573333333336e-05, + "loss": 0.038, + "step": 43510 + }, + { + "epoch": 0.278496, + "grad_norm": 0.8541967272758484, + "learning_rate": 1.814336e-05, + "loss": 0.0616, + "step": 43515 + }, + { + "epoch": 0.278528, + "grad_norm": 0.7243905663490295, + "learning_rate": 1.8143146666666668e-05, + "loss": 0.0412, + "step": 43520 + }, + { + "epoch": 0.27856, + "grad_norm": 0.32218098640441895, + "learning_rate": 1.8142933333333335e-05, + "loss": 0.0486, + "step": 43525 + }, + { + "epoch": 0.278592, + "grad_norm": 1.5969316959381104, + "learning_rate": 1.8142720000000003e-05, + "loss": 0.0443, + "step": 43530 + }, + { + "epoch": 0.278624, + "grad_norm": 0.6647575497627258, + "learning_rate": 1.8142506666666667e-05, + "loss": 0.0308, + "step": 43535 + }, + { + "epoch": 0.278656, + "grad_norm": 0.8608400225639343, + "learning_rate": 1.8142293333333335e-05, + "loss": 0.0475, + "step": 43540 + }, + { + "epoch": 0.278688, + "grad_norm": 0.39993661642074585, + "learning_rate": 1.8142080000000002e-05, + "loss": 0.0335, + "step": 43545 + }, + { + "epoch": 0.27872, + "grad_norm": 0.5065657496452332, + "learning_rate": 1.8141866666666666e-05, + "loss": 0.0226, + "step": 43550 + }, + { + "epoch": 0.278752, + "grad_norm": 0.52643883228302, + "learning_rate": 1.8141653333333334e-05, + "loss": 0.053, + "step": 43555 + }, + { + "epoch": 0.278784, + "grad_norm": 0.5418882369995117, + "learning_rate": 1.814144e-05, + "loss": 0.0494, + "step": 43560 + }, + { + "epoch": 0.278816, + "grad_norm": 0.9849182367324829, + "learning_rate": 1.814122666666667e-05, + "loss": 0.0525, + "step": 43565 + }, + { + "epoch": 0.278848, + "grad_norm": 2.1340887546539307, + "learning_rate": 1.8141013333333333e-05, + "loss": 0.0622, + "step": 43570 + }, + { + "epoch": 0.27888, + "grad_norm": 0.4826236665248871, + "learning_rate": 1.81408e-05, + "loss": 0.0262, + "step": 43575 + }, + { + "epoch": 0.278912, + "grad_norm": 1.271674633026123, + "learning_rate": 1.814058666666667e-05, + "loss": 0.0553, + "step": 43580 + }, + { + "epoch": 0.278944, + "grad_norm": 0.950270414352417, + "learning_rate": 1.8140373333333333e-05, + "loss": 0.0396, + "step": 43585 + }, + { + "epoch": 0.278976, + "grad_norm": 0.9660624861717224, + "learning_rate": 1.8140160000000004e-05, + "loss": 0.0438, + "step": 43590 + }, + { + "epoch": 0.279008, + "grad_norm": 1.7990646362304688, + "learning_rate": 1.8139946666666668e-05, + "loss": 0.0372, + "step": 43595 + }, + { + "epoch": 0.27904, + "grad_norm": 0.5968111753463745, + "learning_rate": 1.8139733333333335e-05, + "loss": 0.048, + "step": 43600 + }, + { + "epoch": 0.279072, + "grad_norm": 0.7635499835014343, + "learning_rate": 1.8139520000000003e-05, + "loss": 0.063, + "step": 43605 + }, + { + "epoch": 0.279104, + "grad_norm": 0.7968542575836182, + "learning_rate": 1.8139306666666667e-05, + "loss": 0.0592, + "step": 43610 + }, + { + "epoch": 0.279136, + "grad_norm": 0.8419106006622314, + "learning_rate": 1.8139093333333335e-05, + "loss": 0.047, + "step": 43615 + }, + { + "epoch": 0.279168, + "grad_norm": 0.7933642268180847, + "learning_rate": 1.8138880000000002e-05, + "loss": 0.0718, + "step": 43620 + }, + { + "epoch": 0.2792, + "grad_norm": 1.1134740114212036, + "learning_rate": 1.813866666666667e-05, + "loss": 0.0587, + "step": 43625 + }, + { + "epoch": 0.279232, + "grad_norm": 0.2715907096862793, + "learning_rate": 1.8138453333333334e-05, + "loss": 0.0285, + "step": 43630 + }, + { + "epoch": 0.279264, + "grad_norm": 1.5517364740371704, + "learning_rate": 1.813824e-05, + "loss": 0.0558, + "step": 43635 + }, + { + "epoch": 0.279296, + "grad_norm": 0.5578137040138245, + "learning_rate": 1.813802666666667e-05, + "loss": 0.0454, + "step": 43640 + }, + { + "epoch": 0.279328, + "grad_norm": 1.0447319746017456, + "learning_rate": 1.8137813333333333e-05, + "loss": 0.0722, + "step": 43645 + }, + { + "epoch": 0.27936, + "grad_norm": 0.4356692433357239, + "learning_rate": 1.81376e-05, + "loss": 0.0394, + "step": 43650 + }, + { + "epoch": 0.279392, + "grad_norm": 0.7869840860366821, + "learning_rate": 1.8137386666666668e-05, + "loss": 0.0428, + "step": 43655 + }, + { + "epoch": 0.279424, + "grad_norm": 3.3824853897094727, + "learning_rate": 1.8137173333333336e-05, + "loss": 0.0605, + "step": 43660 + }, + { + "epoch": 0.279456, + "grad_norm": 0.8967710137367249, + "learning_rate": 1.813696e-05, + "loss": 0.0402, + "step": 43665 + }, + { + "epoch": 0.279488, + "grad_norm": 0.7887951731681824, + "learning_rate": 1.813674666666667e-05, + "loss": 0.0619, + "step": 43670 + }, + { + "epoch": 0.27952, + "grad_norm": 0.5501140356063843, + "learning_rate": 1.8136533333333335e-05, + "loss": 0.059, + "step": 43675 + }, + { + "epoch": 0.279552, + "grad_norm": 0.49238893389701843, + "learning_rate": 1.813632e-05, + "loss": 0.0508, + "step": 43680 + }, + { + "epoch": 0.279584, + "grad_norm": 0.6732390522956848, + "learning_rate": 1.813610666666667e-05, + "loss": 0.0332, + "step": 43685 + }, + { + "epoch": 0.279616, + "grad_norm": 0.6026027202606201, + "learning_rate": 1.8135893333333334e-05, + "loss": 0.052, + "step": 43690 + }, + { + "epoch": 0.279648, + "grad_norm": 0.4935958683490753, + "learning_rate": 1.8135680000000002e-05, + "loss": 0.0379, + "step": 43695 + }, + { + "epoch": 0.27968, + "grad_norm": 4.55612850189209, + "learning_rate": 1.813546666666667e-05, + "loss": 0.0512, + "step": 43700 + }, + { + "epoch": 0.279712, + "grad_norm": 0.8896118402481079, + "learning_rate": 1.8135253333333337e-05, + "loss": 0.044, + "step": 43705 + }, + { + "epoch": 0.279744, + "grad_norm": 0.7485499978065491, + "learning_rate": 1.813504e-05, + "loss": 0.0534, + "step": 43710 + }, + { + "epoch": 0.279776, + "grad_norm": 0.9519398212432861, + "learning_rate": 1.813482666666667e-05, + "loss": 0.0342, + "step": 43715 + }, + { + "epoch": 0.279808, + "grad_norm": 2.1645939350128174, + "learning_rate": 1.8134613333333336e-05, + "loss": 0.0867, + "step": 43720 + }, + { + "epoch": 0.27984, + "grad_norm": 1.1707522869110107, + "learning_rate": 1.81344e-05, + "loss": 0.0596, + "step": 43725 + }, + { + "epoch": 0.279872, + "grad_norm": 1.8343513011932373, + "learning_rate": 1.8134186666666668e-05, + "loss": 0.0548, + "step": 43730 + }, + { + "epoch": 0.279904, + "grad_norm": 0.15425321459770203, + "learning_rate": 1.8133973333333335e-05, + "loss": 0.0218, + "step": 43735 + }, + { + "epoch": 0.279936, + "grad_norm": 0.6670331358909607, + "learning_rate": 1.8133760000000003e-05, + "loss": 0.072, + "step": 43740 + }, + { + "epoch": 0.279968, + "grad_norm": 0.44413575530052185, + "learning_rate": 1.8133546666666667e-05, + "loss": 0.0287, + "step": 43745 + }, + { + "epoch": 0.28, + "grad_norm": 1.1551285982131958, + "learning_rate": 1.8133333333333335e-05, + "loss": 0.051, + "step": 43750 + }, + { + "epoch": 0.280032, + "grad_norm": 1.5460529327392578, + "learning_rate": 1.8133120000000002e-05, + "loss": 0.0477, + "step": 43755 + }, + { + "epoch": 0.280064, + "grad_norm": 0.3384280800819397, + "learning_rate": 1.8132906666666666e-05, + "loss": 0.0362, + "step": 43760 + }, + { + "epoch": 0.280096, + "grad_norm": 0.8610294461250305, + "learning_rate": 1.8132693333333334e-05, + "loss": 0.0405, + "step": 43765 + }, + { + "epoch": 0.280128, + "grad_norm": 1.096201777458191, + "learning_rate": 1.813248e-05, + "loss": 0.0855, + "step": 43770 + }, + { + "epoch": 0.28016, + "grad_norm": 0.46621888875961304, + "learning_rate": 1.813226666666667e-05, + "loss": 0.0438, + "step": 43775 + }, + { + "epoch": 0.280192, + "grad_norm": 0.7511266469955444, + "learning_rate": 1.8132053333333333e-05, + "loss": 0.0445, + "step": 43780 + }, + { + "epoch": 0.280224, + "grad_norm": 0.6023503541946411, + "learning_rate": 1.813184e-05, + "loss": 0.0481, + "step": 43785 + }, + { + "epoch": 0.280256, + "grad_norm": 0.5910031795501709, + "learning_rate": 1.813162666666667e-05, + "loss": 0.0952, + "step": 43790 + }, + { + "epoch": 0.280288, + "grad_norm": 0.6018115878105164, + "learning_rate": 1.8131413333333333e-05, + "loss": 0.0422, + "step": 43795 + }, + { + "epoch": 0.28032, + "grad_norm": 1.622871994972229, + "learning_rate": 1.8131200000000004e-05, + "loss": 0.0457, + "step": 43800 + }, + { + "epoch": 0.280352, + "grad_norm": 0.7081567049026489, + "learning_rate": 1.8130986666666668e-05, + "loss": 0.0427, + "step": 43805 + }, + { + "epoch": 0.280384, + "grad_norm": 0.5958343148231506, + "learning_rate": 1.8130773333333335e-05, + "loss": 0.0511, + "step": 43810 + }, + { + "epoch": 0.280416, + "grad_norm": 0.42125532031059265, + "learning_rate": 1.8130560000000003e-05, + "loss": 0.0392, + "step": 43815 + }, + { + "epoch": 0.280448, + "grad_norm": 0.766715943813324, + "learning_rate": 1.8130346666666667e-05, + "loss": 0.0502, + "step": 43820 + }, + { + "epoch": 0.28048, + "grad_norm": 0.7365423440933228, + "learning_rate": 1.8130133333333335e-05, + "loss": 0.0349, + "step": 43825 + }, + { + "epoch": 0.280512, + "grad_norm": 0.5985326766967773, + "learning_rate": 1.8129920000000002e-05, + "loss": 0.0561, + "step": 43830 + }, + { + "epoch": 0.280544, + "grad_norm": 0.4263458251953125, + "learning_rate": 1.812970666666667e-05, + "loss": 0.0573, + "step": 43835 + }, + { + "epoch": 0.280576, + "grad_norm": 0.22407828271389008, + "learning_rate": 1.8129493333333334e-05, + "loss": 0.0486, + "step": 43840 + }, + { + "epoch": 0.280608, + "grad_norm": 2.233243942260742, + "learning_rate": 1.812928e-05, + "loss": 0.0444, + "step": 43845 + }, + { + "epoch": 0.28064, + "grad_norm": 2.101914405822754, + "learning_rate": 1.812906666666667e-05, + "loss": 0.0467, + "step": 43850 + }, + { + "epoch": 0.280672, + "grad_norm": 1.1038072109222412, + "learning_rate": 1.8128853333333333e-05, + "loss": 0.0503, + "step": 43855 + }, + { + "epoch": 0.280704, + "grad_norm": 0.8328529000282288, + "learning_rate": 1.812864e-05, + "loss": 0.0515, + "step": 43860 + }, + { + "epoch": 0.280736, + "grad_norm": 1.1782968044281006, + "learning_rate": 1.8128426666666668e-05, + "loss": 0.0489, + "step": 43865 + }, + { + "epoch": 0.280768, + "grad_norm": 0.8696379065513611, + "learning_rate": 1.8128213333333336e-05, + "loss": 0.0497, + "step": 43870 + }, + { + "epoch": 0.2808, + "grad_norm": 0.9260779023170471, + "learning_rate": 1.8128e-05, + "loss": 0.0394, + "step": 43875 + }, + { + "epoch": 0.280832, + "grad_norm": 1.1533284187316895, + "learning_rate": 1.8127786666666667e-05, + "loss": 0.0588, + "step": 43880 + }, + { + "epoch": 0.280864, + "grad_norm": 0.5511358380317688, + "learning_rate": 1.8127573333333335e-05, + "loss": 0.0442, + "step": 43885 + }, + { + "epoch": 0.280896, + "grad_norm": 0.2586807906627655, + "learning_rate": 1.812736e-05, + "loss": 0.0443, + "step": 43890 + }, + { + "epoch": 0.280928, + "grad_norm": 0.9573736190795898, + "learning_rate": 1.812714666666667e-05, + "loss": 0.0414, + "step": 43895 + }, + { + "epoch": 0.28096, + "grad_norm": 0.7537176609039307, + "learning_rate": 1.8126933333333334e-05, + "loss": 0.0484, + "step": 43900 + }, + { + "epoch": 0.280992, + "grad_norm": 0.9619981050491333, + "learning_rate": 1.8126720000000002e-05, + "loss": 0.0445, + "step": 43905 + }, + { + "epoch": 0.281024, + "grad_norm": 0.2236371785402298, + "learning_rate": 1.812650666666667e-05, + "loss": 0.0578, + "step": 43910 + }, + { + "epoch": 0.281056, + "grad_norm": 0.33855000138282776, + "learning_rate": 1.8126293333333337e-05, + "loss": 0.0365, + "step": 43915 + }, + { + "epoch": 0.281088, + "grad_norm": 0.5680305361747742, + "learning_rate": 1.812608e-05, + "loss": 0.0737, + "step": 43920 + }, + { + "epoch": 0.28112, + "grad_norm": 0.6197158098220825, + "learning_rate": 1.812586666666667e-05, + "loss": 0.0697, + "step": 43925 + }, + { + "epoch": 0.281152, + "grad_norm": 0.585643470287323, + "learning_rate": 1.8125653333333336e-05, + "loss": 0.0507, + "step": 43930 + }, + { + "epoch": 0.281184, + "grad_norm": 0.3626682758331299, + "learning_rate": 1.812544e-05, + "loss": 0.0439, + "step": 43935 + }, + { + "epoch": 0.281216, + "grad_norm": 0.9751086831092834, + "learning_rate": 1.8125226666666668e-05, + "loss": 0.0598, + "step": 43940 + }, + { + "epoch": 0.281248, + "grad_norm": 0.5932657122612, + "learning_rate": 1.8125013333333336e-05, + "loss": 0.0298, + "step": 43945 + }, + { + "epoch": 0.28128, + "grad_norm": 1.0208654403686523, + "learning_rate": 1.8124800000000003e-05, + "loss": 0.034, + "step": 43950 + }, + { + "epoch": 0.281312, + "grad_norm": 0.8949956893920898, + "learning_rate": 1.8124586666666667e-05, + "loss": 0.0562, + "step": 43955 + }, + { + "epoch": 0.281344, + "grad_norm": 0.8976866006851196, + "learning_rate": 1.8124373333333335e-05, + "loss": 0.0385, + "step": 43960 + }, + { + "epoch": 0.281376, + "grad_norm": 0.4344586431980133, + "learning_rate": 1.8124160000000002e-05, + "loss": 0.0529, + "step": 43965 + }, + { + "epoch": 0.281408, + "grad_norm": 0.6712949872016907, + "learning_rate": 1.8123946666666666e-05, + "loss": 0.0672, + "step": 43970 + }, + { + "epoch": 0.28144, + "grad_norm": 1.358573317527771, + "learning_rate": 1.8123733333333334e-05, + "loss": 0.0638, + "step": 43975 + }, + { + "epoch": 0.281472, + "grad_norm": 0.5492925047874451, + "learning_rate": 1.812352e-05, + "loss": 0.0256, + "step": 43980 + }, + { + "epoch": 0.281504, + "grad_norm": 0.4884771406650543, + "learning_rate": 1.812330666666667e-05, + "loss": 0.0385, + "step": 43985 + }, + { + "epoch": 0.281536, + "grad_norm": 0.7064428329467773, + "learning_rate": 1.8123093333333333e-05, + "loss": 0.0818, + "step": 43990 + }, + { + "epoch": 0.281568, + "grad_norm": 0.4116058051586151, + "learning_rate": 1.812288e-05, + "loss": 0.0433, + "step": 43995 + }, + { + "epoch": 0.2816, + "grad_norm": 1.0592209100723267, + "learning_rate": 1.812266666666667e-05, + "loss": 0.0764, + "step": 44000 + }, + { + "epoch": 0.281632, + "grad_norm": 0.66971355676651, + "learning_rate": 1.8122453333333333e-05, + "loss": 0.0562, + "step": 44005 + }, + { + "epoch": 0.281664, + "grad_norm": 1.0117396116256714, + "learning_rate": 1.8122240000000004e-05, + "loss": 0.0367, + "step": 44010 + }, + { + "epoch": 0.281696, + "grad_norm": 2.1069719791412354, + "learning_rate": 1.8122026666666668e-05, + "loss": 0.0417, + "step": 44015 + }, + { + "epoch": 0.281728, + "grad_norm": 0.7638941407203674, + "learning_rate": 1.8121813333333335e-05, + "loss": 0.0692, + "step": 44020 + }, + { + "epoch": 0.28176, + "grad_norm": 0.5310898423194885, + "learning_rate": 1.8121600000000003e-05, + "loss": 0.043, + "step": 44025 + }, + { + "epoch": 0.281792, + "grad_norm": 1.3514405488967896, + "learning_rate": 1.8121386666666667e-05, + "loss": 0.0489, + "step": 44030 + }, + { + "epoch": 0.281824, + "grad_norm": 0.9068720936775208, + "learning_rate": 1.8121173333333335e-05, + "loss": 0.049, + "step": 44035 + }, + { + "epoch": 0.281856, + "grad_norm": 0.21754492819309235, + "learning_rate": 1.8120960000000002e-05, + "loss": 0.0577, + "step": 44040 + }, + { + "epoch": 0.281888, + "grad_norm": 0.8643679022789001, + "learning_rate": 1.812074666666667e-05, + "loss": 0.0655, + "step": 44045 + }, + { + "epoch": 0.28192, + "grad_norm": 0.9849278926849365, + "learning_rate": 1.8120533333333334e-05, + "loss": 0.0602, + "step": 44050 + }, + { + "epoch": 0.281952, + "grad_norm": 0.7968982458114624, + "learning_rate": 1.812032e-05, + "loss": 0.0454, + "step": 44055 + }, + { + "epoch": 0.281984, + "grad_norm": 0.5916339755058289, + "learning_rate": 1.812010666666667e-05, + "loss": 0.0356, + "step": 44060 + }, + { + "epoch": 0.282016, + "grad_norm": 0.4892521798610687, + "learning_rate": 1.8119893333333333e-05, + "loss": 0.0389, + "step": 44065 + }, + { + "epoch": 0.282048, + "grad_norm": 1.0772712230682373, + "learning_rate": 1.811968e-05, + "loss": 0.046, + "step": 44070 + }, + { + "epoch": 0.28208, + "grad_norm": 0.3786909878253937, + "learning_rate": 1.8119466666666668e-05, + "loss": 0.0311, + "step": 44075 + }, + { + "epoch": 0.282112, + "grad_norm": 0.5916092991828918, + "learning_rate": 1.8119253333333336e-05, + "loss": 0.0518, + "step": 44080 + }, + { + "epoch": 0.282144, + "grad_norm": 1.5079505443572998, + "learning_rate": 1.811904e-05, + "loss": 0.0563, + "step": 44085 + }, + { + "epoch": 0.282176, + "grad_norm": 1.1932648420333862, + "learning_rate": 1.8118826666666667e-05, + "loss": 0.0249, + "step": 44090 + }, + { + "epoch": 0.282208, + "grad_norm": 1.4589037895202637, + "learning_rate": 1.8118613333333335e-05, + "loss": 0.043, + "step": 44095 + }, + { + "epoch": 0.28224, + "grad_norm": 0.49931204319000244, + "learning_rate": 1.81184e-05, + "loss": 0.0551, + "step": 44100 + }, + { + "epoch": 0.282272, + "grad_norm": 1.0138404369354248, + "learning_rate": 1.8118186666666667e-05, + "loss": 0.062, + "step": 44105 + }, + { + "epoch": 0.282304, + "grad_norm": 0.5479766130447388, + "learning_rate": 1.8117973333333334e-05, + "loss": 0.036, + "step": 44110 + }, + { + "epoch": 0.282336, + "grad_norm": 0.6698700189590454, + "learning_rate": 1.8117760000000002e-05, + "loss": 0.0513, + "step": 44115 + }, + { + "epoch": 0.282368, + "grad_norm": 1.6009243726730347, + "learning_rate": 1.811754666666667e-05, + "loss": 0.0435, + "step": 44120 + }, + { + "epoch": 0.2824, + "grad_norm": 3.1959128379821777, + "learning_rate": 1.8117333333333337e-05, + "loss": 0.0432, + "step": 44125 + }, + { + "epoch": 0.282432, + "grad_norm": 1.3404436111450195, + "learning_rate": 1.811712e-05, + "loss": 0.0451, + "step": 44130 + }, + { + "epoch": 0.282464, + "grad_norm": 0.5713513493537903, + "learning_rate": 1.811690666666667e-05, + "loss": 0.1097, + "step": 44135 + }, + { + "epoch": 0.282496, + "grad_norm": 0.44092902541160583, + "learning_rate": 1.8116693333333336e-05, + "loss": 0.0504, + "step": 44140 + }, + { + "epoch": 0.282528, + "grad_norm": 1.0868841409683228, + "learning_rate": 1.811648e-05, + "loss": 0.0535, + "step": 44145 + }, + { + "epoch": 0.28256, + "grad_norm": 0.33862072229385376, + "learning_rate": 1.8116266666666668e-05, + "loss": 0.0364, + "step": 44150 + }, + { + "epoch": 0.282592, + "grad_norm": 0.6517415046691895, + "learning_rate": 1.8116053333333336e-05, + "loss": 0.0445, + "step": 44155 + }, + { + "epoch": 0.282624, + "grad_norm": 0.5638735890388489, + "learning_rate": 1.8115840000000003e-05, + "loss": 0.0579, + "step": 44160 + }, + { + "epoch": 0.282656, + "grad_norm": 1.8365567922592163, + "learning_rate": 1.8115626666666667e-05, + "loss": 0.0281, + "step": 44165 + }, + { + "epoch": 0.282688, + "grad_norm": 0.8708868622779846, + "learning_rate": 1.8115413333333335e-05, + "loss": 0.0617, + "step": 44170 + }, + { + "epoch": 0.28272, + "grad_norm": 0.6231552362442017, + "learning_rate": 1.8115200000000002e-05, + "loss": 0.0452, + "step": 44175 + }, + { + "epoch": 0.282752, + "grad_norm": 0.5096563100814819, + "learning_rate": 1.8114986666666667e-05, + "loss": 0.0405, + "step": 44180 + }, + { + "epoch": 0.282784, + "grad_norm": 2.647245407104492, + "learning_rate": 1.8114773333333334e-05, + "loss": 0.0802, + "step": 44185 + }, + { + "epoch": 0.282816, + "grad_norm": 0.4573833644390106, + "learning_rate": 1.811456e-05, + "loss": 0.0565, + "step": 44190 + }, + { + "epoch": 0.282848, + "grad_norm": 1.397293210029602, + "learning_rate": 1.811434666666667e-05, + "loss": 0.0756, + "step": 44195 + }, + { + "epoch": 0.28288, + "grad_norm": 0.5616586804389954, + "learning_rate": 1.8114133333333333e-05, + "loss": 0.0416, + "step": 44200 + }, + { + "epoch": 0.282912, + "grad_norm": 0.7397350668907166, + "learning_rate": 1.811392e-05, + "loss": 0.0491, + "step": 44205 + }, + { + "epoch": 0.282944, + "grad_norm": 0.9254980683326721, + "learning_rate": 1.811370666666667e-05, + "loss": 0.0682, + "step": 44210 + }, + { + "epoch": 0.282976, + "grad_norm": 0.6105821132659912, + "learning_rate": 1.8113493333333333e-05, + "loss": 0.0559, + "step": 44215 + }, + { + "epoch": 0.283008, + "grad_norm": 0.5756607055664062, + "learning_rate": 1.8113280000000004e-05, + "loss": 0.0445, + "step": 44220 + }, + { + "epoch": 0.28304, + "grad_norm": 2.422912359237671, + "learning_rate": 1.8113066666666668e-05, + "loss": 0.0552, + "step": 44225 + }, + { + "epoch": 0.283072, + "grad_norm": 0.4666091203689575, + "learning_rate": 1.8112853333333335e-05, + "loss": 0.0334, + "step": 44230 + }, + { + "epoch": 0.283104, + "grad_norm": 0.8448007702827454, + "learning_rate": 1.8112640000000003e-05, + "loss": 0.0743, + "step": 44235 + }, + { + "epoch": 0.283136, + "grad_norm": 1.2328122854232788, + "learning_rate": 1.8112426666666667e-05, + "loss": 0.0525, + "step": 44240 + }, + { + "epoch": 0.283168, + "grad_norm": 0.6303840279579163, + "learning_rate": 1.8112213333333335e-05, + "loss": 0.0318, + "step": 44245 + }, + { + "epoch": 0.2832, + "grad_norm": 0.19091428816318512, + "learning_rate": 1.8112000000000002e-05, + "loss": 0.0514, + "step": 44250 + }, + { + "epoch": 0.283232, + "grad_norm": 0.42361319065093994, + "learning_rate": 1.811178666666667e-05, + "loss": 0.0272, + "step": 44255 + }, + { + "epoch": 0.283264, + "grad_norm": 0.753387987613678, + "learning_rate": 1.8111573333333334e-05, + "loss": 0.0381, + "step": 44260 + }, + { + "epoch": 0.283296, + "grad_norm": 0.5163126587867737, + "learning_rate": 1.811136e-05, + "loss": 0.0289, + "step": 44265 + }, + { + "epoch": 0.283328, + "grad_norm": 0.6864791512489319, + "learning_rate": 1.811114666666667e-05, + "loss": 0.0531, + "step": 44270 + }, + { + "epoch": 0.28336, + "grad_norm": 0.5230724811553955, + "learning_rate": 1.8110933333333336e-05, + "loss": 0.0443, + "step": 44275 + }, + { + "epoch": 0.283392, + "grad_norm": 0.6754137277603149, + "learning_rate": 1.811072e-05, + "loss": 0.0505, + "step": 44280 + }, + { + "epoch": 0.283424, + "grad_norm": 0.8401602506637573, + "learning_rate": 1.8110506666666668e-05, + "loss": 0.0545, + "step": 44285 + }, + { + "epoch": 0.283456, + "grad_norm": 0.5767180919647217, + "learning_rate": 1.8110293333333336e-05, + "loss": 0.0516, + "step": 44290 + }, + { + "epoch": 0.283488, + "grad_norm": 0.27700647711753845, + "learning_rate": 1.811008e-05, + "loss": 0.0434, + "step": 44295 + }, + { + "epoch": 0.28352, + "grad_norm": 0.9495840668678284, + "learning_rate": 1.8109866666666667e-05, + "loss": 0.0443, + "step": 44300 + }, + { + "epoch": 0.283552, + "grad_norm": 0.7459477782249451, + "learning_rate": 1.8109653333333335e-05, + "loss": 0.0461, + "step": 44305 + }, + { + "epoch": 0.283584, + "grad_norm": 0.49109455943107605, + "learning_rate": 1.8109440000000003e-05, + "loss": 0.0455, + "step": 44310 + }, + { + "epoch": 0.283616, + "grad_norm": 0.9097697138786316, + "learning_rate": 1.8109226666666667e-05, + "loss": 0.0268, + "step": 44315 + }, + { + "epoch": 0.283648, + "grad_norm": 1.059901475906372, + "learning_rate": 1.8109013333333334e-05, + "loss": 0.0371, + "step": 44320 + }, + { + "epoch": 0.28368, + "grad_norm": 1.3153965473175049, + "learning_rate": 1.8108800000000002e-05, + "loss": 0.0919, + "step": 44325 + }, + { + "epoch": 0.283712, + "grad_norm": 0.4275582730770111, + "learning_rate": 1.8108586666666666e-05, + "loss": 0.0364, + "step": 44330 + }, + { + "epoch": 0.283744, + "grad_norm": 1.4275645017623901, + "learning_rate": 1.8108373333333337e-05, + "loss": 0.0636, + "step": 44335 + }, + { + "epoch": 0.283776, + "grad_norm": 1.2114087343215942, + "learning_rate": 1.810816e-05, + "loss": 0.0626, + "step": 44340 + }, + { + "epoch": 0.283808, + "grad_norm": 1.3201402425765991, + "learning_rate": 1.810794666666667e-05, + "loss": 0.0174, + "step": 44345 + }, + { + "epoch": 0.28384, + "grad_norm": 0.38677793741226196, + "learning_rate": 1.8107733333333336e-05, + "loss": 0.0303, + "step": 44350 + }, + { + "epoch": 0.283872, + "grad_norm": 3.1997368335723877, + "learning_rate": 1.810752e-05, + "loss": 0.0652, + "step": 44355 + }, + { + "epoch": 0.283904, + "grad_norm": 0.7515761256217957, + "learning_rate": 1.8107306666666668e-05, + "loss": 0.0336, + "step": 44360 + }, + { + "epoch": 0.283936, + "grad_norm": 0.7458549737930298, + "learning_rate": 1.8107093333333336e-05, + "loss": 0.0439, + "step": 44365 + }, + { + "epoch": 0.283968, + "grad_norm": 1.2091808319091797, + "learning_rate": 1.8106880000000003e-05, + "loss": 0.0374, + "step": 44370 + }, + { + "epoch": 0.284, + "grad_norm": 0.9076831340789795, + "learning_rate": 1.8106666666666667e-05, + "loss": 0.0547, + "step": 44375 + }, + { + "epoch": 0.284032, + "grad_norm": 0.8350803256034851, + "learning_rate": 1.8106453333333335e-05, + "loss": 0.0559, + "step": 44380 + }, + { + "epoch": 0.284064, + "grad_norm": 0.7671893835067749, + "learning_rate": 1.8106240000000002e-05, + "loss": 0.0371, + "step": 44385 + }, + { + "epoch": 0.284096, + "grad_norm": 0.6027151942253113, + "learning_rate": 1.8106026666666667e-05, + "loss": 0.0313, + "step": 44390 + }, + { + "epoch": 0.284128, + "grad_norm": 0.5189559459686279, + "learning_rate": 1.8105813333333334e-05, + "loss": 0.0513, + "step": 44395 + }, + { + "epoch": 0.28416, + "grad_norm": 0.26258397102355957, + "learning_rate": 1.81056e-05, + "loss": 0.0393, + "step": 44400 + }, + { + "epoch": 0.284192, + "grad_norm": 0.4106013774871826, + "learning_rate": 1.810538666666667e-05, + "loss": 0.0593, + "step": 44405 + }, + { + "epoch": 0.284224, + "grad_norm": 0.6209993362426758, + "learning_rate": 1.8105173333333333e-05, + "loss": 0.0338, + "step": 44410 + }, + { + "epoch": 0.284256, + "grad_norm": 0.13298849761486053, + "learning_rate": 1.810496e-05, + "loss": 0.0457, + "step": 44415 + }, + { + "epoch": 0.284288, + "grad_norm": 1.65232515335083, + "learning_rate": 1.810474666666667e-05, + "loss": 0.0454, + "step": 44420 + }, + { + "epoch": 0.28432, + "grad_norm": 0.42944949865341187, + "learning_rate": 1.8104533333333333e-05, + "loss": 0.0393, + "step": 44425 + }, + { + "epoch": 0.284352, + "grad_norm": 1.7203116416931152, + "learning_rate": 1.8104320000000004e-05, + "loss": 0.0477, + "step": 44430 + }, + { + "epoch": 0.284384, + "grad_norm": 1.8800640106201172, + "learning_rate": 1.8104106666666668e-05, + "loss": 0.0849, + "step": 44435 + }, + { + "epoch": 0.284416, + "grad_norm": 0.5223366022109985, + "learning_rate": 1.8103893333333335e-05, + "loss": 0.049, + "step": 44440 + }, + { + "epoch": 0.284448, + "grad_norm": 1.2569096088409424, + "learning_rate": 1.8103680000000003e-05, + "loss": 0.0488, + "step": 44445 + }, + { + "epoch": 0.28448, + "grad_norm": 0.9779150485992432, + "learning_rate": 1.810346666666667e-05, + "loss": 0.0597, + "step": 44450 + }, + { + "epoch": 0.284512, + "grad_norm": 0.8298587203025818, + "learning_rate": 1.8103253333333335e-05, + "loss": 0.0684, + "step": 44455 + }, + { + "epoch": 0.284544, + "grad_norm": 0.44165828824043274, + "learning_rate": 1.8103040000000002e-05, + "loss": 0.06, + "step": 44460 + }, + { + "epoch": 0.284576, + "grad_norm": 3.114421844482422, + "learning_rate": 1.810282666666667e-05, + "loss": 0.0412, + "step": 44465 + }, + { + "epoch": 0.284608, + "grad_norm": 1.024176836013794, + "learning_rate": 1.8102613333333334e-05, + "loss": 0.0778, + "step": 44470 + }, + { + "epoch": 0.28464, + "grad_norm": 1.069006323814392, + "learning_rate": 1.81024e-05, + "loss": 0.058, + "step": 44475 + }, + { + "epoch": 0.284672, + "grad_norm": 1.5864994525909424, + "learning_rate": 1.810218666666667e-05, + "loss": 0.0745, + "step": 44480 + }, + { + "epoch": 0.284704, + "grad_norm": 0.8773637413978577, + "learning_rate": 1.8101973333333336e-05, + "loss": 0.0444, + "step": 44485 + }, + { + "epoch": 0.284736, + "grad_norm": 0.22101137042045593, + "learning_rate": 1.810176e-05, + "loss": 0.0357, + "step": 44490 + }, + { + "epoch": 0.284768, + "grad_norm": 0.3519178330898285, + "learning_rate": 1.8101546666666668e-05, + "loss": 0.0623, + "step": 44495 + }, + { + "epoch": 0.2848, + "grad_norm": 0.5715534090995789, + "learning_rate": 1.8101333333333336e-05, + "loss": 0.0342, + "step": 44500 + }, + { + "epoch": 0.284832, + "grad_norm": 0.6664344072341919, + "learning_rate": 1.810112e-05, + "loss": 0.0502, + "step": 44505 + }, + { + "epoch": 0.284864, + "grad_norm": 1.9545193910598755, + "learning_rate": 1.8100906666666667e-05, + "loss": 0.0402, + "step": 44510 + }, + { + "epoch": 0.284896, + "grad_norm": 0.5995756387710571, + "learning_rate": 1.8100693333333335e-05, + "loss": 0.0426, + "step": 44515 + }, + { + "epoch": 0.284928, + "grad_norm": 0.6958796381950378, + "learning_rate": 1.8100480000000003e-05, + "loss": 0.0938, + "step": 44520 + }, + { + "epoch": 0.28496, + "grad_norm": 0.4324823319911957, + "learning_rate": 1.8100266666666667e-05, + "loss": 0.0909, + "step": 44525 + }, + { + "epoch": 0.284992, + "grad_norm": 1.2039142847061157, + "learning_rate": 1.8100053333333334e-05, + "loss": 0.0468, + "step": 44530 + }, + { + "epoch": 0.285024, + "grad_norm": 0.19125907123088837, + "learning_rate": 1.8099840000000002e-05, + "loss": 0.037, + "step": 44535 + }, + { + "epoch": 0.285056, + "grad_norm": 0.9080246090888977, + "learning_rate": 1.8099626666666666e-05, + "loss": 0.0382, + "step": 44540 + }, + { + "epoch": 0.285088, + "grad_norm": 0.444426953792572, + "learning_rate": 1.8099413333333337e-05, + "loss": 0.0327, + "step": 44545 + }, + { + "epoch": 0.28512, + "grad_norm": 0.7302883267402649, + "learning_rate": 1.80992e-05, + "loss": 0.0405, + "step": 44550 + }, + { + "epoch": 0.285152, + "grad_norm": 0.6934754252433777, + "learning_rate": 1.809898666666667e-05, + "loss": 0.0313, + "step": 44555 + }, + { + "epoch": 0.285184, + "grad_norm": 0.5249813795089722, + "learning_rate": 1.8098773333333336e-05, + "loss": 0.0595, + "step": 44560 + }, + { + "epoch": 0.285216, + "grad_norm": 0.183882474899292, + "learning_rate": 1.809856e-05, + "loss": 0.0463, + "step": 44565 + }, + { + "epoch": 0.285248, + "grad_norm": 0.30259522795677185, + "learning_rate": 1.8098346666666668e-05, + "loss": 0.0537, + "step": 44570 + }, + { + "epoch": 0.28528, + "grad_norm": 0.6618534326553345, + "learning_rate": 1.8098133333333336e-05, + "loss": 0.0508, + "step": 44575 + }, + { + "epoch": 0.285312, + "grad_norm": 0.6471179127693176, + "learning_rate": 1.8097920000000003e-05, + "loss": 0.0593, + "step": 44580 + }, + { + "epoch": 0.285344, + "grad_norm": 0.8056643009185791, + "learning_rate": 1.8097706666666667e-05, + "loss": 0.0477, + "step": 44585 + }, + { + "epoch": 0.285376, + "grad_norm": 0.6557055711746216, + "learning_rate": 1.8097493333333335e-05, + "loss": 0.0696, + "step": 44590 + }, + { + "epoch": 0.285408, + "grad_norm": 0.9492830634117126, + "learning_rate": 1.8097280000000002e-05, + "loss": 0.0251, + "step": 44595 + }, + { + "epoch": 0.28544, + "grad_norm": 1.1931978464126587, + "learning_rate": 1.8097066666666667e-05, + "loss": 0.0518, + "step": 44600 + }, + { + "epoch": 0.285472, + "grad_norm": 0.7350897789001465, + "learning_rate": 1.8096853333333334e-05, + "loss": 0.0425, + "step": 44605 + }, + { + "epoch": 0.285504, + "grad_norm": 0.7536718249320984, + "learning_rate": 1.809664e-05, + "loss": 0.0427, + "step": 44610 + }, + { + "epoch": 0.285536, + "grad_norm": 0.5502808690071106, + "learning_rate": 1.809642666666667e-05, + "loss": 0.0514, + "step": 44615 + }, + { + "epoch": 0.285568, + "grad_norm": 1.0674859285354614, + "learning_rate": 1.8096213333333333e-05, + "loss": 0.0579, + "step": 44620 + }, + { + "epoch": 0.2856, + "grad_norm": 1.3309144973754883, + "learning_rate": 1.8096e-05, + "loss": 0.0563, + "step": 44625 + }, + { + "epoch": 0.285632, + "grad_norm": 0.4077426791191101, + "learning_rate": 1.809578666666667e-05, + "loss": 0.0436, + "step": 44630 + }, + { + "epoch": 0.285664, + "grad_norm": 0.7465991377830505, + "learning_rate": 1.8095573333333333e-05, + "loss": 0.0422, + "step": 44635 + }, + { + "epoch": 0.285696, + "grad_norm": 0.5293899774551392, + "learning_rate": 1.809536e-05, + "loss": 0.0536, + "step": 44640 + }, + { + "epoch": 0.285728, + "grad_norm": 0.5903986692428589, + "learning_rate": 1.8095146666666668e-05, + "loss": 0.0356, + "step": 44645 + }, + { + "epoch": 0.28576, + "grad_norm": 2.3005449771881104, + "learning_rate": 1.8094933333333335e-05, + "loss": 0.0428, + "step": 44650 + }, + { + "epoch": 0.285792, + "grad_norm": 1.2214124202728271, + "learning_rate": 1.8094720000000003e-05, + "loss": 0.0594, + "step": 44655 + }, + { + "epoch": 0.285824, + "grad_norm": 0.3037962317466736, + "learning_rate": 1.809450666666667e-05, + "loss": 0.0441, + "step": 44660 + }, + { + "epoch": 0.285856, + "grad_norm": 1.027956247329712, + "learning_rate": 1.8094293333333335e-05, + "loss": 0.0385, + "step": 44665 + }, + { + "epoch": 0.285888, + "grad_norm": 1.3088351488113403, + "learning_rate": 1.8094080000000002e-05, + "loss": 0.0612, + "step": 44670 + }, + { + "epoch": 0.28592, + "grad_norm": 1.1604167222976685, + "learning_rate": 1.809386666666667e-05, + "loss": 0.0344, + "step": 44675 + }, + { + "epoch": 0.285952, + "grad_norm": 0.6451662182807922, + "learning_rate": 1.8093653333333334e-05, + "loss": 0.0451, + "step": 44680 + }, + { + "epoch": 0.285984, + "grad_norm": 0.49565863609313965, + "learning_rate": 1.809344e-05, + "loss": 0.0307, + "step": 44685 + }, + { + "epoch": 0.286016, + "grad_norm": 0.5607346296310425, + "learning_rate": 1.809322666666667e-05, + "loss": 0.0503, + "step": 44690 + }, + { + "epoch": 0.286048, + "grad_norm": 0.7453646659851074, + "learning_rate": 1.8093013333333336e-05, + "loss": 0.0469, + "step": 44695 + }, + { + "epoch": 0.28608, + "grad_norm": 0.6876664161682129, + "learning_rate": 1.80928e-05, + "loss": 0.0596, + "step": 44700 + }, + { + "epoch": 0.286112, + "grad_norm": 0.6637036204338074, + "learning_rate": 1.8092586666666668e-05, + "loss": 0.0349, + "step": 44705 + }, + { + "epoch": 0.286144, + "grad_norm": 2.301759719848633, + "learning_rate": 1.8092373333333336e-05, + "loss": 0.0644, + "step": 44710 + }, + { + "epoch": 0.286176, + "grad_norm": 0.5281588435173035, + "learning_rate": 1.809216e-05, + "loss": 0.0674, + "step": 44715 + }, + { + "epoch": 0.286208, + "grad_norm": 1.0940806865692139, + "learning_rate": 1.8091946666666667e-05, + "loss": 0.0287, + "step": 44720 + }, + { + "epoch": 0.28624, + "grad_norm": 0.561234712600708, + "learning_rate": 1.8091733333333335e-05, + "loss": 0.0357, + "step": 44725 + }, + { + "epoch": 0.286272, + "grad_norm": 0.4748854637145996, + "learning_rate": 1.8091520000000003e-05, + "loss": 0.039, + "step": 44730 + }, + { + "epoch": 0.286304, + "grad_norm": 0.7101544141769409, + "learning_rate": 1.8091306666666667e-05, + "loss": 0.036, + "step": 44735 + }, + { + "epoch": 0.286336, + "grad_norm": 0.5680445432662964, + "learning_rate": 1.8091093333333334e-05, + "loss": 0.063, + "step": 44740 + }, + { + "epoch": 0.286368, + "grad_norm": 0.8129086494445801, + "learning_rate": 1.8090880000000002e-05, + "loss": 0.0794, + "step": 44745 + }, + { + "epoch": 0.2864, + "grad_norm": 0.9100473523139954, + "learning_rate": 1.8090666666666666e-05, + "loss": 0.0831, + "step": 44750 + }, + { + "epoch": 0.286432, + "grad_norm": 1.0001667737960815, + "learning_rate": 1.8090453333333337e-05, + "loss": 0.0472, + "step": 44755 + }, + { + "epoch": 0.286464, + "grad_norm": 0.5455600023269653, + "learning_rate": 1.809024e-05, + "loss": 0.0493, + "step": 44760 + }, + { + "epoch": 0.286496, + "grad_norm": 3.4408905506134033, + "learning_rate": 1.809002666666667e-05, + "loss": 0.0399, + "step": 44765 + }, + { + "epoch": 0.286528, + "grad_norm": 0.7078602313995361, + "learning_rate": 1.8089813333333336e-05, + "loss": 0.0519, + "step": 44770 + }, + { + "epoch": 0.28656, + "grad_norm": 1.9578417539596558, + "learning_rate": 1.80896e-05, + "loss": 0.07, + "step": 44775 + }, + { + "epoch": 0.286592, + "grad_norm": 0.38057205080986023, + "learning_rate": 1.8089386666666668e-05, + "loss": 0.0283, + "step": 44780 + }, + { + "epoch": 0.286624, + "grad_norm": 0.5556004047393799, + "learning_rate": 1.8089173333333336e-05, + "loss": 0.0454, + "step": 44785 + }, + { + "epoch": 0.286656, + "grad_norm": 0.9245356917381287, + "learning_rate": 1.8088960000000003e-05, + "loss": 0.0651, + "step": 44790 + }, + { + "epoch": 0.286688, + "grad_norm": 1.040581226348877, + "learning_rate": 1.8088746666666667e-05, + "loss": 0.0551, + "step": 44795 + }, + { + "epoch": 0.28672, + "grad_norm": 1.397645354270935, + "learning_rate": 1.8088533333333335e-05, + "loss": 0.0525, + "step": 44800 + }, + { + "epoch": 0.286752, + "grad_norm": 0.39053875207901, + "learning_rate": 1.8088320000000002e-05, + "loss": 0.0442, + "step": 44805 + }, + { + "epoch": 0.286784, + "grad_norm": 0.43503904342651367, + "learning_rate": 1.8088106666666667e-05, + "loss": 0.0299, + "step": 44810 + }, + { + "epoch": 0.286816, + "grad_norm": 0.9001756906509399, + "learning_rate": 1.8087893333333334e-05, + "loss": 0.0605, + "step": 44815 + }, + { + "epoch": 0.286848, + "grad_norm": 0.5055100917816162, + "learning_rate": 1.808768e-05, + "loss": 0.0354, + "step": 44820 + }, + { + "epoch": 0.28688, + "grad_norm": 0.5111318230628967, + "learning_rate": 1.808746666666667e-05, + "loss": 0.047, + "step": 44825 + }, + { + "epoch": 0.286912, + "grad_norm": 0.45012953877449036, + "learning_rate": 1.8087253333333333e-05, + "loss": 0.045, + "step": 44830 + }, + { + "epoch": 0.286944, + "grad_norm": 0.4205482304096222, + "learning_rate": 1.808704e-05, + "loss": 0.0425, + "step": 44835 + }, + { + "epoch": 0.286976, + "grad_norm": 0.4924546778202057, + "learning_rate": 1.808682666666667e-05, + "loss": 0.0363, + "step": 44840 + }, + { + "epoch": 0.287008, + "grad_norm": 1.3571171760559082, + "learning_rate": 1.8086613333333333e-05, + "loss": 0.0466, + "step": 44845 + }, + { + "epoch": 0.28704, + "grad_norm": 2.0443384647369385, + "learning_rate": 1.80864e-05, + "loss": 0.0681, + "step": 44850 + }, + { + "epoch": 0.287072, + "grad_norm": 0.7962938547134399, + "learning_rate": 1.8086186666666668e-05, + "loss": 0.0594, + "step": 44855 + }, + { + "epoch": 0.287104, + "grad_norm": 1.2161672115325928, + "learning_rate": 1.8085973333333335e-05, + "loss": 0.0518, + "step": 44860 + }, + { + "epoch": 0.287136, + "grad_norm": 0.30196112394332886, + "learning_rate": 1.808576e-05, + "loss": 0.0322, + "step": 44865 + }, + { + "epoch": 0.287168, + "grad_norm": 0.9226353764533997, + "learning_rate": 1.808554666666667e-05, + "loss": 0.0573, + "step": 44870 + }, + { + "epoch": 0.2872, + "grad_norm": 0.7409520149230957, + "learning_rate": 1.8085333333333335e-05, + "loss": 0.057, + "step": 44875 + }, + { + "epoch": 0.287232, + "grad_norm": 0.5716037750244141, + "learning_rate": 1.8085120000000002e-05, + "loss": 0.0293, + "step": 44880 + }, + { + "epoch": 0.287264, + "grad_norm": 1.3947196006774902, + "learning_rate": 1.808490666666667e-05, + "loss": 0.0478, + "step": 44885 + }, + { + "epoch": 0.287296, + "grad_norm": 0.961694061756134, + "learning_rate": 1.8084693333333334e-05, + "loss": 0.0321, + "step": 44890 + }, + { + "epoch": 0.287328, + "grad_norm": 0.44870850443840027, + "learning_rate": 1.808448e-05, + "loss": 0.0474, + "step": 44895 + }, + { + "epoch": 0.28736, + "grad_norm": 0.7013824582099915, + "learning_rate": 1.808426666666667e-05, + "loss": 0.0293, + "step": 44900 + }, + { + "epoch": 0.287392, + "grad_norm": 0.4914892613887787, + "learning_rate": 1.8084053333333336e-05, + "loss": 0.0332, + "step": 44905 + }, + { + "epoch": 0.287424, + "grad_norm": 2.0012869834899902, + "learning_rate": 1.808384e-05, + "loss": 0.0605, + "step": 44910 + }, + { + "epoch": 0.287456, + "grad_norm": 0.5405656695365906, + "learning_rate": 1.8083626666666668e-05, + "loss": 0.029, + "step": 44915 + }, + { + "epoch": 0.287488, + "grad_norm": 0.2725733518600464, + "learning_rate": 1.8083413333333336e-05, + "loss": 0.0587, + "step": 44920 + }, + { + "epoch": 0.28752, + "grad_norm": 0.4179522395133972, + "learning_rate": 1.80832e-05, + "loss": 0.0436, + "step": 44925 + }, + { + "epoch": 0.287552, + "grad_norm": 0.48577070236206055, + "learning_rate": 1.8082986666666667e-05, + "loss": 0.0305, + "step": 44930 + }, + { + "epoch": 0.287584, + "grad_norm": 0.6881075501441956, + "learning_rate": 1.8082773333333335e-05, + "loss": 0.0521, + "step": 44935 + }, + { + "epoch": 0.287616, + "grad_norm": 1.7558684349060059, + "learning_rate": 1.8082560000000003e-05, + "loss": 0.0752, + "step": 44940 + }, + { + "epoch": 0.287648, + "grad_norm": 3.0451056957244873, + "learning_rate": 1.8082346666666667e-05, + "loss": 0.0738, + "step": 44945 + }, + { + "epoch": 0.28768, + "grad_norm": 0.9146010875701904, + "learning_rate": 1.8082133333333334e-05, + "loss": 0.0529, + "step": 44950 + }, + { + "epoch": 0.287712, + "grad_norm": 0.14712177217006683, + "learning_rate": 1.8081920000000002e-05, + "loss": 0.0271, + "step": 44955 + }, + { + "epoch": 0.287744, + "grad_norm": 0.6975659728050232, + "learning_rate": 1.8081706666666666e-05, + "loss": 0.037, + "step": 44960 + }, + { + "epoch": 0.287776, + "grad_norm": 0.8314856886863708, + "learning_rate": 1.8081493333333337e-05, + "loss": 0.0391, + "step": 44965 + }, + { + "epoch": 0.287808, + "grad_norm": 0.46858909726142883, + "learning_rate": 1.808128e-05, + "loss": 0.0503, + "step": 44970 + }, + { + "epoch": 0.28784, + "grad_norm": 0.5634512901306152, + "learning_rate": 1.808106666666667e-05, + "loss": 0.051, + "step": 44975 + }, + { + "epoch": 0.287872, + "grad_norm": 1.100638508796692, + "learning_rate": 1.8080853333333336e-05, + "loss": 0.037, + "step": 44980 + }, + { + "epoch": 0.287904, + "grad_norm": 1.12317955493927, + "learning_rate": 1.808064e-05, + "loss": 0.0446, + "step": 44985 + }, + { + "epoch": 0.287936, + "grad_norm": 0.646494448184967, + "learning_rate": 1.8080426666666668e-05, + "loss": 0.0418, + "step": 44990 + }, + { + "epoch": 0.287968, + "grad_norm": 0.8223865032196045, + "learning_rate": 1.8080213333333336e-05, + "loss": 0.0699, + "step": 44995 + }, + { + "epoch": 0.288, + "grad_norm": 7.476203918457031, + "learning_rate": 1.8080000000000003e-05, + "loss": 0.0769, + "step": 45000 + }, + { + "epoch": 0.288032, + "grad_norm": 0.6403499841690063, + "learning_rate": 1.8079786666666667e-05, + "loss": 0.0568, + "step": 45005 + }, + { + "epoch": 0.288064, + "grad_norm": 0.9437635540962219, + "learning_rate": 1.8079573333333335e-05, + "loss": 0.0394, + "step": 45010 + }, + { + "epoch": 0.288096, + "grad_norm": 0.9659838080406189, + "learning_rate": 1.8079360000000002e-05, + "loss": 0.0299, + "step": 45015 + }, + { + "epoch": 0.288128, + "grad_norm": 0.7824519872665405, + "learning_rate": 1.8079146666666667e-05, + "loss": 0.0597, + "step": 45020 + }, + { + "epoch": 0.28816, + "grad_norm": 0.5708062052726746, + "learning_rate": 1.8078933333333334e-05, + "loss": 0.0332, + "step": 45025 + }, + { + "epoch": 0.288192, + "grad_norm": 0.38167983293533325, + "learning_rate": 1.807872e-05, + "loss": 0.037, + "step": 45030 + }, + { + "epoch": 0.288224, + "grad_norm": 0.8381344676017761, + "learning_rate": 1.807850666666667e-05, + "loss": 0.0493, + "step": 45035 + }, + { + "epoch": 0.288256, + "grad_norm": 0.4251399338245392, + "learning_rate": 1.8078293333333333e-05, + "loss": 0.023, + "step": 45040 + }, + { + "epoch": 0.288288, + "grad_norm": 0.4729475677013397, + "learning_rate": 1.807808e-05, + "loss": 0.0304, + "step": 45045 + }, + { + "epoch": 0.28832, + "grad_norm": 1.009531855583191, + "learning_rate": 1.807786666666667e-05, + "loss": 0.0352, + "step": 45050 + }, + { + "epoch": 0.288352, + "grad_norm": 0.4847300946712494, + "learning_rate": 1.8077653333333333e-05, + "loss": 0.0343, + "step": 45055 + }, + { + "epoch": 0.288384, + "grad_norm": 1.1282497644424438, + "learning_rate": 1.807744e-05, + "loss": 0.0382, + "step": 45060 + }, + { + "epoch": 0.288416, + "grad_norm": 0.290508896112442, + "learning_rate": 1.8077226666666668e-05, + "loss": 0.0276, + "step": 45065 + }, + { + "epoch": 0.288448, + "grad_norm": 0.779780387878418, + "learning_rate": 1.8077013333333335e-05, + "loss": 0.0364, + "step": 45070 + }, + { + "epoch": 0.28848, + "grad_norm": 0.5857591032981873, + "learning_rate": 1.80768e-05, + "loss": 0.035, + "step": 45075 + }, + { + "epoch": 0.288512, + "grad_norm": 0.7224919199943542, + "learning_rate": 1.807658666666667e-05, + "loss": 0.0531, + "step": 45080 + }, + { + "epoch": 0.288544, + "grad_norm": 0.9172958731651306, + "learning_rate": 1.8076373333333335e-05, + "loss": 0.0461, + "step": 45085 + }, + { + "epoch": 0.288576, + "grad_norm": 0.7763782143592834, + "learning_rate": 1.807616e-05, + "loss": 0.0484, + "step": 45090 + }, + { + "epoch": 0.288608, + "grad_norm": 0.45945796370506287, + "learning_rate": 1.807594666666667e-05, + "loss": 0.0451, + "step": 45095 + }, + { + "epoch": 0.28864, + "grad_norm": 1.5424773693084717, + "learning_rate": 1.8075733333333334e-05, + "loss": 0.0458, + "step": 45100 + }, + { + "epoch": 0.288672, + "grad_norm": 0.12482379376888275, + "learning_rate": 1.807552e-05, + "loss": 0.0335, + "step": 45105 + }, + { + "epoch": 0.288704, + "grad_norm": 0.40508249402046204, + "learning_rate": 1.807530666666667e-05, + "loss": 0.0301, + "step": 45110 + }, + { + "epoch": 0.288736, + "grad_norm": 1.3283723592758179, + "learning_rate": 1.8075093333333336e-05, + "loss": 0.0351, + "step": 45115 + }, + { + "epoch": 0.288768, + "grad_norm": 1.5550928115844727, + "learning_rate": 1.807488e-05, + "loss": 0.042, + "step": 45120 + }, + { + "epoch": 0.2888, + "grad_norm": 1.0278124809265137, + "learning_rate": 1.8074666666666668e-05, + "loss": 0.0612, + "step": 45125 + }, + { + "epoch": 0.288832, + "grad_norm": 1.0184797048568726, + "learning_rate": 1.8074453333333336e-05, + "loss": 0.0524, + "step": 45130 + }, + { + "epoch": 0.288864, + "grad_norm": 0.7115699052810669, + "learning_rate": 1.807424e-05, + "loss": 0.0305, + "step": 45135 + }, + { + "epoch": 0.288896, + "grad_norm": 1.1798837184906006, + "learning_rate": 1.8074026666666667e-05, + "loss": 0.0367, + "step": 45140 + }, + { + "epoch": 0.288928, + "grad_norm": 0.9257495403289795, + "learning_rate": 1.8073813333333335e-05, + "loss": 0.0451, + "step": 45145 + }, + { + "epoch": 0.28896, + "grad_norm": 0.8464521765708923, + "learning_rate": 1.8073600000000003e-05, + "loss": 0.0254, + "step": 45150 + }, + { + "epoch": 0.288992, + "grad_norm": 0.8833948373794556, + "learning_rate": 1.8073386666666667e-05, + "loss": 0.0549, + "step": 45155 + }, + { + "epoch": 0.289024, + "grad_norm": 0.6572543382644653, + "learning_rate": 1.8073173333333334e-05, + "loss": 0.0432, + "step": 45160 + }, + { + "epoch": 0.289056, + "grad_norm": 2.1882095336914062, + "learning_rate": 1.8072960000000002e-05, + "loss": 0.0671, + "step": 45165 + }, + { + "epoch": 0.289088, + "grad_norm": 0.7631406188011169, + "learning_rate": 1.8072746666666666e-05, + "loss": 0.0541, + "step": 45170 + }, + { + "epoch": 0.28912, + "grad_norm": 0.1096685603260994, + "learning_rate": 1.8072533333333334e-05, + "loss": 0.0346, + "step": 45175 + }, + { + "epoch": 0.289152, + "grad_norm": 0.6891171932220459, + "learning_rate": 1.807232e-05, + "loss": 0.0431, + "step": 45180 + }, + { + "epoch": 0.289184, + "grad_norm": 1.0019643306732178, + "learning_rate": 1.807210666666667e-05, + "loss": 0.0406, + "step": 45185 + }, + { + "epoch": 0.289216, + "grad_norm": 2.0283472537994385, + "learning_rate": 1.8071893333333336e-05, + "loss": 0.0391, + "step": 45190 + }, + { + "epoch": 0.289248, + "grad_norm": 1.2502232789993286, + "learning_rate": 1.8071680000000004e-05, + "loss": 0.0366, + "step": 45195 + }, + { + "epoch": 0.28928, + "grad_norm": 0.31668609380722046, + "learning_rate": 1.8071466666666668e-05, + "loss": 0.0587, + "step": 45200 + }, + { + "epoch": 0.289312, + "grad_norm": 0.5601121187210083, + "learning_rate": 1.8071253333333336e-05, + "loss": 0.0389, + "step": 45205 + }, + { + "epoch": 0.289344, + "grad_norm": 0.5467609167098999, + "learning_rate": 1.8071040000000003e-05, + "loss": 0.0594, + "step": 45210 + }, + { + "epoch": 0.289376, + "grad_norm": 1.0902701616287231, + "learning_rate": 1.8070826666666667e-05, + "loss": 0.0327, + "step": 45215 + }, + { + "epoch": 0.289408, + "grad_norm": 1.2088067531585693, + "learning_rate": 1.8070613333333335e-05, + "loss": 0.0402, + "step": 45220 + }, + { + "epoch": 0.28944, + "grad_norm": 3.7809433937072754, + "learning_rate": 1.8070400000000002e-05, + "loss": 0.0422, + "step": 45225 + }, + { + "epoch": 0.289472, + "grad_norm": 0.0857933759689331, + "learning_rate": 1.807018666666667e-05, + "loss": 0.0372, + "step": 45230 + }, + { + "epoch": 0.289504, + "grad_norm": 0.5918318629264832, + "learning_rate": 1.8069973333333334e-05, + "loss": 0.0676, + "step": 45235 + }, + { + "epoch": 0.289536, + "grad_norm": 0.6489917039871216, + "learning_rate": 1.806976e-05, + "loss": 0.0388, + "step": 45240 + }, + { + "epoch": 0.289568, + "grad_norm": 0.5786802768707275, + "learning_rate": 1.806954666666667e-05, + "loss": 0.0247, + "step": 45245 + }, + { + "epoch": 0.2896, + "grad_norm": 1.2051626443862915, + "learning_rate": 1.8069333333333333e-05, + "loss": 0.0577, + "step": 45250 + }, + { + "epoch": 0.289632, + "grad_norm": 0.48701557517051697, + "learning_rate": 1.806912e-05, + "loss": 0.0523, + "step": 45255 + }, + { + "epoch": 0.289664, + "grad_norm": 0.5461018681526184, + "learning_rate": 1.806890666666667e-05, + "loss": 0.0745, + "step": 45260 + }, + { + "epoch": 0.289696, + "grad_norm": 0.4561087489128113, + "learning_rate": 1.8068693333333336e-05, + "loss": 0.038, + "step": 45265 + }, + { + "epoch": 0.289728, + "grad_norm": 1.1868571043014526, + "learning_rate": 1.806848e-05, + "loss": 0.0575, + "step": 45270 + }, + { + "epoch": 0.28976, + "grad_norm": 1.7752711772918701, + "learning_rate": 1.8068266666666668e-05, + "loss": 0.0547, + "step": 45275 + }, + { + "epoch": 0.289792, + "grad_norm": 1.9946519136428833, + "learning_rate": 1.8068053333333335e-05, + "loss": 0.0954, + "step": 45280 + }, + { + "epoch": 0.289824, + "grad_norm": 0.5643043518066406, + "learning_rate": 1.806784e-05, + "loss": 0.0553, + "step": 45285 + }, + { + "epoch": 0.289856, + "grad_norm": 0.5972665548324585, + "learning_rate": 1.806762666666667e-05, + "loss": 0.0382, + "step": 45290 + }, + { + "epoch": 0.289888, + "grad_norm": 1.0429311990737915, + "learning_rate": 1.8067413333333335e-05, + "loss": 0.0594, + "step": 45295 + }, + { + "epoch": 0.28992, + "grad_norm": 0.7153148651123047, + "learning_rate": 1.8067200000000002e-05, + "loss": 0.0314, + "step": 45300 + }, + { + "epoch": 0.289952, + "grad_norm": 1.2242538928985596, + "learning_rate": 1.806698666666667e-05, + "loss": 0.07, + "step": 45305 + }, + { + "epoch": 0.289984, + "grad_norm": 0.611573338508606, + "learning_rate": 1.8066773333333334e-05, + "loss": 0.0382, + "step": 45310 + }, + { + "epoch": 0.290016, + "grad_norm": 0.38563504815101624, + "learning_rate": 1.806656e-05, + "loss": 0.0444, + "step": 45315 + }, + { + "epoch": 0.290048, + "grad_norm": 0.7165971994400024, + "learning_rate": 1.806634666666667e-05, + "loss": 0.0554, + "step": 45320 + }, + { + "epoch": 0.29008, + "grad_norm": 0.6240365505218506, + "learning_rate": 1.8066133333333336e-05, + "loss": 0.0473, + "step": 45325 + }, + { + "epoch": 0.290112, + "grad_norm": 0.9965169429779053, + "learning_rate": 1.806592e-05, + "loss": 0.0359, + "step": 45330 + }, + { + "epoch": 0.290144, + "grad_norm": 1.2974584102630615, + "learning_rate": 1.8065706666666668e-05, + "loss": 0.0801, + "step": 45335 + }, + { + "epoch": 0.290176, + "grad_norm": 0.25320756435394287, + "learning_rate": 1.8065493333333336e-05, + "loss": 0.0329, + "step": 45340 + }, + { + "epoch": 0.290208, + "grad_norm": 0.8243769407272339, + "learning_rate": 1.806528e-05, + "loss": 0.0435, + "step": 45345 + }, + { + "epoch": 0.29024, + "grad_norm": 1.2521047592163086, + "learning_rate": 1.8065066666666667e-05, + "loss": 0.0366, + "step": 45350 + }, + { + "epoch": 0.290272, + "grad_norm": 0.48258736729621887, + "learning_rate": 1.8064853333333335e-05, + "loss": 0.0709, + "step": 45355 + }, + { + "epoch": 0.290304, + "grad_norm": 0.46501508355140686, + "learning_rate": 1.8064640000000003e-05, + "loss": 0.0259, + "step": 45360 + }, + { + "epoch": 0.290336, + "grad_norm": 1.130125641822815, + "learning_rate": 1.8064426666666667e-05, + "loss": 0.0498, + "step": 45365 + }, + { + "epoch": 0.290368, + "grad_norm": 0.6930393576622009, + "learning_rate": 1.8064213333333334e-05, + "loss": 0.0465, + "step": 45370 + }, + { + "epoch": 0.2904, + "grad_norm": 0.8115218281745911, + "learning_rate": 1.8064000000000002e-05, + "loss": 0.068, + "step": 45375 + }, + { + "epoch": 0.290432, + "grad_norm": 0.7203271985054016, + "learning_rate": 1.8063786666666666e-05, + "loss": 0.0592, + "step": 45380 + }, + { + "epoch": 0.290464, + "grad_norm": 0.4592670500278473, + "learning_rate": 1.8063573333333334e-05, + "loss": 0.0408, + "step": 45385 + }, + { + "epoch": 0.290496, + "grad_norm": 0.958148181438446, + "learning_rate": 1.806336e-05, + "loss": 0.0629, + "step": 45390 + }, + { + "epoch": 0.290528, + "grad_norm": 0.841934084892273, + "learning_rate": 1.806314666666667e-05, + "loss": 0.0342, + "step": 45395 + }, + { + "epoch": 0.29056, + "grad_norm": 0.8719661831855774, + "learning_rate": 1.8062933333333333e-05, + "loss": 0.0513, + "step": 45400 + }, + { + "epoch": 0.290592, + "grad_norm": 0.6061089038848877, + "learning_rate": 1.8062720000000004e-05, + "loss": 0.0554, + "step": 45405 + }, + { + "epoch": 0.290624, + "grad_norm": 1.7464723587036133, + "learning_rate": 1.8062506666666668e-05, + "loss": 0.0849, + "step": 45410 + }, + { + "epoch": 0.290656, + "grad_norm": 0.7762646079063416, + "learning_rate": 1.8062293333333336e-05, + "loss": 0.0378, + "step": 45415 + }, + { + "epoch": 0.290688, + "grad_norm": 0.6711172461509705, + "learning_rate": 1.8062080000000003e-05, + "loss": 0.0503, + "step": 45420 + }, + { + "epoch": 0.29072, + "grad_norm": 1.0938502550125122, + "learning_rate": 1.8061866666666667e-05, + "loss": 0.0361, + "step": 45425 + }, + { + "epoch": 0.290752, + "grad_norm": 0.7626482844352722, + "learning_rate": 1.8061653333333335e-05, + "loss": 0.0347, + "step": 45430 + }, + { + "epoch": 0.290784, + "grad_norm": 1.6902295351028442, + "learning_rate": 1.8061440000000002e-05, + "loss": 0.0732, + "step": 45435 + }, + { + "epoch": 0.290816, + "grad_norm": 0.3742796778678894, + "learning_rate": 1.806122666666667e-05, + "loss": 0.0568, + "step": 45440 + }, + { + "epoch": 0.290848, + "grad_norm": 0.4164506196975708, + "learning_rate": 1.8061013333333334e-05, + "loss": 0.0569, + "step": 45445 + }, + { + "epoch": 0.29088, + "grad_norm": 3.883697271347046, + "learning_rate": 1.80608e-05, + "loss": 0.0475, + "step": 45450 + }, + { + "epoch": 0.290912, + "grad_norm": 0.9162570834159851, + "learning_rate": 1.806058666666667e-05, + "loss": 0.0498, + "step": 45455 + }, + { + "epoch": 0.290944, + "grad_norm": 0.7413417100906372, + "learning_rate": 1.8060373333333333e-05, + "loss": 0.0486, + "step": 45460 + }, + { + "epoch": 0.290976, + "grad_norm": 0.43005093932151794, + "learning_rate": 1.806016e-05, + "loss": 0.051, + "step": 45465 + }, + { + "epoch": 0.291008, + "grad_norm": 0.9010236859321594, + "learning_rate": 1.805994666666667e-05, + "loss": 0.0735, + "step": 45470 + }, + { + "epoch": 0.29104, + "grad_norm": 1.2599514722824097, + "learning_rate": 1.8059733333333336e-05, + "loss": 0.063, + "step": 45475 + }, + { + "epoch": 0.291072, + "grad_norm": 0.6568924188613892, + "learning_rate": 1.805952e-05, + "loss": 0.0463, + "step": 45480 + }, + { + "epoch": 0.291104, + "grad_norm": 0.8321959376335144, + "learning_rate": 1.8059306666666668e-05, + "loss": 0.0415, + "step": 45485 + }, + { + "epoch": 0.291136, + "grad_norm": 0.6269893646240234, + "learning_rate": 1.8059093333333335e-05, + "loss": 0.0476, + "step": 45490 + }, + { + "epoch": 0.291168, + "grad_norm": 0.8420646786689758, + "learning_rate": 1.805888e-05, + "loss": 0.0379, + "step": 45495 + }, + { + "epoch": 0.2912, + "grad_norm": 1.5853770971298218, + "learning_rate": 1.805866666666667e-05, + "loss": 0.0383, + "step": 45500 + }, + { + "epoch": 0.291232, + "grad_norm": 0.48017945885658264, + "learning_rate": 1.8058453333333335e-05, + "loss": 0.03, + "step": 45505 + }, + { + "epoch": 0.291264, + "grad_norm": 0.8835662007331848, + "learning_rate": 1.8058240000000002e-05, + "loss": 0.0529, + "step": 45510 + }, + { + "epoch": 0.291296, + "grad_norm": 0.5376654267311096, + "learning_rate": 1.805802666666667e-05, + "loss": 0.0482, + "step": 45515 + }, + { + "epoch": 0.291328, + "grad_norm": 0.7225426435470581, + "learning_rate": 1.8057813333333334e-05, + "loss": 0.0405, + "step": 45520 + }, + { + "epoch": 0.29136, + "grad_norm": 0.39888352155685425, + "learning_rate": 1.80576e-05, + "loss": 0.0228, + "step": 45525 + }, + { + "epoch": 0.291392, + "grad_norm": 0.8323450088500977, + "learning_rate": 1.805738666666667e-05, + "loss": 0.0414, + "step": 45530 + }, + { + "epoch": 0.291424, + "grad_norm": 0.4134298264980316, + "learning_rate": 1.8057173333333337e-05, + "loss": 0.0362, + "step": 45535 + }, + { + "epoch": 0.291456, + "grad_norm": 0.9680378437042236, + "learning_rate": 1.805696e-05, + "loss": 0.0481, + "step": 45540 + }, + { + "epoch": 0.291488, + "grad_norm": 1.0808318853378296, + "learning_rate": 1.8056746666666668e-05, + "loss": 0.0827, + "step": 45545 + }, + { + "epoch": 0.29152, + "grad_norm": 0.5306796431541443, + "learning_rate": 1.8056533333333336e-05, + "loss": 0.0682, + "step": 45550 + }, + { + "epoch": 0.291552, + "grad_norm": 0.7436123490333557, + "learning_rate": 1.805632e-05, + "loss": 0.027, + "step": 45555 + }, + { + "epoch": 0.291584, + "grad_norm": 1.1080832481384277, + "learning_rate": 1.8056106666666667e-05, + "loss": 0.041, + "step": 45560 + }, + { + "epoch": 0.291616, + "grad_norm": 0.6468637585639954, + "learning_rate": 1.8055893333333335e-05, + "loss": 0.0518, + "step": 45565 + }, + { + "epoch": 0.291648, + "grad_norm": 0.27126485109329224, + "learning_rate": 1.8055680000000003e-05, + "loss": 0.0301, + "step": 45570 + }, + { + "epoch": 0.29168, + "grad_norm": 1.255271077156067, + "learning_rate": 1.8055466666666667e-05, + "loss": 0.0439, + "step": 45575 + }, + { + "epoch": 0.291712, + "grad_norm": 1.0281672477722168, + "learning_rate": 1.8055253333333334e-05, + "loss": 0.0451, + "step": 45580 + }, + { + "epoch": 0.291744, + "grad_norm": 3.096620798110962, + "learning_rate": 1.8055040000000002e-05, + "loss": 0.046, + "step": 45585 + }, + { + "epoch": 0.291776, + "grad_norm": 9.448648452758789, + "learning_rate": 1.8054826666666666e-05, + "loss": 0.0795, + "step": 45590 + }, + { + "epoch": 0.291808, + "grad_norm": 1.0677870512008667, + "learning_rate": 1.8054613333333334e-05, + "loss": 0.0404, + "step": 45595 + }, + { + "epoch": 0.29184, + "grad_norm": 0.9838784337043762, + "learning_rate": 1.80544e-05, + "loss": 0.0377, + "step": 45600 + }, + { + "epoch": 0.291872, + "grad_norm": 0.6474434733390808, + "learning_rate": 1.805418666666667e-05, + "loss": 0.0466, + "step": 45605 + }, + { + "epoch": 0.291904, + "grad_norm": 0.9111905097961426, + "learning_rate": 1.8053973333333333e-05, + "loss": 0.0452, + "step": 45610 + }, + { + "epoch": 0.291936, + "grad_norm": 0.8714538812637329, + "learning_rate": 1.8053760000000004e-05, + "loss": 0.0501, + "step": 45615 + }, + { + "epoch": 0.291968, + "grad_norm": 0.45481786131858826, + "learning_rate": 1.8053546666666668e-05, + "loss": 0.0424, + "step": 45620 + }, + { + "epoch": 0.292, + "grad_norm": 3.047989845275879, + "learning_rate": 1.8053333333333332e-05, + "loss": 0.0522, + "step": 45625 + }, + { + "epoch": 0.292032, + "grad_norm": 0.27402299642562866, + "learning_rate": 1.8053120000000003e-05, + "loss": 0.035, + "step": 45630 + }, + { + "epoch": 0.292064, + "grad_norm": 0.21852841973304749, + "learning_rate": 1.8052906666666667e-05, + "loss": 0.024, + "step": 45635 + }, + { + "epoch": 0.292096, + "grad_norm": 0.8354686498641968, + "learning_rate": 1.8052693333333335e-05, + "loss": 0.0518, + "step": 45640 + }, + { + "epoch": 0.292128, + "grad_norm": 0.5079367160797119, + "learning_rate": 1.8052480000000002e-05, + "loss": 0.0814, + "step": 45645 + }, + { + "epoch": 0.29216, + "grad_norm": 1.666960597038269, + "learning_rate": 1.805226666666667e-05, + "loss": 0.0493, + "step": 45650 + }, + { + "epoch": 0.292192, + "grad_norm": 0.5168495178222656, + "learning_rate": 1.8052053333333334e-05, + "loss": 0.0389, + "step": 45655 + }, + { + "epoch": 0.292224, + "grad_norm": 3.5683934688568115, + "learning_rate": 1.805184e-05, + "loss": 0.0638, + "step": 45660 + }, + { + "epoch": 0.292256, + "grad_norm": 1.4836843013763428, + "learning_rate": 1.805162666666667e-05, + "loss": 0.0906, + "step": 45665 + }, + { + "epoch": 0.292288, + "grad_norm": 0.8657978773117065, + "learning_rate": 1.8051413333333333e-05, + "loss": 0.0344, + "step": 45670 + }, + { + "epoch": 0.29232, + "grad_norm": 1.3668876886367798, + "learning_rate": 1.80512e-05, + "loss": 0.056, + "step": 45675 + }, + { + "epoch": 0.292352, + "grad_norm": 0.9986554980278015, + "learning_rate": 1.805098666666667e-05, + "loss": 0.0399, + "step": 45680 + }, + { + "epoch": 0.292384, + "grad_norm": 1.027547001838684, + "learning_rate": 1.8050773333333336e-05, + "loss": 0.0493, + "step": 45685 + }, + { + "epoch": 0.292416, + "grad_norm": 0.8075395226478577, + "learning_rate": 1.805056e-05, + "loss": 0.0459, + "step": 45690 + }, + { + "epoch": 0.292448, + "grad_norm": 0.6552127003669739, + "learning_rate": 1.8050346666666668e-05, + "loss": 0.0618, + "step": 45695 + }, + { + "epoch": 0.29248, + "grad_norm": 1.4766366481781006, + "learning_rate": 1.8050133333333335e-05, + "loss": 0.0356, + "step": 45700 + }, + { + "epoch": 0.292512, + "grad_norm": 1.8931628465652466, + "learning_rate": 1.804992e-05, + "loss": 0.057, + "step": 45705 + }, + { + "epoch": 0.292544, + "grad_norm": 0.40015870332717896, + "learning_rate": 1.8049706666666667e-05, + "loss": 0.0301, + "step": 45710 + }, + { + "epoch": 0.292576, + "grad_norm": 1.021660327911377, + "learning_rate": 1.8049493333333335e-05, + "loss": 0.033, + "step": 45715 + }, + { + "epoch": 0.292608, + "grad_norm": 0.6975480914115906, + "learning_rate": 1.8049280000000002e-05, + "loss": 0.0495, + "step": 45720 + }, + { + "epoch": 0.29264, + "grad_norm": 1.0764844417572021, + "learning_rate": 1.804906666666667e-05, + "loss": 0.0311, + "step": 45725 + }, + { + "epoch": 0.292672, + "grad_norm": 0.17351354658603668, + "learning_rate": 1.8048853333333334e-05, + "loss": 0.0378, + "step": 45730 + }, + { + "epoch": 0.292704, + "grad_norm": 0.2358860820531845, + "learning_rate": 1.804864e-05, + "loss": 0.0257, + "step": 45735 + }, + { + "epoch": 0.292736, + "grad_norm": 0.5702427625656128, + "learning_rate": 1.804842666666667e-05, + "loss": 0.0433, + "step": 45740 + }, + { + "epoch": 0.292768, + "grad_norm": 0.7191987633705139, + "learning_rate": 1.8048213333333337e-05, + "loss": 0.0337, + "step": 45745 + }, + { + "epoch": 0.2928, + "grad_norm": 0.7045296430587769, + "learning_rate": 1.8048e-05, + "loss": 0.0682, + "step": 45750 + }, + { + "epoch": 0.292832, + "grad_norm": 1.1042523384094238, + "learning_rate": 1.8047786666666668e-05, + "loss": 0.0433, + "step": 45755 + }, + { + "epoch": 0.292864, + "grad_norm": 0.4709644019603729, + "learning_rate": 1.8047573333333336e-05, + "loss": 0.0308, + "step": 45760 + }, + { + "epoch": 0.292896, + "grad_norm": 1.4247779846191406, + "learning_rate": 1.804736e-05, + "loss": 0.0631, + "step": 45765 + }, + { + "epoch": 0.292928, + "grad_norm": 1.5568259954452515, + "learning_rate": 1.8047146666666668e-05, + "loss": 0.0525, + "step": 45770 + }, + { + "epoch": 0.29296, + "grad_norm": 2.0786361694335938, + "learning_rate": 1.8046933333333335e-05, + "loss": 0.0414, + "step": 45775 + }, + { + "epoch": 0.292992, + "grad_norm": 0.6622222661972046, + "learning_rate": 1.8046720000000003e-05, + "loss": 0.036, + "step": 45780 + }, + { + "epoch": 0.293024, + "grad_norm": 0.6750735640525818, + "learning_rate": 1.8046506666666667e-05, + "loss": 0.0798, + "step": 45785 + }, + { + "epoch": 0.293056, + "grad_norm": 0.8328492641448975, + "learning_rate": 1.8046293333333334e-05, + "loss": 0.0529, + "step": 45790 + }, + { + "epoch": 0.293088, + "grad_norm": 0.1059088185429573, + "learning_rate": 1.8046080000000002e-05, + "loss": 0.0236, + "step": 45795 + }, + { + "epoch": 0.29312, + "grad_norm": 1.1332898139953613, + "learning_rate": 1.8045866666666666e-05, + "loss": 0.0338, + "step": 45800 + }, + { + "epoch": 0.293152, + "grad_norm": 0.5448107123374939, + "learning_rate": 1.8045653333333334e-05, + "loss": 0.0526, + "step": 45805 + }, + { + "epoch": 0.293184, + "grad_norm": 0.8958110213279724, + "learning_rate": 1.804544e-05, + "loss": 0.0374, + "step": 45810 + }, + { + "epoch": 0.293216, + "grad_norm": 0.22059792280197144, + "learning_rate": 1.804522666666667e-05, + "loss": 0.0325, + "step": 45815 + }, + { + "epoch": 0.293248, + "grad_norm": 0.8397665023803711, + "learning_rate": 1.8045013333333333e-05, + "loss": 0.0685, + "step": 45820 + }, + { + "epoch": 0.29328, + "grad_norm": 1.2126336097717285, + "learning_rate": 1.8044800000000004e-05, + "loss": 0.0412, + "step": 45825 + }, + { + "epoch": 0.293312, + "grad_norm": 2.4128501415252686, + "learning_rate": 1.8044586666666668e-05, + "loss": 0.0337, + "step": 45830 + }, + { + "epoch": 0.293344, + "grad_norm": 1.0280790328979492, + "learning_rate": 1.8044373333333332e-05, + "loss": 0.0627, + "step": 45835 + }, + { + "epoch": 0.293376, + "grad_norm": 0.8299720883369446, + "learning_rate": 1.8044160000000003e-05, + "loss": 0.0328, + "step": 45840 + }, + { + "epoch": 0.293408, + "grad_norm": 0.8882641792297363, + "learning_rate": 1.8043946666666667e-05, + "loss": 0.0473, + "step": 45845 + }, + { + "epoch": 0.29344, + "grad_norm": 0.2409803420305252, + "learning_rate": 1.8043733333333335e-05, + "loss": 0.0389, + "step": 45850 + }, + { + "epoch": 0.293472, + "grad_norm": 0.3977406322956085, + "learning_rate": 1.8043520000000002e-05, + "loss": 0.041, + "step": 45855 + }, + { + "epoch": 0.293504, + "grad_norm": 0.5486755967140198, + "learning_rate": 1.804330666666667e-05, + "loss": 0.0497, + "step": 45860 + }, + { + "epoch": 0.293536, + "grad_norm": 0.8675248026847839, + "learning_rate": 1.8043093333333334e-05, + "loss": 0.0261, + "step": 45865 + }, + { + "epoch": 0.293568, + "grad_norm": 0.6588442921638489, + "learning_rate": 1.804288e-05, + "loss": 0.0451, + "step": 45870 + }, + { + "epoch": 0.2936, + "grad_norm": 1.7344063520431519, + "learning_rate": 1.804266666666667e-05, + "loss": 0.0402, + "step": 45875 + }, + { + "epoch": 0.293632, + "grad_norm": 0.3171285390853882, + "learning_rate": 1.8042453333333333e-05, + "loss": 0.0457, + "step": 45880 + }, + { + "epoch": 0.293664, + "grad_norm": 1.0892409086227417, + "learning_rate": 1.804224e-05, + "loss": 0.0495, + "step": 45885 + }, + { + "epoch": 0.293696, + "grad_norm": 0.5616400837898254, + "learning_rate": 1.804202666666667e-05, + "loss": 0.0302, + "step": 45890 + }, + { + "epoch": 0.293728, + "grad_norm": 0.5733668208122253, + "learning_rate": 1.8041813333333336e-05, + "loss": 0.0275, + "step": 45895 + }, + { + "epoch": 0.29376, + "grad_norm": 0.45320165157318115, + "learning_rate": 1.80416e-05, + "loss": 0.0315, + "step": 45900 + }, + { + "epoch": 0.293792, + "grad_norm": 0.30092498660087585, + "learning_rate": 1.8041386666666668e-05, + "loss": 0.0287, + "step": 45905 + }, + { + "epoch": 0.293824, + "grad_norm": 1.0792961120605469, + "learning_rate": 1.8041173333333335e-05, + "loss": 0.0443, + "step": 45910 + }, + { + "epoch": 0.293856, + "grad_norm": 0.7816293239593506, + "learning_rate": 1.804096e-05, + "loss": 0.031, + "step": 45915 + }, + { + "epoch": 0.293888, + "grad_norm": 2.064725160598755, + "learning_rate": 1.8040746666666667e-05, + "loss": 0.0915, + "step": 45920 + }, + { + "epoch": 0.29392, + "grad_norm": 0.5254203677177429, + "learning_rate": 1.8040533333333335e-05, + "loss": 0.035, + "step": 45925 + }, + { + "epoch": 0.293952, + "grad_norm": 0.676195502281189, + "learning_rate": 1.8040320000000002e-05, + "loss": 0.039, + "step": 45930 + }, + { + "epoch": 0.293984, + "grad_norm": 0.6475616693496704, + "learning_rate": 1.8040106666666666e-05, + "loss": 0.0609, + "step": 45935 + }, + { + "epoch": 0.294016, + "grad_norm": 1.128392219543457, + "learning_rate": 1.8039893333333334e-05, + "loss": 0.0468, + "step": 45940 + }, + { + "epoch": 0.294048, + "grad_norm": 0.7088425159454346, + "learning_rate": 1.803968e-05, + "loss": 0.0662, + "step": 45945 + }, + { + "epoch": 0.29408, + "grad_norm": 1.1783881187438965, + "learning_rate": 1.803946666666667e-05, + "loss": 0.0554, + "step": 45950 + }, + { + "epoch": 0.294112, + "grad_norm": 0.46285760402679443, + "learning_rate": 1.8039253333333337e-05, + "loss": 0.0258, + "step": 45955 + }, + { + "epoch": 0.294144, + "grad_norm": 0.439694344997406, + "learning_rate": 1.803904e-05, + "loss": 0.047, + "step": 45960 + }, + { + "epoch": 0.294176, + "grad_norm": 0.6809619069099426, + "learning_rate": 1.8038826666666668e-05, + "loss": 0.0318, + "step": 45965 + }, + { + "epoch": 0.294208, + "grad_norm": 1.482590913772583, + "learning_rate": 1.8038613333333336e-05, + "loss": 0.0429, + "step": 45970 + }, + { + "epoch": 0.29424, + "grad_norm": 1.621700406074524, + "learning_rate": 1.8038400000000003e-05, + "loss": 0.0311, + "step": 45975 + }, + { + "epoch": 0.294272, + "grad_norm": 0.6094447374343872, + "learning_rate": 1.8038186666666668e-05, + "loss": 0.0304, + "step": 45980 + }, + { + "epoch": 0.294304, + "grad_norm": 0.342389315366745, + "learning_rate": 1.8037973333333335e-05, + "loss": 0.0454, + "step": 45985 + }, + { + "epoch": 0.294336, + "grad_norm": 0.736065149307251, + "learning_rate": 1.8037760000000003e-05, + "loss": 0.035, + "step": 45990 + }, + { + "epoch": 0.294368, + "grad_norm": 0.788842499256134, + "learning_rate": 1.8037546666666667e-05, + "loss": 0.0339, + "step": 45995 + }, + { + "epoch": 0.2944, + "grad_norm": 0.9214563965797424, + "learning_rate": 1.8037333333333334e-05, + "loss": 0.0502, + "step": 46000 + }, + { + "epoch": 0.294432, + "grad_norm": 0.7317029237747192, + "learning_rate": 1.8037120000000002e-05, + "loss": 0.0346, + "step": 46005 + }, + { + "epoch": 0.294464, + "grad_norm": 5.757307529449463, + "learning_rate": 1.803690666666667e-05, + "loss": 0.0467, + "step": 46010 + }, + { + "epoch": 0.294496, + "grad_norm": 0.8691951036453247, + "learning_rate": 1.8036693333333334e-05, + "loss": 0.0639, + "step": 46015 + }, + { + "epoch": 0.294528, + "grad_norm": 1.4086066484451294, + "learning_rate": 1.803648e-05, + "loss": 0.0434, + "step": 46020 + }, + { + "epoch": 0.29456, + "grad_norm": 0.3671821355819702, + "learning_rate": 1.803626666666667e-05, + "loss": 0.043, + "step": 46025 + }, + { + "epoch": 0.294592, + "grad_norm": 0.6318389773368835, + "learning_rate": 1.8036053333333333e-05, + "loss": 0.0466, + "step": 46030 + }, + { + "epoch": 0.294624, + "grad_norm": 0.9941698908805847, + "learning_rate": 1.8035840000000004e-05, + "loss": 0.0403, + "step": 46035 + }, + { + "epoch": 0.294656, + "grad_norm": 0.7470444440841675, + "learning_rate": 1.8035626666666668e-05, + "loss": 0.0536, + "step": 46040 + }, + { + "epoch": 0.294688, + "grad_norm": 2.0138869285583496, + "learning_rate": 1.8035413333333336e-05, + "loss": 0.0309, + "step": 46045 + }, + { + "epoch": 0.29472, + "grad_norm": 0.7374696135520935, + "learning_rate": 1.8035200000000003e-05, + "loss": 0.0347, + "step": 46050 + }, + { + "epoch": 0.294752, + "grad_norm": 0.9374299049377441, + "learning_rate": 1.8034986666666667e-05, + "loss": 0.0433, + "step": 46055 + }, + { + "epoch": 0.294784, + "grad_norm": 0.8121340274810791, + "learning_rate": 1.8034773333333335e-05, + "loss": 0.0297, + "step": 46060 + }, + { + "epoch": 0.294816, + "grad_norm": 0.6721233129501343, + "learning_rate": 1.8034560000000002e-05, + "loss": 0.0523, + "step": 46065 + }, + { + "epoch": 0.294848, + "grad_norm": 2.201411008834839, + "learning_rate": 1.803434666666667e-05, + "loss": 0.0382, + "step": 46070 + }, + { + "epoch": 0.29488, + "grad_norm": 0.3675859868526459, + "learning_rate": 1.8034133333333334e-05, + "loss": 0.024, + "step": 46075 + }, + { + "epoch": 0.294912, + "grad_norm": 0.9614220857620239, + "learning_rate": 1.803392e-05, + "loss": 0.0506, + "step": 46080 + }, + { + "epoch": 0.294944, + "grad_norm": 0.8558570742607117, + "learning_rate": 1.803370666666667e-05, + "loss": 0.0446, + "step": 46085 + }, + { + "epoch": 0.294976, + "grad_norm": 0.1617758721113205, + "learning_rate": 1.8033493333333333e-05, + "loss": 0.0396, + "step": 46090 + }, + { + "epoch": 0.295008, + "grad_norm": 0.23238834738731384, + "learning_rate": 1.803328e-05, + "loss": 0.0721, + "step": 46095 + }, + { + "epoch": 0.29504, + "grad_norm": 0.44611209630966187, + "learning_rate": 1.803306666666667e-05, + "loss": 0.0411, + "step": 46100 + }, + { + "epoch": 0.295072, + "grad_norm": 1.0629429817199707, + "learning_rate": 1.8032853333333336e-05, + "loss": 0.0424, + "step": 46105 + }, + { + "epoch": 0.295104, + "grad_norm": 1.2584326267242432, + "learning_rate": 1.803264e-05, + "loss": 0.0681, + "step": 46110 + }, + { + "epoch": 0.295136, + "grad_norm": 0.9797390699386597, + "learning_rate": 1.8032426666666668e-05, + "loss": 0.0483, + "step": 46115 + }, + { + "epoch": 0.295168, + "grad_norm": 0.47404536604881287, + "learning_rate": 1.8032213333333335e-05, + "loss": 0.0474, + "step": 46120 + }, + { + "epoch": 0.2952, + "grad_norm": 0.4012497663497925, + "learning_rate": 1.8032e-05, + "loss": 0.0358, + "step": 46125 + }, + { + "epoch": 0.295232, + "grad_norm": 0.7108357548713684, + "learning_rate": 1.8031786666666667e-05, + "loss": 0.0277, + "step": 46130 + }, + { + "epoch": 0.295264, + "grad_norm": 0.6496415138244629, + "learning_rate": 1.8031573333333335e-05, + "loss": 0.0549, + "step": 46135 + }, + { + "epoch": 0.295296, + "grad_norm": 1.6655150651931763, + "learning_rate": 1.8031360000000002e-05, + "loss": 0.0405, + "step": 46140 + }, + { + "epoch": 0.295328, + "grad_norm": 6.903067111968994, + "learning_rate": 1.8031146666666666e-05, + "loss": 0.0322, + "step": 46145 + }, + { + "epoch": 0.29536, + "grad_norm": 0.6554594039916992, + "learning_rate": 1.8030933333333337e-05, + "loss": 0.0586, + "step": 46150 + }, + { + "epoch": 0.295392, + "grad_norm": 0.36389705538749695, + "learning_rate": 1.803072e-05, + "loss": 0.032, + "step": 46155 + }, + { + "epoch": 0.295424, + "grad_norm": 1.515817642211914, + "learning_rate": 1.8030506666666666e-05, + "loss": 0.0404, + "step": 46160 + }, + { + "epoch": 0.295456, + "grad_norm": 0.5504668354988098, + "learning_rate": 1.8030293333333337e-05, + "loss": 0.0366, + "step": 46165 + }, + { + "epoch": 0.295488, + "grad_norm": 0.9359731078147888, + "learning_rate": 1.803008e-05, + "loss": 0.0315, + "step": 46170 + }, + { + "epoch": 0.29552, + "grad_norm": 0.8189976811408997, + "learning_rate": 1.8029866666666668e-05, + "loss": 0.0371, + "step": 46175 + }, + { + "epoch": 0.295552, + "grad_norm": 1.045609712600708, + "learning_rate": 1.8029653333333336e-05, + "loss": 0.0411, + "step": 46180 + }, + { + "epoch": 0.295584, + "grad_norm": 0.9710166454315186, + "learning_rate": 1.8029440000000003e-05, + "loss": 0.0462, + "step": 46185 + }, + { + "epoch": 0.295616, + "grad_norm": 0.7576665878295898, + "learning_rate": 1.8029226666666668e-05, + "loss": 0.051, + "step": 46190 + }, + { + "epoch": 0.295648, + "grad_norm": 0.8141990900039673, + "learning_rate": 1.8029013333333335e-05, + "loss": 0.0435, + "step": 46195 + }, + { + "epoch": 0.29568, + "grad_norm": 0.35566529631614685, + "learning_rate": 1.8028800000000003e-05, + "loss": 0.0366, + "step": 46200 + }, + { + "epoch": 0.295712, + "grad_norm": 1.365821361541748, + "learning_rate": 1.8028586666666667e-05, + "loss": 0.047, + "step": 46205 + }, + { + "epoch": 0.295744, + "grad_norm": 0.8641421794891357, + "learning_rate": 1.8028373333333334e-05, + "loss": 0.0375, + "step": 46210 + }, + { + "epoch": 0.295776, + "grad_norm": 1.0270330905914307, + "learning_rate": 1.8028160000000002e-05, + "loss": 0.0401, + "step": 46215 + }, + { + "epoch": 0.295808, + "grad_norm": 0.8579487204551697, + "learning_rate": 1.802794666666667e-05, + "loss": 0.0305, + "step": 46220 + }, + { + "epoch": 0.29584, + "grad_norm": 0.8197849988937378, + "learning_rate": 1.8027733333333334e-05, + "loss": 0.0442, + "step": 46225 + }, + { + "epoch": 0.295872, + "grad_norm": 0.6292399168014526, + "learning_rate": 1.802752e-05, + "loss": 0.0472, + "step": 46230 + }, + { + "epoch": 0.295904, + "grad_norm": 2.7956583499908447, + "learning_rate": 1.802730666666667e-05, + "loss": 0.0441, + "step": 46235 + }, + { + "epoch": 0.295936, + "grad_norm": 0.9375571608543396, + "learning_rate": 1.8027093333333333e-05, + "loss": 0.0453, + "step": 46240 + }, + { + "epoch": 0.295968, + "grad_norm": 0.5198584794998169, + "learning_rate": 1.8026880000000004e-05, + "loss": 0.0247, + "step": 46245 + }, + { + "epoch": 0.296, + "grad_norm": 0.7116804122924805, + "learning_rate": 1.8026666666666668e-05, + "loss": 0.0577, + "step": 46250 + }, + { + "epoch": 0.296032, + "grad_norm": 0.35590213537216187, + "learning_rate": 1.8026453333333336e-05, + "loss": 0.0478, + "step": 46255 + }, + { + "epoch": 0.296064, + "grad_norm": 2.435169219970703, + "learning_rate": 1.8026240000000003e-05, + "loss": 0.0445, + "step": 46260 + }, + { + "epoch": 0.296096, + "grad_norm": 0.8515623807907104, + "learning_rate": 1.8026026666666667e-05, + "loss": 0.0251, + "step": 46265 + }, + { + "epoch": 0.296128, + "grad_norm": 1.087661623954773, + "learning_rate": 1.8025813333333335e-05, + "loss": 0.0272, + "step": 46270 + }, + { + "epoch": 0.29616, + "grad_norm": 1.809625506401062, + "learning_rate": 1.8025600000000002e-05, + "loss": 0.0445, + "step": 46275 + }, + { + "epoch": 0.296192, + "grad_norm": 0.5520214438438416, + "learning_rate": 1.802538666666667e-05, + "loss": 0.0359, + "step": 46280 + }, + { + "epoch": 0.296224, + "grad_norm": 1.6151306629180908, + "learning_rate": 1.8025173333333334e-05, + "loss": 0.0452, + "step": 46285 + }, + { + "epoch": 0.296256, + "grad_norm": 0.49241018295288086, + "learning_rate": 1.802496e-05, + "loss": 0.0335, + "step": 46290 + }, + { + "epoch": 0.296288, + "grad_norm": 0.6275970935821533, + "learning_rate": 1.802474666666667e-05, + "loss": 0.0292, + "step": 46295 + }, + { + "epoch": 0.29632, + "grad_norm": 0.4238150119781494, + "learning_rate": 1.8024533333333333e-05, + "loss": 0.0318, + "step": 46300 + }, + { + "epoch": 0.296352, + "grad_norm": 0.32016268372535706, + "learning_rate": 1.802432e-05, + "loss": 0.0497, + "step": 46305 + }, + { + "epoch": 0.296384, + "grad_norm": 0.4894139766693115, + "learning_rate": 1.802410666666667e-05, + "loss": 0.0411, + "step": 46310 + }, + { + "epoch": 0.296416, + "grad_norm": 1.0321203470230103, + "learning_rate": 1.8023893333333336e-05, + "loss": 0.0356, + "step": 46315 + }, + { + "epoch": 0.296448, + "grad_norm": 1.0486738681793213, + "learning_rate": 1.802368e-05, + "loss": 0.0343, + "step": 46320 + }, + { + "epoch": 0.29648, + "grad_norm": 0.2707938551902771, + "learning_rate": 1.8023466666666668e-05, + "loss": 0.0364, + "step": 46325 + }, + { + "epoch": 0.296512, + "grad_norm": 0.4769376218318939, + "learning_rate": 1.8023253333333335e-05, + "loss": 0.073, + "step": 46330 + }, + { + "epoch": 0.296544, + "grad_norm": 1.5653787851333618, + "learning_rate": 1.802304e-05, + "loss": 0.0445, + "step": 46335 + }, + { + "epoch": 0.296576, + "grad_norm": 1.6000229120254517, + "learning_rate": 1.8022826666666667e-05, + "loss": 0.0578, + "step": 46340 + }, + { + "epoch": 0.296608, + "grad_norm": 0.6105408668518066, + "learning_rate": 1.8022613333333335e-05, + "loss": 0.0774, + "step": 46345 + }, + { + "epoch": 0.29664, + "grad_norm": 0.9851120710372925, + "learning_rate": 1.8022400000000002e-05, + "loss": 0.03, + "step": 46350 + }, + { + "epoch": 0.296672, + "grad_norm": 0.6562371253967285, + "learning_rate": 1.8022186666666666e-05, + "loss": 0.0556, + "step": 46355 + }, + { + "epoch": 0.296704, + "grad_norm": 0.953421950340271, + "learning_rate": 1.8021973333333337e-05, + "loss": 0.0529, + "step": 46360 + }, + { + "epoch": 0.296736, + "grad_norm": 0.4652109146118164, + "learning_rate": 1.802176e-05, + "loss": 0.0326, + "step": 46365 + }, + { + "epoch": 0.296768, + "grad_norm": 1.1413006782531738, + "learning_rate": 1.8021546666666666e-05, + "loss": 0.0355, + "step": 46370 + }, + { + "epoch": 0.2968, + "grad_norm": 1.177485466003418, + "learning_rate": 1.8021333333333337e-05, + "loss": 0.0391, + "step": 46375 + }, + { + "epoch": 0.296832, + "grad_norm": 0.8599319458007812, + "learning_rate": 1.802112e-05, + "loss": 0.0551, + "step": 46380 + }, + { + "epoch": 0.296864, + "grad_norm": 1.0499759912490845, + "learning_rate": 1.8020906666666668e-05, + "loss": 0.0545, + "step": 46385 + }, + { + "epoch": 0.296896, + "grad_norm": 1.2577495574951172, + "learning_rate": 1.8020693333333336e-05, + "loss": 0.0519, + "step": 46390 + }, + { + "epoch": 0.296928, + "grad_norm": 0.6853412985801697, + "learning_rate": 1.8020480000000003e-05, + "loss": 0.054, + "step": 46395 + }, + { + "epoch": 0.29696, + "grad_norm": 0.8352295756340027, + "learning_rate": 1.8020266666666668e-05, + "loss": 0.0447, + "step": 46400 + }, + { + "epoch": 0.296992, + "grad_norm": 1.0164053440093994, + "learning_rate": 1.8020053333333335e-05, + "loss": 0.0557, + "step": 46405 + }, + { + "epoch": 0.297024, + "grad_norm": 0.8278590440750122, + "learning_rate": 1.8019840000000003e-05, + "loss": 0.0819, + "step": 46410 + }, + { + "epoch": 0.297056, + "grad_norm": 1.7073147296905518, + "learning_rate": 1.8019626666666667e-05, + "loss": 0.0459, + "step": 46415 + }, + { + "epoch": 0.297088, + "grad_norm": 0.33921679854393005, + "learning_rate": 1.8019413333333334e-05, + "loss": 0.0271, + "step": 46420 + }, + { + "epoch": 0.29712, + "grad_norm": 0.30465367436408997, + "learning_rate": 1.8019200000000002e-05, + "loss": 0.0241, + "step": 46425 + }, + { + "epoch": 0.297152, + "grad_norm": 0.7896077036857605, + "learning_rate": 1.801898666666667e-05, + "loss": 0.0398, + "step": 46430 + }, + { + "epoch": 0.297184, + "grad_norm": 0.34148797392845154, + "learning_rate": 1.8018773333333334e-05, + "loss": 0.046, + "step": 46435 + }, + { + "epoch": 0.297216, + "grad_norm": 0.7270193696022034, + "learning_rate": 1.801856e-05, + "loss": 0.0485, + "step": 46440 + }, + { + "epoch": 0.297248, + "grad_norm": 0.9732270836830139, + "learning_rate": 1.801834666666667e-05, + "loss": 0.076, + "step": 46445 + }, + { + "epoch": 0.29728, + "grad_norm": 0.42560938000679016, + "learning_rate": 1.8018133333333333e-05, + "loss": 0.0319, + "step": 46450 + }, + { + "epoch": 0.297312, + "grad_norm": 1.5242445468902588, + "learning_rate": 1.801792e-05, + "loss": 0.0337, + "step": 46455 + }, + { + "epoch": 0.297344, + "grad_norm": 0.41491031646728516, + "learning_rate": 1.8017706666666668e-05, + "loss": 0.0283, + "step": 46460 + }, + { + "epoch": 0.297376, + "grad_norm": 0.552628755569458, + "learning_rate": 1.8017493333333336e-05, + "loss": 0.0314, + "step": 46465 + }, + { + "epoch": 0.297408, + "grad_norm": 1.0406951904296875, + "learning_rate": 1.8017280000000003e-05, + "loss": 0.0518, + "step": 46470 + }, + { + "epoch": 0.29744, + "grad_norm": 0.8207548260688782, + "learning_rate": 1.8017066666666667e-05, + "loss": 0.0461, + "step": 46475 + }, + { + "epoch": 0.297472, + "grad_norm": 1.1883902549743652, + "learning_rate": 1.8016853333333335e-05, + "loss": 0.0815, + "step": 46480 + }, + { + "epoch": 0.297504, + "grad_norm": 0.8302233219146729, + "learning_rate": 1.8016640000000002e-05, + "loss": 0.043, + "step": 46485 + }, + { + "epoch": 0.297536, + "grad_norm": 0.21352392435073853, + "learning_rate": 1.801642666666667e-05, + "loss": 0.0303, + "step": 46490 + }, + { + "epoch": 0.297568, + "grad_norm": 0.6686667799949646, + "learning_rate": 1.8016213333333334e-05, + "loss": 0.0611, + "step": 46495 + }, + { + "epoch": 0.2976, + "grad_norm": 0.9415441751480103, + "learning_rate": 1.8016e-05, + "loss": 0.0442, + "step": 46500 + }, + { + "epoch": 0.297632, + "grad_norm": 3.005154609680176, + "learning_rate": 1.801578666666667e-05, + "loss": 0.0932, + "step": 46505 + }, + { + "epoch": 0.297664, + "grad_norm": 0.6545708775520325, + "learning_rate": 1.8015573333333333e-05, + "loss": 0.0466, + "step": 46510 + }, + { + "epoch": 0.297696, + "grad_norm": 1.4666389226913452, + "learning_rate": 1.801536e-05, + "loss": 0.1139, + "step": 46515 + }, + { + "epoch": 0.297728, + "grad_norm": 0.8368622660636902, + "learning_rate": 1.801514666666667e-05, + "loss": 0.028, + "step": 46520 + }, + { + "epoch": 0.29776, + "grad_norm": 1.4106097221374512, + "learning_rate": 1.8014933333333336e-05, + "loss": 0.0449, + "step": 46525 + }, + { + "epoch": 0.297792, + "grad_norm": 0.47785475850105286, + "learning_rate": 1.801472e-05, + "loss": 0.0483, + "step": 46530 + }, + { + "epoch": 0.297824, + "grad_norm": 0.7571380734443665, + "learning_rate": 1.8014506666666668e-05, + "loss": 0.0409, + "step": 46535 + }, + { + "epoch": 0.297856, + "grad_norm": 0.44731229543685913, + "learning_rate": 1.8014293333333335e-05, + "loss": 0.0342, + "step": 46540 + }, + { + "epoch": 0.297888, + "grad_norm": 1.3438029289245605, + "learning_rate": 1.801408e-05, + "loss": 0.0443, + "step": 46545 + }, + { + "epoch": 0.29792, + "grad_norm": 1.3524951934814453, + "learning_rate": 1.8013866666666667e-05, + "loss": 0.0445, + "step": 46550 + }, + { + "epoch": 0.297952, + "grad_norm": 0.5688893795013428, + "learning_rate": 1.8013653333333335e-05, + "loss": 0.0315, + "step": 46555 + }, + { + "epoch": 0.297984, + "grad_norm": 0.49635210633277893, + "learning_rate": 1.8013440000000002e-05, + "loss": 0.0332, + "step": 46560 + }, + { + "epoch": 0.298016, + "grad_norm": 0.6122969388961792, + "learning_rate": 1.8013226666666666e-05, + "loss": 0.0442, + "step": 46565 + }, + { + "epoch": 0.298048, + "grad_norm": 0.15965674817562103, + "learning_rate": 1.8013013333333337e-05, + "loss": 0.0248, + "step": 46570 + }, + { + "epoch": 0.29808, + "grad_norm": 0.5995677709579468, + "learning_rate": 1.80128e-05, + "loss": 0.0337, + "step": 46575 + }, + { + "epoch": 0.298112, + "grad_norm": 0.8484209179878235, + "learning_rate": 1.8012586666666666e-05, + "loss": 0.0471, + "step": 46580 + }, + { + "epoch": 0.298144, + "grad_norm": 0.42340442538261414, + "learning_rate": 1.8012373333333337e-05, + "loss": 0.0246, + "step": 46585 + }, + { + "epoch": 0.298176, + "grad_norm": 0.7328577041625977, + "learning_rate": 1.801216e-05, + "loss": 0.0331, + "step": 46590 + }, + { + "epoch": 0.298208, + "grad_norm": 0.36655107140541077, + "learning_rate": 1.8011946666666668e-05, + "loss": 0.0252, + "step": 46595 + }, + { + "epoch": 0.29824, + "grad_norm": 0.7622790336608887, + "learning_rate": 1.8011733333333336e-05, + "loss": 0.0388, + "step": 46600 + }, + { + "epoch": 0.298272, + "grad_norm": 0.32731425762176514, + "learning_rate": 1.8011520000000003e-05, + "loss": 0.0423, + "step": 46605 + }, + { + "epoch": 0.298304, + "grad_norm": 0.5436457991600037, + "learning_rate": 1.8011306666666668e-05, + "loss": 0.0365, + "step": 46610 + }, + { + "epoch": 0.298336, + "grad_norm": 0.509846031665802, + "learning_rate": 1.8011093333333335e-05, + "loss": 0.0343, + "step": 46615 + }, + { + "epoch": 0.298368, + "grad_norm": 0.474957674741745, + "learning_rate": 1.8010880000000003e-05, + "loss": 0.0303, + "step": 46620 + }, + { + "epoch": 0.2984, + "grad_norm": 1.948569416999817, + "learning_rate": 1.8010666666666667e-05, + "loss": 0.0609, + "step": 46625 + }, + { + "epoch": 0.298432, + "grad_norm": 0.6756436824798584, + "learning_rate": 1.8010453333333334e-05, + "loss": 0.0406, + "step": 46630 + }, + { + "epoch": 0.298464, + "grad_norm": 0.2695316970348358, + "learning_rate": 1.8010240000000002e-05, + "loss": 0.0771, + "step": 46635 + }, + { + "epoch": 0.298496, + "grad_norm": 1.0795397758483887, + "learning_rate": 1.801002666666667e-05, + "loss": 0.0591, + "step": 46640 + }, + { + "epoch": 0.298528, + "grad_norm": 0.5627526640892029, + "learning_rate": 1.8009813333333334e-05, + "loss": 0.0553, + "step": 46645 + }, + { + "epoch": 0.29856, + "grad_norm": 0.6804713606834412, + "learning_rate": 1.80096e-05, + "loss": 0.0322, + "step": 46650 + }, + { + "epoch": 0.298592, + "grad_norm": 0.5863680839538574, + "learning_rate": 1.800938666666667e-05, + "loss": 0.0659, + "step": 46655 + }, + { + "epoch": 0.298624, + "grad_norm": 0.6527883410453796, + "learning_rate": 1.8009173333333333e-05, + "loss": 0.0514, + "step": 46660 + }, + { + "epoch": 0.298656, + "grad_norm": 1.3469669818878174, + "learning_rate": 1.800896e-05, + "loss": 0.0444, + "step": 46665 + }, + { + "epoch": 0.298688, + "grad_norm": 1.4740922451019287, + "learning_rate": 1.8008746666666668e-05, + "loss": 0.0406, + "step": 46670 + }, + { + "epoch": 0.29872, + "grad_norm": 0.5727787017822266, + "learning_rate": 1.8008533333333336e-05, + "loss": 0.0439, + "step": 46675 + }, + { + "epoch": 0.298752, + "grad_norm": 0.5289324522018433, + "learning_rate": 1.800832e-05, + "loss": 0.0445, + "step": 46680 + }, + { + "epoch": 0.298784, + "grad_norm": 1.2413413524627686, + "learning_rate": 1.8008106666666667e-05, + "loss": 0.049, + "step": 46685 + }, + { + "epoch": 0.298816, + "grad_norm": 0.28095898032188416, + "learning_rate": 1.8007893333333335e-05, + "loss": 0.072, + "step": 46690 + }, + { + "epoch": 0.298848, + "grad_norm": 0.5806946158409119, + "learning_rate": 1.8007680000000002e-05, + "loss": 0.0694, + "step": 46695 + }, + { + "epoch": 0.29888, + "grad_norm": 0.3141203224658966, + "learning_rate": 1.800746666666667e-05, + "loss": 0.0634, + "step": 46700 + }, + { + "epoch": 0.298912, + "grad_norm": 1.716281771659851, + "learning_rate": 1.8007253333333334e-05, + "loss": 0.0519, + "step": 46705 + }, + { + "epoch": 0.298944, + "grad_norm": 0.6901135444641113, + "learning_rate": 1.800704e-05, + "loss": 0.0363, + "step": 46710 + }, + { + "epoch": 0.298976, + "grad_norm": 0.761469841003418, + "learning_rate": 1.800682666666667e-05, + "loss": 0.0496, + "step": 46715 + }, + { + "epoch": 0.299008, + "grad_norm": 0.610101044178009, + "learning_rate": 1.8006613333333333e-05, + "loss": 0.0216, + "step": 46720 + }, + { + "epoch": 0.29904, + "grad_norm": 0.49949735403060913, + "learning_rate": 1.80064e-05, + "loss": 0.037, + "step": 46725 + }, + { + "epoch": 0.299072, + "grad_norm": 1.0750831365585327, + "learning_rate": 1.800618666666667e-05, + "loss": 0.0378, + "step": 46730 + }, + { + "epoch": 0.299104, + "grad_norm": 0.46156972646713257, + "learning_rate": 1.8005973333333336e-05, + "loss": 0.0321, + "step": 46735 + }, + { + "epoch": 0.299136, + "grad_norm": 0.5710623264312744, + "learning_rate": 1.800576e-05, + "loss": 0.0611, + "step": 46740 + }, + { + "epoch": 0.299168, + "grad_norm": 0.6462843418121338, + "learning_rate": 1.8005546666666668e-05, + "loss": 0.0519, + "step": 46745 + }, + { + "epoch": 0.2992, + "grad_norm": 0.5952392220497131, + "learning_rate": 1.8005333333333335e-05, + "loss": 0.0308, + "step": 46750 + }, + { + "epoch": 0.299232, + "grad_norm": 0.677793562412262, + "learning_rate": 1.800512e-05, + "loss": 0.0415, + "step": 46755 + }, + { + "epoch": 0.299264, + "grad_norm": 2.306091070175171, + "learning_rate": 1.8004906666666667e-05, + "loss": 0.0488, + "step": 46760 + }, + { + "epoch": 0.299296, + "grad_norm": 0.3802035450935364, + "learning_rate": 1.8004693333333335e-05, + "loss": 0.0321, + "step": 46765 + }, + { + "epoch": 0.299328, + "grad_norm": 1.190576434135437, + "learning_rate": 1.8004480000000002e-05, + "loss": 0.0245, + "step": 46770 + }, + { + "epoch": 0.29936, + "grad_norm": 0.5113993287086487, + "learning_rate": 1.8004266666666666e-05, + "loss": 0.0424, + "step": 46775 + }, + { + "epoch": 0.299392, + "grad_norm": 0.5292706489562988, + "learning_rate": 1.8004053333333337e-05, + "loss": 0.0471, + "step": 46780 + }, + { + "epoch": 0.299424, + "grad_norm": 0.35995161533355713, + "learning_rate": 1.800384e-05, + "loss": 0.0371, + "step": 46785 + }, + { + "epoch": 0.299456, + "grad_norm": 1.2230578660964966, + "learning_rate": 1.8003626666666666e-05, + "loss": 0.066, + "step": 46790 + }, + { + "epoch": 0.299488, + "grad_norm": 0.9581784009933472, + "learning_rate": 1.8003413333333337e-05, + "loss": 0.0399, + "step": 46795 + }, + { + "epoch": 0.29952, + "grad_norm": 0.5298696756362915, + "learning_rate": 1.80032e-05, + "loss": 0.0593, + "step": 46800 + }, + { + "epoch": 0.299552, + "grad_norm": 0.3504128158092499, + "learning_rate": 1.8002986666666668e-05, + "loss": 0.033, + "step": 46805 + }, + { + "epoch": 0.299584, + "grad_norm": 0.40263238549232483, + "learning_rate": 1.8002773333333336e-05, + "loss": 0.0764, + "step": 46810 + }, + { + "epoch": 0.299616, + "grad_norm": 1.1647553443908691, + "learning_rate": 1.8002560000000003e-05, + "loss": 0.0439, + "step": 46815 + }, + { + "epoch": 0.299648, + "grad_norm": 0.9049718379974365, + "learning_rate": 1.8002346666666668e-05, + "loss": 0.0514, + "step": 46820 + }, + { + "epoch": 0.29968, + "grad_norm": 0.4868967533111572, + "learning_rate": 1.8002133333333335e-05, + "loss": 0.0427, + "step": 46825 + }, + { + "epoch": 0.299712, + "grad_norm": 1.6885772943496704, + "learning_rate": 1.8001920000000003e-05, + "loss": 0.0209, + "step": 46830 + }, + { + "epoch": 0.299744, + "grad_norm": 0.646783709526062, + "learning_rate": 1.8001706666666667e-05, + "loss": 0.0601, + "step": 46835 + }, + { + "epoch": 0.299776, + "grad_norm": 0.7624850273132324, + "learning_rate": 1.8001493333333334e-05, + "loss": 0.0447, + "step": 46840 + }, + { + "epoch": 0.299808, + "grad_norm": 2.793602705001831, + "learning_rate": 1.8001280000000002e-05, + "loss": 0.0657, + "step": 46845 + }, + { + "epoch": 0.29984, + "grad_norm": 0.6507875323295593, + "learning_rate": 1.800106666666667e-05, + "loss": 0.031, + "step": 46850 + }, + { + "epoch": 0.299872, + "grad_norm": 0.5185769200325012, + "learning_rate": 1.8000853333333334e-05, + "loss": 0.0564, + "step": 46855 + }, + { + "epoch": 0.299904, + "grad_norm": 0.888823926448822, + "learning_rate": 1.800064e-05, + "loss": 0.0595, + "step": 46860 + }, + { + "epoch": 0.299936, + "grad_norm": 0.5725452303886414, + "learning_rate": 1.800042666666667e-05, + "loss": 0.0234, + "step": 46865 + }, + { + "epoch": 0.299968, + "grad_norm": 0.8480141162872314, + "learning_rate": 1.8000213333333333e-05, + "loss": 0.0348, + "step": 46870 + }, + { + "epoch": 0.3, + "grad_norm": 0.5413064360618591, + "learning_rate": 1.8e-05, + "loss": 0.0691, + "step": 46875 + }, + { + "epoch": 0.300032, + "grad_norm": 0.6267394423484802, + "learning_rate": 1.7999786666666668e-05, + "loss": 0.0401, + "step": 46880 + }, + { + "epoch": 0.300064, + "grad_norm": 0.2028542459011078, + "learning_rate": 1.7999573333333336e-05, + "loss": 0.0255, + "step": 46885 + }, + { + "epoch": 0.300096, + "grad_norm": 1.0249632596969604, + "learning_rate": 1.799936e-05, + "loss": 0.033, + "step": 46890 + }, + { + "epoch": 0.300128, + "grad_norm": 0.9835271835327148, + "learning_rate": 1.799914666666667e-05, + "loss": 0.0351, + "step": 46895 + }, + { + "epoch": 0.30016, + "grad_norm": 0.9316419959068298, + "learning_rate": 1.7998933333333335e-05, + "loss": 0.0383, + "step": 46900 + }, + { + "epoch": 0.300192, + "grad_norm": 1.5344703197479248, + "learning_rate": 1.799872e-05, + "loss": 0.0366, + "step": 46905 + }, + { + "epoch": 0.300224, + "grad_norm": 0.9943287968635559, + "learning_rate": 1.799850666666667e-05, + "loss": 0.0382, + "step": 46910 + }, + { + "epoch": 0.300256, + "grad_norm": 0.9075072407722473, + "learning_rate": 1.7998293333333334e-05, + "loss": 0.0289, + "step": 46915 + }, + { + "epoch": 0.300288, + "grad_norm": 0.8104597926139832, + "learning_rate": 1.799808e-05, + "loss": 0.0355, + "step": 46920 + }, + { + "epoch": 0.30032, + "grad_norm": 0.6986762285232544, + "learning_rate": 1.799786666666667e-05, + "loss": 0.035, + "step": 46925 + }, + { + "epoch": 0.300352, + "grad_norm": 0.5134150981903076, + "learning_rate": 1.7997653333333337e-05, + "loss": 0.0514, + "step": 46930 + }, + { + "epoch": 0.300384, + "grad_norm": 0.7195877432823181, + "learning_rate": 1.799744e-05, + "loss": 0.0396, + "step": 46935 + }, + { + "epoch": 0.300416, + "grad_norm": 0.9640448093414307, + "learning_rate": 1.799722666666667e-05, + "loss": 0.0383, + "step": 46940 + }, + { + "epoch": 0.300448, + "grad_norm": 0.816802442073822, + "learning_rate": 1.7997013333333336e-05, + "loss": 0.0555, + "step": 46945 + }, + { + "epoch": 0.30048, + "grad_norm": 0.8202322721481323, + "learning_rate": 1.79968e-05, + "loss": 0.0346, + "step": 46950 + }, + { + "epoch": 0.300512, + "grad_norm": 0.8987299203872681, + "learning_rate": 1.7996586666666668e-05, + "loss": 0.0628, + "step": 46955 + }, + { + "epoch": 0.300544, + "grad_norm": 2.259695291519165, + "learning_rate": 1.7996373333333335e-05, + "loss": 0.0386, + "step": 46960 + }, + { + "epoch": 0.300576, + "grad_norm": 2.231567859649658, + "learning_rate": 1.7996160000000003e-05, + "loss": 0.0634, + "step": 46965 + }, + { + "epoch": 0.300608, + "grad_norm": 0.534767210483551, + "learning_rate": 1.7995946666666667e-05, + "loss": 0.0365, + "step": 46970 + }, + { + "epoch": 0.30064, + "grad_norm": 0.83627849817276, + "learning_rate": 1.7995733333333335e-05, + "loss": 0.0428, + "step": 46975 + }, + { + "epoch": 0.300672, + "grad_norm": 0.9576848149299622, + "learning_rate": 1.7995520000000002e-05, + "loss": 0.0667, + "step": 46980 + }, + { + "epoch": 0.300704, + "grad_norm": 0.7328425645828247, + "learning_rate": 1.7995306666666666e-05, + "loss": 0.0465, + "step": 46985 + }, + { + "epoch": 0.300736, + "grad_norm": 1.951162576675415, + "learning_rate": 1.7995093333333334e-05, + "loss": 0.0552, + "step": 46990 + }, + { + "epoch": 0.300768, + "grad_norm": 0.4348093271255493, + "learning_rate": 1.799488e-05, + "loss": 0.0301, + "step": 46995 + }, + { + "epoch": 0.3008, + "grad_norm": 0.43174606561660767, + "learning_rate": 1.799466666666667e-05, + "loss": 0.0314, + "step": 47000 + }, + { + "epoch": 0.300832, + "grad_norm": 1.0002671480178833, + "learning_rate": 1.7994453333333337e-05, + "loss": 0.0549, + "step": 47005 + }, + { + "epoch": 0.300864, + "grad_norm": 0.6483044028282166, + "learning_rate": 1.799424e-05, + "loss": 0.0667, + "step": 47010 + }, + { + "epoch": 0.300896, + "grad_norm": 0.592147171497345, + "learning_rate": 1.7994026666666668e-05, + "loss": 0.0314, + "step": 47015 + }, + { + "epoch": 0.300928, + "grad_norm": 0.9274587035179138, + "learning_rate": 1.7993813333333336e-05, + "loss": 0.0487, + "step": 47020 + }, + { + "epoch": 0.30096, + "grad_norm": 0.674592912197113, + "learning_rate": 1.7993600000000003e-05, + "loss": 0.0313, + "step": 47025 + }, + { + "epoch": 0.300992, + "grad_norm": 0.3044041097164154, + "learning_rate": 1.7993386666666668e-05, + "loss": 0.0364, + "step": 47030 + }, + { + "epoch": 0.301024, + "grad_norm": 1.3871830701828003, + "learning_rate": 1.7993173333333335e-05, + "loss": 0.0367, + "step": 47035 + }, + { + "epoch": 0.301056, + "grad_norm": 0.5973900556564331, + "learning_rate": 1.7992960000000003e-05, + "loss": 0.0256, + "step": 47040 + }, + { + "epoch": 0.301088, + "grad_norm": 0.6102202534675598, + "learning_rate": 1.7992746666666667e-05, + "loss": 0.0308, + "step": 47045 + }, + { + "epoch": 0.30112, + "grad_norm": 0.8037929534912109, + "learning_rate": 1.7992533333333334e-05, + "loss": 0.0491, + "step": 47050 + }, + { + "epoch": 0.301152, + "grad_norm": 0.8286827206611633, + "learning_rate": 1.7992320000000002e-05, + "loss": 0.0507, + "step": 47055 + }, + { + "epoch": 0.301184, + "grad_norm": 0.3363717198371887, + "learning_rate": 1.799210666666667e-05, + "loss": 0.0382, + "step": 47060 + }, + { + "epoch": 0.301216, + "grad_norm": 1.247743010520935, + "learning_rate": 1.7991893333333334e-05, + "loss": 0.0685, + "step": 47065 + }, + { + "epoch": 0.301248, + "grad_norm": 1.0860559940338135, + "learning_rate": 1.799168e-05, + "loss": 0.0902, + "step": 47070 + }, + { + "epoch": 0.30128, + "grad_norm": 0.6761975288391113, + "learning_rate": 1.799146666666667e-05, + "loss": 0.0382, + "step": 47075 + }, + { + "epoch": 0.301312, + "grad_norm": 0.987332284450531, + "learning_rate": 1.7991253333333333e-05, + "loss": 0.0528, + "step": 47080 + }, + { + "epoch": 0.301344, + "grad_norm": 1.3093509674072266, + "learning_rate": 1.799104e-05, + "loss": 0.0444, + "step": 47085 + }, + { + "epoch": 0.301376, + "grad_norm": 0.40238049626350403, + "learning_rate": 1.7990826666666668e-05, + "loss": 0.0219, + "step": 47090 + }, + { + "epoch": 0.301408, + "grad_norm": 0.14084678888320923, + "learning_rate": 1.7990613333333336e-05, + "loss": 0.0328, + "step": 47095 + }, + { + "epoch": 0.30144, + "grad_norm": 0.84583580493927, + "learning_rate": 1.79904e-05, + "loss": 0.0491, + "step": 47100 + }, + { + "epoch": 0.301472, + "grad_norm": 1.2923202514648438, + "learning_rate": 1.799018666666667e-05, + "loss": 0.0801, + "step": 47105 + }, + { + "epoch": 0.301504, + "grad_norm": 0.7330943942070007, + "learning_rate": 1.7989973333333335e-05, + "loss": 0.0282, + "step": 47110 + }, + { + "epoch": 0.301536, + "grad_norm": 1.644702434539795, + "learning_rate": 1.798976e-05, + "loss": 0.0484, + "step": 47115 + }, + { + "epoch": 0.301568, + "grad_norm": 0.6169359087944031, + "learning_rate": 1.798954666666667e-05, + "loss": 0.0343, + "step": 47120 + }, + { + "epoch": 0.3016, + "grad_norm": 0.5536391139030457, + "learning_rate": 1.7989333333333334e-05, + "loss": 0.0485, + "step": 47125 + }, + { + "epoch": 0.301632, + "grad_norm": 0.8532171249389648, + "learning_rate": 1.798912e-05, + "loss": 0.0657, + "step": 47130 + }, + { + "epoch": 0.301664, + "grad_norm": 0.29795655608177185, + "learning_rate": 1.798890666666667e-05, + "loss": 0.0207, + "step": 47135 + }, + { + "epoch": 0.301696, + "grad_norm": 0.2142610251903534, + "learning_rate": 1.7988693333333337e-05, + "loss": 0.0402, + "step": 47140 + }, + { + "epoch": 0.301728, + "grad_norm": 2.3192358016967773, + "learning_rate": 1.798848e-05, + "loss": 0.076, + "step": 47145 + }, + { + "epoch": 0.30176, + "grad_norm": 0.5379214882850647, + "learning_rate": 1.798826666666667e-05, + "loss": 0.0563, + "step": 47150 + }, + { + "epoch": 0.301792, + "grad_norm": 3.378598213195801, + "learning_rate": 1.7988053333333336e-05, + "loss": 0.0487, + "step": 47155 + }, + { + "epoch": 0.301824, + "grad_norm": 1.1298695802688599, + "learning_rate": 1.798784e-05, + "loss": 0.0533, + "step": 47160 + }, + { + "epoch": 0.301856, + "grad_norm": 0.6525644063949585, + "learning_rate": 1.7987626666666668e-05, + "loss": 0.029, + "step": 47165 + }, + { + "epoch": 0.301888, + "grad_norm": 0.8282302618026733, + "learning_rate": 1.7987413333333335e-05, + "loss": 0.0292, + "step": 47170 + }, + { + "epoch": 0.30192, + "grad_norm": 0.5929448008537292, + "learning_rate": 1.7987200000000003e-05, + "loss": 0.0319, + "step": 47175 + }, + { + "epoch": 0.301952, + "grad_norm": 0.40938666462898254, + "learning_rate": 1.7986986666666667e-05, + "loss": 0.0337, + "step": 47180 + }, + { + "epoch": 0.301984, + "grad_norm": 0.6903316378593445, + "learning_rate": 1.7986773333333335e-05, + "loss": 0.043, + "step": 47185 + }, + { + "epoch": 0.302016, + "grad_norm": 1.2613966464996338, + "learning_rate": 1.7986560000000002e-05, + "loss": 0.0604, + "step": 47190 + }, + { + "epoch": 0.302048, + "grad_norm": 1.7265543937683105, + "learning_rate": 1.7986346666666666e-05, + "loss": 0.0738, + "step": 47195 + }, + { + "epoch": 0.30208, + "grad_norm": 1.0010318756103516, + "learning_rate": 1.7986133333333334e-05, + "loss": 0.0285, + "step": 47200 + }, + { + "epoch": 0.302112, + "grad_norm": 0.4315849840641022, + "learning_rate": 1.798592e-05, + "loss": 0.0513, + "step": 47205 + }, + { + "epoch": 0.302144, + "grad_norm": 0.4222549796104431, + "learning_rate": 1.798570666666667e-05, + "loss": 0.0495, + "step": 47210 + }, + { + "epoch": 0.302176, + "grad_norm": 1.6537981033325195, + "learning_rate": 1.7985493333333333e-05, + "loss": 0.0773, + "step": 47215 + }, + { + "epoch": 0.302208, + "grad_norm": 0.9362712502479553, + "learning_rate": 1.798528e-05, + "loss": 0.0404, + "step": 47220 + }, + { + "epoch": 0.30224, + "grad_norm": 0.561079740524292, + "learning_rate": 1.7985066666666668e-05, + "loss": 0.0403, + "step": 47225 + }, + { + "epoch": 0.302272, + "grad_norm": 0.4681306779384613, + "learning_rate": 1.7984853333333336e-05, + "loss": 0.0572, + "step": 47230 + }, + { + "epoch": 0.302304, + "grad_norm": 0.6001646518707275, + "learning_rate": 1.7984640000000003e-05, + "loss": 0.0393, + "step": 47235 + }, + { + "epoch": 0.302336, + "grad_norm": 0.396604984998703, + "learning_rate": 1.7984426666666668e-05, + "loss": 0.039, + "step": 47240 + }, + { + "epoch": 0.302368, + "grad_norm": 0.6871835589408875, + "learning_rate": 1.7984213333333335e-05, + "loss": 0.0457, + "step": 47245 + }, + { + "epoch": 0.3024, + "grad_norm": 0.398882657289505, + "learning_rate": 1.7984000000000003e-05, + "loss": 0.0552, + "step": 47250 + }, + { + "epoch": 0.302432, + "grad_norm": 3.2650957107543945, + "learning_rate": 1.7983786666666667e-05, + "loss": 0.0319, + "step": 47255 + }, + { + "epoch": 0.302464, + "grad_norm": 0.48111963272094727, + "learning_rate": 1.7983573333333334e-05, + "loss": 0.024, + "step": 47260 + }, + { + "epoch": 0.302496, + "grad_norm": 1.690576195716858, + "learning_rate": 1.7983360000000002e-05, + "loss": 0.0368, + "step": 47265 + }, + { + "epoch": 0.302528, + "grad_norm": 0.48202452063560486, + "learning_rate": 1.798314666666667e-05, + "loss": 0.0163, + "step": 47270 + }, + { + "epoch": 0.30256, + "grad_norm": 1.1063085794448853, + "learning_rate": 1.7982933333333334e-05, + "loss": 0.0322, + "step": 47275 + }, + { + "epoch": 0.302592, + "grad_norm": 1.7157151699066162, + "learning_rate": 1.798272e-05, + "loss": 0.0526, + "step": 47280 + }, + { + "epoch": 0.302624, + "grad_norm": 0.6279749870300293, + "learning_rate": 1.798250666666667e-05, + "loss": 0.0352, + "step": 47285 + }, + { + "epoch": 0.302656, + "grad_norm": 1.2310221195220947, + "learning_rate": 1.7982293333333333e-05, + "loss": 0.0836, + "step": 47290 + }, + { + "epoch": 0.302688, + "grad_norm": 0.9867018461227417, + "learning_rate": 1.798208e-05, + "loss": 0.032, + "step": 47295 + }, + { + "epoch": 0.30272, + "grad_norm": 1.0841329097747803, + "learning_rate": 1.7981866666666668e-05, + "loss": 0.0371, + "step": 47300 + }, + { + "epoch": 0.302752, + "grad_norm": 0.9529334902763367, + "learning_rate": 1.7981653333333336e-05, + "loss": 0.071, + "step": 47305 + }, + { + "epoch": 0.302784, + "grad_norm": 0.6771000027656555, + "learning_rate": 1.798144e-05, + "loss": 0.0887, + "step": 47310 + }, + { + "epoch": 0.302816, + "grad_norm": 0.4494099020957947, + "learning_rate": 1.798122666666667e-05, + "loss": 0.0477, + "step": 47315 + }, + { + "epoch": 0.302848, + "grad_norm": 1.1686490774154663, + "learning_rate": 1.7981013333333335e-05, + "loss": 0.0624, + "step": 47320 + }, + { + "epoch": 0.30288, + "grad_norm": 1.404984951019287, + "learning_rate": 1.79808e-05, + "loss": 0.0562, + "step": 47325 + }, + { + "epoch": 0.302912, + "grad_norm": 0.4000546336174011, + "learning_rate": 1.798058666666667e-05, + "loss": 0.038, + "step": 47330 + }, + { + "epoch": 0.302944, + "grad_norm": 0.3574783205986023, + "learning_rate": 1.7980373333333334e-05, + "loss": 0.06, + "step": 47335 + }, + { + "epoch": 0.302976, + "grad_norm": 0.287771999835968, + "learning_rate": 1.798016e-05, + "loss": 0.0444, + "step": 47340 + }, + { + "epoch": 0.303008, + "grad_norm": 0.6264111995697021, + "learning_rate": 1.797994666666667e-05, + "loss": 0.0499, + "step": 47345 + }, + { + "epoch": 0.30304, + "grad_norm": 2.885916233062744, + "learning_rate": 1.7979733333333337e-05, + "loss": 0.0308, + "step": 47350 + }, + { + "epoch": 0.303072, + "grad_norm": 0.22995734214782715, + "learning_rate": 1.797952e-05, + "loss": 0.0247, + "step": 47355 + }, + { + "epoch": 0.303104, + "grad_norm": 0.5105753540992737, + "learning_rate": 1.797930666666667e-05, + "loss": 0.0522, + "step": 47360 + }, + { + "epoch": 0.303136, + "grad_norm": 1.8262293338775635, + "learning_rate": 1.7979093333333336e-05, + "loss": 0.0451, + "step": 47365 + }, + { + "epoch": 0.303168, + "grad_norm": 0.6591837406158447, + "learning_rate": 1.797888e-05, + "loss": 0.0283, + "step": 47370 + }, + { + "epoch": 0.3032, + "grad_norm": 0.5442177057266235, + "learning_rate": 1.7978666666666668e-05, + "loss": 0.0533, + "step": 47375 + }, + { + "epoch": 0.303232, + "grad_norm": 0.4208035171031952, + "learning_rate": 1.7978453333333335e-05, + "loss": 0.0233, + "step": 47380 + }, + { + "epoch": 0.303264, + "grad_norm": 0.8821669816970825, + "learning_rate": 1.7978240000000003e-05, + "loss": 0.0576, + "step": 47385 + }, + { + "epoch": 0.303296, + "grad_norm": 0.6452820301055908, + "learning_rate": 1.7978026666666667e-05, + "loss": 0.0251, + "step": 47390 + }, + { + "epoch": 0.303328, + "grad_norm": 0.8210822343826294, + "learning_rate": 1.7977813333333335e-05, + "loss": 0.06, + "step": 47395 + }, + { + "epoch": 0.30336, + "grad_norm": 1.3523316383361816, + "learning_rate": 1.7977600000000002e-05, + "loss": 0.0346, + "step": 47400 + }, + { + "epoch": 0.303392, + "grad_norm": 0.7396690845489502, + "learning_rate": 1.7977386666666666e-05, + "loss": 0.0532, + "step": 47405 + }, + { + "epoch": 0.303424, + "grad_norm": 0.42880648374557495, + "learning_rate": 1.7977173333333334e-05, + "loss": 0.0415, + "step": 47410 + }, + { + "epoch": 0.303456, + "grad_norm": 0.6304374933242798, + "learning_rate": 1.797696e-05, + "loss": 0.0314, + "step": 47415 + }, + { + "epoch": 0.303488, + "grad_norm": 0.8276273012161255, + "learning_rate": 1.797674666666667e-05, + "loss": 0.0374, + "step": 47420 + }, + { + "epoch": 0.30352, + "grad_norm": 0.675324022769928, + "learning_rate": 1.7976533333333333e-05, + "loss": 0.0436, + "step": 47425 + }, + { + "epoch": 0.303552, + "grad_norm": 0.42975813150405884, + "learning_rate": 1.797632e-05, + "loss": 0.0354, + "step": 47430 + }, + { + "epoch": 0.303584, + "grad_norm": 0.4800214171409607, + "learning_rate": 1.7976106666666668e-05, + "loss": 0.0211, + "step": 47435 + }, + { + "epoch": 0.303616, + "grad_norm": 0.7267314791679382, + "learning_rate": 1.7975893333333332e-05, + "loss": 0.0429, + "step": 47440 + }, + { + "epoch": 0.303648, + "grad_norm": 1.0399373769760132, + "learning_rate": 1.7975680000000003e-05, + "loss": 0.0633, + "step": 47445 + }, + { + "epoch": 0.30368, + "grad_norm": 0.8281059861183167, + "learning_rate": 1.7975466666666668e-05, + "loss": 0.0667, + "step": 47450 + }, + { + "epoch": 0.303712, + "grad_norm": 0.9139512181282043, + "learning_rate": 1.7975253333333335e-05, + "loss": 0.0481, + "step": 47455 + }, + { + "epoch": 0.303744, + "grad_norm": 1.8671021461486816, + "learning_rate": 1.7975040000000003e-05, + "loss": 0.0407, + "step": 47460 + }, + { + "epoch": 0.303776, + "grad_norm": 0.41560661792755127, + "learning_rate": 1.7974826666666667e-05, + "loss": 0.0284, + "step": 47465 + }, + { + "epoch": 0.303808, + "grad_norm": 2.3965044021606445, + "learning_rate": 1.7974613333333334e-05, + "loss": 0.0402, + "step": 47470 + }, + { + "epoch": 0.30384, + "grad_norm": 0.7390210628509521, + "learning_rate": 1.7974400000000002e-05, + "loss": 0.0355, + "step": 47475 + }, + { + "epoch": 0.303872, + "grad_norm": 0.7091089487075806, + "learning_rate": 1.797418666666667e-05, + "loss": 0.0351, + "step": 47480 + }, + { + "epoch": 0.303904, + "grad_norm": 0.9426867961883545, + "learning_rate": 1.7973973333333334e-05, + "loss": 0.025, + "step": 47485 + }, + { + "epoch": 0.303936, + "grad_norm": 0.7954874634742737, + "learning_rate": 1.797376e-05, + "loss": 0.0362, + "step": 47490 + }, + { + "epoch": 0.303968, + "grad_norm": 0.3863474726676941, + "learning_rate": 1.797354666666667e-05, + "loss": 0.0324, + "step": 47495 + }, + { + "epoch": 0.304, + "grad_norm": 0.7799931764602661, + "learning_rate": 1.7973333333333333e-05, + "loss": 0.0347, + "step": 47500 + }, + { + "epoch": 0.304032, + "grad_norm": 0.8253242373466492, + "learning_rate": 1.797312e-05, + "loss": 0.0404, + "step": 47505 + }, + { + "epoch": 0.304064, + "grad_norm": 1.768029808998108, + "learning_rate": 1.7972906666666668e-05, + "loss": 0.064, + "step": 47510 + }, + { + "epoch": 0.304096, + "grad_norm": 1.2605934143066406, + "learning_rate": 1.7972693333333336e-05, + "loss": 0.0388, + "step": 47515 + }, + { + "epoch": 0.304128, + "grad_norm": 0.7347142696380615, + "learning_rate": 1.797248e-05, + "loss": 0.0339, + "step": 47520 + }, + { + "epoch": 0.30416, + "grad_norm": 1.3269052505493164, + "learning_rate": 1.7972266666666667e-05, + "loss": 0.0541, + "step": 47525 + }, + { + "epoch": 0.304192, + "grad_norm": 0.8217503428459167, + "learning_rate": 1.7972053333333335e-05, + "loss": 0.0494, + "step": 47530 + }, + { + "epoch": 0.304224, + "grad_norm": 0.7353371977806091, + "learning_rate": 1.797184e-05, + "loss": 0.0392, + "step": 47535 + }, + { + "epoch": 0.304256, + "grad_norm": 0.7363714575767517, + "learning_rate": 1.797162666666667e-05, + "loss": 0.0255, + "step": 47540 + }, + { + "epoch": 0.304288, + "grad_norm": 0.9082111716270447, + "learning_rate": 1.7971413333333334e-05, + "loss": 0.0537, + "step": 47545 + }, + { + "epoch": 0.30432, + "grad_norm": 0.9283688068389893, + "learning_rate": 1.79712e-05, + "loss": 0.0517, + "step": 47550 + }, + { + "epoch": 0.304352, + "grad_norm": 1.2747403383255005, + "learning_rate": 1.797098666666667e-05, + "loss": 0.0425, + "step": 47555 + }, + { + "epoch": 0.304384, + "grad_norm": 1.0129355192184448, + "learning_rate": 1.7970773333333337e-05, + "loss": 0.0502, + "step": 47560 + }, + { + "epoch": 0.304416, + "grad_norm": 0.3127828538417816, + "learning_rate": 1.797056e-05, + "loss": 0.0604, + "step": 47565 + }, + { + "epoch": 0.304448, + "grad_norm": 0.5555579662322998, + "learning_rate": 1.797034666666667e-05, + "loss": 0.0399, + "step": 47570 + }, + { + "epoch": 0.30448, + "grad_norm": 0.6638855934143066, + "learning_rate": 1.7970133333333336e-05, + "loss": 0.0343, + "step": 47575 + }, + { + "epoch": 0.304512, + "grad_norm": 0.6369057893753052, + "learning_rate": 1.796992e-05, + "loss": 0.0419, + "step": 47580 + }, + { + "epoch": 0.304544, + "grad_norm": 1.1588826179504395, + "learning_rate": 1.7969706666666668e-05, + "loss": 0.0302, + "step": 47585 + }, + { + "epoch": 0.304576, + "grad_norm": 0.6197716593742371, + "learning_rate": 1.7969493333333335e-05, + "loss": 0.0431, + "step": 47590 + }, + { + "epoch": 0.304608, + "grad_norm": 2.506181240081787, + "learning_rate": 1.7969280000000003e-05, + "loss": 0.0519, + "step": 47595 + }, + { + "epoch": 0.30464, + "grad_norm": 1.2634069919586182, + "learning_rate": 1.7969066666666667e-05, + "loss": 0.0791, + "step": 47600 + }, + { + "epoch": 0.304672, + "grad_norm": 0.669147253036499, + "learning_rate": 1.7968853333333335e-05, + "loss": 0.0248, + "step": 47605 + }, + { + "epoch": 0.304704, + "grad_norm": 1.231091022491455, + "learning_rate": 1.7968640000000002e-05, + "loss": 0.0438, + "step": 47610 + }, + { + "epoch": 0.304736, + "grad_norm": 1.173721432685852, + "learning_rate": 1.7968426666666666e-05, + "loss": 0.0522, + "step": 47615 + }, + { + "epoch": 0.304768, + "grad_norm": 0.6111080050468445, + "learning_rate": 1.7968213333333334e-05, + "loss": 0.0678, + "step": 47620 + }, + { + "epoch": 0.3048, + "grad_norm": 0.5468021035194397, + "learning_rate": 1.7968e-05, + "loss": 0.0273, + "step": 47625 + }, + { + "epoch": 0.304832, + "grad_norm": 1.1530507802963257, + "learning_rate": 1.796778666666667e-05, + "loss": 0.0302, + "step": 47630 + }, + { + "epoch": 0.304864, + "grad_norm": 0.7632494568824768, + "learning_rate": 1.7967573333333333e-05, + "loss": 0.0475, + "step": 47635 + }, + { + "epoch": 0.304896, + "grad_norm": 0.5309826731681824, + "learning_rate": 1.7967360000000004e-05, + "loss": 0.0391, + "step": 47640 + }, + { + "epoch": 0.304928, + "grad_norm": 0.37760865688323975, + "learning_rate": 1.7967146666666668e-05, + "loss": 0.0429, + "step": 47645 + }, + { + "epoch": 0.30496, + "grad_norm": 0.31867870688438416, + "learning_rate": 1.7966933333333332e-05, + "loss": 0.029, + "step": 47650 + }, + { + "epoch": 0.304992, + "grad_norm": 1.4403575658798218, + "learning_rate": 1.7966720000000003e-05, + "loss": 0.0383, + "step": 47655 + }, + { + "epoch": 0.305024, + "grad_norm": 0.9495245814323425, + "learning_rate": 1.7966506666666668e-05, + "loss": 0.0566, + "step": 47660 + }, + { + "epoch": 0.305056, + "grad_norm": 0.6388310790061951, + "learning_rate": 1.7966293333333335e-05, + "loss": 0.0389, + "step": 47665 + }, + { + "epoch": 0.305088, + "grad_norm": 0.9214041829109192, + "learning_rate": 1.7966080000000003e-05, + "loss": 0.0372, + "step": 47670 + }, + { + "epoch": 0.30512, + "grad_norm": 1.0538222789764404, + "learning_rate": 1.796586666666667e-05, + "loss": 0.0534, + "step": 47675 + }, + { + "epoch": 0.305152, + "grad_norm": 1.3743027448654175, + "learning_rate": 1.7965653333333334e-05, + "loss": 0.0541, + "step": 47680 + }, + { + "epoch": 0.305184, + "grad_norm": 0.6347050666809082, + "learning_rate": 1.7965440000000002e-05, + "loss": 0.0319, + "step": 47685 + }, + { + "epoch": 0.305216, + "grad_norm": 0.806636393070221, + "learning_rate": 1.796522666666667e-05, + "loss": 0.0358, + "step": 47690 + }, + { + "epoch": 0.305248, + "grad_norm": 0.2601534426212311, + "learning_rate": 1.7965013333333334e-05, + "loss": 0.0371, + "step": 47695 + }, + { + "epoch": 0.30528, + "grad_norm": 0.9769121408462524, + "learning_rate": 1.79648e-05, + "loss": 0.0752, + "step": 47700 + }, + { + "epoch": 0.305312, + "grad_norm": 0.38782498240470886, + "learning_rate": 1.796458666666667e-05, + "loss": 0.0176, + "step": 47705 + }, + { + "epoch": 0.305344, + "grad_norm": 0.8662906885147095, + "learning_rate": 1.7964373333333336e-05, + "loss": 0.0546, + "step": 47710 + }, + { + "epoch": 0.305376, + "grad_norm": 0.7903226613998413, + "learning_rate": 1.796416e-05, + "loss": 0.0468, + "step": 47715 + }, + { + "epoch": 0.305408, + "grad_norm": 0.8006908893585205, + "learning_rate": 1.7963946666666668e-05, + "loss": 0.0489, + "step": 47720 + }, + { + "epoch": 0.30544, + "grad_norm": 1.5112298727035522, + "learning_rate": 1.7963733333333336e-05, + "loss": 0.0226, + "step": 47725 + }, + { + "epoch": 0.305472, + "grad_norm": 0.32998859882354736, + "learning_rate": 1.796352e-05, + "loss": 0.0273, + "step": 47730 + }, + { + "epoch": 0.305504, + "grad_norm": 1.4430104494094849, + "learning_rate": 1.7963306666666667e-05, + "loss": 0.0992, + "step": 47735 + }, + { + "epoch": 0.305536, + "grad_norm": 1.2365787029266357, + "learning_rate": 1.7963093333333335e-05, + "loss": 0.042, + "step": 47740 + }, + { + "epoch": 0.305568, + "grad_norm": 0.9205142855644226, + "learning_rate": 1.7962880000000002e-05, + "loss": 0.04, + "step": 47745 + }, + { + "epoch": 0.3056, + "grad_norm": 0.4571879506111145, + "learning_rate": 1.7962666666666667e-05, + "loss": 0.0588, + "step": 47750 + }, + { + "epoch": 0.305632, + "grad_norm": 1.2931994199752808, + "learning_rate": 1.7962453333333334e-05, + "loss": 0.0244, + "step": 47755 + }, + { + "epoch": 0.305664, + "grad_norm": 1.072635531425476, + "learning_rate": 1.796224e-05, + "loss": 0.0637, + "step": 47760 + }, + { + "epoch": 0.305696, + "grad_norm": 0.7413470149040222, + "learning_rate": 1.796202666666667e-05, + "loss": 0.039, + "step": 47765 + }, + { + "epoch": 0.305728, + "grad_norm": 0.8969730734825134, + "learning_rate": 1.7961813333333337e-05, + "loss": 0.0382, + "step": 47770 + }, + { + "epoch": 0.30576, + "grad_norm": 0.9806831479072571, + "learning_rate": 1.79616e-05, + "loss": 0.0644, + "step": 47775 + }, + { + "epoch": 0.305792, + "grad_norm": 0.7440590262413025, + "learning_rate": 1.796138666666667e-05, + "loss": 0.0354, + "step": 47780 + }, + { + "epoch": 0.305824, + "grad_norm": 0.2961941063404083, + "learning_rate": 1.7961173333333336e-05, + "loss": 0.0385, + "step": 47785 + }, + { + "epoch": 0.305856, + "grad_norm": 0.2644992470741272, + "learning_rate": 1.796096e-05, + "loss": 0.0574, + "step": 47790 + }, + { + "epoch": 0.305888, + "grad_norm": 2.6359498500823975, + "learning_rate": 1.7960746666666668e-05, + "loss": 0.0511, + "step": 47795 + }, + { + "epoch": 0.30592, + "grad_norm": 0.5744278430938721, + "learning_rate": 1.7960533333333335e-05, + "loss": 0.0555, + "step": 47800 + }, + { + "epoch": 0.305952, + "grad_norm": 0.6172960996627808, + "learning_rate": 1.7960320000000003e-05, + "loss": 0.0252, + "step": 47805 + }, + { + "epoch": 0.305984, + "grad_norm": 2.126926898956299, + "learning_rate": 1.7960106666666667e-05, + "loss": 0.0717, + "step": 47810 + }, + { + "epoch": 0.306016, + "grad_norm": 0.19168482720851898, + "learning_rate": 1.7959893333333335e-05, + "loss": 0.048, + "step": 47815 + }, + { + "epoch": 0.306048, + "grad_norm": 0.5507838726043701, + "learning_rate": 1.7959680000000002e-05, + "loss": 0.0237, + "step": 47820 + }, + { + "epoch": 0.30608, + "grad_norm": 0.5499805808067322, + "learning_rate": 1.7959466666666666e-05, + "loss": 0.0392, + "step": 47825 + }, + { + "epoch": 0.306112, + "grad_norm": 1.7550101280212402, + "learning_rate": 1.7959253333333334e-05, + "loss": 0.0309, + "step": 47830 + }, + { + "epoch": 0.306144, + "grad_norm": 0.7458675503730774, + "learning_rate": 1.795904e-05, + "loss": 0.0502, + "step": 47835 + }, + { + "epoch": 0.306176, + "grad_norm": 0.23613081872463226, + "learning_rate": 1.795882666666667e-05, + "loss": 0.0249, + "step": 47840 + }, + { + "epoch": 0.306208, + "grad_norm": 0.6589865684509277, + "learning_rate": 1.7958613333333333e-05, + "loss": 0.0363, + "step": 47845 + }, + { + "epoch": 0.30624, + "grad_norm": 0.4980623722076416, + "learning_rate": 1.7958400000000004e-05, + "loss": 0.0412, + "step": 47850 + }, + { + "epoch": 0.306272, + "grad_norm": 0.5379583835601807, + "learning_rate": 1.7958186666666668e-05, + "loss": 0.0405, + "step": 47855 + }, + { + "epoch": 0.306304, + "grad_norm": 0.6255550384521484, + "learning_rate": 1.7957973333333332e-05, + "loss": 0.045, + "step": 47860 + }, + { + "epoch": 0.306336, + "grad_norm": 0.6154789328575134, + "learning_rate": 1.7957760000000003e-05, + "loss": 0.0335, + "step": 47865 + }, + { + "epoch": 0.306368, + "grad_norm": 1.0935137271881104, + "learning_rate": 1.7957546666666668e-05, + "loss": 0.0362, + "step": 47870 + }, + { + "epoch": 0.3064, + "grad_norm": 0.38022834062576294, + "learning_rate": 1.7957333333333335e-05, + "loss": 0.031, + "step": 47875 + }, + { + "epoch": 0.306432, + "grad_norm": 0.3407646119594574, + "learning_rate": 1.7957120000000003e-05, + "loss": 0.0336, + "step": 47880 + }, + { + "epoch": 0.306464, + "grad_norm": 0.5584692358970642, + "learning_rate": 1.795690666666667e-05, + "loss": 0.0418, + "step": 47885 + }, + { + "epoch": 0.306496, + "grad_norm": 1.736069679260254, + "learning_rate": 1.7956693333333334e-05, + "loss": 0.0499, + "step": 47890 + }, + { + "epoch": 0.306528, + "grad_norm": 0.7007865905761719, + "learning_rate": 1.7956480000000002e-05, + "loss": 0.0374, + "step": 47895 + }, + { + "epoch": 0.30656, + "grad_norm": 1.019632339477539, + "learning_rate": 1.795626666666667e-05, + "loss": 0.0444, + "step": 47900 + }, + { + "epoch": 0.306592, + "grad_norm": 1.3048114776611328, + "learning_rate": 1.7956053333333334e-05, + "loss": 0.0926, + "step": 47905 + }, + { + "epoch": 0.306624, + "grad_norm": 0.484361857175827, + "learning_rate": 1.795584e-05, + "loss": 0.0563, + "step": 47910 + }, + { + "epoch": 0.306656, + "grad_norm": 0.4856688976287842, + "learning_rate": 1.795562666666667e-05, + "loss": 0.033, + "step": 47915 + }, + { + "epoch": 0.306688, + "grad_norm": 0.7223329544067383, + "learning_rate": 1.7955413333333336e-05, + "loss": 0.0522, + "step": 47920 + }, + { + "epoch": 0.30672, + "grad_norm": 1.0113738775253296, + "learning_rate": 1.79552e-05, + "loss": 0.0565, + "step": 47925 + }, + { + "epoch": 0.306752, + "grad_norm": 0.6186505556106567, + "learning_rate": 1.7954986666666668e-05, + "loss": 0.0488, + "step": 47930 + }, + { + "epoch": 0.306784, + "grad_norm": 0.17194437980651855, + "learning_rate": 1.7954773333333336e-05, + "loss": 0.0279, + "step": 47935 + }, + { + "epoch": 0.306816, + "grad_norm": 0.5061421394348145, + "learning_rate": 1.795456e-05, + "loss": 0.0351, + "step": 47940 + }, + { + "epoch": 0.306848, + "grad_norm": 1.6960192918777466, + "learning_rate": 1.7954346666666667e-05, + "loss": 0.0566, + "step": 47945 + }, + { + "epoch": 0.30688, + "grad_norm": 0.9082406759262085, + "learning_rate": 1.7954133333333335e-05, + "loss": 0.0608, + "step": 47950 + }, + { + "epoch": 0.306912, + "grad_norm": 2.0013136863708496, + "learning_rate": 1.7953920000000002e-05, + "loss": 0.0616, + "step": 47955 + }, + { + "epoch": 0.306944, + "grad_norm": 3.874979019165039, + "learning_rate": 1.7953706666666667e-05, + "loss": 0.0591, + "step": 47960 + }, + { + "epoch": 0.306976, + "grad_norm": 0.8060371279716492, + "learning_rate": 1.7953493333333334e-05, + "loss": 0.0284, + "step": 47965 + }, + { + "epoch": 0.307008, + "grad_norm": 1.1581389904022217, + "learning_rate": 1.795328e-05, + "loss": 0.0414, + "step": 47970 + }, + { + "epoch": 0.30704, + "grad_norm": 0.6970174312591553, + "learning_rate": 1.7953066666666666e-05, + "loss": 0.0237, + "step": 47975 + }, + { + "epoch": 0.307072, + "grad_norm": 1.079298734664917, + "learning_rate": 1.7952853333333337e-05, + "loss": 0.0415, + "step": 47980 + }, + { + "epoch": 0.307104, + "grad_norm": 1.0097994804382324, + "learning_rate": 1.795264e-05, + "loss": 0.0614, + "step": 47985 + }, + { + "epoch": 0.307136, + "grad_norm": 0.8856803178787231, + "learning_rate": 1.795242666666667e-05, + "loss": 0.0567, + "step": 47990 + }, + { + "epoch": 0.307168, + "grad_norm": 0.7965021729469299, + "learning_rate": 1.7952213333333336e-05, + "loss": 0.0428, + "step": 47995 + }, + { + "epoch": 0.3072, + "grad_norm": 0.22021903097629547, + "learning_rate": 1.7952e-05, + "loss": 0.0455, + "step": 48000 + }, + { + "epoch": 0.307232, + "grad_norm": 1.3499733209609985, + "learning_rate": 1.7951786666666668e-05, + "loss": 0.0344, + "step": 48005 + }, + { + "epoch": 0.307264, + "grad_norm": 0.38659054040908813, + "learning_rate": 1.7951573333333335e-05, + "loss": 0.0418, + "step": 48010 + }, + { + "epoch": 0.307296, + "grad_norm": 0.5599367022514343, + "learning_rate": 1.7951360000000003e-05, + "loss": 0.028, + "step": 48015 + }, + { + "epoch": 0.307328, + "grad_norm": 0.6574429869651794, + "learning_rate": 1.7951146666666667e-05, + "loss": 0.0559, + "step": 48020 + }, + { + "epoch": 0.30736, + "grad_norm": 0.2738451063632965, + "learning_rate": 1.7950933333333335e-05, + "loss": 0.0294, + "step": 48025 + }, + { + "epoch": 0.307392, + "grad_norm": 1.4000599384307861, + "learning_rate": 1.7950720000000002e-05, + "loss": 0.0394, + "step": 48030 + }, + { + "epoch": 0.307424, + "grad_norm": 0.27916625142097473, + "learning_rate": 1.7950506666666666e-05, + "loss": 0.033, + "step": 48035 + }, + { + "epoch": 0.307456, + "grad_norm": 0.28295794129371643, + "learning_rate": 1.7950293333333334e-05, + "loss": 0.0516, + "step": 48040 + }, + { + "epoch": 0.307488, + "grad_norm": 0.9217490553855896, + "learning_rate": 1.795008e-05, + "loss": 0.0494, + "step": 48045 + }, + { + "epoch": 0.30752, + "grad_norm": 0.10126643627882004, + "learning_rate": 1.794986666666667e-05, + "loss": 0.0521, + "step": 48050 + }, + { + "epoch": 0.307552, + "grad_norm": 1.5389152765274048, + "learning_rate": 1.7949653333333333e-05, + "loss": 0.0492, + "step": 48055 + }, + { + "epoch": 0.307584, + "grad_norm": 0.5657032132148743, + "learning_rate": 1.7949440000000004e-05, + "loss": 0.0451, + "step": 48060 + }, + { + "epoch": 0.307616, + "grad_norm": 1.3511821031570435, + "learning_rate": 1.7949226666666668e-05, + "loss": 0.0436, + "step": 48065 + }, + { + "epoch": 0.307648, + "grad_norm": 1.06656813621521, + "learning_rate": 1.7949013333333332e-05, + "loss": 0.0344, + "step": 48070 + }, + { + "epoch": 0.30768, + "grad_norm": 1.1687462329864502, + "learning_rate": 1.7948800000000003e-05, + "loss": 0.0337, + "step": 48075 + }, + { + "epoch": 0.307712, + "grad_norm": 0.3850368857383728, + "learning_rate": 1.7948586666666668e-05, + "loss": 0.0369, + "step": 48080 + }, + { + "epoch": 0.307744, + "grad_norm": 1.5164049863815308, + "learning_rate": 1.7948373333333335e-05, + "loss": 0.0399, + "step": 48085 + }, + { + "epoch": 0.307776, + "grad_norm": 0.32565903663635254, + "learning_rate": 1.7948160000000003e-05, + "loss": 0.0359, + "step": 48090 + }, + { + "epoch": 0.307808, + "grad_norm": 0.33330419659614563, + "learning_rate": 1.794794666666667e-05, + "loss": 0.0372, + "step": 48095 + }, + { + "epoch": 0.30784, + "grad_norm": 0.6513054370880127, + "learning_rate": 1.7947733333333334e-05, + "loss": 0.0326, + "step": 48100 + }, + { + "epoch": 0.307872, + "grad_norm": 0.6224717497825623, + "learning_rate": 1.7947520000000002e-05, + "loss": 0.0693, + "step": 48105 + }, + { + "epoch": 0.307904, + "grad_norm": 0.8178685307502747, + "learning_rate": 1.794730666666667e-05, + "loss": 0.031, + "step": 48110 + }, + { + "epoch": 0.307936, + "grad_norm": 0.5838255286216736, + "learning_rate": 1.7947093333333334e-05, + "loss": 0.0546, + "step": 48115 + }, + { + "epoch": 0.307968, + "grad_norm": 1.000823974609375, + "learning_rate": 1.794688e-05, + "loss": 0.0306, + "step": 48120 + }, + { + "epoch": 0.308, + "grad_norm": 0.3554089069366455, + "learning_rate": 1.794666666666667e-05, + "loss": 0.0426, + "step": 48125 + }, + { + "epoch": 0.308032, + "grad_norm": 1.101121425628662, + "learning_rate": 1.7946453333333336e-05, + "loss": 0.0502, + "step": 48130 + }, + { + "epoch": 0.308064, + "grad_norm": 0.5592462420463562, + "learning_rate": 1.794624e-05, + "loss": 0.0474, + "step": 48135 + }, + { + "epoch": 0.308096, + "grad_norm": 0.4806891083717346, + "learning_rate": 1.7946026666666668e-05, + "loss": 0.0669, + "step": 48140 + }, + { + "epoch": 0.308128, + "grad_norm": 0.8238901495933533, + "learning_rate": 1.7945813333333336e-05, + "loss": 0.0336, + "step": 48145 + }, + { + "epoch": 0.30816, + "grad_norm": 0.9267534017562866, + "learning_rate": 1.79456e-05, + "loss": 0.0538, + "step": 48150 + }, + { + "epoch": 0.308192, + "grad_norm": 0.908924400806427, + "learning_rate": 1.7945386666666667e-05, + "loss": 0.0618, + "step": 48155 + }, + { + "epoch": 0.308224, + "grad_norm": 0.7973484992980957, + "learning_rate": 1.7945173333333335e-05, + "loss": 0.0421, + "step": 48160 + }, + { + "epoch": 0.308256, + "grad_norm": 0.29235610365867615, + "learning_rate": 1.7944960000000002e-05, + "loss": 0.0284, + "step": 48165 + }, + { + "epoch": 0.308288, + "grad_norm": 0.5374487638473511, + "learning_rate": 1.7944746666666667e-05, + "loss": 0.038, + "step": 48170 + }, + { + "epoch": 0.30832, + "grad_norm": 0.7443572878837585, + "learning_rate": 1.7944533333333334e-05, + "loss": 0.0413, + "step": 48175 + }, + { + "epoch": 0.308352, + "grad_norm": 0.6272024512290955, + "learning_rate": 1.794432e-05, + "loss": 0.0265, + "step": 48180 + }, + { + "epoch": 0.308384, + "grad_norm": 0.6760263442993164, + "learning_rate": 1.7944106666666666e-05, + "loss": 0.0481, + "step": 48185 + }, + { + "epoch": 0.308416, + "grad_norm": 1.006993293762207, + "learning_rate": 1.7943893333333337e-05, + "loss": 0.0435, + "step": 48190 + }, + { + "epoch": 0.308448, + "grad_norm": 1.867409110069275, + "learning_rate": 1.794368e-05, + "loss": 0.0625, + "step": 48195 + }, + { + "epoch": 0.30848, + "grad_norm": 0.6067203283309937, + "learning_rate": 1.794346666666667e-05, + "loss": 0.0831, + "step": 48200 + }, + { + "epoch": 0.308512, + "grad_norm": 1.5980610847473145, + "learning_rate": 1.7943253333333336e-05, + "loss": 0.0798, + "step": 48205 + }, + { + "epoch": 0.308544, + "grad_norm": 0.9438189268112183, + "learning_rate": 1.794304e-05, + "loss": 0.064, + "step": 48210 + }, + { + "epoch": 0.308576, + "grad_norm": 0.580121636390686, + "learning_rate": 1.7942826666666668e-05, + "loss": 0.0327, + "step": 48215 + }, + { + "epoch": 0.308608, + "grad_norm": 0.39691367745399475, + "learning_rate": 1.7942613333333335e-05, + "loss": 0.0319, + "step": 48220 + }, + { + "epoch": 0.30864, + "grad_norm": 0.6470995545387268, + "learning_rate": 1.7942400000000003e-05, + "loss": 0.0413, + "step": 48225 + }, + { + "epoch": 0.308672, + "grad_norm": 0.7380239963531494, + "learning_rate": 1.7942186666666667e-05, + "loss": 0.0486, + "step": 48230 + }, + { + "epoch": 0.308704, + "grad_norm": 0.519365131855011, + "learning_rate": 1.7941973333333335e-05, + "loss": 0.0452, + "step": 48235 + }, + { + "epoch": 0.308736, + "grad_norm": 0.13846877217292786, + "learning_rate": 1.7941760000000002e-05, + "loss": 0.0311, + "step": 48240 + }, + { + "epoch": 0.308768, + "grad_norm": 0.5167309045791626, + "learning_rate": 1.7941546666666666e-05, + "loss": 0.0284, + "step": 48245 + }, + { + "epoch": 0.3088, + "grad_norm": 0.5157473683357239, + "learning_rate": 1.7941333333333334e-05, + "loss": 0.0315, + "step": 48250 + }, + { + "epoch": 0.308832, + "grad_norm": 0.144619882106781, + "learning_rate": 1.794112e-05, + "loss": 0.0405, + "step": 48255 + }, + { + "epoch": 0.308864, + "grad_norm": 0.48167338967323303, + "learning_rate": 1.794090666666667e-05, + "loss": 0.0356, + "step": 48260 + }, + { + "epoch": 0.308896, + "grad_norm": 0.4890185296535492, + "learning_rate": 1.7940693333333333e-05, + "loss": 0.046, + "step": 48265 + }, + { + "epoch": 0.308928, + "grad_norm": 0.6797224283218384, + "learning_rate": 1.794048e-05, + "loss": 0.04, + "step": 48270 + }, + { + "epoch": 0.30896, + "grad_norm": 2.929293632507324, + "learning_rate": 1.7940266666666668e-05, + "loss": 0.0594, + "step": 48275 + }, + { + "epoch": 0.308992, + "grad_norm": 0.7009500861167908, + "learning_rate": 1.7940053333333332e-05, + "loss": 0.049, + "step": 48280 + }, + { + "epoch": 0.309024, + "grad_norm": 0.7869966626167297, + "learning_rate": 1.7939840000000003e-05, + "loss": 0.0478, + "step": 48285 + }, + { + "epoch": 0.309056, + "grad_norm": 0.8169942498207092, + "learning_rate": 1.7939626666666668e-05, + "loss": 0.0446, + "step": 48290 + }, + { + "epoch": 0.309088, + "grad_norm": 0.5938654541969299, + "learning_rate": 1.7939413333333335e-05, + "loss": 0.0492, + "step": 48295 + }, + { + "epoch": 0.30912, + "grad_norm": 0.7080367207527161, + "learning_rate": 1.7939200000000003e-05, + "loss": 0.0443, + "step": 48300 + }, + { + "epoch": 0.309152, + "grad_norm": 1.3171871900558472, + "learning_rate": 1.793898666666667e-05, + "loss": 0.0462, + "step": 48305 + }, + { + "epoch": 0.309184, + "grad_norm": 0.4785130023956299, + "learning_rate": 1.7938773333333334e-05, + "loss": 0.0182, + "step": 48310 + }, + { + "epoch": 0.309216, + "grad_norm": 1.1052886247634888, + "learning_rate": 1.7938560000000002e-05, + "loss": 0.0709, + "step": 48315 + }, + { + "epoch": 0.309248, + "grad_norm": 0.6554220914840698, + "learning_rate": 1.793834666666667e-05, + "loss": 0.0423, + "step": 48320 + }, + { + "epoch": 0.30928, + "grad_norm": 0.42754247784614563, + "learning_rate": 1.7938133333333334e-05, + "loss": 0.0435, + "step": 48325 + }, + { + "epoch": 0.309312, + "grad_norm": 0.7571170926094055, + "learning_rate": 1.793792e-05, + "loss": 0.0382, + "step": 48330 + }, + { + "epoch": 0.309344, + "grad_norm": 0.5232083797454834, + "learning_rate": 1.793770666666667e-05, + "loss": 0.0549, + "step": 48335 + }, + { + "epoch": 0.309376, + "grad_norm": 0.8511497378349304, + "learning_rate": 1.7937493333333336e-05, + "loss": 0.0408, + "step": 48340 + }, + { + "epoch": 0.309408, + "grad_norm": 0.6229161024093628, + "learning_rate": 1.793728e-05, + "loss": 0.0262, + "step": 48345 + }, + { + "epoch": 0.30944, + "grad_norm": 1.629569172859192, + "learning_rate": 1.7937066666666668e-05, + "loss": 0.0408, + "step": 48350 + }, + { + "epoch": 0.309472, + "grad_norm": 0.6884337067604065, + "learning_rate": 1.7936853333333336e-05, + "loss": 0.0389, + "step": 48355 + }, + { + "epoch": 0.309504, + "grad_norm": 0.4607122242450714, + "learning_rate": 1.793664e-05, + "loss": 0.0195, + "step": 48360 + }, + { + "epoch": 0.309536, + "grad_norm": 0.7601702213287354, + "learning_rate": 1.7936426666666667e-05, + "loss": 0.0431, + "step": 48365 + }, + { + "epoch": 0.309568, + "grad_norm": 0.44264623522758484, + "learning_rate": 1.7936213333333335e-05, + "loss": 0.0359, + "step": 48370 + }, + { + "epoch": 0.3096, + "grad_norm": 1.6114269495010376, + "learning_rate": 1.7936000000000002e-05, + "loss": 0.0506, + "step": 48375 + }, + { + "epoch": 0.309632, + "grad_norm": 0.14949437975883484, + "learning_rate": 1.7935786666666667e-05, + "loss": 0.0221, + "step": 48380 + }, + { + "epoch": 0.309664, + "grad_norm": 0.9256247878074646, + "learning_rate": 1.7935573333333334e-05, + "loss": 0.0468, + "step": 48385 + }, + { + "epoch": 0.309696, + "grad_norm": 0.6188729405403137, + "learning_rate": 1.7935360000000002e-05, + "loss": 0.0309, + "step": 48390 + }, + { + "epoch": 0.309728, + "grad_norm": 1.1896674633026123, + "learning_rate": 1.7935146666666666e-05, + "loss": 0.0413, + "step": 48395 + }, + { + "epoch": 0.30976, + "grad_norm": 0.49850934743881226, + "learning_rate": 1.7934933333333337e-05, + "loss": 0.038, + "step": 48400 + }, + { + "epoch": 0.309792, + "grad_norm": 0.6102609038352966, + "learning_rate": 1.793472e-05, + "loss": 0.0543, + "step": 48405 + }, + { + "epoch": 0.309824, + "grad_norm": 0.71257084608078, + "learning_rate": 1.793450666666667e-05, + "loss": 0.0443, + "step": 48410 + }, + { + "epoch": 0.309856, + "grad_norm": 0.8170591592788696, + "learning_rate": 1.7934293333333336e-05, + "loss": 0.0431, + "step": 48415 + }, + { + "epoch": 0.309888, + "grad_norm": 0.9979968070983887, + "learning_rate": 1.793408e-05, + "loss": 0.0363, + "step": 48420 + }, + { + "epoch": 0.30992, + "grad_norm": 0.9610974788665771, + "learning_rate": 1.7933866666666668e-05, + "loss": 0.0453, + "step": 48425 + }, + { + "epoch": 0.309952, + "grad_norm": 1.3441979885101318, + "learning_rate": 1.7933653333333335e-05, + "loss": 0.0428, + "step": 48430 + }, + { + "epoch": 0.309984, + "grad_norm": 1.074580192565918, + "learning_rate": 1.7933440000000003e-05, + "loss": 0.0314, + "step": 48435 + }, + { + "epoch": 0.310016, + "grad_norm": 0.8395155072212219, + "learning_rate": 1.7933226666666667e-05, + "loss": 0.0688, + "step": 48440 + }, + { + "epoch": 0.310048, + "grad_norm": 0.5426404476165771, + "learning_rate": 1.7933013333333335e-05, + "loss": 0.0509, + "step": 48445 + }, + { + "epoch": 0.31008, + "grad_norm": 0.819528341293335, + "learning_rate": 1.7932800000000002e-05, + "loss": 0.0153, + "step": 48450 + }, + { + "epoch": 0.310112, + "grad_norm": 0.8349645137786865, + "learning_rate": 1.7932586666666666e-05, + "loss": 0.0395, + "step": 48455 + }, + { + "epoch": 0.310144, + "grad_norm": 0.4356594681739807, + "learning_rate": 1.7932373333333334e-05, + "loss": 0.0473, + "step": 48460 + }, + { + "epoch": 0.310176, + "grad_norm": 3.664458990097046, + "learning_rate": 1.793216e-05, + "loss": 0.0377, + "step": 48465 + }, + { + "epoch": 0.310208, + "grad_norm": 0.8506413102149963, + "learning_rate": 1.793194666666667e-05, + "loss": 0.0332, + "step": 48470 + }, + { + "epoch": 0.31024, + "grad_norm": 0.45298659801483154, + "learning_rate": 1.7931733333333333e-05, + "loss": 0.0384, + "step": 48475 + }, + { + "epoch": 0.310272, + "grad_norm": 0.8795851469039917, + "learning_rate": 1.793152e-05, + "loss": 0.0254, + "step": 48480 + }, + { + "epoch": 0.310304, + "grad_norm": 0.8425366878509521, + "learning_rate": 1.7931306666666668e-05, + "loss": 0.0373, + "step": 48485 + }, + { + "epoch": 0.310336, + "grad_norm": 0.7885459661483765, + "learning_rate": 1.7931093333333336e-05, + "loss": 0.0397, + "step": 48490 + }, + { + "epoch": 0.310368, + "grad_norm": 0.7096390724182129, + "learning_rate": 1.793088e-05, + "loss": 0.0378, + "step": 48495 + }, + { + "epoch": 0.3104, + "grad_norm": 1.303691029548645, + "learning_rate": 1.7930666666666668e-05, + "loss": 0.0583, + "step": 48500 + }, + { + "epoch": 0.310432, + "grad_norm": 0.7918359637260437, + "learning_rate": 1.7930453333333335e-05, + "loss": 0.0534, + "step": 48505 + }, + { + "epoch": 0.310464, + "grad_norm": 2.111643075942993, + "learning_rate": 1.7930240000000003e-05, + "loss": 0.0634, + "step": 48510 + }, + { + "epoch": 0.310496, + "grad_norm": 0.9901638031005859, + "learning_rate": 1.793002666666667e-05, + "loss": 0.0508, + "step": 48515 + }, + { + "epoch": 0.310528, + "grad_norm": 1.2638667821884155, + "learning_rate": 1.7929813333333334e-05, + "loss": 0.0306, + "step": 48520 + }, + { + "epoch": 0.31056, + "grad_norm": 0.44159770011901855, + "learning_rate": 1.7929600000000002e-05, + "loss": 0.0387, + "step": 48525 + }, + { + "epoch": 0.310592, + "grad_norm": 1.0110135078430176, + "learning_rate": 1.792938666666667e-05, + "loss": 0.0337, + "step": 48530 + }, + { + "epoch": 0.310624, + "grad_norm": 0.8297167420387268, + "learning_rate": 1.7929173333333334e-05, + "loss": 0.0597, + "step": 48535 + }, + { + "epoch": 0.310656, + "grad_norm": 0.11800795793533325, + "learning_rate": 1.792896e-05, + "loss": 0.0439, + "step": 48540 + }, + { + "epoch": 0.310688, + "grad_norm": 0.9926000237464905, + "learning_rate": 1.792874666666667e-05, + "loss": 0.0408, + "step": 48545 + }, + { + "epoch": 0.31072, + "grad_norm": 1.1112663745880127, + "learning_rate": 1.7928533333333336e-05, + "loss": 0.0568, + "step": 48550 + }, + { + "epoch": 0.310752, + "grad_norm": 0.8967390060424805, + "learning_rate": 1.792832e-05, + "loss": 0.07, + "step": 48555 + }, + { + "epoch": 0.310784, + "grad_norm": 3.8694651126861572, + "learning_rate": 1.7928106666666668e-05, + "loss": 0.0599, + "step": 48560 + }, + { + "epoch": 0.310816, + "grad_norm": 0.2840896546840668, + "learning_rate": 1.7927893333333336e-05, + "loss": 0.0497, + "step": 48565 + }, + { + "epoch": 0.310848, + "grad_norm": 0.5317854285240173, + "learning_rate": 1.792768e-05, + "loss": 0.0396, + "step": 48570 + }, + { + "epoch": 0.31088, + "grad_norm": 0.5408132672309875, + "learning_rate": 1.7927466666666667e-05, + "loss": 0.0266, + "step": 48575 + }, + { + "epoch": 0.310912, + "grad_norm": 0.8457127809524536, + "learning_rate": 1.7927253333333335e-05, + "loss": 0.0367, + "step": 48580 + }, + { + "epoch": 0.310944, + "grad_norm": 0.6779823899269104, + "learning_rate": 1.7927040000000002e-05, + "loss": 0.038, + "step": 48585 + }, + { + "epoch": 0.310976, + "grad_norm": 0.2986346185207367, + "learning_rate": 1.7926826666666667e-05, + "loss": 0.0353, + "step": 48590 + }, + { + "epoch": 0.311008, + "grad_norm": 0.07721748948097229, + "learning_rate": 1.7926613333333338e-05, + "loss": 0.0307, + "step": 48595 + }, + { + "epoch": 0.31104, + "grad_norm": 0.6745129823684692, + "learning_rate": 1.7926400000000002e-05, + "loss": 0.0314, + "step": 48600 + }, + { + "epoch": 0.311072, + "grad_norm": 1.2173701524734497, + "learning_rate": 1.7926186666666666e-05, + "loss": 0.0469, + "step": 48605 + }, + { + "epoch": 0.311104, + "grad_norm": 1.2847596406936646, + "learning_rate": 1.7925973333333337e-05, + "loss": 0.0341, + "step": 48610 + }, + { + "epoch": 0.311136, + "grad_norm": 0.3837299346923828, + "learning_rate": 1.792576e-05, + "loss": 0.0313, + "step": 48615 + }, + { + "epoch": 0.311168, + "grad_norm": 0.5418717861175537, + "learning_rate": 1.792554666666667e-05, + "loss": 0.0399, + "step": 48620 + }, + { + "epoch": 0.3112, + "grad_norm": 1.1413644552230835, + "learning_rate": 1.7925333333333336e-05, + "loss": 0.0398, + "step": 48625 + }, + { + "epoch": 0.311232, + "grad_norm": 0.8584395051002502, + "learning_rate": 1.7925120000000004e-05, + "loss": 0.0447, + "step": 48630 + }, + { + "epoch": 0.311264, + "grad_norm": 0.8313259482383728, + "learning_rate": 1.7924906666666668e-05, + "loss": 0.0415, + "step": 48635 + }, + { + "epoch": 0.311296, + "grad_norm": 0.675396203994751, + "learning_rate": 1.7924693333333335e-05, + "loss": 0.0623, + "step": 48640 + }, + { + "epoch": 0.311328, + "grad_norm": 0.21971215307712555, + "learning_rate": 1.7924480000000003e-05, + "loss": 0.0575, + "step": 48645 + }, + { + "epoch": 0.31136, + "grad_norm": 0.9516229629516602, + "learning_rate": 1.7924266666666667e-05, + "loss": 0.0318, + "step": 48650 + }, + { + "epoch": 0.311392, + "grad_norm": 0.46916428208351135, + "learning_rate": 1.7924053333333335e-05, + "loss": 0.0932, + "step": 48655 + }, + { + "epoch": 0.311424, + "grad_norm": 0.8247829079627991, + "learning_rate": 1.7923840000000002e-05, + "loss": 0.043, + "step": 48660 + }, + { + "epoch": 0.311456, + "grad_norm": 1.396819829940796, + "learning_rate": 1.792362666666667e-05, + "loss": 0.063, + "step": 48665 + }, + { + "epoch": 0.311488, + "grad_norm": 0.5437212586402893, + "learning_rate": 1.7923413333333334e-05, + "loss": 0.0361, + "step": 48670 + }, + { + "epoch": 0.31152, + "grad_norm": 0.42488306760787964, + "learning_rate": 1.79232e-05, + "loss": 0.0268, + "step": 48675 + }, + { + "epoch": 0.311552, + "grad_norm": 1.547511100769043, + "learning_rate": 1.792298666666667e-05, + "loss": 0.0373, + "step": 48680 + }, + { + "epoch": 0.311584, + "grad_norm": 1.2279622554779053, + "learning_rate": 1.7922773333333333e-05, + "loss": 0.0368, + "step": 48685 + }, + { + "epoch": 0.311616, + "grad_norm": 3.205427408218384, + "learning_rate": 1.792256e-05, + "loss": 0.0364, + "step": 48690 + }, + { + "epoch": 0.311648, + "grad_norm": 1.7163482904434204, + "learning_rate": 1.7922346666666668e-05, + "loss": 0.0657, + "step": 48695 + }, + { + "epoch": 0.31168, + "grad_norm": 1.3056737184524536, + "learning_rate": 1.7922133333333336e-05, + "loss": 0.0229, + "step": 48700 + }, + { + "epoch": 0.311712, + "grad_norm": 0.9554332494735718, + "learning_rate": 1.792192e-05, + "loss": 0.0521, + "step": 48705 + }, + { + "epoch": 0.311744, + "grad_norm": 0.3872334063053131, + "learning_rate": 1.7921706666666668e-05, + "loss": 0.0497, + "step": 48710 + }, + { + "epoch": 0.311776, + "grad_norm": 0.6389471292495728, + "learning_rate": 1.7921493333333335e-05, + "loss": 0.0403, + "step": 48715 + }, + { + "epoch": 0.311808, + "grad_norm": 0.5299641489982605, + "learning_rate": 1.792128e-05, + "loss": 0.0266, + "step": 48720 + }, + { + "epoch": 0.31184, + "grad_norm": 0.9414176344871521, + "learning_rate": 1.792106666666667e-05, + "loss": 0.0524, + "step": 48725 + }, + { + "epoch": 0.311872, + "grad_norm": 0.7348175048828125, + "learning_rate": 1.7920853333333334e-05, + "loss": 0.0294, + "step": 48730 + }, + { + "epoch": 0.311904, + "grad_norm": 1.019554853439331, + "learning_rate": 1.7920640000000002e-05, + "loss": 0.045, + "step": 48735 + }, + { + "epoch": 0.311936, + "grad_norm": 0.17379586398601532, + "learning_rate": 1.792042666666667e-05, + "loss": 0.0259, + "step": 48740 + }, + { + "epoch": 0.311968, + "grad_norm": 1.4732290506362915, + "learning_rate": 1.7920213333333334e-05, + "loss": 0.069, + "step": 48745 + }, + { + "epoch": 0.312, + "grad_norm": 0.50196373462677, + "learning_rate": 1.792e-05, + "loss": 0.0492, + "step": 48750 + }, + { + "epoch": 0.312032, + "grad_norm": 1.3499614000320435, + "learning_rate": 1.791978666666667e-05, + "loss": 0.0372, + "step": 48755 + }, + { + "epoch": 0.312064, + "grad_norm": 0.5314204692840576, + "learning_rate": 1.7919573333333336e-05, + "loss": 0.0433, + "step": 48760 + }, + { + "epoch": 0.312096, + "grad_norm": 0.6161238551139832, + "learning_rate": 1.791936e-05, + "loss": 0.0388, + "step": 48765 + }, + { + "epoch": 0.312128, + "grad_norm": 0.5295299291610718, + "learning_rate": 1.7919146666666668e-05, + "loss": 0.0376, + "step": 48770 + }, + { + "epoch": 0.31216, + "grad_norm": 0.6130609512329102, + "learning_rate": 1.7918933333333336e-05, + "loss": 0.0383, + "step": 48775 + }, + { + "epoch": 0.312192, + "grad_norm": 0.9709385633468628, + "learning_rate": 1.791872e-05, + "loss": 0.0353, + "step": 48780 + }, + { + "epoch": 0.312224, + "grad_norm": 0.6119282841682434, + "learning_rate": 1.7918506666666667e-05, + "loss": 0.0434, + "step": 48785 + }, + { + "epoch": 0.312256, + "grad_norm": 0.74648118019104, + "learning_rate": 1.7918293333333335e-05, + "loss": 0.0315, + "step": 48790 + }, + { + "epoch": 0.312288, + "grad_norm": 0.7815514802932739, + "learning_rate": 1.7918080000000002e-05, + "loss": 0.0364, + "step": 48795 + }, + { + "epoch": 0.31232, + "grad_norm": 2.0691840648651123, + "learning_rate": 1.7917866666666667e-05, + "loss": 0.026, + "step": 48800 + }, + { + "epoch": 0.312352, + "grad_norm": 2.1743171215057373, + "learning_rate": 1.7917653333333334e-05, + "loss": 0.0529, + "step": 48805 + }, + { + "epoch": 0.312384, + "grad_norm": 0.35534247756004333, + "learning_rate": 1.7917440000000002e-05, + "loss": 0.0245, + "step": 48810 + }, + { + "epoch": 0.312416, + "grad_norm": 0.5308496356010437, + "learning_rate": 1.7917226666666666e-05, + "loss": 0.0339, + "step": 48815 + }, + { + "epoch": 0.312448, + "grad_norm": 0.7552732229232788, + "learning_rate": 1.7917013333333337e-05, + "loss": 0.0314, + "step": 48820 + }, + { + "epoch": 0.31248, + "grad_norm": 0.6154120564460754, + "learning_rate": 1.79168e-05, + "loss": 0.0352, + "step": 48825 + }, + { + "epoch": 0.312512, + "grad_norm": 0.7507361769676208, + "learning_rate": 1.791658666666667e-05, + "loss": 0.0432, + "step": 48830 + }, + { + "epoch": 0.312544, + "grad_norm": 2.9719595909118652, + "learning_rate": 1.7916373333333336e-05, + "loss": 0.0409, + "step": 48835 + }, + { + "epoch": 0.312576, + "grad_norm": 0.38038623332977295, + "learning_rate": 1.7916160000000004e-05, + "loss": 0.0494, + "step": 48840 + }, + { + "epoch": 0.312608, + "grad_norm": 0.8137365579605103, + "learning_rate": 1.7915946666666668e-05, + "loss": 0.0466, + "step": 48845 + }, + { + "epoch": 0.31264, + "grad_norm": 0.20695413649082184, + "learning_rate": 1.7915733333333335e-05, + "loss": 0.0306, + "step": 48850 + }, + { + "epoch": 0.312672, + "grad_norm": 0.8020780682563782, + "learning_rate": 1.7915520000000003e-05, + "loss": 0.0544, + "step": 48855 + }, + { + "epoch": 0.312704, + "grad_norm": 1.087514877319336, + "learning_rate": 1.7915306666666667e-05, + "loss": 0.0276, + "step": 48860 + }, + { + "epoch": 0.312736, + "grad_norm": 1.1334220170974731, + "learning_rate": 1.7915093333333335e-05, + "loss": 0.0656, + "step": 48865 + }, + { + "epoch": 0.312768, + "grad_norm": 0.6987574100494385, + "learning_rate": 1.7914880000000002e-05, + "loss": 0.04, + "step": 48870 + }, + { + "epoch": 0.3128, + "grad_norm": 2.2757134437561035, + "learning_rate": 1.791466666666667e-05, + "loss": 0.0521, + "step": 48875 + }, + { + "epoch": 0.312832, + "grad_norm": 0.3672102689743042, + "learning_rate": 1.7914453333333334e-05, + "loss": 0.0354, + "step": 48880 + }, + { + "epoch": 0.312864, + "grad_norm": 0.7775232195854187, + "learning_rate": 1.791424e-05, + "loss": 0.0307, + "step": 48885 + }, + { + "epoch": 0.312896, + "grad_norm": 0.3270047903060913, + "learning_rate": 1.791402666666667e-05, + "loss": 0.0512, + "step": 48890 + }, + { + "epoch": 0.312928, + "grad_norm": 4.50129508972168, + "learning_rate": 1.7913813333333333e-05, + "loss": 0.0412, + "step": 48895 + }, + { + "epoch": 0.31296, + "grad_norm": 0.5971025824546814, + "learning_rate": 1.79136e-05, + "loss": 0.0492, + "step": 48900 + }, + { + "epoch": 0.312992, + "grad_norm": 0.8707113265991211, + "learning_rate": 1.7913386666666668e-05, + "loss": 0.051, + "step": 48905 + }, + { + "epoch": 0.313024, + "grad_norm": 0.38592126965522766, + "learning_rate": 1.7913173333333336e-05, + "loss": 0.0275, + "step": 48910 + }, + { + "epoch": 0.313056, + "grad_norm": 0.4326121509075165, + "learning_rate": 1.791296e-05, + "loss": 0.0345, + "step": 48915 + }, + { + "epoch": 0.313088, + "grad_norm": 0.674577534198761, + "learning_rate": 1.7912746666666668e-05, + "loss": 0.0429, + "step": 48920 + }, + { + "epoch": 0.31312, + "grad_norm": 1.8133479356765747, + "learning_rate": 1.7912533333333335e-05, + "loss": 0.0796, + "step": 48925 + }, + { + "epoch": 0.313152, + "grad_norm": 0.9048643112182617, + "learning_rate": 1.791232e-05, + "loss": 0.0889, + "step": 48930 + }, + { + "epoch": 0.313184, + "grad_norm": 1.101954460144043, + "learning_rate": 1.791210666666667e-05, + "loss": 0.0265, + "step": 48935 + }, + { + "epoch": 0.313216, + "grad_norm": 0.6568447351455688, + "learning_rate": 1.7911893333333334e-05, + "loss": 0.0424, + "step": 48940 + }, + { + "epoch": 0.313248, + "grad_norm": 2.6582982540130615, + "learning_rate": 1.7911680000000002e-05, + "loss": 0.0735, + "step": 48945 + }, + { + "epoch": 0.31328, + "grad_norm": 0.5497744679450989, + "learning_rate": 1.791146666666667e-05, + "loss": 0.038, + "step": 48950 + }, + { + "epoch": 0.313312, + "grad_norm": 0.6048316955566406, + "learning_rate": 1.7911253333333334e-05, + "loss": 0.0661, + "step": 48955 + }, + { + "epoch": 0.313344, + "grad_norm": 0.7591917514801025, + "learning_rate": 1.791104e-05, + "loss": 0.0486, + "step": 48960 + }, + { + "epoch": 0.313376, + "grad_norm": 1.0732775926589966, + "learning_rate": 1.791082666666667e-05, + "loss": 0.0848, + "step": 48965 + }, + { + "epoch": 0.313408, + "grad_norm": 0.24397584795951843, + "learning_rate": 1.7910613333333336e-05, + "loss": 0.0253, + "step": 48970 + }, + { + "epoch": 0.31344, + "grad_norm": 0.6163763403892517, + "learning_rate": 1.79104e-05, + "loss": 0.0304, + "step": 48975 + }, + { + "epoch": 0.313472, + "grad_norm": 1.4953832626342773, + "learning_rate": 1.7910186666666668e-05, + "loss": 0.0399, + "step": 48980 + }, + { + "epoch": 0.313504, + "grad_norm": 0.45744743943214417, + "learning_rate": 1.7909973333333336e-05, + "loss": 0.0513, + "step": 48985 + }, + { + "epoch": 0.313536, + "grad_norm": 0.5745749473571777, + "learning_rate": 1.790976e-05, + "loss": 0.0343, + "step": 48990 + }, + { + "epoch": 0.313568, + "grad_norm": 0.8959592580795288, + "learning_rate": 1.7909546666666667e-05, + "loss": 0.05, + "step": 48995 + }, + { + "epoch": 0.3136, + "grad_norm": 0.6198786497116089, + "learning_rate": 1.7909333333333335e-05, + "loss": 0.0333, + "step": 49000 + }, + { + "epoch": 0.313632, + "grad_norm": 0.5285394191741943, + "learning_rate": 1.7909120000000002e-05, + "loss": 0.0436, + "step": 49005 + }, + { + "epoch": 0.313664, + "grad_norm": 0.2254422903060913, + "learning_rate": 1.7908906666666667e-05, + "loss": 0.0303, + "step": 49010 + }, + { + "epoch": 0.313696, + "grad_norm": 0.5323607921600342, + "learning_rate": 1.7908693333333334e-05, + "loss": 0.0376, + "step": 49015 + }, + { + "epoch": 0.313728, + "grad_norm": 0.66384357213974, + "learning_rate": 1.7908480000000002e-05, + "loss": 0.0457, + "step": 49020 + }, + { + "epoch": 0.31376, + "grad_norm": 0.5126376748085022, + "learning_rate": 1.7908266666666666e-05, + "loss": 0.0366, + "step": 49025 + }, + { + "epoch": 0.313792, + "grad_norm": 0.5228675007820129, + "learning_rate": 1.7908053333333333e-05, + "loss": 0.0525, + "step": 49030 + }, + { + "epoch": 0.313824, + "grad_norm": 0.3930535912513733, + "learning_rate": 1.790784e-05, + "loss": 0.0505, + "step": 49035 + }, + { + "epoch": 0.313856, + "grad_norm": 0.7100183367729187, + "learning_rate": 1.790762666666667e-05, + "loss": 0.0344, + "step": 49040 + }, + { + "epoch": 0.313888, + "grad_norm": 0.8061574101448059, + "learning_rate": 1.7907413333333336e-05, + "loss": 0.033, + "step": 49045 + }, + { + "epoch": 0.31392, + "grad_norm": 1.1480176448822021, + "learning_rate": 1.7907200000000004e-05, + "loss": 0.0502, + "step": 49050 + }, + { + "epoch": 0.313952, + "grad_norm": 0.14409969747066498, + "learning_rate": 1.7906986666666668e-05, + "loss": 0.0574, + "step": 49055 + }, + { + "epoch": 0.313984, + "grad_norm": 1.388530969619751, + "learning_rate": 1.7906773333333335e-05, + "loss": 0.0459, + "step": 49060 + }, + { + "epoch": 0.314016, + "grad_norm": 0.5779007077217102, + "learning_rate": 1.7906560000000003e-05, + "loss": 0.0283, + "step": 49065 + }, + { + "epoch": 0.314048, + "grad_norm": 0.6137476563453674, + "learning_rate": 1.7906346666666667e-05, + "loss": 0.018, + "step": 49070 + }, + { + "epoch": 0.31408, + "grad_norm": 0.32299482822418213, + "learning_rate": 1.7906133333333335e-05, + "loss": 0.0219, + "step": 49075 + }, + { + "epoch": 0.314112, + "grad_norm": 0.675216555595398, + "learning_rate": 1.7905920000000002e-05, + "loss": 0.0327, + "step": 49080 + }, + { + "epoch": 0.314144, + "grad_norm": 0.6934193968772888, + "learning_rate": 1.790570666666667e-05, + "loss": 0.0362, + "step": 49085 + }, + { + "epoch": 0.314176, + "grad_norm": 1.1652346849441528, + "learning_rate": 1.7905493333333334e-05, + "loss": 0.0487, + "step": 49090 + }, + { + "epoch": 0.314208, + "grad_norm": 1.1790037155151367, + "learning_rate": 1.790528e-05, + "loss": 0.0372, + "step": 49095 + }, + { + "epoch": 0.31424, + "grad_norm": 1.5528457164764404, + "learning_rate": 1.790506666666667e-05, + "loss": 0.0547, + "step": 49100 + }, + { + "epoch": 0.314272, + "grad_norm": 3.093965768814087, + "learning_rate": 1.7904853333333333e-05, + "loss": 0.0711, + "step": 49105 + }, + { + "epoch": 0.314304, + "grad_norm": 0.8547363877296448, + "learning_rate": 1.790464e-05, + "loss": 0.0436, + "step": 49110 + }, + { + "epoch": 0.314336, + "grad_norm": 0.9929517507553101, + "learning_rate": 1.7904426666666668e-05, + "loss": 0.0493, + "step": 49115 + }, + { + "epoch": 0.314368, + "grad_norm": 0.4631752073764801, + "learning_rate": 1.7904213333333336e-05, + "loss": 0.0234, + "step": 49120 + }, + { + "epoch": 0.3144, + "grad_norm": 0.4469917118549347, + "learning_rate": 1.7904e-05, + "loss": 0.0225, + "step": 49125 + }, + { + "epoch": 0.314432, + "grad_norm": 0.39058104157447815, + "learning_rate": 1.7903786666666668e-05, + "loss": 0.0291, + "step": 49130 + }, + { + "epoch": 0.314464, + "grad_norm": 0.9853314757347107, + "learning_rate": 1.7903573333333335e-05, + "loss": 0.0384, + "step": 49135 + }, + { + "epoch": 0.314496, + "grad_norm": 0.5808314085006714, + "learning_rate": 1.790336e-05, + "loss": 0.0325, + "step": 49140 + }, + { + "epoch": 0.314528, + "grad_norm": 0.2065550535917282, + "learning_rate": 1.790314666666667e-05, + "loss": 0.0377, + "step": 49145 + }, + { + "epoch": 0.31456, + "grad_norm": 0.6146327257156372, + "learning_rate": 1.7902933333333334e-05, + "loss": 0.0341, + "step": 49150 + }, + { + "epoch": 0.314592, + "grad_norm": 0.9976029396057129, + "learning_rate": 1.7902720000000002e-05, + "loss": 0.0422, + "step": 49155 + }, + { + "epoch": 0.314624, + "grad_norm": 0.6062686443328857, + "learning_rate": 1.790250666666667e-05, + "loss": 0.0304, + "step": 49160 + }, + { + "epoch": 0.314656, + "grad_norm": 0.30028119683265686, + "learning_rate": 1.7902293333333334e-05, + "loss": 0.0404, + "step": 49165 + }, + { + "epoch": 0.314688, + "grad_norm": 0.6106238961219788, + "learning_rate": 1.790208e-05, + "loss": 0.0188, + "step": 49170 + }, + { + "epoch": 0.31472, + "grad_norm": 0.5071207880973816, + "learning_rate": 1.790186666666667e-05, + "loss": 0.0619, + "step": 49175 + }, + { + "epoch": 0.314752, + "grad_norm": 1.0655704736709595, + "learning_rate": 1.7901653333333336e-05, + "loss": 0.0416, + "step": 49180 + }, + { + "epoch": 0.314784, + "grad_norm": 0.6707820892333984, + "learning_rate": 1.790144e-05, + "loss": 0.0927, + "step": 49185 + }, + { + "epoch": 0.314816, + "grad_norm": 0.9397183060646057, + "learning_rate": 1.7901226666666668e-05, + "loss": 0.0593, + "step": 49190 + }, + { + "epoch": 0.314848, + "grad_norm": 0.8245432376861572, + "learning_rate": 1.7901013333333336e-05, + "loss": 0.0288, + "step": 49195 + }, + { + "epoch": 0.31488, + "grad_norm": 0.856005072593689, + "learning_rate": 1.79008e-05, + "loss": 0.0717, + "step": 49200 + }, + { + "epoch": 0.314912, + "grad_norm": 0.360304594039917, + "learning_rate": 1.7900586666666667e-05, + "loss": 0.029, + "step": 49205 + }, + { + "epoch": 0.314944, + "grad_norm": 1.6061595678329468, + "learning_rate": 1.7900373333333335e-05, + "loss": 0.0585, + "step": 49210 + }, + { + "epoch": 0.314976, + "grad_norm": 0.703429102897644, + "learning_rate": 1.7900160000000002e-05, + "loss": 0.0396, + "step": 49215 + }, + { + "epoch": 0.315008, + "grad_norm": 0.22526603937149048, + "learning_rate": 1.7899946666666667e-05, + "loss": 0.0492, + "step": 49220 + }, + { + "epoch": 0.31504, + "grad_norm": 0.6328001618385315, + "learning_rate": 1.7899733333333334e-05, + "loss": 0.0439, + "step": 49225 + }, + { + "epoch": 0.315072, + "grad_norm": 0.7550339102745056, + "learning_rate": 1.7899520000000002e-05, + "loss": 0.057, + "step": 49230 + }, + { + "epoch": 0.315104, + "grad_norm": 0.9840249419212341, + "learning_rate": 1.7899306666666666e-05, + "loss": 0.0449, + "step": 49235 + }, + { + "epoch": 0.315136, + "grad_norm": 0.5264110565185547, + "learning_rate": 1.7899093333333333e-05, + "loss": 0.0216, + "step": 49240 + }, + { + "epoch": 0.315168, + "grad_norm": 0.9294551014900208, + "learning_rate": 1.789888e-05, + "loss": 0.0701, + "step": 49245 + }, + { + "epoch": 0.3152, + "grad_norm": 1.0493792295455933, + "learning_rate": 1.789866666666667e-05, + "loss": 0.071, + "step": 49250 + }, + { + "epoch": 0.315232, + "grad_norm": 0.6717001795768738, + "learning_rate": 1.7898453333333333e-05, + "loss": 0.0539, + "step": 49255 + }, + { + "epoch": 0.315264, + "grad_norm": 0.7379327416419983, + "learning_rate": 1.7898240000000004e-05, + "loss": 0.0476, + "step": 49260 + }, + { + "epoch": 0.315296, + "grad_norm": 1.7171568870544434, + "learning_rate": 1.7898026666666668e-05, + "loss": 0.053, + "step": 49265 + }, + { + "epoch": 0.315328, + "grad_norm": 0.39160430431365967, + "learning_rate": 1.7897813333333335e-05, + "loss": 0.0567, + "step": 49270 + }, + { + "epoch": 0.31536, + "grad_norm": 0.4292500913143158, + "learning_rate": 1.7897600000000003e-05, + "loss": 0.0469, + "step": 49275 + }, + { + "epoch": 0.315392, + "grad_norm": 0.742195188999176, + "learning_rate": 1.7897386666666667e-05, + "loss": 0.0354, + "step": 49280 + }, + { + "epoch": 0.315424, + "grad_norm": 3.0411972999572754, + "learning_rate": 1.7897173333333335e-05, + "loss": 0.0536, + "step": 49285 + }, + { + "epoch": 0.315456, + "grad_norm": 0.7679868340492249, + "learning_rate": 1.7896960000000002e-05, + "loss": 0.0424, + "step": 49290 + }, + { + "epoch": 0.315488, + "grad_norm": 1.3759011030197144, + "learning_rate": 1.789674666666667e-05, + "loss": 0.0372, + "step": 49295 + }, + { + "epoch": 0.31552, + "grad_norm": 0.7707750797271729, + "learning_rate": 1.7896533333333334e-05, + "loss": 0.0524, + "step": 49300 + }, + { + "epoch": 0.315552, + "grad_norm": 0.9052828550338745, + "learning_rate": 1.789632e-05, + "loss": 0.0419, + "step": 49305 + }, + { + "epoch": 0.315584, + "grad_norm": 1.0841320753097534, + "learning_rate": 1.789610666666667e-05, + "loss": 0.0712, + "step": 49310 + }, + { + "epoch": 0.315616, + "grad_norm": 0.9134854674339294, + "learning_rate": 1.7895893333333333e-05, + "loss": 0.0368, + "step": 49315 + }, + { + "epoch": 0.315648, + "grad_norm": 1.0296034812927246, + "learning_rate": 1.789568e-05, + "loss": 0.048, + "step": 49320 + }, + { + "epoch": 0.31568, + "grad_norm": 0.7278584241867065, + "learning_rate": 1.7895466666666668e-05, + "loss": 0.0441, + "step": 49325 + }, + { + "epoch": 0.315712, + "grad_norm": 0.4803750216960907, + "learning_rate": 1.7895253333333336e-05, + "loss": 0.0312, + "step": 49330 + }, + { + "epoch": 0.315744, + "grad_norm": 1.4976909160614014, + "learning_rate": 1.789504e-05, + "loss": 0.0307, + "step": 49335 + }, + { + "epoch": 0.315776, + "grad_norm": 1.5251296758651733, + "learning_rate": 1.7894826666666668e-05, + "loss": 0.0464, + "step": 49340 + }, + { + "epoch": 0.315808, + "grad_norm": 1.0720897912979126, + "learning_rate": 1.7894613333333335e-05, + "loss": 0.0267, + "step": 49345 + }, + { + "epoch": 0.31584, + "grad_norm": 0.4266362488269806, + "learning_rate": 1.78944e-05, + "loss": 0.036, + "step": 49350 + }, + { + "epoch": 0.315872, + "grad_norm": 0.5656702518463135, + "learning_rate": 1.789418666666667e-05, + "loss": 0.035, + "step": 49355 + }, + { + "epoch": 0.315904, + "grad_norm": 0.7100274562835693, + "learning_rate": 1.7893973333333334e-05, + "loss": 0.0427, + "step": 49360 + }, + { + "epoch": 0.315936, + "grad_norm": 1.6564918756484985, + "learning_rate": 1.7893760000000002e-05, + "loss": 0.0713, + "step": 49365 + }, + { + "epoch": 0.315968, + "grad_norm": 0.10448631644248962, + "learning_rate": 1.789354666666667e-05, + "loss": 0.0343, + "step": 49370 + }, + { + "epoch": 0.316, + "grad_norm": 0.6747999787330627, + "learning_rate": 1.7893333333333337e-05, + "loss": 0.0444, + "step": 49375 + }, + { + "epoch": 0.316032, + "grad_norm": 0.6344417333602905, + "learning_rate": 1.789312e-05, + "loss": 0.0492, + "step": 49380 + }, + { + "epoch": 0.316064, + "grad_norm": 0.9265255331993103, + "learning_rate": 1.789290666666667e-05, + "loss": 0.0629, + "step": 49385 + }, + { + "epoch": 0.316096, + "grad_norm": 0.47239911556243896, + "learning_rate": 1.7892693333333336e-05, + "loss": 0.0261, + "step": 49390 + }, + { + "epoch": 0.316128, + "grad_norm": 1.038405418395996, + "learning_rate": 1.789248e-05, + "loss": 0.0445, + "step": 49395 + }, + { + "epoch": 0.31616, + "grad_norm": 0.9431480169296265, + "learning_rate": 1.7892266666666668e-05, + "loss": 0.0379, + "step": 49400 + }, + { + "epoch": 0.316192, + "grad_norm": 0.3824445903301239, + "learning_rate": 1.7892053333333336e-05, + "loss": 0.0343, + "step": 49405 + }, + { + "epoch": 0.316224, + "grad_norm": 0.41695070266723633, + "learning_rate": 1.7891840000000003e-05, + "loss": 0.0355, + "step": 49410 + }, + { + "epoch": 0.316256, + "grad_norm": 0.5762830972671509, + "learning_rate": 1.7891626666666667e-05, + "loss": 0.032, + "step": 49415 + }, + { + "epoch": 0.316288, + "grad_norm": 0.6394498944282532, + "learning_rate": 1.7891413333333335e-05, + "loss": 0.0648, + "step": 49420 + }, + { + "epoch": 0.31632, + "grad_norm": 1.014149785041809, + "learning_rate": 1.7891200000000002e-05, + "loss": 0.0388, + "step": 49425 + }, + { + "epoch": 0.316352, + "grad_norm": 0.5948560833930969, + "learning_rate": 1.7890986666666667e-05, + "loss": 0.0416, + "step": 49430 + }, + { + "epoch": 0.316384, + "grad_norm": 0.35233768820762634, + "learning_rate": 1.7890773333333334e-05, + "loss": 0.0373, + "step": 49435 + }, + { + "epoch": 0.316416, + "grad_norm": 0.3525134027004242, + "learning_rate": 1.7890560000000002e-05, + "loss": 0.0459, + "step": 49440 + }, + { + "epoch": 0.316448, + "grad_norm": 0.5309352278709412, + "learning_rate": 1.789034666666667e-05, + "loss": 0.0375, + "step": 49445 + }, + { + "epoch": 0.31648, + "grad_norm": 0.2754511535167694, + "learning_rate": 1.7890133333333333e-05, + "loss": 0.0394, + "step": 49450 + }, + { + "epoch": 0.316512, + "grad_norm": 0.3967403471469879, + "learning_rate": 1.788992e-05, + "loss": 0.0388, + "step": 49455 + }, + { + "epoch": 0.316544, + "grad_norm": 0.5432363152503967, + "learning_rate": 1.788970666666667e-05, + "loss": 0.0443, + "step": 49460 + }, + { + "epoch": 0.316576, + "grad_norm": 0.47468817234039307, + "learning_rate": 1.7889493333333333e-05, + "loss": 0.0497, + "step": 49465 + }, + { + "epoch": 0.316608, + "grad_norm": 0.18507127463817596, + "learning_rate": 1.7889280000000004e-05, + "loss": 0.0452, + "step": 49470 + }, + { + "epoch": 0.31664, + "grad_norm": 1.7731363773345947, + "learning_rate": 1.7889066666666668e-05, + "loss": 0.0347, + "step": 49475 + }, + { + "epoch": 0.316672, + "grad_norm": 0.778212308883667, + "learning_rate": 1.7888853333333335e-05, + "loss": 0.0556, + "step": 49480 + }, + { + "epoch": 0.316704, + "grad_norm": 0.3919253945350647, + "learning_rate": 1.7888640000000003e-05, + "loss": 0.029, + "step": 49485 + }, + { + "epoch": 0.316736, + "grad_norm": 0.7422482967376709, + "learning_rate": 1.7888426666666667e-05, + "loss": 0.0455, + "step": 49490 + }, + { + "epoch": 0.316768, + "grad_norm": 0.5132591724395752, + "learning_rate": 1.7888213333333335e-05, + "loss": 0.028, + "step": 49495 + }, + { + "epoch": 0.3168, + "grad_norm": 1.0767234563827515, + "learning_rate": 1.7888000000000002e-05, + "loss": 0.0397, + "step": 49500 + }, + { + "epoch": 0.316832, + "grad_norm": 0.5741292834281921, + "learning_rate": 1.788778666666667e-05, + "loss": 0.0384, + "step": 49505 + }, + { + "epoch": 0.316864, + "grad_norm": 1.4516059160232544, + "learning_rate": 1.7887573333333334e-05, + "loss": 0.0586, + "step": 49510 + }, + { + "epoch": 0.316896, + "grad_norm": 0.7217020988464355, + "learning_rate": 1.788736e-05, + "loss": 0.0401, + "step": 49515 + }, + { + "epoch": 0.316928, + "grad_norm": 1.2800058126449585, + "learning_rate": 1.788714666666667e-05, + "loss": 0.0501, + "step": 49520 + }, + { + "epoch": 0.31696, + "grad_norm": 1.01171875, + "learning_rate": 1.7886933333333333e-05, + "loss": 0.0413, + "step": 49525 + }, + { + "epoch": 0.316992, + "grad_norm": 0.8237219452857971, + "learning_rate": 1.788672e-05, + "loss": 0.0409, + "step": 49530 + }, + { + "epoch": 0.317024, + "grad_norm": 0.7682797312736511, + "learning_rate": 1.788650666666667e-05, + "loss": 0.0384, + "step": 49535 + }, + { + "epoch": 0.317056, + "grad_norm": 1.1045622825622559, + "learning_rate": 1.7886293333333336e-05, + "loss": 0.0434, + "step": 49540 + }, + { + "epoch": 0.317088, + "grad_norm": 0.8965699672698975, + "learning_rate": 1.788608e-05, + "loss": 0.0477, + "step": 49545 + }, + { + "epoch": 0.31712, + "grad_norm": 0.1279938817024231, + "learning_rate": 1.7885866666666668e-05, + "loss": 0.038, + "step": 49550 + }, + { + "epoch": 0.317152, + "grad_norm": 0.6083127856254578, + "learning_rate": 1.7885653333333335e-05, + "loss": 0.0441, + "step": 49555 + }, + { + "epoch": 0.317184, + "grad_norm": 0.5469493269920349, + "learning_rate": 1.788544e-05, + "loss": 0.0428, + "step": 49560 + }, + { + "epoch": 0.317216, + "grad_norm": 0.8794099688529968, + "learning_rate": 1.7885226666666667e-05, + "loss": 0.0418, + "step": 49565 + }, + { + "epoch": 0.317248, + "grad_norm": 0.3808572590351105, + "learning_rate": 1.7885013333333334e-05, + "loss": 0.0335, + "step": 49570 + }, + { + "epoch": 0.31728, + "grad_norm": 0.7510919570922852, + "learning_rate": 1.7884800000000002e-05, + "loss": 0.051, + "step": 49575 + }, + { + "epoch": 0.317312, + "grad_norm": 0.30981943011283875, + "learning_rate": 1.788458666666667e-05, + "loss": 0.0254, + "step": 49580 + }, + { + "epoch": 0.317344, + "grad_norm": 0.7028183937072754, + "learning_rate": 1.7884373333333337e-05, + "loss": 0.0344, + "step": 49585 + }, + { + "epoch": 0.317376, + "grad_norm": 0.30611515045166016, + "learning_rate": 1.788416e-05, + "loss": 0.0539, + "step": 49590 + }, + { + "epoch": 0.317408, + "grad_norm": 0.6334103345870972, + "learning_rate": 1.788394666666667e-05, + "loss": 0.0484, + "step": 49595 + }, + { + "epoch": 0.31744, + "grad_norm": 2.1977789402008057, + "learning_rate": 1.7883733333333336e-05, + "loss": 0.0395, + "step": 49600 + }, + { + "epoch": 0.317472, + "grad_norm": 0.3121308386325836, + "learning_rate": 1.788352e-05, + "loss": 0.0262, + "step": 49605 + }, + { + "epoch": 0.317504, + "grad_norm": 0.492767333984375, + "learning_rate": 1.7883306666666668e-05, + "loss": 0.0388, + "step": 49610 + }, + { + "epoch": 0.317536, + "grad_norm": 0.45587071776390076, + "learning_rate": 1.7883093333333336e-05, + "loss": 0.0536, + "step": 49615 + }, + { + "epoch": 0.317568, + "grad_norm": 0.7173134684562683, + "learning_rate": 1.7882880000000003e-05, + "loss": 0.0457, + "step": 49620 + }, + { + "epoch": 0.3176, + "grad_norm": 1.5536969900131226, + "learning_rate": 1.7882666666666667e-05, + "loss": 0.0477, + "step": 49625 + }, + { + "epoch": 0.317632, + "grad_norm": 0.28229424357414246, + "learning_rate": 1.7882453333333335e-05, + "loss": 0.0398, + "step": 49630 + }, + { + "epoch": 0.317664, + "grad_norm": 0.6927482485771179, + "learning_rate": 1.7882240000000002e-05, + "loss": 0.0347, + "step": 49635 + }, + { + "epoch": 0.317696, + "grad_norm": 0.9127570986747742, + "learning_rate": 1.7882026666666667e-05, + "loss": 0.04, + "step": 49640 + }, + { + "epoch": 0.317728, + "grad_norm": 0.7523888349533081, + "learning_rate": 1.7881813333333334e-05, + "loss": 0.0351, + "step": 49645 + }, + { + "epoch": 0.31776, + "grad_norm": 0.6847137212753296, + "learning_rate": 1.7881600000000002e-05, + "loss": 0.0428, + "step": 49650 + }, + { + "epoch": 0.317792, + "grad_norm": 0.4131690263748169, + "learning_rate": 1.788138666666667e-05, + "loss": 0.0235, + "step": 49655 + }, + { + "epoch": 0.317824, + "grad_norm": 0.6530119180679321, + "learning_rate": 1.7881173333333333e-05, + "loss": 0.0472, + "step": 49660 + }, + { + "epoch": 0.317856, + "grad_norm": 1.5545060634613037, + "learning_rate": 1.788096e-05, + "loss": 0.0417, + "step": 49665 + }, + { + "epoch": 0.317888, + "grad_norm": 0.5353381037712097, + "learning_rate": 1.788074666666667e-05, + "loss": 0.0368, + "step": 49670 + }, + { + "epoch": 0.31792, + "grad_norm": 0.35746684670448303, + "learning_rate": 1.7880533333333333e-05, + "loss": 0.0429, + "step": 49675 + }, + { + "epoch": 0.317952, + "grad_norm": 0.5195696949958801, + "learning_rate": 1.7880320000000004e-05, + "loss": 0.0389, + "step": 49680 + }, + { + "epoch": 0.317984, + "grad_norm": 0.6425650119781494, + "learning_rate": 1.7880106666666668e-05, + "loss": 0.0247, + "step": 49685 + }, + { + "epoch": 0.318016, + "grad_norm": 0.5292932987213135, + "learning_rate": 1.7879893333333335e-05, + "loss": 0.0324, + "step": 49690 + }, + { + "epoch": 0.318048, + "grad_norm": 0.8312690854072571, + "learning_rate": 1.7879680000000003e-05, + "loss": 0.0471, + "step": 49695 + }, + { + "epoch": 0.31808, + "grad_norm": 1.0815517902374268, + "learning_rate": 1.7879466666666667e-05, + "loss": 0.0388, + "step": 49700 + }, + { + "epoch": 0.318112, + "grad_norm": 1.0895140171051025, + "learning_rate": 1.7879253333333335e-05, + "loss": 0.0454, + "step": 49705 + }, + { + "epoch": 0.318144, + "grad_norm": 0.44468632340431213, + "learning_rate": 1.7879040000000002e-05, + "loss": 0.0412, + "step": 49710 + }, + { + "epoch": 0.318176, + "grad_norm": 0.5209745764732361, + "learning_rate": 1.787882666666667e-05, + "loss": 0.0186, + "step": 49715 + }, + { + "epoch": 0.318208, + "grad_norm": 0.6625552177429199, + "learning_rate": 1.7878613333333334e-05, + "loss": 0.0443, + "step": 49720 + }, + { + "epoch": 0.31824, + "grad_norm": 0.5733764171600342, + "learning_rate": 1.78784e-05, + "loss": 0.0233, + "step": 49725 + }, + { + "epoch": 0.318272, + "grad_norm": 0.6578206419944763, + "learning_rate": 1.787818666666667e-05, + "loss": 0.0407, + "step": 49730 + }, + { + "epoch": 0.318304, + "grad_norm": 0.6360123753547668, + "learning_rate": 1.7877973333333333e-05, + "loss": 0.0626, + "step": 49735 + }, + { + "epoch": 0.318336, + "grad_norm": 0.388336181640625, + "learning_rate": 1.787776e-05, + "loss": 0.0341, + "step": 49740 + }, + { + "epoch": 0.318368, + "grad_norm": 0.5838711857795715, + "learning_rate": 1.787754666666667e-05, + "loss": 0.0482, + "step": 49745 + }, + { + "epoch": 0.3184, + "grad_norm": 0.5662854909896851, + "learning_rate": 1.7877333333333336e-05, + "loss": 0.0323, + "step": 49750 + }, + { + "epoch": 0.318432, + "grad_norm": 0.8855637907981873, + "learning_rate": 1.787712e-05, + "loss": 0.0501, + "step": 49755 + }, + { + "epoch": 0.318464, + "grad_norm": 0.8343572020530701, + "learning_rate": 1.7876906666666668e-05, + "loss": 0.0288, + "step": 49760 + }, + { + "epoch": 0.318496, + "grad_norm": 0.4744713604450226, + "learning_rate": 1.7876693333333335e-05, + "loss": 0.0366, + "step": 49765 + }, + { + "epoch": 0.318528, + "grad_norm": 0.6266617774963379, + "learning_rate": 1.787648e-05, + "loss": 0.0278, + "step": 49770 + }, + { + "epoch": 0.31856, + "grad_norm": 0.5911003351211548, + "learning_rate": 1.7876266666666667e-05, + "loss": 0.0489, + "step": 49775 + }, + { + "epoch": 0.318592, + "grad_norm": 0.40990447998046875, + "learning_rate": 1.7876053333333334e-05, + "loss": 0.0173, + "step": 49780 + }, + { + "epoch": 0.318624, + "grad_norm": 0.5115874409675598, + "learning_rate": 1.7875840000000002e-05, + "loss": 0.0468, + "step": 49785 + }, + { + "epoch": 0.318656, + "grad_norm": 0.8956230878829956, + "learning_rate": 1.7875626666666666e-05, + "loss": 0.0435, + "step": 49790 + }, + { + "epoch": 0.318688, + "grad_norm": 0.32419633865356445, + "learning_rate": 1.7875413333333337e-05, + "loss": 0.0307, + "step": 49795 + }, + { + "epoch": 0.31872, + "grad_norm": 0.3379110097885132, + "learning_rate": 1.78752e-05, + "loss": 0.0297, + "step": 49800 + }, + { + "epoch": 0.318752, + "grad_norm": 0.15862247347831726, + "learning_rate": 1.787498666666667e-05, + "loss": 0.0393, + "step": 49805 + }, + { + "epoch": 0.318784, + "grad_norm": 1.6562494039535522, + "learning_rate": 1.7874773333333336e-05, + "loss": 0.0407, + "step": 49810 + }, + { + "epoch": 0.318816, + "grad_norm": 0.47593116760253906, + "learning_rate": 1.787456e-05, + "loss": 0.0558, + "step": 49815 + }, + { + "epoch": 0.318848, + "grad_norm": 0.9393991827964783, + "learning_rate": 1.7874346666666668e-05, + "loss": 0.0322, + "step": 49820 + }, + { + "epoch": 0.31888, + "grad_norm": 0.9366276860237122, + "learning_rate": 1.7874133333333336e-05, + "loss": 0.03, + "step": 49825 + }, + { + "epoch": 0.318912, + "grad_norm": 0.4838077425956726, + "learning_rate": 1.7873920000000003e-05, + "loss": 0.0275, + "step": 49830 + }, + { + "epoch": 0.318944, + "grad_norm": 0.5888298153877258, + "learning_rate": 1.7873706666666667e-05, + "loss": 0.0407, + "step": 49835 + }, + { + "epoch": 0.318976, + "grad_norm": 0.3354949951171875, + "learning_rate": 1.7873493333333335e-05, + "loss": 0.0558, + "step": 49840 + }, + { + "epoch": 0.319008, + "grad_norm": 0.9913516044616699, + "learning_rate": 1.7873280000000002e-05, + "loss": 0.0421, + "step": 49845 + }, + { + "epoch": 0.31904, + "grad_norm": 1.5937777757644653, + "learning_rate": 1.7873066666666667e-05, + "loss": 0.0324, + "step": 49850 + }, + { + "epoch": 0.319072, + "grad_norm": 2.428079128265381, + "learning_rate": 1.7872853333333334e-05, + "loss": 0.048, + "step": 49855 + }, + { + "epoch": 0.319104, + "grad_norm": 1.4149291515350342, + "learning_rate": 1.7872640000000002e-05, + "loss": 0.0621, + "step": 49860 + }, + { + "epoch": 0.319136, + "grad_norm": 0.765874445438385, + "learning_rate": 1.787242666666667e-05, + "loss": 0.0281, + "step": 49865 + }, + { + "epoch": 0.319168, + "grad_norm": 0.4539717435836792, + "learning_rate": 1.7872213333333333e-05, + "loss": 0.0211, + "step": 49870 + }, + { + "epoch": 0.3192, + "grad_norm": 0.43573087453842163, + "learning_rate": 1.7872e-05, + "loss": 0.0488, + "step": 49875 + }, + { + "epoch": 0.319232, + "grad_norm": 0.3071818947792053, + "learning_rate": 1.787178666666667e-05, + "loss": 0.0537, + "step": 49880 + }, + { + "epoch": 0.319264, + "grad_norm": 0.2612624764442444, + "learning_rate": 1.7871573333333333e-05, + "loss": 0.0169, + "step": 49885 + }, + { + "epoch": 0.319296, + "grad_norm": 0.9513055682182312, + "learning_rate": 1.7871360000000004e-05, + "loss": 0.0832, + "step": 49890 + }, + { + "epoch": 0.319328, + "grad_norm": 0.5689042210578918, + "learning_rate": 1.7871146666666668e-05, + "loss": 0.0661, + "step": 49895 + }, + { + "epoch": 0.31936, + "grad_norm": 0.5536729097366333, + "learning_rate": 1.7870933333333335e-05, + "loss": 0.0537, + "step": 49900 + }, + { + "epoch": 0.319392, + "grad_norm": 0.36332541704177856, + "learning_rate": 1.7870720000000003e-05, + "loss": 0.0624, + "step": 49905 + }, + { + "epoch": 0.319424, + "grad_norm": 1.6480052471160889, + "learning_rate": 1.7870506666666667e-05, + "loss": 0.044, + "step": 49910 + }, + { + "epoch": 0.319456, + "grad_norm": 0.25288739800453186, + "learning_rate": 1.7870293333333335e-05, + "loss": 0.0378, + "step": 49915 + }, + { + "epoch": 0.319488, + "grad_norm": 1.82574462890625, + "learning_rate": 1.7870080000000002e-05, + "loss": 0.0622, + "step": 49920 + }, + { + "epoch": 0.31952, + "grad_norm": 1.3354092836380005, + "learning_rate": 1.786986666666667e-05, + "loss": 0.0348, + "step": 49925 + }, + { + "epoch": 0.319552, + "grad_norm": 0.5477714538574219, + "learning_rate": 1.7869653333333334e-05, + "loss": 0.0325, + "step": 49930 + }, + { + "epoch": 0.319584, + "grad_norm": 1.003108263015747, + "learning_rate": 1.786944e-05, + "loss": 0.0485, + "step": 49935 + }, + { + "epoch": 0.319616, + "grad_norm": 1.5335997343063354, + "learning_rate": 1.786922666666667e-05, + "loss": 0.038, + "step": 49940 + }, + { + "epoch": 0.319648, + "grad_norm": 0.840589702129364, + "learning_rate": 1.7869013333333333e-05, + "loss": 0.0248, + "step": 49945 + }, + { + "epoch": 0.31968, + "grad_norm": 1.125754952430725, + "learning_rate": 1.78688e-05, + "loss": 0.0499, + "step": 49950 + }, + { + "epoch": 0.319712, + "grad_norm": 0.7623503804206848, + "learning_rate": 1.786858666666667e-05, + "loss": 0.0364, + "step": 49955 + }, + { + "epoch": 0.319744, + "grad_norm": 0.5956908464431763, + "learning_rate": 1.7868373333333336e-05, + "loss": 0.0444, + "step": 49960 + }, + { + "epoch": 0.319776, + "grad_norm": 0.6267963647842407, + "learning_rate": 1.786816e-05, + "loss": 0.0175, + "step": 49965 + }, + { + "epoch": 0.319808, + "grad_norm": 0.883825957775116, + "learning_rate": 1.7867946666666668e-05, + "loss": 0.0327, + "step": 49970 + }, + { + "epoch": 0.31984, + "grad_norm": 0.28382745385169983, + "learning_rate": 1.7867733333333335e-05, + "loss": 0.0259, + "step": 49975 + }, + { + "epoch": 0.319872, + "grad_norm": 2.8949413299560547, + "learning_rate": 1.786752e-05, + "loss": 0.0484, + "step": 49980 + }, + { + "epoch": 0.319904, + "grad_norm": 1.735060453414917, + "learning_rate": 1.7867306666666667e-05, + "loss": 0.0807, + "step": 49985 + }, + { + "epoch": 0.319936, + "grad_norm": 1.1178443431854248, + "learning_rate": 1.7867093333333334e-05, + "loss": 0.0365, + "step": 49990 + }, + { + "epoch": 0.319968, + "grad_norm": 0.6662717461585999, + "learning_rate": 1.7866880000000002e-05, + "loss": 0.0261, + "step": 49995 + }, + { + "epoch": 0.32, + "grad_norm": 0.6479648947715759, + "learning_rate": 1.7866666666666666e-05, + "loss": 0.0421, + "step": 50000 + }, + { + "epoch": 0.320032, + "grad_norm": 0.9760901927947998, + "learning_rate": 1.7866453333333337e-05, + "loss": 0.0326, + "step": 50005 + }, + { + "epoch": 0.320064, + "grad_norm": 0.9194459319114685, + "learning_rate": 1.786624e-05, + "loss": 0.0456, + "step": 50010 + }, + { + "epoch": 0.320096, + "grad_norm": 0.7173383235931396, + "learning_rate": 1.7866026666666665e-05, + "loss": 0.0246, + "step": 50015 + }, + { + "epoch": 0.320128, + "grad_norm": 0.9939867854118347, + "learning_rate": 1.7865813333333336e-05, + "loss": 0.0657, + "step": 50020 + }, + { + "epoch": 0.32016, + "grad_norm": 0.5329575538635254, + "learning_rate": 1.78656e-05, + "loss": 0.0264, + "step": 50025 + }, + { + "epoch": 0.320192, + "grad_norm": 1.0772910118103027, + "learning_rate": 1.7865386666666668e-05, + "loss": 0.0446, + "step": 50030 + }, + { + "epoch": 0.320224, + "grad_norm": 0.5278485417366028, + "learning_rate": 1.7865173333333336e-05, + "loss": 0.0507, + "step": 50035 + }, + { + "epoch": 0.320256, + "grad_norm": 0.7352597117424011, + "learning_rate": 1.7864960000000003e-05, + "loss": 0.0245, + "step": 50040 + }, + { + "epoch": 0.320288, + "grad_norm": 0.6779155135154724, + "learning_rate": 1.7864746666666667e-05, + "loss": 0.0385, + "step": 50045 + }, + { + "epoch": 0.32032, + "grad_norm": 0.2890383303165436, + "learning_rate": 1.7864533333333335e-05, + "loss": 0.0456, + "step": 50050 + }, + { + "epoch": 0.320352, + "grad_norm": 0.4233638048171997, + "learning_rate": 1.7864320000000002e-05, + "loss": 0.0274, + "step": 50055 + }, + { + "epoch": 0.320384, + "grad_norm": 0.3263466954231262, + "learning_rate": 1.7864106666666667e-05, + "loss": 0.0357, + "step": 50060 + }, + { + "epoch": 0.320416, + "grad_norm": 0.7189399003982544, + "learning_rate": 1.7863893333333334e-05, + "loss": 0.0518, + "step": 50065 + }, + { + "epoch": 0.320448, + "grad_norm": 0.36937886476516724, + "learning_rate": 1.7863680000000002e-05, + "loss": 0.0352, + "step": 50070 + }, + { + "epoch": 0.32048, + "grad_norm": 1.4961073398590088, + "learning_rate": 1.786346666666667e-05, + "loss": 0.0529, + "step": 50075 + }, + { + "epoch": 0.320512, + "grad_norm": 0.7105756998062134, + "learning_rate": 1.7863253333333333e-05, + "loss": 0.0456, + "step": 50080 + }, + { + "epoch": 0.320544, + "grad_norm": 0.40432122349739075, + "learning_rate": 1.786304e-05, + "loss": 0.0334, + "step": 50085 + }, + { + "epoch": 0.320576, + "grad_norm": 0.9820717573165894, + "learning_rate": 1.786282666666667e-05, + "loss": 0.0212, + "step": 50090 + }, + { + "epoch": 0.320608, + "grad_norm": 0.5965549349784851, + "learning_rate": 1.7862613333333333e-05, + "loss": 0.0273, + "step": 50095 + }, + { + "epoch": 0.32064, + "grad_norm": 0.904403030872345, + "learning_rate": 1.78624e-05, + "loss": 0.0442, + "step": 50100 + }, + { + "epoch": 0.320672, + "grad_norm": 0.7990325689315796, + "learning_rate": 1.7862186666666668e-05, + "loss": 0.0454, + "step": 50105 + }, + { + "epoch": 0.320704, + "grad_norm": 0.5485784411430359, + "learning_rate": 1.7861973333333335e-05, + "loss": 0.0297, + "step": 50110 + }, + { + "epoch": 0.320736, + "grad_norm": 1.1034754514694214, + "learning_rate": 1.7861760000000003e-05, + "loss": 0.0611, + "step": 50115 + }, + { + "epoch": 0.320768, + "grad_norm": 0.5787123441696167, + "learning_rate": 1.7861546666666667e-05, + "loss": 0.0568, + "step": 50120 + }, + { + "epoch": 0.3208, + "grad_norm": 0.6506938934326172, + "learning_rate": 1.7861333333333335e-05, + "loss": 0.0356, + "step": 50125 + }, + { + "epoch": 0.320832, + "grad_norm": 0.9232905507087708, + "learning_rate": 1.7861120000000002e-05, + "loss": 0.0517, + "step": 50130 + }, + { + "epoch": 0.320864, + "grad_norm": 1.1459550857543945, + "learning_rate": 1.786090666666667e-05, + "loss": 0.0538, + "step": 50135 + }, + { + "epoch": 0.320896, + "grad_norm": 0.7121152877807617, + "learning_rate": 1.7860693333333334e-05, + "loss": 0.0411, + "step": 50140 + }, + { + "epoch": 0.320928, + "grad_norm": 0.6833770871162415, + "learning_rate": 1.786048e-05, + "loss": 0.0622, + "step": 50145 + }, + { + "epoch": 0.32096, + "grad_norm": 0.9045242667198181, + "learning_rate": 1.786026666666667e-05, + "loss": 0.0348, + "step": 50150 + }, + { + "epoch": 0.320992, + "grad_norm": 1.1122945547103882, + "learning_rate": 1.7860053333333333e-05, + "loss": 0.0546, + "step": 50155 + }, + { + "epoch": 0.321024, + "grad_norm": 0.16895775496959686, + "learning_rate": 1.785984e-05, + "loss": 0.0217, + "step": 50160 + }, + { + "epoch": 0.321056, + "grad_norm": 0.6055905818939209, + "learning_rate": 1.785962666666667e-05, + "loss": 0.0344, + "step": 50165 + }, + { + "epoch": 0.321088, + "grad_norm": 0.8966336250305176, + "learning_rate": 1.7859413333333336e-05, + "loss": 0.031, + "step": 50170 + }, + { + "epoch": 0.32112, + "grad_norm": 1.0392851829528809, + "learning_rate": 1.78592e-05, + "loss": 0.0354, + "step": 50175 + }, + { + "epoch": 0.321152, + "grad_norm": 0.601563036441803, + "learning_rate": 1.7858986666666668e-05, + "loss": 0.0423, + "step": 50180 + }, + { + "epoch": 0.321184, + "grad_norm": 0.8505070805549622, + "learning_rate": 1.7858773333333335e-05, + "loss": 0.054, + "step": 50185 + }, + { + "epoch": 0.321216, + "grad_norm": 0.3445255756378174, + "learning_rate": 1.7858560000000003e-05, + "loss": 0.0313, + "step": 50190 + }, + { + "epoch": 0.321248, + "grad_norm": 0.9550698399543762, + "learning_rate": 1.7858346666666667e-05, + "loss": 0.0389, + "step": 50195 + }, + { + "epoch": 0.32128, + "grad_norm": 0.4720866084098816, + "learning_rate": 1.7858133333333334e-05, + "loss": 0.0483, + "step": 50200 + }, + { + "epoch": 0.321312, + "grad_norm": 0.5194659233093262, + "learning_rate": 1.7857920000000002e-05, + "loss": 0.0593, + "step": 50205 + }, + { + "epoch": 0.321344, + "grad_norm": 0.3526158332824707, + "learning_rate": 1.7857706666666666e-05, + "loss": 0.0202, + "step": 50210 + }, + { + "epoch": 0.321376, + "grad_norm": 0.2305966317653656, + "learning_rate": 1.7857493333333337e-05, + "loss": 0.0606, + "step": 50215 + }, + { + "epoch": 0.321408, + "grad_norm": 0.2190438210964203, + "learning_rate": 1.785728e-05, + "loss": 0.0659, + "step": 50220 + }, + { + "epoch": 0.32144, + "grad_norm": 0.6408373117446899, + "learning_rate": 1.785706666666667e-05, + "loss": 0.0632, + "step": 50225 + }, + { + "epoch": 0.321472, + "grad_norm": 0.3196984529495239, + "learning_rate": 1.7856853333333336e-05, + "loss": 0.0404, + "step": 50230 + }, + { + "epoch": 0.321504, + "grad_norm": 1.0524688959121704, + "learning_rate": 1.785664e-05, + "loss": 0.0441, + "step": 50235 + }, + { + "epoch": 0.321536, + "grad_norm": 0.8394270539283752, + "learning_rate": 1.7856426666666668e-05, + "loss": 0.0459, + "step": 50240 + }, + { + "epoch": 0.321568, + "grad_norm": 0.2053350806236267, + "learning_rate": 1.7856213333333336e-05, + "loss": 0.026, + "step": 50245 + }, + { + "epoch": 0.3216, + "grad_norm": 0.7282289862632751, + "learning_rate": 1.7856000000000003e-05, + "loss": 0.0383, + "step": 50250 + }, + { + "epoch": 0.321632, + "grad_norm": 0.5323254466056824, + "learning_rate": 1.7855786666666667e-05, + "loss": 0.04, + "step": 50255 + }, + { + "epoch": 0.321664, + "grad_norm": 0.48579514026641846, + "learning_rate": 1.7855573333333335e-05, + "loss": 0.0281, + "step": 50260 + }, + { + "epoch": 0.321696, + "grad_norm": 1.9001238346099854, + "learning_rate": 1.7855360000000002e-05, + "loss": 0.0288, + "step": 50265 + }, + { + "epoch": 0.321728, + "grad_norm": 1.0341100692749023, + "learning_rate": 1.7855146666666667e-05, + "loss": 0.0508, + "step": 50270 + }, + { + "epoch": 0.32176, + "grad_norm": 0.4667204022407532, + "learning_rate": 1.7854933333333334e-05, + "loss": 0.033, + "step": 50275 + }, + { + "epoch": 0.321792, + "grad_norm": 0.826248049736023, + "learning_rate": 1.7854720000000002e-05, + "loss": 0.0608, + "step": 50280 + }, + { + "epoch": 0.321824, + "grad_norm": 0.4917429983615875, + "learning_rate": 1.785450666666667e-05, + "loss": 0.0286, + "step": 50285 + }, + { + "epoch": 0.321856, + "grad_norm": 0.7877748012542725, + "learning_rate": 1.7854293333333333e-05, + "loss": 0.0419, + "step": 50290 + }, + { + "epoch": 0.321888, + "grad_norm": 0.4504333734512329, + "learning_rate": 1.785408e-05, + "loss": 0.029, + "step": 50295 + }, + { + "epoch": 0.32192, + "grad_norm": 1.4823006391525269, + "learning_rate": 1.785386666666667e-05, + "loss": 0.0441, + "step": 50300 + }, + { + "epoch": 0.321952, + "grad_norm": 0.8734170794487, + "learning_rate": 1.7853653333333333e-05, + "loss": 0.0405, + "step": 50305 + }, + { + "epoch": 0.321984, + "grad_norm": 0.8628572225570679, + "learning_rate": 1.785344e-05, + "loss": 0.0403, + "step": 50310 + }, + { + "epoch": 0.322016, + "grad_norm": 1.740695834159851, + "learning_rate": 1.7853226666666668e-05, + "loss": 0.0549, + "step": 50315 + }, + { + "epoch": 0.322048, + "grad_norm": 1.1781461238861084, + "learning_rate": 1.7853013333333335e-05, + "loss": 0.042, + "step": 50320 + }, + { + "epoch": 0.32208, + "grad_norm": 0.25640857219696045, + "learning_rate": 1.78528e-05, + "loss": 0.0214, + "step": 50325 + }, + { + "epoch": 0.322112, + "grad_norm": 0.8833047747612, + "learning_rate": 1.785258666666667e-05, + "loss": 0.0347, + "step": 50330 + }, + { + "epoch": 0.322144, + "grad_norm": 0.4362028241157532, + "learning_rate": 1.7852373333333335e-05, + "loss": 0.0411, + "step": 50335 + }, + { + "epoch": 0.322176, + "grad_norm": 0.8541034460067749, + "learning_rate": 1.7852160000000002e-05, + "loss": 0.0444, + "step": 50340 + }, + { + "epoch": 0.322208, + "grad_norm": 0.5715848207473755, + "learning_rate": 1.785194666666667e-05, + "loss": 0.0644, + "step": 50345 + }, + { + "epoch": 0.32224, + "grad_norm": 1.1858725547790527, + "learning_rate": 1.7851733333333334e-05, + "loss": 0.0627, + "step": 50350 + }, + { + "epoch": 0.322272, + "grad_norm": 0.2683272063732147, + "learning_rate": 1.785152e-05, + "loss": 0.0261, + "step": 50355 + }, + { + "epoch": 0.322304, + "grad_norm": 0.5782750844955444, + "learning_rate": 1.785130666666667e-05, + "loss": 0.0381, + "step": 50360 + }, + { + "epoch": 0.322336, + "grad_norm": 1.7296122312545776, + "learning_rate": 1.7851093333333337e-05, + "loss": 0.043, + "step": 50365 + }, + { + "epoch": 0.322368, + "grad_norm": 1.2528609037399292, + "learning_rate": 1.785088e-05, + "loss": 0.0275, + "step": 50370 + }, + { + "epoch": 0.3224, + "grad_norm": 2.8595898151397705, + "learning_rate": 1.785066666666667e-05, + "loss": 0.0538, + "step": 50375 + }, + { + "epoch": 0.322432, + "grad_norm": 0.8258426785469055, + "learning_rate": 1.7850453333333336e-05, + "loss": 0.0417, + "step": 50380 + }, + { + "epoch": 0.322464, + "grad_norm": 0.5507288575172424, + "learning_rate": 1.785024e-05, + "loss": 0.0453, + "step": 50385 + }, + { + "epoch": 0.322496, + "grad_norm": 3.2949295043945312, + "learning_rate": 1.7850026666666668e-05, + "loss": 0.0856, + "step": 50390 + }, + { + "epoch": 0.322528, + "grad_norm": 1.008571982383728, + "learning_rate": 1.7849813333333335e-05, + "loss": 0.0586, + "step": 50395 + }, + { + "epoch": 0.32256, + "grad_norm": 0.5206348299980164, + "learning_rate": 1.7849600000000003e-05, + "loss": 0.0388, + "step": 50400 + }, + { + "epoch": 0.322592, + "grad_norm": 0.5350497961044312, + "learning_rate": 1.7849386666666667e-05, + "loss": 0.0273, + "step": 50405 + }, + { + "epoch": 0.322624, + "grad_norm": 0.38532325625419617, + "learning_rate": 1.7849173333333334e-05, + "loss": 0.0334, + "step": 50410 + }, + { + "epoch": 0.322656, + "grad_norm": 0.9045842289924622, + "learning_rate": 1.7848960000000002e-05, + "loss": 0.0341, + "step": 50415 + }, + { + "epoch": 0.322688, + "grad_norm": 0.5471183657646179, + "learning_rate": 1.7848746666666666e-05, + "loss": 0.0355, + "step": 50420 + }, + { + "epoch": 0.32272, + "grad_norm": 0.3502621054649353, + "learning_rate": 1.7848533333333337e-05, + "loss": 0.0336, + "step": 50425 + }, + { + "epoch": 0.322752, + "grad_norm": 0.503017246723175, + "learning_rate": 1.784832e-05, + "loss": 0.0523, + "step": 50430 + }, + { + "epoch": 0.322784, + "grad_norm": 0.681784451007843, + "learning_rate": 1.784810666666667e-05, + "loss": 0.0535, + "step": 50435 + }, + { + "epoch": 0.322816, + "grad_norm": 0.6519856452941895, + "learning_rate": 1.7847893333333336e-05, + "loss": 0.0224, + "step": 50440 + }, + { + "epoch": 0.322848, + "grad_norm": 0.531313419342041, + "learning_rate": 1.784768e-05, + "loss": 0.0231, + "step": 50445 + }, + { + "epoch": 0.32288, + "grad_norm": 0.6316366195678711, + "learning_rate": 1.7847466666666668e-05, + "loss": 0.0232, + "step": 50450 + }, + { + "epoch": 0.322912, + "grad_norm": 0.317440390586853, + "learning_rate": 1.7847253333333336e-05, + "loss": 0.0266, + "step": 50455 + }, + { + "epoch": 0.322944, + "grad_norm": 0.37676486372947693, + "learning_rate": 1.7847040000000003e-05, + "loss": 0.0338, + "step": 50460 + }, + { + "epoch": 0.322976, + "grad_norm": 1.2648508548736572, + "learning_rate": 1.7846826666666667e-05, + "loss": 0.0277, + "step": 50465 + }, + { + "epoch": 0.323008, + "grad_norm": 0.7005014419555664, + "learning_rate": 1.7846613333333335e-05, + "loss": 0.03, + "step": 50470 + }, + { + "epoch": 0.32304, + "grad_norm": 2.8972768783569336, + "learning_rate": 1.7846400000000002e-05, + "loss": 0.0541, + "step": 50475 + }, + { + "epoch": 0.323072, + "grad_norm": 0.6055089235305786, + "learning_rate": 1.7846186666666667e-05, + "loss": 0.0397, + "step": 50480 + }, + { + "epoch": 0.323104, + "grad_norm": 0.6416021585464478, + "learning_rate": 1.7845973333333334e-05, + "loss": 0.033, + "step": 50485 + }, + { + "epoch": 0.323136, + "grad_norm": 1.2308157682418823, + "learning_rate": 1.7845760000000002e-05, + "loss": 0.0319, + "step": 50490 + }, + { + "epoch": 0.323168, + "grad_norm": 1.170301914215088, + "learning_rate": 1.784554666666667e-05, + "loss": 0.044, + "step": 50495 + }, + { + "epoch": 0.3232, + "grad_norm": 0.5744172930717468, + "learning_rate": 1.7845333333333333e-05, + "loss": 0.0383, + "step": 50500 + }, + { + "epoch": 0.323232, + "grad_norm": 0.561482846736908, + "learning_rate": 1.784512e-05, + "loss": 0.028, + "step": 50505 + }, + { + "epoch": 0.323264, + "grad_norm": 0.716084361076355, + "learning_rate": 1.784490666666667e-05, + "loss": 0.0235, + "step": 50510 + }, + { + "epoch": 0.323296, + "grad_norm": 0.4211658537387848, + "learning_rate": 1.7844693333333333e-05, + "loss": 0.0476, + "step": 50515 + }, + { + "epoch": 0.323328, + "grad_norm": 0.8219513893127441, + "learning_rate": 1.784448e-05, + "loss": 0.07, + "step": 50520 + }, + { + "epoch": 0.32336, + "grad_norm": 0.8705028295516968, + "learning_rate": 1.7844266666666668e-05, + "loss": 0.0459, + "step": 50525 + }, + { + "epoch": 0.323392, + "grad_norm": 0.5115396976470947, + "learning_rate": 1.7844053333333335e-05, + "loss": 0.0485, + "step": 50530 + }, + { + "epoch": 0.323424, + "grad_norm": 0.7505569458007812, + "learning_rate": 1.784384e-05, + "loss": 0.0497, + "step": 50535 + }, + { + "epoch": 0.323456, + "grad_norm": 0.5657291412353516, + "learning_rate": 1.784362666666667e-05, + "loss": 0.0433, + "step": 50540 + }, + { + "epoch": 0.323488, + "grad_norm": 1.4567967653274536, + "learning_rate": 1.7843413333333335e-05, + "loss": 0.0661, + "step": 50545 + }, + { + "epoch": 0.32352, + "grad_norm": 2.6013081073760986, + "learning_rate": 1.78432e-05, + "loss": 0.0412, + "step": 50550 + }, + { + "epoch": 0.323552, + "grad_norm": 1.1387453079223633, + "learning_rate": 1.784298666666667e-05, + "loss": 0.0474, + "step": 50555 + }, + { + "epoch": 0.323584, + "grad_norm": 0.5826078057289124, + "learning_rate": 1.7842773333333334e-05, + "loss": 0.0474, + "step": 50560 + }, + { + "epoch": 0.323616, + "grad_norm": 1.015222430229187, + "learning_rate": 1.784256e-05, + "loss": 0.0459, + "step": 50565 + }, + { + "epoch": 0.323648, + "grad_norm": 0.9388651847839355, + "learning_rate": 1.784234666666667e-05, + "loss": 0.0404, + "step": 50570 + }, + { + "epoch": 0.32368, + "grad_norm": 0.32383283972740173, + "learning_rate": 1.7842133333333337e-05, + "loss": 0.0462, + "step": 50575 + }, + { + "epoch": 0.323712, + "grad_norm": 0.376909464597702, + "learning_rate": 1.784192e-05, + "loss": 0.0334, + "step": 50580 + }, + { + "epoch": 0.323744, + "grad_norm": 0.4584922194480896, + "learning_rate": 1.784170666666667e-05, + "loss": 0.0307, + "step": 50585 + }, + { + "epoch": 0.323776, + "grad_norm": 0.4355701506137848, + "learning_rate": 1.7841493333333336e-05, + "loss": 0.0489, + "step": 50590 + }, + { + "epoch": 0.323808, + "grad_norm": 0.6476622223854065, + "learning_rate": 1.784128e-05, + "loss": 0.0286, + "step": 50595 + }, + { + "epoch": 0.32384, + "grad_norm": 0.45267874002456665, + "learning_rate": 1.7841066666666668e-05, + "loss": 0.041, + "step": 50600 + }, + { + "epoch": 0.323872, + "grad_norm": 0.4323855936527252, + "learning_rate": 1.7840853333333335e-05, + "loss": 0.041, + "step": 50605 + }, + { + "epoch": 0.323904, + "grad_norm": 2.696599006652832, + "learning_rate": 1.7840640000000003e-05, + "loss": 0.0394, + "step": 50610 + }, + { + "epoch": 0.323936, + "grad_norm": 0.7394848465919495, + "learning_rate": 1.7840426666666667e-05, + "loss": 0.0523, + "step": 50615 + }, + { + "epoch": 0.323968, + "grad_norm": 0.21084065735340118, + "learning_rate": 1.7840213333333334e-05, + "loss": 0.0202, + "step": 50620 + }, + { + "epoch": 0.324, + "grad_norm": 1.3421212434768677, + "learning_rate": 1.7840000000000002e-05, + "loss": 0.0535, + "step": 50625 + }, + { + "epoch": 0.324032, + "grad_norm": 0.6128163933753967, + "learning_rate": 1.7839786666666666e-05, + "loss": 0.0444, + "step": 50630 + }, + { + "epoch": 0.324064, + "grad_norm": 0.6830493211746216, + "learning_rate": 1.7839573333333337e-05, + "loss": 0.0355, + "step": 50635 + }, + { + "epoch": 0.324096, + "grad_norm": 0.3874439001083374, + "learning_rate": 1.783936e-05, + "loss": 0.0441, + "step": 50640 + }, + { + "epoch": 0.324128, + "grad_norm": 0.6191881895065308, + "learning_rate": 1.783914666666667e-05, + "loss": 0.0459, + "step": 50645 + }, + { + "epoch": 0.32416, + "grad_norm": 0.39330944418907166, + "learning_rate": 1.7838933333333336e-05, + "loss": 0.0456, + "step": 50650 + }, + { + "epoch": 0.324192, + "grad_norm": 0.5416464805603027, + "learning_rate": 1.783872e-05, + "loss": 0.0253, + "step": 50655 + }, + { + "epoch": 0.324224, + "grad_norm": 1.026382327079773, + "learning_rate": 1.7838506666666668e-05, + "loss": 0.0538, + "step": 50660 + }, + { + "epoch": 0.324256, + "grad_norm": 0.6246019005775452, + "learning_rate": 1.7838293333333336e-05, + "loss": 0.0403, + "step": 50665 + }, + { + "epoch": 0.324288, + "grad_norm": 1.0669844150543213, + "learning_rate": 1.7838080000000003e-05, + "loss": 0.0466, + "step": 50670 + }, + { + "epoch": 0.32432, + "grad_norm": 1.4293774366378784, + "learning_rate": 1.7837866666666667e-05, + "loss": 0.0479, + "step": 50675 + }, + { + "epoch": 0.324352, + "grad_norm": 0.4667699337005615, + "learning_rate": 1.7837653333333335e-05, + "loss": 0.0234, + "step": 50680 + }, + { + "epoch": 0.324384, + "grad_norm": 0.9771265387535095, + "learning_rate": 1.7837440000000002e-05, + "loss": 0.0213, + "step": 50685 + }, + { + "epoch": 0.324416, + "grad_norm": 1.4973961114883423, + "learning_rate": 1.7837226666666667e-05, + "loss": 0.0386, + "step": 50690 + }, + { + "epoch": 0.324448, + "grad_norm": 0.9103758931159973, + "learning_rate": 1.7837013333333334e-05, + "loss": 0.0598, + "step": 50695 + }, + { + "epoch": 0.32448, + "grad_norm": 1.0265700817108154, + "learning_rate": 1.7836800000000002e-05, + "loss": 0.0616, + "step": 50700 + }, + { + "epoch": 0.324512, + "grad_norm": 0.7525637149810791, + "learning_rate": 1.783658666666667e-05, + "loss": 0.022, + "step": 50705 + }, + { + "epoch": 0.324544, + "grad_norm": 0.7735257148742676, + "learning_rate": 1.7836373333333333e-05, + "loss": 0.0293, + "step": 50710 + }, + { + "epoch": 0.324576, + "grad_norm": 0.3549690544605255, + "learning_rate": 1.783616e-05, + "loss": 0.0393, + "step": 50715 + }, + { + "epoch": 0.324608, + "grad_norm": 0.9903383255004883, + "learning_rate": 1.783594666666667e-05, + "loss": 0.0551, + "step": 50720 + }, + { + "epoch": 0.32464, + "grad_norm": 4.812102317810059, + "learning_rate": 1.7835733333333333e-05, + "loss": 0.0336, + "step": 50725 + }, + { + "epoch": 0.324672, + "grad_norm": 2.0202853679656982, + "learning_rate": 1.783552e-05, + "loss": 0.0755, + "step": 50730 + }, + { + "epoch": 0.324704, + "grad_norm": 0.6964154243469238, + "learning_rate": 1.7835306666666668e-05, + "loss": 0.0456, + "step": 50735 + }, + { + "epoch": 0.324736, + "grad_norm": 0.2501901686191559, + "learning_rate": 1.7835093333333335e-05, + "loss": 0.0328, + "step": 50740 + }, + { + "epoch": 0.324768, + "grad_norm": 0.5126058459281921, + "learning_rate": 1.783488e-05, + "loss": 0.0263, + "step": 50745 + }, + { + "epoch": 0.3248, + "grad_norm": 0.7091217041015625, + "learning_rate": 1.783466666666667e-05, + "loss": 0.0388, + "step": 50750 + }, + { + "epoch": 0.324832, + "grad_norm": 2.064152240753174, + "learning_rate": 1.7834453333333335e-05, + "loss": 0.0604, + "step": 50755 + }, + { + "epoch": 0.324864, + "grad_norm": 0.6647990942001343, + "learning_rate": 1.783424e-05, + "loss": 0.0417, + "step": 50760 + }, + { + "epoch": 0.324896, + "grad_norm": 3.4248318672180176, + "learning_rate": 1.783402666666667e-05, + "loss": 0.0565, + "step": 50765 + }, + { + "epoch": 0.324928, + "grad_norm": 2.4360239505767822, + "learning_rate": 1.7833813333333334e-05, + "loss": 0.0527, + "step": 50770 + }, + { + "epoch": 0.32496, + "grad_norm": 0.6690927743911743, + "learning_rate": 1.78336e-05, + "loss": 0.0361, + "step": 50775 + }, + { + "epoch": 0.324992, + "grad_norm": 1.07761549949646, + "learning_rate": 1.783338666666667e-05, + "loss": 0.0293, + "step": 50780 + }, + { + "epoch": 0.325024, + "grad_norm": 1.2667224407196045, + "learning_rate": 1.7833173333333337e-05, + "loss": 0.0492, + "step": 50785 + }, + { + "epoch": 0.325056, + "grad_norm": 0.5290924906730652, + "learning_rate": 1.783296e-05, + "loss": 0.0446, + "step": 50790 + }, + { + "epoch": 0.325088, + "grad_norm": 1.260427713394165, + "learning_rate": 1.783274666666667e-05, + "loss": 0.0813, + "step": 50795 + }, + { + "epoch": 0.32512, + "grad_norm": 0.357490211725235, + "learning_rate": 1.7832533333333336e-05, + "loss": 0.024, + "step": 50800 + }, + { + "epoch": 0.325152, + "grad_norm": 1.4613783359527588, + "learning_rate": 1.783232e-05, + "loss": 0.0433, + "step": 50805 + }, + { + "epoch": 0.325184, + "grad_norm": 0.6260809898376465, + "learning_rate": 1.7832106666666668e-05, + "loss": 0.0345, + "step": 50810 + }, + { + "epoch": 0.325216, + "grad_norm": 0.25974908471107483, + "learning_rate": 1.7831893333333335e-05, + "loss": 0.0369, + "step": 50815 + }, + { + "epoch": 0.325248, + "grad_norm": 0.9865949749946594, + "learning_rate": 1.7831680000000003e-05, + "loss": 0.0429, + "step": 50820 + }, + { + "epoch": 0.32528, + "grad_norm": 0.6901476979255676, + "learning_rate": 1.7831466666666667e-05, + "loss": 0.0328, + "step": 50825 + }, + { + "epoch": 0.325312, + "grad_norm": 0.7793177366256714, + "learning_rate": 1.7831253333333334e-05, + "loss": 0.0389, + "step": 50830 + }, + { + "epoch": 0.325344, + "grad_norm": 0.35526084899902344, + "learning_rate": 1.7831040000000002e-05, + "loss": 0.0395, + "step": 50835 + }, + { + "epoch": 0.325376, + "grad_norm": 0.6356887817382812, + "learning_rate": 1.7830826666666666e-05, + "loss": 0.0425, + "step": 50840 + }, + { + "epoch": 0.325408, + "grad_norm": 0.3544972240924835, + "learning_rate": 1.7830613333333334e-05, + "loss": 0.0263, + "step": 50845 + }, + { + "epoch": 0.32544, + "grad_norm": 0.29330551624298096, + "learning_rate": 1.78304e-05, + "loss": 0.0585, + "step": 50850 + }, + { + "epoch": 0.325472, + "grad_norm": 0.9635525345802307, + "learning_rate": 1.783018666666667e-05, + "loss": 0.0423, + "step": 50855 + }, + { + "epoch": 0.325504, + "grad_norm": 0.16032786667346954, + "learning_rate": 1.7829973333333336e-05, + "loss": 0.0392, + "step": 50860 + }, + { + "epoch": 0.325536, + "grad_norm": 0.4692007005214691, + "learning_rate": 1.782976e-05, + "loss": 0.034, + "step": 50865 + }, + { + "epoch": 0.325568, + "grad_norm": 0.9888254404067993, + "learning_rate": 1.7829546666666668e-05, + "loss": 0.0477, + "step": 50870 + }, + { + "epoch": 0.3256, + "grad_norm": 4.040971755981445, + "learning_rate": 1.7829333333333336e-05, + "loss": 0.0598, + "step": 50875 + }, + { + "epoch": 0.325632, + "grad_norm": 1.8266323804855347, + "learning_rate": 1.7829120000000003e-05, + "loss": 0.0378, + "step": 50880 + }, + { + "epoch": 0.325664, + "grad_norm": 0.3535522520542145, + "learning_rate": 1.7828906666666667e-05, + "loss": 0.0136, + "step": 50885 + }, + { + "epoch": 0.325696, + "grad_norm": 1.1622231006622314, + "learning_rate": 1.7828693333333335e-05, + "loss": 0.032, + "step": 50890 + }, + { + "epoch": 0.325728, + "grad_norm": 0.5844292640686035, + "learning_rate": 1.7828480000000002e-05, + "loss": 0.0281, + "step": 50895 + }, + { + "epoch": 0.32576, + "grad_norm": 0.6432205438613892, + "learning_rate": 1.7828266666666667e-05, + "loss": 0.0353, + "step": 50900 + }, + { + "epoch": 0.325792, + "grad_norm": 1.0979688167572021, + "learning_rate": 1.7828053333333334e-05, + "loss": 0.0296, + "step": 50905 + }, + { + "epoch": 0.325824, + "grad_norm": 1.251752257347107, + "learning_rate": 1.7827840000000002e-05, + "loss": 0.0586, + "step": 50910 + }, + { + "epoch": 0.325856, + "grad_norm": 0.3351817727088928, + "learning_rate": 1.782762666666667e-05, + "loss": 0.0395, + "step": 50915 + }, + { + "epoch": 0.325888, + "grad_norm": 0.624691367149353, + "learning_rate": 1.7827413333333333e-05, + "loss": 0.0542, + "step": 50920 + }, + { + "epoch": 0.32592, + "grad_norm": 1.9749672412872314, + "learning_rate": 1.78272e-05, + "loss": 0.0495, + "step": 50925 + }, + { + "epoch": 0.325952, + "grad_norm": 0.43300455808639526, + "learning_rate": 1.782698666666667e-05, + "loss": 0.0485, + "step": 50930 + }, + { + "epoch": 0.325984, + "grad_norm": 0.3516477048397064, + "learning_rate": 1.7826773333333333e-05, + "loss": 0.0265, + "step": 50935 + }, + { + "epoch": 0.326016, + "grad_norm": 0.34935083985328674, + "learning_rate": 1.782656e-05, + "loss": 0.0365, + "step": 50940 + }, + { + "epoch": 0.326048, + "grad_norm": 0.935303270816803, + "learning_rate": 1.7826346666666668e-05, + "loss": 0.0419, + "step": 50945 + }, + { + "epoch": 0.32608, + "grad_norm": 1.5519002676010132, + "learning_rate": 1.7826133333333335e-05, + "loss": 0.0573, + "step": 50950 + }, + { + "epoch": 0.326112, + "grad_norm": 1.4276556968688965, + "learning_rate": 1.782592e-05, + "loss": 0.0469, + "step": 50955 + }, + { + "epoch": 0.326144, + "grad_norm": 0.7638104557991028, + "learning_rate": 1.782570666666667e-05, + "loss": 0.032, + "step": 50960 + }, + { + "epoch": 0.326176, + "grad_norm": 2.322585344314575, + "learning_rate": 1.7825493333333335e-05, + "loss": 0.039, + "step": 50965 + }, + { + "epoch": 0.326208, + "grad_norm": 0.8953352570533752, + "learning_rate": 1.782528e-05, + "loss": 0.0479, + "step": 50970 + }, + { + "epoch": 0.32624, + "grad_norm": 0.5872685313224792, + "learning_rate": 1.782506666666667e-05, + "loss": 0.0162, + "step": 50975 + }, + { + "epoch": 0.326272, + "grad_norm": 0.6354106664657593, + "learning_rate": 1.7824853333333334e-05, + "loss": 0.055, + "step": 50980 + }, + { + "epoch": 0.326304, + "grad_norm": 0.6394031643867493, + "learning_rate": 1.782464e-05, + "loss": 0.0301, + "step": 50985 + }, + { + "epoch": 0.326336, + "grad_norm": 0.7424359321594238, + "learning_rate": 1.782442666666667e-05, + "loss": 0.0444, + "step": 50990 + }, + { + "epoch": 0.326368, + "grad_norm": 0.21628537774085999, + "learning_rate": 1.7824213333333337e-05, + "loss": 0.0282, + "step": 50995 + }, + { + "epoch": 0.3264, + "grad_norm": 1.4732396602630615, + "learning_rate": 1.7824e-05, + "loss": 0.0169, + "step": 51000 + }, + { + "epoch": 0.326432, + "grad_norm": 0.46124526858329773, + "learning_rate": 1.782378666666667e-05, + "loss": 0.0718, + "step": 51005 + }, + { + "epoch": 0.326464, + "grad_norm": 0.5177634954452515, + "learning_rate": 1.7823573333333336e-05, + "loss": 0.0372, + "step": 51010 + }, + { + "epoch": 0.326496, + "grad_norm": 0.5687040090560913, + "learning_rate": 1.782336e-05, + "loss": 0.0577, + "step": 51015 + }, + { + "epoch": 0.326528, + "grad_norm": 1.7142722606658936, + "learning_rate": 1.7823146666666668e-05, + "loss": 0.0596, + "step": 51020 + }, + { + "epoch": 0.32656, + "grad_norm": 0.9465611577033997, + "learning_rate": 1.7822933333333335e-05, + "loss": 0.0449, + "step": 51025 + }, + { + "epoch": 0.326592, + "grad_norm": 0.6122504472732544, + "learning_rate": 1.7822720000000003e-05, + "loss": 0.0303, + "step": 51030 + }, + { + "epoch": 0.326624, + "grad_norm": 1.1661134958267212, + "learning_rate": 1.7822506666666667e-05, + "loss": 0.0463, + "step": 51035 + }, + { + "epoch": 0.326656, + "grad_norm": 0.6855784058570862, + "learning_rate": 1.7822293333333334e-05, + "loss": 0.0264, + "step": 51040 + }, + { + "epoch": 0.326688, + "grad_norm": 0.36178144812583923, + "learning_rate": 1.7822080000000002e-05, + "loss": 0.0459, + "step": 51045 + }, + { + "epoch": 0.32672, + "grad_norm": 0.48363161087036133, + "learning_rate": 1.7821866666666666e-05, + "loss": 0.022, + "step": 51050 + }, + { + "epoch": 0.326752, + "grad_norm": 0.5261557102203369, + "learning_rate": 1.7821653333333334e-05, + "loss": 0.0378, + "step": 51055 + }, + { + "epoch": 0.326784, + "grad_norm": 0.951613187789917, + "learning_rate": 1.782144e-05, + "loss": 0.0557, + "step": 51060 + }, + { + "epoch": 0.326816, + "grad_norm": 1.006757378578186, + "learning_rate": 1.782122666666667e-05, + "loss": 0.0765, + "step": 51065 + }, + { + "epoch": 0.326848, + "grad_norm": 1.0009191036224365, + "learning_rate": 1.7821013333333333e-05, + "loss": 0.0415, + "step": 51070 + }, + { + "epoch": 0.32688, + "grad_norm": 3.3203647136688232, + "learning_rate": 1.7820800000000004e-05, + "loss": 0.0243, + "step": 51075 + }, + { + "epoch": 0.326912, + "grad_norm": 0.624580979347229, + "learning_rate": 1.7820586666666668e-05, + "loss": 0.033, + "step": 51080 + }, + { + "epoch": 0.326944, + "grad_norm": 3.579117774963379, + "learning_rate": 1.7820373333333336e-05, + "loss": 0.0417, + "step": 51085 + }, + { + "epoch": 0.326976, + "grad_norm": 0.30283617973327637, + "learning_rate": 1.7820160000000003e-05, + "loss": 0.0255, + "step": 51090 + }, + { + "epoch": 0.327008, + "grad_norm": 0.5642675757408142, + "learning_rate": 1.7819946666666667e-05, + "loss": 0.0368, + "step": 51095 + }, + { + "epoch": 0.32704, + "grad_norm": 0.8972490429878235, + "learning_rate": 1.7819733333333335e-05, + "loss": 0.0365, + "step": 51100 + }, + { + "epoch": 0.327072, + "grad_norm": 0.6340693831443787, + "learning_rate": 1.7819520000000002e-05, + "loss": 0.0368, + "step": 51105 + }, + { + "epoch": 0.327104, + "grad_norm": 0.8858506679534912, + "learning_rate": 1.781930666666667e-05, + "loss": 0.0435, + "step": 51110 + }, + { + "epoch": 0.327136, + "grad_norm": 0.5523990392684937, + "learning_rate": 1.7819093333333334e-05, + "loss": 0.0562, + "step": 51115 + }, + { + "epoch": 0.327168, + "grad_norm": 0.763360857963562, + "learning_rate": 1.7818880000000002e-05, + "loss": 0.0417, + "step": 51120 + }, + { + "epoch": 0.3272, + "grad_norm": 0.396317720413208, + "learning_rate": 1.781866666666667e-05, + "loss": 0.0397, + "step": 51125 + }, + { + "epoch": 0.327232, + "grad_norm": 7.064314842224121, + "learning_rate": 1.7818453333333333e-05, + "loss": 0.0409, + "step": 51130 + }, + { + "epoch": 0.327264, + "grad_norm": 0.4732189178466797, + "learning_rate": 1.781824e-05, + "loss": 0.0338, + "step": 51135 + }, + { + "epoch": 0.327296, + "grad_norm": 1.0939011573791504, + "learning_rate": 1.781802666666667e-05, + "loss": 0.0465, + "step": 51140 + }, + { + "epoch": 0.327328, + "grad_norm": 1.169627070426941, + "learning_rate": 1.7817813333333336e-05, + "loss": 0.0717, + "step": 51145 + }, + { + "epoch": 0.32736, + "grad_norm": 0.9528167247772217, + "learning_rate": 1.78176e-05, + "loss": 0.0273, + "step": 51150 + }, + { + "epoch": 0.327392, + "grad_norm": 0.4008035659790039, + "learning_rate": 1.7817386666666668e-05, + "loss": 0.0364, + "step": 51155 + }, + { + "epoch": 0.327424, + "grad_norm": 0.706193745136261, + "learning_rate": 1.7817173333333335e-05, + "loss": 0.0463, + "step": 51160 + }, + { + "epoch": 0.327456, + "grad_norm": 0.8282818794250488, + "learning_rate": 1.781696e-05, + "loss": 0.0432, + "step": 51165 + }, + { + "epoch": 0.327488, + "grad_norm": 0.6510087251663208, + "learning_rate": 1.781674666666667e-05, + "loss": 0.0472, + "step": 51170 + }, + { + "epoch": 0.32752, + "grad_norm": 0.8077029585838318, + "learning_rate": 1.7816533333333335e-05, + "loss": 0.0391, + "step": 51175 + }, + { + "epoch": 0.327552, + "grad_norm": 1.316454291343689, + "learning_rate": 1.7816320000000002e-05, + "loss": 0.0574, + "step": 51180 + }, + { + "epoch": 0.327584, + "grad_norm": 0.5992790460586548, + "learning_rate": 1.781610666666667e-05, + "loss": 0.0223, + "step": 51185 + }, + { + "epoch": 0.327616, + "grad_norm": 0.7712502479553223, + "learning_rate": 1.7815893333333334e-05, + "loss": 0.034, + "step": 51190 + }, + { + "epoch": 0.327648, + "grad_norm": 0.8956624865531921, + "learning_rate": 1.781568e-05, + "loss": 0.0225, + "step": 51195 + }, + { + "epoch": 0.32768, + "grad_norm": 0.36193299293518066, + "learning_rate": 1.781546666666667e-05, + "loss": 0.043, + "step": 51200 + }, + { + "epoch": 0.327712, + "grad_norm": 0.4492255747318268, + "learning_rate": 1.7815253333333337e-05, + "loss": 0.046, + "step": 51205 + }, + { + "epoch": 0.327744, + "grad_norm": 1.1312373876571655, + "learning_rate": 1.781504e-05, + "loss": 0.0494, + "step": 51210 + }, + { + "epoch": 0.327776, + "grad_norm": 0.5637272000312805, + "learning_rate": 1.781482666666667e-05, + "loss": 0.0277, + "step": 51215 + }, + { + "epoch": 0.327808, + "grad_norm": 2.155742883682251, + "learning_rate": 1.7814613333333336e-05, + "loss": 0.0372, + "step": 51220 + }, + { + "epoch": 0.32784, + "grad_norm": 0.2278585433959961, + "learning_rate": 1.78144e-05, + "loss": 0.0382, + "step": 51225 + }, + { + "epoch": 0.327872, + "grad_norm": 0.6705148816108704, + "learning_rate": 1.7814186666666668e-05, + "loss": 0.0664, + "step": 51230 + }, + { + "epoch": 0.327904, + "grad_norm": 0.5671157240867615, + "learning_rate": 1.7813973333333335e-05, + "loss": 0.0322, + "step": 51235 + }, + { + "epoch": 0.327936, + "grad_norm": 0.9868884086608887, + "learning_rate": 1.7813760000000003e-05, + "loss": 0.0376, + "step": 51240 + }, + { + "epoch": 0.327968, + "grad_norm": 0.41814756393432617, + "learning_rate": 1.7813546666666667e-05, + "loss": 0.0391, + "step": 51245 + }, + { + "epoch": 0.328, + "grad_norm": 1.3362154960632324, + "learning_rate": 1.7813333333333334e-05, + "loss": 0.0234, + "step": 51250 + }, + { + "epoch": 0.328032, + "grad_norm": 1.1437782049179077, + "learning_rate": 1.7813120000000002e-05, + "loss": 0.0309, + "step": 51255 + }, + { + "epoch": 0.328064, + "grad_norm": 0.5362123847007751, + "learning_rate": 1.7812906666666666e-05, + "loss": 0.0324, + "step": 51260 + }, + { + "epoch": 0.328096, + "grad_norm": 0.3847220838069916, + "learning_rate": 1.7812693333333334e-05, + "loss": 0.0325, + "step": 51265 + }, + { + "epoch": 0.328128, + "grad_norm": 0.9067310094833374, + "learning_rate": 1.781248e-05, + "loss": 0.056, + "step": 51270 + }, + { + "epoch": 0.32816, + "grad_norm": 0.542325496673584, + "learning_rate": 1.781226666666667e-05, + "loss": 0.0531, + "step": 51275 + }, + { + "epoch": 0.328192, + "grad_norm": 0.2141016572713852, + "learning_rate": 1.7812053333333333e-05, + "loss": 0.0253, + "step": 51280 + }, + { + "epoch": 0.328224, + "grad_norm": 1.5299279689788818, + "learning_rate": 1.7811840000000004e-05, + "loss": 0.0344, + "step": 51285 + }, + { + "epoch": 0.328256, + "grad_norm": 0.6531095504760742, + "learning_rate": 1.7811626666666668e-05, + "loss": 0.0388, + "step": 51290 + }, + { + "epoch": 0.328288, + "grad_norm": 0.49016112089157104, + "learning_rate": 1.7811413333333332e-05, + "loss": 0.0263, + "step": 51295 + }, + { + "epoch": 0.32832, + "grad_norm": 0.6466304063796997, + "learning_rate": 1.7811200000000003e-05, + "loss": 0.0331, + "step": 51300 + }, + { + "epoch": 0.328352, + "grad_norm": 0.701678991317749, + "learning_rate": 1.7810986666666667e-05, + "loss": 0.0468, + "step": 51305 + }, + { + "epoch": 0.328384, + "grad_norm": 0.5372664332389832, + "learning_rate": 1.7810773333333335e-05, + "loss": 0.0904, + "step": 51310 + }, + { + "epoch": 0.328416, + "grad_norm": 0.6018527746200562, + "learning_rate": 1.7810560000000002e-05, + "loss": 0.0521, + "step": 51315 + }, + { + "epoch": 0.328448, + "grad_norm": 1.6290137767791748, + "learning_rate": 1.781034666666667e-05, + "loss": 0.0324, + "step": 51320 + }, + { + "epoch": 0.32848, + "grad_norm": 1.2578116655349731, + "learning_rate": 1.7810133333333334e-05, + "loss": 0.0622, + "step": 51325 + }, + { + "epoch": 0.328512, + "grad_norm": 0.09236396104097366, + "learning_rate": 1.7809920000000002e-05, + "loss": 0.0405, + "step": 51330 + }, + { + "epoch": 0.328544, + "grad_norm": 0.34228968620300293, + "learning_rate": 1.780970666666667e-05, + "loss": 0.0275, + "step": 51335 + }, + { + "epoch": 0.328576, + "grad_norm": 0.8087590932846069, + "learning_rate": 1.7809493333333333e-05, + "loss": 0.055, + "step": 51340 + }, + { + "epoch": 0.328608, + "grad_norm": 0.3274817168712616, + "learning_rate": 1.780928e-05, + "loss": 0.0456, + "step": 51345 + }, + { + "epoch": 0.32864, + "grad_norm": 0.4125801920890808, + "learning_rate": 1.780906666666667e-05, + "loss": 0.0254, + "step": 51350 + }, + { + "epoch": 0.328672, + "grad_norm": 0.6848272681236267, + "learning_rate": 1.7808853333333336e-05, + "loss": 0.0704, + "step": 51355 + }, + { + "epoch": 0.328704, + "grad_norm": 0.6851725578308105, + "learning_rate": 1.780864e-05, + "loss": 0.0355, + "step": 51360 + }, + { + "epoch": 0.328736, + "grad_norm": 0.8930929899215698, + "learning_rate": 1.7808426666666668e-05, + "loss": 0.0348, + "step": 51365 + }, + { + "epoch": 0.328768, + "grad_norm": 0.5063185691833496, + "learning_rate": 1.7808213333333335e-05, + "loss": 0.0295, + "step": 51370 + }, + { + "epoch": 0.3288, + "grad_norm": 0.7643847465515137, + "learning_rate": 1.7808e-05, + "loss": 0.0698, + "step": 51375 + }, + { + "epoch": 0.328832, + "grad_norm": 1.00972318649292, + "learning_rate": 1.7807786666666667e-05, + "loss": 0.0413, + "step": 51380 + }, + { + "epoch": 0.328864, + "grad_norm": 1.3120654821395874, + "learning_rate": 1.7807573333333335e-05, + "loss": 0.0554, + "step": 51385 + }, + { + "epoch": 0.328896, + "grad_norm": 0.9025890231132507, + "learning_rate": 1.7807360000000002e-05, + "loss": 0.0386, + "step": 51390 + }, + { + "epoch": 0.328928, + "grad_norm": 0.5895398855209351, + "learning_rate": 1.780714666666667e-05, + "loss": 0.0261, + "step": 51395 + }, + { + "epoch": 0.32896, + "grad_norm": 2.4472408294677734, + "learning_rate": 1.7806933333333334e-05, + "loss": 0.0473, + "step": 51400 + }, + { + "epoch": 0.328992, + "grad_norm": 0.906030535697937, + "learning_rate": 1.780672e-05, + "loss": 0.0434, + "step": 51405 + }, + { + "epoch": 0.329024, + "grad_norm": 0.9949864745140076, + "learning_rate": 1.780650666666667e-05, + "loss": 0.0549, + "step": 51410 + }, + { + "epoch": 0.329056, + "grad_norm": 1.5530043840408325, + "learning_rate": 1.7806293333333337e-05, + "loss": 0.0555, + "step": 51415 + }, + { + "epoch": 0.329088, + "grad_norm": 1.1298240423202515, + "learning_rate": 1.780608e-05, + "loss": 0.0205, + "step": 51420 + }, + { + "epoch": 0.32912, + "grad_norm": 0.32772988080978394, + "learning_rate": 1.780586666666667e-05, + "loss": 0.039, + "step": 51425 + }, + { + "epoch": 0.329152, + "grad_norm": 0.7895781397819519, + "learning_rate": 1.7805653333333336e-05, + "loss": 0.0629, + "step": 51430 + }, + { + "epoch": 0.329184, + "grad_norm": 0.7074006795883179, + "learning_rate": 1.780544e-05, + "loss": 0.0233, + "step": 51435 + }, + { + "epoch": 0.329216, + "grad_norm": 0.2728910744190216, + "learning_rate": 1.7805226666666668e-05, + "loss": 0.0257, + "step": 51440 + }, + { + "epoch": 0.329248, + "grad_norm": 2.146449327468872, + "learning_rate": 1.7805013333333335e-05, + "loss": 0.033, + "step": 51445 + }, + { + "epoch": 0.32928, + "grad_norm": 1.254233479499817, + "learning_rate": 1.7804800000000003e-05, + "loss": 0.0744, + "step": 51450 + }, + { + "epoch": 0.329312, + "grad_norm": 0.46250221133232117, + "learning_rate": 1.7804586666666667e-05, + "loss": 0.0418, + "step": 51455 + }, + { + "epoch": 0.329344, + "grad_norm": 0.8536122441291809, + "learning_rate": 1.7804373333333334e-05, + "loss": 0.0512, + "step": 51460 + }, + { + "epoch": 0.329376, + "grad_norm": 0.8157434463500977, + "learning_rate": 1.7804160000000002e-05, + "loss": 0.0292, + "step": 51465 + }, + { + "epoch": 0.329408, + "grad_norm": 0.25649452209472656, + "learning_rate": 1.7803946666666666e-05, + "loss": 0.0279, + "step": 51470 + }, + { + "epoch": 0.32944, + "grad_norm": 2.182143211364746, + "learning_rate": 1.7803733333333334e-05, + "loss": 0.0396, + "step": 51475 + }, + { + "epoch": 0.329472, + "grad_norm": 1.5714553594589233, + "learning_rate": 1.780352e-05, + "loss": 0.0585, + "step": 51480 + }, + { + "epoch": 0.329504, + "grad_norm": 0.9549592137336731, + "learning_rate": 1.780330666666667e-05, + "loss": 0.0488, + "step": 51485 + }, + { + "epoch": 0.329536, + "grad_norm": 0.26760679483413696, + "learning_rate": 1.7803093333333333e-05, + "loss": 0.0235, + "step": 51490 + }, + { + "epoch": 0.329568, + "grad_norm": 0.6971264481544495, + "learning_rate": 1.7802880000000004e-05, + "loss": 0.0221, + "step": 51495 + }, + { + "epoch": 0.3296, + "grad_norm": 0.8752777576446533, + "learning_rate": 1.7802666666666668e-05, + "loss": 0.0434, + "step": 51500 + }, + { + "epoch": 0.329632, + "grad_norm": 0.43740975856781006, + "learning_rate": 1.7802453333333332e-05, + "loss": 0.0367, + "step": 51505 + }, + { + "epoch": 0.329664, + "grad_norm": 0.6798891425132751, + "learning_rate": 1.7802240000000003e-05, + "loss": 0.0302, + "step": 51510 + }, + { + "epoch": 0.329696, + "grad_norm": 0.5024083852767944, + "learning_rate": 1.7802026666666667e-05, + "loss": 0.0171, + "step": 51515 + }, + { + "epoch": 0.329728, + "grad_norm": 0.7583655714988708, + "learning_rate": 1.7801813333333335e-05, + "loss": 0.0437, + "step": 51520 + }, + { + "epoch": 0.32976, + "grad_norm": 4.179625988006592, + "learning_rate": 1.7801600000000002e-05, + "loss": 0.0682, + "step": 51525 + }, + { + "epoch": 0.329792, + "grad_norm": 0.48688992857933044, + "learning_rate": 1.780138666666667e-05, + "loss": 0.0416, + "step": 51530 + }, + { + "epoch": 0.329824, + "grad_norm": 0.8865231275558472, + "learning_rate": 1.7801173333333334e-05, + "loss": 0.0386, + "step": 51535 + }, + { + "epoch": 0.329856, + "grad_norm": 0.7295582294464111, + "learning_rate": 1.7800960000000002e-05, + "loss": 0.0363, + "step": 51540 + }, + { + "epoch": 0.329888, + "grad_norm": 0.646369457244873, + "learning_rate": 1.780074666666667e-05, + "loss": 0.0449, + "step": 51545 + }, + { + "epoch": 0.32992, + "grad_norm": 0.4905192255973816, + "learning_rate": 1.7800533333333333e-05, + "loss": 0.0346, + "step": 51550 + }, + { + "epoch": 0.329952, + "grad_norm": 0.8643075823783875, + "learning_rate": 1.780032e-05, + "loss": 0.0609, + "step": 51555 + }, + { + "epoch": 0.329984, + "grad_norm": 0.9134215712547302, + "learning_rate": 1.780010666666667e-05, + "loss": 0.0298, + "step": 51560 + }, + { + "epoch": 0.330016, + "grad_norm": 0.9139201641082764, + "learning_rate": 1.7799893333333336e-05, + "loss": 0.0461, + "step": 51565 + }, + { + "epoch": 0.330048, + "grad_norm": 0.8089271187782288, + "learning_rate": 1.779968e-05, + "loss": 0.0265, + "step": 51570 + }, + { + "epoch": 0.33008, + "grad_norm": 0.6520876288414001, + "learning_rate": 1.7799466666666668e-05, + "loss": 0.0293, + "step": 51575 + }, + { + "epoch": 0.330112, + "grad_norm": 0.5595559477806091, + "learning_rate": 1.7799253333333335e-05, + "loss": 0.0283, + "step": 51580 + }, + { + "epoch": 0.330144, + "grad_norm": 0.38596105575561523, + "learning_rate": 1.779904e-05, + "loss": 0.0366, + "step": 51585 + }, + { + "epoch": 0.330176, + "grad_norm": 0.7787157893180847, + "learning_rate": 1.7798826666666667e-05, + "loss": 0.0402, + "step": 51590 + }, + { + "epoch": 0.330208, + "grad_norm": 0.6954426765441895, + "learning_rate": 1.7798613333333335e-05, + "loss": 0.0316, + "step": 51595 + }, + { + "epoch": 0.33024, + "grad_norm": 0.6619993448257446, + "learning_rate": 1.7798400000000002e-05, + "loss": 0.0409, + "step": 51600 + }, + { + "epoch": 0.330272, + "grad_norm": 1.3947480916976929, + "learning_rate": 1.7798186666666666e-05, + "loss": 0.0563, + "step": 51605 + }, + { + "epoch": 0.330304, + "grad_norm": 1.3060036897659302, + "learning_rate": 1.7797973333333334e-05, + "loss": 0.0658, + "step": 51610 + }, + { + "epoch": 0.330336, + "grad_norm": 0.8657330274581909, + "learning_rate": 1.779776e-05, + "loss": 0.0289, + "step": 51615 + }, + { + "epoch": 0.330368, + "grad_norm": 0.9702598452568054, + "learning_rate": 1.779754666666667e-05, + "loss": 0.0342, + "step": 51620 + }, + { + "epoch": 0.3304, + "grad_norm": 0.5874264240264893, + "learning_rate": 1.7797333333333337e-05, + "loss": 0.0557, + "step": 51625 + }, + { + "epoch": 0.330432, + "grad_norm": 0.5095645785331726, + "learning_rate": 1.779712e-05, + "loss": 0.0325, + "step": 51630 + }, + { + "epoch": 0.330464, + "grad_norm": 3.1790506839752197, + "learning_rate": 1.779690666666667e-05, + "loss": 0.047, + "step": 51635 + }, + { + "epoch": 0.330496, + "grad_norm": 1.531255841255188, + "learning_rate": 1.7796693333333336e-05, + "loss": 0.0384, + "step": 51640 + }, + { + "epoch": 0.330528, + "grad_norm": 1.815696120262146, + "learning_rate": 1.779648e-05, + "loss": 0.0595, + "step": 51645 + }, + { + "epoch": 0.33056, + "grad_norm": 0.447329580783844, + "learning_rate": 1.7796266666666668e-05, + "loss": 0.0474, + "step": 51650 + }, + { + "epoch": 0.330592, + "grad_norm": 0.5722680687904358, + "learning_rate": 1.7796053333333335e-05, + "loss": 0.0275, + "step": 51655 + }, + { + "epoch": 0.330624, + "grad_norm": 0.815578281879425, + "learning_rate": 1.7795840000000003e-05, + "loss": 0.032, + "step": 51660 + }, + { + "epoch": 0.330656, + "grad_norm": 0.9781671762466431, + "learning_rate": 1.7795626666666667e-05, + "loss": 0.0624, + "step": 51665 + }, + { + "epoch": 0.330688, + "grad_norm": 0.5734738707542419, + "learning_rate": 1.7795413333333334e-05, + "loss": 0.0463, + "step": 51670 + }, + { + "epoch": 0.33072, + "grad_norm": 0.3127811551094055, + "learning_rate": 1.7795200000000002e-05, + "loss": 0.0418, + "step": 51675 + }, + { + "epoch": 0.330752, + "grad_norm": 0.7784122228622437, + "learning_rate": 1.7794986666666666e-05, + "loss": 0.0422, + "step": 51680 + }, + { + "epoch": 0.330784, + "grad_norm": 0.9718125462532043, + "learning_rate": 1.7794773333333334e-05, + "loss": 0.0388, + "step": 51685 + }, + { + "epoch": 0.330816, + "grad_norm": 0.35715124011039734, + "learning_rate": 1.779456e-05, + "loss": 0.0247, + "step": 51690 + }, + { + "epoch": 0.330848, + "grad_norm": 0.25369200110435486, + "learning_rate": 1.779434666666667e-05, + "loss": 0.0129, + "step": 51695 + }, + { + "epoch": 0.33088, + "grad_norm": 0.8719936013221741, + "learning_rate": 1.7794133333333333e-05, + "loss": 0.0504, + "step": 51700 + }, + { + "epoch": 0.330912, + "grad_norm": 0.7567745447158813, + "learning_rate": 1.7793920000000004e-05, + "loss": 0.0308, + "step": 51705 + }, + { + "epoch": 0.330944, + "grad_norm": 0.6559292078018188, + "learning_rate": 1.7793706666666668e-05, + "loss": 0.034, + "step": 51710 + }, + { + "epoch": 0.330976, + "grad_norm": 0.4995415508747101, + "learning_rate": 1.7793493333333332e-05, + "loss": 0.0378, + "step": 51715 + }, + { + "epoch": 0.331008, + "grad_norm": 0.7821255326271057, + "learning_rate": 1.7793280000000003e-05, + "loss": 0.0392, + "step": 51720 + }, + { + "epoch": 0.33104, + "grad_norm": 0.6460015177726746, + "learning_rate": 1.7793066666666667e-05, + "loss": 0.0269, + "step": 51725 + }, + { + "epoch": 0.331072, + "grad_norm": 1.706688404083252, + "learning_rate": 1.7792853333333335e-05, + "loss": 0.0384, + "step": 51730 + }, + { + "epoch": 0.331104, + "grad_norm": 0.8159258961677551, + "learning_rate": 1.7792640000000002e-05, + "loss": 0.0253, + "step": 51735 + }, + { + "epoch": 0.331136, + "grad_norm": 0.46267959475517273, + "learning_rate": 1.779242666666667e-05, + "loss": 0.0368, + "step": 51740 + }, + { + "epoch": 0.331168, + "grad_norm": 0.33737072348594666, + "learning_rate": 1.7792213333333334e-05, + "loss": 0.0291, + "step": 51745 + }, + { + "epoch": 0.3312, + "grad_norm": 1.1555012464523315, + "learning_rate": 1.7792000000000002e-05, + "loss": 0.0502, + "step": 51750 + }, + { + "epoch": 0.331232, + "grad_norm": 0.3593340218067169, + "learning_rate": 1.779178666666667e-05, + "loss": 0.064, + "step": 51755 + }, + { + "epoch": 0.331264, + "grad_norm": 2.020348310470581, + "learning_rate": 1.7791573333333333e-05, + "loss": 0.0408, + "step": 51760 + }, + { + "epoch": 0.331296, + "grad_norm": 0.4726863205432892, + "learning_rate": 1.779136e-05, + "loss": 0.0168, + "step": 51765 + }, + { + "epoch": 0.331328, + "grad_norm": 0.5346280932426453, + "learning_rate": 1.779114666666667e-05, + "loss": 0.0313, + "step": 51770 + }, + { + "epoch": 0.33136, + "grad_norm": 0.8618854284286499, + "learning_rate": 1.7790933333333336e-05, + "loss": 0.0292, + "step": 51775 + }, + { + "epoch": 0.331392, + "grad_norm": 3.4808037281036377, + "learning_rate": 1.779072e-05, + "loss": 0.0472, + "step": 51780 + }, + { + "epoch": 0.331424, + "grad_norm": 0.6425376534461975, + "learning_rate": 1.7790506666666668e-05, + "loss": 0.0416, + "step": 51785 + }, + { + "epoch": 0.331456, + "grad_norm": 1.0277485847473145, + "learning_rate": 1.7790293333333335e-05, + "loss": 0.0498, + "step": 51790 + }, + { + "epoch": 0.331488, + "grad_norm": 0.5635180473327637, + "learning_rate": 1.779008e-05, + "loss": 0.0462, + "step": 51795 + }, + { + "epoch": 0.33152, + "grad_norm": 1.1895917654037476, + "learning_rate": 1.7789866666666667e-05, + "loss": 0.0523, + "step": 51800 + }, + { + "epoch": 0.331552, + "grad_norm": 0.7937869429588318, + "learning_rate": 1.7789653333333335e-05, + "loss": 0.0487, + "step": 51805 + }, + { + "epoch": 0.331584, + "grad_norm": 0.5466510653495789, + "learning_rate": 1.7789440000000002e-05, + "loss": 0.0358, + "step": 51810 + }, + { + "epoch": 0.331616, + "grad_norm": 0.6628491878509521, + "learning_rate": 1.7789226666666666e-05, + "loss": 0.0457, + "step": 51815 + }, + { + "epoch": 0.331648, + "grad_norm": 1.0160163640975952, + "learning_rate": 1.7789013333333334e-05, + "loss": 0.0333, + "step": 51820 + }, + { + "epoch": 0.33168, + "grad_norm": 0.5417713522911072, + "learning_rate": 1.77888e-05, + "loss": 0.0389, + "step": 51825 + }, + { + "epoch": 0.331712, + "grad_norm": 0.6971727013587952, + "learning_rate": 1.7788586666666666e-05, + "loss": 0.0399, + "step": 51830 + }, + { + "epoch": 0.331744, + "grad_norm": 0.41244056820869446, + "learning_rate": 1.7788373333333337e-05, + "loss": 0.023, + "step": 51835 + }, + { + "epoch": 0.331776, + "grad_norm": 0.7641919851303101, + "learning_rate": 1.778816e-05, + "loss": 0.0484, + "step": 51840 + }, + { + "epoch": 0.331808, + "grad_norm": 0.8442177772521973, + "learning_rate": 1.778794666666667e-05, + "loss": 0.0396, + "step": 51845 + }, + { + "epoch": 0.33184, + "grad_norm": 0.857579231262207, + "learning_rate": 1.7787733333333336e-05, + "loss": 0.0312, + "step": 51850 + }, + { + "epoch": 0.331872, + "grad_norm": 0.3752211332321167, + "learning_rate": 1.7787520000000003e-05, + "loss": 0.05, + "step": 51855 + }, + { + "epoch": 0.331904, + "grad_norm": 0.7430030107498169, + "learning_rate": 1.7787306666666668e-05, + "loss": 0.025, + "step": 51860 + }, + { + "epoch": 0.331936, + "grad_norm": 0.8546108603477478, + "learning_rate": 1.7787093333333335e-05, + "loss": 0.0303, + "step": 51865 + }, + { + "epoch": 0.331968, + "grad_norm": 0.5320095419883728, + "learning_rate": 1.7786880000000003e-05, + "loss": 0.0269, + "step": 51870 + }, + { + "epoch": 0.332, + "grad_norm": 1.0620663166046143, + "learning_rate": 1.7786666666666667e-05, + "loss": 0.0437, + "step": 51875 + }, + { + "epoch": 0.332032, + "grad_norm": 1.2254016399383545, + "learning_rate": 1.7786453333333334e-05, + "loss": 0.0346, + "step": 51880 + }, + { + "epoch": 0.332064, + "grad_norm": 1.363850712776184, + "learning_rate": 1.7786240000000002e-05, + "loss": 0.0331, + "step": 51885 + }, + { + "epoch": 0.332096, + "grad_norm": 0.9454262852668762, + "learning_rate": 1.778602666666667e-05, + "loss": 0.0432, + "step": 51890 + }, + { + "epoch": 0.332128, + "grad_norm": 0.5464234948158264, + "learning_rate": 1.7785813333333334e-05, + "loss": 0.0257, + "step": 51895 + }, + { + "epoch": 0.33216, + "grad_norm": 1.1820974349975586, + "learning_rate": 1.77856e-05, + "loss": 0.0442, + "step": 51900 + }, + { + "epoch": 0.332192, + "grad_norm": 1.2845252752304077, + "learning_rate": 1.778538666666667e-05, + "loss": 0.0511, + "step": 51905 + }, + { + "epoch": 0.332224, + "grad_norm": 3.413668632507324, + "learning_rate": 1.7785173333333333e-05, + "loss": 0.0679, + "step": 51910 + }, + { + "epoch": 0.332256, + "grad_norm": 1.3328737020492554, + "learning_rate": 1.778496e-05, + "loss": 0.0294, + "step": 51915 + }, + { + "epoch": 0.332288, + "grad_norm": 0.7681652903556824, + "learning_rate": 1.7784746666666668e-05, + "loss": 0.0359, + "step": 51920 + }, + { + "epoch": 0.33232, + "grad_norm": 1.2170583009719849, + "learning_rate": 1.7784533333333336e-05, + "loss": 0.027, + "step": 51925 + }, + { + "epoch": 0.332352, + "grad_norm": 0.34475356340408325, + "learning_rate": 1.7784320000000003e-05, + "loss": 0.0268, + "step": 51930 + }, + { + "epoch": 0.332384, + "grad_norm": 0.4953523576259613, + "learning_rate": 1.7784106666666667e-05, + "loss": 0.0383, + "step": 51935 + }, + { + "epoch": 0.332416, + "grad_norm": 0.6238232254981995, + "learning_rate": 1.7783893333333335e-05, + "loss": 0.0464, + "step": 51940 + }, + { + "epoch": 0.332448, + "grad_norm": 0.5667591691017151, + "learning_rate": 1.7783680000000003e-05, + "loss": 0.0314, + "step": 51945 + }, + { + "epoch": 0.33248, + "grad_norm": 0.44298988580703735, + "learning_rate": 1.778346666666667e-05, + "loss": 0.0386, + "step": 51950 + }, + { + "epoch": 0.332512, + "grad_norm": 0.5971158146858215, + "learning_rate": 1.7783253333333334e-05, + "loss": 0.0318, + "step": 51955 + }, + { + "epoch": 0.332544, + "grad_norm": 0.8171958923339844, + "learning_rate": 1.7783040000000002e-05, + "loss": 0.0442, + "step": 51960 + }, + { + "epoch": 0.332576, + "grad_norm": 0.9603670239448547, + "learning_rate": 1.778282666666667e-05, + "loss": 0.0502, + "step": 51965 + }, + { + "epoch": 0.332608, + "grad_norm": 0.8753089308738708, + "learning_rate": 1.7782613333333333e-05, + "loss": 0.0448, + "step": 51970 + }, + { + "epoch": 0.33264, + "grad_norm": 0.15102842450141907, + "learning_rate": 1.77824e-05, + "loss": 0.0309, + "step": 51975 + }, + { + "epoch": 0.332672, + "grad_norm": 0.34181541204452515, + "learning_rate": 1.778218666666667e-05, + "loss": 0.0479, + "step": 51980 + }, + { + "epoch": 0.332704, + "grad_norm": 0.7242584228515625, + "learning_rate": 1.7781973333333336e-05, + "loss": 0.028, + "step": 51985 + }, + { + "epoch": 0.332736, + "grad_norm": 0.2951543629169464, + "learning_rate": 1.778176e-05, + "loss": 0.0327, + "step": 51990 + }, + { + "epoch": 0.332768, + "grad_norm": 0.4052440822124481, + "learning_rate": 1.7781546666666668e-05, + "loss": 0.0317, + "step": 51995 + }, + { + "epoch": 0.3328, + "grad_norm": 0.5490618348121643, + "learning_rate": 1.7781333333333335e-05, + "loss": 0.0468, + "step": 52000 + }, + { + "epoch": 0.332832, + "grad_norm": 0.3898560702800751, + "learning_rate": 1.778112e-05, + "loss": 0.0493, + "step": 52005 + }, + { + "epoch": 0.332864, + "grad_norm": 0.6217305660247803, + "learning_rate": 1.7780906666666667e-05, + "loss": 0.0539, + "step": 52010 + }, + { + "epoch": 0.332896, + "grad_norm": 0.9204350113868713, + "learning_rate": 1.7780693333333335e-05, + "loss": 0.0445, + "step": 52015 + }, + { + "epoch": 0.332928, + "grad_norm": 0.918591320514679, + "learning_rate": 1.7780480000000002e-05, + "loss": 0.0541, + "step": 52020 + }, + { + "epoch": 0.33296, + "grad_norm": 1.2547249794006348, + "learning_rate": 1.7780266666666666e-05, + "loss": 0.0453, + "step": 52025 + }, + { + "epoch": 0.332992, + "grad_norm": 0.40922898054122925, + "learning_rate": 1.7780053333333337e-05, + "loss": 0.0262, + "step": 52030 + }, + { + "epoch": 0.333024, + "grad_norm": 0.4455537497997284, + "learning_rate": 1.777984e-05, + "loss": 0.0376, + "step": 52035 + }, + { + "epoch": 0.333056, + "grad_norm": 0.8505798578262329, + "learning_rate": 1.7779626666666666e-05, + "loss": 0.0323, + "step": 52040 + }, + { + "epoch": 0.333088, + "grad_norm": 0.5877873301506042, + "learning_rate": 1.7779413333333337e-05, + "loss": 0.031, + "step": 52045 + }, + { + "epoch": 0.33312, + "grad_norm": 1.5135948657989502, + "learning_rate": 1.77792e-05, + "loss": 0.0417, + "step": 52050 + }, + { + "epoch": 0.333152, + "grad_norm": 1.1062721014022827, + "learning_rate": 1.777898666666667e-05, + "loss": 0.0281, + "step": 52055 + }, + { + "epoch": 0.333184, + "grad_norm": 0.5465711951255798, + "learning_rate": 1.7778773333333336e-05, + "loss": 0.0203, + "step": 52060 + }, + { + "epoch": 0.333216, + "grad_norm": 0.6743389368057251, + "learning_rate": 1.7778560000000003e-05, + "loss": 0.0325, + "step": 52065 + }, + { + "epoch": 0.333248, + "grad_norm": 0.5705601572990417, + "learning_rate": 1.7778346666666668e-05, + "loss": 0.029, + "step": 52070 + }, + { + "epoch": 0.33328, + "grad_norm": 1.9387685060501099, + "learning_rate": 1.7778133333333335e-05, + "loss": 0.0363, + "step": 52075 + }, + { + "epoch": 0.333312, + "grad_norm": 0.9325621724128723, + "learning_rate": 1.7777920000000003e-05, + "loss": 0.0475, + "step": 52080 + }, + { + "epoch": 0.333344, + "grad_norm": 0.14313280582427979, + "learning_rate": 1.7777706666666667e-05, + "loss": 0.0208, + "step": 52085 + }, + { + "epoch": 0.333376, + "grad_norm": 0.8321705460548401, + "learning_rate": 1.7777493333333334e-05, + "loss": 0.0462, + "step": 52090 + }, + { + "epoch": 0.333408, + "grad_norm": 1.1612573862075806, + "learning_rate": 1.7777280000000002e-05, + "loss": 0.0302, + "step": 52095 + }, + { + "epoch": 0.33344, + "grad_norm": 0.3935784697532654, + "learning_rate": 1.777706666666667e-05, + "loss": 0.0256, + "step": 52100 + }, + { + "epoch": 0.333472, + "grad_norm": 0.38039252161979675, + "learning_rate": 1.7776853333333334e-05, + "loss": 0.0244, + "step": 52105 + }, + { + "epoch": 0.333504, + "grad_norm": 0.8566309213638306, + "learning_rate": 1.777664e-05, + "loss": 0.0394, + "step": 52110 + }, + { + "epoch": 0.333536, + "grad_norm": 2.08174991607666, + "learning_rate": 1.777642666666667e-05, + "loss": 0.0433, + "step": 52115 + }, + { + "epoch": 0.333568, + "grad_norm": 1.630519151687622, + "learning_rate": 1.7776213333333333e-05, + "loss": 0.0434, + "step": 52120 + }, + { + "epoch": 0.3336, + "grad_norm": 1.0226948261260986, + "learning_rate": 1.7776e-05, + "loss": 0.0455, + "step": 52125 + }, + { + "epoch": 0.333632, + "grad_norm": 1.3792532682418823, + "learning_rate": 1.7775786666666668e-05, + "loss": 0.0475, + "step": 52130 + }, + { + "epoch": 0.333664, + "grad_norm": 0.8268943428993225, + "learning_rate": 1.7775573333333336e-05, + "loss": 0.0372, + "step": 52135 + }, + { + "epoch": 0.333696, + "grad_norm": 0.962761640548706, + "learning_rate": 1.777536e-05, + "loss": 0.0463, + "step": 52140 + }, + { + "epoch": 0.333728, + "grad_norm": 0.8513783812522888, + "learning_rate": 1.7775146666666667e-05, + "loss": 0.0479, + "step": 52145 + }, + { + "epoch": 0.33376, + "grad_norm": 0.8884291052818298, + "learning_rate": 1.7774933333333335e-05, + "loss": 0.0514, + "step": 52150 + }, + { + "epoch": 0.333792, + "grad_norm": 0.9976751208305359, + "learning_rate": 1.7774720000000003e-05, + "loss": 0.0868, + "step": 52155 + }, + { + "epoch": 0.333824, + "grad_norm": 0.5283360481262207, + "learning_rate": 1.777450666666667e-05, + "loss": 0.0425, + "step": 52160 + }, + { + "epoch": 0.333856, + "grad_norm": 0.7920767664909363, + "learning_rate": 1.7774293333333334e-05, + "loss": 0.0464, + "step": 52165 + }, + { + "epoch": 0.333888, + "grad_norm": 0.5029554963111877, + "learning_rate": 1.7774080000000002e-05, + "loss": 0.0351, + "step": 52170 + }, + { + "epoch": 0.33392, + "grad_norm": 2.815422534942627, + "learning_rate": 1.777386666666667e-05, + "loss": 0.0622, + "step": 52175 + }, + { + "epoch": 0.333952, + "grad_norm": 0.1595042496919632, + "learning_rate": 1.7773653333333333e-05, + "loss": 0.0356, + "step": 52180 + }, + { + "epoch": 0.333984, + "grad_norm": 0.680931568145752, + "learning_rate": 1.777344e-05, + "loss": 0.0558, + "step": 52185 + }, + { + "epoch": 0.334016, + "grad_norm": 0.540108859539032, + "learning_rate": 1.777322666666667e-05, + "loss": 0.0324, + "step": 52190 + }, + { + "epoch": 0.334048, + "grad_norm": 0.9016851782798767, + "learning_rate": 1.7773013333333336e-05, + "loss": 0.025, + "step": 52195 + }, + { + "epoch": 0.33408, + "grad_norm": 0.3252354860305786, + "learning_rate": 1.77728e-05, + "loss": 0.0206, + "step": 52200 + }, + { + "epoch": 0.334112, + "grad_norm": 0.45452937483787537, + "learning_rate": 1.7772586666666668e-05, + "loss": 0.0431, + "step": 52205 + }, + { + "epoch": 0.334144, + "grad_norm": 0.6363391280174255, + "learning_rate": 1.7772373333333335e-05, + "loss": 0.0348, + "step": 52210 + }, + { + "epoch": 0.334176, + "grad_norm": 0.7066585421562195, + "learning_rate": 1.777216e-05, + "loss": 0.0462, + "step": 52215 + }, + { + "epoch": 0.334208, + "grad_norm": 0.7234088182449341, + "learning_rate": 1.7771946666666667e-05, + "loss": 0.031, + "step": 52220 + }, + { + "epoch": 0.33424, + "grad_norm": 0.805867612361908, + "learning_rate": 1.7771733333333335e-05, + "loss": 0.0513, + "step": 52225 + }, + { + "epoch": 0.334272, + "grad_norm": 0.4874265789985657, + "learning_rate": 1.7771520000000002e-05, + "loss": 0.0275, + "step": 52230 + }, + { + "epoch": 0.334304, + "grad_norm": 0.719389021396637, + "learning_rate": 1.7771306666666666e-05, + "loss": 0.0327, + "step": 52235 + }, + { + "epoch": 0.334336, + "grad_norm": 1.0166202783584595, + "learning_rate": 1.7771093333333337e-05, + "loss": 0.0313, + "step": 52240 + }, + { + "epoch": 0.334368, + "grad_norm": 0.401170551776886, + "learning_rate": 1.777088e-05, + "loss": 0.0224, + "step": 52245 + }, + { + "epoch": 0.3344, + "grad_norm": 1.8511632680892944, + "learning_rate": 1.7770666666666666e-05, + "loss": 0.0335, + "step": 52250 + }, + { + "epoch": 0.334432, + "grad_norm": 0.2694605588912964, + "learning_rate": 1.7770453333333337e-05, + "loss": 0.029, + "step": 52255 + }, + { + "epoch": 0.334464, + "grad_norm": 1.4551321268081665, + "learning_rate": 1.777024e-05, + "loss": 0.0456, + "step": 52260 + }, + { + "epoch": 0.334496, + "grad_norm": 0.5561659336090088, + "learning_rate": 1.777002666666667e-05, + "loss": 0.037, + "step": 52265 + }, + { + "epoch": 0.334528, + "grad_norm": 0.8826091289520264, + "learning_rate": 1.7769813333333336e-05, + "loss": 0.0431, + "step": 52270 + }, + { + "epoch": 0.33456, + "grad_norm": 0.6761952042579651, + "learning_rate": 1.7769600000000003e-05, + "loss": 0.0344, + "step": 52275 + }, + { + "epoch": 0.334592, + "grad_norm": 0.7798457145690918, + "learning_rate": 1.7769386666666668e-05, + "loss": 0.0589, + "step": 52280 + }, + { + "epoch": 0.334624, + "grad_norm": 1.7421841621398926, + "learning_rate": 1.7769173333333335e-05, + "loss": 0.0547, + "step": 52285 + }, + { + "epoch": 0.334656, + "grad_norm": 1.280102014541626, + "learning_rate": 1.7768960000000003e-05, + "loss": 0.0678, + "step": 52290 + }, + { + "epoch": 0.334688, + "grad_norm": 0.7908640503883362, + "learning_rate": 1.7768746666666667e-05, + "loss": 0.0517, + "step": 52295 + }, + { + "epoch": 0.33472, + "grad_norm": 0.598318874835968, + "learning_rate": 1.7768533333333334e-05, + "loss": 0.027, + "step": 52300 + }, + { + "epoch": 0.334752, + "grad_norm": 0.4743436276912689, + "learning_rate": 1.7768320000000002e-05, + "loss": 0.029, + "step": 52305 + }, + { + "epoch": 0.334784, + "grad_norm": 0.36552178859710693, + "learning_rate": 1.776810666666667e-05, + "loss": 0.0284, + "step": 52310 + }, + { + "epoch": 0.334816, + "grad_norm": 0.48610296845436096, + "learning_rate": 1.7767893333333334e-05, + "loss": 0.0224, + "step": 52315 + }, + { + "epoch": 0.334848, + "grad_norm": 1.3715953826904297, + "learning_rate": 1.776768e-05, + "loss": 0.0368, + "step": 52320 + }, + { + "epoch": 0.33488, + "grad_norm": 0.6512144804000854, + "learning_rate": 1.776746666666667e-05, + "loss": 0.0465, + "step": 52325 + }, + { + "epoch": 0.334912, + "grad_norm": 0.6206962466239929, + "learning_rate": 1.7767253333333333e-05, + "loss": 0.0391, + "step": 52330 + }, + { + "epoch": 0.334944, + "grad_norm": 0.7018247246742249, + "learning_rate": 1.776704e-05, + "loss": 0.041, + "step": 52335 + }, + { + "epoch": 0.334976, + "grad_norm": 0.5385982990264893, + "learning_rate": 1.7766826666666668e-05, + "loss": 0.0823, + "step": 52340 + }, + { + "epoch": 0.335008, + "grad_norm": 0.3977656364440918, + "learning_rate": 1.7766613333333336e-05, + "loss": 0.0257, + "step": 52345 + }, + { + "epoch": 0.33504, + "grad_norm": 0.7340131402015686, + "learning_rate": 1.77664e-05, + "loss": 0.0344, + "step": 52350 + }, + { + "epoch": 0.335072, + "grad_norm": 0.3230278789997101, + "learning_rate": 1.7766186666666667e-05, + "loss": 0.0434, + "step": 52355 + }, + { + "epoch": 0.335104, + "grad_norm": 0.9641349911689758, + "learning_rate": 1.7765973333333335e-05, + "loss": 0.0729, + "step": 52360 + }, + { + "epoch": 0.335136, + "grad_norm": 1.0151094198226929, + "learning_rate": 1.776576e-05, + "loss": 0.0376, + "step": 52365 + }, + { + "epoch": 0.335168, + "grad_norm": 0.7141851782798767, + "learning_rate": 1.776554666666667e-05, + "loss": 0.036, + "step": 52370 + }, + { + "epoch": 0.3352, + "grad_norm": 1.3612593412399292, + "learning_rate": 1.7765333333333334e-05, + "loss": 0.045, + "step": 52375 + }, + { + "epoch": 0.335232, + "grad_norm": 0.7566301822662354, + "learning_rate": 1.7765120000000002e-05, + "loss": 0.0715, + "step": 52380 + }, + { + "epoch": 0.335264, + "grad_norm": 0.5096234083175659, + "learning_rate": 1.776490666666667e-05, + "loss": 0.0483, + "step": 52385 + }, + { + "epoch": 0.335296, + "grad_norm": 0.5357194542884827, + "learning_rate": 1.7764693333333334e-05, + "loss": 0.0454, + "step": 52390 + }, + { + "epoch": 0.335328, + "grad_norm": 0.8617412447929382, + "learning_rate": 1.776448e-05, + "loss": 0.0384, + "step": 52395 + }, + { + "epoch": 0.33536, + "grad_norm": 0.48563113808631897, + "learning_rate": 1.776426666666667e-05, + "loss": 0.0311, + "step": 52400 + }, + { + "epoch": 0.335392, + "grad_norm": 1.259261131286621, + "learning_rate": 1.7764053333333336e-05, + "loss": 0.0353, + "step": 52405 + }, + { + "epoch": 0.335424, + "grad_norm": 0.43622931838035583, + "learning_rate": 1.776384e-05, + "loss": 0.0324, + "step": 52410 + }, + { + "epoch": 0.335456, + "grad_norm": 1.7394795417785645, + "learning_rate": 1.7763626666666668e-05, + "loss": 0.0658, + "step": 52415 + }, + { + "epoch": 0.335488, + "grad_norm": 1.0888278484344482, + "learning_rate": 1.7763413333333335e-05, + "loss": 0.0397, + "step": 52420 + }, + { + "epoch": 0.33552, + "grad_norm": 0.4913039803504944, + "learning_rate": 1.77632e-05, + "loss": 0.0589, + "step": 52425 + }, + { + "epoch": 0.335552, + "grad_norm": 0.5261192917823792, + "learning_rate": 1.7762986666666667e-05, + "loss": 0.0471, + "step": 52430 + }, + { + "epoch": 0.335584, + "grad_norm": 0.3973468244075775, + "learning_rate": 1.7762773333333335e-05, + "loss": 0.0396, + "step": 52435 + }, + { + "epoch": 0.335616, + "grad_norm": 1.2583991289138794, + "learning_rate": 1.7762560000000002e-05, + "loss": 0.0592, + "step": 52440 + }, + { + "epoch": 0.335648, + "grad_norm": 1.1985437870025635, + "learning_rate": 1.7762346666666666e-05, + "loss": 0.0426, + "step": 52445 + }, + { + "epoch": 0.33568, + "grad_norm": 0.6161385178565979, + "learning_rate": 1.7762133333333334e-05, + "loss": 0.0429, + "step": 52450 + }, + { + "epoch": 0.335712, + "grad_norm": 0.37352874875068665, + "learning_rate": 1.776192e-05, + "loss": 0.0467, + "step": 52455 + }, + { + "epoch": 0.335744, + "grad_norm": 0.49488574266433716, + "learning_rate": 1.7761706666666666e-05, + "loss": 0.0398, + "step": 52460 + }, + { + "epoch": 0.335776, + "grad_norm": 0.19996277987957, + "learning_rate": 1.7761493333333337e-05, + "loss": 0.02, + "step": 52465 + }, + { + "epoch": 0.335808, + "grad_norm": 1.5253852605819702, + "learning_rate": 1.776128e-05, + "loss": 0.0374, + "step": 52470 + }, + { + "epoch": 0.33584, + "grad_norm": 0.3199273347854614, + "learning_rate": 1.776106666666667e-05, + "loss": 0.0552, + "step": 52475 + }, + { + "epoch": 0.335872, + "grad_norm": 0.7158883213996887, + "learning_rate": 1.7760853333333336e-05, + "loss": 0.0365, + "step": 52480 + }, + { + "epoch": 0.335904, + "grad_norm": 1.0204544067382812, + "learning_rate": 1.7760640000000003e-05, + "loss": 0.0433, + "step": 52485 + }, + { + "epoch": 0.335936, + "grad_norm": 0.3117104172706604, + "learning_rate": 1.7760426666666668e-05, + "loss": 0.0258, + "step": 52490 + }, + { + "epoch": 0.335968, + "grad_norm": 0.5341159105300903, + "learning_rate": 1.7760213333333335e-05, + "loss": 0.1117, + "step": 52495 + }, + { + "epoch": 0.336, + "grad_norm": 0.30444633960723877, + "learning_rate": 1.7760000000000003e-05, + "loss": 0.0331, + "step": 52500 + }, + { + "epoch": 0.336032, + "grad_norm": 0.5427110195159912, + "learning_rate": 1.7759786666666667e-05, + "loss": 0.039, + "step": 52505 + }, + { + "epoch": 0.336064, + "grad_norm": 1.2851130962371826, + "learning_rate": 1.7759573333333334e-05, + "loss": 0.0295, + "step": 52510 + }, + { + "epoch": 0.336096, + "grad_norm": 1.064552903175354, + "learning_rate": 1.7759360000000002e-05, + "loss": 0.0202, + "step": 52515 + }, + { + "epoch": 0.336128, + "grad_norm": 0.461387038230896, + "learning_rate": 1.775914666666667e-05, + "loss": 0.0348, + "step": 52520 + }, + { + "epoch": 0.33616, + "grad_norm": 0.7745211720466614, + "learning_rate": 1.7758933333333334e-05, + "loss": 0.0519, + "step": 52525 + }, + { + "epoch": 0.336192, + "grad_norm": 0.6453503370285034, + "learning_rate": 1.775872e-05, + "loss": 0.0371, + "step": 52530 + }, + { + "epoch": 0.336224, + "grad_norm": 0.4561997950077057, + "learning_rate": 1.775850666666667e-05, + "loss": 0.0262, + "step": 52535 + }, + { + "epoch": 0.336256, + "grad_norm": 0.5968523025512695, + "learning_rate": 1.7758293333333333e-05, + "loss": 0.0474, + "step": 52540 + }, + { + "epoch": 0.336288, + "grad_norm": 0.7435635328292847, + "learning_rate": 1.775808e-05, + "loss": 0.0391, + "step": 52545 + }, + { + "epoch": 0.33632, + "grad_norm": 0.7795313596725464, + "learning_rate": 1.7757866666666668e-05, + "loss": 0.0476, + "step": 52550 + }, + { + "epoch": 0.336352, + "grad_norm": 0.45443060994148254, + "learning_rate": 1.7757653333333336e-05, + "loss": 0.0363, + "step": 52555 + }, + { + "epoch": 0.336384, + "grad_norm": 0.7959269881248474, + "learning_rate": 1.775744e-05, + "loss": 0.031, + "step": 52560 + }, + { + "epoch": 0.336416, + "grad_norm": 1.8898179531097412, + "learning_rate": 1.7757226666666667e-05, + "loss": 0.0471, + "step": 52565 + }, + { + "epoch": 0.336448, + "grad_norm": 0.8108645081520081, + "learning_rate": 1.7757013333333335e-05, + "loss": 0.0345, + "step": 52570 + }, + { + "epoch": 0.33648, + "grad_norm": 1.5174812078475952, + "learning_rate": 1.77568e-05, + "loss": 0.0494, + "step": 52575 + }, + { + "epoch": 0.336512, + "grad_norm": 1.1560289859771729, + "learning_rate": 1.775658666666667e-05, + "loss": 0.042, + "step": 52580 + }, + { + "epoch": 0.336544, + "grad_norm": 1.0620347261428833, + "learning_rate": 1.7756373333333334e-05, + "loss": 0.0342, + "step": 52585 + }, + { + "epoch": 0.336576, + "grad_norm": 1.0313820838928223, + "learning_rate": 1.7756160000000002e-05, + "loss": 0.0405, + "step": 52590 + }, + { + "epoch": 0.336608, + "grad_norm": 0.5984295606613159, + "learning_rate": 1.775594666666667e-05, + "loss": 0.0526, + "step": 52595 + }, + { + "epoch": 0.33664, + "grad_norm": 0.16270703077316284, + "learning_rate": 1.7755733333333334e-05, + "loss": 0.0286, + "step": 52600 + }, + { + "epoch": 0.336672, + "grad_norm": 0.4977913796901703, + "learning_rate": 1.775552e-05, + "loss": 0.0291, + "step": 52605 + }, + { + "epoch": 0.336704, + "grad_norm": 0.4216349720954895, + "learning_rate": 1.775530666666667e-05, + "loss": 0.0526, + "step": 52610 + }, + { + "epoch": 0.336736, + "grad_norm": 0.5733550190925598, + "learning_rate": 1.7755093333333336e-05, + "loss": 0.0306, + "step": 52615 + }, + { + "epoch": 0.336768, + "grad_norm": 0.6239675283432007, + "learning_rate": 1.775488e-05, + "loss": 0.0316, + "step": 52620 + }, + { + "epoch": 0.3368, + "grad_norm": 0.9019138813018799, + "learning_rate": 1.7754666666666668e-05, + "loss": 0.0404, + "step": 52625 + }, + { + "epoch": 0.336832, + "grad_norm": 0.3475527763366699, + "learning_rate": 1.7754453333333335e-05, + "loss": 0.0275, + "step": 52630 + }, + { + "epoch": 0.336864, + "grad_norm": 0.8329166769981384, + "learning_rate": 1.775424e-05, + "loss": 0.0459, + "step": 52635 + }, + { + "epoch": 0.336896, + "grad_norm": 0.7851294875144958, + "learning_rate": 1.7754026666666667e-05, + "loss": 0.0305, + "step": 52640 + }, + { + "epoch": 0.336928, + "grad_norm": 0.8298526406288147, + "learning_rate": 1.7753813333333335e-05, + "loss": 0.0312, + "step": 52645 + }, + { + "epoch": 0.33696, + "grad_norm": 0.4517618715763092, + "learning_rate": 1.7753600000000002e-05, + "loss": 0.0293, + "step": 52650 + }, + { + "epoch": 0.336992, + "grad_norm": 0.6346630454063416, + "learning_rate": 1.7753386666666666e-05, + "loss": 0.0515, + "step": 52655 + }, + { + "epoch": 0.337024, + "grad_norm": 0.8123542666435242, + "learning_rate": 1.7753173333333334e-05, + "loss": 0.0448, + "step": 52660 + }, + { + "epoch": 0.337056, + "grad_norm": 0.8484721183776855, + "learning_rate": 1.775296e-05, + "loss": 0.0238, + "step": 52665 + }, + { + "epoch": 0.337088, + "grad_norm": 0.67510986328125, + "learning_rate": 1.7752746666666666e-05, + "loss": 0.0455, + "step": 52670 + }, + { + "epoch": 0.33712, + "grad_norm": 0.8103771209716797, + "learning_rate": 1.7752533333333333e-05, + "loss": 0.0321, + "step": 52675 + }, + { + "epoch": 0.337152, + "grad_norm": 0.9308985471725464, + "learning_rate": 1.775232e-05, + "loss": 0.0203, + "step": 52680 + }, + { + "epoch": 0.337184, + "grad_norm": 0.8899271488189697, + "learning_rate": 1.775210666666667e-05, + "loss": 0.03, + "step": 52685 + }, + { + "epoch": 0.337216, + "grad_norm": 1.2132149934768677, + "learning_rate": 1.7751893333333336e-05, + "loss": 0.0245, + "step": 52690 + }, + { + "epoch": 0.337248, + "grad_norm": 1.1635490655899048, + "learning_rate": 1.7751680000000003e-05, + "loss": 0.0551, + "step": 52695 + }, + { + "epoch": 0.33728, + "grad_norm": 0.37323856353759766, + "learning_rate": 1.7751466666666668e-05, + "loss": 0.0288, + "step": 52700 + }, + { + "epoch": 0.337312, + "grad_norm": 1.9445691108703613, + "learning_rate": 1.7751253333333335e-05, + "loss": 0.0527, + "step": 52705 + }, + { + "epoch": 0.337344, + "grad_norm": 0.9728439450263977, + "learning_rate": 1.7751040000000003e-05, + "loss": 0.0525, + "step": 52710 + }, + { + "epoch": 0.337376, + "grad_norm": 0.6578715443611145, + "learning_rate": 1.7750826666666667e-05, + "loss": 0.0297, + "step": 52715 + }, + { + "epoch": 0.337408, + "grad_norm": 0.3020090162754059, + "learning_rate": 1.7750613333333334e-05, + "loss": 0.0266, + "step": 52720 + }, + { + "epoch": 0.33744, + "grad_norm": 0.18031205236911774, + "learning_rate": 1.7750400000000002e-05, + "loss": 0.0357, + "step": 52725 + }, + { + "epoch": 0.337472, + "grad_norm": 1.0853919982910156, + "learning_rate": 1.775018666666667e-05, + "loss": 0.0581, + "step": 52730 + }, + { + "epoch": 0.337504, + "grad_norm": 0.5627456307411194, + "learning_rate": 1.7749973333333334e-05, + "loss": 0.0253, + "step": 52735 + }, + { + "epoch": 0.337536, + "grad_norm": 1.3225442171096802, + "learning_rate": 1.774976e-05, + "loss": 0.0503, + "step": 52740 + }, + { + "epoch": 0.337568, + "grad_norm": 0.6635637283325195, + "learning_rate": 1.774954666666667e-05, + "loss": 0.0396, + "step": 52745 + }, + { + "epoch": 0.3376, + "grad_norm": 0.42251166701316833, + "learning_rate": 1.7749333333333333e-05, + "loss": 0.0242, + "step": 52750 + }, + { + "epoch": 0.337632, + "grad_norm": 0.7044147253036499, + "learning_rate": 1.774912e-05, + "loss": 0.024, + "step": 52755 + }, + { + "epoch": 0.337664, + "grad_norm": 1.208812952041626, + "learning_rate": 1.7748906666666668e-05, + "loss": 0.0381, + "step": 52760 + }, + { + "epoch": 0.337696, + "grad_norm": 0.5090400576591492, + "learning_rate": 1.7748693333333336e-05, + "loss": 0.0295, + "step": 52765 + }, + { + "epoch": 0.337728, + "grad_norm": 0.6619846820831299, + "learning_rate": 1.774848e-05, + "loss": 0.0236, + "step": 52770 + }, + { + "epoch": 0.33776, + "grad_norm": 0.8177258968353271, + "learning_rate": 1.774826666666667e-05, + "loss": 0.0374, + "step": 52775 + }, + { + "epoch": 0.337792, + "grad_norm": 2.701962947845459, + "learning_rate": 1.7748053333333335e-05, + "loss": 0.0362, + "step": 52780 + }, + { + "epoch": 0.337824, + "grad_norm": 1.9104297161102295, + "learning_rate": 1.774784e-05, + "loss": 0.0506, + "step": 52785 + }, + { + "epoch": 0.337856, + "grad_norm": 0.884335994720459, + "learning_rate": 1.774762666666667e-05, + "loss": 0.0359, + "step": 52790 + }, + { + "epoch": 0.337888, + "grad_norm": 0.5832120180130005, + "learning_rate": 1.7747413333333334e-05, + "loss": 0.0324, + "step": 52795 + }, + { + "epoch": 0.33792, + "grad_norm": 0.12929296493530273, + "learning_rate": 1.7747200000000002e-05, + "loss": 0.0212, + "step": 52800 + }, + { + "epoch": 0.337952, + "grad_norm": 1.0244224071502686, + "learning_rate": 1.774698666666667e-05, + "loss": 0.0572, + "step": 52805 + }, + { + "epoch": 0.337984, + "grad_norm": 0.3433320224285126, + "learning_rate": 1.7746773333333337e-05, + "loss": 0.0235, + "step": 52810 + }, + { + "epoch": 0.338016, + "grad_norm": 1.3881148099899292, + "learning_rate": 1.774656e-05, + "loss": 0.0452, + "step": 52815 + }, + { + "epoch": 0.338048, + "grad_norm": 2.0684406757354736, + "learning_rate": 1.774634666666667e-05, + "loss": 0.0332, + "step": 52820 + }, + { + "epoch": 0.33808, + "grad_norm": 0.18867839872837067, + "learning_rate": 1.7746133333333336e-05, + "loss": 0.0155, + "step": 52825 + }, + { + "epoch": 0.338112, + "grad_norm": 1.8356690406799316, + "learning_rate": 1.774592e-05, + "loss": 0.0531, + "step": 52830 + }, + { + "epoch": 0.338144, + "grad_norm": 0.4138997495174408, + "learning_rate": 1.7745706666666668e-05, + "loss": 0.042, + "step": 52835 + }, + { + "epoch": 0.338176, + "grad_norm": 1.03825044631958, + "learning_rate": 1.7745493333333335e-05, + "loss": 0.0382, + "step": 52840 + }, + { + "epoch": 0.338208, + "grad_norm": 0.49287012219429016, + "learning_rate": 1.7745280000000003e-05, + "loss": 0.0368, + "step": 52845 + }, + { + "epoch": 0.33824, + "grad_norm": 3.7300031185150146, + "learning_rate": 1.7745066666666667e-05, + "loss": 0.0542, + "step": 52850 + }, + { + "epoch": 0.338272, + "grad_norm": 0.7119300961494446, + "learning_rate": 1.7744853333333335e-05, + "loss": 0.0376, + "step": 52855 + }, + { + "epoch": 0.338304, + "grad_norm": 0.6451514959335327, + "learning_rate": 1.7744640000000002e-05, + "loss": 0.0368, + "step": 52860 + }, + { + "epoch": 0.338336, + "grad_norm": 1.1250834465026855, + "learning_rate": 1.7744426666666666e-05, + "loss": 0.0267, + "step": 52865 + }, + { + "epoch": 0.338368, + "grad_norm": 0.6335613131523132, + "learning_rate": 1.7744213333333334e-05, + "loss": 0.0204, + "step": 52870 + }, + { + "epoch": 0.3384, + "grad_norm": 0.4969748556613922, + "learning_rate": 1.7744e-05, + "loss": 0.0295, + "step": 52875 + }, + { + "epoch": 0.338432, + "grad_norm": 0.5290436148643494, + "learning_rate": 1.774378666666667e-05, + "loss": 0.036, + "step": 52880 + }, + { + "epoch": 0.338464, + "grad_norm": 0.6039512753486633, + "learning_rate": 1.7743573333333333e-05, + "loss": 0.0606, + "step": 52885 + }, + { + "epoch": 0.338496, + "grad_norm": 0.7420660853385925, + "learning_rate": 1.774336e-05, + "loss": 0.0369, + "step": 52890 + }, + { + "epoch": 0.338528, + "grad_norm": 0.1868923306465149, + "learning_rate": 1.774314666666667e-05, + "loss": 0.0326, + "step": 52895 + }, + { + "epoch": 0.33856, + "grad_norm": 0.518211841583252, + "learning_rate": 1.7742933333333333e-05, + "loss": 0.0463, + "step": 52900 + }, + { + "epoch": 0.338592, + "grad_norm": 0.9498803615570068, + "learning_rate": 1.7742720000000003e-05, + "loss": 0.0225, + "step": 52905 + }, + { + "epoch": 0.338624, + "grad_norm": 0.6420146226882935, + "learning_rate": 1.7742506666666668e-05, + "loss": 0.0277, + "step": 52910 + }, + { + "epoch": 0.338656, + "grad_norm": 0.2683672308921814, + "learning_rate": 1.7742293333333335e-05, + "loss": 0.0398, + "step": 52915 + }, + { + "epoch": 0.338688, + "grad_norm": 1.0306657552719116, + "learning_rate": 1.7742080000000003e-05, + "loss": 0.0417, + "step": 52920 + }, + { + "epoch": 0.33872, + "grad_norm": 1.365225911140442, + "learning_rate": 1.7741866666666667e-05, + "loss": 0.0592, + "step": 52925 + }, + { + "epoch": 0.338752, + "grad_norm": 1.976395845413208, + "learning_rate": 1.7741653333333334e-05, + "loss": 0.0422, + "step": 52930 + }, + { + "epoch": 0.338784, + "grad_norm": 0.7458724975585938, + "learning_rate": 1.7741440000000002e-05, + "loss": 0.0309, + "step": 52935 + }, + { + "epoch": 0.338816, + "grad_norm": 0.9478765726089478, + "learning_rate": 1.774122666666667e-05, + "loss": 0.026, + "step": 52940 + }, + { + "epoch": 0.338848, + "grad_norm": 0.726966917514801, + "learning_rate": 1.7741013333333334e-05, + "loss": 0.046, + "step": 52945 + }, + { + "epoch": 0.33888, + "grad_norm": 0.5998438000679016, + "learning_rate": 1.77408e-05, + "loss": 0.0264, + "step": 52950 + }, + { + "epoch": 0.338912, + "grad_norm": 0.49084702134132385, + "learning_rate": 1.774058666666667e-05, + "loss": 0.0329, + "step": 52955 + }, + { + "epoch": 0.338944, + "grad_norm": 0.19818755984306335, + "learning_rate": 1.7740373333333333e-05, + "loss": 0.0287, + "step": 52960 + }, + { + "epoch": 0.338976, + "grad_norm": 0.8695065975189209, + "learning_rate": 1.774016e-05, + "loss": 0.0291, + "step": 52965 + }, + { + "epoch": 0.339008, + "grad_norm": 0.5645434856414795, + "learning_rate": 1.7739946666666668e-05, + "loss": 0.0505, + "step": 52970 + }, + { + "epoch": 0.33904, + "grad_norm": 1.0134392976760864, + "learning_rate": 1.7739733333333336e-05, + "loss": 0.0359, + "step": 52975 + }, + { + "epoch": 0.339072, + "grad_norm": 1.8674659729003906, + "learning_rate": 1.773952e-05, + "loss": 0.0437, + "step": 52980 + }, + { + "epoch": 0.339104, + "grad_norm": 3.8795363903045654, + "learning_rate": 1.773930666666667e-05, + "loss": 0.0533, + "step": 52985 + }, + { + "epoch": 0.339136, + "grad_norm": 0.7457962036132812, + "learning_rate": 1.7739093333333335e-05, + "loss": 0.0394, + "step": 52990 + }, + { + "epoch": 0.339168, + "grad_norm": 1.642348289489746, + "learning_rate": 1.773888e-05, + "loss": 0.0493, + "step": 52995 + }, + { + "epoch": 0.3392, + "grad_norm": 0.3629710376262665, + "learning_rate": 1.773866666666667e-05, + "loss": 0.0292, + "step": 53000 + }, + { + "epoch": 0.339232, + "grad_norm": 0.7381470799446106, + "learning_rate": 1.7738453333333334e-05, + "loss": 0.0408, + "step": 53005 + }, + { + "epoch": 0.339264, + "grad_norm": 1.3909978866577148, + "learning_rate": 1.7738240000000002e-05, + "loss": 0.0305, + "step": 53010 + }, + { + "epoch": 0.339296, + "grad_norm": 0.4810047149658203, + "learning_rate": 1.773802666666667e-05, + "loss": 0.0393, + "step": 53015 + }, + { + "epoch": 0.339328, + "grad_norm": 0.7572576403617859, + "learning_rate": 1.7737813333333337e-05, + "loss": 0.0397, + "step": 53020 + }, + { + "epoch": 0.33936, + "grad_norm": 0.810620903968811, + "learning_rate": 1.77376e-05, + "loss": 0.0445, + "step": 53025 + }, + { + "epoch": 0.339392, + "grad_norm": 1.427314043045044, + "learning_rate": 1.773738666666667e-05, + "loss": 0.0311, + "step": 53030 + }, + { + "epoch": 0.339424, + "grad_norm": 0.3920365571975708, + "learning_rate": 1.7737173333333336e-05, + "loss": 0.029, + "step": 53035 + }, + { + "epoch": 0.339456, + "grad_norm": 0.3104942739009857, + "learning_rate": 1.773696e-05, + "loss": 0.0559, + "step": 53040 + }, + { + "epoch": 0.339488, + "grad_norm": 0.939397394657135, + "learning_rate": 1.7736746666666668e-05, + "loss": 0.0263, + "step": 53045 + }, + { + "epoch": 0.33952, + "grad_norm": 0.9048492908477783, + "learning_rate": 1.7736533333333335e-05, + "loss": 0.0325, + "step": 53050 + }, + { + "epoch": 0.339552, + "grad_norm": 0.5398992896080017, + "learning_rate": 1.7736320000000003e-05, + "loss": 0.0395, + "step": 53055 + }, + { + "epoch": 0.339584, + "grad_norm": 0.971331775188446, + "learning_rate": 1.7736106666666667e-05, + "loss": 0.0395, + "step": 53060 + }, + { + "epoch": 0.339616, + "grad_norm": 0.6318099498748779, + "learning_rate": 1.7735893333333335e-05, + "loss": 0.0229, + "step": 53065 + }, + { + "epoch": 0.339648, + "grad_norm": 0.7275388240814209, + "learning_rate": 1.7735680000000002e-05, + "loss": 0.0668, + "step": 53070 + }, + { + "epoch": 0.33968, + "grad_norm": 0.40460431575775146, + "learning_rate": 1.7735466666666666e-05, + "loss": 0.0323, + "step": 53075 + }, + { + "epoch": 0.339712, + "grad_norm": 0.8211573958396912, + "learning_rate": 1.7735253333333334e-05, + "loss": 0.04, + "step": 53080 + }, + { + "epoch": 0.339744, + "grad_norm": 0.9021418690681458, + "learning_rate": 1.773504e-05, + "loss": 0.0497, + "step": 53085 + }, + { + "epoch": 0.339776, + "grad_norm": 1.1318795680999756, + "learning_rate": 1.773482666666667e-05, + "loss": 0.0358, + "step": 53090 + }, + { + "epoch": 0.339808, + "grad_norm": 0.31458351016044617, + "learning_rate": 1.7734613333333333e-05, + "loss": 0.0415, + "step": 53095 + }, + { + "epoch": 0.33984, + "grad_norm": 0.9955271482467651, + "learning_rate": 1.77344e-05, + "loss": 0.0414, + "step": 53100 + }, + { + "epoch": 0.339872, + "grad_norm": 0.36229124665260315, + "learning_rate": 1.773418666666667e-05, + "loss": 0.022, + "step": 53105 + }, + { + "epoch": 0.339904, + "grad_norm": 0.5004352331161499, + "learning_rate": 1.7733973333333333e-05, + "loss": 0.0577, + "step": 53110 + }, + { + "epoch": 0.339936, + "grad_norm": 0.50471031665802, + "learning_rate": 1.7733760000000003e-05, + "loss": 0.0323, + "step": 53115 + }, + { + "epoch": 0.339968, + "grad_norm": 1.1319019794464111, + "learning_rate": 1.7733546666666668e-05, + "loss": 0.0503, + "step": 53120 + }, + { + "epoch": 0.34, + "grad_norm": 0.4767136871814728, + "learning_rate": 1.7733333333333335e-05, + "loss": 0.0343, + "step": 53125 + }, + { + "epoch": 0.340032, + "grad_norm": 0.7083158493041992, + "learning_rate": 1.7733120000000003e-05, + "loss": 0.0479, + "step": 53130 + }, + { + "epoch": 0.340064, + "grad_norm": 0.771384060382843, + "learning_rate": 1.7732906666666667e-05, + "loss": 0.0334, + "step": 53135 + }, + { + "epoch": 0.340096, + "grad_norm": 1.1070531606674194, + "learning_rate": 1.7732693333333334e-05, + "loss": 0.0503, + "step": 53140 + }, + { + "epoch": 0.340128, + "grad_norm": 0.6960468292236328, + "learning_rate": 1.7732480000000002e-05, + "loss": 0.0522, + "step": 53145 + }, + { + "epoch": 0.34016, + "grad_norm": 1.0921460390090942, + "learning_rate": 1.773226666666667e-05, + "loss": 0.0415, + "step": 53150 + }, + { + "epoch": 0.340192, + "grad_norm": 0.6575190424919128, + "learning_rate": 1.7732053333333334e-05, + "loss": 0.0232, + "step": 53155 + }, + { + "epoch": 0.340224, + "grad_norm": 0.19455105066299438, + "learning_rate": 1.773184e-05, + "loss": 0.0206, + "step": 53160 + }, + { + "epoch": 0.340256, + "grad_norm": 0.2204202115535736, + "learning_rate": 1.773162666666667e-05, + "loss": 0.0282, + "step": 53165 + }, + { + "epoch": 0.340288, + "grad_norm": 0.2597948908805847, + "learning_rate": 1.7731413333333333e-05, + "loss": 0.0374, + "step": 53170 + }, + { + "epoch": 0.34032, + "grad_norm": 2.2607901096343994, + "learning_rate": 1.77312e-05, + "loss": 0.0391, + "step": 53175 + }, + { + "epoch": 0.340352, + "grad_norm": 0.8816222548484802, + "learning_rate": 1.7730986666666668e-05, + "loss": 0.0347, + "step": 53180 + }, + { + "epoch": 0.340384, + "grad_norm": 0.4065234363079071, + "learning_rate": 1.7730773333333336e-05, + "loss": 0.0313, + "step": 53185 + }, + { + "epoch": 0.340416, + "grad_norm": 1.740317702293396, + "learning_rate": 1.773056e-05, + "loss": 0.0384, + "step": 53190 + }, + { + "epoch": 0.340448, + "grad_norm": 0.7344058156013489, + "learning_rate": 1.7730346666666667e-05, + "loss": 0.0398, + "step": 53195 + }, + { + "epoch": 0.34048, + "grad_norm": 1.0807071924209595, + "learning_rate": 1.7730133333333335e-05, + "loss": 0.0348, + "step": 53200 + }, + { + "epoch": 0.340512, + "grad_norm": 0.5391501784324646, + "learning_rate": 1.772992e-05, + "loss": 0.039, + "step": 53205 + }, + { + "epoch": 0.340544, + "grad_norm": 0.49190494418144226, + "learning_rate": 1.772970666666667e-05, + "loss": 0.0328, + "step": 53210 + }, + { + "epoch": 0.340576, + "grad_norm": 0.35803890228271484, + "learning_rate": 1.7729493333333334e-05, + "loss": 0.0106, + "step": 53215 + }, + { + "epoch": 0.340608, + "grad_norm": 0.30548185110092163, + "learning_rate": 1.7729280000000002e-05, + "loss": 0.0444, + "step": 53220 + }, + { + "epoch": 0.34064, + "grad_norm": 0.9031224846839905, + "learning_rate": 1.772906666666667e-05, + "loss": 0.0441, + "step": 53225 + }, + { + "epoch": 0.340672, + "grad_norm": 0.4858778715133667, + "learning_rate": 1.7728853333333337e-05, + "loss": 0.0341, + "step": 53230 + }, + { + "epoch": 0.340704, + "grad_norm": 0.8512937426567078, + "learning_rate": 1.772864e-05, + "loss": 0.0484, + "step": 53235 + }, + { + "epoch": 0.340736, + "grad_norm": 1.750029444694519, + "learning_rate": 1.772842666666667e-05, + "loss": 0.0483, + "step": 53240 + }, + { + "epoch": 0.340768, + "grad_norm": 1.0344527959823608, + "learning_rate": 1.7728213333333336e-05, + "loss": 0.0613, + "step": 53245 + }, + { + "epoch": 0.3408, + "grad_norm": 0.5529221892356873, + "learning_rate": 1.7728e-05, + "loss": 0.0359, + "step": 53250 + }, + { + "epoch": 0.340832, + "grad_norm": 0.6817685961723328, + "learning_rate": 1.7727786666666668e-05, + "loss": 0.0262, + "step": 53255 + }, + { + "epoch": 0.340864, + "grad_norm": 0.08743195235729218, + "learning_rate": 1.7727573333333335e-05, + "loss": 0.0504, + "step": 53260 + }, + { + "epoch": 0.340896, + "grad_norm": 0.3233926296234131, + "learning_rate": 1.7727360000000003e-05, + "loss": 0.0235, + "step": 53265 + }, + { + "epoch": 0.340928, + "grad_norm": 1.3765965700149536, + "learning_rate": 1.7727146666666667e-05, + "loss": 0.0373, + "step": 53270 + }, + { + "epoch": 0.34096, + "grad_norm": 1.1187467575073242, + "learning_rate": 1.7726933333333335e-05, + "loss": 0.0485, + "step": 53275 + }, + { + "epoch": 0.340992, + "grad_norm": 1.025795817375183, + "learning_rate": 1.7726720000000002e-05, + "loss": 0.0395, + "step": 53280 + }, + { + "epoch": 0.341024, + "grad_norm": 0.5960648655891418, + "learning_rate": 1.7726506666666666e-05, + "loss": 0.0578, + "step": 53285 + }, + { + "epoch": 0.341056, + "grad_norm": 0.48339730501174927, + "learning_rate": 1.7726293333333334e-05, + "loss": 0.0211, + "step": 53290 + }, + { + "epoch": 0.341088, + "grad_norm": 0.4177177846431732, + "learning_rate": 1.772608e-05, + "loss": 0.0502, + "step": 53295 + }, + { + "epoch": 0.34112, + "grad_norm": 1.5880154371261597, + "learning_rate": 1.772586666666667e-05, + "loss": 0.0327, + "step": 53300 + }, + { + "epoch": 0.341152, + "grad_norm": 0.98721843957901, + "learning_rate": 1.7725653333333333e-05, + "loss": 0.0266, + "step": 53305 + }, + { + "epoch": 0.341184, + "grad_norm": 0.5487329959869385, + "learning_rate": 1.772544e-05, + "loss": 0.0437, + "step": 53310 + }, + { + "epoch": 0.341216, + "grad_norm": 0.9587971568107605, + "learning_rate": 1.772522666666667e-05, + "loss": 0.0395, + "step": 53315 + }, + { + "epoch": 0.341248, + "grad_norm": 0.703352689743042, + "learning_rate": 1.7725013333333333e-05, + "loss": 0.0271, + "step": 53320 + }, + { + "epoch": 0.34128, + "grad_norm": 0.5866754651069641, + "learning_rate": 1.7724800000000003e-05, + "loss": 0.0467, + "step": 53325 + }, + { + "epoch": 0.341312, + "grad_norm": 0.7377644777297974, + "learning_rate": 1.7724586666666668e-05, + "loss": 0.0418, + "step": 53330 + }, + { + "epoch": 0.341344, + "grad_norm": 0.9212905764579773, + "learning_rate": 1.7724373333333335e-05, + "loss": 0.0291, + "step": 53335 + }, + { + "epoch": 0.341376, + "grad_norm": 0.247950479388237, + "learning_rate": 1.7724160000000003e-05, + "loss": 0.0378, + "step": 53340 + }, + { + "epoch": 0.341408, + "grad_norm": 0.6765516996383667, + "learning_rate": 1.7723946666666667e-05, + "loss": 0.0267, + "step": 53345 + }, + { + "epoch": 0.34144, + "grad_norm": 0.7742823362350464, + "learning_rate": 1.7723733333333334e-05, + "loss": 0.036, + "step": 53350 + }, + { + "epoch": 0.341472, + "grad_norm": 0.2475486546754837, + "learning_rate": 1.7723520000000002e-05, + "loss": 0.0217, + "step": 53355 + }, + { + "epoch": 0.341504, + "grad_norm": 0.843000054359436, + "learning_rate": 1.772330666666667e-05, + "loss": 0.0261, + "step": 53360 + }, + { + "epoch": 0.341536, + "grad_norm": 0.46250638365745544, + "learning_rate": 1.7723093333333334e-05, + "loss": 0.0354, + "step": 53365 + }, + { + "epoch": 0.341568, + "grad_norm": 2.0824215412139893, + "learning_rate": 1.772288e-05, + "loss": 0.0364, + "step": 53370 + }, + { + "epoch": 0.3416, + "grad_norm": 1.0745168924331665, + "learning_rate": 1.772266666666667e-05, + "loss": 0.0366, + "step": 53375 + }, + { + "epoch": 0.341632, + "grad_norm": 1.3418889045715332, + "learning_rate": 1.7722453333333333e-05, + "loss": 0.0379, + "step": 53380 + }, + { + "epoch": 0.341664, + "grad_norm": 1.1443651914596558, + "learning_rate": 1.772224e-05, + "loss": 0.0441, + "step": 53385 + }, + { + "epoch": 0.341696, + "grad_norm": 0.5579770803451538, + "learning_rate": 1.7722026666666668e-05, + "loss": 0.03, + "step": 53390 + }, + { + "epoch": 0.341728, + "grad_norm": 1.0208135843276978, + "learning_rate": 1.7721813333333336e-05, + "loss": 0.0352, + "step": 53395 + }, + { + "epoch": 0.34176, + "grad_norm": 0.23904262483119965, + "learning_rate": 1.77216e-05, + "loss": 0.0165, + "step": 53400 + }, + { + "epoch": 0.341792, + "grad_norm": 1.030714511871338, + "learning_rate": 1.7721386666666667e-05, + "loss": 0.0453, + "step": 53405 + }, + { + "epoch": 0.341824, + "grad_norm": 0.9674257636070251, + "learning_rate": 1.7721173333333335e-05, + "loss": 0.0533, + "step": 53410 + }, + { + "epoch": 0.341856, + "grad_norm": 0.5628745555877686, + "learning_rate": 1.772096e-05, + "loss": 0.0468, + "step": 53415 + }, + { + "epoch": 0.341888, + "grad_norm": 1.1575745344161987, + "learning_rate": 1.7720746666666667e-05, + "loss": 0.04, + "step": 53420 + }, + { + "epoch": 0.34192, + "grad_norm": 0.921262800693512, + "learning_rate": 1.7720533333333334e-05, + "loss": 0.0286, + "step": 53425 + }, + { + "epoch": 0.341952, + "grad_norm": 0.40262371301651, + "learning_rate": 1.7720320000000002e-05, + "loss": 0.041, + "step": 53430 + }, + { + "epoch": 0.341984, + "grad_norm": 0.7033519744873047, + "learning_rate": 1.772010666666667e-05, + "loss": 0.0269, + "step": 53435 + }, + { + "epoch": 0.342016, + "grad_norm": 0.3371860384941101, + "learning_rate": 1.7719893333333337e-05, + "loss": 0.05, + "step": 53440 + }, + { + "epoch": 0.342048, + "grad_norm": 0.37439364194869995, + "learning_rate": 1.771968e-05, + "loss": 0.0242, + "step": 53445 + }, + { + "epoch": 0.34208, + "grad_norm": 0.5958583354949951, + "learning_rate": 1.771946666666667e-05, + "loss": 0.0503, + "step": 53450 + }, + { + "epoch": 0.342112, + "grad_norm": 0.8352922201156616, + "learning_rate": 1.7719253333333336e-05, + "loss": 0.0227, + "step": 53455 + }, + { + "epoch": 0.342144, + "grad_norm": 0.2868960499763489, + "learning_rate": 1.771904e-05, + "loss": 0.0243, + "step": 53460 + }, + { + "epoch": 0.342176, + "grad_norm": 0.3273480534553528, + "learning_rate": 1.7718826666666668e-05, + "loss": 0.0236, + "step": 53465 + }, + { + "epoch": 0.342208, + "grad_norm": 0.4534167945384979, + "learning_rate": 1.7718613333333335e-05, + "loss": 0.0231, + "step": 53470 + }, + { + "epoch": 0.34224, + "grad_norm": 0.3617260158061981, + "learning_rate": 1.7718400000000003e-05, + "loss": 0.0405, + "step": 53475 + }, + { + "epoch": 0.342272, + "grad_norm": 0.7745463848114014, + "learning_rate": 1.7718186666666667e-05, + "loss": 0.0412, + "step": 53480 + }, + { + "epoch": 0.342304, + "grad_norm": 0.6581575870513916, + "learning_rate": 1.7717973333333335e-05, + "loss": 0.0195, + "step": 53485 + }, + { + "epoch": 0.342336, + "grad_norm": 0.33255770802497864, + "learning_rate": 1.7717760000000002e-05, + "loss": 0.0183, + "step": 53490 + }, + { + "epoch": 0.342368, + "grad_norm": 0.19473545253276825, + "learning_rate": 1.7717546666666666e-05, + "loss": 0.0312, + "step": 53495 + }, + { + "epoch": 0.3424, + "grad_norm": 0.3225671350955963, + "learning_rate": 1.7717333333333334e-05, + "loss": 0.0291, + "step": 53500 + }, + { + "epoch": 0.342432, + "grad_norm": 0.6909239292144775, + "learning_rate": 1.771712e-05, + "loss": 0.0362, + "step": 53505 + }, + { + "epoch": 0.342464, + "grad_norm": 0.3456011414527893, + "learning_rate": 1.771690666666667e-05, + "loss": 0.0222, + "step": 53510 + }, + { + "epoch": 0.342496, + "grad_norm": 0.3330013155937195, + "learning_rate": 1.7716693333333333e-05, + "loss": 0.0303, + "step": 53515 + }, + { + "epoch": 0.342528, + "grad_norm": 0.4690006971359253, + "learning_rate": 1.771648e-05, + "loss": 0.0292, + "step": 53520 + }, + { + "epoch": 0.34256, + "grad_norm": 0.3091566264629364, + "learning_rate": 1.771626666666667e-05, + "loss": 0.0335, + "step": 53525 + }, + { + "epoch": 0.342592, + "grad_norm": 0.7503479719161987, + "learning_rate": 1.7716053333333333e-05, + "loss": 0.0231, + "step": 53530 + }, + { + "epoch": 0.342624, + "grad_norm": 0.5175337791442871, + "learning_rate": 1.7715840000000004e-05, + "loss": 0.0417, + "step": 53535 + }, + { + "epoch": 0.342656, + "grad_norm": 2.382631778717041, + "learning_rate": 1.7715626666666668e-05, + "loss": 0.0401, + "step": 53540 + }, + { + "epoch": 0.342688, + "grad_norm": 0.47963157296180725, + "learning_rate": 1.7715413333333335e-05, + "loss": 0.0254, + "step": 53545 + }, + { + "epoch": 0.34272, + "grad_norm": 0.9984666109085083, + "learning_rate": 1.7715200000000003e-05, + "loss": 0.0344, + "step": 53550 + }, + { + "epoch": 0.342752, + "grad_norm": 0.4637773036956787, + "learning_rate": 1.771498666666667e-05, + "loss": 0.0424, + "step": 53555 + }, + { + "epoch": 0.342784, + "grad_norm": 0.24569334089756012, + "learning_rate": 1.7714773333333334e-05, + "loss": 0.0368, + "step": 53560 + }, + { + "epoch": 0.342816, + "grad_norm": 0.6939986944198608, + "learning_rate": 1.7714560000000002e-05, + "loss": 0.0423, + "step": 53565 + }, + { + "epoch": 0.342848, + "grad_norm": 0.3633858859539032, + "learning_rate": 1.771434666666667e-05, + "loss": 0.0251, + "step": 53570 + }, + { + "epoch": 0.34288, + "grad_norm": 2.042159080505371, + "learning_rate": 1.7714133333333334e-05, + "loss": 0.0511, + "step": 53575 + }, + { + "epoch": 0.342912, + "grad_norm": 0.6784297823905945, + "learning_rate": 1.771392e-05, + "loss": 0.0518, + "step": 53580 + }, + { + "epoch": 0.342944, + "grad_norm": 0.7494621276855469, + "learning_rate": 1.771370666666667e-05, + "loss": 0.044, + "step": 53585 + }, + { + "epoch": 0.342976, + "grad_norm": 0.564992368221283, + "learning_rate": 1.7713493333333336e-05, + "loss": 0.0366, + "step": 53590 + }, + { + "epoch": 0.343008, + "grad_norm": 0.4911271631717682, + "learning_rate": 1.771328e-05, + "loss": 0.0375, + "step": 53595 + }, + { + "epoch": 0.34304, + "grad_norm": 0.4938957691192627, + "learning_rate": 1.7713066666666668e-05, + "loss": 0.035, + "step": 53600 + }, + { + "epoch": 0.343072, + "grad_norm": 0.8012762069702148, + "learning_rate": 1.7712853333333336e-05, + "loss": 0.0368, + "step": 53605 + }, + { + "epoch": 0.343104, + "grad_norm": 1.0187437534332275, + "learning_rate": 1.771264e-05, + "loss": 0.0391, + "step": 53610 + }, + { + "epoch": 0.343136, + "grad_norm": 0.6216447949409485, + "learning_rate": 1.7712426666666667e-05, + "loss": 0.0556, + "step": 53615 + }, + { + "epoch": 0.343168, + "grad_norm": 0.38562360405921936, + "learning_rate": 1.7712213333333335e-05, + "loss": 0.0209, + "step": 53620 + }, + { + "epoch": 0.3432, + "grad_norm": 1.61697518825531, + "learning_rate": 1.7712000000000003e-05, + "loss": 0.0431, + "step": 53625 + }, + { + "epoch": 0.343232, + "grad_norm": 0.3148002028465271, + "learning_rate": 1.7711786666666667e-05, + "loss": 0.031, + "step": 53630 + }, + { + "epoch": 0.343264, + "grad_norm": 0.3397481143474579, + "learning_rate": 1.7711573333333334e-05, + "loss": 0.0464, + "step": 53635 + }, + { + "epoch": 0.343296, + "grad_norm": 1.1448625326156616, + "learning_rate": 1.7711360000000002e-05, + "loss": 0.0583, + "step": 53640 + }, + { + "epoch": 0.343328, + "grad_norm": 0.7320699691772461, + "learning_rate": 1.7711146666666666e-05, + "loss": 0.0241, + "step": 53645 + }, + { + "epoch": 0.34336, + "grad_norm": 0.4868835210800171, + "learning_rate": 1.7710933333333337e-05, + "loss": 0.0546, + "step": 53650 + }, + { + "epoch": 0.343392, + "grad_norm": 0.6422557830810547, + "learning_rate": 1.771072e-05, + "loss": 0.0378, + "step": 53655 + }, + { + "epoch": 0.343424, + "grad_norm": 0.572656512260437, + "learning_rate": 1.771050666666667e-05, + "loss": 0.0221, + "step": 53660 + }, + { + "epoch": 0.343456, + "grad_norm": 1.1131411790847778, + "learning_rate": 1.7710293333333336e-05, + "loss": 0.0321, + "step": 53665 + }, + { + "epoch": 0.343488, + "grad_norm": 1.47089684009552, + "learning_rate": 1.771008e-05, + "loss": 0.0613, + "step": 53670 + }, + { + "epoch": 0.34352, + "grad_norm": 0.5684448480606079, + "learning_rate": 1.7709866666666668e-05, + "loss": 0.0521, + "step": 53675 + }, + { + "epoch": 0.343552, + "grad_norm": 0.36230775713920593, + "learning_rate": 1.7709653333333335e-05, + "loss": 0.0211, + "step": 53680 + }, + { + "epoch": 0.343584, + "grad_norm": 0.4795806109905243, + "learning_rate": 1.7709440000000003e-05, + "loss": 0.0208, + "step": 53685 + }, + { + "epoch": 0.343616, + "grad_norm": 0.4405692517757416, + "learning_rate": 1.7709226666666667e-05, + "loss": 0.049, + "step": 53690 + }, + { + "epoch": 0.343648, + "grad_norm": 0.5661368370056152, + "learning_rate": 1.7709013333333335e-05, + "loss": 0.038, + "step": 53695 + }, + { + "epoch": 0.34368, + "grad_norm": 1.3925297260284424, + "learning_rate": 1.7708800000000002e-05, + "loss": 0.0658, + "step": 53700 + }, + { + "epoch": 0.343712, + "grad_norm": 0.530407190322876, + "learning_rate": 1.7708586666666666e-05, + "loss": 0.0373, + "step": 53705 + }, + { + "epoch": 0.343744, + "grad_norm": 0.5445393323898315, + "learning_rate": 1.7708373333333334e-05, + "loss": 0.0346, + "step": 53710 + }, + { + "epoch": 0.343776, + "grad_norm": 0.4071001410484314, + "learning_rate": 1.770816e-05, + "loss": 0.0408, + "step": 53715 + }, + { + "epoch": 0.343808, + "grad_norm": 0.8873986601829529, + "learning_rate": 1.770794666666667e-05, + "loss": 0.0459, + "step": 53720 + }, + { + "epoch": 0.34384, + "grad_norm": 0.45635440945625305, + "learning_rate": 1.7707733333333333e-05, + "loss": 0.0342, + "step": 53725 + }, + { + "epoch": 0.343872, + "grad_norm": 0.6008087396621704, + "learning_rate": 1.770752e-05, + "loss": 0.0315, + "step": 53730 + }, + { + "epoch": 0.343904, + "grad_norm": 0.6031812429428101, + "learning_rate": 1.770730666666667e-05, + "loss": 0.0279, + "step": 53735 + }, + { + "epoch": 0.343936, + "grad_norm": 1.1527942419052124, + "learning_rate": 1.7707093333333333e-05, + "loss": 0.0226, + "step": 53740 + }, + { + "epoch": 0.343968, + "grad_norm": 0.5112948417663574, + "learning_rate": 1.7706880000000004e-05, + "loss": 0.0338, + "step": 53745 + }, + { + "epoch": 0.344, + "grad_norm": 0.6442136764526367, + "learning_rate": 1.7706666666666668e-05, + "loss": 0.021, + "step": 53750 + }, + { + "epoch": 0.344032, + "grad_norm": 0.42139026522636414, + "learning_rate": 1.7706453333333335e-05, + "loss": 0.0336, + "step": 53755 + }, + { + "epoch": 0.344064, + "grad_norm": 1.144447922706604, + "learning_rate": 1.7706240000000003e-05, + "loss": 0.0256, + "step": 53760 + }, + { + "epoch": 0.344096, + "grad_norm": 3.699910879135132, + "learning_rate": 1.770602666666667e-05, + "loss": 0.0341, + "step": 53765 + }, + { + "epoch": 0.344128, + "grad_norm": 1.289032220840454, + "learning_rate": 1.7705813333333335e-05, + "loss": 0.0581, + "step": 53770 + }, + { + "epoch": 0.34416, + "grad_norm": 1.4048678874969482, + "learning_rate": 1.7705600000000002e-05, + "loss": 0.0256, + "step": 53775 + }, + { + "epoch": 0.344192, + "grad_norm": 0.8950274586677551, + "learning_rate": 1.770538666666667e-05, + "loss": 0.0398, + "step": 53780 + }, + { + "epoch": 0.344224, + "grad_norm": 0.18496288359165192, + "learning_rate": 1.7705173333333334e-05, + "loss": 0.0238, + "step": 53785 + }, + { + "epoch": 0.344256, + "grad_norm": 1.5751599073410034, + "learning_rate": 1.770496e-05, + "loss": 0.0275, + "step": 53790 + }, + { + "epoch": 0.344288, + "grad_norm": 0.6775866746902466, + "learning_rate": 1.770474666666667e-05, + "loss": 0.0454, + "step": 53795 + }, + { + "epoch": 0.34432, + "grad_norm": 0.5793980360031128, + "learning_rate": 1.7704533333333336e-05, + "loss": 0.0265, + "step": 53800 + }, + { + "epoch": 0.344352, + "grad_norm": 2.422522783279419, + "learning_rate": 1.770432e-05, + "loss": 0.0483, + "step": 53805 + }, + { + "epoch": 0.344384, + "grad_norm": 4.233844757080078, + "learning_rate": 1.7704106666666668e-05, + "loss": 0.0411, + "step": 53810 + }, + { + "epoch": 0.344416, + "grad_norm": 0.43469950556755066, + "learning_rate": 1.7703893333333336e-05, + "loss": 0.0277, + "step": 53815 + }, + { + "epoch": 0.344448, + "grad_norm": 0.49514448642730713, + "learning_rate": 1.770368e-05, + "loss": 0.0373, + "step": 53820 + }, + { + "epoch": 0.34448, + "grad_norm": 1.1174750328063965, + "learning_rate": 1.7703466666666667e-05, + "loss": 0.0443, + "step": 53825 + }, + { + "epoch": 0.344512, + "grad_norm": 0.33854955434799194, + "learning_rate": 1.7703253333333335e-05, + "loss": 0.028, + "step": 53830 + }, + { + "epoch": 0.344544, + "grad_norm": 0.5503474473953247, + "learning_rate": 1.7703040000000003e-05, + "loss": 0.0264, + "step": 53835 + }, + { + "epoch": 0.344576, + "grad_norm": 0.5139310956001282, + "learning_rate": 1.7702826666666667e-05, + "loss": 0.0349, + "step": 53840 + }, + { + "epoch": 0.344608, + "grad_norm": 1.2874598503112793, + "learning_rate": 1.7702613333333334e-05, + "loss": 0.0598, + "step": 53845 + }, + { + "epoch": 0.34464, + "grad_norm": 0.7511948347091675, + "learning_rate": 1.7702400000000002e-05, + "loss": 0.0216, + "step": 53850 + }, + { + "epoch": 0.344672, + "grad_norm": 1.2281067371368408, + "learning_rate": 1.7702186666666666e-05, + "loss": 0.0474, + "step": 53855 + }, + { + "epoch": 0.344704, + "grad_norm": 0.1158556267619133, + "learning_rate": 1.7701973333333337e-05, + "loss": 0.0305, + "step": 53860 + }, + { + "epoch": 0.344736, + "grad_norm": 4.373576641082764, + "learning_rate": 1.770176e-05, + "loss": 0.0264, + "step": 53865 + }, + { + "epoch": 0.344768, + "grad_norm": 1.8747429847717285, + "learning_rate": 1.770154666666667e-05, + "loss": 0.0435, + "step": 53870 + }, + { + "epoch": 0.3448, + "grad_norm": 1.3047473430633545, + "learning_rate": 1.7701333333333336e-05, + "loss": 0.0393, + "step": 53875 + }, + { + "epoch": 0.344832, + "grad_norm": 0.8302230834960938, + "learning_rate": 1.770112e-05, + "loss": 0.0174, + "step": 53880 + }, + { + "epoch": 0.344864, + "grad_norm": 0.6973019242286682, + "learning_rate": 1.7700906666666668e-05, + "loss": 0.0371, + "step": 53885 + }, + { + "epoch": 0.344896, + "grad_norm": 0.9649067521095276, + "learning_rate": 1.7700693333333335e-05, + "loss": 0.0365, + "step": 53890 + }, + { + "epoch": 0.344928, + "grad_norm": 0.8335835933685303, + "learning_rate": 1.7700480000000003e-05, + "loss": 0.0268, + "step": 53895 + }, + { + "epoch": 0.34496, + "grad_norm": 1.9806747436523438, + "learning_rate": 1.7700266666666667e-05, + "loss": 0.0251, + "step": 53900 + }, + { + "epoch": 0.344992, + "grad_norm": 2.4023845195770264, + "learning_rate": 1.7700053333333335e-05, + "loss": 0.0403, + "step": 53905 + }, + { + "epoch": 0.345024, + "grad_norm": 0.6870708465576172, + "learning_rate": 1.7699840000000002e-05, + "loss": 0.0313, + "step": 53910 + }, + { + "epoch": 0.345056, + "grad_norm": 0.4135245382785797, + "learning_rate": 1.7699626666666666e-05, + "loss": 0.0216, + "step": 53915 + }, + { + "epoch": 0.345088, + "grad_norm": 0.6078736186027527, + "learning_rate": 1.7699413333333334e-05, + "loss": 0.048, + "step": 53920 + }, + { + "epoch": 0.34512, + "grad_norm": 0.7567306160926819, + "learning_rate": 1.76992e-05, + "loss": 0.0427, + "step": 53925 + }, + { + "epoch": 0.345152, + "grad_norm": 4.348425388336182, + "learning_rate": 1.769898666666667e-05, + "loss": 0.0512, + "step": 53930 + }, + { + "epoch": 0.345184, + "grad_norm": 0.8302697539329529, + "learning_rate": 1.7698773333333333e-05, + "loss": 0.023, + "step": 53935 + }, + { + "epoch": 0.345216, + "grad_norm": 0.5244033336639404, + "learning_rate": 1.769856e-05, + "loss": 0.0383, + "step": 53940 + }, + { + "epoch": 0.345248, + "grad_norm": 0.7927446365356445, + "learning_rate": 1.769834666666667e-05, + "loss": 0.0607, + "step": 53945 + }, + { + "epoch": 0.34528, + "grad_norm": 0.24916236102581024, + "learning_rate": 1.7698133333333333e-05, + "loss": 0.0531, + "step": 53950 + }, + { + "epoch": 0.345312, + "grad_norm": 1.9429374933242798, + "learning_rate": 1.769792e-05, + "loss": 0.0447, + "step": 53955 + }, + { + "epoch": 0.345344, + "grad_norm": 0.7695322632789612, + "learning_rate": 1.7697706666666668e-05, + "loss": 0.042, + "step": 53960 + }, + { + "epoch": 0.345376, + "grad_norm": 0.3184252679347992, + "learning_rate": 1.7697493333333335e-05, + "loss": 0.0308, + "step": 53965 + }, + { + "epoch": 0.345408, + "grad_norm": 0.8088257312774658, + "learning_rate": 1.7697280000000003e-05, + "loss": 0.033, + "step": 53970 + }, + { + "epoch": 0.34544, + "grad_norm": 0.17677041888237, + "learning_rate": 1.769706666666667e-05, + "loss": 0.0339, + "step": 53975 + }, + { + "epoch": 0.345472, + "grad_norm": 0.5465388298034668, + "learning_rate": 1.7696853333333335e-05, + "loss": 0.032, + "step": 53980 + }, + { + "epoch": 0.345504, + "grad_norm": 0.1603274941444397, + "learning_rate": 1.7696640000000002e-05, + "loss": 0.0241, + "step": 53985 + }, + { + "epoch": 0.345536, + "grad_norm": 0.5666852593421936, + "learning_rate": 1.769642666666667e-05, + "loss": 0.0365, + "step": 53990 + }, + { + "epoch": 0.345568, + "grad_norm": 0.4135875999927521, + "learning_rate": 1.7696213333333334e-05, + "loss": 0.0206, + "step": 53995 + }, + { + "epoch": 0.3456, + "grad_norm": 2.5001883506774902, + "learning_rate": 1.7696e-05, + "loss": 0.0336, + "step": 54000 + }, + { + "epoch": 0.345632, + "grad_norm": 0.680305004119873, + "learning_rate": 1.769578666666667e-05, + "loss": 0.0705, + "step": 54005 + }, + { + "epoch": 0.345664, + "grad_norm": 1.421877145767212, + "learning_rate": 1.7695573333333336e-05, + "loss": 0.0285, + "step": 54010 + }, + { + "epoch": 0.345696, + "grad_norm": 1.1996551752090454, + "learning_rate": 1.769536e-05, + "loss": 0.0445, + "step": 54015 + }, + { + "epoch": 0.345728, + "grad_norm": 1.698979377746582, + "learning_rate": 1.7695146666666668e-05, + "loss": 0.0618, + "step": 54020 + }, + { + "epoch": 0.34576, + "grad_norm": 0.9296412467956543, + "learning_rate": 1.7694933333333336e-05, + "loss": 0.0326, + "step": 54025 + }, + { + "epoch": 0.345792, + "grad_norm": 0.47719627618789673, + "learning_rate": 1.769472e-05, + "loss": 0.0473, + "step": 54030 + }, + { + "epoch": 0.345824, + "grad_norm": 0.49303126335144043, + "learning_rate": 1.7694506666666667e-05, + "loss": 0.04, + "step": 54035 + }, + { + "epoch": 0.345856, + "grad_norm": 0.25766703486442566, + "learning_rate": 1.7694293333333335e-05, + "loss": 0.0314, + "step": 54040 + }, + { + "epoch": 0.345888, + "grad_norm": 0.3498946726322174, + "learning_rate": 1.7694080000000003e-05, + "loss": 0.0207, + "step": 54045 + }, + { + "epoch": 0.34592, + "grad_norm": 0.3303665220737457, + "learning_rate": 1.7693866666666667e-05, + "loss": 0.0172, + "step": 54050 + }, + { + "epoch": 0.345952, + "grad_norm": 1.2640515565872192, + "learning_rate": 1.7693653333333334e-05, + "loss": 0.0561, + "step": 54055 + }, + { + "epoch": 0.345984, + "grad_norm": 0.5979726910591125, + "learning_rate": 1.7693440000000002e-05, + "loss": 0.0233, + "step": 54060 + }, + { + "epoch": 0.346016, + "grad_norm": 1.3850346803665161, + "learning_rate": 1.7693226666666666e-05, + "loss": 0.0305, + "step": 54065 + }, + { + "epoch": 0.346048, + "grad_norm": 0.11688506603240967, + "learning_rate": 1.7693013333333337e-05, + "loss": 0.0624, + "step": 54070 + }, + { + "epoch": 0.34608, + "grad_norm": 1.416907548904419, + "learning_rate": 1.76928e-05, + "loss": 0.0428, + "step": 54075 + }, + { + "epoch": 0.346112, + "grad_norm": 0.6144885420799255, + "learning_rate": 1.769258666666667e-05, + "loss": 0.0521, + "step": 54080 + }, + { + "epoch": 0.346144, + "grad_norm": 0.6480462551116943, + "learning_rate": 1.7692373333333336e-05, + "loss": 0.036, + "step": 54085 + }, + { + "epoch": 0.346176, + "grad_norm": 2.5658605098724365, + "learning_rate": 1.769216e-05, + "loss": 0.0419, + "step": 54090 + }, + { + "epoch": 0.346208, + "grad_norm": 2.823699951171875, + "learning_rate": 1.7691946666666668e-05, + "loss": 0.0486, + "step": 54095 + }, + { + "epoch": 0.34624, + "grad_norm": 1.4729297161102295, + "learning_rate": 1.7691733333333335e-05, + "loss": 0.0532, + "step": 54100 + }, + { + "epoch": 0.346272, + "grad_norm": 0.6341339349746704, + "learning_rate": 1.7691520000000003e-05, + "loss": 0.0275, + "step": 54105 + }, + { + "epoch": 0.346304, + "grad_norm": 3.9761605262756348, + "learning_rate": 1.7691306666666667e-05, + "loss": 0.032, + "step": 54110 + }, + { + "epoch": 0.346336, + "grad_norm": 0.9665706157684326, + "learning_rate": 1.7691093333333335e-05, + "loss": 0.0402, + "step": 54115 + }, + { + "epoch": 0.346368, + "grad_norm": 0.7754872441291809, + "learning_rate": 1.7690880000000002e-05, + "loss": 0.0335, + "step": 54120 + }, + { + "epoch": 0.3464, + "grad_norm": 0.420938640832901, + "learning_rate": 1.7690666666666666e-05, + "loss": 0.0429, + "step": 54125 + }, + { + "epoch": 0.346432, + "grad_norm": 0.8295369744300842, + "learning_rate": 1.7690453333333334e-05, + "loss": 0.033, + "step": 54130 + }, + { + "epoch": 0.346464, + "grad_norm": 0.42149972915649414, + "learning_rate": 1.769024e-05, + "loss": 0.0487, + "step": 54135 + }, + { + "epoch": 0.346496, + "grad_norm": 1.2032221555709839, + "learning_rate": 1.769002666666667e-05, + "loss": 0.0349, + "step": 54140 + }, + { + "epoch": 0.346528, + "grad_norm": 0.1663805991411209, + "learning_rate": 1.7689813333333333e-05, + "loss": 0.0308, + "step": 54145 + }, + { + "epoch": 0.34656, + "grad_norm": 0.6763943433761597, + "learning_rate": 1.76896e-05, + "loss": 0.0364, + "step": 54150 + }, + { + "epoch": 0.346592, + "grad_norm": 0.6864778399467468, + "learning_rate": 1.768938666666667e-05, + "loss": 0.0415, + "step": 54155 + }, + { + "epoch": 0.346624, + "grad_norm": 0.4786806106567383, + "learning_rate": 1.7689173333333333e-05, + "loss": 0.0338, + "step": 54160 + }, + { + "epoch": 0.346656, + "grad_norm": 0.6115607619285583, + "learning_rate": 1.768896e-05, + "loss": 0.0247, + "step": 54165 + }, + { + "epoch": 0.346688, + "grad_norm": 1.3692442178726196, + "learning_rate": 1.7688746666666668e-05, + "loss": 0.0335, + "step": 54170 + }, + { + "epoch": 0.34672, + "grad_norm": 0.6787242889404297, + "learning_rate": 1.7688533333333335e-05, + "loss": 0.0556, + "step": 54175 + }, + { + "epoch": 0.346752, + "grad_norm": 0.49457070231437683, + "learning_rate": 1.768832e-05, + "loss": 0.0585, + "step": 54180 + }, + { + "epoch": 0.346784, + "grad_norm": 1.5537407398223877, + "learning_rate": 1.768810666666667e-05, + "loss": 0.0636, + "step": 54185 + }, + { + "epoch": 0.346816, + "grad_norm": 0.5808747410774231, + "learning_rate": 1.7687893333333335e-05, + "loss": 0.0485, + "step": 54190 + }, + { + "epoch": 0.346848, + "grad_norm": 0.30156153440475464, + "learning_rate": 1.7687680000000002e-05, + "loss": 0.0222, + "step": 54195 + }, + { + "epoch": 0.34688, + "grad_norm": 1.536096215248108, + "learning_rate": 1.768746666666667e-05, + "loss": 0.0347, + "step": 54200 + }, + { + "epoch": 0.346912, + "grad_norm": 0.4461665153503418, + "learning_rate": 1.7687253333333334e-05, + "loss": 0.0319, + "step": 54205 + }, + { + "epoch": 0.346944, + "grad_norm": 0.8378096222877502, + "learning_rate": 1.768704e-05, + "loss": 0.0379, + "step": 54210 + }, + { + "epoch": 0.346976, + "grad_norm": 1.332672119140625, + "learning_rate": 1.768682666666667e-05, + "loss": 0.0585, + "step": 54215 + }, + { + "epoch": 0.347008, + "grad_norm": 0.5070288777351379, + "learning_rate": 1.7686613333333336e-05, + "loss": 0.047, + "step": 54220 + }, + { + "epoch": 0.34704, + "grad_norm": 0.7498067617416382, + "learning_rate": 1.76864e-05, + "loss": 0.0268, + "step": 54225 + }, + { + "epoch": 0.347072, + "grad_norm": 0.4349503219127655, + "learning_rate": 1.7686186666666668e-05, + "loss": 0.0355, + "step": 54230 + }, + { + "epoch": 0.347104, + "grad_norm": 1.1867733001708984, + "learning_rate": 1.7685973333333336e-05, + "loss": 0.0384, + "step": 54235 + }, + { + "epoch": 0.347136, + "grad_norm": 0.6425452828407288, + "learning_rate": 1.768576e-05, + "loss": 0.0339, + "step": 54240 + }, + { + "epoch": 0.347168, + "grad_norm": 0.6322759389877319, + "learning_rate": 1.7685546666666667e-05, + "loss": 0.0318, + "step": 54245 + }, + { + "epoch": 0.3472, + "grad_norm": 0.8819777965545654, + "learning_rate": 1.7685333333333335e-05, + "loss": 0.0444, + "step": 54250 + }, + { + "epoch": 0.347232, + "grad_norm": 0.6098759770393372, + "learning_rate": 1.7685120000000003e-05, + "loss": 0.032, + "step": 54255 + }, + { + "epoch": 0.347264, + "grad_norm": 0.35468170046806335, + "learning_rate": 1.7684906666666667e-05, + "loss": 0.0274, + "step": 54260 + }, + { + "epoch": 0.347296, + "grad_norm": 1.0345205068588257, + "learning_rate": 1.7684693333333334e-05, + "loss": 0.0218, + "step": 54265 + }, + { + "epoch": 0.347328, + "grad_norm": 1.3031779527664185, + "learning_rate": 1.7684480000000002e-05, + "loss": 0.0354, + "step": 54270 + }, + { + "epoch": 0.34736, + "grad_norm": 0.3205709457397461, + "learning_rate": 1.7684266666666666e-05, + "loss": 0.0462, + "step": 54275 + }, + { + "epoch": 0.347392, + "grad_norm": 0.6062670946121216, + "learning_rate": 1.7684053333333337e-05, + "loss": 0.0542, + "step": 54280 + }, + { + "epoch": 0.347424, + "grad_norm": 0.9159556031227112, + "learning_rate": 1.768384e-05, + "loss": 0.0319, + "step": 54285 + }, + { + "epoch": 0.347456, + "grad_norm": 0.550656259059906, + "learning_rate": 1.768362666666667e-05, + "loss": 0.0559, + "step": 54290 + }, + { + "epoch": 0.347488, + "grad_norm": 0.25832897424697876, + "learning_rate": 1.7683413333333336e-05, + "loss": 0.0233, + "step": 54295 + }, + { + "epoch": 0.34752, + "grad_norm": 1.1801639795303345, + "learning_rate": 1.76832e-05, + "loss": 0.0472, + "step": 54300 + }, + { + "epoch": 0.347552, + "grad_norm": 0.8980783820152283, + "learning_rate": 1.7682986666666668e-05, + "loss": 0.0551, + "step": 54305 + }, + { + "epoch": 0.347584, + "grad_norm": 0.6957073211669922, + "learning_rate": 1.7682773333333335e-05, + "loss": 0.0436, + "step": 54310 + }, + { + "epoch": 0.347616, + "grad_norm": 1.1954491138458252, + "learning_rate": 1.7682560000000003e-05, + "loss": 0.0397, + "step": 54315 + }, + { + "epoch": 0.347648, + "grad_norm": 0.4718073904514313, + "learning_rate": 1.7682346666666667e-05, + "loss": 0.0192, + "step": 54320 + }, + { + "epoch": 0.34768, + "grad_norm": 0.4929962456226349, + "learning_rate": 1.7682133333333335e-05, + "loss": 0.0297, + "step": 54325 + }, + { + "epoch": 0.347712, + "grad_norm": 0.6937330961227417, + "learning_rate": 1.7681920000000002e-05, + "loss": 0.0385, + "step": 54330 + }, + { + "epoch": 0.347744, + "grad_norm": 0.3077363669872284, + "learning_rate": 1.7681706666666666e-05, + "loss": 0.0206, + "step": 54335 + }, + { + "epoch": 0.347776, + "grad_norm": 1.1003239154815674, + "learning_rate": 1.7681493333333334e-05, + "loss": 0.045, + "step": 54340 + }, + { + "epoch": 0.347808, + "grad_norm": 0.40727004408836365, + "learning_rate": 1.768128e-05, + "loss": 0.0337, + "step": 54345 + }, + { + "epoch": 0.34784, + "grad_norm": 0.724043607711792, + "learning_rate": 1.768106666666667e-05, + "loss": 0.0287, + "step": 54350 + }, + { + "epoch": 0.347872, + "grad_norm": 0.7658872008323669, + "learning_rate": 1.7680853333333333e-05, + "loss": 0.0533, + "step": 54355 + }, + { + "epoch": 0.347904, + "grad_norm": 0.7443029880523682, + "learning_rate": 1.768064e-05, + "loss": 0.0435, + "step": 54360 + }, + { + "epoch": 0.347936, + "grad_norm": 1.3936372995376587, + "learning_rate": 1.768042666666667e-05, + "loss": 0.044, + "step": 54365 + }, + { + "epoch": 0.347968, + "grad_norm": 0.6066543459892273, + "learning_rate": 1.7680213333333333e-05, + "loss": 0.0321, + "step": 54370 + }, + { + "epoch": 0.348, + "grad_norm": 4.513434886932373, + "learning_rate": 1.768e-05, + "loss": 0.0322, + "step": 54375 + }, + { + "epoch": 0.348032, + "grad_norm": 0.6515339612960815, + "learning_rate": 1.7679786666666668e-05, + "loss": 0.0409, + "step": 54380 + }, + { + "epoch": 0.348064, + "grad_norm": 0.5425812005996704, + "learning_rate": 1.7679573333333335e-05, + "loss": 0.0413, + "step": 54385 + }, + { + "epoch": 0.348096, + "grad_norm": 0.7036492228507996, + "learning_rate": 1.767936e-05, + "loss": 0.0304, + "step": 54390 + }, + { + "epoch": 0.348128, + "grad_norm": 0.6380172967910767, + "learning_rate": 1.767914666666667e-05, + "loss": 0.033, + "step": 54395 + }, + { + "epoch": 0.34816, + "grad_norm": 0.6610949039459229, + "learning_rate": 1.7678933333333335e-05, + "loss": 0.0434, + "step": 54400 + }, + { + "epoch": 0.348192, + "grad_norm": 1.5003669261932373, + "learning_rate": 1.7678720000000002e-05, + "loss": 0.0277, + "step": 54405 + }, + { + "epoch": 0.348224, + "grad_norm": 1.0278278589248657, + "learning_rate": 1.767850666666667e-05, + "loss": 0.0349, + "step": 54410 + }, + { + "epoch": 0.348256, + "grad_norm": 0.5830482840538025, + "learning_rate": 1.7678293333333334e-05, + "loss": 0.0265, + "step": 54415 + }, + { + "epoch": 0.348288, + "grad_norm": 0.6311157941818237, + "learning_rate": 1.767808e-05, + "loss": 0.0372, + "step": 54420 + }, + { + "epoch": 0.34832, + "grad_norm": 2.106292963027954, + "learning_rate": 1.767786666666667e-05, + "loss": 0.0426, + "step": 54425 + }, + { + "epoch": 0.348352, + "grad_norm": 0.5520167350769043, + "learning_rate": 1.7677653333333336e-05, + "loss": 0.0567, + "step": 54430 + }, + { + "epoch": 0.348384, + "grad_norm": 0.881963312625885, + "learning_rate": 1.767744e-05, + "loss": 0.038, + "step": 54435 + }, + { + "epoch": 0.348416, + "grad_norm": 0.7629349827766418, + "learning_rate": 1.7677226666666668e-05, + "loss": 0.0599, + "step": 54440 + }, + { + "epoch": 0.348448, + "grad_norm": 0.455806702375412, + "learning_rate": 1.7677013333333336e-05, + "loss": 0.028, + "step": 54445 + }, + { + "epoch": 0.34848, + "grad_norm": 1.1509751081466675, + "learning_rate": 1.76768e-05, + "loss": 0.0333, + "step": 54450 + }, + { + "epoch": 0.348512, + "grad_norm": 0.7157012820243835, + "learning_rate": 1.7676586666666667e-05, + "loss": 0.0205, + "step": 54455 + }, + { + "epoch": 0.348544, + "grad_norm": 0.646297037601471, + "learning_rate": 1.7676373333333335e-05, + "loss": 0.0548, + "step": 54460 + }, + { + "epoch": 0.348576, + "grad_norm": 0.855707049369812, + "learning_rate": 1.7676160000000003e-05, + "loss": 0.0427, + "step": 54465 + }, + { + "epoch": 0.348608, + "grad_norm": 0.4753742814064026, + "learning_rate": 1.7675946666666667e-05, + "loss": 0.0249, + "step": 54470 + }, + { + "epoch": 0.34864, + "grad_norm": 2.0910072326660156, + "learning_rate": 1.7675733333333334e-05, + "loss": 0.0625, + "step": 54475 + }, + { + "epoch": 0.348672, + "grad_norm": 0.527600884437561, + "learning_rate": 1.7675520000000002e-05, + "loss": 0.0329, + "step": 54480 + }, + { + "epoch": 0.348704, + "grad_norm": 0.4284951090812683, + "learning_rate": 1.7675306666666666e-05, + "loss": 0.0297, + "step": 54485 + }, + { + "epoch": 0.348736, + "grad_norm": 0.598609447479248, + "learning_rate": 1.7675093333333334e-05, + "loss": 0.0307, + "step": 54490 + }, + { + "epoch": 0.348768, + "grad_norm": 0.5718422532081604, + "learning_rate": 1.767488e-05, + "loss": 0.0491, + "step": 54495 + }, + { + "epoch": 0.3488, + "grad_norm": 0.15014173090457916, + "learning_rate": 1.767466666666667e-05, + "loss": 0.0209, + "step": 54500 + }, + { + "epoch": 0.348832, + "grad_norm": 0.8324140906333923, + "learning_rate": 1.7674453333333336e-05, + "loss": 0.0223, + "step": 54505 + }, + { + "epoch": 0.348864, + "grad_norm": 0.28321683406829834, + "learning_rate": 1.7674240000000004e-05, + "loss": 0.0312, + "step": 54510 + }, + { + "epoch": 0.348896, + "grad_norm": 0.5616021752357483, + "learning_rate": 1.7674026666666668e-05, + "loss": 0.0255, + "step": 54515 + }, + { + "epoch": 0.348928, + "grad_norm": 0.409267395734787, + "learning_rate": 1.7673813333333335e-05, + "loss": 0.0455, + "step": 54520 + }, + { + "epoch": 0.34896, + "grad_norm": 1.139046549797058, + "learning_rate": 1.7673600000000003e-05, + "loss": 0.0518, + "step": 54525 + }, + { + "epoch": 0.348992, + "grad_norm": 0.5318018794059753, + "learning_rate": 1.7673386666666667e-05, + "loss": 0.0268, + "step": 54530 + }, + { + "epoch": 0.349024, + "grad_norm": 0.8323924541473389, + "learning_rate": 1.7673173333333335e-05, + "loss": 0.0399, + "step": 54535 + }, + { + "epoch": 0.349056, + "grad_norm": 0.5844356417655945, + "learning_rate": 1.7672960000000002e-05, + "loss": 0.0377, + "step": 54540 + }, + { + "epoch": 0.349088, + "grad_norm": 0.8856151700019836, + "learning_rate": 1.767274666666667e-05, + "loss": 0.03, + "step": 54545 + }, + { + "epoch": 0.34912, + "grad_norm": 0.493562787771225, + "learning_rate": 1.7672533333333334e-05, + "loss": 0.0401, + "step": 54550 + }, + { + "epoch": 0.349152, + "grad_norm": 0.4849860668182373, + "learning_rate": 1.767232e-05, + "loss": 0.0635, + "step": 54555 + }, + { + "epoch": 0.349184, + "grad_norm": 0.6552526354789734, + "learning_rate": 1.767210666666667e-05, + "loss": 0.031, + "step": 54560 + }, + { + "epoch": 0.349216, + "grad_norm": 0.19865871965885162, + "learning_rate": 1.7671893333333333e-05, + "loss": 0.0576, + "step": 54565 + }, + { + "epoch": 0.349248, + "grad_norm": 0.231902077794075, + "learning_rate": 1.767168e-05, + "loss": 0.0458, + "step": 54570 + }, + { + "epoch": 0.34928, + "grad_norm": 4.399338722229004, + "learning_rate": 1.767146666666667e-05, + "loss": 0.04, + "step": 54575 + }, + { + "epoch": 0.349312, + "grad_norm": 0.602181077003479, + "learning_rate": 1.7671253333333336e-05, + "loss": 0.0241, + "step": 54580 + }, + { + "epoch": 0.349344, + "grad_norm": 1.3714444637298584, + "learning_rate": 1.767104e-05, + "loss": 0.0259, + "step": 54585 + }, + { + "epoch": 0.349376, + "grad_norm": 0.6609634757041931, + "learning_rate": 1.7670826666666668e-05, + "loss": 0.0347, + "step": 54590 + }, + { + "epoch": 0.349408, + "grad_norm": 0.8586780428886414, + "learning_rate": 1.7670613333333335e-05, + "loss": 0.0381, + "step": 54595 + }, + { + "epoch": 0.34944, + "grad_norm": 0.7525604367256165, + "learning_rate": 1.76704e-05, + "loss": 0.031, + "step": 54600 + }, + { + "epoch": 0.349472, + "grad_norm": 0.99238520860672, + "learning_rate": 1.767018666666667e-05, + "loss": 0.0387, + "step": 54605 + }, + { + "epoch": 0.349504, + "grad_norm": 0.8312646746635437, + "learning_rate": 1.7669973333333335e-05, + "loss": 0.0343, + "step": 54610 + }, + { + "epoch": 0.349536, + "grad_norm": 0.9269290566444397, + "learning_rate": 1.7669760000000002e-05, + "loss": 0.0344, + "step": 54615 + }, + { + "epoch": 0.349568, + "grad_norm": 0.9485512375831604, + "learning_rate": 1.766954666666667e-05, + "loss": 0.0557, + "step": 54620 + }, + { + "epoch": 0.3496, + "grad_norm": 1.9016917943954468, + "learning_rate": 1.7669333333333334e-05, + "loss": 0.0413, + "step": 54625 + }, + { + "epoch": 0.349632, + "grad_norm": 0.41827306151390076, + "learning_rate": 1.766912e-05, + "loss": 0.0278, + "step": 54630 + }, + { + "epoch": 0.349664, + "grad_norm": 1.0422343015670776, + "learning_rate": 1.766890666666667e-05, + "loss": 0.0392, + "step": 54635 + }, + { + "epoch": 0.349696, + "grad_norm": 0.535709023475647, + "learning_rate": 1.7668693333333336e-05, + "loss": 0.0227, + "step": 54640 + }, + { + "epoch": 0.349728, + "grad_norm": 1.091934084892273, + "learning_rate": 1.766848e-05, + "loss": 0.0459, + "step": 54645 + }, + { + "epoch": 0.34976, + "grad_norm": 0.638422429561615, + "learning_rate": 1.7668266666666668e-05, + "loss": 0.0266, + "step": 54650 + }, + { + "epoch": 0.349792, + "grad_norm": 0.3233208656311035, + "learning_rate": 1.7668053333333336e-05, + "loss": 0.0382, + "step": 54655 + }, + { + "epoch": 0.349824, + "grad_norm": 0.6464040875434875, + "learning_rate": 1.766784e-05, + "loss": 0.0428, + "step": 54660 + }, + { + "epoch": 0.349856, + "grad_norm": 0.8543983101844788, + "learning_rate": 1.7667626666666667e-05, + "loss": 0.0351, + "step": 54665 + }, + { + "epoch": 0.349888, + "grad_norm": 1.1100668907165527, + "learning_rate": 1.7667413333333335e-05, + "loss": 0.0396, + "step": 54670 + }, + { + "epoch": 0.34992, + "grad_norm": 0.5463343262672424, + "learning_rate": 1.7667200000000003e-05, + "loss": 0.0284, + "step": 54675 + }, + { + "epoch": 0.349952, + "grad_norm": 1.1181530952453613, + "learning_rate": 1.7666986666666667e-05, + "loss": 0.034, + "step": 54680 + }, + { + "epoch": 0.349984, + "grad_norm": 1.4841265678405762, + "learning_rate": 1.7666773333333334e-05, + "loss": 0.0211, + "step": 54685 + }, + { + "epoch": 0.350016, + "grad_norm": 0.6713143587112427, + "learning_rate": 1.7666560000000002e-05, + "loss": 0.0331, + "step": 54690 + }, + { + "epoch": 0.350048, + "grad_norm": 2.8033640384674072, + "learning_rate": 1.7666346666666666e-05, + "loss": 0.0363, + "step": 54695 + }, + { + "epoch": 0.35008, + "grad_norm": 0.6640937924385071, + "learning_rate": 1.7666133333333334e-05, + "loss": 0.0362, + "step": 54700 + }, + { + "epoch": 0.350112, + "grad_norm": 0.8303429484367371, + "learning_rate": 1.766592e-05, + "loss": 0.0394, + "step": 54705 + }, + { + "epoch": 0.350144, + "grad_norm": 0.4597927927970886, + "learning_rate": 1.766570666666667e-05, + "loss": 0.0323, + "step": 54710 + }, + { + "epoch": 0.350176, + "grad_norm": 0.812635064125061, + "learning_rate": 1.7665493333333333e-05, + "loss": 0.0421, + "step": 54715 + }, + { + "epoch": 0.350208, + "grad_norm": 1.124764323234558, + "learning_rate": 1.7665280000000004e-05, + "loss": 0.0435, + "step": 54720 + }, + { + "epoch": 0.35024, + "grad_norm": 0.40699857473373413, + "learning_rate": 1.7665066666666668e-05, + "loss": 0.0357, + "step": 54725 + }, + { + "epoch": 0.350272, + "grad_norm": 0.43189704418182373, + "learning_rate": 1.7664853333333335e-05, + "loss": 0.0384, + "step": 54730 + }, + { + "epoch": 0.350304, + "grad_norm": 0.5364735722541809, + "learning_rate": 1.7664640000000003e-05, + "loss": 0.022, + "step": 54735 + }, + { + "epoch": 0.350336, + "grad_norm": 0.957657516002655, + "learning_rate": 1.7664426666666667e-05, + "loss": 0.061, + "step": 54740 + }, + { + "epoch": 0.350368, + "grad_norm": 0.4197160303592682, + "learning_rate": 1.7664213333333335e-05, + "loss": 0.0259, + "step": 54745 + }, + { + "epoch": 0.3504, + "grad_norm": 0.8653888702392578, + "learning_rate": 1.7664000000000002e-05, + "loss": 0.0583, + "step": 54750 + }, + { + "epoch": 0.350432, + "grad_norm": 1.0604526996612549, + "learning_rate": 1.766378666666667e-05, + "loss": 0.0351, + "step": 54755 + }, + { + "epoch": 0.350464, + "grad_norm": 0.40835368633270264, + "learning_rate": 1.7663573333333334e-05, + "loss": 0.0368, + "step": 54760 + }, + { + "epoch": 0.350496, + "grad_norm": 0.6084246635437012, + "learning_rate": 1.766336e-05, + "loss": 0.0251, + "step": 54765 + }, + { + "epoch": 0.350528, + "grad_norm": 0.9584352374076843, + "learning_rate": 1.766314666666667e-05, + "loss": 0.0532, + "step": 54770 + }, + { + "epoch": 0.35056, + "grad_norm": 0.6895954608917236, + "learning_rate": 1.7662933333333333e-05, + "loss": 0.0565, + "step": 54775 + }, + { + "epoch": 0.350592, + "grad_norm": 1.0423493385314941, + "learning_rate": 1.766272e-05, + "loss": 0.0365, + "step": 54780 + }, + { + "epoch": 0.350624, + "grad_norm": 0.6733018755912781, + "learning_rate": 1.766250666666667e-05, + "loss": 0.0155, + "step": 54785 + }, + { + "epoch": 0.350656, + "grad_norm": 0.4425249397754669, + "learning_rate": 1.7662293333333336e-05, + "loss": 0.0269, + "step": 54790 + }, + { + "epoch": 0.350688, + "grad_norm": 1.40789794921875, + "learning_rate": 1.766208e-05, + "loss": 0.0431, + "step": 54795 + }, + { + "epoch": 0.35072, + "grad_norm": 0.25778108835220337, + "learning_rate": 1.7661866666666668e-05, + "loss": 0.0184, + "step": 54800 + }, + { + "epoch": 0.350752, + "grad_norm": 1.172649621963501, + "learning_rate": 1.7661653333333335e-05, + "loss": 0.0485, + "step": 54805 + }, + { + "epoch": 0.350784, + "grad_norm": 0.4812590479850769, + "learning_rate": 1.766144e-05, + "loss": 0.0163, + "step": 54810 + }, + { + "epoch": 0.350816, + "grad_norm": 0.9087765216827393, + "learning_rate": 1.766122666666667e-05, + "loss": 0.0267, + "step": 54815 + }, + { + "epoch": 0.350848, + "grad_norm": 0.5395723581314087, + "learning_rate": 1.7661013333333335e-05, + "loss": 0.0303, + "step": 54820 + }, + { + "epoch": 0.35088, + "grad_norm": 0.8145237565040588, + "learning_rate": 1.7660800000000002e-05, + "loss": 0.053, + "step": 54825 + }, + { + "epoch": 0.350912, + "grad_norm": 1.0470283031463623, + "learning_rate": 1.766058666666667e-05, + "loss": 0.0346, + "step": 54830 + }, + { + "epoch": 0.350944, + "grad_norm": 0.7797325849533081, + "learning_rate": 1.7660373333333334e-05, + "loss": 0.0368, + "step": 54835 + }, + { + "epoch": 0.350976, + "grad_norm": 0.5572206377983093, + "learning_rate": 1.766016e-05, + "loss": 0.0373, + "step": 54840 + }, + { + "epoch": 0.351008, + "grad_norm": 1.0667446851730347, + "learning_rate": 1.765994666666667e-05, + "loss": 0.0402, + "step": 54845 + }, + { + "epoch": 0.35104, + "grad_norm": 1.277767539024353, + "learning_rate": 1.7659733333333336e-05, + "loss": 0.0414, + "step": 54850 + }, + { + "epoch": 0.351072, + "grad_norm": 0.16831985116004944, + "learning_rate": 1.765952e-05, + "loss": 0.0323, + "step": 54855 + }, + { + "epoch": 0.351104, + "grad_norm": 0.6862219572067261, + "learning_rate": 1.7659306666666668e-05, + "loss": 0.0332, + "step": 54860 + }, + { + "epoch": 0.351136, + "grad_norm": 0.8974136114120483, + "learning_rate": 1.7659093333333336e-05, + "loss": 0.0299, + "step": 54865 + }, + { + "epoch": 0.351168, + "grad_norm": 0.3126368522644043, + "learning_rate": 1.765888e-05, + "loss": 0.0355, + "step": 54870 + }, + { + "epoch": 0.3512, + "grad_norm": 0.5966681241989136, + "learning_rate": 1.7658666666666667e-05, + "loss": 0.049, + "step": 54875 + }, + { + "epoch": 0.351232, + "grad_norm": 0.21949057281017303, + "learning_rate": 1.7658453333333335e-05, + "loss": 0.0262, + "step": 54880 + }, + { + "epoch": 0.351264, + "grad_norm": 0.9686554074287415, + "learning_rate": 1.7658240000000003e-05, + "loss": 0.0483, + "step": 54885 + }, + { + "epoch": 0.351296, + "grad_norm": 0.764515221118927, + "learning_rate": 1.7658026666666667e-05, + "loss": 0.0478, + "step": 54890 + }, + { + "epoch": 0.351328, + "grad_norm": 0.3245716094970703, + "learning_rate": 1.7657813333333334e-05, + "loss": 0.0197, + "step": 54895 + }, + { + "epoch": 0.35136, + "grad_norm": 0.5449848771095276, + "learning_rate": 1.7657600000000002e-05, + "loss": 0.031, + "step": 54900 + }, + { + "epoch": 0.351392, + "grad_norm": 0.3941211998462677, + "learning_rate": 1.7657386666666666e-05, + "loss": 0.0244, + "step": 54905 + }, + { + "epoch": 0.351424, + "grad_norm": 0.3507653772830963, + "learning_rate": 1.7657173333333334e-05, + "loss": 0.035, + "step": 54910 + }, + { + "epoch": 0.351456, + "grad_norm": 0.5966718196868896, + "learning_rate": 1.765696e-05, + "loss": 0.0436, + "step": 54915 + }, + { + "epoch": 0.351488, + "grad_norm": 0.7366578578948975, + "learning_rate": 1.765674666666667e-05, + "loss": 0.0475, + "step": 54920 + }, + { + "epoch": 0.35152, + "grad_norm": 0.9958851337432861, + "learning_rate": 1.7656533333333333e-05, + "loss": 0.0421, + "step": 54925 + }, + { + "epoch": 0.351552, + "grad_norm": 0.4375532567501068, + "learning_rate": 1.7656320000000004e-05, + "loss": 0.0548, + "step": 54930 + }, + { + "epoch": 0.351584, + "grad_norm": 0.8164876699447632, + "learning_rate": 1.7656106666666668e-05, + "loss": 0.032, + "step": 54935 + }, + { + "epoch": 0.351616, + "grad_norm": 0.9871619343757629, + "learning_rate": 1.7655893333333332e-05, + "loss": 0.0863, + "step": 54940 + }, + { + "epoch": 0.351648, + "grad_norm": 0.4148957431316376, + "learning_rate": 1.7655680000000003e-05, + "loss": 0.0267, + "step": 54945 + }, + { + "epoch": 0.35168, + "grad_norm": 0.8904427886009216, + "learning_rate": 1.7655466666666667e-05, + "loss": 0.0523, + "step": 54950 + }, + { + "epoch": 0.351712, + "grad_norm": 0.49273839592933655, + "learning_rate": 1.7655253333333335e-05, + "loss": 0.0372, + "step": 54955 + }, + { + "epoch": 0.351744, + "grad_norm": 0.8210961222648621, + "learning_rate": 1.7655040000000002e-05, + "loss": 0.0283, + "step": 54960 + }, + { + "epoch": 0.351776, + "grad_norm": 0.33264100551605225, + "learning_rate": 1.765482666666667e-05, + "loss": 0.0378, + "step": 54965 + }, + { + "epoch": 0.351808, + "grad_norm": 2.398573398590088, + "learning_rate": 1.7654613333333334e-05, + "loss": 0.0498, + "step": 54970 + }, + { + "epoch": 0.35184, + "grad_norm": 0.6657434105873108, + "learning_rate": 1.76544e-05, + "loss": 0.0519, + "step": 54975 + }, + { + "epoch": 0.351872, + "grad_norm": 0.5207817554473877, + "learning_rate": 1.765418666666667e-05, + "loss": 0.0265, + "step": 54980 + }, + { + "epoch": 0.351904, + "grad_norm": 0.9944710731506348, + "learning_rate": 1.7653973333333333e-05, + "loss": 0.0336, + "step": 54985 + }, + { + "epoch": 0.351936, + "grad_norm": 1.7027307748794556, + "learning_rate": 1.765376e-05, + "loss": 0.0214, + "step": 54990 + }, + { + "epoch": 0.351968, + "grad_norm": 1.109243631362915, + "learning_rate": 1.765354666666667e-05, + "loss": 0.0434, + "step": 54995 + }, + { + "epoch": 0.352, + "grad_norm": 1.035243034362793, + "learning_rate": 1.7653333333333336e-05, + "loss": 0.0284, + "step": 55000 + }, + { + "epoch": 0.352032, + "grad_norm": 0.34563249349594116, + "learning_rate": 1.765312e-05, + "loss": 0.0242, + "step": 55005 + }, + { + "epoch": 0.352064, + "grad_norm": 0.747070848941803, + "learning_rate": 1.7652906666666668e-05, + "loss": 0.0397, + "step": 55010 + }, + { + "epoch": 0.352096, + "grad_norm": 0.7893965840339661, + "learning_rate": 1.7652693333333335e-05, + "loss": 0.042, + "step": 55015 + }, + { + "epoch": 0.352128, + "grad_norm": 0.5291373133659363, + "learning_rate": 1.765248e-05, + "loss": 0.0296, + "step": 55020 + }, + { + "epoch": 0.35216, + "grad_norm": 0.6233366131782532, + "learning_rate": 1.7652266666666667e-05, + "loss": 0.027, + "step": 55025 + }, + { + "epoch": 0.352192, + "grad_norm": 0.7514092326164246, + "learning_rate": 1.7652053333333335e-05, + "loss": 0.0329, + "step": 55030 + }, + { + "epoch": 0.352224, + "grad_norm": 0.7239487767219543, + "learning_rate": 1.7651840000000002e-05, + "loss": 0.0425, + "step": 55035 + }, + { + "epoch": 0.352256, + "grad_norm": 1.1637916564941406, + "learning_rate": 1.765162666666667e-05, + "loss": 0.0567, + "step": 55040 + }, + { + "epoch": 0.352288, + "grad_norm": 3.175644874572754, + "learning_rate": 1.7651413333333334e-05, + "loss": 0.0661, + "step": 55045 + }, + { + "epoch": 0.35232, + "grad_norm": 0.8767459392547607, + "learning_rate": 1.76512e-05, + "loss": 0.0385, + "step": 55050 + }, + { + "epoch": 0.352352, + "grad_norm": 0.32646986842155457, + "learning_rate": 1.765098666666667e-05, + "loss": 0.0231, + "step": 55055 + }, + { + "epoch": 0.352384, + "grad_norm": 0.9024741053581238, + "learning_rate": 1.7650773333333336e-05, + "loss": 0.0236, + "step": 55060 + }, + { + "epoch": 0.352416, + "grad_norm": 0.17372716963291168, + "learning_rate": 1.765056e-05, + "loss": 0.0232, + "step": 55065 + }, + { + "epoch": 0.352448, + "grad_norm": 0.7914860844612122, + "learning_rate": 1.7650346666666668e-05, + "loss": 0.035, + "step": 55070 + }, + { + "epoch": 0.35248, + "grad_norm": 0.5085288286209106, + "learning_rate": 1.7650133333333336e-05, + "loss": 0.0305, + "step": 55075 + }, + { + "epoch": 0.352512, + "grad_norm": 1.0230867862701416, + "learning_rate": 1.764992e-05, + "loss": 0.0811, + "step": 55080 + }, + { + "epoch": 0.352544, + "grad_norm": 0.6687695384025574, + "learning_rate": 1.7649706666666667e-05, + "loss": 0.0369, + "step": 55085 + }, + { + "epoch": 0.352576, + "grad_norm": 0.42202869057655334, + "learning_rate": 1.7649493333333335e-05, + "loss": 0.0328, + "step": 55090 + }, + { + "epoch": 0.352608, + "grad_norm": 0.5778581500053406, + "learning_rate": 1.7649280000000003e-05, + "loss": 0.0304, + "step": 55095 + }, + { + "epoch": 0.35264, + "grad_norm": 0.2947918176651001, + "learning_rate": 1.7649066666666667e-05, + "loss": 0.0412, + "step": 55100 + }, + { + "epoch": 0.352672, + "grad_norm": 0.4984048008918762, + "learning_rate": 1.7648853333333334e-05, + "loss": 0.0394, + "step": 55105 + }, + { + "epoch": 0.352704, + "grad_norm": 1.9508037567138672, + "learning_rate": 1.7648640000000002e-05, + "loss": 0.038, + "step": 55110 + }, + { + "epoch": 0.352736, + "grad_norm": 0.7365040183067322, + "learning_rate": 1.7648426666666666e-05, + "loss": 0.0462, + "step": 55115 + }, + { + "epoch": 0.352768, + "grad_norm": 1.5102216005325317, + "learning_rate": 1.7648213333333334e-05, + "loss": 0.0532, + "step": 55120 + }, + { + "epoch": 0.3528, + "grad_norm": 0.7863064408302307, + "learning_rate": 1.7648e-05, + "loss": 0.0192, + "step": 55125 + }, + { + "epoch": 0.352832, + "grad_norm": 0.27238452434539795, + "learning_rate": 1.764778666666667e-05, + "loss": 0.0343, + "step": 55130 + }, + { + "epoch": 0.352864, + "grad_norm": 0.9786924719810486, + "learning_rate": 1.7647573333333333e-05, + "loss": 0.0231, + "step": 55135 + }, + { + "epoch": 0.352896, + "grad_norm": 0.5262059569358826, + "learning_rate": 1.7647360000000004e-05, + "loss": 0.0412, + "step": 55140 + }, + { + "epoch": 0.352928, + "grad_norm": 0.559049665927887, + "learning_rate": 1.7647146666666668e-05, + "loss": 0.0367, + "step": 55145 + }, + { + "epoch": 0.35296, + "grad_norm": 0.727493166923523, + "learning_rate": 1.7646933333333332e-05, + "loss": 0.0483, + "step": 55150 + }, + { + "epoch": 0.352992, + "grad_norm": 1.0619192123413086, + "learning_rate": 1.7646720000000003e-05, + "loss": 0.0328, + "step": 55155 + }, + { + "epoch": 0.353024, + "grad_norm": 0.9395942687988281, + "learning_rate": 1.7646506666666667e-05, + "loss": 0.0456, + "step": 55160 + }, + { + "epoch": 0.353056, + "grad_norm": 1.4372512102127075, + "learning_rate": 1.7646293333333335e-05, + "loss": 0.0234, + "step": 55165 + }, + { + "epoch": 0.353088, + "grad_norm": 0.5753156542778015, + "learning_rate": 1.7646080000000002e-05, + "loss": 0.0265, + "step": 55170 + }, + { + "epoch": 0.35312, + "grad_norm": 0.5504276752471924, + "learning_rate": 1.764586666666667e-05, + "loss": 0.0404, + "step": 55175 + }, + { + "epoch": 0.353152, + "grad_norm": 0.8866788744926453, + "learning_rate": 1.7645653333333334e-05, + "loss": 0.0427, + "step": 55180 + }, + { + "epoch": 0.353184, + "grad_norm": 0.7139862775802612, + "learning_rate": 1.764544e-05, + "loss": 0.0305, + "step": 55185 + }, + { + "epoch": 0.353216, + "grad_norm": 0.22056612372398376, + "learning_rate": 1.764522666666667e-05, + "loss": 0.0458, + "step": 55190 + }, + { + "epoch": 0.353248, + "grad_norm": 0.9773193001747131, + "learning_rate": 1.7645013333333333e-05, + "loss": 0.0366, + "step": 55195 + }, + { + "epoch": 0.35328, + "grad_norm": 0.639076828956604, + "learning_rate": 1.76448e-05, + "loss": 0.0471, + "step": 55200 + }, + { + "epoch": 0.353312, + "grad_norm": 0.31227901577949524, + "learning_rate": 1.764458666666667e-05, + "loss": 0.0181, + "step": 55205 + }, + { + "epoch": 0.353344, + "grad_norm": 0.42205700278282166, + "learning_rate": 1.7644373333333336e-05, + "loss": 0.0333, + "step": 55210 + }, + { + "epoch": 0.353376, + "grad_norm": 1.3754174709320068, + "learning_rate": 1.764416e-05, + "loss": 0.0362, + "step": 55215 + }, + { + "epoch": 0.353408, + "grad_norm": 1.0567196607589722, + "learning_rate": 1.7643946666666668e-05, + "loss": 0.0504, + "step": 55220 + }, + { + "epoch": 0.35344, + "grad_norm": 0.4185958802700043, + "learning_rate": 1.7643733333333335e-05, + "loss": 0.0234, + "step": 55225 + }, + { + "epoch": 0.353472, + "grad_norm": 0.3954245150089264, + "learning_rate": 1.764352e-05, + "loss": 0.0353, + "step": 55230 + }, + { + "epoch": 0.353504, + "grad_norm": 0.12144529074430466, + "learning_rate": 1.7643306666666667e-05, + "loss": 0.0179, + "step": 55235 + }, + { + "epoch": 0.353536, + "grad_norm": 0.9456348419189453, + "learning_rate": 1.7643093333333335e-05, + "loss": 0.025, + "step": 55240 + }, + { + "epoch": 0.353568, + "grad_norm": 0.6786878705024719, + "learning_rate": 1.7642880000000002e-05, + "loss": 0.0501, + "step": 55245 + }, + { + "epoch": 0.3536, + "grad_norm": 0.939763605594635, + "learning_rate": 1.7642666666666666e-05, + "loss": 0.0265, + "step": 55250 + }, + { + "epoch": 0.353632, + "grad_norm": 1.2000434398651123, + "learning_rate": 1.7642453333333337e-05, + "loss": 0.035, + "step": 55255 + }, + { + "epoch": 0.353664, + "grad_norm": 0.4241712689399719, + "learning_rate": 1.764224e-05, + "loss": 0.0355, + "step": 55260 + }, + { + "epoch": 0.353696, + "grad_norm": 0.2920916974544525, + "learning_rate": 1.764202666666667e-05, + "loss": 0.0256, + "step": 55265 + }, + { + "epoch": 0.353728, + "grad_norm": 0.6202369928359985, + "learning_rate": 1.7641813333333336e-05, + "loss": 0.0503, + "step": 55270 + }, + { + "epoch": 0.35376, + "grad_norm": 0.7649930715560913, + "learning_rate": 1.76416e-05, + "loss": 0.0272, + "step": 55275 + }, + { + "epoch": 0.353792, + "grad_norm": 1.732906460762024, + "learning_rate": 1.7641386666666668e-05, + "loss": 0.0441, + "step": 55280 + }, + { + "epoch": 0.353824, + "grad_norm": 0.784919798374176, + "learning_rate": 1.7641173333333336e-05, + "loss": 0.0326, + "step": 55285 + }, + { + "epoch": 0.353856, + "grad_norm": 0.8005555272102356, + "learning_rate": 1.7640960000000003e-05, + "loss": 0.034, + "step": 55290 + }, + { + "epoch": 0.353888, + "grad_norm": 1.2071737051010132, + "learning_rate": 1.7640746666666667e-05, + "loss": 0.0459, + "step": 55295 + }, + { + "epoch": 0.35392, + "grad_norm": 1.2981218099594116, + "learning_rate": 1.7640533333333335e-05, + "loss": 0.0527, + "step": 55300 + }, + { + "epoch": 0.353952, + "grad_norm": 0.31275954842567444, + "learning_rate": 1.7640320000000003e-05, + "loss": 0.028, + "step": 55305 + }, + { + "epoch": 0.353984, + "grad_norm": 0.5205445885658264, + "learning_rate": 1.7640106666666667e-05, + "loss": 0.0455, + "step": 55310 + }, + { + "epoch": 0.354016, + "grad_norm": 0.5106126070022583, + "learning_rate": 1.7639893333333334e-05, + "loss": 0.0288, + "step": 55315 + }, + { + "epoch": 0.354048, + "grad_norm": 0.8873066306114197, + "learning_rate": 1.7639680000000002e-05, + "loss": 0.0476, + "step": 55320 + }, + { + "epoch": 0.35408, + "grad_norm": 0.4027576744556427, + "learning_rate": 1.763946666666667e-05, + "loss": 0.0335, + "step": 55325 + }, + { + "epoch": 0.354112, + "grad_norm": 0.40555649995803833, + "learning_rate": 1.7639253333333334e-05, + "loss": 0.0183, + "step": 55330 + }, + { + "epoch": 0.354144, + "grad_norm": 0.6766269207000732, + "learning_rate": 1.763904e-05, + "loss": 0.0302, + "step": 55335 + }, + { + "epoch": 0.354176, + "grad_norm": 2.038506031036377, + "learning_rate": 1.763882666666667e-05, + "loss": 0.0642, + "step": 55340 + }, + { + "epoch": 0.354208, + "grad_norm": 1.0088183879852295, + "learning_rate": 1.7638613333333333e-05, + "loss": 0.0438, + "step": 55345 + }, + { + "epoch": 0.35424, + "grad_norm": 0.6731407046318054, + "learning_rate": 1.7638400000000004e-05, + "loss": 0.0489, + "step": 55350 + }, + { + "epoch": 0.354272, + "grad_norm": 0.29906967282295227, + "learning_rate": 1.7638186666666668e-05, + "loss": 0.0285, + "step": 55355 + }, + { + "epoch": 0.354304, + "grad_norm": 0.2697986960411072, + "learning_rate": 1.7637973333333336e-05, + "loss": 0.0244, + "step": 55360 + }, + { + "epoch": 0.354336, + "grad_norm": 0.9717530012130737, + "learning_rate": 1.7637760000000003e-05, + "loss": 0.0521, + "step": 55365 + }, + { + "epoch": 0.354368, + "grad_norm": 0.4838680922985077, + "learning_rate": 1.7637546666666667e-05, + "loss": 0.0266, + "step": 55370 + }, + { + "epoch": 0.3544, + "grad_norm": 0.4580860435962677, + "learning_rate": 1.7637333333333335e-05, + "loss": 0.0259, + "step": 55375 + }, + { + "epoch": 0.354432, + "grad_norm": 0.10746364295482635, + "learning_rate": 1.7637120000000002e-05, + "loss": 0.0229, + "step": 55380 + }, + { + "epoch": 0.354464, + "grad_norm": 1.0142107009887695, + "learning_rate": 1.763690666666667e-05, + "loss": 0.0456, + "step": 55385 + }, + { + "epoch": 0.354496, + "grad_norm": 0.5458660125732422, + "learning_rate": 1.7636693333333334e-05, + "loss": 0.0377, + "step": 55390 + }, + { + "epoch": 0.354528, + "grad_norm": 0.9923191666603088, + "learning_rate": 1.763648e-05, + "loss": 0.0262, + "step": 55395 + }, + { + "epoch": 0.35456, + "grad_norm": 1.1706377267837524, + "learning_rate": 1.763626666666667e-05, + "loss": 0.0496, + "step": 55400 + }, + { + "epoch": 0.354592, + "grad_norm": 0.7648619413375854, + "learning_rate": 1.7636053333333333e-05, + "loss": 0.0328, + "step": 55405 + }, + { + "epoch": 0.354624, + "grad_norm": 0.5471388101577759, + "learning_rate": 1.763584e-05, + "loss": 0.0287, + "step": 55410 + }, + { + "epoch": 0.354656, + "grad_norm": 0.9032129645347595, + "learning_rate": 1.763562666666667e-05, + "loss": 0.0243, + "step": 55415 + }, + { + "epoch": 0.354688, + "grad_norm": 1.8847267627716064, + "learning_rate": 1.7635413333333336e-05, + "loss": 0.0434, + "step": 55420 + }, + { + "epoch": 0.35472, + "grad_norm": 0.6087816953659058, + "learning_rate": 1.76352e-05, + "loss": 0.0311, + "step": 55425 + }, + { + "epoch": 0.354752, + "grad_norm": 0.26501554250717163, + "learning_rate": 1.7634986666666668e-05, + "loss": 0.0295, + "step": 55430 + }, + { + "epoch": 0.354784, + "grad_norm": 0.5645708441734314, + "learning_rate": 1.7634773333333335e-05, + "loss": 0.0241, + "step": 55435 + }, + { + "epoch": 0.354816, + "grad_norm": 0.5918194055557251, + "learning_rate": 1.763456e-05, + "loss": 0.0412, + "step": 55440 + }, + { + "epoch": 0.354848, + "grad_norm": 0.4790065288543701, + "learning_rate": 1.7634346666666667e-05, + "loss": 0.035, + "step": 55445 + }, + { + "epoch": 0.35488, + "grad_norm": 0.8821227550506592, + "learning_rate": 1.7634133333333335e-05, + "loss": 0.0362, + "step": 55450 + }, + { + "epoch": 0.354912, + "grad_norm": 0.8036490082740784, + "learning_rate": 1.7633920000000002e-05, + "loss": 0.0534, + "step": 55455 + }, + { + "epoch": 0.354944, + "grad_norm": 0.7989916205406189, + "learning_rate": 1.7633706666666666e-05, + "loss": 0.0373, + "step": 55460 + }, + { + "epoch": 0.354976, + "grad_norm": 0.6541680693626404, + "learning_rate": 1.7633493333333337e-05, + "loss": 0.0363, + "step": 55465 + }, + { + "epoch": 0.355008, + "grad_norm": 0.7715553045272827, + "learning_rate": 1.763328e-05, + "loss": 0.0265, + "step": 55470 + }, + { + "epoch": 0.35504, + "grad_norm": 0.6049652695655823, + "learning_rate": 1.7633066666666666e-05, + "loss": 0.0491, + "step": 55475 + }, + { + "epoch": 0.355072, + "grad_norm": 0.47004395723342896, + "learning_rate": 1.7632853333333336e-05, + "loss": 0.0277, + "step": 55480 + }, + { + "epoch": 0.355104, + "grad_norm": 0.4372352361679077, + "learning_rate": 1.763264e-05, + "loss": 0.0307, + "step": 55485 + }, + { + "epoch": 0.355136, + "grad_norm": 0.6017101407051086, + "learning_rate": 1.7632426666666668e-05, + "loss": 0.0172, + "step": 55490 + }, + { + "epoch": 0.355168, + "grad_norm": 0.5181357860565186, + "learning_rate": 1.7632213333333336e-05, + "loss": 0.029, + "step": 55495 + }, + { + "epoch": 0.3552, + "grad_norm": 0.6282355189323425, + "learning_rate": 1.7632000000000003e-05, + "loss": 0.0229, + "step": 55500 + }, + { + "epoch": 0.355232, + "grad_norm": 1.6965099573135376, + "learning_rate": 1.7631786666666667e-05, + "loss": 0.0297, + "step": 55505 + }, + { + "epoch": 0.355264, + "grad_norm": 0.9775515198707581, + "learning_rate": 1.7631573333333335e-05, + "loss": 0.0547, + "step": 55510 + }, + { + "epoch": 0.355296, + "grad_norm": 0.633783221244812, + "learning_rate": 1.7631360000000003e-05, + "loss": 0.0434, + "step": 55515 + }, + { + "epoch": 0.355328, + "grad_norm": 1.6787834167480469, + "learning_rate": 1.7631146666666667e-05, + "loss": 0.0521, + "step": 55520 + }, + { + "epoch": 0.35536, + "grad_norm": 0.5495992302894592, + "learning_rate": 1.7630933333333334e-05, + "loss": 0.0341, + "step": 55525 + }, + { + "epoch": 0.355392, + "grad_norm": 0.7562491297721863, + "learning_rate": 1.7630720000000002e-05, + "loss": 0.0469, + "step": 55530 + }, + { + "epoch": 0.355424, + "grad_norm": 0.2987442910671234, + "learning_rate": 1.763050666666667e-05, + "loss": 0.0413, + "step": 55535 + }, + { + "epoch": 0.355456, + "grad_norm": 1.1441094875335693, + "learning_rate": 1.7630293333333334e-05, + "loss": 0.029, + "step": 55540 + }, + { + "epoch": 0.355488, + "grad_norm": 0.5179701447486877, + "learning_rate": 1.763008e-05, + "loss": 0.0273, + "step": 55545 + }, + { + "epoch": 0.35552, + "grad_norm": 0.5057882070541382, + "learning_rate": 1.762986666666667e-05, + "loss": 0.027, + "step": 55550 + }, + { + "epoch": 0.355552, + "grad_norm": 0.7201565504074097, + "learning_rate": 1.7629653333333333e-05, + "loss": 0.0513, + "step": 55555 + }, + { + "epoch": 0.355584, + "grad_norm": 1.7222702503204346, + "learning_rate": 1.7629440000000004e-05, + "loss": 0.0285, + "step": 55560 + }, + { + "epoch": 0.355616, + "grad_norm": 0.9053378701210022, + "learning_rate": 1.7629226666666668e-05, + "loss": 0.0422, + "step": 55565 + }, + { + "epoch": 0.355648, + "grad_norm": 1.176275610923767, + "learning_rate": 1.7629013333333336e-05, + "loss": 0.0459, + "step": 55570 + }, + { + "epoch": 0.35568, + "grad_norm": 0.6346878409385681, + "learning_rate": 1.7628800000000003e-05, + "loss": 0.0341, + "step": 55575 + }, + { + "epoch": 0.355712, + "grad_norm": 0.8665825724601746, + "learning_rate": 1.7628586666666667e-05, + "loss": 0.0325, + "step": 55580 + }, + { + "epoch": 0.355744, + "grad_norm": 0.7408865690231323, + "learning_rate": 1.7628373333333335e-05, + "loss": 0.0451, + "step": 55585 + }, + { + "epoch": 0.355776, + "grad_norm": 1.6660419702529907, + "learning_rate": 1.7628160000000002e-05, + "loss": 0.0282, + "step": 55590 + }, + { + "epoch": 0.355808, + "grad_norm": 1.066127061843872, + "learning_rate": 1.762794666666667e-05, + "loss": 0.024, + "step": 55595 + }, + { + "epoch": 0.35584, + "grad_norm": 1.0475959777832031, + "learning_rate": 1.7627733333333334e-05, + "loss": 0.0374, + "step": 55600 + }, + { + "epoch": 0.355872, + "grad_norm": 0.980393648147583, + "learning_rate": 1.762752e-05, + "loss": 0.0488, + "step": 55605 + }, + { + "epoch": 0.355904, + "grad_norm": 1.085440993309021, + "learning_rate": 1.762730666666667e-05, + "loss": 0.0545, + "step": 55610 + }, + { + "epoch": 0.355936, + "grad_norm": 0.26304683089256287, + "learning_rate": 1.7627093333333333e-05, + "loss": 0.0226, + "step": 55615 + }, + { + "epoch": 0.355968, + "grad_norm": 0.5370185971260071, + "learning_rate": 1.762688e-05, + "loss": 0.0346, + "step": 55620 + }, + { + "epoch": 0.356, + "grad_norm": 0.7487365007400513, + "learning_rate": 1.762666666666667e-05, + "loss": 0.0415, + "step": 55625 + }, + { + "epoch": 0.356032, + "grad_norm": 0.47438061237335205, + "learning_rate": 1.7626453333333336e-05, + "loss": 0.015, + "step": 55630 + }, + { + "epoch": 0.356064, + "grad_norm": 0.6624996662139893, + "learning_rate": 1.762624e-05, + "loss": 0.0443, + "step": 55635 + }, + { + "epoch": 0.356096, + "grad_norm": 0.5358006954193115, + "learning_rate": 1.7626026666666668e-05, + "loss": 0.0441, + "step": 55640 + }, + { + "epoch": 0.356128, + "grad_norm": 1.527565836906433, + "learning_rate": 1.7625813333333335e-05, + "loss": 0.0536, + "step": 55645 + }, + { + "epoch": 0.35616, + "grad_norm": 0.8297122716903687, + "learning_rate": 1.76256e-05, + "loss": 0.0497, + "step": 55650 + }, + { + "epoch": 0.356192, + "grad_norm": 0.9808732867240906, + "learning_rate": 1.7625386666666667e-05, + "loss": 0.0391, + "step": 55655 + }, + { + "epoch": 0.356224, + "grad_norm": 0.605838418006897, + "learning_rate": 1.7625173333333335e-05, + "loss": 0.024, + "step": 55660 + }, + { + "epoch": 0.356256, + "grad_norm": 0.6189633011817932, + "learning_rate": 1.7624960000000002e-05, + "loss": 0.0303, + "step": 55665 + }, + { + "epoch": 0.356288, + "grad_norm": 0.9182712435722351, + "learning_rate": 1.7624746666666666e-05, + "loss": 0.0626, + "step": 55670 + }, + { + "epoch": 0.35632, + "grad_norm": 0.46253499388694763, + "learning_rate": 1.7624533333333337e-05, + "loss": 0.0106, + "step": 55675 + }, + { + "epoch": 0.356352, + "grad_norm": 0.9593014717102051, + "learning_rate": 1.762432e-05, + "loss": 0.0263, + "step": 55680 + }, + { + "epoch": 0.356384, + "grad_norm": 0.2281000018119812, + "learning_rate": 1.7624106666666666e-05, + "loss": 0.0244, + "step": 55685 + }, + { + "epoch": 0.356416, + "grad_norm": 0.9909573793411255, + "learning_rate": 1.7623893333333336e-05, + "loss": 0.0487, + "step": 55690 + }, + { + "epoch": 0.356448, + "grad_norm": 2.1243326663970947, + "learning_rate": 1.762368e-05, + "loss": 0.0395, + "step": 55695 + }, + { + "epoch": 0.35648, + "grad_norm": 0.6077515482902527, + "learning_rate": 1.7623466666666668e-05, + "loss": 0.0346, + "step": 55700 + }, + { + "epoch": 0.356512, + "grad_norm": 0.28673261404037476, + "learning_rate": 1.7623253333333336e-05, + "loss": 0.0423, + "step": 55705 + }, + { + "epoch": 0.356544, + "grad_norm": 0.8457638025283813, + "learning_rate": 1.7623040000000003e-05, + "loss": 0.0533, + "step": 55710 + }, + { + "epoch": 0.356576, + "grad_norm": 1.8217741250991821, + "learning_rate": 1.7622826666666667e-05, + "loss": 0.0363, + "step": 55715 + }, + { + "epoch": 0.356608, + "grad_norm": 0.7257413268089294, + "learning_rate": 1.7622613333333335e-05, + "loss": 0.0245, + "step": 55720 + }, + { + "epoch": 0.35664, + "grad_norm": 0.20295964181423187, + "learning_rate": 1.7622400000000003e-05, + "loss": 0.0286, + "step": 55725 + }, + { + "epoch": 0.356672, + "grad_norm": 0.4638012647628784, + "learning_rate": 1.7622186666666667e-05, + "loss": 0.0261, + "step": 55730 + }, + { + "epoch": 0.356704, + "grad_norm": 0.5994292497634888, + "learning_rate": 1.7621973333333334e-05, + "loss": 0.0265, + "step": 55735 + }, + { + "epoch": 0.356736, + "grad_norm": 7.280639171600342, + "learning_rate": 1.7621760000000002e-05, + "loss": 0.0299, + "step": 55740 + }, + { + "epoch": 0.356768, + "grad_norm": 0.5711511373519897, + "learning_rate": 1.762154666666667e-05, + "loss": 0.0202, + "step": 55745 + }, + { + "epoch": 0.3568, + "grad_norm": 0.8199962377548218, + "learning_rate": 1.7621333333333334e-05, + "loss": 0.0303, + "step": 55750 + }, + { + "epoch": 0.356832, + "grad_norm": 0.49511009454727173, + "learning_rate": 1.762112e-05, + "loss": 0.0268, + "step": 55755 + }, + { + "epoch": 0.356864, + "grad_norm": 0.23655113577842712, + "learning_rate": 1.762090666666667e-05, + "loss": 0.0233, + "step": 55760 + }, + { + "epoch": 0.356896, + "grad_norm": 0.7951726317405701, + "learning_rate": 1.7620693333333333e-05, + "loss": 0.0363, + "step": 55765 + }, + { + "epoch": 0.356928, + "grad_norm": 2.0313773155212402, + "learning_rate": 1.762048e-05, + "loss": 0.0443, + "step": 55770 + }, + { + "epoch": 0.35696, + "grad_norm": 0.8145965337753296, + "learning_rate": 1.7620266666666668e-05, + "loss": 0.0448, + "step": 55775 + }, + { + "epoch": 0.356992, + "grad_norm": 5.352365493774414, + "learning_rate": 1.7620053333333336e-05, + "loss": 0.0408, + "step": 55780 + }, + { + "epoch": 0.357024, + "grad_norm": 1.0262961387634277, + "learning_rate": 1.7619840000000003e-05, + "loss": 0.0443, + "step": 55785 + }, + { + "epoch": 0.357056, + "grad_norm": 1.4578090906143188, + "learning_rate": 1.7619626666666667e-05, + "loss": 0.0554, + "step": 55790 + }, + { + "epoch": 0.357088, + "grad_norm": 0.4447305202484131, + "learning_rate": 1.7619413333333335e-05, + "loss": 0.0376, + "step": 55795 + }, + { + "epoch": 0.35712, + "grad_norm": 0.7771762013435364, + "learning_rate": 1.7619200000000002e-05, + "loss": 0.0278, + "step": 55800 + }, + { + "epoch": 0.357152, + "grad_norm": 0.7228366136550903, + "learning_rate": 1.761898666666667e-05, + "loss": 0.0278, + "step": 55805 + }, + { + "epoch": 0.357184, + "grad_norm": 1.4790452718734741, + "learning_rate": 1.7618773333333334e-05, + "loss": 0.028, + "step": 55810 + }, + { + "epoch": 0.357216, + "grad_norm": 0.735944390296936, + "learning_rate": 1.761856e-05, + "loss": 0.0264, + "step": 55815 + }, + { + "epoch": 0.357248, + "grad_norm": 0.9804598689079285, + "learning_rate": 1.761834666666667e-05, + "loss": 0.0343, + "step": 55820 + }, + { + "epoch": 0.35728, + "grad_norm": 0.744279682636261, + "learning_rate": 1.7618133333333333e-05, + "loss": 0.0301, + "step": 55825 + }, + { + "epoch": 0.357312, + "grad_norm": 0.5147714018821716, + "learning_rate": 1.761792e-05, + "loss": 0.0371, + "step": 55830 + }, + { + "epoch": 0.357344, + "grad_norm": 0.6567203998565674, + "learning_rate": 1.761770666666667e-05, + "loss": 0.0406, + "step": 55835 + }, + { + "epoch": 0.357376, + "grad_norm": 0.9848155975341797, + "learning_rate": 1.7617493333333336e-05, + "loss": 0.0277, + "step": 55840 + }, + { + "epoch": 0.357408, + "grad_norm": 0.3060632646083832, + "learning_rate": 1.761728e-05, + "loss": 0.0288, + "step": 55845 + }, + { + "epoch": 0.35744, + "grad_norm": 0.428570955991745, + "learning_rate": 1.7617066666666668e-05, + "loss": 0.0348, + "step": 55850 + }, + { + "epoch": 0.357472, + "grad_norm": 0.7518378496170044, + "learning_rate": 1.7616853333333335e-05, + "loss": 0.0553, + "step": 55855 + }, + { + "epoch": 0.357504, + "grad_norm": 1.0470112562179565, + "learning_rate": 1.761664e-05, + "loss": 0.0355, + "step": 55860 + }, + { + "epoch": 0.357536, + "grad_norm": 0.6732606291770935, + "learning_rate": 1.7616426666666667e-05, + "loss": 0.0224, + "step": 55865 + }, + { + "epoch": 0.357568, + "grad_norm": 0.8408316969871521, + "learning_rate": 1.7616213333333335e-05, + "loss": 0.0347, + "step": 55870 + }, + { + "epoch": 0.3576, + "grad_norm": 0.33195415139198303, + "learning_rate": 1.7616000000000002e-05, + "loss": 0.0369, + "step": 55875 + }, + { + "epoch": 0.357632, + "grad_norm": 0.7399237155914307, + "learning_rate": 1.7615786666666666e-05, + "loss": 0.0238, + "step": 55880 + }, + { + "epoch": 0.357664, + "grad_norm": 0.3751201331615448, + "learning_rate": 1.7615573333333337e-05, + "loss": 0.0289, + "step": 55885 + }, + { + "epoch": 0.357696, + "grad_norm": 0.7538349628448486, + "learning_rate": 1.761536e-05, + "loss": 0.0355, + "step": 55890 + }, + { + "epoch": 0.357728, + "grad_norm": 0.2614164650440216, + "learning_rate": 1.7615146666666666e-05, + "loss": 0.0273, + "step": 55895 + }, + { + "epoch": 0.35776, + "grad_norm": 0.8827175498008728, + "learning_rate": 1.7614933333333336e-05, + "loss": 0.0235, + "step": 55900 + }, + { + "epoch": 0.357792, + "grad_norm": 6.791207790374756, + "learning_rate": 1.761472e-05, + "loss": 0.0428, + "step": 55905 + }, + { + "epoch": 0.357824, + "grad_norm": 2.4378561973571777, + "learning_rate": 1.7614506666666668e-05, + "loss": 0.0552, + "step": 55910 + }, + { + "epoch": 0.357856, + "grad_norm": 1.0092118978500366, + "learning_rate": 1.7614293333333336e-05, + "loss": 0.0199, + "step": 55915 + }, + { + "epoch": 0.357888, + "grad_norm": 1.038285255432129, + "learning_rate": 1.7614080000000003e-05, + "loss": 0.0367, + "step": 55920 + }, + { + "epoch": 0.35792, + "grad_norm": 2.553349733352661, + "learning_rate": 1.7613866666666667e-05, + "loss": 0.0798, + "step": 55925 + }, + { + "epoch": 0.357952, + "grad_norm": 0.6239027380943298, + "learning_rate": 1.7613653333333335e-05, + "loss": 0.0505, + "step": 55930 + }, + { + "epoch": 0.357984, + "grad_norm": 0.7188767790794373, + "learning_rate": 1.7613440000000003e-05, + "loss": 0.0339, + "step": 55935 + }, + { + "epoch": 0.358016, + "grad_norm": 0.4385373294353485, + "learning_rate": 1.7613226666666667e-05, + "loss": 0.0211, + "step": 55940 + }, + { + "epoch": 0.358048, + "grad_norm": 0.9856671690940857, + "learning_rate": 1.7613013333333334e-05, + "loss": 0.0495, + "step": 55945 + }, + { + "epoch": 0.35808, + "grad_norm": 1.319376826286316, + "learning_rate": 1.7612800000000002e-05, + "loss": 0.0411, + "step": 55950 + }, + { + "epoch": 0.358112, + "grad_norm": 1.0031089782714844, + "learning_rate": 1.761258666666667e-05, + "loss": 0.0503, + "step": 55955 + }, + { + "epoch": 0.358144, + "grad_norm": 0.33571603894233704, + "learning_rate": 1.7612373333333334e-05, + "loss": 0.0388, + "step": 55960 + }, + { + "epoch": 0.358176, + "grad_norm": 0.5819968581199646, + "learning_rate": 1.761216e-05, + "loss": 0.0297, + "step": 55965 + }, + { + "epoch": 0.358208, + "grad_norm": 0.16814441978931427, + "learning_rate": 1.761194666666667e-05, + "loss": 0.0223, + "step": 55970 + }, + { + "epoch": 0.35824, + "grad_norm": 0.6372584700584412, + "learning_rate": 1.7611733333333333e-05, + "loss": 0.0317, + "step": 55975 + }, + { + "epoch": 0.358272, + "grad_norm": 1.028180480003357, + "learning_rate": 1.761152e-05, + "loss": 0.0711, + "step": 55980 + }, + { + "epoch": 0.358304, + "grad_norm": 1.573155403137207, + "learning_rate": 1.7611306666666668e-05, + "loss": 0.0405, + "step": 55985 + }, + { + "epoch": 0.358336, + "grad_norm": 0.5108604431152344, + "learning_rate": 1.7611093333333336e-05, + "loss": 0.0186, + "step": 55990 + }, + { + "epoch": 0.358368, + "grad_norm": 0.9402183294296265, + "learning_rate": 1.761088e-05, + "loss": 0.0361, + "step": 55995 + }, + { + "epoch": 0.3584, + "grad_norm": 1.3155208826065063, + "learning_rate": 1.7610666666666667e-05, + "loss": 0.0405, + "step": 56000 + }, + { + "epoch": 0.358432, + "grad_norm": 1.2130526304244995, + "learning_rate": 1.7610453333333335e-05, + "loss": 0.0492, + "step": 56005 + }, + { + "epoch": 0.358464, + "grad_norm": 1.720232605934143, + "learning_rate": 1.7610240000000002e-05, + "loss": 0.0272, + "step": 56010 + }, + { + "epoch": 0.358496, + "grad_norm": 0.8623472452163696, + "learning_rate": 1.761002666666667e-05, + "loss": 0.0408, + "step": 56015 + }, + { + "epoch": 0.358528, + "grad_norm": 0.7498850226402283, + "learning_rate": 1.7609813333333334e-05, + "loss": 0.0356, + "step": 56020 + }, + { + "epoch": 0.35856, + "grad_norm": 0.493495911359787, + "learning_rate": 1.76096e-05, + "loss": 0.0477, + "step": 56025 + }, + { + "epoch": 0.358592, + "grad_norm": 0.7700032591819763, + "learning_rate": 1.760938666666667e-05, + "loss": 0.0286, + "step": 56030 + }, + { + "epoch": 0.358624, + "grad_norm": 0.3224222660064697, + "learning_rate": 1.7609173333333333e-05, + "loss": 0.0249, + "step": 56035 + }, + { + "epoch": 0.358656, + "grad_norm": 0.5569453239440918, + "learning_rate": 1.760896e-05, + "loss": 0.0137, + "step": 56040 + }, + { + "epoch": 0.358688, + "grad_norm": 1.8928712606430054, + "learning_rate": 1.760874666666667e-05, + "loss": 0.0521, + "step": 56045 + }, + { + "epoch": 0.35872, + "grad_norm": 0.30662232637405396, + "learning_rate": 1.7608533333333336e-05, + "loss": 0.0221, + "step": 56050 + }, + { + "epoch": 0.358752, + "grad_norm": 0.36682942509651184, + "learning_rate": 1.760832e-05, + "loss": 0.0276, + "step": 56055 + }, + { + "epoch": 0.358784, + "grad_norm": 0.7323597073554993, + "learning_rate": 1.7608106666666668e-05, + "loss": 0.0261, + "step": 56060 + }, + { + "epoch": 0.358816, + "grad_norm": 0.262583464384079, + "learning_rate": 1.7607893333333335e-05, + "loss": 0.0209, + "step": 56065 + }, + { + "epoch": 0.358848, + "grad_norm": 3.0585827827453613, + "learning_rate": 1.7607680000000003e-05, + "loss": 0.0227, + "step": 56070 + }, + { + "epoch": 0.35888, + "grad_norm": 0.8181328177452087, + "learning_rate": 1.7607466666666667e-05, + "loss": 0.0627, + "step": 56075 + }, + { + "epoch": 0.358912, + "grad_norm": 0.47956177592277527, + "learning_rate": 1.7607253333333335e-05, + "loss": 0.024, + "step": 56080 + }, + { + "epoch": 0.358944, + "grad_norm": 0.7830243110656738, + "learning_rate": 1.7607040000000002e-05, + "loss": 0.0347, + "step": 56085 + }, + { + "epoch": 0.358976, + "grad_norm": 0.33548063039779663, + "learning_rate": 1.7606826666666666e-05, + "loss": 0.0271, + "step": 56090 + }, + { + "epoch": 0.359008, + "grad_norm": 0.8403048515319824, + "learning_rate": 1.7606613333333337e-05, + "loss": 0.0463, + "step": 56095 + }, + { + "epoch": 0.35904, + "grad_norm": 0.4505450129508972, + "learning_rate": 1.76064e-05, + "loss": 0.0351, + "step": 56100 + }, + { + "epoch": 0.359072, + "grad_norm": 0.9154593348503113, + "learning_rate": 1.760618666666667e-05, + "loss": 0.029, + "step": 56105 + }, + { + "epoch": 0.359104, + "grad_norm": 0.943916380405426, + "learning_rate": 1.7605973333333336e-05, + "loss": 0.0332, + "step": 56110 + }, + { + "epoch": 0.359136, + "grad_norm": 1.5044277906417847, + "learning_rate": 1.760576e-05, + "loss": 0.0343, + "step": 56115 + }, + { + "epoch": 0.359168, + "grad_norm": 0.2613522708415985, + "learning_rate": 1.7605546666666668e-05, + "loss": 0.019, + "step": 56120 + }, + { + "epoch": 0.3592, + "grad_norm": 0.3035714030265808, + "learning_rate": 1.7605333333333336e-05, + "loss": 0.0364, + "step": 56125 + }, + { + "epoch": 0.359232, + "grad_norm": 0.5547459721565247, + "learning_rate": 1.7605120000000003e-05, + "loss": 0.03, + "step": 56130 + }, + { + "epoch": 0.359264, + "grad_norm": 0.6235259771347046, + "learning_rate": 1.7604906666666667e-05, + "loss": 0.0329, + "step": 56135 + }, + { + "epoch": 0.359296, + "grad_norm": 0.377398818731308, + "learning_rate": 1.7604693333333335e-05, + "loss": 0.0239, + "step": 56140 + }, + { + "epoch": 0.359328, + "grad_norm": 1.1285388469696045, + "learning_rate": 1.7604480000000003e-05, + "loss": 0.0213, + "step": 56145 + }, + { + "epoch": 0.35936, + "grad_norm": 0.5146446228027344, + "learning_rate": 1.7604266666666667e-05, + "loss": 0.0582, + "step": 56150 + }, + { + "epoch": 0.359392, + "grad_norm": 0.9849786758422852, + "learning_rate": 1.7604053333333334e-05, + "loss": 0.0248, + "step": 56155 + }, + { + "epoch": 0.359424, + "grad_norm": 0.6911431550979614, + "learning_rate": 1.7603840000000002e-05, + "loss": 0.0127, + "step": 56160 + }, + { + "epoch": 0.359456, + "grad_norm": 0.6675006747245789, + "learning_rate": 1.760362666666667e-05, + "loss": 0.0248, + "step": 56165 + }, + { + "epoch": 0.359488, + "grad_norm": 282.7887878417969, + "learning_rate": 1.7603413333333334e-05, + "loss": 0.0663, + "step": 56170 + }, + { + "epoch": 0.35952, + "grad_norm": 0.5568810105323792, + "learning_rate": 1.76032e-05, + "loss": 0.0344, + "step": 56175 + }, + { + "epoch": 0.359552, + "grad_norm": 3.017932891845703, + "learning_rate": 1.760298666666667e-05, + "loss": 0.0441, + "step": 56180 + }, + { + "epoch": 0.359584, + "grad_norm": 0.5602774024009705, + "learning_rate": 1.7602773333333333e-05, + "loss": 0.0567, + "step": 56185 + }, + { + "epoch": 0.359616, + "grad_norm": 0.4965800940990448, + "learning_rate": 1.760256e-05, + "loss": 0.0234, + "step": 56190 + }, + { + "epoch": 0.359648, + "grad_norm": 1.0157805681228638, + "learning_rate": 1.7602346666666668e-05, + "loss": 0.0544, + "step": 56195 + }, + { + "epoch": 0.35968, + "grad_norm": 0.38966941833496094, + "learning_rate": 1.7602133333333336e-05, + "loss": 0.0651, + "step": 56200 + }, + { + "epoch": 0.359712, + "grad_norm": 0.2769553065299988, + "learning_rate": 1.760192e-05, + "loss": 0.0319, + "step": 56205 + }, + { + "epoch": 0.359744, + "grad_norm": 0.7273528575897217, + "learning_rate": 1.760170666666667e-05, + "loss": 0.0314, + "step": 56210 + }, + { + "epoch": 0.359776, + "grad_norm": 0.6271877288818359, + "learning_rate": 1.7601493333333335e-05, + "loss": 0.0444, + "step": 56215 + }, + { + "epoch": 0.359808, + "grad_norm": 0.975421667098999, + "learning_rate": 1.760128e-05, + "loss": 0.0398, + "step": 56220 + }, + { + "epoch": 0.35984, + "grad_norm": 0.20845229923725128, + "learning_rate": 1.760106666666667e-05, + "loss": 0.0279, + "step": 56225 + }, + { + "epoch": 0.359872, + "grad_norm": 0.39648494124412537, + "learning_rate": 1.7600853333333334e-05, + "loss": 0.0383, + "step": 56230 + }, + { + "epoch": 0.359904, + "grad_norm": 0.5336447954177856, + "learning_rate": 1.760064e-05, + "loss": 0.0314, + "step": 56235 + }, + { + "epoch": 0.359936, + "grad_norm": 0.3589753806591034, + "learning_rate": 1.760042666666667e-05, + "loss": 0.0232, + "step": 56240 + }, + { + "epoch": 0.359968, + "grad_norm": 0.9581975936889648, + "learning_rate": 1.7600213333333337e-05, + "loss": 0.0533, + "step": 56245 + }, + { + "epoch": 0.36, + "grad_norm": 1.2208572626113892, + "learning_rate": 1.76e-05, + "loss": 0.0454, + "step": 56250 + }, + { + "epoch": 0.360032, + "grad_norm": 0.8033435940742493, + "learning_rate": 1.759978666666667e-05, + "loss": 0.024, + "step": 56255 + }, + { + "epoch": 0.360064, + "grad_norm": 0.8306683897972107, + "learning_rate": 1.7599573333333336e-05, + "loss": 0.0333, + "step": 56260 + }, + { + "epoch": 0.360096, + "grad_norm": 0.30591127276420593, + "learning_rate": 1.759936e-05, + "loss": 0.0207, + "step": 56265 + }, + { + "epoch": 0.360128, + "grad_norm": 0.46184736490249634, + "learning_rate": 1.7599146666666668e-05, + "loss": 0.0453, + "step": 56270 + }, + { + "epoch": 0.36016, + "grad_norm": 0.6836392879486084, + "learning_rate": 1.7598933333333335e-05, + "loss": 0.0341, + "step": 56275 + }, + { + "epoch": 0.360192, + "grad_norm": 0.9475175738334656, + "learning_rate": 1.7598720000000003e-05, + "loss": 0.0424, + "step": 56280 + }, + { + "epoch": 0.360224, + "grad_norm": 0.5993724465370178, + "learning_rate": 1.7598506666666667e-05, + "loss": 0.0576, + "step": 56285 + }, + { + "epoch": 0.360256, + "grad_norm": 0.9708202481269836, + "learning_rate": 1.7598293333333335e-05, + "loss": 0.0453, + "step": 56290 + }, + { + "epoch": 0.360288, + "grad_norm": 0.7890786528587341, + "learning_rate": 1.7598080000000002e-05, + "loss": 0.0373, + "step": 56295 + }, + { + "epoch": 0.36032, + "grad_norm": 1.863412618637085, + "learning_rate": 1.7597866666666666e-05, + "loss": 0.0394, + "step": 56300 + }, + { + "epoch": 0.360352, + "grad_norm": 0.7430220246315002, + "learning_rate": 1.7597653333333334e-05, + "loss": 0.0206, + "step": 56305 + }, + { + "epoch": 0.360384, + "grad_norm": 0.4395260810852051, + "learning_rate": 1.759744e-05, + "loss": 0.0237, + "step": 56310 + }, + { + "epoch": 0.360416, + "grad_norm": 1.294354796409607, + "learning_rate": 1.759722666666667e-05, + "loss": 0.0659, + "step": 56315 + }, + { + "epoch": 0.360448, + "grad_norm": 0.2295161336660385, + "learning_rate": 1.7597013333333336e-05, + "loss": 0.036, + "step": 56320 + }, + { + "epoch": 0.36048, + "grad_norm": 0.8745458722114563, + "learning_rate": 1.75968e-05, + "loss": 0.051, + "step": 56325 + }, + { + "epoch": 0.360512, + "grad_norm": 0.49736329913139343, + "learning_rate": 1.7596586666666668e-05, + "loss": 0.0416, + "step": 56330 + }, + { + "epoch": 0.360544, + "grad_norm": 0.5165890455245972, + "learning_rate": 1.7596373333333336e-05, + "loss": 0.0238, + "step": 56335 + }, + { + "epoch": 0.360576, + "grad_norm": 1.658165693283081, + "learning_rate": 1.7596160000000003e-05, + "loss": 0.0225, + "step": 56340 + }, + { + "epoch": 0.360608, + "grad_norm": 0.6085872650146484, + "learning_rate": 1.7595946666666667e-05, + "loss": 0.0491, + "step": 56345 + }, + { + "epoch": 0.36064, + "grad_norm": 0.9066627025604248, + "learning_rate": 1.7595733333333335e-05, + "loss": 0.0434, + "step": 56350 + }, + { + "epoch": 0.360672, + "grad_norm": 3.36844539642334, + "learning_rate": 1.7595520000000003e-05, + "loss": 0.032, + "step": 56355 + }, + { + "epoch": 0.360704, + "grad_norm": 0.4024070203304291, + "learning_rate": 1.7595306666666667e-05, + "loss": 0.0346, + "step": 56360 + }, + { + "epoch": 0.360736, + "grad_norm": 0.45046207308769226, + "learning_rate": 1.7595093333333334e-05, + "loss": 0.0261, + "step": 56365 + }, + { + "epoch": 0.360768, + "grad_norm": 0.40039029717445374, + "learning_rate": 1.7594880000000002e-05, + "loss": 0.0311, + "step": 56370 + }, + { + "epoch": 0.3608, + "grad_norm": 2.0132253170013428, + "learning_rate": 1.759466666666667e-05, + "loss": 0.0387, + "step": 56375 + }, + { + "epoch": 0.360832, + "grad_norm": 0.3217414319515228, + "learning_rate": 1.7594453333333334e-05, + "loss": 0.0588, + "step": 56380 + }, + { + "epoch": 0.360864, + "grad_norm": 0.6697456240653992, + "learning_rate": 1.759424e-05, + "loss": 0.0355, + "step": 56385 + }, + { + "epoch": 0.360896, + "grad_norm": 0.7926381826400757, + "learning_rate": 1.759402666666667e-05, + "loss": 0.0364, + "step": 56390 + }, + { + "epoch": 0.360928, + "grad_norm": 0.17452147603034973, + "learning_rate": 1.7593813333333333e-05, + "loss": 0.0348, + "step": 56395 + }, + { + "epoch": 0.36096, + "grad_norm": 0.5548874139785767, + "learning_rate": 1.75936e-05, + "loss": 0.047, + "step": 56400 + }, + { + "epoch": 0.360992, + "grad_norm": 1.1947431564331055, + "learning_rate": 1.7593386666666668e-05, + "loss": 0.0326, + "step": 56405 + }, + { + "epoch": 0.361024, + "grad_norm": 0.14435617625713348, + "learning_rate": 1.7593173333333336e-05, + "loss": 0.041, + "step": 56410 + }, + { + "epoch": 0.361056, + "grad_norm": 0.6090179085731506, + "learning_rate": 1.759296e-05, + "loss": 0.0249, + "step": 56415 + }, + { + "epoch": 0.361088, + "grad_norm": 7.084600448608398, + "learning_rate": 1.759274666666667e-05, + "loss": 0.0406, + "step": 56420 + }, + { + "epoch": 0.36112, + "grad_norm": 0.4251895546913147, + "learning_rate": 1.7592533333333335e-05, + "loss": 0.0205, + "step": 56425 + }, + { + "epoch": 0.361152, + "grad_norm": 1.2659313678741455, + "learning_rate": 1.759232e-05, + "loss": 0.0601, + "step": 56430 + }, + { + "epoch": 0.361184, + "grad_norm": 0.35572680830955505, + "learning_rate": 1.759210666666667e-05, + "loss": 0.0188, + "step": 56435 + }, + { + "epoch": 0.361216, + "grad_norm": 1.000309705734253, + "learning_rate": 1.7591893333333334e-05, + "loss": 0.0427, + "step": 56440 + }, + { + "epoch": 0.361248, + "grad_norm": 1.1327017545700073, + "learning_rate": 1.759168e-05, + "loss": 0.0425, + "step": 56445 + }, + { + "epoch": 0.36128, + "grad_norm": 0.29070359468460083, + "learning_rate": 1.759146666666667e-05, + "loss": 0.0293, + "step": 56450 + }, + { + "epoch": 0.361312, + "grad_norm": 0.6388737559318542, + "learning_rate": 1.7591253333333337e-05, + "loss": 0.0424, + "step": 56455 + }, + { + "epoch": 0.361344, + "grad_norm": 0.8046150803565979, + "learning_rate": 1.759104e-05, + "loss": 0.0638, + "step": 56460 + }, + { + "epoch": 0.361376, + "grad_norm": 0.7359338998794556, + "learning_rate": 1.759082666666667e-05, + "loss": 0.0348, + "step": 56465 + }, + { + "epoch": 0.361408, + "grad_norm": 0.5318462252616882, + "learning_rate": 1.7590613333333336e-05, + "loss": 0.0293, + "step": 56470 + }, + { + "epoch": 0.36144, + "grad_norm": 0.7636978626251221, + "learning_rate": 1.75904e-05, + "loss": 0.0403, + "step": 56475 + }, + { + "epoch": 0.361472, + "grad_norm": 0.4935511648654938, + "learning_rate": 1.7590186666666668e-05, + "loss": 0.0313, + "step": 56480 + }, + { + "epoch": 0.361504, + "grad_norm": 0.8230474591255188, + "learning_rate": 1.7589973333333335e-05, + "loss": 0.0286, + "step": 56485 + }, + { + "epoch": 0.361536, + "grad_norm": 0.19808927178382874, + "learning_rate": 1.7589760000000003e-05, + "loss": 0.0359, + "step": 56490 + }, + { + "epoch": 0.361568, + "grad_norm": 0.35009974241256714, + "learning_rate": 1.7589546666666667e-05, + "loss": 0.0221, + "step": 56495 + }, + { + "epoch": 0.3616, + "grad_norm": 1.1067605018615723, + "learning_rate": 1.7589333333333335e-05, + "loss": 0.0334, + "step": 56500 + }, + { + "epoch": 0.361632, + "grad_norm": 1.0422314405441284, + "learning_rate": 1.7589120000000002e-05, + "loss": 0.0281, + "step": 56505 + }, + { + "epoch": 0.361664, + "grad_norm": 1.0563945770263672, + "learning_rate": 1.7588906666666666e-05, + "loss": 0.0308, + "step": 56510 + }, + { + "epoch": 0.361696, + "grad_norm": 1.1348721981048584, + "learning_rate": 1.7588693333333334e-05, + "loss": 0.0434, + "step": 56515 + }, + { + "epoch": 0.361728, + "grad_norm": 1.5320408344268799, + "learning_rate": 1.758848e-05, + "loss": 0.0325, + "step": 56520 + }, + { + "epoch": 0.36176, + "grad_norm": 0.8555018305778503, + "learning_rate": 1.758826666666667e-05, + "loss": 0.0269, + "step": 56525 + }, + { + "epoch": 0.361792, + "grad_norm": 1.0602487325668335, + "learning_rate": 1.7588053333333333e-05, + "loss": 0.0438, + "step": 56530 + }, + { + "epoch": 0.361824, + "grad_norm": 0.6910642385482788, + "learning_rate": 1.758784e-05, + "loss": 0.0214, + "step": 56535 + }, + { + "epoch": 0.361856, + "grad_norm": 2.9020004272460938, + "learning_rate": 1.7587626666666668e-05, + "loss": 0.0372, + "step": 56540 + }, + { + "epoch": 0.361888, + "grad_norm": 0.2854253649711609, + "learning_rate": 1.7587413333333336e-05, + "loss": 0.0389, + "step": 56545 + }, + { + "epoch": 0.36192, + "grad_norm": 0.5909274220466614, + "learning_rate": 1.7587200000000003e-05, + "loss": 0.0351, + "step": 56550 + }, + { + "epoch": 0.361952, + "grad_norm": 0.6773063540458679, + "learning_rate": 1.7586986666666667e-05, + "loss": 0.0645, + "step": 56555 + }, + { + "epoch": 0.361984, + "grad_norm": 0.793563187122345, + "learning_rate": 1.7586773333333335e-05, + "loss": 0.022, + "step": 56560 + }, + { + "epoch": 0.362016, + "grad_norm": 0.7000889778137207, + "learning_rate": 1.7586560000000003e-05, + "loss": 0.0203, + "step": 56565 + }, + { + "epoch": 0.362048, + "grad_norm": 0.7841629385948181, + "learning_rate": 1.7586346666666667e-05, + "loss": 0.0241, + "step": 56570 + }, + { + "epoch": 0.36208, + "grad_norm": 0.3546770215034485, + "learning_rate": 1.7586133333333334e-05, + "loss": 0.026, + "step": 56575 + }, + { + "epoch": 0.362112, + "grad_norm": 0.19987545907497406, + "learning_rate": 1.7585920000000002e-05, + "loss": 0.0377, + "step": 56580 + }, + { + "epoch": 0.362144, + "grad_norm": 0.30045878887176514, + "learning_rate": 1.758570666666667e-05, + "loss": 0.0276, + "step": 56585 + }, + { + "epoch": 0.362176, + "grad_norm": 0.7610515356063843, + "learning_rate": 1.7585493333333334e-05, + "loss": 0.0504, + "step": 56590 + }, + { + "epoch": 0.362208, + "grad_norm": 1.1241860389709473, + "learning_rate": 1.758528e-05, + "loss": 0.0227, + "step": 56595 + }, + { + "epoch": 0.36224, + "grad_norm": 5.255070686340332, + "learning_rate": 1.758506666666667e-05, + "loss": 0.0469, + "step": 56600 + }, + { + "epoch": 0.362272, + "grad_norm": 0.8151618838310242, + "learning_rate": 1.7584853333333333e-05, + "loss": 0.0379, + "step": 56605 + }, + { + "epoch": 0.362304, + "grad_norm": 2.391719102859497, + "learning_rate": 1.758464e-05, + "loss": 0.0452, + "step": 56610 + }, + { + "epoch": 0.362336, + "grad_norm": 0.810528039932251, + "learning_rate": 1.7584426666666668e-05, + "loss": 0.0367, + "step": 56615 + }, + { + "epoch": 0.362368, + "grad_norm": 0.44587141275405884, + "learning_rate": 1.7584213333333336e-05, + "loss": 0.0312, + "step": 56620 + }, + { + "epoch": 0.3624, + "grad_norm": 1.0898246765136719, + "learning_rate": 1.7584e-05, + "loss": 0.0298, + "step": 56625 + }, + { + "epoch": 0.362432, + "grad_norm": 1.5907737016677856, + "learning_rate": 1.758378666666667e-05, + "loss": 0.0577, + "step": 56630 + }, + { + "epoch": 0.362464, + "grad_norm": 0.6453900933265686, + "learning_rate": 1.7583573333333335e-05, + "loss": 0.0311, + "step": 56635 + }, + { + "epoch": 0.362496, + "grad_norm": 0.597888171672821, + "learning_rate": 1.758336e-05, + "loss": 0.0338, + "step": 56640 + }, + { + "epoch": 0.362528, + "grad_norm": 0.4977480471134186, + "learning_rate": 1.758314666666667e-05, + "loss": 0.0357, + "step": 56645 + }, + { + "epoch": 0.36256, + "grad_norm": 0.8595344424247742, + "learning_rate": 1.7582933333333334e-05, + "loss": 0.0418, + "step": 56650 + }, + { + "epoch": 0.362592, + "grad_norm": 0.5708819031715393, + "learning_rate": 1.758272e-05, + "loss": 0.0344, + "step": 56655 + }, + { + "epoch": 0.362624, + "grad_norm": 0.9524158239364624, + "learning_rate": 1.758250666666667e-05, + "loss": 0.0306, + "step": 56660 + }, + { + "epoch": 0.362656, + "grad_norm": 0.3550848066806793, + "learning_rate": 1.7582293333333337e-05, + "loss": 0.0233, + "step": 56665 + }, + { + "epoch": 0.362688, + "grad_norm": 0.7529328465461731, + "learning_rate": 1.758208e-05, + "loss": 0.0418, + "step": 56670 + }, + { + "epoch": 0.36272, + "grad_norm": 1.511913776397705, + "learning_rate": 1.758186666666667e-05, + "loss": 0.0581, + "step": 56675 + }, + { + "epoch": 0.362752, + "grad_norm": 0.8405972123146057, + "learning_rate": 1.7581653333333336e-05, + "loss": 0.0215, + "step": 56680 + }, + { + "epoch": 0.362784, + "grad_norm": 1.1716586351394653, + "learning_rate": 1.758144e-05, + "loss": 0.0276, + "step": 56685 + }, + { + "epoch": 0.362816, + "grad_norm": 2.2343900203704834, + "learning_rate": 1.7581226666666668e-05, + "loss": 0.0369, + "step": 56690 + }, + { + "epoch": 0.362848, + "grad_norm": 2.1235718727111816, + "learning_rate": 1.7581013333333335e-05, + "loss": 0.0462, + "step": 56695 + }, + { + "epoch": 0.36288, + "grad_norm": 0.9708746671676636, + "learning_rate": 1.7580800000000003e-05, + "loss": 0.0431, + "step": 56700 + }, + { + "epoch": 0.362912, + "grad_norm": 0.26982569694519043, + "learning_rate": 1.7580586666666667e-05, + "loss": 0.0388, + "step": 56705 + }, + { + "epoch": 0.362944, + "grad_norm": 0.6168819069862366, + "learning_rate": 1.7580373333333335e-05, + "loss": 0.0228, + "step": 56710 + }, + { + "epoch": 0.362976, + "grad_norm": 1.5739227533340454, + "learning_rate": 1.7580160000000002e-05, + "loss": 0.059, + "step": 56715 + }, + { + "epoch": 0.363008, + "grad_norm": 0.5163588523864746, + "learning_rate": 1.7579946666666666e-05, + "loss": 0.0353, + "step": 56720 + }, + { + "epoch": 0.36304, + "grad_norm": 0.6991429924964905, + "learning_rate": 1.7579733333333334e-05, + "loss": 0.0271, + "step": 56725 + }, + { + "epoch": 0.363072, + "grad_norm": 1.155282735824585, + "learning_rate": 1.757952e-05, + "loss": 0.0339, + "step": 56730 + }, + { + "epoch": 0.363104, + "grad_norm": 0.4868845045566559, + "learning_rate": 1.757930666666667e-05, + "loss": 0.0289, + "step": 56735 + }, + { + "epoch": 0.363136, + "grad_norm": 0.5211229920387268, + "learning_rate": 1.7579093333333333e-05, + "loss": 0.0233, + "step": 56740 + }, + { + "epoch": 0.363168, + "grad_norm": 0.766988217830658, + "learning_rate": 1.757888e-05, + "loss": 0.0341, + "step": 56745 + }, + { + "epoch": 0.3632, + "grad_norm": 0.45614537596702576, + "learning_rate": 1.7578666666666668e-05, + "loss": 0.025, + "step": 56750 + }, + { + "epoch": 0.363232, + "grad_norm": 0.5009462237358093, + "learning_rate": 1.7578453333333332e-05, + "loss": 0.0191, + "step": 56755 + }, + { + "epoch": 0.363264, + "grad_norm": 0.6593766808509827, + "learning_rate": 1.7578240000000003e-05, + "loss": 0.0374, + "step": 56760 + }, + { + "epoch": 0.363296, + "grad_norm": 0.695573091506958, + "learning_rate": 1.7578026666666667e-05, + "loss": 0.0446, + "step": 56765 + }, + { + "epoch": 0.363328, + "grad_norm": 1.3594825267791748, + "learning_rate": 1.7577813333333335e-05, + "loss": 0.0402, + "step": 56770 + }, + { + "epoch": 0.36336, + "grad_norm": 1.0972336530685425, + "learning_rate": 1.7577600000000003e-05, + "loss": 0.0397, + "step": 56775 + }, + { + "epoch": 0.363392, + "grad_norm": 0.5923780202865601, + "learning_rate": 1.7577386666666667e-05, + "loss": 0.0529, + "step": 56780 + }, + { + "epoch": 0.363424, + "grad_norm": 0.8822906017303467, + "learning_rate": 1.7577173333333334e-05, + "loss": 0.0488, + "step": 56785 + }, + { + "epoch": 0.363456, + "grad_norm": 0.5467674732208252, + "learning_rate": 1.7576960000000002e-05, + "loss": 0.0636, + "step": 56790 + }, + { + "epoch": 0.363488, + "grad_norm": 1.1388647556304932, + "learning_rate": 1.757674666666667e-05, + "loss": 0.0456, + "step": 56795 + }, + { + "epoch": 0.36352, + "grad_norm": 0.536949872970581, + "learning_rate": 1.7576533333333334e-05, + "loss": 0.0375, + "step": 56800 + }, + { + "epoch": 0.363552, + "grad_norm": 0.8834580779075623, + "learning_rate": 1.757632e-05, + "loss": 0.0407, + "step": 56805 + }, + { + "epoch": 0.363584, + "grad_norm": 0.23452912271022797, + "learning_rate": 1.757610666666667e-05, + "loss": 0.0503, + "step": 56810 + }, + { + "epoch": 0.363616, + "grad_norm": 0.6109299063682556, + "learning_rate": 1.7575893333333333e-05, + "loss": 0.0383, + "step": 56815 + }, + { + "epoch": 0.363648, + "grad_norm": 2.153757333755493, + "learning_rate": 1.757568e-05, + "loss": 0.0256, + "step": 56820 + }, + { + "epoch": 0.36368, + "grad_norm": 0.7188496589660645, + "learning_rate": 1.7575466666666668e-05, + "loss": 0.0513, + "step": 56825 + }, + { + "epoch": 0.363712, + "grad_norm": 1.146040439605713, + "learning_rate": 1.7575253333333336e-05, + "loss": 0.0501, + "step": 56830 + }, + { + "epoch": 0.363744, + "grad_norm": 1.1030747890472412, + "learning_rate": 1.757504e-05, + "loss": 0.0494, + "step": 56835 + }, + { + "epoch": 0.363776, + "grad_norm": 0.47199928760528564, + "learning_rate": 1.7574826666666667e-05, + "loss": 0.0198, + "step": 56840 + }, + { + "epoch": 0.363808, + "grad_norm": 0.9528992772102356, + "learning_rate": 1.7574613333333335e-05, + "loss": 0.0322, + "step": 56845 + }, + { + "epoch": 0.36384, + "grad_norm": 1.0032888650894165, + "learning_rate": 1.75744e-05, + "loss": 0.0221, + "step": 56850 + }, + { + "epoch": 0.363872, + "grad_norm": 0.5935430526733398, + "learning_rate": 1.757418666666667e-05, + "loss": 0.0402, + "step": 56855 + }, + { + "epoch": 0.363904, + "grad_norm": 1.060276746749878, + "learning_rate": 1.7573973333333334e-05, + "loss": 0.0454, + "step": 56860 + }, + { + "epoch": 0.363936, + "grad_norm": 0.2491796314716339, + "learning_rate": 1.757376e-05, + "loss": 0.0353, + "step": 56865 + }, + { + "epoch": 0.363968, + "grad_norm": 0.5469107627868652, + "learning_rate": 1.757354666666667e-05, + "loss": 0.0326, + "step": 56870 + }, + { + "epoch": 0.364, + "grad_norm": 0.625572919845581, + "learning_rate": 1.7573333333333337e-05, + "loss": 0.0551, + "step": 56875 + }, + { + "epoch": 0.364032, + "grad_norm": 0.4816157817840576, + "learning_rate": 1.757312e-05, + "loss": 0.018, + "step": 56880 + }, + { + "epoch": 0.364064, + "grad_norm": 1.6393816471099854, + "learning_rate": 1.757290666666667e-05, + "loss": 0.0532, + "step": 56885 + }, + { + "epoch": 0.364096, + "grad_norm": 0.8820055723190308, + "learning_rate": 1.7572693333333336e-05, + "loss": 0.0427, + "step": 56890 + }, + { + "epoch": 0.364128, + "grad_norm": 0.3590671718120575, + "learning_rate": 1.757248e-05, + "loss": 0.0201, + "step": 56895 + }, + { + "epoch": 0.36416, + "grad_norm": 0.14775435626506805, + "learning_rate": 1.7572266666666668e-05, + "loss": 0.0371, + "step": 56900 + }, + { + "epoch": 0.364192, + "grad_norm": 0.7612245678901672, + "learning_rate": 1.7572053333333335e-05, + "loss": 0.0249, + "step": 56905 + }, + { + "epoch": 0.364224, + "grad_norm": 0.8041478395462036, + "learning_rate": 1.7571840000000003e-05, + "loss": 0.0261, + "step": 56910 + }, + { + "epoch": 0.364256, + "grad_norm": 1.5366880893707275, + "learning_rate": 1.7571626666666667e-05, + "loss": 0.0437, + "step": 56915 + }, + { + "epoch": 0.364288, + "grad_norm": 1.061484694480896, + "learning_rate": 1.7571413333333335e-05, + "loss": 0.0431, + "step": 56920 + }, + { + "epoch": 0.36432, + "grad_norm": 0.6585330963134766, + "learning_rate": 1.7571200000000002e-05, + "loss": 0.0301, + "step": 56925 + }, + { + "epoch": 0.364352, + "grad_norm": 0.5953214168548584, + "learning_rate": 1.7570986666666666e-05, + "loss": 0.0364, + "step": 56930 + }, + { + "epoch": 0.364384, + "grad_norm": 0.29735371470451355, + "learning_rate": 1.7570773333333334e-05, + "loss": 0.0329, + "step": 56935 + }, + { + "epoch": 0.364416, + "grad_norm": 1.0207059383392334, + "learning_rate": 1.757056e-05, + "loss": 0.0436, + "step": 56940 + }, + { + "epoch": 0.364448, + "grad_norm": 0.8429813385009766, + "learning_rate": 1.757034666666667e-05, + "loss": 0.0244, + "step": 56945 + }, + { + "epoch": 0.36448, + "grad_norm": 1.0245978832244873, + "learning_rate": 1.7570133333333333e-05, + "loss": 0.0494, + "step": 56950 + }, + { + "epoch": 0.364512, + "grad_norm": 0.7215978503227234, + "learning_rate": 1.7569920000000004e-05, + "loss": 0.0457, + "step": 56955 + }, + { + "epoch": 0.364544, + "grad_norm": 0.5066633224487305, + "learning_rate": 1.7569706666666668e-05, + "loss": 0.0514, + "step": 56960 + }, + { + "epoch": 0.364576, + "grad_norm": 1.009023904800415, + "learning_rate": 1.7569493333333332e-05, + "loss": 0.0353, + "step": 56965 + }, + { + "epoch": 0.364608, + "grad_norm": 0.20454992353916168, + "learning_rate": 1.7569280000000003e-05, + "loss": 0.024, + "step": 56970 + }, + { + "epoch": 0.36464, + "grad_norm": 0.2607784867286682, + "learning_rate": 1.7569066666666667e-05, + "loss": 0.0401, + "step": 56975 + }, + { + "epoch": 0.364672, + "grad_norm": 0.36276018619537354, + "learning_rate": 1.7568853333333335e-05, + "loss": 0.0289, + "step": 56980 + }, + { + "epoch": 0.364704, + "grad_norm": 0.53264981508255, + "learning_rate": 1.7568640000000003e-05, + "loss": 0.0383, + "step": 56985 + }, + { + "epoch": 0.364736, + "grad_norm": 0.6761863827705383, + "learning_rate": 1.756842666666667e-05, + "loss": 0.0295, + "step": 56990 + }, + { + "epoch": 0.364768, + "grad_norm": 0.1335664689540863, + "learning_rate": 1.7568213333333334e-05, + "loss": 0.0188, + "step": 56995 + }, + { + "epoch": 0.3648, + "grad_norm": 0.6809622049331665, + "learning_rate": 1.7568000000000002e-05, + "loss": 0.0274, + "step": 57000 + }, + { + "epoch": 0.364832, + "grad_norm": 0.8436662554740906, + "learning_rate": 1.756778666666667e-05, + "loss": 0.0388, + "step": 57005 + }, + { + "epoch": 0.364864, + "grad_norm": 0.6165614724159241, + "learning_rate": 1.7567573333333334e-05, + "loss": 0.0386, + "step": 57010 + }, + { + "epoch": 0.364896, + "grad_norm": 0.8218975067138672, + "learning_rate": 1.756736e-05, + "loss": 0.0432, + "step": 57015 + }, + { + "epoch": 0.364928, + "grad_norm": 0.7800159454345703, + "learning_rate": 1.756714666666667e-05, + "loss": 0.0328, + "step": 57020 + }, + { + "epoch": 0.36496, + "grad_norm": 0.9142909646034241, + "learning_rate": 1.7566933333333336e-05, + "loss": 0.0296, + "step": 57025 + }, + { + "epoch": 0.364992, + "grad_norm": 0.7357533574104309, + "learning_rate": 1.756672e-05, + "loss": 0.0453, + "step": 57030 + }, + { + "epoch": 0.365024, + "grad_norm": 0.7036523222923279, + "learning_rate": 1.7566506666666668e-05, + "loss": 0.0348, + "step": 57035 + }, + { + "epoch": 0.365056, + "grad_norm": 0.5323914289474487, + "learning_rate": 1.7566293333333336e-05, + "loss": 0.0469, + "step": 57040 + }, + { + "epoch": 0.365088, + "grad_norm": 0.6945486068725586, + "learning_rate": 1.756608e-05, + "loss": 0.0335, + "step": 57045 + }, + { + "epoch": 0.36512, + "grad_norm": 1.267934799194336, + "learning_rate": 1.7565866666666667e-05, + "loss": 0.0419, + "step": 57050 + }, + { + "epoch": 0.365152, + "grad_norm": 0.6413191556930542, + "learning_rate": 1.7565653333333335e-05, + "loss": 0.0332, + "step": 57055 + }, + { + "epoch": 0.365184, + "grad_norm": 0.7492178082466125, + "learning_rate": 1.7565440000000002e-05, + "loss": 0.0245, + "step": 57060 + }, + { + "epoch": 0.365216, + "grad_norm": 2.0285511016845703, + "learning_rate": 1.7565226666666667e-05, + "loss": 0.0368, + "step": 57065 + }, + { + "epoch": 0.365248, + "grad_norm": 0.7462025284767151, + "learning_rate": 1.7565013333333334e-05, + "loss": 0.0305, + "step": 57070 + }, + { + "epoch": 0.36528, + "grad_norm": 0.6125056147575378, + "learning_rate": 1.75648e-05, + "loss": 0.0427, + "step": 57075 + }, + { + "epoch": 0.365312, + "grad_norm": 0.2582414746284485, + "learning_rate": 1.756458666666667e-05, + "loss": 0.0222, + "step": 57080 + }, + { + "epoch": 0.365344, + "grad_norm": 0.7899314165115356, + "learning_rate": 1.7564373333333337e-05, + "loss": 0.0426, + "step": 57085 + }, + { + "epoch": 0.365376, + "grad_norm": 0.6740725636482239, + "learning_rate": 1.756416e-05, + "loss": 0.0378, + "step": 57090 + }, + { + "epoch": 0.365408, + "grad_norm": 0.9323222041130066, + "learning_rate": 1.756394666666667e-05, + "loss": 0.0224, + "step": 57095 + }, + { + "epoch": 0.36544, + "grad_norm": 0.23381340503692627, + "learning_rate": 1.7563733333333336e-05, + "loss": 0.0313, + "step": 57100 + }, + { + "epoch": 0.365472, + "grad_norm": 2.0198850631713867, + "learning_rate": 1.756352e-05, + "loss": 0.0288, + "step": 57105 + }, + { + "epoch": 0.365504, + "grad_norm": 0.33583545684814453, + "learning_rate": 1.7563306666666668e-05, + "loss": 0.0284, + "step": 57110 + }, + { + "epoch": 0.365536, + "grad_norm": 0.5844046473503113, + "learning_rate": 1.7563093333333335e-05, + "loss": 0.0309, + "step": 57115 + }, + { + "epoch": 0.365568, + "grad_norm": 0.854874312877655, + "learning_rate": 1.7562880000000003e-05, + "loss": 0.0432, + "step": 57120 + }, + { + "epoch": 0.3656, + "grad_norm": 0.5018844604492188, + "learning_rate": 1.7562666666666667e-05, + "loss": 0.0388, + "step": 57125 + }, + { + "epoch": 0.365632, + "grad_norm": 0.6653871536254883, + "learning_rate": 1.7562453333333335e-05, + "loss": 0.032, + "step": 57130 + }, + { + "epoch": 0.365664, + "grad_norm": 0.2260781228542328, + "learning_rate": 1.7562240000000002e-05, + "loss": 0.0219, + "step": 57135 + }, + { + "epoch": 0.365696, + "grad_norm": 0.661969006061554, + "learning_rate": 1.7562026666666666e-05, + "loss": 0.0499, + "step": 57140 + }, + { + "epoch": 0.365728, + "grad_norm": 0.4056340456008911, + "learning_rate": 1.7561813333333334e-05, + "loss": 0.0269, + "step": 57145 + }, + { + "epoch": 0.36576, + "grad_norm": 0.9352213144302368, + "learning_rate": 1.75616e-05, + "loss": 0.0278, + "step": 57150 + }, + { + "epoch": 0.365792, + "grad_norm": 0.7740405797958374, + "learning_rate": 1.756138666666667e-05, + "loss": 0.0625, + "step": 57155 + }, + { + "epoch": 0.365824, + "grad_norm": 0.3660573363304138, + "learning_rate": 1.7561173333333333e-05, + "loss": 0.022, + "step": 57160 + }, + { + "epoch": 0.365856, + "grad_norm": 0.2771083116531372, + "learning_rate": 1.7560960000000004e-05, + "loss": 0.0215, + "step": 57165 + }, + { + "epoch": 0.365888, + "grad_norm": 0.7495211958885193, + "learning_rate": 1.7560746666666668e-05, + "loss": 0.0248, + "step": 57170 + }, + { + "epoch": 0.36592, + "grad_norm": 0.5863668918609619, + "learning_rate": 1.7560533333333332e-05, + "loss": 0.0586, + "step": 57175 + }, + { + "epoch": 0.365952, + "grad_norm": 0.6024004817008972, + "learning_rate": 1.7560320000000003e-05, + "loss": 0.0246, + "step": 57180 + }, + { + "epoch": 0.365984, + "grad_norm": 0.4125143587589264, + "learning_rate": 1.7560106666666668e-05, + "loss": 0.0326, + "step": 57185 + }, + { + "epoch": 0.366016, + "grad_norm": 0.8287150859832764, + "learning_rate": 1.7559893333333335e-05, + "loss": 0.0428, + "step": 57190 + }, + { + "epoch": 0.366048, + "grad_norm": 0.598203718662262, + "learning_rate": 1.7559680000000003e-05, + "loss": 0.0516, + "step": 57195 + }, + { + "epoch": 0.36608, + "grad_norm": 0.766633927822113, + "learning_rate": 1.755946666666667e-05, + "loss": 0.0342, + "step": 57200 + }, + { + "epoch": 0.366112, + "grad_norm": 1.1658276319503784, + "learning_rate": 1.7559253333333334e-05, + "loss": 0.0805, + "step": 57205 + }, + { + "epoch": 0.366144, + "grad_norm": 0.7593062520027161, + "learning_rate": 1.7559040000000002e-05, + "loss": 0.0302, + "step": 57210 + }, + { + "epoch": 0.366176, + "grad_norm": 0.8382272720336914, + "learning_rate": 1.755882666666667e-05, + "loss": 0.0188, + "step": 57215 + }, + { + "epoch": 0.366208, + "grad_norm": 0.5030533671379089, + "learning_rate": 1.7558613333333334e-05, + "loss": 0.0235, + "step": 57220 + }, + { + "epoch": 0.36624, + "grad_norm": 0.4342934191226959, + "learning_rate": 1.75584e-05, + "loss": 0.0242, + "step": 57225 + }, + { + "epoch": 0.366272, + "grad_norm": 0.3302158713340759, + "learning_rate": 1.755818666666667e-05, + "loss": 0.0349, + "step": 57230 + }, + { + "epoch": 0.366304, + "grad_norm": 0.9072867035865784, + "learning_rate": 1.7557973333333336e-05, + "loss": 0.0339, + "step": 57235 + }, + { + "epoch": 0.366336, + "grad_norm": 0.30383583903312683, + "learning_rate": 1.755776e-05, + "loss": 0.048, + "step": 57240 + }, + { + "epoch": 0.366368, + "grad_norm": 1.0788131952285767, + "learning_rate": 1.7557546666666668e-05, + "loss": 0.031, + "step": 57245 + }, + { + "epoch": 0.3664, + "grad_norm": 0.25546735525131226, + "learning_rate": 1.7557333333333336e-05, + "loss": 0.025, + "step": 57250 + }, + { + "epoch": 0.366432, + "grad_norm": 0.6139549612998962, + "learning_rate": 1.755712e-05, + "loss": 0.0487, + "step": 57255 + }, + { + "epoch": 0.366464, + "grad_norm": 0.8497748374938965, + "learning_rate": 1.7556906666666667e-05, + "loss": 0.0266, + "step": 57260 + }, + { + "epoch": 0.366496, + "grad_norm": 0.4445045590400696, + "learning_rate": 1.7556693333333335e-05, + "loss": 0.0354, + "step": 57265 + }, + { + "epoch": 0.366528, + "grad_norm": 0.8910650014877319, + "learning_rate": 1.7556480000000002e-05, + "loss": 0.0392, + "step": 57270 + }, + { + "epoch": 0.36656, + "grad_norm": 0.6469721794128418, + "learning_rate": 1.7556266666666667e-05, + "loss": 0.0658, + "step": 57275 + }, + { + "epoch": 0.366592, + "grad_norm": 1.343092679977417, + "learning_rate": 1.7556053333333334e-05, + "loss": 0.0487, + "step": 57280 + }, + { + "epoch": 0.366624, + "grad_norm": 0.32501059770584106, + "learning_rate": 1.755584e-05, + "loss": 0.0595, + "step": 57285 + }, + { + "epoch": 0.366656, + "grad_norm": 0.37240514159202576, + "learning_rate": 1.7555626666666666e-05, + "loss": 0.0275, + "step": 57290 + }, + { + "epoch": 0.366688, + "grad_norm": 2.0531058311462402, + "learning_rate": 1.7555413333333337e-05, + "loss": 0.051, + "step": 57295 + }, + { + "epoch": 0.36672, + "grad_norm": 0.43033039569854736, + "learning_rate": 1.75552e-05, + "loss": 0.0347, + "step": 57300 + }, + { + "epoch": 0.366752, + "grad_norm": 0.5432048439979553, + "learning_rate": 1.755498666666667e-05, + "loss": 0.0277, + "step": 57305 + }, + { + "epoch": 0.366784, + "grad_norm": 1.0662057399749756, + "learning_rate": 1.7554773333333336e-05, + "loss": 0.0363, + "step": 57310 + }, + { + "epoch": 0.366816, + "grad_norm": 0.7686658501625061, + "learning_rate": 1.755456e-05, + "loss": 0.0294, + "step": 57315 + }, + { + "epoch": 0.366848, + "grad_norm": 0.33734720945358276, + "learning_rate": 1.7554346666666668e-05, + "loss": 0.0381, + "step": 57320 + }, + { + "epoch": 0.36688, + "grad_norm": 1.0032302141189575, + "learning_rate": 1.7554133333333335e-05, + "loss": 0.0333, + "step": 57325 + }, + { + "epoch": 0.366912, + "grad_norm": 0.9332324862480164, + "learning_rate": 1.7553920000000003e-05, + "loss": 0.0641, + "step": 57330 + }, + { + "epoch": 0.366944, + "grad_norm": 0.2117735594511032, + "learning_rate": 1.7553706666666667e-05, + "loss": 0.0301, + "step": 57335 + }, + { + "epoch": 0.366976, + "grad_norm": 0.627519965171814, + "learning_rate": 1.7553493333333335e-05, + "loss": 0.0196, + "step": 57340 + }, + { + "epoch": 0.367008, + "grad_norm": 1.6681872606277466, + "learning_rate": 1.7553280000000002e-05, + "loss": 0.0467, + "step": 57345 + }, + { + "epoch": 0.36704, + "grad_norm": 0.37641507387161255, + "learning_rate": 1.7553066666666666e-05, + "loss": 0.0568, + "step": 57350 + }, + { + "epoch": 0.367072, + "grad_norm": 3.5306031703948975, + "learning_rate": 1.7552853333333334e-05, + "loss": 0.0341, + "step": 57355 + }, + { + "epoch": 0.367104, + "grad_norm": 2.559474229812622, + "learning_rate": 1.755264e-05, + "loss": 0.0418, + "step": 57360 + }, + { + "epoch": 0.367136, + "grad_norm": 0.7234674096107483, + "learning_rate": 1.755242666666667e-05, + "loss": 0.0329, + "step": 57365 + }, + { + "epoch": 0.367168, + "grad_norm": 1.5130847692489624, + "learning_rate": 1.7552213333333333e-05, + "loss": 0.0289, + "step": 57370 + }, + { + "epoch": 0.3672, + "grad_norm": 1.593296766281128, + "learning_rate": 1.7552e-05, + "loss": 0.0297, + "step": 57375 + }, + { + "epoch": 0.367232, + "grad_norm": 0.8178336024284363, + "learning_rate": 1.7551786666666668e-05, + "loss": 0.0409, + "step": 57380 + }, + { + "epoch": 0.367264, + "grad_norm": 0.651494026184082, + "learning_rate": 1.7551573333333332e-05, + "loss": 0.0886, + "step": 57385 + }, + { + "epoch": 0.367296, + "grad_norm": 0.2614116072654724, + "learning_rate": 1.7551360000000003e-05, + "loss": 0.025, + "step": 57390 + }, + { + "epoch": 0.367328, + "grad_norm": 0.6888180375099182, + "learning_rate": 1.7551146666666668e-05, + "loss": 0.0289, + "step": 57395 + }, + { + "epoch": 0.36736, + "grad_norm": 2.5062613487243652, + "learning_rate": 1.7550933333333335e-05, + "loss": 0.0478, + "step": 57400 + }, + { + "epoch": 0.367392, + "grad_norm": 0.45805346965789795, + "learning_rate": 1.7550720000000003e-05, + "loss": 0.0243, + "step": 57405 + }, + { + "epoch": 0.367424, + "grad_norm": 0.04509710147976875, + "learning_rate": 1.755050666666667e-05, + "loss": 0.0206, + "step": 57410 + }, + { + "epoch": 0.367456, + "grad_norm": 0.4840536415576935, + "learning_rate": 1.7550293333333334e-05, + "loss": 0.0458, + "step": 57415 + }, + { + "epoch": 0.367488, + "grad_norm": 0.16609008610248566, + "learning_rate": 1.7550080000000002e-05, + "loss": 0.017, + "step": 57420 + }, + { + "epoch": 0.36752, + "grad_norm": 0.8867462277412415, + "learning_rate": 1.754986666666667e-05, + "loss": 0.0211, + "step": 57425 + }, + { + "epoch": 0.367552, + "grad_norm": 0.6929289698600769, + "learning_rate": 1.7549653333333334e-05, + "loss": 0.0267, + "step": 57430 + }, + { + "epoch": 0.367584, + "grad_norm": 0.8263984322547913, + "learning_rate": 1.754944e-05, + "loss": 0.0302, + "step": 57435 + }, + { + "epoch": 0.367616, + "grad_norm": 1.4173519611358643, + "learning_rate": 1.754922666666667e-05, + "loss": 0.0496, + "step": 57440 + }, + { + "epoch": 0.367648, + "grad_norm": 0.8709995150566101, + "learning_rate": 1.7549013333333336e-05, + "loss": 0.0419, + "step": 57445 + }, + { + "epoch": 0.36768, + "grad_norm": 0.8300777077674866, + "learning_rate": 1.75488e-05, + "loss": 0.0454, + "step": 57450 + }, + { + "epoch": 0.367712, + "grad_norm": 0.6789527535438538, + "learning_rate": 1.7548586666666668e-05, + "loss": 0.0255, + "step": 57455 + }, + { + "epoch": 0.367744, + "grad_norm": 2.9007344245910645, + "learning_rate": 1.7548373333333336e-05, + "loss": 0.0309, + "step": 57460 + }, + { + "epoch": 0.367776, + "grad_norm": 0.7091179490089417, + "learning_rate": 1.754816e-05, + "loss": 0.0373, + "step": 57465 + }, + { + "epoch": 0.367808, + "grad_norm": 0.40786123275756836, + "learning_rate": 1.7547946666666667e-05, + "loss": 0.0269, + "step": 57470 + }, + { + "epoch": 0.36784, + "grad_norm": 0.9750655889511108, + "learning_rate": 1.7547733333333335e-05, + "loss": 0.0311, + "step": 57475 + }, + { + "epoch": 0.367872, + "grad_norm": 0.5058706998825073, + "learning_rate": 1.7547520000000002e-05, + "loss": 0.0619, + "step": 57480 + }, + { + "epoch": 0.367904, + "grad_norm": 0.5251226425170898, + "learning_rate": 1.7547306666666667e-05, + "loss": 0.0306, + "step": 57485 + }, + { + "epoch": 0.367936, + "grad_norm": 0.5092213749885559, + "learning_rate": 1.7547093333333334e-05, + "loss": 0.0452, + "step": 57490 + }, + { + "epoch": 0.367968, + "grad_norm": 1.014393925666809, + "learning_rate": 1.754688e-05, + "loss": 0.0451, + "step": 57495 + }, + { + "epoch": 0.368, + "grad_norm": 0.34066981077194214, + "learning_rate": 1.7546666666666666e-05, + "loss": 0.0271, + "step": 57500 + }, + { + "epoch": 0.368032, + "grad_norm": 0.405579149723053, + "learning_rate": 1.7546453333333337e-05, + "loss": 0.0388, + "step": 57505 + }, + { + "epoch": 0.368064, + "grad_norm": 0.9981136322021484, + "learning_rate": 1.754624e-05, + "loss": 0.0274, + "step": 57510 + }, + { + "epoch": 0.368096, + "grad_norm": 0.9420211911201477, + "learning_rate": 1.754602666666667e-05, + "loss": 0.029, + "step": 57515 + }, + { + "epoch": 0.368128, + "grad_norm": 0.9048886299133301, + "learning_rate": 1.7545813333333336e-05, + "loss": 0.0279, + "step": 57520 + }, + { + "epoch": 0.36816, + "grad_norm": 0.5264049172401428, + "learning_rate": 1.75456e-05, + "loss": 0.0333, + "step": 57525 + }, + { + "epoch": 0.368192, + "grad_norm": 0.6504436135292053, + "learning_rate": 1.7545386666666668e-05, + "loss": 0.0421, + "step": 57530 + }, + { + "epoch": 0.368224, + "grad_norm": 1.2186254262924194, + "learning_rate": 1.7545173333333335e-05, + "loss": 0.0366, + "step": 57535 + }, + { + "epoch": 0.368256, + "grad_norm": 0.6696145534515381, + "learning_rate": 1.7544960000000003e-05, + "loss": 0.0249, + "step": 57540 + }, + { + "epoch": 0.368288, + "grad_norm": 0.7953605651855469, + "learning_rate": 1.7544746666666667e-05, + "loss": 0.0278, + "step": 57545 + }, + { + "epoch": 0.36832, + "grad_norm": 0.6975982785224915, + "learning_rate": 1.7544533333333335e-05, + "loss": 0.0209, + "step": 57550 + }, + { + "epoch": 0.368352, + "grad_norm": 1.569299340248108, + "learning_rate": 1.7544320000000002e-05, + "loss": 0.0289, + "step": 57555 + }, + { + "epoch": 0.368384, + "grad_norm": 3.056201696395874, + "learning_rate": 1.7544106666666666e-05, + "loss": 0.0266, + "step": 57560 + }, + { + "epoch": 0.368416, + "grad_norm": 0.6179287433624268, + "learning_rate": 1.7543893333333334e-05, + "loss": 0.0393, + "step": 57565 + }, + { + "epoch": 0.368448, + "grad_norm": 1.0063363313674927, + "learning_rate": 1.754368e-05, + "loss": 0.0352, + "step": 57570 + }, + { + "epoch": 0.36848, + "grad_norm": 0.10183538496494293, + "learning_rate": 1.754346666666667e-05, + "loss": 0.0324, + "step": 57575 + }, + { + "epoch": 0.368512, + "grad_norm": 0.4620700478553772, + "learning_rate": 1.7543253333333333e-05, + "loss": 0.0606, + "step": 57580 + }, + { + "epoch": 0.368544, + "grad_norm": 1.5229231119155884, + "learning_rate": 1.754304e-05, + "loss": 0.047, + "step": 57585 + }, + { + "epoch": 0.368576, + "grad_norm": 0.5416574478149414, + "learning_rate": 1.7542826666666668e-05, + "loss": 0.0439, + "step": 57590 + }, + { + "epoch": 0.368608, + "grad_norm": 0.49059534072875977, + "learning_rate": 1.7542613333333332e-05, + "loss": 0.0323, + "step": 57595 + }, + { + "epoch": 0.36864, + "grad_norm": 0.16208703815937042, + "learning_rate": 1.75424e-05, + "loss": 0.0332, + "step": 57600 + }, + { + "epoch": 0.368672, + "grad_norm": 0.3401520252227783, + "learning_rate": 1.7542186666666668e-05, + "loss": 0.033, + "step": 57605 + }, + { + "epoch": 0.368704, + "grad_norm": 0.39446550607681274, + "learning_rate": 1.7541973333333335e-05, + "loss": 0.0405, + "step": 57610 + }, + { + "epoch": 0.368736, + "grad_norm": 1.0335675477981567, + "learning_rate": 1.7541760000000003e-05, + "loss": 0.0278, + "step": 57615 + }, + { + "epoch": 0.368768, + "grad_norm": 1.5750116109848022, + "learning_rate": 1.754154666666667e-05, + "loss": 0.0344, + "step": 57620 + }, + { + "epoch": 0.3688, + "grad_norm": 0.41517403721809387, + "learning_rate": 1.7541333333333334e-05, + "loss": 0.0269, + "step": 57625 + }, + { + "epoch": 0.368832, + "grad_norm": 0.7937713265419006, + "learning_rate": 1.7541120000000002e-05, + "loss": 0.0245, + "step": 57630 + }, + { + "epoch": 0.368864, + "grad_norm": 0.6034401655197144, + "learning_rate": 1.754090666666667e-05, + "loss": 0.0442, + "step": 57635 + }, + { + "epoch": 0.368896, + "grad_norm": 0.18350785970687866, + "learning_rate": 1.7540693333333334e-05, + "loss": 0.0286, + "step": 57640 + }, + { + "epoch": 0.368928, + "grad_norm": 0.3771771490573883, + "learning_rate": 1.754048e-05, + "loss": 0.0192, + "step": 57645 + }, + { + "epoch": 0.36896, + "grad_norm": 0.7303369045257568, + "learning_rate": 1.754026666666667e-05, + "loss": 0.0319, + "step": 57650 + }, + { + "epoch": 0.368992, + "grad_norm": 1.562025785446167, + "learning_rate": 1.7540053333333336e-05, + "loss": 0.0422, + "step": 57655 + }, + { + "epoch": 0.369024, + "grad_norm": 0.4814775288105011, + "learning_rate": 1.753984e-05, + "loss": 0.0469, + "step": 57660 + }, + { + "epoch": 0.369056, + "grad_norm": 0.7995215058326721, + "learning_rate": 1.7539626666666668e-05, + "loss": 0.0272, + "step": 57665 + }, + { + "epoch": 0.369088, + "grad_norm": 0.17222826182842255, + "learning_rate": 1.7539413333333336e-05, + "loss": 0.0166, + "step": 57670 + }, + { + "epoch": 0.36912, + "grad_norm": 0.43136581778526306, + "learning_rate": 1.75392e-05, + "loss": 0.0225, + "step": 57675 + }, + { + "epoch": 0.369152, + "grad_norm": 0.40997394919395447, + "learning_rate": 1.7538986666666667e-05, + "loss": 0.0232, + "step": 57680 + }, + { + "epoch": 0.369184, + "grad_norm": 0.5162134170532227, + "learning_rate": 1.7538773333333335e-05, + "loss": 0.0243, + "step": 57685 + }, + { + "epoch": 0.369216, + "grad_norm": 0.8059408068656921, + "learning_rate": 1.7538560000000002e-05, + "loss": 0.0265, + "step": 57690 + }, + { + "epoch": 0.369248, + "grad_norm": 1.3123832941055298, + "learning_rate": 1.7538346666666667e-05, + "loss": 0.0614, + "step": 57695 + }, + { + "epoch": 0.36928, + "grad_norm": 0.3729178011417389, + "learning_rate": 1.7538133333333334e-05, + "loss": 0.0358, + "step": 57700 + }, + { + "epoch": 0.369312, + "grad_norm": 0.5652621984481812, + "learning_rate": 1.753792e-05, + "loss": 0.0316, + "step": 57705 + }, + { + "epoch": 0.369344, + "grad_norm": 0.3066122829914093, + "learning_rate": 1.7537706666666666e-05, + "loss": 0.0126, + "step": 57710 + }, + { + "epoch": 0.369376, + "grad_norm": 1.0109680891036987, + "learning_rate": 1.7537493333333337e-05, + "loss": 0.0444, + "step": 57715 + }, + { + "epoch": 0.369408, + "grad_norm": 1.00994873046875, + "learning_rate": 1.753728e-05, + "loss": 0.0325, + "step": 57720 + }, + { + "epoch": 0.36944, + "grad_norm": 1.7805743217468262, + "learning_rate": 1.753706666666667e-05, + "loss": 0.0589, + "step": 57725 + }, + { + "epoch": 0.369472, + "grad_norm": 0.7710382342338562, + "learning_rate": 1.7536853333333336e-05, + "loss": 0.035, + "step": 57730 + }, + { + "epoch": 0.369504, + "grad_norm": 0.4938361942768097, + "learning_rate": 1.753664e-05, + "loss": 0.0194, + "step": 57735 + }, + { + "epoch": 0.369536, + "grad_norm": 0.1596745103597641, + "learning_rate": 1.7536426666666668e-05, + "loss": 0.0305, + "step": 57740 + }, + { + "epoch": 0.369568, + "grad_norm": 0.488576203584671, + "learning_rate": 1.7536213333333335e-05, + "loss": 0.0111, + "step": 57745 + }, + { + "epoch": 0.3696, + "grad_norm": 0.7718531489372253, + "learning_rate": 1.7536000000000003e-05, + "loss": 0.0394, + "step": 57750 + }, + { + "epoch": 0.369632, + "grad_norm": 1.0997692346572876, + "learning_rate": 1.7535786666666667e-05, + "loss": 0.0531, + "step": 57755 + }, + { + "epoch": 0.369664, + "grad_norm": 1.3780126571655273, + "learning_rate": 1.7535573333333335e-05, + "loss": 0.0416, + "step": 57760 + }, + { + "epoch": 0.369696, + "grad_norm": 0.9123695492744446, + "learning_rate": 1.7535360000000002e-05, + "loss": 0.0425, + "step": 57765 + }, + { + "epoch": 0.369728, + "grad_norm": 0.3585667908191681, + "learning_rate": 1.753514666666667e-05, + "loss": 0.0243, + "step": 57770 + }, + { + "epoch": 0.36976, + "grad_norm": 0.7351999878883362, + "learning_rate": 1.7534933333333334e-05, + "loss": 0.0271, + "step": 57775 + }, + { + "epoch": 0.369792, + "grad_norm": 1.6176702976226807, + "learning_rate": 1.753472e-05, + "loss": 0.0222, + "step": 57780 + }, + { + "epoch": 0.369824, + "grad_norm": 0.5897689461708069, + "learning_rate": 1.753450666666667e-05, + "loss": 0.0378, + "step": 57785 + }, + { + "epoch": 0.369856, + "grad_norm": 1.0674628019332886, + "learning_rate": 1.7534293333333333e-05, + "loss": 0.0253, + "step": 57790 + }, + { + "epoch": 0.369888, + "grad_norm": 0.9803615808486938, + "learning_rate": 1.753408e-05, + "loss": 0.0329, + "step": 57795 + }, + { + "epoch": 0.36992, + "grad_norm": 0.8786043524742126, + "learning_rate": 1.7533866666666668e-05, + "loss": 0.0441, + "step": 57800 + }, + { + "epoch": 0.369952, + "grad_norm": 1.5457218885421753, + "learning_rate": 1.7533653333333336e-05, + "loss": 0.0669, + "step": 57805 + }, + { + "epoch": 0.369984, + "grad_norm": 0.2567909359931946, + "learning_rate": 1.753344e-05, + "loss": 0.0298, + "step": 57810 + }, + { + "epoch": 0.370016, + "grad_norm": 1.1300524473190308, + "learning_rate": 1.7533226666666668e-05, + "loss": 0.0451, + "step": 57815 + }, + { + "epoch": 0.370048, + "grad_norm": 0.2032829374074936, + "learning_rate": 1.7533013333333335e-05, + "loss": 0.0342, + "step": 57820 + }, + { + "epoch": 0.37008, + "grad_norm": 0.22314023971557617, + "learning_rate": 1.75328e-05, + "loss": 0.0264, + "step": 57825 + }, + { + "epoch": 0.370112, + "grad_norm": 0.5826769471168518, + "learning_rate": 1.753258666666667e-05, + "loss": 0.0567, + "step": 57830 + }, + { + "epoch": 0.370144, + "grad_norm": 0.4873588979244232, + "learning_rate": 1.7532373333333334e-05, + "loss": 0.0179, + "step": 57835 + }, + { + "epoch": 0.370176, + "grad_norm": 0.5442594885826111, + "learning_rate": 1.7532160000000002e-05, + "loss": 0.03, + "step": 57840 + }, + { + "epoch": 0.370208, + "grad_norm": 0.8308853507041931, + "learning_rate": 1.753194666666667e-05, + "loss": 0.03, + "step": 57845 + }, + { + "epoch": 0.37024, + "grad_norm": 0.13101860880851746, + "learning_rate": 1.7531733333333334e-05, + "loss": 0.0319, + "step": 57850 + }, + { + "epoch": 0.370272, + "grad_norm": 0.6082804799079895, + "learning_rate": 1.753152e-05, + "loss": 0.0277, + "step": 57855 + }, + { + "epoch": 0.370304, + "grad_norm": 0.8675639629364014, + "learning_rate": 1.753130666666667e-05, + "loss": 0.0246, + "step": 57860 + }, + { + "epoch": 0.370336, + "grad_norm": 0.7289354801177979, + "learning_rate": 1.7531093333333336e-05, + "loss": 0.0316, + "step": 57865 + }, + { + "epoch": 0.370368, + "grad_norm": 0.6216960549354553, + "learning_rate": 1.753088e-05, + "loss": 0.0243, + "step": 57870 + }, + { + "epoch": 0.3704, + "grad_norm": 0.23098187148571014, + "learning_rate": 1.7530666666666668e-05, + "loss": 0.0213, + "step": 57875 + }, + { + "epoch": 0.370432, + "grad_norm": 0.7718775272369385, + "learning_rate": 1.7530453333333336e-05, + "loss": 0.0307, + "step": 57880 + }, + { + "epoch": 0.370464, + "grad_norm": 0.7369418144226074, + "learning_rate": 1.753024e-05, + "loss": 0.0194, + "step": 57885 + }, + { + "epoch": 0.370496, + "grad_norm": 0.543570876121521, + "learning_rate": 1.7530026666666667e-05, + "loss": 0.0262, + "step": 57890 + }, + { + "epoch": 0.370528, + "grad_norm": 0.8863999843597412, + "learning_rate": 1.7529813333333335e-05, + "loss": 0.0391, + "step": 57895 + }, + { + "epoch": 0.37056, + "grad_norm": 2.3960037231445312, + "learning_rate": 1.7529600000000002e-05, + "loss": 0.0423, + "step": 57900 + }, + { + "epoch": 0.370592, + "grad_norm": 1.7633392810821533, + "learning_rate": 1.7529386666666667e-05, + "loss": 0.022, + "step": 57905 + }, + { + "epoch": 0.370624, + "grad_norm": 0.4443260729312897, + "learning_rate": 1.7529173333333337e-05, + "loss": 0.0329, + "step": 57910 + }, + { + "epoch": 0.370656, + "grad_norm": 0.6466119885444641, + "learning_rate": 1.752896e-05, + "loss": 0.0454, + "step": 57915 + }, + { + "epoch": 0.370688, + "grad_norm": 0.4350980222225189, + "learning_rate": 1.7528746666666666e-05, + "loss": 0.046, + "step": 57920 + }, + { + "epoch": 0.37072, + "grad_norm": 2.3363327980041504, + "learning_rate": 1.7528533333333337e-05, + "loss": 0.0237, + "step": 57925 + }, + { + "epoch": 0.370752, + "grad_norm": 0.44666630029678345, + "learning_rate": 1.752832e-05, + "loss": 0.021, + "step": 57930 + }, + { + "epoch": 0.370784, + "grad_norm": 0.21334925293922424, + "learning_rate": 1.752810666666667e-05, + "loss": 0.0232, + "step": 57935 + }, + { + "epoch": 0.370816, + "grad_norm": 0.2467871606349945, + "learning_rate": 1.7527893333333336e-05, + "loss": 0.0517, + "step": 57940 + }, + { + "epoch": 0.370848, + "grad_norm": 0.2707230746746063, + "learning_rate": 1.7527680000000004e-05, + "loss": 0.0496, + "step": 57945 + }, + { + "epoch": 0.37088, + "grad_norm": 0.6367692351341248, + "learning_rate": 1.7527466666666668e-05, + "loss": 0.0333, + "step": 57950 + }, + { + "epoch": 0.370912, + "grad_norm": 1.0184574127197266, + "learning_rate": 1.7527253333333335e-05, + "loss": 0.0405, + "step": 57955 + }, + { + "epoch": 0.370944, + "grad_norm": 0.6479337215423584, + "learning_rate": 1.7527040000000003e-05, + "loss": 0.0363, + "step": 57960 + }, + { + "epoch": 0.370976, + "grad_norm": 2.9911885261535645, + "learning_rate": 1.7526826666666667e-05, + "loss": 0.0328, + "step": 57965 + }, + { + "epoch": 0.371008, + "grad_norm": 0.6113226413726807, + "learning_rate": 1.7526613333333335e-05, + "loss": 0.0282, + "step": 57970 + }, + { + "epoch": 0.37104, + "grad_norm": 0.4034452736377716, + "learning_rate": 1.7526400000000002e-05, + "loss": 0.0788, + "step": 57975 + }, + { + "epoch": 0.371072, + "grad_norm": 0.8575155138969421, + "learning_rate": 1.752618666666667e-05, + "loss": 0.0273, + "step": 57980 + }, + { + "epoch": 0.371104, + "grad_norm": 0.3109898567199707, + "learning_rate": 1.7525973333333334e-05, + "loss": 0.0453, + "step": 57985 + }, + { + "epoch": 0.371136, + "grad_norm": 0.878449022769928, + "learning_rate": 1.752576e-05, + "loss": 0.0289, + "step": 57990 + }, + { + "epoch": 0.371168, + "grad_norm": 1.3303884267807007, + "learning_rate": 1.752554666666667e-05, + "loss": 0.0634, + "step": 57995 + }, + { + "epoch": 0.3712, + "grad_norm": 0.26223745942115784, + "learning_rate": 1.7525333333333333e-05, + "loss": 0.0142, + "step": 58000 + }, + { + "epoch": 0.371232, + "grad_norm": 0.669207751750946, + "learning_rate": 1.752512e-05, + "loss": 0.0348, + "step": 58005 + }, + { + "epoch": 0.371264, + "grad_norm": 0.778016209602356, + "learning_rate": 1.7524906666666668e-05, + "loss": 0.032, + "step": 58010 + }, + { + "epoch": 0.371296, + "grad_norm": 0.4403378963470459, + "learning_rate": 1.7524693333333336e-05, + "loss": 0.0385, + "step": 58015 + }, + { + "epoch": 0.371328, + "grad_norm": 0.2323712557554245, + "learning_rate": 1.752448e-05, + "loss": 0.0261, + "step": 58020 + }, + { + "epoch": 0.37136, + "grad_norm": 0.7642486691474915, + "learning_rate": 1.7524266666666668e-05, + "loss": 0.0449, + "step": 58025 + }, + { + "epoch": 0.371392, + "grad_norm": 0.868236780166626, + "learning_rate": 1.7524053333333335e-05, + "loss": 0.0439, + "step": 58030 + }, + { + "epoch": 0.371424, + "grad_norm": 0.7002942562103271, + "learning_rate": 1.752384e-05, + "loss": 0.0516, + "step": 58035 + }, + { + "epoch": 0.371456, + "grad_norm": 0.07025347650051117, + "learning_rate": 1.752362666666667e-05, + "loss": 0.0295, + "step": 58040 + }, + { + "epoch": 0.371488, + "grad_norm": 0.08802292495965958, + "learning_rate": 1.7523413333333334e-05, + "loss": 0.0266, + "step": 58045 + }, + { + "epoch": 0.37152, + "grad_norm": 0.19224028289318085, + "learning_rate": 1.7523200000000002e-05, + "loss": 0.0236, + "step": 58050 + }, + { + "epoch": 0.371552, + "grad_norm": 0.23235902190208435, + "learning_rate": 1.752298666666667e-05, + "loss": 0.033, + "step": 58055 + }, + { + "epoch": 0.371584, + "grad_norm": 0.8430776596069336, + "learning_rate": 1.7522773333333334e-05, + "loss": 0.0407, + "step": 58060 + }, + { + "epoch": 0.371616, + "grad_norm": 1.3661209344863892, + "learning_rate": 1.752256e-05, + "loss": 0.0404, + "step": 58065 + }, + { + "epoch": 0.371648, + "grad_norm": 0.3972950577735901, + "learning_rate": 1.752234666666667e-05, + "loss": 0.0238, + "step": 58070 + }, + { + "epoch": 0.37168, + "grad_norm": 0.4690815806388855, + "learning_rate": 1.7522133333333336e-05, + "loss": 0.0301, + "step": 58075 + }, + { + "epoch": 0.371712, + "grad_norm": 0.7987187504768372, + "learning_rate": 1.752192e-05, + "loss": 0.0403, + "step": 58080 + }, + { + "epoch": 0.371744, + "grad_norm": 0.2724963128566742, + "learning_rate": 1.7521706666666668e-05, + "loss": 0.042, + "step": 58085 + }, + { + "epoch": 0.371776, + "grad_norm": 0.980091392993927, + "learning_rate": 1.7521493333333336e-05, + "loss": 0.0439, + "step": 58090 + }, + { + "epoch": 0.371808, + "grad_norm": 1.0375562906265259, + "learning_rate": 1.752128e-05, + "loss": 0.0609, + "step": 58095 + }, + { + "epoch": 0.37184, + "grad_norm": 0.9489527940750122, + "learning_rate": 1.7521066666666667e-05, + "loss": 0.0278, + "step": 58100 + }, + { + "epoch": 0.371872, + "grad_norm": 0.40723350644111633, + "learning_rate": 1.7520853333333335e-05, + "loss": 0.0253, + "step": 58105 + }, + { + "epoch": 0.371904, + "grad_norm": 0.47161269187927246, + "learning_rate": 1.7520640000000002e-05, + "loss": 0.0537, + "step": 58110 + }, + { + "epoch": 0.371936, + "grad_norm": 0.5716742873191833, + "learning_rate": 1.7520426666666667e-05, + "loss": 0.0345, + "step": 58115 + }, + { + "epoch": 0.371968, + "grad_norm": 0.7462466359138489, + "learning_rate": 1.7520213333333334e-05, + "loss": 0.0365, + "step": 58120 + }, + { + "epoch": 0.372, + "grad_norm": 0.26172760128974915, + "learning_rate": 1.752e-05, + "loss": 0.0204, + "step": 58125 + }, + { + "epoch": 0.372032, + "grad_norm": 0.8230754137039185, + "learning_rate": 1.7519786666666666e-05, + "loss": 0.0406, + "step": 58130 + }, + { + "epoch": 0.372064, + "grad_norm": 0.8408839702606201, + "learning_rate": 1.7519573333333337e-05, + "loss": 0.0263, + "step": 58135 + }, + { + "epoch": 0.372096, + "grad_norm": 0.7400950789451599, + "learning_rate": 1.751936e-05, + "loss": 0.0376, + "step": 58140 + }, + { + "epoch": 0.372128, + "grad_norm": 1.1810489892959595, + "learning_rate": 1.751914666666667e-05, + "loss": 0.0385, + "step": 58145 + }, + { + "epoch": 0.37216, + "grad_norm": 1.249221920967102, + "learning_rate": 1.7518933333333336e-05, + "loss": 0.0434, + "step": 58150 + }, + { + "epoch": 0.372192, + "grad_norm": 0.7736802697181702, + "learning_rate": 1.7518720000000004e-05, + "loss": 0.0485, + "step": 58155 + }, + { + "epoch": 0.372224, + "grad_norm": 1.0744855403900146, + "learning_rate": 1.7518506666666668e-05, + "loss": 0.0278, + "step": 58160 + }, + { + "epoch": 0.372256, + "grad_norm": 0.40086135268211365, + "learning_rate": 1.7518293333333335e-05, + "loss": 0.0379, + "step": 58165 + }, + { + "epoch": 0.372288, + "grad_norm": 0.933323860168457, + "learning_rate": 1.7518080000000003e-05, + "loss": 0.0276, + "step": 58170 + }, + { + "epoch": 0.37232, + "grad_norm": 0.583358883857727, + "learning_rate": 1.7517866666666667e-05, + "loss": 0.0249, + "step": 58175 + }, + { + "epoch": 0.372352, + "grad_norm": 1.699738621711731, + "learning_rate": 1.7517653333333335e-05, + "loss": 0.0575, + "step": 58180 + }, + { + "epoch": 0.372384, + "grad_norm": 1.0612633228302002, + "learning_rate": 1.7517440000000002e-05, + "loss": 0.0327, + "step": 58185 + }, + { + "epoch": 0.372416, + "grad_norm": 1.6252230405807495, + "learning_rate": 1.751722666666667e-05, + "loss": 0.0458, + "step": 58190 + }, + { + "epoch": 0.372448, + "grad_norm": 0.6057279706001282, + "learning_rate": 1.7517013333333334e-05, + "loss": 0.0227, + "step": 58195 + }, + { + "epoch": 0.37248, + "grad_norm": 0.27758821845054626, + "learning_rate": 1.75168e-05, + "loss": 0.0257, + "step": 58200 + }, + { + "epoch": 0.372512, + "grad_norm": 0.7107386589050293, + "learning_rate": 1.751658666666667e-05, + "loss": 0.0381, + "step": 58205 + }, + { + "epoch": 0.372544, + "grad_norm": 0.6571297645568848, + "learning_rate": 1.7516373333333333e-05, + "loss": 0.0196, + "step": 58210 + }, + { + "epoch": 0.372576, + "grad_norm": 0.6385720372200012, + "learning_rate": 1.751616e-05, + "loss": 0.0246, + "step": 58215 + }, + { + "epoch": 0.372608, + "grad_norm": 0.6544756889343262, + "learning_rate": 1.7515946666666668e-05, + "loss": 0.0323, + "step": 58220 + }, + { + "epoch": 0.37264, + "grad_norm": 0.7688570618629456, + "learning_rate": 1.7515733333333336e-05, + "loss": 0.0246, + "step": 58225 + }, + { + "epoch": 0.372672, + "grad_norm": 0.28530165553092957, + "learning_rate": 1.751552e-05, + "loss": 0.034, + "step": 58230 + }, + { + "epoch": 0.372704, + "grad_norm": 1.3041282892227173, + "learning_rate": 1.7515306666666668e-05, + "loss": 0.0313, + "step": 58235 + }, + { + "epoch": 0.372736, + "grad_norm": 0.37524914741516113, + "learning_rate": 1.7515093333333335e-05, + "loss": 0.028, + "step": 58240 + }, + { + "epoch": 0.372768, + "grad_norm": 1.2943904399871826, + "learning_rate": 1.751488e-05, + "loss": 0.0466, + "step": 58245 + }, + { + "epoch": 0.3728, + "grad_norm": 0.658848226070404, + "learning_rate": 1.751466666666667e-05, + "loss": 0.0205, + "step": 58250 + }, + { + "epoch": 0.372832, + "grad_norm": 0.8087871074676514, + "learning_rate": 1.7514453333333334e-05, + "loss": 0.0407, + "step": 58255 + }, + { + "epoch": 0.372864, + "grad_norm": 0.8372489213943481, + "learning_rate": 1.7514240000000002e-05, + "loss": 0.0463, + "step": 58260 + }, + { + "epoch": 0.372896, + "grad_norm": 0.36692166328430176, + "learning_rate": 1.751402666666667e-05, + "loss": 0.0327, + "step": 58265 + }, + { + "epoch": 0.372928, + "grad_norm": 1.9100531339645386, + "learning_rate": 1.7513813333333334e-05, + "loss": 0.0499, + "step": 58270 + }, + { + "epoch": 0.37296, + "grad_norm": 0.1794940084218979, + "learning_rate": 1.75136e-05, + "loss": 0.0318, + "step": 58275 + }, + { + "epoch": 0.372992, + "grad_norm": 0.6497159600257874, + "learning_rate": 1.751338666666667e-05, + "loss": 0.0261, + "step": 58280 + }, + { + "epoch": 0.373024, + "grad_norm": 0.7604572176933289, + "learning_rate": 1.7513173333333336e-05, + "loss": 0.0313, + "step": 58285 + }, + { + "epoch": 0.373056, + "grad_norm": 0.8054473400115967, + "learning_rate": 1.751296e-05, + "loss": 0.0462, + "step": 58290 + }, + { + "epoch": 0.373088, + "grad_norm": 0.3896889090538025, + "learning_rate": 1.7512746666666668e-05, + "loss": 0.0315, + "step": 58295 + }, + { + "epoch": 0.37312, + "grad_norm": 0.40684792399406433, + "learning_rate": 1.7512533333333336e-05, + "loss": 0.0273, + "step": 58300 + }, + { + "epoch": 0.373152, + "grad_norm": 1.375490665435791, + "learning_rate": 1.751232e-05, + "loss": 0.0703, + "step": 58305 + }, + { + "epoch": 0.373184, + "grad_norm": 0.5109084844589233, + "learning_rate": 1.7512106666666667e-05, + "loss": 0.0432, + "step": 58310 + }, + { + "epoch": 0.373216, + "grad_norm": 0.6310542225837708, + "learning_rate": 1.7511893333333335e-05, + "loss": 0.0338, + "step": 58315 + }, + { + "epoch": 0.373248, + "grad_norm": 1.3194262981414795, + "learning_rate": 1.7511680000000002e-05, + "loss": 0.0325, + "step": 58320 + }, + { + "epoch": 0.37328, + "grad_norm": 0.2297273427248001, + "learning_rate": 1.7511466666666667e-05, + "loss": 0.0371, + "step": 58325 + }, + { + "epoch": 0.373312, + "grad_norm": 1.6814581155776978, + "learning_rate": 1.7511253333333334e-05, + "loss": 0.0441, + "step": 58330 + }, + { + "epoch": 0.373344, + "grad_norm": 0.3403812050819397, + "learning_rate": 1.751104e-05, + "loss": 0.0483, + "step": 58335 + }, + { + "epoch": 0.373376, + "grad_norm": 0.3729873299598694, + "learning_rate": 1.7510826666666666e-05, + "loss": 0.031, + "step": 58340 + }, + { + "epoch": 0.373408, + "grad_norm": 0.21521839499473572, + "learning_rate": 1.7510613333333333e-05, + "loss": 0.0221, + "step": 58345 + }, + { + "epoch": 0.37344, + "grad_norm": 0.7912630438804626, + "learning_rate": 1.75104e-05, + "loss": 0.0281, + "step": 58350 + }, + { + "epoch": 0.373472, + "grad_norm": 0.40906569361686707, + "learning_rate": 1.751018666666667e-05, + "loss": 0.0169, + "step": 58355 + }, + { + "epoch": 0.373504, + "grad_norm": 0.6558150053024292, + "learning_rate": 1.7509973333333336e-05, + "loss": 0.0252, + "step": 58360 + }, + { + "epoch": 0.373536, + "grad_norm": 0.8368735313415527, + "learning_rate": 1.7509760000000004e-05, + "loss": 0.0361, + "step": 58365 + }, + { + "epoch": 0.373568, + "grad_norm": 0.6343980431556702, + "learning_rate": 1.7509546666666668e-05, + "loss": 0.0211, + "step": 58370 + }, + { + "epoch": 0.3736, + "grad_norm": 3.261507987976074, + "learning_rate": 1.7509333333333335e-05, + "loss": 0.0463, + "step": 58375 + }, + { + "epoch": 0.373632, + "grad_norm": 0.2974121868610382, + "learning_rate": 1.7509120000000003e-05, + "loss": 0.0173, + "step": 58380 + }, + { + "epoch": 0.373664, + "grad_norm": 2.8072896003723145, + "learning_rate": 1.7508906666666667e-05, + "loss": 0.0287, + "step": 58385 + }, + { + "epoch": 0.373696, + "grad_norm": 0.6940668821334839, + "learning_rate": 1.7508693333333335e-05, + "loss": 0.0241, + "step": 58390 + }, + { + "epoch": 0.373728, + "grad_norm": 0.8689574599266052, + "learning_rate": 1.7508480000000002e-05, + "loss": 0.0229, + "step": 58395 + }, + { + "epoch": 0.37376, + "grad_norm": 0.8767651915550232, + "learning_rate": 1.750826666666667e-05, + "loss": 0.0309, + "step": 58400 + }, + { + "epoch": 0.373792, + "grad_norm": 0.3737014830112457, + "learning_rate": 1.7508053333333334e-05, + "loss": 0.046, + "step": 58405 + }, + { + "epoch": 0.373824, + "grad_norm": 0.2775477468967438, + "learning_rate": 1.750784e-05, + "loss": 0.0316, + "step": 58410 + }, + { + "epoch": 0.373856, + "grad_norm": 0.6535094976425171, + "learning_rate": 1.750762666666667e-05, + "loss": 0.0291, + "step": 58415 + }, + { + "epoch": 0.373888, + "grad_norm": 0.723339855670929, + "learning_rate": 1.7507413333333333e-05, + "loss": 0.0236, + "step": 58420 + }, + { + "epoch": 0.37392, + "grad_norm": 0.8318101763725281, + "learning_rate": 1.75072e-05, + "loss": 0.0364, + "step": 58425 + }, + { + "epoch": 0.373952, + "grad_norm": 0.6867970824241638, + "learning_rate": 1.7506986666666668e-05, + "loss": 0.0191, + "step": 58430 + }, + { + "epoch": 0.373984, + "grad_norm": 1.8904898166656494, + "learning_rate": 1.7506773333333336e-05, + "loss": 0.042, + "step": 58435 + }, + { + "epoch": 0.374016, + "grad_norm": 0.6392584443092346, + "learning_rate": 1.750656e-05, + "loss": 0.0308, + "step": 58440 + }, + { + "epoch": 0.374048, + "grad_norm": 0.5872453451156616, + "learning_rate": 1.7506346666666668e-05, + "loss": 0.0379, + "step": 58445 + }, + { + "epoch": 0.37408, + "grad_norm": 0.337592750787735, + "learning_rate": 1.7506133333333335e-05, + "loss": 0.0267, + "step": 58450 + }, + { + "epoch": 0.374112, + "grad_norm": 1.0110151767730713, + "learning_rate": 1.750592e-05, + "loss": 0.0343, + "step": 58455 + }, + { + "epoch": 0.374144, + "grad_norm": 0.5743339657783508, + "learning_rate": 1.750570666666667e-05, + "loss": 0.0291, + "step": 58460 + }, + { + "epoch": 0.374176, + "grad_norm": 2.7042970657348633, + "learning_rate": 1.7505493333333334e-05, + "loss": 0.0616, + "step": 58465 + }, + { + "epoch": 0.374208, + "grad_norm": 0.2829812169075012, + "learning_rate": 1.7505280000000002e-05, + "loss": 0.0238, + "step": 58470 + }, + { + "epoch": 0.37424, + "grad_norm": 0.6542951464653015, + "learning_rate": 1.750506666666667e-05, + "loss": 0.0189, + "step": 58475 + }, + { + "epoch": 0.374272, + "grad_norm": 0.8329642415046692, + "learning_rate": 1.7504853333333334e-05, + "loss": 0.0367, + "step": 58480 + }, + { + "epoch": 0.374304, + "grad_norm": 0.7613600492477417, + "learning_rate": 1.750464e-05, + "loss": 0.0419, + "step": 58485 + }, + { + "epoch": 0.374336, + "grad_norm": 0.6312205791473389, + "learning_rate": 1.750442666666667e-05, + "loss": 0.0374, + "step": 58490 + }, + { + "epoch": 0.374368, + "grad_norm": 1.5531048774719238, + "learning_rate": 1.7504213333333336e-05, + "loss": 0.0482, + "step": 58495 + }, + { + "epoch": 0.3744, + "grad_norm": 1.429739236831665, + "learning_rate": 1.7504e-05, + "loss": 0.0355, + "step": 58500 + }, + { + "epoch": 0.374432, + "grad_norm": 0.40631917119026184, + "learning_rate": 1.7503786666666668e-05, + "loss": 0.0319, + "step": 58505 + }, + { + "epoch": 0.374464, + "grad_norm": 0.4749677777290344, + "learning_rate": 1.7503573333333336e-05, + "loss": 0.0409, + "step": 58510 + }, + { + "epoch": 0.374496, + "grad_norm": 0.39492860436439514, + "learning_rate": 1.750336e-05, + "loss": 0.024, + "step": 58515 + }, + { + "epoch": 0.374528, + "grad_norm": 0.5872595906257629, + "learning_rate": 1.7503146666666667e-05, + "loss": 0.0509, + "step": 58520 + }, + { + "epoch": 0.37456, + "grad_norm": 0.5856824517250061, + "learning_rate": 1.7502933333333335e-05, + "loss": 0.0377, + "step": 58525 + }, + { + "epoch": 0.374592, + "grad_norm": 0.6276150345802307, + "learning_rate": 1.7502720000000002e-05, + "loss": 0.0445, + "step": 58530 + }, + { + "epoch": 0.374624, + "grad_norm": 0.5589345693588257, + "learning_rate": 1.7502506666666667e-05, + "loss": 0.0212, + "step": 58535 + }, + { + "epoch": 0.374656, + "grad_norm": 0.560088574886322, + "learning_rate": 1.7502293333333334e-05, + "loss": 0.0249, + "step": 58540 + }, + { + "epoch": 0.374688, + "grad_norm": 0.8467687964439392, + "learning_rate": 1.750208e-05, + "loss": 0.035, + "step": 58545 + }, + { + "epoch": 0.37472, + "grad_norm": 0.15406294167041779, + "learning_rate": 1.7501866666666666e-05, + "loss": 0.0376, + "step": 58550 + }, + { + "epoch": 0.374752, + "grad_norm": 0.6130422353744507, + "learning_rate": 1.7501653333333333e-05, + "loss": 0.0309, + "step": 58555 + }, + { + "epoch": 0.374784, + "grad_norm": 0.7306661605834961, + "learning_rate": 1.750144e-05, + "loss": 0.0373, + "step": 58560 + }, + { + "epoch": 0.374816, + "grad_norm": 1.0724585056304932, + "learning_rate": 1.750122666666667e-05, + "loss": 0.035, + "step": 58565 + }, + { + "epoch": 0.374848, + "grad_norm": 0.8598937392234802, + "learning_rate": 1.7501013333333333e-05, + "loss": 0.0265, + "step": 58570 + }, + { + "epoch": 0.37488, + "grad_norm": 0.7433398962020874, + "learning_rate": 1.7500800000000004e-05, + "loss": 0.0158, + "step": 58575 + }, + { + "epoch": 0.374912, + "grad_norm": 0.5773367881774902, + "learning_rate": 1.7500586666666668e-05, + "loss": 0.0241, + "step": 58580 + }, + { + "epoch": 0.374944, + "grad_norm": 0.7563512921333313, + "learning_rate": 1.7500373333333335e-05, + "loss": 0.0354, + "step": 58585 + }, + { + "epoch": 0.374976, + "grad_norm": 0.3972397446632385, + "learning_rate": 1.7500160000000003e-05, + "loss": 0.0385, + "step": 58590 + }, + { + "epoch": 0.375008, + "grad_norm": 1.3169642686843872, + "learning_rate": 1.7499946666666667e-05, + "loss": 0.0322, + "step": 58595 + }, + { + "epoch": 0.37504, + "grad_norm": 0.5464382767677307, + "learning_rate": 1.7499733333333335e-05, + "loss": 0.031, + "step": 58600 + }, + { + "epoch": 0.375072, + "grad_norm": 0.2930116355419159, + "learning_rate": 1.7499520000000002e-05, + "loss": 0.0437, + "step": 58605 + }, + { + "epoch": 0.375104, + "grad_norm": 0.4029173254966736, + "learning_rate": 1.749930666666667e-05, + "loss": 0.0407, + "step": 58610 + }, + { + "epoch": 0.375136, + "grad_norm": 1.1244980096817017, + "learning_rate": 1.7499093333333334e-05, + "loss": 0.0625, + "step": 58615 + }, + { + "epoch": 0.375168, + "grad_norm": 0.6247626543045044, + "learning_rate": 1.749888e-05, + "loss": 0.0269, + "step": 58620 + }, + { + "epoch": 0.3752, + "grad_norm": 0.68276447057724, + "learning_rate": 1.749866666666667e-05, + "loss": 0.05, + "step": 58625 + }, + { + "epoch": 0.375232, + "grad_norm": 0.7049321532249451, + "learning_rate": 1.7498453333333333e-05, + "loss": 0.0256, + "step": 58630 + }, + { + "epoch": 0.375264, + "grad_norm": 0.8409041166305542, + "learning_rate": 1.749824e-05, + "loss": 0.0442, + "step": 58635 + }, + { + "epoch": 0.375296, + "grad_norm": 0.49498841166496277, + "learning_rate": 1.7498026666666668e-05, + "loss": 0.0191, + "step": 58640 + }, + { + "epoch": 0.375328, + "grad_norm": 0.4149569272994995, + "learning_rate": 1.7497813333333336e-05, + "loss": 0.0163, + "step": 58645 + }, + { + "epoch": 0.37536, + "grad_norm": 0.52787184715271, + "learning_rate": 1.74976e-05, + "loss": 0.0497, + "step": 58650 + }, + { + "epoch": 0.375392, + "grad_norm": 0.6689898371696472, + "learning_rate": 1.7497386666666668e-05, + "loss": 0.0339, + "step": 58655 + }, + { + "epoch": 0.375424, + "grad_norm": 0.4786173105239868, + "learning_rate": 1.7497173333333335e-05, + "loss": 0.0189, + "step": 58660 + }, + { + "epoch": 0.375456, + "grad_norm": 0.38807961344718933, + "learning_rate": 1.749696e-05, + "loss": 0.0228, + "step": 58665 + }, + { + "epoch": 0.375488, + "grad_norm": 0.682590901851654, + "learning_rate": 1.749674666666667e-05, + "loss": 0.0342, + "step": 58670 + }, + { + "epoch": 0.37552, + "grad_norm": 3.701066732406616, + "learning_rate": 1.7496533333333334e-05, + "loss": 0.0394, + "step": 58675 + }, + { + "epoch": 0.375552, + "grad_norm": 0.2777165472507477, + "learning_rate": 1.7496320000000002e-05, + "loss": 0.031, + "step": 58680 + }, + { + "epoch": 0.375584, + "grad_norm": 0.4061970114707947, + "learning_rate": 1.749610666666667e-05, + "loss": 0.0309, + "step": 58685 + }, + { + "epoch": 0.375616, + "grad_norm": 2.512576103210449, + "learning_rate": 1.7495893333333337e-05, + "loss": 0.0395, + "step": 58690 + }, + { + "epoch": 0.375648, + "grad_norm": 0.4629312753677368, + "learning_rate": 1.749568e-05, + "loss": 0.0589, + "step": 58695 + }, + { + "epoch": 0.37568, + "grad_norm": 0.34395894408226013, + "learning_rate": 1.749546666666667e-05, + "loss": 0.016, + "step": 58700 + }, + { + "epoch": 0.375712, + "grad_norm": 0.36885908246040344, + "learning_rate": 1.7495253333333336e-05, + "loss": 0.0138, + "step": 58705 + }, + { + "epoch": 0.375744, + "grad_norm": 0.48436442017555237, + "learning_rate": 1.749504e-05, + "loss": 0.0345, + "step": 58710 + }, + { + "epoch": 0.375776, + "grad_norm": 2.098813533782959, + "learning_rate": 1.7494826666666668e-05, + "loss": 0.0244, + "step": 58715 + }, + { + "epoch": 0.375808, + "grad_norm": 1.0400751829147339, + "learning_rate": 1.7494613333333336e-05, + "loss": 0.0347, + "step": 58720 + }, + { + "epoch": 0.37584, + "grad_norm": 0.60568767786026, + "learning_rate": 1.7494400000000003e-05, + "loss": 0.0336, + "step": 58725 + }, + { + "epoch": 0.375872, + "grad_norm": 0.48559293150901794, + "learning_rate": 1.7494186666666667e-05, + "loss": 0.0159, + "step": 58730 + }, + { + "epoch": 0.375904, + "grad_norm": 1.306787133216858, + "learning_rate": 1.7493973333333335e-05, + "loss": 0.0545, + "step": 58735 + }, + { + "epoch": 0.375936, + "grad_norm": 0.8717019557952881, + "learning_rate": 1.7493760000000002e-05, + "loss": 0.04, + "step": 58740 + }, + { + "epoch": 0.375968, + "grad_norm": 0.59989333152771, + "learning_rate": 1.7493546666666667e-05, + "loss": 0.0515, + "step": 58745 + }, + { + "epoch": 0.376, + "grad_norm": 0.8085704445838928, + "learning_rate": 1.7493333333333334e-05, + "loss": 0.0428, + "step": 58750 + }, + { + "epoch": 0.376032, + "grad_norm": 0.40425628423690796, + "learning_rate": 1.749312e-05, + "loss": 0.0407, + "step": 58755 + }, + { + "epoch": 0.376064, + "grad_norm": 0.9400416016578674, + "learning_rate": 1.749290666666667e-05, + "loss": 0.0274, + "step": 58760 + }, + { + "epoch": 0.376096, + "grad_norm": 0.5073708295822144, + "learning_rate": 1.7492693333333333e-05, + "loss": 0.0254, + "step": 58765 + }, + { + "epoch": 0.376128, + "grad_norm": 0.08766259253025055, + "learning_rate": 1.749248e-05, + "loss": 0.0185, + "step": 58770 + }, + { + "epoch": 0.37616, + "grad_norm": 1.9227925539016724, + "learning_rate": 1.749226666666667e-05, + "loss": 0.0538, + "step": 58775 + }, + { + "epoch": 0.376192, + "grad_norm": 0.6764506697654724, + "learning_rate": 1.7492053333333333e-05, + "loss": 0.0256, + "step": 58780 + }, + { + "epoch": 0.376224, + "grad_norm": 0.4284462332725525, + "learning_rate": 1.7491840000000004e-05, + "loss": 0.0463, + "step": 58785 + }, + { + "epoch": 0.376256, + "grad_norm": 0.25287899374961853, + "learning_rate": 1.7491626666666668e-05, + "loss": 0.0324, + "step": 58790 + }, + { + "epoch": 0.376288, + "grad_norm": 1.0551283359527588, + "learning_rate": 1.7491413333333335e-05, + "loss": 0.0368, + "step": 58795 + }, + { + "epoch": 0.37632, + "grad_norm": 1.6263861656188965, + "learning_rate": 1.7491200000000003e-05, + "loss": 0.0516, + "step": 58800 + }, + { + "epoch": 0.376352, + "grad_norm": 8.153205871582031, + "learning_rate": 1.7490986666666667e-05, + "loss": 0.0353, + "step": 58805 + }, + { + "epoch": 0.376384, + "grad_norm": 0.6427263021469116, + "learning_rate": 1.7490773333333335e-05, + "loss": 0.0324, + "step": 58810 + }, + { + "epoch": 0.376416, + "grad_norm": 1.1420164108276367, + "learning_rate": 1.7490560000000002e-05, + "loss": 0.0328, + "step": 58815 + }, + { + "epoch": 0.376448, + "grad_norm": 2.30696702003479, + "learning_rate": 1.749034666666667e-05, + "loss": 0.0532, + "step": 58820 + }, + { + "epoch": 0.37648, + "grad_norm": 0.4071507453918457, + "learning_rate": 1.7490133333333334e-05, + "loss": 0.0354, + "step": 58825 + }, + { + "epoch": 0.376512, + "grad_norm": 0.28158053755760193, + "learning_rate": 1.748992e-05, + "loss": 0.0178, + "step": 58830 + }, + { + "epoch": 0.376544, + "grad_norm": 0.2638993263244629, + "learning_rate": 1.748970666666667e-05, + "loss": 0.0252, + "step": 58835 + }, + { + "epoch": 0.376576, + "grad_norm": 0.3387966752052307, + "learning_rate": 1.7489493333333333e-05, + "loss": 0.0393, + "step": 58840 + }, + { + "epoch": 0.376608, + "grad_norm": 0.20125870406627655, + "learning_rate": 1.748928e-05, + "loss": 0.0213, + "step": 58845 + }, + { + "epoch": 0.37664, + "grad_norm": 0.985256016254425, + "learning_rate": 1.7489066666666668e-05, + "loss": 0.0302, + "step": 58850 + }, + { + "epoch": 0.376672, + "grad_norm": 2.7411160469055176, + "learning_rate": 1.7488853333333336e-05, + "loss": 0.0586, + "step": 58855 + }, + { + "epoch": 0.376704, + "grad_norm": 2.2909348011016846, + "learning_rate": 1.748864e-05, + "loss": 0.0236, + "step": 58860 + }, + { + "epoch": 0.376736, + "grad_norm": 0.2070179581642151, + "learning_rate": 1.7488426666666668e-05, + "loss": 0.0197, + "step": 58865 + }, + { + "epoch": 0.376768, + "grad_norm": 0.405218243598938, + "learning_rate": 1.7488213333333335e-05, + "loss": 0.0277, + "step": 58870 + }, + { + "epoch": 0.3768, + "grad_norm": 1.3661502599716187, + "learning_rate": 1.7488e-05, + "loss": 0.0417, + "step": 58875 + }, + { + "epoch": 0.376832, + "grad_norm": 0.6022835969924927, + "learning_rate": 1.7487786666666667e-05, + "loss": 0.0252, + "step": 58880 + }, + { + "epoch": 0.376864, + "grad_norm": 0.35774096846580505, + "learning_rate": 1.7487573333333334e-05, + "loss": 0.044, + "step": 58885 + }, + { + "epoch": 0.376896, + "grad_norm": 1.1435189247131348, + "learning_rate": 1.7487360000000002e-05, + "loss": 0.0335, + "step": 58890 + }, + { + "epoch": 0.376928, + "grad_norm": 0.073672816157341, + "learning_rate": 1.748714666666667e-05, + "loss": 0.0373, + "step": 58895 + }, + { + "epoch": 0.37696, + "grad_norm": 0.8125759959220886, + "learning_rate": 1.7486933333333337e-05, + "loss": 0.0347, + "step": 58900 + }, + { + "epoch": 0.376992, + "grad_norm": 0.6773928999900818, + "learning_rate": 1.748672e-05, + "loss": 0.0419, + "step": 58905 + }, + { + "epoch": 0.377024, + "grad_norm": 0.49895697832107544, + "learning_rate": 1.748650666666667e-05, + "loss": 0.0394, + "step": 58910 + }, + { + "epoch": 0.377056, + "grad_norm": 0.5117052793502808, + "learning_rate": 1.7486293333333336e-05, + "loss": 0.0364, + "step": 58915 + }, + { + "epoch": 0.377088, + "grad_norm": 0.544342577457428, + "learning_rate": 1.748608e-05, + "loss": 0.0267, + "step": 58920 + }, + { + "epoch": 0.37712, + "grad_norm": 0.8725835084915161, + "learning_rate": 1.7485866666666668e-05, + "loss": 0.024, + "step": 58925 + }, + { + "epoch": 0.377152, + "grad_norm": 1.2625651359558105, + "learning_rate": 1.7485653333333336e-05, + "loss": 0.0708, + "step": 58930 + }, + { + "epoch": 0.377184, + "grad_norm": 0.5972198247909546, + "learning_rate": 1.7485440000000003e-05, + "loss": 0.0242, + "step": 58935 + }, + { + "epoch": 0.377216, + "grad_norm": 0.7292289733886719, + "learning_rate": 1.7485226666666667e-05, + "loss": 0.0445, + "step": 58940 + }, + { + "epoch": 0.377248, + "grad_norm": 0.7094098329544067, + "learning_rate": 1.7485013333333335e-05, + "loss": 0.021, + "step": 58945 + }, + { + "epoch": 0.37728, + "grad_norm": 0.6505048871040344, + "learning_rate": 1.7484800000000002e-05, + "loss": 0.0342, + "step": 58950 + }, + { + "epoch": 0.377312, + "grad_norm": 0.5327409505844116, + "learning_rate": 1.7484586666666667e-05, + "loss": 0.0324, + "step": 58955 + }, + { + "epoch": 0.377344, + "grad_norm": 0.27137619256973267, + "learning_rate": 1.7484373333333334e-05, + "loss": 0.0114, + "step": 58960 + }, + { + "epoch": 0.377376, + "grad_norm": 1.184538722038269, + "learning_rate": 1.748416e-05, + "loss": 0.0405, + "step": 58965 + }, + { + "epoch": 0.377408, + "grad_norm": 0.2949265241622925, + "learning_rate": 1.748394666666667e-05, + "loss": 0.0492, + "step": 58970 + }, + { + "epoch": 0.37744, + "grad_norm": 1.9842557907104492, + "learning_rate": 1.7483733333333333e-05, + "loss": 0.0392, + "step": 58975 + }, + { + "epoch": 0.377472, + "grad_norm": 0.529975950717926, + "learning_rate": 1.748352e-05, + "loss": 0.0271, + "step": 58980 + }, + { + "epoch": 0.377504, + "grad_norm": 0.6443192958831787, + "learning_rate": 1.748330666666667e-05, + "loss": 0.0392, + "step": 58985 + }, + { + "epoch": 0.377536, + "grad_norm": 0.4564714729785919, + "learning_rate": 1.7483093333333333e-05, + "loss": 0.043, + "step": 58990 + }, + { + "epoch": 0.377568, + "grad_norm": 0.2286694198846817, + "learning_rate": 1.7482880000000004e-05, + "loss": 0.0289, + "step": 58995 + }, + { + "epoch": 0.3776, + "grad_norm": 0.3305718004703522, + "learning_rate": 1.7482666666666668e-05, + "loss": 0.0353, + "step": 59000 + }, + { + "epoch": 0.377632, + "grad_norm": 2.4532015323638916, + "learning_rate": 1.7482453333333335e-05, + "loss": 0.0154, + "step": 59005 + }, + { + "epoch": 0.377664, + "grad_norm": 2.3657307624816895, + "learning_rate": 1.7482240000000003e-05, + "loss": 0.045, + "step": 59010 + }, + { + "epoch": 0.377696, + "grad_norm": 1.2722755670547485, + "learning_rate": 1.7482026666666667e-05, + "loss": 0.0316, + "step": 59015 + }, + { + "epoch": 0.377728, + "grad_norm": 0.4722301661968231, + "learning_rate": 1.7481813333333335e-05, + "loss": 0.0472, + "step": 59020 + }, + { + "epoch": 0.37776, + "grad_norm": 0.3885546326637268, + "learning_rate": 1.7481600000000002e-05, + "loss": 0.0302, + "step": 59025 + }, + { + "epoch": 0.377792, + "grad_norm": 0.7224317193031311, + "learning_rate": 1.748138666666667e-05, + "loss": 0.0421, + "step": 59030 + }, + { + "epoch": 0.377824, + "grad_norm": 0.4741550385951996, + "learning_rate": 1.7481173333333334e-05, + "loss": 0.0305, + "step": 59035 + }, + { + "epoch": 0.377856, + "grad_norm": 0.14419810473918915, + "learning_rate": 1.748096e-05, + "loss": 0.0273, + "step": 59040 + }, + { + "epoch": 0.377888, + "grad_norm": 0.3358060419559479, + "learning_rate": 1.748074666666667e-05, + "loss": 0.0222, + "step": 59045 + }, + { + "epoch": 0.37792, + "grad_norm": 0.8045957088470459, + "learning_rate": 1.7480533333333333e-05, + "loss": 0.0154, + "step": 59050 + }, + { + "epoch": 0.377952, + "grad_norm": 0.5291268229484558, + "learning_rate": 1.748032e-05, + "loss": 0.0207, + "step": 59055 + }, + { + "epoch": 0.377984, + "grad_norm": 0.5995297431945801, + "learning_rate": 1.7480106666666668e-05, + "loss": 0.0251, + "step": 59060 + }, + { + "epoch": 0.378016, + "grad_norm": 0.596440315246582, + "learning_rate": 1.7479893333333336e-05, + "loss": 0.0156, + "step": 59065 + }, + { + "epoch": 0.378048, + "grad_norm": 0.8111621141433716, + "learning_rate": 1.747968e-05, + "loss": 0.0306, + "step": 59070 + }, + { + "epoch": 0.37808, + "grad_norm": 0.35014909505844116, + "learning_rate": 1.7479466666666668e-05, + "loss": 0.022, + "step": 59075 + }, + { + "epoch": 0.378112, + "grad_norm": 0.12905320525169373, + "learning_rate": 1.7479253333333335e-05, + "loss": 0.0251, + "step": 59080 + }, + { + "epoch": 0.378144, + "grad_norm": 0.4006907641887665, + "learning_rate": 1.747904e-05, + "loss": 0.029, + "step": 59085 + }, + { + "epoch": 0.378176, + "grad_norm": 0.2772997319698334, + "learning_rate": 1.7478826666666667e-05, + "loss": 0.0269, + "step": 59090 + }, + { + "epoch": 0.378208, + "grad_norm": 3.4395828247070312, + "learning_rate": 1.7478613333333334e-05, + "loss": 0.0359, + "step": 59095 + }, + { + "epoch": 0.37824, + "grad_norm": 1.253640055656433, + "learning_rate": 1.7478400000000002e-05, + "loss": 0.0292, + "step": 59100 + }, + { + "epoch": 0.378272, + "grad_norm": 0.8375629782676697, + "learning_rate": 1.7478186666666666e-05, + "loss": 0.0448, + "step": 59105 + }, + { + "epoch": 0.378304, + "grad_norm": 0.43222805857658386, + "learning_rate": 1.7477973333333337e-05, + "loss": 0.0141, + "step": 59110 + }, + { + "epoch": 0.378336, + "grad_norm": 0.2872914671897888, + "learning_rate": 1.747776e-05, + "loss": 0.0246, + "step": 59115 + }, + { + "epoch": 0.378368, + "grad_norm": 0.6302786469459534, + "learning_rate": 1.747754666666667e-05, + "loss": 0.0278, + "step": 59120 + }, + { + "epoch": 0.3784, + "grad_norm": 0.7598495483398438, + "learning_rate": 1.7477333333333336e-05, + "loss": 0.0182, + "step": 59125 + }, + { + "epoch": 0.378432, + "grad_norm": 1.016471266746521, + "learning_rate": 1.747712e-05, + "loss": 0.0374, + "step": 59130 + }, + { + "epoch": 0.378464, + "grad_norm": 0.3833332359790802, + "learning_rate": 1.7476906666666668e-05, + "loss": 0.0313, + "step": 59135 + }, + { + "epoch": 0.378496, + "grad_norm": 1.0991612672805786, + "learning_rate": 1.7476693333333336e-05, + "loss": 0.0438, + "step": 59140 + }, + { + "epoch": 0.378528, + "grad_norm": 0.4165723919868469, + "learning_rate": 1.7476480000000003e-05, + "loss": 0.0503, + "step": 59145 + }, + { + "epoch": 0.37856, + "grad_norm": 0.9606670141220093, + "learning_rate": 1.7476266666666667e-05, + "loss": 0.0244, + "step": 59150 + }, + { + "epoch": 0.378592, + "grad_norm": 0.5915155410766602, + "learning_rate": 1.7476053333333335e-05, + "loss": 0.0455, + "step": 59155 + }, + { + "epoch": 0.378624, + "grad_norm": 0.897083580493927, + "learning_rate": 1.7475840000000002e-05, + "loss": 0.0394, + "step": 59160 + }, + { + "epoch": 0.378656, + "grad_norm": 0.36354124546051025, + "learning_rate": 1.7475626666666667e-05, + "loss": 0.1181, + "step": 59165 + }, + { + "epoch": 0.378688, + "grad_norm": 0.2418271154165268, + "learning_rate": 1.7475413333333334e-05, + "loss": 0.0299, + "step": 59170 + }, + { + "epoch": 0.37872, + "grad_norm": 0.17706741392612457, + "learning_rate": 1.74752e-05, + "loss": 0.0341, + "step": 59175 + }, + { + "epoch": 0.378752, + "grad_norm": 0.987606942653656, + "learning_rate": 1.747498666666667e-05, + "loss": 0.0309, + "step": 59180 + }, + { + "epoch": 0.378784, + "grad_norm": 0.3816555142402649, + "learning_rate": 1.7474773333333333e-05, + "loss": 0.0121, + "step": 59185 + }, + { + "epoch": 0.378816, + "grad_norm": 2.4320757389068604, + "learning_rate": 1.747456e-05, + "loss": 0.0359, + "step": 59190 + }, + { + "epoch": 0.378848, + "grad_norm": 1.1605480909347534, + "learning_rate": 1.747434666666667e-05, + "loss": 0.0381, + "step": 59195 + }, + { + "epoch": 0.37888, + "grad_norm": 0.9167045950889587, + "learning_rate": 1.7474133333333333e-05, + "loss": 0.0249, + "step": 59200 + }, + { + "epoch": 0.378912, + "grad_norm": 0.6444739103317261, + "learning_rate": 1.7473920000000004e-05, + "loss": 0.022, + "step": 59205 + }, + { + "epoch": 0.378944, + "grad_norm": 0.5772736668586731, + "learning_rate": 1.7473706666666668e-05, + "loss": 0.0307, + "step": 59210 + }, + { + "epoch": 0.378976, + "grad_norm": 2.4510915279388428, + "learning_rate": 1.7473493333333335e-05, + "loss": 0.0307, + "step": 59215 + }, + { + "epoch": 0.379008, + "grad_norm": 1.8460633754730225, + "learning_rate": 1.7473280000000003e-05, + "loss": 0.0633, + "step": 59220 + }, + { + "epoch": 0.37904, + "grad_norm": 0.9113585948944092, + "learning_rate": 1.7473066666666667e-05, + "loss": 0.0407, + "step": 59225 + }, + { + "epoch": 0.379072, + "grad_norm": 0.46723270416259766, + "learning_rate": 1.7472853333333335e-05, + "loss": 0.019, + "step": 59230 + }, + { + "epoch": 0.379104, + "grad_norm": 0.37006300687789917, + "learning_rate": 1.7472640000000002e-05, + "loss": 0.0221, + "step": 59235 + }, + { + "epoch": 0.379136, + "grad_norm": 0.4706383943557739, + "learning_rate": 1.747242666666667e-05, + "loss": 0.0334, + "step": 59240 + }, + { + "epoch": 0.379168, + "grad_norm": 3.708998203277588, + "learning_rate": 1.7472213333333334e-05, + "loss": 0.0394, + "step": 59245 + }, + { + "epoch": 0.3792, + "grad_norm": 0.42915773391723633, + "learning_rate": 1.7472e-05, + "loss": 0.0176, + "step": 59250 + }, + { + "epoch": 0.379232, + "grad_norm": 0.12581799924373627, + "learning_rate": 1.747178666666667e-05, + "loss": 0.0167, + "step": 59255 + }, + { + "epoch": 0.379264, + "grad_norm": 0.9817039966583252, + "learning_rate": 1.7471573333333333e-05, + "loss": 0.0431, + "step": 59260 + }, + { + "epoch": 0.379296, + "grad_norm": 0.3487202227115631, + "learning_rate": 1.747136e-05, + "loss": 0.0348, + "step": 59265 + }, + { + "epoch": 0.379328, + "grad_norm": 0.9000866413116455, + "learning_rate": 1.7471146666666668e-05, + "loss": 0.0368, + "step": 59270 + }, + { + "epoch": 0.37936, + "grad_norm": 0.3934910297393799, + "learning_rate": 1.7470933333333336e-05, + "loss": 0.0323, + "step": 59275 + }, + { + "epoch": 0.379392, + "grad_norm": 0.44712892174720764, + "learning_rate": 1.747072e-05, + "loss": 0.0275, + "step": 59280 + }, + { + "epoch": 0.379424, + "grad_norm": 0.33393800258636475, + "learning_rate": 1.7470506666666668e-05, + "loss": 0.0306, + "step": 59285 + }, + { + "epoch": 0.379456, + "grad_norm": 2.1671206951141357, + "learning_rate": 1.7470293333333335e-05, + "loss": 0.0394, + "step": 59290 + }, + { + "epoch": 0.379488, + "grad_norm": 0.3172522187232971, + "learning_rate": 1.747008e-05, + "loss": 0.0384, + "step": 59295 + }, + { + "epoch": 0.37952, + "grad_norm": 0.4129124581813812, + "learning_rate": 1.7469866666666667e-05, + "loss": 0.0347, + "step": 59300 + }, + { + "epoch": 0.379552, + "grad_norm": 1.0863763093948364, + "learning_rate": 1.7469653333333334e-05, + "loss": 0.0732, + "step": 59305 + }, + { + "epoch": 0.379584, + "grad_norm": 0.3566111922264099, + "learning_rate": 1.7469440000000002e-05, + "loss": 0.0243, + "step": 59310 + }, + { + "epoch": 0.379616, + "grad_norm": 0.5585511326789856, + "learning_rate": 1.7469226666666666e-05, + "loss": 0.0248, + "step": 59315 + }, + { + "epoch": 0.379648, + "grad_norm": 0.5469619631767273, + "learning_rate": 1.7469013333333337e-05, + "loss": 0.0331, + "step": 59320 + }, + { + "epoch": 0.37968, + "grad_norm": 0.3959103524684906, + "learning_rate": 1.74688e-05, + "loss": 0.0223, + "step": 59325 + }, + { + "epoch": 0.379712, + "grad_norm": 0.6026014685630798, + "learning_rate": 1.7468586666666665e-05, + "loss": 0.0225, + "step": 59330 + }, + { + "epoch": 0.379744, + "grad_norm": 1.3748750686645508, + "learning_rate": 1.7468373333333336e-05, + "loss": 0.0555, + "step": 59335 + }, + { + "epoch": 0.379776, + "grad_norm": 0.41705256700515747, + "learning_rate": 1.746816e-05, + "loss": 0.0203, + "step": 59340 + }, + { + "epoch": 0.379808, + "grad_norm": 0.941780149936676, + "learning_rate": 1.7467946666666668e-05, + "loss": 0.031, + "step": 59345 + }, + { + "epoch": 0.37984, + "grad_norm": 0.5356249213218689, + "learning_rate": 1.7467733333333336e-05, + "loss": 0.0369, + "step": 59350 + }, + { + "epoch": 0.379872, + "grad_norm": 0.4221443235874176, + "learning_rate": 1.7467520000000003e-05, + "loss": 0.0462, + "step": 59355 + }, + { + "epoch": 0.379904, + "grad_norm": 1.3352634906768799, + "learning_rate": 1.7467306666666667e-05, + "loss": 0.0563, + "step": 59360 + }, + { + "epoch": 0.379936, + "grad_norm": 0.17607668042182922, + "learning_rate": 1.7467093333333335e-05, + "loss": 0.0192, + "step": 59365 + }, + { + "epoch": 0.379968, + "grad_norm": 0.3573407232761383, + "learning_rate": 1.7466880000000002e-05, + "loss": 0.025, + "step": 59370 + }, + { + "epoch": 0.38, + "grad_norm": 0.23495705425739288, + "learning_rate": 1.7466666666666667e-05, + "loss": 0.02, + "step": 59375 + }, + { + "epoch": 0.380032, + "grad_norm": 6.275982856750488, + "learning_rate": 1.7466453333333334e-05, + "loss": 0.0542, + "step": 59380 + }, + { + "epoch": 0.380064, + "grad_norm": 0.31050923466682434, + "learning_rate": 1.746624e-05, + "loss": 0.0309, + "step": 59385 + }, + { + "epoch": 0.380096, + "grad_norm": 0.8711219429969788, + "learning_rate": 1.746602666666667e-05, + "loss": 0.0303, + "step": 59390 + }, + { + "epoch": 0.380128, + "grad_norm": 0.2241380661725998, + "learning_rate": 1.7465813333333333e-05, + "loss": 0.0111, + "step": 59395 + }, + { + "epoch": 0.38016, + "grad_norm": 0.4679553210735321, + "learning_rate": 1.74656e-05, + "loss": 0.0225, + "step": 59400 + }, + { + "epoch": 0.380192, + "grad_norm": 0.9935508370399475, + "learning_rate": 1.746538666666667e-05, + "loss": 0.0376, + "step": 59405 + }, + { + "epoch": 0.380224, + "grad_norm": 1.0043812990188599, + "learning_rate": 1.7465173333333333e-05, + "loss": 0.0202, + "step": 59410 + }, + { + "epoch": 0.380256, + "grad_norm": 0.8988854885101318, + "learning_rate": 1.746496e-05, + "loss": 0.0329, + "step": 59415 + }, + { + "epoch": 0.380288, + "grad_norm": 0.5898571610450745, + "learning_rate": 1.7464746666666668e-05, + "loss": 0.0407, + "step": 59420 + }, + { + "epoch": 0.38032, + "grad_norm": 5.052103042602539, + "learning_rate": 1.7464533333333335e-05, + "loss": 0.0598, + "step": 59425 + }, + { + "epoch": 0.380352, + "grad_norm": 1.0783442258834839, + "learning_rate": 1.7464320000000003e-05, + "loss": 0.0425, + "step": 59430 + }, + { + "epoch": 0.380384, + "grad_norm": 0.39099884033203125, + "learning_rate": 1.7464106666666667e-05, + "loss": 0.0201, + "step": 59435 + }, + { + "epoch": 0.380416, + "grad_norm": 0.7343785166740417, + "learning_rate": 1.7463893333333335e-05, + "loss": 0.0212, + "step": 59440 + }, + { + "epoch": 0.380448, + "grad_norm": 0.3192388117313385, + "learning_rate": 1.7463680000000002e-05, + "loss": 0.0433, + "step": 59445 + }, + { + "epoch": 0.38048, + "grad_norm": 0.7408352494239807, + "learning_rate": 1.746346666666667e-05, + "loss": 0.0322, + "step": 59450 + }, + { + "epoch": 0.380512, + "grad_norm": 0.2321493774652481, + "learning_rate": 1.7463253333333334e-05, + "loss": 0.035, + "step": 59455 + }, + { + "epoch": 0.380544, + "grad_norm": 0.5290465354919434, + "learning_rate": 1.746304e-05, + "loss": 0.0335, + "step": 59460 + }, + { + "epoch": 0.380576, + "grad_norm": 0.5382633209228516, + "learning_rate": 1.746282666666667e-05, + "loss": 0.038, + "step": 59465 + }, + { + "epoch": 0.380608, + "grad_norm": 1.7903127670288086, + "learning_rate": 1.7462613333333337e-05, + "loss": 0.021, + "step": 59470 + }, + { + "epoch": 0.38064, + "grad_norm": 0.6304804086685181, + "learning_rate": 1.74624e-05, + "loss": 0.0204, + "step": 59475 + }, + { + "epoch": 0.380672, + "grad_norm": 0.5053147673606873, + "learning_rate": 1.7462186666666668e-05, + "loss": 0.0628, + "step": 59480 + }, + { + "epoch": 0.380704, + "grad_norm": 0.08268249034881592, + "learning_rate": 1.7461973333333336e-05, + "loss": 0.0423, + "step": 59485 + }, + { + "epoch": 0.380736, + "grad_norm": 1.420776605606079, + "learning_rate": 1.746176e-05, + "loss": 0.0346, + "step": 59490 + }, + { + "epoch": 0.380768, + "grad_norm": 0.9283841848373413, + "learning_rate": 1.7461546666666668e-05, + "loss": 0.0213, + "step": 59495 + }, + { + "epoch": 0.3808, + "grad_norm": 0.9150549173355103, + "learning_rate": 1.7461333333333335e-05, + "loss": 0.0395, + "step": 59500 + }, + { + "epoch": 0.380832, + "grad_norm": 0.21462735533714294, + "learning_rate": 1.7461120000000003e-05, + "loss": 0.0253, + "step": 59505 + }, + { + "epoch": 0.380864, + "grad_norm": 0.7392804622650146, + "learning_rate": 1.7460906666666667e-05, + "loss": 0.0366, + "step": 59510 + }, + { + "epoch": 0.380896, + "grad_norm": 0.5833858251571655, + "learning_rate": 1.7460693333333334e-05, + "loss": 0.0162, + "step": 59515 + }, + { + "epoch": 0.380928, + "grad_norm": 0.41862016916275024, + "learning_rate": 1.7460480000000002e-05, + "loss": 0.0281, + "step": 59520 + }, + { + "epoch": 0.38096, + "grad_norm": 0.09990628063678741, + "learning_rate": 1.7460266666666666e-05, + "loss": 0.023, + "step": 59525 + }, + { + "epoch": 0.380992, + "grad_norm": 0.21001999080181122, + "learning_rate": 1.7460053333333337e-05, + "loss": 0.0515, + "step": 59530 + }, + { + "epoch": 0.381024, + "grad_norm": 0.4748576581478119, + "learning_rate": 1.745984e-05, + "loss": 0.0283, + "step": 59535 + }, + { + "epoch": 0.381056, + "grad_norm": 0.4956628680229187, + "learning_rate": 1.745962666666667e-05, + "loss": 0.0273, + "step": 59540 + }, + { + "epoch": 0.381088, + "grad_norm": 0.3069738447666168, + "learning_rate": 1.7459413333333336e-05, + "loss": 0.0208, + "step": 59545 + }, + { + "epoch": 0.38112, + "grad_norm": 1.41907799243927, + "learning_rate": 1.74592e-05, + "loss": 0.0366, + "step": 59550 + }, + { + "epoch": 0.381152, + "grad_norm": 0.3607009947299957, + "learning_rate": 1.7458986666666668e-05, + "loss": 0.0409, + "step": 59555 + }, + { + "epoch": 0.381184, + "grad_norm": 1.195854663848877, + "learning_rate": 1.7458773333333336e-05, + "loss": 0.0259, + "step": 59560 + }, + { + "epoch": 0.381216, + "grad_norm": 1.33438241481781, + "learning_rate": 1.7458560000000003e-05, + "loss": 0.0342, + "step": 59565 + }, + { + "epoch": 0.381248, + "grad_norm": 0.3377978205680847, + "learning_rate": 1.7458346666666667e-05, + "loss": 0.0459, + "step": 59570 + }, + { + "epoch": 0.38128, + "grad_norm": 0.5604614615440369, + "learning_rate": 1.7458133333333335e-05, + "loss": 0.0395, + "step": 59575 + }, + { + "epoch": 0.381312, + "grad_norm": 0.46073493361473083, + "learning_rate": 1.7457920000000002e-05, + "loss": 0.0265, + "step": 59580 + }, + { + "epoch": 0.381344, + "grad_norm": 0.548174262046814, + "learning_rate": 1.7457706666666667e-05, + "loss": 0.0429, + "step": 59585 + }, + { + "epoch": 0.381376, + "grad_norm": 0.5847192406654358, + "learning_rate": 1.7457493333333334e-05, + "loss": 0.041, + "step": 59590 + }, + { + "epoch": 0.381408, + "grad_norm": 0.5581969022750854, + "learning_rate": 1.7457280000000002e-05, + "loss": 0.0229, + "step": 59595 + }, + { + "epoch": 0.38144, + "grad_norm": 0.8962435126304626, + "learning_rate": 1.745706666666667e-05, + "loss": 0.038, + "step": 59600 + }, + { + "epoch": 0.381472, + "grad_norm": 0.6744544506072998, + "learning_rate": 1.7456853333333333e-05, + "loss": 0.0335, + "step": 59605 + }, + { + "epoch": 0.381504, + "grad_norm": 0.37755194306373596, + "learning_rate": 1.745664e-05, + "loss": 0.0369, + "step": 59610 + }, + { + "epoch": 0.381536, + "grad_norm": 1.0772124528884888, + "learning_rate": 1.745642666666667e-05, + "loss": 0.0388, + "step": 59615 + }, + { + "epoch": 0.381568, + "grad_norm": 1.1635087728500366, + "learning_rate": 1.7456213333333333e-05, + "loss": 0.0449, + "step": 59620 + }, + { + "epoch": 0.3816, + "grad_norm": 1.2251691818237305, + "learning_rate": 1.7456e-05, + "loss": 0.0315, + "step": 59625 + }, + { + "epoch": 0.381632, + "grad_norm": 0.3856324255466461, + "learning_rate": 1.7455786666666668e-05, + "loss": 0.0295, + "step": 59630 + }, + { + "epoch": 0.381664, + "grad_norm": 0.5255613923072815, + "learning_rate": 1.7455573333333335e-05, + "loss": 0.0559, + "step": 59635 + }, + { + "epoch": 0.381696, + "grad_norm": 0.7722030878067017, + "learning_rate": 1.745536e-05, + "loss": 0.0449, + "step": 59640 + }, + { + "epoch": 0.381728, + "grad_norm": 0.399207204580307, + "learning_rate": 1.745514666666667e-05, + "loss": 0.0411, + "step": 59645 + }, + { + "epoch": 0.38176, + "grad_norm": 1.4531948566436768, + "learning_rate": 1.7454933333333335e-05, + "loss": 0.0288, + "step": 59650 + }, + { + "epoch": 0.381792, + "grad_norm": 0.6605170369148254, + "learning_rate": 1.7454720000000002e-05, + "loss": 0.033, + "step": 59655 + }, + { + "epoch": 0.381824, + "grad_norm": 1.991399884223938, + "learning_rate": 1.745450666666667e-05, + "loss": 0.0361, + "step": 59660 + }, + { + "epoch": 0.381856, + "grad_norm": 0.34110027551651, + "learning_rate": 1.7454293333333334e-05, + "loss": 0.0304, + "step": 59665 + }, + { + "epoch": 0.381888, + "grad_norm": 0.23386390507221222, + "learning_rate": 1.745408e-05, + "loss": 0.0315, + "step": 59670 + }, + { + "epoch": 0.38192, + "grad_norm": 0.4706164300441742, + "learning_rate": 1.745386666666667e-05, + "loss": 0.0562, + "step": 59675 + }, + { + "epoch": 0.381952, + "grad_norm": 1.292799949645996, + "learning_rate": 1.7453653333333337e-05, + "loss": 0.0301, + "step": 59680 + }, + { + "epoch": 0.381984, + "grad_norm": 0.7969703078269958, + "learning_rate": 1.745344e-05, + "loss": 0.033, + "step": 59685 + }, + { + "epoch": 0.382016, + "grad_norm": 0.5710371136665344, + "learning_rate": 1.7453226666666668e-05, + "loss": 0.0285, + "step": 59690 + }, + { + "epoch": 0.382048, + "grad_norm": 0.7380293011665344, + "learning_rate": 1.7453013333333336e-05, + "loss": 0.0257, + "step": 59695 + }, + { + "epoch": 0.38208, + "grad_norm": 0.919952929019928, + "learning_rate": 1.74528e-05, + "loss": 0.0459, + "step": 59700 + }, + { + "epoch": 0.382112, + "grad_norm": 0.8996157050132751, + "learning_rate": 1.7452586666666668e-05, + "loss": 0.0207, + "step": 59705 + }, + { + "epoch": 0.382144, + "grad_norm": 0.41656485199928284, + "learning_rate": 1.7452373333333335e-05, + "loss": 0.0563, + "step": 59710 + }, + { + "epoch": 0.382176, + "grad_norm": 1.7771011590957642, + "learning_rate": 1.7452160000000003e-05, + "loss": 0.0319, + "step": 59715 + }, + { + "epoch": 0.382208, + "grad_norm": 0.733899712562561, + "learning_rate": 1.7451946666666667e-05, + "loss": 0.0282, + "step": 59720 + }, + { + "epoch": 0.38224, + "grad_norm": 0.6099166870117188, + "learning_rate": 1.7451733333333334e-05, + "loss": 0.0474, + "step": 59725 + }, + { + "epoch": 0.382272, + "grad_norm": 0.7179358601570129, + "learning_rate": 1.7451520000000002e-05, + "loss": 0.023, + "step": 59730 + }, + { + "epoch": 0.382304, + "grad_norm": 0.9026167392730713, + "learning_rate": 1.7451306666666666e-05, + "loss": 0.0346, + "step": 59735 + }, + { + "epoch": 0.382336, + "grad_norm": 0.6176680326461792, + "learning_rate": 1.7451093333333337e-05, + "loss": 0.0434, + "step": 59740 + }, + { + "epoch": 0.382368, + "grad_norm": 0.5110011696815491, + "learning_rate": 1.745088e-05, + "loss": 0.0179, + "step": 59745 + }, + { + "epoch": 0.3824, + "grad_norm": 0.9156621694564819, + "learning_rate": 1.745066666666667e-05, + "loss": 0.0518, + "step": 59750 + }, + { + "epoch": 0.382432, + "grad_norm": 0.10810055583715439, + "learning_rate": 1.7450453333333336e-05, + "loss": 0.0231, + "step": 59755 + }, + { + "epoch": 0.382464, + "grad_norm": 0.5057852864265442, + "learning_rate": 1.745024e-05, + "loss": 0.0476, + "step": 59760 + }, + { + "epoch": 0.382496, + "grad_norm": 0.689125120639801, + "learning_rate": 1.7450026666666668e-05, + "loss": 0.035, + "step": 59765 + }, + { + "epoch": 0.382528, + "grad_norm": 0.7229630947113037, + "learning_rate": 1.7449813333333336e-05, + "loss": 0.0212, + "step": 59770 + }, + { + "epoch": 0.38256, + "grad_norm": 0.3394988179206848, + "learning_rate": 1.7449600000000003e-05, + "loss": 0.0189, + "step": 59775 + }, + { + "epoch": 0.382592, + "grad_norm": 0.6045843958854675, + "learning_rate": 1.7449386666666667e-05, + "loss": 0.0567, + "step": 59780 + }, + { + "epoch": 0.382624, + "grad_norm": 0.6178243160247803, + "learning_rate": 1.7449173333333335e-05, + "loss": 0.0293, + "step": 59785 + }, + { + "epoch": 0.382656, + "grad_norm": 0.3393900990486145, + "learning_rate": 1.7448960000000002e-05, + "loss": 0.0358, + "step": 59790 + }, + { + "epoch": 0.382688, + "grad_norm": 0.4552902281284332, + "learning_rate": 1.7448746666666667e-05, + "loss": 0.0296, + "step": 59795 + }, + { + "epoch": 0.38272, + "grad_norm": 0.17987965047359467, + "learning_rate": 1.7448533333333334e-05, + "loss": 0.0247, + "step": 59800 + }, + { + "epoch": 0.382752, + "grad_norm": 0.5376313328742981, + "learning_rate": 1.7448320000000002e-05, + "loss": 0.0244, + "step": 59805 + }, + { + "epoch": 0.382784, + "grad_norm": 0.4309771656990051, + "learning_rate": 1.744810666666667e-05, + "loss": 0.035, + "step": 59810 + }, + { + "epoch": 0.382816, + "grad_norm": 0.5077314376831055, + "learning_rate": 1.7447893333333333e-05, + "loss": 0.0412, + "step": 59815 + }, + { + "epoch": 0.382848, + "grad_norm": 0.3883141577243805, + "learning_rate": 1.744768e-05, + "loss": 0.0261, + "step": 59820 + }, + { + "epoch": 0.38288, + "grad_norm": 0.9694209098815918, + "learning_rate": 1.744746666666667e-05, + "loss": 0.0336, + "step": 59825 + }, + { + "epoch": 0.382912, + "grad_norm": 0.26829904317855835, + "learning_rate": 1.7447253333333333e-05, + "loss": 0.0214, + "step": 59830 + }, + { + "epoch": 0.382944, + "grad_norm": 0.5255053639411926, + "learning_rate": 1.744704e-05, + "loss": 0.0256, + "step": 59835 + }, + { + "epoch": 0.382976, + "grad_norm": 1.071518063545227, + "learning_rate": 1.7446826666666668e-05, + "loss": 0.0499, + "step": 59840 + }, + { + "epoch": 0.383008, + "grad_norm": 0.49377569556236267, + "learning_rate": 1.7446613333333335e-05, + "loss": 0.0321, + "step": 59845 + }, + { + "epoch": 0.38304, + "grad_norm": 0.7248726487159729, + "learning_rate": 1.74464e-05, + "loss": 0.035, + "step": 59850 + }, + { + "epoch": 0.383072, + "grad_norm": 0.848709762096405, + "learning_rate": 1.744618666666667e-05, + "loss": 0.0253, + "step": 59855 + }, + { + "epoch": 0.383104, + "grad_norm": 0.5879725217819214, + "learning_rate": 1.7445973333333335e-05, + "loss": 0.0189, + "step": 59860 + }, + { + "epoch": 0.383136, + "grad_norm": 0.5019258260726929, + "learning_rate": 1.744576e-05, + "loss": 0.0162, + "step": 59865 + }, + { + "epoch": 0.383168, + "grad_norm": 2.0257105827331543, + "learning_rate": 1.744554666666667e-05, + "loss": 0.0396, + "step": 59870 + }, + { + "epoch": 0.3832, + "grad_norm": 1.7154042720794678, + "learning_rate": 1.7445333333333334e-05, + "loss": 0.0257, + "step": 59875 + }, + { + "epoch": 0.383232, + "grad_norm": 0.8599529266357422, + "learning_rate": 1.744512e-05, + "loss": 0.032, + "step": 59880 + }, + { + "epoch": 0.383264, + "grad_norm": 0.2840055227279663, + "learning_rate": 1.744490666666667e-05, + "loss": 0.0154, + "step": 59885 + }, + { + "epoch": 0.383296, + "grad_norm": 1.180077075958252, + "learning_rate": 1.7444693333333337e-05, + "loss": 0.0418, + "step": 59890 + }, + { + "epoch": 0.383328, + "grad_norm": 0.9405677914619446, + "learning_rate": 1.744448e-05, + "loss": 0.033, + "step": 59895 + }, + { + "epoch": 0.38336, + "grad_norm": 1.6901639699935913, + "learning_rate": 1.7444266666666668e-05, + "loss": 0.029, + "step": 59900 + }, + { + "epoch": 0.383392, + "grad_norm": 0.7933913469314575, + "learning_rate": 1.7444053333333336e-05, + "loss": 0.0215, + "step": 59905 + }, + { + "epoch": 0.383424, + "grad_norm": 0.8376355171203613, + "learning_rate": 1.744384e-05, + "loss": 0.0192, + "step": 59910 + }, + { + "epoch": 0.383456, + "grad_norm": 1.679186224937439, + "learning_rate": 1.7443626666666668e-05, + "loss": 0.0423, + "step": 59915 + }, + { + "epoch": 0.383488, + "grad_norm": 0.7617518305778503, + "learning_rate": 1.7443413333333335e-05, + "loss": 0.0329, + "step": 59920 + }, + { + "epoch": 0.38352, + "grad_norm": 1.0245829820632935, + "learning_rate": 1.7443200000000003e-05, + "loss": 0.0458, + "step": 59925 + }, + { + "epoch": 0.383552, + "grad_norm": 4.120529651641846, + "learning_rate": 1.7442986666666667e-05, + "loss": 0.0476, + "step": 59930 + }, + { + "epoch": 0.383584, + "grad_norm": 0.6721111536026001, + "learning_rate": 1.7442773333333334e-05, + "loss": 0.044, + "step": 59935 + }, + { + "epoch": 0.383616, + "grad_norm": 0.3984779119491577, + "learning_rate": 1.7442560000000002e-05, + "loss": 0.0326, + "step": 59940 + }, + { + "epoch": 0.383648, + "grad_norm": 1.2105956077575684, + "learning_rate": 1.7442346666666666e-05, + "loss": 0.0406, + "step": 59945 + }, + { + "epoch": 0.38368, + "grad_norm": 2.442837715148926, + "learning_rate": 1.7442133333333337e-05, + "loss": 0.0403, + "step": 59950 + }, + { + "epoch": 0.383712, + "grad_norm": 0.6721412539482117, + "learning_rate": 1.744192e-05, + "loss": 0.036, + "step": 59955 + }, + { + "epoch": 0.383744, + "grad_norm": 0.3941846787929535, + "learning_rate": 1.744170666666667e-05, + "loss": 0.0399, + "step": 59960 + }, + { + "epoch": 0.383776, + "grad_norm": 0.9227889180183411, + "learning_rate": 1.7441493333333336e-05, + "loss": 0.0309, + "step": 59965 + }, + { + "epoch": 0.383808, + "grad_norm": 1.0172274112701416, + "learning_rate": 1.744128e-05, + "loss": 0.031, + "step": 59970 + }, + { + "epoch": 0.38384, + "grad_norm": 0.28830498456954956, + "learning_rate": 1.7441066666666668e-05, + "loss": 0.0264, + "step": 59975 + }, + { + "epoch": 0.383872, + "grad_norm": 0.724614143371582, + "learning_rate": 1.7440853333333336e-05, + "loss": 0.0316, + "step": 59980 + }, + { + "epoch": 0.383904, + "grad_norm": 0.6042357683181763, + "learning_rate": 1.7440640000000003e-05, + "loss": 0.0505, + "step": 59985 + }, + { + "epoch": 0.383936, + "grad_norm": 0.6180086135864258, + "learning_rate": 1.7440426666666667e-05, + "loss": 0.0182, + "step": 59990 + }, + { + "epoch": 0.383968, + "grad_norm": 0.09764214605093002, + "learning_rate": 1.7440213333333335e-05, + "loss": 0.027, + "step": 59995 + }, + { + "epoch": 0.384, + "grad_norm": 0.30735132098197937, + "learning_rate": 1.7440000000000002e-05, + "loss": 0.037, + "step": 60000 + }, + { + "epoch": 0.384032, + "grad_norm": 0.8761429190635681, + "learning_rate": 1.7439786666666667e-05, + "loss": 0.0398, + "step": 60005 + }, + { + "epoch": 0.384064, + "grad_norm": 0.4214572608470917, + "learning_rate": 1.7439573333333334e-05, + "loss": 0.0188, + "step": 60010 + }, + { + "epoch": 0.384096, + "grad_norm": 0.3981073200702667, + "learning_rate": 1.7439360000000002e-05, + "loss": 0.032, + "step": 60015 + }, + { + "epoch": 0.384128, + "grad_norm": 0.6587575674057007, + "learning_rate": 1.743914666666667e-05, + "loss": 0.0271, + "step": 60020 + }, + { + "epoch": 0.38416, + "grad_norm": 0.43763434886932373, + "learning_rate": 1.7438933333333333e-05, + "loss": 0.0166, + "step": 60025 + }, + { + "epoch": 0.384192, + "grad_norm": 0.6636437773704529, + "learning_rate": 1.743872e-05, + "loss": 0.0255, + "step": 60030 + }, + { + "epoch": 0.384224, + "grad_norm": 0.4719766676425934, + "learning_rate": 1.743850666666667e-05, + "loss": 0.0287, + "step": 60035 + }, + { + "epoch": 0.384256, + "grad_norm": 0.061713214963674545, + "learning_rate": 1.7438293333333333e-05, + "loss": 0.0286, + "step": 60040 + }, + { + "epoch": 0.384288, + "grad_norm": 0.5770400166511536, + "learning_rate": 1.743808e-05, + "loss": 0.0375, + "step": 60045 + }, + { + "epoch": 0.38432, + "grad_norm": 1.144604206085205, + "learning_rate": 1.7437866666666668e-05, + "loss": 0.0222, + "step": 60050 + }, + { + "epoch": 0.384352, + "grad_norm": 0.23122304677963257, + "learning_rate": 1.7437653333333335e-05, + "loss": 0.025, + "step": 60055 + }, + { + "epoch": 0.384384, + "grad_norm": 0.9628992676734924, + "learning_rate": 1.743744e-05, + "loss": 0.037, + "step": 60060 + }, + { + "epoch": 0.384416, + "grad_norm": 0.1294090896844864, + "learning_rate": 1.743722666666667e-05, + "loss": 0.0214, + "step": 60065 + }, + { + "epoch": 0.384448, + "grad_norm": 1.0127876996994019, + "learning_rate": 1.7437013333333335e-05, + "loss": 0.026, + "step": 60070 + }, + { + "epoch": 0.38448, + "grad_norm": 0.8499844670295715, + "learning_rate": 1.74368e-05, + "loss": 0.0308, + "step": 60075 + }, + { + "epoch": 0.384512, + "grad_norm": 1.0887821912765503, + "learning_rate": 1.743658666666667e-05, + "loss": 0.0335, + "step": 60080 + }, + { + "epoch": 0.384544, + "grad_norm": 0.46899354457855225, + "learning_rate": 1.7436373333333334e-05, + "loss": 0.026, + "step": 60085 + }, + { + "epoch": 0.384576, + "grad_norm": 0.41887927055358887, + "learning_rate": 1.743616e-05, + "loss": 0.0389, + "step": 60090 + }, + { + "epoch": 0.384608, + "grad_norm": 1.5932918787002563, + "learning_rate": 1.743594666666667e-05, + "loss": 0.0378, + "step": 60095 + }, + { + "epoch": 0.38464, + "grad_norm": 0.3045194447040558, + "learning_rate": 1.7435733333333337e-05, + "loss": 0.0461, + "step": 60100 + }, + { + "epoch": 0.384672, + "grad_norm": 0.9453560709953308, + "learning_rate": 1.743552e-05, + "loss": 0.0417, + "step": 60105 + }, + { + "epoch": 0.384704, + "grad_norm": 0.2690676748752594, + "learning_rate": 1.7435306666666668e-05, + "loss": 0.018, + "step": 60110 + }, + { + "epoch": 0.384736, + "grad_norm": 0.47817274928092957, + "learning_rate": 1.7435093333333336e-05, + "loss": 0.0241, + "step": 60115 + }, + { + "epoch": 0.384768, + "grad_norm": 0.7405945658683777, + "learning_rate": 1.743488e-05, + "loss": 0.0204, + "step": 60120 + }, + { + "epoch": 0.3848, + "grad_norm": 0.2604875862598419, + "learning_rate": 1.7434666666666668e-05, + "loss": 0.0602, + "step": 60125 + }, + { + "epoch": 0.384832, + "grad_norm": 0.34377342462539673, + "learning_rate": 1.7434453333333335e-05, + "loss": 0.0555, + "step": 60130 + }, + { + "epoch": 0.384864, + "grad_norm": 1.7814650535583496, + "learning_rate": 1.7434240000000003e-05, + "loss": 0.0391, + "step": 60135 + }, + { + "epoch": 0.384896, + "grad_norm": 0.3958970308303833, + "learning_rate": 1.7434026666666667e-05, + "loss": 0.0482, + "step": 60140 + }, + { + "epoch": 0.384928, + "grad_norm": 1.0542160272598267, + "learning_rate": 1.7433813333333334e-05, + "loss": 0.0492, + "step": 60145 + }, + { + "epoch": 0.38496, + "grad_norm": 0.6051263213157654, + "learning_rate": 1.7433600000000002e-05, + "loss": 0.0532, + "step": 60150 + }, + { + "epoch": 0.384992, + "grad_norm": 0.8870828151702881, + "learning_rate": 1.7433386666666666e-05, + "loss": 0.0433, + "step": 60155 + }, + { + "epoch": 0.385024, + "grad_norm": 1.0022704601287842, + "learning_rate": 1.7433173333333334e-05, + "loss": 0.0321, + "step": 60160 + }, + { + "epoch": 0.385056, + "grad_norm": 0.14424969255924225, + "learning_rate": 1.743296e-05, + "loss": 0.0392, + "step": 60165 + }, + { + "epoch": 0.385088, + "grad_norm": 0.9701665043830872, + "learning_rate": 1.743274666666667e-05, + "loss": 0.03, + "step": 60170 + }, + { + "epoch": 0.38512, + "grad_norm": 0.3028765916824341, + "learning_rate": 1.7432533333333336e-05, + "loss": 0.0291, + "step": 60175 + }, + { + "epoch": 0.385152, + "grad_norm": 0.44423526525497437, + "learning_rate": 1.743232e-05, + "loss": 0.0425, + "step": 60180 + }, + { + "epoch": 0.385184, + "grad_norm": 0.5647989511489868, + "learning_rate": 1.7432106666666668e-05, + "loss": 0.0507, + "step": 60185 + }, + { + "epoch": 0.385216, + "grad_norm": 0.4452930688858032, + "learning_rate": 1.7431893333333336e-05, + "loss": 0.0175, + "step": 60190 + }, + { + "epoch": 0.385248, + "grad_norm": 0.8598690629005432, + "learning_rate": 1.7431680000000003e-05, + "loss": 0.0337, + "step": 60195 + }, + { + "epoch": 0.38528, + "grad_norm": 0.4829898476600647, + "learning_rate": 1.7431466666666667e-05, + "loss": 0.0407, + "step": 60200 + }, + { + "epoch": 0.385312, + "grad_norm": 0.9114930629730225, + "learning_rate": 1.7431253333333335e-05, + "loss": 0.0397, + "step": 60205 + }, + { + "epoch": 0.385344, + "grad_norm": 0.5592085719108582, + "learning_rate": 1.7431040000000002e-05, + "loss": 0.0369, + "step": 60210 + }, + { + "epoch": 0.385376, + "grad_norm": 0.5410879254341125, + "learning_rate": 1.7430826666666667e-05, + "loss": 0.0217, + "step": 60215 + }, + { + "epoch": 0.385408, + "grad_norm": 0.48570311069488525, + "learning_rate": 1.7430613333333334e-05, + "loss": 0.0309, + "step": 60220 + }, + { + "epoch": 0.38544, + "grad_norm": 0.255504310131073, + "learning_rate": 1.7430400000000002e-05, + "loss": 0.0295, + "step": 60225 + }, + { + "epoch": 0.385472, + "grad_norm": 0.7702581882476807, + "learning_rate": 1.743018666666667e-05, + "loss": 0.0529, + "step": 60230 + }, + { + "epoch": 0.385504, + "grad_norm": 0.30630359053611755, + "learning_rate": 1.7429973333333333e-05, + "loss": 0.0245, + "step": 60235 + }, + { + "epoch": 0.385536, + "grad_norm": 1.1520799398422241, + "learning_rate": 1.742976e-05, + "loss": 0.0304, + "step": 60240 + }, + { + "epoch": 0.385568, + "grad_norm": 0.5061582326889038, + "learning_rate": 1.742954666666667e-05, + "loss": 0.0332, + "step": 60245 + }, + { + "epoch": 0.3856, + "grad_norm": 0.6194601655006409, + "learning_rate": 1.7429333333333333e-05, + "loss": 0.0292, + "step": 60250 + }, + { + "epoch": 0.385632, + "grad_norm": 0.5851267576217651, + "learning_rate": 1.742912e-05, + "loss": 0.0299, + "step": 60255 + }, + { + "epoch": 0.385664, + "grad_norm": 0.21298575401306152, + "learning_rate": 1.7428906666666668e-05, + "loss": 0.025, + "step": 60260 + }, + { + "epoch": 0.385696, + "grad_norm": 1.4271043539047241, + "learning_rate": 1.7428693333333335e-05, + "loss": 0.0443, + "step": 60265 + }, + { + "epoch": 0.385728, + "grad_norm": 0.3379131257534027, + "learning_rate": 1.742848e-05, + "loss": 0.0182, + "step": 60270 + }, + { + "epoch": 0.38576, + "grad_norm": 0.3322385251522064, + "learning_rate": 1.742826666666667e-05, + "loss": 0.0182, + "step": 60275 + }, + { + "epoch": 0.385792, + "grad_norm": 0.5658384561538696, + "learning_rate": 1.7428053333333335e-05, + "loss": 0.0386, + "step": 60280 + }, + { + "epoch": 0.385824, + "grad_norm": 0.564628005027771, + "learning_rate": 1.7427840000000002e-05, + "loss": 0.0363, + "step": 60285 + }, + { + "epoch": 0.385856, + "grad_norm": 0.4428168833255768, + "learning_rate": 1.742762666666667e-05, + "loss": 0.0279, + "step": 60290 + }, + { + "epoch": 0.385888, + "grad_norm": 0.9235524535179138, + "learning_rate": 1.7427413333333334e-05, + "loss": 0.0329, + "step": 60295 + }, + { + "epoch": 0.38592, + "grad_norm": 2.170806407928467, + "learning_rate": 1.74272e-05, + "loss": 0.049, + "step": 60300 + }, + { + "epoch": 0.385952, + "grad_norm": 0.4583614766597748, + "learning_rate": 1.742698666666667e-05, + "loss": 0.0303, + "step": 60305 + }, + { + "epoch": 0.385984, + "grad_norm": 0.6508821845054626, + "learning_rate": 1.7426773333333337e-05, + "loss": 0.0208, + "step": 60310 + }, + { + "epoch": 0.386016, + "grad_norm": 0.2894529104232788, + "learning_rate": 1.742656e-05, + "loss": 0.0408, + "step": 60315 + }, + { + "epoch": 0.386048, + "grad_norm": 0.9725381731987, + "learning_rate": 1.7426346666666668e-05, + "loss": 0.0206, + "step": 60320 + }, + { + "epoch": 0.38608, + "grad_norm": 0.2664960026741028, + "learning_rate": 1.7426133333333336e-05, + "loss": 0.0209, + "step": 60325 + }, + { + "epoch": 0.386112, + "grad_norm": 0.926898181438446, + "learning_rate": 1.742592e-05, + "loss": 0.018, + "step": 60330 + }, + { + "epoch": 0.386144, + "grad_norm": 0.4067486524581909, + "learning_rate": 1.7425706666666668e-05, + "loss": 0.0372, + "step": 60335 + }, + { + "epoch": 0.386176, + "grad_norm": 0.8174098134040833, + "learning_rate": 1.7425493333333335e-05, + "loss": 0.044, + "step": 60340 + }, + { + "epoch": 0.386208, + "grad_norm": 0.37673085927963257, + "learning_rate": 1.7425280000000003e-05, + "loss": 0.0372, + "step": 60345 + }, + { + "epoch": 0.38624, + "grad_norm": 1.359312653541565, + "learning_rate": 1.7425066666666667e-05, + "loss": 0.0379, + "step": 60350 + }, + { + "epoch": 0.386272, + "grad_norm": 0.596202552318573, + "learning_rate": 1.7424853333333334e-05, + "loss": 0.0307, + "step": 60355 + }, + { + "epoch": 0.386304, + "grad_norm": 0.6452300548553467, + "learning_rate": 1.7424640000000002e-05, + "loss": 0.0448, + "step": 60360 + }, + { + "epoch": 0.386336, + "grad_norm": 1.4385932683944702, + "learning_rate": 1.7424426666666666e-05, + "loss": 0.0372, + "step": 60365 + }, + { + "epoch": 0.386368, + "grad_norm": 8.201620101928711, + "learning_rate": 1.7424213333333334e-05, + "loss": 0.0413, + "step": 60370 + }, + { + "epoch": 0.3864, + "grad_norm": 0.955812931060791, + "learning_rate": 1.7424e-05, + "loss": 0.0531, + "step": 60375 + }, + { + "epoch": 0.386432, + "grad_norm": 2.166391611099243, + "learning_rate": 1.742378666666667e-05, + "loss": 0.0691, + "step": 60380 + }, + { + "epoch": 0.386464, + "grad_norm": 0.8406752347946167, + "learning_rate": 1.7423573333333333e-05, + "loss": 0.0238, + "step": 60385 + }, + { + "epoch": 0.386496, + "grad_norm": 0.7634455561637878, + "learning_rate": 1.7423360000000004e-05, + "loss": 0.0242, + "step": 60390 + }, + { + "epoch": 0.386528, + "grad_norm": 0.2522190511226654, + "learning_rate": 1.7423146666666668e-05, + "loss": 0.0259, + "step": 60395 + }, + { + "epoch": 0.38656, + "grad_norm": 0.7238306403160095, + "learning_rate": 1.7422933333333336e-05, + "loss": 0.0275, + "step": 60400 + }, + { + "epoch": 0.386592, + "grad_norm": 0.6575877070426941, + "learning_rate": 1.7422720000000003e-05, + "loss": 0.0278, + "step": 60405 + }, + { + "epoch": 0.386624, + "grad_norm": 0.6624426245689392, + "learning_rate": 1.7422506666666667e-05, + "loss": 0.0254, + "step": 60410 + }, + { + "epoch": 0.386656, + "grad_norm": 0.8802158832550049, + "learning_rate": 1.7422293333333335e-05, + "loss": 0.0287, + "step": 60415 + }, + { + "epoch": 0.386688, + "grad_norm": 1.255810260772705, + "learning_rate": 1.7422080000000002e-05, + "loss": 0.0472, + "step": 60420 + }, + { + "epoch": 0.38672, + "grad_norm": 0.49392154812812805, + "learning_rate": 1.742186666666667e-05, + "loss": 0.0231, + "step": 60425 + }, + { + "epoch": 0.386752, + "grad_norm": 1.1634185314178467, + "learning_rate": 1.7421653333333334e-05, + "loss": 0.04, + "step": 60430 + }, + { + "epoch": 0.386784, + "grad_norm": 0.32784220576286316, + "learning_rate": 1.7421440000000002e-05, + "loss": 0.034, + "step": 60435 + }, + { + "epoch": 0.386816, + "grad_norm": 0.45238903164863586, + "learning_rate": 1.742122666666667e-05, + "loss": 0.0281, + "step": 60440 + }, + { + "epoch": 0.386848, + "grad_norm": 0.27121293544769287, + "learning_rate": 1.7421013333333333e-05, + "loss": 0.0224, + "step": 60445 + }, + { + "epoch": 0.38688, + "grad_norm": 0.4565863311290741, + "learning_rate": 1.74208e-05, + "loss": 0.0231, + "step": 60450 + }, + { + "epoch": 0.386912, + "grad_norm": 1.0545138120651245, + "learning_rate": 1.742058666666667e-05, + "loss": 0.0475, + "step": 60455 + }, + { + "epoch": 0.386944, + "grad_norm": 0.3665851354598999, + "learning_rate": 1.7420373333333336e-05, + "loss": 0.0403, + "step": 60460 + }, + { + "epoch": 0.386976, + "grad_norm": 0.89193195104599, + "learning_rate": 1.742016e-05, + "loss": 0.0375, + "step": 60465 + }, + { + "epoch": 0.387008, + "grad_norm": 0.2670784592628479, + "learning_rate": 1.7419946666666668e-05, + "loss": 0.0189, + "step": 60470 + }, + { + "epoch": 0.38704, + "grad_norm": 0.516630232334137, + "learning_rate": 1.7419733333333335e-05, + "loss": 0.0254, + "step": 60475 + }, + { + "epoch": 0.387072, + "grad_norm": 0.38215959072113037, + "learning_rate": 1.741952e-05, + "loss": 0.041, + "step": 60480 + }, + { + "epoch": 0.387104, + "grad_norm": 1.212003469467163, + "learning_rate": 1.741930666666667e-05, + "loss": 0.0293, + "step": 60485 + }, + { + "epoch": 0.387136, + "grad_norm": 0.7586145997047424, + "learning_rate": 1.7419093333333335e-05, + "loss": 0.0255, + "step": 60490 + }, + { + "epoch": 0.387168, + "grad_norm": 0.6662797331809998, + "learning_rate": 1.7418880000000002e-05, + "loss": 0.034, + "step": 60495 + }, + { + "epoch": 0.3872, + "grad_norm": 2.2300474643707275, + "learning_rate": 1.741866666666667e-05, + "loss": 0.0402, + "step": 60500 + }, + { + "epoch": 0.387232, + "grad_norm": 0.42886635661125183, + "learning_rate": 1.7418453333333334e-05, + "loss": 0.0167, + "step": 60505 + }, + { + "epoch": 0.387264, + "grad_norm": 0.5798777937889099, + "learning_rate": 1.741824e-05, + "loss": 0.0303, + "step": 60510 + }, + { + "epoch": 0.387296, + "grad_norm": 0.4031127393245697, + "learning_rate": 1.741802666666667e-05, + "loss": 0.0181, + "step": 60515 + }, + { + "epoch": 0.387328, + "grad_norm": 1.5031464099884033, + "learning_rate": 1.7417813333333337e-05, + "loss": 0.0761, + "step": 60520 + }, + { + "epoch": 0.38736, + "grad_norm": 0.4925876259803772, + "learning_rate": 1.74176e-05, + "loss": 0.0263, + "step": 60525 + }, + { + "epoch": 0.387392, + "grad_norm": 1.3504036664962769, + "learning_rate": 1.7417386666666668e-05, + "loss": 0.0328, + "step": 60530 + }, + { + "epoch": 0.387424, + "grad_norm": 0.7800374627113342, + "learning_rate": 1.7417173333333336e-05, + "loss": 0.0393, + "step": 60535 + }, + { + "epoch": 0.387456, + "grad_norm": 0.6990585923194885, + "learning_rate": 1.741696e-05, + "loss": 0.0348, + "step": 60540 + }, + { + "epoch": 0.387488, + "grad_norm": 0.10266322642564774, + "learning_rate": 1.7416746666666668e-05, + "loss": 0.0301, + "step": 60545 + }, + { + "epoch": 0.38752, + "grad_norm": 0.2376512736082077, + "learning_rate": 1.7416533333333335e-05, + "loss": 0.0302, + "step": 60550 + }, + { + "epoch": 0.387552, + "grad_norm": 0.25140833854675293, + "learning_rate": 1.7416320000000003e-05, + "loss": 0.0316, + "step": 60555 + }, + { + "epoch": 0.387584, + "grad_norm": 0.25685808062553406, + "learning_rate": 1.7416106666666667e-05, + "loss": 0.024, + "step": 60560 + }, + { + "epoch": 0.387616, + "grad_norm": 0.5570082664489746, + "learning_rate": 1.7415893333333334e-05, + "loss": 0.0257, + "step": 60565 + }, + { + "epoch": 0.387648, + "grad_norm": 0.9215508699417114, + "learning_rate": 1.7415680000000002e-05, + "loss": 0.0594, + "step": 60570 + }, + { + "epoch": 0.38768, + "grad_norm": 0.42767998576164246, + "learning_rate": 1.7415466666666666e-05, + "loss": 0.0285, + "step": 60575 + }, + { + "epoch": 0.387712, + "grad_norm": 1.2248388528823853, + "learning_rate": 1.7415253333333334e-05, + "loss": 0.0192, + "step": 60580 + }, + { + "epoch": 0.387744, + "grad_norm": 0.3659192621707916, + "learning_rate": 1.741504e-05, + "loss": 0.019, + "step": 60585 + }, + { + "epoch": 0.387776, + "grad_norm": 0.6108946204185486, + "learning_rate": 1.741482666666667e-05, + "loss": 0.0443, + "step": 60590 + }, + { + "epoch": 0.387808, + "grad_norm": 0.13752581179141998, + "learning_rate": 1.7414613333333333e-05, + "loss": 0.0303, + "step": 60595 + }, + { + "epoch": 0.38784, + "grad_norm": 0.4885959029197693, + "learning_rate": 1.7414400000000004e-05, + "loss": 0.0499, + "step": 60600 + }, + { + "epoch": 0.387872, + "grad_norm": 0.2555525600910187, + "learning_rate": 1.7414186666666668e-05, + "loss": 0.0172, + "step": 60605 + }, + { + "epoch": 0.387904, + "grad_norm": 0.6702184677124023, + "learning_rate": 1.7413973333333332e-05, + "loss": 0.0383, + "step": 60610 + }, + { + "epoch": 0.387936, + "grad_norm": 0.3628696799278259, + "learning_rate": 1.7413760000000003e-05, + "loss": 0.0195, + "step": 60615 + }, + { + "epoch": 0.387968, + "grad_norm": 1.9038604497909546, + "learning_rate": 1.7413546666666667e-05, + "loss": 0.0303, + "step": 60620 + }, + { + "epoch": 0.388, + "grad_norm": 0.6839966773986816, + "learning_rate": 1.7413333333333335e-05, + "loss": 0.0355, + "step": 60625 + }, + { + "epoch": 0.388032, + "grad_norm": 0.9155190587043762, + "learning_rate": 1.7413120000000002e-05, + "loss": 0.0262, + "step": 60630 + }, + { + "epoch": 0.388064, + "grad_norm": 0.684730052947998, + "learning_rate": 1.741290666666667e-05, + "loss": 0.0261, + "step": 60635 + }, + { + "epoch": 0.388096, + "grad_norm": 0.44323408603668213, + "learning_rate": 1.7412693333333334e-05, + "loss": 0.0249, + "step": 60640 + }, + { + "epoch": 0.388128, + "grad_norm": 0.3064127266407013, + "learning_rate": 1.7412480000000002e-05, + "loss": 0.0377, + "step": 60645 + }, + { + "epoch": 0.38816, + "grad_norm": 0.5001060962677002, + "learning_rate": 1.741226666666667e-05, + "loss": 0.0271, + "step": 60650 + }, + { + "epoch": 0.388192, + "grad_norm": 2.1800246238708496, + "learning_rate": 1.7412053333333333e-05, + "loss": 0.0472, + "step": 60655 + }, + { + "epoch": 0.388224, + "grad_norm": 0.7245910167694092, + "learning_rate": 1.741184e-05, + "loss": 0.033, + "step": 60660 + }, + { + "epoch": 0.388256, + "grad_norm": 0.46355140209198, + "learning_rate": 1.741162666666667e-05, + "loss": 0.0302, + "step": 60665 + }, + { + "epoch": 0.388288, + "grad_norm": 0.7798287272453308, + "learning_rate": 1.7411413333333336e-05, + "loss": 0.0158, + "step": 60670 + }, + { + "epoch": 0.38832, + "grad_norm": 1.6768755912780762, + "learning_rate": 1.74112e-05, + "loss": 0.0641, + "step": 60675 + }, + { + "epoch": 0.388352, + "grad_norm": 1.2589643001556396, + "learning_rate": 1.7410986666666668e-05, + "loss": 0.0502, + "step": 60680 + }, + { + "epoch": 0.388384, + "grad_norm": 0.5030842423439026, + "learning_rate": 1.7410773333333335e-05, + "loss": 0.0269, + "step": 60685 + }, + { + "epoch": 0.388416, + "grad_norm": 0.7275779843330383, + "learning_rate": 1.741056e-05, + "loss": 0.0245, + "step": 60690 + }, + { + "epoch": 0.388448, + "grad_norm": 1.1458854675292969, + "learning_rate": 1.7410346666666667e-05, + "loss": 0.0488, + "step": 60695 + }, + { + "epoch": 0.38848, + "grad_norm": 1.468619465827942, + "learning_rate": 1.7410133333333335e-05, + "loss": 0.0527, + "step": 60700 + }, + { + "epoch": 0.388512, + "grad_norm": 1.0201876163482666, + "learning_rate": 1.7409920000000002e-05, + "loss": 0.0401, + "step": 60705 + }, + { + "epoch": 0.388544, + "grad_norm": 0.3949649930000305, + "learning_rate": 1.740970666666667e-05, + "loss": 0.0353, + "step": 60710 + }, + { + "epoch": 0.388576, + "grad_norm": 1.1473177671432495, + "learning_rate": 1.7409493333333334e-05, + "loss": 0.0207, + "step": 60715 + }, + { + "epoch": 0.388608, + "grad_norm": 0.46260493993759155, + "learning_rate": 1.740928e-05, + "loss": 0.0381, + "step": 60720 + }, + { + "epoch": 0.38864, + "grad_norm": 0.8387138247489929, + "learning_rate": 1.740906666666667e-05, + "loss": 0.0691, + "step": 60725 + }, + { + "epoch": 0.388672, + "grad_norm": 6.577649116516113, + "learning_rate": 1.7408853333333337e-05, + "loss": 0.0396, + "step": 60730 + }, + { + "epoch": 0.388704, + "grad_norm": 0.6321014165878296, + "learning_rate": 1.740864e-05, + "loss": 0.0465, + "step": 60735 + }, + { + "epoch": 0.388736, + "grad_norm": 0.5827451944351196, + "learning_rate": 1.7408426666666668e-05, + "loss": 0.0283, + "step": 60740 + }, + { + "epoch": 0.388768, + "grad_norm": 0.8042570352554321, + "learning_rate": 1.7408213333333336e-05, + "loss": 0.0479, + "step": 60745 + }, + { + "epoch": 0.3888, + "grad_norm": 1.0336616039276123, + "learning_rate": 1.7408e-05, + "loss": 0.0209, + "step": 60750 + }, + { + "epoch": 0.388832, + "grad_norm": 0.5243578553199768, + "learning_rate": 1.7407786666666668e-05, + "loss": 0.0234, + "step": 60755 + }, + { + "epoch": 0.388864, + "grad_norm": 1.8640114068984985, + "learning_rate": 1.7407573333333335e-05, + "loss": 0.0132, + "step": 60760 + }, + { + "epoch": 0.388896, + "grad_norm": 0.586080014705658, + "learning_rate": 1.7407360000000003e-05, + "loss": 0.0294, + "step": 60765 + }, + { + "epoch": 0.388928, + "grad_norm": 1.371228575706482, + "learning_rate": 1.7407146666666667e-05, + "loss": 0.0587, + "step": 60770 + }, + { + "epoch": 0.38896, + "grad_norm": 1.6817576885223389, + "learning_rate": 1.7406933333333334e-05, + "loss": 0.0385, + "step": 60775 + }, + { + "epoch": 0.388992, + "grad_norm": 0.8501773476600647, + "learning_rate": 1.7406720000000002e-05, + "loss": 0.0336, + "step": 60780 + }, + { + "epoch": 0.389024, + "grad_norm": 0.4388650953769684, + "learning_rate": 1.7406506666666666e-05, + "loss": 0.0208, + "step": 60785 + }, + { + "epoch": 0.389056, + "grad_norm": 0.21863681077957153, + "learning_rate": 1.7406293333333334e-05, + "loss": 0.0206, + "step": 60790 + }, + { + "epoch": 0.389088, + "grad_norm": 0.7309504151344299, + "learning_rate": 1.740608e-05, + "loss": 0.0452, + "step": 60795 + }, + { + "epoch": 0.38912, + "grad_norm": 1.1032929420471191, + "learning_rate": 1.740586666666667e-05, + "loss": 0.0462, + "step": 60800 + }, + { + "epoch": 0.389152, + "grad_norm": 0.7561589479446411, + "learning_rate": 1.7405653333333333e-05, + "loss": 0.0356, + "step": 60805 + }, + { + "epoch": 0.389184, + "grad_norm": 0.6814412474632263, + "learning_rate": 1.7405440000000004e-05, + "loss": 0.0374, + "step": 60810 + }, + { + "epoch": 0.389216, + "grad_norm": 1.0828055143356323, + "learning_rate": 1.7405226666666668e-05, + "loss": 0.0355, + "step": 60815 + }, + { + "epoch": 0.389248, + "grad_norm": 0.6617240309715271, + "learning_rate": 1.7405013333333332e-05, + "loss": 0.0227, + "step": 60820 + }, + { + "epoch": 0.38928, + "grad_norm": 1.5009047985076904, + "learning_rate": 1.7404800000000003e-05, + "loss": 0.0267, + "step": 60825 + }, + { + "epoch": 0.389312, + "grad_norm": 0.5973987579345703, + "learning_rate": 1.7404586666666667e-05, + "loss": 0.0151, + "step": 60830 + }, + { + "epoch": 0.389344, + "grad_norm": 0.7610567808151245, + "learning_rate": 1.7404373333333335e-05, + "loss": 0.0258, + "step": 60835 + }, + { + "epoch": 0.389376, + "grad_norm": 1.0961607694625854, + "learning_rate": 1.7404160000000002e-05, + "loss": 0.0413, + "step": 60840 + }, + { + "epoch": 0.389408, + "grad_norm": 0.9381662607192993, + "learning_rate": 1.740394666666667e-05, + "loss": 0.0377, + "step": 60845 + }, + { + "epoch": 0.38944, + "grad_norm": 0.37317532300949097, + "learning_rate": 1.7403733333333334e-05, + "loss": 0.0237, + "step": 60850 + }, + { + "epoch": 0.389472, + "grad_norm": 0.6129612922668457, + "learning_rate": 1.7403520000000002e-05, + "loss": 0.029, + "step": 60855 + }, + { + "epoch": 0.389504, + "grad_norm": 0.7468365430831909, + "learning_rate": 1.740330666666667e-05, + "loss": 0.0344, + "step": 60860 + }, + { + "epoch": 0.389536, + "grad_norm": 0.579464316368103, + "learning_rate": 1.7403093333333333e-05, + "loss": 0.0462, + "step": 60865 + }, + { + "epoch": 0.389568, + "grad_norm": 0.37419307231903076, + "learning_rate": 1.740288e-05, + "loss": 0.0383, + "step": 60870 + }, + { + "epoch": 0.3896, + "grad_norm": 0.7456673383712769, + "learning_rate": 1.740266666666667e-05, + "loss": 0.0302, + "step": 60875 + }, + { + "epoch": 0.389632, + "grad_norm": 0.6228657960891724, + "learning_rate": 1.7402453333333336e-05, + "loss": 0.0182, + "step": 60880 + }, + { + "epoch": 0.389664, + "grad_norm": 0.4920652508735657, + "learning_rate": 1.740224e-05, + "loss": 0.0277, + "step": 60885 + }, + { + "epoch": 0.389696, + "grad_norm": 1.6995608806610107, + "learning_rate": 1.7402026666666668e-05, + "loss": 0.041, + "step": 60890 + }, + { + "epoch": 0.389728, + "grad_norm": 2.225005626678467, + "learning_rate": 1.7401813333333335e-05, + "loss": 0.0371, + "step": 60895 + }, + { + "epoch": 0.38976, + "grad_norm": 0.40989965200424194, + "learning_rate": 1.74016e-05, + "loss": 0.0271, + "step": 60900 + }, + { + "epoch": 0.389792, + "grad_norm": 0.5972216725349426, + "learning_rate": 1.7401386666666667e-05, + "loss": 0.0229, + "step": 60905 + }, + { + "epoch": 0.389824, + "grad_norm": 0.3581406772136688, + "learning_rate": 1.7401173333333335e-05, + "loss": 0.054, + "step": 60910 + }, + { + "epoch": 0.389856, + "grad_norm": 1.3432772159576416, + "learning_rate": 1.7400960000000002e-05, + "loss": 0.0336, + "step": 60915 + }, + { + "epoch": 0.389888, + "grad_norm": 0.8404878973960876, + "learning_rate": 1.7400746666666666e-05, + "loss": 0.048, + "step": 60920 + }, + { + "epoch": 0.38992, + "grad_norm": 0.6748558878898621, + "learning_rate": 1.7400533333333334e-05, + "loss": 0.0202, + "step": 60925 + }, + { + "epoch": 0.389952, + "grad_norm": 0.8221996426582336, + "learning_rate": 1.740032e-05, + "loss": 0.0244, + "step": 60930 + }, + { + "epoch": 0.389984, + "grad_norm": 0.8268045783042908, + "learning_rate": 1.740010666666667e-05, + "loss": 0.0565, + "step": 60935 + }, + { + "epoch": 0.390016, + "grad_norm": 1.1905076503753662, + "learning_rate": 1.7399893333333337e-05, + "loss": 0.0343, + "step": 60940 + }, + { + "epoch": 0.390048, + "grad_norm": 0.5219600200653076, + "learning_rate": 1.739968e-05, + "loss": 0.0399, + "step": 60945 + }, + { + "epoch": 0.39008, + "grad_norm": 0.9789022207260132, + "learning_rate": 1.739946666666667e-05, + "loss": 0.0261, + "step": 60950 + }, + { + "epoch": 0.390112, + "grad_norm": 0.7202629446983337, + "learning_rate": 1.7399253333333336e-05, + "loss": 0.0313, + "step": 60955 + }, + { + "epoch": 0.390144, + "grad_norm": 1.911799669265747, + "learning_rate": 1.739904e-05, + "loss": 0.0268, + "step": 60960 + }, + { + "epoch": 0.390176, + "grad_norm": 0.7805571556091309, + "learning_rate": 1.7398826666666668e-05, + "loss": 0.0256, + "step": 60965 + }, + { + "epoch": 0.390208, + "grad_norm": 0.22277559340000153, + "learning_rate": 1.7398613333333335e-05, + "loss": 0.0197, + "step": 60970 + }, + { + "epoch": 0.39024, + "grad_norm": 0.31419751048088074, + "learning_rate": 1.7398400000000003e-05, + "loss": 0.0204, + "step": 60975 + }, + { + "epoch": 0.390272, + "grad_norm": 0.5366684198379517, + "learning_rate": 1.7398186666666667e-05, + "loss": 0.0284, + "step": 60980 + }, + { + "epoch": 0.390304, + "grad_norm": 0.10684778541326523, + "learning_rate": 1.7397973333333334e-05, + "loss": 0.0202, + "step": 60985 + }, + { + "epoch": 0.390336, + "grad_norm": 0.40288063883781433, + "learning_rate": 1.7397760000000002e-05, + "loss": 0.0289, + "step": 60990 + }, + { + "epoch": 0.390368, + "grad_norm": 0.45049333572387695, + "learning_rate": 1.7397546666666666e-05, + "loss": 0.0191, + "step": 60995 + }, + { + "epoch": 0.3904, + "grad_norm": 1.3893598318099976, + "learning_rate": 1.7397333333333334e-05, + "loss": 0.0304, + "step": 61000 + }, + { + "epoch": 0.390432, + "grad_norm": 3.608696937561035, + "learning_rate": 1.739712e-05, + "loss": 0.0333, + "step": 61005 + }, + { + "epoch": 0.390464, + "grad_norm": 0.42380428314208984, + "learning_rate": 1.739690666666667e-05, + "loss": 0.03, + "step": 61010 + }, + { + "epoch": 0.390496, + "grad_norm": 0.8396931886672974, + "learning_rate": 1.7396693333333333e-05, + "loss": 0.0176, + "step": 61015 + }, + { + "epoch": 0.390528, + "grad_norm": 0.3484205901622772, + "learning_rate": 1.7396480000000004e-05, + "loss": 0.035, + "step": 61020 + }, + { + "epoch": 0.39056, + "grad_norm": 0.6578470468521118, + "learning_rate": 1.7396266666666668e-05, + "loss": 0.0412, + "step": 61025 + }, + { + "epoch": 0.390592, + "grad_norm": 0.391577810049057, + "learning_rate": 1.7396053333333332e-05, + "loss": 0.0361, + "step": 61030 + }, + { + "epoch": 0.390624, + "grad_norm": 3.3107314109802246, + "learning_rate": 1.7395840000000003e-05, + "loss": 0.0524, + "step": 61035 + }, + { + "epoch": 0.390656, + "grad_norm": 0.5276941657066345, + "learning_rate": 1.7395626666666667e-05, + "loss": 0.0359, + "step": 61040 + }, + { + "epoch": 0.390688, + "grad_norm": 1.5876511335372925, + "learning_rate": 1.7395413333333335e-05, + "loss": 0.0416, + "step": 61045 + }, + { + "epoch": 0.39072, + "grad_norm": 0.47946321964263916, + "learning_rate": 1.7395200000000002e-05, + "loss": 0.0168, + "step": 61050 + }, + { + "epoch": 0.390752, + "grad_norm": 1.2896145582199097, + "learning_rate": 1.739498666666667e-05, + "loss": 0.0312, + "step": 61055 + }, + { + "epoch": 0.390784, + "grad_norm": 0.8205623626708984, + "learning_rate": 1.7394773333333334e-05, + "loss": 0.0325, + "step": 61060 + }, + { + "epoch": 0.390816, + "grad_norm": 0.37671977281570435, + "learning_rate": 1.7394560000000002e-05, + "loss": 0.0444, + "step": 61065 + }, + { + "epoch": 0.390848, + "grad_norm": 0.45255476236343384, + "learning_rate": 1.739434666666667e-05, + "loss": 0.035, + "step": 61070 + }, + { + "epoch": 0.39088, + "grad_norm": 0.4327501356601715, + "learning_rate": 1.7394133333333333e-05, + "loss": 0.0303, + "step": 61075 + }, + { + "epoch": 0.390912, + "grad_norm": 4.801943778991699, + "learning_rate": 1.739392e-05, + "loss": 0.0334, + "step": 61080 + }, + { + "epoch": 0.390944, + "grad_norm": 1.9205509424209595, + "learning_rate": 1.739370666666667e-05, + "loss": 0.0501, + "step": 61085 + }, + { + "epoch": 0.390976, + "grad_norm": 0.27372246980667114, + "learning_rate": 1.7393493333333336e-05, + "loss": 0.0257, + "step": 61090 + }, + { + "epoch": 0.391008, + "grad_norm": 0.6174159646034241, + "learning_rate": 1.739328e-05, + "loss": 0.0279, + "step": 61095 + }, + { + "epoch": 0.39104, + "grad_norm": 0.7619379758834839, + "learning_rate": 1.7393066666666668e-05, + "loss": 0.0427, + "step": 61100 + }, + { + "epoch": 0.391072, + "grad_norm": 0.5341747403144836, + "learning_rate": 1.7392853333333335e-05, + "loss": 0.02, + "step": 61105 + }, + { + "epoch": 0.391104, + "grad_norm": 0.7255281209945679, + "learning_rate": 1.739264e-05, + "loss": 0.0302, + "step": 61110 + }, + { + "epoch": 0.391136, + "grad_norm": 0.4290594458580017, + "learning_rate": 1.7392426666666667e-05, + "loss": 0.0195, + "step": 61115 + }, + { + "epoch": 0.391168, + "grad_norm": 0.9244965314865112, + "learning_rate": 1.7392213333333335e-05, + "loss": 0.0256, + "step": 61120 + }, + { + "epoch": 0.3912, + "grad_norm": 0.6778883934020996, + "learning_rate": 1.7392000000000002e-05, + "loss": 0.0271, + "step": 61125 + }, + { + "epoch": 0.391232, + "grad_norm": 0.4764723777770996, + "learning_rate": 1.7391786666666666e-05, + "loss": 0.0341, + "step": 61130 + }, + { + "epoch": 0.391264, + "grad_norm": 1.107202410697937, + "learning_rate": 1.7391573333333337e-05, + "loss": 0.0405, + "step": 61135 + }, + { + "epoch": 0.391296, + "grad_norm": 1.5323635339736938, + "learning_rate": 1.739136e-05, + "loss": 0.0275, + "step": 61140 + }, + { + "epoch": 0.391328, + "grad_norm": 1.359270691871643, + "learning_rate": 1.7391146666666666e-05, + "loss": 0.015, + "step": 61145 + }, + { + "epoch": 0.39136, + "grad_norm": 0.7535836100578308, + "learning_rate": 1.7390933333333337e-05, + "loss": 0.0218, + "step": 61150 + }, + { + "epoch": 0.391392, + "grad_norm": 0.8158785700798035, + "learning_rate": 1.739072e-05, + "loss": 0.0347, + "step": 61155 + }, + { + "epoch": 0.391424, + "grad_norm": 0.5443560481071472, + "learning_rate": 1.739050666666667e-05, + "loss": 0.0192, + "step": 61160 + }, + { + "epoch": 0.391456, + "grad_norm": 0.611650288105011, + "learning_rate": 1.7390293333333336e-05, + "loss": 0.0282, + "step": 61165 + }, + { + "epoch": 0.391488, + "grad_norm": 0.940348744392395, + "learning_rate": 1.7390080000000003e-05, + "loss": 0.0427, + "step": 61170 + }, + { + "epoch": 0.39152, + "grad_norm": 0.3855718970298767, + "learning_rate": 1.7389866666666668e-05, + "loss": 0.0244, + "step": 61175 + }, + { + "epoch": 0.391552, + "grad_norm": 0.7060919404029846, + "learning_rate": 1.7389653333333335e-05, + "loss": 0.0355, + "step": 61180 + }, + { + "epoch": 0.391584, + "grad_norm": 0.7526534199714661, + "learning_rate": 1.7389440000000003e-05, + "loss": 0.0281, + "step": 61185 + }, + { + "epoch": 0.391616, + "grad_norm": 1.464789867401123, + "learning_rate": 1.7389226666666667e-05, + "loss": 0.0228, + "step": 61190 + }, + { + "epoch": 0.391648, + "grad_norm": 0.7357622981071472, + "learning_rate": 1.7389013333333334e-05, + "loss": 0.0288, + "step": 61195 + }, + { + "epoch": 0.39168, + "grad_norm": 1.0155055522918701, + "learning_rate": 1.7388800000000002e-05, + "loss": 0.0749, + "step": 61200 + }, + { + "epoch": 0.391712, + "grad_norm": 2.7818281650543213, + "learning_rate": 1.738858666666667e-05, + "loss": 0.0336, + "step": 61205 + }, + { + "epoch": 0.391744, + "grad_norm": 0.6645995378494263, + "learning_rate": 1.7388373333333334e-05, + "loss": 0.0321, + "step": 61210 + }, + { + "epoch": 0.391776, + "grad_norm": 0.16258534789085388, + "learning_rate": 1.738816e-05, + "loss": 0.0489, + "step": 61215 + }, + { + "epoch": 0.391808, + "grad_norm": 0.6321151852607727, + "learning_rate": 1.738794666666667e-05, + "loss": 0.0489, + "step": 61220 + }, + { + "epoch": 0.39184, + "grad_norm": 0.8276886343955994, + "learning_rate": 1.7387733333333333e-05, + "loss": 0.0277, + "step": 61225 + }, + { + "epoch": 0.391872, + "grad_norm": 1.1793955564498901, + "learning_rate": 1.738752e-05, + "loss": 0.0334, + "step": 61230 + }, + { + "epoch": 0.391904, + "grad_norm": 0.6863886713981628, + "learning_rate": 1.7387306666666668e-05, + "loss": 0.031, + "step": 61235 + }, + { + "epoch": 0.391936, + "grad_norm": 0.3689958155155182, + "learning_rate": 1.7387093333333336e-05, + "loss": 0.0214, + "step": 61240 + }, + { + "epoch": 0.391968, + "grad_norm": 0.6885944604873657, + "learning_rate": 1.7386880000000003e-05, + "loss": 0.0211, + "step": 61245 + }, + { + "epoch": 0.392, + "grad_norm": 0.3496657907962799, + "learning_rate": 1.7386666666666667e-05, + "loss": 0.0261, + "step": 61250 + }, + { + "epoch": 0.392032, + "grad_norm": 1.0015757083892822, + "learning_rate": 1.7386453333333335e-05, + "loss": 0.0297, + "step": 61255 + }, + { + "epoch": 0.392064, + "grad_norm": 1.1854567527770996, + "learning_rate": 1.7386240000000002e-05, + "loss": 0.032, + "step": 61260 + }, + { + "epoch": 0.392096, + "grad_norm": 0.7399114370346069, + "learning_rate": 1.738602666666667e-05, + "loss": 0.0299, + "step": 61265 + }, + { + "epoch": 0.392128, + "grad_norm": 0.6251807808876038, + "learning_rate": 1.7385813333333334e-05, + "loss": 0.0418, + "step": 61270 + }, + { + "epoch": 0.39216, + "grad_norm": 1.1320496797561646, + "learning_rate": 1.7385600000000002e-05, + "loss": 0.0197, + "step": 61275 + }, + { + "epoch": 0.392192, + "grad_norm": 1.05557119846344, + "learning_rate": 1.738538666666667e-05, + "loss": 0.0279, + "step": 61280 + }, + { + "epoch": 0.392224, + "grad_norm": 3.7694032192230225, + "learning_rate": 1.7385173333333333e-05, + "loss": 0.0235, + "step": 61285 + }, + { + "epoch": 0.392256, + "grad_norm": 0.824873149394989, + "learning_rate": 1.738496e-05, + "loss": 0.026, + "step": 61290 + }, + { + "epoch": 0.392288, + "grad_norm": 0.8771374225616455, + "learning_rate": 1.738474666666667e-05, + "loss": 0.0349, + "step": 61295 + }, + { + "epoch": 0.39232, + "grad_norm": 0.9735297560691833, + "learning_rate": 1.7384533333333336e-05, + "loss": 0.0299, + "step": 61300 + }, + { + "epoch": 0.392352, + "grad_norm": 0.9772186875343323, + "learning_rate": 1.738432e-05, + "loss": 0.0325, + "step": 61305 + }, + { + "epoch": 0.392384, + "grad_norm": 0.3576723635196686, + "learning_rate": 1.7384106666666668e-05, + "loss": 0.0441, + "step": 61310 + }, + { + "epoch": 0.392416, + "grad_norm": 0.5459768772125244, + "learning_rate": 1.7383893333333335e-05, + "loss": 0.0252, + "step": 61315 + }, + { + "epoch": 0.392448, + "grad_norm": 3.340970039367676, + "learning_rate": 1.738368e-05, + "loss": 0.0501, + "step": 61320 + }, + { + "epoch": 0.39248, + "grad_norm": 0.859406054019928, + "learning_rate": 1.7383466666666667e-05, + "loss": 0.039, + "step": 61325 + }, + { + "epoch": 0.392512, + "grad_norm": 0.7006446719169617, + "learning_rate": 1.7383253333333335e-05, + "loss": 0.0481, + "step": 61330 + }, + { + "epoch": 0.392544, + "grad_norm": 0.46666860580444336, + "learning_rate": 1.7383040000000002e-05, + "loss": 0.0419, + "step": 61335 + }, + { + "epoch": 0.392576, + "grad_norm": 1.0187149047851562, + "learning_rate": 1.7382826666666666e-05, + "loss": 0.0349, + "step": 61340 + }, + { + "epoch": 0.392608, + "grad_norm": 0.5586946606636047, + "learning_rate": 1.7382613333333337e-05, + "loss": 0.0158, + "step": 61345 + }, + { + "epoch": 0.39264, + "grad_norm": 0.2795507311820984, + "learning_rate": 1.73824e-05, + "loss": 0.0198, + "step": 61350 + }, + { + "epoch": 0.392672, + "grad_norm": 0.39302223920822144, + "learning_rate": 1.7382186666666666e-05, + "loss": 0.034, + "step": 61355 + }, + { + "epoch": 0.392704, + "grad_norm": 0.7492152452468872, + "learning_rate": 1.7381973333333337e-05, + "loss": 0.0191, + "step": 61360 + }, + { + "epoch": 0.392736, + "grad_norm": 0.9189481735229492, + "learning_rate": 1.738176e-05, + "loss": 0.0444, + "step": 61365 + }, + { + "epoch": 0.392768, + "grad_norm": 0.6697036623954773, + "learning_rate": 1.738154666666667e-05, + "loss": 0.0208, + "step": 61370 + }, + { + "epoch": 0.3928, + "grad_norm": 0.8769721388816833, + "learning_rate": 1.7381333333333336e-05, + "loss": 0.0278, + "step": 61375 + }, + { + "epoch": 0.392832, + "grad_norm": 1.1736234426498413, + "learning_rate": 1.7381120000000003e-05, + "loss": 0.0592, + "step": 61380 + }, + { + "epoch": 0.392864, + "grad_norm": 0.5431873798370361, + "learning_rate": 1.7380906666666668e-05, + "loss": 0.048, + "step": 61385 + }, + { + "epoch": 0.392896, + "grad_norm": 1.3956836462020874, + "learning_rate": 1.7380693333333335e-05, + "loss": 0.0224, + "step": 61390 + }, + { + "epoch": 0.392928, + "grad_norm": 0.4209122657775879, + "learning_rate": 1.7380480000000003e-05, + "loss": 0.0192, + "step": 61395 + }, + { + "epoch": 0.39296, + "grad_norm": 0.8317888379096985, + "learning_rate": 1.7380266666666667e-05, + "loss": 0.0545, + "step": 61400 + }, + { + "epoch": 0.392992, + "grad_norm": 0.1320563405752182, + "learning_rate": 1.7380053333333334e-05, + "loss": 0.024, + "step": 61405 + }, + { + "epoch": 0.393024, + "grad_norm": 0.9718742370605469, + "learning_rate": 1.7379840000000002e-05, + "loss": 0.0355, + "step": 61410 + }, + { + "epoch": 0.393056, + "grad_norm": 0.4088338017463684, + "learning_rate": 1.737962666666667e-05, + "loss": 0.0322, + "step": 61415 + }, + { + "epoch": 0.393088, + "grad_norm": 0.4916638135910034, + "learning_rate": 1.7379413333333334e-05, + "loss": 0.0368, + "step": 61420 + }, + { + "epoch": 0.39312, + "grad_norm": 0.48528409004211426, + "learning_rate": 1.73792e-05, + "loss": 0.0367, + "step": 61425 + }, + { + "epoch": 0.393152, + "grad_norm": 0.7202593684196472, + "learning_rate": 1.737898666666667e-05, + "loss": 0.0228, + "step": 61430 + }, + { + "epoch": 0.393184, + "grad_norm": 1.1091415882110596, + "learning_rate": 1.7378773333333333e-05, + "loss": 0.0219, + "step": 61435 + }, + { + "epoch": 0.393216, + "grad_norm": 0.40920785069465637, + "learning_rate": 1.737856e-05, + "loss": 0.0218, + "step": 61440 + }, + { + "epoch": 0.393248, + "grad_norm": 0.7920206785202026, + "learning_rate": 1.7378346666666668e-05, + "loss": 0.0344, + "step": 61445 + }, + { + "epoch": 0.39328, + "grad_norm": 0.580917239189148, + "learning_rate": 1.7378133333333336e-05, + "loss": 0.0332, + "step": 61450 + }, + { + "epoch": 0.393312, + "grad_norm": 0.5451210737228394, + "learning_rate": 1.737792e-05, + "loss": 0.0391, + "step": 61455 + }, + { + "epoch": 0.393344, + "grad_norm": 0.2460862398147583, + "learning_rate": 1.7377706666666667e-05, + "loss": 0.03, + "step": 61460 + }, + { + "epoch": 0.393376, + "grad_norm": 0.8813998699188232, + "learning_rate": 1.7377493333333335e-05, + "loss": 0.0623, + "step": 61465 + }, + { + "epoch": 0.393408, + "grad_norm": 0.7113373279571533, + "learning_rate": 1.7377280000000002e-05, + "loss": 0.0249, + "step": 61470 + }, + { + "epoch": 0.39344, + "grad_norm": 0.28804299235343933, + "learning_rate": 1.737706666666667e-05, + "loss": 0.0243, + "step": 61475 + }, + { + "epoch": 0.393472, + "grad_norm": 1.2274075746536255, + "learning_rate": 1.7376853333333334e-05, + "loss": 0.0435, + "step": 61480 + }, + { + "epoch": 0.393504, + "grad_norm": 0.8186915516853333, + "learning_rate": 1.7376640000000002e-05, + "loss": 0.0312, + "step": 61485 + }, + { + "epoch": 0.393536, + "grad_norm": 0.6337332725524902, + "learning_rate": 1.737642666666667e-05, + "loss": 0.0217, + "step": 61490 + }, + { + "epoch": 0.393568, + "grad_norm": 0.27531689405441284, + "learning_rate": 1.7376213333333333e-05, + "loss": 0.0105, + "step": 61495 + }, + { + "epoch": 0.3936, + "grad_norm": 0.20192186534404755, + "learning_rate": 1.7376e-05, + "loss": 0.0237, + "step": 61500 + }, + { + "epoch": 0.393632, + "grad_norm": 0.6418235301971436, + "learning_rate": 1.737578666666667e-05, + "loss": 0.0265, + "step": 61505 + }, + { + "epoch": 0.393664, + "grad_norm": 0.43060368299484253, + "learning_rate": 1.7375573333333336e-05, + "loss": 0.0276, + "step": 61510 + }, + { + "epoch": 0.393696, + "grad_norm": 0.46617892384529114, + "learning_rate": 1.737536e-05, + "loss": 0.0255, + "step": 61515 + }, + { + "epoch": 0.393728, + "grad_norm": 0.7699564099311829, + "learning_rate": 1.7375146666666668e-05, + "loss": 0.0221, + "step": 61520 + }, + { + "epoch": 0.39376, + "grad_norm": 0.37348100543022156, + "learning_rate": 1.7374933333333335e-05, + "loss": 0.0235, + "step": 61525 + }, + { + "epoch": 0.393792, + "grad_norm": 0.9575260877609253, + "learning_rate": 1.737472e-05, + "loss": 0.0297, + "step": 61530 + }, + { + "epoch": 0.393824, + "grad_norm": 0.4061479866504669, + "learning_rate": 1.7374506666666667e-05, + "loss": 0.0312, + "step": 61535 + }, + { + "epoch": 0.393856, + "grad_norm": 0.568481981754303, + "learning_rate": 1.7374293333333335e-05, + "loss": 0.0208, + "step": 61540 + }, + { + "epoch": 0.393888, + "grad_norm": 0.6996672749519348, + "learning_rate": 1.7374080000000002e-05, + "loss": 0.0529, + "step": 61545 + }, + { + "epoch": 0.39392, + "grad_norm": 2.5304043292999268, + "learning_rate": 1.7373866666666666e-05, + "loss": 0.0395, + "step": 61550 + }, + { + "epoch": 0.393952, + "grad_norm": 0.15530306100845337, + "learning_rate": 1.7373653333333337e-05, + "loss": 0.026, + "step": 61555 + }, + { + "epoch": 0.393984, + "grad_norm": 0.5913788676261902, + "learning_rate": 1.737344e-05, + "loss": 0.0287, + "step": 61560 + }, + { + "epoch": 0.394016, + "grad_norm": 0.8647895455360413, + "learning_rate": 1.7373226666666666e-05, + "loss": 0.0203, + "step": 61565 + }, + { + "epoch": 0.394048, + "grad_norm": 0.42066770792007446, + "learning_rate": 1.7373013333333337e-05, + "loss": 0.0305, + "step": 61570 + }, + { + "epoch": 0.39408, + "grad_norm": 1.4775136709213257, + "learning_rate": 1.73728e-05, + "loss": 0.0325, + "step": 61575 + }, + { + "epoch": 0.394112, + "grad_norm": 0.35846230387687683, + "learning_rate": 1.737258666666667e-05, + "loss": 0.0304, + "step": 61580 + }, + { + "epoch": 0.394144, + "grad_norm": 1.269547462463379, + "learning_rate": 1.7372373333333336e-05, + "loss": 0.0213, + "step": 61585 + }, + { + "epoch": 0.394176, + "grad_norm": 0.8036932945251465, + "learning_rate": 1.7372160000000003e-05, + "loss": 0.0252, + "step": 61590 + }, + { + "epoch": 0.394208, + "grad_norm": 0.5581218600273132, + "learning_rate": 1.7371946666666668e-05, + "loss": 0.0321, + "step": 61595 + }, + { + "epoch": 0.39424, + "grad_norm": 1.1219578981399536, + "learning_rate": 1.7371733333333335e-05, + "loss": 0.0445, + "step": 61600 + }, + { + "epoch": 0.394272, + "grad_norm": 0.6488778591156006, + "learning_rate": 1.7371520000000003e-05, + "loss": 0.038, + "step": 61605 + }, + { + "epoch": 0.394304, + "grad_norm": 0.3285653591156006, + "learning_rate": 1.7371306666666667e-05, + "loss": 0.0442, + "step": 61610 + }, + { + "epoch": 0.394336, + "grad_norm": 1.1607292890548706, + "learning_rate": 1.7371093333333334e-05, + "loss": 0.0126, + "step": 61615 + }, + { + "epoch": 0.394368, + "grad_norm": 2.9937782287597656, + "learning_rate": 1.7370880000000002e-05, + "loss": 0.0442, + "step": 61620 + }, + { + "epoch": 0.3944, + "grad_norm": 1.0470844507217407, + "learning_rate": 1.737066666666667e-05, + "loss": 0.0369, + "step": 61625 + }, + { + "epoch": 0.394432, + "grad_norm": 1.0262820720672607, + "learning_rate": 1.7370453333333334e-05, + "loss": 0.0311, + "step": 61630 + }, + { + "epoch": 0.394464, + "grad_norm": 0.6695733666419983, + "learning_rate": 1.737024e-05, + "loss": 0.0243, + "step": 61635 + }, + { + "epoch": 0.394496, + "grad_norm": 0.6324430108070374, + "learning_rate": 1.737002666666667e-05, + "loss": 0.0312, + "step": 61640 + }, + { + "epoch": 0.394528, + "grad_norm": 0.44127485156059265, + "learning_rate": 1.7369813333333333e-05, + "loss": 0.0241, + "step": 61645 + }, + { + "epoch": 0.39456, + "grad_norm": 1.1052157878875732, + "learning_rate": 1.73696e-05, + "loss": 0.0269, + "step": 61650 + }, + { + "epoch": 0.394592, + "grad_norm": 0.9415833950042725, + "learning_rate": 1.7369386666666668e-05, + "loss": 0.0501, + "step": 61655 + }, + { + "epoch": 0.394624, + "grad_norm": 0.2418670952320099, + "learning_rate": 1.7369173333333336e-05, + "loss": 0.0501, + "step": 61660 + }, + { + "epoch": 0.394656, + "grad_norm": 1.000657081604004, + "learning_rate": 1.736896e-05, + "loss": 0.0402, + "step": 61665 + }, + { + "epoch": 0.394688, + "grad_norm": 0.9741350412368774, + "learning_rate": 1.7368746666666667e-05, + "loss": 0.0309, + "step": 61670 + }, + { + "epoch": 0.39472, + "grad_norm": 0.6481680870056152, + "learning_rate": 1.7368533333333335e-05, + "loss": 0.0305, + "step": 61675 + }, + { + "epoch": 0.394752, + "grad_norm": 0.27631571888923645, + "learning_rate": 1.736832e-05, + "loss": 0.0243, + "step": 61680 + }, + { + "epoch": 0.394784, + "grad_norm": 0.9876063466072083, + "learning_rate": 1.736810666666667e-05, + "loss": 0.0393, + "step": 61685 + }, + { + "epoch": 0.394816, + "grad_norm": 0.3139772415161133, + "learning_rate": 1.7367893333333334e-05, + "loss": 0.0203, + "step": 61690 + }, + { + "epoch": 0.394848, + "grad_norm": 0.4442117512226105, + "learning_rate": 1.7367680000000002e-05, + "loss": 0.0274, + "step": 61695 + }, + { + "epoch": 0.39488, + "grad_norm": 0.6652721762657166, + "learning_rate": 1.736746666666667e-05, + "loss": 0.0515, + "step": 61700 + }, + { + "epoch": 0.394912, + "grad_norm": 0.5548826456069946, + "learning_rate": 1.7367253333333333e-05, + "loss": 0.0382, + "step": 61705 + }, + { + "epoch": 0.394944, + "grad_norm": 0.3593006432056427, + "learning_rate": 1.736704e-05, + "loss": 0.0245, + "step": 61710 + }, + { + "epoch": 0.394976, + "grad_norm": 0.41727563738822937, + "learning_rate": 1.736682666666667e-05, + "loss": 0.0289, + "step": 61715 + }, + { + "epoch": 0.395008, + "grad_norm": 0.49730947613716125, + "learning_rate": 1.7366613333333336e-05, + "loss": 0.0269, + "step": 61720 + }, + { + "epoch": 0.39504, + "grad_norm": 3.018207550048828, + "learning_rate": 1.73664e-05, + "loss": 0.0578, + "step": 61725 + }, + { + "epoch": 0.395072, + "grad_norm": 1.309625506401062, + "learning_rate": 1.7366186666666668e-05, + "loss": 0.0475, + "step": 61730 + }, + { + "epoch": 0.395104, + "grad_norm": 0.9021744728088379, + "learning_rate": 1.7365973333333335e-05, + "loss": 0.0436, + "step": 61735 + }, + { + "epoch": 0.395136, + "grad_norm": 2.354874610900879, + "learning_rate": 1.736576e-05, + "loss": 0.0113, + "step": 61740 + }, + { + "epoch": 0.395168, + "grad_norm": 0.6517643928527832, + "learning_rate": 1.7365546666666667e-05, + "loss": 0.0189, + "step": 61745 + }, + { + "epoch": 0.3952, + "grad_norm": 3.6781203746795654, + "learning_rate": 1.7365333333333335e-05, + "loss": 0.0465, + "step": 61750 + }, + { + "epoch": 0.395232, + "grad_norm": 0.6276810765266418, + "learning_rate": 1.7365120000000002e-05, + "loss": 0.028, + "step": 61755 + }, + { + "epoch": 0.395264, + "grad_norm": 1.0128169059753418, + "learning_rate": 1.7364906666666666e-05, + "loss": 0.0484, + "step": 61760 + }, + { + "epoch": 0.395296, + "grad_norm": 0.9782862663269043, + "learning_rate": 1.7364693333333334e-05, + "loss": 0.0264, + "step": 61765 + }, + { + "epoch": 0.395328, + "grad_norm": 1.2062256336212158, + "learning_rate": 1.736448e-05, + "loss": 0.0196, + "step": 61770 + }, + { + "epoch": 0.39536, + "grad_norm": 0.4152066707611084, + "learning_rate": 1.7364266666666666e-05, + "loss": 0.0419, + "step": 61775 + }, + { + "epoch": 0.395392, + "grad_norm": 1.0875449180603027, + "learning_rate": 1.7364053333333337e-05, + "loss": 0.0306, + "step": 61780 + }, + { + "epoch": 0.395424, + "grad_norm": 1.2240405082702637, + "learning_rate": 1.736384e-05, + "loss": 0.0289, + "step": 61785 + }, + { + "epoch": 0.395456, + "grad_norm": 0.6851334571838379, + "learning_rate": 1.736362666666667e-05, + "loss": 0.0424, + "step": 61790 + }, + { + "epoch": 0.395488, + "grad_norm": 0.7678054571151733, + "learning_rate": 1.7363413333333336e-05, + "loss": 0.0147, + "step": 61795 + }, + { + "epoch": 0.39552, + "grad_norm": 0.6800392866134644, + "learning_rate": 1.7363200000000003e-05, + "loss": 0.0322, + "step": 61800 + }, + { + "epoch": 0.395552, + "grad_norm": 0.8928336501121521, + "learning_rate": 1.7362986666666668e-05, + "loss": 0.0391, + "step": 61805 + }, + { + "epoch": 0.395584, + "grad_norm": 0.5825784206390381, + "learning_rate": 1.7362773333333335e-05, + "loss": 0.0347, + "step": 61810 + }, + { + "epoch": 0.395616, + "grad_norm": 0.8228645920753479, + "learning_rate": 1.7362560000000003e-05, + "loss": 0.0196, + "step": 61815 + }, + { + "epoch": 0.395648, + "grad_norm": 0.3341260552406311, + "learning_rate": 1.7362346666666667e-05, + "loss": 0.0349, + "step": 61820 + }, + { + "epoch": 0.39568, + "grad_norm": 0.5028510093688965, + "learning_rate": 1.7362133333333334e-05, + "loss": 0.0175, + "step": 61825 + }, + { + "epoch": 0.395712, + "grad_norm": 0.41096869111061096, + "learning_rate": 1.7361920000000002e-05, + "loss": 0.0366, + "step": 61830 + }, + { + "epoch": 0.395744, + "grad_norm": 0.7986125349998474, + "learning_rate": 1.736170666666667e-05, + "loss": 0.0234, + "step": 61835 + }, + { + "epoch": 0.395776, + "grad_norm": 0.43449369072914124, + "learning_rate": 1.7361493333333334e-05, + "loss": 0.0326, + "step": 61840 + }, + { + "epoch": 0.395808, + "grad_norm": 1.4548194408416748, + "learning_rate": 1.736128e-05, + "loss": 0.0365, + "step": 61845 + }, + { + "epoch": 0.39584, + "grad_norm": 1.4471855163574219, + "learning_rate": 1.736106666666667e-05, + "loss": 0.0508, + "step": 61850 + }, + { + "epoch": 0.395872, + "grad_norm": 0.6757702231407166, + "learning_rate": 1.7360853333333333e-05, + "loss": 0.0249, + "step": 61855 + }, + { + "epoch": 0.395904, + "grad_norm": 0.3212521970272064, + "learning_rate": 1.736064e-05, + "loss": 0.0174, + "step": 61860 + }, + { + "epoch": 0.395936, + "grad_norm": 0.26699239015579224, + "learning_rate": 1.7360426666666668e-05, + "loss": 0.0368, + "step": 61865 + }, + { + "epoch": 0.395968, + "grad_norm": 0.702363908290863, + "learning_rate": 1.7360213333333336e-05, + "loss": 0.0307, + "step": 61870 + }, + { + "epoch": 0.396, + "grad_norm": 0.16611656546592712, + "learning_rate": 1.736e-05, + "loss": 0.0213, + "step": 61875 + }, + { + "epoch": 0.396032, + "grad_norm": 0.197516530752182, + "learning_rate": 1.7359786666666667e-05, + "loss": 0.0211, + "step": 61880 + }, + { + "epoch": 0.396064, + "grad_norm": 0.7624635696411133, + "learning_rate": 1.7359573333333335e-05, + "loss": 0.0185, + "step": 61885 + }, + { + "epoch": 0.396096, + "grad_norm": 1.1655622720718384, + "learning_rate": 1.735936e-05, + "loss": 0.0466, + "step": 61890 + }, + { + "epoch": 0.396128, + "grad_norm": 0.5825775265693665, + "learning_rate": 1.735914666666667e-05, + "loss": 0.022, + "step": 61895 + }, + { + "epoch": 0.39616, + "grad_norm": 1.1617851257324219, + "learning_rate": 1.7358933333333334e-05, + "loss": 0.0314, + "step": 61900 + }, + { + "epoch": 0.396192, + "grad_norm": 0.2970178425312042, + "learning_rate": 1.7358720000000002e-05, + "loss": 0.0123, + "step": 61905 + }, + { + "epoch": 0.396224, + "grad_norm": 0.48572295904159546, + "learning_rate": 1.735850666666667e-05, + "loss": 0.0161, + "step": 61910 + }, + { + "epoch": 0.396256, + "grad_norm": 0.9886824488639832, + "learning_rate": 1.7358293333333333e-05, + "loss": 0.0201, + "step": 61915 + }, + { + "epoch": 0.396288, + "grad_norm": 0.7433290481567383, + "learning_rate": 1.735808e-05, + "loss": 0.0248, + "step": 61920 + }, + { + "epoch": 0.39632, + "grad_norm": 1.122101902961731, + "learning_rate": 1.735786666666667e-05, + "loss": 0.025, + "step": 61925 + }, + { + "epoch": 0.396352, + "grad_norm": 0.37495192885398865, + "learning_rate": 1.7357653333333336e-05, + "loss": 0.0251, + "step": 61930 + }, + { + "epoch": 0.396384, + "grad_norm": 1.2879446744918823, + "learning_rate": 1.735744e-05, + "loss": 0.0382, + "step": 61935 + }, + { + "epoch": 0.396416, + "grad_norm": 0.4439588785171509, + "learning_rate": 1.7357226666666668e-05, + "loss": 0.0238, + "step": 61940 + }, + { + "epoch": 0.396448, + "grad_norm": 0.6592645049095154, + "learning_rate": 1.7357013333333335e-05, + "loss": 0.0249, + "step": 61945 + }, + { + "epoch": 0.39648, + "grad_norm": 1.0661523342132568, + "learning_rate": 1.73568e-05, + "loss": 0.04, + "step": 61950 + }, + { + "epoch": 0.396512, + "grad_norm": 0.2662277817726135, + "learning_rate": 1.7356586666666667e-05, + "loss": 0.0238, + "step": 61955 + }, + { + "epoch": 0.396544, + "grad_norm": 3.7004129886627197, + "learning_rate": 1.7356373333333335e-05, + "loss": 0.0422, + "step": 61960 + }, + { + "epoch": 0.396576, + "grad_norm": 0.8935467600822449, + "learning_rate": 1.7356160000000002e-05, + "loss": 0.0203, + "step": 61965 + }, + { + "epoch": 0.396608, + "grad_norm": 0.476931095123291, + "learning_rate": 1.7355946666666666e-05, + "loss": 0.0277, + "step": 61970 + }, + { + "epoch": 0.39664, + "grad_norm": 0.5210939645767212, + "learning_rate": 1.7355733333333334e-05, + "loss": 0.0195, + "step": 61975 + }, + { + "epoch": 0.396672, + "grad_norm": 2.7907657623291016, + "learning_rate": 1.735552e-05, + "loss": 0.0251, + "step": 61980 + }, + { + "epoch": 0.396704, + "grad_norm": 0.23008516430854797, + "learning_rate": 1.735530666666667e-05, + "loss": 0.0404, + "step": 61985 + }, + { + "epoch": 0.396736, + "grad_norm": 1.2046972513198853, + "learning_rate": 1.7355093333333333e-05, + "loss": 0.0383, + "step": 61990 + }, + { + "epoch": 0.396768, + "grad_norm": 2.2176711559295654, + "learning_rate": 1.735488e-05, + "loss": 0.0173, + "step": 61995 + }, + { + "epoch": 0.3968, + "grad_norm": 0.17175333201885223, + "learning_rate": 1.735466666666667e-05, + "loss": 0.0273, + "step": 62000 + }, + { + "epoch": 0.396832, + "grad_norm": 0.5134456753730774, + "learning_rate": 1.7354453333333336e-05, + "loss": 0.0252, + "step": 62005 + }, + { + "epoch": 0.396864, + "grad_norm": 0.39657044410705566, + "learning_rate": 1.7354240000000003e-05, + "loss": 0.0214, + "step": 62010 + }, + { + "epoch": 0.396896, + "grad_norm": 1.3111851215362549, + "learning_rate": 1.7354026666666668e-05, + "loss": 0.0503, + "step": 62015 + }, + { + "epoch": 0.396928, + "grad_norm": 0.42096707224845886, + "learning_rate": 1.7353813333333335e-05, + "loss": 0.0321, + "step": 62020 + }, + { + "epoch": 0.39696, + "grad_norm": 3.678152084350586, + "learning_rate": 1.7353600000000003e-05, + "loss": 0.041, + "step": 62025 + }, + { + "epoch": 0.396992, + "grad_norm": 0.47551050782203674, + "learning_rate": 1.7353386666666667e-05, + "loss": 0.0146, + "step": 62030 + }, + { + "epoch": 0.397024, + "grad_norm": 0.37793686985969543, + "learning_rate": 1.7353173333333334e-05, + "loss": 0.0281, + "step": 62035 + }, + { + "epoch": 0.397056, + "grad_norm": 0.17293784022331238, + "learning_rate": 1.7352960000000002e-05, + "loss": 0.0179, + "step": 62040 + }, + { + "epoch": 0.397088, + "grad_norm": 1.1124866008758545, + "learning_rate": 1.735274666666667e-05, + "loss": 0.0243, + "step": 62045 + }, + { + "epoch": 0.39712, + "grad_norm": 0.6983121037483215, + "learning_rate": 1.7352533333333334e-05, + "loss": 0.03, + "step": 62050 + }, + { + "epoch": 0.397152, + "grad_norm": 0.4940428137779236, + "learning_rate": 1.735232e-05, + "loss": 0.0318, + "step": 62055 + }, + { + "epoch": 0.397184, + "grad_norm": 0.6365241408348083, + "learning_rate": 1.735210666666667e-05, + "loss": 0.0429, + "step": 62060 + }, + { + "epoch": 0.397216, + "grad_norm": 2.3628602027893066, + "learning_rate": 1.7351893333333333e-05, + "loss": 0.0293, + "step": 62065 + }, + { + "epoch": 0.397248, + "grad_norm": 0.7547103762626648, + "learning_rate": 1.735168e-05, + "loss": 0.0655, + "step": 62070 + }, + { + "epoch": 0.39728, + "grad_norm": 0.4623613953590393, + "learning_rate": 1.7351466666666668e-05, + "loss": 0.0295, + "step": 62075 + }, + { + "epoch": 0.397312, + "grad_norm": 0.19508156180381775, + "learning_rate": 1.7351253333333336e-05, + "loss": 0.0299, + "step": 62080 + }, + { + "epoch": 0.397344, + "grad_norm": 0.9326578378677368, + "learning_rate": 1.735104e-05, + "loss": 0.0182, + "step": 62085 + }, + { + "epoch": 0.397376, + "grad_norm": 1.5447118282318115, + "learning_rate": 1.735082666666667e-05, + "loss": 0.0247, + "step": 62090 + }, + { + "epoch": 0.397408, + "grad_norm": 0.4235657751560211, + "learning_rate": 1.7350613333333335e-05, + "loss": 0.031, + "step": 62095 + }, + { + "epoch": 0.39744, + "grad_norm": 0.9032462239265442, + "learning_rate": 1.73504e-05, + "loss": 0.0401, + "step": 62100 + }, + { + "epoch": 0.397472, + "grad_norm": 1.0282117128372192, + "learning_rate": 1.735018666666667e-05, + "loss": 0.0352, + "step": 62105 + }, + { + "epoch": 0.397504, + "grad_norm": 0.6950864195823669, + "learning_rate": 1.7349973333333334e-05, + "loss": 0.0208, + "step": 62110 + }, + { + "epoch": 0.397536, + "grad_norm": 4.480621814727783, + "learning_rate": 1.7349760000000002e-05, + "loss": 0.0333, + "step": 62115 + }, + { + "epoch": 0.397568, + "grad_norm": 1.0820801258087158, + "learning_rate": 1.734954666666667e-05, + "loss": 0.0312, + "step": 62120 + }, + { + "epoch": 0.3976, + "grad_norm": 0.5757308602333069, + "learning_rate": 1.7349333333333337e-05, + "loss": 0.0519, + "step": 62125 + }, + { + "epoch": 0.397632, + "grad_norm": 0.6768704056739807, + "learning_rate": 1.734912e-05, + "loss": 0.0408, + "step": 62130 + }, + { + "epoch": 0.397664, + "grad_norm": 0.2953575849533081, + "learning_rate": 1.734890666666667e-05, + "loss": 0.029, + "step": 62135 + }, + { + "epoch": 0.397696, + "grad_norm": 0.38075289130210876, + "learning_rate": 1.7348693333333336e-05, + "loss": 0.0547, + "step": 62140 + }, + { + "epoch": 0.397728, + "grad_norm": 0.6807191371917725, + "learning_rate": 1.734848e-05, + "loss": 0.0338, + "step": 62145 + }, + { + "epoch": 0.39776, + "grad_norm": 1.8888250589370728, + "learning_rate": 1.7348266666666668e-05, + "loss": 0.0333, + "step": 62150 + }, + { + "epoch": 0.397792, + "grad_norm": 1.0707119703292847, + "learning_rate": 1.7348053333333335e-05, + "loss": 0.0556, + "step": 62155 + }, + { + "epoch": 0.397824, + "grad_norm": 0.5330771803855896, + "learning_rate": 1.7347840000000003e-05, + "loss": 0.0347, + "step": 62160 + }, + { + "epoch": 0.397856, + "grad_norm": 0.512703001499176, + "learning_rate": 1.7347626666666667e-05, + "loss": 0.0346, + "step": 62165 + }, + { + "epoch": 0.397888, + "grad_norm": 0.6696203947067261, + "learning_rate": 1.7347413333333335e-05, + "loss": 0.0544, + "step": 62170 + }, + { + "epoch": 0.39792, + "grad_norm": 1.076119303703308, + "learning_rate": 1.7347200000000002e-05, + "loss": 0.0368, + "step": 62175 + }, + { + "epoch": 0.397952, + "grad_norm": 0.6340264081954956, + "learning_rate": 1.7346986666666666e-05, + "loss": 0.0226, + "step": 62180 + }, + { + "epoch": 0.397984, + "grad_norm": 0.2125275433063507, + "learning_rate": 1.7346773333333334e-05, + "loss": 0.0265, + "step": 62185 + }, + { + "epoch": 0.398016, + "grad_norm": 0.7293316125869751, + "learning_rate": 1.734656e-05, + "loss": 0.0263, + "step": 62190 + }, + { + "epoch": 0.398048, + "grad_norm": 0.5723679661750793, + "learning_rate": 1.734634666666667e-05, + "loss": 0.026, + "step": 62195 + }, + { + "epoch": 0.39808, + "grad_norm": 0.7243886590003967, + "learning_rate": 1.7346133333333333e-05, + "loss": 0.0254, + "step": 62200 + }, + { + "epoch": 0.398112, + "grad_norm": 0.5886480212211609, + "learning_rate": 1.734592e-05, + "loss": 0.0689, + "step": 62205 + }, + { + "epoch": 0.398144, + "grad_norm": 0.7123468518257141, + "learning_rate": 1.734570666666667e-05, + "loss": 0.0276, + "step": 62210 + }, + { + "epoch": 0.398176, + "grad_norm": 0.2879835069179535, + "learning_rate": 1.7345493333333333e-05, + "loss": 0.0356, + "step": 62215 + }, + { + "epoch": 0.398208, + "grad_norm": 0.8117642998695374, + "learning_rate": 1.7345280000000003e-05, + "loss": 0.0235, + "step": 62220 + }, + { + "epoch": 0.39824, + "grad_norm": 0.6676255464553833, + "learning_rate": 1.7345066666666668e-05, + "loss": 0.0202, + "step": 62225 + }, + { + "epoch": 0.398272, + "grad_norm": 1.076053500175476, + "learning_rate": 1.7344853333333335e-05, + "loss": 0.0451, + "step": 62230 + }, + { + "epoch": 0.398304, + "grad_norm": 0.5597069263458252, + "learning_rate": 1.7344640000000003e-05, + "loss": 0.017, + "step": 62235 + }, + { + "epoch": 0.398336, + "grad_norm": 1.1435515880584717, + "learning_rate": 1.7344426666666667e-05, + "loss": 0.0505, + "step": 62240 + }, + { + "epoch": 0.398368, + "grad_norm": 0.25047895312309265, + "learning_rate": 1.7344213333333334e-05, + "loss": 0.0137, + "step": 62245 + }, + { + "epoch": 0.3984, + "grad_norm": 0.9759482145309448, + "learning_rate": 1.7344000000000002e-05, + "loss": 0.0375, + "step": 62250 + }, + { + "epoch": 0.398432, + "grad_norm": 0.9996061325073242, + "learning_rate": 1.734378666666667e-05, + "loss": 0.0405, + "step": 62255 + }, + { + "epoch": 0.398464, + "grad_norm": 0.6215551495552063, + "learning_rate": 1.7343573333333334e-05, + "loss": 0.0649, + "step": 62260 + }, + { + "epoch": 0.398496, + "grad_norm": 3.30277156829834, + "learning_rate": 1.734336e-05, + "loss": 0.0308, + "step": 62265 + }, + { + "epoch": 0.398528, + "grad_norm": 0.5397132635116577, + "learning_rate": 1.734314666666667e-05, + "loss": 0.0487, + "step": 62270 + }, + { + "epoch": 0.39856, + "grad_norm": 0.664423406124115, + "learning_rate": 1.7342933333333333e-05, + "loss": 0.0216, + "step": 62275 + }, + { + "epoch": 0.398592, + "grad_norm": 0.6216667890548706, + "learning_rate": 1.734272e-05, + "loss": 0.0385, + "step": 62280 + }, + { + "epoch": 0.398624, + "grad_norm": 0.6103406548500061, + "learning_rate": 1.7342506666666668e-05, + "loss": 0.0385, + "step": 62285 + }, + { + "epoch": 0.398656, + "grad_norm": 0.6273990869522095, + "learning_rate": 1.7342293333333336e-05, + "loss": 0.0388, + "step": 62290 + }, + { + "epoch": 0.398688, + "grad_norm": 0.9404836297035217, + "learning_rate": 1.734208e-05, + "loss": 0.0217, + "step": 62295 + }, + { + "epoch": 0.39872, + "grad_norm": 0.8678160905838013, + "learning_rate": 1.734186666666667e-05, + "loss": 0.0479, + "step": 62300 + }, + { + "epoch": 0.398752, + "grad_norm": 0.6549884676933289, + "learning_rate": 1.7341653333333335e-05, + "loss": 0.0135, + "step": 62305 + }, + { + "epoch": 0.398784, + "grad_norm": 1.1540331840515137, + "learning_rate": 1.734144e-05, + "loss": 0.0184, + "step": 62310 + }, + { + "epoch": 0.398816, + "grad_norm": 0.8866997957229614, + "learning_rate": 1.734122666666667e-05, + "loss": 0.0232, + "step": 62315 + }, + { + "epoch": 0.398848, + "grad_norm": 0.3444192707538605, + "learning_rate": 1.7341013333333334e-05, + "loss": 0.0273, + "step": 62320 + }, + { + "epoch": 0.39888, + "grad_norm": 0.7375991344451904, + "learning_rate": 1.7340800000000002e-05, + "loss": 0.0219, + "step": 62325 + }, + { + "epoch": 0.398912, + "grad_norm": 1.0996356010437012, + "learning_rate": 1.734058666666667e-05, + "loss": 0.0291, + "step": 62330 + }, + { + "epoch": 0.398944, + "grad_norm": 0.41843971610069275, + "learning_rate": 1.7340373333333337e-05, + "loss": 0.0203, + "step": 62335 + }, + { + "epoch": 0.398976, + "grad_norm": 0.2472231537103653, + "learning_rate": 1.734016e-05, + "loss": 0.0208, + "step": 62340 + }, + { + "epoch": 0.399008, + "grad_norm": 0.6417126655578613, + "learning_rate": 1.733994666666667e-05, + "loss": 0.0352, + "step": 62345 + }, + { + "epoch": 0.39904, + "grad_norm": 0.6314916014671326, + "learning_rate": 1.7339733333333336e-05, + "loss": 0.0172, + "step": 62350 + }, + { + "epoch": 0.399072, + "grad_norm": 0.5198078751564026, + "learning_rate": 1.733952e-05, + "loss": 0.0245, + "step": 62355 + }, + { + "epoch": 0.399104, + "grad_norm": 1.0686719417572021, + "learning_rate": 1.7339306666666668e-05, + "loss": 0.0215, + "step": 62360 + }, + { + "epoch": 0.399136, + "grad_norm": 0.9835841655731201, + "learning_rate": 1.7339093333333335e-05, + "loss": 0.0229, + "step": 62365 + }, + { + "epoch": 0.399168, + "grad_norm": 0.8983655571937561, + "learning_rate": 1.7338880000000003e-05, + "loss": 0.0305, + "step": 62370 + }, + { + "epoch": 0.3992, + "grad_norm": 0.5416556000709534, + "learning_rate": 1.7338666666666667e-05, + "loss": 0.0099, + "step": 62375 + }, + { + "epoch": 0.399232, + "grad_norm": 0.3112064003944397, + "learning_rate": 1.7338453333333335e-05, + "loss": 0.0235, + "step": 62380 + }, + { + "epoch": 0.399264, + "grad_norm": 1.364061951637268, + "learning_rate": 1.7338240000000002e-05, + "loss": 0.0431, + "step": 62385 + }, + { + "epoch": 0.399296, + "grad_norm": 1.126878261566162, + "learning_rate": 1.7338026666666666e-05, + "loss": 0.0452, + "step": 62390 + }, + { + "epoch": 0.399328, + "grad_norm": 5.417408466339111, + "learning_rate": 1.7337813333333334e-05, + "loss": 0.0355, + "step": 62395 + }, + { + "epoch": 0.39936, + "grad_norm": 0.12796194851398468, + "learning_rate": 1.73376e-05, + "loss": 0.0263, + "step": 62400 + }, + { + "epoch": 0.399392, + "grad_norm": 0.9972614645957947, + "learning_rate": 1.733738666666667e-05, + "loss": 0.0396, + "step": 62405 + }, + { + "epoch": 0.399424, + "grad_norm": 0.5214282274246216, + "learning_rate": 1.7337173333333333e-05, + "loss": 0.028, + "step": 62410 + }, + { + "epoch": 0.399456, + "grad_norm": 0.609065592288971, + "learning_rate": 1.733696e-05, + "loss": 0.0313, + "step": 62415 + }, + { + "epoch": 0.399488, + "grad_norm": 0.4914969205856323, + "learning_rate": 1.733674666666667e-05, + "loss": 0.023, + "step": 62420 + }, + { + "epoch": 0.39952, + "grad_norm": 1.2527276277542114, + "learning_rate": 1.7336533333333333e-05, + "loss": 0.028, + "step": 62425 + }, + { + "epoch": 0.399552, + "grad_norm": 1.173987865447998, + "learning_rate": 1.7336320000000003e-05, + "loss": 0.0437, + "step": 62430 + }, + { + "epoch": 0.399584, + "grad_norm": 0.4707109332084656, + "learning_rate": 1.7336106666666668e-05, + "loss": 0.0239, + "step": 62435 + }, + { + "epoch": 0.399616, + "grad_norm": 0.44927042722702026, + "learning_rate": 1.7335893333333335e-05, + "loss": 0.0333, + "step": 62440 + }, + { + "epoch": 0.399648, + "grad_norm": 0.4223601520061493, + "learning_rate": 1.7335680000000003e-05, + "loss": 0.0286, + "step": 62445 + }, + { + "epoch": 0.39968, + "grad_norm": 0.598872721195221, + "learning_rate": 1.7335466666666667e-05, + "loss": 0.0143, + "step": 62450 + }, + { + "epoch": 0.399712, + "grad_norm": 1.3270992040634155, + "learning_rate": 1.7335253333333334e-05, + "loss": 0.037, + "step": 62455 + }, + { + "epoch": 0.399744, + "grad_norm": 0.7082945108413696, + "learning_rate": 1.7335040000000002e-05, + "loss": 0.019, + "step": 62460 + }, + { + "epoch": 0.399776, + "grad_norm": 0.46253320574760437, + "learning_rate": 1.733482666666667e-05, + "loss": 0.0231, + "step": 62465 + }, + { + "epoch": 0.399808, + "grad_norm": 0.5925257205963135, + "learning_rate": 1.7334613333333334e-05, + "loss": 0.048, + "step": 62470 + }, + { + "epoch": 0.39984, + "grad_norm": 0.8732959032058716, + "learning_rate": 1.73344e-05, + "loss": 0.017, + "step": 62475 + }, + { + "epoch": 0.399872, + "grad_norm": 0.5737949013710022, + "learning_rate": 1.733418666666667e-05, + "loss": 0.019, + "step": 62480 + }, + { + "epoch": 0.399904, + "grad_norm": 0.38983631134033203, + "learning_rate": 1.7333973333333333e-05, + "loss": 0.0373, + "step": 62485 + }, + { + "epoch": 0.399936, + "grad_norm": 0.2844191789627075, + "learning_rate": 1.733376e-05, + "loss": 0.0244, + "step": 62490 + }, + { + "epoch": 0.399968, + "grad_norm": 0.6904894113540649, + "learning_rate": 1.7333546666666668e-05, + "loss": 0.0226, + "step": 62495 + }, + { + "epoch": 0.4, + "grad_norm": 1.2698814868927002, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.0815, + "step": 62500 + }, + { + "epoch": 0.400032, + "grad_norm": 0.7865971326828003, + "learning_rate": 1.733312e-05, + "loss": 0.0311, + "step": 62505 + }, + { + "epoch": 0.400064, + "grad_norm": 0.8950438499450684, + "learning_rate": 1.7332906666666667e-05, + "loss": 0.0242, + "step": 62510 + }, + { + "epoch": 0.400096, + "grad_norm": 0.48864272236824036, + "learning_rate": 1.7332693333333335e-05, + "loss": 0.0433, + "step": 62515 + }, + { + "epoch": 0.400128, + "grad_norm": 0.7446730136871338, + "learning_rate": 1.733248e-05, + "loss": 0.0197, + "step": 62520 + }, + { + "epoch": 0.40016, + "grad_norm": 0.8703432083129883, + "learning_rate": 1.733226666666667e-05, + "loss": 0.0378, + "step": 62525 + }, + { + "epoch": 0.400192, + "grad_norm": 0.908997654914856, + "learning_rate": 1.7332053333333334e-05, + "loss": 0.0335, + "step": 62530 + }, + { + "epoch": 0.400224, + "grad_norm": 1.1261013746261597, + "learning_rate": 1.7331840000000002e-05, + "loss": 0.0436, + "step": 62535 + }, + { + "epoch": 0.400256, + "grad_norm": 0.5258635878562927, + "learning_rate": 1.733162666666667e-05, + "loss": 0.0152, + "step": 62540 + }, + { + "epoch": 0.400288, + "grad_norm": 1.6669182777404785, + "learning_rate": 1.7331413333333337e-05, + "loss": 0.0597, + "step": 62545 + }, + { + "epoch": 0.40032, + "grad_norm": 1.204803228378296, + "learning_rate": 1.73312e-05, + "loss": 0.0322, + "step": 62550 + }, + { + "epoch": 0.400352, + "grad_norm": 0.8212853670120239, + "learning_rate": 1.733098666666667e-05, + "loss": 0.0385, + "step": 62555 + }, + { + "epoch": 0.400384, + "grad_norm": 0.5433138608932495, + "learning_rate": 1.7330773333333336e-05, + "loss": 0.0233, + "step": 62560 + }, + { + "epoch": 0.400416, + "grad_norm": 0.3155364692211151, + "learning_rate": 1.733056e-05, + "loss": 0.0214, + "step": 62565 + }, + { + "epoch": 0.400448, + "grad_norm": 0.3230482041835785, + "learning_rate": 1.7330346666666668e-05, + "loss": 0.0164, + "step": 62570 + }, + { + "epoch": 0.40048, + "grad_norm": 1.6555585861206055, + "learning_rate": 1.7330133333333335e-05, + "loss": 0.0303, + "step": 62575 + }, + { + "epoch": 0.400512, + "grad_norm": 0.6989063024520874, + "learning_rate": 1.7329920000000003e-05, + "loss": 0.0169, + "step": 62580 + }, + { + "epoch": 0.400544, + "grad_norm": 0.6453824639320374, + "learning_rate": 1.7329706666666667e-05, + "loss": 0.0391, + "step": 62585 + }, + { + "epoch": 0.400576, + "grad_norm": 0.2647389769554138, + "learning_rate": 1.7329493333333335e-05, + "loss": 0.0268, + "step": 62590 + }, + { + "epoch": 0.400608, + "grad_norm": 0.26711544394493103, + "learning_rate": 1.7329280000000002e-05, + "loss": 0.0421, + "step": 62595 + }, + { + "epoch": 0.40064, + "grad_norm": 0.9644286036491394, + "learning_rate": 1.7329066666666666e-05, + "loss": 0.0303, + "step": 62600 + }, + { + "epoch": 0.400672, + "grad_norm": 0.369527667760849, + "learning_rate": 1.7328853333333334e-05, + "loss": 0.0236, + "step": 62605 + }, + { + "epoch": 0.400704, + "grad_norm": 1.5238763093948364, + "learning_rate": 1.732864e-05, + "loss": 0.023, + "step": 62610 + }, + { + "epoch": 0.400736, + "grad_norm": 0.9460873603820801, + "learning_rate": 1.732842666666667e-05, + "loss": 0.0244, + "step": 62615 + }, + { + "epoch": 0.400768, + "grad_norm": 1.3381956815719604, + "learning_rate": 1.7328213333333333e-05, + "loss": 0.0304, + "step": 62620 + }, + { + "epoch": 0.4008, + "grad_norm": 1.0032612085342407, + "learning_rate": 1.7328e-05, + "loss": 0.0343, + "step": 62625 + }, + { + "epoch": 0.400832, + "grad_norm": 0.6761966943740845, + "learning_rate": 1.732778666666667e-05, + "loss": 0.0432, + "step": 62630 + }, + { + "epoch": 0.400864, + "grad_norm": 1.1407675743103027, + "learning_rate": 1.7327573333333333e-05, + "loss": 0.0313, + "step": 62635 + }, + { + "epoch": 0.400896, + "grad_norm": 1.0055650472640991, + "learning_rate": 1.7327360000000003e-05, + "loss": 0.0274, + "step": 62640 + }, + { + "epoch": 0.400928, + "grad_norm": 0.7450056076049805, + "learning_rate": 1.7327146666666668e-05, + "loss": 0.0373, + "step": 62645 + }, + { + "epoch": 0.40096, + "grad_norm": 0.7535862922668457, + "learning_rate": 1.7326933333333335e-05, + "loss": 0.0243, + "step": 62650 + }, + { + "epoch": 0.400992, + "grad_norm": 0.5088363289833069, + "learning_rate": 1.7326720000000003e-05, + "loss": 0.0314, + "step": 62655 + }, + { + "epoch": 0.401024, + "grad_norm": 0.6946428418159485, + "learning_rate": 1.7326506666666667e-05, + "loss": 0.0264, + "step": 62660 + }, + { + "epoch": 0.401056, + "grad_norm": 0.30293601751327515, + "learning_rate": 1.7326293333333334e-05, + "loss": 0.0158, + "step": 62665 + }, + { + "epoch": 0.401088, + "grad_norm": 0.49153366684913635, + "learning_rate": 1.7326080000000002e-05, + "loss": 0.0329, + "step": 62670 + }, + { + "epoch": 0.40112, + "grad_norm": 0.539030909538269, + "learning_rate": 1.732586666666667e-05, + "loss": 0.0232, + "step": 62675 + }, + { + "epoch": 0.401152, + "grad_norm": 0.6831705570220947, + "learning_rate": 1.7325653333333334e-05, + "loss": 0.0166, + "step": 62680 + }, + { + "epoch": 0.401184, + "grad_norm": 0.5684149265289307, + "learning_rate": 1.732544e-05, + "loss": 0.0144, + "step": 62685 + }, + { + "epoch": 0.401216, + "grad_norm": 0.7696671485900879, + "learning_rate": 1.732522666666667e-05, + "loss": 0.0358, + "step": 62690 + }, + { + "epoch": 0.401248, + "grad_norm": 0.7815456390380859, + "learning_rate": 1.7325013333333333e-05, + "loss": 0.0203, + "step": 62695 + }, + { + "epoch": 0.40128, + "grad_norm": 1.2062574625015259, + "learning_rate": 1.73248e-05, + "loss": 0.0366, + "step": 62700 + }, + { + "epoch": 0.401312, + "grad_norm": 0.34215879440307617, + "learning_rate": 1.7324586666666668e-05, + "loss": 0.0385, + "step": 62705 + }, + { + "epoch": 0.401344, + "grad_norm": 0.7748865485191345, + "learning_rate": 1.7324373333333336e-05, + "loss": 0.0292, + "step": 62710 + }, + { + "epoch": 0.401376, + "grad_norm": 0.5616048574447632, + "learning_rate": 1.732416e-05, + "loss": 0.0439, + "step": 62715 + }, + { + "epoch": 0.401408, + "grad_norm": 1.1097402572631836, + "learning_rate": 1.7323946666666667e-05, + "loss": 0.041, + "step": 62720 + }, + { + "epoch": 0.40144, + "grad_norm": 0.6645094156265259, + "learning_rate": 1.7323733333333335e-05, + "loss": 0.0319, + "step": 62725 + }, + { + "epoch": 0.401472, + "grad_norm": 0.5650752186775208, + "learning_rate": 1.732352e-05, + "loss": 0.0361, + "step": 62730 + }, + { + "epoch": 0.401504, + "grad_norm": 0.9876582026481628, + "learning_rate": 1.7323306666666667e-05, + "loss": 0.0464, + "step": 62735 + }, + { + "epoch": 0.401536, + "grad_norm": 1.407086730003357, + "learning_rate": 1.7323093333333334e-05, + "loss": 0.028, + "step": 62740 + }, + { + "epoch": 0.401568, + "grad_norm": 0.5888606905937195, + "learning_rate": 1.7322880000000002e-05, + "loss": 0.023, + "step": 62745 + }, + { + "epoch": 0.4016, + "grad_norm": 0.8005149364471436, + "learning_rate": 1.732266666666667e-05, + "loss": 0.0369, + "step": 62750 + }, + { + "epoch": 0.401632, + "grad_norm": 0.9373471736907959, + "learning_rate": 1.7322453333333337e-05, + "loss": 0.0191, + "step": 62755 + }, + { + "epoch": 0.401664, + "grad_norm": 0.16432830691337585, + "learning_rate": 1.732224e-05, + "loss": 0.0275, + "step": 62760 + }, + { + "epoch": 0.401696, + "grad_norm": 0.5741867423057556, + "learning_rate": 1.732202666666667e-05, + "loss": 0.0223, + "step": 62765 + }, + { + "epoch": 0.401728, + "grad_norm": 0.6055866479873657, + "learning_rate": 1.7321813333333336e-05, + "loss": 0.0224, + "step": 62770 + }, + { + "epoch": 0.40176, + "grad_norm": 0.8994143009185791, + "learning_rate": 1.73216e-05, + "loss": 0.0338, + "step": 62775 + }, + { + "epoch": 0.401792, + "grad_norm": 0.7994020581245422, + "learning_rate": 1.7321386666666668e-05, + "loss": 0.0368, + "step": 62780 + }, + { + "epoch": 0.401824, + "grad_norm": 0.7682383060455322, + "learning_rate": 1.7321173333333335e-05, + "loss": 0.0272, + "step": 62785 + }, + { + "epoch": 0.401856, + "grad_norm": 0.8745944499969482, + "learning_rate": 1.7320960000000003e-05, + "loss": 0.0416, + "step": 62790 + }, + { + "epoch": 0.401888, + "grad_norm": 0.322309672832489, + "learning_rate": 1.7320746666666667e-05, + "loss": 0.0217, + "step": 62795 + }, + { + "epoch": 0.40192, + "grad_norm": 0.6154944896697998, + "learning_rate": 1.7320533333333335e-05, + "loss": 0.0301, + "step": 62800 + }, + { + "epoch": 0.401952, + "grad_norm": 0.5112050175666809, + "learning_rate": 1.7320320000000002e-05, + "loss": 0.0244, + "step": 62805 + }, + { + "epoch": 0.401984, + "grad_norm": 0.25572994351387024, + "learning_rate": 1.7320106666666666e-05, + "loss": 0.0325, + "step": 62810 + }, + { + "epoch": 0.402016, + "grad_norm": 0.38512152433395386, + "learning_rate": 1.7319893333333334e-05, + "loss": 0.0195, + "step": 62815 + }, + { + "epoch": 0.402048, + "grad_norm": 0.6545022130012512, + "learning_rate": 1.731968e-05, + "loss": 0.0489, + "step": 62820 + }, + { + "epoch": 0.40208, + "grad_norm": 0.46100088953971863, + "learning_rate": 1.731946666666667e-05, + "loss": 0.0386, + "step": 62825 + }, + { + "epoch": 0.402112, + "grad_norm": 1.0554250478744507, + "learning_rate": 1.7319253333333333e-05, + "loss": 0.0311, + "step": 62830 + }, + { + "epoch": 0.402144, + "grad_norm": 0.4566960334777832, + "learning_rate": 1.7319040000000004e-05, + "loss": 0.0102, + "step": 62835 + }, + { + "epoch": 0.402176, + "grad_norm": 0.5522029995918274, + "learning_rate": 1.731882666666667e-05, + "loss": 0.028, + "step": 62840 + }, + { + "epoch": 0.402208, + "grad_norm": 0.4222789406776428, + "learning_rate": 1.7318613333333333e-05, + "loss": 0.0225, + "step": 62845 + }, + { + "epoch": 0.40224, + "grad_norm": 0.4873318672180176, + "learning_rate": 1.7318400000000003e-05, + "loss": 0.04, + "step": 62850 + }, + { + "epoch": 0.402272, + "grad_norm": 0.5014861822128296, + "learning_rate": 1.7318186666666668e-05, + "loss": 0.0256, + "step": 62855 + }, + { + "epoch": 0.402304, + "grad_norm": 10.122918128967285, + "learning_rate": 1.7317973333333335e-05, + "loss": 0.0134, + "step": 62860 + }, + { + "epoch": 0.402336, + "grad_norm": 0.8984354138374329, + "learning_rate": 1.7317760000000003e-05, + "loss": 0.0409, + "step": 62865 + }, + { + "epoch": 0.402368, + "grad_norm": 0.3872253894805908, + "learning_rate": 1.731754666666667e-05, + "loss": 0.0271, + "step": 62870 + }, + { + "epoch": 0.4024, + "grad_norm": 0.489846408367157, + "learning_rate": 1.7317333333333334e-05, + "loss": 0.019, + "step": 62875 + }, + { + "epoch": 0.402432, + "grad_norm": 0.27021080255508423, + "learning_rate": 1.7317120000000002e-05, + "loss": 0.0196, + "step": 62880 + }, + { + "epoch": 0.402464, + "grad_norm": 0.8440394997596741, + "learning_rate": 1.731690666666667e-05, + "loss": 0.0205, + "step": 62885 + }, + { + "epoch": 0.402496, + "grad_norm": 0.6546317934989929, + "learning_rate": 1.7316693333333334e-05, + "loss": 0.0148, + "step": 62890 + }, + { + "epoch": 0.402528, + "grad_norm": 0.909038782119751, + "learning_rate": 1.731648e-05, + "loss": 0.0467, + "step": 62895 + }, + { + "epoch": 0.40256, + "grad_norm": 1.3701525926589966, + "learning_rate": 1.731626666666667e-05, + "loss": 0.0565, + "step": 62900 + }, + { + "epoch": 0.402592, + "grad_norm": 0.4100823700428009, + "learning_rate": 1.7316053333333336e-05, + "loss": 0.0199, + "step": 62905 + }, + { + "epoch": 0.402624, + "grad_norm": 1.0065662860870361, + "learning_rate": 1.731584e-05, + "loss": 0.0382, + "step": 62910 + }, + { + "epoch": 0.402656, + "grad_norm": 0.5270552635192871, + "learning_rate": 1.7315626666666668e-05, + "loss": 0.0157, + "step": 62915 + }, + { + "epoch": 0.402688, + "grad_norm": 0.34577295184135437, + "learning_rate": 1.7315413333333336e-05, + "loss": 0.0101, + "step": 62920 + }, + { + "epoch": 0.40272, + "grad_norm": 1.530751347541809, + "learning_rate": 1.73152e-05, + "loss": 0.0253, + "step": 62925 + }, + { + "epoch": 0.402752, + "grad_norm": 0.683282732963562, + "learning_rate": 1.7314986666666667e-05, + "loss": 0.038, + "step": 62930 + }, + { + "epoch": 0.402784, + "grad_norm": 1.0052355527877808, + "learning_rate": 1.7314773333333335e-05, + "loss": 0.0291, + "step": 62935 + }, + { + "epoch": 0.402816, + "grad_norm": 0.7535836696624756, + "learning_rate": 1.7314560000000002e-05, + "loss": 0.0204, + "step": 62940 + }, + { + "epoch": 0.402848, + "grad_norm": 0.2988039255142212, + "learning_rate": 1.7314346666666667e-05, + "loss": 0.0133, + "step": 62945 + }, + { + "epoch": 0.40288, + "grad_norm": 0.8223246335983276, + "learning_rate": 1.7314133333333334e-05, + "loss": 0.023, + "step": 62950 + }, + { + "epoch": 0.402912, + "grad_norm": 0.6381489038467407, + "learning_rate": 1.7313920000000002e-05, + "loss": 0.029, + "step": 62955 + }, + { + "epoch": 0.402944, + "grad_norm": 1.694752812385559, + "learning_rate": 1.7313706666666666e-05, + "loss": 0.0353, + "step": 62960 + }, + { + "epoch": 0.402976, + "grad_norm": 1.7384167909622192, + "learning_rate": 1.7313493333333337e-05, + "loss": 0.0247, + "step": 62965 + }, + { + "epoch": 0.403008, + "grad_norm": 0.8610220551490784, + "learning_rate": 1.731328e-05, + "loss": 0.031, + "step": 62970 + }, + { + "epoch": 0.40304, + "grad_norm": 1.8941235542297363, + "learning_rate": 1.731306666666667e-05, + "loss": 0.0308, + "step": 62975 + }, + { + "epoch": 0.403072, + "grad_norm": 1.478088617324829, + "learning_rate": 1.7312853333333336e-05, + "loss": 0.0296, + "step": 62980 + }, + { + "epoch": 0.403104, + "grad_norm": 2.0535671710968018, + "learning_rate": 1.731264e-05, + "loss": 0.0249, + "step": 62985 + }, + { + "epoch": 0.403136, + "grad_norm": 0.9107696413993835, + "learning_rate": 1.7312426666666668e-05, + "loss": 0.0174, + "step": 62990 + }, + { + "epoch": 0.403168, + "grad_norm": 0.30356481671333313, + "learning_rate": 1.7312213333333335e-05, + "loss": 0.0153, + "step": 62995 + }, + { + "epoch": 0.4032, + "grad_norm": 0.8609564304351807, + "learning_rate": 1.7312000000000003e-05, + "loss": 0.0317, + "step": 63000 + }, + { + "epoch": 0.403232, + "grad_norm": 0.8854117393493652, + "learning_rate": 1.7311786666666667e-05, + "loss": 0.0247, + "step": 63005 + }, + { + "epoch": 0.403264, + "grad_norm": 1.93108332157135, + "learning_rate": 1.7311573333333335e-05, + "loss": 0.0458, + "step": 63010 + }, + { + "epoch": 0.403296, + "grad_norm": 0.8933658003807068, + "learning_rate": 1.7311360000000002e-05, + "loss": 0.0291, + "step": 63015 + }, + { + "epoch": 0.403328, + "grad_norm": 0.40575075149536133, + "learning_rate": 1.7311146666666666e-05, + "loss": 0.0326, + "step": 63020 + }, + { + "epoch": 0.40336, + "grad_norm": 0.9759882092475891, + "learning_rate": 1.7310933333333334e-05, + "loss": 0.0192, + "step": 63025 + }, + { + "epoch": 0.403392, + "grad_norm": 1.0217839479446411, + "learning_rate": 1.731072e-05, + "loss": 0.0492, + "step": 63030 + }, + { + "epoch": 0.403424, + "grad_norm": 0.7611318230628967, + "learning_rate": 1.731050666666667e-05, + "loss": 0.0314, + "step": 63035 + }, + { + "epoch": 0.403456, + "grad_norm": 0.41288772225379944, + "learning_rate": 1.7310293333333333e-05, + "loss": 0.0152, + "step": 63040 + }, + { + "epoch": 0.403488, + "grad_norm": 0.5866883397102356, + "learning_rate": 1.731008e-05, + "loss": 0.0216, + "step": 63045 + }, + { + "epoch": 0.40352, + "grad_norm": 0.7717658281326294, + "learning_rate": 1.730986666666667e-05, + "loss": 0.0257, + "step": 63050 + }, + { + "epoch": 0.403552, + "grad_norm": 0.09704261273145676, + "learning_rate": 1.7309653333333333e-05, + "loss": 0.0169, + "step": 63055 + }, + { + "epoch": 0.403584, + "grad_norm": 0.3419252336025238, + "learning_rate": 1.7309440000000003e-05, + "loss": 0.0206, + "step": 63060 + }, + { + "epoch": 0.403616, + "grad_norm": 0.8040174841880798, + "learning_rate": 1.7309226666666668e-05, + "loss": 0.0253, + "step": 63065 + }, + { + "epoch": 0.403648, + "grad_norm": 0.4243135452270508, + "learning_rate": 1.7309013333333335e-05, + "loss": 0.0413, + "step": 63070 + }, + { + "epoch": 0.40368, + "grad_norm": 0.7148590683937073, + "learning_rate": 1.7308800000000003e-05, + "loss": 0.0269, + "step": 63075 + }, + { + "epoch": 0.403712, + "grad_norm": 0.8476451635360718, + "learning_rate": 1.730858666666667e-05, + "loss": 0.0272, + "step": 63080 + }, + { + "epoch": 0.403744, + "grad_norm": 0.5313655734062195, + "learning_rate": 1.7308373333333334e-05, + "loss": 0.0182, + "step": 63085 + }, + { + "epoch": 0.403776, + "grad_norm": 0.6272217035293579, + "learning_rate": 1.7308160000000002e-05, + "loss": 0.0302, + "step": 63090 + }, + { + "epoch": 0.403808, + "grad_norm": 0.22540946304798126, + "learning_rate": 1.730794666666667e-05, + "loss": 0.0278, + "step": 63095 + }, + { + "epoch": 0.40384, + "grad_norm": 0.17209330201148987, + "learning_rate": 1.7307733333333334e-05, + "loss": 0.0096, + "step": 63100 + }, + { + "epoch": 0.403872, + "grad_norm": 0.08633867651224136, + "learning_rate": 1.730752e-05, + "loss": 0.0193, + "step": 63105 + }, + { + "epoch": 0.403904, + "grad_norm": 0.9450448751449585, + "learning_rate": 1.730730666666667e-05, + "loss": 0.0298, + "step": 63110 + }, + { + "epoch": 0.403936, + "grad_norm": 1.503609538078308, + "learning_rate": 1.7307093333333336e-05, + "loss": 0.018, + "step": 63115 + }, + { + "epoch": 0.403968, + "grad_norm": 0.6663867235183716, + "learning_rate": 1.730688e-05, + "loss": 0.0184, + "step": 63120 + }, + { + "epoch": 0.404, + "grad_norm": 0.7347632050514221, + "learning_rate": 1.7306666666666668e-05, + "loss": 0.0188, + "step": 63125 + }, + { + "epoch": 0.404032, + "grad_norm": 0.44058889150619507, + "learning_rate": 1.7306453333333336e-05, + "loss": 0.0214, + "step": 63130 + }, + { + "epoch": 0.404064, + "grad_norm": 0.80086749792099, + "learning_rate": 1.730624e-05, + "loss": 0.0572, + "step": 63135 + }, + { + "epoch": 0.404096, + "grad_norm": 0.6392208337783813, + "learning_rate": 1.7306026666666667e-05, + "loss": 0.0355, + "step": 63140 + }, + { + "epoch": 0.404128, + "grad_norm": 0.22098512947559357, + "learning_rate": 1.7305813333333335e-05, + "loss": 0.0523, + "step": 63145 + }, + { + "epoch": 0.40416, + "grad_norm": 2.7178916931152344, + "learning_rate": 1.7305600000000002e-05, + "loss": 0.0594, + "step": 63150 + }, + { + "epoch": 0.404192, + "grad_norm": 0.44977036118507385, + "learning_rate": 1.7305386666666667e-05, + "loss": 0.0176, + "step": 63155 + }, + { + "epoch": 0.404224, + "grad_norm": 0.11648228764533997, + "learning_rate": 1.7305173333333334e-05, + "loss": 0.0232, + "step": 63160 + }, + { + "epoch": 0.404256, + "grad_norm": 0.6681175827980042, + "learning_rate": 1.7304960000000002e-05, + "loss": 0.0693, + "step": 63165 + }, + { + "epoch": 0.404288, + "grad_norm": 0.6075034141540527, + "learning_rate": 1.7304746666666666e-05, + "loss": 0.0184, + "step": 63170 + }, + { + "epoch": 0.40432, + "grad_norm": 0.5189203023910522, + "learning_rate": 1.7304533333333337e-05, + "loss": 0.013, + "step": 63175 + }, + { + "epoch": 0.404352, + "grad_norm": 0.6392152309417725, + "learning_rate": 1.730432e-05, + "loss": 0.0349, + "step": 63180 + }, + { + "epoch": 0.404384, + "grad_norm": 3.3216116428375244, + "learning_rate": 1.730410666666667e-05, + "loss": 0.0313, + "step": 63185 + }, + { + "epoch": 0.404416, + "grad_norm": 0.8360203504562378, + "learning_rate": 1.7303893333333336e-05, + "loss": 0.0228, + "step": 63190 + }, + { + "epoch": 0.404448, + "grad_norm": 0.6565236449241638, + "learning_rate": 1.730368e-05, + "loss": 0.0455, + "step": 63195 + }, + { + "epoch": 0.40448, + "grad_norm": 0.4094471335411072, + "learning_rate": 1.7303466666666668e-05, + "loss": 0.0218, + "step": 63200 + }, + { + "epoch": 0.404512, + "grad_norm": 2.069300651550293, + "learning_rate": 1.7303253333333335e-05, + "loss": 0.0371, + "step": 63205 + }, + { + "epoch": 0.404544, + "grad_norm": 0.17599499225616455, + "learning_rate": 1.7303040000000003e-05, + "loss": 0.0209, + "step": 63210 + }, + { + "epoch": 0.404576, + "grad_norm": 0.4228361248970032, + "learning_rate": 1.7302826666666667e-05, + "loss": 0.0283, + "step": 63215 + }, + { + "epoch": 0.404608, + "grad_norm": 0.593720555305481, + "learning_rate": 1.7302613333333335e-05, + "loss": 0.056, + "step": 63220 + }, + { + "epoch": 0.40464, + "grad_norm": 0.94891357421875, + "learning_rate": 1.7302400000000002e-05, + "loss": 0.0193, + "step": 63225 + }, + { + "epoch": 0.404672, + "grad_norm": 0.7189961075782776, + "learning_rate": 1.7302186666666666e-05, + "loss": 0.029, + "step": 63230 + }, + { + "epoch": 0.404704, + "grad_norm": 0.21599942445755005, + "learning_rate": 1.7301973333333334e-05, + "loss": 0.0257, + "step": 63235 + }, + { + "epoch": 0.404736, + "grad_norm": 1.4080886840820312, + "learning_rate": 1.730176e-05, + "loss": 0.0383, + "step": 63240 + }, + { + "epoch": 0.404768, + "grad_norm": 0.34626758098602295, + "learning_rate": 1.730154666666667e-05, + "loss": 0.027, + "step": 63245 + }, + { + "epoch": 0.4048, + "grad_norm": 0.9139796495437622, + "learning_rate": 1.7301333333333333e-05, + "loss": 0.0422, + "step": 63250 + }, + { + "epoch": 0.404832, + "grad_norm": 1.1841405630111694, + "learning_rate": 1.730112e-05, + "loss": 0.0291, + "step": 63255 + }, + { + "epoch": 0.404864, + "grad_norm": 0.268950492143631, + "learning_rate": 1.730090666666667e-05, + "loss": 0.0499, + "step": 63260 + }, + { + "epoch": 0.404896, + "grad_norm": 0.9986581206321716, + "learning_rate": 1.7300693333333333e-05, + "loss": 0.0339, + "step": 63265 + }, + { + "epoch": 0.404928, + "grad_norm": 0.37151211500167847, + "learning_rate": 1.730048e-05, + "loss": 0.0276, + "step": 63270 + }, + { + "epoch": 0.40496, + "grad_norm": 0.36481890082359314, + "learning_rate": 1.7300266666666668e-05, + "loss": 0.0421, + "step": 63275 + }, + { + "epoch": 0.404992, + "grad_norm": 1.0985926389694214, + "learning_rate": 1.7300053333333335e-05, + "loss": 0.0521, + "step": 63280 + }, + { + "epoch": 0.405024, + "grad_norm": 0.9461997151374817, + "learning_rate": 1.7299840000000003e-05, + "loss": 0.0337, + "step": 63285 + }, + { + "epoch": 0.405056, + "grad_norm": 2.129941701889038, + "learning_rate": 1.729962666666667e-05, + "loss": 0.029, + "step": 63290 + }, + { + "epoch": 0.405088, + "grad_norm": 1.5823509693145752, + "learning_rate": 1.7299413333333334e-05, + "loss": 0.0191, + "step": 63295 + }, + { + "epoch": 0.40512, + "grad_norm": 0.9867064356803894, + "learning_rate": 1.7299200000000002e-05, + "loss": 0.0307, + "step": 63300 + }, + { + "epoch": 0.405152, + "grad_norm": 0.6235344409942627, + "learning_rate": 1.729898666666667e-05, + "loss": 0.0612, + "step": 63305 + }, + { + "epoch": 0.405184, + "grad_norm": 0.507046639919281, + "learning_rate": 1.7298773333333334e-05, + "loss": 0.0344, + "step": 63310 + }, + { + "epoch": 0.405216, + "grad_norm": 1.028335690498352, + "learning_rate": 1.729856e-05, + "loss": 0.0198, + "step": 63315 + }, + { + "epoch": 0.405248, + "grad_norm": 0.7076654434204102, + "learning_rate": 1.729834666666667e-05, + "loss": 0.0499, + "step": 63320 + }, + { + "epoch": 0.40528, + "grad_norm": 1.3279815912246704, + "learning_rate": 1.7298133333333336e-05, + "loss": 0.0468, + "step": 63325 + }, + { + "epoch": 0.405312, + "grad_norm": 0.5271108746528625, + "learning_rate": 1.729792e-05, + "loss": 0.0295, + "step": 63330 + }, + { + "epoch": 0.405344, + "grad_norm": 0.5823726058006287, + "learning_rate": 1.7297706666666668e-05, + "loss": 0.0234, + "step": 63335 + }, + { + "epoch": 0.405376, + "grad_norm": 0.6509589552879333, + "learning_rate": 1.7297493333333336e-05, + "loss": 0.0335, + "step": 63340 + }, + { + "epoch": 0.405408, + "grad_norm": 0.42522382736206055, + "learning_rate": 1.729728e-05, + "loss": 0.0158, + "step": 63345 + }, + { + "epoch": 0.40544, + "grad_norm": 0.6821568608283997, + "learning_rate": 1.7297066666666667e-05, + "loss": 0.0625, + "step": 63350 + }, + { + "epoch": 0.405472, + "grad_norm": 0.2593463957309723, + "learning_rate": 1.7296853333333335e-05, + "loss": 0.0228, + "step": 63355 + }, + { + "epoch": 0.405504, + "grad_norm": 0.5803541541099548, + "learning_rate": 1.7296640000000003e-05, + "loss": 0.0305, + "step": 63360 + }, + { + "epoch": 0.405536, + "grad_norm": 1.7274718284606934, + "learning_rate": 1.7296426666666667e-05, + "loss": 0.0664, + "step": 63365 + }, + { + "epoch": 0.405568, + "grad_norm": 0.6565877199172974, + "learning_rate": 1.7296213333333334e-05, + "loss": 0.0283, + "step": 63370 + }, + { + "epoch": 0.4056, + "grad_norm": 0.2980542778968811, + "learning_rate": 1.7296000000000002e-05, + "loss": 0.0325, + "step": 63375 + }, + { + "epoch": 0.405632, + "grad_norm": 0.3851394057273865, + "learning_rate": 1.7295786666666666e-05, + "loss": 0.0204, + "step": 63380 + }, + { + "epoch": 0.405664, + "grad_norm": 0.77812260389328, + "learning_rate": 1.7295573333333337e-05, + "loss": 0.019, + "step": 63385 + }, + { + "epoch": 0.405696, + "grad_norm": 2.675041913986206, + "learning_rate": 1.729536e-05, + "loss": 0.0186, + "step": 63390 + }, + { + "epoch": 0.405728, + "grad_norm": 0.4706237018108368, + "learning_rate": 1.729514666666667e-05, + "loss": 0.0186, + "step": 63395 + }, + { + "epoch": 0.40576, + "grad_norm": 0.5575870871543884, + "learning_rate": 1.7294933333333336e-05, + "loss": 0.0228, + "step": 63400 + }, + { + "epoch": 0.405792, + "grad_norm": 0.9425498247146606, + "learning_rate": 1.729472e-05, + "loss": 0.0609, + "step": 63405 + }, + { + "epoch": 0.405824, + "grad_norm": 0.5670517086982727, + "learning_rate": 1.7294506666666668e-05, + "loss": 0.0259, + "step": 63410 + }, + { + "epoch": 0.405856, + "grad_norm": 0.9127069115638733, + "learning_rate": 1.7294293333333335e-05, + "loss": 0.0356, + "step": 63415 + }, + { + "epoch": 0.405888, + "grad_norm": 1.2250456809997559, + "learning_rate": 1.7294080000000003e-05, + "loss": 0.0474, + "step": 63420 + }, + { + "epoch": 0.40592, + "grad_norm": 0.6795945167541504, + "learning_rate": 1.7293866666666667e-05, + "loss": 0.0299, + "step": 63425 + }, + { + "epoch": 0.405952, + "grad_norm": 0.6229626536369324, + "learning_rate": 1.7293653333333335e-05, + "loss": 0.0497, + "step": 63430 + }, + { + "epoch": 0.405984, + "grad_norm": 1.117815613746643, + "learning_rate": 1.7293440000000002e-05, + "loss": 0.0337, + "step": 63435 + }, + { + "epoch": 0.406016, + "grad_norm": 1.1601101160049438, + "learning_rate": 1.7293226666666666e-05, + "loss": 0.0227, + "step": 63440 + }, + { + "epoch": 0.406048, + "grad_norm": 0.7694094777107239, + "learning_rate": 1.7293013333333334e-05, + "loss": 0.0168, + "step": 63445 + }, + { + "epoch": 0.40608, + "grad_norm": 0.6374833583831787, + "learning_rate": 1.72928e-05, + "loss": 0.0667, + "step": 63450 + }, + { + "epoch": 0.406112, + "grad_norm": 0.32816505432128906, + "learning_rate": 1.729258666666667e-05, + "loss": 0.0219, + "step": 63455 + }, + { + "epoch": 0.406144, + "grad_norm": 1.0145162343978882, + "learning_rate": 1.7292373333333333e-05, + "loss": 0.0257, + "step": 63460 + }, + { + "epoch": 0.406176, + "grad_norm": 1.4215726852416992, + "learning_rate": 1.729216e-05, + "loss": 0.0474, + "step": 63465 + }, + { + "epoch": 0.406208, + "grad_norm": 0.3280932307243347, + "learning_rate": 1.729194666666667e-05, + "loss": 0.0335, + "step": 63470 + }, + { + "epoch": 0.40624, + "grad_norm": 0.2630271017551422, + "learning_rate": 1.7291733333333333e-05, + "loss": 0.0139, + "step": 63475 + }, + { + "epoch": 0.406272, + "grad_norm": 0.6688849329948425, + "learning_rate": 1.729152e-05, + "loss": 0.0183, + "step": 63480 + }, + { + "epoch": 0.406304, + "grad_norm": 1.1486802101135254, + "learning_rate": 1.7291306666666668e-05, + "loss": 0.0173, + "step": 63485 + }, + { + "epoch": 0.406336, + "grad_norm": 0.827703595161438, + "learning_rate": 1.7291093333333335e-05, + "loss": 0.0394, + "step": 63490 + }, + { + "epoch": 0.406368, + "grad_norm": 1.1226574182510376, + "learning_rate": 1.729088e-05, + "loss": 0.0446, + "step": 63495 + }, + { + "epoch": 0.4064, + "grad_norm": 0.4656004309654236, + "learning_rate": 1.729066666666667e-05, + "loss": 0.0222, + "step": 63500 + }, + { + "epoch": 0.406432, + "grad_norm": 1.193462610244751, + "learning_rate": 1.7290453333333334e-05, + "loss": 0.0309, + "step": 63505 + }, + { + "epoch": 0.406464, + "grad_norm": 1.6955918073654175, + "learning_rate": 1.7290240000000002e-05, + "loss": 0.0202, + "step": 63510 + }, + { + "epoch": 0.406496, + "grad_norm": 0.4662516117095947, + "learning_rate": 1.729002666666667e-05, + "loss": 0.0158, + "step": 63515 + }, + { + "epoch": 0.406528, + "grad_norm": 0.32618284225463867, + "learning_rate": 1.7289813333333334e-05, + "loss": 0.0237, + "step": 63520 + }, + { + "epoch": 0.40656, + "grad_norm": 0.2381334900856018, + "learning_rate": 1.72896e-05, + "loss": 0.0102, + "step": 63525 + }, + { + "epoch": 0.406592, + "grad_norm": 1.1629133224487305, + "learning_rate": 1.728938666666667e-05, + "loss": 0.0285, + "step": 63530 + }, + { + "epoch": 0.406624, + "grad_norm": 2.123176336288452, + "learning_rate": 1.7289173333333336e-05, + "loss": 0.0357, + "step": 63535 + }, + { + "epoch": 0.406656, + "grad_norm": 0.5244392156600952, + "learning_rate": 1.728896e-05, + "loss": 0.0367, + "step": 63540 + }, + { + "epoch": 0.406688, + "grad_norm": 0.21897679567337036, + "learning_rate": 1.7288746666666668e-05, + "loss": 0.0362, + "step": 63545 + }, + { + "epoch": 0.40672, + "grad_norm": 0.5677801966667175, + "learning_rate": 1.7288533333333336e-05, + "loss": 0.0489, + "step": 63550 + }, + { + "epoch": 0.406752, + "grad_norm": 0.3742021918296814, + "learning_rate": 1.728832e-05, + "loss": 0.0418, + "step": 63555 + }, + { + "epoch": 0.406784, + "grad_norm": 0.7970403432846069, + "learning_rate": 1.7288106666666667e-05, + "loss": 0.0236, + "step": 63560 + }, + { + "epoch": 0.406816, + "grad_norm": 0.4279046058654785, + "learning_rate": 1.7287893333333335e-05, + "loss": 0.0276, + "step": 63565 + }, + { + "epoch": 0.406848, + "grad_norm": 1.033650279045105, + "learning_rate": 1.7287680000000003e-05, + "loss": 0.0413, + "step": 63570 + }, + { + "epoch": 0.40688, + "grad_norm": 0.8830745220184326, + "learning_rate": 1.7287466666666667e-05, + "loss": 0.0346, + "step": 63575 + }, + { + "epoch": 0.406912, + "grad_norm": 0.6808825135231018, + "learning_rate": 1.7287253333333334e-05, + "loss": 0.0193, + "step": 63580 + }, + { + "epoch": 0.406944, + "grad_norm": 0.8412883281707764, + "learning_rate": 1.7287040000000002e-05, + "loss": 0.0224, + "step": 63585 + }, + { + "epoch": 0.406976, + "grad_norm": 0.4405398964881897, + "learning_rate": 1.7286826666666666e-05, + "loss": 0.0343, + "step": 63590 + }, + { + "epoch": 0.407008, + "grad_norm": 0.8657816052436829, + "learning_rate": 1.7286613333333337e-05, + "loss": 0.0267, + "step": 63595 + }, + { + "epoch": 0.40704, + "grad_norm": 0.5306665301322937, + "learning_rate": 1.72864e-05, + "loss": 0.0186, + "step": 63600 + }, + { + "epoch": 0.407072, + "grad_norm": 0.4371039867401123, + "learning_rate": 1.728618666666667e-05, + "loss": 0.0188, + "step": 63605 + }, + { + "epoch": 0.407104, + "grad_norm": 0.2935928702354431, + "learning_rate": 1.7285973333333336e-05, + "loss": 0.0332, + "step": 63610 + }, + { + "epoch": 0.407136, + "grad_norm": 0.3277609050273895, + "learning_rate": 1.728576e-05, + "loss": 0.0301, + "step": 63615 + }, + { + "epoch": 0.407168, + "grad_norm": 0.5929802060127258, + "learning_rate": 1.7285546666666668e-05, + "loss": 0.0285, + "step": 63620 + }, + { + "epoch": 0.4072, + "grad_norm": 1.0083719491958618, + "learning_rate": 1.7285333333333335e-05, + "loss": 0.0368, + "step": 63625 + }, + { + "epoch": 0.407232, + "grad_norm": 0.6469465494155884, + "learning_rate": 1.7285120000000003e-05, + "loss": 0.0496, + "step": 63630 + }, + { + "epoch": 0.407264, + "grad_norm": 0.3520728647708893, + "learning_rate": 1.7284906666666667e-05, + "loss": 0.0204, + "step": 63635 + }, + { + "epoch": 0.407296, + "grad_norm": 0.2575863301753998, + "learning_rate": 1.7284693333333335e-05, + "loss": 0.0259, + "step": 63640 + }, + { + "epoch": 0.407328, + "grad_norm": 1.0747051239013672, + "learning_rate": 1.7284480000000002e-05, + "loss": 0.0428, + "step": 63645 + }, + { + "epoch": 0.40736, + "grad_norm": 0.41872793436050415, + "learning_rate": 1.7284266666666666e-05, + "loss": 0.0249, + "step": 63650 + }, + { + "epoch": 0.407392, + "grad_norm": 0.3691035211086273, + "learning_rate": 1.7284053333333334e-05, + "loss": 0.019, + "step": 63655 + }, + { + "epoch": 0.407424, + "grad_norm": 0.6246476769447327, + "learning_rate": 1.728384e-05, + "loss": 0.0196, + "step": 63660 + }, + { + "epoch": 0.407456, + "grad_norm": 0.5860686898231506, + "learning_rate": 1.728362666666667e-05, + "loss": 0.0272, + "step": 63665 + }, + { + "epoch": 0.407488, + "grad_norm": 0.8240770101547241, + "learning_rate": 1.7283413333333333e-05, + "loss": 0.035, + "step": 63670 + }, + { + "epoch": 0.40752, + "grad_norm": 0.8858277201652527, + "learning_rate": 1.72832e-05, + "loss": 0.0273, + "step": 63675 + }, + { + "epoch": 0.407552, + "grad_norm": 1.8368663787841797, + "learning_rate": 1.728298666666667e-05, + "loss": 0.0428, + "step": 63680 + }, + { + "epoch": 0.407584, + "grad_norm": 0.39266762137413025, + "learning_rate": 1.7282773333333336e-05, + "loss": 0.0295, + "step": 63685 + }, + { + "epoch": 0.407616, + "grad_norm": 0.5292404890060425, + "learning_rate": 1.728256e-05, + "loss": 0.0308, + "step": 63690 + }, + { + "epoch": 0.407648, + "grad_norm": 0.2352079302072525, + "learning_rate": 1.7282346666666668e-05, + "loss": 0.0185, + "step": 63695 + }, + { + "epoch": 0.40768, + "grad_norm": 0.5877795219421387, + "learning_rate": 1.7282133333333335e-05, + "loss": 0.0277, + "step": 63700 + }, + { + "epoch": 0.407712, + "grad_norm": 0.24906229972839355, + "learning_rate": 1.728192e-05, + "loss": 0.0167, + "step": 63705 + }, + { + "epoch": 0.407744, + "grad_norm": 0.8731517791748047, + "learning_rate": 1.728170666666667e-05, + "loss": 0.0173, + "step": 63710 + }, + { + "epoch": 0.407776, + "grad_norm": 0.3799964487552643, + "learning_rate": 1.7281493333333334e-05, + "loss": 0.0209, + "step": 63715 + }, + { + "epoch": 0.407808, + "grad_norm": 0.6593703627586365, + "learning_rate": 1.7281280000000002e-05, + "loss": 0.0459, + "step": 63720 + }, + { + "epoch": 0.40784, + "grad_norm": 0.41694262623786926, + "learning_rate": 1.728106666666667e-05, + "loss": 0.0179, + "step": 63725 + }, + { + "epoch": 0.407872, + "grad_norm": 1.5177282094955444, + "learning_rate": 1.7280853333333334e-05, + "loss": 0.0485, + "step": 63730 + }, + { + "epoch": 0.407904, + "grad_norm": 1.1633237600326538, + "learning_rate": 1.728064e-05, + "loss": 0.0449, + "step": 63735 + }, + { + "epoch": 0.407936, + "grad_norm": 1.0179184675216675, + "learning_rate": 1.728042666666667e-05, + "loss": 0.0515, + "step": 63740 + }, + { + "epoch": 0.407968, + "grad_norm": 0.3027453124523163, + "learning_rate": 1.7280213333333336e-05, + "loss": 0.0146, + "step": 63745 + }, + { + "epoch": 0.408, + "grad_norm": 0.4201069474220276, + "learning_rate": 1.728e-05, + "loss": 0.0207, + "step": 63750 + }, + { + "epoch": 0.408032, + "grad_norm": 0.5929731130599976, + "learning_rate": 1.7279786666666668e-05, + "loss": 0.037, + "step": 63755 + }, + { + "epoch": 0.408064, + "grad_norm": 1.6511813402175903, + "learning_rate": 1.7279573333333336e-05, + "loss": 0.0283, + "step": 63760 + }, + { + "epoch": 0.408096, + "grad_norm": 0.6186574697494507, + "learning_rate": 1.727936e-05, + "loss": 0.0373, + "step": 63765 + }, + { + "epoch": 0.408128, + "grad_norm": 0.6807904243469238, + "learning_rate": 1.7279146666666667e-05, + "loss": 0.0622, + "step": 63770 + }, + { + "epoch": 0.40816, + "grad_norm": 1.1498624086380005, + "learning_rate": 1.7278933333333335e-05, + "loss": 0.0207, + "step": 63775 + }, + { + "epoch": 0.408192, + "grad_norm": 0.6165120005607605, + "learning_rate": 1.7278720000000003e-05, + "loss": 0.0379, + "step": 63780 + }, + { + "epoch": 0.408224, + "grad_norm": 0.31978926062583923, + "learning_rate": 1.7278506666666667e-05, + "loss": 0.0252, + "step": 63785 + }, + { + "epoch": 0.408256, + "grad_norm": 0.4679773151874542, + "learning_rate": 1.7278293333333334e-05, + "loss": 0.0505, + "step": 63790 + }, + { + "epoch": 0.408288, + "grad_norm": 0.9708061218261719, + "learning_rate": 1.7278080000000002e-05, + "loss": 0.026, + "step": 63795 + }, + { + "epoch": 0.40832, + "grad_norm": 0.4742714464664459, + "learning_rate": 1.7277866666666666e-05, + "loss": 0.0212, + "step": 63800 + }, + { + "epoch": 0.408352, + "grad_norm": 0.1475159376859665, + "learning_rate": 1.7277653333333334e-05, + "loss": 0.0301, + "step": 63805 + }, + { + "epoch": 0.408384, + "grad_norm": 0.5914393067359924, + "learning_rate": 1.727744e-05, + "loss": 0.0446, + "step": 63810 + }, + { + "epoch": 0.408416, + "grad_norm": 0.7280101180076599, + "learning_rate": 1.727722666666667e-05, + "loss": 0.0237, + "step": 63815 + }, + { + "epoch": 0.408448, + "grad_norm": 0.603441596031189, + "learning_rate": 1.7277013333333336e-05, + "loss": 0.0143, + "step": 63820 + }, + { + "epoch": 0.40848, + "grad_norm": 0.29137539863586426, + "learning_rate": 1.7276800000000004e-05, + "loss": 0.0189, + "step": 63825 + }, + { + "epoch": 0.408512, + "grad_norm": 1.441968321800232, + "learning_rate": 1.7276586666666668e-05, + "loss": 0.06, + "step": 63830 + }, + { + "epoch": 0.408544, + "grad_norm": 0.24931953847408295, + "learning_rate": 1.7276373333333335e-05, + "loss": 0.0213, + "step": 63835 + }, + { + "epoch": 0.408576, + "grad_norm": 0.7488721609115601, + "learning_rate": 1.7276160000000003e-05, + "loss": 0.0494, + "step": 63840 + }, + { + "epoch": 0.408608, + "grad_norm": 0.9704302549362183, + "learning_rate": 1.7275946666666667e-05, + "loss": 0.0171, + "step": 63845 + }, + { + "epoch": 0.40864, + "grad_norm": 0.5882743000984192, + "learning_rate": 1.7275733333333335e-05, + "loss": 0.0332, + "step": 63850 + }, + { + "epoch": 0.408672, + "grad_norm": 0.8150731921195984, + "learning_rate": 1.7275520000000002e-05, + "loss": 0.0463, + "step": 63855 + }, + { + "epoch": 0.408704, + "grad_norm": 0.03677891194820404, + "learning_rate": 1.727530666666667e-05, + "loss": 0.0162, + "step": 63860 + }, + { + "epoch": 0.408736, + "grad_norm": 0.6359318494796753, + "learning_rate": 1.7275093333333334e-05, + "loss": 0.037, + "step": 63865 + }, + { + "epoch": 0.408768, + "grad_norm": 1.2743045091629028, + "learning_rate": 1.727488e-05, + "loss": 0.0374, + "step": 63870 + }, + { + "epoch": 0.4088, + "grad_norm": 0.7290862202644348, + "learning_rate": 1.727466666666667e-05, + "loss": 0.0247, + "step": 63875 + }, + { + "epoch": 0.408832, + "grad_norm": 1.0299859046936035, + "learning_rate": 1.7274453333333333e-05, + "loss": 0.0577, + "step": 63880 + }, + { + "epoch": 0.408864, + "grad_norm": 0.3532377779483795, + "learning_rate": 1.727424e-05, + "loss": 0.0115, + "step": 63885 + }, + { + "epoch": 0.408896, + "grad_norm": 0.29297366738319397, + "learning_rate": 1.727402666666667e-05, + "loss": 0.0243, + "step": 63890 + }, + { + "epoch": 0.408928, + "grad_norm": 0.5324020385742188, + "learning_rate": 1.7273813333333336e-05, + "loss": 0.0181, + "step": 63895 + }, + { + "epoch": 0.40896, + "grad_norm": 0.6579673886299133, + "learning_rate": 1.72736e-05, + "loss": 0.0175, + "step": 63900 + }, + { + "epoch": 0.408992, + "grad_norm": 0.48763641715049744, + "learning_rate": 1.7273386666666668e-05, + "loss": 0.0209, + "step": 63905 + }, + { + "epoch": 0.409024, + "grad_norm": 0.5261842012405396, + "learning_rate": 1.7273173333333335e-05, + "loss": 0.0253, + "step": 63910 + }, + { + "epoch": 0.409056, + "grad_norm": 0.6459402441978455, + "learning_rate": 1.727296e-05, + "loss": 0.0186, + "step": 63915 + }, + { + "epoch": 0.409088, + "grad_norm": 1.3426586389541626, + "learning_rate": 1.727274666666667e-05, + "loss": 0.0272, + "step": 63920 + }, + { + "epoch": 0.40912, + "grad_norm": 0.7336715459823608, + "learning_rate": 1.7272533333333334e-05, + "loss": 0.0312, + "step": 63925 + }, + { + "epoch": 0.409152, + "grad_norm": 0.3952420651912689, + "learning_rate": 1.7272320000000002e-05, + "loss": 0.0295, + "step": 63930 + }, + { + "epoch": 0.409184, + "grad_norm": 0.4318679869174957, + "learning_rate": 1.727210666666667e-05, + "loss": 0.0182, + "step": 63935 + }, + { + "epoch": 0.409216, + "grad_norm": 0.9216839671134949, + "learning_rate": 1.7271893333333334e-05, + "loss": 0.0255, + "step": 63940 + }, + { + "epoch": 0.409248, + "grad_norm": 0.5587257146835327, + "learning_rate": 1.727168e-05, + "loss": 0.0307, + "step": 63945 + }, + { + "epoch": 0.40928, + "grad_norm": 0.5079187750816345, + "learning_rate": 1.727146666666667e-05, + "loss": 0.0267, + "step": 63950 + }, + { + "epoch": 0.409312, + "grad_norm": 0.8163055181503296, + "learning_rate": 1.7271253333333336e-05, + "loss": 0.0282, + "step": 63955 + }, + { + "epoch": 0.409344, + "grad_norm": 2.629483461380005, + "learning_rate": 1.727104e-05, + "loss": 0.0546, + "step": 63960 + }, + { + "epoch": 0.409376, + "grad_norm": 0.10223836451768875, + "learning_rate": 1.7270826666666668e-05, + "loss": 0.0233, + "step": 63965 + }, + { + "epoch": 0.409408, + "grad_norm": 0.5489004254341125, + "learning_rate": 1.7270613333333336e-05, + "loss": 0.0381, + "step": 63970 + }, + { + "epoch": 0.40944, + "grad_norm": 3.9747586250305176, + "learning_rate": 1.72704e-05, + "loss": 0.0536, + "step": 63975 + }, + { + "epoch": 0.409472, + "grad_norm": 0.6796693205833435, + "learning_rate": 1.7270186666666667e-05, + "loss": 0.0351, + "step": 63980 + }, + { + "epoch": 0.409504, + "grad_norm": 0.8043396472930908, + "learning_rate": 1.7269973333333335e-05, + "loss": 0.0223, + "step": 63985 + }, + { + "epoch": 0.409536, + "grad_norm": 0.5234714150428772, + "learning_rate": 1.7269760000000003e-05, + "loss": 0.0349, + "step": 63990 + }, + { + "epoch": 0.409568, + "grad_norm": 0.4932404160499573, + "learning_rate": 1.7269546666666667e-05, + "loss": 0.027, + "step": 63995 + }, + { + "epoch": 0.4096, + "grad_norm": 0.49477553367614746, + "learning_rate": 1.7269333333333334e-05, + "loss": 0.0298, + "step": 64000 + }, + { + "epoch": 0.409632, + "grad_norm": 0.674793541431427, + "learning_rate": 1.7269120000000002e-05, + "loss": 0.041, + "step": 64005 + }, + { + "epoch": 0.409664, + "grad_norm": 0.5538457036018372, + "learning_rate": 1.7268906666666666e-05, + "loss": 0.0205, + "step": 64010 + }, + { + "epoch": 0.409696, + "grad_norm": 0.5788808465003967, + "learning_rate": 1.7268693333333334e-05, + "loss": 0.0371, + "step": 64015 + }, + { + "epoch": 0.409728, + "grad_norm": 0.8086504936218262, + "learning_rate": 1.726848e-05, + "loss": 0.0142, + "step": 64020 + }, + { + "epoch": 0.40976, + "grad_norm": 1.0402663946151733, + "learning_rate": 1.726826666666667e-05, + "loss": 0.0541, + "step": 64025 + }, + { + "epoch": 0.409792, + "grad_norm": 0.5195082426071167, + "learning_rate": 1.7268053333333333e-05, + "loss": 0.0204, + "step": 64030 + }, + { + "epoch": 0.409824, + "grad_norm": 0.4002322852611542, + "learning_rate": 1.7267840000000004e-05, + "loss": 0.0373, + "step": 64035 + }, + { + "epoch": 0.409856, + "grad_norm": 1.0139052867889404, + "learning_rate": 1.7267626666666668e-05, + "loss": 0.0488, + "step": 64040 + }, + { + "epoch": 0.409888, + "grad_norm": 1.0330781936645508, + "learning_rate": 1.7267413333333335e-05, + "loss": 0.0298, + "step": 64045 + }, + { + "epoch": 0.40992, + "grad_norm": 0.5476421117782593, + "learning_rate": 1.7267200000000003e-05, + "loss": 0.0294, + "step": 64050 + }, + { + "epoch": 0.409952, + "grad_norm": 0.8414492011070251, + "learning_rate": 1.7266986666666667e-05, + "loss": 0.043, + "step": 64055 + }, + { + "epoch": 0.409984, + "grad_norm": 3.262223482131958, + "learning_rate": 1.7266773333333335e-05, + "loss": 0.0257, + "step": 64060 + }, + { + "epoch": 0.410016, + "grad_norm": 0.36190763115882874, + "learning_rate": 1.7266560000000002e-05, + "loss": 0.0235, + "step": 64065 + }, + { + "epoch": 0.410048, + "grad_norm": 1.5534336566925049, + "learning_rate": 1.726634666666667e-05, + "loss": 0.0239, + "step": 64070 + }, + { + "epoch": 0.41008, + "grad_norm": 1.111146330833435, + "learning_rate": 1.7266133333333334e-05, + "loss": 0.0302, + "step": 64075 + }, + { + "epoch": 0.410112, + "grad_norm": 0.8913314938545227, + "learning_rate": 1.726592e-05, + "loss": 0.0423, + "step": 64080 + }, + { + "epoch": 0.410144, + "grad_norm": 1.6601958274841309, + "learning_rate": 1.726570666666667e-05, + "loss": 0.0237, + "step": 64085 + }, + { + "epoch": 0.410176, + "grad_norm": 0.654384195804596, + "learning_rate": 1.7265493333333333e-05, + "loss": 0.0157, + "step": 64090 + }, + { + "epoch": 0.410208, + "grad_norm": 1.2345322370529175, + "learning_rate": 1.726528e-05, + "loss": 0.0576, + "step": 64095 + }, + { + "epoch": 0.41024, + "grad_norm": 0.9119855761528015, + "learning_rate": 1.726506666666667e-05, + "loss": 0.0504, + "step": 64100 + }, + { + "epoch": 0.410272, + "grad_norm": 0.34296879172325134, + "learning_rate": 1.7264853333333336e-05, + "loss": 0.0133, + "step": 64105 + }, + { + "epoch": 0.410304, + "grad_norm": 0.7792999148368835, + "learning_rate": 1.726464e-05, + "loss": 0.0395, + "step": 64110 + }, + { + "epoch": 0.410336, + "grad_norm": 0.2810812294483185, + "learning_rate": 1.7264426666666668e-05, + "loss": 0.0143, + "step": 64115 + }, + { + "epoch": 0.410368, + "grad_norm": 0.38994207978248596, + "learning_rate": 1.7264213333333335e-05, + "loss": 0.0091, + "step": 64120 + }, + { + "epoch": 0.4104, + "grad_norm": 0.6740690469741821, + "learning_rate": 1.7264e-05, + "loss": 0.0317, + "step": 64125 + }, + { + "epoch": 0.410432, + "grad_norm": 0.45946383476257324, + "learning_rate": 1.726378666666667e-05, + "loss": 0.0401, + "step": 64130 + }, + { + "epoch": 0.410464, + "grad_norm": 1.048389196395874, + "learning_rate": 1.7263573333333334e-05, + "loss": 0.0487, + "step": 64135 + }, + { + "epoch": 0.410496, + "grad_norm": 0.4770497977733612, + "learning_rate": 1.7263360000000002e-05, + "loss": 0.0213, + "step": 64140 + }, + { + "epoch": 0.410528, + "grad_norm": 0.8895268440246582, + "learning_rate": 1.726314666666667e-05, + "loss": 0.0325, + "step": 64145 + }, + { + "epoch": 0.41056, + "grad_norm": 0.8507879972457886, + "learning_rate": 1.7262933333333334e-05, + "loss": 0.0289, + "step": 64150 + }, + { + "epoch": 0.410592, + "grad_norm": 0.6784219145774841, + "learning_rate": 1.726272e-05, + "loss": 0.0254, + "step": 64155 + }, + { + "epoch": 0.410624, + "grad_norm": 0.863480806350708, + "learning_rate": 1.726250666666667e-05, + "loss": 0.0585, + "step": 64160 + }, + { + "epoch": 0.410656, + "grad_norm": 0.8272951245307922, + "learning_rate": 1.7262293333333336e-05, + "loss": 0.0331, + "step": 64165 + }, + { + "epoch": 0.410688, + "grad_norm": 0.9198560118675232, + "learning_rate": 1.726208e-05, + "loss": 0.0541, + "step": 64170 + }, + { + "epoch": 0.41072, + "grad_norm": 0.9945631623268127, + "learning_rate": 1.7261866666666668e-05, + "loss": 0.0373, + "step": 64175 + }, + { + "epoch": 0.410752, + "grad_norm": 1.9290422201156616, + "learning_rate": 1.7261653333333336e-05, + "loss": 0.0416, + "step": 64180 + }, + { + "epoch": 0.410784, + "grad_norm": 0.5416664481163025, + "learning_rate": 1.726144e-05, + "loss": 0.0201, + "step": 64185 + }, + { + "epoch": 0.410816, + "grad_norm": 0.44633015990257263, + "learning_rate": 1.7261226666666667e-05, + "loss": 0.0206, + "step": 64190 + }, + { + "epoch": 0.410848, + "grad_norm": 0.6350394487380981, + "learning_rate": 1.7261013333333335e-05, + "loss": 0.0137, + "step": 64195 + }, + { + "epoch": 0.41088, + "grad_norm": 1.103097677230835, + "learning_rate": 1.7260800000000003e-05, + "loss": 0.0295, + "step": 64200 + }, + { + "epoch": 0.410912, + "grad_norm": 0.9293885231018066, + "learning_rate": 1.7260586666666667e-05, + "loss": 0.0249, + "step": 64205 + }, + { + "epoch": 0.410944, + "grad_norm": 0.7004632949829102, + "learning_rate": 1.7260373333333334e-05, + "loss": 0.0267, + "step": 64210 + }, + { + "epoch": 0.410976, + "grad_norm": 0.44410720467567444, + "learning_rate": 1.7260160000000002e-05, + "loss": 0.0152, + "step": 64215 + }, + { + "epoch": 0.411008, + "grad_norm": 0.4145601689815521, + "learning_rate": 1.7259946666666666e-05, + "loss": 0.0337, + "step": 64220 + }, + { + "epoch": 0.41104, + "grad_norm": 1.4583276510238647, + "learning_rate": 1.7259733333333334e-05, + "loss": 0.033, + "step": 64225 + }, + { + "epoch": 0.411072, + "grad_norm": 0.4940044581890106, + "learning_rate": 1.725952e-05, + "loss": 0.0431, + "step": 64230 + }, + { + "epoch": 0.411104, + "grad_norm": 0.8804845809936523, + "learning_rate": 1.725930666666667e-05, + "loss": 0.022, + "step": 64235 + }, + { + "epoch": 0.411136, + "grad_norm": 0.27605122327804565, + "learning_rate": 1.7259093333333333e-05, + "loss": 0.0286, + "step": 64240 + }, + { + "epoch": 0.411168, + "grad_norm": 0.9598835110664368, + "learning_rate": 1.7258880000000004e-05, + "loss": 0.0291, + "step": 64245 + }, + { + "epoch": 0.4112, + "grad_norm": 0.35400062799453735, + "learning_rate": 1.7258666666666668e-05, + "loss": 0.0579, + "step": 64250 + }, + { + "epoch": 0.411232, + "grad_norm": 0.812882661819458, + "learning_rate": 1.7258453333333332e-05, + "loss": 0.0263, + "step": 64255 + }, + { + "epoch": 0.411264, + "grad_norm": 0.45972535014152527, + "learning_rate": 1.7258240000000003e-05, + "loss": 0.041, + "step": 64260 + }, + { + "epoch": 0.411296, + "grad_norm": 0.40722572803497314, + "learning_rate": 1.7258026666666667e-05, + "loss": 0.029, + "step": 64265 + }, + { + "epoch": 0.411328, + "grad_norm": 1.0958590507507324, + "learning_rate": 1.7257813333333335e-05, + "loss": 0.0235, + "step": 64270 + }, + { + "epoch": 0.41136, + "grad_norm": 0.31926730275154114, + "learning_rate": 1.7257600000000002e-05, + "loss": 0.013, + "step": 64275 + }, + { + "epoch": 0.411392, + "grad_norm": 0.31229349970817566, + "learning_rate": 1.725738666666667e-05, + "loss": 0.0291, + "step": 64280 + }, + { + "epoch": 0.411424, + "grad_norm": 0.8854957222938538, + "learning_rate": 1.7257173333333334e-05, + "loss": 0.032, + "step": 64285 + }, + { + "epoch": 0.411456, + "grad_norm": 0.4924035966396332, + "learning_rate": 1.725696e-05, + "loss": 0.0465, + "step": 64290 + }, + { + "epoch": 0.411488, + "grad_norm": 0.3687078058719635, + "learning_rate": 1.725674666666667e-05, + "loss": 0.027, + "step": 64295 + }, + { + "epoch": 0.41152, + "grad_norm": 1.60115385055542, + "learning_rate": 1.7256533333333333e-05, + "loss": 0.0212, + "step": 64300 + }, + { + "epoch": 0.411552, + "grad_norm": 0.6168931126594543, + "learning_rate": 1.725632e-05, + "loss": 0.0461, + "step": 64305 + }, + { + "epoch": 0.411584, + "grad_norm": 1.2343899011611938, + "learning_rate": 1.725610666666667e-05, + "loss": 0.0395, + "step": 64310 + }, + { + "epoch": 0.411616, + "grad_norm": 0.9677857756614685, + "learning_rate": 1.7255893333333336e-05, + "loss": 0.0393, + "step": 64315 + }, + { + "epoch": 0.411648, + "grad_norm": 1.5531307458877563, + "learning_rate": 1.725568e-05, + "loss": 0.0295, + "step": 64320 + }, + { + "epoch": 0.41168, + "grad_norm": 4.628577709197998, + "learning_rate": 1.7255466666666668e-05, + "loss": 0.0195, + "step": 64325 + }, + { + "epoch": 0.411712, + "grad_norm": 1.2068688869476318, + "learning_rate": 1.7255253333333335e-05, + "loss": 0.061, + "step": 64330 + }, + { + "epoch": 0.411744, + "grad_norm": 1.1120952367782593, + "learning_rate": 1.725504e-05, + "loss": 0.0601, + "step": 64335 + }, + { + "epoch": 0.411776, + "grad_norm": 0.9271154403686523, + "learning_rate": 1.7254826666666667e-05, + "loss": 0.0198, + "step": 64340 + }, + { + "epoch": 0.411808, + "grad_norm": 0.8825644254684448, + "learning_rate": 1.7254613333333334e-05, + "loss": 0.0225, + "step": 64345 + }, + { + "epoch": 0.41184, + "grad_norm": 0.6132829785346985, + "learning_rate": 1.7254400000000002e-05, + "loss": 0.0221, + "step": 64350 + }, + { + "epoch": 0.411872, + "grad_norm": 0.4917064607143402, + "learning_rate": 1.725418666666667e-05, + "loss": 0.0325, + "step": 64355 + }, + { + "epoch": 0.411904, + "grad_norm": 0.2673753499984741, + "learning_rate": 1.7253973333333334e-05, + "loss": 0.0312, + "step": 64360 + }, + { + "epoch": 0.411936, + "grad_norm": 0.7972143888473511, + "learning_rate": 1.725376e-05, + "loss": 0.0279, + "step": 64365 + }, + { + "epoch": 0.411968, + "grad_norm": 0.4579501152038574, + "learning_rate": 1.725354666666667e-05, + "loss": 0.0284, + "step": 64370 + }, + { + "epoch": 0.412, + "grad_norm": 1.3528838157653809, + "learning_rate": 1.7253333333333336e-05, + "loss": 0.0401, + "step": 64375 + }, + { + "epoch": 0.412032, + "grad_norm": 0.6652851104736328, + "learning_rate": 1.725312e-05, + "loss": 0.0378, + "step": 64380 + }, + { + "epoch": 0.412064, + "grad_norm": 0.558671236038208, + "learning_rate": 1.7252906666666668e-05, + "loss": 0.0181, + "step": 64385 + }, + { + "epoch": 0.412096, + "grad_norm": 0.3597862422466278, + "learning_rate": 1.7252693333333336e-05, + "loss": 0.0474, + "step": 64390 + }, + { + "epoch": 0.412128, + "grad_norm": 0.366543173789978, + "learning_rate": 1.725248e-05, + "loss": 0.0213, + "step": 64395 + }, + { + "epoch": 0.41216, + "grad_norm": 3.377267360687256, + "learning_rate": 1.7252266666666667e-05, + "loss": 0.0635, + "step": 64400 + }, + { + "epoch": 0.412192, + "grad_norm": 1.5373040437698364, + "learning_rate": 1.7252053333333335e-05, + "loss": 0.0523, + "step": 64405 + }, + { + "epoch": 0.412224, + "grad_norm": 1.147903561592102, + "learning_rate": 1.7251840000000003e-05, + "loss": 0.0395, + "step": 64410 + }, + { + "epoch": 0.412256, + "grad_norm": 0.8499812483787537, + "learning_rate": 1.7251626666666667e-05, + "loss": 0.0233, + "step": 64415 + }, + { + "epoch": 0.412288, + "grad_norm": 2.445483684539795, + "learning_rate": 1.7251413333333334e-05, + "loss": 0.0779, + "step": 64420 + }, + { + "epoch": 0.41232, + "grad_norm": 1.6504334211349487, + "learning_rate": 1.7251200000000002e-05, + "loss": 0.032, + "step": 64425 + }, + { + "epoch": 0.412352, + "grad_norm": 1.226544976234436, + "learning_rate": 1.7250986666666666e-05, + "loss": 0.0621, + "step": 64430 + }, + { + "epoch": 0.412384, + "grad_norm": 0.7662720084190369, + "learning_rate": 1.7250773333333334e-05, + "loss": 0.0323, + "step": 64435 + }, + { + "epoch": 0.412416, + "grad_norm": 0.6731123328208923, + "learning_rate": 1.725056e-05, + "loss": 0.0241, + "step": 64440 + }, + { + "epoch": 0.412448, + "grad_norm": 0.5276947021484375, + "learning_rate": 1.725034666666667e-05, + "loss": 0.0236, + "step": 64445 + }, + { + "epoch": 0.41248, + "grad_norm": 0.6107670664787292, + "learning_rate": 1.7250133333333333e-05, + "loss": 0.0198, + "step": 64450 + }, + { + "epoch": 0.412512, + "grad_norm": 0.4585524797439575, + "learning_rate": 1.7249920000000004e-05, + "loss": 0.0326, + "step": 64455 + }, + { + "epoch": 0.412544, + "grad_norm": 0.7238176465034485, + "learning_rate": 1.7249706666666668e-05, + "loss": 0.0208, + "step": 64460 + }, + { + "epoch": 0.412576, + "grad_norm": 0.4305737018585205, + "learning_rate": 1.7249493333333332e-05, + "loss": 0.0102, + "step": 64465 + }, + { + "epoch": 0.412608, + "grad_norm": 0.3858172297477722, + "learning_rate": 1.7249280000000003e-05, + "loss": 0.0332, + "step": 64470 + }, + { + "epoch": 0.41264, + "grad_norm": 0.5201548933982849, + "learning_rate": 1.7249066666666667e-05, + "loss": 0.018, + "step": 64475 + }, + { + "epoch": 0.412672, + "grad_norm": 0.2571684718132019, + "learning_rate": 1.7248853333333335e-05, + "loss": 0.0436, + "step": 64480 + }, + { + "epoch": 0.412704, + "grad_norm": 0.3587312400341034, + "learning_rate": 1.7248640000000002e-05, + "loss": 0.0431, + "step": 64485 + }, + { + "epoch": 0.412736, + "grad_norm": 2.6814281940460205, + "learning_rate": 1.724842666666667e-05, + "loss": 0.0525, + "step": 64490 + }, + { + "epoch": 0.412768, + "grad_norm": 0.8476725220680237, + "learning_rate": 1.7248213333333334e-05, + "loss": 0.0283, + "step": 64495 + }, + { + "epoch": 0.4128, + "grad_norm": 0.8123525977134705, + "learning_rate": 1.7248e-05, + "loss": 0.0444, + "step": 64500 + }, + { + "epoch": 0.412832, + "grad_norm": 0.34882450103759766, + "learning_rate": 1.724778666666667e-05, + "loss": 0.0324, + "step": 64505 + }, + { + "epoch": 0.412864, + "grad_norm": 0.6610941886901855, + "learning_rate": 1.7247573333333333e-05, + "loss": 0.0417, + "step": 64510 + }, + { + "epoch": 0.412896, + "grad_norm": 0.923145055770874, + "learning_rate": 1.724736e-05, + "loss": 0.0212, + "step": 64515 + }, + { + "epoch": 0.412928, + "grad_norm": 1.061187744140625, + "learning_rate": 1.724714666666667e-05, + "loss": 0.0697, + "step": 64520 + }, + { + "epoch": 0.41296, + "grad_norm": 0.41648977994918823, + "learning_rate": 1.7246933333333336e-05, + "loss": 0.0469, + "step": 64525 + }, + { + "epoch": 0.412992, + "grad_norm": 0.46843552589416504, + "learning_rate": 1.724672e-05, + "loss": 0.036, + "step": 64530 + }, + { + "epoch": 0.413024, + "grad_norm": 0.21669821441173553, + "learning_rate": 1.7246506666666668e-05, + "loss": 0.0076, + "step": 64535 + }, + { + "epoch": 0.413056, + "grad_norm": 0.8703423738479614, + "learning_rate": 1.7246293333333335e-05, + "loss": 0.032, + "step": 64540 + }, + { + "epoch": 0.413088, + "grad_norm": 0.3081018328666687, + "learning_rate": 1.724608e-05, + "loss": 0.0265, + "step": 64545 + }, + { + "epoch": 0.41312, + "grad_norm": 1.2406784296035767, + "learning_rate": 1.7245866666666667e-05, + "loss": 0.017, + "step": 64550 + }, + { + "epoch": 0.413152, + "grad_norm": 0.7107601761817932, + "learning_rate": 1.7245653333333334e-05, + "loss": 0.0229, + "step": 64555 + }, + { + "epoch": 0.413184, + "grad_norm": 0.5809453725814819, + "learning_rate": 1.7245440000000002e-05, + "loss": 0.0461, + "step": 64560 + }, + { + "epoch": 0.413216, + "grad_norm": 1.8882757425308228, + "learning_rate": 1.7245226666666666e-05, + "loss": 0.0304, + "step": 64565 + }, + { + "epoch": 0.413248, + "grad_norm": 1.3933231830596924, + "learning_rate": 1.7245013333333337e-05, + "loss": 0.0454, + "step": 64570 + }, + { + "epoch": 0.41328, + "grad_norm": 1.0460877418518066, + "learning_rate": 1.72448e-05, + "loss": 0.0294, + "step": 64575 + }, + { + "epoch": 0.413312, + "grad_norm": 0.986842691898346, + "learning_rate": 1.724458666666667e-05, + "loss": 0.0251, + "step": 64580 + }, + { + "epoch": 0.413344, + "grad_norm": 0.9402452111244202, + "learning_rate": 1.7244373333333336e-05, + "loss": 0.0292, + "step": 64585 + }, + { + "epoch": 0.413376, + "grad_norm": 0.3256438374519348, + "learning_rate": 1.724416e-05, + "loss": 0.0151, + "step": 64590 + }, + { + "epoch": 0.413408, + "grad_norm": 0.44433772563934326, + "learning_rate": 1.7243946666666668e-05, + "loss": 0.0236, + "step": 64595 + }, + { + "epoch": 0.41344, + "grad_norm": 0.5536068081855774, + "learning_rate": 1.7243733333333336e-05, + "loss": 0.0273, + "step": 64600 + }, + { + "epoch": 0.413472, + "grad_norm": 0.7362164855003357, + "learning_rate": 1.7243520000000003e-05, + "loss": 0.0158, + "step": 64605 + }, + { + "epoch": 0.413504, + "grad_norm": 0.8501912355422974, + "learning_rate": 1.7243306666666667e-05, + "loss": 0.029, + "step": 64610 + }, + { + "epoch": 0.413536, + "grad_norm": 1.154976725578308, + "learning_rate": 1.7243093333333335e-05, + "loss": 0.0168, + "step": 64615 + }, + { + "epoch": 0.413568, + "grad_norm": 3.3078835010528564, + "learning_rate": 1.7242880000000003e-05, + "loss": 0.0267, + "step": 64620 + }, + { + "epoch": 0.4136, + "grad_norm": 1.4992281198501587, + "learning_rate": 1.7242666666666667e-05, + "loss": 0.0337, + "step": 64625 + }, + { + "epoch": 0.413632, + "grad_norm": 1.0351507663726807, + "learning_rate": 1.7242453333333334e-05, + "loss": 0.0247, + "step": 64630 + }, + { + "epoch": 0.413664, + "grad_norm": 0.5602554678916931, + "learning_rate": 1.7242240000000002e-05, + "loss": 0.0223, + "step": 64635 + }, + { + "epoch": 0.413696, + "grad_norm": 0.3343333601951599, + "learning_rate": 1.724202666666667e-05, + "loss": 0.013, + "step": 64640 + }, + { + "epoch": 0.413728, + "grad_norm": 1.4328993558883667, + "learning_rate": 1.7241813333333334e-05, + "loss": 0.0294, + "step": 64645 + }, + { + "epoch": 0.41376, + "grad_norm": 0.4795669913291931, + "learning_rate": 1.72416e-05, + "loss": 0.0429, + "step": 64650 + }, + { + "epoch": 0.413792, + "grad_norm": 0.0740249902009964, + "learning_rate": 1.724138666666667e-05, + "loss": 0.0398, + "step": 64655 + }, + { + "epoch": 0.413824, + "grad_norm": 0.7526622414588928, + "learning_rate": 1.7241173333333333e-05, + "loss": 0.0489, + "step": 64660 + }, + { + "epoch": 0.413856, + "grad_norm": 0.3202226161956787, + "learning_rate": 1.7240960000000004e-05, + "loss": 0.0177, + "step": 64665 + }, + { + "epoch": 0.413888, + "grad_norm": 0.39272168278694153, + "learning_rate": 1.7240746666666668e-05, + "loss": 0.038, + "step": 64670 + }, + { + "epoch": 0.41392, + "grad_norm": 0.9197795987129211, + "learning_rate": 1.7240533333333335e-05, + "loss": 0.0187, + "step": 64675 + }, + { + "epoch": 0.413952, + "grad_norm": 0.9447991251945496, + "learning_rate": 1.7240320000000003e-05, + "loss": 0.0187, + "step": 64680 + }, + { + "epoch": 0.413984, + "grad_norm": 0.7520704865455627, + "learning_rate": 1.7240106666666667e-05, + "loss": 0.0187, + "step": 64685 + }, + { + "epoch": 0.414016, + "grad_norm": 0.6161876916885376, + "learning_rate": 1.7239893333333335e-05, + "loss": 0.0312, + "step": 64690 + }, + { + "epoch": 0.414048, + "grad_norm": 2.323411226272583, + "learning_rate": 1.7239680000000002e-05, + "loss": 0.0203, + "step": 64695 + }, + { + "epoch": 0.41408, + "grad_norm": 5.515527248382568, + "learning_rate": 1.723946666666667e-05, + "loss": 0.0453, + "step": 64700 + }, + { + "epoch": 0.414112, + "grad_norm": 0.7214463949203491, + "learning_rate": 1.7239253333333334e-05, + "loss": 0.0355, + "step": 64705 + }, + { + "epoch": 0.414144, + "grad_norm": 0.44598355889320374, + "learning_rate": 1.723904e-05, + "loss": 0.0185, + "step": 64710 + }, + { + "epoch": 0.414176, + "grad_norm": 1.0722002983093262, + "learning_rate": 1.723882666666667e-05, + "loss": 0.0465, + "step": 64715 + }, + { + "epoch": 0.414208, + "grad_norm": 1.2392680644989014, + "learning_rate": 1.7238613333333333e-05, + "loss": 0.0468, + "step": 64720 + }, + { + "epoch": 0.41424, + "grad_norm": 1.0965124368667603, + "learning_rate": 1.72384e-05, + "loss": 0.0157, + "step": 64725 + }, + { + "epoch": 0.414272, + "grad_norm": 0.8547092080116272, + "learning_rate": 1.723818666666667e-05, + "loss": 0.0316, + "step": 64730 + }, + { + "epoch": 0.414304, + "grad_norm": 0.20042286813259125, + "learning_rate": 1.7237973333333336e-05, + "loss": 0.024, + "step": 64735 + }, + { + "epoch": 0.414336, + "grad_norm": 0.32903555035591125, + "learning_rate": 1.723776e-05, + "loss": 0.0254, + "step": 64740 + }, + { + "epoch": 0.414368, + "grad_norm": 0.5214322805404663, + "learning_rate": 1.7237546666666668e-05, + "loss": 0.0459, + "step": 64745 + }, + { + "epoch": 0.4144, + "grad_norm": 2.115647792816162, + "learning_rate": 1.7237333333333335e-05, + "loss": 0.0403, + "step": 64750 + }, + { + "epoch": 0.414432, + "grad_norm": 0.7213347554206848, + "learning_rate": 1.723712e-05, + "loss": 0.0246, + "step": 64755 + }, + { + "epoch": 0.414464, + "grad_norm": 1.8987360000610352, + "learning_rate": 1.7236906666666667e-05, + "loss": 0.0259, + "step": 64760 + }, + { + "epoch": 0.414496, + "grad_norm": 0.884981632232666, + "learning_rate": 1.7236693333333334e-05, + "loss": 0.0369, + "step": 64765 + }, + { + "epoch": 0.414528, + "grad_norm": 0.28781166672706604, + "learning_rate": 1.7236480000000002e-05, + "loss": 0.012, + "step": 64770 + }, + { + "epoch": 0.41456, + "grad_norm": 0.7346531748771667, + "learning_rate": 1.7236266666666666e-05, + "loss": 0.0438, + "step": 64775 + }, + { + "epoch": 0.414592, + "grad_norm": 0.8011028170585632, + "learning_rate": 1.7236053333333337e-05, + "loss": 0.0229, + "step": 64780 + }, + { + "epoch": 0.414624, + "grad_norm": 0.5302614569664001, + "learning_rate": 1.723584e-05, + "loss": 0.0168, + "step": 64785 + }, + { + "epoch": 0.414656, + "grad_norm": 1.4848899841308594, + "learning_rate": 1.7235626666666665e-05, + "loss": 0.0523, + "step": 64790 + }, + { + "epoch": 0.414688, + "grad_norm": 0.7026433944702148, + "learning_rate": 1.7235413333333336e-05, + "loss": 0.0173, + "step": 64795 + }, + { + "epoch": 0.41472, + "grad_norm": 0.5032626390457153, + "learning_rate": 1.72352e-05, + "loss": 0.0148, + "step": 64800 + }, + { + "epoch": 0.414752, + "grad_norm": 0.3748244345188141, + "learning_rate": 1.7234986666666668e-05, + "loss": 0.0168, + "step": 64805 + }, + { + "epoch": 0.414784, + "grad_norm": 0.3669998347759247, + "learning_rate": 1.7234773333333336e-05, + "loss": 0.0248, + "step": 64810 + }, + { + "epoch": 0.414816, + "grad_norm": 0.4323115348815918, + "learning_rate": 1.7234560000000003e-05, + "loss": 0.0367, + "step": 64815 + }, + { + "epoch": 0.414848, + "grad_norm": 0.3592999279499054, + "learning_rate": 1.7234346666666667e-05, + "loss": 0.038, + "step": 64820 + }, + { + "epoch": 0.41488, + "grad_norm": 0.9587670564651489, + "learning_rate": 1.7234133333333335e-05, + "loss": 0.0397, + "step": 64825 + }, + { + "epoch": 0.414912, + "grad_norm": 0.9647824168205261, + "learning_rate": 1.7233920000000003e-05, + "loss": 0.0443, + "step": 64830 + }, + { + "epoch": 0.414944, + "grad_norm": 1.093376636505127, + "learning_rate": 1.7233706666666667e-05, + "loss": 0.045, + "step": 64835 + }, + { + "epoch": 0.414976, + "grad_norm": 0.703934371471405, + "learning_rate": 1.7233493333333334e-05, + "loss": 0.0222, + "step": 64840 + }, + { + "epoch": 0.415008, + "grad_norm": 2.1698052883148193, + "learning_rate": 1.7233280000000002e-05, + "loss": 0.0531, + "step": 64845 + }, + { + "epoch": 0.41504, + "grad_norm": 0.07987044006586075, + "learning_rate": 1.723306666666667e-05, + "loss": 0.0251, + "step": 64850 + }, + { + "epoch": 0.415072, + "grad_norm": 0.7358973622322083, + "learning_rate": 1.7232853333333334e-05, + "loss": 0.0338, + "step": 64855 + }, + { + "epoch": 0.415104, + "grad_norm": 0.4791834354400635, + "learning_rate": 1.723264e-05, + "loss": 0.0424, + "step": 64860 + }, + { + "epoch": 0.415136, + "grad_norm": 2.7997729778289795, + "learning_rate": 1.723242666666667e-05, + "loss": 0.0246, + "step": 64865 + }, + { + "epoch": 0.415168, + "grad_norm": 0.9236695170402527, + "learning_rate": 1.7232213333333333e-05, + "loss": 0.0256, + "step": 64870 + }, + { + "epoch": 0.4152, + "grad_norm": 0.7098404765129089, + "learning_rate": 1.7232000000000004e-05, + "loss": 0.0342, + "step": 64875 + }, + { + "epoch": 0.415232, + "grad_norm": 0.7645322680473328, + "learning_rate": 1.7231786666666668e-05, + "loss": 0.0379, + "step": 64880 + }, + { + "epoch": 0.415264, + "grad_norm": 1.1650309562683105, + "learning_rate": 1.7231573333333335e-05, + "loss": 0.0327, + "step": 64885 + }, + { + "epoch": 0.415296, + "grad_norm": 1.7672628164291382, + "learning_rate": 1.7231360000000003e-05, + "loss": 0.0384, + "step": 64890 + }, + { + "epoch": 0.415328, + "grad_norm": 0.29829680919647217, + "learning_rate": 1.7231146666666667e-05, + "loss": 0.0236, + "step": 64895 + }, + { + "epoch": 0.41536, + "grad_norm": 0.739840030670166, + "learning_rate": 1.7230933333333335e-05, + "loss": 0.0372, + "step": 64900 + }, + { + "epoch": 0.415392, + "grad_norm": 1.7522826194763184, + "learning_rate": 1.7230720000000002e-05, + "loss": 0.0293, + "step": 64905 + }, + { + "epoch": 0.415424, + "grad_norm": 0.5361137390136719, + "learning_rate": 1.723050666666667e-05, + "loss": 0.0139, + "step": 64910 + }, + { + "epoch": 0.415456, + "grad_norm": 0.2960730195045471, + "learning_rate": 1.7230293333333334e-05, + "loss": 0.0199, + "step": 64915 + }, + { + "epoch": 0.415488, + "grad_norm": 0.6904733180999756, + "learning_rate": 1.723008e-05, + "loss": 0.0461, + "step": 64920 + }, + { + "epoch": 0.41552, + "grad_norm": 0.3875851631164551, + "learning_rate": 1.722986666666667e-05, + "loss": 0.0212, + "step": 64925 + }, + { + "epoch": 0.415552, + "grad_norm": 0.41293686628341675, + "learning_rate": 1.7229653333333333e-05, + "loss": 0.0316, + "step": 64930 + }, + { + "epoch": 0.415584, + "grad_norm": 1.0730727910995483, + "learning_rate": 1.722944e-05, + "loss": 0.0306, + "step": 64935 + }, + { + "epoch": 0.415616, + "grad_norm": 1.5914198160171509, + "learning_rate": 1.722922666666667e-05, + "loss": 0.0366, + "step": 64940 + }, + { + "epoch": 0.415648, + "grad_norm": 1.3201264142990112, + "learning_rate": 1.7229013333333336e-05, + "loss": 0.0251, + "step": 64945 + }, + { + "epoch": 0.41568, + "grad_norm": 0.27577275037765503, + "learning_rate": 1.72288e-05, + "loss": 0.0109, + "step": 64950 + }, + { + "epoch": 0.415712, + "grad_norm": 0.7268790006637573, + "learning_rate": 1.7228586666666668e-05, + "loss": 0.0194, + "step": 64955 + }, + { + "epoch": 0.415744, + "grad_norm": 0.7770323157310486, + "learning_rate": 1.7228373333333335e-05, + "loss": 0.0253, + "step": 64960 + }, + { + "epoch": 0.415776, + "grad_norm": 0.4136503338813782, + "learning_rate": 1.722816e-05, + "loss": 0.0208, + "step": 64965 + }, + { + "epoch": 0.415808, + "grad_norm": 2.3656866550445557, + "learning_rate": 1.7227946666666667e-05, + "loss": 0.0382, + "step": 64970 + }, + { + "epoch": 0.41584, + "grad_norm": 1.2962859869003296, + "learning_rate": 1.7227733333333334e-05, + "loss": 0.0233, + "step": 64975 + }, + { + "epoch": 0.415872, + "grad_norm": 0.27703794836997986, + "learning_rate": 1.7227520000000002e-05, + "loss": 0.0226, + "step": 64980 + }, + { + "epoch": 0.415904, + "grad_norm": 0.8065340518951416, + "learning_rate": 1.7227306666666666e-05, + "loss": 0.0159, + "step": 64985 + }, + { + "epoch": 0.415936, + "grad_norm": 0.7892639636993408, + "learning_rate": 1.7227093333333337e-05, + "loss": 0.0239, + "step": 64990 + }, + { + "epoch": 0.415968, + "grad_norm": 0.4641433656215668, + "learning_rate": 1.722688e-05, + "loss": 0.0217, + "step": 64995 + }, + { + "epoch": 0.416, + "grad_norm": 0.25111767649650574, + "learning_rate": 1.7226666666666665e-05, + "loss": 0.0338, + "step": 65000 + }, + { + "epoch": 0.416032, + "grad_norm": 0.5754895806312561, + "learning_rate": 1.7226453333333336e-05, + "loss": 0.0332, + "step": 65005 + }, + { + "epoch": 0.416064, + "grad_norm": 1.0370124578475952, + "learning_rate": 1.722624e-05, + "loss": 0.0315, + "step": 65010 + }, + { + "epoch": 0.416096, + "grad_norm": 0.7128159403800964, + "learning_rate": 1.7226026666666668e-05, + "loss": 0.0301, + "step": 65015 + }, + { + "epoch": 0.416128, + "grad_norm": 0.3204123377799988, + "learning_rate": 1.7225813333333336e-05, + "loss": 0.013, + "step": 65020 + }, + { + "epoch": 0.41616, + "grad_norm": 0.9719063639640808, + "learning_rate": 1.7225600000000003e-05, + "loss": 0.0591, + "step": 65025 + }, + { + "epoch": 0.416192, + "grad_norm": 0.7191954255104065, + "learning_rate": 1.7225386666666667e-05, + "loss": 0.0326, + "step": 65030 + }, + { + "epoch": 0.416224, + "grad_norm": 0.8552714586257935, + "learning_rate": 1.7225173333333335e-05, + "loss": 0.0222, + "step": 65035 + }, + { + "epoch": 0.416256, + "grad_norm": 0.9957165122032166, + "learning_rate": 1.7224960000000003e-05, + "loss": 0.0254, + "step": 65040 + }, + { + "epoch": 0.416288, + "grad_norm": 0.6967191696166992, + "learning_rate": 1.7224746666666667e-05, + "loss": 0.0231, + "step": 65045 + }, + { + "epoch": 0.41632, + "grad_norm": 0.31632912158966064, + "learning_rate": 1.7224533333333334e-05, + "loss": 0.0159, + "step": 65050 + }, + { + "epoch": 0.416352, + "grad_norm": 0.8320531249046326, + "learning_rate": 1.7224320000000002e-05, + "loss": 0.0395, + "step": 65055 + }, + { + "epoch": 0.416384, + "grad_norm": 1.1157187223434448, + "learning_rate": 1.722410666666667e-05, + "loss": 0.0158, + "step": 65060 + }, + { + "epoch": 0.416416, + "grad_norm": 0.15422092378139496, + "learning_rate": 1.7223893333333334e-05, + "loss": 0.0164, + "step": 65065 + }, + { + "epoch": 0.416448, + "grad_norm": 1.5031882524490356, + "learning_rate": 1.722368e-05, + "loss": 0.0292, + "step": 65070 + }, + { + "epoch": 0.41648, + "grad_norm": 0.7914665341377258, + "learning_rate": 1.722346666666667e-05, + "loss": 0.043, + "step": 65075 + }, + { + "epoch": 0.416512, + "grad_norm": 0.5201774835586548, + "learning_rate": 1.7223253333333333e-05, + "loss": 0.0295, + "step": 65080 + }, + { + "epoch": 0.416544, + "grad_norm": 1.0587749481201172, + "learning_rate": 1.722304e-05, + "loss": 0.0242, + "step": 65085 + }, + { + "epoch": 0.416576, + "grad_norm": 0.7682314515113831, + "learning_rate": 1.7222826666666668e-05, + "loss": 0.051, + "step": 65090 + }, + { + "epoch": 0.416608, + "grad_norm": 1.0618691444396973, + "learning_rate": 1.7222613333333335e-05, + "loss": 0.0331, + "step": 65095 + }, + { + "epoch": 0.41664, + "grad_norm": 2.1186437606811523, + "learning_rate": 1.7222400000000003e-05, + "loss": 0.0311, + "step": 65100 + }, + { + "epoch": 0.416672, + "grad_norm": 0.7934660911560059, + "learning_rate": 1.7222186666666667e-05, + "loss": 0.0336, + "step": 65105 + }, + { + "epoch": 0.416704, + "grad_norm": 0.5631595849990845, + "learning_rate": 1.7221973333333335e-05, + "loss": 0.0228, + "step": 65110 + }, + { + "epoch": 0.416736, + "grad_norm": 0.6278490424156189, + "learning_rate": 1.7221760000000002e-05, + "loss": 0.025, + "step": 65115 + }, + { + "epoch": 0.416768, + "grad_norm": 0.47317010164260864, + "learning_rate": 1.722154666666667e-05, + "loss": 0.0168, + "step": 65120 + }, + { + "epoch": 0.4168, + "grad_norm": 1.0729068517684937, + "learning_rate": 1.7221333333333334e-05, + "loss": 0.0251, + "step": 65125 + }, + { + "epoch": 0.416832, + "grad_norm": 0.39637234807014465, + "learning_rate": 1.722112e-05, + "loss": 0.023, + "step": 65130 + }, + { + "epoch": 0.416864, + "grad_norm": 0.42222103476524353, + "learning_rate": 1.722090666666667e-05, + "loss": 0.0349, + "step": 65135 + }, + { + "epoch": 0.416896, + "grad_norm": 5.094757556915283, + "learning_rate": 1.7220693333333333e-05, + "loss": 0.0413, + "step": 65140 + }, + { + "epoch": 0.416928, + "grad_norm": 1.1086338758468628, + "learning_rate": 1.722048e-05, + "loss": 0.013, + "step": 65145 + }, + { + "epoch": 0.41696, + "grad_norm": 1.3195695877075195, + "learning_rate": 1.722026666666667e-05, + "loss": 0.0423, + "step": 65150 + }, + { + "epoch": 0.416992, + "grad_norm": 0.6365959644317627, + "learning_rate": 1.7220053333333336e-05, + "loss": 0.0371, + "step": 65155 + }, + { + "epoch": 0.417024, + "grad_norm": 1.1737948656082153, + "learning_rate": 1.721984e-05, + "loss": 0.0501, + "step": 65160 + }, + { + "epoch": 0.417056, + "grad_norm": 1.2031328678131104, + "learning_rate": 1.7219626666666668e-05, + "loss": 0.0255, + "step": 65165 + }, + { + "epoch": 0.417088, + "grad_norm": 0.39684024453163147, + "learning_rate": 1.7219413333333335e-05, + "loss": 0.0296, + "step": 65170 + }, + { + "epoch": 0.41712, + "grad_norm": 0.8047105073928833, + "learning_rate": 1.72192e-05, + "loss": 0.0283, + "step": 65175 + }, + { + "epoch": 0.417152, + "grad_norm": 0.429903507232666, + "learning_rate": 1.7218986666666667e-05, + "loss": 0.0253, + "step": 65180 + }, + { + "epoch": 0.417184, + "grad_norm": 0.23996005952358246, + "learning_rate": 1.7218773333333335e-05, + "loss": 0.0181, + "step": 65185 + }, + { + "epoch": 0.417216, + "grad_norm": 0.9780999422073364, + "learning_rate": 1.7218560000000002e-05, + "loss": 0.0239, + "step": 65190 + }, + { + "epoch": 0.417248, + "grad_norm": 0.5600838661193848, + "learning_rate": 1.7218346666666666e-05, + "loss": 0.0487, + "step": 65195 + }, + { + "epoch": 0.41728, + "grad_norm": 1.0607020854949951, + "learning_rate": 1.7218133333333337e-05, + "loss": 0.0345, + "step": 65200 + }, + { + "epoch": 0.417312, + "grad_norm": 1.5958997011184692, + "learning_rate": 1.721792e-05, + "loss": 0.017, + "step": 65205 + }, + { + "epoch": 0.417344, + "grad_norm": 1.6319642066955566, + "learning_rate": 1.7217706666666665e-05, + "loss": 0.0706, + "step": 65210 + }, + { + "epoch": 0.417376, + "grad_norm": 0.5154882669448853, + "learning_rate": 1.7217493333333336e-05, + "loss": 0.031, + "step": 65215 + }, + { + "epoch": 0.417408, + "grad_norm": 0.32730236649513245, + "learning_rate": 1.721728e-05, + "loss": 0.0359, + "step": 65220 + }, + { + "epoch": 0.41744, + "grad_norm": 0.4785292446613312, + "learning_rate": 1.7217066666666668e-05, + "loss": 0.028, + "step": 65225 + }, + { + "epoch": 0.417472, + "grad_norm": 0.4473473131656647, + "learning_rate": 1.7216853333333336e-05, + "loss": 0.0537, + "step": 65230 + }, + { + "epoch": 0.417504, + "grad_norm": 0.7651025056838989, + "learning_rate": 1.7216640000000003e-05, + "loss": 0.0293, + "step": 65235 + }, + { + "epoch": 0.417536, + "grad_norm": 0.8883560299873352, + "learning_rate": 1.7216426666666667e-05, + "loss": 0.0245, + "step": 65240 + }, + { + "epoch": 0.417568, + "grad_norm": 0.389824777841568, + "learning_rate": 1.7216213333333335e-05, + "loss": 0.0239, + "step": 65245 + }, + { + "epoch": 0.4176, + "grad_norm": 0.8316291570663452, + "learning_rate": 1.7216000000000003e-05, + "loss": 0.0327, + "step": 65250 + }, + { + "epoch": 0.417632, + "grad_norm": 0.3894054889678955, + "learning_rate": 1.7215786666666667e-05, + "loss": 0.0226, + "step": 65255 + }, + { + "epoch": 0.417664, + "grad_norm": 0.959446370601654, + "learning_rate": 1.7215573333333334e-05, + "loss": 0.0326, + "step": 65260 + }, + { + "epoch": 0.417696, + "grad_norm": 0.5294107794761658, + "learning_rate": 1.7215360000000002e-05, + "loss": 0.0467, + "step": 65265 + }, + { + "epoch": 0.417728, + "grad_norm": 0.7758552432060242, + "learning_rate": 1.721514666666667e-05, + "loss": 0.0369, + "step": 65270 + }, + { + "epoch": 0.41776, + "grad_norm": 0.7157649993896484, + "learning_rate": 1.7214933333333334e-05, + "loss": 0.0312, + "step": 65275 + }, + { + "epoch": 0.417792, + "grad_norm": 1.338186264038086, + "learning_rate": 1.721472e-05, + "loss": 0.0202, + "step": 65280 + }, + { + "epoch": 0.417824, + "grad_norm": 0.4700627624988556, + "learning_rate": 1.721450666666667e-05, + "loss": 0.0316, + "step": 65285 + }, + { + "epoch": 0.417856, + "grad_norm": 0.9602181911468506, + "learning_rate": 1.7214293333333333e-05, + "loss": 0.0273, + "step": 65290 + }, + { + "epoch": 0.417888, + "grad_norm": 0.4247156083583832, + "learning_rate": 1.721408e-05, + "loss": 0.0182, + "step": 65295 + }, + { + "epoch": 0.41792, + "grad_norm": 0.6077681183815002, + "learning_rate": 1.7213866666666668e-05, + "loss": 0.0273, + "step": 65300 + }, + { + "epoch": 0.417952, + "grad_norm": 0.5535597205162048, + "learning_rate": 1.7213653333333335e-05, + "loss": 0.0306, + "step": 65305 + }, + { + "epoch": 0.417984, + "grad_norm": 0.25739291310310364, + "learning_rate": 1.721344e-05, + "loss": 0.0167, + "step": 65310 + }, + { + "epoch": 0.418016, + "grad_norm": 0.14732706546783447, + "learning_rate": 1.7213226666666667e-05, + "loss": 0.018, + "step": 65315 + }, + { + "epoch": 0.418048, + "grad_norm": 1.643424391746521, + "learning_rate": 1.7213013333333335e-05, + "loss": 0.0423, + "step": 65320 + }, + { + "epoch": 0.41808, + "grad_norm": 0.30484339594841003, + "learning_rate": 1.7212800000000002e-05, + "loss": 0.0358, + "step": 65325 + }, + { + "epoch": 0.418112, + "grad_norm": 0.508187472820282, + "learning_rate": 1.721258666666667e-05, + "loss": 0.0342, + "step": 65330 + }, + { + "epoch": 0.418144, + "grad_norm": 1.0295624732971191, + "learning_rate": 1.7212373333333334e-05, + "loss": 0.0393, + "step": 65335 + }, + { + "epoch": 0.418176, + "grad_norm": 0.9921255707740784, + "learning_rate": 1.721216e-05, + "loss": 0.0241, + "step": 65340 + }, + { + "epoch": 0.418208, + "grad_norm": 0.4862718880176544, + "learning_rate": 1.721194666666667e-05, + "loss": 0.0231, + "step": 65345 + }, + { + "epoch": 0.41824, + "grad_norm": 0.5695406794548035, + "learning_rate": 1.7211733333333337e-05, + "loss": 0.0221, + "step": 65350 + }, + { + "epoch": 0.418272, + "grad_norm": 0.5415725708007812, + "learning_rate": 1.721152e-05, + "loss": 0.0371, + "step": 65355 + }, + { + "epoch": 0.418304, + "grad_norm": 0.4037703275680542, + "learning_rate": 1.721130666666667e-05, + "loss": 0.0242, + "step": 65360 + }, + { + "epoch": 0.418336, + "grad_norm": 0.47832462191581726, + "learning_rate": 1.7211093333333336e-05, + "loss": 0.0241, + "step": 65365 + }, + { + "epoch": 0.418368, + "grad_norm": 0.6206105947494507, + "learning_rate": 1.721088e-05, + "loss": 0.0289, + "step": 65370 + }, + { + "epoch": 0.4184, + "grad_norm": 1.2043700218200684, + "learning_rate": 1.7210666666666668e-05, + "loss": 0.0393, + "step": 65375 + }, + { + "epoch": 0.418432, + "grad_norm": 1.4961609840393066, + "learning_rate": 1.7210453333333335e-05, + "loss": 0.0202, + "step": 65380 + }, + { + "epoch": 0.418464, + "grad_norm": 2.742159366607666, + "learning_rate": 1.7210240000000003e-05, + "loss": 0.0236, + "step": 65385 + }, + { + "epoch": 0.418496, + "grad_norm": 1.144444465637207, + "learning_rate": 1.7210026666666667e-05, + "loss": 0.0217, + "step": 65390 + }, + { + "epoch": 0.418528, + "grad_norm": 0.35253801941871643, + "learning_rate": 1.7209813333333335e-05, + "loss": 0.0206, + "step": 65395 + }, + { + "epoch": 0.41856, + "grad_norm": 0.6317940354347229, + "learning_rate": 1.7209600000000002e-05, + "loss": 0.0122, + "step": 65400 + }, + { + "epoch": 0.418592, + "grad_norm": 1.23462975025177, + "learning_rate": 1.7209386666666666e-05, + "loss": 0.0246, + "step": 65405 + }, + { + "epoch": 0.418624, + "grad_norm": 0.6405063271522522, + "learning_rate": 1.7209173333333337e-05, + "loss": 0.0289, + "step": 65410 + }, + { + "epoch": 0.418656, + "grad_norm": 0.949614942073822, + "learning_rate": 1.720896e-05, + "loss": 0.0285, + "step": 65415 + }, + { + "epoch": 0.418688, + "grad_norm": 1.1414419412612915, + "learning_rate": 1.720874666666667e-05, + "loss": 0.0202, + "step": 65420 + }, + { + "epoch": 0.41872, + "grad_norm": 0.5414908528327942, + "learning_rate": 1.7208533333333336e-05, + "loss": 0.0366, + "step": 65425 + }, + { + "epoch": 0.418752, + "grad_norm": 1.828856348991394, + "learning_rate": 1.720832e-05, + "loss": 0.0247, + "step": 65430 + }, + { + "epoch": 0.418784, + "grad_norm": 0.11158889532089233, + "learning_rate": 1.7208106666666668e-05, + "loss": 0.0362, + "step": 65435 + }, + { + "epoch": 0.418816, + "grad_norm": 1.0007069110870361, + "learning_rate": 1.7207893333333336e-05, + "loss": 0.0251, + "step": 65440 + }, + { + "epoch": 0.418848, + "grad_norm": 1.1233638525009155, + "learning_rate": 1.7207680000000003e-05, + "loss": 0.0261, + "step": 65445 + }, + { + "epoch": 0.41888, + "grad_norm": 0.16565260291099548, + "learning_rate": 1.7207466666666667e-05, + "loss": 0.0198, + "step": 65450 + }, + { + "epoch": 0.418912, + "grad_norm": 0.9600790143013, + "learning_rate": 1.7207253333333335e-05, + "loss": 0.0376, + "step": 65455 + }, + { + "epoch": 0.418944, + "grad_norm": 0.3901020586490631, + "learning_rate": 1.7207040000000003e-05, + "loss": 0.0294, + "step": 65460 + }, + { + "epoch": 0.418976, + "grad_norm": 0.06137462705373764, + "learning_rate": 1.7206826666666667e-05, + "loss": 0.0317, + "step": 65465 + }, + { + "epoch": 0.419008, + "grad_norm": 1.883277177810669, + "learning_rate": 1.7206613333333334e-05, + "loss": 0.0282, + "step": 65470 + }, + { + "epoch": 0.41904, + "grad_norm": 1.159532904624939, + "learning_rate": 1.7206400000000002e-05, + "loss": 0.022, + "step": 65475 + }, + { + "epoch": 0.419072, + "grad_norm": 0.2109748274087906, + "learning_rate": 1.720618666666667e-05, + "loss": 0.0114, + "step": 65480 + }, + { + "epoch": 0.419104, + "grad_norm": 0.7984708547592163, + "learning_rate": 1.7205973333333334e-05, + "loss": 0.0555, + "step": 65485 + }, + { + "epoch": 0.419136, + "grad_norm": 0.3581448197364807, + "learning_rate": 1.720576e-05, + "loss": 0.0161, + "step": 65490 + }, + { + "epoch": 0.419168, + "grad_norm": 0.8448145985603333, + "learning_rate": 1.720554666666667e-05, + "loss": 0.0259, + "step": 65495 + }, + { + "epoch": 0.4192, + "grad_norm": 0.4038563072681427, + "learning_rate": 1.7205333333333333e-05, + "loss": 0.0194, + "step": 65500 + }, + { + "epoch": 0.419232, + "grad_norm": 0.46876290440559387, + "learning_rate": 1.720512e-05, + "loss": 0.0293, + "step": 65505 + }, + { + "epoch": 0.419264, + "grad_norm": 1.8414770364761353, + "learning_rate": 1.7204906666666668e-05, + "loss": 0.0394, + "step": 65510 + }, + { + "epoch": 0.419296, + "grad_norm": 1.3179348707199097, + "learning_rate": 1.7204693333333335e-05, + "loss": 0.04, + "step": 65515 + }, + { + "epoch": 0.419328, + "grad_norm": 0.5968078374862671, + "learning_rate": 1.720448e-05, + "loss": 0.0433, + "step": 65520 + }, + { + "epoch": 0.41936, + "grad_norm": 0.6456630825996399, + "learning_rate": 1.720426666666667e-05, + "loss": 0.0524, + "step": 65525 + }, + { + "epoch": 0.419392, + "grad_norm": 0.3287161886692047, + "learning_rate": 1.7204053333333335e-05, + "loss": 0.027, + "step": 65530 + }, + { + "epoch": 0.419424, + "grad_norm": 1.0065782070159912, + "learning_rate": 1.720384e-05, + "loss": 0.0203, + "step": 65535 + }, + { + "epoch": 0.419456, + "grad_norm": 0.8131682276725769, + "learning_rate": 1.720362666666667e-05, + "loss": 0.0385, + "step": 65540 + }, + { + "epoch": 0.419488, + "grad_norm": 1.4567952156066895, + "learning_rate": 1.7203413333333334e-05, + "loss": 0.0366, + "step": 65545 + }, + { + "epoch": 0.41952, + "grad_norm": 0.32388490438461304, + "learning_rate": 1.72032e-05, + "loss": 0.0174, + "step": 65550 + }, + { + "epoch": 0.419552, + "grad_norm": 0.30660566687583923, + "learning_rate": 1.720298666666667e-05, + "loss": 0.0255, + "step": 65555 + }, + { + "epoch": 0.419584, + "grad_norm": 0.8132469654083252, + "learning_rate": 1.7202773333333337e-05, + "loss": 0.0328, + "step": 65560 + }, + { + "epoch": 0.419616, + "grad_norm": 0.9299182891845703, + "learning_rate": 1.720256e-05, + "loss": 0.0411, + "step": 65565 + }, + { + "epoch": 0.419648, + "grad_norm": 0.11665715277194977, + "learning_rate": 1.720234666666667e-05, + "loss": 0.0248, + "step": 65570 + }, + { + "epoch": 0.41968, + "grad_norm": 1.1087833642959595, + "learning_rate": 1.7202133333333336e-05, + "loss": 0.0265, + "step": 65575 + }, + { + "epoch": 0.419712, + "grad_norm": 0.8229554891586304, + "learning_rate": 1.720192e-05, + "loss": 0.0184, + "step": 65580 + }, + { + "epoch": 0.419744, + "grad_norm": 1.48642897605896, + "learning_rate": 1.7201706666666668e-05, + "loss": 0.017, + "step": 65585 + }, + { + "epoch": 0.419776, + "grad_norm": 0.3137611150741577, + "learning_rate": 1.7201493333333335e-05, + "loss": 0.0258, + "step": 65590 + }, + { + "epoch": 0.419808, + "grad_norm": 0.8780419230461121, + "learning_rate": 1.7201280000000003e-05, + "loss": 0.0209, + "step": 65595 + }, + { + "epoch": 0.41984, + "grad_norm": 0.6431789398193359, + "learning_rate": 1.7201066666666667e-05, + "loss": 0.0264, + "step": 65600 + }, + { + "epoch": 0.419872, + "grad_norm": 1.7624132633209229, + "learning_rate": 1.7200853333333335e-05, + "loss": 0.024, + "step": 65605 + }, + { + "epoch": 0.419904, + "grad_norm": 0.18884272873401642, + "learning_rate": 1.7200640000000002e-05, + "loss": 0.0258, + "step": 65610 + }, + { + "epoch": 0.419936, + "grad_norm": 1.252579927444458, + "learning_rate": 1.7200426666666666e-05, + "loss": 0.0364, + "step": 65615 + }, + { + "epoch": 0.419968, + "grad_norm": 0.5088076591491699, + "learning_rate": 1.7200213333333334e-05, + "loss": 0.0278, + "step": 65620 + }, + { + "epoch": 0.42, + "grad_norm": 0.24977247416973114, + "learning_rate": 1.72e-05, + "loss": 0.0379, + "step": 65625 + }, + { + "epoch": 0.420032, + "grad_norm": 0.22453074157238007, + "learning_rate": 1.719978666666667e-05, + "loss": 0.0199, + "step": 65630 + }, + { + "epoch": 0.420064, + "grad_norm": 0.4128836989402771, + "learning_rate": 1.7199573333333336e-05, + "loss": 0.0309, + "step": 65635 + }, + { + "epoch": 0.420096, + "grad_norm": 0.24633881449699402, + "learning_rate": 1.719936e-05, + "loss": 0.022, + "step": 65640 + }, + { + "epoch": 0.420128, + "grad_norm": 1.2792949676513672, + "learning_rate": 1.7199146666666668e-05, + "loss": 0.0433, + "step": 65645 + }, + { + "epoch": 0.42016, + "grad_norm": 0.6539369821548462, + "learning_rate": 1.7198933333333336e-05, + "loss": 0.0336, + "step": 65650 + }, + { + "epoch": 0.420192, + "grad_norm": 1.594159722328186, + "learning_rate": 1.7198720000000003e-05, + "loss": 0.0362, + "step": 65655 + }, + { + "epoch": 0.420224, + "grad_norm": 2.4173853397369385, + "learning_rate": 1.7198506666666667e-05, + "loss": 0.0432, + "step": 65660 + }, + { + "epoch": 0.420256, + "grad_norm": 0.9762369990348816, + "learning_rate": 1.7198293333333335e-05, + "loss": 0.0311, + "step": 65665 + }, + { + "epoch": 0.420288, + "grad_norm": 0.6856409311294556, + "learning_rate": 1.7198080000000003e-05, + "loss": 0.0328, + "step": 65670 + }, + { + "epoch": 0.42032, + "grad_norm": 0.6738903522491455, + "learning_rate": 1.7197866666666667e-05, + "loss": 0.0371, + "step": 65675 + }, + { + "epoch": 0.420352, + "grad_norm": 0.8158256411552429, + "learning_rate": 1.7197653333333334e-05, + "loss": 0.0183, + "step": 65680 + }, + { + "epoch": 0.420384, + "grad_norm": 0.5389023423194885, + "learning_rate": 1.7197440000000002e-05, + "loss": 0.0461, + "step": 65685 + }, + { + "epoch": 0.420416, + "grad_norm": 1.0370820760726929, + "learning_rate": 1.719722666666667e-05, + "loss": 0.0303, + "step": 65690 + }, + { + "epoch": 0.420448, + "grad_norm": 0.4501608908176422, + "learning_rate": 1.7197013333333334e-05, + "loss": 0.0363, + "step": 65695 + }, + { + "epoch": 0.42048, + "grad_norm": 0.34665870666503906, + "learning_rate": 1.71968e-05, + "loss": 0.0439, + "step": 65700 + }, + { + "epoch": 0.420512, + "grad_norm": 0.9705027341842651, + "learning_rate": 1.719658666666667e-05, + "loss": 0.0666, + "step": 65705 + }, + { + "epoch": 0.420544, + "grad_norm": 0.4860665798187256, + "learning_rate": 1.7196373333333333e-05, + "loss": 0.0275, + "step": 65710 + }, + { + "epoch": 0.420576, + "grad_norm": 0.3005749583244324, + "learning_rate": 1.719616e-05, + "loss": 0.0182, + "step": 65715 + }, + { + "epoch": 0.420608, + "grad_norm": 1.1255923509597778, + "learning_rate": 1.7195946666666668e-05, + "loss": 0.0243, + "step": 65720 + }, + { + "epoch": 0.42064, + "grad_norm": 0.2396763563156128, + "learning_rate": 1.7195733333333335e-05, + "loss": 0.0095, + "step": 65725 + }, + { + "epoch": 0.420672, + "grad_norm": 0.2532275915145874, + "learning_rate": 1.719552e-05, + "loss": 0.0162, + "step": 65730 + }, + { + "epoch": 0.420704, + "grad_norm": 0.41913267970085144, + "learning_rate": 1.719530666666667e-05, + "loss": 0.018, + "step": 65735 + }, + { + "epoch": 0.420736, + "grad_norm": 0.7977362275123596, + "learning_rate": 1.7195093333333335e-05, + "loss": 0.0285, + "step": 65740 + }, + { + "epoch": 0.420768, + "grad_norm": 0.310316264629364, + "learning_rate": 1.719488e-05, + "loss": 0.0203, + "step": 65745 + }, + { + "epoch": 0.4208, + "grad_norm": 3.4532382488250732, + "learning_rate": 1.719466666666667e-05, + "loss": 0.0615, + "step": 65750 + }, + { + "epoch": 0.420832, + "grad_norm": 1.217456340789795, + "learning_rate": 1.7194453333333334e-05, + "loss": 0.0488, + "step": 65755 + }, + { + "epoch": 0.420864, + "grad_norm": 0.5517919659614563, + "learning_rate": 1.719424e-05, + "loss": 0.0146, + "step": 65760 + }, + { + "epoch": 0.420896, + "grad_norm": 0.5140283703804016, + "learning_rate": 1.719402666666667e-05, + "loss": 0.0259, + "step": 65765 + }, + { + "epoch": 0.420928, + "grad_norm": 0.6865703463554382, + "learning_rate": 1.7193813333333337e-05, + "loss": 0.0182, + "step": 65770 + }, + { + "epoch": 0.42096, + "grad_norm": 0.5830351114273071, + "learning_rate": 1.71936e-05, + "loss": 0.023, + "step": 65775 + }, + { + "epoch": 0.420992, + "grad_norm": 0.31014135479927063, + "learning_rate": 1.719338666666667e-05, + "loss": 0.0294, + "step": 65780 + }, + { + "epoch": 0.421024, + "grad_norm": 0.41511446237564087, + "learning_rate": 1.7193173333333336e-05, + "loss": 0.0268, + "step": 65785 + }, + { + "epoch": 0.421056, + "grad_norm": 0.33036598563194275, + "learning_rate": 1.719296e-05, + "loss": 0.0202, + "step": 65790 + }, + { + "epoch": 0.421088, + "grad_norm": 0.5004004240036011, + "learning_rate": 1.7192746666666668e-05, + "loss": 0.0307, + "step": 65795 + }, + { + "epoch": 0.42112, + "grad_norm": 0.7194727063179016, + "learning_rate": 1.7192533333333335e-05, + "loss": 0.0367, + "step": 65800 + }, + { + "epoch": 0.421152, + "grad_norm": 0.4012947380542755, + "learning_rate": 1.7192320000000003e-05, + "loss": 0.0378, + "step": 65805 + }, + { + "epoch": 0.421184, + "grad_norm": 0.5563327670097351, + "learning_rate": 1.7192106666666667e-05, + "loss": 0.0177, + "step": 65810 + }, + { + "epoch": 0.421216, + "grad_norm": 0.9515924453735352, + "learning_rate": 1.7191893333333335e-05, + "loss": 0.0277, + "step": 65815 + }, + { + "epoch": 0.421248, + "grad_norm": 0.7515314221382141, + "learning_rate": 1.7191680000000002e-05, + "loss": 0.0284, + "step": 65820 + }, + { + "epoch": 0.42128, + "grad_norm": 0.23671309649944305, + "learning_rate": 1.7191466666666666e-05, + "loss": 0.0391, + "step": 65825 + }, + { + "epoch": 0.421312, + "grad_norm": 0.2458534985780716, + "learning_rate": 1.7191253333333334e-05, + "loss": 0.0328, + "step": 65830 + }, + { + "epoch": 0.421344, + "grad_norm": 0.7610100507736206, + "learning_rate": 1.719104e-05, + "loss": 0.0286, + "step": 65835 + }, + { + "epoch": 0.421376, + "grad_norm": 1.4259065389633179, + "learning_rate": 1.719082666666667e-05, + "loss": 0.0258, + "step": 65840 + }, + { + "epoch": 0.421408, + "grad_norm": 0.700255811214447, + "learning_rate": 1.7190613333333333e-05, + "loss": 0.0203, + "step": 65845 + }, + { + "epoch": 0.42144, + "grad_norm": 0.2532803416252136, + "learning_rate": 1.71904e-05, + "loss": 0.0203, + "step": 65850 + }, + { + "epoch": 0.421472, + "grad_norm": 0.365621954202652, + "learning_rate": 1.7190186666666668e-05, + "loss": 0.0167, + "step": 65855 + }, + { + "epoch": 0.421504, + "grad_norm": 1.3108762502670288, + "learning_rate": 1.7189973333333336e-05, + "loss": 0.021, + "step": 65860 + }, + { + "epoch": 0.421536, + "grad_norm": 0.661553144454956, + "learning_rate": 1.7189760000000003e-05, + "loss": 0.0302, + "step": 65865 + }, + { + "epoch": 0.421568, + "grad_norm": 3.0425405502319336, + "learning_rate": 1.7189546666666667e-05, + "loss": 0.0215, + "step": 65870 + }, + { + "epoch": 0.4216, + "grad_norm": 0.2142009735107422, + "learning_rate": 1.7189333333333335e-05, + "loss": 0.0197, + "step": 65875 + }, + { + "epoch": 0.421632, + "grad_norm": 0.6361172199249268, + "learning_rate": 1.7189120000000003e-05, + "loss": 0.0288, + "step": 65880 + }, + { + "epoch": 0.421664, + "grad_norm": 2.3098549842834473, + "learning_rate": 1.7188906666666667e-05, + "loss": 0.0297, + "step": 65885 + }, + { + "epoch": 0.421696, + "grad_norm": 1.2333924770355225, + "learning_rate": 1.7188693333333334e-05, + "loss": 0.024, + "step": 65890 + }, + { + "epoch": 0.421728, + "grad_norm": 2.1995348930358887, + "learning_rate": 1.7188480000000002e-05, + "loss": 0.0468, + "step": 65895 + }, + { + "epoch": 0.42176, + "grad_norm": 1.8017346858978271, + "learning_rate": 1.718826666666667e-05, + "loss": 0.0384, + "step": 65900 + }, + { + "epoch": 0.421792, + "grad_norm": 0.6092460751533508, + "learning_rate": 1.7188053333333334e-05, + "loss": 0.0208, + "step": 65905 + }, + { + "epoch": 0.421824, + "grad_norm": 0.6249793171882629, + "learning_rate": 1.718784e-05, + "loss": 0.0276, + "step": 65910 + }, + { + "epoch": 0.421856, + "grad_norm": 0.5997452735900879, + "learning_rate": 1.718762666666667e-05, + "loss": 0.0528, + "step": 65915 + }, + { + "epoch": 0.421888, + "grad_norm": 1.1019796133041382, + "learning_rate": 1.7187413333333333e-05, + "loss": 0.0307, + "step": 65920 + }, + { + "epoch": 0.42192, + "grad_norm": 1.1707713603973389, + "learning_rate": 1.71872e-05, + "loss": 0.0323, + "step": 65925 + }, + { + "epoch": 0.421952, + "grad_norm": 0.36149123311042786, + "learning_rate": 1.7186986666666668e-05, + "loss": 0.019, + "step": 65930 + }, + { + "epoch": 0.421984, + "grad_norm": 0.8341163992881775, + "learning_rate": 1.7186773333333335e-05, + "loss": 0.0276, + "step": 65935 + }, + { + "epoch": 0.422016, + "grad_norm": 0.4765568673610687, + "learning_rate": 1.718656e-05, + "loss": 0.0416, + "step": 65940 + }, + { + "epoch": 0.422048, + "grad_norm": 0.4533190429210663, + "learning_rate": 1.718634666666667e-05, + "loss": 0.0202, + "step": 65945 + }, + { + "epoch": 0.42208, + "grad_norm": 0.5438539981842041, + "learning_rate": 1.7186133333333335e-05, + "loss": 0.0342, + "step": 65950 + }, + { + "epoch": 0.422112, + "grad_norm": 0.5246208310127258, + "learning_rate": 1.718592e-05, + "loss": 0.0458, + "step": 65955 + }, + { + "epoch": 0.422144, + "grad_norm": 2.377790689468384, + "learning_rate": 1.718570666666667e-05, + "loss": 0.0291, + "step": 65960 + }, + { + "epoch": 0.422176, + "grad_norm": 0.1814921647310257, + "learning_rate": 1.7185493333333334e-05, + "loss": 0.0255, + "step": 65965 + }, + { + "epoch": 0.422208, + "grad_norm": 0.2167952060699463, + "learning_rate": 1.718528e-05, + "loss": 0.0098, + "step": 65970 + }, + { + "epoch": 0.42224, + "grad_norm": 0.870356559753418, + "learning_rate": 1.718506666666667e-05, + "loss": 0.0358, + "step": 65975 + }, + { + "epoch": 0.422272, + "grad_norm": 0.5041546821594238, + "learning_rate": 1.7184853333333337e-05, + "loss": 0.0294, + "step": 65980 + }, + { + "epoch": 0.422304, + "grad_norm": 0.8679448962211609, + "learning_rate": 1.718464e-05, + "loss": 0.0211, + "step": 65985 + }, + { + "epoch": 0.422336, + "grad_norm": 0.6658949851989746, + "learning_rate": 1.718442666666667e-05, + "loss": 0.0308, + "step": 65990 + }, + { + "epoch": 0.422368, + "grad_norm": 0.4070116877555847, + "learning_rate": 1.7184213333333336e-05, + "loss": 0.0254, + "step": 65995 + }, + { + "epoch": 0.4224, + "grad_norm": 0.8859397768974304, + "learning_rate": 1.7184e-05, + "loss": 0.0327, + "step": 66000 + }, + { + "epoch": 0.422432, + "grad_norm": 0.28851625323295593, + "learning_rate": 1.7183786666666668e-05, + "loss": 0.019, + "step": 66005 + }, + { + "epoch": 0.422464, + "grad_norm": 0.6366350054740906, + "learning_rate": 1.7183573333333335e-05, + "loss": 0.0211, + "step": 66010 + }, + { + "epoch": 0.422496, + "grad_norm": 0.7294811010360718, + "learning_rate": 1.7183360000000003e-05, + "loss": 0.0255, + "step": 66015 + }, + { + "epoch": 0.422528, + "grad_norm": 0.5017172694206238, + "learning_rate": 1.7183146666666667e-05, + "loss": 0.0196, + "step": 66020 + }, + { + "epoch": 0.42256, + "grad_norm": 1.2386012077331543, + "learning_rate": 1.7182933333333335e-05, + "loss": 0.0389, + "step": 66025 + }, + { + "epoch": 0.422592, + "grad_norm": 1.0078659057617188, + "learning_rate": 1.7182720000000002e-05, + "loss": 0.0147, + "step": 66030 + }, + { + "epoch": 0.422624, + "grad_norm": 0.34551358222961426, + "learning_rate": 1.7182506666666666e-05, + "loss": 0.0258, + "step": 66035 + }, + { + "epoch": 0.422656, + "grad_norm": 1.1153078079223633, + "learning_rate": 1.7182293333333334e-05, + "loss": 0.0232, + "step": 66040 + }, + { + "epoch": 0.422688, + "grad_norm": 0.2501598596572876, + "learning_rate": 1.718208e-05, + "loss": 0.023, + "step": 66045 + }, + { + "epoch": 0.42272, + "grad_norm": 0.6964379549026489, + "learning_rate": 1.718186666666667e-05, + "loss": 0.0179, + "step": 66050 + }, + { + "epoch": 0.422752, + "grad_norm": 0.161891907453537, + "learning_rate": 1.7181653333333333e-05, + "loss": 0.0218, + "step": 66055 + }, + { + "epoch": 0.422784, + "grad_norm": 1.2384607791900635, + "learning_rate": 1.718144e-05, + "loss": 0.0349, + "step": 66060 + }, + { + "epoch": 0.422816, + "grad_norm": 0.7088039517402649, + "learning_rate": 1.7181226666666668e-05, + "loss": 0.0274, + "step": 66065 + }, + { + "epoch": 0.422848, + "grad_norm": 0.5749247074127197, + "learning_rate": 1.7181013333333332e-05, + "loss": 0.0241, + "step": 66070 + }, + { + "epoch": 0.42288, + "grad_norm": 1.3660238981246948, + "learning_rate": 1.7180800000000003e-05, + "loss": 0.0211, + "step": 66075 + }, + { + "epoch": 0.422912, + "grad_norm": 2.134324550628662, + "learning_rate": 1.7180586666666667e-05, + "loss": 0.0428, + "step": 66080 + }, + { + "epoch": 0.422944, + "grad_norm": 0.20691098272800446, + "learning_rate": 1.7180373333333335e-05, + "loss": 0.0186, + "step": 66085 + }, + { + "epoch": 0.422976, + "grad_norm": 0.271575003862381, + "learning_rate": 1.7180160000000003e-05, + "loss": 0.0094, + "step": 66090 + }, + { + "epoch": 0.423008, + "grad_norm": 0.601924479007721, + "learning_rate": 1.7179946666666667e-05, + "loss": 0.0189, + "step": 66095 + }, + { + "epoch": 0.42304, + "grad_norm": 0.6684669256210327, + "learning_rate": 1.7179733333333334e-05, + "loss": 0.0287, + "step": 66100 + }, + { + "epoch": 0.423072, + "grad_norm": 0.7047122120857239, + "learning_rate": 1.7179520000000002e-05, + "loss": 0.0586, + "step": 66105 + }, + { + "epoch": 0.423104, + "grad_norm": 1.1097358465194702, + "learning_rate": 1.717930666666667e-05, + "loss": 0.0426, + "step": 66110 + }, + { + "epoch": 0.423136, + "grad_norm": 0.08629292994737625, + "learning_rate": 1.7179093333333334e-05, + "loss": 0.0191, + "step": 66115 + }, + { + "epoch": 0.423168, + "grad_norm": 0.362697571516037, + "learning_rate": 1.717888e-05, + "loss": 0.0235, + "step": 66120 + }, + { + "epoch": 0.4232, + "grad_norm": 0.5355867147445679, + "learning_rate": 1.717866666666667e-05, + "loss": 0.028, + "step": 66125 + }, + { + "epoch": 0.423232, + "grad_norm": 0.3960142731666565, + "learning_rate": 1.7178453333333333e-05, + "loss": 0.0314, + "step": 66130 + }, + { + "epoch": 0.423264, + "grad_norm": 1.0220743417739868, + "learning_rate": 1.717824e-05, + "loss": 0.0319, + "step": 66135 + }, + { + "epoch": 0.423296, + "grad_norm": 0.5478717684745789, + "learning_rate": 1.7178026666666668e-05, + "loss": 0.0202, + "step": 66140 + }, + { + "epoch": 0.423328, + "grad_norm": 0.5754521489143372, + "learning_rate": 1.7177813333333335e-05, + "loss": 0.0243, + "step": 66145 + }, + { + "epoch": 0.42336, + "grad_norm": 0.33906036615371704, + "learning_rate": 1.71776e-05, + "loss": 0.0246, + "step": 66150 + }, + { + "epoch": 0.423392, + "grad_norm": 0.3331352472305298, + "learning_rate": 1.7177386666666667e-05, + "loss": 0.0143, + "step": 66155 + }, + { + "epoch": 0.423424, + "grad_norm": 0.44510284066200256, + "learning_rate": 1.7177173333333335e-05, + "loss": 0.0363, + "step": 66160 + }, + { + "epoch": 0.423456, + "grad_norm": 0.25679120421409607, + "learning_rate": 1.717696e-05, + "loss": 0.0185, + "step": 66165 + }, + { + "epoch": 0.423488, + "grad_norm": 1.1226011514663696, + "learning_rate": 1.717674666666667e-05, + "loss": 0.0269, + "step": 66170 + }, + { + "epoch": 0.42352, + "grad_norm": 2.415830135345459, + "learning_rate": 1.7176533333333334e-05, + "loss": 0.0397, + "step": 66175 + }, + { + "epoch": 0.423552, + "grad_norm": 1.4354054927825928, + "learning_rate": 1.717632e-05, + "loss": 0.0397, + "step": 66180 + }, + { + "epoch": 0.423584, + "grad_norm": 0.9642454981803894, + "learning_rate": 1.717610666666667e-05, + "loss": 0.0303, + "step": 66185 + }, + { + "epoch": 0.423616, + "grad_norm": 0.7500234246253967, + "learning_rate": 1.7175893333333337e-05, + "loss": 0.0517, + "step": 66190 + }, + { + "epoch": 0.423648, + "grad_norm": 0.18887953460216522, + "learning_rate": 1.717568e-05, + "loss": 0.0199, + "step": 66195 + }, + { + "epoch": 0.42368, + "grad_norm": 0.4036392867565155, + "learning_rate": 1.717546666666667e-05, + "loss": 0.0275, + "step": 66200 + }, + { + "epoch": 0.423712, + "grad_norm": 0.7556102871894836, + "learning_rate": 1.7175253333333336e-05, + "loss": 0.0518, + "step": 66205 + }, + { + "epoch": 0.423744, + "grad_norm": 0.10365457832813263, + "learning_rate": 1.717504e-05, + "loss": 0.0384, + "step": 66210 + }, + { + "epoch": 0.423776, + "grad_norm": 1.3333773612976074, + "learning_rate": 1.7174826666666668e-05, + "loss": 0.0224, + "step": 66215 + }, + { + "epoch": 0.423808, + "grad_norm": 0.5742636919021606, + "learning_rate": 1.7174613333333335e-05, + "loss": 0.0543, + "step": 66220 + }, + { + "epoch": 0.42384, + "grad_norm": 2.8135554790496826, + "learning_rate": 1.7174400000000003e-05, + "loss": 0.063, + "step": 66225 + }, + { + "epoch": 0.423872, + "grad_norm": 0.5292820334434509, + "learning_rate": 1.7174186666666667e-05, + "loss": 0.0263, + "step": 66230 + }, + { + "epoch": 0.423904, + "grad_norm": 0.33816802501678467, + "learning_rate": 1.7173973333333335e-05, + "loss": 0.0266, + "step": 66235 + }, + { + "epoch": 0.423936, + "grad_norm": 0.2632187306880951, + "learning_rate": 1.7173760000000002e-05, + "loss": 0.0266, + "step": 66240 + }, + { + "epoch": 0.423968, + "grad_norm": 0.6715129613876343, + "learning_rate": 1.7173546666666666e-05, + "loss": 0.0191, + "step": 66245 + }, + { + "epoch": 0.424, + "grad_norm": 0.5315475463867188, + "learning_rate": 1.7173333333333334e-05, + "loss": 0.0243, + "step": 66250 + }, + { + "epoch": 0.424032, + "grad_norm": 0.2846807539463043, + "learning_rate": 1.717312e-05, + "loss": 0.0258, + "step": 66255 + }, + { + "epoch": 0.424064, + "grad_norm": 1.531471848487854, + "learning_rate": 1.717290666666667e-05, + "loss": 0.028, + "step": 66260 + }, + { + "epoch": 0.424096, + "grad_norm": 0.12383081018924713, + "learning_rate": 1.7172693333333333e-05, + "loss": 0.0079, + "step": 66265 + }, + { + "epoch": 0.424128, + "grad_norm": 0.3959117531776428, + "learning_rate": 1.7172480000000004e-05, + "loss": 0.0309, + "step": 66270 + }, + { + "epoch": 0.42416, + "grad_norm": 0.2548485994338989, + "learning_rate": 1.7172266666666668e-05, + "loss": 0.0145, + "step": 66275 + }, + { + "epoch": 0.424192, + "grad_norm": 0.48924484848976135, + "learning_rate": 1.7172053333333332e-05, + "loss": 0.0426, + "step": 66280 + }, + { + "epoch": 0.424224, + "grad_norm": 1.259934425354004, + "learning_rate": 1.7171840000000003e-05, + "loss": 0.0319, + "step": 66285 + }, + { + "epoch": 0.424256, + "grad_norm": 0.3914276659488678, + "learning_rate": 1.7171626666666667e-05, + "loss": 0.0332, + "step": 66290 + }, + { + "epoch": 0.424288, + "grad_norm": 0.6436432600021362, + "learning_rate": 1.7171413333333335e-05, + "loss": 0.0416, + "step": 66295 + }, + { + "epoch": 0.42432, + "grad_norm": 0.2866269052028656, + "learning_rate": 1.7171200000000003e-05, + "loss": 0.0136, + "step": 66300 + }, + { + "epoch": 0.424352, + "grad_norm": 0.8150790929794312, + "learning_rate": 1.717098666666667e-05, + "loss": 0.0321, + "step": 66305 + }, + { + "epoch": 0.424384, + "grad_norm": 1.3672367334365845, + "learning_rate": 1.7170773333333334e-05, + "loss": 0.0294, + "step": 66310 + }, + { + "epoch": 0.424416, + "grad_norm": 0.9759911298751831, + "learning_rate": 1.7170560000000002e-05, + "loss": 0.0425, + "step": 66315 + }, + { + "epoch": 0.424448, + "grad_norm": 1.092836618423462, + "learning_rate": 1.717034666666667e-05, + "loss": 0.0464, + "step": 66320 + }, + { + "epoch": 0.42448, + "grad_norm": 2.642282724380493, + "learning_rate": 1.7170133333333334e-05, + "loss": 0.0489, + "step": 66325 + }, + { + "epoch": 0.424512, + "grad_norm": 2.56933856010437, + "learning_rate": 1.716992e-05, + "loss": 0.0497, + "step": 66330 + }, + { + "epoch": 0.424544, + "grad_norm": 0.4746701419353485, + "learning_rate": 1.716970666666667e-05, + "loss": 0.0417, + "step": 66335 + }, + { + "epoch": 0.424576, + "grad_norm": 0.5099829435348511, + "learning_rate": 1.7169493333333336e-05, + "loss": 0.0233, + "step": 66340 + }, + { + "epoch": 0.424608, + "grad_norm": 0.6488590240478516, + "learning_rate": 1.716928e-05, + "loss": 0.0305, + "step": 66345 + }, + { + "epoch": 0.42464, + "grad_norm": 0.5835505723953247, + "learning_rate": 1.7169066666666668e-05, + "loss": 0.0316, + "step": 66350 + }, + { + "epoch": 0.424672, + "grad_norm": 0.6225371360778809, + "learning_rate": 1.7168853333333335e-05, + "loss": 0.044, + "step": 66355 + }, + { + "epoch": 0.424704, + "grad_norm": 0.8407222628593445, + "learning_rate": 1.716864e-05, + "loss": 0.0308, + "step": 66360 + }, + { + "epoch": 0.424736, + "grad_norm": 0.9186490774154663, + "learning_rate": 1.7168426666666667e-05, + "loss": 0.0195, + "step": 66365 + }, + { + "epoch": 0.424768, + "grad_norm": 1.5044097900390625, + "learning_rate": 1.7168213333333335e-05, + "loss": 0.0221, + "step": 66370 + }, + { + "epoch": 0.4248, + "grad_norm": 1.4611150026321411, + "learning_rate": 1.7168000000000002e-05, + "loss": 0.02, + "step": 66375 + }, + { + "epoch": 0.424832, + "grad_norm": 0.846778154373169, + "learning_rate": 1.7167786666666666e-05, + "loss": 0.0326, + "step": 66380 + }, + { + "epoch": 0.424864, + "grad_norm": 0.7269659042358398, + "learning_rate": 1.7167573333333334e-05, + "loss": 0.036, + "step": 66385 + }, + { + "epoch": 0.424896, + "grad_norm": 0.6362448334693909, + "learning_rate": 1.716736e-05, + "loss": 0.0171, + "step": 66390 + }, + { + "epoch": 0.424928, + "grad_norm": 0.5168216228485107, + "learning_rate": 1.716714666666667e-05, + "loss": 0.0252, + "step": 66395 + }, + { + "epoch": 0.42496, + "grad_norm": 0.2793481945991516, + "learning_rate": 1.7166933333333337e-05, + "loss": 0.0256, + "step": 66400 + }, + { + "epoch": 0.424992, + "grad_norm": 0.4463241696357727, + "learning_rate": 1.716672e-05, + "loss": 0.021, + "step": 66405 + }, + { + "epoch": 0.425024, + "grad_norm": 0.3916773796081543, + "learning_rate": 1.716650666666667e-05, + "loss": 0.0137, + "step": 66410 + }, + { + "epoch": 0.425056, + "grad_norm": 0.4827883541584015, + "learning_rate": 1.7166293333333336e-05, + "loss": 0.022, + "step": 66415 + }, + { + "epoch": 0.425088, + "grad_norm": 0.3186723291873932, + "learning_rate": 1.716608e-05, + "loss": 0.0287, + "step": 66420 + }, + { + "epoch": 0.42512, + "grad_norm": 1.2269127368927002, + "learning_rate": 1.7165866666666668e-05, + "loss": 0.0541, + "step": 66425 + }, + { + "epoch": 0.425152, + "grad_norm": 1.5603446960449219, + "learning_rate": 1.7165653333333335e-05, + "loss": 0.0231, + "step": 66430 + }, + { + "epoch": 0.425184, + "grad_norm": 0.6258090138435364, + "learning_rate": 1.7165440000000003e-05, + "loss": 0.0304, + "step": 66435 + }, + { + "epoch": 0.425216, + "grad_norm": 0.9621711373329163, + "learning_rate": 1.7165226666666667e-05, + "loss": 0.0394, + "step": 66440 + }, + { + "epoch": 0.425248, + "grad_norm": 1.4486018419265747, + "learning_rate": 1.7165013333333335e-05, + "loss": 0.0308, + "step": 66445 + }, + { + "epoch": 0.42528, + "grad_norm": 1.2523282766342163, + "learning_rate": 1.7164800000000002e-05, + "loss": 0.0281, + "step": 66450 + }, + { + "epoch": 0.425312, + "grad_norm": 0.3256096839904785, + "learning_rate": 1.7164586666666666e-05, + "loss": 0.0152, + "step": 66455 + }, + { + "epoch": 0.425344, + "grad_norm": 0.423827201128006, + "learning_rate": 1.7164373333333334e-05, + "loss": 0.0164, + "step": 66460 + }, + { + "epoch": 0.425376, + "grad_norm": 0.5837101936340332, + "learning_rate": 1.716416e-05, + "loss": 0.0303, + "step": 66465 + }, + { + "epoch": 0.425408, + "grad_norm": 0.6899728178977966, + "learning_rate": 1.716394666666667e-05, + "loss": 0.0441, + "step": 66470 + }, + { + "epoch": 0.42544, + "grad_norm": 0.3014693558216095, + "learning_rate": 1.7163733333333333e-05, + "loss": 0.0291, + "step": 66475 + }, + { + "epoch": 0.425472, + "grad_norm": 2.6962621212005615, + "learning_rate": 1.7163520000000004e-05, + "loss": 0.0482, + "step": 66480 + }, + { + "epoch": 0.425504, + "grad_norm": 0.48377546668052673, + "learning_rate": 1.7163306666666668e-05, + "loss": 0.0254, + "step": 66485 + }, + { + "epoch": 0.425536, + "grad_norm": 0.9277452826499939, + "learning_rate": 1.7163093333333332e-05, + "loss": 0.0235, + "step": 66490 + }, + { + "epoch": 0.425568, + "grad_norm": 0.7326849102973938, + "learning_rate": 1.7162880000000003e-05, + "loss": 0.025, + "step": 66495 + }, + { + "epoch": 0.4256, + "grad_norm": 0.3573538064956665, + "learning_rate": 1.7162666666666667e-05, + "loss": 0.0236, + "step": 66500 + }, + { + "epoch": 0.425632, + "grad_norm": 0.4950590133666992, + "learning_rate": 1.7162453333333335e-05, + "loss": 0.014, + "step": 66505 + }, + { + "epoch": 0.425664, + "grad_norm": 0.602468729019165, + "learning_rate": 1.7162240000000003e-05, + "loss": 0.0253, + "step": 66510 + }, + { + "epoch": 0.425696, + "grad_norm": 0.4781314730644226, + "learning_rate": 1.716202666666667e-05, + "loss": 0.0211, + "step": 66515 + }, + { + "epoch": 0.425728, + "grad_norm": 0.5202021598815918, + "learning_rate": 1.7161813333333334e-05, + "loss": 0.0341, + "step": 66520 + }, + { + "epoch": 0.42576, + "grad_norm": 0.2642233967781067, + "learning_rate": 1.7161600000000002e-05, + "loss": 0.0195, + "step": 66525 + }, + { + "epoch": 0.425792, + "grad_norm": 5.171529769897461, + "learning_rate": 1.716138666666667e-05, + "loss": 0.024, + "step": 66530 + }, + { + "epoch": 0.425824, + "grad_norm": 0.8027357459068298, + "learning_rate": 1.7161173333333334e-05, + "loss": 0.0352, + "step": 66535 + }, + { + "epoch": 0.425856, + "grad_norm": 1.2591580152511597, + "learning_rate": 1.716096e-05, + "loss": 0.0498, + "step": 66540 + }, + { + "epoch": 0.425888, + "grad_norm": 0.8133341073989868, + "learning_rate": 1.716074666666667e-05, + "loss": 0.0347, + "step": 66545 + }, + { + "epoch": 0.42592, + "grad_norm": 1.0900911092758179, + "learning_rate": 1.7160533333333336e-05, + "loss": 0.0401, + "step": 66550 + }, + { + "epoch": 0.425952, + "grad_norm": 2.5302538871765137, + "learning_rate": 1.716032e-05, + "loss": 0.0337, + "step": 66555 + }, + { + "epoch": 0.425984, + "grad_norm": 3.345567464828491, + "learning_rate": 1.7160106666666668e-05, + "loss": 0.0389, + "step": 66560 + }, + { + "epoch": 0.426016, + "grad_norm": 0.5832989811897278, + "learning_rate": 1.7159893333333335e-05, + "loss": 0.0193, + "step": 66565 + }, + { + "epoch": 0.426048, + "grad_norm": 0.37443581223487854, + "learning_rate": 1.715968e-05, + "loss": 0.0237, + "step": 66570 + }, + { + "epoch": 0.42608, + "grad_norm": 1.1865885257720947, + "learning_rate": 1.7159466666666667e-05, + "loss": 0.0313, + "step": 66575 + }, + { + "epoch": 0.426112, + "grad_norm": 0.42678916454315186, + "learning_rate": 1.7159253333333335e-05, + "loss": 0.0202, + "step": 66580 + }, + { + "epoch": 0.426144, + "grad_norm": 0.9620969891548157, + "learning_rate": 1.7159040000000002e-05, + "loss": 0.0312, + "step": 66585 + }, + { + "epoch": 0.426176, + "grad_norm": 0.34621042013168335, + "learning_rate": 1.7158826666666666e-05, + "loss": 0.0272, + "step": 66590 + }, + { + "epoch": 0.426208, + "grad_norm": 2.915093183517456, + "learning_rate": 1.7158613333333334e-05, + "loss": 0.0327, + "step": 66595 + }, + { + "epoch": 0.42624, + "grad_norm": 0.24048639833927155, + "learning_rate": 1.71584e-05, + "loss": 0.0296, + "step": 66600 + }, + { + "epoch": 0.426272, + "grad_norm": 1.495919108390808, + "learning_rate": 1.7158186666666666e-05, + "loss": 0.0238, + "step": 66605 + }, + { + "epoch": 0.426304, + "grad_norm": 1.0038504600524902, + "learning_rate": 1.7157973333333337e-05, + "loss": 0.0307, + "step": 66610 + }, + { + "epoch": 0.426336, + "grad_norm": 0.2417934238910675, + "learning_rate": 1.715776e-05, + "loss": 0.0384, + "step": 66615 + }, + { + "epoch": 0.426368, + "grad_norm": 0.21513506770133972, + "learning_rate": 1.715754666666667e-05, + "loss": 0.0267, + "step": 66620 + }, + { + "epoch": 0.4264, + "grad_norm": 0.4139012396335602, + "learning_rate": 1.7157333333333336e-05, + "loss": 0.0185, + "step": 66625 + }, + { + "epoch": 0.426432, + "grad_norm": 0.28745490312576294, + "learning_rate": 1.715712e-05, + "loss": 0.0306, + "step": 66630 + }, + { + "epoch": 0.426464, + "grad_norm": 0.8304489850997925, + "learning_rate": 1.7156906666666668e-05, + "loss": 0.0324, + "step": 66635 + }, + { + "epoch": 0.426496, + "grad_norm": 0.6589471101760864, + "learning_rate": 1.7156693333333335e-05, + "loss": 0.0158, + "step": 66640 + }, + { + "epoch": 0.426528, + "grad_norm": 0.9212188720703125, + "learning_rate": 1.7156480000000003e-05, + "loss": 0.0236, + "step": 66645 + }, + { + "epoch": 0.42656, + "grad_norm": 0.7249348163604736, + "learning_rate": 1.7156266666666667e-05, + "loss": 0.0269, + "step": 66650 + }, + { + "epoch": 0.426592, + "grad_norm": 0.7311059236526489, + "learning_rate": 1.7156053333333335e-05, + "loss": 0.0272, + "step": 66655 + }, + { + "epoch": 0.426624, + "grad_norm": 1.3158340454101562, + "learning_rate": 1.7155840000000002e-05, + "loss": 0.0396, + "step": 66660 + }, + { + "epoch": 0.426656, + "grad_norm": 0.28966695070266724, + "learning_rate": 1.7155626666666666e-05, + "loss": 0.0294, + "step": 66665 + }, + { + "epoch": 0.426688, + "grad_norm": 0.9412505030632019, + "learning_rate": 1.7155413333333334e-05, + "loss": 0.0387, + "step": 66670 + }, + { + "epoch": 0.42672, + "grad_norm": 0.7012927532196045, + "learning_rate": 1.71552e-05, + "loss": 0.0198, + "step": 66675 + }, + { + "epoch": 0.426752, + "grad_norm": 0.08708260953426361, + "learning_rate": 1.715498666666667e-05, + "loss": 0.0288, + "step": 66680 + }, + { + "epoch": 0.426784, + "grad_norm": 0.9410839080810547, + "learning_rate": 1.7154773333333333e-05, + "loss": 0.0177, + "step": 66685 + }, + { + "epoch": 0.426816, + "grad_norm": 1.7316783666610718, + "learning_rate": 1.715456e-05, + "loss": 0.0502, + "step": 66690 + }, + { + "epoch": 0.426848, + "grad_norm": 1.0323232412338257, + "learning_rate": 1.7154346666666668e-05, + "loss": 0.0278, + "step": 66695 + }, + { + "epoch": 0.42688, + "grad_norm": 1.4349958896636963, + "learning_rate": 1.7154133333333332e-05, + "loss": 0.0332, + "step": 66700 + }, + { + "epoch": 0.426912, + "grad_norm": 2.0880610942840576, + "learning_rate": 1.7153920000000003e-05, + "loss": 0.0664, + "step": 66705 + }, + { + "epoch": 0.426944, + "grad_norm": 0.40248343348503113, + "learning_rate": 1.7153706666666667e-05, + "loss": 0.0224, + "step": 66710 + }, + { + "epoch": 0.426976, + "grad_norm": 0.17027129232883453, + "learning_rate": 1.7153493333333335e-05, + "loss": 0.0215, + "step": 66715 + }, + { + "epoch": 0.427008, + "grad_norm": 0.49178817868232727, + "learning_rate": 1.7153280000000003e-05, + "loss": 0.0234, + "step": 66720 + }, + { + "epoch": 0.42704, + "grad_norm": 1.1272591352462769, + "learning_rate": 1.715306666666667e-05, + "loss": 0.0235, + "step": 66725 + }, + { + "epoch": 0.427072, + "grad_norm": 0.44538336992263794, + "learning_rate": 1.7152853333333334e-05, + "loss": 0.0159, + "step": 66730 + }, + { + "epoch": 0.427104, + "grad_norm": 0.6220221519470215, + "learning_rate": 1.7152640000000002e-05, + "loss": 0.0203, + "step": 66735 + }, + { + "epoch": 0.427136, + "grad_norm": 1.9646930694580078, + "learning_rate": 1.715242666666667e-05, + "loss": 0.0347, + "step": 66740 + }, + { + "epoch": 0.427168, + "grad_norm": 0.4411448538303375, + "learning_rate": 1.7152213333333334e-05, + "loss": 0.0204, + "step": 66745 + }, + { + "epoch": 0.4272, + "grad_norm": 0.3988477885723114, + "learning_rate": 1.7152e-05, + "loss": 0.0072, + "step": 66750 + }, + { + "epoch": 0.427232, + "grad_norm": 0.5548573136329651, + "learning_rate": 1.715178666666667e-05, + "loss": 0.0208, + "step": 66755 + }, + { + "epoch": 0.427264, + "grad_norm": 0.5681409239768982, + "learning_rate": 1.7151573333333336e-05, + "loss": 0.0366, + "step": 66760 + }, + { + "epoch": 0.427296, + "grad_norm": 0.5928682684898376, + "learning_rate": 1.715136e-05, + "loss": 0.0283, + "step": 66765 + }, + { + "epoch": 0.427328, + "grad_norm": 9.044085502624512, + "learning_rate": 1.7151146666666668e-05, + "loss": 0.0273, + "step": 66770 + }, + { + "epoch": 0.42736, + "grad_norm": 0.6771708726882935, + "learning_rate": 1.7150933333333336e-05, + "loss": 0.0177, + "step": 66775 + }, + { + "epoch": 0.427392, + "grad_norm": 0.38250064849853516, + "learning_rate": 1.715072e-05, + "loss": 0.0232, + "step": 66780 + }, + { + "epoch": 0.427424, + "grad_norm": 0.924550473690033, + "learning_rate": 1.7150506666666667e-05, + "loss": 0.0169, + "step": 66785 + }, + { + "epoch": 0.427456, + "grad_norm": 1.6695327758789062, + "learning_rate": 1.7150293333333335e-05, + "loss": 0.023, + "step": 66790 + }, + { + "epoch": 0.427488, + "grad_norm": 0.647156298160553, + "learning_rate": 1.7150080000000002e-05, + "loss": 0.0302, + "step": 66795 + }, + { + "epoch": 0.42752, + "grad_norm": 0.2689335346221924, + "learning_rate": 1.7149866666666666e-05, + "loss": 0.0194, + "step": 66800 + }, + { + "epoch": 0.427552, + "grad_norm": 0.6346310377120972, + "learning_rate": 1.7149653333333334e-05, + "loss": 0.0111, + "step": 66805 + }, + { + "epoch": 0.427584, + "grad_norm": 0.11681168526411057, + "learning_rate": 1.714944e-05, + "loss": 0.0146, + "step": 66810 + }, + { + "epoch": 0.427616, + "grad_norm": 0.6931024789810181, + "learning_rate": 1.7149226666666666e-05, + "loss": 0.0434, + "step": 66815 + }, + { + "epoch": 0.427648, + "grad_norm": 0.36419013142585754, + "learning_rate": 1.7149013333333337e-05, + "loss": 0.0132, + "step": 66820 + }, + { + "epoch": 0.42768, + "grad_norm": 1.1056333780288696, + "learning_rate": 1.71488e-05, + "loss": 0.0237, + "step": 66825 + }, + { + "epoch": 0.427712, + "grad_norm": 0.5671828985214233, + "learning_rate": 1.714858666666667e-05, + "loss": 0.0222, + "step": 66830 + }, + { + "epoch": 0.427744, + "grad_norm": 0.6350874304771423, + "learning_rate": 1.7148373333333336e-05, + "loss": 0.0225, + "step": 66835 + }, + { + "epoch": 0.427776, + "grad_norm": 0.4393492639064789, + "learning_rate": 1.714816e-05, + "loss": 0.0175, + "step": 66840 + }, + { + "epoch": 0.427808, + "grad_norm": 2.5035457611083984, + "learning_rate": 1.7147946666666668e-05, + "loss": 0.0362, + "step": 66845 + }, + { + "epoch": 0.42784, + "grad_norm": 0.7910874485969543, + "learning_rate": 1.7147733333333335e-05, + "loss": 0.0314, + "step": 66850 + }, + { + "epoch": 0.427872, + "grad_norm": 0.8162276744842529, + "learning_rate": 1.7147520000000003e-05, + "loss": 0.0345, + "step": 66855 + }, + { + "epoch": 0.427904, + "grad_norm": 1.0341753959655762, + "learning_rate": 1.7147306666666667e-05, + "loss": 0.0147, + "step": 66860 + }, + { + "epoch": 0.427936, + "grad_norm": 0.5165432691574097, + "learning_rate": 1.7147093333333335e-05, + "loss": 0.0321, + "step": 66865 + }, + { + "epoch": 0.427968, + "grad_norm": 0.605433464050293, + "learning_rate": 1.7146880000000002e-05, + "loss": 0.0227, + "step": 66870 + }, + { + "epoch": 0.428, + "grad_norm": 0.1516963094472885, + "learning_rate": 1.7146666666666666e-05, + "loss": 0.016, + "step": 66875 + }, + { + "epoch": 0.428032, + "grad_norm": 0.62562495470047, + "learning_rate": 1.7146453333333334e-05, + "loss": 0.0256, + "step": 66880 + }, + { + "epoch": 0.428064, + "grad_norm": 0.792911946773529, + "learning_rate": 1.714624e-05, + "loss": 0.0312, + "step": 66885 + }, + { + "epoch": 0.428096, + "grad_norm": 0.5816468596458435, + "learning_rate": 1.714602666666667e-05, + "loss": 0.0212, + "step": 66890 + }, + { + "epoch": 0.428128, + "grad_norm": 0.7631758451461792, + "learning_rate": 1.7145813333333333e-05, + "loss": 0.0215, + "step": 66895 + }, + { + "epoch": 0.42816, + "grad_norm": 0.41372135281562805, + "learning_rate": 1.71456e-05, + "loss": 0.0224, + "step": 66900 + }, + { + "epoch": 0.428192, + "grad_norm": 1.0334713459014893, + "learning_rate": 1.7145386666666668e-05, + "loss": 0.0104, + "step": 66905 + }, + { + "epoch": 0.428224, + "grad_norm": 0.3071724772453308, + "learning_rate": 1.7145173333333332e-05, + "loss": 0.0438, + "step": 66910 + }, + { + "epoch": 0.428256, + "grad_norm": 0.6226680874824524, + "learning_rate": 1.714496e-05, + "loss": 0.0325, + "step": 66915 + }, + { + "epoch": 0.428288, + "grad_norm": 0.6980969309806824, + "learning_rate": 1.7144746666666667e-05, + "loss": 0.0197, + "step": 66920 + }, + { + "epoch": 0.42832, + "grad_norm": 0.4363551437854767, + "learning_rate": 1.7144533333333335e-05, + "loss": 0.0239, + "step": 66925 + }, + { + "epoch": 0.428352, + "grad_norm": 0.7313611507415771, + "learning_rate": 1.7144320000000003e-05, + "loss": 0.0291, + "step": 66930 + }, + { + "epoch": 0.428384, + "grad_norm": 1.1102968454360962, + "learning_rate": 1.714410666666667e-05, + "loss": 0.0415, + "step": 66935 + }, + { + "epoch": 0.428416, + "grad_norm": 0.2791588604450226, + "learning_rate": 1.7143893333333334e-05, + "loss": 0.0436, + "step": 66940 + }, + { + "epoch": 0.428448, + "grad_norm": 2.659062147140503, + "learning_rate": 1.7143680000000002e-05, + "loss": 0.023, + "step": 66945 + }, + { + "epoch": 0.42848, + "grad_norm": 0.661525547504425, + "learning_rate": 1.714346666666667e-05, + "loss": 0.0138, + "step": 66950 + }, + { + "epoch": 0.428512, + "grad_norm": 0.5932134985923767, + "learning_rate": 1.7143253333333334e-05, + "loss": 0.0229, + "step": 66955 + }, + { + "epoch": 0.428544, + "grad_norm": 0.2192038744688034, + "learning_rate": 1.714304e-05, + "loss": 0.019, + "step": 66960 + }, + { + "epoch": 0.428576, + "grad_norm": 2.0807924270629883, + "learning_rate": 1.714282666666667e-05, + "loss": 0.0344, + "step": 66965 + }, + { + "epoch": 0.428608, + "grad_norm": 1.5040018558502197, + "learning_rate": 1.7142613333333336e-05, + "loss": 0.0331, + "step": 66970 + }, + { + "epoch": 0.42864, + "grad_norm": 0.3418368697166443, + "learning_rate": 1.71424e-05, + "loss": 0.0144, + "step": 66975 + }, + { + "epoch": 0.428672, + "grad_norm": 0.7441485524177551, + "learning_rate": 1.7142186666666668e-05, + "loss": 0.0495, + "step": 66980 + }, + { + "epoch": 0.428704, + "grad_norm": 0.21165594458580017, + "learning_rate": 1.7141973333333336e-05, + "loss": 0.0304, + "step": 66985 + }, + { + "epoch": 0.428736, + "grad_norm": 1.1984472274780273, + "learning_rate": 1.714176e-05, + "loss": 0.0441, + "step": 66990 + }, + { + "epoch": 0.428768, + "grad_norm": 0.9096174240112305, + "learning_rate": 1.7141546666666667e-05, + "loss": 0.0306, + "step": 66995 + }, + { + "epoch": 0.4288, + "grad_norm": 1.7881290912628174, + "learning_rate": 1.7141333333333335e-05, + "loss": 0.0365, + "step": 67000 + }, + { + "epoch": 0.428832, + "grad_norm": 1.6146974563598633, + "learning_rate": 1.7141120000000002e-05, + "loss": 0.022, + "step": 67005 + }, + { + "epoch": 0.428864, + "grad_norm": 1.1067925691604614, + "learning_rate": 1.7140906666666667e-05, + "loss": 0.0486, + "step": 67010 + }, + { + "epoch": 0.428896, + "grad_norm": 0.3376176953315735, + "learning_rate": 1.7140693333333334e-05, + "loss": 0.0452, + "step": 67015 + }, + { + "epoch": 0.428928, + "grad_norm": 0.2792893052101135, + "learning_rate": 1.714048e-05, + "loss": 0.0213, + "step": 67020 + }, + { + "epoch": 0.42896, + "grad_norm": 0.3585161566734314, + "learning_rate": 1.7140266666666666e-05, + "loss": 0.0208, + "step": 67025 + }, + { + "epoch": 0.428992, + "grad_norm": 0.6652263402938843, + "learning_rate": 1.7140053333333337e-05, + "loss": 0.0276, + "step": 67030 + }, + { + "epoch": 0.429024, + "grad_norm": 0.5462302565574646, + "learning_rate": 1.713984e-05, + "loss": 0.0281, + "step": 67035 + }, + { + "epoch": 0.429056, + "grad_norm": 0.645166277885437, + "learning_rate": 1.713962666666667e-05, + "loss": 0.017, + "step": 67040 + }, + { + "epoch": 0.429088, + "grad_norm": 0.47623151540756226, + "learning_rate": 1.7139413333333336e-05, + "loss": 0.0318, + "step": 67045 + }, + { + "epoch": 0.42912, + "grad_norm": 1.002071499824524, + "learning_rate": 1.7139200000000004e-05, + "loss": 0.0204, + "step": 67050 + }, + { + "epoch": 0.429152, + "grad_norm": 0.12518565356731415, + "learning_rate": 1.7138986666666668e-05, + "loss": 0.024, + "step": 67055 + }, + { + "epoch": 0.429184, + "grad_norm": 0.45248353481292725, + "learning_rate": 1.7138773333333335e-05, + "loss": 0.0287, + "step": 67060 + }, + { + "epoch": 0.429216, + "grad_norm": 1.699495792388916, + "learning_rate": 1.7138560000000003e-05, + "loss": 0.0318, + "step": 67065 + }, + { + "epoch": 0.429248, + "grad_norm": 1.2420762777328491, + "learning_rate": 1.7138346666666667e-05, + "loss": 0.0364, + "step": 67070 + }, + { + "epoch": 0.42928, + "grad_norm": 0.5847630500793457, + "learning_rate": 1.7138133333333335e-05, + "loss": 0.024, + "step": 67075 + }, + { + "epoch": 0.429312, + "grad_norm": 0.17313118278980255, + "learning_rate": 1.7137920000000002e-05, + "loss": 0.0301, + "step": 67080 + }, + { + "epoch": 0.429344, + "grad_norm": 0.5316205024719238, + "learning_rate": 1.713770666666667e-05, + "loss": 0.024, + "step": 67085 + }, + { + "epoch": 0.429376, + "grad_norm": 0.7578067779541016, + "learning_rate": 1.7137493333333334e-05, + "loss": 0.0445, + "step": 67090 + }, + { + "epoch": 0.429408, + "grad_norm": 0.642351508140564, + "learning_rate": 1.713728e-05, + "loss": 0.0242, + "step": 67095 + }, + { + "epoch": 0.42944, + "grad_norm": 0.9081260561943054, + "learning_rate": 1.713706666666667e-05, + "loss": 0.0259, + "step": 67100 + }, + { + "epoch": 0.429472, + "grad_norm": 0.5799388885498047, + "learning_rate": 1.7136853333333333e-05, + "loss": 0.07, + "step": 67105 + }, + { + "epoch": 0.429504, + "grad_norm": 1.3094675540924072, + "learning_rate": 1.713664e-05, + "loss": 0.0201, + "step": 67110 + }, + { + "epoch": 0.429536, + "grad_norm": 0.24140067398548126, + "learning_rate": 1.7136426666666668e-05, + "loss": 0.0218, + "step": 67115 + }, + { + "epoch": 0.429568, + "grad_norm": 0.4962750971317291, + "learning_rate": 1.7136213333333336e-05, + "loss": 0.015, + "step": 67120 + }, + { + "epoch": 0.4296, + "grad_norm": 1.0509777069091797, + "learning_rate": 1.7136e-05, + "loss": 0.0285, + "step": 67125 + }, + { + "epoch": 0.429632, + "grad_norm": 0.8195840716362, + "learning_rate": 1.7135786666666667e-05, + "loss": 0.0274, + "step": 67130 + }, + { + "epoch": 0.429664, + "grad_norm": 0.717592179775238, + "learning_rate": 1.7135573333333335e-05, + "loss": 0.0207, + "step": 67135 + }, + { + "epoch": 0.429696, + "grad_norm": 0.8499764800071716, + "learning_rate": 1.713536e-05, + "loss": 0.0282, + "step": 67140 + }, + { + "epoch": 0.429728, + "grad_norm": 0.6055433750152588, + "learning_rate": 1.713514666666667e-05, + "loss": 0.0261, + "step": 67145 + }, + { + "epoch": 0.42976, + "grad_norm": 0.7157735228538513, + "learning_rate": 1.7134933333333334e-05, + "loss": 0.0151, + "step": 67150 + }, + { + "epoch": 0.429792, + "grad_norm": 2.6079189777374268, + "learning_rate": 1.7134720000000002e-05, + "loss": 0.0317, + "step": 67155 + }, + { + "epoch": 0.429824, + "grad_norm": 2.826955795288086, + "learning_rate": 1.713450666666667e-05, + "loss": 0.0275, + "step": 67160 + }, + { + "epoch": 0.429856, + "grad_norm": 0.48026031255722046, + "learning_rate": 1.7134293333333334e-05, + "loss": 0.0387, + "step": 67165 + }, + { + "epoch": 0.429888, + "grad_norm": 0.7441331148147583, + "learning_rate": 1.713408e-05, + "loss": 0.0287, + "step": 67170 + }, + { + "epoch": 0.42992, + "grad_norm": 0.5636864900588989, + "learning_rate": 1.713386666666667e-05, + "loss": 0.0157, + "step": 67175 + }, + { + "epoch": 0.429952, + "grad_norm": 0.5459394454956055, + "learning_rate": 1.7133653333333336e-05, + "loss": 0.018, + "step": 67180 + }, + { + "epoch": 0.429984, + "grad_norm": 0.32933101058006287, + "learning_rate": 1.713344e-05, + "loss": 0.0162, + "step": 67185 + }, + { + "epoch": 0.430016, + "grad_norm": 1.39348566532135, + "learning_rate": 1.7133226666666668e-05, + "loss": 0.0516, + "step": 67190 + }, + { + "epoch": 0.430048, + "grad_norm": 0.7817031145095825, + "learning_rate": 1.7133013333333336e-05, + "loss": 0.0296, + "step": 67195 + }, + { + "epoch": 0.43008, + "grad_norm": 0.7494677305221558, + "learning_rate": 1.71328e-05, + "loss": 0.0335, + "step": 67200 + }, + { + "epoch": 0.430112, + "grad_norm": 0.7282325029373169, + "learning_rate": 1.7132586666666667e-05, + "loss": 0.0208, + "step": 67205 + }, + { + "epoch": 0.430144, + "grad_norm": 0.5157743096351624, + "learning_rate": 1.7132373333333335e-05, + "loss": 0.0199, + "step": 67210 + }, + { + "epoch": 0.430176, + "grad_norm": 0.7577970027923584, + "learning_rate": 1.7132160000000002e-05, + "loss": 0.0273, + "step": 67215 + }, + { + "epoch": 0.430208, + "grad_norm": 0.2600380778312683, + "learning_rate": 1.7131946666666667e-05, + "loss": 0.0183, + "step": 67220 + }, + { + "epoch": 0.43024, + "grad_norm": 0.12935899198055267, + "learning_rate": 1.7131733333333337e-05, + "loss": 0.0189, + "step": 67225 + }, + { + "epoch": 0.430272, + "grad_norm": 0.21564927697181702, + "learning_rate": 1.713152e-05, + "loss": 0.033, + "step": 67230 + }, + { + "epoch": 0.430304, + "grad_norm": 1.4162733554840088, + "learning_rate": 1.7131306666666666e-05, + "loss": 0.0363, + "step": 67235 + }, + { + "epoch": 0.430336, + "grad_norm": 2.2049148082733154, + "learning_rate": 1.7131093333333337e-05, + "loss": 0.0302, + "step": 67240 + }, + { + "epoch": 0.430368, + "grad_norm": 0.9860318899154663, + "learning_rate": 1.713088e-05, + "loss": 0.0218, + "step": 67245 + }, + { + "epoch": 0.4304, + "grad_norm": 0.363553911447525, + "learning_rate": 1.713066666666667e-05, + "loss": 0.0406, + "step": 67250 + }, + { + "epoch": 0.430432, + "grad_norm": 2.569246530532837, + "learning_rate": 1.7130453333333336e-05, + "loss": 0.0445, + "step": 67255 + }, + { + "epoch": 0.430464, + "grad_norm": 0.07064615935087204, + "learning_rate": 1.7130240000000004e-05, + "loss": 0.0216, + "step": 67260 + }, + { + "epoch": 0.430496, + "grad_norm": 0.43036335706710815, + "learning_rate": 1.7130026666666668e-05, + "loss": 0.017, + "step": 67265 + }, + { + "epoch": 0.430528, + "grad_norm": 1.2909533977508545, + "learning_rate": 1.7129813333333335e-05, + "loss": 0.0263, + "step": 67270 + }, + { + "epoch": 0.43056, + "grad_norm": 2.7879693508148193, + "learning_rate": 1.7129600000000003e-05, + "loss": 0.04, + "step": 67275 + }, + { + "epoch": 0.430592, + "grad_norm": 5.294917106628418, + "learning_rate": 1.7129386666666667e-05, + "loss": 0.0273, + "step": 67280 + }, + { + "epoch": 0.430624, + "grad_norm": 1.1587753295898438, + "learning_rate": 1.7129173333333335e-05, + "loss": 0.0368, + "step": 67285 + }, + { + "epoch": 0.430656, + "grad_norm": 1.182605266571045, + "learning_rate": 1.7128960000000002e-05, + "loss": 0.0328, + "step": 67290 + }, + { + "epoch": 0.430688, + "grad_norm": 0.5339595675468445, + "learning_rate": 1.712874666666667e-05, + "loss": 0.0243, + "step": 67295 + }, + { + "epoch": 0.43072, + "grad_norm": 0.2182113081216812, + "learning_rate": 1.7128533333333334e-05, + "loss": 0.0332, + "step": 67300 + }, + { + "epoch": 0.430752, + "grad_norm": 0.7545168399810791, + "learning_rate": 1.712832e-05, + "loss": 0.0255, + "step": 67305 + }, + { + "epoch": 0.430784, + "grad_norm": 0.4866357147693634, + "learning_rate": 1.712810666666667e-05, + "loss": 0.0158, + "step": 67310 + }, + { + "epoch": 0.430816, + "grad_norm": 0.3411922752857208, + "learning_rate": 1.7127893333333333e-05, + "loss": 0.021, + "step": 67315 + }, + { + "epoch": 0.430848, + "grad_norm": 1.0275352001190186, + "learning_rate": 1.712768e-05, + "loss": 0.0283, + "step": 67320 + }, + { + "epoch": 0.43088, + "grad_norm": 0.21051909029483795, + "learning_rate": 1.7127466666666668e-05, + "loss": 0.0153, + "step": 67325 + }, + { + "epoch": 0.430912, + "grad_norm": 0.5818653106689453, + "learning_rate": 1.7127253333333336e-05, + "loss": 0.0168, + "step": 67330 + }, + { + "epoch": 0.430944, + "grad_norm": 0.4237349331378937, + "learning_rate": 1.712704e-05, + "loss": 0.0311, + "step": 67335 + }, + { + "epoch": 0.430976, + "grad_norm": 0.3933456242084503, + "learning_rate": 1.7126826666666667e-05, + "loss": 0.0163, + "step": 67340 + }, + { + "epoch": 0.431008, + "grad_norm": 0.8859214186668396, + "learning_rate": 1.7126613333333335e-05, + "loss": 0.0283, + "step": 67345 + }, + { + "epoch": 0.43104, + "grad_norm": 0.19327200949192047, + "learning_rate": 1.71264e-05, + "loss": 0.0198, + "step": 67350 + }, + { + "epoch": 0.431072, + "grad_norm": 0.9226329922676086, + "learning_rate": 1.712618666666667e-05, + "loss": 0.0214, + "step": 67355 + }, + { + "epoch": 0.431104, + "grad_norm": 0.45571720600128174, + "learning_rate": 1.7125973333333334e-05, + "loss": 0.0198, + "step": 67360 + }, + { + "epoch": 0.431136, + "grad_norm": 0.46395444869995117, + "learning_rate": 1.7125760000000002e-05, + "loss": 0.0179, + "step": 67365 + }, + { + "epoch": 0.431168, + "grad_norm": 0.6400023698806763, + "learning_rate": 1.712554666666667e-05, + "loss": 0.0199, + "step": 67370 + }, + { + "epoch": 0.4312, + "grad_norm": 0.5030978322029114, + "learning_rate": 1.7125333333333334e-05, + "loss": 0.0208, + "step": 67375 + }, + { + "epoch": 0.431232, + "grad_norm": 0.7325250506401062, + "learning_rate": 1.712512e-05, + "loss": 0.0347, + "step": 67380 + }, + { + "epoch": 0.431264, + "grad_norm": 1.1291053295135498, + "learning_rate": 1.712490666666667e-05, + "loss": 0.0356, + "step": 67385 + }, + { + "epoch": 0.431296, + "grad_norm": 0.6241071224212646, + "learning_rate": 1.7124693333333336e-05, + "loss": 0.0364, + "step": 67390 + }, + { + "epoch": 0.431328, + "grad_norm": 1.2077422142028809, + "learning_rate": 1.712448e-05, + "loss": 0.0243, + "step": 67395 + }, + { + "epoch": 0.43136, + "grad_norm": 1.2468422651290894, + "learning_rate": 1.7124266666666668e-05, + "loss": 0.0348, + "step": 67400 + }, + { + "epoch": 0.431392, + "grad_norm": 0.7834924459457397, + "learning_rate": 1.7124053333333336e-05, + "loss": 0.0143, + "step": 67405 + }, + { + "epoch": 0.431424, + "grad_norm": 0.8068792819976807, + "learning_rate": 1.712384e-05, + "loss": 0.0336, + "step": 67410 + }, + { + "epoch": 0.431456, + "grad_norm": 0.43629544973373413, + "learning_rate": 1.7123626666666667e-05, + "loss": 0.0188, + "step": 67415 + }, + { + "epoch": 0.431488, + "grad_norm": 0.6820955276489258, + "learning_rate": 1.7123413333333335e-05, + "loss": 0.041, + "step": 67420 + }, + { + "epoch": 0.43152, + "grad_norm": 0.9593062400817871, + "learning_rate": 1.7123200000000002e-05, + "loss": 0.0421, + "step": 67425 + }, + { + "epoch": 0.431552, + "grad_norm": 0.9643924236297607, + "learning_rate": 1.7122986666666667e-05, + "loss": 0.0244, + "step": 67430 + }, + { + "epoch": 0.431584, + "grad_norm": 0.7055513262748718, + "learning_rate": 1.7122773333333334e-05, + "loss": 0.0367, + "step": 67435 + }, + { + "epoch": 0.431616, + "grad_norm": 0.8188261985778809, + "learning_rate": 1.712256e-05, + "loss": 0.0262, + "step": 67440 + }, + { + "epoch": 0.431648, + "grad_norm": 0.7399102449417114, + "learning_rate": 1.7122346666666666e-05, + "loss": 0.0432, + "step": 67445 + }, + { + "epoch": 0.43168, + "grad_norm": 0.06449558585882187, + "learning_rate": 1.7122133333333337e-05, + "loss": 0.0261, + "step": 67450 + }, + { + "epoch": 0.431712, + "grad_norm": 0.5394958853721619, + "learning_rate": 1.712192e-05, + "loss": 0.0224, + "step": 67455 + }, + { + "epoch": 0.431744, + "grad_norm": 1.1536864042282104, + "learning_rate": 1.712170666666667e-05, + "loss": 0.0326, + "step": 67460 + }, + { + "epoch": 0.431776, + "grad_norm": 1.877615213394165, + "learning_rate": 1.7121493333333336e-05, + "loss": 0.0202, + "step": 67465 + }, + { + "epoch": 0.431808, + "grad_norm": 0.2265365570783615, + "learning_rate": 1.7121280000000004e-05, + "loss": 0.0522, + "step": 67470 + }, + { + "epoch": 0.43184, + "grad_norm": 0.9957799911499023, + "learning_rate": 1.7121066666666668e-05, + "loss": 0.0398, + "step": 67475 + }, + { + "epoch": 0.431872, + "grad_norm": 1.0865901708602905, + "learning_rate": 1.7120853333333335e-05, + "loss": 0.0635, + "step": 67480 + }, + { + "epoch": 0.431904, + "grad_norm": 0.8388280272483826, + "learning_rate": 1.7120640000000003e-05, + "loss": 0.0443, + "step": 67485 + }, + { + "epoch": 0.431936, + "grad_norm": 2.0365993976593018, + "learning_rate": 1.7120426666666667e-05, + "loss": 0.0277, + "step": 67490 + }, + { + "epoch": 0.431968, + "grad_norm": 1.5225452184677124, + "learning_rate": 1.7120213333333335e-05, + "loss": 0.0251, + "step": 67495 + }, + { + "epoch": 0.432, + "grad_norm": 0.888452410697937, + "learning_rate": 1.7120000000000002e-05, + "loss": 0.0246, + "step": 67500 + }, + { + "epoch": 0.432032, + "grad_norm": 0.22952385246753693, + "learning_rate": 1.711978666666667e-05, + "loss": 0.0412, + "step": 67505 + }, + { + "epoch": 0.432064, + "grad_norm": 1.0355122089385986, + "learning_rate": 1.7119573333333334e-05, + "loss": 0.021, + "step": 67510 + }, + { + "epoch": 0.432096, + "grad_norm": 0.5459732413291931, + "learning_rate": 1.711936e-05, + "loss": 0.019, + "step": 67515 + }, + { + "epoch": 0.432128, + "grad_norm": 0.3702673614025116, + "learning_rate": 1.711914666666667e-05, + "loss": 0.0194, + "step": 67520 + }, + { + "epoch": 0.43216, + "grad_norm": 0.5239466428756714, + "learning_rate": 1.7118933333333333e-05, + "loss": 0.035, + "step": 67525 + }, + { + "epoch": 0.432192, + "grad_norm": 0.5945147275924683, + "learning_rate": 1.711872e-05, + "loss": 0.0135, + "step": 67530 + }, + { + "epoch": 0.432224, + "grad_norm": 0.6019290089607239, + "learning_rate": 1.7118506666666668e-05, + "loss": 0.0415, + "step": 67535 + }, + { + "epoch": 0.432256, + "grad_norm": 0.3597162663936615, + "learning_rate": 1.7118293333333336e-05, + "loss": 0.0247, + "step": 67540 + }, + { + "epoch": 0.432288, + "grad_norm": 0.7052096128463745, + "learning_rate": 1.711808e-05, + "loss": 0.0306, + "step": 67545 + }, + { + "epoch": 0.43232, + "grad_norm": 1.2181158065795898, + "learning_rate": 1.7117866666666667e-05, + "loss": 0.0344, + "step": 67550 + }, + { + "epoch": 0.432352, + "grad_norm": 0.4764482378959656, + "learning_rate": 1.7117653333333335e-05, + "loss": 0.0199, + "step": 67555 + }, + { + "epoch": 0.432384, + "grad_norm": 0.17118097841739655, + "learning_rate": 1.711744e-05, + "loss": 0.0101, + "step": 67560 + }, + { + "epoch": 0.432416, + "grad_norm": 0.8863295316696167, + "learning_rate": 1.711722666666667e-05, + "loss": 0.0533, + "step": 67565 + }, + { + "epoch": 0.432448, + "grad_norm": 1.3389116525650024, + "learning_rate": 1.7117013333333334e-05, + "loss": 0.036, + "step": 67570 + }, + { + "epoch": 0.43248, + "grad_norm": 0.49088501930236816, + "learning_rate": 1.7116800000000002e-05, + "loss": 0.0295, + "step": 67575 + }, + { + "epoch": 0.432512, + "grad_norm": 0.4476522207260132, + "learning_rate": 1.711658666666667e-05, + "loss": 0.0176, + "step": 67580 + }, + { + "epoch": 0.432544, + "grad_norm": 0.6112703680992126, + "learning_rate": 1.7116373333333334e-05, + "loss": 0.0273, + "step": 67585 + }, + { + "epoch": 0.432576, + "grad_norm": 0.2521347403526306, + "learning_rate": 1.711616e-05, + "loss": 0.0199, + "step": 67590 + }, + { + "epoch": 0.432608, + "grad_norm": 0.2333584576845169, + "learning_rate": 1.711594666666667e-05, + "loss": 0.0178, + "step": 67595 + }, + { + "epoch": 0.43264, + "grad_norm": 0.3627525866031647, + "learning_rate": 1.7115733333333336e-05, + "loss": 0.0469, + "step": 67600 + }, + { + "epoch": 0.432672, + "grad_norm": 0.41263195872306824, + "learning_rate": 1.711552e-05, + "loss": 0.0272, + "step": 67605 + }, + { + "epoch": 0.432704, + "grad_norm": 0.38835394382476807, + "learning_rate": 1.7115306666666668e-05, + "loss": 0.0187, + "step": 67610 + }, + { + "epoch": 0.432736, + "grad_norm": 0.4705829918384552, + "learning_rate": 1.7115093333333336e-05, + "loss": 0.0288, + "step": 67615 + }, + { + "epoch": 0.432768, + "grad_norm": 1.1758809089660645, + "learning_rate": 1.711488e-05, + "loss": 0.0173, + "step": 67620 + }, + { + "epoch": 0.4328, + "grad_norm": 0.6820588707923889, + "learning_rate": 1.7114666666666667e-05, + "loss": 0.0126, + "step": 67625 + }, + { + "epoch": 0.432832, + "grad_norm": 0.4919901192188263, + "learning_rate": 1.7114453333333335e-05, + "loss": 0.0184, + "step": 67630 + }, + { + "epoch": 0.432864, + "grad_norm": 0.16834062337875366, + "learning_rate": 1.7114240000000002e-05, + "loss": 0.0161, + "step": 67635 + }, + { + "epoch": 0.432896, + "grad_norm": 0.8546229600906372, + "learning_rate": 1.7114026666666667e-05, + "loss": 0.0183, + "step": 67640 + }, + { + "epoch": 0.432928, + "grad_norm": 0.8125247955322266, + "learning_rate": 1.7113813333333334e-05, + "loss": 0.0244, + "step": 67645 + }, + { + "epoch": 0.43296, + "grad_norm": 1.067043423652649, + "learning_rate": 1.71136e-05, + "loss": 0.032, + "step": 67650 + }, + { + "epoch": 0.432992, + "grad_norm": 1.199276089668274, + "learning_rate": 1.7113386666666666e-05, + "loss": 0.0234, + "step": 67655 + }, + { + "epoch": 0.433024, + "grad_norm": 0.8936864137649536, + "learning_rate": 1.7113173333333333e-05, + "loss": 0.0258, + "step": 67660 + }, + { + "epoch": 0.433056, + "grad_norm": 0.4145153760910034, + "learning_rate": 1.711296e-05, + "loss": 0.017, + "step": 67665 + }, + { + "epoch": 0.433088, + "grad_norm": 0.7629029750823975, + "learning_rate": 1.711274666666667e-05, + "loss": 0.0484, + "step": 67670 + }, + { + "epoch": 0.43312, + "grad_norm": 0.20262183248996735, + "learning_rate": 1.7112533333333336e-05, + "loss": 0.0197, + "step": 67675 + }, + { + "epoch": 0.433152, + "grad_norm": 0.18684181571006775, + "learning_rate": 1.7112320000000004e-05, + "loss": 0.0251, + "step": 67680 + }, + { + "epoch": 0.433184, + "grad_norm": 1.1524640321731567, + "learning_rate": 1.7112106666666668e-05, + "loss": 0.0333, + "step": 67685 + }, + { + "epoch": 0.433216, + "grad_norm": 0.3295089304447174, + "learning_rate": 1.7111893333333335e-05, + "loss": 0.029, + "step": 67690 + }, + { + "epoch": 0.433248, + "grad_norm": 0.8883452415466309, + "learning_rate": 1.7111680000000003e-05, + "loss": 0.0279, + "step": 67695 + }, + { + "epoch": 0.43328, + "grad_norm": 0.31036537885665894, + "learning_rate": 1.7111466666666667e-05, + "loss": 0.0111, + "step": 67700 + }, + { + "epoch": 0.433312, + "grad_norm": 0.44560569524765015, + "learning_rate": 1.7111253333333335e-05, + "loss": 0.0091, + "step": 67705 + }, + { + "epoch": 0.433344, + "grad_norm": 0.5692538619041443, + "learning_rate": 1.7111040000000002e-05, + "loss": 0.0364, + "step": 67710 + }, + { + "epoch": 0.433376, + "grad_norm": 1.2130337953567505, + "learning_rate": 1.711082666666667e-05, + "loss": 0.0567, + "step": 67715 + }, + { + "epoch": 0.433408, + "grad_norm": 1.0316550731658936, + "learning_rate": 1.7110613333333334e-05, + "loss": 0.0286, + "step": 67720 + }, + { + "epoch": 0.43344, + "grad_norm": 0.26676493883132935, + "learning_rate": 1.71104e-05, + "loss": 0.033, + "step": 67725 + }, + { + "epoch": 0.433472, + "grad_norm": 0.8609127402305603, + "learning_rate": 1.711018666666667e-05, + "loss": 0.0387, + "step": 67730 + }, + { + "epoch": 0.433504, + "grad_norm": 3.3031258583068848, + "learning_rate": 1.7109973333333333e-05, + "loss": 0.0385, + "step": 67735 + }, + { + "epoch": 0.433536, + "grad_norm": 1.4546548128128052, + "learning_rate": 1.710976e-05, + "loss": 0.0374, + "step": 67740 + }, + { + "epoch": 0.433568, + "grad_norm": 1.0129331350326538, + "learning_rate": 1.7109546666666668e-05, + "loss": 0.0395, + "step": 67745 + }, + { + "epoch": 0.4336, + "grad_norm": 0.7214938998222351, + "learning_rate": 1.7109333333333336e-05, + "loss": 0.0248, + "step": 67750 + }, + { + "epoch": 0.433632, + "grad_norm": 0.29980072379112244, + "learning_rate": 1.710912e-05, + "loss": 0.0129, + "step": 67755 + }, + { + "epoch": 0.433664, + "grad_norm": 0.38047945499420166, + "learning_rate": 1.7108906666666667e-05, + "loss": 0.038, + "step": 67760 + }, + { + "epoch": 0.433696, + "grad_norm": 0.12727567553520203, + "learning_rate": 1.7108693333333335e-05, + "loss": 0.0344, + "step": 67765 + }, + { + "epoch": 0.433728, + "grad_norm": 1.2450478076934814, + "learning_rate": 1.710848e-05, + "loss": 0.0257, + "step": 67770 + }, + { + "epoch": 0.43376, + "grad_norm": 0.16516301035881042, + "learning_rate": 1.710826666666667e-05, + "loss": 0.0275, + "step": 67775 + }, + { + "epoch": 0.433792, + "grad_norm": 0.2280014306306839, + "learning_rate": 1.7108053333333334e-05, + "loss": 0.0204, + "step": 67780 + }, + { + "epoch": 0.433824, + "grad_norm": 0.5428968071937561, + "learning_rate": 1.7107840000000002e-05, + "loss": 0.0177, + "step": 67785 + }, + { + "epoch": 0.433856, + "grad_norm": 0.794869065284729, + "learning_rate": 1.710762666666667e-05, + "loss": 0.0379, + "step": 67790 + }, + { + "epoch": 0.433888, + "grad_norm": 0.6850258111953735, + "learning_rate": 1.7107413333333334e-05, + "loss": 0.0274, + "step": 67795 + }, + { + "epoch": 0.43392, + "grad_norm": 1.2445242404937744, + "learning_rate": 1.71072e-05, + "loss": 0.0176, + "step": 67800 + }, + { + "epoch": 0.433952, + "grad_norm": 0.7368326187133789, + "learning_rate": 1.710698666666667e-05, + "loss": 0.0177, + "step": 67805 + }, + { + "epoch": 0.433984, + "grad_norm": 1.0409164428710938, + "learning_rate": 1.7106773333333336e-05, + "loss": 0.038, + "step": 67810 + }, + { + "epoch": 0.434016, + "grad_norm": 1.2161836624145508, + "learning_rate": 1.710656e-05, + "loss": 0.0232, + "step": 67815 + }, + { + "epoch": 0.434048, + "grad_norm": 0.8884521126747131, + "learning_rate": 1.7106346666666668e-05, + "loss": 0.041, + "step": 67820 + }, + { + "epoch": 0.43408, + "grad_norm": 0.8213504552841187, + "learning_rate": 1.7106133333333336e-05, + "loss": 0.0392, + "step": 67825 + }, + { + "epoch": 0.434112, + "grad_norm": 0.4935421049594879, + "learning_rate": 1.710592e-05, + "loss": 0.0433, + "step": 67830 + }, + { + "epoch": 0.434144, + "grad_norm": 0.42892807722091675, + "learning_rate": 1.7105706666666667e-05, + "loss": 0.0125, + "step": 67835 + }, + { + "epoch": 0.434176, + "grad_norm": 0.5195478200912476, + "learning_rate": 1.7105493333333335e-05, + "loss": 0.0209, + "step": 67840 + }, + { + "epoch": 0.434208, + "grad_norm": 0.35325080156326294, + "learning_rate": 1.7105280000000002e-05, + "loss": 0.0246, + "step": 67845 + }, + { + "epoch": 0.43424, + "grad_norm": 1.5055742263793945, + "learning_rate": 1.7105066666666667e-05, + "loss": 0.0196, + "step": 67850 + }, + { + "epoch": 0.434272, + "grad_norm": 0.5275759100914001, + "learning_rate": 1.7104853333333334e-05, + "loss": 0.0507, + "step": 67855 + }, + { + "epoch": 0.434304, + "grad_norm": 0.6648125648498535, + "learning_rate": 1.710464e-05, + "loss": 0.0264, + "step": 67860 + }, + { + "epoch": 0.434336, + "grad_norm": 0.9407939910888672, + "learning_rate": 1.7104426666666666e-05, + "loss": 0.0152, + "step": 67865 + }, + { + "epoch": 0.434368, + "grad_norm": 0.8032819628715515, + "learning_rate": 1.7104213333333333e-05, + "loss": 0.0356, + "step": 67870 + }, + { + "epoch": 0.4344, + "grad_norm": 0.5260556936264038, + "learning_rate": 1.7104e-05, + "loss": 0.0229, + "step": 67875 + }, + { + "epoch": 0.434432, + "grad_norm": 0.5453101992607117, + "learning_rate": 1.710378666666667e-05, + "loss": 0.0205, + "step": 67880 + }, + { + "epoch": 0.434464, + "grad_norm": 0.1874244213104248, + "learning_rate": 1.7103573333333333e-05, + "loss": 0.018, + "step": 67885 + }, + { + "epoch": 0.434496, + "grad_norm": 1.0140819549560547, + "learning_rate": 1.7103360000000004e-05, + "loss": 0.0352, + "step": 67890 + }, + { + "epoch": 0.434528, + "grad_norm": 0.21382977068424225, + "learning_rate": 1.7103146666666668e-05, + "loss": 0.0156, + "step": 67895 + }, + { + "epoch": 0.43456, + "grad_norm": 0.5842233300209045, + "learning_rate": 1.7102933333333335e-05, + "loss": 0.0363, + "step": 67900 + }, + { + "epoch": 0.434592, + "grad_norm": 1.3077166080474854, + "learning_rate": 1.7102720000000003e-05, + "loss": 0.0424, + "step": 67905 + }, + { + "epoch": 0.434624, + "grad_norm": 0.6747541427612305, + "learning_rate": 1.7102506666666667e-05, + "loss": 0.0344, + "step": 67910 + }, + { + "epoch": 0.434656, + "grad_norm": 0.7746787071228027, + "learning_rate": 1.7102293333333335e-05, + "loss": 0.0364, + "step": 67915 + }, + { + "epoch": 0.434688, + "grad_norm": 1.6858282089233398, + "learning_rate": 1.7102080000000002e-05, + "loss": 0.0136, + "step": 67920 + }, + { + "epoch": 0.43472, + "grad_norm": 0.26941144466400146, + "learning_rate": 1.710186666666667e-05, + "loss": 0.0192, + "step": 67925 + }, + { + "epoch": 0.434752, + "grad_norm": 0.6953635811805725, + "learning_rate": 1.7101653333333334e-05, + "loss": 0.0251, + "step": 67930 + }, + { + "epoch": 0.434784, + "grad_norm": 1.1902464628219604, + "learning_rate": 1.710144e-05, + "loss": 0.0295, + "step": 67935 + }, + { + "epoch": 0.434816, + "grad_norm": 1.1831120252609253, + "learning_rate": 1.710122666666667e-05, + "loss": 0.0757, + "step": 67940 + }, + { + "epoch": 0.434848, + "grad_norm": 0.24383307993412018, + "learning_rate": 1.7101013333333333e-05, + "loss": 0.0424, + "step": 67945 + }, + { + "epoch": 0.43488, + "grad_norm": 1.8330471515655518, + "learning_rate": 1.71008e-05, + "loss": 0.0551, + "step": 67950 + }, + { + "epoch": 0.434912, + "grad_norm": 0.7640956044197083, + "learning_rate": 1.7100586666666668e-05, + "loss": 0.0305, + "step": 67955 + }, + { + "epoch": 0.434944, + "grad_norm": 0.3221464157104492, + "learning_rate": 1.7100373333333336e-05, + "loss": 0.0112, + "step": 67960 + }, + { + "epoch": 0.434976, + "grad_norm": 0.8202301263809204, + "learning_rate": 1.710016e-05, + "loss": 0.0206, + "step": 67965 + }, + { + "epoch": 0.435008, + "grad_norm": 0.7054417729377747, + "learning_rate": 1.7099946666666667e-05, + "loss": 0.0231, + "step": 67970 + }, + { + "epoch": 0.43504, + "grad_norm": 0.17223547399044037, + "learning_rate": 1.7099733333333335e-05, + "loss": 0.0153, + "step": 67975 + }, + { + "epoch": 0.435072, + "grad_norm": 1.053321123123169, + "learning_rate": 1.709952e-05, + "loss": 0.0372, + "step": 67980 + }, + { + "epoch": 0.435104, + "grad_norm": 0.6623340845108032, + "learning_rate": 1.709930666666667e-05, + "loss": 0.021, + "step": 67985 + }, + { + "epoch": 0.435136, + "grad_norm": 0.5561195015907288, + "learning_rate": 1.7099093333333334e-05, + "loss": 0.0208, + "step": 67990 + }, + { + "epoch": 0.435168, + "grad_norm": 0.46962589025497437, + "learning_rate": 1.7098880000000002e-05, + "loss": 0.0221, + "step": 67995 + }, + { + "epoch": 0.4352, + "grad_norm": 2.425318956375122, + "learning_rate": 1.709866666666667e-05, + "loss": 0.0326, + "step": 68000 + }, + { + "epoch": 0.435232, + "grad_norm": 4.881070137023926, + "learning_rate": 1.7098453333333337e-05, + "loss": 0.0371, + "step": 68005 + }, + { + "epoch": 0.435264, + "grad_norm": 1.4039578437805176, + "learning_rate": 1.709824e-05, + "loss": 0.0249, + "step": 68010 + }, + { + "epoch": 0.435296, + "grad_norm": 0.6361274719238281, + "learning_rate": 1.709802666666667e-05, + "loss": 0.0297, + "step": 68015 + }, + { + "epoch": 0.435328, + "grad_norm": 0.9045144319534302, + "learning_rate": 1.7097813333333336e-05, + "loss": 0.0275, + "step": 68020 + }, + { + "epoch": 0.43536, + "grad_norm": 0.32752329111099243, + "learning_rate": 1.70976e-05, + "loss": 0.0199, + "step": 68025 + }, + { + "epoch": 0.435392, + "grad_norm": 0.735763430595398, + "learning_rate": 1.7097386666666668e-05, + "loss": 0.0238, + "step": 68030 + }, + { + "epoch": 0.435424, + "grad_norm": 0.9671923518180847, + "learning_rate": 1.7097173333333336e-05, + "loss": 0.0171, + "step": 68035 + }, + { + "epoch": 0.435456, + "grad_norm": 0.4625544548034668, + "learning_rate": 1.7096960000000003e-05, + "loss": 0.0172, + "step": 68040 + }, + { + "epoch": 0.435488, + "grad_norm": 0.8845064640045166, + "learning_rate": 1.7096746666666667e-05, + "loss": 0.0141, + "step": 68045 + }, + { + "epoch": 0.43552, + "grad_norm": 0.21936631202697754, + "learning_rate": 1.7096533333333335e-05, + "loss": 0.0067, + "step": 68050 + }, + { + "epoch": 0.435552, + "grad_norm": 0.9521726369857788, + "learning_rate": 1.7096320000000002e-05, + "loss": 0.0244, + "step": 68055 + }, + { + "epoch": 0.435584, + "grad_norm": 0.5544223785400391, + "learning_rate": 1.7096106666666667e-05, + "loss": 0.0261, + "step": 68060 + }, + { + "epoch": 0.435616, + "grad_norm": 0.05508008971810341, + "learning_rate": 1.7095893333333334e-05, + "loss": 0.0169, + "step": 68065 + }, + { + "epoch": 0.435648, + "grad_norm": 1.1323728561401367, + "learning_rate": 1.709568e-05, + "loss": 0.0258, + "step": 68070 + }, + { + "epoch": 0.43568, + "grad_norm": 0.5440083742141724, + "learning_rate": 1.709546666666667e-05, + "loss": 0.0314, + "step": 68075 + }, + { + "epoch": 0.435712, + "grad_norm": 0.757239043712616, + "learning_rate": 1.7095253333333333e-05, + "loss": 0.036, + "step": 68080 + }, + { + "epoch": 0.435744, + "grad_norm": 1.4865292310714722, + "learning_rate": 1.709504e-05, + "loss": 0.0274, + "step": 68085 + }, + { + "epoch": 0.435776, + "grad_norm": 1.243766188621521, + "learning_rate": 1.709482666666667e-05, + "loss": 0.0285, + "step": 68090 + }, + { + "epoch": 0.435808, + "grad_norm": 0.8158785700798035, + "learning_rate": 1.7094613333333333e-05, + "loss": 0.0262, + "step": 68095 + }, + { + "epoch": 0.43584, + "grad_norm": 0.5546945929527283, + "learning_rate": 1.7094400000000004e-05, + "loss": 0.0182, + "step": 68100 + }, + { + "epoch": 0.435872, + "grad_norm": 0.5902961492538452, + "learning_rate": 1.7094186666666668e-05, + "loss": 0.0192, + "step": 68105 + }, + { + "epoch": 0.435904, + "grad_norm": 0.8779336214065552, + "learning_rate": 1.7093973333333335e-05, + "loss": 0.0332, + "step": 68110 + }, + { + "epoch": 0.435936, + "grad_norm": 0.3570917546749115, + "learning_rate": 1.7093760000000003e-05, + "loss": 0.0209, + "step": 68115 + }, + { + "epoch": 0.435968, + "grad_norm": 1.623692512512207, + "learning_rate": 1.7093546666666667e-05, + "loss": 0.0266, + "step": 68120 + }, + { + "epoch": 0.436, + "grad_norm": 0.14182057976722717, + "learning_rate": 1.7093333333333335e-05, + "loss": 0.0162, + "step": 68125 + }, + { + "epoch": 0.436032, + "grad_norm": 0.16499178111553192, + "learning_rate": 1.7093120000000002e-05, + "loss": 0.0218, + "step": 68130 + }, + { + "epoch": 0.436064, + "grad_norm": 0.34758999943733215, + "learning_rate": 1.709290666666667e-05, + "loss": 0.0137, + "step": 68135 + }, + { + "epoch": 0.436096, + "grad_norm": 0.8175076246261597, + "learning_rate": 1.7092693333333334e-05, + "loss": 0.0222, + "step": 68140 + }, + { + "epoch": 0.436128, + "grad_norm": 0.40735897421836853, + "learning_rate": 1.709248e-05, + "loss": 0.0293, + "step": 68145 + }, + { + "epoch": 0.43616, + "grad_norm": 0.7609490156173706, + "learning_rate": 1.709226666666667e-05, + "loss": 0.0238, + "step": 68150 + }, + { + "epoch": 0.436192, + "grad_norm": 0.7244797945022583, + "learning_rate": 1.7092053333333333e-05, + "loss": 0.0321, + "step": 68155 + }, + { + "epoch": 0.436224, + "grad_norm": 0.7528983950614929, + "learning_rate": 1.709184e-05, + "loss": 0.0173, + "step": 68160 + }, + { + "epoch": 0.436256, + "grad_norm": 0.43404296040534973, + "learning_rate": 1.7091626666666668e-05, + "loss": 0.0364, + "step": 68165 + }, + { + "epoch": 0.436288, + "grad_norm": 0.8597657084465027, + "learning_rate": 1.7091413333333336e-05, + "loss": 0.0226, + "step": 68170 + }, + { + "epoch": 0.43632, + "grad_norm": 0.4509018361568451, + "learning_rate": 1.70912e-05, + "loss": 0.0186, + "step": 68175 + }, + { + "epoch": 0.436352, + "grad_norm": 0.5012354850769043, + "learning_rate": 1.7090986666666667e-05, + "loss": 0.0146, + "step": 68180 + }, + { + "epoch": 0.436384, + "grad_norm": 0.26688969135284424, + "learning_rate": 1.7090773333333335e-05, + "loss": 0.0224, + "step": 68185 + }, + { + "epoch": 0.436416, + "grad_norm": 0.3800883889198303, + "learning_rate": 1.709056e-05, + "loss": 0.0194, + "step": 68190 + }, + { + "epoch": 0.436448, + "grad_norm": 1.2070592641830444, + "learning_rate": 1.7090346666666667e-05, + "loss": 0.0346, + "step": 68195 + }, + { + "epoch": 0.43648, + "grad_norm": 1.4611881971359253, + "learning_rate": 1.7090133333333334e-05, + "loss": 0.0525, + "step": 68200 + }, + { + "epoch": 0.436512, + "grad_norm": 0.4518866539001465, + "learning_rate": 1.7089920000000002e-05, + "loss": 0.0196, + "step": 68205 + }, + { + "epoch": 0.436544, + "grad_norm": 0.5704742074012756, + "learning_rate": 1.708970666666667e-05, + "loss": 0.0269, + "step": 68210 + }, + { + "epoch": 0.436576, + "grad_norm": 0.4768030643463135, + "learning_rate": 1.7089493333333337e-05, + "loss": 0.0244, + "step": 68215 + }, + { + "epoch": 0.436608, + "grad_norm": 1.7230501174926758, + "learning_rate": 1.708928e-05, + "loss": 0.0303, + "step": 68220 + }, + { + "epoch": 0.43664, + "grad_norm": 1.4939361810684204, + "learning_rate": 1.708906666666667e-05, + "loss": 0.0471, + "step": 68225 + }, + { + "epoch": 0.436672, + "grad_norm": 0.4135681688785553, + "learning_rate": 1.7088853333333336e-05, + "loss": 0.0218, + "step": 68230 + }, + { + "epoch": 0.436704, + "grad_norm": 0.7049634456634521, + "learning_rate": 1.708864e-05, + "loss": 0.0318, + "step": 68235 + }, + { + "epoch": 0.436736, + "grad_norm": 0.11749866604804993, + "learning_rate": 1.7088426666666668e-05, + "loss": 0.0315, + "step": 68240 + }, + { + "epoch": 0.436768, + "grad_norm": 1.0525907278060913, + "learning_rate": 1.7088213333333336e-05, + "loss": 0.0407, + "step": 68245 + }, + { + "epoch": 0.4368, + "grad_norm": 0.5726534128189087, + "learning_rate": 1.7088000000000003e-05, + "loss": 0.0246, + "step": 68250 + }, + { + "epoch": 0.436832, + "grad_norm": 0.4420017600059509, + "learning_rate": 1.7087786666666667e-05, + "loss": 0.0245, + "step": 68255 + }, + { + "epoch": 0.436864, + "grad_norm": 0.6047177910804749, + "learning_rate": 1.7087573333333335e-05, + "loss": 0.0296, + "step": 68260 + }, + { + "epoch": 0.436896, + "grad_norm": 0.9662748575210571, + "learning_rate": 1.7087360000000002e-05, + "loss": 0.0315, + "step": 68265 + }, + { + "epoch": 0.436928, + "grad_norm": 0.6962499618530273, + "learning_rate": 1.7087146666666667e-05, + "loss": 0.0275, + "step": 68270 + }, + { + "epoch": 0.43696, + "grad_norm": 0.7238657474517822, + "learning_rate": 1.7086933333333334e-05, + "loss": 0.0211, + "step": 68275 + }, + { + "epoch": 0.436992, + "grad_norm": 0.6478683948516846, + "learning_rate": 1.708672e-05, + "loss": 0.0323, + "step": 68280 + }, + { + "epoch": 0.437024, + "grad_norm": 0.1734079122543335, + "learning_rate": 1.708650666666667e-05, + "loss": 0.028, + "step": 68285 + }, + { + "epoch": 0.437056, + "grad_norm": 0.8539607524871826, + "learning_rate": 1.7086293333333333e-05, + "loss": 0.0217, + "step": 68290 + }, + { + "epoch": 0.437088, + "grad_norm": 0.6613016724586487, + "learning_rate": 1.708608e-05, + "loss": 0.0158, + "step": 68295 + }, + { + "epoch": 0.43712, + "grad_norm": 0.4850083887577057, + "learning_rate": 1.708586666666667e-05, + "loss": 0.021, + "step": 68300 + }, + { + "epoch": 0.437152, + "grad_norm": 0.22034113109111786, + "learning_rate": 1.7085653333333333e-05, + "loss": 0.0347, + "step": 68305 + }, + { + "epoch": 0.437184, + "grad_norm": 0.5279596447944641, + "learning_rate": 1.7085440000000004e-05, + "loss": 0.029, + "step": 68310 + }, + { + "epoch": 0.437216, + "grad_norm": 0.2714126408100128, + "learning_rate": 1.7085226666666668e-05, + "loss": 0.0205, + "step": 68315 + }, + { + "epoch": 0.437248, + "grad_norm": 0.9981679320335388, + "learning_rate": 1.7085013333333335e-05, + "loss": 0.0329, + "step": 68320 + }, + { + "epoch": 0.43728, + "grad_norm": 0.4271080195903778, + "learning_rate": 1.7084800000000003e-05, + "loss": 0.0344, + "step": 68325 + }, + { + "epoch": 0.437312, + "grad_norm": 0.6499605774879456, + "learning_rate": 1.7084586666666667e-05, + "loss": 0.0452, + "step": 68330 + }, + { + "epoch": 0.437344, + "grad_norm": 0.40283676981925964, + "learning_rate": 1.7084373333333335e-05, + "loss": 0.0236, + "step": 68335 + }, + { + "epoch": 0.437376, + "grad_norm": 1.1482292413711548, + "learning_rate": 1.7084160000000002e-05, + "loss": 0.0381, + "step": 68340 + }, + { + "epoch": 0.437408, + "grad_norm": 1.4116311073303223, + "learning_rate": 1.708394666666667e-05, + "loss": 0.0256, + "step": 68345 + }, + { + "epoch": 0.43744, + "grad_norm": 1.1509300470352173, + "learning_rate": 1.7083733333333334e-05, + "loss": 0.028, + "step": 68350 + }, + { + "epoch": 0.437472, + "grad_norm": 0.5500437021255493, + "learning_rate": 1.708352e-05, + "loss": 0.018, + "step": 68355 + }, + { + "epoch": 0.437504, + "grad_norm": 0.5073456764221191, + "learning_rate": 1.708330666666667e-05, + "loss": 0.0221, + "step": 68360 + }, + { + "epoch": 0.437536, + "grad_norm": 2.1004903316497803, + "learning_rate": 1.7083093333333333e-05, + "loss": 0.0342, + "step": 68365 + }, + { + "epoch": 0.437568, + "grad_norm": 0.34047365188598633, + "learning_rate": 1.708288e-05, + "loss": 0.043, + "step": 68370 + }, + { + "epoch": 0.4376, + "grad_norm": 0.7304568886756897, + "learning_rate": 1.7082666666666668e-05, + "loss": 0.0192, + "step": 68375 + }, + { + "epoch": 0.437632, + "grad_norm": 1.4269821643829346, + "learning_rate": 1.7082453333333336e-05, + "loss": 0.045, + "step": 68380 + }, + { + "epoch": 0.437664, + "grad_norm": 0.43151265382766724, + "learning_rate": 1.708224e-05, + "loss": 0.0134, + "step": 68385 + }, + { + "epoch": 0.437696, + "grad_norm": 0.5690658092498779, + "learning_rate": 1.7082026666666668e-05, + "loss": 0.0161, + "step": 68390 + }, + { + "epoch": 0.437728, + "grad_norm": 0.7531951665878296, + "learning_rate": 1.7081813333333335e-05, + "loss": 0.0265, + "step": 68395 + }, + { + "epoch": 0.43776, + "grad_norm": 0.37288087606430054, + "learning_rate": 1.70816e-05, + "loss": 0.0173, + "step": 68400 + }, + { + "epoch": 0.437792, + "grad_norm": 0.4231632351875305, + "learning_rate": 1.7081386666666667e-05, + "loss": 0.0479, + "step": 68405 + }, + { + "epoch": 0.437824, + "grad_norm": 0.40487679839134216, + "learning_rate": 1.7081173333333334e-05, + "loss": 0.0427, + "step": 68410 + }, + { + "epoch": 0.437856, + "grad_norm": 1.1838921308517456, + "learning_rate": 1.7080960000000002e-05, + "loss": 0.0176, + "step": 68415 + }, + { + "epoch": 0.437888, + "grad_norm": 0.5741022229194641, + "learning_rate": 1.7080746666666666e-05, + "loss": 0.02, + "step": 68420 + }, + { + "epoch": 0.43792, + "grad_norm": 0.7768545746803284, + "learning_rate": 1.7080533333333337e-05, + "loss": 0.0351, + "step": 68425 + }, + { + "epoch": 0.437952, + "grad_norm": 0.6808430552482605, + "learning_rate": 1.708032e-05, + "loss": 0.0272, + "step": 68430 + }, + { + "epoch": 0.437984, + "grad_norm": 0.6956554055213928, + "learning_rate": 1.708010666666667e-05, + "loss": 0.0266, + "step": 68435 + }, + { + "epoch": 0.438016, + "grad_norm": 0.7859745025634766, + "learning_rate": 1.7079893333333336e-05, + "loss": 0.0288, + "step": 68440 + }, + { + "epoch": 0.438048, + "grad_norm": 0.9373061060905457, + "learning_rate": 1.707968e-05, + "loss": 0.0385, + "step": 68445 + }, + { + "epoch": 0.43808, + "grad_norm": 0.5664258003234863, + "learning_rate": 1.7079466666666668e-05, + "loss": 0.0556, + "step": 68450 + }, + { + "epoch": 0.438112, + "grad_norm": 0.650835394859314, + "learning_rate": 1.7079253333333336e-05, + "loss": 0.015, + "step": 68455 + }, + { + "epoch": 0.438144, + "grad_norm": 0.6888903975486755, + "learning_rate": 1.7079040000000003e-05, + "loss": 0.0334, + "step": 68460 + }, + { + "epoch": 0.438176, + "grad_norm": 0.6615810990333557, + "learning_rate": 1.7078826666666667e-05, + "loss": 0.0221, + "step": 68465 + }, + { + "epoch": 0.438208, + "grad_norm": 0.44845137000083923, + "learning_rate": 1.7078613333333335e-05, + "loss": 0.0193, + "step": 68470 + }, + { + "epoch": 0.43824, + "grad_norm": 0.4998365044593811, + "learning_rate": 1.7078400000000002e-05, + "loss": 0.0171, + "step": 68475 + }, + { + "epoch": 0.438272, + "grad_norm": 0.6521547436714172, + "learning_rate": 1.7078186666666667e-05, + "loss": 0.0247, + "step": 68480 + }, + { + "epoch": 0.438304, + "grad_norm": 0.14359833300113678, + "learning_rate": 1.7077973333333334e-05, + "loss": 0.0117, + "step": 68485 + }, + { + "epoch": 0.438336, + "grad_norm": 1.5472220182418823, + "learning_rate": 1.707776e-05, + "loss": 0.0343, + "step": 68490 + }, + { + "epoch": 0.438368, + "grad_norm": 0.8676019310951233, + "learning_rate": 1.707754666666667e-05, + "loss": 0.0321, + "step": 68495 + }, + { + "epoch": 0.4384, + "grad_norm": 1.0134830474853516, + "learning_rate": 1.7077333333333333e-05, + "loss": 0.014, + "step": 68500 + }, + { + "epoch": 0.438432, + "grad_norm": 3.1894168853759766, + "learning_rate": 1.707712e-05, + "loss": 0.0151, + "step": 68505 + }, + { + "epoch": 0.438464, + "grad_norm": 0.3169574737548828, + "learning_rate": 1.707690666666667e-05, + "loss": 0.0333, + "step": 68510 + }, + { + "epoch": 0.438496, + "grad_norm": 0.7505330443382263, + "learning_rate": 1.7076693333333333e-05, + "loss": 0.02, + "step": 68515 + }, + { + "epoch": 0.438528, + "grad_norm": 0.8967814445495605, + "learning_rate": 1.7076480000000004e-05, + "loss": 0.0283, + "step": 68520 + }, + { + "epoch": 0.43856, + "grad_norm": 0.6537930965423584, + "learning_rate": 1.7076266666666668e-05, + "loss": 0.034, + "step": 68525 + }, + { + "epoch": 0.438592, + "grad_norm": 0.6310666799545288, + "learning_rate": 1.7076053333333335e-05, + "loss": 0.0472, + "step": 68530 + }, + { + "epoch": 0.438624, + "grad_norm": 0.45957955718040466, + "learning_rate": 1.7075840000000003e-05, + "loss": 0.0259, + "step": 68535 + }, + { + "epoch": 0.438656, + "grad_norm": 0.3832607865333557, + "learning_rate": 1.7075626666666667e-05, + "loss": 0.0277, + "step": 68540 + }, + { + "epoch": 0.438688, + "grad_norm": 0.7689684629440308, + "learning_rate": 1.7075413333333335e-05, + "loss": 0.0238, + "step": 68545 + }, + { + "epoch": 0.43872, + "grad_norm": 2.874814748764038, + "learning_rate": 1.7075200000000002e-05, + "loss": 0.0819, + "step": 68550 + }, + { + "epoch": 0.438752, + "grad_norm": 0.24966047704219818, + "learning_rate": 1.707498666666667e-05, + "loss": 0.0513, + "step": 68555 + }, + { + "epoch": 0.438784, + "grad_norm": 0.8682788014411926, + "learning_rate": 1.7074773333333334e-05, + "loss": 0.0375, + "step": 68560 + }, + { + "epoch": 0.438816, + "grad_norm": 0.5850712060928345, + "learning_rate": 1.707456e-05, + "loss": 0.0271, + "step": 68565 + }, + { + "epoch": 0.438848, + "grad_norm": 1.2477396726608276, + "learning_rate": 1.707434666666667e-05, + "loss": 0.0201, + "step": 68570 + }, + { + "epoch": 0.43888, + "grad_norm": 1.0268110036849976, + "learning_rate": 1.7074133333333333e-05, + "loss": 0.0185, + "step": 68575 + }, + { + "epoch": 0.438912, + "grad_norm": 0.9439307451248169, + "learning_rate": 1.707392e-05, + "loss": 0.0359, + "step": 68580 + }, + { + "epoch": 0.438944, + "grad_norm": 0.8133872151374817, + "learning_rate": 1.7073706666666668e-05, + "loss": 0.0334, + "step": 68585 + }, + { + "epoch": 0.438976, + "grad_norm": 0.36803266406059265, + "learning_rate": 1.7073493333333336e-05, + "loss": 0.0298, + "step": 68590 + }, + { + "epoch": 0.439008, + "grad_norm": 0.3070276081562042, + "learning_rate": 1.707328e-05, + "loss": 0.0244, + "step": 68595 + }, + { + "epoch": 0.43904, + "grad_norm": 0.376907616853714, + "learning_rate": 1.7073066666666668e-05, + "loss": 0.0133, + "step": 68600 + }, + { + "epoch": 0.439072, + "grad_norm": 0.9817242622375488, + "learning_rate": 1.7072853333333335e-05, + "loss": 0.0258, + "step": 68605 + }, + { + "epoch": 0.439104, + "grad_norm": 1.1817080974578857, + "learning_rate": 1.707264e-05, + "loss": 0.0291, + "step": 68610 + }, + { + "epoch": 0.439136, + "grad_norm": 0.602790892124176, + "learning_rate": 1.7072426666666667e-05, + "loss": 0.0237, + "step": 68615 + }, + { + "epoch": 0.439168, + "grad_norm": 0.422915518283844, + "learning_rate": 1.7072213333333334e-05, + "loss": 0.0148, + "step": 68620 + }, + { + "epoch": 0.4392, + "grad_norm": 0.6257842183113098, + "learning_rate": 1.7072000000000002e-05, + "loss": 0.0176, + "step": 68625 + }, + { + "epoch": 0.439232, + "grad_norm": 0.6620991230010986, + "learning_rate": 1.7071786666666666e-05, + "loss": 0.027, + "step": 68630 + }, + { + "epoch": 0.439264, + "grad_norm": 1.5145190954208374, + "learning_rate": 1.7071573333333337e-05, + "loss": 0.0416, + "step": 68635 + }, + { + "epoch": 0.439296, + "grad_norm": 1.47835373878479, + "learning_rate": 1.707136e-05, + "loss": 0.0166, + "step": 68640 + }, + { + "epoch": 0.439328, + "grad_norm": 1.1780083179473877, + "learning_rate": 1.7071146666666665e-05, + "loss": 0.0287, + "step": 68645 + }, + { + "epoch": 0.43936, + "grad_norm": 0.6591352820396423, + "learning_rate": 1.7070933333333336e-05, + "loss": 0.0361, + "step": 68650 + }, + { + "epoch": 0.439392, + "grad_norm": 0.8508442640304565, + "learning_rate": 1.707072e-05, + "loss": 0.0242, + "step": 68655 + }, + { + "epoch": 0.439424, + "grad_norm": 0.8428236246109009, + "learning_rate": 1.7070506666666668e-05, + "loss": 0.0223, + "step": 68660 + }, + { + "epoch": 0.439456, + "grad_norm": 0.8718798756599426, + "learning_rate": 1.7070293333333336e-05, + "loss": 0.0245, + "step": 68665 + }, + { + "epoch": 0.439488, + "grad_norm": 0.7429612278938293, + "learning_rate": 1.7070080000000003e-05, + "loss": 0.027, + "step": 68670 + }, + { + "epoch": 0.43952, + "grad_norm": 1.0462355613708496, + "learning_rate": 1.7069866666666667e-05, + "loss": 0.0503, + "step": 68675 + }, + { + "epoch": 0.439552, + "grad_norm": 1.2748702764511108, + "learning_rate": 1.7069653333333335e-05, + "loss": 0.0181, + "step": 68680 + }, + { + "epoch": 0.439584, + "grad_norm": 0.79341721534729, + "learning_rate": 1.7069440000000002e-05, + "loss": 0.0292, + "step": 68685 + }, + { + "epoch": 0.439616, + "grad_norm": 0.38215234875679016, + "learning_rate": 1.7069226666666667e-05, + "loss": 0.0231, + "step": 68690 + }, + { + "epoch": 0.439648, + "grad_norm": 0.9201099872589111, + "learning_rate": 1.7069013333333334e-05, + "loss": 0.0434, + "step": 68695 + }, + { + "epoch": 0.43968, + "grad_norm": 1.0231033563613892, + "learning_rate": 1.70688e-05, + "loss": 0.0493, + "step": 68700 + }, + { + "epoch": 0.439712, + "grad_norm": 0.6661508679389954, + "learning_rate": 1.706858666666667e-05, + "loss": 0.0394, + "step": 68705 + }, + { + "epoch": 0.439744, + "grad_norm": 0.7604101300239563, + "learning_rate": 1.7068373333333333e-05, + "loss": 0.0238, + "step": 68710 + }, + { + "epoch": 0.439776, + "grad_norm": 0.06243252009153366, + "learning_rate": 1.706816e-05, + "loss": 0.0063, + "step": 68715 + }, + { + "epoch": 0.439808, + "grad_norm": 0.9769653677940369, + "learning_rate": 1.706794666666667e-05, + "loss": 0.0257, + "step": 68720 + }, + { + "epoch": 0.43984, + "grad_norm": 0.45363932847976685, + "learning_rate": 1.7067733333333333e-05, + "loss": 0.0277, + "step": 68725 + }, + { + "epoch": 0.439872, + "grad_norm": 0.7117461562156677, + "learning_rate": 1.706752e-05, + "loss": 0.0256, + "step": 68730 + }, + { + "epoch": 0.439904, + "grad_norm": 0.25352972745895386, + "learning_rate": 1.7067306666666668e-05, + "loss": 0.0262, + "step": 68735 + }, + { + "epoch": 0.439936, + "grad_norm": 0.8638193011283875, + "learning_rate": 1.7067093333333335e-05, + "loss": 0.0259, + "step": 68740 + }, + { + "epoch": 0.439968, + "grad_norm": 0.10057643800973892, + "learning_rate": 1.7066880000000003e-05, + "loss": 0.0158, + "step": 68745 + }, + { + "epoch": 0.44, + "grad_norm": 0.5586873888969421, + "learning_rate": 1.706666666666667e-05, + "loss": 0.026, + "step": 68750 + }, + { + "epoch": 0.440032, + "grad_norm": 1.4120702743530273, + "learning_rate": 1.7066453333333335e-05, + "loss": 0.0347, + "step": 68755 + }, + { + "epoch": 0.440064, + "grad_norm": 1.2034999132156372, + "learning_rate": 1.7066240000000002e-05, + "loss": 0.0374, + "step": 68760 + }, + { + "epoch": 0.440096, + "grad_norm": 0.49043190479278564, + "learning_rate": 1.706602666666667e-05, + "loss": 0.0262, + "step": 68765 + }, + { + "epoch": 0.440128, + "grad_norm": 0.6348457932472229, + "learning_rate": 1.7065813333333334e-05, + "loss": 0.0269, + "step": 68770 + }, + { + "epoch": 0.44016, + "grad_norm": 0.21656543016433716, + "learning_rate": 1.70656e-05, + "loss": 0.0198, + "step": 68775 + }, + { + "epoch": 0.440192, + "grad_norm": 1.0272058248519897, + "learning_rate": 1.706538666666667e-05, + "loss": 0.0179, + "step": 68780 + }, + { + "epoch": 0.440224, + "grad_norm": 0.98678058385849, + "learning_rate": 1.7065173333333337e-05, + "loss": 0.0182, + "step": 68785 + }, + { + "epoch": 0.440256, + "grad_norm": 0.6569944620132446, + "learning_rate": 1.706496e-05, + "loss": 0.0155, + "step": 68790 + }, + { + "epoch": 0.440288, + "grad_norm": 0.5823617577552795, + "learning_rate": 1.7064746666666668e-05, + "loss": 0.0172, + "step": 68795 + }, + { + "epoch": 0.44032, + "grad_norm": 0.3732476532459259, + "learning_rate": 1.7064533333333336e-05, + "loss": 0.0317, + "step": 68800 + }, + { + "epoch": 0.440352, + "grad_norm": 1.395304799079895, + "learning_rate": 1.706432e-05, + "loss": 0.0213, + "step": 68805 + }, + { + "epoch": 0.440384, + "grad_norm": 2.294184684753418, + "learning_rate": 1.7064106666666668e-05, + "loss": 0.0252, + "step": 68810 + }, + { + "epoch": 0.440416, + "grad_norm": 0.6248943209648132, + "learning_rate": 1.7063893333333335e-05, + "loss": 0.0181, + "step": 68815 + }, + { + "epoch": 0.440448, + "grad_norm": 0.6129217743873596, + "learning_rate": 1.7063680000000003e-05, + "loss": 0.0251, + "step": 68820 + }, + { + "epoch": 0.44048, + "grad_norm": 0.21222256124019623, + "learning_rate": 1.7063466666666667e-05, + "loss": 0.0126, + "step": 68825 + }, + { + "epoch": 0.440512, + "grad_norm": 0.5926317572593689, + "learning_rate": 1.7063253333333334e-05, + "loss": 0.0285, + "step": 68830 + }, + { + "epoch": 0.440544, + "grad_norm": 0.31496691703796387, + "learning_rate": 1.7063040000000002e-05, + "loss": 0.0152, + "step": 68835 + }, + { + "epoch": 0.440576, + "grad_norm": 0.8725929260253906, + "learning_rate": 1.7062826666666666e-05, + "loss": 0.0311, + "step": 68840 + }, + { + "epoch": 0.440608, + "grad_norm": 1.3770414590835571, + "learning_rate": 1.7062613333333337e-05, + "loss": 0.0324, + "step": 68845 + }, + { + "epoch": 0.44064, + "grad_norm": 0.2402598261833191, + "learning_rate": 1.70624e-05, + "loss": 0.0188, + "step": 68850 + }, + { + "epoch": 0.440672, + "grad_norm": 0.7367720007896423, + "learning_rate": 1.706218666666667e-05, + "loss": 0.0191, + "step": 68855 + }, + { + "epoch": 0.440704, + "grad_norm": 2.3556196689605713, + "learning_rate": 1.7061973333333336e-05, + "loss": 0.0195, + "step": 68860 + }, + { + "epoch": 0.440736, + "grad_norm": 0.10741274058818817, + "learning_rate": 1.706176e-05, + "loss": 0.0098, + "step": 68865 + }, + { + "epoch": 0.440768, + "grad_norm": 0.7517992854118347, + "learning_rate": 1.7061546666666668e-05, + "loss": 0.027, + "step": 68870 + }, + { + "epoch": 0.4408, + "grad_norm": 0.5067135691642761, + "learning_rate": 1.7061333333333336e-05, + "loss": 0.0154, + "step": 68875 + }, + { + "epoch": 0.440832, + "grad_norm": 0.23917658627033234, + "learning_rate": 1.7061120000000003e-05, + "loss": 0.0291, + "step": 68880 + }, + { + "epoch": 0.440864, + "grad_norm": 0.7392937541007996, + "learning_rate": 1.7060906666666667e-05, + "loss": 0.0229, + "step": 68885 + }, + { + "epoch": 0.440896, + "grad_norm": 1.8374375104904175, + "learning_rate": 1.7060693333333335e-05, + "loss": 0.0251, + "step": 68890 + }, + { + "epoch": 0.440928, + "grad_norm": 0.4760155975818634, + "learning_rate": 1.7060480000000002e-05, + "loss": 0.0164, + "step": 68895 + }, + { + "epoch": 0.44096, + "grad_norm": 0.8107460141181946, + "learning_rate": 1.7060266666666667e-05, + "loss": 0.035, + "step": 68900 + }, + { + "epoch": 0.440992, + "grad_norm": 0.4166311025619507, + "learning_rate": 1.7060053333333334e-05, + "loss": 0.023, + "step": 68905 + }, + { + "epoch": 0.441024, + "grad_norm": 0.6684587001800537, + "learning_rate": 1.705984e-05, + "loss": 0.0231, + "step": 68910 + }, + { + "epoch": 0.441056, + "grad_norm": 0.6478745937347412, + "learning_rate": 1.705962666666667e-05, + "loss": 0.0288, + "step": 68915 + }, + { + "epoch": 0.441088, + "grad_norm": 0.5613180994987488, + "learning_rate": 1.7059413333333333e-05, + "loss": 0.0284, + "step": 68920 + }, + { + "epoch": 0.44112, + "grad_norm": 1.0369623899459839, + "learning_rate": 1.70592e-05, + "loss": 0.0332, + "step": 68925 + }, + { + "epoch": 0.441152, + "grad_norm": 0.5071125626564026, + "learning_rate": 1.705898666666667e-05, + "loss": 0.0381, + "step": 68930 + }, + { + "epoch": 0.441184, + "grad_norm": 0.7672725915908813, + "learning_rate": 1.7058773333333333e-05, + "loss": 0.0411, + "step": 68935 + }, + { + "epoch": 0.441216, + "grad_norm": 0.1108078584074974, + "learning_rate": 1.705856e-05, + "loss": 0.0249, + "step": 68940 + }, + { + "epoch": 0.441248, + "grad_norm": 0.9917253851890564, + "learning_rate": 1.7058346666666668e-05, + "loss": 0.0298, + "step": 68945 + }, + { + "epoch": 0.44128, + "grad_norm": 3.1598024368286133, + "learning_rate": 1.7058133333333335e-05, + "loss": 0.051, + "step": 68950 + }, + { + "epoch": 0.441312, + "grad_norm": 0.7802351117134094, + "learning_rate": 1.705792e-05, + "loss": 0.0261, + "step": 68955 + }, + { + "epoch": 0.441344, + "grad_norm": 0.7760217189788818, + "learning_rate": 1.705770666666667e-05, + "loss": 0.0248, + "step": 68960 + }, + { + "epoch": 0.441376, + "grad_norm": 0.3824637234210968, + "learning_rate": 1.7057493333333335e-05, + "loss": 0.0154, + "step": 68965 + }, + { + "epoch": 0.441408, + "grad_norm": 0.27002835273742676, + "learning_rate": 1.7057280000000002e-05, + "loss": 0.0304, + "step": 68970 + }, + { + "epoch": 0.44144, + "grad_norm": 0.6396611928939819, + "learning_rate": 1.705706666666667e-05, + "loss": 0.0242, + "step": 68975 + }, + { + "epoch": 0.441472, + "grad_norm": 1.8166922330856323, + "learning_rate": 1.7056853333333334e-05, + "loss": 0.0381, + "step": 68980 + }, + { + "epoch": 0.441504, + "grad_norm": 0.6959559917449951, + "learning_rate": 1.705664e-05, + "loss": 0.0234, + "step": 68985 + }, + { + "epoch": 0.441536, + "grad_norm": 0.7085306644439697, + "learning_rate": 1.705642666666667e-05, + "loss": 0.0201, + "step": 68990 + }, + { + "epoch": 0.441568, + "grad_norm": 0.5396133065223694, + "learning_rate": 1.7056213333333337e-05, + "loss": 0.037, + "step": 68995 + }, + { + "epoch": 0.4416, + "grad_norm": 1.399025797843933, + "learning_rate": 1.7056e-05, + "loss": 0.068, + "step": 69000 + }, + { + "epoch": 0.441632, + "grad_norm": 0.6878241896629333, + "learning_rate": 1.7055786666666668e-05, + "loss": 0.0289, + "step": 69005 + }, + { + "epoch": 0.441664, + "grad_norm": 0.3188283443450928, + "learning_rate": 1.7055573333333336e-05, + "loss": 0.021, + "step": 69010 + }, + { + "epoch": 0.441696, + "grad_norm": 0.5546562671661377, + "learning_rate": 1.705536e-05, + "loss": 0.0315, + "step": 69015 + }, + { + "epoch": 0.441728, + "grad_norm": 0.5799657106399536, + "learning_rate": 1.7055146666666668e-05, + "loss": 0.014, + "step": 69020 + }, + { + "epoch": 0.44176, + "grad_norm": 0.11809124797582626, + "learning_rate": 1.7054933333333335e-05, + "loss": 0.0169, + "step": 69025 + }, + { + "epoch": 0.441792, + "grad_norm": 0.7306166887283325, + "learning_rate": 1.7054720000000003e-05, + "loss": 0.0206, + "step": 69030 + }, + { + "epoch": 0.441824, + "grad_norm": 0.6518877148628235, + "learning_rate": 1.7054506666666667e-05, + "loss": 0.025, + "step": 69035 + }, + { + "epoch": 0.441856, + "grad_norm": 0.28245893120765686, + "learning_rate": 1.7054293333333334e-05, + "loss": 0.0214, + "step": 69040 + }, + { + "epoch": 0.441888, + "grad_norm": 0.9306275248527527, + "learning_rate": 1.7054080000000002e-05, + "loss": 0.0312, + "step": 69045 + }, + { + "epoch": 0.44192, + "grad_norm": 0.7509138584136963, + "learning_rate": 1.7053866666666666e-05, + "loss": 0.0267, + "step": 69050 + }, + { + "epoch": 0.441952, + "grad_norm": 0.9282587170600891, + "learning_rate": 1.7053653333333337e-05, + "loss": 0.0366, + "step": 69055 + }, + { + "epoch": 0.441984, + "grad_norm": 0.3587374985218048, + "learning_rate": 1.705344e-05, + "loss": 0.0467, + "step": 69060 + }, + { + "epoch": 0.442016, + "grad_norm": 0.6516003608703613, + "learning_rate": 1.705322666666667e-05, + "loss": 0.0317, + "step": 69065 + }, + { + "epoch": 0.442048, + "grad_norm": 1.1776593923568726, + "learning_rate": 1.7053013333333336e-05, + "loss": 0.0407, + "step": 69070 + }, + { + "epoch": 0.44208, + "grad_norm": 0.8240936994552612, + "learning_rate": 1.70528e-05, + "loss": 0.024, + "step": 69075 + }, + { + "epoch": 0.442112, + "grad_norm": 0.4087962508201599, + "learning_rate": 1.7052586666666668e-05, + "loss": 0.0269, + "step": 69080 + }, + { + "epoch": 0.442144, + "grad_norm": 0.6021340489387512, + "learning_rate": 1.7052373333333336e-05, + "loss": 0.0531, + "step": 69085 + }, + { + "epoch": 0.442176, + "grad_norm": 0.23712487518787384, + "learning_rate": 1.7052160000000003e-05, + "loss": 0.0234, + "step": 69090 + }, + { + "epoch": 0.442208, + "grad_norm": 1.0945378541946411, + "learning_rate": 1.7051946666666667e-05, + "loss": 0.0255, + "step": 69095 + }, + { + "epoch": 0.44224, + "grad_norm": 0.6114052534103394, + "learning_rate": 1.7051733333333335e-05, + "loss": 0.0242, + "step": 69100 + }, + { + "epoch": 0.442272, + "grad_norm": 0.7549633383750916, + "learning_rate": 1.7051520000000002e-05, + "loss": 0.0143, + "step": 69105 + }, + { + "epoch": 0.442304, + "grad_norm": 0.17565125226974487, + "learning_rate": 1.7051306666666667e-05, + "loss": 0.0315, + "step": 69110 + }, + { + "epoch": 0.442336, + "grad_norm": 0.10987091064453125, + "learning_rate": 1.7051093333333334e-05, + "loss": 0.0199, + "step": 69115 + }, + { + "epoch": 0.442368, + "grad_norm": 1.4280695915222168, + "learning_rate": 1.705088e-05, + "loss": 0.0315, + "step": 69120 + }, + { + "epoch": 0.4424, + "grad_norm": 0.28344011306762695, + "learning_rate": 1.705066666666667e-05, + "loss": 0.0257, + "step": 69125 + }, + { + "epoch": 0.442432, + "grad_norm": 0.2547105550765991, + "learning_rate": 1.7050453333333333e-05, + "loss": 0.0193, + "step": 69130 + }, + { + "epoch": 0.442464, + "grad_norm": 0.35590875148773193, + "learning_rate": 1.705024e-05, + "loss": 0.0139, + "step": 69135 + }, + { + "epoch": 0.442496, + "grad_norm": 0.7955443263053894, + "learning_rate": 1.705002666666667e-05, + "loss": 0.0255, + "step": 69140 + }, + { + "epoch": 0.442528, + "grad_norm": 0.4051267206668854, + "learning_rate": 1.7049813333333333e-05, + "loss": 0.0092, + "step": 69145 + }, + { + "epoch": 0.44256, + "grad_norm": 0.24289754033088684, + "learning_rate": 1.70496e-05, + "loss": 0.0162, + "step": 69150 + }, + { + "epoch": 0.442592, + "grad_norm": 0.8661038875579834, + "learning_rate": 1.7049386666666668e-05, + "loss": 0.0157, + "step": 69155 + }, + { + "epoch": 0.442624, + "grad_norm": 0.5457803606987, + "learning_rate": 1.7049173333333335e-05, + "loss": 0.0145, + "step": 69160 + }, + { + "epoch": 0.442656, + "grad_norm": 0.6632707118988037, + "learning_rate": 1.704896e-05, + "loss": 0.0315, + "step": 69165 + }, + { + "epoch": 0.442688, + "grad_norm": 0.7719644904136658, + "learning_rate": 1.704874666666667e-05, + "loss": 0.0363, + "step": 69170 + }, + { + "epoch": 0.44272, + "grad_norm": 0.5281826257705688, + "learning_rate": 1.7048533333333335e-05, + "loss": 0.029, + "step": 69175 + }, + { + "epoch": 0.442752, + "grad_norm": 0.6539373397827148, + "learning_rate": 1.704832e-05, + "loss": 0.0206, + "step": 69180 + }, + { + "epoch": 0.442784, + "grad_norm": 1.0599530935287476, + "learning_rate": 1.704810666666667e-05, + "loss": 0.017, + "step": 69185 + }, + { + "epoch": 0.442816, + "grad_norm": 0.6761560440063477, + "learning_rate": 1.7047893333333334e-05, + "loss": 0.0165, + "step": 69190 + }, + { + "epoch": 0.442848, + "grad_norm": 0.5290300250053406, + "learning_rate": 1.704768e-05, + "loss": 0.0204, + "step": 69195 + }, + { + "epoch": 0.44288, + "grad_norm": 1.0673067569732666, + "learning_rate": 1.704746666666667e-05, + "loss": 0.0327, + "step": 69200 + }, + { + "epoch": 0.442912, + "grad_norm": 0.6489612460136414, + "learning_rate": 1.7047253333333337e-05, + "loss": 0.0507, + "step": 69205 + }, + { + "epoch": 0.442944, + "grad_norm": 1.143170952796936, + "learning_rate": 1.704704e-05, + "loss": 0.0206, + "step": 69210 + }, + { + "epoch": 0.442976, + "grad_norm": 4.98525857925415, + "learning_rate": 1.7046826666666668e-05, + "loss": 0.0246, + "step": 69215 + }, + { + "epoch": 0.443008, + "grad_norm": 0.8732683658599854, + "learning_rate": 1.7046613333333336e-05, + "loss": 0.0258, + "step": 69220 + }, + { + "epoch": 0.44304, + "grad_norm": 2.852708578109741, + "learning_rate": 1.70464e-05, + "loss": 0.028, + "step": 69225 + }, + { + "epoch": 0.443072, + "grad_norm": 0.5767108201980591, + "learning_rate": 1.7046186666666668e-05, + "loss": 0.0282, + "step": 69230 + }, + { + "epoch": 0.443104, + "grad_norm": 0.4895208179950714, + "learning_rate": 1.7045973333333335e-05, + "loss": 0.0357, + "step": 69235 + }, + { + "epoch": 0.443136, + "grad_norm": 0.6599165201187134, + "learning_rate": 1.7045760000000003e-05, + "loss": 0.0223, + "step": 69240 + }, + { + "epoch": 0.443168, + "grad_norm": 1.1501119136810303, + "learning_rate": 1.7045546666666667e-05, + "loss": 0.0442, + "step": 69245 + }, + { + "epoch": 0.4432, + "grad_norm": 1.1947557926177979, + "learning_rate": 1.7045333333333334e-05, + "loss": 0.0447, + "step": 69250 + }, + { + "epoch": 0.443232, + "grad_norm": 0.4377163350582123, + "learning_rate": 1.7045120000000002e-05, + "loss": 0.0164, + "step": 69255 + }, + { + "epoch": 0.443264, + "grad_norm": 1.1075811386108398, + "learning_rate": 1.7044906666666666e-05, + "loss": 0.0256, + "step": 69260 + }, + { + "epoch": 0.443296, + "grad_norm": 0.7454087734222412, + "learning_rate": 1.7044693333333334e-05, + "loss": 0.0275, + "step": 69265 + }, + { + "epoch": 0.443328, + "grad_norm": 0.36865493655204773, + "learning_rate": 1.704448e-05, + "loss": 0.0131, + "step": 69270 + }, + { + "epoch": 0.44336, + "grad_norm": 0.9476133584976196, + "learning_rate": 1.704426666666667e-05, + "loss": 0.0288, + "step": 69275 + }, + { + "epoch": 0.443392, + "grad_norm": 0.756585955619812, + "learning_rate": 1.7044053333333336e-05, + "loss": 0.0457, + "step": 69280 + }, + { + "epoch": 0.443424, + "grad_norm": 0.31996604800224304, + "learning_rate": 1.704384e-05, + "loss": 0.0327, + "step": 69285 + }, + { + "epoch": 0.443456, + "grad_norm": 0.716610312461853, + "learning_rate": 1.7043626666666668e-05, + "loss": 0.0196, + "step": 69290 + }, + { + "epoch": 0.443488, + "grad_norm": 0.5663509368896484, + "learning_rate": 1.7043413333333336e-05, + "loss": 0.0278, + "step": 69295 + }, + { + "epoch": 0.44352, + "grad_norm": 0.439777672290802, + "learning_rate": 1.7043200000000003e-05, + "loss": 0.0292, + "step": 69300 + }, + { + "epoch": 0.443552, + "grad_norm": 0.5143272876739502, + "learning_rate": 1.7042986666666667e-05, + "loss": 0.0222, + "step": 69305 + }, + { + "epoch": 0.443584, + "grad_norm": 0.3914623558521271, + "learning_rate": 1.7042773333333335e-05, + "loss": 0.0139, + "step": 69310 + }, + { + "epoch": 0.443616, + "grad_norm": 0.7639713287353516, + "learning_rate": 1.7042560000000002e-05, + "loss": 0.0131, + "step": 69315 + }, + { + "epoch": 0.443648, + "grad_norm": 0.5690070390701294, + "learning_rate": 1.7042346666666667e-05, + "loss": 0.0338, + "step": 69320 + }, + { + "epoch": 0.44368, + "grad_norm": 0.7460106015205383, + "learning_rate": 1.7042133333333334e-05, + "loss": 0.0196, + "step": 69325 + }, + { + "epoch": 0.443712, + "grad_norm": 0.8921063542366028, + "learning_rate": 1.704192e-05, + "loss": 0.0214, + "step": 69330 + }, + { + "epoch": 0.443744, + "grad_norm": 1.539984107017517, + "learning_rate": 1.704170666666667e-05, + "loss": 0.0224, + "step": 69335 + }, + { + "epoch": 0.443776, + "grad_norm": 0.7936702966690063, + "learning_rate": 1.7041493333333333e-05, + "loss": 0.0562, + "step": 69340 + }, + { + "epoch": 0.443808, + "grad_norm": 0.7831597924232483, + "learning_rate": 1.704128e-05, + "loss": 0.0268, + "step": 69345 + }, + { + "epoch": 0.44384, + "grad_norm": 0.10772084444761276, + "learning_rate": 1.704106666666667e-05, + "loss": 0.028, + "step": 69350 + }, + { + "epoch": 0.443872, + "grad_norm": 0.5460778474807739, + "learning_rate": 1.7040853333333333e-05, + "loss": 0.0334, + "step": 69355 + }, + { + "epoch": 0.443904, + "grad_norm": 0.9284961819648743, + "learning_rate": 1.704064e-05, + "loss": 0.0254, + "step": 69360 + }, + { + "epoch": 0.443936, + "grad_norm": 0.6339739561080933, + "learning_rate": 1.7040426666666668e-05, + "loss": 0.0103, + "step": 69365 + }, + { + "epoch": 0.443968, + "grad_norm": 0.7829840779304504, + "learning_rate": 1.7040213333333335e-05, + "loss": 0.0258, + "step": 69370 + }, + { + "epoch": 0.444, + "grad_norm": 0.3742814362049103, + "learning_rate": 1.704e-05, + "loss": 0.0227, + "step": 69375 + }, + { + "epoch": 0.444032, + "grad_norm": 0.5973638892173767, + "learning_rate": 1.703978666666667e-05, + "loss": 0.042, + "step": 69380 + }, + { + "epoch": 0.444064, + "grad_norm": 0.5619898438453674, + "learning_rate": 1.7039573333333335e-05, + "loss": 0.0093, + "step": 69385 + }, + { + "epoch": 0.444096, + "grad_norm": 1.0019495487213135, + "learning_rate": 1.703936e-05, + "loss": 0.0268, + "step": 69390 + }, + { + "epoch": 0.444128, + "grad_norm": 0.24453485012054443, + "learning_rate": 1.703914666666667e-05, + "loss": 0.0463, + "step": 69395 + }, + { + "epoch": 0.44416, + "grad_norm": 0.8713423609733582, + "learning_rate": 1.7038933333333334e-05, + "loss": 0.0254, + "step": 69400 + }, + { + "epoch": 0.444192, + "grad_norm": 0.45483455061912537, + "learning_rate": 1.703872e-05, + "loss": 0.0182, + "step": 69405 + }, + { + "epoch": 0.444224, + "grad_norm": 0.8388352394104004, + "learning_rate": 1.703850666666667e-05, + "loss": 0.03, + "step": 69410 + }, + { + "epoch": 0.444256, + "grad_norm": 0.6149225234985352, + "learning_rate": 1.7038293333333337e-05, + "loss": 0.0457, + "step": 69415 + }, + { + "epoch": 0.444288, + "grad_norm": 0.24126742780208588, + "learning_rate": 1.703808e-05, + "loss": 0.0355, + "step": 69420 + }, + { + "epoch": 0.44432, + "grad_norm": 0.7421566843986511, + "learning_rate": 1.7037866666666668e-05, + "loss": 0.0256, + "step": 69425 + }, + { + "epoch": 0.444352, + "grad_norm": 2.738054037094116, + "learning_rate": 1.7037653333333336e-05, + "loss": 0.032, + "step": 69430 + }, + { + "epoch": 0.444384, + "grad_norm": 0.5697733759880066, + "learning_rate": 1.703744e-05, + "loss": 0.0358, + "step": 69435 + }, + { + "epoch": 0.444416, + "grad_norm": 0.378378301858902, + "learning_rate": 1.7037226666666668e-05, + "loss": 0.0172, + "step": 69440 + }, + { + "epoch": 0.444448, + "grad_norm": 1.0968220233917236, + "learning_rate": 1.7037013333333335e-05, + "loss": 0.0321, + "step": 69445 + }, + { + "epoch": 0.44448, + "grad_norm": 0.77427077293396, + "learning_rate": 1.7036800000000003e-05, + "loss": 0.0316, + "step": 69450 + }, + { + "epoch": 0.444512, + "grad_norm": 0.3799101412296295, + "learning_rate": 1.7036586666666667e-05, + "loss": 0.0218, + "step": 69455 + }, + { + "epoch": 0.444544, + "grad_norm": 0.7825517654418945, + "learning_rate": 1.7036373333333334e-05, + "loss": 0.032, + "step": 69460 + }, + { + "epoch": 0.444576, + "grad_norm": 0.41488873958587646, + "learning_rate": 1.7036160000000002e-05, + "loss": 0.0204, + "step": 69465 + }, + { + "epoch": 0.444608, + "grad_norm": 1.48113214969635, + "learning_rate": 1.7035946666666666e-05, + "loss": 0.0438, + "step": 69470 + }, + { + "epoch": 0.44464, + "grad_norm": 0.68292236328125, + "learning_rate": 1.7035733333333334e-05, + "loss": 0.0181, + "step": 69475 + }, + { + "epoch": 0.444672, + "grad_norm": 0.7517697811126709, + "learning_rate": 1.703552e-05, + "loss": 0.034, + "step": 69480 + }, + { + "epoch": 0.444704, + "grad_norm": 0.8149632215499878, + "learning_rate": 1.703530666666667e-05, + "loss": 0.0342, + "step": 69485 + }, + { + "epoch": 0.444736, + "grad_norm": 1.164732813835144, + "learning_rate": 1.7035093333333333e-05, + "loss": 0.0239, + "step": 69490 + }, + { + "epoch": 0.444768, + "grad_norm": 0.6160671710968018, + "learning_rate": 1.703488e-05, + "loss": 0.0239, + "step": 69495 + }, + { + "epoch": 0.4448, + "grad_norm": 0.8206811547279358, + "learning_rate": 1.7034666666666668e-05, + "loss": 0.0253, + "step": 69500 + }, + { + "epoch": 0.444832, + "grad_norm": 0.3343517482280731, + "learning_rate": 1.7034453333333336e-05, + "loss": 0.0252, + "step": 69505 + }, + { + "epoch": 0.444864, + "grad_norm": 1.1779417991638184, + "learning_rate": 1.7034240000000003e-05, + "loss": 0.0117, + "step": 69510 + }, + { + "epoch": 0.444896, + "grad_norm": 0.2903748154640198, + "learning_rate": 1.7034026666666667e-05, + "loss": 0.0105, + "step": 69515 + }, + { + "epoch": 0.444928, + "grad_norm": 1.512584924697876, + "learning_rate": 1.7033813333333335e-05, + "loss": 0.0392, + "step": 69520 + }, + { + "epoch": 0.44496, + "grad_norm": 0.5753370523452759, + "learning_rate": 1.7033600000000002e-05, + "loss": 0.0267, + "step": 69525 + }, + { + "epoch": 0.444992, + "grad_norm": 0.21011488139629364, + "learning_rate": 1.7033386666666667e-05, + "loss": 0.0199, + "step": 69530 + }, + { + "epoch": 0.445024, + "grad_norm": 2.4829013347625732, + "learning_rate": 1.7033173333333334e-05, + "loss": 0.033, + "step": 69535 + }, + { + "epoch": 0.445056, + "grad_norm": 0.8759416937828064, + "learning_rate": 1.703296e-05, + "loss": 0.0254, + "step": 69540 + }, + { + "epoch": 0.445088, + "grad_norm": 2.3894808292388916, + "learning_rate": 1.703274666666667e-05, + "loss": 0.0461, + "step": 69545 + }, + { + "epoch": 0.44512, + "grad_norm": 0.6560869216918945, + "learning_rate": 1.7032533333333333e-05, + "loss": 0.0284, + "step": 69550 + }, + { + "epoch": 0.445152, + "grad_norm": 0.4884044826030731, + "learning_rate": 1.703232e-05, + "loss": 0.0201, + "step": 69555 + }, + { + "epoch": 0.445184, + "grad_norm": 0.4733560383319855, + "learning_rate": 1.703210666666667e-05, + "loss": 0.0183, + "step": 69560 + }, + { + "epoch": 0.445216, + "grad_norm": 0.16835124790668488, + "learning_rate": 1.7031893333333336e-05, + "loss": 0.0134, + "step": 69565 + }, + { + "epoch": 0.445248, + "grad_norm": 0.09122559428215027, + "learning_rate": 1.703168e-05, + "loss": 0.0195, + "step": 69570 + }, + { + "epoch": 0.44528, + "grad_norm": 0.5718736052513123, + "learning_rate": 1.7031466666666668e-05, + "loss": 0.0337, + "step": 69575 + }, + { + "epoch": 0.445312, + "grad_norm": 0.4114496409893036, + "learning_rate": 1.7031253333333335e-05, + "loss": 0.0177, + "step": 69580 + }, + { + "epoch": 0.445344, + "grad_norm": 1.1556271314620972, + "learning_rate": 1.703104e-05, + "loss": 0.0182, + "step": 69585 + }, + { + "epoch": 0.445376, + "grad_norm": 0.4496895372867584, + "learning_rate": 1.703082666666667e-05, + "loss": 0.0217, + "step": 69590 + }, + { + "epoch": 0.445408, + "grad_norm": 1.4021011590957642, + "learning_rate": 1.7030613333333335e-05, + "loss": 0.0357, + "step": 69595 + }, + { + "epoch": 0.44544, + "grad_norm": 0.6408141851425171, + "learning_rate": 1.7030400000000002e-05, + "loss": 0.0111, + "step": 69600 + }, + { + "epoch": 0.445472, + "grad_norm": 0.7421806454658508, + "learning_rate": 1.703018666666667e-05, + "loss": 0.0237, + "step": 69605 + }, + { + "epoch": 0.445504, + "grad_norm": 0.8433457612991333, + "learning_rate": 1.7029973333333334e-05, + "loss": 0.0311, + "step": 69610 + }, + { + "epoch": 0.445536, + "grad_norm": 0.5732282400131226, + "learning_rate": 1.702976e-05, + "loss": 0.0234, + "step": 69615 + }, + { + "epoch": 0.445568, + "grad_norm": 0.44439148902893066, + "learning_rate": 1.702954666666667e-05, + "loss": 0.0219, + "step": 69620 + }, + { + "epoch": 0.4456, + "grad_norm": 0.7653713226318359, + "learning_rate": 1.7029333333333337e-05, + "loss": 0.0262, + "step": 69625 + }, + { + "epoch": 0.445632, + "grad_norm": 0.8720147609710693, + "learning_rate": 1.702912e-05, + "loss": 0.0174, + "step": 69630 + }, + { + "epoch": 0.445664, + "grad_norm": 0.29408279061317444, + "learning_rate": 1.7028906666666668e-05, + "loss": 0.0364, + "step": 69635 + }, + { + "epoch": 0.445696, + "grad_norm": 0.6810384392738342, + "learning_rate": 1.7028693333333336e-05, + "loss": 0.0226, + "step": 69640 + }, + { + "epoch": 0.445728, + "grad_norm": 1.3520472049713135, + "learning_rate": 1.702848e-05, + "loss": 0.0259, + "step": 69645 + }, + { + "epoch": 0.44576, + "grad_norm": 1.0882810354232788, + "learning_rate": 1.7028266666666668e-05, + "loss": 0.0323, + "step": 69650 + }, + { + "epoch": 0.445792, + "grad_norm": 0.8670471906661987, + "learning_rate": 1.7028053333333335e-05, + "loss": 0.0313, + "step": 69655 + }, + { + "epoch": 0.445824, + "grad_norm": 0.24932317435741425, + "learning_rate": 1.7027840000000003e-05, + "loss": 0.0476, + "step": 69660 + }, + { + "epoch": 0.445856, + "grad_norm": 0.5146103501319885, + "learning_rate": 1.7027626666666667e-05, + "loss": 0.0176, + "step": 69665 + }, + { + "epoch": 0.445888, + "grad_norm": 0.6407524347305298, + "learning_rate": 1.7027413333333334e-05, + "loss": 0.0128, + "step": 69670 + }, + { + "epoch": 0.44592, + "grad_norm": 0.15571577847003937, + "learning_rate": 1.7027200000000002e-05, + "loss": 0.0285, + "step": 69675 + }, + { + "epoch": 0.445952, + "grad_norm": 0.7567259669303894, + "learning_rate": 1.7026986666666666e-05, + "loss": 0.0328, + "step": 69680 + }, + { + "epoch": 0.445984, + "grad_norm": 1.1645102500915527, + "learning_rate": 1.7026773333333334e-05, + "loss": 0.038, + "step": 69685 + }, + { + "epoch": 0.446016, + "grad_norm": 0.8969789743423462, + "learning_rate": 1.702656e-05, + "loss": 0.0484, + "step": 69690 + }, + { + "epoch": 0.446048, + "grad_norm": 1.0159140825271606, + "learning_rate": 1.702634666666667e-05, + "loss": 0.022, + "step": 69695 + }, + { + "epoch": 0.44608, + "grad_norm": 0.741280734539032, + "learning_rate": 1.7026133333333333e-05, + "loss": 0.0462, + "step": 69700 + }, + { + "epoch": 0.446112, + "grad_norm": 0.8227748870849609, + "learning_rate": 1.7025920000000004e-05, + "loss": 0.0261, + "step": 69705 + }, + { + "epoch": 0.446144, + "grad_norm": 0.35654670000076294, + "learning_rate": 1.7025706666666668e-05, + "loss": 0.0193, + "step": 69710 + }, + { + "epoch": 0.446176, + "grad_norm": 0.5100668668746948, + "learning_rate": 1.7025493333333336e-05, + "loss": 0.039, + "step": 69715 + }, + { + "epoch": 0.446208, + "grad_norm": 0.2379024773836136, + "learning_rate": 1.7025280000000003e-05, + "loss": 0.0373, + "step": 69720 + }, + { + "epoch": 0.44624, + "grad_norm": 0.5042620301246643, + "learning_rate": 1.7025066666666667e-05, + "loss": 0.0202, + "step": 69725 + }, + { + "epoch": 0.446272, + "grad_norm": 0.42378339171409607, + "learning_rate": 1.7024853333333335e-05, + "loss": 0.0513, + "step": 69730 + }, + { + "epoch": 0.446304, + "grad_norm": 0.22112613916397095, + "learning_rate": 1.7024640000000002e-05, + "loss": 0.0229, + "step": 69735 + }, + { + "epoch": 0.446336, + "grad_norm": 0.28333935141563416, + "learning_rate": 1.702442666666667e-05, + "loss": 0.0195, + "step": 69740 + }, + { + "epoch": 0.446368, + "grad_norm": 0.8412303328514099, + "learning_rate": 1.7024213333333334e-05, + "loss": 0.0206, + "step": 69745 + }, + { + "epoch": 0.4464, + "grad_norm": 0.7298889756202698, + "learning_rate": 1.7024e-05, + "loss": 0.0147, + "step": 69750 + }, + { + "epoch": 0.446432, + "grad_norm": 0.5399452447891235, + "learning_rate": 1.702378666666667e-05, + "loss": 0.0502, + "step": 69755 + }, + { + "epoch": 0.446464, + "grad_norm": 0.3379359245300293, + "learning_rate": 1.7023573333333333e-05, + "loss": 0.0244, + "step": 69760 + }, + { + "epoch": 0.446496, + "grad_norm": 0.16454355418682098, + "learning_rate": 1.702336e-05, + "loss": 0.0298, + "step": 69765 + }, + { + "epoch": 0.446528, + "grad_norm": 1.222571611404419, + "learning_rate": 1.702314666666667e-05, + "loss": 0.0292, + "step": 69770 + }, + { + "epoch": 0.44656, + "grad_norm": 0.9399204254150391, + "learning_rate": 1.7022933333333336e-05, + "loss": 0.0344, + "step": 69775 + }, + { + "epoch": 0.446592, + "grad_norm": 0.25503048300743103, + "learning_rate": 1.702272e-05, + "loss": 0.0192, + "step": 69780 + }, + { + "epoch": 0.446624, + "grad_norm": 1.0579211711883545, + "learning_rate": 1.7022506666666668e-05, + "loss": 0.0311, + "step": 69785 + }, + { + "epoch": 0.446656, + "grad_norm": 0.5241190195083618, + "learning_rate": 1.7022293333333335e-05, + "loss": 0.0173, + "step": 69790 + }, + { + "epoch": 0.446688, + "grad_norm": 0.40676820278167725, + "learning_rate": 1.702208e-05, + "loss": 0.0113, + "step": 69795 + }, + { + "epoch": 0.44672, + "grad_norm": 0.3810582458972931, + "learning_rate": 1.702186666666667e-05, + "loss": 0.0327, + "step": 69800 + }, + { + "epoch": 0.446752, + "grad_norm": 0.3598683476448059, + "learning_rate": 1.7021653333333335e-05, + "loss": 0.0173, + "step": 69805 + }, + { + "epoch": 0.446784, + "grad_norm": 0.6102341413497925, + "learning_rate": 1.7021440000000002e-05, + "loss": 0.0437, + "step": 69810 + }, + { + "epoch": 0.446816, + "grad_norm": 3.2804269790649414, + "learning_rate": 1.702122666666667e-05, + "loss": 0.023, + "step": 69815 + }, + { + "epoch": 0.446848, + "grad_norm": 0.20447781682014465, + "learning_rate": 1.7021013333333334e-05, + "loss": 0.0378, + "step": 69820 + }, + { + "epoch": 0.44688, + "grad_norm": 0.5243497490882874, + "learning_rate": 1.70208e-05, + "loss": 0.0199, + "step": 69825 + }, + { + "epoch": 0.446912, + "grad_norm": 0.3771507143974304, + "learning_rate": 1.702058666666667e-05, + "loss": 0.0354, + "step": 69830 + }, + { + "epoch": 0.446944, + "grad_norm": 0.20432345569133759, + "learning_rate": 1.7020373333333337e-05, + "loss": 0.0242, + "step": 69835 + }, + { + "epoch": 0.446976, + "grad_norm": 0.2607175409793854, + "learning_rate": 1.702016e-05, + "loss": 0.0234, + "step": 69840 + }, + { + "epoch": 0.447008, + "grad_norm": 0.7235707640647888, + "learning_rate": 1.7019946666666668e-05, + "loss": 0.0264, + "step": 69845 + }, + { + "epoch": 0.44704, + "grad_norm": 0.21072418987751007, + "learning_rate": 1.7019733333333336e-05, + "loss": 0.0204, + "step": 69850 + }, + { + "epoch": 0.447072, + "grad_norm": 0.43505775928497314, + "learning_rate": 1.701952e-05, + "loss": 0.0183, + "step": 69855 + }, + { + "epoch": 0.447104, + "grad_norm": 0.8748831748962402, + "learning_rate": 1.7019306666666668e-05, + "loss": 0.0301, + "step": 69860 + }, + { + "epoch": 0.447136, + "grad_norm": 0.6871958374977112, + "learning_rate": 1.7019093333333335e-05, + "loss": 0.0168, + "step": 69865 + }, + { + "epoch": 0.447168, + "grad_norm": 0.8804026246070862, + "learning_rate": 1.7018880000000003e-05, + "loss": 0.0343, + "step": 69870 + }, + { + "epoch": 0.4472, + "grad_norm": 0.5971329808235168, + "learning_rate": 1.7018666666666667e-05, + "loss": 0.0195, + "step": 69875 + }, + { + "epoch": 0.447232, + "grad_norm": 0.8284645676612854, + "learning_rate": 1.7018453333333334e-05, + "loss": 0.0147, + "step": 69880 + }, + { + "epoch": 0.447264, + "grad_norm": 0.9164917469024658, + "learning_rate": 1.7018240000000002e-05, + "loss": 0.0298, + "step": 69885 + }, + { + "epoch": 0.447296, + "grad_norm": 1.4514200687408447, + "learning_rate": 1.7018026666666666e-05, + "loss": 0.0338, + "step": 69890 + }, + { + "epoch": 0.447328, + "grad_norm": 0.3530583679676056, + "learning_rate": 1.7017813333333334e-05, + "loss": 0.0277, + "step": 69895 + }, + { + "epoch": 0.44736, + "grad_norm": 0.8590230345726013, + "learning_rate": 1.70176e-05, + "loss": 0.0492, + "step": 69900 + }, + { + "epoch": 0.447392, + "grad_norm": 0.18885037302970886, + "learning_rate": 1.701738666666667e-05, + "loss": 0.0125, + "step": 69905 + }, + { + "epoch": 0.447424, + "grad_norm": 0.9345385432243347, + "learning_rate": 1.7017173333333333e-05, + "loss": 0.0521, + "step": 69910 + }, + { + "epoch": 0.447456, + "grad_norm": 0.2083786576986313, + "learning_rate": 1.7016960000000004e-05, + "loss": 0.0184, + "step": 69915 + }, + { + "epoch": 0.447488, + "grad_norm": 1.412066102027893, + "learning_rate": 1.7016746666666668e-05, + "loss": 0.0425, + "step": 69920 + }, + { + "epoch": 0.44752, + "grad_norm": 0.7718529105186462, + "learning_rate": 1.7016533333333332e-05, + "loss": 0.0706, + "step": 69925 + }, + { + "epoch": 0.447552, + "grad_norm": 1.013240098953247, + "learning_rate": 1.7016320000000003e-05, + "loss": 0.0241, + "step": 69930 + }, + { + "epoch": 0.447584, + "grad_norm": 0.7800796031951904, + "learning_rate": 1.7016106666666667e-05, + "loss": 0.0224, + "step": 69935 + }, + { + "epoch": 0.447616, + "grad_norm": 0.8466976284980774, + "learning_rate": 1.7015893333333335e-05, + "loss": 0.0406, + "step": 69940 + }, + { + "epoch": 0.447648, + "grad_norm": 1.031579852104187, + "learning_rate": 1.7015680000000002e-05, + "loss": 0.0413, + "step": 69945 + }, + { + "epoch": 0.44768, + "grad_norm": 0.8876901268959045, + "learning_rate": 1.701546666666667e-05, + "loss": 0.0387, + "step": 69950 + }, + { + "epoch": 0.447712, + "grad_norm": 1.2421292066574097, + "learning_rate": 1.7015253333333334e-05, + "loss": 0.038, + "step": 69955 + }, + { + "epoch": 0.447744, + "grad_norm": 0.9482821822166443, + "learning_rate": 1.701504e-05, + "loss": 0.0202, + "step": 69960 + }, + { + "epoch": 0.447776, + "grad_norm": 0.8283461332321167, + "learning_rate": 1.701482666666667e-05, + "loss": 0.0181, + "step": 69965 + }, + { + "epoch": 0.447808, + "grad_norm": 0.9909730553627014, + "learning_rate": 1.7014613333333333e-05, + "loss": 0.0279, + "step": 69970 + }, + { + "epoch": 0.44784, + "grad_norm": 0.26840612292289734, + "learning_rate": 1.70144e-05, + "loss": 0.0198, + "step": 69975 + }, + { + "epoch": 0.447872, + "grad_norm": 0.7919187545776367, + "learning_rate": 1.701418666666667e-05, + "loss": 0.0299, + "step": 69980 + }, + { + "epoch": 0.447904, + "grad_norm": 0.3810880184173584, + "learning_rate": 1.7013973333333336e-05, + "loss": 0.0101, + "step": 69985 + }, + { + "epoch": 0.447936, + "grad_norm": 0.28015708923339844, + "learning_rate": 1.701376e-05, + "loss": 0.0205, + "step": 69990 + }, + { + "epoch": 0.447968, + "grad_norm": 0.20664839446544647, + "learning_rate": 1.7013546666666668e-05, + "loss": 0.0163, + "step": 69995 + }, + { + "epoch": 0.448, + "grad_norm": 0.5082100033760071, + "learning_rate": 1.7013333333333335e-05, + "loss": 0.0157, + "step": 70000 + }, + { + "epoch": 0.448032, + "grad_norm": 0.8858808279037476, + "learning_rate": 1.701312e-05, + "loss": 0.0314, + "step": 70005 + }, + { + "epoch": 0.448064, + "grad_norm": 0.2527419328689575, + "learning_rate": 1.7012906666666667e-05, + "loss": 0.009, + "step": 70010 + }, + { + "epoch": 0.448096, + "grad_norm": 0.6702315211296082, + "learning_rate": 1.7012693333333335e-05, + "loss": 0.0308, + "step": 70015 + }, + { + "epoch": 0.448128, + "grad_norm": 0.593000054359436, + "learning_rate": 1.7012480000000002e-05, + "loss": 0.0295, + "step": 70020 + }, + { + "epoch": 0.44816, + "grad_norm": 0.7114349007606506, + "learning_rate": 1.701226666666667e-05, + "loss": 0.0259, + "step": 70025 + }, + { + "epoch": 0.448192, + "grad_norm": 1.2186172008514404, + "learning_rate": 1.7012053333333334e-05, + "loss": 0.0252, + "step": 70030 + }, + { + "epoch": 0.448224, + "grad_norm": 0.38833802938461304, + "learning_rate": 1.701184e-05, + "loss": 0.02, + "step": 70035 + }, + { + "epoch": 0.448256, + "grad_norm": 0.4653879404067993, + "learning_rate": 1.701162666666667e-05, + "loss": 0.022, + "step": 70040 + }, + { + "epoch": 0.448288, + "grad_norm": 0.661274790763855, + "learning_rate": 1.7011413333333337e-05, + "loss": 0.0348, + "step": 70045 + }, + { + "epoch": 0.44832, + "grad_norm": 0.999882698059082, + "learning_rate": 1.70112e-05, + "loss": 0.0297, + "step": 70050 + }, + { + "epoch": 0.448352, + "grad_norm": 1.0970842838287354, + "learning_rate": 1.7010986666666668e-05, + "loss": 0.0265, + "step": 70055 + }, + { + "epoch": 0.448384, + "grad_norm": 0.8107550144195557, + "learning_rate": 1.7010773333333336e-05, + "loss": 0.0457, + "step": 70060 + }, + { + "epoch": 0.448416, + "grad_norm": 0.4967074394226074, + "learning_rate": 1.701056e-05, + "loss": 0.0361, + "step": 70065 + }, + { + "epoch": 0.448448, + "grad_norm": 0.6233670711517334, + "learning_rate": 1.7010346666666668e-05, + "loss": 0.02, + "step": 70070 + }, + { + "epoch": 0.44848, + "grad_norm": 0.5223321914672852, + "learning_rate": 1.7010133333333335e-05, + "loss": 0.0291, + "step": 70075 + }, + { + "epoch": 0.448512, + "grad_norm": 0.6219154000282288, + "learning_rate": 1.7009920000000003e-05, + "loss": 0.0295, + "step": 70080 + }, + { + "epoch": 0.448544, + "grad_norm": 0.35630905628204346, + "learning_rate": 1.7009706666666667e-05, + "loss": 0.0301, + "step": 70085 + }, + { + "epoch": 0.448576, + "grad_norm": 0.9548104405403137, + "learning_rate": 1.7009493333333334e-05, + "loss": 0.0499, + "step": 70090 + }, + { + "epoch": 0.448608, + "grad_norm": 0.4271601438522339, + "learning_rate": 1.7009280000000002e-05, + "loss": 0.0134, + "step": 70095 + }, + { + "epoch": 0.44864, + "grad_norm": 0.5743435025215149, + "learning_rate": 1.7009066666666666e-05, + "loss": 0.0227, + "step": 70100 + }, + { + "epoch": 0.448672, + "grad_norm": 0.46659162640571594, + "learning_rate": 1.7008853333333334e-05, + "loss": 0.0494, + "step": 70105 + }, + { + "epoch": 0.448704, + "grad_norm": 3.2102739810943604, + "learning_rate": 1.700864e-05, + "loss": 0.0337, + "step": 70110 + }, + { + "epoch": 0.448736, + "grad_norm": 0.40269267559051514, + "learning_rate": 1.700842666666667e-05, + "loss": 0.0194, + "step": 70115 + }, + { + "epoch": 0.448768, + "grad_norm": 0.5843048691749573, + "learning_rate": 1.7008213333333333e-05, + "loss": 0.0209, + "step": 70120 + }, + { + "epoch": 0.4488, + "grad_norm": 0.21901440620422363, + "learning_rate": 1.7008000000000004e-05, + "loss": 0.0369, + "step": 70125 + }, + { + "epoch": 0.448832, + "grad_norm": 0.46679627895355225, + "learning_rate": 1.7007786666666668e-05, + "loss": 0.0237, + "step": 70130 + }, + { + "epoch": 0.448864, + "grad_norm": 0.5518333315849304, + "learning_rate": 1.7007573333333332e-05, + "loss": 0.0327, + "step": 70135 + }, + { + "epoch": 0.448896, + "grad_norm": 0.662253737449646, + "learning_rate": 1.7007360000000003e-05, + "loss": 0.0293, + "step": 70140 + }, + { + "epoch": 0.448928, + "grad_norm": 1.1656310558319092, + "learning_rate": 1.7007146666666667e-05, + "loss": 0.0168, + "step": 70145 + }, + { + "epoch": 0.44896, + "grad_norm": 0.5823690891265869, + "learning_rate": 1.7006933333333335e-05, + "loss": 0.0288, + "step": 70150 + }, + { + "epoch": 0.448992, + "grad_norm": 0.2663441002368927, + "learning_rate": 1.7006720000000002e-05, + "loss": 0.0243, + "step": 70155 + }, + { + "epoch": 0.449024, + "grad_norm": 1.1959035396575928, + "learning_rate": 1.700650666666667e-05, + "loss": 0.0282, + "step": 70160 + }, + { + "epoch": 0.449056, + "grad_norm": 0.5776332020759583, + "learning_rate": 1.7006293333333334e-05, + "loss": 0.0508, + "step": 70165 + }, + { + "epoch": 0.449088, + "grad_norm": 0.3987395763397217, + "learning_rate": 1.700608e-05, + "loss": 0.0243, + "step": 70170 + }, + { + "epoch": 0.44912, + "grad_norm": 0.3314029276371002, + "learning_rate": 1.700586666666667e-05, + "loss": 0.0135, + "step": 70175 + }, + { + "epoch": 0.449152, + "grad_norm": 0.3986848294734955, + "learning_rate": 1.7005653333333333e-05, + "loss": 0.029, + "step": 70180 + }, + { + "epoch": 0.449184, + "grad_norm": 0.9254441261291504, + "learning_rate": 1.700544e-05, + "loss": 0.034, + "step": 70185 + }, + { + "epoch": 0.449216, + "grad_norm": 1.2735906839370728, + "learning_rate": 1.700522666666667e-05, + "loss": 0.0318, + "step": 70190 + }, + { + "epoch": 0.449248, + "grad_norm": 0.23630432784557343, + "learning_rate": 1.7005013333333336e-05, + "loss": 0.0186, + "step": 70195 + }, + { + "epoch": 0.44928, + "grad_norm": 2.3216798305511475, + "learning_rate": 1.70048e-05, + "loss": 0.0573, + "step": 70200 + }, + { + "epoch": 0.449312, + "grad_norm": 0.6605321764945984, + "learning_rate": 1.7004586666666668e-05, + "loss": 0.0271, + "step": 70205 + }, + { + "epoch": 0.449344, + "grad_norm": 0.8946000337600708, + "learning_rate": 1.7004373333333335e-05, + "loss": 0.02, + "step": 70210 + }, + { + "epoch": 0.449376, + "grad_norm": 0.41056591272354126, + "learning_rate": 1.700416e-05, + "loss": 0.0345, + "step": 70215 + }, + { + "epoch": 0.449408, + "grad_norm": 0.9607809782028198, + "learning_rate": 1.7003946666666667e-05, + "loss": 0.0302, + "step": 70220 + }, + { + "epoch": 0.44944, + "grad_norm": 0.6287891268730164, + "learning_rate": 1.7003733333333335e-05, + "loss": 0.0386, + "step": 70225 + }, + { + "epoch": 0.449472, + "grad_norm": 0.9141616225242615, + "learning_rate": 1.7003520000000002e-05, + "loss": 0.0182, + "step": 70230 + }, + { + "epoch": 0.449504, + "grad_norm": 0.06192708760499954, + "learning_rate": 1.7003306666666666e-05, + "loss": 0.0289, + "step": 70235 + }, + { + "epoch": 0.449536, + "grad_norm": 1.6199876070022583, + "learning_rate": 1.7003093333333334e-05, + "loss": 0.0227, + "step": 70240 + }, + { + "epoch": 0.449568, + "grad_norm": 1.0038127899169922, + "learning_rate": 1.700288e-05, + "loss": 0.021, + "step": 70245 + }, + { + "epoch": 0.4496, + "grad_norm": 1.3326187133789062, + "learning_rate": 1.700266666666667e-05, + "loss": 0.0186, + "step": 70250 + }, + { + "epoch": 0.449632, + "grad_norm": 0.5159787535667419, + "learning_rate": 1.7002453333333337e-05, + "loss": 0.0307, + "step": 70255 + }, + { + "epoch": 0.449664, + "grad_norm": 0.3551415503025055, + "learning_rate": 1.700224e-05, + "loss": 0.0186, + "step": 70260 + }, + { + "epoch": 0.449696, + "grad_norm": 0.3699864447116852, + "learning_rate": 1.7002026666666668e-05, + "loss": 0.0345, + "step": 70265 + }, + { + "epoch": 0.449728, + "grad_norm": 0.42784884572029114, + "learning_rate": 1.7001813333333336e-05, + "loss": 0.0129, + "step": 70270 + }, + { + "epoch": 0.44976, + "grad_norm": 0.6233633160591125, + "learning_rate": 1.70016e-05, + "loss": 0.045, + "step": 70275 + }, + { + "epoch": 0.449792, + "grad_norm": 0.7997702360153198, + "learning_rate": 1.7001386666666668e-05, + "loss": 0.014, + "step": 70280 + }, + { + "epoch": 0.449824, + "grad_norm": 0.4457172453403473, + "learning_rate": 1.7001173333333335e-05, + "loss": 0.0274, + "step": 70285 + }, + { + "epoch": 0.449856, + "grad_norm": 1.1675288677215576, + "learning_rate": 1.7000960000000003e-05, + "loss": 0.0151, + "step": 70290 + }, + { + "epoch": 0.449888, + "grad_norm": 0.3353022634983063, + "learning_rate": 1.7000746666666667e-05, + "loss": 0.0184, + "step": 70295 + }, + { + "epoch": 0.44992, + "grad_norm": 0.6885745525360107, + "learning_rate": 1.7000533333333334e-05, + "loss": 0.0333, + "step": 70300 + }, + { + "epoch": 0.449952, + "grad_norm": 1.3866729736328125, + "learning_rate": 1.7000320000000002e-05, + "loss": 0.0287, + "step": 70305 + }, + { + "epoch": 0.449984, + "grad_norm": 0.07617694139480591, + "learning_rate": 1.7000106666666666e-05, + "loss": 0.0227, + "step": 70310 + }, + { + "epoch": 0.450016, + "grad_norm": 0.8288926482200623, + "learning_rate": 1.6999893333333334e-05, + "loss": 0.0372, + "step": 70315 + }, + { + "epoch": 0.450048, + "grad_norm": 0.848124623298645, + "learning_rate": 1.699968e-05, + "loss": 0.0306, + "step": 70320 + }, + { + "epoch": 0.45008, + "grad_norm": 0.9432013034820557, + "learning_rate": 1.699946666666667e-05, + "loss": 0.0265, + "step": 70325 + }, + { + "epoch": 0.450112, + "grad_norm": 0.2597433030605316, + "learning_rate": 1.6999253333333333e-05, + "loss": 0.0164, + "step": 70330 + }, + { + "epoch": 0.450144, + "grad_norm": 0.6787878274917603, + "learning_rate": 1.6999040000000004e-05, + "loss": 0.0456, + "step": 70335 + }, + { + "epoch": 0.450176, + "grad_norm": 0.6389397382736206, + "learning_rate": 1.6998826666666668e-05, + "loss": 0.0363, + "step": 70340 + }, + { + "epoch": 0.450208, + "grad_norm": 0.6255109310150146, + "learning_rate": 1.6998613333333332e-05, + "loss": 0.0369, + "step": 70345 + }, + { + "epoch": 0.45024, + "grad_norm": 0.25862693786621094, + "learning_rate": 1.6998400000000003e-05, + "loss": 0.0321, + "step": 70350 + }, + { + "epoch": 0.450272, + "grad_norm": 0.7840356230735779, + "learning_rate": 1.6998186666666667e-05, + "loss": 0.0278, + "step": 70355 + }, + { + "epoch": 0.450304, + "grad_norm": 1.075053095817566, + "learning_rate": 1.6997973333333335e-05, + "loss": 0.0481, + "step": 70360 + }, + { + "epoch": 0.450336, + "grad_norm": 0.5434634685516357, + "learning_rate": 1.6997760000000002e-05, + "loss": 0.018, + "step": 70365 + }, + { + "epoch": 0.450368, + "grad_norm": 0.45328447222709656, + "learning_rate": 1.699754666666667e-05, + "loss": 0.0194, + "step": 70370 + }, + { + "epoch": 0.4504, + "grad_norm": 0.9132006168365479, + "learning_rate": 1.6997333333333334e-05, + "loss": 0.03, + "step": 70375 + }, + { + "epoch": 0.450432, + "grad_norm": 0.4979681372642517, + "learning_rate": 1.699712e-05, + "loss": 0.0201, + "step": 70380 + }, + { + "epoch": 0.450464, + "grad_norm": 0.4572502076625824, + "learning_rate": 1.699690666666667e-05, + "loss": 0.0537, + "step": 70385 + }, + { + "epoch": 0.450496, + "grad_norm": 0.9405127763748169, + "learning_rate": 1.6996693333333333e-05, + "loss": 0.0194, + "step": 70390 + }, + { + "epoch": 0.450528, + "grad_norm": 0.4651661515235901, + "learning_rate": 1.699648e-05, + "loss": 0.0286, + "step": 70395 + }, + { + "epoch": 0.45056, + "grad_norm": 0.6259599924087524, + "learning_rate": 1.699626666666667e-05, + "loss": 0.027, + "step": 70400 + }, + { + "epoch": 0.450592, + "grad_norm": 0.5748606324195862, + "learning_rate": 1.6996053333333336e-05, + "loss": 0.0182, + "step": 70405 + }, + { + "epoch": 0.450624, + "grad_norm": 0.23078608512878418, + "learning_rate": 1.699584e-05, + "loss": 0.0345, + "step": 70410 + }, + { + "epoch": 0.450656, + "grad_norm": 1.4503875970840454, + "learning_rate": 1.6995626666666668e-05, + "loss": 0.0376, + "step": 70415 + }, + { + "epoch": 0.450688, + "grad_norm": 0.5074356198310852, + "learning_rate": 1.6995413333333335e-05, + "loss": 0.0243, + "step": 70420 + }, + { + "epoch": 0.45072, + "grad_norm": 0.8380369544029236, + "learning_rate": 1.69952e-05, + "loss": 0.0222, + "step": 70425 + }, + { + "epoch": 0.450752, + "grad_norm": 0.7737546563148499, + "learning_rate": 1.6994986666666667e-05, + "loss": 0.0268, + "step": 70430 + }, + { + "epoch": 0.450784, + "grad_norm": 0.8366937041282654, + "learning_rate": 1.6994773333333335e-05, + "loss": 0.021, + "step": 70435 + }, + { + "epoch": 0.450816, + "grad_norm": 1.049232840538025, + "learning_rate": 1.6994560000000002e-05, + "loss": 0.0445, + "step": 70440 + }, + { + "epoch": 0.450848, + "grad_norm": 0.592715322971344, + "learning_rate": 1.6994346666666666e-05, + "loss": 0.0169, + "step": 70445 + }, + { + "epoch": 0.45088, + "grad_norm": 3.182692050933838, + "learning_rate": 1.6994133333333337e-05, + "loss": 0.0458, + "step": 70450 + }, + { + "epoch": 0.450912, + "grad_norm": 8.552016258239746, + "learning_rate": 1.699392e-05, + "loss": 0.0457, + "step": 70455 + }, + { + "epoch": 0.450944, + "grad_norm": 0.46682271361351013, + "learning_rate": 1.6993706666666666e-05, + "loss": 0.0223, + "step": 70460 + }, + { + "epoch": 0.450976, + "grad_norm": 0.9837281703948975, + "learning_rate": 1.6993493333333337e-05, + "loss": 0.0197, + "step": 70465 + }, + { + "epoch": 0.451008, + "grad_norm": 0.19100187718868256, + "learning_rate": 1.699328e-05, + "loss": 0.02, + "step": 70470 + }, + { + "epoch": 0.45104, + "grad_norm": 1.0095092058181763, + "learning_rate": 1.6993066666666668e-05, + "loss": 0.0194, + "step": 70475 + }, + { + "epoch": 0.451072, + "grad_norm": 0.41985294222831726, + "learning_rate": 1.6992853333333336e-05, + "loss": 0.0277, + "step": 70480 + }, + { + "epoch": 0.451104, + "grad_norm": 0.692262589931488, + "learning_rate": 1.6992640000000003e-05, + "loss": 0.0368, + "step": 70485 + }, + { + "epoch": 0.451136, + "grad_norm": 0.3837832510471344, + "learning_rate": 1.6992426666666668e-05, + "loss": 0.0249, + "step": 70490 + }, + { + "epoch": 0.451168, + "grad_norm": 0.5209470391273499, + "learning_rate": 1.6992213333333335e-05, + "loss": 0.0197, + "step": 70495 + }, + { + "epoch": 0.4512, + "grad_norm": 1.010495901107788, + "learning_rate": 1.6992000000000003e-05, + "loss": 0.0528, + "step": 70500 + }, + { + "epoch": 0.451232, + "grad_norm": 0.3584206998348236, + "learning_rate": 1.6991786666666667e-05, + "loss": 0.0091, + "step": 70505 + }, + { + "epoch": 0.451264, + "grad_norm": 2.044501781463623, + "learning_rate": 1.6991573333333334e-05, + "loss": 0.0219, + "step": 70510 + }, + { + "epoch": 0.451296, + "grad_norm": 0.6057344079017639, + "learning_rate": 1.6991360000000002e-05, + "loss": 0.0237, + "step": 70515 + }, + { + "epoch": 0.451328, + "grad_norm": 0.6045560836791992, + "learning_rate": 1.699114666666667e-05, + "loss": 0.0152, + "step": 70520 + }, + { + "epoch": 0.45136, + "grad_norm": 0.37465569376945496, + "learning_rate": 1.6990933333333334e-05, + "loss": 0.0125, + "step": 70525 + }, + { + "epoch": 0.451392, + "grad_norm": 0.7273032069206238, + "learning_rate": 1.699072e-05, + "loss": 0.0395, + "step": 70530 + }, + { + "epoch": 0.451424, + "grad_norm": 0.8565219044685364, + "learning_rate": 1.699050666666667e-05, + "loss": 0.0283, + "step": 70535 + }, + { + "epoch": 0.451456, + "grad_norm": 0.9803746938705444, + "learning_rate": 1.6990293333333333e-05, + "loss": 0.0183, + "step": 70540 + }, + { + "epoch": 0.451488, + "grad_norm": 0.20955033600330353, + "learning_rate": 1.699008e-05, + "loss": 0.0131, + "step": 70545 + }, + { + "epoch": 0.45152, + "grad_norm": 0.9211713075637817, + "learning_rate": 1.6989866666666668e-05, + "loss": 0.0503, + "step": 70550 + }, + { + "epoch": 0.451552, + "grad_norm": 0.27872955799102783, + "learning_rate": 1.6989653333333336e-05, + "loss": 0.0369, + "step": 70555 + }, + { + "epoch": 0.451584, + "grad_norm": 0.7507506012916565, + "learning_rate": 1.6989440000000003e-05, + "loss": 0.0273, + "step": 70560 + }, + { + "epoch": 0.451616, + "grad_norm": 0.09549299627542496, + "learning_rate": 1.6989226666666667e-05, + "loss": 0.0098, + "step": 70565 + }, + { + "epoch": 0.451648, + "grad_norm": 0.7724675536155701, + "learning_rate": 1.6989013333333335e-05, + "loss": 0.0345, + "step": 70570 + }, + { + "epoch": 0.45168, + "grad_norm": 0.7031881809234619, + "learning_rate": 1.6988800000000002e-05, + "loss": 0.0137, + "step": 70575 + }, + { + "epoch": 0.451712, + "grad_norm": 1.7517708539962769, + "learning_rate": 1.698858666666667e-05, + "loss": 0.0212, + "step": 70580 + }, + { + "epoch": 0.451744, + "grad_norm": 0.6429882645606995, + "learning_rate": 1.6988373333333334e-05, + "loss": 0.0286, + "step": 70585 + }, + { + "epoch": 0.451776, + "grad_norm": 0.6580783128738403, + "learning_rate": 1.698816e-05, + "loss": 0.031, + "step": 70590 + }, + { + "epoch": 0.451808, + "grad_norm": 0.35142117738723755, + "learning_rate": 1.698794666666667e-05, + "loss": 0.0258, + "step": 70595 + }, + { + "epoch": 0.45184, + "grad_norm": 0.7680773735046387, + "learning_rate": 1.6987733333333333e-05, + "loss": 0.022, + "step": 70600 + }, + { + "epoch": 0.451872, + "grad_norm": 0.26198461651802063, + "learning_rate": 1.698752e-05, + "loss": 0.0192, + "step": 70605 + }, + { + "epoch": 0.451904, + "grad_norm": 0.4890511929988861, + "learning_rate": 1.698730666666667e-05, + "loss": 0.0157, + "step": 70610 + }, + { + "epoch": 0.451936, + "grad_norm": 0.4612787365913391, + "learning_rate": 1.6987093333333336e-05, + "loss": 0.015, + "step": 70615 + }, + { + "epoch": 0.451968, + "grad_norm": 0.8706535696983337, + "learning_rate": 1.698688e-05, + "loss": 0.0233, + "step": 70620 + }, + { + "epoch": 0.452, + "grad_norm": 0.6591690182685852, + "learning_rate": 1.6986666666666668e-05, + "loss": 0.0275, + "step": 70625 + }, + { + "epoch": 0.452032, + "grad_norm": 0.36308154463768005, + "learning_rate": 1.6986453333333335e-05, + "loss": 0.0363, + "step": 70630 + }, + { + "epoch": 0.452064, + "grad_norm": 0.4729653298854828, + "learning_rate": 1.698624e-05, + "loss": 0.0096, + "step": 70635 + }, + { + "epoch": 0.452096, + "grad_norm": 0.708518385887146, + "learning_rate": 1.6986026666666667e-05, + "loss": 0.0401, + "step": 70640 + }, + { + "epoch": 0.452128, + "grad_norm": 0.6943499445915222, + "learning_rate": 1.6985813333333335e-05, + "loss": 0.0243, + "step": 70645 + }, + { + "epoch": 0.45216, + "grad_norm": 0.4482424557209015, + "learning_rate": 1.6985600000000002e-05, + "loss": 0.0291, + "step": 70650 + }, + { + "epoch": 0.452192, + "grad_norm": 0.8580499291419983, + "learning_rate": 1.6985386666666666e-05, + "loss": 0.0237, + "step": 70655 + }, + { + "epoch": 0.452224, + "grad_norm": 0.7200378179550171, + "learning_rate": 1.6985173333333337e-05, + "loss": 0.0278, + "step": 70660 + }, + { + "epoch": 0.452256, + "grad_norm": 0.222006693482399, + "learning_rate": 1.698496e-05, + "loss": 0.0188, + "step": 70665 + }, + { + "epoch": 0.452288, + "grad_norm": 0.48521295189857483, + "learning_rate": 1.6984746666666666e-05, + "loss": 0.0275, + "step": 70670 + }, + { + "epoch": 0.45232, + "grad_norm": 0.7108116745948792, + "learning_rate": 1.6984533333333337e-05, + "loss": 0.0318, + "step": 70675 + }, + { + "epoch": 0.452352, + "grad_norm": 1.0622057914733887, + "learning_rate": 1.698432e-05, + "loss": 0.0162, + "step": 70680 + }, + { + "epoch": 0.452384, + "grad_norm": 0.37310102581977844, + "learning_rate": 1.6984106666666668e-05, + "loss": 0.0141, + "step": 70685 + }, + { + "epoch": 0.452416, + "grad_norm": 0.6752157807350159, + "learning_rate": 1.6983893333333336e-05, + "loss": 0.0225, + "step": 70690 + }, + { + "epoch": 0.452448, + "grad_norm": 0.2572892904281616, + "learning_rate": 1.6983680000000003e-05, + "loss": 0.0234, + "step": 70695 + }, + { + "epoch": 0.45248, + "grad_norm": 0.3634707033634186, + "learning_rate": 1.6983466666666668e-05, + "loss": 0.0144, + "step": 70700 + }, + { + "epoch": 0.452512, + "grad_norm": 0.5986992120742798, + "learning_rate": 1.6983253333333335e-05, + "loss": 0.0436, + "step": 70705 + }, + { + "epoch": 0.452544, + "grad_norm": 1.4448986053466797, + "learning_rate": 1.6983040000000003e-05, + "loss": 0.0416, + "step": 70710 + }, + { + "epoch": 0.452576, + "grad_norm": 0.30365678668022156, + "learning_rate": 1.6982826666666667e-05, + "loss": 0.0284, + "step": 70715 + }, + { + "epoch": 0.452608, + "grad_norm": 0.2572968006134033, + "learning_rate": 1.6982613333333334e-05, + "loss": 0.0198, + "step": 70720 + }, + { + "epoch": 0.45264, + "grad_norm": 0.4127517640590668, + "learning_rate": 1.6982400000000002e-05, + "loss": 0.0205, + "step": 70725 + }, + { + "epoch": 0.452672, + "grad_norm": 1.0186994075775146, + "learning_rate": 1.698218666666667e-05, + "loss": 0.0322, + "step": 70730 + }, + { + "epoch": 0.452704, + "grad_norm": 1.8576743602752686, + "learning_rate": 1.6981973333333334e-05, + "loss": 0.0363, + "step": 70735 + }, + { + "epoch": 0.452736, + "grad_norm": 0.5252191424369812, + "learning_rate": 1.698176e-05, + "loss": 0.0147, + "step": 70740 + }, + { + "epoch": 0.452768, + "grad_norm": 0.32211366295814514, + "learning_rate": 1.698154666666667e-05, + "loss": 0.0124, + "step": 70745 + }, + { + "epoch": 0.4528, + "grad_norm": 0.34612539410591125, + "learning_rate": 1.6981333333333333e-05, + "loss": 0.0099, + "step": 70750 + }, + { + "epoch": 0.452832, + "grad_norm": 0.15110042691230774, + "learning_rate": 1.698112e-05, + "loss": 0.0327, + "step": 70755 + }, + { + "epoch": 0.452864, + "grad_norm": 0.7897114753723145, + "learning_rate": 1.6980906666666668e-05, + "loss": 0.03, + "step": 70760 + }, + { + "epoch": 0.452896, + "grad_norm": 1.3337385654449463, + "learning_rate": 1.6980693333333336e-05, + "loss": 0.0262, + "step": 70765 + }, + { + "epoch": 0.452928, + "grad_norm": 0.397543340921402, + "learning_rate": 1.698048e-05, + "loss": 0.0168, + "step": 70770 + }, + { + "epoch": 0.45296, + "grad_norm": 0.5191652774810791, + "learning_rate": 1.6980266666666667e-05, + "loss": 0.0251, + "step": 70775 + }, + { + "epoch": 0.452992, + "grad_norm": 0.4679579436779022, + "learning_rate": 1.6980053333333335e-05, + "loss": 0.0293, + "step": 70780 + }, + { + "epoch": 0.453024, + "grad_norm": 0.7831407785415649, + "learning_rate": 1.6979840000000002e-05, + "loss": 0.0936, + "step": 70785 + }, + { + "epoch": 0.453056, + "grad_norm": 0.870919942855835, + "learning_rate": 1.697962666666667e-05, + "loss": 0.0242, + "step": 70790 + }, + { + "epoch": 0.453088, + "grad_norm": 0.5182476043701172, + "learning_rate": 1.6979413333333334e-05, + "loss": 0.0271, + "step": 70795 + }, + { + "epoch": 0.45312, + "grad_norm": 1.053238868713379, + "learning_rate": 1.69792e-05, + "loss": 0.0255, + "step": 70800 + }, + { + "epoch": 0.453152, + "grad_norm": 0.1040857657790184, + "learning_rate": 1.697898666666667e-05, + "loss": 0.0188, + "step": 70805 + }, + { + "epoch": 0.453184, + "grad_norm": 0.6547089219093323, + "learning_rate": 1.6978773333333333e-05, + "loss": 0.0194, + "step": 70810 + }, + { + "epoch": 0.453216, + "grad_norm": 0.9148405194282532, + "learning_rate": 1.697856e-05, + "loss": 0.0336, + "step": 70815 + }, + { + "epoch": 0.453248, + "grad_norm": 0.33511340618133545, + "learning_rate": 1.697834666666667e-05, + "loss": 0.0177, + "step": 70820 + }, + { + "epoch": 0.45328, + "grad_norm": 1.0001899003982544, + "learning_rate": 1.6978133333333336e-05, + "loss": 0.0139, + "step": 70825 + }, + { + "epoch": 0.453312, + "grad_norm": 0.6067105531692505, + "learning_rate": 1.697792e-05, + "loss": 0.0158, + "step": 70830 + }, + { + "epoch": 0.453344, + "grad_norm": 0.4064221680164337, + "learning_rate": 1.6977706666666668e-05, + "loss": 0.0252, + "step": 70835 + }, + { + "epoch": 0.453376, + "grad_norm": 0.47057366371154785, + "learning_rate": 1.6977493333333335e-05, + "loss": 0.0124, + "step": 70840 + }, + { + "epoch": 0.453408, + "grad_norm": 4.2824788093566895, + "learning_rate": 1.697728e-05, + "loss": 0.032, + "step": 70845 + }, + { + "epoch": 0.45344, + "grad_norm": 1.1324961185455322, + "learning_rate": 1.6977066666666667e-05, + "loss": 0.0155, + "step": 70850 + }, + { + "epoch": 0.453472, + "grad_norm": 0.1652519255876541, + "learning_rate": 1.6976853333333335e-05, + "loss": 0.016, + "step": 70855 + }, + { + "epoch": 0.453504, + "grad_norm": 0.7438452243804932, + "learning_rate": 1.6976640000000002e-05, + "loss": 0.0224, + "step": 70860 + }, + { + "epoch": 0.453536, + "grad_norm": 0.551917552947998, + "learning_rate": 1.6976426666666666e-05, + "loss": 0.0224, + "step": 70865 + }, + { + "epoch": 0.453568, + "grad_norm": 0.5905440449714661, + "learning_rate": 1.6976213333333337e-05, + "loss": 0.0163, + "step": 70870 + }, + { + "epoch": 0.4536, + "grad_norm": 0.748620331287384, + "learning_rate": 1.6976e-05, + "loss": 0.0164, + "step": 70875 + }, + { + "epoch": 0.453632, + "grad_norm": 0.7814691662788391, + "learning_rate": 1.6975786666666666e-05, + "loss": 0.0285, + "step": 70880 + }, + { + "epoch": 0.453664, + "grad_norm": 1.888769268989563, + "learning_rate": 1.6975573333333337e-05, + "loss": 0.0144, + "step": 70885 + }, + { + "epoch": 0.453696, + "grad_norm": 0.46525856852531433, + "learning_rate": 1.697536e-05, + "loss": 0.0266, + "step": 70890 + }, + { + "epoch": 0.453728, + "grad_norm": 0.940808892250061, + "learning_rate": 1.6975146666666668e-05, + "loss": 0.0266, + "step": 70895 + }, + { + "epoch": 0.45376, + "grad_norm": 0.35300323367118835, + "learning_rate": 1.6974933333333336e-05, + "loss": 0.0269, + "step": 70900 + }, + { + "epoch": 0.453792, + "grad_norm": 0.5321513414382935, + "learning_rate": 1.6974720000000003e-05, + "loss": 0.0204, + "step": 70905 + }, + { + "epoch": 0.453824, + "grad_norm": 0.8840368390083313, + "learning_rate": 1.6974506666666668e-05, + "loss": 0.0475, + "step": 70910 + }, + { + "epoch": 0.453856, + "grad_norm": 0.6395183801651001, + "learning_rate": 1.6974293333333335e-05, + "loss": 0.0253, + "step": 70915 + }, + { + "epoch": 0.453888, + "grad_norm": 1.0928276777267456, + "learning_rate": 1.6974080000000003e-05, + "loss": 0.0161, + "step": 70920 + }, + { + "epoch": 0.45392, + "grad_norm": 0.6922094225883484, + "learning_rate": 1.6973866666666667e-05, + "loss": 0.0175, + "step": 70925 + }, + { + "epoch": 0.453952, + "grad_norm": 0.530470073223114, + "learning_rate": 1.6973653333333334e-05, + "loss": 0.0272, + "step": 70930 + }, + { + "epoch": 0.453984, + "grad_norm": 0.2602866291999817, + "learning_rate": 1.6973440000000002e-05, + "loss": 0.0453, + "step": 70935 + }, + { + "epoch": 0.454016, + "grad_norm": 0.5639036893844604, + "learning_rate": 1.697322666666667e-05, + "loss": 0.0264, + "step": 70940 + }, + { + "epoch": 0.454048, + "grad_norm": 0.11035117506980896, + "learning_rate": 1.6973013333333334e-05, + "loss": 0.0217, + "step": 70945 + }, + { + "epoch": 0.45408, + "grad_norm": 1.6515333652496338, + "learning_rate": 1.69728e-05, + "loss": 0.0218, + "step": 70950 + }, + { + "epoch": 0.454112, + "grad_norm": 0.18928758800029755, + "learning_rate": 1.697258666666667e-05, + "loss": 0.0182, + "step": 70955 + }, + { + "epoch": 0.454144, + "grad_norm": 1.2224020957946777, + "learning_rate": 1.6972373333333333e-05, + "loss": 0.0244, + "step": 70960 + }, + { + "epoch": 0.454176, + "grad_norm": 0.8204571008682251, + "learning_rate": 1.697216e-05, + "loss": 0.0293, + "step": 70965 + }, + { + "epoch": 0.454208, + "grad_norm": 1.0489695072174072, + "learning_rate": 1.6971946666666668e-05, + "loss": 0.032, + "step": 70970 + }, + { + "epoch": 0.45424, + "grad_norm": 0.3459727466106415, + "learning_rate": 1.6971733333333336e-05, + "loss": 0.0299, + "step": 70975 + }, + { + "epoch": 0.454272, + "grad_norm": 0.06871942430734634, + "learning_rate": 1.697152e-05, + "loss": 0.0139, + "step": 70980 + }, + { + "epoch": 0.454304, + "grad_norm": 0.3448922038078308, + "learning_rate": 1.6971306666666667e-05, + "loss": 0.0294, + "step": 70985 + }, + { + "epoch": 0.454336, + "grad_norm": 0.6302667260169983, + "learning_rate": 1.6971093333333335e-05, + "loss": 0.0283, + "step": 70990 + }, + { + "epoch": 0.454368, + "grad_norm": 6.174776077270508, + "learning_rate": 1.697088e-05, + "loss": 0.0261, + "step": 70995 + }, + { + "epoch": 0.4544, + "grad_norm": 1.4883699417114258, + "learning_rate": 1.697066666666667e-05, + "loss": 0.0392, + "step": 71000 + }, + { + "epoch": 0.454432, + "grad_norm": 0.6988568305969238, + "learning_rate": 1.6970453333333334e-05, + "loss": 0.0248, + "step": 71005 + }, + { + "epoch": 0.454464, + "grad_norm": 0.7418053150177002, + "learning_rate": 1.6970240000000002e-05, + "loss": 0.0159, + "step": 71010 + }, + { + "epoch": 0.454496, + "grad_norm": 0.28827008605003357, + "learning_rate": 1.697002666666667e-05, + "loss": 0.0115, + "step": 71015 + }, + { + "epoch": 0.454528, + "grad_norm": 1.0065653324127197, + "learning_rate": 1.6969813333333333e-05, + "loss": 0.0251, + "step": 71020 + }, + { + "epoch": 0.45456, + "grad_norm": 0.6427610516548157, + "learning_rate": 1.69696e-05, + "loss": 0.023, + "step": 71025 + }, + { + "epoch": 0.454592, + "grad_norm": 0.4151751697063446, + "learning_rate": 1.696938666666667e-05, + "loss": 0.0223, + "step": 71030 + }, + { + "epoch": 0.454624, + "grad_norm": 1.1211568117141724, + "learning_rate": 1.6969173333333336e-05, + "loss": 0.039, + "step": 71035 + }, + { + "epoch": 0.454656, + "grad_norm": 0.858089804649353, + "learning_rate": 1.696896e-05, + "loss": 0.0411, + "step": 71040 + }, + { + "epoch": 0.454688, + "grad_norm": 0.2225613296031952, + "learning_rate": 1.6968746666666668e-05, + "loss": 0.0287, + "step": 71045 + }, + { + "epoch": 0.45472, + "grad_norm": 0.3999931514263153, + "learning_rate": 1.6968533333333335e-05, + "loss": 0.0227, + "step": 71050 + }, + { + "epoch": 0.454752, + "grad_norm": 2.0931994915008545, + "learning_rate": 1.696832e-05, + "loss": 0.0347, + "step": 71055 + }, + { + "epoch": 0.454784, + "grad_norm": 0.41187164187431335, + "learning_rate": 1.6968106666666667e-05, + "loss": 0.0136, + "step": 71060 + }, + { + "epoch": 0.454816, + "grad_norm": 0.31139692664146423, + "learning_rate": 1.6967893333333335e-05, + "loss": 0.023, + "step": 71065 + }, + { + "epoch": 0.454848, + "grad_norm": 0.48741620779037476, + "learning_rate": 1.6967680000000002e-05, + "loss": 0.0157, + "step": 71070 + }, + { + "epoch": 0.45488, + "grad_norm": 0.7918831706047058, + "learning_rate": 1.6967466666666666e-05, + "loss": 0.0164, + "step": 71075 + }, + { + "epoch": 0.454912, + "grad_norm": 1.3271993398666382, + "learning_rate": 1.6967253333333334e-05, + "loss": 0.0214, + "step": 71080 + }, + { + "epoch": 0.454944, + "grad_norm": 0.532078742980957, + "learning_rate": 1.696704e-05, + "loss": 0.0181, + "step": 71085 + }, + { + "epoch": 0.454976, + "grad_norm": 0.7747133374214172, + "learning_rate": 1.6966826666666666e-05, + "loss": 0.0329, + "step": 71090 + }, + { + "epoch": 0.455008, + "grad_norm": 0.46914640069007874, + "learning_rate": 1.6966613333333337e-05, + "loss": 0.0194, + "step": 71095 + }, + { + "epoch": 0.45504, + "grad_norm": 3.55500864982605, + "learning_rate": 1.69664e-05, + "loss": 0.0148, + "step": 71100 + }, + { + "epoch": 0.455072, + "grad_norm": 0.7928923964500427, + "learning_rate": 1.6966186666666668e-05, + "loss": 0.0221, + "step": 71105 + }, + { + "epoch": 0.455104, + "grad_norm": 0.6949467062950134, + "learning_rate": 1.6965973333333336e-05, + "loss": 0.044, + "step": 71110 + }, + { + "epoch": 0.455136, + "grad_norm": 1.0276885032653809, + "learning_rate": 1.6965760000000003e-05, + "loss": 0.0287, + "step": 71115 + }, + { + "epoch": 0.455168, + "grad_norm": 1.3831251859664917, + "learning_rate": 1.6965546666666668e-05, + "loss": 0.0336, + "step": 71120 + }, + { + "epoch": 0.4552, + "grad_norm": 0.9069432616233826, + "learning_rate": 1.6965333333333335e-05, + "loss": 0.0173, + "step": 71125 + }, + { + "epoch": 0.455232, + "grad_norm": 0.498664528131485, + "learning_rate": 1.6965120000000003e-05, + "loss": 0.0226, + "step": 71130 + }, + { + "epoch": 0.455264, + "grad_norm": 0.7631661891937256, + "learning_rate": 1.6964906666666667e-05, + "loss": 0.0138, + "step": 71135 + }, + { + "epoch": 0.455296, + "grad_norm": 0.08652406185865402, + "learning_rate": 1.6964693333333334e-05, + "loss": 0.0298, + "step": 71140 + }, + { + "epoch": 0.455328, + "grad_norm": 0.3514379560947418, + "learning_rate": 1.6964480000000002e-05, + "loss": 0.0526, + "step": 71145 + }, + { + "epoch": 0.45536, + "grad_norm": 1.022732138633728, + "learning_rate": 1.696426666666667e-05, + "loss": 0.0345, + "step": 71150 + }, + { + "epoch": 0.455392, + "grad_norm": 0.16223204135894775, + "learning_rate": 1.6964053333333334e-05, + "loss": 0.0125, + "step": 71155 + }, + { + "epoch": 0.455424, + "grad_norm": 0.3446763753890991, + "learning_rate": 1.696384e-05, + "loss": 0.0167, + "step": 71160 + }, + { + "epoch": 0.455456, + "grad_norm": 0.7699321508407593, + "learning_rate": 1.696362666666667e-05, + "loss": 0.0209, + "step": 71165 + }, + { + "epoch": 0.455488, + "grad_norm": 0.1958276331424713, + "learning_rate": 1.6963413333333333e-05, + "loss": 0.0075, + "step": 71170 + }, + { + "epoch": 0.45552, + "grad_norm": 0.21031004190444946, + "learning_rate": 1.69632e-05, + "loss": 0.0137, + "step": 71175 + }, + { + "epoch": 0.455552, + "grad_norm": 1.8004438877105713, + "learning_rate": 1.6962986666666668e-05, + "loss": 0.0425, + "step": 71180 + }, + { + "epoch": 0.455584, + "grad_norm": 0.4117995500564575, + "learning_rate": 1.6962773333333336e-05, + "loss": 0.0213, + "step": 71185 + }, + { + "epoch": 0.455616, + "grad_norm": 0.6516354084014893, + "learning_rate": 1.696256e-05, + "loss": 0.031, + "step": 71190 + }, + { + "epoch": 0.455648, + "grad_norm": 1.2042207717895508, + "learning_rate": 1.6962346666666667e-05, + "loss": 0.0258, + "step": 71195 + }, + { + "epoch": 0.45568, + "grad_norm": 0.87153160572052, + "learning_rate": 1.6962133333333335e-05, + "loss": 0.0247, + "step": 71200 + }, + { + "epoch": 0.455712, + "grad_norm": 0.681469202041626, + "learning_rate": 1.696192e-05, + "loss": 0.0087, + "step": 71205 + }, + { + "epoch": 0.455744, + "grad_norm": 0.26993823051452637, + "learning_rate": 1.696170666666667e-05, + "loss": 0.026, + "step": 71210 + }, + { + "epoch": 0.455776, + "grad_norm": 0.5107057094573975, + "learning_rate": 1.6961493333333334e-05, + "loss": 0.0291, + "step": 71215 + }, + { + "epoch": 0.455808, + "grad_norm": 1.7524365186691284, + "learning_rate": 1.6961280000000002e-05, + "loss": 0.0385, + "step": 71220 + }, + { + "epoch": 0.45584, + "grad_norm": 0.9314998984336853, + "learning_rate": 1.696106666666667e-05, + "loss": 0.0164, + "step": 71225 + }, + { + "epoch": 0.455872, + "grad_norm": 17.25752067565918, + "learning_rate": 1.6960853333333333e-05, + "loss": 0.0164, + "step": 71230 + }, + { + "epoch": 0.455904, + "grad_norm": 1.8644042015075684, + "learning_rate": 1.696064e-05, + "loss": 0.022, + "step": 71235 + }, + { + "epoch": 0.455936, + "grad_norm": 0.26420673727989197, + "learning_rate": 1.696042666666667e-05, + "loss": 0.0122, + "step": 71240 + }, + { + "epoch": 0.455968, + "grad_norm": 0.6659956574440002, + "learning_rate": 1.6960213333333336e-05, + "loss": 0.0248, + "step": 71245 + }, + { + "epoch": 0.456, + "grad_norm": 1.027692437171936, + "learning_rate": 1.696e-05, + "loss": 0.0306, + "step": 71250 + }, + { + "epoch": 0.456032, + "grad_norm": 0.1480647623538971, + "learning_rate": 1.6959786666666668e-05, + "loss": 0.012, + "step": 71255 + }, + { + "epoch": 0.456064, + "grad_norm": 0.3433522582054138, + "learning_rate": 1.6959573333333335e-05, + "loss": 0.0129, + "step": 71260 + }, + { + "epoch": 0.456096, + "grad_norm": 0.7489756345748901, + "learning_rate": 1.6959360000000003e-05, + "loss": 0.0231, + "step": 71265 + }, + { + "epoch": 0.456128, + "grad_norm": 0.48548072576522827, + "learning_rate": 1.6959146666666667e-05, + "loss": 0.024, + "step": 71270 + }, + { + "epoch": 0.45616, + "grad_norm": 0.37551388144493103, + "learning_rate": 1.6958933333333335e-05, + "loss": 0.0206, + "step": 71275 + }, + { + "epoch": 0.456192, + "grad_norm": 0.8130975961685181, + "learning_rate": 1.6958720000000002e-05, + "loss": 0.0276, + "step": 71280 + }, + { + "epoch": 0.456224, + "grad_norm": 0.22353152930736542, + "learning_rate": 1.6958506666666666e-05, + "loss": 0.0249, + "step": 71285 + }, + { + "epoch": 0.456256, + "grad_norm": 0.39224499464035034, + "learning_rate": 1.6958293333333334e-05, + "loss": 0.0123, + "step": 71290 + }, + { + "epoch": 0.456288, + "grad_norm": 2.3482272624969482, + "learning_rate": 1.695808e-05, + "loss": 0.0729, + "step": 71295 + }, + { + "epoch": 0.45632, + "grad_norm": 0.2921721041202545, + "learning_rate": 1.695786666666667e-05, + "loss": 0.0306, + "step": 71300 + }, + { + "epoch": 0.456352, + "grad_norm": 0.5760223269462585, + "learning_rate": 1.6957653333333333e-05, + "loss": 0.0586, + "step": 71305 + }, + { + "epoch": 0.456384, + "grad_norm": 1.0641498565673828, + "learning_rate": 1.695744e-05, + "loss": 0.0258, + "step": 71310 + }, + { + "epoch": 0.456416, + "grad_norm": 0.21775110065937042, + "learning_rate": 1.6957226666666668e-05, + "loss": 0.0241, + "step": 71315 + }, + { + "epoch": 0.456448, + "grad_norm": 0.32266753911972046, + "learning_rate": 1.6957013333333336e-05, + "loss": 0.0241, + "step": 71320 + }, + { + "epoch": 0.45648, + "grad_norm": 0.41954076290130615, + "learning_rate": 1.6956800000000003e-05, + "loss": 0.0172, + "step": 71325 + }, + { + "epoch": 0.456512, + "grad_norm": 0.5433201193809509, + "learning_rate": 1.6956586666666668e-05, + "loss": 0.0185, + "step": 71330 + }, + { + "epoch": 0.456544, + "grad_norm": 0.7961010336875916, + "learning_rate": 1.6956373333333335e-05, + "loss": 0.026, + "step": 71335 + }, + { + "epoch": 0.456576, + "grad_norm": 0.6069784164428711, + "learning_rate": 1.6956160000000003e-05, + "loss": 0.0287, + "step": 71340 + }, + { + "epoch": 0.456608, + "grad_norm": 0.6234802603721619, + "learning_rate": 1.6955946666666667e-05, + "loss": 0.0161, + "step": 71345 + }, + { + "epoch": 0.45664, + "grad_norm": 0.23052170872688293, + "learning_rate": 1.6955733333333334e-05, + "loss": 0.0269, + "step": 71350 + }, + { + "epoch": 0.456672, + "grad_norm": 0.7050283551216125, + "learning_rate": 1.6955520000000002e-05, + "loss": 0.0201, + "step": 71355 + }, + { + "epoch": 0.456704, + "grad_norm": 0.46617013216018677, + "learning_rate": 1.695530666666667e-05, + "loss": 0.0206, + "step": 71360 + }, + { + "epoch": 0.456736, + "grad_norm": 0.6760512590408325, + "learning_rate": 1.6955093333333334e-05, + "loss": 0.0137, + "step": 71365 + }, + { + "epoch": 0.456768, + "grad_norm": 1.023263931274414, + "learning_rate": 1.695488e-05, + "loss": 0.0202, + "step": 71370 + }, + { + "epoch": 0.4568, + "grad_norm": 0.6665019392967224, + "learning_rate": 1.695466666666667e-05, + "loss": 0.0364, + "step": 71375 + }, + { + "epoch": 0.456832, + "grad_norm": 0.40178436040878296, + "learning_rate": 1.6954453333333333e-05, + "loss": 0.0212, + "step": 71380 + }, + { + "epoch": 0.456864, + "grad_norm": 1.2345386743545532, + "learning_rate": 1.695424e-05, + "loss": 0.0256, + "step": 71385 + }, + { + "epoch": 0.456896, + "grad_norm": 0.5363286137580872, + "learning_rate": 1.6954026666666668e-05, + "loss": 0.0083, + "step": 71390 + }, + { + "epoch": 0.456928, + "grad_norm": 1.0503299236297607, + "learning_rate": 1.6953813333333336e-05, + "loss": 0.0242, + "step": 71395 + }, + { + "epoch": 0.45696, + "grad_norm": 1.2301543951034546, + "learning_rate": 1.69536e-05, + "loss": 0.044, + "step": 71400 + }, + { + "epoch": 0.456992, + "grad_norm": 0.6019091010093689, + "learning_rate": 1.695338666666667e-05, + "loss": 0.0198, + "step": 71405 + }, + { + "epoch": 0.457024, + "grad_norm": 0.4237429201602936, + "learning_rate": 1.6953173333333335e-05, + "loss": 0.0272, + "step": 71410 + }, + { + "epoch": 0.457056, + "grad_norm": 2.0535671710968018, + "learning_rate": 1.695296e-05, + "loss": 0.018, + "step": 71415 + }, + { + "epoch": 0.457088, + "grad_norm": 0.3643268942832947, + "learning_rate": 1.695274666666667e-05, + "loss": 0.0245, + "step": 71420 + }, + { + "epoch": 0.45712, + "grad_norm": 0.7017866969108582, + "learning_rate": 1.6952533333333334e-05, + "loss": 0.0249, + "step": 71425 + }, + { + "epoch": 0.457152, + "grad_norm": 0.7367051839828491, + "learning_rate": 1.6952320000000002e-05, + "loss": 0.0229, + "step": 71430 + }, + { + "epoch": 0.457184, + "grad_norm": 0.29287436604499817, + "learning_rate": 1.695210666666667e-05, + "loss": 0.0183, + "step": 71435 + }, + { + "epoch": 0.457216, + "grad_norm": 0.9059693813323975, + "learning_rate": 1.6951893333333337e-05, + "loss": 0.0294, + "step": 71440 + }, + { + "epoch": 0.457248, + "grad_norm": 2.0031492710113525, + "learning_rate": 1.695168e-05, + "loss": 0.0324, + "step": 71445 + }, + { + "epoch": 0.45728, + "grad_norm": 0.8070582151412964, + "learning_rate": 1.695146666666667e-05, + "loss": 0.0221, + "step": 71450 + }, + { + "epoch": 0.457312, + "grad_norm": 0.6852037310600281, + "learning_rate": 1.6951253333333336e-05, + "loss": 0.0282, + "step": 71455 + }, + { + "epoch": 0.457344, + "grad_norm": 0.5847493410110474, + "learning_rate": 1.695104e-05, + "loss": 0.018, + "step": 71460 + }, + { + "epoch": 0.457376, + "grad_norm": 2.354947328567505, + "learning_rate": 1.6950826666666668e-05, + "loss": 0.0199, + "step": 71465 + }, + { + "epoch": 0.457408, + "grad_norm": 0.6378319263458252, + "learning_rate": 1.6950613333333335e-05, + "loss": 0.0303, + "step": 71470 + }, + { + "epoch": 0.45744, + "grad_norm": 1.043074369430542, + "learning_rate": 1.6950400000000003e-05, + "loss": 0.032, + "step": 71475 + }, + { + "epoch": 0.457472, + "grad_norm": 0.27796897292137146, + "learning_rate": 1.6950186666666667e-05, + "loss": 0.0193, + "step": 71480 + }, + { + "epoch": 0.457504, + "grad_norm": 0.4059993326663971, + "learning_rate": 1.6949973333333335e-05, + "loss": 0.0116, + "step": 71485 + }, + { + "epoch": 0.457536, + "grad_norm": 0.7705912590026855, + "learning_rate": 1.6949760000000002e-05, + "loss": 0.0225, + "step": 71490 + }, + { + "epoch": 0.457568, + "grad_norm": 0.17367321252822876, + "learning_rate": 1.6949546666666666e-05, + "loss": 0.0329, + "step": 71495 + }, + { + "epoch": 0.4576, + "grad_norm": 0.5395218133926392, + "learning_rate": 1.6949333333333334e-05, + "loss": 0.0236, + "step": 71500 + }, + { + "epoch": 0.457632, + "grad_norm": 1.5544390678405762, + "learning_rate": 1.694912e-05, + "loss": 0.0287, + "step": 71505 + }, + { + "epoch": 0.457664, + "grad_norm": 0.3717123866081238, + "learning_rate": 1.694890666666667e-05, + "loss": 0.0318, + "step": 71510 + }, + { + "epoch": 0.457696, + "grad_norm": 1.045236349105835, + "learning_rate": 1.6948693333333333e-05, + "loss": 0.0451, + "step": 71515 + }, + { + "epoch": 0.457728, + "grad_norm": 0.4401324689388275, + "learning_rate": 1.694848e-05, + "loss": 0.0271, + "step": 71520 + }, + { + "epoch": 0.45776, + "grad_norm": 1.4636178016662598, + "learning_rate": 1.6948266666666668e-05, + "loss": 0.0465, + "step": 71525 + }, + { + "epoch": 0.457792, + "grad_norm": 0.4664982259273529, + "learning_rate": 1.6948053333333332e-05, + "loss": 0.0307, + "step": 71530 + }, + { + "epoch": 0.457824, + "grad_norm": 0.162117138504982, + "learning_rate": 1.6947840000000003e-05, + "loss": 0.0193, + "step": 71535 + }, + { + "epoch": 0.457856, + "grad_norm": 1.138597011566162, + "learning_rate": 1.6947626666666668e-05, + "loss": 0.0163, + "step": 71540 + }, + { + "epoch": 0.457888, + "grad_norm": 0.3133092522621155, + "learning_rate": 1.6947413333333335e-05, + "loss": 0.0139, + "step": 71545 + }, + { + "epoch": 0.45792, + "grad_norm": 0.5579999685287476, + "learning_rate": 1.6947200000000003e-05, + "loss": 0.0364, + "step": 71550 + }, + { + "epoch": 0.457952, + "grad_norm": 2.9740684032440186, + "learning_rate": 1.6946986666666667e-05, + "loss": 0.0143, + "step": 71555 + }, + { + "epoch": 0.457984, + "grad_norm": 2.843986988067627, + "learning_rate": 1.6946773333333334e-05, + "loss": 0.0321, + "step": 71560 + }, + { + "epoch": 0.458016, + "grad_norm": 0.4259193539619446, + "learning_rate": 1.6946560000000002e-05, + "loss": 0.0155, + "step": 71565 + }, + { + "epoch": 0.458048, + "grad_norm": 0.4636073112487793, + "learning_rate": 1.694634666666667e-05, + "loss": 0.0173, + "step": 71570 + }, + { + "epoch": 0.45808, + "grad_norm": 0.6707136631011963, + "learning_rate": 1.6946133333333334e-05, + "loss": 0.026, + "step": 71575 + }, + { + "epoch": 0.458112, + "grad_norm": 0.28172507882118225, + "learning_rate": 1.694592e-05, + "loss": 0.0126, + "step": 71580 + }, + { + "epoch": 0.458144, + "grad_norm": 1.6453129053115845, + "learning_rate": 1.694570666666667e-05, + "loss": 0.0341, + "step": 71585 + }, + { + "epoch": 0.458176, + "grad_norm": 0.5441790819168091, + "learning_rate": 1.6945493333333333e-05, + "loss": 0.0193, + "step": 71590 + }, + { + "epoch": 0.458208, + "grad_norm": 0.6927767992019653, + "learning_rate": 1.694528e-05, + "loss": 0.0196, + "step": 71595 + }, + { + "epoch": 0.45824, + "grad_norm": 0.368243008852005, + "learning_rate": 1.6945066666666668e-05, + "loss": 0.0315, + "step": 71600 + }, + { + "epoch": 0.458272, + "grad_norm": 1.0738837718963623, + "learning_rate": 1.6944853333333336e-05, + "loss": 0.0176, + "step": 71605 + }, + { + "epoch": 0.458304, + "grad_norm": 0.31782183051109314, + "learning_rate": 1.694464e-05, + "loss": 0.0179, + "step": 71610 + }, + { + "epoch": 0.458336, + "grad_norm": 1.079518437385559, + "learning_rate": 1.694442666666667e-05, + "loss": 0.0104, + "step": 71615 + }, + { + "epoch": 0.458368, + "grad_norm": 0.043980956077575684, + "learning_rate": 1.6944213333333335e-05, + "loss": 0.0195, + "step": 71620 + }, + { + "epoch": 0.4584, + "grad_norm": 0.6690090894699097, + "learning_rate": 1.6944e-05, + "loss": 0.024, + "step": 71625 + }, + { + "epoch": 0.458432, + "grad_norm": 0.6180137991905212, + "learning_rate": 1.694378666666667e-05, + "loss": 0.0197, + "step": 71630 + }, + { + "epoch": 0.458464, + "grad_norm": 0.7745454907417297, + "learning_rate": 1.6943573333333334e-05, + "loss": 0.0137, + "step": 71635 + }, + { + "epoch": 0.458496, + "grad_norm": 0.9474809169769287, + "learning_rate": 1.6943360000000002e-05, + "loss": 0.0296, + "step": 71640 + }, + { + "epoch": 0.458528, + "grad_norm": 0.5737028121948242, + "learning_rate": 1.694314666666667e-05, + "loss": 0.0154, + "step": 71645 + }, + { + "epoch": 0.45856, + "grad_norm": 0.40061914920806885, + "learning_rate": 1.6942933333333337e-05, + "loss": 0.0224, + "step": 71650 + }, + { + "epoch": 0.458592, + "grad_norm": 0.1456238329410553, + "learning_rate": 1.694272e-05, + "loss": 0.0172, + "step": 71655 + }, + { + "epoch": 0.458624, + "grad_norm": 0.8229906558990479, + "learning_rate": 1.694250666666667e-05, + "loss": 0.0177, + "step": 71660 + }, + { + "epoch": 0.458656, + "grad_norm": 2.174861192703247, + "learning_rate": 1.6942293333333336e-05, + "loss": 0.0377, + "step": 71665 + }, + { + "epoch": 0.458688, + "grad_norm": 0.6536455750465393, + "learning_rate": 1.694208e-05, + "loss": 0.0198, + "step": 71670 + }, + { + "epoch": 0.45872, + "grad_norm": 0.7120652794837952, + "learning_rate": 1.6941866666666668e-05, + "loss": 0.0182, + "step": 71675 + }, + { + "epoch": 0.458752, + "grad_norm": 0.24272185564041138, + "learning_rate": 1.6941653333333335e-05, + "loss": 0.038, + "step": 71680 + }, + { + "epoch": 0.458784, + "grad_norm": 0.5401132106781006, + "learning_rate": 1.6941440000000003e-05, + "loss": 0.019, + "step": 71685 + }, + { + "epoch": 0.458816, + "grad_norm": 1.3563443422317505, + "learning_rate": 1.6941226666666667e-05, + "loss": 0.0416, + "step": 71690 + }, + { + "epoch": 0.458848, + "grad_norm": 1.4513683319091797, + "learning_rate": 1.6941013333333335e-05, + "loss": 0.0281, + "step": 71695 + }, + { + "epoch": 0.45888, + "grad_norm": 0.9325648546218872, + "learning_rate": 1.6940800000000002e-05, + "loss": 0.0295, + "step": 71700 + }, + { + "epoch": 0.458912, + "grad_norm": 0.6480459570884705, + "learning_rate": 1.6940586666666666e-05, + "loss": 0.0125, + "step": 71705 + }, + { + "epoch": 0.458944, + "grad_norm": 0.18151649832725525, + "learning_rate": 1.6940373333333334e-05, + "loss": 0.0105, + "step": 71710 + }, + { + "epoch": 0.458976, + "grad_norm": 0.5526188015937805, + "learning_rate": 1.694016e-05, + "loss": 0.0174, + "step": 71715 + }, + { + "epoch": 0.459008, + "grad_norm": 0.2722635567188263, + "learning_rate": 1.693994666666667e-05, + "loss": 0.0194, + "step": 71720 + }, + { + "epoch": 0.45904, + "grad_norm": 0.19500596821308136, + "learning_rate": 1.6939733333333333e-05, + "loss": 0.0321, + "step": 71725 + }, + { + "epoch": 0.459072, + "grad_norm": 0.6531015634536743, + "learning_rate": 1.693952e-05, + "loss": 0.0297, + "step": 71730 + }, + { + "epoch": 0.459104, + "grad_norm": 1.2420822381973267, + "learning_rate": 1.6939306666666668e-05, + "loss": 0.0223, + "step": 71735 + }, + { + "epoch": 0.459136, + "grad_norm": 0.376459538936615, + "learning_rate": 1.6939093333333332e-05, + "loss": 0.0179, + "step": 71740 + }, + { + "epoch": 0.459168, + "grad_norm": 1.1163021326065063, + "learning_rate": 1.6938880000000003e-05, + "loss": 0.0156, + "step": 71745 + }, + { + "epoch": 0.4592, + "grad_norm": 0.3648608326911926, + "learning_rate": 1.6938666666666668e-05, + "loss": 0.0096, + "step": 71750 + }, + { + "epoch": 0.459232, + "grad_norm": 1.4809798002243042, + "learning_rate": 1.6938453333333335e-05, + "loss": 0.0299, + "step": 71755 + }, + { + "epoch": 0.459264, + "grad_norm": 0.7224977612495422, + "learning_rate": 1.6938240000000003e-05, + "loss": 0.0307, + "step": 71760 + }, + { + "epoch": 0.459296, + "grad_norm": 0.5454162955284119, + "learning_rate": 1.6938026666666667e-05, + "loss": 0.0143, + "step": 71765 + }, + { + "epoch": 0.459328, + "grad_norm": 0.5636962652206421, + "learning_rate": 1.6937813333333334e-05, + "loss": 0.0231, + "step": 71770 + }, + { + "epoch": 0.45936, + "grad_norm": 0.7734633088111877, + "learning_rate": 1.6937600000000002e-05, + "loss": 0.021, + "step": 71775 + }, + { + "epoch": 0.459392, + "grad_norm": 0.5809958577156067, + "learning_rate": 1.693738666666667e-05, + "loss": 0.0207, + "step": 71780 + }, + { + "epoch": 0.459424, + "grad_norm": 0.11311287432909012, + "learning_rate": 1.6937173333333334e-05, + "loss": 0.0179, + "step": 71785 + }, + { + "epoch": 0.459456, + "grad_norm": 0.4344276189804077, + "learning_rate": 1.693696e-05, + "loss": 0.0154, + "step": 71790 + }, + { + "epoch": 0.459488, + "grad_norm": 1.0231760740280151, + "learning_rate": 1.693674666666667e-05, + "loss": 0.0401, + "step": 71795 + }, + { + "epoch": 0.45952, + "grad_norm": 0.8430432081222534, + "learning_rate": 1.6936533333333333e-05, + "loss": 0.0372, + "step": 71800 + }, + { + "epoch": 0.459552, + "grad_norm": 0.2693870961666107, + "learning_rate": 1.693632e-05, + "loss": 0.0178, + "step": 71805 + }, + { + "epoch": 0.459584, + "grad_norm": 0.7902308702468872, + "learning_rate": 1.6936106666666668e-05, + "loss": 0.0165, + "step": 71810 + }, + { + "epoch": 0.459616, + "grad_norm": 0.036242660135030746, + "learning_rate": 1.6935893333333336e-05, + "loss": 0.0272, + "step": 71815 + }, + { + "epoch": 0.459648, + "grad_norm": 0.2267298400402069, + "learning_rate": 1.693568e-05, + "loss": 0.0118, + "step": 71820 + }, + { + "epoch": 0.45968, + "grad_norm": 3.2600204944610596, + "learning_rate": 1.6935466666666667e-05, + "loss": 0.0373, + "step": 71825 + }, + { + "epoch": 0.459712, + "grad_norm": 0.8471226096153259, + "learning_rate": 1.6935253333333335e-05, + "loss": 0.0343, + "step": 71830 + }, + { + "epoch": 0.459744, + "grad_norm": 0.2004385143518448, + "learning_rate": 1.693504e-05, + "loss": 0.025, + "step": 71835 + }, + { + "epoch": 0.459776, + "grad_norm": 0.28040802478790283, + "learning_rate": 1.693482666666667e-05, + "loss": 0.019, + "step": 71840 + }, + { + "epoch": 0.459808, + "grad_norm": 0.4200785756111145, + "learning_rate": 1.6934613333333334e-05, + "loss": 0.0166, + "step": 71845 + }, + { + "epoch": 0.45984, + "grad_norm": 0.769523561000824, + "learning_rate": 1.6934400000000002e-05, + "loss": 0.0314, + "step": 71850 + }, + { + "epoch": 0.459872, + "grad_norm": 1.3260183334350586, + "learning_rate": 1.693418666666667e-05, + "loss": 0.0477, + "step": 71855 + }, + { + "epoch": 0.459904, + "grad_norm": 0.3037794828414917, + "learning_rate": 1.6933973333333337e-05, + "loss": 0.013, + "step": 71860 + }, + { + "epoch": 0.459936, + "grad_norm": 0.20165574550628662, + "learning_rate": 1.693376e-05, + "loss": 0.0448, + "step": 71865 + }, + { + "epoch": 0.459968, + "grad_norm": 0.8096768260002136, + "learning_rate": 1.693354666666667e-05, + "loss": 0.0323, + "step": 71870 + }, + { + "epoch": 0.46, + "grad_norm": 1.7997584342956543, + "learning_rate": 1.6933333333333336e-05, + "loss": 0.0358, + "step": 71875 + }, + { + "epoch": 0.460032, + "grad_norm": 1.6674526929855347, + "learning_rate": 1.693312e-05, + "loss": 0.0324, + "step": 71880 + }, + { + "epoch": 0.460064, + "grad_norm": 0.3481904864311218, + "learning_rate": 1.6932906666666668e-05, + "loss": 0.027, + "step": 71885 + }, + { + "epoch": 0.460096, + "grad_norm": 0.17172683775424957, + "learning_rate": 1.6932693333333335e-05, + "loss": 0.0164, + "step": 71890 + }, + { + "epoch": 0.460128, + "grad_norm": 0.28197169303894043, + "learning_rate": 1.6932480000000003e-05, + "loss": 0.0111, + "step": 71895 + }, + { + "epoch": 0.46016, + "grad_norm": 0.43644294142723083, + "learning_rate": 1.6932266666666667e-05, + "loss": 0.0313, + "step": 71900 + }, + { + "epoch": 0.460192, + "grad_norm": 0.2691958546638489, + "learning_rate": 1.6932053333333335e-05, + "loss": 0.0314, + "step": 71905 + }, + { + "epoch": 0.460224, + "grad_norm": 0.5513239502906799, + "learning_rate": 1.6931840000000002e-05, + "loss": 0.0229, + "step": 71910 + }, + { + "epoch": 0.460256, + "grad_norm": 0.9186112880706787, + "learning_rate": 1.6931626666666666e-05, + "loss": 0.0311, + "step": 71915 + }, + { + "epoch": 0.460288, + "grad_norm": 0.527289628982544, + "learning_rate": 1.6931413333333334e-05, + "loss": 0.0283, + "step": 71920 + }, + { + "epoch": 0.46032, + "grad_norm": 0.49321249127388, + "learning_rate": 1.69312e-05, + "loss": 0.0244, + "step": 71925 + }, + { + "epoch": 0.460352, + "grad_norm": 0.16536641120910645, + "learning_rate": 1.693098666666667e-05, + "loss": 0.0128, + "step": 71930 + }, + { + "epoch": 0.460384, + "grad_norm": 0.16442479193210602, + "learning_rate": 1.6930773333333333e-05, + "loss": 0.0115, + "step": 71935 + }, + { + "epoch": 0.460416, + "grad_norm": 1.9456679821014404, + "learning_rate": 1.693056e-05, + "loss": 0.041, + "step": 71940 + }, + { + "epoch": 0.460448, + "grad_norm": 0.3377486765384674, + "learning_rate": 1.6930346666666668e-05, + "loss": 0.0214, + "step": 71945 + }, + { + "epoch": 0.46048, + "grad_norm": 1.8176875114440918, + "learning_rate": 1.6930133333333332e-05, + "loss": 0.0573, + "step": 71950 + }, + { + "epoch": 0.460512, + "grad_norm": 0.5609838962554932, + "learning_rate": 1.6929920000000003e-05, + "loss": 0.0318, + "step": 71955 + }, + { + "epoch": 0.460544, + "grad_norm": 0.28981685638427734, + "learning_rate": 1.6929706666666668e-05, + "loss": 0.01, + "step": 71960 + }, + { + "epoch": 0.460576, + "grad_norm": 0.4909490942955017, + "learning_rate": 1.6929493333333335e-05, + "loss": 0.0101, + "step": 71965 + }, + { + "epoch": 0.460608, + "grad_norm": 0.3299277722835541, + "learning_rate": 1.6929280000000003e-05, + "loss": 0.014, + "step": 71970 + }, + { + "epoch": 0.46064, + "grad_norm": 0.15926440060138702, + "learning_rate": 1.6929066666666667e-05, + "loss": 0.0164, + "step": 71975 + }, + { + "epoch": 0.460672, + "grad_norm": 1.0069258213043213, + "learning_rate": 1.6928853333333334e-05, + "loss": 0.0261, + "step": 71980 + }, + { + "epoch": 0.460704, + "grad_norm": 0.4885823130607605, + "learning_rate": 1.6928640000000002e-05, + "loss": 0.0343, + "step": 71985 + }, + { + "epoch": 0.460736, + "grad_norm": 1.641998529434204, + "learning_rate": 1.692842666666667e-05, + "loss": 0.0274, + "step": 71990 + }, + { + "epoch": 0.460768, + "grad_norm": 0.14329932630062103, + "learning_rate": 1.6928213333333334e-05, + "loss": 0.0061, + "step": 71995 + }, + { + "epoch": 0.4608, + "grad_norm": 0.5980249643325806, + "learning_rate": 1.6928e-05, + "loss": 0.0302, + "step": 72000 + }, + { + "epoch": 0.460832, + "grad_norm": 0.47202268242836, + "learning_rate": 1.692778666666667e-05, + "loss": 0.0143, + "step": 72005 + }, + { + "epoch": 0.460864, + "grad_norm": 0.7253846526145935, + "learning_rate": 1.6927573333333333e-05, + "loss": 0.0161, + "step": 72010 + }, + { + "epoch": 0.460896, + "grad_norm": 0.27430880069732666, + "learning_rate": 1.692736e-05, + "loss": 0.023, + "step": 72015 + }, + { + "epoch": 0.460928, + "grad_norm": 1.324587106704712, + "learning_rate": 1.6927146666666668e-05, + "loss": 0.018, + "step": 72020 + }, + { + "epoch": 0.46096, + "grad_norm": 0.5700570940971375, + "learning_rate": 1.6926933333333336e-05, + "loss": 0.0204, + "step": 72025 + }, + { + "epoch": 0.460992, + "grad_norm": 0.22609029710292816, + "learning_rate": 1.692672e-05, + "loss": 0.024, + "step": 72030 + }, + { + "epoch": 0.461024, + "grad_norm": 0.526965320110321, + "learning_rate": 1.6926506666666667e-05, + "loss": 0.0177, + "step": 72035 + }, + { + "epoch": 0.461056, + "grad_norm": 1.0827523469924927, + "learning_rate": 1.6926293333333335e-05, + "loss": 0.0255, + "step": 72040 + }, + { + "epoch": 0.461088, + "grad_norm": 0.5995887517929077, + "learning_rate": 1.692608e-05, + "loss": 0.0174, + "step": 72045 + }, + { + "epoch": 0.46112, + "grad_norm": 0.6286778450012207, + "learning_rate": 1.6925866666666667e-05, + "loss": 0.0156, + "step": 72050 + }, + { + "epoch": 0.461152, + "grad_norm": 0.6589359641075134, + "learning_rate": 1.6925653333333334e-05, + "loss": 0.0173, + "step": 72055 + }, + { + "epoch": 0.461184, + "grad_norm": 0.5069245100021362, + "learning_rate": 1.6925440000000002e-05, + "loss": 0.032, + "step": 72060 + }, + { + "epoch": 0.461216, + "grad_norm": 0.9526126980781555, + "learning_rate": 1.692522666666667e-05, + "loss": 0.0176, + "step": 72065 + }, + { + "epoch": 0.461248, + "grad_norm": 0.5937228798866272, + "learning_rate": 1.6925013333333337e-05, + "loss": 0.0228, + "step": 72070 + }, + { + "epoch": 0.46128, + "grad_norm": 0.4975717067718506, + "learning_rate": 1.69248e-05, + "loss": 0.0254, + "step": 72075 + }, + { + "epoch": 0.461312, + "grad_norm": 1.0076254606246948, + "learning_rate": 1.692458666666667e-05, + "loss": 0.0264, + "step": 72080 + }, + { + "epoch": 0.461344, + "grad_norm": 0.3205278217792511, + "learning_rate": 1.6924373333333336e-05, + "loss": 0.0187, + "step": 72085 + }, + { + "epoch": 0.461376, + "grad_norm": 0.9030799269676208, + "learning_rate": 1.692416e-05, + "loss": 0.0265, + "step": 72090 + }, + { + "epoch": 0.461408, + "grad_norm": 0.46234533190727234, + "learning_rate": 1.6923946666666668e-05, + "loss": 0.0379, + "step": 72095 + }, + { + "epoch": 0.46144, + "grad_norm": 0.3758954405784607, + "learning_rate": 1.6923733333333335e-05, + "loss": 0.0234, + "step": 72100 + }, + { + "epoch": 0.461472, + "grad_norm": 0.5473281741142273, + "learning_rate": 1.6923520000000003e-05, + "loss": 0.0174, + "step": 72105 + }, + { + "epoch": 0.461504, + "grad_norm": 0.6689159274101257, + "learning_rate": 1.6923306666666667e-05, + "loss": 0.0256, + "step": 72110 + }, + { + "epoch": 0.461536, + "grad_norm": 0.5019013285636902, + "learning_rate": 1.6923093333333335e-05, + "loss": 0.0144, + "step": 72115 + }, + { + "epoch": 0.461568, + "grad_norm": 0.6207141876220703, + "learning_rate": 1.6922880000000002e-05, + "loss": 0.0173, + "step": 72120 + }, + { + "epoch": 0.4616, + "grad_norm": 0.4792807102203369, + "learning_rate": 1.6922666666666666e-05, + "loss": 0.0322, + "step": 72125 + }, + { + "epoch": 0.461632, + "grad_norm": 0.4689754843711853, + "learning_rate": 1.6922453333333334e-05, + "loss": 0.0224, + "step": 72130 + }, + { + "epoch": 0.461664, + "grad_norm": 0.5592437982559204, + "learning_rate": 1.692224e-05, + "loss": 0.0279, + "step": 72135 + }, + { + "epoch": 0.461696, + "grad_norm": 0.9014358520507812, + "learning_rate": 1.692202666666667e-05, + "loss": 0.0244, + "step": 72140 + }, + { + "epoch": 0.461728, + "grad_norm": 0.33567750453948975, + "learning_rate": 1.6921813333333333e-05, + "loss": 0.0221, + "step": 72145 + }, + { + "epoch": 0.46176, + "grad_norm": 0.7754035592079163, + "learning_rate": 1.6921600000000004e-05, + "loss": 0.0143, + "step": 72150 + }, + { + "epoch": 0.461792, + "grad_norm": 2.7553579807281494, + "learning_rate": 1.692138666666667e-05, + "loss": 0.0412, + "step": 72155 + }, + { + "epoch": 0.461824, + "grad_norm": 0.14004234969615936, + "learning_rate": 1.6921173333333332e-05, + "loss": 0.0299, + "step": 72160 + }, + { + "epoch": 0.461856, + "grad_norm": 1.0300607681274414, + "learning_rate": 1.6920960000000003e-05, + "loss": 0.0456, + "step": 72165 + }, + { + "epoch": 0.461888, + "grad_norm": 0.7534362077713013, + "learning_rate": 1.6920746666666668e-05, + "loss": 0.0227, + "step": 72170 + }, + { + "epoch": 0.46192, + "grad_norm": 2.200312614440918, + "learning_rate": 1.6920533333333335e-05, + "loss": 0.0253, + "step": 72175 + }, + { + "epoch": 0.461952, + "grad_norm": 0.4098188281059265, + "learning_rate": 1.6920320000000003e-05, + "loss": 0.0161, + "step": 72180 + }, + { + "epoch": 0.461984, + "grad_norm": 0.08708811551332474, + "learning_rate": 1.692010666666667e-05, + "loss": 0.0202, + "step": 72185 + }, + { + "epoch": 0.462016, + "grad_norm": 0.8020574450492859, + "learning_rate": 1.6919893333333334e-05, + "loss": 0.0242, + "step": 72190 + }, + { + "epoch": 0.462048, + "grad_norm": 1.282416582107544, + "learning_rate": 1.6919680000000002e-05, + "loss": 0.0343, + "step": 72195 + }, + { + "epoch": 0.46208, + "grad_norm": 0.3522481620311737, + "learning_rate": 1.691946666666667e-05, + "loss": 0.0262, + "step": 72200 + }, + { + "epoch": 0.462112, + "grad_norm": 0.6340686082839966, + "learning_rate": 1.6919253333333334e-05, + "loss": 0.021, + "step": 72205 + }, + { + "epoch": 0.462144, + "grad_norm": 0.46964552998542786, + "learning_rate": 1.691904e-05, + "loss": 0.0106, + "step": 72210 + }, + { + "epoch": 0.462176, + "grad_norm": 1.395648717880249, + "learning_rate": 1.691882666666667e-05, + "loss": 0.0216, + "step": 72215 + }, + { + "epoch": 0.462208, + "grad_norm": 1.264097809791565, + "learning_rate": 1.6918613333333336e-05, + "loss": 0.0367, + "step": 72220 + }, + { + "epoch": 0.46224, + "grad_norm": 0.38189956545829773, + "learning_rate": 1.69184e-05, + "loss": 0.0215, + "step": 72225 + }, + { + "epoch": 0.462272, + "grad_norm": 0.552194356918335, + "learning_rate": 1.6918186666666668e-05, + "loss": 0.0136, + "step": 72230 + }, + { + "epoch": 0.462304, + "grad_norm": 0.19308654963970184, + "learning_rate": 1.6917973333333336e-05, + "loss": 0.0187, + "step": 72235 + }, + { + "epoch": 0.462336, + "grad_norm": 1.2553367614746094, + "learning_rate": 1.691776e-05, + "loss": 0.022, + "step": 72240 + }, + { + "epoch": 0.462368, + "grad_norm": 0.96921706199646, + "learning_rate": 1.6917546666666667e-05, + "loss": 0.0265, + "step": 72245 + }, + { + "epoch": 0.4624, + "grad_norm": 1.1649891138076782, + "learning_rate": 1.6917333333333335e-05, + "loss": 0.023, + "step": 72250 + }, + { + "epoch": 0.462432, + "grad_norm": 0.3804205656051636, + "learning_rate": 1.6917120000000002e-05, + "loss": 0.0104, + "step": 72255 + }, + { + "epoch": 0.462464, + "grad_norm": 1.0365819931030273, + "learning_rate": 1.6916906666666667e-05, + "loss": 0.0145, + "step": 72260 + }, + { + "epoch": 0.462496, + "grad_norm": 1.7097054719924927, + "learning_rate": 1.6916693333333334e-05, + "loss": 0.0228, + "step": 72265 + }, + { + "epoch": 0.462528, + "grad_norm": 2.111196279525757, + "learning_rate": 1.6916480000000002e-05, + "loss": 0.0283, + "step": 72270 + }, + { + "epoch": 0.46256, + "grad_norm": 0.20373810827732086, + "learning_rate": 1.6916266666666666e-05, + "loss": 0.0219, + "step": 72275 + }, + { + "epoch": 0.462592, + "grad_norm": 1.3920130729675293, + "learning_rate": 1.6916053333333337e-05, + "loss": 0.0256, + "step": 72280 + }, + { + "epoch": 0.462624, + "grad_norm": 0.810094952583313, + "learning_rate": 1.691584e-05, + "loss": 0.0231, + "step": 72285 + }, + { + "epoch": 0.462656, + "grad_norm": 0.1836620420217514, + "learning_rate": 1.691562666666667e-05, + "loss": 0.0092, + "step": 72290 + }, + { + "epoch": 0.462688, + "grad_norm": 1.1435487270355225, + "learning_rate": 1.6915413333333336e-05, + "loss": 0.0453, + "step": 72295 + }, + { + "epoch": 0.46272, + "grad_norm": 2.0779480934143066, + "learning_rate": 1.69152e-05, + "loss": 0.0263, + "step": 72300 + }, + { + "epoch": 0.462752, + "grad_norm": 0.5165153741836548, + "learning_rate": 1.6914986666666668e-05, + "loss": 0.0254, + "step": 72305 + }, + { + "epoch": 0.462784, + "grad_norm": 0.6120864152908325, + "learning_rate": 1.6914773333333335e-05, + "loss": 0.0177, + "step": 72310 + }, + { + "epoch": 0.462816, + "grad_norm": 2.552597999572754, + "learning_rate": 1.6914560000000003e-05, + "loss": 0.0235, + "step": 72315 + }, + { + "epoch": 0.462848, + "grad_norm": 0.4265708029270172, + "learning_rate": 1.6914346666666667e-05, + "loss": 0.0283, + "step": 72320 + }, + { + "epoch": 0.46288, + "grad_norm": 0.47157523036003113, + "learning_rate": 1.6914133333333335e-05, + "loss": 0.0095, + "step": 72325 + }, + { + "epoch": 0.462912, + "grad_norm": 3.3822526931762695, + "learning_rate": 1.6913920000000002e-05, + "loss": 0.0431, + "step": 72330 + }, + { + "epoch": 0.462944, + "grad_norm": 0.7969739437103271, + "learning_rate": 1.6913706666666666e-05, + "loss": 0.0149, + "step": 72335 + }, + { + "epoch": 0.462976, + "grad_norm": 0.33849725127220154, + "learning_rate": 1.6913493333333334e-05, + "loss": 0.0552, + "step": 72340 + }, + { + "epoch": 0.463008, + "grad_norm": 1.184814691543579, + "learning_rate": 1.691328e-05, + "loss": 0.0416, + "step": 72345 + }, + { + "epoch": 0.46304, + "grad_norm": 0.13923339545726776, + "learning_rate": 1.691306666666667e-05, + "loss": 0.0181, + "step": 72350 + }, + { + "epoch": 0.463072, + "grad_norm": 0.7877790927886963, + "learning_rate": 1.6912853333333333e-05, + "loss": 0.0148, + "step": 72355 + }, + { + "epoch": 0.463104, + "grad_norm": 0.7298131585121155, + "learning_rate": 1.691264e-05, + "loss": 0.0398, + "step": 72360 + }, + { + "epoch": 0.463136, + "grad_norm": 0.8305022716522217, + "learning_rate": 1.691242666666667e-05, + "loss": 0.0176, + "step": 72365 + }, + { + "epoch": 0.463168, + "grad_norm": 0.679731011390686, + "learning_rate": 1.6912213333333332e-05, + "loss": 0.0185, + "step": 72370 + }, + { + "epoch": 0.4632, + "grad_norm": 0.4879896640777588, + "learning_rate": 1.6912000000000003e-05, + "loss": 0.0334, + "step": 72375 + }, + { + "epoch": 0.463232, + "grad_norm": 0.8999955058097839, + "learning_rate": 1.6911786666666668e-05, + "loss": 0.0207, + "step": 72380 + }, + { + "epoch": 0.463264, + "grad_norm": 0.5264456272125244, + "learning_rate": 1.6911573333333335e-05, + "loss": 0.0197, + "step": 72385 + }, + { + "epoch": 0.463296, + "grad_norm": 0.5901442170143127, + "learning_rate": 1.6911360000000003e-05, + "loss": 0.0325, + "step": 72390 + }, + { + "epoch": 0.463328, + "grad_norm": 0.6015514135360718, + "learning_rate": 1.691114666666667e-05, + "loss": 0.0311, + "step": 72395 + }, + { + "epoch": 0.46336, + "grad_norm": 0.6142700910568237, + "learning_rate": 1.6910933333333334e-05, + "loss": 0.018, + "step": 72400 + }, + { + "epoch": 0.463392, + "grad_norm": 1.3902056217193604, + "learning_rate": 1.6910720000000002e-05, + "loss": 0.0469, + "step": 72405 + }, + { + "epoch": 0.463424, + "grad_norm": 0.16867947578430176, + "learning_rate": 1.691050666666667e-05, + "loss": 0.0279, + "step": 72410 + }, + { + "epoch": 0.463456, + "grad_norm": 0.7044436931610107, + "learning_rate": 1.6910293333333334e-05, + "loss": 0.0227, + "step": 72415 + }, + { + "epoch": 0.463488, + "grad_norm": 0.8187029957771301, + "learning_rate": 1.691008e-05, + "loss": 0.0521, + "step": 72420 + }, + { + "epoch": 0.46352, + "grad_norm": 1.8821628093719482, + "learning_rate": 1.690986666666667e-05, + "loss": 0.0238, + "step": 72425 + }, + { + "epoch": 0.463552, + "grad_norm": 1.2605770826339722, + "learning_rate": 1.6909653333333336e-05, + "loss": 0.0605, + "step": 72430 + }, + { + "epoch": 0.463584, + "grad_norm": 0.18332809209823608, + "learning_rate": 1.690944e-05, + "loss": 0.0347, + "step": 72435 + }, + { + "epoch": 0.463616, + "grad_norm": 5.679759502410889, + "learning_rate": 1.6909226666666668e-05, + "loss": 0.0248, + "step": 72440 + }, + { + "epoch": 0.463648, + "grad_norm": 0.319950133562088, + "learning_rate": 1.6909013333333336e-05, + "loss": 0.0129, + "step": 72445 + }, + { + "epoch": 0.46368, + "grad_norm": 0.6979244351387024, + "learning_rate": 1.69088e-05, + "loss": 0.0266, + "step": 72450 + }, + { + "epoch": 0.463712, + "grad_norm": 1.0702548027038574, + "learning_rate": 1.6908586666666667e-05, + "loss": 0.028, + "step": 72455 + }, + { + "epoch": 0.463744, + "grad_norm": 0.5386018753051758, + "learning_rate": 1.6908373333333335e-05, + "loss": 0.0231, + "step": 72460 + }, + { + "epoch": 0.463776, + "grad_norm": 0.13732615113258362, + "learning_rate": 1.6908160000000002e-05, + "loss": 0.0134, + "step": 72465 + }, + { + "epoch": 0.463808, + "grad_norm": 3.068804979324341, + "learning_rate": 1.6907946666666667e-05, + "loss": 0.0228, + "step": 72470 + }, + { + "epoch": 0.46384, + "grad_norm": 0.584604799747467, + "learning_rate": 1.6907733333333334e-05, + "loss": 0.0357, + "step": 72475 + }, + { + "epoch": 0.463872, + "grad_norm": 0.34813570976257324, + "learning_rate": 1.6907520000000002e-05, + "loss": 0.0095, + "step": 72480 + }, + { + "epoch": 0.463904, + "grad_norm": 0.9816855192184448, + "learning_rate": 1.6907306666666666e-05, + "loss": 0.0258, + "step": 72485 + }, + { + "epoch": 0.463936, + "grad_norm": 0.45409250259399414, + "learning_rate": 1.6907093333333337e-05, + "loss": 0.0123, + "step": 72490 + }, + { + "epoch": 0.463968, + "grad_norm": 0.5917931199073792, + "learning_rate": 1.690688e-05, + "loss": 0.0305, + "step": 72495 + }, + { + "epoch": 0.464, + "grad_norm": 0.42683175206184387, + "learning_rate": 1.690666666666667e-05, + "loss": 0.0237, + "step": 72500 + }, + { + "epoch": 0.464032, + "grad_norm": 1.1311043500900269, + "learning_rate": 1.6906453333333336e-05, + "loss": 0.0449, + "step": 72505 + }, + { + "epoch": 0.464064, + "grad_norm": 0.30375057458877563, + "learning_rate": 1.690624e-05, + "loss": 0.035, + "step": 72510 + }, + { + "epoch": 0.464096, + "grad_norm": 0.597345232963562, + "learning_rate": 1.6906026666666668e-05, + "loss": 0.0327, + "step": 72515 + }, + { + "epoch": 0.464128, + "grad_norm": 0.4686404764652252, + "learning_rate": 1.6905813333333335e-05, + "loss": 0.0242, + "step": 72520 + }, + { + "epoch": 0.46416, + "grad_norm": 0.5589020252227783, + "learning_rate": 1.6905600000000003e-05, + "loss": 0.0077, + "step": 72525 + }, + { + "epoch": 0.464192, + "grad_norm": 0.2247588038444519, + "learning_rate": 1.6905386666666667e-05, + "loss": 0.0066, + "step": 72530 + }, + { + "epoch": 0.464224, + "grad_norm": 0.8237984776496887, + "learning_rate": 1.6905173333333335e-05, + "loss": 0.0196, + "step": 72535 + }, + { + "epoch": 0.464256, + "grad_norm": 0.9473317861557007, + "learning_rate": 1.6904960000000002e-05, + "loss": 0.0676, + "step": 72540 + }, + { + "epoch": 0.464288, + "grad_norm": 2.6026601791381836, + "learning_rate": 1.6904746666666666e-05, + "loss": 0.0398, + "step": 72545 + }, + { + "epoch": 0.46432, + "grad_norm": 0.9454199075698853, + "learning_rate": 1.6904533333333334e-05, + "loss": 0.0353, + "step": 72550 + }, + { + "epoch": 0.464352, + "grad_norm": 0.3394715487957001, + "learning_rate": 1.690432e-05, + "loss": 0.0323, + "step": 72555 + }, + { + "epoch": 0.464384, + "grad_norm": 0.7749852538108826, + "learning_rate": 1.690410666666667e-05, + "loss": 0.0146, + "step": 72560 + }, + { + "epoch": 0.464416, + "grad_norm": 0.6066718101501465, + "learning_rate": 1.6903893333333333e-05, + "loss": 0.012, + "step": 72565 + }, + { + "epoch": 0.464448, + "grad_norm": 0.8286622166633606, + "learning_rate": 1.690368e-05, + "loss": 0.0303, + "step": 72570 + }, + { + "epoch": 0.46448, + "grad_norm": 0.06864214688539505, + "learning_rate": 1.690346666666667e-05, + "loss": 0.0119, + "step": 72575 + }, + { + "epoch": 0.464512, + "grad_norm": 1.0242265462875366, + "learning_rate": 1.6903253333333332e-05, + "loss": 0.028, + "step": 72580 + }, + { + "epoch": 0.464544, + "grad_norm": 4.192956924438477, + "learning_rate": 1.690304e-05, + "loss": 0.0313, + "step": 72585 + }, + { + "epoch": 0.464576, + "grad_norm": 0.7643080949783325, + "learning_rate": 1.6902826666666668e-05, + "loss": 0.0195, + "step": 72590 + }, + { + "epoch": 0.464608, + "grad_norm": 0.3949822187423706, + "learning_rate": 1.6902613333333335e-05, + "loss": 0.0152, + "step": 72595 + }, + { + "epoch": 0.46464, + "grad_norm": 0.6015094518661499, + "learning_rate": 1.6902400000000003e-05, + "loss": 0.0483, + "step": 72600 + }, + { + "epoch": 0.464672, + "grad_norm": 0.3056061863899231, + "learning_rate": 1.690218666666667e-05, + "loss": 0.0314, + "step": 72605 + }, + { + "epoch": 0.464704, + "grad_norm": 0.6370968818664551, + "learning_rate": 1.6901973333333334e-05, + "loss": 0.0154, + "step": 72610 + }, + { + "epoch": 0.464736, + "grad_norm": 1.3396267890930176, + "learning_rate": 1.6901760000000002e-05, + "loss": 0.0319, + "step": 72615 + }, + { + "epoch": 0.464768, + "grad_norm": 0.2417193055152893, + "learning_rate": 1.690154666666667e-05, + "loss": 0.0182, + "step": 72620 + }, + { + "epoch": 0.4648, + "grad_norm": 0.2811705768108368, + "learning_rate": 1.6901333333333334e-05, + "loss": 0.0225, + "step": 72625 + }, + { + "epoch": 0.464832, + "grad_norm": 1.0111632347106934, + "learning_rate": 1.690112e-05, + "loss": 0.0573, + "step": 72630 + }, + { + "epoch": 0.464864, + "grad_norm": 0.8961320519447327, + "learning_rate": 1.690090666666667e-05, + "loss": 0.0314, + "step": 72635 + }, + { + "epoch": 0.464896, + "grad_norm": 0.8086127042770386, + "learning_rate": 1.6900693333333336e-05, + "loss": 0.0229, + "step": 72640 + }, + { + "epoch": 0.464928, + "grad_norm": 1.1267025470733643, + "learning_rate": 1.690048e-05, + "loss": 0.0206, + "step": 72645 + }, + { + "epoch": 0.46496, + "grad_norm": 0.48388490080833435, + "learning_rate": 1.6900266666666668e-05, + "loss": 0.0177, + "step": 72650 + }, + { + "epoch": 0.464992, + "grad_norm": 0.3529939651489258, + "learning_rate": 1.6900053333333336e-05, + "loss": 0.0212, + "step": 72655 + }, + { + "epoch": 0.465024, + "grad_norm": 0.5213401317596436, + "learning_rate": 1.689984e-05, + "loss": 0.0248, + "step": 72660 + }, + { + "epoch": 0.465056, + "grad_norm": 0.545036256313324, + "learning_rate": 1.6899626666666667e-05, + "loss": 0.0154, + "step": 72665 + }, + { + "epoch": 0.465088, + "grad_norm": 1.4993900060653687, + "learning_rate": 1.6899413333333335e-05, + "loss": 0.0357, + "step": 72670 + }, + { + "epoch": 0.46512, + "grad_norm": 1.004753589630127, + "learning_rate": 1.6899200000000002e-05, + "loss": 0.0362, + "step": 72675 + }, + { + "epoch": 0.465152, + "grad_norm": 0.6422191858291626, + "learning_rate": 1.6898986666666667e-05, + "loss": 0.0356, + "step": 72680 + }, + { + "epoch": 0.465184, + "grad_norm": 0.6546496748924255, + "learning_rate": 1.6898773333333334e-05, + "loss": 0.0204, + "step": 72685 + }, + { + "epoch": 0.465216, + "grad_norm": 0.41232919692993164, + "learning_rate": 1.6898560000000002e-05, + "loss": 0.0326, + "step": 72690 + }, + { + "epoch": 0.465248, + "grad_norm": 1.205326795578003, + "learning_rate": 1.6898346666666666e-05, + "loss": 0.0439, + "step": 72695 + }, + { + "epoch": 0.46528, + "grad_norm": 0.4710754454135895, + "learning_rate": 1.6898133333333337e-05, + "loss": 0.0199, + "step": 72700 + }, + { + "epoch": 0.465312, + "grad_norm": 0.6135855913162231, + "learning_rate": 1.689792e-05, + "loss": 0.0166, + "step": 72705 + }, + { + "epoch": 0.465344, + "grad_norm": 0.5850918292999268, + "learning_rate": 1.689770666666667e-05, + "loss": 0.0186, + "step": 72710 + }, + { + "epoch": 0.465376, + "grad_norm": 1.0519440174102783, + "learning_rate": 1.6897493333333336e-05, + "loss": 0.0145, + "step": 72715 + }, + { + "epoch": 0.465408, + "grad_norm": 2.1556694507598877, + "learning_rate": 1.689728e-05, + "loss": 0.0211, + "step": 72720 + }, + { + "epoch": 0.46544, + "grad_norm": 0.7986615896224976, + "learning_rate": 1.6897066666666668e-05, + "loss": 0.0284, + "step": 72725 + }, + { + "epoch": 0.465472, + "grad_norm": 0.3251073658466339, + "learning_rate": 1.6896853333333335e-05, + "loss": 0.0124, + "step": 72730 + }, + { + "epoch": 0.465504, + "grad_norm": 0.30102911591529846, + "learning_rate": 1.6896640000000003e-05, + "loss": 0.0114, + "step": 72735 + }, + { + "epoch": 0.465536, + "grad_norm": 1.8571367263793945, + "learning_rate": 1.6896426666666667e-05, + "loss": 0.0324, + "step": 72740 + }, + { + "epoch": 0.465568, + "grad_norm": 6.058730602264404, + "learning_rate": 1.6896213333333335e-05, + "loss": 0.0412, + "step": 72745 + }, + { + "epoch": 0.4656, + "grad_norm": 0.3221873939037323, + "learning_rate": 1.6896000000000002e-05, + "loss": 0.0177, + "step": 72750 + }, + { + "epoch": 0.465632, + "grad_norm": 0.5862866044044495, + "learning_rate": 1.6895786666666666e-05, + "loss": 0.0165, + "step": 72755 + }, + { + "epoch": 0.465664, + "grad_norm": 0.7517905831336975, + "learning_rate": 1.6895573333333334e-05, + "loss": 0.0199, + "step": 72760 + }, + { + "epoch": 0.465696, + "grad_norm": 0.781572163105011, + "learning_rate": 1.689536e-05, + "loss": 0.0291, + "step": 72765 + }, + { + "epoch": 0.465728, + "grad_norm": 0.7732453346252441, + "learning_rate": 1.689514666666667e-05, + "loss": 0.0293, + "step": 72770 + }, + { + "epoch": 0.46576, + "grad_norm": 1.886610507965088, + "learning_rate": 1.6894933333333333e-05, + "loss": 0.0294, + "step": 72775 + }, + { + "epoch": 0.465792, + "grad_norm": 1.4745160341262817, + "learning_rate": 1.689472e-05, + "loss": 0.0244, + "step": 72780 + }, + { + "epoch": 0.465824, + "grad_norm": 1.8581104278564453, + "learning_rate": 1.689450666666667e-05, + "loss": 0.0389, + "step": 72785 + }, + { + "epoch": 0.465856, + "grad_norm": 0.769006073474884, + "learning_rate": 1.6894293333333332e-05, + "loss": 0.0253, + "step": 72790 + }, + { + "epoch": 0.465888, + "grad_norm": 0.21212562918663025, + "learning_rate": 1.689408e-05, + "loss": 0.0243, + "step": 72795 + }, + { + "epoch": 0.46592, + "grad_norm": 0.9665057063102722, + "learning_rate": 1.6893866666666668e-05, + "loss": 0.0125, + "step": 72800 + }, + { + "epoch": 0.465952, + "grad_norm": 0.4894880950450897, + "learning_rate": 1.6893653333333335e-05, + "loss": 0.0278, + "step": 72805 + }, + { + "epoch": 0.465984, + "grad_norm": 0.7886648774147034, + "learning_rate": 1.689344e-05, + "loss": 0.0317, + "step": 72810 + }, + { + "epoch": 0.466016, + "grad_norm": 0.31019583344459534, + "learning_rate": 1.689322666666667e-05, + "loss": 0.0121, + "step": 72815 + }, + { + "epoch": 0.466048, + "grad_norm": 0.6976866126060486, + "learning_rate": 1.6893013333333334e-05, + "loss": 0.0235, + "step": 72820 + }, + { + "epoch": 0.46608, + "grad_norm": 0.2007410079240799, + "learning_rate": 1.6892800000000002e-05, + "loss": 0.023, + "step": 72825 + }, + { + "epoch": 0.466112, + "grad_norm": 0.5690051913261414, + "learning_rate": 1.689258666666667e-05, + "loss": 0.0675, + "step": 72830 + }, + { + "epoch": 0.466144, + "grad_norm": 0.7691637873649597, + "learning_rate": 1.6892373333333334e-05, + "loss": 0.0097, + "step": 72835 + }, + { + "epoch": 0.466176, + "grad_norm": 0.3204709589481354, + "learning_rate": 1.689216e-05, + "loss": 0.0137, + "step": 72840 + }, + { + "epoch": 0.466208, + "grad_norm": 0.18462683260440826, + "learning_rate": 1.689194666666667e-05, + "loss": 0.0188, + "step": 72845 + }, + { + "epoch": 0.46624, + "grad_norm": 0.4187929034233093, + "learning_rate": 1.6891733333333336e-05, + "loss": 0.056, + "step": 72850 + }, + { + "epoch": 0.466272, + "grad_norm": 0.553291380405426, + "learning_rate": 1.689152e-05, + "loss": 0.0223, + "step": 72855 + }, + { + "epoch": 0.466304, + "grad_norm": 0.40134215354919434, + "learning_rate": 1.6891306666666668e-05, + "loss": 0.0374, + "step": 72860 + }, + { + "epoch": 0.466336, + "grad_norm": 0.2893620431423187, + "learning_rate": 1.6891093333333336e-05, + "loss": 0.0184, + "step": 72865 + }, + { + "epoch": 0.466368, + "grad_norm": 0.28848546743392944, + "learning_rate": 1.689088e-05, + "loss": 0.0236, + "step": 72870 + }, + { + "epoch": 0.4664, + "grad_norm": 0.9757018089294434, + "learning_rate": 1.6890666666666667e-05, + "loss": 0.0273, + "step": 72875 + }, + { + "epoch": 0.466432, + "grad_norm": 0.1316823959350586, + "learning_rate": 1.6890453333333335e-05, + "loss": 0.022, + "step": 72880 + }, + { + "epoch": 0.466464, + "grad_norm": 0.4070761799812317, + "learning_rate": 1.6890240000000002e-05, + "loss": 0.0204, + "step": 72885 + }, + { + "epoch": 0.466496, + "grad_norm": 0.24347026646137238, + "learning_rate": 1.6890026666666667e-05, + "loss": 0.0085, + "step": 72890 + }, + { + "epoch": 0.466528, + "grad_norm": 1.0027292966842651, + "learning_rate": 1.6889813333333334e-05, + "loss": 0.035, + "step": 72895 + }, + { + "epoch": 0.46656, + "grad_norm": 1.0361160039901733, + "learning_rate": 1.6889600000000002e-05, + "loss": 0.024, + "step": 72900 + }, + { + "epoch": 0.466592, + "grad_norm": 0.8224810361862183, + "learning_rate": 1.6889386666666666e-05, + "loss": 0.0141, + "step": 72905 + }, + { + "epoch": 0.466624, + "grad_norm": 1.0803272724151611, + "learning_rate": 1.6889173333333337e-05, + "loss": 0.0232, + "step": 72910 + }, + { + "epoch": 0.466656, + "grad_norm": 0.10800360888242722, + "learning_rate": 1.688896e-05, + "loss": 0.016, + "step": 72915 + }, + { + "epoch": 0.466688, + "grad_norm": 0.4567863345146179, + "learning_rate": 1.688874666666667e-05, + "loss": 0.0135, + "step": 72920 + }, + { + "epoch": 0.46672, + "grad_norm": 0.2490578591823578, + "learning_rate": 1.6888533333333336e-05, + "loss": 0.0391, + "step": 72925 + }, + { + "epoch": 0.466752, + "grad_norm": 0.7870311141014099, + "learning_rate": 1.6888320000000004e-05, + "loss": 0.0171, + "step": 72930 + }, + { + "epoch": 0.466784, + "grad_norm": 1.1306477785110474, + "learning_rate": 1.6888106666666668e-05, + "loss": 0.0221, + "step": 72935 + }, + { + "epoch": 0.466816, + "grad_norm": 0.16008710861206055, + "learning_rate": 1.6887893333333335e-05, + "loss": 0.025, + "step": 72940 + }, + { + "epoch": 0.466848, + "grad_norm": 0.551713764667511, + "learning_rate": 1.6887680000000003e-05, + "loss": 0.019, + "step": 72945 + }, + { + "epoch": 0.46688, + "grad_norm": 0.5171997547149658, + "learning_rate": 1.6887466666666667e-05, + "loss": 0.0148, + "step": 72950 + }, + { + "epoch": 0.466912, + "grad_norm": 0.5995752811431885, + "learning_rate": 1.6887253333333335e-05, + "loss": 0.0135, + "step": 72955 + }, + { + "epoch": 0.466944, + "grad_norm": 0.22159144282341003, + "learning_rate": 1.6887040000000002e-05, + "loss": 0.0156, + "step": 72960 + }, + { + "epoch": 0.466976, + "grad_norm": 0.5113244652748108, + "learning_rate": 1.688682666666667e-05, + "loss": 0.0257, + "step": 72965 + }, + { + "epoch": 0.467008, + "grad_norm": 0.4003232717514038, + "learning_rate": 1.6886613333333334e-05, + "loss": 0.016, + "step": 72970 + }, + { + "epoch": 0.46704, + "grad_norm": 0.13712872564792633, + "learning_rate": 1.68864e-05, + "loss": 0.0259, + "step": 72975 + }, + { + "epoch": 0.467072, + "grad_norm": 5.217347621917725, + "learning_rate": 1.688618666666667e-05, + "loss": 0.0232, + "step": 72980 + }, + { + "epoch": 0.467104, + "grad_norm": 0.5805143713951111, + "learning_rate": 1.6885973333333333e-05, + "loss": 0.0299, + "step": 72985 + }, + { + "epoch": 0.467136, + "grad_norm": 0.40590429306030273, + "learning_rate": 1.688576e-05, + "loss": 0.0177, + "step": 72990 + }, + { + "epoch": 0.467168, + "grad_norm": 0.1456611305475235, + "learning_rate": 1.688554666666667e-05, + "loss": 0.0292, + "step": 72995 + }, + { + "epoch": 0.4672, + "grad_norm": 1.8486570119857788, + "learning_rate": 1.6885333333333336e-05, + "loss": 0.0331, + "step": 73000 + }, + { + "epoch": 0.467232, + "grad_norm": 0.947374701499939, + "learning_rate": 1.688512e-05, + "loss": 0.0207, + "step": 73005 + }, + { + "epoch": 0.467264, + "grad_norm": 0.7527198791503906, + "learning_rate": 1.6884906666666668e-05, + "loss": 0.0207, + "step": 73010 + }, + { + "epoch": 0.467296, + "grad_norm": 0.2731057405471802, + "learning_rate": 1.6884693333333335e-05, + "loss": 0.0187, + "step": 73015 + }, + { + "epoch": 0.467328, + "grad_norm": 0.8701044917106628, + "learning_rate": 1.688448e-05, + "loss": 0.0205, + "step": 73020 + }, + { + "epoch": 0.46736, + "grad_norm": 0.9368979334831238, + "learning_rate": 1.688426666666667e-05, + "loss": 0.0631, + "step": 73025 + }, + { + "epoch": 0.467392, + "grad_norm": 0.6202218532562256, + "learning_rate": 1.6884053333333334e-05, + "loss": 0.0116, + "step": 73030 + }, + { + "epoch": 0.467424, + "grad_norm": 0.44371554255485535, + "learning_rate": 1.6883840000000002e-05, + "loss": 0.0136, + "step": 73035 + }, + { + "epoch": 0.467456, + "grad_norm": 0.0654769316315651, + "learning_rate": 1.688362666666667e-05, + "loss": 0.0131, + "step": 73040 + }, + { + "epoch": 0.467488, + "grad_norm": 2.5755696296691895, + "learning_rate": 1.6883413333333334e-05, + "loss": 0.035, + "step": 73045 + }, + { + "epoch": 0.46752, + "grad_norm": 1.8267782926559448, + "learning_rate": 1.68832e-05, + "loss": 0.0153, + "step": 73050 + }, + { + "epoch": 0.467552, + "grad_norm": 0.4070951044559479, + "learning_rate": 1.688298666666667e-05, + "loss": 0.0167, + "step": 73055 + }, + { + "epoch": 0.467584, + "grad_norm": 0.2783563435077667, + "learning_rate": 1.6882773333333336e-05, + "loss": 0.0251, + "step": 73060 + }, + { + "epoch": 0.467616, + "grad_norm": 1.1387690305709839, + "learning_rate": 1.688256e-05, + "loss": 0.0112, + "step": 73065 + }, + { + "epoch": 0.467648, + "grad_norm": 1.6793078184127808, + "learning_rate": 1.6882346666666668e-05, + "loss": 0.0111, + "step": 73070 + }, + { + "epoch": 0.46768, + "grad_norm": 0.4175223410129547, + "learning_rate": 1.6882133333333336e-05, + "loss": 0.0235, + "step": 73075 + }, + { + "epoch": 0.467712, + "grad_norm": 0.17462246119976044, + "learning_rate": 1.688192e-05, + "loss": 0.0155, + "step": 73080 + }, + { + "epoch": 0.467744, + "grad_norm": 1.028394103050232, + "learning_rate": 1.6881706666666667e-05, + "loss": 0.0293, + "step": 73085 + }, + { + "epoch": 0.467776, + "grad_norm": 1.0494482517242432, + "learning_rate": 1.6881493333333335e-05, + "loss": 0.0139, + "step": 73090 + }, + { + "epoch": 0.467808, + "grad_norm": 1.357700228691101, + "learning_rate": 1.6881280000000002e-05, + "loss": 0.0748, + "step": 73095 + }, + { + "epoch": 0.46784, + "grad_norm": 0.7179406881332397, + "learning_rate": 1.6881066666666667e-05, + "loss": 0.0071, + "step": 73100 + }, + { + "epoch": 0.467872, + "grad_norm": 0.525432825088501, + "learning_rate": 1.6880853333333334e-05, + "loss": 0.0197, + "step": 73105 + }, + { + "epoch": 0.467904, + "grad_norm": 3.328406810760498, + "learning_rate": 1.6880640000000002e-05, + "loss": 0.0352, + "step": 73110 + }, + { + "epoch": 0.467936, + "grad_norm": 0.5261266827583313, + "learning_rate": 1.6880426666666666e-05, + "loss": 0.0122, + "step": 73115 + }, + { + "epoch": 0.467968, + "grad_norm": 1.215592384338379, + "learning_rate": 1.6880213333333333e-05, + "loss": 0.0526, + "step": 73120 + }, + { + "epoch": 0.468, + "grad_norm": 0.9592731595039368, + "learning_rate": 1.688e-05, + "loss": 0.0338, + "step": 73125 + }, + { + "epoch": 0.468032, + "grad_norm": 0.769652247428894, + "learning_rate": 1.687978666666667e-05, + "loss": 0.0324, + "step": 73130 + }, + { + "epoch": 0.468064, + "grad_norm": 0.6233713626861572, + "learning_rate": 1.6879573333333336e-05, + "loss": 0.0245, + "step": 73135 + }, + { + "epoch": 0.468096, + "grad_norm": 1.6698946952819824, + "learning_rate": 1.6879360000000004e-05, + "loss": 0.0498, + "step": 73140 + }, + { + "epoch": 0.468128, + "grad_norm": 1.3100301027297974, + "learning_rate": 1.6879146666666668e-05, + "loss": 0.0325, + "step": 73145 + }, + { + "epoch": 0.46816, + "grad_norm": 0.12348975986242294, + "learning_rate": 1.6878933333333335e-05, + "loss": 0.0184, + "step": 73150 + }, + { + "epoch": 0.468192, + "grad_norm": 0.8055097460746765, + "learning_rate": 1.6878720000000003e-05, + "loss": 0.025, + "step": 73155 + }, + { + "epoch": 0.468224, + "grad_norm": 0.5907383561134338, + "learning_rate": 1.6878506666666667e-05, + "loss": 0.0292, + "step": 73160 + }, + { + "epoch": 0.468256, + "grad_norm": 0.3795602321624756, + "learning_rate": 1.6878293333333335e-05, + "loss": 0.031, + "step": 73165 + }, + { + "epoch": 0.468288, + "grad_norm": 0.51002436876297, + "learning_rate": 1.6878080000000002e-05, + "loss": 0.0247, + "step": 73170 + }, + { + "epoch": 0.46832, + "grad_norm": 0.5817917585372925, + "learning_rate": 1.687786666666667e-05, + "loss": 0.0239, + "step": 73175 + }, + { + "epoch": 0.468352, + "grad_norm": 0.5208499431610107, + "learning_rate": 1.6877653333333334e-05, + "loss": 0.0089, + "step": 73180 + }, + { + "epoch": 0.468384, + "grad_norm": 0.6291080713272095, + "learning_rate": 1.687744e-05, + "loss": 0.0122, + "step": 73185 + }, + { + "epoch": 0.468416, + "grad_norm": 2.2594597339630127, + "learning_rate": 1.687722666666667e-05, + "loss": 0.0531, + "step": 73190 + }, + { + "epoch": 0.468448, + "grad_norm": 0.31427884101867676, + "learning_rate": 1.6877013333333333e-05, + "loss": 0.0316, + "step": 73195 + }, + { + "epoch": 0.46848, + "grad_norm": 0.7913057804107666, + "learning_rate": 1.68768e-05, + "loss": 0.0231, + "step": 73200 + }, + { + "epoch": 0.468512, + "grad_norm": 0.6598345041275024, + "learning_rate": 1.687658666666667e-05, + "loss": 0.0249, + "step": 73205 + }, + { + "epoch": 0.468544, + "grad_norm": 1.5163654088974, + "learning_rate": 1.6876373333333336e-05, + "loss": 0.0125, + "step": 73210 + }, + { + "epoch": 0.468576, + "grad_norm": 0.6967248320579529, + "learning_rate": 1.687616e-05, + "loss": 0.0314, + "step": 73215 + }, + { + "epoch": 0.468608, + "grad_norm": 2.4700326919555664, + "learning_rate": 1.6875946666666668e-05, + "loss": 0.0395, + "step": 73220 + }, + { + "epoch": 0.46864, + "grad_norm": 0.0961606428027153, + "learning_rate": 1.6875733333333335e-05, + "loss": 0.0139, + "step": 73225 + }, + { + "epoch": 0.468672, + "grad_norm": 0.21365490555763245, + "learning_rate": 1.687552e-05, + "loss": 0.0146, + "step": 73230 + }, + { + "epoch": 0.468704, + "grad_norm": 0.3695673942565918, + "learning_rate": 1.687530666666667e-05, + "loss": 0.0144, + "step": 73235 + }, + { + "epoch": 0.468736, + "grad_norm": 0.23375123739242554, + "learning_rate": 1.6875093333333334e-05, + "loss": 0.0323, + "step": 73240 + }, + { + "epoch": 0.468768, + "grad_norm": 0.05812489241361618, + "learning_rate": 1.6874880000000002e-05, + "loss": 0.0196, + "step": 73245 + }, + { + "epoch": 0.4688, + "grad_norm": 0.44947728514671326, + "learning_rate": 1.687466666666667e-05, + "loss": 0.0257, + "step": 73250 + }, + { + "epoch": 0.468832, + "grad_norm": 0.5934043526649475, + "learning_rate": 1.6874453333333334e-05, + "loss": 0.0286, + "step": 73255 + }, + { + "epoch": 0.468864, + "grad_norm": 1.7178794145584106, + "learning_rate": 1.687424e-05, + "loss": 0.0207, + "step": 73260 + }, + { + "epoch": 0.468896, + "grad_norm": 0.6339448690414429, + "learning_rate": 1.687402666666667e-05, + "loss": 0.0399, + "step": 73265 + }, + { + "epoch": 0.468928, + "grad_norm": 1.3875410556793213, + "learning_rate": 1.6873813333333336e-05, + "loss": 0.0162, + "step": 73270 + }, + { + "epoch": 0.46896, + "grad_norm": 0.838198184967041, + "learning_rate": 1.68736e-05, + "loss": 0.0386, + "step": 73275 + }, + { + "epoch": 0.468992, + "grad_norm": 0.7611875534057617, + "learning_rate": 1.6873386666666668e-05, + "loss": 0.0443, + "step": 73280 + }, + { + "epoch": 0.469024, + "grad_norm": 0.36648786067962646, + "learning_rate": 1.6873173333333336e-05, + "loss": 0.0072, + "step": 73285 + }, + { + "epoch": 0.469056, + "grad_norm": 0.36178019642829895, + "learning_rate": 1.687296e-05, + "loss": 0.0203, + "step": 73290 + }, + { + "epoch": 0.469088, + "grad_norm": 0.42837589979171753, + "learning_rate": 1.6872746666666667e-05, + "loss": 0.0164, + "step": 73295 + }, + { + "epoch": 0.46912, + "grad_norm": 0.7229363918304443, + "learning_rate": 1.6872533333333335e-05, + "loss": 0.035, + "step": 73300 + }, + { + "epoch": 0.469152, + "grad_norm": 0.4567401111125946, + "learning_rate": 1.6872320000000002e-05, + "loss": 0.017, + "step": 73305 + }, + { + "epoch": 0.469184, + "grad_norm": 0.8201040625572205, + "learning_rate": 1.6872106666666667e-05, + "loss": 0.0263, + "step": 73310 + }, + { + "epoch": 0.469216, + "grad_norm": 0.19951988756656647, + "learning_rate": 1.6871893333333334e-05, + "loss": 0.0233, + "step": 73315 + }, + { + "epoch": 0.469248, + "grad_norm": 0.6720820069313049, + "learning_rate": 1.6871680000000002e-05, + "loss": 0.026, + "step": 73320 + }, + { + "epoch": 0.46928, + "grad_norm": 1.4594699144363403, + "learning_rate": 1.6871466666666666e-05, + "loss": 0.0167, + "step": 73325 + }, + { + "epoch": 0.469312, + "grad_norm": 0.12859201431274414, + "learning_rate": 1.6871253333333333e-05, + "loss": 0.0457, + "step": 73330 + }, + { + "epoch": 0.469344, + "grad_norm": 0.7633988261222839, + "learning_rate": 1.687104e-05, + "loss": 0.0243, + "step": 73335 + }, + { + "epoch": 0.469376, + "grad_norm": 0.20778672397136688, + "learning_rate": 1.687082666666667e-05, + "loss": 0.0296, + "step": 73340 + }, + { + "epoch": 0.469408, + "grad_norm": 0.2769222855567932, + "learning_rate": 1.6870613333333333e-05, + "loss": 0.0283, + "step": 73345 + }, + { + "epoch": 0.46944, + "grad_norm": 1.0205254554748535, + "learning_rate": 1.6870400000000004e-05, + "loss": 0.0371, + "step": 73350 + }, + { + "epoch": 0.469472, + "grad_norm": 0.5533627867698669, + "learning_rate": 1.6870186666666668e-05, + "loss": 0.0153, + "step": 73355 + }, + { + "epoch": 0.469504, + "grad_norm": 1.0773411989212036, + "learning_rate": 1.6869973333333335e-05, + "loss": 0.0239, + "step": 73360 + }, + { + "epoch": 0.469536, + "grad_norm": 0.5256244540214539, + "learning_rate": 1.6869760000000003e-05, + "loss": 0.0298, + "step": 73365 + }, + { + "epoch": 0.469568, + "grad_norm": 0.7238172292709351, + "learning_rate": 1.6869546666666667e-05, + "loss": 0.0317, + "step": 73370 + }, + { + "epoch": 0.4696, + "grad_norm": 0.5008089542388916, + "learning_rate": 1.6869333333333335e-05, + "loss": 0.022, + "step": 73375 + }, + { + "epoch": 0.469632, + "grad_norm": 0.49087560176849365, + "learning_rate": 1.6869120000000002e-05, + "loss": 0.019, + "step": 73380 + }, + { + "epoch": 0.469664, + "grad_norm": 0.6831074953079224, + "learning_rate": 1.686890666666667e-05, + "loss": 0.0142, + "step": 73385 + }, + { + "epoch": 0.469696, + "grad_norm": 0.056077104061841965, + "learning_rate": 1.6868693333333334e-05, + "loss": 0.0093, + "step": 73390 + }, + { + "epoch": 0.469728, + "grad_norm": 0.091765396296978, + "learning_rate": 1.686848e-05, + "loss": 0.0287, + "step": 73395 + }, + { + "epoch": 0.46976, + "grad_norm": 0.5889533162117004, + "learning_rate": 1.686826666666667e-05, + "loss": 0.0223, + "step": 73400 + }, + { + "epoch": 0.469792, + "grad_norm": 2.5064260959625244, + "learning_rate": 1.6868053333333333e-05, + "loss": 0.0362, + "step": 73405 + }, + { + "epoch": 0.469824, + "grad_norm": 0.6412612199783325, + "learning_rate": 1.686784e-05, + "loss": 0.0232, + "step": 73410 + }, + { + "epoch": 0.469856, + "grad_norm": 0.5553126335144043, + "learning_rate": 1.686762666666667e-05, + "loss": 0.0268, + "step": 73415 + }, + { + "epoch": 0.469888, + "grad_norm": 5.328953266143799, + "learning_rate": 1.6867413333333336e-05, + "loss": 0.0209, + "step": 73420 + }, + { + "epoch": 0.46992, + "grad_norm": 0.4773838520050049, + "learning_rate": 1.68672e-05, + "loss": 0.0195, + "step": 73425 + }, + { + "epoch": 0.469952, + "grad_norm": 0.16333608329296112, + "learning_rate": 1.6866986666666668e-05, + "loss": 0.0539, + "step": 73430 + }, + { + "epoch": 0.469984, + "grad_norm": 3.134963274002075, + "learning_rate": 1.6866773333333335e-05, + "loss": 0.0369, + "step": 73435 + }, + { + "epoch": 0.470016, + "grad_norm": 0.1462133526802063, + "learning_rate": 1.686656e-05, + "loss": 0.0221, + "step": 73440 + }, + { + "epoch": 0.470048, + "grad_norm": 0.5070272088050842, + "learning_rate": 1.686634666666667e-05, + "loss": 0.0182, + "step": 73445 + }, + { + "epoch": 0.47008, + "grad_norm": 1.330227255821228, + "learning_rate": 1.6866133333333334e-05, + "loss": 0.0234, + "step": 73450 + }, + { + "epoch": 0.470112, + "grad_norm": 0.9278443455696106, + "learning_rate": 1.6865920000000002e-05, + "loss": 0.0394, + "step": 73455 + }, + { + "epoch": 0.470144, + "grad_norm": 0.5568894743919373, + "learning_rate": 1.686570666666667e-05, + "loss": 0.012, + "step": 73460 + }, + { + "epoch": 0.470176, + "grad_norm": 0.49594682455062866, + "learning_rate": 1.6865493333333334e-05, + "loss": 0.0239, + "step": 73465 + }, + { + "epoch": 0.470208, + "grad_norm": 0.6515874266624451, + "learning_rate": 1.686528e-05, + "loss": 0.037, + "step": 73470 + }, + { + "epoch": 0.47024, + "grad_norm": 0.21452146768569946, + "learning_rate": 1.686506666666667e-05, + "loss": 0.0212, + "step": 73475 + }, + { + "epoch": 0.470272, + "grad_norm": 0.25934961438179016, + "learning_rate": 1.6864853333333336e-05, + "loss": 0.022, + "step": 73480 + }, + { + "epoch": 0.470304, + "grad_norm": 0.07186593860387802, + "learning_rate": 1.686464e-05, + "loss": 0.0174, + "step": 73485 + }, + { + "epoch": 0.470336, + "grad_norm": 0.7352770566940308, + "learning_rate": 1.6864426666666668e-05, + "loss": 0.0224, + "step": 73490 + }, + { + "epoch": 0.470368, + "grad_norm": 0.45280614495277405, + "learning_rate": 1.6864213333333336e-05, + "loss": 0.0091, + "step": 73495 + }, + { + "epoch": 0.4704, + "grad_norm": 0.19403453171253204, + "learning_rate": 1.6864e-05, + "loss": 0.0125, + "step": 73500 + }, + { + "epoch": 0.470432, + "grad_norm": 0.06425954401493073, + "learning_rate": 1.6863786666666667e-05, + "loss": 0.0228, + "step": 73505 + }, + { + "epoch": 0.470464, + "grad_norm": 0.5978012681007385, + "learning_rate": 1.6863573333333335e-05, + "loss": 0.0246, + "step": 73510 + }, + { + "epoch": 0.470496, + "grad_norm": 0.6564538478851318, + "learning_rate": 1.6863360000000002e-05, + "loss": 0.013, + "step": 73515 + }, + { + "epoch": 0.470528, + "grad_norm": 0.5385395884513855, + "learning_rate": 1.6863146666666667e-05, + "loss": 0.0288, + "step": 73520 + }, + { + "epoch": 0.47056, + "grad_norm": 1.3647291660308838, + "learning_rate": 1.6862933333333334e-05, + "loss": 0.0187, + "step": 73525 + }, + { + "epoch": 0.470592, + "grad_norm": 0.6128705143928528, + "learning_rate": 1.6862720000000002e-05, + "loss": 0.0264, + "step": 73530 + }, + { + "epoch": 0.470624, + "grad_norm": 1.5454142093658447, + "learning_rate": 1.6862506666666666e-05, + "loss": 0.0377, + "step": 73535 + }, + { + "epoch": 0.470656, + "grad_norm": 0.7306475043296814, + "learning_rate": 1.6862293333333333e-05, + "loss": 0.0327, + "step": 73540 + }, + { + "epoch": 0.470688, + "grad_norm": 0.17906151711940765, + "learning_rate": 1.686208e-05, + "loss": 0.0252, + "step": 73545 + }, + { + "epoch": 0.47072, + "grad_norm": 0.998304545879364, + "learning_rate": 1.686186666666667e-05, + "loss": 0.0176, + "step": 73550 + }, + { + "epoch": 0.470752, + "grad_norm": 0.5705607533454895, + "learning_rate": 1.6861653333333333e-05, + "loss": 0.034, + "step": 73555 + }, + { + "epoch": 0.470784, + "grad_norm": 2.1592204570770264, + "learning_rate": 1.6861440000000004e-05, + "loss": 0.0212, + "step": 73560 + }, + { + "epoch": 0.470816, + "grad_norm": 1.248543620109558, + "learning_rate": 1.6861226666666668e-05, + "loss": 0.0643, + "step": 73565 + }, + { + "epoch": 0.470848, + "grad_norm": 0.2593778073787689, + "learning_rate": 1.6861013333333332e-05, + "loss": 0.0093, + "step": 73570 + }, + { + "epoch": 0.47088, + "grad_norm": 0.48654845356941223, + "learning_rate": 1.6860800000000003e-05, + "loss": 0.0148, + "step": 73575 + }, + { + "epoch": 0.470912, + "grad_norm": 0.44490188360214233, + "learning_rate": 1.6860586666666667e-05, + "loss": 0.0185, + "step": 73580 + }, + { + "epoch": 0.470944, + "grad_norm": 1.132908821105957, + "learning_rate": 1.6860373333333335e-05, + "loss": 0.043, + "step": 73585 + }, + { + "epoch": 0.470976, + "grad_norm": 0.5283503532409668, + "learning_rate": 1.6860160000000002e-05, + "loss": 0.0138, + "step": 73590 + }, + { + "epoch": 0.471008, + "grad_norm": 0.6229803562164307, + "learning_rate": 1.685994666666667e-05, + "loss": 0.0449, + "step": 73595 + }, + { + "epoch": 0.47104, + "grad_norm": 0.7649940848350525, + "learning_rate": 1.6859733333333334e-05, + "loss": 0.027, + "step": 73600 + }, + { + "epoch": 0.471072, + "grad_norm": 0.6019262671470642, + "learning_rate": 1.685952e-05, + "loss": 0.0124, + "step": 73605 + }, + { + "epoch": 0.471104, + "grad_norm": 0.9945441484451294, + "learning_rate": 1.685930666666667e-05, + "loss": 0.0398, + "step": 73610 + }, + { + "epoch": 0.471136, + "grad_norm": 1.0867724418640137, + "learning_rate": 1.6859093333333333e-05, + "loss": 0.0238, + "step": 73615 + }, + { + "epoch": 0.471168, + "grad_norm": 0.5542664527893066, + "learning_rate": 1.685888e-05, + "loss": 0.0138, + "step": 73620 + }, + { + "epoch": 0.4712, + "grad_norm": 0.24461030960083008, + "learning_rate": 1.685866666666667e-05, + "loss": 0.0111, + "step": 73625 + }, + { + "epoch": 0.471232, + "grad_norm": 0.6012804508209229, + "learning_rate": 1.6858453333333336e-05, + "loss": 0.0186, + "step": 73630 + }, + { + "epoch": 0.471264, + "grad_norm": 2.2807765007019043, + "learning_rate": 1.685824e-05, + "loss": 0.025, + "step": 73635 + }, + { + "epoch": 0.471296, + "grad_norm": 0.7722741365432739, + "learning_rate": 1.6858026666666668e-05, + "loss": 0.0264, + "step": 73640 + }, + { + "epoch": 0.471328, + "grad_norm": 0.3509238660335541, + "learning_rate": 1.6857813333333335e-05, + "loss": 0.0108, + "step": 73645 + }, + { + "epoch": 0.47136, + "grad_norm": 0.9163388013839722, + "learning_rate": 1.68576e-05, + "loss": 0.0208, + "step": 73650 + }, + { + "epoch": 0.471392, + "grad_norm": 0.3921169340610504, + "learning_rate": 1.6857386666666667e-05, + "loss": 0.0131, + "step": 73655 + }, + { + "epoch": 0.471424, + "grad_norm": 0.843634307384491, + "learning_rate": 1.6857173333333334e-05, + "loss": 0.0231, + "step": 73660 + }, + { + "epoch": 0.471456, + "grad_norm": 0.19376324117183685, + "learning_rate": 1.6856960000000002e-05, + "loss": 0.0271, + "step": 73665 + }, + { + "epoch": 0.471488, + "grad_norm": 0.5400076508522034, + "learning_rate": 1.685674666666667e-05, + "loss": 0.0338, + "step": 73670 + }, + { + "epoch": 0.47152, + "grad_norm": 1.030335545539856, + "learning_rate": 1.6856533333333334e-05, + "loss": 0.0186, + "step": 73675 + }, + { + "epoch": 0.471552, + "grad_norm": 0.34032028913497925, + "learning_rate": 1.685632e-05, + "loss": 0.024, + "step": 73680 + }, + { + "epoch": 0.471584, + "grad_norm": 1.1398468017578125, + "learning_rate": 1.685610666666667e-05, + "loss": 0.0366, + "step": 73685 + }, + { + "epoch": 0.471616, + "grad_norm": 0.26475462317466736, + "learning_rate": 1.6855893333333336e-05, + "loss": 0.0252, + "step": 73690 + }, + { + "epoch": 0.471648, + "grad_norm": 0.18886378407478333, + "learning_rate": 1.685568e-05, + "loss": 0.013, + "step": 73695 + }, + { + "epoch": 0.47168, + "grad_norm": 0.9205371141433716, + "learning_rate": 1.6855466666666668e-05, + "loss": 0.0179, + "step": 73700 + }, + { + "epoch": 0.471712, + "grad_norm": 1.4908028841018677, + "learning_rate": 1.6855253333333336e-05, + "loss": 0.0227, + "step": 73705 + }, + { + "epoch": 0.471744, + "grad_norm": 2.3200886249542236, + "learning_rate": 1.685504e-05, + "loss": 0.0448, + "step": 73710 + }, + { + "epoch": 0.471776, + "grad_norm": 1.3319916725158691, + "learning_rate": 1.6854826666666667e-05, + "loss": 0.0386, + "step": 73715 + }, + { + "epoch": 0.471808, + "grad_norm": 0.6614622473716736, + "learning_rate": 1.6854613333333335e-05, + "loss": 0.0218, + "step": 73720 + }, + { + "epoch": 0.47184, + "grad_norm": 0.4501950740814209, + "learning_rate": 1.6854400000000002e-05, + "loss": 0.0198, + "step": 73725 + }, + { + "epoch": 0.471872, + "grad_norm": 0.4227880835533142, + "learning_rate": 1.6854186666666667e-05, + "loss": 0.0093, + "step": 73730 + }, + { + "epoch": 0.471904, + "grad_norm": 0.6248894929885864, + "learning_rate": 1.6853973333333334e-05, + "loss": 0.0273, + "step": 73735 + }, + { + "epoch": 0.471936, + "grad_norm": 0.5047979950904846, + "learning_rate": 1.6853760000000002e-05, + "loss": 0.0262, + "step": 73740 + }, + { + "epoch": 0.471968, + "grad_norm": 1.0261571407318115, + "learning_rate": 1.6853546666666666e-05, + "loss": 0.0478, + "step": 73745 + }, + { + "epoch": 0.472, + "grad_norm": 1.5324921607971191, + "learning_rate": 1.6853333333333333e-05, + "loss": 0.021, + "step": 73750 + }, + { + "epoch": 0.472032, + "grad_norm": 0.15618623793125153, + "learning_rate": 1.685312e-05, + "loss": 0.0197, + "step": 73755 + }, + { + "epoch": 0.472064, + "grad_norm": 0.23392510414123535, + "learning_rate": 1.685290666666667e-05, + "loss": 0.0292, + "step": 73760 + }, + { + "epoch": 0.472096, + "grad_norm": 0.6063408851623535, + "learning_rate": 1.6852693333333333e-05, + "loss": 0.0255, + "step": 73765 + }, + { + "epoch": 0.472128, + "grad_norm": 0.6314140558242798, + "learning_rate": 1.6852480000000004e-05, + "loss": 0.0418, + "step": 73770 + }, + { + "epoch": 0.47216, + "grad_norm": 1.766966462135315, + "learning_rate": 1.6852266666666668e-05, + "loss": 0.0158, + "step": 73775 + }, + { + "epoch": 0.472192, + "grad_norm": 1.075819492340088, + "learning_rate": 1.6852053333333335e-05, + "loss": 0.0211, + "step": 73780 + }, + { + "epoch": 0.472224, + "grad_norm": 0.43309780955314636, + "learning_rate": 1.6851840000000003e-05, + "loss": 0.032, + "step": 73785 + }, + { + "epoch": 0.472256, + "grad_norm": 0.5321922302246094, + "learning_rate": 1.6851626666666667e-05, + "loss": 0.023, + "step": 73790 + }, + { + "epoch": 0.472288, + "grad_norm": 0.6578097939491272, + "learning_rate": 1.6851413333333335e-05, + "loss": 0.0118, + "step": 73795 + }, + { + "epoch": 0.47232, + "grad_norm": 0.4621768891811371, + "learning_rate": 1.6851200000000002e-05, + "loss": 0.0253, + "step": 73800 + }, + { + "epoch": 0.472352, + "grad_norm": 0.3277398645877838, + "learning_rate": 1.685098666666667e-05, + "loss": 0.0107, + "step": 73805 + }, + { + "epoch": 0.472384, + "grad_norm": 0.5156038403511047, + "learning_rate": 1.6850773333333334e-05, + "loss": 0.0185, + "step": 73810 + }, + { + "epoch": 0.472416, + "grad_norm": 0.39454758167266846, + "learning_rate": 1.685056e-05, + "loss": 0.0219, + "step": 73815 + }, + { + "epoch": 0.472448, + "grad_norm": 2.447659730911255, + "learning_rate": 1.685034666666667e-05, + "loss": 0.0394, + "step": 73820 + }, + { + "epoch": 0.47248, + "grad_norm": 0.25907668471336365, + "learning_rate": 1.6850133333333333e-05, + "loss": 0.0177, + "step": 73825 + }, + { + "epoch": 0.472512, + "grad_norm": 0.44466283917427063, + "learning_rate": 1.684992e-05, + "loss": 0.0321, + "step": 73830 + }, + { + "epoch": 0.472544, + "grad_norm": 0.17179138958454132, + "learning_rate": 1.684970666666667e-05, + "loss": 0.0043, + "step": 73835 + }, + { + "epoch": 0.472576, + "grad_norm": 0.32601675391197205, + "learning_rate": 1.6849493333333336e-05, + "loss": 0.0276, + "step": 73840 + }, + { + "epoch": 0.472608, + "grad_norm": 0.1388244479894638, + "learning_rate": 1.684928e-05, + "loss": 0.0213, + "step": 73845 + }, + { + "epoch": 0.47264, + "grad_norm": 0.9763416051864624, + "learning_rate": 1.6849066666666668e-05, + "loss": 0.0254, + "step": 73850 + }, + { + "epoch": 0.472672, + "grad_norm": 0.7073095440864563, + "learning_rate": 1.6848853333333335e-05, + "loss": 0.0156, + "step": 73855 + }, + { + "epoch": 0.472704, + "grad_norm": 1.0768325328826904, + "learning_rate": 1.684864e-05, + "loss": 0.0212, + "step": 73860 + }, + { + "epoch": 0.472736, + "grad_norm": 0.16014425456523895, + "learning_rate": 1.6848426666666667e-05, + "loss": 0.0365, + "step": 73865 + }, + { + "epoch": 0.472768, + "grad_norm": 1.2618992328643799, + "learning_rate": 1.6848213333333334e-05, + "loss": 0.016, + "step": 73870 + }, + { + "epoch": 0.4728, + "grad_norm": 0.5837250351905823, + "learning_rate": 1.6848000000000002e-05, + "loss": 0.0394, + "step": 73875 + }, + { + "epoch": 0.472832, + "grad_norm": 0.5984832644462585, + "learning_rate": 1.6847786666666666e-05, + "loss": 0.0216, + "step": 73880 + }, + { + "epoch": 0.472864, + "grad_norm": 1.5166233777999878, + "learning_rate": 1.6847573333333337e-05, + "loss": 0.0288, + "step": 73885 + }, + { + "epoch": 0.472896, + "grad_norm": 0.4401620328426361, + "learning_rate": 1.684736e-05, + "loss": 0.0083, + "step": 73890 + }, + { + "epoch": 0.472928, + "grad_norm": 0.7512182593345642, + "learning_rate": 1.684714666666667e-05, + "loss": 0.0216, + "step": 73895 + }, + { + "epoch": 0.47296, + "grad_norm": 1.7747888565063477, + "learning_rate": 1.6846933333333336e-05, + "loss": 0.0453, + "step": 73900 + }, + { + "epoch": 0.472992, + "grad_norm": 0.14037272334098816, + "learning_rate": 1.684672e-05, + "loss": 0.0153, + "step": 73905 + }, + { + "epoch": 0.473024, + "grad_norm": 0.946050226688385, + "learning_rate": 1.6846506666666668e-05, + "loss": 0.0166, + "step": 73910 + }, + { + "epoch": 0.473056, + "grad_norm": 0.4095064699649811, + "learning_rate": 1.6846293333333336e-05, + "loss": 0.0226, + "step": 73915 + }, + { + "epoch": 0.473088, + "grad_norm": 0.43188759684562683, + "learning_rate": 1.6846080000000003e-05, + "loss": 0.0322, + "step": 73920 + }, + { + "epoch": 0.47312, + "grad_norm": 1.0894954204559326, + "learning_rate": 1.6845866666666667e-05, + "loss": 0.0372, + "step": 73925 + }, + { + "epoch": 0.473152, + "grad_norm": 0.1827235221862793, + "learning_rate": 1.6845653333333335e-05, + "loss": 0.0112, + "step": 73930 + }, + { + "epoch": 0.473184, + "grad_norm": 1.2247376441955566, + "learning_rate": 1.6845440000000002e-05, + "loss": 0.0196, + "step": 73935 + }, + { + "epoch": 0.473216, + "grad_norm": 0.727313756942749, + "learning_rate": 1.6845226666666667e-05, + "loss": 0.0348, + "step": 73940 + }, + { + "epoch": 0.473248, + "grad_norm": 1.1314929723739624, + "learning_rate": 1.6845013333333334e-05, + "loss": 0.0389, + "step": 73945 + }, + { + "epoch": 0.47328, + "grad_norm": 0.34671273827552795, + "learning_rate": 1.6844800000000002e-05, + "loss": 0.026, + "step": 73950 + }, + { + "epoch": 0.473312, + "grad_norm": 0.3232523500919342, + "learning_rate": 1.684458666666667e-05, + "loss": 0.0176, + "step": 73955 + }, + { + "epoch": 0.473344, + "grad_norm": 0.4369581937789917, + "learning_rate": 1.6844373333333333e-05, + "loss": 0.017, + "step": 73960 + }, + { + "epoch": 0.473376, + "grad_norm": 1.3122981786727905, + "learning_rate": 1.684416e-05, + "loss": 0.0277, + "step": 73965 + }, + { + "epoch": 0.473408, + "grad_norm": 0.4040469527244568, + "learning_rate": 1.684394666666667e-05, + "loss": 0.0275, + "step": 73970 + }, + { + "epoch": 0.47344, + "grad_norm": 0.08083486557006836, + "learning_rate": 1.6843733333333333e-05, + "loss": 0.0182, + "step": 73975 + }, + { + "epoch": 0.473472, + "grad_norm": 0.4286402463912964, + "learning_rate": 1.6843520000000004e-05, + "loss": 0.0114, + "step": 73980 + }, + { + "epoch": 0.473504, + "grad_norm": 0.5456007122993469, + "learning_rate": 1.6843306666666668e-05, + "loss": 0.0408, + "step": 73985 + }, + { + "epoch": 0.473536, + "grad_norm": 0.4958713948726654, + "learning_rate": 1.6843093333333335e-05, + "loss": 0.0382, + "step": 73990 + }, + { + "epoch": 0.473568, + "grad_norm": 0.7477005124092102, + "learning_rate": 1.6842880000000003e-05, + "loss": 0.022, + "step": 73995 + }, + { + "epoch": 0.4736, + "grad_norm": 0.09200391173362732, + "learning_rate": 1.6842666666666667e-05, + "loss": 0.0123, + "step": 74000 + }, + { + "epoch": 0.473632, + "grad_norm": 0.39753827452659607, + "learning_rate": 1.6842453333333335e-05, + "loss": 0.0306, + "step": 74005 + }, + { + "epoch": 0.473664, + "grad_norm": 0.731113851070404, + "learning_rate": 1.6842240000000002e-05, + "loss": 0.025, + "step": 74010 + }, + { + "epoch": 0.473696, + "grad_norm": 0.6004216074943542, + "learning_rate": 1.684202666666667e-05, + "loss": 0.0234, + "step": 74015 + }, + { + "epoch": 0.473728, + "grad_norm": 0.8184078931808472, + "learning_rate": 1.6841813333333334e-05, + "loss": 0.0263, + "step": 74020 + }, + { + "epoch": 0.47376, + "grad_norm": 0.21133707463741302, + "learning_rate": 1.68416e-05, + "loss": 0.0233, + "step": 74025 + }, + { + "epoch": 0.473792, + "grad_norm": 0.22024503350257874, + "learning_rate": 1.684138666666667e-05, + "loss": 0.0124, + "step": 74030 + }, + { + "epoch": 0.473824, + "grad_norm": 0.601288914680481, + "learning_rate": 1.6841173333333333e-05, + "loss": 0.0148, + "step": 74035 + }, + { + "epoch": 0.473856, + "grad_norm": 0.4524882435798645, + "learning_rate": 1.684096e-05, + "loss": 0.0267, + "step": 74040 + }, + { + "epoch": 0.473888, + "grad_norm": 1.1221674680709839, + "learning_rate": 1.684074666666667e-05, + "loss": 0.0354, + "step": 74045 + }, + { + "epoch": 0.47392, + "grad_norm": 0.8182841539382935, + "learning_rate": 1.6840533333333336e-05, + "loss": 0.0153, + "step": 74050 + }, + { + "epoch": 0.473952, + "grad_norm": 1.6663336753845215, + "learning_rate": 1.684032e-05, + "loss": 0.0312, + "step": 74055 + }, + { + "epoch": 0.473984, + "grad_norm": 1.1458775997161865, + "learning_rate": 1.6840106666666668e-05, + "loss": 0.0381, + "step": 74060 + }, + { + "epoch": 0.474016, + "grad_norm": 0.32499608397483826, + "learning_rate": 1.6839893333333335e-05, + "loss": 0.0135, + "step": 74065 + }, + { + "epoch": 0.474048, + "grad_norm": 0.30888691544532776, + "learning_rate": 1.683968e-05, + "loss": 0.0143, + "step": 74070 + }, + { + "epoch": 0.47408, + "grad_norm": 0.20822378993034363, + "learning_rate": 1.6839466666666667e-05, + "loss": 0.0256, + "step": 74075 + }, + { + "epoch": 0.474112, + "grad_norm": 0.9791350960731506, + "learning_rate": 1.6839253333333334e-05, + "loss": 0.0186, + "step": 74080 + }, + { + "epoch": 0.474144, + "grad_norm": 0.27413642406463623, + "learning_rate": 1.6839040000000002e-05, + "loss": 0.0242, + "step": 74085 + }, + { + "epoch": 0.474176, + "grad_norm": 0.31014198064804077, + "learning_rate": 1.6838826666666666e-05, + "loss": 0.0349, + "step": 74090 + }, + { + "epoch": 0.474208, + "grad_norm": 0.5195279121398926, + "learning_rate": 1.6838613333333337e-05, + "loss": 0.0339, + "step": 74095 + }, + { + "epoch": 0.47424, + "grad_norm": 0.3623536229133606, + "learning_rate": 1.68384e-05, + "loss": 0.0147, + "step": 74100 + }, + { + "epoch": 0.474272, + "grad_norm": 0.32245203852653503, + "learning_rate": 1.6838186666666665e-05, + "loss": 0.0192, + "step": 74105 + }, + { + "epoch": 0.474304, + "grad_norm": 0.6859599947929382, + "learning_rate": 1.6837973333333336e-05, + "loss": 0.0222, + "step": 74110 + }, + { + "epoch": 0.474336, + "grad_norm": 0.2261514812707901, + "learning_rate": 1.683776e-05, + "loss": 0.024, + "step": 74115 + }, + { + "epoch": 0.474368, + "grad_norm": 0.5906727910041809, + "learning_rate": 1.6837546666666668e-05, + "loss": 0.0224, + "step": 74120 + }, + { + "epoch": 0.4744, + "grad_norm": 0.7467527985572815, + "learning_rate": 1.6837333333333336e-05, + "loss": 0.0347, + "step": 74125 + }, + { + "epoch": 0.474432, + "grad_norm": 0.5462235808372498, + "learning_rate": 1.6837120000000003e-05, + "loss": 0.0197, + "step": 74130 + }, + { + "epoch": 0.474464, + "grad_norm": 0.22341686487197876, + "learning_rate": 1.6836906666666667e-05, + "loss": 0.0134, + "step": 74135 + }, + { + "epoch": 0.474496, + "grad_norm": 1.1882799863815308, + "learning_rate": 1.6836693333333335e-05, + "loss": 0.0481, + "step": 74140 + }, + { + "epoch": 0.474528, + "grad_norm": 0.9967634677886963, + "learning_rate": 1.6836480000000002e-05, + "loss": 0.0189, + "step": 74145 + }, + { + "epoch": 0.47456, + "grad_norm": 0.09298226982355118, + "learning_rate": 1.6836266666666667e-05, + "loss": 0.0134, + "step": 74150 + }, + { + "epoch": 0.474592, + "grad_norm": 0.6062464714050293, + "learning_rate": 1.6836053333333334e-05, + "loss": 0.0192, + "step": 74155 + }, + { + "epoch": 0.474624, + "grad_norm": 0.23058131337165833, + "learning_rate": 1.6835840000000002e-05, + "loss": 0.0249, + "step": 74160 + }, + { + "epoch": 0.474656, + "grad_norm": 0.25894010066986084, + "learning_rate": 1.683562666666667e-05, + "loss": 0.0176, + "step": 74165 + }, + { + "epoch": 0.474688, + "grad_norm": 0.42287930846214294, + "learning_rate": 1.6835413333333333e-05, + "loss": 0.0294, + "step": 74170 + }, + { + "epoch": 0.47472, + "grad_norm": 0.8905925750732422, + "learning_rate": 1.68352e-05, + "loss": 0.0482, + "step": 74175 + }, + { + "epoch": 0.474752, + "grad_norm": 0.4953080117702484, + "learning_rate": 1.683498666666667e-05, + "loss": 0.0247, + "step": 74180 + }, + { + "epoch": 0.474784, + "grad_norm": 0.9509375095367432, + "learning_rate": 1.6834773333333333e-05, + "loss": 0.0358, + "step": 74185 + }, + { + "epoch": 0.474816, + "grad_norm": 0.44870463013648987, + "learning_rate": 1.6834560000000004e-05, + "loss": 0.0156, + "step": 74190 + }, + { + "epoch": 0.474848, + "grad_norm": 0.7596325874328613, + "learning_rate": 1.6834346666666668e-05, + "loss": 0.0195, + "step": 74195 + }, + { + "epoch": 0.47488, + "grad_norm": 1.1088775396347046, + "learning_rate": 1.6834133333333335e-05, + "loss": 0.0295, + "step": 74200 + }, + { + "epoch": 0.474912, + "grad_norm": 0.9151665568351746, + "learning_rate": 1.6833920000000003e-05, + "loss": 0.0177, + "step": 74205 + }, + { + "epoch": 0.474944, + "grad_norm": 0.6111469864845276, + "learning_rate": 1.6833706666666667e-05, + "loss": 0.045, + "step": 74210 + }, + { + "epoch": 0.474976, + "grad_norm": 0.5802881121635437, + "learning_rate": 1.6833493333333335e-05, + "loss": 0.0219, + "step": 74215 + }, + { + "epoch": 0.475008, + "grad_norm": 1.9504302740097046, + "learning_rate": 1.6833280000000002e-05, + "loss": 0.0315, + "step": 74220 + }, + { + "epoch": 0.47504, + "grad_norm": 2.754180908203125, + "learning_rate": 1.683306666666667e-05, + "loss": 0.0184, + "step": 74225 + }, + { + "epoch": 0.475072, + "grad_norm": 0.2851983606815338, + "learning_rate": 1.6832853333333334e-05, + "loss": 0.0126, + "step": 74230 + }, + { + "epoch": 0.475104, + "grad_norm": 1.0526052713394165, + "learning_rate": 1.683264e-05, + "loss": 0.0406, + "step": 74235 + }, + { + "epoch": 0.475136, + "grad_norm": 0.4648700952529907, + "learning_rate": 1.683242666666667e-05, + "loss": 0.012, + "step": 74240 + }, + { + "epoch": 0.475168, + "grad_norm": 0.39806827902793884, + "learning_rate": 1.6832213333333333e-05, + "loss": 0.0185, + "step": 74245 + }, + { + "epoch": 0.4752, + "grad_norm": 0.3334570527076721, + "learning_rate": 1.6832e-05, + "loss": 0.0174, + "step": 74250 + }, + { + "epoch": 0.475232, + "grad_norm": 0.20420248806476593, + "learning_rate": 1.683178666666667e-05, + "loss": 0.0148, + "step": 74255 + }, + { + "epoch": 0.475264, + "grad_norm": 1.2486003637313843, + "learning_rate": 1.6831573333333336e-05, + "loss": 0.0112, + "step": 74260 + }, + { + "epoch": 0.475296, + "grad_norm": 1.0340707302093506, + "learning_rate": 1.683136e-05, + "loss": 0.021, + "step": 74265 + }, + { + "epoch": 0.475328, + "grad_norm": 1.0588288307189941, + "learning_rate": 1.6831146666666668e-05, + "loss": 0.0399, + "step": 74270 + }, + { + "epoch": 0.47536, + "grad_norm": 0.41920626163482666, + "learning_rate": 1.6830933333333335e-05, + "loss": 0.0295, + "step": 74275 + }, + { + "epoch": 0.475392, + "grad_norm": 0.442722886800766, + "learning_rate": 1.683072e-05, + "loss": 0.0314, + "step": 74280 + }, + { + "epoch": 0.475424, + "grad_norm": 0.7533243894577026, + "learning_rate": 1.6830506666666667e-05, + "loss": 0.0362, + "step": 74285 + }, + { + "epoch": 0.475456, + "grad_norm": 0.3337254822254181, + "learning_rate": 1.6830293333333334e-05, + "loss": 0.0378, + "step": 74290 + }, + { + "epoch": 0.475488, + "grad_norm": 0.5068350434303284, + "learning_rate": 1.6830080000000002e-05, + "loss": 0.0163, + "step": 74295 + }, + { + "epoch": 0.47552, + "grad_norm": 0.4494827389717102, + "learning_rate": 1.6829866666666666e-05, + "loss": 0.0198, + "step": 74300 + }, + { + "epoch": 0.475552, + "grad_norm": 0.4537081718444824, + "learning_rate": 1.6829653333333337e-05, + "loss": 0.0208, + "step": 74305 + }, + { + "epoch": 0.475584, + "grad_norm": 1.1787919998168945, + "learning_rate": 1.682944e-05, + "loss": 0.0313, + "step": 74310 + }, + { + "epoch": 0.475616, + "grad_norm": 0.2655429244041443, + "learning_rate": 1.6829226666666665e-05, + "loss": 0.0203, + "step": 74315 + }, + { + "epoch": 0.475648, + "grad_norm": 0.3088017404079437, + "learning_rate": 1.6829013333333336e-05, + "loss": 0.0375, + "step": 74320 + }, + { + "epoch": 0.47568, + "grad_norm": 0.43538105487823486, + "learning_rate": 1.68288e-05, + "loss": 0.0148, + "step": 74325 + }, + { + "epoch": 0.475712, + "grad_norm": 0.2056678831577301, + "learning_rate": 1.6828586666666668e-05, + "loss": 0.0158, + "step": 74330 + }, + { + "epoch": 0.475744, + "grad_norm": 0.3570946753025055, + "learning_rate": 1.6828373333333336e-05, + "loss": 0.0105, + "step": 74335 + }, + { + "epoch": 0.475776, + "grad_norm": 2.5778143405914307, + "learning_rate": 1.6828160000000003e-05, + "loss": 0.0287, + "step": 74340 + }, + { + "epoch": 0.475808, + "grad_norm": 0.5780193209648132, + "learning_rate": 1.6827946666666667e-05, + "loss": 0.0201, + "step": 74345 + }, + { + "epoch": 0.47584, + "grad_norm": 0.8328631520271301, + "learning_rate": 1.6827733333333335e-05, + "loss": 0.0179, + "step": 74350 + }, + { + "epoch": 0.475872, + "grad_norm": 0.49294552206993103, + "learning_rate": 1.6827520000000002e-05, + "loss": 0.014, + "step": 74355 + }, + { + "epoch": 0.475904, + "grad_norm": 0.4772605299949646, + "learning_rate": 1.6827306666666667e-05, + "loss": 0.0266, + "step": 74360 + }, + { + "epoch": 0.475936, + "grad_norm": 0.18019428849220276, + "learning_rate": 1.6827093333333334e-05, + "loss": 0.0277, + "step": 74365 + }, + { + "epoch": 0.475968, + "grad_norm": 0.4350735545158386, + "learning_rate": 1.6826880000000002e-05, + "loss": 0.0269, + "step": 74370 + }, + { + "epoch": 0.476, + "grad_norm": 1.2908464670181274, + "learning_rate": 1.682666666666667e-05, + "loss": 0.0415, + "step": 74375 + }, + { + "epoch": 0.476032, + "grad_norm": 0.45411622524261475, + "learning_rate": 1.6826453333333333e-05, + "loss": 0.0249, + "step": 74380 + }, + { + "epoch": 0.476064, + "grad_norm": 1.1143282651901245, + "learning_rate": 1.682624e-05, + "loss": 0.0246, + "step": 74385 + }, + { + "epoch": 0.476096, + "grad_norm": 0.20827171206474304, + "learning_rate": 1.682602666666667e-05, + "loss": 0.014, + "step": 74390 + }, + { + "epoch": 0.476128, + "grad_norm": 0.43892133235931396, + "learning_rate": 1.6825813333333333e-05, + "loss": 0.0155, + "step": 74395 + }, + { + "epoch": 0.47616, + "grad_norm": 0.763299822807312, + "learning_rate": 1.68256e-05, + "loss": 0.0179, + "step": 74400 + }, + { + "epoch": 0.476192, + "grad_norm": 0.901623547077179, + "learning_rate": 1.6825386666666668e-05, + "loss": 0.0387, + "step": 74405 + }, + { + "epoch": 0.476224, + "grad_norm": 0.3232257664203644, + "learning_rate": 1.6825173333333335e-05, + "loss": 0.0493, + "step": 74410 + }, + { + "epoch": 0.476256, + "grad_norm": 1.3660777807235718, + "learning_rate": 1.6824960000000003e-05, + "loss": 0.0276, + "step": 74415 + }, + { + "epoch": 0.476288, + "grad_norm": 0.1795300990343094, + "learning_rate": 1.6824746666666667e-05, + "loss": 0.0174, + "step": 74420 + }, + { + "epoch": 0.47632, + "grad_norm": 1.130560278892517, + "learning_rate": 1.6824533333333335e-05, + "loss": 0.0222, + "step": 74425 + }, + { + "epoch": 0.476352, + "grad_norm": 0.9035846590995789, + "learning_rate": 1.6824320000000002e-05, + "loss": 0.0213, + "step": 74430 + }, + { + "epoch": 0.476384, + "grad_norm": 0.6046711802482605, + "learning_rate": 1.682410666666667e-05, + "loss": 0.0198, + "step": 74435 + }, + { + "epoch": 0.476416, + "grad_norm": 1.219152808189392, + "learning_rate": 1.6823893333333334e-05, + "loss": 0.0216, + "step": 74440 + }, + { + "epoch": 0.476448, + "grad_norm": 0.5059148669242859, + "learning_rate": 1.682368e-05, + "loss": 0.0217, + "step": 74445 + }, + { + "epoch": 0.47648, + "grad_norm": 0.5221875309944153, + "learning_rate": 1.682346666666667e-05, + "loss": 0.0343, + "step": 74450 + }, + { + "epoch": 0.476512, + "grad_norm": 0.39975622296333313, + "learning_rate": 1.6823253333333333e-05, + "loss": 0.0219, + "step": 74455 + }, + { + "epoch": 0.476544, + "grad_norm": 0.5642866492271423, + "learning_rate": 1.682304e-05, + "loss": 0.0205, + "step": 74460 + }, + { + "epoch": 0.476576, + "grad_norm": 0.8421831727027893, + "learning_rate": 1.682282666666667e-05, + "loss": 0.02, + "step": 74465 + }, + { + "epoch": 0.476608, + "grad_norm": 0.5225200057029724, + "learning_rate": 1.6822613333333336e-05, + "loss": 0.0585, + "step": 74470 + }, + { + "epoch": 0.47664, + "grad_norm": 0.8357520699501038, + "learning_rate": 1.68224e-05, + "loss": 0.0177, + "step": 74475 + }, + { + "epoch": 0.476672, + "grad_norm": 0.8421306610107422, + "learning_rate": 1.6822186666666668e-05, + "loss": 0.0129, + "step": 74480 + }, + { + "epoch": 0.476704, + "grad_norm": 0.1834905594587326, + "learning_rate": 1.6821973333333335e-05, + "loss": 0.0174, + "step": 74485 + }, + { + "epoch": 0.476736, + "grad_norm": 1.0606560707092285, + "learning_rate": 1.682176e-05, + "loss": 0.0283, + "step": 74490 + }, + { + "epoch": 0.476768, + "grad_norm": 0.8891173005104065, + "learning_rate": 1.6821546666666667e-05, + "loss": 0.0171, + "step": 74495 + }, + { + "epoch": 0.4768, + "grad_norm": 0.7831335067749023, + "learning_rate": 1.6821333333333334e-05, + "loss": 0.0206, + "step": 74500 + }, + { + "epoch": 0.476832, + "grad_norm": 0.45831921696662903, + "learning_rate": 1.6821120000000002e-05, + "loss": 0.0238, + "step": 74505 + }, + { + "epoch": 0.476864, + "grad_norm": 0.4449222981929779, + "learning_rate": 1.6820906666666666e-05, + "loss": 0.0141, + "step": 74510 + }, + { + "epoch": 0.476896, + "grad_norm": 0.6979641318321228, + "learning_rate": 1.6820693333333337e-05, + "loss": 0.0311, + "step": 74515 + }, + { + "epoch": 0.476928, + "grad_norm": 0.2135939747095108, + "learning_rate": 1.682048e-05, + "loss": 0.0138, + "step": 74520 + }, + { + "epoch": 0.47696, + "grad_norm": 0.9108163118362427, + "learning_rate": 1.6820266666666665e-05, + "loss": 0.0181, + "step": 74525 + }, + { + "epoch": 0.476992, + "grad_norm": 0.8130379319190979, + "learning_rate": 1.6820053333333336e-05, + "loss": 0.0268, + "step": 74530 + }, + { + "epoch": 0.477024, + "grad_norm": 0.48158854246139526, + "learning_rate": 1.681984e-05, + "loss": 0.0129, + "step": 74535 + }, + { + "epoch": 0.477056, + "grad_norm": 1.3793164491653442, + "learning_rate": 1.6819626666666668e-05, + "loss": 0.0231, + "step": 74540 + }, + { + "epoch": 0.477088, + "grad_norm": 0.26044920086860657, + "learning_rate": 1.6819413333333336e-05, + "loss": 0.0337, + "step": 74545 + }, + { + "epoch": 0.47712, + "grad_norm": 1.729642629623413, + "learning_rate": 1.6819200000000003e-05, + "loss": 0.0259, + "step": 74550 + }, + { + "epoch": 0.477152, + "grad_norm": 0.5414707064628601, + "learning_rate": 1.6818986666666667e-05, + "loss": 0.0242, + "step": 74555 + }, + { + "epoch": 0.477184, + "grad_norm": 0.47486671805381775, + "learning_rate": 1.6818773333333335e-05, + "loss": 0.0075, + "step": 74560 + }, + { + "epoch": 0.477216, + "grad_norm": 0.8111665844917297, + "learning_rate": 1.6818560000000002e-05, + "loss": 0.0231, + "step": 74565 + }, + { + "epoch": 0.477248, + "grad_norm": 0.2963419556617737, + "learning_rate": 1.6818346666666667e-05, + "loss": 0.0081, + "step": 74570 + }, + { + "epoch": 0.47728, + "grad_norm": 0.33496516942977905, + "learning_rate": 1.6818133333333334e-05, + "loss": 0.0228, + "step": 74575 + }, + { + "epoch": 0.477312, + "grad_norm": 0.7492897510528564, + "learning_rate": 1.6817920000000002e-05, + "loss": 0.0361, + "step": 74580 + }, + { + "epoch": 0.477344, + "grad_norm": 0.8778448104858398, + "learning_rate": 1.681770666666667e-05, + "loss": 0.0369, + "step": 74585 + }, + { + "epoch": 0.477376, + "grad_norm": 0.4074132442474365, + "learning_rate": 1.6817493333333333e-05, + "loss": 0.0122, + "step": 74590 + }, + { + "epoch": 0.477408, + "grad_norm": 0.585879385471344, + "learning_rate": 1.681728e-05, + "loss": 0.059, + "step": 74595 + }, + { + "epoch": 0.47744, + "grad_norm": 0.4943898022174835, + "learning_rate": 1.681706666666667e-05, + "loss": 0.0383, + "step": 74600 + }, + { + "epoch": 0.477472, + "grad_norm": 0.6412174701690674, + "learning_rate": 1.6816853333333333e-05, + "loss": 0.0241, + "step": 74605 + }, + { + "epoch": 0.477504, + "grad_norm": 1.6528829336166382, + "learning_rate": 1.681664e-05, + "loss": 0.0311, + "step": 74610 + }, + { + "epoch": 0.477536, + "grad_norm": 0.8384267687797546, + "learning_rate": 1.6816426666666668e-05, + "loss": 0.0151, + "step": 74615 + }, + { + "epoch": 0.477568, + "grad_norm": 0.4150043725967407, + "learning_rate": 1.6816213333333335e-05, + "loss": 0.0188, + "step": 74620 + }, + { + "epoch": 0.4776, + "grad_norm": 0.2228122353553772, + "learning_rate": 1.6816e-05, + "loss": 0.0194, + "step": 74625 + }, + { + "epoch": 0.477632, + "grad_norm": 2.206934690475464, + "learning_rate": 1.681578666666667e-05, + "loss": 0.0309, + "step": 74630 + }, + { + "epoch": 0.477664, + "grad_norm": 0.428154319524765, + "learning_rate": 1.6815573333333335e-05, + "loss": 0.0177, + "step": 74635 + }, + { + "epoch": 0.477696, + "grad_norm": 1.4702216386795044, + "learning_rate": 1.6815360000000002e-05, + "loss": 0.0287, + "step": 74640 + }, + { + "epoch": 0.477728, + "grad_norm": 0.8348323106765747, + "learning_rate": 1.681514666666667e-05, + "loss": 0.0185, + "step": 74645 + }, + { + "epoch": 0.47776, + "grad_norm": 0.6064755916595459, + "learning_rate": 1.6814933333333334e-05, + "loss": 0.0247, + "step": 74650 + }, + { + "epoch": 0.477792, + "grad_norm": 1.1798192262649536, + "learning_rate": 1.681472e-05, + "loss": 0.0189, + "step": 74655 + }, + { + "epoch": 0.477824, + "grad_norm": 0.16656915843486786, + "learning_rate": 1.681450666666667e-05, + "loss": 0.0169, + "step": 74660 + }, + { + "epoch": 0.477856, + "grad_norm": 1.108344554901123, + "learning_rate": 1.6814293333333337e-05, + "loss": 0.0258, + "step": 74665 + }, + { + "epoch": 0.477888, + "grad_norm": 0.12402539700269699, + "learning_rate": 1.681408e-05, + "loss": 0.0151, + "step": 74670 + }, + { + "epoch": 0.47792, + "grad_norm": 0.16091521084308624, + "learning_rate": 1.681386666666667e-05, + "loss": 0.0236, + "step": 74675 + }, + { + "epoch": 0.477952, + "grad_norm": 0.615503191947937, + "learning_rate": 1.6813653333333336e-05, + "loss": 0.0252, + "step": 74680 + }, + { + "epoch": 0.477984, + "grad_norm": 0.3656775951385498, + "learning_rate": 1.681344e-05, + "loss": 0.012, + "step": 74685 + }, + { + "epoch": 0.478016, + "grad_norm": 0.07989498972892761, + "learning_rate": 1.6813226666666668e-05, + "loss": 0.0188, + "step": 74690 + }, + { + "epoch": 0.478048, + "grad_norm": 0.7319087386131287, + "learning_rate": 1.6813013333333335e-05, + "loss": 0.0222, + "step": 74695 + }, + { + "epoch": 0.47808, + "grad_norm": 0.3276180624961853, + "learning_rate": 1.6812800000000003e-05, + "loss": 0.0741, + "step": 74700 + }, + { + "epoch": 0.478112, + "grad_norm": 0.5679415464401245, + "learning_rate": 1.6812586666666667e-05, + "loss": 0.013, + "step": 74705 + }, + { + "epoch": 0.478144, + "grad_norm": 1.8028337955474854, + "learning_rate": 1.6812373333333334e-05, + "loss": 0.0268, + "step": 74710 + }, + { + "epoch": 0.478176, + "grad_norm": 0.3318152129650116, + "learning_rate": 1.6812160000000002e-05, + "loss": 0.0338, + "step": 74715 + }, + { + "epoch": 0.478208, + "grad_norm": 0.5275118350982666, + "learning_rate": 1.6811946666666666e-05, + "loss": 0.0276, + "step": 74720 + }, + { + "epoch": 0.47824, + "grad_norm": 0.7554179430007935, + "learning_rate": 1.6811733333333337e-05, + "loss": 0.027, + "step": 74725 + }, + { + "epoch": 0.478272, + "grad_norm": 1.0515960454940796, + "learning_rate": 1.681152e-05, + "loss": 0.0307, + "step": 74730 + }, + { + "epoch": 0.478304, + "grad_norm": 0.14764218032360077, + "learning_rate": 1.681130666666667e-05, + "loss": 0.0253, + "step": 74735 + }, + { + "epoch": 0.478336, + "grad_norm": 0.1630721241235733, + "learning_rate": 1.6811093333333336e-05, + "loss": 0.0143, + "step": 74740 + }, + { + "epoch": 0.478368, + "grad_norm": 3.3904592990875244, + "learning_rate": 1.681088e-05, + "loss": 0.0245, + "step": 74745 + }, + { + "epoch": 0.4784, + "grad_norm": 0.3278964161872864, + "learning_rate": 1.6810666666666668e-05, + "loss": 0.0182, + "step": 74750 + }, + { + "epoch": 0.478432, + "grad_norm": 0.7108189463615417, + "learning_rate": 1.6810453333333336e-05, + "loss": 0.0131, + "step": 74755 + }, + { + "epoch": 0.478464, + "grad_norm": 0.7618453502655029, + "learning_rate": 1.6810240000000003e-05, + "loss": 0.0237, + "step": 74760 + }, + { + "epoch": 0.478496, + "grad_norm": 0.5151998996734619, + "learning_rate": 1.6810026666666667e-05, + "loss": 0.0111, + "step": 74765 + }, + { + "epoch": 0.478528, + "grad_norm": 1.5390387773513794, + "learning_rate": 1.6809813333333335e-05, + "loss": 0.0439, + "step": 74770 + }, + { + "epoch": 0.47856, + "grad_norm": 1.2656524181365967, + "learning_rate": 1.6809600000000003e-05, + "loss": 0.0411, + "step": 74775 + }, + { + "epoch": 0.478592, + "grad_norm": 0.552824854850769, + "learning_rate": 1.6809386666666667e-05, + "loss": 0.0333, + "step": 74780 + }, + { + "epoch": 0.478624, + "grad_norm": 0.47630611062049866, + "learning_rate": 1.6809173333333334e-05, + "loss": 0.0189, + "step": 74785 + }, + { + "epoch": 0.478656, + "grad_norm": 1.5319284200668335, + "learning_rate": 1.6808960000000002e-05, + "loss": 0.0219, + "step": 74790 + }, + { + "epoch": 0.478688, + "grad_norm": 0.6459280848503113, + "learning_rate": 1.680874666666667e-05, + "loss": 0.0164, + "step": 74795 + }, + { + "epoch": 0.47872, + "grad_norm": 0.12265210598707199, + "learning_rate": 1.6808533333333333e-05, + "loss": 0.0136, + "step": 74800 + }, + { + "epoch": 0.478752, + "grad_norm": 0.7230425477027893, + "learning_rate": 1.680832e-05, + "loss": 0.0301, + "step": 74805 + }, + { + "epoch": 0.478784, + "grad_norm": 0.8655694723129272, + "learning_rate": 1.680810666666667e-05, + "loss": 0.0172, + "step": 74810 + }, + { + "epoch": 0.478816, + "grad_norm": 0.3939204812049866, + "learning_rate": 1.6807893333333333e-05, + "loss": 0.02, + "step": 74815 + }, + { + "epoch": 0.478848, + "grad_norm": 1.6767712831497192, + "learning_rate": 1.680768e-05, + "loss": 0.0264, + "step": 74820 + }, + { + "epoch": 0.47888, + "grad_norm": 0.9768251776695251, + "learning_rate": 1.6807466666666668e-05, + "loss": 0.0128, + "step": 74825 + }, + { + "epoch": 0.478912, + "grad_norm": 0.5304949879646301, + "learning_rate": 1.6807253333333335e-05, + "loss": 0.0137, + "step": 74830 + }, + { + "epoch": 0.478944, + "grad_norm": 0.17735648155212402, + "learning_rate": 1.680704e-05, + "loss": 0.0188, + "step": 74835 + }, + { + "epoch": 0.478976, + "grad_norm": 0.9550012946128845, + "learning_rate": 1.680682666666667e-05, + "loss": 0.0322, + "step": 74840 + }, + { + "epoch": 0.479008, + "grad_norm": 0.8399311900138855, + "learning_rate": 1.6806613333333335e-05, + "loss": 0.0238, + "step": 74845 + }, + { + "epoch": 0.47904, + "grad_norm": 0.641907811164856, + "learning_rate": 1.68064e-05, + "loss": 0.0185, + "step": 74850 + }, + { + "epoch": 0.479072, + "grad_norm": 0.1776336133480072, + "learning_rate": 1.680618666666667e-05, + "loss": 0.0226, + "step": 74855 + }, + { + "epoch": 0.479104, + "grad_norm": 0.21802762150764465, + "learning_rate": 1.6805973333333334e-05, + "loss": 0.0129, + "step": 74860 + }, + { + "epoch": 0.479136, + "grad_norm": 0.3777746558189392, + "learning_rate": 1.680576e-05, + "loss": 0.031, + "step": 74865 + }, + { + "epoch": 0.479168, + "grad_norm": 1.0413520336151123, + "learning_rate": 1.680554666666667e-05, + "loss": 0.0307, + "step": 74870 + }, + { + "epoch": 0.4792, + "grad_norm": 0.660996675491333, + "learning_rate": 1.6805333333333337e-05, + "loss": 0.0466, + "step": 74875 + }, + { + "epoch": 0.479232, + "grad_norm": 0.9575977921485901, + "learning_rate": 1.680512e-05, + "loss": 0.0161, + "step": 74880 + }, + { + "epoch": 0.479264, + "grad_norm": 0.48735371232032776, + "learning_rate": 1.680490666666667e-05, + "loss": 0.0266, + "step": 74885 + }, + { + "epoch": 0.479296, + "grad_norm": 0.611960768699646, + "learning_rate": 1.6804693333333336e-05, + "loss": 0.0205, + "step": 74890 + }, + { + "epoch": 0.479328, + "grad_norm": 0.6929828524589539, + "learning_rate": 1.680448e-05, + "loss": 0.0555, + "step": 74895 + }, + { + "epoch": 0.47936, + "grad_norm": 0.6717650890350342, + "learning_rate": 1.6804266666666668e-05, + "loss": 0.0162, + "step": 74900 + }, + { + "epoch": 0.479392, + "grad_norm": 1.1703835725784302, + "learning_rate": 1.6804053333333335e-05, + "loss": 0.0316, + "step": 74905 + }, + { + "epoch": 0.479424, + "grad_norm": 0.6026917099952698, + "learning_rate": 1.6803840000000003e-05, + "loss": 0.0313, + "step": 74910 + }, + { + "epoch": 0.479456, + "grad_norm": 0.6398420929908752, + "learning_rate": 1.6803626666666667e-05, + "loss": 0.0273, + "step": 74915 + }, + { + "epoch": 0.479488, + "grad_norm": 0.5016685128211975, + "learning_rate": 1.6803413333333334e-05, + "loss": 0.0324, + "step": 74920 + }, + { + "epoch": 0.47952, + "grad_norm": 1.1745402812957764, + "learning_rate": 1.6803200000000002e-05, + "loss": 0.0371, + "step": 74925 + }, + { + "epoch": 0.479552, + "grad_norm": 0.5193244814872742, + "learning_rate": 1.6802986666666666e-05, + "loss": 0.0221, + "step": 74930 + }, + { + "epoch": 0.479584, + "grad_norm": 0.5048123598098755, + "learning_rate": 1.6802773333333334e-05, + "loss": 0.0144, + "step": 74935 + }, + { + "epoch": 0.479616, + "grad_norm": 0.3864627182483673, + "learning_rate": 1.680256e-05, + "loss": 0.0163, + "step": 74940 + }, + { + "epoch": 0.479648, + "grad_norm": 0.33320334553718567, + "learning_rate": 1.680234666666667e-05, + "loss": 0.0197, + "step": 74945 + }, + { + "epoch": 0.47968, + "grad_norm": 0.6464980244636536, + "learning_rate": 1.6802133333333336e-05, + "loss": 0.0118, + "step": 74950 + }, + { + "epoch": 0.479712, + "grad_norm": 0.20457883179187775, + "learning_rate": 1.680192e-05, + "loss": 0.0292, + "step": 74955 + }, + { + "epoch": 0.479744, + "grad_norm": 1.1197701692581177, + "learning_rate": 1.6801706666666668e-05, + "loss": 0.0271, + "step": 74960 + }, + { + "epoch": 0.479776, + "grad_norm": 0.413388192653656, + "learning_rate": 1.6801493333333336e-05, + "loss": 0.0258, + "step": 74965 + }, + { + "epoch": 0.479808, + "grad_norm": 0.9580832719802856, + "learning_rate": 1.6801280000000003e-05, + "loss": 0.0291, + "step": 74970 + }, + { + "epoch": 0.47984, + "grad_norm": 0.4193061292171478, + "learning_rate": 1.6801066666666667e-05, + "loss": 0.0283, + "step": 74975 + }, + { + "epoch": 0.479872, + "grad_norm": 0.25871512293815613, + "learning_rate": 1.6800853333333335e-05, + "loss": 0.0197, + "step": 74980 + }, + { + "epoch": 0.479904, + "grad_norm": 0.9793188571929932, + "learning_rate": 1.6800640000000003e-05, + "loss": 0.0181, + "step": 74985 + }, + { + "epoch": 0.479936, + "grad_norm": 0.8120009899139404, + "learning_rate": 1.6800426666666667e-05, + "loss": 0.0317, + "step": 74990 + }, + { + "epoch": 0.479968, + "grad_norm": 0.7983198165893555, + "learning_rate": 1.6800213333333334e-05, + "loss": 0.0186, + "step": 74995 + }, + { + "epoch": 0.48, + "grad_norm": 0.4904947876930237, + "learning_rate": 1.6800000000000002e-05, + "loss": 0.0249, + "step": 75000 + }, + { + "epoch": 0.480032, + "grad_norm": 0.6165624260902405, + "learning_rate": 1.679978666666667e-05, + "loss": 0.0152, + "step": 75005 + }, + { + "epoch": 0.480064, + "grad_norm": 1.014581561088562, + "learning_rate": 1.6799573333333334e-05, + "loss": 0.0222, + "step": 75010 + }, + { + "epoch": 0.480096, + "grad_norm": 0.4852684438228607, + "learning_rate": 1.679936e-05, + "loss": 0.0255, + "step": 75015 + }, + { + "epoch": 0.480128, + "grad_norm": 1.162554144859314, + "learning_rate": 1.679914666666667e-05, + "loss": 0.0328, + "step": 75020 + }, + { + "epoch": 0.48016, + "grad_norm": 1.5013929605484009, + "learning_rate": 1.6798933333333333e-05, + "loss": 0.0339, + "step": 75025 + }, + { + "epoch": 0.480192, + "grad_norm": 0.4078174829483032, + "learning_rate": 1.679872e-05, + "loss": 0.0255, + "step": 75030 + }, + { + "epoch": 0.480224, + "grad_norm": 0.6593257784843445, + "learning_rate": 1.6798506666666668e-05, + "loss": 0.0313, + "step": 75035 + }, + { + "epoch": 0.480256, + "grad_norm": 0.7796288132667542, + "learning_rate": 1.6798293333333335e-05, + "loss": 0.0154, + "step": 75040 + }, + { + "epoch": 0.480288, + "grad_norm": 0.8099326491355896, + "learning_rate": 1.679808e-05, + "loss": 0.0242, + "step": 75045 + }, + { + "epoch": 0.48032, + "grad_norm": 0.826265275478363, + "learning_rate": 1.679786666666667e-05, + "loss": 0.0247, + "step": 75050 + }, + { + "epoch": 0.480352, + "grad_norm": 0.8984244465827942, + "learning_rate": 1.6797653333333335e-05, + "loss": 0.0279, + "step": 75055 + }, + { + "epoch": 0.480384, + "grad_norm": 0.8702250123023987, + "learning_rate": 1.679744e-05, + "loss": 0.0258, + "step": 75060 + }, + { + "epoch": 0.480416, + "grad_norm": 1.887395977973938, + "learning_rate": 1.679722666666667e-05, + "loss": 0.0154, + "step": 75065 + }, + { + "epoch": 0.480448, + "grad_norm": 0.5418211221694946, + "learning_rate": 1.6797013333333334e-05, + "loss": 0.0205, + "step": 75070 + }, + { + "epoch": 0.48048, + "grad_norm": 1.580859899520874, + "learning_rate": 1.67968e-05, + "loss": 0.0338, + "step": 75075 + }, + { + "epoch": 0.480512, + "grad_norm": 1.4802050590515137, + "learning_rate": 1.679658666666667e-05, + "loss": 0.0129, + "step": 75080 + }, + { + "epoch": 0.480544, + "grad_norm": 1.0092806816101074, + "learning_rate": 1.6796373333333337e-05, + "loss": 0.023, + "step": 75085 + }, + { + "epoch": 0.480576, + "grad_norm": 0.48641058802604675, + "learning_rate": 1.679616e-05, + "loss": 0.0273, + "step": 75090 + }, + { + "epoch": 0.480608, + "grad_norm": 0.8999656438827515, + "learning_rate": 1.679594666666667e-05, + "loss": 0.0179, + "step": 75095 + }, + { + "epoch": 0.48064, + "grad_norm": 0.5728985667228699, + "learning_rate": 1.6795733333333336e-05, + "loss": 0.0143, + "step": 75100 + }, + { + "epoch": 0.480672, + "grad_norm": 1.0255075693130493, + "learning_rate": 1.679552e-05, + "loss": 0.0076, + "step": 75105 + }, + { + "epoch": 0.480704, + "grad_norm": 2.5893802642822266, + "learning_rate": 1.6795306666666668e-05, + "loss": 0.0721, + "step": 75110 + }, + { + "epoch": 0.480736, + "grad_norm": 0.714365541934967, + "learning_rate": 1.6795093333333335e-05, + "loss": 0.0266, + "step": 75115 + }, + { + "epoch": 0.480768, + "grad_norm": 0.26732078194618225, + "learning_rate": 1.6794880000000003e-05, + "loss": 0.016, + "step": 75120 + }, + { + "epoch": 0.4808, + "grad_norm": 0.5427819490432739, + "learning_rate": 1.6794666666666667e-05, + "loss": 0.0215, + "step": 75125 + }, + { + "epoch": 0.480832, + "grad_norm": 0.2134743630886078, + "learning_rate": 1.6794453333333334e-05, + "loss": 0.0132, + "step": 75130 + }, + { + "epoch": 0.480864, + "grad_norm": 0.5229842662811279, + "learning_rate": 1.6794240000000002e-05, + "loss": 0.0148, + "step": 75135 + }, + { + "epoch": 0.480896, + "grad_norm": 0.4824086129665375, + "learning_rate": 1.6794026666666666e-05, + "loss": 0.0185, + "step": 75140 + }, + { + "epoch": 0.480928, + "grad_norm": 0.16992448270320892, + "learning_rate": 1.6793813333333334e-05, + "loss": 0.0141, + "step": 75145 + }, + { + "epoch": 0.48096, + "grad_norm": 1.132447361946106, + "learning_rate": 1.67936e-05, + "loss": 0.0152, + "step": 75150 + }, + { + "epoch": 0.480992, + "grad_norm": 0.3504648804664612, + "learning_rate": 1.679338666666667e-05, + "loss": 0.0159, + "step": 75155 + }, + { + "epoch": 0.481024, + "grad_norm": 0.2510785758495331, + "learning_rate": 1.6793173333333333e-05, + "loss": 0.0277, + "step": 75160 + }, + { + "epoch": 0.481056, + "grad_norm": 0.8371961116790771, + "learning_rate": 1.679296e-05, + "loss": 0.0368, + "step": 75165 + }, + { + "epoch": 0.481088, + "grad_norm": 0.7694293260574341, + "learning_rate": 1.6792746666666668e-05, + "loss": 0.026, + "step": 75170 + }, + { + "epoch": 0.48112, + "grad_norm": 0.10935616493225098, + "learning_rate": 1.6792533333333336e-05, + "loss": 0.0239, + "step": 75175 + }, + { + "epoch": 0.481152, + "grad_norm": 0.2036813497543335, + "learning_rate": 1.6792320000000003e-05, + "loss": 0.0249, + "step": 75180 + }, + { + "epoch": 0.481184, + "grad_norm": 1.3553937673568726, + "learning_rate": 1.6792106666666667e-05, + "loss": 0.0184, + "step": 75185 + }, + { + "epoch": 0.481216, + "grad_norm": 0.3091453015804291, + "learning_rate": 1.6791893333333335e-05, + "loss": 0.0283, + "step": 75190 + }, + { + "epoch": 0.481248, + "grad_norm": 0.29017341136932373, + "learning_rate": 1.6791680000000003e-05, + "loss": 0.0351, + "step": 75195 + }, + { + "epoch": 0.48128, + "grad_norm": 0.6716529130935669, + "learning_rate": 1.6791466666666667e-05, + "loss": 0.0294, + "step": 75200 + }, + { + "epoch": 0.481312, + "grad_norm": 0.43229836225509644, + "learning_rate": 1.6791253333333334e-05, + "loss": 0.0141, + "step": 75205 + }, + { + "epoch": 0.481344, + "grad_norm": 0.9731549024581909, + "learning_rate": 1.6791040000000002e-05, + "loss": 0.0187, + "step": 75210 + }, + { + "epoch": 0.481376, + "grad_norm": 1.0643244981765747, + "learning_rate": 1.679082666666667e-05, + "loss": 0.034, + "step": 75215 + }, + { + "epoch": 0.481408, + "grad_norm": 0.5527783036231995, + "learning_rate": 1.6790613333333334e-05, + "loss": 0.0248, + "step": 75220 + }, + { + "epoch": 0.48144, + "grad_norm": 0.7360517978668213, + "learning_rate": 1.67904e-05, + "loss": 0.0321, + "step": 75225 + }, + { + "epoch": 0.481472, + "grad_norm": 0.09753162413835526, + "learning_rate": 1.679018666666667e-05, + "loss": 0.0496, + "step": 75230 + }, + { + "epoch": 0.481504, + "grad_norm": 0.6787550449371338, + "learning_rate": 1.6789973333333333e-05, + "loss": 0.0264, + "step": 75235 + }, + { + "epoch": 0.481536, + "grad_norm": 1.4135710000991821, + "learning_rate": 1.678976e-05, + "loss": 0.0452, + "step": 75240 + }, + { + "epoch": 0.481568, + "grad_norm": 0.9288367033004761, + "learning_rate": 1.6789546666666668e-05, + "loss": 0.0338, + "step": 75245 + }, + { + "epoch": 0.4816, + "grad_norm": 0.4615413546562195, + "learning_rate": 1.6789333333333335e-05, + "loss": 0.0195, + "step": 75250 + }, + { + "epoch": 0.481632, + "grad_norm": 0.24462909996509552, + "learning_rate": 1.678912e-05, + "loss": 0.0191, + "step": 75255 + }, + { + "epoch": 0.481664, + "grad_norm": 0.36422187089920044, + "learning_rate": 1.678890666666667e-05, + "loss": 0.0067, + "step": 75260 + }, + { + "epoch": 0.481696, + "grad_norm": 0.14531032741069794, + "learning_rate": 1.6788693333333335e-05, + "loss": 0.0513, + "step": 75265 + }, + { + "epoch": 0.481728, + "grad_norm": 0.9051409959793091, + "learning_rate": 1.678848e-05, + "loss": 0.0263, + "step": 75270 + }, + { + "epoch": 0.48176, + "grad_norm": 0.2979707717895508, + "learning_rate": 1.678826666666667e-05, + "loss": 0.0215, + "step": 75275 + }, + { + "epoch": 0.481792, + "grad_norm": 0.7275709509849548, + "learning_rate": 1.6788053333333334e-05, + "loss": 0.0217, + "step": 75280 + }, + { + "epoch": 0.481824, + "grad_norm": 0.4484562575817108, + "learning_rate": 1.678784e-05, + "loss": 0.0196, + "step": 75285 + }, + { + "epoch": 0.481856, + "grad_norm": 0.8607792854309082, + "learning_rate": 1.678762666666667e-05, + "loss": 0.0262, + "step": 75290 + }, + { + "epoch": 0.481888, + "grad_norm": 0.7650194764137268, + "learning_rate": 1.6787413333333337e-05, + "loss": 0.0236, + "step": 75295 + }, + { + "epoch": 0.48192, + "grad_norm": 0.7074931859970093, + "learning_rate": 1.67872e-05, + "loss": 0.0219, + "step": 75300 + }, + { + "epoch": 0.481952, + "grad_norm": 0.5327529907226562, + "learning_rate": 1.678698666666667e-05, + "loss": 0.016, + "step": 75305 + }, + { + "epoch": 0.481984, + "grad_norm": 1.4544404745101929, + "learning_rate": 1.6786773333333336e-05, + "loss": 0.0281, + "step": 75310 + }, + { + "epoch": 0.482016, + "grad_norm": 0.7755913734436035, + "learning_rate": 1.678656e-05, + "loss": 0.0212, + "step": 75315 + }, + { + "epoch": 0.482048, + "grad_norm": 1.020830512046814, + "learning_rate": 1.6786346666666668e-05, + "loss": 0.0355, + "step": 75320 + }, + { + "epoch": 0.48208, + "grad_norm": 1.180634617805481, + "learning_rate": 1.6786133333333335e-05, + "loss": 0.0212, + "step": 75325 + }, + { + "epoch": 0.482112, + "grad_norm": 0.02602805197238922, + "learning_rate": 1.6785920000000003e-05, + "loss": 0.0197, + "step": 75330 + }, + { + "epoch": 0.482144, + "grad_norm": 0.6016398072242737, + "learning_rate": 1.6785706666666667e-05, + "loss": 0.0208, + "step": 75335 + }, + { + "epoch": 0.482176, + "grad_norm": 0.5505443215370178, + "learning_rate": 1.6785493333333334e-05, + "loss": 0.0228, + "step": 75340 + }, + { + "epoch": 0.482208, + "grad_norm": 0.702968955039978, + "learning_rate": 1.6785280000000002e-05, + "loss": 0.0163, + "step": 75345 + }, + { + "epoch": 0.48224, + "grad_norm": 0.3047958314418793, + "learning_rate": 1.6785066666666666e-05, + "loss": 0.0307, + "step": 75350 + }, + { + "epoch": 0.482272, + "grad_norm": 0.5600354075431824, + "learning_rate": 1.6784853333333334e-05, + "loss": 0.0131, + "step": 75355 + }, + { + "epoch": 0.482304, + "grad_norm": 0.7826722264289856, + "learning_rate": 1.678464e-05, + "loss": 0.0151, + "step": 75360 + }, + { + "epoch": 0.482336, + "grad_norm": 0.31607571244239807, + "learning_rate": 1.678442666666667e-05, + "loss": 0.014, + "step": 75365 + }, + { + "epoch": 0.482368, + "grad_norm": 0.4824259877204895, + "learning_rate": 1.6784213333333333e-05, + "loss": 0.0164, + "step": 75370 + }, + { + "epoch": 0.4824, + "grad_norm": 0.7551319003105164, + "learning_rate": 1.6784e-05, + "loss": 0.0328, + "step": 75375 + }, + { + "epoch": 0.482432, + "grad_norm": 0.6876701712608337, + "learning_rate": 1.6783786666666668e-05, + "loss": 0.0221, + "step": 75380 + }, + { + "epoch": 0.482464, + "grad_norm": 0.4789642095565796, + "learning_rate": 1.6783573333333332e-05, + "loss": 0.0162, + "step": 75385 + }, + { + "epoch": 0.482496, + "grad_norm": 0.4001709818840027, + "learning_rate": 1.6783360000000003e-05, + "loss": 0.0145, + "step": 75390 + }, + { + "epoch": 0.482528, + "grad_norm": 0.2941378951072693, + "learning_rate": 1.6783146666666667e-05, + "loss": 0.0283, + "step": 75395 + }, + { + "epoch": 0.48256, + "grad_norm": 0.7023084163665771, + "learning_rate": 1.6782933333333335e-05, + "loss": 0.0253, + "step": 75400 + }, + { + "epoch": 0.482592, + "grad_norm": 0.6443705558776855, + "learning_rate": 1.6782720000000003e-05, + "loss": 0.0163, + "step": 75405 + }, + { + "epoch": 0.482624, + "grad_norm": 0.6042632460594177, + "learning_rate": 1.6782506666666667e-05, + "loss": 0.0082, + "step": 75410 + }, + { + "epoch": 0.482656, + "grad_norm": 0.49320438504219055, + "learning_rate": 1.6782293333333334e-05, + "loss": 0.0255, + "step": 75415 + }, + { + "epoch": 0.482688, + "grad_norm": 0.8589156866073608, + "learning_rate": 1.6782080000000002e-05, + "loss": 0.0291, + "step": 75420 + }, + { + "epoch": 0.48272, + "grad_norm": 1.3496801853179932, + "learning_rate": 1.678186666666667e-05, + "loss": 0.036, + "step": 75425 + }, + { + "epoch": 0.482752, + "grad_norm": 0.5980054140090942, + "learning_rate": 1.6781653333333334e-05, + "loss": 0.0144, + "step": 75430 + }, + { + "epoch": 0.482784, + "grad_norm": 0.7160388827323914, + "learning_rate": 1.678144e-05, + "loss": 0.031, + "step": 75435 + }, + { + "epoch": 0.482816, + "grad_norm": 1.0688819885253906, + "learning_rate": 1.678122666666667e-05, + "loss": 0.0289, + "step": 75440 + }, + { + "epoch": 0.482848, + "grad_norm": 0.44896310567855835, + "learning_rate": 1.6781013333333333e-05, + "loss": 0.0167, + "step": 75445 + }, + { + "epoch": 0.48288, + "grad_norm": 0.1929318755865097, + "learning_rate": 1.67808e-05, + "loss": 0.0129, + "step": 75450 + }, + { + "epoch": 0.482912, + "grad_norm": 1.3682563304901123, + "learning_rate": 1.6780586666666668e-05, + "loss": 0.0231, + "step": 75455 + }, + { + "epoch": 0.482944, + "grad_norm": 0.30837106704711914, + "learning_rate": 1.6780373333333335e-05, + "loss": 0.031, + "step": 75460 + }, + { + "epoch": 0.482976, + "grad_norm": 0.3448910117149353, + "learning_rate": 1.678016e-05, + "loss": 0.0298, + "step": 75465 + }, + { + "epoch": 0.483008, + "grad_norm": 1.1877505779266357, + "learning_rate": 1.6779946666666667e-05, + "loss": 0.0392, + "step": 75470 + }, + { + "epoch": 0.48304, + "grad_norm": 1.278551459312439, + "learning_rate": 1.6779733333333335e-05, + "loss": 0.0285, + "step": 75475 + }, + { + "epoch": 0.483072, + "grad_norm": 1.1205464601516724, + "learning_rate": 1.6779520000000002e-05, + "loss": 0.028, + "step": 75480 + }, + { + "epoch": 0.483104, + "grad_norm": 0.1742749959230423, + "learning_rate": 1.677930666666667e-05, + "loss": 0.0245, + "step": 75485 + }, + { + "epoch": 0.483136, + "grad_norm": 0.7363765239715576, + "learning_rate": 1.6779093333333334e-05, + "loss": 0.0184, + "step": 75490 + }, + { + "epoch": 0.483168, + "grad_norm": 0.3584739863872528, + "learning_rate": 1.677888e-05, + "loss": 0.0232, + "step": 75495 + }, + { + "epoch": 0.4832, + "grad_norm": 0.6496232748031616, + "learning_rate": 1.677866666666667e-05, + "loss": 0.0175, + "step": 75500 + }, + { + "epoch": 0.483232, + "grad_norm": 0.6723257899284363, + "learning_rate": 1.6778453333333337e-05, + "loss": 0.0288, + "step": 75505 + }, + { + "epoch": 0.483264, + "grad_norm": 0.2613050043582916, + "learning_rate": 1.677824e-05, + "loss": 0.0168, + "step": 75510 + }, + { + "epoch": 0.483296, + "grad_norm": 0.15717971324920654, + "learning_rate": 1.677802666666667e-05, + "loss": 0.0152, + "step": 75515 + }, + { + "epoch": 0.483328, + "grad_norm": 0.6143676042556763, + "learning_rate": 1.6777813333333336e-05, + "loss": 0.0373, + "step": 75520 + }, + { + "epoch": 0.48336, + "grad_norm": 1.334843635559082, + "learning_rate": 1.67776e-05, + "loss": 0.0242, + "step": 75525 + }, + { + "epoch": 0.483392, + "grad_norm": 1.1052664518356323, + "learning_rate": 1.6777386666666668e-05, + "loss": 0.0486, + "step": 75530 + }, + { + "epoch": 0.483424, + "grad_norm": 0.41249150037765503, + "learning_rate": 1.6777173333333335e-05, + "loss": 0.015, + "step": 75535 + }, + { + "epoch": 0.483456, + "grad_norm": 2.371870517730713, + "learning_rate": 1.6776960000000003e-05, + "loss": 0.0341, + "step": 75540 + }, + { + "epoch": 0.483488, + "grad_norm": 1.1114979982376099, + "learning_rate": 1.6776746666666667e-05, + "loss": 0.0542, + "step": 75545 + }, + { + "epoch": 0.48352, + "grad_norm": 0.8210376501083374, + "learning_rate": 1.6776533333333334e-05, + "loss": 0.0242, + "step": 75550 + }, + { + "epoch": 0.483552, + "grad_norm": 1.0578572750091553, + "learning_rate": 1.6776320000000002e-05, + "loss": 0.0308, + "step": 75555 + }, + { + "epoch": 0.483584, + "grad_norm": 0.7449532747268677, + "learning_rate": 1.6776106666666666e-05, + "loss": 0.0157, + "step": 75560 + }, + { + "epoch": 0.483616, + "grad_norm": 0.2558673620223999, + "learning_rate": 1.6775893333333334e-05, + "loss": 0.0186, + "step": 75565 + }, + { + "epoch": 0.483648, + "grad_norm": 0.1767071783542633, + "learning_rate": 1.677568e-05, + "loss": 0.0236, + "step": 75570 + }, + { + "epoch": 0.48368, + "grad_norm": 0.8400477766990662, + "learning_rate": 1.677546666666667e-05, + "loss": 0.0282, + "step": 75575 + }, + { + "epoch": 0.483712, + "grad_norm": 2.1646952629089355, + "learning_rate": 1.6775253333333333e-05, + "loss": 0.0261, + "step": 75580 + }, + { + "epoch": 0.483744, + "grad_norm": 0.33191126585006714, + "learning_rate": 1.6775040000000004e-05, + "loss": 0.0163, + "step": 75585 + }, + { + "epoch": 0.483776, + "grad_norm": 0.8370336890220642, + "learning_rate": 1.6774826666666668e-05, + "loss": 0.0327, + "step": 75590 + }, + { + "epoch": 0.483808, + "grad_norm": 0.4813116192817688, + "learning_rate": 1.6774613333333332e-05, + "loss": 0.0304, + "step": 75595 + }, + { + "epoch": 0.48384, + "grad_norm": 1.1659460067749023, + "learning_rate": 1.6774400000000003e-05, + "loss": 0.0335, + "step": 75600 + }, + { + "epoch": 0.483872, + "grad_norm": 0.28608766198158264, + "learning_rate": 1.6774186666666667e-05, + "loss": 0.0284, + "step": 75605 + }, + { + "epoch": 0.483904, + "grad_norm": 0.9151755571365356, + "learning_rate": 1.6773973333333335e-05, + "loss": 0.0254, + "step": 75610 + }, + { + "epoch": 0.483936, + "grad_norm": 0.8711903691291809, + "learning_rate": 1.6773760000000003e-05, + "loss": 0.0131, + "step": 75615 + }, + { + "epoch": 0.483968, + "grad_norm": 0.5334922075271606, + "learning_rate": 1.677354666666667e-05, + "loss": 0.0183, + "step": 75620 + }, + { + "epoch": 0.484, + "grad_norm": 0.38175326585769653, + "learning_rate": 1.6773333333333334e-05, + "loss": 0.0139, + "step": 75625 + }, + { + "epoch": 0.484032, + "grad_norm": 0.3983301818370819, + "learning_rate": 1.6773120000000002e-05, + "loss": 0.0135, + "step": 75630 + }, + { + "epoch": 0.484064, + "grad_norm": 0.7762556076049805, + "learning_rate": 1.677290666666667e-05, + "loss": 0.0131, + "step": 75635 + }, + { + "epoch": 0.484096, + "grad_norm": 0.9715782999992371, + "learning_rate": 1.6772693333333334e-05, + "loss": 0.0489, + "step": 75640 + }, + { + "epoch": 0.484128, + "grad_norm": 0.5664418935775757, + "learning_rate": 1.677248e-05, + "loss": 0.0176, + "step": 75645 + }, + { + "epoch": 0.48416, + "grad_norm": 0.5240989923477173, + "learning_rate": 1.677226666666667e-05, + "loss": 0.0184, + "step": 75650 + }, + { + "epoch": 0.484192, + "grad_norm": 0.27504268288612366, + "learning_rate": 1.6772053333333336e-05, + "loss": 0.039, + "step": 75655 + }, + { + "epoch": 0.484224, + "grad_norm": 1.2131588459014893, + "learning_rate": 1.677184e-05, + "loss": 0.0186, + "step": 75660 + }, + { + "epoch": 0.484256, + "grad_norm": 1.4297670125961304, + "learning_rate": 1.6771626666666668e-05, + "loss": 0.0262, + "step": 75665 + }, + { + "epoch": 0.484288, + "grad_norm": 0.6455850601196289, + "learning_rate": 1.6771413333333335e-05, + "loss": 0.0271, + "step": 75670 + }, + { + "epoch": 0.48432, + "grad_norm": 3.767961025238037, + "learning_rate": 1.67712e-05, + "loss": 0.0191, + "step": 75675 + }, + { + "epoch": 0.484352, + "grad_norm": 0.4118475019931793, + "learning_rate": 1.6770986666666667e-05, + "loss": 0.0177, + "step": 75680 + }, + { + "epoch": 0.484384, + "grad_norm": 0.6987446546554565, + "learning_rate": 1.6770773333333335e-05, + "loss": 0.0213, + "step": 75685 + }, + { + "epoch": 0.484416, + "grad_norm": 0.8621184229850769, + "learning_rate": 1.6770560000000002e-05, + "loss": 0.0189, + "step": 75690 + }, + { + "epoch": 0.484448, + "grad_norm": 0.11190660297870636, + "learning_rate": 1.6770346666666666e-05, + "loss": 0.0125, + "step": 75695 + }, + { + "epoch": 0.48448, + "grad_norm": 0.3969360589981079, + "learning_rate": 1.6770133333333334e-05, + "loss": 0.0163, + "step": 75700 + }, + { + "epoch": 0.484512, + "grad_norm": 0.36445653438568115, + "learning_rate": 1.676992e-05, + "loss": 0.0106, + "step": 75705 + }, + { + "epoch": 0.484544, + "grad_norm": 0.30693575739860535, + "learning_rate": 1.676970666666667e-05, + "loss": 0.0227, + "step": 75710 + }, + { + "epoch": 0.484576, + "grad_norm": 0.7938206195831299, + "learning_rate": 1.6769493333333337e-05, + "loss": 0.0197, + "step": 75715 + }, + { + "epoch": 0.484608, + "grad_norm": 0.7790098786354065, + "learning_rate": 1.676928e-05, + "loss": 0.013, + "step": 75720 + }, + { + "epoch": 0.48464, + "grad_norm": 1.0046931505203247, + "learning_rate": 1.676906666666667e-05, + "loss": 0.0206, + "step": 75725 + }, + { + "epoch": 0.484672, + "grad_norm": 0.28689828515052795, + "learning_rate": 1.6768853333333336e-05, + "loss": 0.013, + "step": 75730 + }, + { + "epoch": 0.484704, + "grad_norm": 1.7121223211288452, + "learning_rate": 1.676864e-05, + "loss": 0.0465, + "step": 75735 + }, + { + "epoch": 0.484736, + "grad_norm": 0.2049100697040558, + "learning_rate": 1.6768426666666668e-05, + "loss": 0.0125, + "step": 75740 + }, + { + "epoch": 0.484768, + "grad_norm": 0.45656898617744446, + "learning_rate": 1.6768213333333335e-05, + "loss": 0.0091, + "step": 75745 + }, + { + "epoch": 0.4848, + "grad_norm": 0.32844579219818115, + "learning_rate": 1.6768000000000003e-05, + "loss": 0.0141, + "step": 75750 + }, + { + "epoch": 0.484832, + "grad_norm": 0.8350439667701721, + "learning_rate": 1.6767786666666667e-05, + "loss": 0.0166, + "step": 75755 + }, + { + "epoch": 0.484864, + "grad_norm": 0.7258540391921997, + "learning_rate": 1.6767573333333334e-05, + "loss": 0.0175, + "step": 75760 + }, + { + "epoch": 0.484896, + "grad_norm": 0.3749823272228241, + "learning_rate": 1.6767360000000002e-05, + "loss": 0.0255, + "step": 75765 + }, + { + "epoch": 0.484928, + "grad_norm": 0.5795316100120544, + "learning_rate": 1.6767146666666666e-05, + "loss": 0.0193, + "step": 75770 + }, + { + "epoch": 0.48496, + "grad_norm": 0.49734213948249817, + "learning_rate": 1.6766933333333334e-05, + "loss": 0.016, + "step": 75775 + }, + { + "epoch": 0.484992, + "grad_norm": 0.40113958716392517, + "learning_rate": 1.676672e-05, + "loss": 0.0317, + "step": 75780 + }, + { + "epoch": 0.485024, + "grad_norm": 0.5717282891273499, + "learning_rate": 1.676650666666667e-05, + "loss": 0.0136, + "step": 75785 + }, + { + "epoch": 0.485056, + "grad_norm": 0.48748287558555603, + "learning_rate": 1.6766293333333333e-05, + "loss": 0.0368, + "step": 75790 + }, + { + "epoch": 0.485088, + "grad_norm": 0.6216275095939636, + "learning_rate": 1.6766080000000004e-05, + "loss": 0.0223, + "step": 75795 + }, + { + "epoch": 0.48512, + "grad_norm": 0.5567208528518677, + "learning_rate": 1.6765866666666668e-05, + "loss": 0.0181, + "step": 75800 + }, + { + "epoch": 0.485152, + "grad_norm": 0.048697132617235184, + "learning_rate": 1.6765653333333332e-05, + "loss": 0.0177, + "step": 75805 + }, + { + "epoch": 0.485184, + "grad_norm": 0.22485539317131042, + "learning_rate": 1.6765440000000003e-05, + "loss": 0.0105, + "step": 75810 + }, + { + "epoch": 0.485216, + "grad_norm": 0.3443526029586792, + "learning_rate": 1.6765226666666667e-05, + "loss": 0.0205, + "step": 75815 + }, + { + "epoch": 0.485248, + "grad_norm": 0.8868299126625061, + "learning_rate": 1.6765013333333335e-05, + "loss": 0.0216, + "step": 75820 + }, + { + "epoch": 0.48528, + "grad_norm": 0.3282933831214905, + "learning_rate": 1.6764800000000003e-05, + "loss": 0.0171, + "step": 75825 + }, + { + "epoch": 0.485312, + "grad_norm": 1.2652158737182617, + "learning_rate": 1.676458666666667e-05, + "loss": 0.0196, + "step": 75830 + }, + { + "epoch": 0.485344, + "grad_norm": 0.45561620593070984, + "learning_rate": 1.6764373333333334e-05, + "loss": 0.0206, + "step": 75835 + }, + { + "epoch": 0.485376, + "grad_norm": 0.37001949548721313, + "learning_rate": 1.6764160000000002e-05, + "loss": 0.0089, + "step": 75840 + }, + { + "epoch": 0.485408, + "grad_norm": 0.1433381885290146, + "learning_rate": 1.676394666666667e-05, + "loss": 0.0122, + "step": 75845 + }, + { + "epoch": 0.48544, + "grad_norm": 0.14267849922180176, + "learning_rate": 1.6763733333333334e-05, + "loss": 0.0139, + "step": 75850 + }, + { + "epoch": 0.485472, + "grad_norm": 2.1368777751922607, + "learning_rate": 1.676352e-05, + "loss": 0.0607, + "step": 75855 + }, + { + "epoch": 0.485504, + "grad_norm": 1.235703468322754, + "learning_rate": 1.676330666666667e-05, + "loss": 0.0271, + "step": 75860 + }, + { + "epoch": 0.485536, + "grad_norm": 0.45768219232559204, + "learning_rate": 1.6763093333333336e-05, + "loss": 0.0052, + "step": 75865 + }, + { + "epoch": 0.485568, + "grad_norm": 0.3157069981098175, + "learning_rate": 1.676288e-05, + "loss": 0.023, + "step": 75870 + }, + { + "epoch": 0.4856, + "grad_norm": 0.9791451692581177, + "learning_rate": 1.6762666666666668e-05, + "loss": 0.0386, + "step": 75875 + }, + { + "epoch": 0.485632, + "grad_norm": 0.587443470954895, + "learning_rate": 1.6762453333333335e-05, + "loss": 0.0182, + "step": 75880 + }, + { + "epoch": 0.485664, + "grad_norm": 1.4073259830474854, + "learning_rate": 1.676224e-05, + "loss": 0.0504, + "step": 75885 + }, + { + "epoch": 0.485696, + "grad_norm": 0.9245732426643372, + "learning_rate": 1.6762026666666667e-05, + "loss": 0.0258, + "step": 75890 + }, + { + "epoch": 0.485728, + "grad_norm": 0.937005877494812, + "learning_rate": 1.6761813333333335e-05, + "loss": 0.0264, + "step": 75895 + }, + { + "epoch": 0.48576, + "grad_norm": 0.41761595010757446, + "learning_rate": 1.6761600000000002e-05, + "loss": 0.0186, + "step": 75900 + }, + { + "epoch": 0.485792, + "grad_norm": 0.12937505543231964, + "learning_rate": 1.6761386666666666e-05, + "loss": 0.018, + "step": 75905 + }, + { + "epoch": 0.485824, + "grad_norm": 0.9194291830062866, + "learning_rate": 1.6761173333333334e-05, + "loss": 0.0207, + "step": 75910 + }, + { + "epoch": 0.485856, + "grad_norm": 0.27267974615097046, + "learning_rate": 1.676096e-05, + "loss": 0.0144, + "step": 75915 + }, + { + "epoch": 0.485888, + "grad_norm": 0.4053741991519928, + "learning_rate": 1.6760746666666666e-05, + "loss": 0.0145, + "step": 75920 + }, + { + "epoch": 0.48592, + "grad_norm": 0.7569344639778137, + "learning_rate": 1.6760533333333337e-05, + "loss": 0.0363, + "step": 75925 + }, + { + "epoch": 0.485952, + "grad_norm": 0.529305100440979, + "learning_rate": 1.676032e-05, + "loss": 0.0372, + "step": 75930 + }, + { + "epoch": 0.485984, + "grad_norm": 0.5092526078224182, + "learning_rate": 1.676010666666667e-05, + "loss": 0.0198, + "step": 75935 + }, + { + "epoch": 0.486016, + "grad_norm": 0.7611379623413086, + "learning_rate": 1.6759893333333336e-05, + "loss": 0.0263, + "step": 75940 + }, + { + "epoch": 0.486048, + "grad_norm": 0.6009922027587891, + "learning_rate": 1.675968e-05, + "loss": 0.0169, + "step": 75945 + }, + { + "epoch": 0.48608, + "grad_norm": 0.3842124938964844, + "learning_rate": 1.6759466666666668e-05, + "loss": 0.0199, + "step": 75950 + }, + { + "epoch": 0.486112, + "grad_norm": 0.8600219488143921, + "learning_rate": 1.6759253333333335e-05, + "loss": 0.025, + "step": 75955 + }, + { + "epoch": 0.486144, + "grad_norm": 0.13965366780757904, + "learning_rate": 1.6759040000000003e-05, + "loss": 0.0184, + "step": 75960 + }, + { + "epoch": 0.486176, + "grad_norm": 0.510361909866333, + "learning_rate": 1.6758826666666667e-05, + "loss": 0.01, + "step": 75965 + }, + { + "epoch": 0.486208, + "grad_norm": 0.5009871125221252, + "learning_rate": 1.6758613333333334e-05, + "loss": 0.038, + "step": 75970 + }, + { + "epoch": 0.48624, + "grad_norm": 0.3026171028614044, + "learning_rate": 1.6758400000000002e-05, + "loss": 0.0083, + "step": 75975 + }, + { + "epoch": 0.486272, + "grad_norm": 0.8376374244689941, + "learning_rate": 1.6758186666666666e-05, + "loss": 0.0447, + "step": 75980 + }, + { + "epoch": 0.486304, + "grad_norm": 0.8140850067138672, + "learning_rate": 1.6757973333333334e-05, + "loss": 0.0389, + "step": 75985 + }, + { + "epoch": 0.486336, + "grad_norm": 0.23163925111293793, + "learning_rate": 1.675776e-05, + "loss": 0.0087, + "step": 75990 + }, + { + "epoch": 0.486368, + "grad_norm": 1.0038965940475464, + "learning_rate": 1.675754666666667e-05, + "loss": 0.0237, + "step": 75995 + }, + { + "epoch": 0.4864, + "grad_norm": 0.9169462323188782, + "learning_rate": 1.6757333333333333e-05, + "loss": 0.0198, + "step": 76000 + }, + { + "epoch": 0.486432, + "grad_norm": 0.5674324631690979, + "learning_rate": 1.675712e-05, + "loss": 0.0195, + "step": 76005 + }, + { + "epoch": 0.486464, + "grad_norm": 0.34346863627433777, + "learning_rate": 1.6756906666666668e-05, + "loss": 0.0281, + "step": 76010 + }, + { + "epoch": 0.486496, + "grad_norm": 0.12468672543764114, + "learning_rate": 1.6756693333333332e-05, + "loss": 0.0254, + "step": 76015 + }, + { + "epoch": 0.486528, + "grad_norm": 0.8067076206207275, + "learning_rate": 1.6756480000000003e-05, + "loss": 0.0251, + "step": 76020 + }, + { + "epoch": 0.48656, + "grad_norm": 0.5147923827171326, + "learning_rate": 1.6756266666666667e-05, + "loss": 0.0137, + "step": 76025 + }, + { + "epoch": 0.486592, + "grad_norm": 0.23364147543907166, + "learning_rate": 1.6756053333333335e-05, + "loss": 0.0287, + "step": 76030 + }, + { + "epoch": 0.486624, + "grad_norm": 3.667473316192627, + "learning_rate": 1.6755840000000003e-05, + "loss": 0.0302, + "step": 76035 + }, + { + "epoch": 0.486656, + "grad_norm": 0.9690249562263489, + "learning_rate": 1.675562666666667e-05, + "loss": 0.0279, + "step": 76040 + }, + { + "epoch": 0.486688, + "grad_norm": 1.2073686122894287, + "learning_rate": 1.6755413333333334e-05, + "loss": 0.0323, + "step": 76045 + }, + { + "epoch": 0.48672, + "grad_norm": 0.02744566835463047, + "learning_rate": 1.6755200000000002e-05, + "loss": 0.0093, + "step": 76050 + }, + { + "epoch": 0.486752, + "grad_norm": 0.5112065672874451, + "learning_rate": 1.675498666666667e-05, + "loss": 0.0165, + "step": 76055 + }, + { + "epoch": 0.486784, + "grad_norm": 0.17991986870765686, + "learning_rate": 1.6754773333333334e-05, + "loss": 0.0114, + "step": 76060 + }, + { + "epoch": 0.486816, + "grad_norm": 0.5426984429359436, + "learning_rate": 1.675456e-05, + "loss": 0.0171, + "step": 76065 + }, + { + "epoch": 0.486848, + "grad_norm": 0.2882271707057953, + "learning_rate": 1.675434666666667e-05, + "loss": 0.0158, + "step": 76070 + }, + { + "epoch": 0.48688, + "grad_norm": 0.29560115933418274, + "learning_rate": 1.6754133333333336e-05, + "loss": 0.0346, + "step": 76075 + }, + { + "epoch": 0.486912, + "grad_norm": 0.38422805070877075, + "learning_rate": 1.675392e-05, + "loss": 0.0165, + "step": 76080 + }, + { + "epoch": 0.486944, + "grad_norm": 0.8167213201522827, + "learning_rate": 1.6753706666666668e-05, + "loss": 0.0141, + "step": 76085 + }, + { + "epoch": 0.486976, + "grad_norm": 0.04883371293544769, + "learning_rate": 1.6753493333333335e-05, + "loss": 0.015, + "step": 76090 + }, + { + "epoch": 0.487008, + "grad_norm": 0.27249476313591003, + "learning_rate": 1.675328e-05, + "loss": 0.0163, + "step": 76095 + }, + { + "epoch": 0.48704, + "grad_norm": 0.326196551322937, + "learning_rate": 1.6753066666666667e-05, + "loss": 0.0252, + "step": 76100 + }, + { + "epoch": 0.487072, + "grad_norm": 5.594153881072998, + "learning_rate": 1.6752853333333335e-05, + "loss": 0.0302, + "step": 76105 + }, + { + "epoch": 0.487104, + "grad_norm": 1.23458993434906, + "learning_rate": 1.6752640000000002e-05, + "loss": 0.0353, + "step": 76110 + }, + { + "epoch": 0.487136, + "grad_norm": 0.5041623115539551, + "learning_rate": 1.6752426666666666e-05, + "loss": 0.0149, + "step": 76115 + }, + { + "epoch": 0.487168, + "grad_norm": 0.9444090127944946, + "learning_rate": 1.6752213333333334e-05, + "loss": 0.0068, + "step": 76120 + }, + { + "epoch": 0.4872, + "grad_norm": 0.75749272108078, + "learning_rate": 1.6752e-05, + "loss": 0.0276, + "step": 76125 + }, + { + "epoch": 0.487232, + "grad_norm": 1.2748966217041016, + "learning_rate": 1.6751786666666666e-05, + "loss": 0.0238, + "step": 76130 + }, + { + "epoch": 0.487264, + "grad_norm": 0.2199370563030243, + "learning_rate": 1.6751573333333337e-05, + "loss": 0.0078, + "step": 76135 + }, + { + "epoch": 0.487296, + "grad_norm": 0.3661991059780121, + "learning_rate": 1.675136e-05, + "loss": 0.0346, + "step": 76140 + }, + { + "epoch": 0.487328, + "grad_norm": 0.5063916444778442, + "learning_rate": 1.675114666666667e-05, + "loss": 0.0267, + "step": 76145 + }, + { + "epoch": 0.48736, + "grad_norm": 0.16209177672863007, + "learning_rate": 1.6750933333333336e-05, + "loss": 0.0177, + "step": 76150 + }, + { + "epoch": 0.487392, + "grad_norm": 1.2836940288543701, + "learning_rate": 1.675072e-05, + "loss": 0.0368, + "step": 76155 + }, + { + "epoch": 0.487424, + "grad_norm": 2.611572504043579, + "learning_rate": 1.6750506666666668e-05, + "loss": 0.0254, + "step": 76160 + }, + { + "epoch": 0.487456, + "grad_norm": 0.20352695882320404, + "learning_rate": 1.6750293333333335e-05, + "loss": 0.0116, + "step": 76165 + }, + { + "epoch": 0.487488, + "grad_norm": 1.45647132396698, + "learning_rate": 1.6750080000000003e-05, + "loss": 0.0448, + "step": 76170 + }, + { + "epoch": 0.48752, + "grad_norm": 0.08235344290733337, + "learning_rate": 1.6749866666666667e-05, + "loss": 0.0056, + "step": 76175 + }, + { + "epoch": 0.487552, + "grad_norm": 0.4260537624359131, + "learning_rate": 1.6749653333333334e-05, + "loss": 0.0232, + "step": 76180 + }, + { + "epoch": 0.487584, + "grad_norm": 0.7631784677505493, + "learning_rate": 1.6749440000000002e-05, + "loss": 0.0439, + "step": 76185 + }, + { + "epoch": 0.487616, + "grad_norm": 0.7180988788604736, + "learning_rate": 1.6749226666666666e-05, + "loss": 0.0267, + "step": 76190 + }, + { + "epoch": 0.487648, + "grad_norm": 0.6396512985229492, + "learning_rate": 1.6749013333333334e-05, + "loss": 0.0192, + "step": 76195 + }, + { + "epoch": 0.48768, + "grad_norm": 1.0220420360565186, + "learning_rate": 1.67488e-05, + "loss": 0.0144, + "step": 76200 + }, + { + "epoch": 0.487712, + "grad_norm": 0.3127315044403076, + "learning_rate": 1.674858666666667e-05, + "loss": 0.0112, + "step": 76205 + }, + { + "epoch": 0.487744, + "grad_norm": 0.4013674557209015, + "learning_rate": 1.6748373333333333e-05, + "loss": 0.0188, + "step": 76210 + }, + { + "epoch": 0.487776, + "grad_norm": 0.2378341555595398, + "learning_rate": 1.674816e-05, + "loss": 0.0122, + "step": 76215 + }, + { + "epoch": 0.487808, + "grad_norm": 0.07982882112264633, + "learning_rate": 1.6747946666666668e-05, + "loss": 0.0169, + "step": 76220 + }, + { + "epoch": 0.48784, + "grad_norm": 0.4480040967464447, + "learning_rate": 1.6747733333333332e-05, + "loss": 0.017, + "step": 76225 + }, + { + "epoch": 0.487872, + "grad_norm": 0.7726449370384216, + "learning_rate": 1.674752e-05, + "loss": 0.0192, + "step": 76230 + }, + { + "epoch": 0.487904, + "grad_norm": 0.6105831861495972, + "learning_rate": 1.6747306666666667e-05, + "loss": 0.0244, + "step": 76235 + }, + { + "epoch": 0.487936, + "grad_norm": 0.7664806246757507, + "learning_rate": 1.6747093333333335e-05, + "loss": 0.0177, + "step": 76240 + }, + { + "epoch": 0.487968, + "grad_norm": 0.8884800672531128, + "learning_rate": 1.6746880000000003e-05, + "loss": 0.014, + "step": 76245 + }, + { + "epoch": 0.488, + "grad_norm": 0.3458356559276581, + "learning_rate": 1.674666666666667e-05, + "loss": 0.0176, + "step": 76250 + }, + { + "epoch": 0.488032, + "grad_norm": 1.7887541055679321, + "learning_rate": 1.6746453333333334e-05, + "loss": 0.0339, + "step": 76255 + }, + { + "epoch": 0.488064, + "grad_norm": 0.9209999442100525, + "learning_rate": 1.6746240000000002e-05, + "loss": 0.0399, + "step": 76260 + }, + { + "epoch": 0.488096, + "grad_norm": 0.6781457662582397, + "learning_rate": 1.674602666666667e-05, + "loss": 0.0418, + "step": 76265 + }, + { + "epoch": 0.488128, + "grad_norm": 0.40180152654647827, + "learning_rate": 1.6745813333333334e-05, + "loss": 0.014, + "step": 76270 + }, + { + "epoch": 0.48816, + "grad_norm": 0.13769789040088654, + "learning_rate": 1.67456e-05, + "loss": 0.0191, + "step": 76275 + }, + { + "epoch": 0.488192, + "grad_norm": 0.654555082321167, + "learning_rate": 1.674538666666667e-05, + "loss": 0.0192, + "step": 76280 + }, + { + "epoch": 0.488224, + "grad_norm": 0.7509787082672119, + "learning_rate": 1.6745173333333336e-05, + "loss": 0.0193, + "step": 76285 + }, + { + "epoch": 0.488256, + "grad_norm": 0.26012173295021057, + "learning_rate": 1.674496e-05, + "loss": 0.0151, + "step": 76290 + }, + { + "epoch": 0.488288, + "grad_norm": 0.1345769762992859, + "learning_rate": 1.6744746666666668e-05, + "loss": 0.0244, + "step": 76295 + }, + { + "epoch": 0.48832, + "grad_norm": 0.0966937318444252, + "learning_rate": 1.6744533333333335e-05, + "loss": 0.008, + "step": 76300 + }, + { + "epoch": 0.488352, + "grad_norm": 0.6694451570510864, + "learning_rate": 1.674432e-05, + "loss": 0.0187, + "step": 76305 + }, + { + "epoch": 0.488384, + "grad_norm": 0.1524670273065567, + "learning_rate": 1.6744106666666667e-05, + "loss": 0.0126, + "step": 76310 + }, + { + "epoch": 0.488416, + "grad_norm": 0.4252412021160126, + "learning_rate": 1.6743893333333335e-05, + "loss": 0.0307, + "step": 76315 + }, + { + "epoch": 0.488448, + "grad_norm": 0.38586416840553284, + "learning_rate": 1.6743680000000002e-05, + "loss": 0.0173, + "step": 76320 + }, + { + "epoch": 0.48848, + "grad_norm": 5.990100860595703, + "learning_rate": 1.6743466666666666e-05, + "loss": 0.0182, + "step": 76325 + }, + { + "epoch": 0.488512, + "grad_norm": 2.4647462368011475, + "learning_rate": 1.6743253333333337e-05, + "loss": 0.0261, + "step": 76330 + }, + { + "epoch": 0.488544, + "grad_norm": 0.49119696021080017, + "learning_rate": 1.674304e-05, + "loss": 0.0203, + "step": 76335 + }, + { + "epoch": 0.488576, + "grad_norm": 0.7965607643127441, + "learning_rate": 1.6742826666666666e-05, + "loss": 0.0329, + "step": 76340 + }, + { + "epoch": 0.488608, + "grad_norm": 1.668869972229004, + "learning_rate": 1.6742613333333337e-05, + "loss": 0.0273, + "step": 76345 + }, + { + "epoch": 0.48864, + "grad_norm": 0.4905874729156494, + "learning_rate": 1.67424e-05, + "loss": 0.021, + "step": 76350 + }, + { + "epoch": 0.488672, + "grad_norm": 2.086902618408203, + "learning_rate": 1.674218666666667e-05, + "loss": 0.0311, + "step": 76355 + }, + { + "epoch": 0.488704, + "grad_norm": 0.3670209050178528, + "learning_rate": 1.6741973333333336e-05, + "loss": 0.0133, + "step": 76360 + }, + { + "epoch": 0.488736, + "grad_norm": 0.998489499092102, + "learning_rate": 1.6741760000000004e-05, + "loss": 0.0178, + "step": 76365 + }, + { + "epoch": 0.488768, + "grad_norm": 0.23970279097557068, + "learning_rate": 1.6741546666666668e-05, + "loss": 0.0402, + "step": 76370 + }, + { + "epoch": 0.4888, + "grad_norm": 0.3713349997997284, + "learning_rate": 1.6741333333333335e-05, + "loss": 0.0147, + "step": 76375 + }, + { + "epoch": 0.488832, + "grad_norm": 0.5142297744750977, + "learning_rate": 1.6741120000000003e-05, + "loss": 0.0225, + "step": 76380 + }, + { + "epoch": 0.488864, + "grad_norm": 0.5945127606391907, + "learning_rate": 1.6740906666666667e-05, + "loss": 0.0189, + "step": 76385 + }, + { + "epoch": 0.488896, + "grad_norm": 1.1690998077392578, + "learning_rate": 1.6740693333333334e-05, + "loss": 0.0272, + "step": 76390 + }, + { + "epoch": 0.488928, + "grad_norm": 0.37960386276245117, + "learning_rate": 1.6740480000000002e-05, + "loss": 0.0212, + "step": 76395 + }, + { + "epoch": 0.48896, + "grad_norm": 3.459014892578125, + "learning_rate": 1.674026666666667e-05, + "loss": 0.0168, + "step": 76400 + }, + { + "epoch": 0.488992, + "grad_norm": 0.5458874106407166, + "learning_rate": 1.6740053333333334e-05, + "loss": 0.0311, + "step": 76405 + }, + { + "epoch": 0.489024, + "grad_norm": 0.5552817583084106, + "learning_rate": 1.673984e-05, + "loss": 0.0235, + "step": 76410 + }, + { + "epoch": 0.489056, + "grad_norm": 1.0526671409606934, + "learning_rate": 1.673962666666667e-05, + "loss": 0.0261, + "step": 76415 + }, + { + "epoch": 0.489088, + "grad_norm": 0.6964571475982666, + "learning_rate": 1.6739413333333333e-05, + "loss": 0.0272, + "step": 76420 + }, + { + "epoch": 0.48912, + "grad_norm": 0.5547888278961182, + "learning_rate": 1.67392e-05, + "loss": 0.01, + "step": 76425 + }, + { + "epoch": 0.489152, + "grad_norm": 0.10654965788125992, + "learning_rate": 1.6738986666666668e-05, + "loss": 0.0168, + "step": 76430 + }, + { + "epoch": 0.489184, + "grad_norm": 1.179650068283081, + "learning_rate": 1.6738773333333336e-05, + "loss": 0.0217, + "step": 76435 + }, + { + "epoch": 0.489216, + "grad_norm": 0.8050605058670044, + "learning_rate": 1.673856e-05, + "loss": 0.029, + "step": 76440 + }, + { + "epoch": 0.489248, + "grad_norm": 1.6802613735198975, + "learning_rate": 1.6738346666666667e-05, + "loss": 0.0416, + "step": 76445 + }, + { + "epoch": 0.48928, + "grad_norm": 1.3006526231765747, + "learning_rate": 1.6738133333333335e-05, + "loss": 0.019, + "step": 76450 + }, + { + "epoch": 0.489312, + "grad_norm": 0.5339979529380798, + "learning_rate": 1.673792e-05, + "loss": 0.0237, + "step": 76455 + }, + { + "epoch": 0.489344, + "grad_norm": 0.8606167435646057, + "learning_rate": 1.673770666666667e-05, + "loss": 0.0348, + "step": 76460 + }, + { + "epoch": 0.489376, + "grad_norm": 0.35174620151519775, + "learning_rate": 1.6737493333333334e-05, + "loss": 0.0109, + "step": 76465 + }, + { + "epoch": 0.489408, + "grad_norm": 0.23872242867946625, + "learning_rate": 1.6737280000000002e-05, + "loss": 0.0147, + "step": 76470 + }, + { + "epoch": 0.48944, + "grad_norm": 0.4396335184574127, + "learning_rate": 1.673706666666667e-05, + "loss": 0.018, + "step": 76475 + }, + { + "epoch": 0.489472, + "grad_norm": 0.28589051961898804, + "learning_rate": 1.6736853333333334e-05, + "loss": 0.0471, + "step": 76480 + }, + { + "epoch": 0.489504, + "grad_norm": 0.7263343334197998, + "learning_rate": 1.673664e-05, + "loss": 0.0297, + "step": 76485 + }, + { + "epoch": 0.489536, + "grad_norm": 0.7601319551467896, + "learning_rate": 1.673642666666667e-05, + "loss": 0.0263, + "step": 76490 + }, + { + "epoch": 0.489568, + "grad_norm": 0.5130918622016907, + "learning_rate": 1.6736213333333336e-05, + "loss": 0.0274, + "step": 76495 + }, + { + "epoch": 0.4896, + "grad_norm": 0.420906126499176, + "learning_rate": 1.6736e-05, + "loss": 0.0185, + "step": 76500 + }, + { + "epoch": 0.489632, + "grad_norm": 0.4572901427745819, + "learning_rate": 1.6735786666666668e-05, + "loss": 0.0309, + "step": 76505 + }, + { + "epoch": 0.489664, + "grad_norm": 0.5705508589744568, + "learning_rate": 1.6735573333333335e-05, + "loss": 0.0237, + "step": 76510 + }, + { + "epoch": 0.489696, + "grad_norm": 0.3340054154396057, + "learning_rate": 1.673536e-05, + "loss": 0.0182, + "step": 76515 + }, + { + "epoch": 0.489728, + "grad_norm": 1.0893217325210571, + "learning_rate": 1.6735146666666667e-05, + "loss": 0.028, + "step": 76520 + }, + { + "epoch": 0.48976, + "grad_norm": 0.513727605342865, + "learning_rate": 1.6734933333333335e-05, + "loss": 0.0412, + "step": 76525 + }, + { + "epoch": 0.489792, + "grad_norm": 0.19269095361232758, + "learning_rate": 1.6734720000000002e-05, + "loss": 0.0142, + "step": 76530 + }, + { + "epoch": 0.489824, + "grad_norm": 0.8456186056137085, + "learning_rate": 1.6734506666666666e-05, + "loss": 0.0154, + "step": 76535 + }, + { + "epoch": 0.489856, + "grad_norm": 0.36094269156455994, + "learning_rate": 1.6734293333333337e-05, + "loss": 0.0147, + "step": 76540 + }, + { + "epoch": 0.489888, + "grad_norm": 1.1072779893875122, + "learning_rate": 1.673408e-05, + "loss": 0.0219, + "step": 76545 + }, + { + "epoch": 0.48992, + "grad_norm": 0.6041521430015564, + "learning_rate": 1.6733866666666666e-05, + "loss": 0.0185, + "step": 76550 + }, + { + "epoch": 0.489952, + "grad_norm": 0.2986275851726532, + "learning_rate": 1.6733653333333337e-05, + "loss": 0.0332, + "step": 76555 + }, + { + "epoch": 0.489984, + "grad_norm": 0.5931836366653442, + "learning_rate": 1.673344e-05, + "loss": 0.0273, + "step": 76560 + }, + { + "epoch": 0.490016, + "grad_norm": 0.25954562425613403, + "learning_rate": 1.673322666666667e-05, + "loss": 0.017, + "step": 76565 + }, + { + "epoch": 0.490048, + "grad_norm": 0.3516404330730438, + "learning_rate": 1.6733013333333336e-05, + "loss": 0.0205, + "step": 76570 + }, + { + "epoch": 0.49008, + "grad_norm": 0.5185536742210388, + "learning_rate": 1.6732800000000004e-05, + "loss": 0.0443, + "step": 76575 + }, + { + "epoch": 0.490112, + "grad_norm": 0.6602601408958435, + "learning_rate": 1.6732586666666668e-05, + "loss": 0.0169, + "step": 76580 + }, + { + "epoch": 0.490144, + "grad_norm": 0.46255120635032654, + "learning_rate": 1.6732373333333335e-05, + "loss": 0.0153, + "step": 76585 + }, + { + "epoch": 0.490176, + "grad_norm": 0.701941728591919, + "learning_rate": 1.6732160000000003e-05, + "loss": 0.0237, + "step": 76590 + }, + { + "epoch": 0.490208, + "grad_norm": 0.047720152884721756, + "learning_rate": 1.6731946666666667e-05, + "loss": 0.0059, + "step": 76595 + }, + { + "epoch": 0.49024, + "grad_norm": 0.3585476279258728, + "learning_rate": 1.6731733333333335e-05, + "loss": 0.0161, + "step": 76600 + }, + { + "epoch": 0.490272, + "grad_norm": 0.6814064979553223, + "learning_rate": 1.6731520000000002e-05, + "loss": 0.0203, + "step": 76605 + }, + { + "epoch": 0.490304, + "grad_norm": 0.4235672354698181, + "learning_rate": 1.673130666666667e-05, + "loss": 0.0179, + "step": 76610 + }, + { + "epoch": 0.490336, + "grad_norm": 0.5332996845245361, + "learning_rate": 1.6731093333333334e-05, + "loss": 0.0199, + "step": 76615 + }, + { + "epoch": 0.490368, + "grad_norm": 0.4477819800376892, + "learning_rate": 1.673088e-05, + "loss": 0.017, + "step": 76620 + }, + { + "epoch": 0.4904, + "grad_norm": 0.7945711612701416, + "learning_rate": 1.673066666666667e-05, + "loss": 0.0179, + "step": 76625 + }, + { + "epoch": 0.490432, + "grad_norm": 0.31705981492996216, + "learning_rate": 1.6730453333333333e-05, + "loss": 0.0363, + "step": 76630 + }, + { + "epoch": 0.490464, + "grad_norm": 0.6070120334625244, + "learning_rate": 1.673024e-05, + "loss": 0.0158, + "step": 76635 + }, + { + "epoch": 0.490496, + "grad_norm": 0.12091580778360367, + "learning_rate": 1.6730026666666668e-05, + "loss": 0.0143, + "step": 76640 + }, + { + "epoch": 0.490528, + "grad_norm": 1.5779396295547485, + "learning_rate": 1.6729813333333336e-05, + "loss": 0.0134, + "step": 76645 + }, + { + "epoch": 0.49056, + "grad_norm": 1.4436492919921875, + "learning_rate": 1.67296e-05, + "loss": 0.0207, + "step": 76650 + }, + { + "epoch": 0.490592, + "grad_norm": 0.6014142632484436, + "learning_rate": 1.6729386666666667e-05, + "loss": 0.043, + "step": 76655 + }, + { + "epoch": 0.490624, + "grad_norm": 0.40781769156455994, + "learning_rate": 1.6729173333333335e-05, + "loss": 0.0209, + "step": 76660 + }, + { + "epoch": 0.490656, + "grad_norm": 0.10082089900970459, + "learning_rate": 1.672896e-05, + "loss": 0.0493, + "step": 76665 + }, + { + "epoch": 0.490688, + "grad_norm": 0.42178794741630554, + "learning_rate": 1.672874666666667e-05, + "loss": 0.0132, + "step": 76670 + }, + { + "epoch": 0.49072, + "grad_norm": 0.6580341458320618, + "learning_rate": 1.6728533333333334e-05, + "loss": 0.0278, + "step": 76675 + }, + { + "epoch": 0.490752, + "grad_norm": 0.8423222899436951, + "learning_rate": 1.6728320000000002e-05, + "loss": 0.0284, + "step": 76680 + }, + { + "epoch": 0.490784, + "grad_norm": 0.3587495684623718, + "learning_rate": 1.672810666666667e-05, + "loss": 0.042, + "step": 76685 + }, + { + "epoch": 0.490816, + "grad_norm": 0.44664645195007324, + "learning_rate": 1.6727893333333334e-05, + "loss": 0.0401, + "step": 76690 + }, + { + "epoch": 0.490848, + "grad_norm": 0.5654094219207764, + "learning_rate": 1.672768e-05, + "loss": 0.0143, + "step": 76695 + }, + { + "epoch": 0.49088, + "grad_norm": 0.5021746754646301, + "learning_rate": 1.672746666666667e-05, + "loss": 0.0184, + "step": 76700 + }, + { + "epoch": 0.490912, + "grad_norm": 0.5531634092330933, + "learning_rate": 1.6727253333333336e-05, + "loss": 0.0143, + "step": 76705 + }, + { + "epoch": 0.490944, + "grad_norm": 0.6601527333259583, + "learning_rate": 1.672704e-05, + "loss": 0.0107, + "step": 76710 + }, + { + "epoch": 0.490976, + "grad_norm": 0.6084632873535156, + "learning_rate": 1.6726826666666668e-05, + "loss": 0.0154, + "step": 76715 + }, + { + "epoch": 0.491008, + "grad_norm": 0.39868125319480896, + "learning_rate": 1.6726613333333335e-05, + "loss": 0.0142, + "step": 76720 + }, + { + "epoch": 0.49104, + "grad_norm": 0.4361467957496643, + "learning_rate": 1.67264e-05, + "loss": 0.0269, + "step": 76725 + }, + { + "epoch": 0.491072, + "grad_norm": 0.6607850790023804, + "learning_rate": 1.6726186666666667e-05, + "loss": 0.0354, + "step": 76730 + }, + { + "epoch": 0.491104, + "grad_norm": 0.6246001124382019, + "learning_rate": 1.6725973333333335e-05, + "loss": 0.0178, + "step": 76735 + }, + { + "epoch": 0.491136, + "grad_norm": 0.29681265354156494, + "learning_rate": 1.6725760000000002e-05, + "loss": 0.0502, + "step": 76740 + }, + { + "epoch": 0.491168, + "grad_norm": 0.9773591160774231, + "learning_rate": 1.6725546666666666e-05, + "loss": 0.0161, + "step": 76745 + }, + { + "epoch": 0.4912, + "grad_norm": 0.759380578994751, + "learning_rate": 1.6725333333333334e-05, + "loss": 0.029, + "step": 76750 + }, + { + "epoch": 0.491232, + "grad_norm": 0.2295624166727066, + "learning_rate": 1.672512e-05, + "loss": 0.0108, + "step": 76755 + }, + { + "epoch": 0.491264, + "grad_norm": 0.37488749623298645, + "learning_rate": 1.6724906666666666e-05, + "loss": 0.0148, + "step": 76760 + }, + { + "epoch": 0.491296, + "grad_norm": 0.15218807756900787, + "learning_rate": 1.6724693333333337e-05, + "loss": 0.0151, + "step": 76765 + }, + { + "epoch": 0.491328, + "grad_norm": 1.442596435546875, + "learning_rate": 1.672448e-05, + "loss": 0.0141, + "step": 76770 + }, + { + "epoch": 0.49136, + "grad_norm": 0.389746755361557, + "learning_rate": 1.672426666666667e-05, + "loss": 0.0274, + "step": 76775 + }, + { + "epoch": 0.491392, + "grad_norm": 2.1969501972198486, + "learning_rate": 1.6724053333333336e-05, + "loss": 0.0135, + "step": 76780 + }, + { + "epoch": 0.491424, + "grad_norm": 1.5277208089828491, + "learning_rate": 1.6723840000000004e-05, + "loss": 0.0133, + "step": 76785 + }, + { + "epoch": 0.491456, + "grad_norm": 0.558900773525238, + "learning_rate": 1.6723626666666668e-05, + "loss": 0.0254, + "step": 76790 + }, + { + "epoch": 0.491488, + "grad_norm": 1.0646024942398071, + "learning_rate": 1.6723413333333335e-05, + "loss": 0.0364, + "step": 76795 + }, + { + "epoch": 0.49152, + "grad_norm": 0.25619152188301086, + "learning_rate": 1.6723200000000003e-05, + "loss": 0.0096, + "step": 76800 + }, + { + "epoch": 0.491552, + "grad_norm": 0.8138558268547058, + "learning_rate": 1.6722986666666667e-05, + "loss": 0.019, + "step": 76805 + }, + { + "epoch": 0.491584, + "grad_norm": 0.6413997411727905, + "learning_rate": 1.6722773333333335e-05, + "loss": 0.0147, + "step": 76810 + }, + { + "epoch": 0.491616, + "grad_norm": 1.946750283241272, + "learning_rate": 1.6722560000000002e-05, + "loss": 0.0221, + "step": 76815 + }, + { + "epoch": 0.491648, + "grad_norm": 0.8871405720710754, + "learning_rate": 1.672234666666667e-05, + "loss": 0.0259, + "step": 76820 + }, + { + "epoch": 0.49168, + "grad_norm": 0.4844636619091034, + "learning_rate": 1.6722133333333334e-05, + "loss": 0.0151, + "step": 76825 + }, + { + "epoch": 0.491712, + "grad_norm": 1.1438558101654053, + "learning_rate": 1.672192e-05, + "loss": 0.038, + "step": 76830 + }, + { + "epoch": 0.491744, + "grad_norm": 0.04720565676689148, + "learning_rate": 1.672170666666667e-05, + "loss": 0.0178, + "step": 76835 + }, + { + "epoch": 0.491776, + "grad_norm": 0.5106108784675598, + "learning_rate": 1.6721493333333333e-05, + "loss": 0.0198, + "step": 76840 + }, + { + "epoch": 0.491808, + "grad_norm": 0.1688937097787857, + "learning_rate": 1.672128e-05, + "loss": 0.0138, + "step": 76845 + }, + { + "epoch": 0.49184, + "grad_norm": 0.9307903051376343, + "learning_rate": 1.6721066666666668e-05, + "loss": 0.0155, + "step": 76850 + }, + { + "epoch": 0.491872, + "grad_norm": 0.5904431343078613, + "learning_rate": 1.6720853333333336e-05, + "loss": 0.0393, + "step": 76855 + }, + { + "epoch": 0.491904, + "grad_norm": 0.6513291001319885, + "learning_rate": 1.672064e-05, + "loss": 0.0287, + "step": 76860 + }, + { + "epoch": 0.491936, + "grad_norm": 1.170316457748413, + "learning_rate": 1.6720426666666667e-05, + "loss": 0.0229, + "step": 76865 + }, + { + "epoch": 0.491968, + "grad_norm": 3.8431310653686523, + "learning_rate": 1.6720213333333335e-05, + "loss": 0.026, + "step": 76870 + }, + { + "epoch": 0.492, + "grad_norm": 0.7310392260551453, + "learning_rate": 1.672e-05, + "loss": 0.012, + "step": 76875 + }, + { + "epoch": 0.492032, + "grad_norm": 0.734105110168457, + "learning_rate": 1.671978666666667e-05, + "loss": 0.0149, + "step": 76880 + }, + { + "epoch": 0.492064, + "grad_norm": 1.4487967491149902, + "learning_rate": 1.6719573333333334e-05, + "loss": 0.0238, + "step": 76885 + }, + { + "epoch": 0.492096, + "grad_norm": 0.7074647545814514, + "learning_rate": 1.6719360000000002e-05, + "loss": 0.0199, + "step": 76890 + }, + { + "epoch": 0.492128, + "grad_norm": 1.223179817199707, + "learning_rate": 1.671914666666667e-05, + "loss": 0.007, + "step": 76895 + }, + { + "epoch": 0.49216, + "grad_norm": 0.8219317197799683, + "learning_rate": 1.6718933333333334e-05, + "loss": 0.0182, + "step": 76900 + }, + { + "epoch": 0.492192, + "grad_norm": 0.9541563391685486, + "learning_rate": 1.671872e-05, + "loss": 0.0274, + "step": 76905 + }, + { + "epoch": 0.492224, + "grad_norm": 0.2206483781337738, + "learning_rate": 1.671850666666667e-05, + "loss": 0.0125, + "step": 76910 + }, + { + "epoch": 0.492256, + "grad_norm": 0.6242029070854187, + "learning_rate": 1.6718293333333336e-05, + "loss": 0.0334, + "step": 76915 + }, + { + "epoch": 0.492288, + "grad_norm": 1.0691206455230713, + "learning_rate": 1.671808e-05, + "loss": 0.0266, + "step": 76920 + }, + { + "epoch": 0.49232, + "grad_norm": 0.17223873734474182, + "learning_rate": 1.6717866666666668e-05, + "loss": 0.0243, + "step": 76925 + }, + { + "epoch": 0.492352, + "grad_norm": 0.2417057603597641, + "learning_rate": 1.6717653333333335e-05, + "loss": 0.0103, + "step": 76930 + }, + { + "epoch": 0.492384, + "grad_norm": 0.1854792684316635, + "learning_rate": 1.671744e-05, + "loss": 0.0146, + "step": 76935 + }, + { + "epoch": 0.492416, + "grad_norm": 1.3479279279708862, + "learning_rate": 1.6717226666666667e-05, + "loss": 0.0275, + "step": 76940 + }, + { + "epoch": 0.492448, + "grad_norm": 0.44340282678604126, + "learning_rate": 1.6717013333333335e-05, + "loss": 0.0166, + "step": 76945 + }, + { + "epoch": 0.49248, + "grad_norm": 0.7897194027900696, + "learning_rate": 1.6716800000000002e-05, + "loss": 0.0466, + "step": 76950 + }, + { + "epoch": 0.492512, + "grad_norm": 0.9408575892448425, + "learning_rate": 1.6716586666666666e-05, + "loss": 0.0183, + "step": 76955 + }, + { + "epoch": 0.492544, + "grad_norm": 0.10884243249893188, + "learning_rate": 1.6716373333333334e-05, + "loss": 0.0118, + "step": 76960 + }, + { + "epoch": 0.492576, + "grad_norm": 0.3839638829231262, + "learning_rate": 1.671616e-05, + "loss": 0.0413, + "step": 76965 + }, + { + "epoch": 0.492608, + "grad_norm": 1.2619304656982422, + "learning_rate": 1.6715946666666666e-05, + "loss": 0.0209, + "step": 76970 + }, + { + "epoch": 0.49264, + "grad_norm": 2.276740789413452, + "learning_rate": 1.6715733333333333e-05, + "loss": 0.029, + "step": 76975 + }, + { + "epoch": 0.492672, + "grad_norm": 0.0924220085144043, + "learning_rate": 1.671552e-05, + "loss": 0.0108, + "step": 76980 + }, + { + "epoch": 0.492704, + "grad_norm": 0.7712332606315613, + "learning_rate": 1.671530666666667e-05, + "loss": 0.0172, + "step": 76985 + }, + { + "epoch": 0.492736, + "grad_norm": 0.6240730881690979, + "learning_rate": 1.6715093333333336e-05, + "loss": 0.0553, + "step": 76990 + }, + { + "epoch": 0.492768, + "grad_norm": 0.880337119102478, + "learning_rate": 1.6714880000000004e-05, + "loss": 0.0373, + "step": 76995 + }, + { + "epoch": 0.4928, + "grad_norm": 0.12430701404809952, + "learning_rate": 1.6714666666666668e-05, + "loss": 0.0167, + "step": 77000 + }, + { + "epoch": 0.492832, + "grad_norm": 0.7099186182022095, + "learning_rate": 1.6714453333333335e-05, + "loss": 0.0141, + "step": 77005 + }, + { + "epoch": 0.492864, + "grad_norm": 0.5584332346916199, + "learning_rate": 1.6714240000000003e-05, + "loss": 0.0151, + "step": 77010 + }, + { + "epoch": 0.492896, + "grad_norm": 0.5011752247810364, + "learning_rate": 1.6714026666666667e-05, + "loss": 0.0198, + "step": 77015 + }, + { + "epoch": 0.492928, + "grad_norm": 0.034686218947172165, + "learning_rate": 1.6713813333333335e-05, + "loss": 0.013, + "step": 77020 + }, + { + "epoch": 0.49296, + "grad_norm": 0.3340764343738556, + "learning_rate": 1.6713600000000002e-05, + "loss": 0.0213, + "step": 77025 + }, + { + "epoch": 0.492992, + "grad_norm": 0.5316386818885803, + "learning_rate": 1.671338666666667e-05, + "loss": 0.0216, + "step": 77030 + }, + { + "epoch": 0.493024, + "grad_norm": 1.474315881729126, + "learning_rate": 1.6713173333333334e-05, + "loss": 0.0302, + "step": 77035 + }, + { + "epoch": 0.493056, + "grad_norm": 0.8139462471008301, + "learning_rate": 1.671296e-05, + "loss": 0.0127, + "step": 77040 + }, + { + "epoch": 0.493088, + "grad_norm": 0.1067604348063469, + "learning_rate": 1.671274666666667e-05, + "loss": 0.013, + "step": 77045 + }, + { + "epoch": 0.49312, + "grad_norm": 0.5059519410133362, + "learning_rate": 1.6712533333333333e-05, + "loss": 0.0224, + "step": 77050 + }, + { + "epoch": 0.493152, + "grad_norm": 0.6448080539703369, + "learning_rate": 1.671232e-05, + "loss": 0.0317, + "step": 77055 + }, + { + "epoch": 0.493184, + "grad_norm": 1.547087550163269, + "learning_rate": 1.6712106666666668e-05, + "loss": 0.0488, + "step": 77060 + }, + { + "epoch": 0.493216, + "grad_norm": 0.2577652335166931, + "learning_rate": 1.6711893333333336e-05, + "loss": 0.0296, + "step": 77065 + }, + { + "epoch": 0.493248, + "grad_norm": 0.6244569420814514, + "learning_rate": 1.671168e-05, + "loss": 0.0246, + "step": 77070 + }, + { + "epoch": 0.49328, + "grad_norm": 3.1956074237823486, + "learning_rate": 1.6711466666666667e-05, + "loss": 0.0229, + "step": 77075 + }, + { + "epoch": 0.493312, + "grad_norm": 0.5533666610717773, + "learning_rate": 1.6711253333333335e-05, + "loss": 0.0185, + "step": 77080 + }, + { + "epoch": 0.493344, + "grad_norm": 0.3239627182483673, + "learning_rate": 1.671104e-05, + "loss": 0.02, + "step": 77085 + }, + { + "epoch": 0.493376, + "grad_norm": 0.27780652046203613, + "learning_rate": 1.671082666666667e-05, + "loss": 0.0186, + "step": 77090 + }, + { + "epoch": 0.493408, + "grad_norm": 0.6356020569801331, + "learning_rate": 1.6710613333333334e-05, + "loss": 0.0305, + "step": 77095 + }, + { + "epoch": 0.49344, + "grad_norm": 0.9686962962150574, + "learning_rate": 1.6710400000000002e-05, + "loss": 0.043, + "step": 77100 + }, + { + "epoch": 0.493472, + "grad_norm": 0.22779269516468048, + "learning_rate": 1.671018666666667e-05, + "loss": 0.012, + "step": 77105 + }, + { + "epoch": 0.493504, + "grad_norm": 5.26480770111084, + "learning_rate": 1.6709973333333334e-05, + "loss": 0.0435, + "step": 77110 + }, + { + "epoch": 0.493536, + "grad_norm": 1.0038611888885498, + "learning_rate": 1.670976e-05, + "loss": 0.0269, + "step": 77115 + }, + { + "epoch": 0.493568, + "grad_norm": 0.49045267701148987, + "learning_rate": 1.670954666666667e-05, + "loss": 0.0263, + "step": 77120 + }, + { + "epoch": 0.4936, + "grad_norm": 1.2408734560012817, + "learning_rate": 1.6709333333333336e-05, + "loss": 0.0183, + "step": 77125 + }, + { + "epoch": 0.493632, + "grad_norm": 1.0642766952514648, + "learning_rate": 1.670912e-05, + "loss": 0.0128, + "step": 77130 + }, + { + "epoch": 0.493664, + "grad_norm": 0.4952404797077179, + "learning_rate": 1.6708906666666668e-05, + "loss": 0.0211, + "step": 77135 + }, + { + "epoch": 0.493696, + "grad_norm": 1.9171831607818604, + "learning_rate": 1.6708693333333335e-05, + "loss": 0.051, + "step": 77140 + }, + { + "epoch": 0.493728, + "grad_norm": 0.5608841776847839, + "learning_rate": 1.6708480000000003e-05, + "loss": 0.0185, + "step": 77145 + }, + { + "epoch": 0.49376, + "grad_norm": 0.7233829498291016, + "learning_rate": 1.6708266666666667e-05, + "loss": 0.0253, + "step": 77150 + }, + { + "epoch": 0.493792, + "grad_norm": 1.0996270179748535, + "learning_rate": 1.6708053333333335e-05, + "loss": 0.0245, + "step": 77155 + }, + { + "epoch": 0.493824, + "grad_norm": 0.18037302792072296, + "learning_rate": 1.6707840000000002e-05, + "loss": 0.0155, + "step": 77160 + }, + { + "epoch": 0.493856, + "grad_norm": 0.8641323447227478, + "learning_rate": 1.6707626666666666e-05, + "loss": 0.0366, + "step": 77165 + }, + { + "epoch": 0.493888, + "grad_norm": 1.2225505113601685, + "learning_rate": 1.6707413333333334e-05, + "loss": 0.0356, + "step": 77170 + }, + { + "epoch": 0.49392, + "grad_norm": 0.3457210958003998, + "learning_rate": 1.67072e-05, + "loss": 0.0087, + "step": 77175 + }, + { + "epoch": 0.493952, + "grad_norm": 0.06981301307678223, + "learning_rate": 1.670698666666667e-05, + "loss": 0.0365, + "step": 77180 + }, + { + "epoch": 0.493984, + "grad_norm": 0.6097964644432068, + "learning_rate": 1.6706773333333333e-05, + "loss": 0.0156, + "step": 77185 + }, + { + "epoch": 0.494016, + "grad_norm": 0.04631076753139496, + "learning_rate": 1.670656e-05, + "loss": 0.0107, + "step": 77190 + }, + { + "epoch": 0.494048, + "grad_norm": 0.8635770082473755, + "learning_rate": 1.670634666666667e-05, + "loss": 0.0203, + "step": 77195 + }, + { + "epoch": 0.49408, + "grad_norm": 0.22011016309261322, + "learning_rate": 1.6706133333333333e-05, + "loss": 0.0276, + "step": 77200 + }, + { + "epoch": 0.494112, + "grad_norm": 1.0336841344833374, + "learning_rate": 1.6705920000000004e-05, + "loss": 0.0162, + "step": 77205 + }, + { + "epoch": 0.494144, + "grad_norm": 0.6155049204826355, + "learning_rate": 1.6705706666666668e-05, + "loss": 0.0256, + "step": 77210 + }, + { + "epoch": 0.494176, + "grad_norm": 0.37216120958328247, + "learning_rate": 1.6705493333333335e-05, + "loss": 0.0228, + "step": 77215 + }, + { + "epoch": 0.494208, + "grad_norm": 0.20213276147842407, + "learning_rate": 1.6705280000000003e-05, + "loss": 0.0124, + "step": 77220 + }, + { + "epoch": 0.49424, + "grad_norm": 0.2808588445186615, + "learning_rate": 1.6705066666666667e-05, + "loss": 0.0357, + "step": 77225 + }, + { + "epoch": 0.494272, + "grad_norm": 0.46941104531288147, + "learning_rate": 1.6704853333333335e-05, + "loss": 0.0148, + "step": 77230 + }, + { + "epoch": 0.494304, + "grad_norm": 0.7254295349121094, + "learning_rate": 1.6704640000000002e-05, + "loss": 0.0152, + "step": 77235 + }, + { + "epoch": 0.494336, + "grad_norm": 0.580940842628479, + "learning_rate": 1.670442666666667e-05, + "loss": 0.0161, + "step": 77240 + }, + { + "epoch": 0.494368, + "grad_norm": 1.0183700323104858, + "learning_rate": 1.6704213333333334e-05, + "loss": 0.027, + "step": 77245 + }, + { + "epoch": 0.4944, + "grad_norm": 0.6784721612930298, + "learning_rate": 1.6704e-05, + "loss": 0.036, + "step": 77250 + }, + { + "epoch": 0.494432, + "grad_norm": 0.8928329348564148, + "learning_rate": 1.670378666666667e-05, + "loss": 0.035, + "step": 77255 + }, + { + "epoch": 0.494464, + "grad_norm": 0.9421977400779724, + "learning_rate": 1.6703573333333333e-05, + "loss": 0.0371, + "step": 77260 + }, + { + "epoch": 0.494496, + "grad_norm": 0.15181750059127808, + "learning_rate": 1.670336e-05, + "loss": 0.0153, + "step": 77265 + }, + { + "epoch": 0.494528, + "grad_norm": 0.6013085246086121, + "learning_rate": 1.6703146666666668e-05, + "loss": 0.0239, + "step": 77270 + }, + { + "epoch": 0.49456, + "grad_norm": 0.5734403133392334, + "learning_rate": 1.6702933333333336e-05, + "loss": 0.0195, + "step": 77275 + }, + { + "epoch": 0.494592, + "grad_norm": 0.8336259722709656, + "learning_rate": 1.670272e-05, + "loss": 0.0128, + "step": 77280 + }, + { + "epoch": 0.494624, + "grad_norm": 0.749878466129303, + "learning_rate": 1.6702506666666667e-05, + "loss": 0.03, + "step": 77285 + }, + { + "epoch": 0.494656, + "grad_norm": 0.5273932218551636, + "learning_rate": 1.6702293333333335e-05, + "loss": 0.0243, + "step": 77290 + }, + { + "epoch": 0.494688, + "grad_norm": 0.21617643535137177, + "learning_rate": 1.670208e-05, + "loss": 0.0135, + "step": 77295 + }, + { + "epoch": 0.49472, + "grad_norm": 0.8148977160453796, + "learning_rate": 1.670186666666667e-05, + "loss": 0.0202, + "step": 77300 + }, + { + "epoch": 0.494752, + "grad_norm": 0.9284682273864746, + "learning_rate": 1.6701653333333334e-05, + "loss": 0.0292, + "step": 77305 + }, + { + "epoch": 0.494784, + "grad_norm": 0.7896552681922913, + "learning_rate": 1.6701440000000002e-05, + "loss": 0.0166, + "step": 77310 + }, + { + "epoch": 0.494816, + "grad_norm": 0.5388468503952026, + "learning_rate": 1.670122666666667e-05, + "loss": 0.019, + "step": 77315 + }, + { + "epoch": 0.494848, + "grad_norm": 0.5107669830322266, + "learning_rate": 1.6701013333333337e-05, + "loss": 0.0178, + "step": 77320 + }, + { + "epoch": 0.49488, + "grad_norm": 0.1754666119813919, + "learning_rate": 1.67008e-05, + "loss": 0.0186, + "step": 77325 + }, + { + "epoch": 0.494912, + "grad_norm": 0.5208381414413452, + "learning_rate": 1.670058666666667e-05, + "loss": 0.0174, + "step": 77330 + }, + { + "epoch": 0.494944, + "grad_norm": 0.0839567705988884, + "learning_rate": 1.6700373333333336e-05, + "loss": 0.0188, + "step": 77335 + }, + { + "epoch": 0.494976, + "grad_norm": 0.8882870078086853, + "learning_rate": 1.670016e-05, + "loss": 0.0159, + "step": 77340 + }, + { + "epoch": 0.495008, + "grad_norm": 0.318664014339447, + "learning_rate": 1.6699946666666668e-05, + "loss": 0.0222, + "step": 77345 + }, + { + "epoch": 0.49504, + "grad_norm": 0.11656917631626129, + "learning_rate": 1.6699733333333335e-05, + "loss": 0.0132, + "step": 77350 + }, + { + "epoch": 0.495072, + "grad_norm": 0.36100679636001587, + "learning_rate": 1.6699520000000003e-05, + "loss": 0.033, + "step": 77355 + }, + { + "epoch": 0.495104, + "grad_norm": 0.21388782560825348, + "learning_rate": 1.6699306666666667e-05, + "loss": 0.0197, + "step": 77360 + }, + { + "epoch": 0.495136, + "grad_norm": 0.9601380228996277, + "learning_rate": 1.6699093333333335e-05, + "loss": 0.0367, + "step": 77365 + }, + { + "epoch": 0.495168, + "grad_norm": 0.23297744989395142, + "learning_rate": 1.6698880000000002e-05, + "loss": 0.0116, + "step": 77370 + }, + { + "epoch": 0.4952, + "grad_norm": 1.101167917251587, + "learning_rate": 1.6698666666666666e-05, + "loss": 0.0208, + "step": 77375 + }, + { + "epoch": 0.495232, + "grad_norm": 1.170739769935608, + "learning_rate": 1.6698453333333334e-05, + "loss": 0.0287, + "step": 77380 + }, + { + "epoch": 0.495264, + "grad_norm": 0.17339512705802917, + "learning_rate": 1.669824e-05, + "loss": 0.0283, + "step": 77385 + }, + { + "epoch": 0.495296, + "grad_norm": 0.9105035066604614, + "learning_rate": 1.669802666666667e-05, + "loss": 0.0215, + "step": 77390 + }, + { + "epoch": 0.495328, + "grad_norm": 0.9997818470001221, + "learning_rate": 1.6697813333333333e-05, + "loss": 0.0293, + "step": 77395 + }, + { + "epoch": 0.49536, + "grad_norm": 0.24513812363147736, + "learning_rate": 1.66976e-05, + "loss": 0.0076, + "step": 77400 + }, + { + "epoch": 0.495392, + "grad_norm": 0.3681880533695221, + "learning_rate": 1.669738666666667e-05, + "loss": 0.0168, + "step": 77405 + }, + { + "epoch": 0.495424, + "grad_norm": 0.1753232479095459, + "learning_rate": 1.6697173333333333e-05, + "loss": 0.0121, + "step": 77410 + }, + { + "epoch": 0.495456, + "grad_norm": 0.14101307094097137, + "learning_rate": 1.6696960000000004e-05, + "loss": 0.007, + "step": 77415 + }, + { + "epoch": 0.495488, + "grad_norm": 0.4782238006591797, + "learning_rate": 1.6696746666666668e-05, + "loss": 0.0165, + "step": 77420 + }, + { + "epoch": 0.49552, + "grad_norm": 2.2285237312316895, + "learning_rate": 1.6696533333333335e-05, + "loss": 0.0257, + "step": 77425 + }, + { + "epoch": 0.495552, + "grad_norm": 0.12756100296974182, + "learning_rate": 1.6696320000000003e-05, + "loss": 0.0126, + "step": 77430 + }, + { + "epoch": 0.495584, + "grad_norm": 0.4627220928668976, + "learning_rate": 1.6696106666666667e-05, + "loss": 0.0095, + "step": 77435 + }, + { + "epoch": 0.495616, + "grad_norm": 0.7248273491859436, + "learning_rate": 1.6695893333333335e-05, + "loss": 0.0153, + "step": 77440 + }, + { + "epoch": 0.495648, + "grad_norm": 0.4412172734737396, + "learning_rate": 1.6695680000000002e-05, + "loss": 0.0549, + "step": 77445 + }, + { + "epoch": 0.49568, + "grad_norm": 1.0912209749221802, + "learning_rate": 1.669546666666667e-05, + "loss": 0.0262, + "step": 77450 + }, + { + "epoch": 0.495712, + "grad_norm": 1.709176778793335, + "learning_rate": 1.6695253333333334e-05, + "loss": 0.0233, + "step": 77455 + }, + { + "epoch": 0.495744, + "grad_norm": 0.6908925175666809, + "learning_rate": 1.669504e-05, + "loss": 0.0176, + "step": 77460 + }, + { + "epoch": 0.495776, + "grad_norm": 0.7142559885978699, + "learning_rate": 1.669482666666667e-05, + "loss": 0.0195, + "step": 77465 + }, + { + "epoch": 0.495808, + "grad_norm": 0.40132683515548706, + "learning_rate": 1.6694613333333333e-05, + "loss": 0.0116, + "step": 77470 + }, + { + "epoch": 0.49584, + "grad_norm": 0.2634521722793579, + "learning_rate": 1.66944e-05, + "loss": 0.0122, + "step": 77475 + }, + { + "epoch": 0.495872, + "grad_norm": 0.620384156703949, + "learning_rate": 1.6694186666666668e-05, + "loss": 0.0241, + "step": 77480 + }, + { + "epoch": 0.495904, + "grad_norm": 0.7204738259315491, + "learning_rate": 1.6693973333333336e-05, + "loss": 0.0154, + "step": 77485 + }, + { + "epoch": 0.495936, + "grad_norm": 0.17417526245117188, + "learning_rate": 1.669376e-05, + "loss": 0.017, + "step": 77490 + }, + { + "epoch": 0.495968, + "grad_norm": 0.7603974342346191, + "learning_rate": 1.6693546666666667e-05, + "loss": 0.0075, + "step": 77495 + }, + { + "epoch": 0.496, + "grad_norm": 0.7238137722015381, + "learning_rate": 1.6693333333333335e-05, + "loss": 0.0355, + "step": 77500 + }, + { + "epoch": 0.496032, + "grad_norm": 0.873289167881012, + "learning_rate": 1.669312e-05, + "loss": 0.013, + "step": 77505 + }, + { + "epoch": 0.496064, + "grad_norm": 0.5185737609863281, + "learning_rate": 1.6692906666666667e-05, + "loss": 0.0283, + "step": 77510 + }, + { + "epoch": 0.496096, + "grad_norm": 1.7215646505355835, + "learning_rate": 1.6692693333333334e-05, + "loss": 0.0376, + "step": 77515 + }, + { + "epoch": 0.496128, + "grad_norm": 0.2976851463317871, + "learning_rate": 1.6692480000000002e-05, + "loss": 0.0256, + "step": 77520 + }, + { + "epoch": 0.49616, + "grad_norm": 0.4202539324760437, + "learning_rate": 1.669226666666667e-05, + "loss": 0.0196, + "step": 77525 + }, + { + "epoch": 0.496192, + "grad_norm": 0.41239017248153687, + "learning_rate": 1.6692053333333337e-05, + "loss": 0.0163, + "step": 77530 + }, + { + "epoch": 0.496224, + "grad_norm": 0.43362680077552795, + "learning_rate": 1.669184e-05, + "loss": 0.0267, + "step": 77535 + }, + { + "epoch": 0.496256, + "grad_norm": 0.33853551745414734, + "learning_rate": 1.669162666666667e-05, + "loss": 0.0205, + "step": 77540 + }, + { + "epoch": 0.496288, + "grad_norm": 0.6820886731147766, + "learning_rate": 1.6691413333333336e-05, + "loss": 0.0341, + "step": 77545 + }, + { + "epoch": 0.49632, + "grad_norm": 1.1682262420654297, + "learning_rate": 1.66912e-05, + "loss": 0.0189, + "step": 77550 + }, + { + "epoch": 0.496352, + "grad_norm": 0.6621466279029846, + "learning_rate": 1.6690986666666668e-05, + "loss": 0.0372, + "step": 77555 + }, + { + "epoch": 0.496384, + "grad_norm": 1.3933683633804321, + "learning_rate": 1.6690773333333335e-05, + "loss": 0.0374, + "step": 77560 + }, + { + "epoch": 0.496416, + "grad_norm": 0.3733002245426178, + "learning_rate": 1.6690560000000003e-05, + "loss": 0.0267, + "step": 77565 + }, + { + "epoch": 0.496448, + "grad_norm": 0.269760400056839, + "learning_rate": 1.6690346666666667e-05, + "loss": 0.0161, + "step": 77570 + }, + { + "epoch": 0.49648, + "grad_norm": 0.6078975796699524, + "learning_rate": 1.6690133333333335e-05, + "loss": 0.0117, + "step": 77575 + }, + { + "epoch": 0.496512, + "grad_norm": 0.3967735171318054, + "learning_rate": 1.6689920000000002e-05, + "loss": 0.0293, + "step": 77580 + }, + { + "epoch": 0.496544, + "grad_norm": 0.9200606942176819, + "learning_rate": 1.6689706666666666e-05, + "loss": 0.0137, + "step": 77585 + }, + { + "epoch": 0.496576, + "grad_norm": 0.34210404753685, + "learning_rate": 1.6689493333333334e-05, + "loss": 0.0102, + "step": 77590 + }, + { + "epoch": 0.496608, + "grad_norm": 0.5899632573127747, + "learning_rate": 1.668928e-05, + "loss": 0.0346, + "step": 77595 + }, + { + "epoch": 0.49664, + "grad_norm": 1.0439934730529785, + "learning_rate": 1.668906666666667e-05, + "loss": 0.037, + "step": 77600 + }, + { + "epoch": 0.496672, + "grad_norm": 0.7113917469978333, + "learning_rate": 1.6688853333333333e-05, + "loss": 0.0612, + "step": 77605 + }, + { + "epoch": 0.496704, + "grad_norm": 0.4459376633167267, + "learning_rate": 1.668864e-05, + "loss": 0.0297, + "step": 77610 + }, + { + "epoch": 0.496736, + "grad_norm": 0.4170497953891754, + "learning_rate": 1.668842666666667e-05, + "loss": 0.0125, + "step": 77615 + }, + { + "epoch": 0.496768, + "grad_norm": 1.2040103673934937, + "learning_rate": 1.6688213333333333e-05, + "loss": 0.0322, + "step": 77620 + }, + { + "epoch": 0.4968, + "grad_norm": 1.272570252418518, + "learning_rate": 1.6688000000000004e-05, + "loss": 0.0297, + "step": 77625 + }, + { + "epoch": 0.496832, + "grad_norm": 1.0769509077072144, + "learning_rate": 1.6687786666666668e-05, + "loss": 0.0437, + "step": 77630 + }, + { + "epoch": 0.496864, + "grad_norm": 0.8218051791191101, + "learning_rate": 1.6687573333333335e-05, + "loss": 0.011, + "step": 77635 + }, + { + "epoch": 0.496896, + "grad_norm": 1.5060268640518188, + "learning_rate": 1.6687360000000003e-05, + "loss": 0.0243, + "step": 77640 + }, + { + "epoch": 0.496928, + "grad_norm": 0.15088094770908356, + "learning_rate": 1.6687146666666667e-05, + "loss": 0.0253, + "step": 77645 + }, + { + "epoch": 0.49696, + "grad_norm": 0.5791879296302795, + "learning_rate": 1.6686933333333335e-05, + "loss": 0.0295, + "step": 77650 + }, + { + "epoch": 0.496992, + "grad_norm": 0.43963706493377686, + "learning_rate": 1.6686720000000002e-05, + "loss": 0.0277, + "step": 77655 + }, + { + "epoch": 0.497024, + "grad_norm": 0.186210036277771, + "learning_rate": 1.668650666666667e-05, + "loss": 0.0118, + "step": 77660 + }, + { + "epoch": 0.497056, + "grad_norm": 1.057163119316101, + "learning_rate": 1.6686293333333334e-05, + "loss": 0.0256, + "step": 77665 + }, + { + "epoch": 0.497088, + "grad_norm": 1.7068936824798584, + "learning_rate": 1.668608e-05, + "loss": 0.0192, + "step": 77670 + }, + { + "epoch": 0.49712, + "grad_norm": 0.7873101234436035, + "learning_rate": 1.668586666666667e-05, + "loss": 0.0301, + "step": 77675 + }, + { + "epoch": 0.497152, + "grad_norm": 1.7646188735961914, + "learning_rate": 1.6685653333333333e-05, + "loss": 0.0213, + "step": 77680 + }, + { + "epoch": 0.497184, + "grad_norm": 0.21939265727996826, + "learning_rate": 1.668544e-05, + "loss": 0.0145, + "step": 77685 + }, + { + "epoch": 0.497216, + "grad_norm": 0.6134970784187317, + "learning_rate": 1.6685226666666668e-05, + "loss": 0.0168, + "step": 77690 + }, + { + "epoch": 0.497248, + "grad_norm": 0.16056449711322784, + "learning_rate": 1.6685013333333336e-05, + "loss": 0.0078, + "step": 77695 + }, + { + "epoch": 0.49728, + "grad_norm": 0.10031342506408691, + "learning_rate": 1.66848e-05, + "loss": 0.022, + "step": 77700 + }, + { + "epoch": 0.497312, + "grad_norm": 1.5362495183944702, + "learning_rate": 1.6684586666666667e-05, + "loss": 0.018, + "step": 77705 + }, + { + "epoch": 0.497344, + "grad_norm": 0.4715186655521393, + "learning_rate": 1.6684373333333335e-05, + "loss": 0.027, + "step": 77710 + }, + { + "epoch": 0.497376, + "grad_norm": 0.1546117067337036, + "learning_rate": 1.668416e-05, + "loss": 0.0529, + "step": 77715 + }, + { + "epoch": 0.497408, + "grad_norm": 0.802710771560669, + "learning_rate": 1.6683946666666667e-05, + "loss": 0.0391, + "step": 77720 + }, + { + "epoch": 0.49744, + "grad_norm": 0.4595477283000946, + "learning_rate": 1.6683733333333334e-05, + "loss": 0.0255, + "step": 77725 + }, + { + "epoch": 0.497472, + "grad_norm": 0.3805454969406128, + "learning_rate": 1.6683520000000002e-05, + "loss": 0.0264, + "step": 77730 + }, + { + "epoch": 0.497504, + "grad_norm": 0.4738338589668274, + "learning_rate": 1.6683306666666666e-05, + "loss": 0.0261, + "step": 77735 + }, + { + "epoch": 0.497536, + "grad_norm": 1.0044822692871094, + "learning_rate": 1.6683093333333337e-05, + "loss": 0.0186, + "step": 77740 + }, + { + "epoch": 0.497568, + "grad_norm": 1.8975915908813477, + "learning_rate": 1.668288e-05, + "loss": 0.0546, + "step": 77745 + }, + { + "epoch": 0.4976, + "grad_norm": 0.3728322982788086, + "learning_rate": 1.668266666666667e-05, + "loss": 0.011, + "step": 77750 + }, + { + "epoch": 0.497632, + "grad_norm": 1.1056917905807495, + "learning_rate": 1.6682453333333336e-05, + "loss": 0.0278, + "step": 77755 + }, + { + "epoch": 0.497664, + "grad_norm": 0.19357360899448395, + "learning_rate": 1.668224e-05, + "loss": 0.0152, + "step": 77760 + }, + { + "epoch": 0.497696, + "grad_norm": 0.7471850514411926, + "learning_rate": 1.6682026666666668e-05, + "loss": 0.0218, + "step": 77765 + }, + { + "epoch": 0.497728, + "grad_norm": 2.293627977371216, + "learning_rate": 1.6681813333333335e-05, + "loss": 0.0303, + "step": 77770 + }, + { + "epoch": 0.49776, + "grad_norm": 0.9308624267578125, + "learning_rate": 1.6681600000000003e-05, + "loss": 0.0188, + "step": 77775 + }, + { + "epoch": 0.497792, + "grad_norm": 0.2851567268371582, + "learning_rate": 1.6681386666666667e-05, + "loss": 0.0122, + "step": 77780 + }, + { + "epoch": 0.497824, + "grad_norm": 0.5131849646568298, + "learning_rate": 1.6681173333333335e-05, + "loss": 0.036, + "step": 77785 + }, + { + "epoch": 0.497856, + "grad_norm": 0.940773069858551, + "learning_rate": 1.6680960000000002e-05, + "loss": 0.0236, + "step": 77790 + }, + { + "epoch": 0.497888, + "grad_norm": 0.778481125831604, + "learning_rate": 1.6680746666666666e-05, + "loss": 0.0214, + "step": 77795 + }, + { + "epoch": 0.49792, + "grad_norm": 0.2826269865036011, + "learning_rate": 1.6680533333333334e-05, + "loss": 0.0339, + "step": 77800 + }, + { + "epoch": 0.497952, + "grad_norm": 0.4046446979045868, + "learning_rate": 1.668032e-05, + "loss": 0.053, + "step": 77805 + }, + { + "epoch": 0.497984, + "grad_norm": 0.3730020225048065, + "learning_rate": 1.668010666666667e-05, + "loss": 0.0181, + "step": 77810 + }, + { + "epoch": 0.498016, + "grad_norm": 0.06438164412975311, + "learning_rate": 1.6679893333333333e-05, + "loss": 0.02, + "step": 77815 + }, + { + "epoch": 0.498048, + "grad_norm": 0.8545310497283936, + "learning_rate": 1.667968e-05, + "loss": 0.022, + "step": 77820 + }, + { + "epoch": 0.49808, + "grad_norm": 1.2967978715896606, + "learning_rate": 1.667946666666667e-05, + "loss": 0.0403, + "step": 77825 + }, + { + "epoch": 0.498112, + "grad_norm": 1.6375168561935425, + "learning_rate": 1.6679253333333333e-05, + "loss": 0.0225, + "step": 77830 + }, + { + "epoch": 0.498144, + "grad_norm": 0.28574302792549133, + "learning_rate": 1.6679040000000004e-05, + "loss": 0.0183, + "step": 77835 + }, + { + "epoch": 0.498176, + "grad_norm": 0.6941280961036682, + "learning_rate": 1.6678826666666668e-05, + "loss": 0.0197, + "step": 77840 + }, + { + "epoch": 0.498208, + "grad_norm": 0.09762568026781082, + "learning_rate": 1.6678613333333335e-05, + "loss": 0.0143, + "step": 77845 + }, + { + "epoch": 0.49824, + "grad_norm": 0.22468607127666473, + "learning_rate": 1.6678400000000003e-05, + "loss": 0.0279, + "step": 77850 + }, + { + "epoch": 0.498272, + "grad_norm": 0.7268420457839966, + "learning_rate": 1.6678186666666667e-05, + "loss": 0.0094, + "step": 77855 + }, + { + "epoch": 0.498304, + "grad_norm": 1.037429690361023, + "learning_rate": 1.6677973333333335e-05, + "loss": 0.0351, + "step": 77860 + }, + { + "epoch": 0.498336, + "grad_norm": 1.0429165363311768, + "learning_rate": 1.6677760000000002e-05, + "loss": 0.0146, + "step": 77865 + }, + { + "epoch": 0.498368, + "grad_norm": 1.2876328229904175, + "learning_rate": 1.667754666666667e-05, + "loss": 0.0174, + "step": 77870 + }, + { + "epoch": 0.4984, + "grad_norm": 1.1596386432647705, + "learning_rate": 1.6677333333333334e-05, + "loss": 0.0291, + "step": 77875 + }, + { + "epoch": 0.498432, + "grad_norm": 0.09785256534814835, + "learning_rate": 1.667712e-05, + "loss": 0.0089, + "step": 77880 + }, + { + "epoch": 0.498464, + "grad_norm": 1.0018045902252197, + "learning_rate": 1.667690666666667e-05, + "loss": 0.029, + "step": 77885 + }, + { + "epoch": 0.498496, + "grad_norm": 0.31837785243988037, + "learning_rate": 1.6676693333333333e-05, + "loss": 0.0239, + "step": 77890 + }, + { + "epoch": 0.498528, + "grad_norm": 1.4782044887542725, + "learning_rate": 1.667648e-05, + "loss": 0.0326, + "step": 77895 + }, + { + "epoch": 0.49856, + "grad_norm": 0.43981075286865234, + "learning_rate": 1.6676266666666668e-05, + "loss": 0.0184, + "step": 77900 + }, + { + "epoch": 0.498592, + "grad_norm": 0.840377151966095, + "learning_rate": 1.6676053333333336e-05, + "loss": 0.0212, + "step": 77905 + }, + { + "epoch": 0.498624, + "grad_norm": 0.6738287210464478, + "learning_rate": 1.667584e-05, + "loss": 0.0352, + "step": 77910 + }, + { + "epoch": 0.498656, + "grad_norm": 1.6186678409576416, + "learning_rate": 1.6675626666666667e-05, + "loss": 0.0321, + "step": 77915 + }, + { + "epoch": 0.498688, + "grad_norm": 1.0103262662887573, + "learning_rate": 1.6675413333333335e-05, + "loss": 0.0189, + "step": 77920 + }, + { + "epoch": 0.49872, + "grad_norm": 0.5651019215583801, + "learning_rate": 1.66752e-05, + "loss": 0.0165, + "step": 77925 + }, + { + "epoch": 0.498752, + "grad_norm": 0.45301759243011475, + "learning_rate": 1.6674986666666667e-05, + "loss": 0.0136, + "step": 77930 + }, + { + "epoch": 0.498784, + "grad_norm": 0.03746727108955383, + "learning_rate": 1.6674773333333334e-05, + "loss": 0.0154, + "step": 77935 + }, + { + "epoch": 0.498816, + "grad_norm": 0.2892358601093292, + "learning_rate": 1.6674560000000002e-05, + "loss": 0.0165, + "step": 77940 + }, + { + "epoch": 0.498848, + "grad_norm": 0.4248676300048828, + "learning_rate": 1.6674346666666666e-05, + "loss": 0.0352, + "step": 77945 + }, + { + "epoch": 0.49888, + "grad_norm": 0.15116454660892487, + "learning_rate": 1.6674133333333337e-05, + "loss": 0.0181, + "step": 77950 + }, + { + "epoch": 0.498912, + "grad_norm": 1.3292969465255737, + "learning_rate": 1.667392e-05, + "loss": 0.0256, + "step": 77955 + }, + { + "epoch": 0.498944, + "grad_norm": 0.8960669636726379, + "learning_rate": 1.6673706666666665e-05, + "loss": 0.0238, + "step": 77960 + }, + { + "epoch": 0.498976, + "grad_norm": 0.5664541721343994, + "learning_rate": 1.6673493333333336e-05, + "loss": 0.0304, + "step": 77965 + }, + { + "epoch": 0.499008, + "grad_norm": 0.14502446353435516, + "learning_rate": 1.667328e-05, + "loss": 0.014, + "step": 77970 + }, + { + "epoch": 0.49904, + "grad_norm": 0.8882905840873718, + "learning_rate": 1.6673066666666668e-05, + "loss": 0.0318, + "step": 77975 + }, + { + "epoch": 0.499072, + "grad_norm": 0.14603790640830994, + "learning_rate": 1.6672853333333336e-05, + "loss": 0.0192, + "step": 77980 + }, + { + "epoch": 0.499104, + "grad_norm": 0.40395310521125793, + "learning_rate": 1.6672640000000003e-05, + "loss": 0.0201, + "step": 77985 + }, + { + "epoch": 0.499136, + "grad_norm": 0.18454229831695557, + "learning_rate": 1.6672426666666667e-05, + "loss": 0.0281, + "step": 77990 + }, + { + "epoch": 0.499168, + "grad_norm": 1.0242863893508911, + "learning_rate": 1.6672213333333335e-05, + "loss": 0.018, + "step": 77995 + }, + { + "epoch": 0.4992, + "grad_norm": 0.10470132529735565, + "learning_rate": 1.6672000000000002e-05, + "loss": 0.0306, + "step": 78000 + }, + { + "epoch": 0.499232, + "grad_norm": 0.4237765669822693, + "learning_rate": 1.6671786666666666e-05, + "loss": 0.0213, + "step": 78005 + }, + { + "epoch": 0.499264, + "grad_norm": 0.8325201869010925, + "learning_rate": 1.6671573333333334e-05, + "loss": 0.0206, + "step": 78010 + }, + { + "epoch": 0.499296, + "grad_norm": 0.2413366138935089, + "learning_rate": 1.667136e-05, + "loss": 0.0137, + "step": 78015 + }, + { + "epoch": 0.499328, + "grad_norm": 0.5067371726036072, + "learning_rate": 1.667114666666667e-05, + "loss": 0.0118, + "step": 78020 + }, + { + "epoch": 0.49936, + "grad_norm": 0.578465461730957, + "learning_rate": 1.6670933333333333e-05, + "loss": 0.0276, + "step": 78025 + }, + { + "epoch": 0.499392, + "grad_norm": 0.5127304196357727, + "learning_rate": 1.667072e-05, + "loss": 0.0111, + "step": 78030 + }, + { + "epoch": 0.499424, + "grad_norm": 0.3356107771396637, + "learning_rate": 1.667050666666667e-05, + "loss": 0.0219, + "step": 78035 + }, + { + "epoch": 0.499456, + "grad_norm": 0.7616823315620422, + "learning_rate": 1.6670293333333333e-05, + "loss": 0.0206, + "step": 78040 + }, + { + "epoch": 0.499488, + "grad_norm": 0.5531771183013916, + "learning_rate": 1.667008e-05, + "loss": 0.0259, + "step": 78045 + }, + { + "epoch": 0.49952, + "grad_norm": 0.572129487991333, + "learning_rate": 1.6669866666666668e-05, + "loss": 0.0165, + "step": 78050 + }, + { + "epoch": 0.499552, + "grad_norm": 0.8045870661735535, + "learning_rate": 1.6669653333333335e-05, + "loss": 0.0246, + "step": 78055 + }, + { + "epoch": 0.499584, + "grad_norm": 0.5683281421661377, + "learning_rate": 1.6669440000000003e-05, + "loss": 0.0157, + "step": 78060 + }, + { + "epoch": 0.499616, + "grad_norm": 0.18333660066127777, + "learning_rate": 1.666922666666667e-05, + "loss": 0.0138, + "step": 78065 + }, + { + "epoch": 0.499648, + "grad_norm": 0.8184700012207031, + "learning_rate": 1.6669013333333335e-05, + "loss": 0.0279, + "step": 78070 + }, + { + "epoch": 0.49968, + "grad_norm": 0.7108113765716553, + "learning_rate": 1.6668800000000002e-05, + "loss": 0.0187, + "step": 78075 + }, + { + "epoch": 0.499712, + "grad_norm": 0.9560506939888, + "learning_rate": 1.666858666666667e-05, + "loss": 0.0427, + "step": 78080 + }, + { + "epoch": 0.499744, + "grad_norm": 0.60100257396698, + "learning_rate": 1.6668373333333334e-05, + "loss": 0.0297, + "step": 78085 + }, + { + "epoch": 0.499776, + "grad_norm": 0.6388323903083801, + "learning_rate": 1.666816e-05, + "loss": 0.0237, + "step": 78090 + }, + { + "epoch": 0.499808, + "grad_norm": 0.9187828898429871, + "learning_rate": 1.666794666666667e-05, + "loss": 0.0651, + "step": 78095 + }, + { + "epoch": 0.49984, + "grad_norm": 0.4035206735134125, + "learning_rate": 1.6667733333333336e-05, + "loss": 0.006, + "step": 78100 + }, + { + "epoch": 0.499872, + "grad_norm": 0.3639940917491913, + "learning_rate": 1.666752e-05, + "loss": 0.0119, + "step": 78105 + }, + { + "epoch": 0.499904, + "grad_norm": 0.07258046418428421, + "learning_rate": 1.6667306666666668e-05, + "loss": 0.0135, + "step": 78110 + }, + { + "epoch": 0.499936, + "grad_norm": 0.7254455089569092, + "learning_rate": 1.6667093333333336e-05, + "loss": 0.0105, + "step": 78115 + }, + { + "epoch": 0.499968, + "grad_norm": 1.1194878816604614, + "learning_rate": 1.666688e-05, + "loss": 0.0294, + "step": 78120 + }, + { + "epoch": 0.5, + "grad_norm": 0.7875836491584778, + "learning_rate": 1.6666666666666667e-05, + "loss": 0.0333, + "step": 78125 + }, + { + "epoch": 0.500032, + "grad_norm": 0.3380454182624817, + "learning_rate": 1.6666453333333335e-05, + "loss": 0.0166, + "step": 78130 + }, + { + "epoch": 0.500064, + "grad_norm": 0.33318495750427246, + "learning_rate": 1.6666240000000003e-05, + "loss": 0.0216, + "step": 78135 + }, + { + "epoch": 0.500096, + "grad_norm": 1.2585395574569702, + "learning_rate": 1.6666026666666667e-05, + "loss": 0.035, + "step": 78140 + }, + { + "epoch": 0.500128, + "grad_norm": 0.22715915739536285, + "learning_rate": 1.6665813333333334e-05, + "loss": 0.014, + "step": 78145 + }, + { + "epoch": 0.50016, + "grad_norm": 1.718653678894043, + "learning_rate": 1.6665600000000002e-05, + "loss": 0.0256, + "step": 78150 + }, + { + "epoch": 0.500192, + "grad_norm": 0.6627565622329712, + "learning_rate": 1.6665386666666666e-05, + "loss": 0.0256, + "step": 78155 + }, + { + "epoch": 0.500224, + "grad_norm": 0.3550518751144409, + "learning_rate": 1.6665173333333337e-05, + "loss": 0.0075, + "step": 78160 + }, + { + "epoch": 0.500256, + "grad_norm": 0.6947017908096313, + "learning_rate": 1.666496e-05, + "loss": 0.0098, + "step": 78165 + }, + { + "epoch": 0.500288, + "grad_norm": 1.3029125928878784, + "learning_rate": 1.666474666666667e-05, + "loss": 0.0398, + "step": 78170 + }, + { + "epoch": 0.50032, + "grad_norm": 0.6689621806144714, + "learning_rate": 1.6664533333333336e-05, + "loss": 0.0233, + "step": 78175 + }, + { + "epoch": 0.500352, + "grad_norm": 0.23042480647563934, + "learning_rate": 1.666432e-05, + "loss": 0.0118, + "step": 78180 + }, + { + "epoch": 0.500384, + "grad_norm": 1.0491795539855957, + "learning_rate": 1.6664106666666668e-05, + "loss": 0.0249, + "step": 78185 + }, + { + "epoch": 0.500416, + "grad_norm": 0.30951642990112305, + "learning_rate": 1.6663893333333336e-05, + "loss": 0.0407, + "step": 78190 + }, + { + "epoch": 0.500448, + "grad_norm": 0.41398078203201294, + "learning_rate": 1.6663680000000003e-05, + "loss": 0.0163, + "step": 78195 + }, + { + "epoch": 0.50048, + "grad_norm": 0.6057520508766174, + "learning_rate": 1.6663466666666667e-05, + "loss": 0.0311, + "step": 78200 + }, + { + "epoch": 0.500512, + "grad_norm": 1.3530040979385376, + "learning_rate": 1.6663253333333335e-05, + "loss": 0.0198, + "step": 78205 + }, + { + "epoch": 0.500544, + "grad_norm": 1.0892491340637207, + "learning_rate": 1.6663040000000002e-05, + "loss": 0.0198, + "step": 78210 + }, + { + "epoch": 0.500576, + "grad_norm": 0.2872994840145111, + "learning_rate": 1.6662826666666666e-05, + "loss": 0.0195, + "step": 78215 + }, + { + "epoch": 0.500608, + "grad_norm": 0.6208222508430481, + "learning_rate": 1.6662613333333334e-05, + "loss": 0.0137, + "step": 78220 + }, + { + "epoch": 0.50064, + "grad_norm": 0.7204867601394653, + "learning_rate": 1.66624e-05, + "loss": 0.0357, + "step": 78225 + }, + { + "epoch": 0.500672, + "grad_norm": 0.6964977979660034, + "learning_rate": 1.666218666666667e-05, + "loss": 0.0241, + "step": 78230 + }, + { + "epoch": 0.500704, + "grad_norm": 0.24569693207740784, + "learning_rate": 1.6661973333333333e-05, + "loss": 0.0079, + "step": 78235 + }, + { + "epoch": 0.500736, + "grad_norm": 0.7996895909309387, + "learning_rate": 1.666176e-05, + "loss": 0.0189, + "step": 78240 + }, + { + "epoch": 0.500768, + "grad_norm": 1.0847796201705933, + "learning_rate": 1.666154666666667e-05, + "loss": 0.0406, + "step": 78245 + }, + { + "epoch": 0.5008, + "grad_norm": 1.5945088863372803, + "learning_rate": 1.6661333333333333e-05, + "loss": 0.026, + "step": 78250 + }, + { + "epoch": 0.500832, + "grad_norm": 0.527743935585022, + "learning_rate": 1.666112e-05, + "loss": 0.0315, + "step": 78255 + }, + { + "epoch": 0.500864, + "grad_norm": 0.9380517601966858, + "learning_rate": 1.6660906666666668e-05, + "loss": 0.0171, + "step": 78260 + }, + { + "epoch": 0.500896, + "grad_norm": 0.6734243035316467, + "learning_rate": 1.6660693333333335e-05, + "loss": 0.0254, + "step": 78265 + }, + { + "epoch": 0.500928, + "grad_norm": 0.6369979977607727, + "learning_rate": 1.666048e-05, + "loss": 0.0223, + "step": 78270 + }, + { + "epoch": 0.50096, + "grad_norm": 0.5347447991371155, + "learning_rate": 1.666026666666667e-05, + "loss": 0.0429, + "step": 78275 + }, + { + "epoch": 0.500992, + "grad_norm": 0.5147354006767273, + "learning_rate": 1.6660053333333335e-05, + "loss": 0.0523, + "step": 78280 + }, + { + "epoch": 0.501024, + "grad_norm": 0.27923253178596497, + "learning_rate": 1.6659840000000002e-05, + "loss": 0.006, + "step": 78285 + }, + { + "epoch": 0.501056, + "grad_norm": 0.1793387234210968, + "learning_rate": 1.665962666666667e-05, + "loss": 0.0131, + "step": 78290 + }, + { + "epoch": 0.501088, + "grad_norm": 0.47485706210136414, + "learning_rate": 1.6659413333333334e-05, + "loss": 0.0091, + "step": 78295 + }, + { + "epoch": 0.50112, + "grad_norm": 1.3696306943893433, + "learning_rate": 1.66592e-05, + "loss": 0.0154, + "step": 78300 + }, + { + "epoch": 0.501152, + "grad_norm": 0.4951489567756653, + "learning_rate": 1.665898666666667e-05, + "loss": 0.0161, + "step": 78305 + }, + { + "epoch": 0.501184, + "grad_norm": 0.6528487205505371, + "learning_rate": 1.6658773333333336e-05, + "loss": 0.0133, + "step": 78310 + }, + { + "epoch": 0.501216, + "grad_norm": 0.19663412868976593, + "learning_rate": 1.665856e-05, + "loss": 0.0141, + "step": 78315 + }, + { + "epoch": 0.501248, + "grad_norm": 0.19874683022499084, + "learning_rate": 1.6658346666666668e-05, + "loss": 0.0201, + "step": 78320 + }, + { + "epoch": 0.50128, + "grad_norm": 0.48617175221443176, + "learning_rate": 1.6658133333333336e-05, + "loss": 0.0154, + "step": 78325 + }, + { + "epoch": 0.501312, + "grad_norm": 0.1116546243429184, + "learning_rate": 1.665792e-05, + "loss": 0.0098, + "step": 78330 + }, + { + "epoch": 0.501344, + "grad_norm": 0.31029990315437317, + "learning_rate": 1.6657706666666667e-05, + "loss": 0.0188, + "step": 78335 + }, + { + "epoch": 0.501376, + "grad_norm": 0.40932610630989075, + "learning_rate": 1.6657493333333335e-05, + "loss": 0.0443, + "step": 78340 + }, + { + "epoch": 0.501408, + "grad_norm": 0.7203947305679321, + "learning_rate": 1.6657280000000003e-05, + "loss": 0.0253, + "step": 78345 + }, + { + "epoch": 0.50144, + "grad_norm": 0.7530684471130371, + "learning_rate": 1.6657066666666667e-05, + "loss": 0.0249, + "step": 78350 + }, + { + "epoch": 0.501472, + "grad_norm": 0.45538145303726196, + "learning_rate": 1.6656853333333334e-05, + "loss": 0.0198, + "step": 78355 + }, + { + "epoch": 0.501504, + "grad_norm": 0.455034077167511, + "learning_rate": 1.6656640000000002e-05, + "loss": 0.0202, + "step": 78360 + }, + { + "epoch": 0.501536, + "grad_norm": 9.212320327758789, + "learning_rate": 1.6656426666666666e-05, + "loss": 0.0422, + "step": 78365 + }, + { + "epoch": 0.501568, + "grad_norm": 0.265781044960022, + "learning_rate": 1.6656213333333337e-05, + "loss": 0.0189, + "step": 78370 + }, + { + "epoch": 0.5016, + "grad_norm": 0.41509655117988586, + "learning_rate": 1.6656e-05, + "loss": 0.0197, + "step": 78375 + }, + { + "epoch": 0.501632, + "grad_norm": 0.7111037969589233, + "learning_rate": 1.665578666666667e-05, + "loss": 0.035, + "step": 78380 + }, + { + "epoch": 0.501664, + "grad_norm": 1.1685075759887695, + "learning_rate": 1.6655573333333336e-05, + "loss": 0.0314, + "step": 78385 + }, + { + "epoch": 0.501696, + "grad_norm": 0.6293644905090332, + "learning_rate": 1.665536e-05, + "loss": 0.013, + "step": 78390 + }, + { + "epoch": 0.501728, + "grad_norm": 0.6330865621566772, + "learning_rate": 1.6655146666666668e-05, + "loss": 0.0237, + "step": 78395 + }, + { + "epoch": 0.50176, + "grad_norm": 0.6254183053970337, + "learning_rate": 1.6654933333333336e-05, + "loss": 0.0138, + "step": 78400 + }, + { + "epoch": 0.501792, + "grad_norm": 1.053903341293335, + "learning_rate": 1.6654720000000003e-05, + "loss": 0.012, + "step": 78405 + }, + { + "epoch": 0.501824, + "grad_norm": 0.07754241675138474, + "learning_rate": 1.6654506666666667e-05, + "loss": 0.0161, + "step": 78410 + }, + { + "epoch": 0.501856, + "grad_norm": 1.1121238470077515, + "learning_rate": 1.6654293333333335e-05, + "loss": 0.0295, + "step": 78415 + }, + { + "epoch": 0.501888, + "grad_norm": 0.18329301476478577, + "learning_rate": 1.6654080000000002e-05, + "loss": 0.04, + "step": 78420 + }, + { + "epoch": 0.50192, + "grad_norm": 0.07742824405431747, + "learning_rate": 1.6653866666666667e-05, + "loss": 0.019, + "step": 78425 + }, + { + "epoch": 0.501952, + "grad_norm": 0.7244789600372314, + "learning_rate": 1.6653653333333334e-05, + "loss": 0.0151, + "step": 78430 + }, + { + "epoch": 0.501984, + "grad_norm": 1.8352890014648438, + "learning_rate": 1.665344e-05, + "loss": 0.0327, + "step": 78435 + }, + { + "epoch": 0.502016, + "grad_norm": 1.6434862613677979, + "learning_rate": 1.665322666666667e-05, + "loss": 0.0553, + "step": 78440 + }, + { + "epoch": 0.502048, + "grad_norm": 0.6940866708755493, + "learning_rate": 1.6653013333333333e-05, + "loss": 0.0148, + "step": 78445 + }, + { + "epoch": 0.50208, + "grad_norm": 0.09745233505964279, + "learning_rate": 1.66528e-05, + "loss": 0.0098, + "step": 78450 + }, + { + "epoch": 0.502112, + "grad_norm": 0.6628208756446838, + "learning_rate": 1.665258666666667e-05, + "loss": 0.0161, + "step": 78455 + }, + { + "epoch": 0.502144, + "grad_norm": 0.5675514340400696, + "learning_rate": 1.6652373333333333e-05, + "loss": 0.0417, + "step": 78460 + }, + { + "epoch": 0.502176, + "grad_norm": 0.7135159373283386, + "learning_rate": 1.665216e-05, + "loss": 0.0186, + "step": 78465 + }, + { + "epoch": 0.502208, + "grad_norm": 0.35814449191093445, + "learning_rate": 1.6651946666666668e-05, + "loss": 0.0212, + "step": 78470 + }, + { + "epoch": 0.50224, + "grad_norm": 0.5740223526954651, + "learning_rate": 1.6651733333333335e-05, + "loss": 0.056, + "step": 78475 + }, + { + "epoch": 0.502272, + "grad_norm": 0.3125304579734802, + "learning_rate": 1.665152e-05, + "loss": 0.015, + "step": 78480 + }, + { + "epoch": 0.502304, + "grad_norm": 1.0553297996520996, + "learning_rate": 1.665130666666667e-05, + "loss": 0.0185, + "step": 78485 + }, + { + "epoch": 0.502336, + "grad_norm": 1.7065523862838745, + "learning_rate": 1.6651093333333335e-05, + "loss": 0.0447, + "step": 78490 + }, + { + "epoch": 0.502368, + "grad_norm": 1.3549985885620117, + "learning_rate": 1.665088e-05, + "loss": 0.0529, + "step": 78495 + }, + { + "epoch": 0.5024, + "grad_norm": 0.2817792594432831, + "learning_rate": 1.665066666666667e-05, + "loss": 0.0154, + "step": 78500 + }, + { + "epoch": 0.502432, + "grad_norm": 0.4780300557613373, + "learning_rate": 1.6650453333333334e-05, + "loss": 0.0324, + "step": 78505 + }, + { + "epoch": 0.502464, + "grad_norm": 1.62436842918396, + "learning_rate": 1.665024e-05, + "loss": 0.023, + "step": 78510 + }, + { + "epoch": 0.502496, + "grad_norm": 0.828904390335083, + "learning_rate": 1.665002666666667e-05, + "loss": 0.0171, + "step": 78515 + }, + { + "epoch": 0.502528, + "grad_norm": 1.1026763916015625, + "learning_rate": 1.6649813333333336e-05, + "loss": 0.0151, + "step": 78520 + }, + { + "epoch": 0.50256, + "grad_norm": 0.3038356602191925, + "learning_rate": 1.66496e-05, + "loss": 0.0117, + "step": 78525 + }, + { + "epoch": 0.502592, + "grad_norm": 0.436139315366745, + "learning_rate": 1.6649386666666668e-05, + "loss": 0.018, + "step": 78530 + }, + { + "epoch": 0.502624, + "grad_norm": 0.4165619909763336, + "learning_rate": 1.6649173333333336e-05, + "loss": 0.0207, + "step": 78535 + }, + { + "epoch": 0.502656, + "grad_norm": 0.09420705586671829, + "learning_rate": 1.664896e-05, + "loss": 0.0125, + "step": 78540 + }, + { + "epoch": 0.502688, + "grad_norm": 0.8190260529518127, + "learning_rate": 1.6648746666666667e-05, + "loss": 0.0243, + "step": 78545 + }, + { + "epoch": 0.50272, + "grad_norm": 0.7971787452697754, + "learning_rate": 1.6648533333333335e-05, + "loss": 0.0131, + "step": 78550 + }, + { + "epoch": 0.502752, + "grad_norm": 0.4263397455215454, + "learning_rate": 1.6648320000000003e-05, + "loss": 0.0224, + "step": 78555 + }, + { + "epoch": 0.502784, + "grad_norm": 0.6306275725364685, + "learning_rate": 1.6648106666666667e-05, + "loss": 0.0243, + "step": 78560 + }, + { + "epoch": 0.502816, + "grad_norm": 0.3252314627170563, + "learning_rate": 1.6647893333333334e-05, + "loss": 0.0086, + "step": 78565 + }, + { + "epoch": 0.502848, + "grad_norm": 0.05899975448846817, + "learning_rate": 1.6647680000000002e-05, + "loss": 0.0083, + "step": 78570 + }, + { + "epoch": 0.50288, + "grad_norm": 0.6729226112365723, + "learning_rate": 1.6647466666666666e-05, + "loss": 0.02, + "step": 78575 + }, + { + "epoch": 0.502912, + "grad_norm": 0.38084670901298523, + "learning_rate": 1.6647253333333334e-05, + "loss": 0.0198, + "step": 78580 + }, + { + "epoch": 0.502944, + "grad_norm": 0.4475644528865814, + "learning_rate": 1.664704e-05, + "loss": 0.0272, + "step": 78585 + }, + { + "epoch": 0.502976, + "grad_norm": 0.4772655963897705, + "learning_rate": 1.664682666666667e-05, + "loss": 0.0197, + "step": 78590 + }, + { + "epoch": 0.503008, + "grad_norm": 0.31820085644721985, + "learning_rate": 1.6646613333333336e-05, + "loss": 0.0276, + "step": 78595 + }, + { + "epoch": 0.50304, + "grad_norm": 0.09974681586027145, + "learning_rate": 1.66464e-05, + "loss": 0.0307, + "step": 78600 + }, + { + "epoch": 0.503072, + "grad_norm": 0.7175601720809937, + "learning_rate": 1.6646186666666668e-05, + "loss": 0.0162, + "step": 78605 + }, + { + "epoch": 0.503104, + "grad_norm": 0.5284157991409302, + "learning_rate": 1.6645973333333336e-05, + "loss": 0.0234, + "step": 78610 + }, + { + "epoch": 0.503136, + "grad_norm": 0.6003628373146057, + "learning_rate": 1.6645760000000003e-05, + "loss": 0.0167, + "step": 78615 + }, + { + "epoch": 0.503168, + "grad_norm": 0.6170163750648499, + "learning_rate": 1.6645546666666667e-05, + "loss": 0.018, + "step": 78620 + }, + { + "epoch": 0.5032, + "grad_norm": 0.40939927101135254, + "learning_rate": 1.6645333333333335e-05, + "loss": 0.0267, + "step": 78625 + }, + { + "epoch": 0.503232, + "grad_norm": 0.5808079242706299, + "learning_rate": 1.6645120000000002e-05, + "loss": 0.0195, + "step": 78630 + }, + { + "epoch": 0.503264, + "grad_norm": 0.5182948112487793, + "learning_rate": 1.6644906666666667e-05, + "loss": 0.023, + "step": 78635 + }, + { + "epoch": 0.503296, + "grad_norm": 2.110630989074707, + "learning_rate": 1.6644693333333334e-05, + "loss": 0.044, + "step": 78640 + }, + { + "epoch": 0.503328, + "grad_norm": 0.45697155594825745, + "learning_rate": 1.664448e-05, + "loss": 0.0122, + "step": 78645 + }, + { + "epoch": 0.50336, + "grad_norm": 0.45576828718185425, + "learning_rate": 1.664426666666667e-05, + "loss": 0.0159, + "step": 78650 + }, + { + "epoch": 0.503392, + "grad_norm": 0.7546730637550354, + "learning_rate": 1.6644053333333333e-05, + "loss": 0.0078, + "step": 78655 + }, + { + "epoch": 0.503424, + "grad_norm": 0.26046139001846313, + "learning_rate": 1.664384e-05, + "loss": 0.0129, + "step": 78660 + }, + { + "epoch": 0.503456, + "grad_norm": 0.8256860375404358, + "learning_rate": 1.664362666666667e-05, + "loss": 0.014, + "step": 78665 + }, + { + "epoch": 0.503488, + "grad_norm": 1.5347938537597656, + "learning_rate": 1.6643413333333333e-05, + "loss": 0.0215, + "step": 78670 + }, + { + "epoch": 0.50352, + "grad_norm": 0.8680712580680847, + "learning_rate": 1.66432e-05, + "loss": 0.0274, + "step": 78675 + }, + { + "epoch": 0.503552, + "grad_norm": 0.5456399917602539, + "learning_rate": 1.6642986666666668e-05, + "loss": 0.0246, + "step": 78680 + }, + { + "epoch": 0.503584, + "grad_norm": 0.7564716339111328, + "learning_rate": 1.6642773333333335e-05, + "loss": 0.0146, + "step": 78685 + }, + { + "epoch": 0.503616, + "grad_norm": 0.6585972905158997, + "learning_rate": 1.664256e-05, + "loss": 0.0202, + "step": 78690 + }, + { + "epoch": 0.503648, + "grad_norm": 0.5462319254875183, + "learning_rate": 1.664234666666667e-05, + "loss": 0.0237, + "step": 78695 + }, + { + "epoch": 0.50368, + "grad_norm": 1.6092396974563599, + "learning_rate": 1.6642133333333335e-05, + "loss": 0.0211, + "step": 78700 + }, + { + "epoch": 0.503712, + "grad_norm": 0.8403822779655457, + "learning_rate": 1.664192e-05, + "loss": 0.0346, + "step": 78705 + }, + { + "epoch": 0.503744, + "grad_norm": 0.3255852460861206, + "learning_rate": 1.664170666666667e-05, + "loss": 0.0253, + "step": 78710 + }, + { + "epoch": 0.503776, + "grad_norm": 1.0291943550109863, + "learning_rate": 1.6641493333333334e-05, + "loss": 0.0466, + "step": 78715 + }, + { + "epoch": 0.503808, + "grad_norm": 0.5211122035980225, + "learning_rate": 1.664128e-05, + "loss": 0.0208, + "step": 78720 + }, + { + "epoch": 0.50384, + "grad_norm": 0.7095092535018921, + "learning_rate": 1.664106666666667e-05, + "loss": 0.0207, + "step": 78725 + }, + { + "epoch": 0.503872, + "grad_norm": 0.3486788272857666, + "learning_rate": 1.6640853333333336e-05, + "loss": 0.016, + "step": 78730 + }, + { + "epoch": 0.503904, + "grad_norm": 1.1096727848052979, + "learning_rate": 1.664064e-05, + "loss": 0.0659, + "step": 78735 + }, + { + "epoch": 0.503936, + "grad_norm": 0.3554302453994751, + "learning_rate": 1.6640426666666668e-05, + "loss": 0.0203, + "step": 78740 + }, + { + "epoch": 0.503968, + "grad_norm": 0.9233278036117554, + "learning_rate": 1.6640213333333336e-05, + "loss": 0.023, + "step": 78745 + }, + { + "epoch": 0.504, + "grad_norm": 0.5212247967720032, + "learning_rate": 1.664e-05, + "loss": 0.0139, + "step": 78750 + }, + { + "epoch": 0.504032, + "grad_norm": 0.9544332027435303, + "learning_rate": 1.6639786666666667e-05, + "loss": 0.0206, + "step": 78755 + }, + { + "epoch": 0.504064, + "grad_norm": 0.9353171586990356, + "learning_rate": 1.6639573333333335e-05, + "loss": 0.0381, + "step": 78760 + }, + { + "epoch": 0.504096, + "grad_norm": 0.6144554615020752, + "learning_rate": 1.6639360000000003e-05, + "loss": 0.0253, + "step": 78765 + }, + { + "epoch": 0.504128, + "grad_norm": 1.0620585680007935, + "learning_rate": 1.6639146666666667e-05, + "loss": 0.0232, + "step": 78770 + }, + { + "epoch": 0.50416, + "grad_norm": 0.5032434463500977, + "learning_rate": 1.6638933333333334e-05, + "loss": 0.0591, + "step": 78775 + }, + { + "epoch": 0.504192, + "grad_norm": 0.2968684434890747, + "learning_rate": 1.6638720000000002e-05, + "loss": 0.0143, + "step": 78780 + }, + { + "epoch": 0.504224, + "grad_norm": 0.7449055910110474, + "learning_rate": 1.6638506666666666e-05, + "loss": 0.0156, + "step": 78785 + }, + { + "epoch": 0.504256, + "grad_norm": 0.7390713095664978, + "learning_rate": 1.6638293333333334e-05, + "loss": 0.035, + "step": 78790 + }, + { + "epoch": 0.504288, + "grad_norm": 0.18898966908454895, + "learning_rate": 1.663808e-05, + "loss": 0.0367, + "step": 78795 + }, + { + "epoch": 0.50432, + "grad_norm": 0.8300600051879883, + "learning_rate": 1.663786666666667e-05, + "loss": 0.011, + "step": 78800 + }, + { + "epoch": 0.504352, + "grad_norm": 0.309682697057724, + "learning_rate": 1.6637653333333333e-05, + "loss": 0.0166, + "step": 78805 + }, + { + "epoch": 0.504384, + "grad_norm": 1.5455466508865356, + "learning_rate": 1.663744e-05, + "loss": 0.0122, + "step": 78810 + }, + { + "epoch": 0.504416, + "grad_norm": 0.8987011313438416, + "learning_rate": 1.6637226666666668e-05, + "loss": 0.0221, + "step": 78815 + }, + { + "epoch": 0.504448, + "grad_norm": 0.18254613876342773, + "learning_rate": 1.6637013333333336e-05, + "loss": 0.0239, + "step": 78820 + }, + { + "epoch": 0.50448, + "grad_norm": 0.6261866092681885, + "learning_rate": 1.6636800000000003e-05, + "loss": 0.0136, + "step": 78825 + }, + { + "epoch": 0.504512, + "grad_norm": 0.5550307035446167, + "learning_rate": 1.6636586666666667e-05, + "loss": 0.0171, + "step": 78830 + }, + { + "epoch": 0.504544, + "grad_norm": 0.8420723080635071, + "learning_rate": 1.6636373333333335e-05, + "loss": 0.0184, + "step": 78835 + }, + { + "epoch": 0.504576, + "grad_norm": 0.7924646139144897, + "learning_rate": 1.6636160000000002e-05, + "loss": 0.0214, + "step": 78840 + }, + { + "epoch": 0.504608, + "grad_norm": 0.0199191402643919, + "learning_rate": 1.663594666666667e-05, + "loss": 0.0226, + "step": 78845 + }, + { + "epoch": 0.50464, + "grad_norm": 0.2524555027484894, + "learning_rate": 1.6635733333333334e-05, + "loss": 0.0127, + "step": 78850 + }, + { + "epoch": 0.504672, + "grad_norm": 0.3728541433811188, + "learning_rate": 1.663552e-05, + "loss": 0.025, + "step": 78855 + }, + { + "epoch": 0.504704, + "grad_norm": 0.771970808506012, + "learning_rate": 1.663530666666667e-05, + "loss": 0.0339, + "step": 78860 + }, + { + "epoch": 0.504736, + "grad_norm": 0.7325818538665771, + "learning_rate": 1.6635093333333333e-05, + "loss": 0.0259, + "step": 78865 + }, + { + "epoch": 0.504768, + "grad_norm": 0.329511433839798, + "learning_rate": 1.663488e-05, + "loss": 0.0141, + "step": 78870 + }, + { + "epoch": 0.5048, + "grad_norm": 0.23486799001693726, + "learning_rate": 1.663466666666667e-05, + "loss": 0.0136, + "step": 78875 + }, + { + "epoch": 0.504832, + "grad_norm": 0.12730059027671814, + "learning_rate": 1.6634453333333336e-05, + "loss": 0.0188, + "step": 78880 + }, + { + "epoch": 0.504864, + "grad_norm": 0.20359668135643005, + "learning_rate": 1.663424e-05, + "loss": 0.0203, + "step": 78885 + }, + { + "epoch": 0.504896, + "grad_norm": 0.9193552732467651, + "learning_rate": 1.6634026666666668e-05, + "loss": 0.0219, + "step": 78890 + }, + { + "epoch": 0.504928, + "grad_norm": 3.02639102935791, + "learning_rate": 1.6633813333333335e-05, + "loss": 0.0403, + "step": 78895 + }, + { + "epoch": 0.50496, + "grad_norm": 1.776043176651001, + "learning_rate": 1.66336e-05, + "loss": 0.0176, + "step": 78900 + }, + { + "epoch": 0.504992, + "grad_norm": 1.0367556810379028, + "learning_rate": 1.663338666666667e-05, + "loss": 0.0323, + "step": 78905 + }, + { + "epoch": 0.505024, + "grad_norm": 0.6895759105682373, + "learning_rate": 1.6633173333333335e-05, + "loss": 0.0196, + "step": 78910 + }, + { + "epoch": 0.505056, + "grad_norm": 0.09239308536052704, + "learning_rate": 1.6632960000000002e-05, + "loss": 0.0125, + "step": 78915 + }, + { + "epoch": 0.505088, + "grad_norm": 0.8285381197929382, + "learning_rate": 1.663274666666667e-05, + "loss": 0.0171, + "step": 78920 + }, + { + "epoch": 0.50512, + "grad_norm": 0.5676906704902649, + "learning_rate": 1.6632533333333334e-05, + "loss": 0.011, + "step": 78925 + }, + { + "epoch": 0.505152, + "grad_norm": 1.4319764375686646, + "learning_rate": 1.663232e-05, + "loss": 0.0246, + "step": 78930 + }, + { + "epoch": 0.505184, + "grad_norm": 0.5356493592262268, + "learning_rate": 1.663210666666667e-05, + "loss": 0.0244, + "step": 78935 + }, + { + "epoch": 0.505216, + "grad_norm": 0.6533761620521545, + "learning_rate": 1.6631893333333336e-05, + "loss": 0.0238, + "step": 78940 + }, + { + "epoch": 0.505248, + "grad_norm": 0.524820864200592, + "learning_rate": 1.663168e-05, + "loss": 0.0118, + "step": 78945 + }, + { + "epoch": 0.50528, + "grad_norm": 0.12517312169075012, + "learning_rate": 1.6631466666666668e-05, + "loss": 0.0121, + "step": 78950 + }, + { + "epoch": 0.505312, + "grad_norm": 0.5577083230018616, + "learning_rate": 1.6631253333333336e-05, + "loss": 0.0314, + "step": 78955 + }, + { + "epoch": 0.505344, + "grad_norm": 0.31134292483329773, + "learning_rate": 1.663104e-05, + "loss": 0.0235, + "step": 78960 + }, + { + "epoch": 0.505376, + "grad_norm": 0.3510242700576782, + "learning_rate": 1.6630826666666667e-05, + "loss": 0.0098, + "step": 78965 + }, + { + "epoch": 0.505408, + "grad_norm": 1.2376924753189087, + "learning_rate": 1.6630613333333335e-05, + "loss": 0.0286, + "step": 78970 + }, + { + "epoch": 0.50544, + "grad_norm": 0.8388944268226624, + "learning_rate": 1.6630400000000003e-05, + "loss": 0.0218, + "step": 78975 + }, + { + "epoch": 0.505472, + "grad_norm": 0.493915855884552, + "learning_rate": 1.6630186666666667e-05, + "loss": 0.0119, + "step": 78980 + }, + { + "epoch": 0.505504, + "grad_norm": 1.8547502756118774, + "learning_rate": 1.6629973333333334e-05, + "loss": 0.0264, + "step": 78985 + }, + { + "epoch": 0.505536, + "grad_norm": 0.2753266990184784, + "learning_rate": 1.6629760000000002e-05, + "loss": 0.014, + "step": 78990 + }, + { + "epoch": 0.505568, + "grad_norm": 0.6080694794654846, + "learning_rate": 1.6629546666666666e-05, + "loss": 0.0301, + "step": 78995 + }, + { + "epoch": 0.5056, + "grad_norm": 0.31909507513046265, + "learning_rate": 1.6629333333333334e-05, + "loss": 0.0224, + "step": 79000 + }, + { + "epoch": 0.505632, + "grad_norm": 0.22289806604385376, + "learning_rate": 1.662912e-05, + "loss": 0.0112, + "step": 79005 + }, + { + "epoch": 0.505664, + "grad_norm": 0.5106454491615295, + "learning_rate": 1.662890666666667e-05, + "loss": 0.017, + "step": 79010 + }, + { + "epoch": 0.505696, + "grad_norm": 0.17376630008220673, + "learning_rate": 1.6628693333333333e-05, + "loss": 0.0103, + "step": 79015 + }, + { + "epoch": 0.505728, + "grad_norm": 1.0625797510147095, + "learning_rate": 1.6628480000000004e-05, + "loss": 0.0329, + "step": 79020 + }, + { + "epoch": 0.50576, + "grad_norm": 0.594035267829895, + "learning_rate": 1.6628266666666668e-05, + "loss": 0.0236, + "step": 79025 + }, + { + "epoch": 0.505792, + "grad_norm": 0.690986156463623, + "learning_rate": 1.6628053333333332e-05, + "loss": 0.0369, + "step": 79030 + }, + { + "epoch": 0.505824, + "grad_norm": 0.5567135810852051, + "learning_rate": 1.6627840000000003e-05, + "loss": 0.0196, + "step": 79035 + }, + { + "epoch": 0.505856, + "grad_norm": 1.1040010452270508, + "learning_rate": 1.6627626666666667e-05, + "loss": 0.022, + "step": 79040 + }, + { + "epoch": 0.505888, + "grad_norm": 0.6085776686668396, + "learning_rate": 1.6627413333333335e-05, + "loss": 0.0365, + "step": 79045 + }, + { + "epoch": 0.50592, + "grad_norm": 0.7801461815834045, + "learning_rate": 1.6627200000000002e-05, + "loss": 0.0106, + "step": 79050 + }, + { + "epoch": 0.505952, + "grad_norm": 0.45958542823791504, + "learning_rate": 1.662698666666667e-05, + "loss": 0.0177, + "step": 79055 + }, + { + "epoch": 0.505984, + "grad_norm": 0.18243025243282318, + "learning_rate": 1.6626773333333334e-05, + "loss": 0.0094, + "step": 79060 + }, + { + "epoch": 0.506016, + "grad_norm": 0.7197828888893127, + "learning_rate": 1.662656e-05, + "loss": 0.014, + "step": 79065 + }, + { + "epoch": 0.506048, + "grad_norm": 0.4111635088920593, + "learning_rate": 1.662634666666667e-05, + "loss": 0.0295, + "step": 79070 + }, + { + "epoch": 0.50608, + "grad_norm": 0.2798570394515991, + "learning_rate": 1.6626133333333333e-05, + "loss": 0.0211, + "step": 79075 + }, + { + "epoch": 0.506112, + "grad_norm": 0.4263342022895813, + "learning_rate": 1.662592e-05, + "loss": 0.0169, + "step": 79080 + }, + { + "epoch": 0.506144, + "grad_norm": 0.9908384680747986, + "learning_rate": 1.662570666666667e-05, + "loss": 0.0278, + "step": 79085 + }, + { + "epoch": 0.506176, + "grad_norm": 0.25644564628601074, + "learning_rate": 1.6625493333333336e-05, + "loss": 0.0118, + "step": 79090 + }, + { + "epoch": 0.506208, + "grad_norm": 1.1335327625274658, + "learning_rate": 1.662528e-05, + "loss": 0.0362, + "step": 79095 + }, + { + "epoch": 0.50624, + "grad_norm": 0.2333383858203888, + "learning_rate": 1.6625066666666668e-05, + "loss": 0.0127, + "step": 79100 + }, + { + "epoch": 0.506272, + "grad_norm": 0.6689788699150085, + "learning_rate": 1.6624853333333335e-05, + "loss": 0.0327, + "step": 79105 + }, + { + "epoch": 0.506304, + "grad_norm": 0.673805296421051, + "learning_rate": 1.662464e-05, + "loss": 0.019, + "step": 79110 + }, + { + "epoch": 0.506336, + "grad_norm": 0.5372209548950195, + "learning_rate": 1.662442666666667e-05, + "loss": 0.0329, + "step": 79115 + }, + { + "epoch": 0.506368, + "grad_norm": 0.3187449276447296, + "learning_rate": 1.6624213333333335e-05, + "loss": 0.0234, + "step": 79120 + }, + { + "epoch": 0.5064, + "grad_norm": 0.4824405610561371, + "learning_rate": 1.6624000000000002e-05, + "loss": 0.0172, + "step": 79125 + }, + { + "epoch": 0.506432, + "grad_norm": 0.28204166889190674, + "learning_rate": 1.662378666666667e-05, + "loss": 0.0343, + "step": 79130 + }, + { + "epoch": 0.506464, + "grad_norm": 0.1627846211194992, + "learning_rate": 1.6623573333333334e-05, + "loss": 0.0088, + "step": 79135 + }, + { + "epoch": 0.506496, + "grad_norm": 0.1898268759250641, + "learning_rate": 1.662336e-05, + "loss": 0.0167, + "step": 79140 + }, + { + "epoch": 0.506528, + "grad_norm": 0.27623674273490906, + "learning_rate": 1.662314666666667e-05, + "loss": 0.0376, + "step": 79145 + }, + { + "epoch": 0.50656, + "grad_norm": 1.189293622970581, + "learning_rate": 1.6622933333333336e-05, + "loss": 0.0235, + "step": 79150 + }, + { + "epoch": 0.506592, + "grad_norm": 0.9558643102645874, + "learning_rate": 1.662272e-05, + "loss": 0.0224, + "step": 79155 + }, + { + "epoch": 0.506624, + "grad_norm": 1.8354536294937134, + "learning_rate": 1.6622506666666668e-05, + "loss": 0.0153, + "step": 79160 + }, + { + "epoch": 0.506656, + "grad_norm": 1.2944109439849854, + "learning_rate": 1.6622293333333336e-05, + "loss": 0.0317, + "step": 79165 + }, + { + "epoch": 0.506688, + "grad_norm": 1.4041166305541992, + "learning_rate": 1.662208e-05, + "loss": 0.0262, + "step": 79170 + }, + { + "epoch": 0.50672, + "grad_norm": 0.4330909252166748, + "learning_rate": 1.6621866666666667e-05, + "loss": 0.046, + "step": 79175 + }, + { + "epoch": 0.506752, + "grad_norm": 0.5416955351829529, + "learning_rate": 1.6621653333333335e-05, + "loss": 0.0161, + "step": 79180 + }, + { + "epoch": 0.506784, + "grad_norm": 0.5955947637557983, + "learning_rate": 1.6621440000000003e-05, + "loss": 0.0124, + "step": 79185 + }, + { + "epoch": 0.506816, + "grad_norm": 0.954169511795044, + "learning_rate": 1.6621226666666667e-05, + "loss": 0.0249, + "step": 79190 + }, + { + "epoch": 0.506848, + "grad_norm": 1.914923071861267, + "learning_rate": 1.6621013333333334e-05, + "loss": 0.0313, + "step": 79195 + }, + { + "epoch": 0.50688, + "grad_norm": 1.569104552268982, + "learning_rate": 1.6620800000000002e-05, + "loss": 0.0221, + "step": 79200 + }, + { + "epoch": 0.506912, + "grad_norm": 0.05678321793675423, + "learning_rate": 1.6620586666666666e-05, + "loss": 0.0166, + "step": 79205 + }, + { + "epoch": 0.506944, + "grad_norm": 0.5675497055053711, + "learning_rate": 1.6620373333333334e-05, + "loss": 0.0303, + "step": 79210 + }, + { + "epoch": 0.506976, + "grad_norm": 2.0137081146240234, + "learning_rate": 1.662016e-05, + "loss": 0.0154, + "step": 79215 + }, + { + "epoch": 0.507008, + "grad_norm": 0.41374295949935913, + "learning_rate": 1.661994666666667e-05, + "loss": 0.021, + "step": 79220 + }, + { + "epoch": 0.50704, + "grad_norm": 0.9026272296905518, + "learning_rate": 1.6619733333333333e-05, + "loss": 0.0148, + "step": 79225 + }, + { + "epoch": 0.507072, + "grad_norm": 0.2552538812160492, + "learning_rate": 1.6619520000000004e-05, + "loss": 0.0158, + "step": 79230 + }, + { + "epoch": 0.507104, + "grad_norm": 1.4037907123565674, + "learning_rate": 1.6619306666666668e-05, + "loss": 0.0224, + "step": 79235 + }, + { + "epoch": 0.507136, + "grad_norm": 0.31706660985946655, + "learning_rate": 1.6619093333333332e-05, + "loss": 0.0186, + "step": 79240 + }, + { + "epoch": 0.507168, + "grad_norm": 0.24185295403003693, + "learning_rate": 1.6618880000000003e-05, + "loss": 0.0238, + "step": 79245 + }, + { + "epoch": 0.5072, + "grad_norm": 1.2415711879730225, + "learning_rate": 1.6618666666666667e-05, + "loss": 0.0364, + "step": 79250 + }, + { + "epoch": 0.507232, + "grad_norm": 0.1987895667552948, + "learning_rate": 1.6618453333333335e-05, + "loss": 0.0094, + "step": 79255 + }, + { + "epoch": 0.507264, + "grad_norm": 0.43748095631599426, + "learning_rate": 1.6618240000000002e-05, + "loss": 0.0134, + "step": 79260 + }, + { + "epoch": 0.507296, + "grad_norm": 0.7706573605537415, + "learning_rate": 1.661802666666667e-05, + "loss": 0.0214, + "step": 79265 + }, + { + "epoch": 0.507328, + "grad_norm": 0.34439343214035034, + "learning_rate": 1.6617813333333334e-05, + "loss": 0.0099, + "step": 79270 + }, + { + "epoch": 0.50736, + "grad_norm": 0.647216260433197, + "learning_rate": 1.66176e-05, + "loss": 0.0147, + "step": 79275 + }, + { + "epoch": 0.507392, + "grad_norm": 0.5505139231681824, + "learning_rate": 1.661738666666667e-05, + "loss": 0.0204, + "step": 79280 + }, + { + "epoch": 0.507424, + "grad_norm": 0.27131062746047974, + "learning_rate": 1.6617173333333333e-05, + "loss": 0.0184, + "step": 79285 + }, + { + "epoch": 0.507456, + "grad_norm": 0.27336379885673523, + "learning_rate": 1.661696e-05, + "loss": 0.0215, + "step": 79290 + }, + { + "epoch": 0.507488, + "grad_norm": 2.3494462966918945, + "learning_rate": 1.661674666666667e-05, + "loss": 0.0161, + "step": 79295 + }, + { + "epoch": 0.50752, + "grad_norm": 4.387600421905518, + "learning_rate": 1.6616533333333336e-05, + "loss": 0.0261, + "step": 79300 + }, + { + "epoch": 0.507552, + "grad_norm": 1.081563949584961, + "learning_rate": 1.661632e-05, + "loss": 0.0129, + "step": 79305 + }, + { + "epoch": 0.507584, + "grad_norm": 0.6252138614654541, + "learning_rate": 1.6616106666666668e-05, + "loss": 0.023, + "step": 79310 + }, + { + "epoch": 0.507616, + "grad_norm": 0.848369300365448, + "learning_rate": 1.6615893333333335e-05, + "loss": 0.0274, + "step": 79315 + }, + { + "epoch": 0.507648, + "grad_norm": 0.41078439354896545, + "learning_rate": 1.661568e-05, + "loss": 0.022, + "step": 79320 + }, + { + "epoch": 0.50768, + "grad_norm": 0.8177246451377869, + "learning_rate": 1.6615466666666667e-05, + "loss": 0.0201, + "step": 79325 + }, + { + "epoch": 0.507712, + "grad_norm": 0.9538686275482178, + "learning_rate": 1.6615253333333335e-05, + "loss": 0.0386, + "step": 79330 + }, + { + "epoch": 0.507744, + "grad_norm": 0.6632920503616333, + "learning_rate": 1.6615040000000002e-05, + "loss": 0.0134, + "step": 79335 + }, + { + "epoch": 0.507776, + "grad_norm": 0.17780128121376038, + "learning_rate": 1.661482666666667e-05, + "loss": 0.0215, + "step": 79340 + }, + { + "epoch": 0.507808, + "grad_norm": 0.5167699456214905, + "learning_rate": 1.6614613333333334e-05, + "loss": 0.0135, + "step": 79345 + }, + { + "epoch": 0.50784, + "grad_norm": 0.19145505130290985, + "learning_rate": 1.66144e-05, + "loss": 0.0052, + "step": 79350 + }, + { + "epoch": 0.507872, + "grad_norm": 0.9326117634773254, + "learning_rate": 1.661418666666667e-05, + "loss": 0.0203, + "step": 79355 + }, + { + "epoch": 0.507904, + "grad_norm": 0.661888062953949, + "learning_rate": 1.6613973333333336e-05, + "loss": 0.041, + "step": 79360 + }, + { + "epoch": 0.507936, + "grad_norm": 0.5494072437286377, + "learning_rate": 1.661376e-05, + "loss": 0.0215, + "step": 79365 + }, + { + "epoch": 0.507968, + "grad_norm": 0.6330971121788025, + "learning_rate": 1.6613546666666668e-05, + "loss": 0.0197, + "step": 79370 + }, + { + "epoch": 0.508, + "grad_norm": 0.36841535568237305, + "learning_rate": 1.6613333333333336e-05, + "loss": 0.0086, + "step": 79375 + }, + { + "epoch": 0.508032, + "grad_norm": 2.478442430496216, + "learning_rate": 1.661312e-05, + "loss": 0.0308, + "step": 79380 + }, + { + "epoch": 0.508064, + "grad_norm": 1.5005093812942505, + "learning_rate": 1.6612906666666667e-05, + "loss": 0.0284, + "step": 79385 + }, + { + "epoch": 0.508096, + "grad_norm": 0.6681714057922363, + "learning_rate": 1.6612693333333335e-05, + "loss": 0.018, + "step": 79390 + }, + { + "epoch": 0.508128, + "grad_norm": 0.12678495049476624, + "learning_rate": 1.6612480000000003e-05, + "loss": 0.0208, + "step": 79395 + }, + { + "epoch": 0.50816, + "grad_norm": 0.4723964035511017, + "learning_rate": 1.6612266666666667e-05, + "loss": 0.0109, + "step": 79400 + }, + { + "epoch": 0.508192, + "grad_norm": 0.2188488394021988, + "learning_rate": 1.6612053333333334e-05, + "loss": 0.0152, + "step": 79405 + }, + { + "epoch": 0.508224, + "grad_norm": 0.05882854387164116, + "learning_rate": 1.6611840000000002e-05, + "loss": 0.0064, + "step": 79410 + }, + { + "epoch": 0.508256, + "grad_norm": 0.5714915990829468, + "learning_rate": 1.6611626666666666e-05, + "loss": 0.0226, + "step": 79415 + }, + { + "epoch": 0.508288, + "grad_norm": 1.8069363832473755, + "learning_rate": 1.6611413333333334e-05, + "loss": 0.0301, + "step": 79420 + }, + { + "epoch": 0.50832, + "grad_norm": 0.49372076988220215, + "learning_rate": 1.66112e-05, + "loss": 0.0107, + "step": 79425 + }, + { + "epoch": 0.508352, + "grad_norm": 0.15818646550178528, + "learning_rate": 1.661098666666667e-05, + "loss": 0.0105, + "step": 79430 + }, + { + "epoch": 0.508384, + "grad_norm": 0.5421493649482727, + "learning_rate": 1.6610773333333333e-05, + "loss": 0.0217, + "step": 79435 + }, + { + "epoch": 0.508416, + "grad_norm": 0.2710210680961609, + "learning_rate": 1.6610560000000004e-05, + "loss": 0.0135, + "step": 79440 + }, + { + "epoch": 0.508448, + "grad_norm": 0.5962947010993958, + "learning_rate": 1.6610346666666668e-05, + "loss": 0.0158, + "step": 79445 + }, + { + "epoch": 0.50848, + "grad_norm": 0.47193217277526855, + "learning_rate": 1.6610133333333332e-05, + "loss": 0.0348, + "step": 79450 + }, + { + "epoch": 0.508512, + "grad_norm": 0.6809530258178711, + "learning_rate": 1.6609920000000003e-05, + "loss": 0.0372, + "step": 79455 + }, + { + "epoch": 0.508544, + "grad_norm": 0.21448838710784912, + "learning_rate": 1.6609706666666667e-05, + "loss": 0.0229, + "step": 79460 + }, + { + "epoch": 0.508576, + "grad_norm": 0.36128994822502136, + "learning_rate": 1.6609493333333335e-05, + "loss": 0.0145, + "step": 79465 + }, + { + "epoch": 0.508608, + "grad_norm": 0.3731320798397064, + "learning_rate": 1.6609280000000002e-05, + "loss": 0.0175, + "step": 79470 + }, + { + "epoch": 0.50864, + "grad_norm": 0.3170989751815796, + "learning_rate": 1.660906666666667e-05, + "loss": 0.0154, + "step": 79475 + }, + { + "epoch": 0.508672, + "grad_norm": 0.5433712601661682, + "learning_rate": 1.6608853333333334e-05, + "loss": 0.0088, + "step": 79480 + }, + { + "epoch": 0.508704, + "grad_norm": 0.46208250522613525, + "learning_rate": 1.660864e-05, + "loss": 0.0089, + "step": 79485 + }, + { + "epoch": 0.508736, + "grad_norm": 0.22828635573387146, + "learning_rate": 1.660842666666667e-05, + "loss": 0.0078, + "step": 79490 + }, + { + "epoch": 0.508768, + "grad_norm": 0.7104746699333191, + "learning_rate": 1.6608213333333333e-05, + "loss": 0.0201, + "step": 79495 + }, + { + "epoch": 0.5088, + "grad_norm": 0.4873548150062561, + "learning_rate": 1.6608e-05, + "loss": 0.0127, + "step": 79500 + }, + { + "epoch": 0.508832, + "grad_norm": 0.5617126822471619, + "learning_rate": 1.660778666666667e-05, + "loss": 0.0195, + "step": 79505 + }, + { + "epoch": 0.508864, + "grad_norm": 0.6185457706451416, + "learning_rate": 1.6607573333333336e-05, + "loss": 0.0189, + "step": 79510 + }, + { + "epoch": 0.508896, + "grad_norm": 0.36694279313087463, + "learning_rate": 1.660736e-05, + "loss": 0.0148, + "step": 79515 + }, + { + "epoch": 0.508928, + "grad_norm": 0.3466740846633911, + "learning_rate": 1.6607146666666668e-05, + "loss": 0.0114, + "step": 79520 + }, + { + "epoch": 0.50896, + "grad_norm": 0.4368901550769806, + "learning_rate": 1.6606933333333335e-05, + "loss": 0.0203, + "step": 79525 + }, + { + "epoch": 0.508992, + "grad_norm": 0.5436636805534363, + "learning_rate": 1.660672e-05, + "loss": 0.0238, + "step": 79530 + }, + { + "epoch": 0.509024, + "grad_norm": 0.9280884861946106, + "learning_rate": 1.6606506666666667e-05, + "loss": 0.0407, + "step": 79535 + }, + { + "epoch": 0.509056, + "grad_norm": 1.9197485446929932, + "learning_rate": 1.6606293333333335e-05, + "loss": 0.0203, + "step": 79540 + }, + { + "epoch": 0.509088, + "grad_norm": 0.7116985321044922, + "learning_rate": 1.6606080000000002e-05, + "loss": 0.0385, + "step": 79545 + }, + { + "epoch": 0.50912, + "grad_norm": 0.6346078515052795, + "learning_rate": 1.6605866666666666e-05, + "loss": 0.0132, + "step": 79550 + }, + { + "epoch": 0.509152, + "grad_norm": 1.1613304615020752, + "learning_rate": 1.6605653333333334e-05, + "loss": 0.0079, + "step": 79555 + }, + { + "epoch": 0.509184, + "grad_norm": 0.5340349078178406, + "learning_rate": 1.660544e-05, + "loss": 0.0222, + "step": 79560 + }, + { + "epoch": 0.509216, + "grad_norm": 0.8732174634933472, + "learning_rate": 1.660522666666667e-05, + "loss": 0.0216, + "step": 79565 + }, + { + "epoch": 0.509248, + "grad_norm": 2.4055142402648926, + "learning_rate": 1.6605013333333337e-05, + "loss": 0.019, + "step": 79570 + }, + { + "epoch": 0.50928, + "grad_norm": 0.11374751478433609, + "learning_rate": 1.66048e-05, + "loss": 0.009, + "step": 79575 + }, + { + "epoch": 0.509312, + "grad_norm": 0.539138913154602, + "learning_rate": 1.6604586666666668e-05, + "loss": 0.0184, + "step": 79580 + }, + { + "epoch": 0.509344, + "grad_norm": 0.7415149211883545, + "learning_rate": 1.6604373333333336e-05, + "loss": 0.0304, + "step": 79585 + }, + { + "epoch": 0.509376, + "grad_norm": 0.6324017643928528, + "learning_rate": 1.660416e-05, + "loss": 0.0205, + "step": 79590 + }, + { + "epoch": 0.509408, + "grad_norm": 0.3634658753871918, + "learning_rate": 1.6603946666666667e-05, + "loss": 0.0102, + "step": 79595 + }, + { + "epoch": 0.50944, + "grad_norm": 0.7329457998275757, + "learning_rate": 1.6603733333333335e-05, + "loss": 0.012, + "step": 79600 + }, + { + "epoch": 0.509472, + "grad_norm": 0.8033154010772705, + "learning_rate": 1.6603520000000003e-05, + "loss": 0.0534, + "step": 79605 + }, + { + "epoch": 0.509504, + "grad_norm": 0.22636647522449493, + "learning_rate": 1.6603306666666667e-05, + "loss": 0.0262, + "step": 79610 + }, + { + "epoch": 0.509536, + "grad_norm": 1.2462621927261353, + "learning_rate": 1.6603093333333334e-05, + "loss": 0.0166, + "step": 79615 + }, + { + "epoch": 0.509568, + "grad_norm": 0.22720280289649963, + "learning_rate": 1.6602880000000002e-05, + "loss": 0.0064, + "step": 79620 + }, + { + "epoch": 0.5096, + "grad_norm": 11.243074417114258, + "learning_rate": 1.6602666666666666e-05, + "loss": 0.0216, + "step": 79625 + }, + { + "epoch": 0.509632, + "grad_norm": 1.0225746631622314, + "learning_rate": 1.6602453333333334e-05, + "loss": 0.0113, + "step": 79630 + }, + { + "epoch": 0.509664, + "grad_norm": 0.3302135765552521, + "learning_rate": 1.660224e-05, + "loss": 0.0226, + "step": 79635 + }, + { + "epoch": 0.509696, + "grad_norm": 0.640684187412262, + "learning_rate": 1.660202666666667e-05, + "loss": 0.0353, + "step": 79640 + }, + { + "epoch": 0.509728, + "grad_norm": 0.49734827876091003, + "learning_rate": 1.6601813333333333e-05, + "loss": 0.0179, + "step": 79645 + }, + { + "epoch": 0.50976, + "grad_norm": 1.6732561588287354, + "learning_rate": 1.6601600000000004e-05, + "loss": 0.0244, + "step": 79650 + }, + { + "epoch": 0.509792, + "grad_norm": 0.2985520660877228, + "learning_rate": 1.6601386666666668e-05, + "loss": 0.0088, + "step": 79655 + }, + { + "epoch": 0.509824, + "grad_norm": 0.4048595726490021, + "learning_rate": 1.6601173333333332e-05, + "loss": 0.0286, + "step": 79660 + }, + { + "epoch": 0.509856, + "grad_norm": 0.17983625829219818, + "learning_rate": 1.6600960000000003e-05, + "loss": 0.0182, + "step": 79665 + }, + { + "epoch": 0.509888, + "grad_norm": 0.2749190926551819, + "learning_rate": 1.6600746666666667e-05, + "loss": 0.0145, + "step": 79670 + }, + { + "epoch": 0.50992, + "grad_norm": 1.0794148445129395, + "learning_rate": 1.6600533333333335e-05, + "loss": 0.0137, + "step": 79675 + }, + { + "epoch": 0.509952, + "grad_norm": 1.5445829629898071, + "learning_rate": 1.6600320000000002e-05, + "loss": 0.0216, + "step": 79680 + }, + { + "epoch": 0.509984, + "grad_norm": 0.5692952275276184, + "learning_rate": 1.660010666666667e-05, + "loss": 0.0257, + "step": 79685 + }, + { + "epoch": 0.510016, + "grad_norm": 1.074681282043457, + "learning_rate": 1.6599893333333334e-05, + "loss": 0.0565, + "step": 79690 + }, + { + "epoch": 0.510048, + "grad_norm": 0.12126650661230087, + "learning_rate": 1.659968e-05, + "loss": 0.0076, + "step": 79695 + }, + { + "epoch": 0.51008, + "grad_norm": 0.6789492964744568, + "learning_rate": 1.659946666666667e-05, + "loss": 0.0312, + "step": 79700 + }, + { + "epoch": 0.510112, + "grad_norm": 0.7979748249053955, + "learning_rate": 1.6599253333333333e-05, + "loss": 0.0197, + "step": 79705 + }, + { + "epoch": 0.510144, + "grad_norm": 0.44655725359916687, + "learning_rate": 1.659904e-05, + "loss": 0.0353, + "step": 79710 + }, + { + "epoch": 0.510176, + "grad_norm": 0.33653780817985535, + "learning_rate": 1.659882666666667e-05, + "loss": 0.0241, + "step": 79715 + }, + { + "epoch": 0.510208, + "grad_norm": 0.03675030544400215, + "learning_rate": 1.6598613333333336e-05, + "loss": 0.0187, + "step": 79720 + }, + { + "epoch": 0.51024, + "grad_norm": 1.7984066009521484, + "learning_rate": 1.65984e-05, + "loss": 0.0227, + "step": 79725 + }, + { + "epoch": 0.510272, + "grad_norm": 0.557871401309967, + "learning_rate": 1.6598186666666668e-05, + "loss": 0.022, + "step": 79730 + }, + { + "epoch": 0.510304, + "grad_norm": 0.4468024969100952, + "learning_rate": 1.6597973333333335e-05, + "loss": 0.0216, + "step": 79735 + }, + { + "epoch": 0.510336, + "grad_norm": 0.052305225282907486, + "learning_rate": 1.659776e-05, + "loss": 0.0178, + "step": 79740 + }, + { + "epoch": 0.510368, + "grad_norm": 1.3905971050262451, + "learning_rate": 1.6597546666666667e-05, + "loss": 0.0245, + "step": 79745 + }, + { + "epoch": 0.5104, + "grad_norm": 0.4713972806930542, + "learning_rate": 1.6597333333333335e-05, + "loss": 0.0201, + "step": 79750 + }, + { + "epoch": 0.510432, + "grad_norm": 0.3757344186306, + "learning_rate": 1.6597120000000002e-05, + "loss": 0.0125, + "step": 79755 + }, + { + "epoch": 0.510464, + "grad_norm": 0.7580118775367737, + "learning_rate": 1.6596906666666666e-05, + "loss": 0.0147, + "step": 79760 + }, + { + "epoch": 0.510496, + "grad_norm": 0.6547214984893799, + "learning_rate": 1.6596693333333337e-05, + "loss": 0.0102, + "step": 79765 + }, + { + "epoch": 0.510528, + "grad_norm": 0.4086601138114929, + "learning_rate": 1.659648e-05, + "loss": 0.0187, + "step": 79770 + }, + { + "epoch": 0.51056, + "grad_norm": 2.308148145675659, + "learning_rate": 1.6596266666666666e-05, + "loss": 0.0339, + "step": 79775 + }, + { + "epoch": 0.510592, + "grad_norm": 1.0104731321334839, + "learning_rate": 1.6596053333333337e-05, + "loss": 0.0241, + "step": 79780 + }, + { + "epoch": 0.510624, + "grad_norm": 1.0932544469833374, + "learning_rate": 1.659584e-05, + "loss": 0.0364, + "step": 79785 + }, + { + "epoch": 0.510656, + "grad_norm": 0.18782579898834229, + "learning_rate": 1.6595626666666668e-05, + "loss": 0.0118, + "step": 79790 + }, + { + "epoch": 0.510688, + "grad_norm": 0.5282196998596191, + "learning_rate": 1.6595413333333336e-05, + "loss": 0.014, + "step": 79795 + }, + { + "epoch": 0.51072, + "grad_norm": 1.2455122470855713, + "learning_rate": 1.6595200000000003e-05, + "loss": 0.0173, + "step": 79800 + }, + { + "epoch": 0.510752, + "grad_norm": 0.8797776103019714, + "learning_rate": 1.6594986666666668e-05, + "loss": 0.0263, + "step": 79805 + }, + { + "epoch": 0.510784, + "grad_norm": 0.24684250354766846, + "learning_rate": 1.6594773333333335e-05, + "loss": 0.0464, + "step": 79810 + }, + { + "epoch": 0.510816, + "grad_norm": 0.8364626169204712, + "learning_rate": 1.6594560000000003e-05, + "loss": 0.0282, + "step": 79815 + }, + { + "epoch": 0.510848, + "grad_norm": 0.13031600415706635, + "learning_rate": 1.6594346666666667e-05, + "loss": 0.0309, + "step": 79820 + }, + { + "epoch": 0.51088, + "grad_norm": 0.5150598287582397, + "learning_rate": 1.6594133333333334e-05, + "loss": 0.0049, + "step": 79825 + }, + { + "epoch": 0.510912, + "grad_norm": 1.4062856435775757, + "learning_rate": 1.6593920000000002e-05, + "loss": 0.0259, + "step": 79830 + }, + { + "epoch": 0.510944, + "grad_norm": 0.0861317440867424, + "learning_rate": 1.659370666666667e-05, + "loss": 0.0195, + "step": 79835 + }, + { + "epoch": 0.510976, + "grad_norm": 0.12467456609010696, + "learning_rate": 1.6593493333333334e-05, + "loss": 0.0297, + "step": 79840 + }, + { + "epoch": 0.511008, + "grad_norm": 0.09302724897861481, + "learning_rate": 1.659328e-05, + "loss": 0.0154, + "step": 79845 + }, + { + "epoch": 0.51104, + "grad_norm": 0.7027472853660583, + "learning_rate": 1.659306666666667e-05, + "loss": 0.0301, + "step": 79850 + }, + { + "epoch": 0.511072, + "grad_norm": 0.32321980595588684, + "learning_rate": 1.6592853333333333e-05, + "loss": 0.021, + "step": 79855 + }, + { + "epoch": 0.511104, + "grad_norm": 0.23208390176296234, + "learning_rate": 1.659264e-05, + "loss": 0.0079, + "step": 79860 + }, + { + "epoch": 0.511136, + "grad_norm": 0.8695778250694275, + "learning_rate": 1.6592426666666668e-05, + "loss": 0.0202, + "step": 79865 + }, + { + "epoch": 0.511168, + "grad_norm": 0.5718615055084229, + "learning_rate": 1.6592213333333336e-05, + "loss": 0.0206, + "step": 79870 + }, + { + "epoch": 0.5112, + "grad_norm": 0.2884591221809387, + "learning_rate": 1.6592000000000003e-05, + "loss": 0.029, + "step": 79875 + }, + { + "epoch": 0.511232, + "grad_norm": 0.2558862268924713, + "learning_rate": 1.6591786666666667e-05, + "loss": 0.0257, + "step": 79880 + }, + { + "epoch": 0.511264, + "grad_norm": 0.6479145288467407, + "learning_rate": 1.6591573333333335e-05, + "loss": 0.0252, + "step": 79885 + }, + { + "epoch": 0.511296, + "grad_norm": 0.9776582717895508, + "learning_rate": 1.6591360000000002e-05, + "loss": 0.0304, + "step": 79890 + }, + { + "epoch": 0.511328, + "grad_norm": 0.3165743350982666, + "learning_rate": 1.659114666666667e-05, + "loss": 0.0216, + "step": 79895 + }, + { + "epoch": 0.51136, + "grad_norm": 0.49521708488464355, + "learning_rate": 1.6590933333333334e-05, + "loss": 0.0126, + "step": 79900 + }, + { + "epoch": 0.511392, + "grad_norm": 2.9277689456939697, + "learning_rate": 1.659072e-05, + "loss": 0.0296, + "step": 79905 + }, + { + "epoch": 0.511424, + "grad_norm": 0.23040318489074707, + "learning_rate": 1.659050666666667e-05, + "loss": 0.0372, + "step": 79910 + }, + { + "epoch": 0.511456, + "grad_norm": 0.3355768322944641, + "learning_rate": 1.6590293333333333e-05, + "loss": 0.0199, + "step": 79915 + }, + { + "epoch": 0.511488, + "grad_norm": 0.3152145445346832, + "learning_rate": 1.659008e-05, + "loss": 0.0243, + "step": 79920 + }, + { + "epoch": 0.51152, + "grad_norm": 0.5098561644554138, + "learning_rate": 1.658986666666667e-05, + "loss": 0.0196, + "step": 79925 + }, + { + "epoch": 0.511552, + "grad_norm": 0.6871427297592163, + "learning_rate": 1.6589653333333336e-05, + "loss": 0.0375, + "step": 79930 + }, + { + "epoch": 0.511584, + "grad_norm": 2.1851248741149902, + "learning_rate": 1.658944e-05, + "loss": 0.0295, + "step": 79935 + }, + { + "epoch": 0.511616, + "grad_norm": 0.7815302610397339, + "learning_rate": 1.6589226666666668e-05, + "loss": 0.032, + "step": 79940 + }, + { + "epoch": 0.511648, + "grad_norm": 0.6958872079849243, + "learning_rate": 1.6589013333333335e-05, + "loss": 0.0278, + "step": 79945 + }, + { + "epoch": 0.51168, + "grad_norm": 0.49393290281295776, + "learning_rate": 1.65888e-05, + "loss": 0.0174, + "step": 79950 + }, + { + "epoch": 0.511712, + "grad_norm": 0.5923187732696533, + "learning_rate": 1.6588586666666667e-05, + "loss": 0.0178, + "step": 79955 + }, + { + "epoch": 0.511744, + "grad_norm": 0.49284225702285767, + "learning_rate": 1.6588373333333335e-05, + "loss": 0.0173, + "step": 79960 + }, + { + "epoch": 0.511776, + "grad_norm": 0.597714364528656, + "learning_rate": 1.6588160000000002e-05, + "loss": 0.0303, + "step": 79965 + }, + { + "epoch": 0.511808, + "grad_norm": 0.7394405603408813, + "learning_rate": 1.6587946666666666e-05, + "loss": 0.0154, + "step": 79970 + }, + { + "epoch": 0.51184, + "grad_norm": 0.8004540801048279, + "learning_rate": 1.6587733333333337e-05, + "loss": 0.0212, + "step": 79975 + }, + { + "epoch": 0.511872, + "grad_norm": 0.45999857783317566, + "learning_rate": 1.658752e-05, + "loss": 0.0205, + "step": 79980 + }, + { + "epoch": 0.511904, + "grad_norm": 0.4252043664455414, + "learning_rate": 1.6587306666666666e-05, + "loss": 0.0445, + "step": 79985 + }, + { + "epoch": 0.511936, + "grad_norm": 1.540603518486023, + "learning_rate": 1.6587093333333337e-05, + "loss": 0.0136, + "step": 79990 + }, + { + "epoch": 0.511968, + "grad_norm": 0.5873512029647827, + "learning_rate": 1.658688e-05, + "loss": 0.0096, + "step": 79995 + }, + { + "epoch": 0.512, + "grad_norm": 0.02579112909734249, + "learning_rate": 1.6586666666666668e-05, + "loss": 0.0185, + "step": 80000 + }, + { + "epoch": 0.512032, + "grad_norm": 0.2544608414173126, + "learning_rate": 1.6586453333333336e-05, + "loss": 0.0122, + "step": 80005 + }, + { + "epoch": 0.512064, + "grad_norm": 0.6798062920570374, + "learning_rate": 1.6586240000000003e-05, + "loss": 0.0161, + "step": 80010 + }, + { + "epoch": 0.512096, + "grad_norm": 0.35436952114105225, + "learning_rate": 1.6586026666666668e-05, + "loss": 0.0219, + "step": 80015 + }, + { + "epoch": 0.512128, + "grad_norm": 1.5381650924682617, + "learning_rate": 1.6585813333333335e-05, + "loss": 0.0368, + "step": 80020 + }, + { + "epoch": 0.51216, + "grad_norm": 2.2264785766601562, + "learning_rate": 1.6585600000000003e-05, + "loss": 0.0251, + "step": 80025 + }, + { + "epoch": 0.512192, + "grad_norm": 0.29838868975639343, + "learning_rate": 1.6585386666666667e-05, + "loss": 0.0198, + "step": 80030 + }, + { + "epoch": 0.512224, + "grad_norm": 0.792473554611206, + "learning_rate": 1.6585173333333334e-05, + "loss": 0.0153, + "step": 80035 + }, + { + "epoch": 0.512256, + "grad_norm": 0.5558256506919861, + "learning_rate": 1.6584960000000002e-05, + "loss": 0.0147, + "step": 80040 + }, + { + "epoch": 0.512288, + "grad_norm": 1.629478096961975, + "learning_rate": 1.658474666666667e-05, + "loss": 0.0238, + "step": 80045 + }, + { + "epoch": 0.51232, + "grad_norm": 0.21317598223686218, + "learning_rate": 1.6584533333333334e-05, + "loss": 0.006, + "step": 80050 + }, + { + "epoch": 0.512352, + "grad_norm": 0.9701548218727112, + "learning_rate": 1.658432e-05, + "loss": 0.045, + "step": 80055 + }, + { + "epoch": 0.512384, + "grad_norm": 0.12355110049247742, + "learning_rate": 1.658410666666667e-05, + "loss": 0.0121, + "step": 80060 + }, + { + "epoch": 0.512416, + "grad_norm": 1.1916698217391968, + "learning_rate": 1.6583893333333333e-05, + "loss": 0.0355, + "step": 80065 + }, + { + "epoch": 0.512448, + "grad_norm": 0.8514293432235718, + "learning_rate": 1.658368e-05, + "loss": 0.035, + "step": 80070 + }, + { + "epoch": 0.51248, + "grad_norm": 1.0545024871826172, + "learning_rate": 1.6583466666666668e-05, + "loss": 0.033, + "step": 80075 + }, + { + "epoch": 0.512512, + "grad_norm": 0.43486276268959045, + "learning_rate": 1.6583253333333336e-05, + "loss": 0.0161, + "step": 80080 + }, + { + "epoch": 0.512544, + "grad_norm": 0.7445582151412964, + "learning_rate": 1.658304e-05, + "loss": 0.0173, + "step": 80085 + }, + { + "epoch": 0.512576, + "grad_norm": 1.940059781074524, + "learning_rate": 1.6582826666666667e-05, + "loss": 0.0365, + "step": 80090 + }, + { + "epoch": 0.512608, + "grad_norm": 0.2360554039478302, + "learning_rate": 1.6582613333333335e-05, + "loss": 0.0185, + "step": 80095 + }, + { + "epoch": 0.51264, + "grad_norm": 2.1712446212768555, + "learning_rate": 1.6582400000000002e-05, + "loss": 0.0397, + "step": 80100 + }, + { + "epoch": 0.512672, + "grad_norm": 0.4907425045967102, + "learning_rate": 1.658218666666667e-05, + "loss": 0.0186, + "step": 80105 + }, + { + "epoch": 0.512704, + "grad_norm": 0.3388071656227112, + "learning_rate": 1.6581973333333334e-05, + "loss": 0.0228, + "step": 80110 + }, + { + "epoch": 0.512736, + "grad_norm": 0.8271106481552124, + "learning_rate": 1.658176e-05, + "loss": 0.0214, + "step": 80115 + }, + { + "epoch": 0.512768, + "grad_norm": 0.0660717785358429, + "learning_rate": 1.658154666666667e-05, + "loss": 0.015, + "step": 80120 + }, + { + "epoch": 0.5128, + "grad_norm": 0.18218719959259033, + "learning_rate": 1.6581333333333333e-05, + "loss": 0.0561, + "step": 80125 + }, + { + "epoch": 0.512832, + "grad_norm": 0.9276912808418274, + "learning_rate": 1.658112e-05, + "loss": 0.0337, + "step": 80130 + }, + { + "epoch": 0.512864, + "grad_norm": 0.05141361430287361, + "learning_rate": 1.658090666666667e-05, + "loss": 0.0216, + "step": 80135 + }, + { + "epoch": 0.512896, + "grad_norm": 0.22221635282039642, + "learning_rate": 1.6580693333333336e-05, + "loss": 0.014, + "step": 80140 + }, + { + "epoch": 0.512928, + "grad_norm": 0.7438838481903076, + "learning_rate": 1.658048e-05, + "loss": 0.0464, + "step": 80145 + }, + { + "epoch": 0.51296, + "grad_norm": 0.5455088019371033, + "learning_rate": 1.6580266666666668e-05, + "loss": 0.0106, + "step": 80150 + }, + { + "epoch": 0.512992, + "grad_norm": 0.7252746820449829, + "learning_rate": 1.6580053333333335e-05, + "loss": 0.0176, + "step": 80155 + }, + { + "epoch": 0.513024, + "grad_norm": 1.5540351867675781, + "learning_rate": 1.657984e-05, + "loss": 0.0317, + "step": 80160 + }, + { + "epoch": 0.513056, + "grad_norm": 0.7787721753120422, + "learning_rate": 1.6579626666666667e-05, + "loss": 0.0201, + "step": 80165 + }, + { + "epoch": 0.513088, + "grad_norm": 0.2354249805212021, + "learning_rate": 1.6579413333333335e-05, + "loss": 0.018, + "step": 80170 + }, + { + "epoch": 0.51312, + "grad_norm": 0.168976828455925, + "learning_rate": 1.6579200000000002e-05, + "loss": 0.0118, + "step": 80175 + }, + { + "epoch": 0.513152, + "grad_norm": 0.9134832620620728, + "learning_rate": 1.6578986666666666e-05, + "loss": 0.0121, + "step": 80180 + }, + { + "epoch": 0.513184, + "grad_norm": 0.16937801241874695, + "learning_rate": 1.6578773333333337e-05, + "loss": 0.0137, + "step": 80185 + }, + { + "epoch": 0.513216, + "grad_norm": 0.5071176290512085, + "learning_rate": 1.657856e-05, + "loss": 0.0093, + "step": 80190 + }, + { + "epoch": 0.513248, + "grad_norm": 2.1707687377929688, + "learning_rate": 1.6578346666666666e-05, + "loss": 0.0353, + "step": 80195 + }, + { + "epoch": 0.51328, + "grad_norm": 0.5595117807388306, + "learning_rate": 1.6578133333333337e-05, + "loss": 0.0227, + "step": 80200 + }, + { + "epoch": 0.513312, + "grad_norm": 0.8625277280807495, + "learning_rate": 1.657792e-05, + "loss": 0.0284, + "step": 80205 + }, + { + "epoch": 0.513344, + "grad_norm": 0.16452324390411377, + "learning_rate": 1.6577706666666668e-05, + "loss": 0.0183, + "step": 80210 + }, + { + "epoch": 0.513376, + "grad_norm": 0.9536478519439697, + "learning_rate": 1.6577493333333336e-05, + "loss": 0.0263, + "step": 80215 + }, + { + "epoch": 0.513408, + "grad_norm": 0.08131294697523117, + "learning_rate": 1.6577280000000003e-05, + "loss": 0.017, + "step": 80220 + }, + { + "epoch": 0.51344, + "grad_norm": 0.4013882279396057, + "learning_rate": 1.6577066666666668e-05, + "loss": 0.0154, + "step": 80225 + }, + { + "epoch": 0.513472, + "grad_norm": 0.6040676236152649, + "learning_rate": 1.6576853333333335e-05, + "loss": 0.013, + "step": 80230 + }, + { + "epoch": 0.513504, + "grad_norm": 0.8280137777328491, + "learning_rate": 1.6576640000000003e-05, + "loss": 0.0136, + "step": 80235 + }, + { + "epoch": 0.513536, + "grad_norm": 0.40726736187934875, + "learning_rate": 1.6576426666666667e-05, + "loss": 0.0306, + "step": 80240 + }, + { + "epoch": 0.513568, + "grad_norm": 1.4744702577590942, + "learning_rate": 1.6576213333333334e-05, + "loss": 0.0259, + "step": 80245 + }, + { + "epoch": 0.5136, + "grad_norm": 0.36169636249542236, + "learning_rate": 1.6576000000000002e-05, + "loss": 0.0363, + "step": 80250 + }, + { + "epoch": 0.513632, + "grad_norm": 0.26117274165153503, + "learning_rate": 1.657578666666667e-05, + "loss": 0.0348, + "step": 80255 + }, + { + "epoch": 0.513664, + "grad_norm": 1.9025858640670776, + "learning_rate": 1.6575573333333334e-05, + "loss": 0.0124, + "step": 80260 + }, + { + "epoch": 0.513696, + "grad_norm": 1.1172267198562622, + "learning_rate": 1.657536e-05, + "loss": 0.024, + "step": 80265 + }, + { + "epoch": 0.513728, + "grad_norm": 0.3511630594730377, + "learning_rate": 1.657514666666667e-05, + "loss": 0.0195, + "step": 80270 + }, + { + "epoch": 0.51376, + "grad_norm": 0.45635727047920227, + "learning_rate": 1.6574933333333333e-05, + "loss": 0.0252, + "step": 80275 + }, + { + "epoch": 0.513792, + "grad_norm": 0.6511969566345215, + "learning_rate": 1.657472e-05, + "loss": 0.014, + "step": 80280 + }, + { + "epoch": 0.513824, + "grad_norm": 0.42786282300949097, + "learning_rate": 1.6574506666666668e-05, + "loss": 0.0259, + "step": 80285 + }, + { + "epoch": 0.513856, + "grad_norm": 0.5137819647789001, + "learning_rate": 1.6574293333333336e-05, + "loss": 0.0141, + "step": 80290 + }, + { + "epoch": 0.513888, + "grad_norm": 0.4692932367324829, + "learning_rate": 1.657408e-05, + "loss": 0.0201, + "step": 80295 + }, + { + "epoch": 0.51392, + "grad_norm": 0.17385689914226532, + "learning_rate": 1.6573866666666667e-05, + "loss": 0.0108, + "step": 80300 + }, + { + "epoch": 0.513952, + "grad_norm": 0.30004456639289856, + "learning_rate": 1.6573653333333335e-05, + "loss": 0.0169, + "step": 80305 + }, + { + "epoch": 0.513984, + "grad_norm": 0.6636072397232056, + "learning_rate": 1.657344e-05, + "loss": 0.0163, + "step": 80310 + }, + { + "epoch": 0.514016, + "grad_norm": 0.3445025086402893, + "learning_rate": 1.657322666666667e-05, + "loss": 0.0454, + "step": 80315 + }, + { + "epoch": 0.514048, + "grad_norm": 0.45650947093963623, + "learning_rate": 1.6573013333333334e-05, + "loss": 0.0145, + "step": 80320 + }, + { + "epoch": 0.51408, + "grad_norm": 1.005354642868042, + "learning_rate": 1.65728e-05, + "loss": 0.0187, + "step": 80325 + }, + { + "epoch": 0.514112, + "grad_norm": 1.5185185670852661, + "learning_rate": 1.657258666666667e-05, + "loss": 0.0238, + "step": 80330 + }, + { + "epoch": 0.514144, + "grad_norm": 1.2025642395019531, + "learning_rate": 1.6572373333333333e-05, + "loss": 0.0228, + "step": 80335 + }, + { + "epoch": 0.514176, + "grad_norm": 0.8589639663696289, + "learning_rate": 1.657216e-05, + "loss": 0.0227, + "step": 80340 + }, + { + "epoch": 0.514208, + "grad_norm": 0.8007364273071289, + "learning_rate": 1.657194666666667e-05, + "loss": 0.02, + "step": 80345 + }, + { + "epoch": 0.51424, + "grad_norm": 0.3329801559448242, + "learning_rate": 1.6571733333333336e-05, + "loss": 0.0087, + "step": 80350 + }, + { + "epoch": 0.514272, + "grad_norm": 0.518516480922699, + "learning_rate": 1.657152e-05, + "loss": 0.0424, + "step": 80355 + }, + { + "epoch": 0.514304, + "grad_norm": 0.6017681360244751, + "learning_rate": 1.6571306666666668e-05, + "loss": 0.0122, + "step": 80360 + }, + { + "epoch": 0.514336, + "grad_norm": 0.7081668972969055, + "learning_rate": 1.6571093333333335e-05, + "loss": 0.0105, + "step": 80365 + }, + { + "epoch": 0.514368, + "grad_norm": 0.5186283588409424, + "learning_rate": 1.657088e-05, + "loss": 0.0103, + "step": 80370 + }, + { + "epoch": 0.5144, + "grad_norm": 0.6398844718933105, + "learning_rate": 1.6570666666666667e-05, + "loss": 0.0163, + "step": 80375 + }, + { + "epoch": 0.514432, + "grad_norm": 0.23875810205936432, + "learning_rate": 1.6570453333333335e-05, + "loss": 0.0245, + "step": 80380 + }, + { + "epoch": 0.514464, + "grad_norm": 0.49951738119125366, + "learning_rate": 1.6570240000000002e-05, + "loss": 0.0142, + "step": 80385 + }, + { + "epoch": 0.514496, + "grad_norm": 0.9273632168769836, + "learning_rate": 1.6570026666666666e-05, + "loss": 0.0234, + "step": 80390 + }, + { + "epoch": 0.514528, + "grad_norm": 0.5958579182624817, + "learning_rate": 1.6569813333333334e-05, + "loss": 0.0214, + "step": 80395 + }, + { + "epoch": 0.51456, + "grad_norm": 0.3286496102809906, + "learning_rate": 1.65696e-05, + "loss": 0.0122, + "step": 80400 + }, + { + "epoch": 0.514592, + "grad_norm": 1.1691149473190308, + "learning_rate": 1.6569386666666666e-05, + "loss": 0.0243, + "step": 80405 + }, + { + "epoch": 0.514624, + "grad_norm": 0.19306625425815582, + "learning_rate": 1.6569173333333337e-05, + "loss": 0.0174, + "step": 80410 + }, + { + "epoch": 0.514656, + "grad_norm": 0.1364334672689438, + "learning_rate": 1.656896e-05, + "loss": 0.0144, + "step": 80415 + }, + { + "epoch": 0.514688, + "grad_norm": 0.7361457943916321, + "learning_rate": 1.6568746666666668e-05, + "loss": 0.0097, + "step": 80420 + }, + { + "epoch": 0.51472, + "grad_norm": 0.1926431953907013, + "learning_rate": 1.6568533333333336e-05, + "loss": 0.0309, + "step": 80425 + }, + { + "epoch": 0.514752, + "grad_norm": 0.29082557559013367, + "learning_rate": 1.6568320000000003e-05, + "loss": 0.0126, + "step": 80430 + }, + { + "epoch": 0.514784, + "grad_norm": 1.0437144041061401, + "learning_rate": 1.6568106666666668e-05, + "loss": 0.04, + "step": 80435 + }, + { + "epoch": 0.514816, + "grad_norm": 0.52554851770401, + "learning_rate": 1.6567893333333335e-05, + "loss": 0.027, + "step": 80440 + }, + { + "epoch": 0.514848, + "grad_norm": 1.172802209854126, + "learning_rate": 1.6567680000000003e-05, + "loss": 0.024, + "step": 80445 + }, + { + "epoch": 0.51488, + "grad_norm": 0.42483529448509216, + "learning_rate": 1.6567466666666667e-05, + "loss": 0.0164, + "step": 80450 + }, + { + "epoch": 0.514912, + "grad_norm": 0.5699626803398132, + "learning_rate": 1.6567253333333334e-05, + "loss": 0.024, + "step": 80455 + }, + { + "epoch": 0.514944, + "grad_norm": 0.11323355883359909, + "learning_rate": 1.6567040000000002e-05, + "loss": 0.0111, + "step": 80460 + }, + { + "epoch": 0.514976, + "grad_norm": 0.19597980380058289, + "learning_rate": 1.656682666666667e-05, + "loss": 0.0062, + "step": 80465 + }, + { + "epoch": 0.515008, + "grad_norm": 0.25269076228141785, + "learning_rate": 1.6566613333333334e-05, + "loss": 0.0095, + "step": 80470 + }, + { + "epoch": 0.51504, + "grad_norm": 0.47063806653022766, + "learning_rate": 1.65664e-05, + "loss": 0.0203, + "step": 80475 + }, + { + "epoch": 0.515072, + "grad_norm": 0.43453267216682434, + "learning_rate": 1.656618666666667e-05, + "loss": 0.0143, + "step": 80480 + }, + { + "epoch": 0.515104, + "grad_norm": 0.8550955057144165, + "learning_rate": 1.6565973333333333e-05, + "loss": 0.019, + "step": 80485 + }, + { + "epoch": 0.515136, + "grad_norm": 0.8283140659332275, + "learning_rate": 1.656576e-05, + "loss": 0.0111, + "step": 80490 + }, + { + "epoch": 0.515168, + "grad_norm": 1.2025858163833618, + "learning_rate": 1.6565546666666668e-05, + "loss": 0.037, + "step": 80495 + }, + { + "epoch": 0.5152, + "grad_norm": 0.9504280090332031, + "learning_rate": 1.6565333333333336e-05, + "loss": 0.0219, + "step": 80500 + }, + { + "epoch": 0.515232, + "grad_norm": 0.8834596276283264, + "learning_rate": 1.656512e-05, + "loss": 0.0171, + "step": 80505 + }, + { + "epoch": 0.515264, + "grad_norm": 3.799884557723999, + "learning_rate": 1.6564906666666667e-05, + "loss": 0.0445, + "step": 80510 + }, + { + "epoch": 0.515296, + "grad_norm": 0.6197044849395752, + "learning_rate": 1.6564693333333335e-05, + "loss": 0.0229, + "step": 80515 + }, + { + "epoch": 0.515328, + "grad_norm": 0.9455029368400574, + "learning_rate": 1.656448e-05, + "loss": 0.0251, + "step": 80520 + }, + { + "epoch": 0.51536, + "grad_norm": 1.0159175395965576, + "learning_rate": 1.656426666666667e-05, + "loss": 0.0284, + "step": 80525 + }, + { + "epoch": 0.515392, + "grad_norm": 0.7341867685317993, + "learning_rate": 1.6564053333333334e-05, + "loss": 0.0217, + "step": 80530 + }, + { + "epoch": 0.515424, + "grad_norm": 0.36519262194633484, + "learning_rate": 1.656384e-05, + "loss": 0.0126, + "step": 80535 + }, + { + "epoch": 0.515456, + "grad_norm": 0.07765252143144608, + "learning_rate": 1.656362666666667e-05, + "loss": 0.0072, + "step": 80540 + }, + { + "epoch": 0.515488, + "grad_norm": 0.6602696180343628, + "learning_rate": 1.6563413333333337e-05, + "loss": 0.0259, + "step": 80545 + }, + { + "epoch": 0.51552, + "grad_norm": 0.3017785847187042, + "learning_rate": 1.65632e-05, + "loss": 0.015, + "step": 80550 + }, + { + "epoch": 0.515552, + "grad_norm": 0.2095489650964737, + "learning_rate": 1.656298666666667e-05, + "loss": 0.0293, + "step": 80555 + }, + { + "epoch": 0.515584, + "grad_norm": 0.6286664009094238, + "learning_rate": 1.6562773333333336e-05, + "loss": 0.0283, + "step": 80560 + }, + { + "epoch": 0.515616, + "grad_norm": 0.7493162751197815, + "learning_rate": 1.656256e-05, + "loss": 0.0281, + "step": 80565 + }, + { + "epoch": 0.515648, + "grad_norm": 0.5068604946136475, + "learning_rate": 1.6562346666666668e-05, + "loss": 0.0209, + "step": 80570 + }, + { + "epoch": 0.51568, + "grad_norm": 1.0926543474197388, + "learning_rate": 1.6562133333333335e-05, + "loss": 0.0102, + "step": 80575 + }, + { + "epoch": 0.515712, + "grad_norm": 0.9036944508552551, + "learning_rate": 1.6561920000000003e-05, + "loss": 0.0247, + "step": 80580 + }, + { + "epoch": 0.515744, + "grad_norm": 0.7090742588043213, + "learning_rate": 1.6561706666666667e-05, + "loss": 0.023, + "step": 80585 + }, + { + "epoch": 0.515776, + "grad_norm": 1.1002556085586548, + "learning_rate": 1.6561493333333335e-05, + "loss": 0.026, + "step": 80590 + }, + { + "epoch": 0.515808, + "grad_norm": 0.9301708936691284, + "learning_rate": 1.6561280000000002e-05, + "loss": 0.0127, + "step": 80595 + }, + { + "epoch": 0.51584, + "grad_norm": 0.5630666017532349, + "learning_rate": 1.6561066666666666e-05, + "loss": 0.0256, + "step": 80600 + }, + { + "epoch": 0.515872, + "grad_norm": 0.5081688761711121, + "learning_rate": 1.6560853333333334e-05, + "loss": 0.0152, + "step": 80605 + }, + { + "epoch": 0.515904, + "grad_norm": 0.8009440302848816, + "learning_rate": 1.656064e-05, + "loss": 0.0109, + "step": 80610 + }, + { + "epoch": 0.515936, + "grad_norm": 0.889519453048706, + "learning_rate": 1.656042666666667e-05, + "loss": 0.0379, + "step": 80615 + }, + { + "epoch": 0.515968, + "grad_norm": 0.572424054145813, + "learning_rate": 1.6560213333333333e-05, + "loss": 0.0071, + "step": 80620 + }, + { + "epoch": 0.516, + "grad_norm": 1.1005916595458984, + "learning_rate": 1.656e-05, + "loss": 0.0329, + "step": 80625 + }, + { + "epoch": 0.516032, + "grad_norm": 0.5182011127471924, + "learning_rate": 1.6559786666666668e-05, + "loss": 0.0194, + "step": 80630 + }, + { + "epoch": 0.516064, + "grad_norm": 1.4467512369155884, + "learning_rate": 1.6559573333333336e-05, + "loss": 0.0277, + "step": 80635 + }, + { + "epoch": 0.516096, + "grad_norm": 0.3910294771194458, + "learning_rate": 1.6559360000000003e-05, + "loss": 0.0175, + "step": 80640 + }, + { + "epoch": 0.516128, + "grad_norm": 0.3132919669151306, + "learning_rate": 1.6559146666666668e-05, + "loss": 0.0132, + "step": 80645 + }, + { + "epoch": 0.51616, + "grad_norm": 0.44792962074279785, + "learning_rate": 1.6558933333333335e-05, + "loss": 0.0198, + "step": 80650 + }, + { + "epoch": 0.516192, + "grad_norm": 1.5112156867980957, + "learning_rate": 1.6558720000000003e-05, + "loss": 0.0169, + "step": 80655 + }, + { + "epoch": 0.516224, + "grad_norm": 0.7242384552955627, + "learning_rate": 1.6558506666666667e-05, + "loss": 0.0183, + "step": 80660 + }, + { + "epoch": 0.516256, + "grad_norm": 0.9259456992149353, + "learning_rate": 1.6558293333333334e-05, + "loss": 0.0247, + "step": 80665 + }, + { + "epoch": 0.516288, + "grad_norm": 0.8359434008598328, + "learning_rate": 1.6558080000000002e-05, + "loss": 0.0309, + "step": 80670 + }, + { + "epoch": 0.51632, + "grad_norm": 1.0749932527542114, + "learning_rate": 1.655786666666667e-05, + "loss": 0.0189, + "step": 80675 + }, + { + "epoch": 0.516352, + "grad_norm": 0.6936481595039368, + "learning_rate": 1.6557653333333334e-05, + "loss": 0.017, + "step": 80680 + }, + { + "epoch": 0.516384, + "grad_norm": 0.3929353654384613, + "learning_rate": 1.655744e-05, + "loss": 0.0295, + "step": 80685 + }, + { + "epoch": 0.516416, + "grad_norm": 0.8757705688476562, + "learning_rate": 1.655722666666667e-05, + "loss": 0.0149, + "step": 80690 + }, + { + "epoch": 0.516448, + "grad_norm": 0.4057745039463043, + "learning_rate": 1.6557013333333333e-05, + "loss": 0.009, + "step": 80695 + }, + { + "epoch": 0.51648, + "grad_norm": 0.761691689491272, + "learning_rate": 1.65568e-05, + "loss": 0.0354, + "step": 80700 + }, + { + "epoch": 0.516512, + "grad_norm": 0.6786340475082397, + "learning_rate": 1.6556586666666668e-05, + "loss": 0.0184, + "step": 80705 + }, + { + "epoch": 0.516544, + "grad_norm": 1.3565387725830078, + "learning_rate": 1.6556373333333336e-05, + "loss": 0.0247, + "step": 80710 + }, + { + "epoch": 0.516576, + "grad_norm": 0.5448354482650757, + "learning_rate": 1.655616e-05, + "loss": 0.0151, + "step": 80715 + }, + { + "epoch": 0.516608, + "grad_norm": 0.07371407002210617, + "learning_rate": 1.655594666666667e-05, + "loss": 0.0092, + "step": 80720 + }, + { + "epoch": 0.51664, + "grad_norm": 0.16601380705833435, + "learning_rate": 1.6555733333333335e-05, + "loss": 0.0202, + "step": 80725 + }, + { + "epoch": 0.516672, + "grad_norm": 0.09328356385231018, + "learning_rate": 1.655552e-05, + "loss": 0.024, + "step": 80730 + }, + { + "epoch": 0.516704, + "grad_norm": 0.10842607170343399, + "learning_rate": 1.655530666666667e-05, + "loss": 0.0173, + "step": 80735 + }, + { + "epoch": 0.516736, + "grad_norm": 0.636827826499939, + "learning_rate": 1.6555093333333334e-05, + "loss": 0.0207, + "step": 80740 + }, + { + "epoch": 0.516768, + "grad_norm": 0.5459290146827698, + "learning_rate": 1.655488e-05, + "loss": 0.0193, + "step": 80745 + }, + { + "epoch": 0.5168, + "grad_norm": 0.2580036222934723, + "learning_rate": 1.655466666666667e-05, + "loss": 0.009, + "step": 80750 + }, + { + "epoch": 0.516832, + "grad_norm": 0.6006302237510681, + "learning_rate": 1.6554453333333337e-05, + "loss": 0.0228, + "step": 80755 + }, + { + "epoch": 0.516864, + "grad_norm": 0.6013938784599304, + "learning_rate": 1.655424e-05, + "loss": 0.0299, + "step": 80760 + }, + { + "epoch": 0.516896, + "grad_norm": 0.37411749362945557, + "learning_rate": 1.655402666666667e-05, + "loss": 0.0091, + "step": 80765 + }, + { + "epoch": 0.516928, + "grad_norm": 0.525984525680542, + "learning_rate": 1.6553813333333336e-05, + "loss": 0.0334, + "step": 80770 + }, + { + "epoch": 0.51696, + "grad_norm": 0.16316837072372437, + "learning_rate": 1.65536e-05, + "loss": 0.0171, + "step": 80775 + }, + { + "epoch": 0.516992, + "grad_norm": 0.15621893107891083, + "learning_rate": 1.6553386666666668e-05, + "loss": 0.024, + "step": 80780 + }, + { + "epoch": 0.517024, + "grad_norm": 0.5800562500953674, + "learning_rate": 1.6553173333333335e-05, + "loss": 0.0194, + "step": 80785 + }, + { + "epoch": 0.517056, + "grad_norm": 1.3375805616378784, + "learning_rate": 1.6552960000000003e-05, + "loss": 0.0346, + "step": 80790 + }, + { + "epoch": 0.517088, + "grad_norm": 0.8363085389137268, + "learning_rate": 1.6552746666666667e-05, + "loss": 0.0345, + "step": 80795 + }, + { + "epoch": 0.51712, + "grad_norm": 0.058502860367298126, + "learning_rate": 1.6552533333333335e-05, + "loss": 0.0201, + "step": 80800 + }, + { + "epoch": 0.517152, + "grad_norm": 0.811663806438446, + "learning_rate": 1.6552320000000002e-05, + "loss": 0.0241, + "step": 80805 + }, + { + "epoch": 0.517184, + "grad_norm": 5.48837947845459, + "learning_rate": 1.6552106666666666e-05, + "loss": 0.0281, + "step": 80810 + }, + { + "epoch": 0.517216, + "grad_norm": 1.2422475814819336, + "learning_rate": 1.6551893333333334e-05, + "loss": 0.0211, + "step": 80815 + }, + { + "epoch": 0.517248, + "grad_norm": 0.45250165462493896, + "learning_rate": 1.655168e-05, + "loss": 0.0152, + "step": 80820 + }, + { + "epoch": 0.51728, + "grad_norm": 0.4826497435569763, + "learning_rate": 1.655146666666667e-05, + "loss": 0.0288, + "step": 80825 + }, + { + "epoch": 0.517312, + "grad_norm": 0.6875635981559753, + "learning_rate": 1.6551253333333333e-05, + "loss": 0.0396, + "step": 80830 + }, + { + "epoch": 0.517344, + "grad_norm": 0.8097713589668274, + "learning_rate": 1.655104e-05, + "loss": 0.0258, + "step": 80835 + }, + { + "epoch": 0.517376, + "grad_norm": 0.19211030006408691, + "learning_rate": 1.6550826666666668e-05, + "loss": 0.0457, + "step": 80840 + }, + { + "epoch": 0.517408, + "grad_norm": 0.47652533650398254, + "learning_rate": 1.6550613333333332e-05, + "loss": 0.0214, + "step": 80845 + }, + { + "epoch": 0.51744, + "grad_norm": 1.5492507219314575, + "learning_rate": 1.6550400000000003e-05, + "loss": 0.0352, + "step": 80850 + }, + { + "epoch": 0.517472, + "grad_norm": 4.309398651123047, + "learning_rate": 1.6550186666666668e-05, + "loss": 0.0156, + "step": 80855 + }, + { + "epoch": 0.517504, + "grad_norm": 0.2410169541835785, + "learning_rate": 1.6549973333333335e-05, + "loss": 0.0086, + "step": 80860 + }, + { + "epoch": 0.517536, + "grad_norm": 0.3236233592033386, + "learning_rate": 1.6549760000000003e-05, + "loss": 0.0194, + "step": 80865 + }, + { + "epoch": 0.517568, + "grad_norm": 0.1692250370979309, + "learning_rate": 1.6549546666666667e-05, + "loss": 0.0213, + "step": 80870 + }, + { + "epoch": 0.5176, + "grad_norm": 0.4147510528564453, + "learning_rate": 1.6549333333333334e-05, + "loss": 0.0166, + "step": 80875 + }, + { + "epoch": 0.517632, + "grad_norm": 0.9001474380493164, + "learning_rate": 1.6549120000000002e-05, + "loss": 0.0318, + "step": 80880 + }, + { + "epoch": 0.517664, + "grad_norm": 0.38487884402275085, + "learning_rate": 1.654890666666667e-05, + "loss": 0.0155, + "step": 80885 + }, + { + "epoch": 0.517696, + "grad_norm": 0.9230271577835083, + "learning_rate": 1.6548693333333334e-05, + "loss": 0.0173, + "step": 80890 + }, + { + "epoch": 0.517728, + "grad_norm": 0.21125560998916626, + "learning_rate": 1.654848e-05, + "loss": 0.0072, + "step": 80895 + }, + { + "epoch": 0.51776, + "grad_norm": 0.27824559807777405, + "learning_rate": 1.654826666666667e-05, + "loss": 0.0238, + "step": 80900 + }, + { + "epoch": 0.517792, + "grad_norm": 0.3979312777519226, + "learning_rate": 1.6548053333333333e-05, + "loss": 0.0188, + "step": 80905 + }, + { + "epoch": 0.517824, + "grad_norm": 0.5541762113571167, + "learning_rate": 1.654784e-05, + "loss": 0.035, + "step": 80910 + }, + { + "epoch": 0.517856, + "grad_norm": 0.27978309988975525, + "learning_rate": 1.6547626666666668e-05, + "loss": 0.0241, + "step": 80915 + }, + { + "epoch": 0.517888, + "grad_norm": 0.3522469997406006, + "learning_rate": 1.6547413333333336e-05, + "loss": 0.0118, + "step": 80920 + }, + { + "epoch": 0.51792, + "grad_norm": 0.6345033049583435, + "learning_rate": 1.65472e-05, + "loss": 0.0236, + "step": 80925 + }, + { + "epoch": 0.517952, + "grad_norm": 0.2041586935520172, + "learning_rate": 1.6546986666666667e-05, + "loss": 0.0167, + "step": 80930 + }, + { + "epoch": 0.517984, + "grad_norm": 0.38722872734069824, + "learning_rate": 1.6546773333333335e-05, + "loss": 0.0337, + "step": 80935 + }, + { + "epoch": 0.518016, + "grad_norm": 0.18387602269649506, + "learning_rate": 1.654656e-05, + "loss": 0.018, + "step": 80940 + }, + { + "epoch": 0.518048, + "grad_norm": 0.41481122374534607, + "learning_rate": 1.654634666666667e-05, + "loss": 0.0278, + "step": 80945 + }, + { + "epoch": 0.51808, + "grad_norm": 0.5950856804847717, + "learning_rate": 1.6546133333333334e-05, + "loss": 0.0343, + "step": 80950 + }, + { + "epoch": 0.518112, + "grad_norm": 2.729067087173462, + "learning_rate": 1.654592e-05, + "loss": 0.0215, + "step": 80955 + }, + { + "epoch": 0.518144, + "grad_norm": 0.2710300087928772, + "learning_rate": 1.654570666666667e-05, + "loss": 0.0196, + "step": 80960 + }, + { + "epoch": 0.518176, + "grad_norm": 1.0303454399108887, + "learning_rate": 1.6545493333333337e-05, + "loss": 0.0143, + "step": 80965 + }, + { + "epoch": 0.518208, + "grad_norm": 0.04471224546432495, + "learning_rate": 1.654528e-05, + "loss": 0.0037, + "step": 80970 + }, + { + "epoch": 0.51824, + "grad_norm": 0.2619251012802124, + "learning_rate": 1.654506666666667e-05, + "loss": 0.0174, + "step": 80975 + }, + { + "epoch": 0.518272, + "grad_norm": 0.7128279209136963, + "learning_rate": 1.6544853333333336e-05, + "loss": 0.0261, + "step": 80980 + }, + { + "epoch": 0.518304, + "grad_norm": 0.48956993222236633, + "learning_rate": 1.654464e-05, + "loss": 0.0185, + "step": 80985 + }, + { + "epoch": 0.518336, + "grad_norm": 0.3835192322731018, + "learning_rate": 1.6544426666666668e-05, + "loss": 0.0186, + "step": 80990 + }, + { + "epoch": 0.518368, + "grad_norm": 1.1116758584976196, + "learning_rate": 1.6544213333333335e-05, + "loss": 0.0127, + "step": 80995 + }, + { + "epoch": 0.5184, + "grad_norm": 0.40938109159469604, + "learning_rate": 1.6544000000000003e-05, + "loss": 0.0188, + "step": 81000 + }, + { + "epoch": 0.518432, + "grad_norm": 0.7357025146484375, + "learning_rate": 1.6543786666666667e-05, + "loss": 0.0125, + "step": 81005 + }, + { + "epoch": 0.518464, + "grad_norm": 0.5393989086151123, + "learning_rate": 1.6543573333333335e-05, + "loss": 0.0199, + "step": 81010 + }, + { + "epoch": 0.518496, + "grad_norm": 0.40854811668395996, + "learning_rate": 1.6543360000000002e-05, + "loss": 0.0162, + "step": 81015 + }, + { + "epoch": 0.518528, + "grad_norm": 0.5528202652931213, + "learning_rate": 1.6543146666666666e-05, + "loss": 0.0121, + "step": 81020 + }, + { + "epoch": 0.51856, + "grad_norm": 0.5228365063667297, + "learning_rate": 1.6542933333333334e-05, + "loss": 0.0233, + "step": 81025 + }, + { + "epoch": 0.518592, + "grad_norm": 0.8515552878379822, + "learning_rate": 1.654272e-05, + "loss": 0.0568, + "step": 81030 + }, + { + "epoch": 0.518624, + "grad_norm": 0.2575840353965759, + "learning_rate": 1.654250666666667e-05, + "loss": 0.0092, + "step": 81035 + }, + { + "epoch": 0.518656, + "grad_norm": 0.15636046230793, + "learning_rate": 1.6542293333333333e-05, + "loss": 0.0191, + "step": 81040 + }, + { + "epoch": 0.518688, + "grad_norm": 0.5511983036994934, + "learning_rate": 1.654208e-05, + "loss": 0.0199, + "step": 81045 + }, + { + "epoch": 0.51872, + "grad_norm": 4.98200798034668, + "learning_rate": 1.6541866666666668e-05, + "loss": 0.0192, + "step": 81050 + }, + { + "epoch": 0.518752, + "grad_norm": 0.05495491623878479, + "learning_rate": 1.6541653333333332e-05, + "loss": 0.0201, + "step": 81055 + }, + { + "epoch": 0.518784, + "grad_norm": 0.29669860005378723, + "learning_rate": 1.6541440000000003e-05, + "loss": 0.0119, + "step": 81060 + }, + { + "epoch": 0.518816, + "grad_norm": 1.4085954427719116, + "learning_rate": 1.6541226666666668e-05, + "loss": 0.0321, + "step": 81065 + }, + { + "epoch": 0.518848, + "grad_norm": 0.3477957546710968, + "learning_rate": 1.6541013333333335e-05, + "loss": 0.0303, + "step": 81070 + }, + { + "epoch": 0.51888, + "grad_norm": 0.5588315725326538, + "learning_rate": 1.6540800000000003e-05, + "loss": 0.0103, + "step": 81075 + }, + { + "epoch": 0.518912, + "grad_norm": 0.44342365860939026, + "learning_rate": 1.6540586666666667e-05, + "loss": 0.0156, + "step": 81080 + }, + { + "epoch": 0.518944, + "grad_norm": 0.14921124279499054, + "learning_rate": 1.6540373333333334e-05, + "loss": 0.006, + "step": 81085 + }, + { + "epoch": 0.518976, + "grad_norm": 0.5982316136360168, + "learning_rate": 1.6540160000000002e-05, + "loss": 0.0267, + "step": 81090 + }, + { + "epoch": 0.519008, + "grad_norm": 0.5140240788459778, + "learning_rate": 1.653994666666667e-05, + "loss": 0.0243, + "step": 81095 + }, + { + "epoch": 0.51904, + "grad_norm": 0.07095852494239807, + "learning_rate": 1.6539733333333334e-05, + "loss": 0.0263, + "step": 81100 + }, + { + "epoch": 0.519072, + "grad_norm": 0.3233521282672882, + "learning_rate": 1.653952e-05, + "loss": 0.0211, + "step": 81105 + }, + { + "epoch": 0.519104, + "grad_norm": 0.5447306036949158, + "learning_rate": 1.653930666666667e-05, + "loss": 0.0219, + "step": 81110 + }, + { + "epoch": 0.519136, + "grad_norm": 0.4838100075721741, + "learning_rate": 1.6539093333333333e-05, + "loss": 0.0263, + "step": 81115 + }, + { + "epoch": 0.519168, + "grad_norm": 0.35690081119537354, + "learning_rate": 1.653888e-05, + "loss": 0.0118, + "step": 81120 + }, + { + "epoch": 0.5192, + "grad_norm": 1.6344906091690063, + "learning_rate": 1.6538666666666668e-05, + "loss": 0.0238, + "step": 81125 + }, + { + "epoch": 0.519232, + "grad_norm": 1.2994563579559326, + "learning_rate": 1.6538453333333336e-05, + "loss": 0.0182, + "step": 81130 + }, + { + "epoch": 0.519264, + "grad_norm": 0.7696510553359985, + "learning_rate": 1.653824e-05, + "loss": 0.0191, + "step": 81135 + }, + { + "epoch": 0.519296, + "grad_norm": 0.7857775688171387, + "learning_rate": 1.6538026666666667e-05, + "loss": 0.0351, + "step": 81140 + }, + { + "epoch": 0.519328, + "grad_norm": 1.5635980367660522, + "learning_rate": 1.6537813333333335e-05, + "loss": 0.0289, + "step": 81145 + }, + { + "epoch": 0.51936, + "grad_norm": 0.3697701096534729, + "learning_rate": 1.65376e-05, + "loss": 0.0323, + "step": 81150 + }, + { + "epoch": 0.519392, + "grad_norm": 0.6776502728462219, + "learning_rate": 1.6537386666666667e-05, + "loss": 0.0154, + "step": 81155 + }, + { + "epoch": 0.519424, + "grad_norm": 0.8373637199401855, + "learning_rate": 1.6537173333333334e-05, + "loss": 0.0119, + "step": 81160 + }, + { + "epoch": 0.519456, + "grad_norm": 1.5119946002960205, + "learning_rate": 1.653696e-05, + "loss": 0.0282, + "step": 81165 + }, + { + "epoch": 0.519488, + "grad_norm": 0.6521193385124207, + "learning_rate": 1.653674666666667e-05, + "loss": 0.0238, + "step": 81170 + }, + { + "epoch": 0.51952, + "grad_norm": 0.7004784345626831, + "learning_rate": 1.6536533333333337e-05, + "loss": 0.0147, + "step": 81175 + }, + { + "epoch": 0.519552, + "grad_norm": 1.1546317338943481, + "learning_rate": 1.653632e-05, + "loss": 0.0115, + "step": 81180 + }, + { + "epoch": 0.519584, + "grad_norm": 1.2306393384933472, + "learning_rate": 1.653610666666667e-05, + "loss": 0.03, + "step": 81185 + }, + { + "epoch": 0.519616, + "grad_norm": 0.26876363158226013, + "learning_rate": 1.6535893333333336e-05, + "loss": 0.013, + "step": 81190 + }, + { + "epoch": 0.519648, + "grad_norm": 0.18663981556892395, + "learning_rate": 1.653568e-05, + "loss": 0.0331, + "step": 81195 + }, + { + "epoch": 0.51968, + "grad_norm": 0.8286161422729492, + "learning_rate": 1.6535466666666668e-05, + "loss": 0.0389, + "step": 81200 + }, + { + "epoch": 0.519712, + "grad_norm": 0.36286044120788574, + "learning_rate": 1.6535253333333335e-05, + "loss": 0.013, + "step": 81205 + }, + { + "epoch": 0.519744, + "grad_norm": 0.5500038266181946, + "learning_rate": 1.6535040000000003e-05, + "loss": 0.0128, + "step": 81210 + }, + { + "epoch": 0.519776, + "grad_norm": 0.19392353296279907, + "learning_rate": 1.6534826666666667e-05, + "loss": 0.0171, + "step": 81215 + }, + { + "epoch": 0.519808, + "grad_norm": 0.7880018949508667, + "learning_rate": 1.6534613333333335e-05, + "loss": 0.0262, + "step": 81220 + }, + { + "epoch": 0.51984, + "grad_norm": 1.179766297340393, + "learning_rate": 1.6534400000000002e-05, + "loss": 0.0162, + "step": 81225 + }, + { + "epoch": 0.519872, + "grad_norm": 0.5436039566993713, + "learning_rate": 1.6534186666666666e-05, + "loss": 0.0219, + "step": 81230 + }, + { + "epoch": 0.519904, + "grad_norm": 0.5057144165039062, + "learning_rate": 1.6533973333333334e-05, + "loss": 0.0162, + "step": 81235 + }, + { + "epoch": 0.519936, + "grad_norm": 0.3688146471977234, + "learning_rate": 1.653376e-05, + "loss": 0.0119, + "step": 81240 + }, + { + "epoch": 0.519968, + "grad_norm": 0.5548928380012512, + "learning_rate": 1.653354666666667e-05, + "loss": 0.0482, + "step": 81245 + }, + { + "epoch": 0.52, + "grad_norm": 0.2485344558954239, + "learning_rate": 1.6533333333333333e-05, + "loss": 0.0133, + "step": 81250 + }, + { + "epoch": 0.520032, + "grad_norm": 0.46320366859436035, + "learning_rate": 1.653312e-05, + "loss": 0.0146, + "step": 81255 + }, + { + "epoch": 0.520064, + "grad_norm": 0.5369628667831421, + "learning_rate": 1.6532906666666668e-05, + "loss": 0.017, + "step": 81260 + }, + { + "epoch": 0.520096, + "grad_norm": 1.2976555824279785, + "learning_rate": 1.6532693333333332e-05, + "loss": 0.0466, + "step": 81265 + }, + { + "epoch": 0.520128, + "grad_norm": 0.12399893999099731, + "learning_rate": 1.6532480000000003e-05, + "loss": 0.0086, + "step": 81270 + }, + { + "epoch": 0.52016, + "grad_norm": 0.283486932516098, + "learning_rate": 1.6532266666666668e-05, + "loss": 0.0169, + "step": 81275 + }, + { + "epoch": 0.520192, + "grad_norm": 1.4349156618118286, + "learning_rate": 1.6532053333333335e-05, + "loss": 0.0187, + "step": 81280 + }, + { + "epoch": 0.520224, + "grad_norm": 0.4227798879146576, + "learning_rate": 1.6531840000000003e-05, + "loss": 0.0143, + "step": 81285 + }, + { + "epoch": 0.520256, + "grad_norm": 0.8515521883964539, + "learning_rate": 1.6531626666666667e-05, + "loss": 0.0308, + "step": 81290 + }, + { + "epoch": 0.520288, + "grad_norm": 0.12142810970544815, + "learning_rate": 1.6531413333333334e-05, + "loss": 0.0137, + "step": 81295 + }, + { + "epoch": 0.52032, + "grad_norm": 0.2671051025390625, + "learning_rate": 1.6531200000000002e-05, + "loss": 0.0136, + "step": 81300 + }, + { + "epoch": 0.520352, + "grad_norm": 0.22207260131835938, + "learning_rate": 1.653098666666667e-05, + "loss": 0.0216, + "step": 81305 + }, + { + "epoch": 0.520384, + "grad_norm": 1.1537671089172363, + "learning_rate": 1.6530773333333334e-05, + "loss": 0.0115, + "step": 81310 + }, + { + "epoch": 0.520416, + "grad_norm": 0.8998000025749207, + "learning_rate": 1.653056e-05, + "loss": 0.0117, + "step": 81315 + }, + { + "epoch": 0.520448, + "grad_norm": 0.8662338256835938, + "learning_rate": 1.653034666666667e-05, + "loss": 0.0142, + "step": 81320 + }, + { + "epoch": 0.52048, + "grad_norm": 1.5624052286148071, + "learning_rate": 1.6530133333333333e-05, + "loss": 0.0379, + "step": 81325 + }, + { + "epoch": 0.520512, + "grad_norm": 0.530722439289093, + "learning_rate": 1.652992e-05, + "loss": 0.0215, + "step": 81330 + }, + { + "epoch": 0.520544, + "grad_norm": 1.071675181388855, + "learning_rate": 1.6529706666666668e-05, + "loss": 0.0212, + "step": 81335 + }, + { + "epoch": 0.520576, + "grad_norm": 0.6258840560913086, + "learning_rate": 1.6529493333333336e-05, + "loss": 0.0324, + "step": 81340 + }, + { + "epoch": 0.520608, + "grad_norm": 0.6399070024490356, + "learning_rate": 1.652928e-05, + "loss": 0.0268, + "step": 81345 + }, + { + "epoch": 0.52064, + "grad_norm": 0.37562310695648193, + "learning_rate": 1.6529066666666667e-05, + "loss": 0.0152, + "step": 81350 + }, + { + "epoch": 0.520672, + "grad_norm": 0.957143247127533, + "learning_rate": 1.6528853333333335e-05, + "loss": 0.027, + "step": 81355 + }, + { + "epoch": 0.520704, + "grad_norm": 0.5613176226615906, + "learning_rate": 1.6528640000000002e-05, + "loss": 0.0153, + "step": 81360 + }, + { + "epoch": 0.520736, + "grad_norm": 0.6895313858985901, + "learning_rate": 1.6528426666666667e-05, + "loss": 0.0154, + "step": 81365 + }, + { + "epoch": 0.520768, + "grad_norm": 0.6676799058914185, + "learning_rate": 1.6528213333333334e-05, + "loss": 0.0214, + "step": 81370 + }, + { + "epoch": 0.5208, + "grad_norm": 0.5275916457176208, + "learning_rate": 1.6528e-05, + "loss": 0.0186, + "step": 81375 + }, + { + "epoch": 0.520832, + "grad_norm": 0.9000453948974609, + "learning_rate": 1.6527786666666666e-05, + "loss": 0.0236, + "step": 81380 + }, + { + "epoch": 0.520864, + "grad_norm": 0.608810544013977, + "learning_rate": 1.6527573333333337e-05, + "loss": 0.0078, + "step": 81385 + }, + { + "epoch": 0.520896, + "grad_norm": 1.2060290575027466, + "learning_rate": 1.652736e-05, + "loss": 0.0316, + "step": 81390 + }, + { + "epoch": 0.520928, + "grad_norm": 1.0168601274490356, + "learning_rate": 1.652714666666667e-05, + "loss": 0.0349, + "step": 81395 + }, + { + "epoch": 0.52096, + "grad_norm": 0.14408105611801147, + "learning_rate": 1.6526933333333336e-05, + "loss": 0.0284, + "step": 81400 + }, + { + "epoch": 0.520992, + "grad_norm": 0.17093200981616974, + "learning_rate": 1.652672e-05, + "loss": 0.0173, + "step": 81405 + }, + { + "epoch": 0.521024, + "grad_norm": 0.6293607354164124, + "learning_rate": 1.6526506666666668e-05, + "loss": 0.0351, + "step": 81410 + }, + { + "epoch": 0.521056, + "grad_norm": 0.8882720470428467, + "learning_rate": 1.6526293333333335e-05, + "loss": 0.0226, + "step": 81415 + }, + { + "epoch": 0.521088, + "grad_norm": 1.493013620376587, + "learning_rate": 1.6526080000000003e-05, + "loss": 0.0435, + "step": 81420 + }, + { + "epoch": 0.52112, + "grad_norm": 1.6380196809768677, + "learning_rate": 1.6525866666666667e-05, + "loss": 0.0616, + "step": 81425 + }, + { + "epoch": 0.521152, + "grad_norm": 0.5344969034194946, + "learning_rate": 1.6525653333333335e-05, + "loss": 0.0153, + "step": 81430 + }, + { + "epoch": 0.521184, + "grad_norm": 1.244545578956604, + "learning_rate": 1.6525440000000002e-05, + "loss": 0.0206, + "step": 81435 + }, + { + "epoch": 0.521216, + "grad_norm": 0.5173976421356201, + "learning_rate": 1.6525226666666666e-05, + "loss": 0.0125, + "step": 81440 + }, + { + "epoch": 0.521248, + "grad_norm": 0.2258605659008026, + "learning_rate": 1.6525013333333334e-05, + "loss": 0.0226, + "step": 81445 + }, + { + "epoch": 0.52128, + "grad_norm": 1.61592698097229, + "learning_rate": 1.65248e-05, + "loss": 0.0241, + "step": 81450 + }, + { + "epoch": 0.521312, + "grad_norm": 0.18885605037212372, + "learning_rate": 1.652458666666667e-05, + "loss": 0.0225, + "step": 81455 + }, + { + "epoch": 0.521344, + "grad_norm": 0.19376297295093536, + "learning_rate": 1.6524373333333333e-05, + "loss": 0.0493, + "step": 81460 + }, + { + "epoch": 0.521376, + "grad_norm": 0.45500442385673523, + "learning_rate": 1.6524160000000004e-05, + "loss": 0.0192, + "step": 81465 + }, + { + "epoch": 0.521408, + "grad_norm": 3.9171979427337646, + "learning_rate": 1.6523946666666668e-05, + "loss": 0.0329, + "step": 81470 + }, + { + "epoch": 0.52144, + "grad_norm": 1.9074572324752808, + "learning_rate": 1.6523733333333332e-05, + "loss": 0.0258, + "step": 81475 + }, + { + "epoch": 0.521472, + "grad_norm": 0.384289026260376, + "learning_rate": 1.6523520000000003e-05, + "loss": 0.0295, + "step": 81480 + }, + { + "epoch": 0.521504, + "grad_norm": 1.0887069702148438, + "learning_rate": 1.6523306666666668e-05, + "loss": 0.0162, + "step": 81485 + }, + { + "epoch": 0.521536, + "grad_norm": 0.5626200437545776, + "learning_rate": 1.6523093333333335e-05, + "loss": 0.01, + "step": 81490 + }, + { + "epoch": 0.521568, + "grad_norm": 0.19619669020175934, + "learning_rate": 1.6522880000000003e-05, + "loss": 0.0143, + "step": 81495 + }, + { + "epoch": 0.5216, + "grad_norm": 0.3771643042564392, + "learning_rate": 1.652266666666667e-05, + "loss": 0.0103, + "step": 81500 + }, + { + "epoch": 0.521632, + "grad_norm": 0.49281740188598633, + "learning_rate": 1.6522453333333334e-05, + "loss": 0.0154, + "step": 81505 + }, + { + "epoch": 0.521664, + "grad_norm": 0.9882069230079651, + "learning_rate": 1.6522240000000002e-05, + "loss": 0.0247, + "step": 81510 + }, + { + "epoch": 0.521696, + "grad_norm": 1.3427973985671997, + "learning_rate": 1.652202666666667e-05, + "loss": 0.0202, + "step": 81515 + }, + { + "epoch": 0.521728, + "grad_norm": 0.4566144347190857, + "learning_rate": 1.6521813333333334e-05, + "loss": 0.0096, + "step": 81520 + }, + { + "epoch": 0.52176, + "grad_norm": 0.45414674282073975, + "learning_rate": 1.65216e-05, + "loss": 0.018, + "step": 81525 + }, + { + "epoch": 0.521792, + "grad_norm": 0.3005341589450836, + "learning_rate": 1.652138666666667e-05, + "loss": 0.0235, + "step": 81530 + }, + { + "epoch": 0.521824, + "grad_norm": 1.3151848316192627, + "learning_rate": 1.6521173333333336e-05, + "loss": 0.0431, + "step": 81535 + }, + { + "epoch": 0.521856, + "grad_norm": 1.3679563999176025, + "learning_rate": 1.652096e-05, + "loss": 0.018, + "step": 81540 + }, + { + "epoch": 0.521888, + "grad_norm": 0.4274211525917053, + "learning_rate": 1.6520746666666668e-05, + "loss": 0.0191, + "step": 81545 + }, + { + "epoch": 0.52192, + "grad_norm": 1.1161385774612427, + "learning_rate": 1.6520533333333336e-05, + "loss": 0.0198, + "step": 81550 + }, + { + "epoch": 0.521952, + "grad_norm": 2.1195342540740967, + "learning_rate": 1.652032e-05, + "loss": 0.0138, + "step": 81555 + }, + { + "epoch": 0.521984, + "grad_norm": 0.7857177257537842, + "learning_rate": 1.6520106666666667e-05, + "loss": 0.0103, + "step": 81560 + }, + { + "epoch": 0.522016, + "grad_norm": 0.8713344931602478, + "learning_rate": 1.6519893333333335e-05, + "loss": 0.0226, + "step": 81565 + }, + { + "epoch": 0.522048, + "grad_norm": 0.3257006108760834, + "learning_rate": 1.6519680000000002e-05, + "loss": 0.0208, + "step": 81570 + }, + { + "epoch": 0.52208, + "grad_norm": 1.2817968130111694, + "learning_rate": 1.6519466666666667e-05, + "loss": 0.0073, + "step": 81575 + }, + { + "epoch": 0.522112, + "grad_norm": 0.36351460218429565, + "learning_rate": 1.6519253333333334e-05, + "loss": 0.0197, + "step": 81580 + }, + { + "epoch": 0.522144, + "grad_norm": 0.17294877767562866, + "learning_rate": 1.651904e-05, + "loss": 0.0169, + "step": 81585 + }, + { + "epoch": 0.522176, + "grad_norm": 1.7376641035079956, + "learning_rate": 1.6518826666666666e-05, + "loss": 0.027, + "step": 81590 + }, + { + "epoch": 0.522208, + "grad_norm": 0.5501102209091187, + "learning_rate": 1.6518613333333337e-05, + "loss": 0.0204, + "step": 81595 + }, + { + "epoch": 0.52224, + "grad_norm": 0.49436840415000916, + "learning_rate": 1.65184e-05, + "loss": 0.0121, + "step": 81600 + }, + { + "epoch": 0.522272, + "grad_norm": 0.6906697154045105, + "learning_rate": 1.651818666666667e-05, + "loss": 0.018, + "step": 81605 + }, + { + "epoch": 0.522304, + "grad_norm": 0.02623431198298931, + "learning_rate": 1.6517973333333336e-05, + "loss": 0.0086, + "step": 81610 + }, + { + "epoch": 0.522336, + "grad_norm": 1.604170560836792, + "learning_rate": 1.651776e-05, + "loss": 0.0257, + "step": 81615 + }, + { + "epoch": 0.522368, + "grad_norm": 0.10314247757196426, + "learning_rate": 1.6517546666666668e-05, + "loss": 0.0179, + "step": 81620 + }, + { + "epoch": 0.5224, + "grad_norm": 0.8191312551498413, + "learning_rate": 1.6517333333333335e-05, + "loss": 0.0169, + "step": 81625 + }, + { + "epoch": 0.522432, + "grad_norm": 1.1478588581085205, + "learning_rate": 1.6517120000000003e-05, + "loss": 0.0219, + "step": 81630 + }, + { + "epoch": 0.522464, + "grad_norm": 0.9693436622619629, + "learning_rate": 1.6516906666666667e-05, + "loss": 0.0738, + "step": 81635 + }, + { + "epoch": 0.522496, + "grad_norm": 1.2483282089233398, + "learning_rate": 1.6516693333333335e-05, + "loss": 0.0305, + "step": 81640 + }, + { + "epoch": 0.522528, + "grad_norm": 0.8040202260017395, + "learning_rate": 1.6516480000000002e-05, + "loss": 0.0283, + "step": 81645 + }, + { + "epoch": 0.52256, + "grad_norm": 0.3741856813430786, + "learning_rate": 1.6516266666666666e-05, + "loss": 0.0178, + "step": 81650 + }, + { + "epoch": 0.522592, + "grad_norm": 0.5409737229347229, + "learning_rate": 1.6516053333333334e-05, + "loss": 0.0135, + "step": 81655 + }, + { + "epoch": 0.522624, + "grad_norm": 0.950702965259552, + "learning_rate": 1.651584e-05, + "loss": 0.0165, + "step": 81660 + }, + { + "epoch": 0.522656, + "grad_norm": 1.4467188119888306, + "learning_rate": 1.651562666666667e-05, + "loss": 0.0185, + "step": 81665 + }, + { + "epoch": 0.522688, + "grad_norm": 0.542765200138092, + "learning_rate": 1.6515413333333333e-05, + "loss": 0.0188, + "step": 81670 + }, + { + "epoch": 0.52272, + "grad_norm": 0.19657500088214874, + "learning_rate": 1.65152e-05, + "loss": 0.018, + "step": 81675 + }, + { + "epoch": 0.522752, + "grad_norm": 0.44254007935523987, + "learning_rate": 1.6514986666666668e-05, + "loss": 0.022, + "step": 81680 + }, + { + "epoch": 0.522784, + "grad_norm": 0.7713656425476074, + "learning_rate": 1.6514773333333332e-05, + "loss": 0.0156, + "step": 81685 + }, + { + "epoch": 0.522816, + "grad_norm": 0.1889628767967224, + "learning_rate": 1.6514560000000003e-05, + "loss": 0.0163, + "step": 81690 + }, + { + "epoch": 0.522848, + "grad_norm": 0.4684852063655853, + "learning_rate": 1.6514346666666668e-05, + "loss": 0.0157, + "step": 81695 + }, + { + "epoch": 0.52288, + "grad_norm": 0.18969666957855225, + "learning_rate": 1.6514133333333335e-05, + "loss": 0.0121, + "step": 81700 + }, + { + "epoch": 0.522912, + "grad_norm": 1.0714551210403442, + "learning_rate": 1.6513920000000003e-05, + "loss": 0.0375, + "step": 81705 + }, + { + "epoch": 0.522944, + "grad_norm": 0.3152138292789459, + "learning_rate": 1.651370666666667e-05, + "loss": 0.0175, + "step": 81710 + }, + { + "epoch": 0.522976, + "grad_norm": 0.11729513108730316, + "learning_rate": 1.6513493333333334e-05, + "loss": 0.0087, + "step": 81715 + }, + { + "epoch": 0.523008, + "grad_norm": 1.486297845840454, + "learning_rate": 1.6513280000000002e-05, + "loss": 0.0377, + "step": 81720 + }, + { + "epoch": 0.52304, + "grad_norm": 0.6218660473823547, + "learning_rate": 1.651306666666667e-05, + "loss": 0.0243, + "step": 81725 + }, + { + "epoch": 0.523072, + "grad_norm": 0.1853528916835785, + "learning_rate": 1.6512853333333334e-05, + "loss": 0.0102, + "step": 81730 + }, + { + "epoch": 0.523104, + "grad_norm": 0.549565315246582, + "learning_rate": 1.651264e-05, + "loss": 0.0298, + "step": 81735 + }, + { + "epoch": 0.523136, + "grad_norm": 0.5624135136604309, + "learning_rate": 1.651242666666667e-05, + "loss": 0.0254, + "step": 81740 + }, + { + "epoch": 0.523168, + "grad_norm": 0.5859848856925964, + "learning_rate": 1.6512213333333336e-05, + "loss": 0.0277, + "step": 81745 + }, + { + "epoch": 0.5232, + "grad_norm": 0.4164476692676544, + "learning_rate": 1.6512e-05, + "loss": 0.0218, + "step": 81750 + }, + { + "epoch": 0.523232, + "grad_norm": 4.85684061050415, + "learning_rate": 1.6511786666666668e-05, + "loss": 0.0242, + "step": 81755 + }, + { + "epoch": 0.523264, + "grad_norm": 0.6974576711654663, + "learning_rate": 1.6511573333333336e-05, + "loss": 0.0148, + "step": 81760 + }, + { + "epoch": 0.523296, + "grad_norm": 0.4565844237804413, + "learning_rate": 1.651136e-05, + "loss": 0.0156, + "step": 81765 + }, + { + "epoch": 0.523328, + "grad_norm": 7.916293621063232, + "learning_rate": 1.6511146666666667e-05, + "loss": 0.0349, + "step": 81770 + }, + { + "epoch": 0.52336, + "grad_norm": 1.0515034198760986, + "learning_rate": 1.6510933333333335e-05, + "loss": 0.0218, + "step": 81775 + }, + { + "epoch": 0.523392, + "grad_norm": 0.7379177212715149, + "learning_rate": 1.6510720000000002e-05, + "loss": 0.0317, + "step": 81780 + }, + { + "epoch": 0.523424, + "grad_norm": 1.3464686870574951, + "learning_rate": 1.6510506666666667e-05, + "loss": 0.0154, + "step": 81785 + }, + { + "epoch": 0.523456, + "grad_norm": 0.5393924117088318, + "learning_rate": 1.6510293333333334e-05, + "loss": 0.0109, + "step": 81790 + }, + { + "epoch": 0.523488, + "grad_norm": 0.4713728427886963, + "learning_rate": 1.651008e-05, + "loss": 0.0117, + "step": 81795 + }, + { + "epoch": 0.52352, + "grad_norm": 0.2752596437931061, + "learning_rate": 1.6509866666666666e-05, + "loss": 0.0253, + "step": 81800 + }, + { + "epoch": 0.523552, + "grad_norm": 1.1555631160736084, + "learning_rate": 1.6509653333333337e-05, + "loss": 0.0255, + "step": 81805 + }, + { + "epoch": 0.523584, + "grad_norm": 1.0744447708129883, + "learning_rate": 1.650944e-05, + "loss": 0.0246, + "step": 81810 + }, + { + "epoch": 0.523616, + "grad_norm": 0.14208045601844788, + "learning_rate": 1.650922666666667e-05, + "loss": 0.0247, + "step": 81815 + }, + { + "epoch": 0.523648, + "grad_norm": 0.5297493934631348, + "learning_rate": 1.6509013333333336e-05, + "loss": 0.0263, + "step": 81820 + }, + { + "epoch": 0.52368, + "grad_norm": 0.11963837593793869, + "learning_rate": 1.65088e-05, + "loss": 0.0178, + "step": 81825 + }, + { + "epoch": 0.523712, + "grad_norm": 0.509769856929779, + "learning_rate": 1.6508586666666668e-05, + "loss": 0.0281, + "step": 81830 + }, + { + "epoch": 0.523744, + "grad_norm": 0.8688201308250427, + "learning_rate": 1.6508373333333335e-05, + "loss": 0.0422, + "step": 81835 + }, + { + "epoch": 0.523776, + "grad_norm": 0.5446838736534119, + "learning_rate": 1.6508160000000003e-05, + "loss": 0.014, + "step": 81840 + }, + { + "epoch": 0.523808, + "grad_norm": 1.066622257232666, + "learning_rate": 1.6507946666666667e-05, + "loss": 0.0304, + "step": 81845 + }, + { + "epoch": 0.52384, + "grad_norm": 0.7511574029922485, + "learning_rate": 1.6507733333333335e-05, + "loss": 0.0181, + "step": 81850 + }, + { + "epoch": 0.523872, + "grad_norm": 0.3464852571487427, + "learning_rate": 1.6507520000000002e-05, + "loss": 0.0122, + "step": 81855 + }, + { + "epoch": 0.523904, + "grad_norm": 0.7449594140052795, + "learning_rate": 1.6507306666666666e-05, + "loss": 0.0262, + "step": 81860 + }, + { + "epoch": 0.523936, + "grad_norm": 0.619819164276123, + "learning_rate": 1.6507093333333334e-05, + "loss": 0.0262, + "step": 81865 + }, + { + "epoch": 0.523968, + "grad_norm": 0.10434675216674805, + "learning_rate": 1.650688e-05, + "loss": 0.0176, + "step": 81870 + }, + { + "epoch": 0.524, + "grad_norm": 0.6452690362930298, + "learning_rate": 1.650666666666667e-05, + "loss": 0.023, + "step": 81875 + }, + { + "epoch": 0.524032, + "grad_norm": 1.2598528861999512, + "learning_rate": 1.6506453333333333e-05, + "loss": 0.0337, + "step": 81880 + }, + { + "epoch": 0.524064, + "grad_norm": 0.7999879121780396, + "learning_rate": 1.650624e-05, + "loss": 0.0301, + "step": 81885 + }, + { + "epoch": 0.524096, + "grad_norm": 0.859149694442749, + "learning_rate": 1.6506026666666668e-05, + "loss": 0.0266, + "step": 81890 + }, + { + "epoch": 0.524128, + "grad_norm": 1.1072936058044434, + "learning_rate": 1.6505813333333332e-05, + "loss": 0.0448, + "step": 81895 + }, + { + "epoch": 0.52416, + "grad_norm": 0.18453526496887207, + "learning_rate": 1.65056e-05, + "loss": 0.0199, + "step": 81900 + }, + { + "epoch": 0.524192, + "grad_norm": 0.17155024409294128, + "learning_rate": 1.6505386666666668e-05, + "loss": 0.0069, + "step": 81905 + }, + { + "epoch": 0.524224, + "grad_norm": 0.29768988490104675, + "learning_rate": 1.6505173333333335e-05, + "loss": 0.0129, + "step": 81910 + }, + { + "epoch": 0.524256, + "grad_norm": 0.41605761647224426, + "learning_rate": 1.6504960000000003e-05, + "loss": 0.0183, + "step": 81915 + }, + { + "epoch": 0.524288, + "grad_norm": 0.6924336552619934, + "learning_rate": 1.650474666666667e-05, + "loss": 0.0155, + "step": 81920 + }, + { + "epoch": 0.52432, + "grad_norm": 0.18471042811870575, + "learning_rate": 1.6504533333333334e-05, + "loss": 0.0136, + "step": 81925 + }, + { + "epoch": 0.524352, + "grad_norm": 0.08918432891368866, + "learning_rate": 1.6504320000000002e-05, + "loss": 0.0205, + "step": 81930 + }, + { + "epoch": 0.524384, + "grad_norm": 0.5934068560600281, + "learning_rate": 1.650410666666667e-05, + "loss": 0.0172, + "step": 81935 + }, + { + "epoch": 0.524416, + "grad_norm": 0.8132457733154297, + "learning_rate": 1.6503893333333334e-05, + "loss": 0.0265, + "step": 81940 + }, + { + "epoch": 0.524448, + "grad_norm": 0.442566841840744, + "learning_rate": 1.650368e-05, + "loss": 0.0125, + "step": 81945 + }, + { + "epoch": 0.52448, + "grad_norm": 0.39917492866516113, + "learning_rate": 1.650346666666667e-05, + "loss": 0.0167, + "step": 81950 + }, + { + "epoch": 0.524512, + "grad_norm": 0.5132825970649719, + "learning_rate": 1.6503253333333336e-05, + "loss": 0.0134, + "step": 81955 + }, + { + "epoch": 0.524544, + "grad_norm": 0.38025060296058655, + "learning_rate": 1.650304e-05, + "loss": 0.0282, + "step": 81960 + }, + { + "epoch": 0.524576, + "grad_norm": 0.36161142587661743, + "learning_rate": 1.6502826666666668e-05, + "loss": 0.012, + "step": 81965 + }, + { + "epoch": 0.524608, + "grad_norm": 0.13656337559223175, + "learning_rate": 1.6502613333333336e-05, + "loss": 0.0156, + "step": 81970 + }, + { + "epoch": 0.52464, + "grad_norm": 0.6455841660499573, + "learning_rate": 1.65024e-05, + "loss": 0.019, + "step": 81975 + }, + { + "epoch": 0.524672, + "grad_norm": 0.42178183794021606, + "learning_rate": 1.6502186666666667e-05, + "loss": 0.0328, + "step": 81980 + }, + { + "epoch": 0.524704, + "grad_norm": 0.8546205163002014, + "learning_rate": 1.6501973333333335e-05, + "loss": 0.0218, + "step": 81985 + }, + { + "epoch": 0.524736, + "grad_norm": 0.877154529094696, + "learning_rate": 1.6501760000000002e-05, + "loss": 0.0838, + "step": 81990 + }, + { + "epoch": 0.524768, + "grad_norm": 0.2774132490158081, + "learning_rate": 1.6501546666666667e-05, + "loss": 0.0104, + "step": 81995 + }, + { + "epoch": 0.5248, + "grad_norm": 0.362498015165329, + "learning_rate": 1.6501333333333334e-05, + "loss": 0.0131, + "step": 82000 + }, + { + "epoch": 0.524832, + "grad_norm": 0.7658569812774658, + "learning_rate": 1.650112e-05, + "loss": 0.008, + "step": 82005 + }, + { + "epoch": 0.524864, + "grad_norm": 0.706631064414978, + "learning_rate": 1.6500906666666666e-05, + "loss": 0.0472, + "step": 82010 + }, + { + "epoch": 0.524896, + "grad_norm": 0.42463377118110657, + "learning_rate": 1.6500693333333337e-05, + "loss": 0.0202, + "step": 82015 + }, + { + "epoch": 0.524928, + "grad_norm": 0.5056118369102478, + "learning_rate": 1.650048e-05, + "loss": 0.0143, + "step": 82020 + }, + { + "epoch": 0.52496, + "grad_norm": 3.4456684589385986, + "learning_rate": 1.650026666666667e-05, + "loss": 0.0278, + "step": 82025 + }, + { + "epoch": 0.524992, + "grad_norm": 0.5803715586662292, + "learning_rate": 1.6500053333333336e-05, + "loss": 0.0227, + "step": 82030 + }, + { + "epoch": 0.525024, + "grad_norm": 0.1019090861082077, + "learning_rate": 1.649984e-05, + "loss": 0.0095, + "step": 82035 + }, + { + "epoch": 0.525056, + "grad_norm": 0.09802091866731644, + "learning_rate": 1.6499626666666668e-05, + "loss": 0.0057, + "step": 82040 + }, + { + "epoch": 0.525088, + "grad_norm": 4.045955181121826, + "learning_rate": 1.6499413333333335e-05, + "loss": 0.0296, + "step": 82045 + }, + { + "epoch": 0.52512, + "grad_norm": 0.17531950771808624, + "learning_rate": 1.6499200000000003e-05, + "loss": 0.0265, + "step": 82050 + }, + { + "epoch": 0.525152, + "grad_norm": 0.6123571395874023, + "learning_rate": 1.6498986666666667e-05, + "loss": 0.0334, + "step": 82055 + }, + { + "epoch": 0.525184, + "grad_norm": 0.4764465391635895, + "learning_rate": 1.6498773333333335e-05, + "loss": 0.0266, + "step": 82060 + }, + { + "epoch": 0.525216, + "grad_norm": 0.3765661120414734, + "learning_rate": 1.6498560000000002e-05, + "loss": 0.0212, + "step": 82065 + }, + { + "epoch": 0.525248, + "grad_norm": 0.5705029368400574, + "learning_rate": 1.6498346666666666e-05, + "loss": 0.0174, + "step": 82070 + }, + { + "epoch": 0.52528, + "grad_norm": 0.30481019616127014, + "learning_rate": 1.6498133333333334e-05, + "loss": 0.012, + "step": 82075 + }, + { + "epoch": 0.525312, + "grad_norm": 0.23324893414974213, + "learning_rate": 1.649792e-05, + "loss": 0.0246, + "step": 82080 + }, + { + "epoch": 0.525344, + "grad_norm": 1.6380178928375244, + "learning_rate": 1.649770666666667e-05, + "loss": 0.027, + "step": 82085 + }, + { + "epoch": 0.525376, + "grad_norm": 0.24358807504177094, + "learning_rate": 1.6497493333333333e-05, + "loss": 0.0098, + "step": 82090 + }, + { + "epoch": 0.525408, + "grad_norm": 0.291029691696167, + "learning_rate": 1.649728e-05, + "loss": 0.0077, + "step": 82095 + }, + { + "epoch": 0.52544, + "grad_norm": 0.6632270216941833, + "learning_rate": 1.6497066666666668e-05, + "loss": 0.0214, + "step": 82100 + }, + { + "epoch": 0.525472, + "grad_norm": 0.5712146759033203, + "learning_rate": 1.6496853333333332e-05, + "loss": 0.0157, + "step": 82105 + }, + { + "epoch": 0.525504, + "grad_norm": 0.4091991186141968, + "learning_rate": 1.649664e-05, + "loss": 0.0075, + "step": 82110 + }, + { + "epoch": 0.525536, + "grad_norm": 0.5366878509521484, + "learning_rate": 1.6496426666666668e-05, + "loss": 0.0184, + "step": 82115 + }, + { + "epoch": 0.525568, + "grad_norm": 1.042444109916687, + "learning_rate": 1.6496213333333335e-05, + "loss": 0.0262, + "step": 82120 + }, + { + "epoch": 0.5256, + "grad_norm": 0.20791937410831451, + "learning_rate": 1.6496e-05, + "loss": 0.0161, + "step": 82125 + }, + { + "epoch": 0.525632, + "grad_norm": 0.5350812077522278, + "learning_rate": 1.649578666666667e-05, + "loss": 0.0156, + "step": 82130 + }, + { + "epoch": 0.525664, + "grad_norm": 0.31520625948905945, + "learning_rate": 1.6495573333333334e-05, + "loss": 0.0076, + "step": 82135 + }, + { + "epoch": 0.525696, + "grad_norm": 0.7773919105529785, + "learning_rate": 1.6495360000000002e-05, + "loss": 0.0264, + "step": 82140 + }, + { + "epoch": 0.525728, + "grad_norm": 1.1927090883255005, + "learning_rate": 1.649514666666667e-05, + "loss": 0.022, + "step": 82145 + }, + { + "epoch": 0.52576, + "grad_norm": 3.6679646968841553, + "learning_rate": 1.6494933333333334e-05, + "loss": 0.0261, + "step": 82150 + }, + { + "epoch": 0.525792, + "grad_norm": 0.5065029859542847, + "learning_rate": 1.649472e-05, + "loss": 0.0134, + "step": 82155 + }, + { + "epoch": 0.525824, + "grad_norm": 1.1294792890548706, + "learning_rate": 1.649450666666667e-05, + "loss": 0.028, + "step": 82160 + }, + { + "epoch": 0.525856, + "grad_norm": 0.49899759888648987, + "learning_rate": 1.6494293333333336e-05, + "loss": 0.0107, + "step": 82165 + }, + { + "epoch": 0.525888, + "grad_norm": 0.575057864189148, + "learning_rate": 1.649408e-05, + "loss": 0.0224, + "step": 82170 + }, + { + "epoch": 0.52592, + "grad_norm": 0.21042722463607788, + "learning_rate": 1.6493866666666668e-05, + "loss": 0.0311, + "step": 82175 + }, + { + "epoch": 0.525952, + "grad_norm": 0.19387072324752808, + "learning_rate": 1.6493653333333336e-05, + "loss": 0.0109, + "step": 82180 + }, + { + "epoch": 0.525984, + "grad_norm": 0.17327545583248138, + "learning_rate": 1.649344e-05, + "loss": 0.0236, + "step": 82185 + }, + { + "epoch": 0.526016, + "grad_norm": 1.194372296333313, + "learning_rate": 1.6493226666666667e-05, + "loss": 0.0454, + "step": 82190 + }, + { + "epoch": 0.526048, + "grad_norm": 0.28963688015937805, + "learning_rate": 1.6493013333333335e-05, + "loss": 0.0074, + "step": 82195 + }, + { + "epoch": 0.52608, + "grad_norm": 0.21229338645935059, + "learning_rate": 1.6492800000000002e-05, + "loss": 0.012, + "step": 82200 + }, + { + "epoch": 0.526112, + "grad_norm": 0.8278080821037292, + "learning_rate": 1.6492586666666667e-05, + "loss": 0.035, + "step": 82205 + }, + { + "epoch": 0.526144, + "grad_norm": 5.803933143615723, + "learning_rate": 1.6492373333333334e-05, + "loss": 0.0356, + "step": 82210 + }, + { + "epoch": 0.526176, + "grad_norm": 0.8547109961509705, + "learning_rate": 1.649216e-05, + "loss": 0.0372, + "step": 82215 + }, + { + "epoch": 0.526208, + "grad_norm": 0.8609755039215088, + "learning_rate": 1.6491946666666666e-05, + "loss": 0.0258, + "step": 82220 + }, + { + "epoch": 0.52624, + "grad_norm": 0.9277835488319397, + "learning_rate": 1.6491733333333337e-05, + "loss": 0.0226, + "step": 82225 + }, + { + "epoch": 0.526272, + "grad_norm": 0.2030479907989502, + "learning_rate": 1.649152e-05, + "loss": 0.0251, + "step": 82230 + }, + { + "epoch": 0.526304, + "grad_norm": 1.2162805795669556, + "learning_rate": 1.649130666666667e-05, + "loss": 0.0279, + "step": 82235 + }, + { + "epoch": 0.526336, + "grad_norm": 0.5345785617828369, + "learning_rate": 1.6491093333333336e-05, + "loss": 0.0169, + "step": 82240 + }, + { + "epoch": 0.526368, + "grad_norm": 0.1150672510266304, + "learning_rate": 1.6490880000000004e-05, + "loss": 0.0084, + "step": 82245 + }, + { + "epoch": 0.5264, + "grad_norm": 0.848419189453125, + "learning_rate": 1.6490666666666668e-05, + "loss": 0.0278, + "step": 82250 + }, + { + "epoch": 0.526432, + "grad_norm": 0.3469729721546173, + "learning_rate": 1.6490453333333335e-05, + "loss": 0.011, + "step": 82255 + }, + { + "epoch": 0.526464, + "grad_norm": 0.43941590189933777, + "learning_rate": 1.6490240000000003e-05, + "loss": 0.0167, + "step": 82260 + }, + { + "epoch": 0.526496, + "grad_norm": 0.8312040567398071, + "learning_rate": 1.6490026666666667e-05, + "loss": 0.0154, + "step": 82265 + }, + { + "epoch": 0.526528, + "grad_norm": 0.7508494257926941, + "learning_rate": 1.6489813333333335e-05, + "loss": 0.0198, + "step": 82270 + }, + { + "epoch": 0.52656, + "grad_norm": 0.6268988847732544, + "learning_rate": 1.6489600000000002e-05, + "loss": 0.027, + "step": 82275 + }, + { + "epoch": 0.526592, + "grad_norm": 3.6960713863372803, + "learning_rate": 1.648938666666667e-05, + "loss": 0.0582, + "step": 82280 + }, + { + "epoch": 0.526624, + "grad_norm": 0.5371091365814209, + "learning_rate": 1.6489173333333334e-05, + "loss": 0.0242, + "step": 82285 + }, + { + "epoch": 0.526656, + "grad_norm": 0.6687237024307251, + "learning_rate": 1.648896e-05, + "loss": 0.0094, + "step": 82290 + }, + { + "epoch": 0.526688, + "grad_norm": 0.420308917760849, + "learning_rate": 1.648874666666667e-05, + "loss": 0.0153, + "step": 82295 + }, + { + "epoch": 0.52672, + "grad_norm": 0.7228540778160095, + "learning_rate": 1.6488533333333333e-05, + "loss": 0.0257, + "step": 82300 + }, + { + "epoch": 0.526752, + "grad_norm": 1.0521053075790405, + "learning_rate": 1.648832e-05, + "loss": 0.0207, + "step": 82305 + }, + { + "epoch": 0.526784, + "grad_norm": 0.9220798015594482, + "learning_rate": 1.6488106666666668e-05, + "loss": 0.0392, + "step": 82310 + }, + { + "epoch": 0.526816, + "grad_norm": 1.1551066637039185, + "learning_rate": 1.6487893333333336e-05, + "loss": 0.0227, + "step": 82315 + }, + { + "epoch": 0.526848, + "grad_norm": 0.4310263991355896, + "learning_rate": 1.648768e-05, + "loss": 0.0176, + "step": 82320 + }, + { + "epoch": 0.52688, + "grad_norm": 0.43571794033050537, + "learning_rate": 1.6487466666666668e-05, + "loss": 0.013, + "step": 82325 + }, + { + "epoch": 0.526912, + "grad_norm": 0.09045209735631943, + "learning_rate": 1.6487253333333335e-05, + "loss": 0.0118, + "step": 82330 + }, + { + "epoch": 0.526944, + "grad_norm": 0.6374046206474304, + "learning_rate": 1.648704e-05, + "loss": 0.0162, + "step": 82335 + }, + { + "epoch": 0.526976, + "grad_norm": 0.9219480752944946, + "learning_rate": 1.648682666666667e-05, + "loss": 0.0229, + "step": 82340 + }, + { + "epoch": 0.527008, + "grad_norm": 0.47922295331954956, + "learning_rate": 1.6486613333333334e-05, + "loss": 0.027, + "step": 82345 + }, + { + "epoch": 0.52704, + "grad_norm": 0.5432674884796143, + "learning_rate": 1.6486400000000002e-05, + "loss": 0.0207, + "step": 82350 + }, + { + "epoch": 0.527072, + "grad_norm": 0.2766619026660919, + "learning_rate": 1.648618666666667e-05, + "loss": 0.0119, + "step": 82355 + }, + { + "epoch": 0.527104, + "grad_norm": 0.5393142700195312, + "learning_rate": 1.6485973333333334e-05, + "loss": 0.0141, + "step": 82360 + }, + { + "epoch": 0.527136, + "grad_norm": 0.020384088158607483, + "learning_rate": 1.648576e-05, + "loss": 0.0202, + "step": 82365 + }, + { + "epoch": 0.527168, + "grad_norm": 0.9771149754524231, + "learning_rate": 1.648554666666667e-05, + "loss": 0.0258, + "step": 82370 + }, + { + "epoch": 0.5272, + "grad_norm": 2.4456868171691895, + "learning_rate": 1.6485333333333336e-05, + "loss": 0.0262, + "step": 82375 + }, + { + "epoch": 0.527232, + "grad_norm": 0.5755835771560669, + "learning_rate": 1.648512e-05, + "loss": 0.0181, + "step": 82380 + }, + { + "epoch": 0.527264, + "grad_norm": 0.590107262134552, + "learning_rate": 1.6484906666666668e-05, + "loss": 0.0259, + "step": 82385 + }, + { + "epoch": 0.527296, + "grad_norm": 0.2549732029438019, + "learning_rate": 1.6484693333333336e-05, + "loss": 0.0191, + "step": 82390 + }, + { + "epoch": 0.527328, + "grad_norm": 2.211085796356201, + "learning_rate": 1.648448e-05, + "loss": 0.015, + "step": 82395 + }, + { + "epoch": 0.52736, + "grad_norm": 0.46885398030281067, + "learning_rate": 1.6484266666666667e-05, + "loss": 0.0212, + "step": 82400 + }, + { + "epoch": 0.527392, + "grad_norm": 0.2831597328186035, + "learning_rate": 1.6484053333333335e-05, + "loss": 0.0254, + "step": 82405 + }, + { + "epoch": 0.527424, + "grad_norm": 0.489890456199646, + "learning_rate": 1.6483840000000002e-05, + "loss": 0.0223, + "step": 82410 + }, + { + "epoch": 0.527456, + "grad_norm": 0.8903192281723022, + "learning_rate": 1.6483626666666667e-05, + "loss": 0.0205, + "step": 82415 + }, + { + "epoch": 0.527488, + "grad_norm": 0.44759035110473633, + "learning_rate": 1.6483413333333334e-05, + "loss": 0.0162, + "step": 82420 + }, + { + "epoch": 0.52752, + "grad_norm": 0.3630794584751129, + "learning_rate": 1.6483200000000002e-05, + "loss": 0.0133, + "step": 82425 + }, + { + "epoch": 0.527552, + "grad_norm": 0.520867109298706, + "learning_rate": 1.6482986666666666e-05, + "loss": 0.0156, + "step": 82430 + }, + { + "epoch": 0.527584, + "grad_norm": 0.1343882530927658, + "learning_rate": 1.6482773333333333e-05, + "loss": 0.0124, + "step": 82435 + }, + { + "epoch": 0.527616, + "grad_norm": 0.9372875094413757, + "learning_rate": 1.648256e-05, + "loss": 0.0324, + "step": 82440 + }, + { + "epoch": 0.527648, + "grad_norm": 0.8466552495956421, + "learning_rate": 1.648234666666667e-05, + "loss": 0.0109, + "step": 82445 + }, + { + "epoch": 0.52768, + "grad_norm": 0.39032530784606934, + "learning_rate": 1.6482133333333336e-05, + "loss": 0.0228, + "step": 82450 + }, + { + "epoch": 0.527712, + "grad_norm": 0.24892646074295044, + "learning_rate": 1.6481920000000004e-05, + "loss": 0.0205, + "step": 82455 + }, + { + "epoch": 0.527744, + "grad_norm": 1.4875478744506836, + "learning_rate": 1.6481706666666668e-05, + "loss": 0.0213, + "step": 82460 + }, + { + "epoch": 0.527776, + "grad_norm": 0.9002281427383423, + "learning_rate": 1.6481493333333335e-05, + "loss": 0.0198, + "step": 82465 + }, + { + "epoch": 0.527808, + "grad_norm": 0.6515896320343018, + "learning_rate": 1.6481280000000003e-05, + "loss": 0.0267, + "step": 82470 + }, + { + "epoch": 0.52784, + "grad_norm": 0.8361537456512451, + "learning_rate": 1.6481066666666667e-05, + "loss": 0.0148, + "step": 82475 + }, + { + "epoch": 0.527872, + "grad_norm": 0.49288392066955566, + "learning_rate": 1.6480853333333335e-05, + "loss": 0.0256, + "step": 82480 + }, + { + "epoch": 0.527904, + "grad_norm": 0.37995991110801697, + "learning_rate": 1.6480640000000002e-05, + "loss": 0.024, + "step": 82485 + }, + { + "epoch": 0.527936, + "grad_norm": 0.13061264157295227, + "learning_rate": 1.648042666666667e-05, + "loss": 0.0144, + "step": 82490 + }, + { + "epoch": 0.527968, + "grad_norm": 0.9072015285491943, + "learning_rate": 1.6480213333333334e-05, + "loss": 0.0232, + "step": 82495 + }, + { + "epoch": 0.528, + "grad_norm": 0.9764361381530762, + "learning_rate": 1.648e-05, + "loss": 0.0154, + "step": 82500 + }, + { + "epoch": 0.528032, + "grad_norm": 1.2560356855392456, + "learning_rate": 1.647978666666667e-05, + "loss": 0.0129, + "step": 82505 + }, + { + "epoch": 0.528064, + "grad_norm": 1.5668258666992188, + "learning_rate": 1.6479573333333333e-05, + "loss": 0.0357, + "step": 82510 + }, + { + "epoch": 0.528096, + "grad_norm": 0.30208778381347656, + "learning_rate": 1.647936e-05, + "loss": 0.0298, + "step": 82515 + }, + { + "epoch": 0.528128, + "grad_norm": 0.6473743915557861, + "learning_rate": 1.6479146666666668e-05, + "loss": 0.0136, + "step": 82520 + }, + { + "epoch": 0.52816, + "grad_norm": 0.534450352191925, + "learning_rate": 1.6478933333333336e-05, + "loss": 0.0114, + "step": 82525 + }, + { + "epoch": 0.528192, + "grad_norm": 0.6112120151519775, + "learning_rate": 1.647872e-05, + "loss": 0.0128, + "step": 82530 + }, + { + "epoch": 0.528224, + "grad_norm": 0.5008924007415771, + "learning_rate": 1.6478506666666668e-05, + "loss": 0.0125, + "step": 82535 + }, + { + "epoch": 0.528256, + "grad_norm": 0.573739767074585, + "learning_rate": 1.6478293333333335e-05, + "loss": 0.0127, + "step": 82540 + }, + { + "epoch": 0.528288, + "grad_norm": 0.46108728647232056, + "learning_rate": 1.647808e-05, + "loss": 0.0182, + "step": 82545 + }, + { + "epoch": 0.52832, + "grad_norm": 0.7251980304718018, + "learning_rate": 1.647786666666667e-05, + "loss": 0.0248, + "step": 82550 + }, + { + "epoch": 0.528352, + "grad_norm": 0.2680182158946991, + "learning_rate": 1.6477653333333334e-05, + "loss": 0.0192, + "step": 82555 + }, + { + "epoch": 0.528384, + "grad_norm": 0.6407483816146851, + "learning_rate": 1.6477440000000002e-05, + "loss": 0.0331, + "step": 82560 + }, + { + "epoch": 0.528416, + "grad_norm": 0.2491997629404068, + "learning_rate": 1.647722666666667e-05, + "loss": 0.0079, + "step": 82565 + }, + { + "epoch": 0.528448, + "grad_norm": 0.539810061454773, + "learning_rate": 1.6477013333333334e-05, + "loss": 0.0137, + "step": 82570 + }, + { + "epoch": 0.52848, + "grad_norm": 0.5233866572380066, + "learning_rate": 1.64768e-05, + "loss": 0.0151, + "step": 82575 + }, + { + "epoch": 0.528512, + "grad_norm": 0.12584969401359558, + "learning_rate": 1.647658666666667e-05, + "loss": 0.0125, + "step": 82580 + }, + { + "epoch": 0.528544, + "grad_norm": 0.11294887214899063, + "learning_rate": 1.6476373333333336e-05, + "loss": 0.0051, + "step": 82585 + }, + { + "epoch": 0.528576, + "grad_norm": 0.6912553906440735, + "learning_rate": 1.647616e-05, + "loss": 0.03, + "step": 82590 + }, + { + "epoch": 0.528608, + "grad_norm": 0.504603385925293, + "learning_rate": 1.6475946666666668e-05, + "loss": 0.0122, + "step": 82595 + }, + { + "epoch": 0.52864, + "grad_norm": 0.5535898804664612, + "learning_rate": 1.6475733333333336e-05, + "loss": 0.0135, + "step": 82600 + }, + { + "epoch": 0.528672, + "grad_norm": 0.1638597995042801, + "learning_rate": 1.647552e-05, + "loss": 0.0172, + "step": 82605 + }, + { + "epoch": 0.528704, + "grad_norm": 1.185177206993103, + "learning_rate": 1.6475306666666667e-05, + "loss": 0.0203, + "step": 82610 + }, + { + "epoch": 0.528736, + "grad_norm": 0.12884898483753204, + "learning_rate": 1.6475093333333335e-05, + "loss": 0.0065, + "step": 82615 + }, + { + "epoch": 0.528768, + "grad_norm": 0.952777624130249, + "learning_rate": 1.6474880000000002e-05, + "loss": 0.0184, + "step": 82620 + }, + { + "epoch": 0.5288, + "grad_norm": 0.5238882899284363, + "learning_rate": 1.6474666666666667e-05, + "loss": 0.0152, + "step": 82625 + }, + { + "epoch": 0.528832, + "grad_norm": 1.0947167873382568, + "learning_rate": 1.6474453333333334e-05, + "loss": 0.0144, + "step": 82630 + }, + { + "epoch": 0.528864, + "grad_norm": 0.23908312618732452, + "learning_rate": 1.6474240000000002e-05, + "loss": 0.0207, + "step": 82635 + }, + { + "epoch": 0.528896, + "grad_norm": 0.7592604160308838, + "learning_rate": 1.6474026666666666e-05, + "loss": 0.0134, + "step": 82640 + }, + { + "epoch": 0.528928, + "grad_norm": 1.6693389415740967, + "learning_rate": 1.6473813333333333e-05, + "loss": 0.0456, + "step": 82645 + }, + { + "epoch": 0.52896, + "grad_norm": 0.5433719158172607, + "learning_rate": 1.64736e-05, + "loss": 0.0203, + "step": 82650 + }, + { + "epoch": 0.528992, + "grad_norm": 0.9941548705101013, + "learning_rate": 1.647338666666667e-05, + "loss": 0.016, + "step": 82655 + }, + { + "epoch": 0.529024, + "grad_norm": 0.630072295665741, + "learning_rate": 1.6473173333333333e-05, + "loss": 0.0103, + "step": 82660 + }, + { + "epoch": 0.529056, + "grad_norm": 0.9247730374336243, + "learning_rate": 1.6472960000000004e-05, + "loss": 0.028, + "step": 82665 + }, + { + "epoch": 0.529088, + "grad_norm": 0.29398396611213684, + "learning_rate": 1.6472746666666668e-05, + "loss": 0.0113, + "step": 82670 + }, + { + "epoch": 0.52912, + "grad_norm": 0.9403890371322632, + "learning_rate": 1.6472533333333335e-05, + "loss": 0.0317, + "step": 82675 + }, + { + "epoch": 0.529152, + "grad_norm": 0.7464730739593506, + "learning_rate": 1.6472320000000003e-05, + "loss": 0.0164, + "step": 82680 + }, + { + "epoch": 0.529184, + "grad_norm": 0.30961477756500244, + "learning_rate": 1.6472106666666667e-05, + "loss": 0.0102, + "step": 82685 + }, + { + "epoch": 0.529216, + "grad_norm": 0.185841903090477, + "learning_rate": 1.6471893333333335e-05, + "loss": 0.006, + "step": 82690 + }, + { + "epoch": 0.529248, + "grad_norm": 2.7535219192504883, + "learning_rate": 1.6471680000000002e-05, + "loss": 0.0243, + "step": 82695 + }, + { + "epoch": 0.52928, + "grad_norm": 0.028160281479358673, + "learning_rate": 1.647146666666667e-05, + "loss": 0.019, + "step": 82700 + }, + { + "epoch": 0.529312, + "grad_norm": 9.193731307983398, + "learning_rate": 1.6471253333333334e-05, + "loss": 0.0361, + "step": 82705 + }, + { + "epoch": 0.529344, + "grad_norm": 3.4561383724212646, + "learning_rate": 1.647104e-05, + "loss": 0.0196, + "step": 82710 + }, + { + "epoch": 0.529376, + "grad_norm": 1.2254010438919067, + "learning_rate": 1.647082666666667e-05, + "loss": 0.053, + "step": 82715 + }, + { + "epoch": 0.529408, + "grad_norm": 0.14346174895763397, + "learning_rate": 1.6470613333333333e-05, + "loss": 0.0071, + "step": 82720 + }, + { + "epoch": 0.52944, + "grad_norm": 0.5287002325057983, + "learning_rate": 1.64704e-05, + "loss": 0.0151, + "step": 82725 + }, + { + "epoch": 0.529472, + "grad_norm": 0.9216222167015076, + "learning_rate": 1.6470186666666668e-05, + "loss": 0.0164, + "step": 82730 + }, + { + "epoch": 0.529504, + "grad_norm": 1.052665114402771, + "learning_rate": 1.6469973333333336e-05, + "loss": 0.0146, + "step": 82735 + }, + { + "epoch": 0.529536, + "grad_norm": 0.9784742593765259, + "learning_rate": 1.646976e-05, + "loss": 0.0196, + "step": 82740 + }, + { + "epoch": 0.529568, + "grad_norm": 0.5150671005249023, + "learning_rate": 1.6469546666666668e-05, + "loss": 0.0187, + "step": 82745 + }, + { + "epoch": 0.5296, + "grad_norm": 0.6779024004936218, + "learning_rate": 1.6469333333333335e-05, + "loss": 0.0142, + "step": 82750 + }, + { + "epoch": 0.529632, + "grad_norm": 0.5628357529640198, + "learning_rate": 1.646912e-05, + "loss": 0.0215, + "step": 82755 + }, + { + "epoch": 0.529664, + "grad_norm": 0.9258934259414673, + "learning_rate": 1.646890666666667e-05, + "loss": 0.0349, + "step": 82760 + }, + { + "epoch": 0.529696, + "grad_norm": 0.09708920866250992, + "learning_rate": 1.6468693333333334e-05, + "loss": 0.0117, + "step": 82765 + }, + { + "epoch": 0.529728, + "grad_norm": 0.9770590662956238, + "learning_rate": 1.6468480000000002e-05, + "loss": 0.0111, + "step": 82770 + }, + { + "epoch": 0.52976, + "grad_norm": 0.396665096282959, + "learning_rate": 1.646826666666667e-05, + "loss": 0.015, + "step": 82775 + }, + { + "epoch": 0.529792, + "grad_norm": 0.12872275710105896, + "learning_rate": 1.6468053333333334e-05, + "loss": 0.0094, + "step": 82780 + }, + { + "epoch": 0.529824, + "grad_norm": 1.265896201133728, + "learning_rate": 1.646784e-05, + "loss": 0.0163, + "step": 82785 + }, + { + "epoch": 0.529856, + "grad_norm": 1.2717421054840088, + "learning_rate": 1.646762666666667e-05, + "loss": 0.0438, + "step": 82790 + }, + { + "epoch": 0.529888, + "grad_norm": 0.26906728744506836, + "learning_rate": 1.6467413333333336e-05, + "loss": 0.016, + "step": 82795 + }, + { + "epoch": 0.52992, + "grad_norm": 0.7511070370674133, + "learning_rate": 1.64672e-05, + "loss": 0.0206, + "step": 82800 + }, + { + "epoch": 0.529952, + "grad_norm": 0.1123819351196289, + "learning_rate": 1.6466986666666668e-05, + "loss": 0.0222, + "step": 82805 + }, + { + "epoch": 0.529984, + "grad_norm": 0.7409687042236328, + "learning_rate": 1.6466773333333336e-05, + "loss": 0.0393, + "step": 82810 + }, + { + "epoch": 0.530016, + "grad_norm": 2.921438694000244, + "learning_rate": 1.646656e-05, + "loss": 0.0105, + "step": 82815 + }, + { + "epoch": 0.530048, + "grad_norm": 0.42880281805992126, + "learning_rate": 1.6466346666666667e-05, + "loss": 0.0336, + "step": 82820 + }, + { + "epoch": 0.53008, + "grad_norm": 0.37546253204345703, + "learning_rate": 1.6466133333333335e-05, + "loss": 0.0413, + "step": 82825 + }, + { + "epoch": 0.530112, + "grad_norm": 0.4527330994606018, + "learning_rate": 1.6465920000000002e-05, + "loss": 0.0192, + "step": 82830 + }, + { + "epoch": 0.530144, + "grad_norm": 0.8140647411346436, + "learning_rate": 1.6465706666666667e-05, + "loss": 0.0124, + "step": 82835 + }, + { + "epoch": 0.530176, + "grad_norm": 0.7172701954841614, + "learning_rate": 1.6465493333333334e-05, + "loss": 0.0233, + "step": 82840 + }, + { + "epoch": 0.530208, + "grad_norm": 0.9182016253471375, + "learning_rate": 1.6465280000000002e-05, + "loss": 0.0236, + "step": 82845 + }, + { + "epoch": 0.53024, + "grad_norm": 0.2454928308725357, + "learning_rate": 1.6465066666666666e-05, + "loss": 0.0126, + "step": 82850 + }, + { + "epoch": 0.530272, + "grad_norm": 0.6427537798881531, + "learning_rate": 1.6464853333333333e-05, + "loss": 0.018, + "step": 82855 + }, + { + "epoch": 0.530304, + "grad_norm": 0.2409583330154419, + "learning_rate": 1.646464e-05, + "loss": 0.0256, + "step": 82860 + }, + { + "epoch": 0.530336, + "grad_norm": 0.5127117037773132, + "learning_rate": 1.646442666666667e-05, + "loss": 0.0219, + "step": 82865 + }, + { + "epoch": 0.530368, + "grad_norm": 0.06836959719657898, + "learning_rate": 1.6464213333333333e-05, + "loss": 0.0149, + "step": 82870 + }, + { + "epoch": 0.5304, + "grad_norm": 3.0442841053009033, + "learning_rate": 1.6464000000000004e-05, + "loss": 0.0247, + "step": 82875 + }, + { + "epoch": 0.530432, + "grad_norm": 0.9482842683792114, + "learning_rate": 1.6463786666666668e-05, + "loss": 0.0438, + "step": 82880 + }, + { + "epoch": 0.530464, + "grad_norm": 0.9162653684616089, + "learning_rate": 1.6463573333333332e-05, + "loss": 0.0302, + "step": 82885 + }, + { + "epoch": 0.530496, + "grad_norm": 0.3559020757675171, + "learning_rate": 1.6463360000000003e-05, + "loss": 0.0131, + "step": 82890 + }, + { + "epoch": 0.530528, + "grad_norm": 0.616004467010498, + "learning_rate": 1.6463146666666667e-05, + "loss": 0.012, + "step": 82895 + }, + { + "epoch": 0.53056, + "grad_norm": 0.537553608417511, + "learning_rate": 1.6462933333333335e-05, + "loss": 0.03, + "step": 82900 + }, + { + "epoch": 0.530592, + "grad_norm": 1.5077487230300903, + "learning_rate": 1.6462720000000002e-05, + "loss": 0.0307, + "step": 82905 + }, + { + "epoch": 0.530624, + "grad_norm": 2.809093952178955, + "learning_rate": 1.646250666666667e-05, + "loss": 0.0348, + "step": 82910 + }, + { + "epoch": 0.530656, + "grad_norm": 0.4773610830307007, + "learning_rate": 1.6462293333333334e-05, + "loss": 0.0358, + "step": 82915 + }, + { + "epoch": 0.530688, + "grad_norm": 0.5070493817329407, + "learning_rate": 1.646208e-05, + "loss": 0.0229, + "step": 82920 + }, + { + "epoch": 0.53072, + "grad_norm": 1.3391283750534058, + "learning_rate": 1.646186666666667e-05, + "loss": 0.016, + "step": 82925 + }, + { + "epoch": 0.530752, + "grad_norm": 1.1575226783752441, + "learning_rate": 1.6461653333333333e-05, + "loss": 0.0306, + "step": 82930 + }, + { + "epoch": 0.530784, + "grad_norm": 1.0598344802856445, + "learning_rate": 1.646144e-05, + "loss": 0.0241, + "step": 82935 + }, + { + "epoch": 0.530816, + "grad_norm": 0.251594215631485, + "learning_rate": 1.6461226666666668e-05, + "loss": 0.0149, + "step": 82940 + }, + { + "epoch": 0.530848, + "grad_norm": 0.33035996556282043, + "learning_rate": 1.6461013333333336e-05, + "loss": 0.0178, + "step": 82945 + }, + { + "epoch": 0.53088, + "grad_norm": 0.910983145236969, + "learning_rate": 1.64608e-05, + "loss": 0.0197, + "step": 82950 + }, + { + "epoch": 0.530912, + "grad_norm": 0.551861047744751, + "learning_rate": 1.6460586666666668e-05, + "loss": 0.0164, + "step": 82955 + }, + { + "epoch": 0.530944, + "grad_norm": 0.43773791193962097, + "learning_rate": 1.6460373333333335e-05, + "loss": 0.0191, + "step": 82960 + }, + { + "epoch": 0.530976, + "grad_norm": 1.0353790521621704, + "learning_rate": 1.646016e-05, + "loss": 0.0357, + "step": 82965 + }, + { + "epoch": 0.531008, + "grad_norm": 0.7929067015647888, + "learning_rate": 1.6459946666666667e-05, + "loss": 0.0177, + "step": 82970 + }, + { + "epoch": 0.53104, + "grad_norm": 0.5040625333786011, + "learning_rate": 1.6459733333333334e-05, + "loss": 0.026, + "step": 82975 + }, + { + "epoch": 0.531072, + "grad_norm": 0.2974269986152649, + "learning_rate": 1.6459520000000002e-05, + "loss": 0.0181, + "step": 82980 + }, + { + "epoch": 0.531104, + "grad_norm": 0.6565783023834229, + "learning_rate": 1.645930666666667e-05, + "loss": 0.0336, + "step": 82985 + }, + { + "epoch": 0.531136, + "grad_norm": 0.2651522755622864, + "learning_rate": 1.6459093333333334e-05, + "loss": 0.0185, + "step": 82990 + }, + { + "epoch": 0.531168, + "grad_norm": 0.34937551617622375, + "learning_rate": 1.645888e-05, + "loss": 0.026, + "step": 82995 + }, + { + "epoch": 0.5312, + "grad_norm": 0.5619164109230042, + "learning_rate": 1.645866666666667e-05, + "loss": 0.0095, + "step": 83000 + }, + { + "epoch": 0.531232, + "grad_norm": 1.3085293769836426, + "learning_rate": 1.6458453333333336e-05, + "loss": 0.019, + "step": 83005 + }, + { + "epoch": 0.531264, + "grad_norm": 0.6737139821052551, + "learning_rate": 1.645824e-05, + "loss": 0.0134, + "step": 83010 + }, + { + "epoch": 0.531296, + "grad_norm": 0.3863179683685303, + "learning_rate": 1.6458026666666668e-05, + "loss": 0.0084, + "step": 83015 + }, + { + "epoch": 0.531328, + "grad_norm": 1.2295726537704468, + "learning_rate": 1.6457813333333336e-05, + "loss": 0.0168, + "step": 83020 + }, + { + "epoch": 0.53136, + "grad_norm": 0.695687472820282, + "learning_rate": 1.64576e-05, + "loss": 0.0159, + "step": 83025 + }, + { + "epoch": 0.531392, + "grad_norm": 0.18357962369918823, + "learning_rate": 1.6457386666666667e-05, + "loss": 0.0257, + "step": 83030 + }, + { + "epoch": 0.531424, + "grad_norm": 0.23092392086982727, + "learning_rate": 1.6457173333333335e-05, + "loss": 0.0394, + "step": 83035 + }, + { + "epoch": 0.531456, + "grad_norm": 0.7267116904258728, + "learning_rate": 1.6456960000000002e-05, + "loss": 0.0205, + "step": 83040 + }, + { + "epoch": 0.531488, + "grad_norm": 0.16469262540340424, + "learning_rate": 1.6456746666666667e-05, + "loss": 0.0137, + "step": 83045 + }, + { + "epoch": 0.53152, + "grad_norm": 0.5051083564758301, + "learning_rate": 1.6456533333333334e-05, + "loss": 0.0192, + "step": 83050 + }, + { + "epoch": 0.531552, + "grad_norm": 0.13041993975639343, + "learning_rate": 1.6456320000000002e-05, + "loss": 0.0093, + "step": 83055 + }, + { + "epoch": 0.531584, + "grad_norm": 1.5342068672180176, + "learning_rate": 1.645610666666667e-05, + "loss": 0.0266, + "step": 83060 + }, + { + "epoch": 0.531616, + "grad_norm": 0.9174461960792542, + "learning_rate": 1.6455893333333333e-05, + "loss": 0.0275, + "step": 83065 + }, + { + "epoch": 0.531648, + "grad_norm": 0.7450546026229858, + "learning_rate": 1.645568e-05, + "loss": 0.0108, + "step": 83070 + }, + { + "epoch": 0.53168, + "grad_norm": 0.6534503698348999, + "learning_rate": 1.645546666666667e-05, + "loss": 0.0356, + "step": 83075 + }, + { + "epoch": 0.531712, + "grad_norm": 0.37666815519332886, + "learning_rate": 1.6455253333333333e-05, + "loss": 0.0059, + "step": 83080 + }, + { + "epoch": 0.531744, + "grad_norm": 0.46143221855163574, + "learning_rate": 1.6455040000000004e-05, + "loss": 0.0238, + "step": 83085 + }, + { + "epoch": 0.531776, + "grad_norm": 0.953308641910553, + "learning_rate": 1.6454826666666668e-05, + "loss": 0.0162, + "step": 83090 + }, + { + "epoch": 0.531808, + "grad_norm": 1.0932533740997314, + "learning_rate": 1.6454613333333335e-05, + "loss": 0.0224, + "step": 83095 + }, + { + "epoch": 0.53184, + "grad_norm": 0.8739035129547119, + "learning_rate": 1.6454400000000003e-05, + "loss": 0.0244, + "step": 83100 + }, + { + "epoch": 0.531872, + "grad_norm": 0.43113279342651367, + "learning_rate": 1.6454186666666667e-05, + "loss": 0.017, + "step": 83105 + }, + { + "epoch": 0.531904, + "grad_norm": 0.45464277267456055, + "learning_rate": 1.6453973333333335e-05, + "loss": 0.0176, + "step": 83110 + }, + { + "epoch": 0.531936, + "grad_norm": 0.8451908826828003, + "learning_rate": 1.6453760000000002e-05, + "loss": 0.0325, + "step": 83115 + }, + { + "epoch": 0.531968, + "grad_norm": 0.4497663974761963, + "learning_rate": 1.645354666666667e-05, + "loss": 0.0314, + "step": 83120 + }, + { + "epoch": 0.532, + "grad_norm": 0.49834945797920227, + "learning_rate": 1.6453333333333334e-05, + "loss": 0.0139, + "step": 83125 + }, + { + "epoch": 0.532032, + "grad_norm": 0.7745583057403564, + "learning_rate": 1.645312e-05, + "loss": 0.0317, + "step": 83130 + }, + { + "epoch": 0.532064, + "grad_norm": 0.19703833758831024, + "learning_rate": 1.645290666666667e-05, + "loss": 0.0317, + "step": 83135 + }, + { + "epoch": 0.532096, + "grad_norm": 0.4181922376155853, + "learning_rate": 1.6452693333333333e-05, + "loss": 0.0143, + "step": 83140 + }, + { + "epoch": 0.532128, + "grad_norm": 0.49131760001182556, + "learning_rate": 1.645248e-05, + "loss": 0.0188, + "step": 83145 + }, + { + "epoch": 0.53216, + "grad_norm": 0.46047940850257874, + "learning_rate": 1.6452266666666668e-05, + "loss": 0.019, + "step": 83150 + }, + { + "epoch": 0.532192, + "grad_norm": 1.601744294166565, + "learning_rate": 1.6452053333333336e-05, + "loss": 0.0089, + "step": 83155 + }, + { + "epoch": 0.532224, + "grad_norm": 0.639509379863739, + "learning_rate": 1.645184e-05, + "loss": 0.0152, + "step": 83160 + }, + { + "epoch": 0.532256, + "grad_norm": 0.7055847644805908, + "learning_rate": 1.6451626666666668e-05, + "loss": 0.016, + "step": 83165 + }, + { + "epoch": 0.532288, + "grad_norm": 2.1762588024139404, + "learning_rate": 1.6451413333333335e-05, + "loss": 0.0476, + "step": 83170 + }, + { + "epoch": 0.53232, + "grad_norm": 0.9645041823387146, + "learning_rate": 1.64512e-05, + "loss": 0.0178, + "step": 83175 + }, + { + "epoch": 0.532352, + "grad_norm": 0.3435106873512268, + "learning_rate": 1.6450986666666667e-05, + "loss": 0.0189, + "step": 83180 + }, + { + "epoch": 0.532384, + "grad_norm": 0.18533742427825928, + "learning_rate": 1.6450773333333334e-05, + "loss": 0.0125, + "step": 83185 + }, + { + "epoch": 0.532416, + "grad_norm": 0.6482087969779968, + "learning_rate": 1.6450560000000002e-05, + "loss": 0.0301, + "step": 83190 + }, + { + "epoch": 0.532448, + "grad_norm": 0.3756622076034546, + "learning_rate": 1.6450346666666666e-05, + "loss": 0.0229, + "step": 83195 + }, + { + "epoch": 0.53248, + "grad_norm": 0.049223724752664566, + "learning_rate": 1.6450133333333337e-05, + "loss": 0.0259, + "step": 83200 + }, + { + "epoch": 0.532512, + "grad_norm": 0.6625412702560425, + "learning_rate": 1.644992e-05, + "loss": 0.0181, + "step": 83205 + }, + { + "epoch": 0.532544, + "grad_norm": 0.5584689378738403, + "learning_rate": 1.644970666666667e-05, + "loss": 0.0135, + "step": 83210 + }, + { + "epoch": 0.532576, + "grad_norm": 0.04825349897146225, + "learning_rate": 1.6449493333333336e-05, + "loss": 0.017, + "step": 83215 + }, + { + "epoch": 0.532608, + "grad_norm": 0.8556225299835205, + "learning_rate": 1.644928e-05, + "loss": 0.0077, + "step": 83220 + }, + { + "epoch": 0.53264, + "grad_norm": 0.18030910193920135, + "learning_rate": 1.6449066666666668e-05, + "loss": 0.0099, + "step": 83225 + }, + { + "epoch": 0.532672, + "grad_norm": 1.0759835243225098, + "learning_rate": 1.6448853333333336e-05, + "loss": 0.021, + "step": 83230 + }, + { + "epoch": 0.532704, + "grad_norm": 0.5499413013458252, + "learning_rate": 1.6448640000000003e-05, + "loss": 0.0169, + "step": 83235 + }, + { + "epoch": 0.532736, + "grad_norm": 0.59783536195755, + "learning_rate": 1.6448426666666667e-05, + "loss": 0.0225, + "step": 83240 + }, + { + "epoch": 0.532768, + "grad_norm": 0.7584688663482666, + "learning_rate": 1.6448213333333335e-05, + "loss": 0.0232, + "step": 83245 + }, + { + "epoch": 0.5328, + "grad_norm": 0.6621682643890381, + "learning_rate": 1.6448000000000002e-05, + "loss": 0.0254, + "step": 83250 + }, + { + "epoch": 0.532832, + "grad_norm": 0.8318074345588684, + "learning_rate": 1.6447786666666667e-05, + "loss": 0.014, + "step": 83255 + }, + { + "epoch": 0.532864, + "grad_norm": 0.17274139821529388, + "learning_rate": 1.6447573333333334e-05, + "loss": 0.0218, + "step": 83260 + }, + { + "epoch": 0.532896, + "grad_norm": 0.3120606243610382, + "learning_rate": 1.6447360000000002e-05, + "loss": 0.0214, + "step": 83265 + }, + { + "epoch": 0.532928, + "grad_norm": 0.7444557547569275, + "learning_rate": 1.644714666666667e-05, + "loss": 0.0245, + "step": 83270 + }, + { + "epoch": 0.53296, + "grad_norm": 0.8313008546829224, + "learning_rate": 1.6446933333333333e-05, + "loss": 0.0255, + "step": 83275 + }, + { + "epoch": 0.532992, + "grad_norm": 0.3557553291320801, + "learning_rate": 1.644672e-05, + "loss": 0.0224, + "step": 83280 + }, + { + "epoch": 0.533024, + "grad_norm": 0.9716001152992249, + "learning_rate": 1.644650666666667e-05, + "loss": 0.01, + "step": 83285 + }, + { + "epoch": 0.533056, + "grad_norm": 0.050777092576026917, + "learning_rate": 1.6446293333333333e-05, + "loss": 0.0104, + "step": 83290 + }, + { + "epoch": 0.533088, + "grad_norm": 0.34142181277275085, + "learning_rate": 1.6446080000000004e-05, + "loss": 0.0162, + "step": 83295 + }, + { + "epoch": 0.53312, + "grad_norm": 0.2080937772989273, + "learning_rate": 1.6445866666666668e-05, + "loss": 0.0066, + "step": 83300 + }, + { + "epoch": 0.533152, + "grad_norm": 0.7331281304359436, + "learning_rate": 1.6445653333333335e-05, + "loss": 0.0186, + "step": 83305 + }, + { + "epoch": 0.533184, + "grad_norm": 0.6794795393943787, + "learning_rate": 1.6445440000000003e-05, + "loss": 0.0171, + "step": 83310 + }, + { + "epoch": 0.533216, + "grad_norm": 2.7103798389434814, + "learning_rate": 1.6445226666666667e-05, + "loss": 0.0357, + "step": 83315 + }, + { + "epoch": 0.533248, + "grad_norm": 0.1250537782907486, + "learning_rate": 1.6445013333333335e-05, + "loss": 0.0109, + "step": 83320 + }, + { + "epoch": 0.53328, + "grad_norm": 0.2890332043170929, + "learning_rate": 1.6444800000000002e-05, + "loss": 0.0109, + "step": 83325 + }, + { + "epoch": 0.533312, + "grad_norm": 0.5706606507301331, + "learning_rate": 1.644458666666667e-05, + "loss": 0.0138, + "step": 83330 + }, + { + "epoch": 0.533344, + "grad_norm": 0.7211686968803406, + "learning_rate": 1.6444373333333334e-05, + "loss": 0.0274, + "step": 83335 + }, + { + "epoch": 0.533376, + "grad_norm": 0.7403396368026733, + "learning_rate": 1.644416e-05, + "loss": 0.0151, + "step": 83340 + }, + { + "epoch": 0.533408, + "grad_norm": 0.5968485474586487, + "learning_rate": 1.644394666666667e-05, + "loss": 0.0231, + "step": 83345 + }, + { + "epoch": 0.53344, + "grad_norm": 0.05884183943271637, + "learning_rate": 1.6443733333333333e-05, + "loss": 0.0177, + "step": 83350 + }, + { + "epoch": 0.533472, + "grad_norm": 0.2913731038570404, + "learning_rate": 1.644352e-05, + "loss": 0.0262, + "step": 83355 + }, + { + "epoch": 0.533504, + "grad_norm": 0.8722193837165833, + "learning_rate": 1.6443306666666668e-05, + "loss": 0.0195, + "step": 83360 + }, + { + "epoch": 0.533536, + "grad_norm": 0.6477087140083313, + "learning_rate": 1.6443093333333336e-05, + "loss": 0.0165, + "step": 83365 + }, + { + "epoch": 0.533568, + "grad_norm": 0.783372163772583, + "learning_rate": 1.644288e-05, + "loss": 0.0211, + "step": 83370 + }, + { + "epoch": 0.5336, + "grad_norm": 0.7950994968414307, + "learning_rate": 1.6442666666666668e-05, + "loss": 0.0225, + "step": 83375 + }, + { + "epoch": 0.533632, + "grad_norm": 0.615450918674469, + "learning_rate": 1.6442453333333335e-05, + "loss": 0.0167, + "step": 83380 + }, + { + "epoch": 0.533664, + "grad_norm": 2.239576816558838, + "learning_rate": 1.644224e-05, + "loss": 0.041, + "step": 83385 + }, + { + "epoch": 0.533696, + "grad_norm": 0.6054454445838928, + "learning_rate": 1.6442026666666667e-05, + "loss": 0.0053, + "step": 83390 + }, + { + "epoch": 0.533728, + "grad_norm": 0.5937151312828064, + "learning_rate": 1.6441813333333334e-05, + "loss": 0.0055, + "step": 83395 + }, + { + "epoch": 0.53376, + "grad_norm": 0.7177573442459106, + "learning_rate": 1.6441600000000002e-05, + "loss": 0.0161, + "step": 83400 + }, + { + "epoch": 0.533792, + "grad_norm": 8.782840728759766, + "learning_rate": 1.6441386666666666e-05, + "loss": 0.0139, + "step": 83405 + }, + { + "epoch": 0.533824, + "grad_norm": 1.0847101211547852, + "learning_rate": 1.6441173333333337e-05, + "loss": 0.0156, + "step": 83410 + }, + { + "epoch": 0.533856, + "grad_norm": 0.1923709511756897, + "learning_rate": 1.644096e-05, + "loss": 0.0106, + "step": 83415 + }, + { + "epoch": 0.533888, + "grad_norm": 0.23380225896835327, + "learning_rate": 1.6440746666666665e-05, + "loss": 0.0234, + "step": 83420 + }, + { + "epoch": 0.53392, + "grad_norm": 0.7639116644859314, + "learning_rate": 1.6440533333333336e-05, + "loss": 0.0167, + "step": 83425 + }, + { + "epoch": 0.533952, + "grad_norm": 0.42137381434440613, + "learning_rate": 1.644032e-05, + "loss": 0.0174, + "step": 83430 + }, + { + "epoch": 0.533984, + "grad_norm": 0.5947057008743286, + "learning_rate": 1.6440106666666668e-05, + "loss": 0.0123, + "step": 83435 + }, + { + "epoch": 0.534016, + "grad_norm": 0.12791462242603302, + "learning_rate": 1.6439893333333336e-05, + "loss": 0.0042, + "step": 83440 + }, + { + "epoch": 0.534048, + "grad_norm": 1.0854195356369019, + "learning_rate": 1.6439680000000003e-05, + "loss": 0.0212, + "step": 83445 + }, + { + "epoch": 0.53408, + "grad_norm": 0.3945417106151581, + "learning_rate": 1.6439466666666667e-05, + "loss": 0.0166, + "step": 83450 + }, + { + "epoch": 0.534112, + "grad_norm": 0.6786118745803833, + "learning_rate": 1.6439253333333335e-05, + "loss": 0.0193, + "step": 83455 + }, + { + "epoch": 0.534144, + "grad_norm": 0.6028194427490234, + "learning_rate": 1.6439040000000002e-05, + "loss": 0.0112, + "step": 83460 + }, + { + "epoch": 0.534176, + "grad_norm": 0.264150470495224, + "learning_rate": 1.6438826666666667e-05, + "loss": 0.0219, + "step": 83465 + }, + { + "epoch": 0.534208, + "grad_norm": 0.636850893497467, + "learning_rate": 1.6438613333333334e-05, + "loss": 0.0155, + "step": 83470 + }, + { + "epoch": 0.53424, + "grad_norm": 1.1130974292755127, + "learning_rate": 1.6438400000000002e-05, + "loss": 0.0171, + "step": 83475 + }, + { + "epoch": 0.534272, + "grad_norm": 0.23699389398097992, + "learning_rate": 1.643818666666667e-05, + "loss": 0.03, + "step": 83480 + }, + { + "epoch": 0.534304, + "grad_norm": 1.7018824815750122, + "learning_rate": 1.6437973333333333e-05, + "loss": 0.0208, + "step": 83485 + }, + { + "epoch": 0.534336, + "grad_norm": 0.7672304511070251, + "learning_rate": 1.643776e-05, + "loss": 0.0196, + "step": 83490 + }, + { + "epoch": 0.534368, + "grad_norm": 0.7377541661262512, + "learning_rate": 1.643754666666667e-05, + "loss": 0.021, + "step": 83495 + }, + { + "epoch": 0.5344, + "grad_norm": 1.4287543296813965, + "learning_rate": 1.6437333333333333e-05, + "loss": 0.0146, + "step": 83500 + }, + { + "epoch": 0.534432, + "grad_norm": 0.265066921710968, + "learning_rate": 1.6437120000000004e-05, + "loss": 0.0082, + "step": 83505 + }, + { + "epoch": 0.534464, + "grad_norm": 0.44941607117652893, + "learning_rate": 1.6436906666666668e-05, + "loss": 0.0124, + "step": 83510 + }, + { + "epoch": 0.534496, + "grad_norm": 0.08503162860870361, + "learning_rate": 1.6436693333333335e-05, + "loss": 0.0215, + "step": 83515 + }, + { + "epoch": 0.534528, + "grad_norm": 0.9683453440666199, + "learning_rate": 1.6436480000000003e-05, + "loss": 0.0114, + "step": 83520 + }, + { + "epoch": 0.53456, + "grad_norm": 0.5365175008773804, + "learning_rate": 1.6436266666666667e-05, + "loss": 0.0265, + "step": 83525 + }, + { + "epoch": 0.534592, + "grad_norm": 2.601080894470215, + "learning_rate": 1.6436053333333335e-05, + "loss": 0.031, + "step": 83530 + }, + { + "epoch": 0.534624, + "grad_norm": 1.1001187562942505, + "learning_rate": 1.6435840000000002e-05, + "loss": 0.026, + "step": 83535 + }, + { + "epoch": 0.534656, + "grad_norm": 0.6139219999313354, + "learning_rate": 1.643562666666667e-05, + "loss": 0.0208, + "step": 83540 + }, + { + "epoch": 0.534688, + "grad_norm": 0.363051176071167, + "learning_rate": 1.6435413333333334e-05, + "loss": 0.0129, + "step": 83545 + }, + { + "epoch": 0.53472, + "grad_norm": 0.29513221979141235, + "learning_rate": 1.64352e-05, + "loss": 0.0349, + "step": 83550 + }, + { + "epoch": 0.534752, + "grad_norm": 0.7688462138175964, + "learning_rate": 1.643498666666667e-05, + "loss": 0.0232, + "step": 83555 + }, + { + "epoch": 0.534784, + "grad_norm": 2.097902536392212, + "learning_rate": 1.6434773333333333e-05, + "loss": 0.0234, + "step": 83560 + }, + { + "epoch": 0.534816, + "grad_norm": 0.4026442766189575, + "learning_rate": 1.643456e-05, + "loss": 0.0121, + "step": 83565 + }, + { + "epoch": 0.534848, + "grad_norm": 0.17325720191001892, + "learning_rate": 1.643434666666667e-05, + "loss": 0.0232, + "step": 83570 + }, + { + "epoch": 0.53488, + "grad_norm": 0.12563705444335938, + "learning_rate": 1.6434133333333336e-05, + "loss": 0.0057, + "step": 83575 + }, + { + "epoch": 0.534912, + "grad_norm": 1.4206005334854126, + "learning_rate": 1.643392e-05, + "loss": 0.0127, + "step": 83580 + }, + { + "epoch": 0.534944, + "grad_norm": 0.6979607343673706, + "learning_rate": 1.6433706666666668e-05, + "loss": 0.0205, + "step": 83585 + }, + { + "epoch": 0.534976, + "grad_norm": 0.256991446018219, + "learning_rate": 1.6433493333333335e-05, + "loss": 0.0122, + "step": 83590 + }, + { + "epoch": 0.535008, + "grad_norm": 0.2786296606063843, + "learning_rate": 1.643328e-05, + "loss": 0.0171, + "step": 83595 + }, + { + "epoch": 0.53504, + "grad_norm": 0.6774431467056274, + "learning_rate": 1.6433066666666667e-05, + "loss": 0.0403, + "step": 83600 + }, + { + "epoch": 0.535072, + "grad_norm": 3.5160388946533203, + "learning_rate": 1.6432853333333334e-05, + "loss": 0.0234, + "step": 83605 + }, + { + "epoch": 0.535104, + "grad_norm": 0.09984199702739716, + "learning_rate": 1.6432640000000002e-05, + "loss": 0.0146, + "step": 83610 + }, + { + "epoch": 0.535136, + "grad_norm": 0.6456149220466614, + "learning_rate": 1.6432426666666666e-05, + "loss": 0.0334, + "step": 83615 + }, + { + "epoch": 0.535168, + "grad_norm": 0.9097926020622253, + "learning_rate": 1.6432213333333337e-05, + "loss": 0.0162, + "step": 83620 + }, + { + "epoch": 0.5352, + "grad_norm": 0.8995928168296814, + "learning_rate": 1.6432e-05, + "loss": 0.0116, + "step": 83625 + }, + { + "epoch": 0.535232, + "grad_norm": 0.3072219491004944, + "learning_rate": 1.6431786666666665e-05, + "loss": 0.0181, + "step": 83630 + }, + { + "epoch": 0.535264, + "grad_norm": 0.47940999269485474, + "learning_rate": 1.6431573333333336e-05, + "loss": 0.0318, + "step": 83635 + }, + { + "epoch": 0.535296, + "grad_norm": 4.778247356414795, + "learning_rate": 1.643136e-05, + "loss": 0.0277, + "step": 83640 + }, + { + "epoch": 0.535328, + "grad_norm": 0.7343232035636902, + "learning_rate": 1.6431146666666668e-05, + "loss": 0.0162, + "step": 83645 + }, + { + "epoch": 0.53536, + "grad_norm": 0.2660776972770691, + "learning_rate": 1.6430933333333336e-05, + "loss": 0.0147, + "step": 83650 + }, + { + "epoch": 0.535392, + "grad_norm": 0.26117536425590515, + "learning_rate": 1.6430720000000003e-05, + "loss": 0.0226, + "step": 83655 + }, + { + "epoch": 0.535424, + "grad_norm": 0.20506377518177032, + "learning_rate": 1.6430506666666667e-05, + "loss": 0.0238, + "step": 83660 + }, + { + "epoch": 0.535456, + "grad_norm": 0.422159343957901, + "learning_rate": 1.6430293333333335e-05, + "loss": 0.0119, + "step": 83665 + }, + { + "epoch": 0.535488, + "grad_norm": 0.554414689540863, + "learning_rate": 1.6430080000000002e-05, + "loss": 0.0179, + "step": 83670 + }, + { + "epoch": 0.53552, + "grad_norm": 0.7977871298789978, + "learning_rate": 1.6429866666666667e-05, + "loss": 0.0259, + "step": 83675 + }, + { + "epoch": 0.535552, + "grad_norm": 0.10083109140396118, + "learning_rate": 1.6429653333333334e-05, + "loss": 0.0312, + "step": 83680 + }, + { + "epoch": 0.535584, + "grad_norm": 0.19257327914237976, + "learning_rate": 1.6429440000000002e-05, + "loss": 0.0121, + "step": 83685 + }, + { + "epoch": 0.535616, + "grad_norm": 2.150480270385742, + "learning_rate": 1.642922666666667e-05, + "loss": 0.0373, + "step": 83690 + }, + { + "epoch": 0.535648, + "grad_norm": 4.285561561584473, + "learning_rate": 1.6429013333333333e-05, + "loss": 0.0439, + "step": 83695 + }, + { + "epoch": 0.53568, + "grad_norm": 0.34162312746047974, + "learning_rate": 1.64288e-05, + "loss": 0.0178, + "step": 83700 + }, + { + "epoch": 0.535712, + "grad_norm": 0.22403265535831451, + "learning_rate": 1.642858666666667e-05, + "loss": 0.0439, + "step": 83705 + }, + { + "epoch": 0.535744, + "grad_norm": 0.12428916245698929, + "learning_rate": 1.6428373333333333e-05, + "loss": 0.0254, + "step": 83710 + }, + { + "epoch": 0.535776, + "grad_norm": 0.44449087977409363, + "learning_rate": 1.642816e-05, + "loss": 0.0156, + "step": 83715 + }, + { + "epoch": 0.535808, + "grad_norm": 0.371725857257843, + "learning_rate": 1.6427946666666668e-05, + "loss": 0.0235, + "step": 83720 + }, + { + "epoch": 0.53584, + "grad_norm": 1.0885562896728516, + "learning_rate": 1.6427733333333335e-05, + "loss": 0.0379, + "step": 83725 + }, + { + "epoch": 0.535872, + "grad_norm": 0.2528837323188782, + "learning_rate": 1.6427520000000003e-05, + "loss": 0.0226, + "step": 83730 + }, + { + "epoch": 0.535904, + "grad_norm": 0.15514086186885834, + "learning_rate": 1.6427306666666667e-05, + "loss": 0.0234, + "step": 83735 + }, + { + "epoch": 0.535936, + "grad_norm": 0.8872383236885071, + "learning_rate": 1.6427093333333335e-05, + "loss": 0.0208, + "step": 83740 + }, + { + "epoch": 0.535968, + "grad_norm": 0.279542475938797, + "learning_rate": 1.6426880000000002e-05, + "loss": 0.0131, + "step": 83745 + }, + { + "epoch": 0.536, + "grad_norm": 0.3751336634159088, + "learning_rate": 1.642666666666667e-05, + "loss": 0.0209, + "step": 83750 + }, + { + "epoch": 0.536032, + "grad_norm": 0.255312979221344, + "learning_rate": 1.6426453333333334e-05, + "loss": 0.0145, + "step": 83755 + }, + { + "epoch": 0.536064, + "grad_norm": 0.6548848748207092, + "learning_rate": 1.642624e-05, + "loss": 0.0192, + "step": 83760 + }, + { + "epoch": 0.536096, + "grad_norm": 0.5463556051254272, + "learning_rate": 1.642602666666667e-05, + "loss": 0.0321, + "step": 83765 + }, + { + "epoch": 0.536128, + "grad_norm": 0.5250793099403381, + "learning_rate": 1.6425813333333333e-05, + "loss": 0.0142, + "step": 83770 + }, + { + "epoch": 0.53616, + "grad_norm": 0.5110134482383728, + "learning_rate": 1.64256e-05, + "loss": 0.0375, + "step": 83775 + }, + { + "epoch": 0.536192, + "grad_norm": 0.7518120408058167, + "learning_rate": 1.642538666666667e-05, + "loss": 0.018, + "step": 83780 + }, + { + "epoch": 0.536224, + "grad_norm": 0.30263686180114746, + "learning_rate": 1.6425173333333336e-05, + "loss": 0.0185, + "step": 83785 + }, + { + "epoch": 0.536256, + "grad_norm": 2.0662312507629395, + "learning_rate": 1.642496e-05, + "loss": 0.0189, + "step": 83790 + }, + { + "epoch": 0.536288, + "grad_norm": 0.3615667521953583, + "learning_rate": 1.6424746666666668e-05, + "loss": 0.0346, + "step": 83795 + }, + { + "epoch": 0.53632, + "grad_norm": 0.07419867813587189, + "learning_rate": 1.6424533333333335e-05, + "loss": 0.0503, + "step": 83800 + }, + { + "epoch": 0.536352, + "grad_norm": 0.7561138272285461, + "learning_rate": 1.642432e-05, + "loss": 0.0143, + "step": 83805 + }, + { + "epoch": 0.536384, + "grad_norm": 0.3951937258243561, + "learning_rate": 1.6424106666666667e-05, + "loss": 0.0191, + "step": 83810 + }, + { + "epoch": 0.536416, + "grad_norm": 0.2533341944217682, + "learning_rate": 1.6423893333333334e-05, + "loss": 0.0213, + "step": 83815 + }, + { + "epoch": 0.536448, + "grad_norm": 0.950014591217041, + "learning_rate": 1.6423680000000002e-05, + "loss": 0.0183, + "step": 83820 + }, + { + "epoch": 0.53648, + "grad_norm": 0.35036617517471313, + "learning_rate": 1.6423466666666666e-05, + "loss": 0.0208, + "step": 83825 + }, + { + "epoch": 0.536512, + "grad_norm": 1.5102019309997559, + "learning_rate": 1.6423253333333337e-05, + "loss": 0.0393, + "step": 83830 + }, + { + "epoch": 0.536544, + "grad_norm": 0.8094120025634766, + "learning_rate": 1.642304e-05, + "loss": 0.0332, + "step": 83835 + }, + { + "epoch": 0.536576, + "grad_norm": 0.639718770980835, + "learning_rate": 1.6422826666666665e-05, + "loss": 0.0107, + "step": 83840 + }, + { + "epoch": 0.536608, + "grad_norm": 0.18311502039432526, + "learning_rate": 1.6422613333333336e-05, + "loss": 0.0084, + "step": 83845 + }, + { + "epoch": 0.53664, + "grad_norm": 0.8819601535797119, + "learning_rate": 1.64224e-05, + "loss": 0.014, + "step": 83850 + }, + { + "epoch": 0.536672, + "grad_norm": 2.071488618850708, + "learning_rate": 1.6422186666666668e-05, + "loss": 0.0196, + "step": 83855 + }, + { + "epoch": 0.536704, + "grad_norm": 0.7461205720901489, + "learning_rate": 1.6421973333333336e-05, + "loss": 0.0132, + "step": 83860 + }, + { + "epoch": 0.536736, + "grad_norm": 2.5713202953338623, + "learning_rate": 1.6421760000000003e-05, + "loss": 0.0176, + "step": 83865 + }, + { + "epoch": 0.536768, + "grad_norm": 0.5874572396278381, + "learning_rate": 1.6421546666666667e-05, + "loss": 0.0155, + "step": 83870 + }, + { + "epoch": 0.5368, + "grad_norm": 0.9249715209007263, + "learning_rate": 1.6421333333333335e-05, + "loss": 0.0291, + "step": 83875 + }, + { + "epoch": 0.536832, + "grad_norm": 0.17111651599407196, + "learning_rate": 1.6421120000000002e-05, + "loss": 0.0081, + "step": 83880 + }, + { + "epoch": 0.536864, + "grad_norm": 0.5386857986450195, + "learning_rate": 1.6420906666666667e-05, + "loss": 0.0222, + "step": 83885 + }, + { + "epoch": 0.536896, + "grad_norm": 0.5194275975227356, + "learning_rate": 1.6420693333333334e-05, + "loss": 0.0231, + "step": 83890 + }, + { + "epoch": 0.536928, + "grad_norm": 0.43385908007621765, + "learning_rate": 1.6420480000000002e-05, + "loss": 0.0113, + "step": 83895 + }, + { + "epoch": 0.53696, + "grad_norm": 1.1027048826217651, + "learning_rate": 1.642026666666667e-05, + "loss": 0.0376, + "step": 83900 + }, + { + "epoch": 0.536992, + "grad_norm": 0.31737279891967773, + "learning_rate": 1.6420053333333333e-05, + "loss": 0.0101, + "step": 83905 + }, + { + "epoch": 0.537024, + "grad_norm": 2.257054090499878, + "learning_rate": 1.641984e-05, + "loss": 0.0118, + "step": 83910 + }, + { + "epoch": 0.537056, + "grad_norm": 0.9716962575912476, + "learning_rate": 1.641962666666667e-05, + "loss": 0.0219, + "step": 83915 + }, + { + "epoch": 0.537088, + "grad_norm": 0.8613206744194031, + "learning_rate": 1.6419413333333333e-05, + "loss": 0.0333, + "step": 83920 + }, + { + "epoch": 0.53712, + "grad_norm": 0.1465824693441391, + "learning_rate": 1.64192e-05, + "loss": 0.0198, + "step": 83925 + }, + { + "epoch": 0.537152, + "grad_norm": 1.1310875415802002, + "learning_rate": 1.6418986666666668e-05, + "loss": 0.0202, + "step": 83930 + }, + { + "epoch": 0.537184, + "grad_norm": 0.4956704378128052, + "learning_rate": 1.6418773333333335e-05, + "loss": 0.0184, + "step": 83935 + }, + { + "epoch": 0.537216, + "grad_norm": 0.7855806946754456, + "learning_rate": 1.641856e-05, + "loss": 0.0171, + "step": 83940 + }, + { + "epoch": 0.537248, + "grad_norm": 0.3483871817588806, + "learning_rate": 1.641834666666667e-05, + "loss": 0.0214, + "step": 83945 + }, + { + "epoch": 0.53728, + "grad_norm": 0.1845649927854538, + "learning_rate": 1.6418133333333335e-05, + "loss": 0.0122, + "step": 83950 + }, + { + "epoch": 0.537312, + "grad_norm": 0.5462138652801514, + "learning_rate": 1.6417920000000002e-05, + "loss": 0.0149, + "step": 83955 + }, + { + "epoch": 0.537344, + "grad_norm": 1.4590052366256714, + "learning_rate": 1.641770666666667e-05, + "loss": 0.0264, + "step": 83960 + }, + { + "epoch": 0.537376, + "grad_norm": 0.05268559232354164, + "learning_rate": 1.6417493333333334e-05, + "loss": 0.0198, + "step": 83965 + }, + { + "epoch": 0.537408, + "grad_norm": 0.09035547077655792, + "learning_rate": 1.641728e-05, + "loss": 0.0098, + "step": 83970 + }, + { + "epoch": 0.53744, + "grad_norm": 0.1247134879231453, + "learning_rate": 1.641706666666667e-05, + "loss": 0.0145, + "step": 83975 + }, + { + "epoch": 0.537472, + "grad_norm": 0.6463872194290161, + "learning_rate": 1.6416853333333337e-05, + "loss": 0.0196, + "step": 83980 + }, + { + "epoch": 0.537504, + "grad_norm": 1.1896055936813354, + "learning_rate": 1.641664e-05, + "loss": 0.0159, + "step": 83985 + }, + { + "epoch": 0.537536, + "grad_norm": 0.47664934396743774, + "learning_rate": 1.641642666666667e-05, + "loss": 0.0157, + "step": 83990 + }, + { + "epoch": 0.537568, + "grad_norm": 0.6472154855728149, + "learning_rate": 1.6416213333333336e-05, + "loss": 0.0171, + "step": 83995 + }, + { + "epoch": 0.5376, + "grad_norm": 0.32232430577278137, + "learning_rate": 1.6416e-05, + "loss": 0.0113, + "step": 84000 + }, + { + "epoch": 0.537632, + "grad_norm": 0.34384357929229736, + "learning_rate": 1.6415786666666668e-05, + "loss": 0.0141, + "step": 84005 + }, + { + "epoch": 0.537664, + "grad_norm": 0.7287777066230774, + "learning_rate": 1.6415573333333335e-05, + "loss": 0.0095, + "step": 84010 + }, + { + "epoch": 0.537696, + "grad_norm": 0.8088982105255127, + "learning_rate": 1.6415360000000003e-05, + "loss": 0.0136, + "step": 84015 + }, + { + "epoch": 0.537728, + "grad_norm": 0.12403013557195663, + "learning_rate": 1.6415146666666667e-05, + "loss": 0.0146, + "step": 84020 + }, + { + "epoch": 0.53776, + "grad_norm": 0.5590583682060242, + "learning_rate": 1.6414933333333334e-05, + "loss": 0.0255, + "step": 84025 + }, + { + "epoch": 0.537792, + "grad_norm": 0.6078991889953613, + "learning_rate": 1.6414720000000002e-05, + "loss": 0.009, + "step": 84030 + }, + { + "epoch": 0.537824, + "grad_norm": 1.464607834815979, + "learning_rate": 1.6414506666666666e-05, + "loss": 0.021, + "step": 84035 + }, + { + "epoch": 0.537856, + "grad_norm": 1.2078481912612915, + "learning_rate": 1.6414293333333337e-05, + "loss": 0.0257, + "step": 84040 + }, + { + "epoch": 0.537888, + "grad_norm": 0.834602415561676, + "learning_rate": 1.641408e-05, + "loss": 0.0168, + "step": 84045 + }, + { + "epoch": 0.53792, + "grad_norm": 1.0320816040039062, + "learning_rate": 1.641386666666667e-05, + "loss": 0.0155, + "step": 84050 + }, + { + "epoch": 0.537952, + "grad_norm": 0.6130101680755615, + "learning_rate": 1.6413653333333336e-05, + "loss": 0.0267, + "step": 84055 + }, + { + "epoch": 0.537984, + "grad_norm": 0.746065080165863, + "learning_rate": 1.641344e-05, + "loss": 0.0418, + "step": 84060 + }, + { + "epoch": 0.538016, + "grad_norm": 0.45692235231399536, + "learning_rate": 1.6413226666666668e-05, + "loss": 0.0118, + "step": 84065 + }, + { + "epoch": 0.538048, + "grad_norm": 0.6604235172271729, + "learning_rate": 1.6413013333333336e-05, + "loss": 0.0209, + "step": 84070 + }, + { + "epoch": 0.53808, + "grad_norm": 0.8380544781684875, + "learning_rate": 1.6412800000000003e-05, + "loss": 0.0206, + "step": 84075 + }, + { + "epoch": 0.538112, + "grad_norm": 0.6769745945930481, + "learning_rate": 1.6412586666666667e-05, + "loss": 0.0114, + "step": 84080 + }, + { + "epoch": 0.538144, + "grad_norm": 0.956793487071991, + "learning_rate": 1.6412373333333335e-05, + "loss": 0.0154, + "step": 84085 + }, + { + "epoch": 0.538176, + "grad_norm": 0.7276856899261475, + "learning_rate": 1.6412160000000002e-05, + "loss": 0.0373, + "step": 84090 + }, + { + "epoch": 0.538208, + "grad_norm": 0.2507494390010834, + "learning_rate": 1.6411946666666667e-05, + "loss": 0.0085, + "step": 84095 + }, + { + "epoch": 0.53824, + "grad_norm": 0.33539971709251404, + "learning_rate": 1.6411733333333334e-05, + "loss": 0.0173, + "step": 84100 + }, + { + "epoch": 0.538272, + "grad_norm": 1.2761033773422241, + "learning_rate": 1.6411520000000002e-05, + "loss": 0.015, + "step": 84105 + }, + { + "epoch": 0.538304, + "grad_norm": 0.4660997688770294, + "learning_rate": 1.641130666666667e-05, + "loss": 0.0187, + "step": 84110 + }, + { + "epoch": 0.538336, + "grad_norm": 0.7769959568977356, + "learning_rate": 1.6411093333333333e-05, + "loss": 0.0224, + "step": 84115 + }, + { + "epoch": 0.538368, + "grad_norm": 0.2301115244626999, + "learning_rate": 1.641088e-05, + "loss": 0.0239, + "step": 84120 + }, + { + "epoch": 0.5384, + "grad_norm": 0.6157178282737732, + "learning_rate": 1.641066666666667e-05, + "loss": 0.0342, + "step": 84125 + }, + { + "epoch": 0.538432, + "grad_norm": 0.6002091765403748, + "learning_rate": 1.6410453333333333e-05, + "loss": 0.0206, + "step": 84130 + }, + { + "epoch": 0.538464, + "grad_norm": 0.5296423435211182, + "learning_rate": 1.641024e-05, + "loss": 0.0121, + "step": 84135 + }, + { + "epoch": 0.538496, + "grad_norm": 0.2968504726886749, + "learning_rate": 1.6410026666666668e-05, + "loss": 0.0261, + "step": 84140 + }, + { + "epoch": 0.538528, + "grad_norm": 0.6493901014328003, + "learning_rate": 1.6409813333333335e-05, + "loss": 0.0195, + "step": 84145 + }, + { + "epoch": 0.53856, + "grad_norm": 0.33874520659446716, + "learning_rate": 1.64096e-05, + "loss": 0.016, + "step": 84150 + }, + { + "epoch": 0.538592, + "grad_norm": 0.6566969752311707, + "learning_rate": 1.640938666666667e-05, + "loss": 0.0135, + "step": 84155 + }, + { + "epoch": 0.538624, + "grad_norm": 0.6066974401473999, + "learning_rate": 1.6409173333333335e-05, + "loss": 0.0093, + "step": 84160 + }, + { + "epoch": 0.538656, + "grad_norm": 0.6006215810775757, + "learning_rate": 1.640896e-05, + "loss": 0.0123, + "step": 84165 + }, + { + "epoch": 0.538688, + "grad_norm": 0.08529970049858093, + "learning_rate": 1.640874666666667e-05, + "loss": 0.019, + "step": 84170 + }, + { + "epoch": 0.53872, + "grad_norm": 0.5087292790412903, + "learning_rate": 1.6408533333333334e-05, + "loss": 0.0348, + "step": 84175 + }, + { + "epoch": 0.538752, + "grad_norm": 0.0979698896408081, + "learning_rate": 1.640832e-05, + "loss": 0.0176, + "step": 84180 + }, + { + "epoch": 0.538784, + "grad_norm": 0.5923948884010315, + "learning_rate": 1.640810666666667e-05, + "loss": 0.0117, + "step": 84185 + }, + { + "epoch": 0.538816, + "grad_norm": 1.3370906114578247, + "learning_rate": 1.6407893333333337e-05, + "loss": 0.0159, + "step": 84190 + }, + { + "epoch": 0.538848, + "grad_norm": 0.37424159049987793, + "learning_rate": 1.640768e-05, + "loss": 0.0247, + "step": 84195 + }, + { + "epoch": 0.53888, + "grad_norm": 0.5240603089332581, + "learning_rate": 1.640746666666667e-05, + "loss": 0.0189, + "step": 84200 + }, + { + "epoch": 0.538912, + "grad_norm": 0.37479498982429504, + "learning_rate": 1.6407253333333336e-05, + "loss": 0.0101, + "step": 84205 + }, + { + "epoch": 0.538944, + "grad_norm": 0.25452277064323425, + "learning_rate": 1.640704e-05, + "loss": 0.0142, + "step": 84210 + }, + { + "epoch": 0.538976, + "grad_norm": 1.136301040649414, + "learning_rate": 1.6406826666666668e-05, + "loss": 0.0319, + "step": 84215 + }, + { + "epoch": 0.539008, + "grad_norm": 0.6350626349449158, + "learning_rate": 1.6406613333333335e-05, + "loss": 0.0103, + "step": 84220 + }, + { + "epoch": 0.53904, + "grad_norm": 0.4796557128429413, + "learning_rate": 1.6406400000000003e-05, + "loss": 0.026, + "step": 84225 + }, + { + "epoch": 0.539072, + "grad_norm": 0.07958759367465973, + "learning_rate": 1.6406186666666667e-05, + "loss": 0.0136, + "step": 84230 + }, + { + "epoch": 0.539104, + "grad_norm": 0.6786638498306274, + "learning_rate": 1.6405973333333334e-05, + "loss": 0.0135, + "step": 84235 + }, + { + "epoch": 0.539136, + "grad_norm": 0.12071119248867035, + "learning_rate": 1.6405760000000002e-05, + "loss": 0.0092, + "step": 84240 + }, + { + "epoch": 0.539168, + "grad_norm": 0.7229316830635071, + "learning_rate": 1.6405546666666666e-05, + "loss": 0.0111, + "step": 84245 + }, + { + "epoch": 0.5392, + "grad_norm": 0.8906027674674988, + "learning_rate": 1.6405333333333334e-05, + "loss": 0.0151, + "step": 84250 + }, + { + "epoch": 0.539232, + "grad_norm": 0.7069057822227478, + "learning_rate": 1.640512e-05, + "loss": 0.0264, + "step": 84255 + }, + { + "epoch": 0.539264, + "grad_norm": 0.8677452206611633, + "learning_rate": 1.640490666666667e-05, + "loss": 0.0206, + "step": 84260 + }, + { + "epoch": 0.539296, + "grad_norm": 0.5279644131660461, + "learning_rate": 1.6404693333333336e-05, + "loss": 0.0068, + "step": 84265 + }, + { + "epoch": 0.539328, + "grad_norm": 0.5470602512359619, + "learning_rate": 1.640448e-05, + "loss": 0.0118, + "step": 84270 + }, + { + "epoch": 0.53936, + "grad_norm": 0.04410446062684059, + "learning_rate": 1.6404266666666668e-05, + "loss": 0.0126, + "step": 84275 + }, + { + "epoch": 0.539392, + "grad_norm": 0.9700033068656921, + "learning_rate": 1.6404053333333336e-05, + "loss": 0.0209, + "step": 84280 + }, + { + "epoch": 0.539424, + "grad_norm": 0.6300707459449768, + "learning_rate": 1.6403840000000003e-05, + "loss": 0.0195, + "step": 84285 + }, + { + "epoch": 0.539456, + "grad_norm": 0.2067432850599289, + "learning_rate": 1.6403626666666667e-05, + "loss": 0.0172, + "step": 84290 + }, + { + "epoch": 0.539488, + "grad_norm": 2.374234437942505, + "learning_rate": 1.6403413333333335e-05, + "loss": 0.0207, + "step": 84295 + }, + { + "epoch": 0.53952, + "grad_norm": 0.9543132781982422, + "learning_rate": 1.6403200000000002e-05, + "loss": 0.0434, + "step": 84300 + }, + { + "epoch": 0.539552, + "grad_norm": 0.7434176802635193, + "learning_rate": 1.6402986666666667e-05, + "loss": 0.015, + "step": 84305 + }, + { + "epoch": 0.539584, + "grad_norm": 1.1401660442352295, + "learning_rate": 1.6402773333333334e-05, + "loss": 0.0163, + "step": 84310 + }, + { + "epoch": 0.539616, + "grad_norm": 0.8853858709335327, + "learning_rate": 1.6402560000000002e-05, + "loss": 0.0159, + "step": 84315 + }, + { + "epoch": 0.539648, + "grad_norm": 0.4839756190776825, + "learning_rate": 1.640234666666667e-05, + "loss": 0.0172, + "step": 84320 + }, + { + "epoch": 0.53968, + "grad_norm": 0.4861946403980255, + "learning_rate": 1.6402133333333333e-05, + "loss": 0.0069, + "step": 84325 + }, + { + "epoch": 0.539712, + "grad_norm": 0.573078453540802, + "learning_rate": 1.640192e-05, + "loss": 0.0113, + "step": 84330 + }, + { + "epoch": 0.539744, + "grad_norm": 0.409490168094635, + "learning_rate": 1.640170666666667e-05, + "loss": 0.0131, + "step": 84335 + }, + { + "epoch": 0.539776, + "grad_norm": 0.7579725384712219, + "learning_rate": 1.6401493333333333e-05, + "loss": 0.0143, + "step": 84340 + }, + { + "epoch": 0.539808, + "grad_norm": 0.5341611504554749, + "learning_rate": 1.640128e-05, + "loss": 0.0386, + "step": 84345 + }, + { + "epoch": 0.53984, + "grad_norm": 0.9490717649459839, + "learning_rate": 1.6401066666666668e-05, + "loss": 0.0181, + "step": 84350 + }, + { + "epoch": 0.539872, + "grad_norm": 1.0116888284683228, + "learning_rate": 1.6400853333333335e-05, + "loss": 0.013, + "step": 84355 + }, + { + "epoch": 0.539904, + "grad_norm": 1.1380537748336792, + "learning_rate": 1.640064e-05, + "loss": 0.0179, + "step": 84360 + }, + { + "epoch": 0.539936, + "grad_norm": 0.8499182462692261, + "learning_rate": 1.640042666666667e-05, + "loss": 0.0238, + "step": 84365 + }, + { + "epoch": 0.539968, + "grad_norm": 0.6585094332695007, + "learning_rate": 1.6400213333333335e-05, + "loss": 0.025, + "step": 84370 + }, + { + "epoch": 0.54, + "grad_norm": 0.2122301459312439, + "learning_rate": 1.64e-05, + "loss": 0.0179, + "step": 84375 + }, + { + "epoch": 0.540032, + "grad_norm": 0.7104935050010681, + "learning_rate": 1.639978666666667e-05, + "loss": 0.021, + "step": 84380 + }, + { + "epoch": 0.540064, + "grad_norm": 1.6081500053405762, + "learning_rate": 1.6399573333333334e-05, + "loss": 0.0182, + "step": 84385 + }, + { + "epoch": 0.540096, + "grad_norm": 0.5442014336585999, + "learning_rate": 1.639936e-05, + "loss": 0.0308, + "step": 84390 + }, + { + "epoch": 0.540128, + "grad_norm": 0.5854184031486511, + "learning_rate": 1.639914666666667e-05, + "loss": 0.0303, + "step": 84395 + }, + { + "epoch": 0.54016, + "grad_norm": 0.6652339696884155, + "learning_rate": 1.6398933333333337e-05, + "loss": 0.0237, + "step": 84400 + }, + { + "epoch": 0.540192, + "grad_norm": 0.1320514976978302, + "learning_rate": 1.639872e-05, + "loss": 0.0178, + "step": 84405 + }, + { + "epoch": 0.540224, + "grad_norm": 0.8099164962768555, + "learning_rate": 1.639850666666667e-05, + "loss": 0.0251, + "step": 84410 + }, + { + "epoch": 0.540256, + "grad_norm": 2.200523614883423, + "learning_rate": 1.6398293333333336e-05, + "loss": 0.0299, + "step": 84415 + }, + { + "epoch": 0.540288, + "grad_norm": 0.39780858159065247, + "learning_rate": 1.639808e-05, + "loss": 0.0138, + "step": 84420 + }, + { + "epoch": 0.54032, + "grad_norm": 0.4170803725719452, + "learning_rate": 1.6397866666666668e-05, + "loss": 0.0174, + "step": 84425 + }, + { + "epoch": 0.540352, + "grad_norm": 0.445606529712677, + "learning_rate": 1.6397653333333335e-05, + "loss": 0.0118, + "step": 84430 + }, + { + "epoch": 0.540384, + "grad_norm": 0.21638639271259308, + "learning_rate": 1.6397440000000003e-05, + "loss": 0.0129, + "step": 84435 + }, + { + "epoch": 0.540416, + "grad_norm": 0.2532002627849579, + "learning_rate": 1.6397226666666667e-05, + "loss": 0.0387, + "step": 84440 + }, + { + "epoch": 0.540448, + "grad_norm": 0.9205746054649353, + "learning_rate": 1.6397013333333334e-05, + "loss": 0.0425, + "step": 84445 + }, + { + "epoch": 0.54048, + "grad_norm": 0.11670617014169693, + "learning_rate": 1.6396800000000002e-05, + "loss": 0.0051, + "step": 84450 + }, + { + "epoch": 0.540512, + "grad_norm": 0.5045534372329712, + "learning_rate": 1.6396586666666666e-05, + "loss": 0.0289, + "step": 84455 + }, + { + "epoch": 0.540544, + "grad_norm": 0.46073269844055176, + "learning_rate": 1.6396373333333334e-05, + "loss": 0.0131, + "step": 84460 + }, + { + "epoch": 0.540576, + "grad_norm": 0.38048484921455383, + "learning_rate": 1.639616e-05, + "loss": 0.0105, + "step": 84465 + }, + { + "epoch": 0.540608, + "grad_norm": 0.2343696504831314, + "learning_rate": 1.639594666666667e-05, + "loss": 0.023, + "step": 84470 + }, + { + "epoch": 0.54064, + "grad_norm": 0.4354304075241089, + "learning_rate": 1.6395733333333333e-05, + "loss": 0.0217, + "step": 84475 + }, + { + "epoch": 0.540672, + "grad_norm": 2.440976858139038, + "learning_rate": 1.639552e-05, + "loss": 0.0134, + "step": 84480 + }, + { + "epoch": 0.540704, + "grad_norm": 0.39032408595085144, + "learning_rate": 1.6395306666666668e-05, + "loss": 0.0232, + "step": 84485 + }, + { + "epoch": 0.540736, + "grad_norm": 0.5626509785652161, + "learning_rate": 1.6395093333333336e-05, + "loss": 0.0166, + "step": 84490 + }, + { + "epoch": 0.540768, + "grad_norm": 0.3389618694782257, + "learning_rate": 1.6394880000000003e-05, + "loss": 0.0206, + "step": 84495 + }, + { + "epoch": 0.5408, + "grad_norm": 0.19573290646076202, + "learning_rate": 1.6394666666666667e-05, + "loss": 0.0118, + "step": 84500 + }, + { + "epoch": 0.540832, + "grad_norm": 0.5117493867874146, + "learning_rate": 1.6394453333333335e-05, + "loss": 0.0166, + "step": 84505 + }, + { + "epoch": 0.540864, + "grad_norm": 0.12020973116159439, + "learning_rate": 1.6394240000000002e-05, + "loss": 0.0114, + "step": 84510 + }, + { + "epoch": 0.540896, + "grad_norm": 0.878192663192749, + "learning_rate": 1.6394026666666667e-05, + "loss": 0.0181, + "step": 84515 + }, + { + "epoch": 0.540928, + "grad_norm": 0.3580988943576813, + "learning_rate": 1.6393813333333334e-05, + "loss": 0.0107, + "step": 84520 + }, + { + "epoch": 0.54096, + "grad_norm": 0.2393442541360855, + "learning_rate": 1.6393600000000002e-05, + "loss": 0.0142, + "step": 84525 + }, + { + "epoch": 0.540992, + "grad_norm": 0.7468134164810181, + "learning_rate": 1.639338666666667e-05, + "loss": 0.02, + "step": 84530 + }, + { + "epoch": 0.541024, + "grad_norm": 0.624885082244873, + "learning_rate": 1.6393173333333333e-05, + "loss": 0.0235, + "step": 84535 + }, + { + "epoch": 0.541056, + "grad_norm": 0.22891195118427277, + "learning_rate": 1.639296e-05, + "loss": 0.0194, + "step": 84540 + }, + { + "epoch": 0.541088, + "grad_norm": 0.6357647180557251, + "learning_rate": 1.639274666666667e-05, + "loss": 0.0228, + "step": 84545 + }, + { + "epoch": 0.54112, + "grad_norm": 0.3362828493118286, + "learning_rate": 1.6392533333333333e-05, + "loss": 0.0079, + "step": 84550 + }, + { + "epoch": 0.541152, + "grad_norm": 0.8625515699386597, + "learning_rate": 1.639232e-05, + "loss": 0.0112, + "step": 84555 + }, + { + "epoch": 0.541184, + "grad_norm": 0.8686954975128174, + "learning_rate": 1.6392106666666668e-05, + "loss": 0.0187, + "step": 84560 + }, + { + "epoch": 0.541216, + "grad_norm": 0.4456532299518585, + "learning_rate": 1.6391893333333335e-05, + "loss": 0.0152, + "step": 84565 + }, + { + "epoch": 0.541248, + "grad_norm": 1.1939053535461426, + "learning_rate": 1.639168e-05, + "loss": 0.0135, + "step": 84570 + }, + { + "epoch": 0.54128, + "grad_norm": 0.18346962332725525, + "learning_rate": 1.639146666666667e-05, + "loss": 0.021, + "step": 84575 + }, + { + "epoch": 0.541312, + "grad_norm": 0.36225834488868713, + "learning_rate": 1.6391253333333335e-05, + "loss": 0.0304, + "step": 84580 + }, + { + "epoch": 0.541344, + "grad_norm": 0.2685188353061676, + "learning_rate": 1.639104e-05, + "loss": 0.019, + "step": 84585 + }, + { + "epoch": 0.541376, + "grad_norm": 1.0642271041870117, + "learning_rate": 1.639082666666667e-05, + "loss": 0.0184, + "step": 84590 + }, + { + "epoch": 0.541408, + "grad_norm": 0.20882302522659302, + "learning_rate": 1.6390613333333334e-05, + "loss": 0.0119, + "step": 84595 + }, + { + "epoch": 0.54144, + "grad_norm": 0.764259397983551, + "learning_rate": 1.63904e-05, + "loss": 0.0149, + "step": 84600 + }, + { + "epoch": 0.541472, + "grad_norm": 0.934716522693634, + "learning_rate": 1.639018666666667e-05, + "loss": 0.0239, + "step": 84605 + }, + { + "epoch": 0.541504, + "grad_norm": 0.5096555352210999, + "learning_rate": 1.6389973333333337e-05, + "loss": 0.0164, + "step": 84610 + }, + { + "epoch": 0.541536, + "grad_norm": 2.180860757827759, + "learning_rate": 1.638976e-05, + "loss": 0.0305, + "step": 84615 + }, + { + "epoch": 0.541568, + "grad_norm": 1.281254768371582, + "learning_rate": 1.638954666666667e-05, + "loss": 0.0261, + "step": 84620 + }, + { + "epoch": 0.5416, + "grad_norm": 0.5128014087677002, + "learning_rate": 1.6389333333333336e-05, + "loss": 0.0319, + "step": 84625 + }, + { + "epoch": 0.541632, + "grad_norm": 1.0115796327590942, + "learning_rate": 1.638912e-05, + "loss": 0.0225, + "step": 84630 + }, + { + "epoch": 0.541664, + "grad_norm": 0.600534975528717, + "learning_rate": 1.6388906666666668e-05, + "loss": 0.0151, + "step": 84635 + }, + { + "epoch": 0.541696, + "grad_norm": 0.31045445799827576, + "learning_rate": 1.6388693333333335e-05, + "loss": 0.0202, + "step": 84640 + }, + { + "epoch": 0.541728, + "grad_norm": 0.5347931385040283, + "learning_rate": 1.6388480000000003e-05, + "loss": 0.0358, + "step": 84645 + }, + { + "epoch": 0.54176, + "grad_norm": 0.2384968101978302, + "learning_rate": 1.6388266666666667e-05, + "loss": 0.0152, + "step": 84650 + }, + { + "epoch": 0.541792, + "grad_norm": 0.286824107170105, + "learning_rate": 1.6388053333333334e-05, + "loss": 0.0149, + "step": 84655 + }, + { + "epoch": 0.541824, + "grad_norm": 0.5758912563323975, + "learning_rate": 1.6387840000000002e-05, + "loss": 0.0173, + "step": 84660 + }, + { + "epoch": 0.541856, + "grad_norm": 1.012290120124817, + "learning_rate": 1.6387626666666666e-05, + "loss": 0.0269, + "step": 84665 + }, + { + "epoch": 0.541888, + "grad_norm": 0.16505654156208038, + "learning_rate": 1.6387413333333334e-05, + "loss": 0.0232, + "step": 84670 + }, + { + "epoch": 0.54192, + "grad_norm": 4.264770030975342, + "learning_rate": 1.63872e-05, + "loss": 0.0211, + "step": 84675 + }, + { + "epoch": 0.541952, + "grad_norm": 0.662203311920166, + "learning_rate": 1.638698666666667e-05, + "loss": 0.0139, + "step": 84680 + }, + { + "epoch": 0.541984, + "grad_norm": 0.9426641464233398, + "learning_rate": 1.6386773333333333e-05, + "loss": 0.0146, + "step": 84685 + }, + { + "epoch": 0.542016, + "grad_norm": 0.7316770553588867, + "learning_rate": 1.638656e-05, + "loss": 0.0417, + "step": 84690 + }, + { + "epoch": 0.542048, + "grad_norm": 0.4618889093399048, + "learning_rate": 1.6386346666666668e-05, + "loss": 0.0376, + "step": 84695 + }, + { + "epoch": 0.54208, + "grad_norm": 0.1657869964838028, + "learning_rate": 1.6386133333333332e-05, + "loss": 0.0146, + "step": 84700 + }, + { + "epoch": 0.542112, + "grad_norm": 0.18770919740200043, + "learning_rate": 1.6385920000000003e-05, + "loss": 0.0124, + "step": 84705 + }, + { + "epoch": 0.542144, + "grad_norm": 1.2370214462280273, + "learning_rate": 1.6385706666666667e-05, + "loss": 0.025, + "step": 84710 + }, + { + "epoch": 0.542176, + "grad_norm": 0.39463749527931213, + "learning_rate": 1.6385493333333335e-05, + "loss": 0.0158, + "step": 84715 + }, + { + "epoch": 0.542208, + "grad_norm": 1.3465017080307007, + "learning_rate": 1.6385280000000002e-05, + "loss": 0.0209, + "step": 84720 + }, + { + "epoch": 0.54224, + "grad_norm": 1.8873916864395142, + "learning_rate": 1.6385066666666667e-05, + "loss": 0.0366, + "step": 84725 + }, + { + "epoch": 0.542272, + "grad_norm": 0.9107771515846252, + "learning_rate": 1.6384853333333334e-05, + "loss": 0.0149, + "step": 84730 + }, + { + "epoch": 0.542304, + "grad_norm": 0.6236487030982971, + "learning_rate": 1.6384640000000002e-05, + "loss": 0.0084, + "step": 84735 + }, + { + "epoch": 0.542336, + "grad_norm": 0.32238560914993286, + "learning_rate": 1.638442666666667e-05, + "loss": 0.0126, + "step": 84740 + }, + { + "epoch": 0.542368, + "grad_norm": 0.6745502948760986, + "learning_rate": 1.6384213333333333e-05, + "loss": 0.0177, + "step": 84745 + }, + { + "epoch": 0.5424, + "grad_norm": 0.3773662745952606, + "learning_rate": 1.6384e-05, + "loss": 0.0173, + "step": 84750 + }, + { + "epoch": 0.542432, + "grad_norm": 0.8005843162536621, + "learning_rate": 1.638378666666667e-05, + "loss": 0.0164, + "step": 84755 + }, + { + "epoch": 0.542464, + "grad_norm": 1.1970486640930176, + "learning_rate": 1.6383573333333336e-05, + "loss": 0.0225, + "step": 84760 + }, + { + "epoch": 0.542496, + "grad_norm": 0.2894345223903656, + "learning_rate": 1.638336e-05, + "loss": 0.0089, + "step": 84765 + }, + { + "epoch": 0.542528, + "grad_norm": 0.30840393900871277, + "learning_rate": 1.6383146666666668e-05, + "loss": 0.009, + "step": 84770 + }, + { + "epoch": 0.54256, + "grad_norm": 0.04364427924156189, + "learning_rate": 1.6382933333333335e-05, + "loss": 0.0221, + "step": 84775 + }, + { + "epoch": 0.542592, + "grad_norm": 0.6566381454467773, + "learning_rate": 1.638272e-05, + "loss": 0.0244, + "step": 84780 + }, + { + "epoch": 0.542624, + "grad_norm": 0.22740070521831512, + "learning_rate": 1.6382506666666667e-05, + "loss": 0.0086, + "step": 84785 + }, + { + "epoch": 0.542656, + "grad_norm": 0.702549397945404, + "learning_rate": 1.6382293333333335e-05, + "loss": 0.018, + "step": 84790 + }, + { + "epoch": 0.542688, + "grad_norm": 1.3120721578598022, + "learning_rate": 1.6382080000000002e-05, + "loss": 0.0196, + "step": 84795 + }, + { + "epoch": 0.54272, + "grad_norm": 0.7653374075889587, + "learning_rate": 1.638186666666667e-05, + "loss": 0.0351, + "step": 84800 + }, + { + "epoch": 0.542752, + "grad_norm": 0.6762449145317078, + "learning_rate": 1.6381653333333334e-05, + "loss": 0.0165, + "step": 84805 + }, + { + "epoch": 0.542784, + "grad_norm": 0.9222282767295837, + "learning_rate": 1.638144e-05, + "loss": 0.0283, + "step": 84810 + }, + { + "epoch": 0.542816, + "grad_norm": 0.5849475860595703, + "learning_rate": 1.638122666666667e-05, + "loss": 0.0239, + "step": 84815 + }, + { + "epoch": 0.542848, + "grad_norm": 0.6787819266319275, + "learning_rate": 1.6381013333333337e-05, + "loss": 0.0241, + "step": 84820 + }, + { + "epoch": 0.54288, + "grad_norm": 0.6258013844490051, + "learning_rate": 1.63808e-05, + "loss": 0.0233, + "step": 84825 + }, + { + "epoch": 0.542912, + "grad_norm": 0.6593332290649414, + "learning_rate": 1.638058666666667e-05, + "loss": 0.0169, + "step": 84830 + }, + { + "epoch": 0.542944, + "grad_norm": 0.8568424582481384, + "learning_rate": 1.6380373333333336e-05, + "loss": 0.0126, + "step": 84835 + }, + { + "epoch": 0.542976, + "grad_norm": 0.34824609756469727, + "learning_rate": 1.638016e-05, + "loss": 0.0328, + "step": 84840 + }, + { + "epoch": 0.543008, + "grad_norm": 0.9911266565322876, + "learning_rate": 1.6379946666666668e-05, + "loss": 0.0211, + "step": 84845 + }, + { + "epoch": 0.54304, + "grad_norm": 0.26855283975601196, + "learning_rate": 1.6379733333333335e-05, + "loss": 0.0231, + "step": 84850 + }, + { + "epoch": 0.543072, + "grad_norm": 0.06522933393716812, + "learning_rate": 1.6379520000000003e-05, + "loss": 0.0094, + "step": 84855 + }, + { + "epoch": 0.543104, + "grad_norm": 9.343514442443848, + "learning_rate": 1.6379306666666667e-05, + "loss": 0.0217, + "step": 84860 + }, + { + "epoch": 0.543136, + "grad_norm": 0.9092464447021484, + "learning_rate": 1.6379093333333334e-05, + "loss": 0.0244, + "step": 84865 + }, + { + "epoch": 0.543168, + "grad_norm": 0.29557016491889954, + "learning_rate": 1.6378880000000002e-05, + "loss": 0.0178, + "step": 84870 + }, + { + "epoch": 0.5432, + "grad_norm": 0.5799382925033569, + "learning_rate": 1.6378666666666666e-05, + "loss": 0.0129, + "step": 84875 + }, + { + "epoch": 0.543232, + "grad_norm": 0.34342673420906067, + "learning_rate": 1.6378453333333334e-05, + "loss": 0.0086, + "step": 84880 + }, + { + "epoch": 0.543264, + "grad_norm": 0.8078905940055847, + "learning_rate": 1.637824e-05, + "loss": 0.0206, + "step": 84885 + }, + { + "epoch": 0.543296, + "grad_norm": 0.6808407306671143, + "learning_rate": 1.637802666666667e-05, + "loss": 0.0129, + "step": 84890 + }, + { + "epoch": 0.543328, + "grad_norm": 0.6574007868766785, + "learning_rate": 1.6377813333333333e-05, + "loss": 0.021, + "step": 84895 + }, + { + "epoch": 0.54336, + "grad_norm": 0.484197199344635, + "learning_rate": 1.6377600000000004e-05, + "loss": 0.0143, + "step": 84900 + }, + { + "epoch": 0.543392, + "grad_norm": 0.7125561237335205, + "learning_rate": 1.6377386666666668e-05, + "loss": 0.0274, + "step": 84905 + }, + { + "epoch": 0.543424, + "grad_norm": 0.7956066131591797, + "learning_rate": 1.6377173333333332e-05, + "loss": 0.0101, + "step": 84910 + }, + { + "epoch": 0.543456, + "grad_norm": 0.6670496463775635, + "learning_rate": 1.6376960000000003e-05, + "loss": 0.0343, + "step": 84915 + }, + { + "epoch": 0.543488, + "grad_norm": 1.2270411252975464, + "learning_rate": 1.6376746666666667e-05, + "loss": 0.0077, + "step": 84920 + }, + { + "epoch": 0.54352, + "grad_norm": 0.5861856937408447, + "learning_rate": 1.6376533333333335e-05, + "loss": 0.0267, + "step": 84925 + }, + { + "epoch": 0.543552, + "grad_norm": 1.1189864873886108, + "learning_rate": 1.6376320000000002e-05, + "loss": 0.0257, + "step": 84930 + }, + { + "epoch": 0.543584, + "grad_norm": 0.5585553646087646, + "learning_rate": 1.637610666666667e-05, + "loss": 0.0158, + "step": 84935 + }, + { + "epoch": 0.543616, + "grad_norm": 0.8738526105880737, + "learning_rate": 1.6375893333333334e-05, + "loss": 0.0291, + "step": 84940 + }, + { + "epoch": 0.543648, + "grad_norm": 1.7825782299041748, + "learning_rate": 1.6375680000000002e-05, + "loss": 0.0394, + "step": 84945 + }, + { + "epoch": 0.54368, + "grad_norm": 0.45893678069114685, + "learning_rate": 1.637546666666667e-05, + "loss": 0.0168, + "step": 84950 + }, + { + "epoch": 0.543712, + "grad_norm": 0.4728250205516815, + "learning_rate": 1.6375253333333333e-05, + "loss": 0.0092, + "step": 84955 + }, + { + "epoch": 0.543744, + "grad_norm": 0.5956559181213379, + "learning_rate": 1.637504e-05, + "loss": 0.0213, + "step": 84960 + }, + { + "epoch": 0.543776, + "grad_norm": 1.3652303218841553, + "learning_rate": 1.637482666666667e-05, + "loss": 0.0134, + "step": 84965 + }, + { + "epoch": 0.543808, + "grad_norm": 0.3976079821586609, + "learning_rate": 1.6374613333333336e-05, + "loss": 0.0177, + "step": 84970 + }, + { + "epoch": 0.54384, + "grad_norm": 0.6541224122047424, + "learning_rate": 1.63744e-05, + "loss": 0.0183, + "step": 84975 + }, + { + "epoch": 0.543872, + "grad_norm": 0.6706976294517517, + "learning_rate": 1.6374186666666668e-05, + "loss": 0.0149, + "step": 84980 + }, + { + "epoch": 0.543904, + "grad_norm": 0.7190531492233276, + "learning_rate": 1.6373973333333335e-05, + "loss": 0.019, + "step": 84985 + }, + { + "epoch": 0.543936, + "grad_norm": 0.4903298318386078, + "learning_rate": 1.637376e-05, + "loss": 0.0231, + "step": 84990 + }, + { + "epoch": 0.543968, + "grad_norm": 1.293779969215393, + "learning_rate": 1.6373546666666667e-05, + "loss": 0.0236, + "step": 84995 + }, + { + "epoch": 0.544, + "grad_norm": 0.6561471819877625, + "learning_rate": 1.6373333333333335e-05, + "loss": 0.027, + "step": 85000 + }, + { + "epoch": 0.544032, + "grad_norm": 0.630833625793457, + "learning_rate": 1.6373120000000002e-05, + "loss": 0.0289, + "step": 85005 + }, + { + "epoch": 0.544064, + "grad_norm": 0.9996120929718018, + "learning_rate": 1.6372906666666666e-05, + "loss": 0.0292, + "step": 85010 + }, + { + "epoch": 0.544096, + "grad_norm": 1.299170732498169, + "learning_rate": 1.6372693333333334e-05, + "loss": 0.0198, + "step": 85015 + }, + { + "epoch": 0.544128, + "grad_norm": 0.8312327265739441, + "learning_rate": 1.637248e-05, + "loss": 0.0139, + "step": 85020 + }, + { + "epoch": 0.54416, + "grad_norm": 0.6402571201324463, + "learning_rate": 1.637226666666667e-05, + "loss": 0.0172, + "step": 85025 + }, + { + "epoch": 0.544192, + "grad_norm": 0.466715544462204, + "learning_rate": 1.6372053333333337e-05, + "loss": 0.0215, + "step": 85030 + }, + { + "epoch": 0.544224, + "grad_norm": 0.4466850161552429, + "learning_rate": 1.637184e-05, + "loss": 0.0268, + "step": 85035 + }, + { + "epoch": 0.544256, + "grad_norm": 0.46894463896751404, + "learning_rate": 1.637162666666667e-05, + "loss": 0.0152, + "step": 85040 + }, + { + "epoch": 0.544288, + "grad_norm": 0.33233529329299927, + "learning_rate": 1.6371413333333336e-05, + "loss": 0.0201, + "step": 85045 + }, + { + "epoch": 0.54432, + "grad_norm": 1.4344066381454468, + "learning_rate": 1.63712e-05, + "loss": 0.0188, + "step": 85050 + }, + { + "epoch": 0.544352, + "grad_norm": 0.4928726255893707, + "learning_rate": 1.6370986666666668e-05, + "loss": 0.0531, + "step": 85055 + }, + { + "epoch": 0.544384, + "grad_norm": 0.276058554649353, + "learning_rate": 1.6370773333333335e-05, + "loss": 0.0192, + "step": 85060 + }, + { + "epoch": 0.544416, + "grad_norm": 0.7857158780097961, + "learning_rate": 1.6370560000000003e-05, + "loss": 0.0092, + "step": 85065 + }, + { + "epoch": 0.544448, + "grad_norm": 0.6513822674751282, + "learning_rate": 1.6370346666666667e-05, + "loss": 0.0213, + "step": 85070 + }, + { + "epoch": 0.54448, + "grad_norm": 0.11043544858694077, + "learning_rate": 1.6370133333333334e-05, + "loss": 0.0075, + "step": 85075 + }, + { + "epoch": 0.544512, + "grad_norm": 0.20433984696865082, + "learning_rate": 1.6369920000000002e-05, + "loss": 0.0144, + "step": 85080 + }, + { + "epoch": 0.544544, + "grad_norm": 0.7060614824295044, + "learning_rate": 1.6369706666666666e-05, + "loss": 0.0146, + "step": 85085 + }, + { + "epoch": 0.544576, + "grad_norm": 0.38067200779914856, + "learning_rate": 1.6369493333333334e-05, + "loss": 0.0283, + "step": 85090 + }, + { + "epoch": 0.544608, + "grad_norm": 0.44596245884895325, + "learning_rate": 1.636928e-05, + "loss": 0.0157, + "step": 85095 + }, + { + "epoch": 0.54464, + "grad_norm": 0.9454597234725952, + "learning_rate": 1.636906666666667e-05, + "loss": 0.016, + "step": 85100 + }, + { + "epoch": 0.544672, + "grad_norm": 0.23861278593540192, + "learning_rate": 1.6368853333333333e-05, + "loss": 0.0142, + "step": 85105 + }, + { + "epoch": 0.544704, + "grad_norm": 0.5349099636077881, + "learning_rate": 1.6368640000000004e-05, + "loss": 0.0156, + "step": 85110 + }, + { + "epoch": 0.544736, + "grad_norm": 0.9289610981941223, + "learning_rate": 1.6368426666666668e-05, + "loss": 0.0232, + "step": 85115 + }, + { + "epoch": 0.544768, + "grad_norm": 0.452695369720459, + "learning_rate": 1.6368213333333332e-05, + "loss": 0.0156, + "step": 85120 + }, + { + "epoch": 0.5448, + "grad_norm": 0.7119351029396057, + "learning_rate": 1.6368000000000003e-05, + "loss": 0.0157, + "step": 85125 + }, + { + "epoch": 0.544832, + "grad_norm": 0.24249503016471863, + "learning_rate": 1.6367786666666667e-05, + "loss": 0.0108, + "step": 85130 + }, + { + "epoch": 0.544864, + "grad_norm": 0.486309677362442, + "learning_rate": 1.6367573333333335e-05, + "loss": 0.0178, + "step": 85135 + }, + { + "epoch": 0.544896, + "grad_norm": 0.7930801510810852, + "learning_rate": 1.6367360000000002e-05, + "loss": 0.0148, + "step": 85140 + }, + { + "epoch": 0.544928, + "grad_norm": 0.9909918904304504, + "learning_rate": 1.636714666666667e-05, + "loss": 0.022, + "step": 85145 + }, + { + "epoch": 0.54496, + "grad_norm": 1.4828224182128906, + "learning_rate": 1.6366933333333334e-05, + "loss": 0.0192, + "step": 85150 + }, + { + "epoch": 0.544992, + "grad_norm": 2.342298746109009, + "learning_rate": 1.6366720000000002e-05, + "loss": 0.0259, + "step": 85155 + }, + { + "epoch": 0.545024, + "grad_norm": 0.9247913360595703, + "learning_rate": 1.636650666666667e-05, + "loss": 0.0148, + "step": 85160 + }, + { + "epoch": 0.545056, + "grad_norm": 0.381395161151886, + "learning_rate": 1.6366293333333333e-05, + "loss": 0.0162, + "step": 85165 + }, + { + "epoch": 0.545088, + "grad_norm": 0.6169775724411011, + "learning_rate": 1.636608e-05, + "loss": 0.0061, + "step": 85170 + }, + { + "epoch": 0.54512, + "grad_norm": 0.17624622583389282, + "learning_rate": 1.636586666666667e-05, + "loss": 0.0342, + "step": 85175 + }, + { + "epoch": 0.545152, + "grad_norm": 0.3341766595840454, + "learning_rate": 1.6365653333333336e-05, + "loss": 0.0217, + "step": 85180 + }, + { + "epoch": 0.545184, + "grad_norm": 0.6389389634132385, + "learning_rate": 1.636544e-05, + "loss": 0.0181, + "step": 85185 + }, + { + "epoch": 0.545216, + "grad_norm": 0.45761919021606445, + "learning_rate": 1.6365226666666668e-05, + "loss": 0.0092, + "step": 85190 + }, + { + "epoch": 0.545248, + "grad_norm": 0.05956423655152321, + "learning_rate": 1.6365013333333335e-05, + "loss": 0.0108, + "step": 85195 + }, + { + "epoch": 0.54528, + "grad_norm": 0.8308441042900085, + "learning_rate": 1.63648e-05, + "loss": 0.0328, + "step": 85200 + }, + { + "epoch": 0.545312, + "grad_norm": 0.4824848175048828, + "learning_rate": 1.6364586666666667e-05, + "loss": 0.0302, + "step": 85205 + }, + { + "epoch": 0.545344, + "grad_norm": 0.31637606024742126, + "learning_rate": 1.6364373333333335e-05, + "loss": 0.0113, + "step": 85210 + }, + { + "epoch": 0.545376, + "grad_norm": 0.41004326939582825, + "learning_rate": 1.6364160000000002e-05, + "loss": 0.0189, + "step": 85215 + }, + { + "epoch": 0.545408, + "grad_norm": 0.4545590877532959, + "learning_rate": 1.6363946666666666e-05, + "loss": 0.0279, + "step": 85220 + }, + { + "epoch": 0.54544, + "grad_norm": 2.758857250213623, + "learning_rate": 1.6363733333333334e-05, + "loss": 0.0202, + "step": 85225 + }, + { + "epoch": 0.545472, + "grad_norm": 0.3342669606208801, + "learning_rate": 1.636352e-05, + "loss": 0.0114, + "step": 85230 + }, + { + "epoch": 0.545504, + "grad_norm": 0.5705170631408691, + "learning_rate": 1.6363306666666666e-05, + "loss": 0.012, + "step": 85235 + }, + { + "epoch": 0.545536, + "grad_norm": 0.12599249184131622, + "learning_rate": 1.6363093333333337e-05, + "loss": 0.0158, + "step": 85240 + }, + { + "epoch": 0.545568, + "grad_norm": 0.8600243926048279, + "learning_rate": 1.636288e-05, + "loss": 0.0183, + "step": 85245 + }, + { + "epoch": 0.5456, + "grad_norm": 0.7638062834739685, + "learning_rate": 1.636266666666667e-05, + "loss": 0.035, + "step": 85250 + }, + { + "epoch": 0.545632, + "grad_norm": 0.2558114230632782, + "learning_rate": 1.6362453333333336e-05, + "loss": 0.0191, + "step": 85255 + }, + { + "epoch": 0.545664, + "grad_norm": 0.5071013569831848, + "learning_rate": 1.636224e-05, + "loss": 0.0275, + "step": 85260 + }, + { + "epoch": 0.545696, + "grad_norm": 0.6126925349235535, + "learning_rate": 1.6362026666666668e-05, + "loss": 0.0161, + "step": 85265 + }, + { + "epoch": 0.545728, + "grad_norm": 0.1375037133693695, + "learning_rate": 1.6361813333333335e-05, + "loss": 0.0089, + "step": 85270 + }, + { + "epoch": 0.54576, + "grad_norm": 1.5727953910827637, + "learning_rate": 1.6361600000000003e-05, + "loss": 0.0295, + "step": 85275 + }, + { + "epoch": 0.545792, + "grad_norm": 0.23984698951244354, + "learning_rate": 1.6361386666666667e-05, + "loss": 0.0233, + "step": 85280 + }, + { + "epoch": 0.545824, + "grad_norm": 1.3394877910614014, + "learning_rate": 1.6361173333333334e-05, + "loss": 0.0173, + "step": 85285 + }, + { + "epoch": 0.545856, + "grad_norm": 0.6779094338417053, + "learning_rate": 1.6360960000000002e-05, + "loss": 0.0141, + "step": 85290 + }, + { + "epoch": 0.545888, + "grad_norm": 0.2973678708076477, + "learning_rate": 1.6360746666666666e-05, + "loss": 0.0192, + "step": 85295 + }, + { + "epoch": 0.54592, + "grad_norm": 0.7393996119499207, + "learning_rate": 1.6360533333333334e-05, + "loss": 0.0182, + "step": 85300 + }, + { + "epoch": 0.545952, + "grad_norm": 0.7337933778762817, + "learning_rate": 1.636032e-05, + "loss": 0.0147, + "step": 85305 + }, + { + "epoch": 0.545984, + "grad_norm": 1.159205436706543, + "learning_rate": 1.636010666666667e-05, + "loss": 0.0156, + "step": 85310 + }, + { + "epoch": 0.546016, + "grad_norm": 1.2336517572402954, + "learning_rate": 1.6359893333333333e-05, + "loss": 0.0317, + "step": 85315 + }, + { + "epoch": 0.546048, + "grad_norm": 2.7384326457977295, + "learning_rate": 1.635968e-05, + "loss": 0.0211, + "step": 85320 + }, + { + "epoch": 0.54608, + "grad_norm": 1.0513533353805542, + "learning_rate": 1.6359466666666668e-05, + "loss": 0.0097, + "step": 85325 + }, + { + "epoch": 0.546112, + "grad_norm": 0.23404747247695923, + "learning_rate": 1.6359253333333332e-05, + "loss": 0.0192, + "step": 85330 + }, + { + "epoch": 0.546144, + "grad_norm": 0.5911586284637451, + "learning_rate": 1.6359040000000003e-05, + "loss": 0.0289, + "step": 85335 + }, + { + "epoch": 0.546176, + "grad_norm": 0.2139095813035965, + "learning_rate": 1.6358826666666667e-05, + "loss": 0.0124, + "step": 85340 + }, + { + "epoch": 0.546208, + "grad_norm": 3.017522096633911, + "learning_rate": 1.6358613333333335e-05, + "loss": 0.0259, + "step": 85345 + }, + { + "epoch": 0.54624, + "grad_norm": 1.7324397563934326, + "learning_rate": 1.6358400000000002e-05, + "loss": 0.0337, + "step": 85350 + }, + { + "epoch": 0.546272, + "grad_norm": 0.3310941755771637, + "learning_rate": 1.635818666666667e-05, + "loss": 0.0439, + "step": 85355 + }, + { + "epoch": 0.546304, + "grad_norm": 0.3907003402709961, + "learning_rate": 1.6357973333333334e-05, + "loss": 0.0175, + "step": 85360 + }, + { + "epoch": 0.546336, + "grad_norm": 0.48329392075538635, + "learning_rate": 1.6357760000000002e-05, + "loss": 0.0152, + "step": 85365 + }, + { + "epoch": 0.546368, + "grad_norm": 0.21260952949523926, + "learning_rate": 1.635754666666667e-05, + "loss": 0.0238, + "step": 85370 + }, + { + "epoch": 0.5464, + "grad_norm": 0.17700940370559692, + "learning_rate": 1.6357333333333333e-05, + "loss": 0.0128, + "step": 85375 + }, + { + "epoch": 0.546432, + "grad_norm": 0.3618781268596649, + "learning_rate": 1.635712e-05, + "loss": 0.0268, + "step": 85380 + }, + { + "epoch": 0.546464, + "grad_norm": 0.13006305694580078, + "learning_rate": 1.635690666666667e-05, + "loss": 0.0519, + "step": 85385 + }, + { + "epoch": 0.546496, + "grad_norm": 0.19329041242599487, + "learning_rate": 1.6356693333333336e-05, + "loss": 0.0146, + "step": 85390 + }, + { + "epoch": 0.546528, + "grad_norm": 0.06945059448480606, + "learning_rate": 1.635648e-05, + "loss": 0.0157, + "step": 85395 + }, + { + "epoch": 0.54656, + "grad_norm": 0.7601131796836853, + "learning_rate": 1.6356266666666668e-05, + "loss": 0.0198, + "step": 85400 + }, + { + "epoch": 0.546592, + "grad_norm": 0.2931382656097412, + "learning_rate": 1.6356053333333335e-05, + "loss": 0.023, + "step": 85405 + }, + { + "epoch": 0.546624, + "grad_norm": 0.3744875192642212, + "learning_rate": 1.635584e-05, + "loss": 0.0073, + "step": 85410 + }, + { + "epoch": 0.546656, + "grad_norm": 0.3280010521411896, + "learning_rate": 1.6355626666666667e-05, + "loss": 0.0133, + "step": 85415 + }, + { + "epoch": 0.546688, + "grad_norm": 0.8615221977233887, + "learning_rate": 1.6355413333333335e-05, + "loss": 0.0147, + "step": 85420 + }, + { + "epoch": 0.54672, + "grad_norm": 0.6797210574150085, + "learning_rate": 1.6355200000000002e-05, + "loss": 0.0247, + "step": 85425 + }, + { + "epoch": 0.546752, + "grad_norm": 0.3241393268108368, + "learning_rate": 1.6354986666666666e-05, + "loss": 0.0242, + "step": 85430 + }, + { + "epoch": 0.546784, + "grad_norm": 0.2355014979839325, + "learning_rate": 1.6354773333333334e-05, + "loss": 0.0077, + "step": 85435 + }, + { + "epoch": 0.546816, + "grad_norm": 0.5255829095840454, + "learning_rate": 1.635456e-05, + "loss": 0.0119, + "step": 85440 + }, + { + "epoch": 0.546848, + "grad_norm": 0.7114117741584778, + "learning_rate": 1.6354346666666666e-05, + "loss": 0.024, + "step": 85445 + }, + { + "epoch": 0.54688, + "grad_norm": 0.4973309636116028, + "learning_rate": 1.6354133333333337e-05, + "loss": 0.0329, + "step": 85450 + }, + { + "epoch": 0.546912, + "grad_norm": 0.5610089302062988, + "learning_rate": 1.635392e-05, + "loss": 0.026, + "step": 85455 + }, + { + "epoch": 0.546944, + "grad_norm": 0.7873706817626953, + "learning_rate": 1.635370666666667e-05, + "loss": 0.0306, + "step": 85460 + }, + { + "epoch": 0.546976, + "grad_norm": 0.4867534041404724, + "learning_rate": 1.6353493333333336e-05, + "loss": 0.0106, + "step": 85465 + }, + { + "epoch": 0.547008, + "grad_norm": 0.28212881088256836, + "learning_rate": 1.635328e-05, + "loss": 0.0144, + "step": 85470 + }, + { + "epoch": 0.54704, + "grad_norm": 2.4132869243621826, + "learning_rate": 1.6353066666666668e-05, + "loss": 0.0171, + "step": 85475 + }, + { + "epoch": 0.547072, + "grad_norm": 0.7553536295890808, + "learning_rate": 1.6352853333333335e-05, + "loss": 0.0357, + "step": 85480 + }, + { + "epoch": 0.547104, + "grad_norm": 0.23902323842048645, + "learning_rate": 1.6352640000000003e-05, + "loss": 0.0248, + "step": 85485 + }, + { + "epoch": 0.547136, + "grad_norm": 0.5189992785453796, + "learning_rate": 1.6352426666666667e-05, + "loss": 0.0246, + "step": 85490 + }, + { + "epoch": 0.547168, + "grad_norm": 0.3332901895046234, + "learning_rate": 1.6352213333333334e-05, + "loss": 0.0096, + "step": 85495 + }, + { + "epoch": 0.5472, + "grad_norm": 0.579744279384613, + "learning_rate": 1.6352000000000002e-05, + "loss": 0.015, + "step": 85500 + }, + { + "epoch": 0.547232, + "grad_norm": 1.2373729944229126, + "learning_rate": 1.6351786666666666e-05, + "loss": 0.0178, + "step": 85505 + }, + { + "epoch": 0.547264, + "grad_norm": 0.1688956916332245, + "learning_rate": 1.6351573333333334e-05, + "loss": 0.0104, + "step": 85510 + }, + { + "epoch": 0.547296, + "grad_norm": 0.5139621496200562, + "learning_rate": 1.635136e-05, + "loss": 0.0127, + "step": 85515 + }, + { + "epoch": 0.547328, + "grad_norm": 0.5663870573043823, + "learning_rate": 1.635114666666667e-05, + "loss": 0.0189, + "step": 85520 + }, + { + "epoch": 0.54736, + "grad_norm": 0.6251798272132874, + "learning_rate": 1.6350933333333333e-05, + "loss": 0.02, + "step": 85525 + }, + { + "epoch": 0.547392, + "grad_norm": 0.4362809658050537, + "learning_rate": 1.635072e-05, + "loss": 0.015, + "step": 85530 + }, + { + "epoch": 0.547424, + "grad_norm": 0.627224862575531, + "learning_rate": 1.6350506666666668e-05, + "loss": 0.0142, + "step": 85535 + }, + { + "epoch": 0.547456, + "grad_norm": 0.8303473591804504, + "learning_rate": 1.6350293333333332e-05, + "loss": 0.07, + "step": 85540 + }, + { + "epoch": 0.547488, + "grad_norm": 1.108766794204712, + "learning_rate": 1.635008e-05, + "loss": 0.012, + "step": 85545 + }, + { + "epoch": 0.54752, + "grad_norm": 0.5139023065567017, + "learning_rate": 1.6349866666666667e-05, + "loss": 0.0201, + "step": 85550 + }, + { + "epoch": 0.547552, + "grad_norm": 0.4574781656265259, + "learning_rate": 1.6349653333333335e-05, + "loss": 0.0118, + "step": 85555 + }, + { + "epoch": 0.547584, + "grad_norm": 0.9521706104278564, + "learning_rate": 1.6349440000000002e-05, + "loss": 0.0196, + "step": 85560 + }, + { + "epoch": 0.547616, + "grad_norm": 0.3538861572742462, + "learning_rate": 1.634922666666667e-05, + "loss": 0.0141, + "step": 85565 + }, + { + "epoch": 0.547648, + "grad_norm": 0.665886640548706, + "learning_rate": 1.6349013333333334e-05, + "loss": 0.0247, + "step": 85570 + }, + { + "epoch": 0.54768, + "grad_norm": 0.1364865005016327, + "learning_rate": 1.6348800000000002e-05, + "loss": 0.0082, + "step": 85575 + }, + { + "epoch": 0.547712, + "grad_norm": 0.4864967465400696, + "learning_rate": 1.634858666666667e-05, + "loss": 0.0134, + "step": 85580 + }, + { + "epoch": 0.547744, + "grad_norm": 0.08957146853208542, + "learning_rate": 1.6348373333333333e-05, + "loss": 0.0154, + "step": 85585 + }, + { + "epoch": 0.547776, + "grad_norm": 0.4158385396003723, + "learning_rate": 1.634816e-05, + "loss": 0.0141, + "step": 85590 + }, + { + "epoch": 0.547808, + "grad_norm": 0.14189599454402924, + "learning_rate": 1.634794666666667e-05, + "loss": 0.0165, + "step": 85595 + }, + { + "epoch": 0.54784, + "grad_norm": 0.6413509845733643, + "learning_rate": 1.6347733333333336e-05, + "loss": 0.0268, + "step": 85600 + }, + { + "epoch": 0.547872, + "grad_norm": 0.5422677397727966, + "learning_rate": 1.634752e-05, + "loss": 0.0159, + "step": 85605 + }, + { + "epoch": 0.547904, + "grad_norm": 1.0152479410171509, + "learning_rate": 1.6347306666666668e-05, + "loss": 0.0147, + "step": 85610 + }, + { + "epoch": 0.547936, + "grad_norm": 0.8888354301452637, + "learning_rate": 1.6347093333333335e-05, + "loss": 0.0206, + "step": 85615 + }, + { + "epoch": 0.547968, + "grad_norm": 1.9328421354293823, + "learning_rate": 1.634688e-05, + "loss": 0.0268, + "step": 85620 + }, + { + "epoch": 0.548, + "grad_norm": 1.622652530670166, + "learning_rate": 1.6346666666666667e-05, + "loss": 0.019, + "step": 85625 + }, + { + "epoch": 0.548032, + "grad_norm": 0.14372868835926056, + "learning_rate": 1.6346453333333335e-05, + "loss": 0.0207, + "step": 85630 + }, + { + "epoch": 0.548064, + "grad_norm": 3.0058391094207764, + "learning_rate": 1.6346240000000002e-05, + "loss": 0.018, + "step": 85635 + }, + { + "epoch": 0.548096, + "grad_norm": 0.433318555355072, + "learning_rate": 1.6346026666666666e-05, + "loss": 0.0098, + "step": 85640 + }, + { + "epoch": 0.548128, + "grad_norm": 0.04543907195329666, + "learning_rate": 1.6345813333333337e-05, + "loss": 0.0086, + "step": 85645 + }, + { + "epoch": 0.54816, + "grad_norm": 0.483692467212677, + "learning_rate": 1.63456e-05, + "loss": 0.0149, + "step": 85650 + }, + { + "epoch": 0.548192, + "grad_norm": 0.5062152147293091, + "learning_rate": 1.6345386666666666e-05, + "loss": 0.0161, + "step": 85655 + }, + { + "epoch": 0.548224, + "grad_norm": 0.39025062322616577, + "learning_rate": 1.6345173333333337e-05, + "loss": 0.0188, + "step": 85660 + }, + { + "epoch": 0.548256, + "grad_norm": 0.20314322412014008, + "learning_rate": 1.634496e-05, + "loss": 0.0176, + "step": 85665 + }, + { + "epoch": 0.548288, + "grad_norm": 0.5699231028556824, + "learning_rate": 1.634474666666667e-05, + "loss": 0.0155, + "step": 85670 + }, + { + "epoch": 0.54832, + "grad_norm": 1.1709188222885132, + "learning_rate": 1.6344533333333336e-05, + "loss": 0.0218, + "step": 85675 + }, + { + "epoch": 0.548352, + "grad_norm": 0.8892310261726379, + "learning_rate": 1.6344320000000003e-05, + "loss": 0.0206, + "step": 85680 + }, + { + "epoch": 0.548384, + "grad_norm": 0.9278944730758667, + "learning_rate": 1.6344106666666668e-05, + "loss": 0.0205, + "step": 85685 + }, + { + "epoch": 0.548416, + "grad_norm": 0.42117393016815186, + "learning_rate": 1.6343893333333335e-05, + "loss": 0.0118, + "step": 85690 + }, + { + "epoch": 0.548448, + "grad_norm": 0.3183431923389435, + "learning_rate": 1.6343680000000003e-05, + "loss": 0.0209, + "step": 85695 + }, + { + "epoch": 0.54848, + "grad_norm": 0.17480894923210144, + "learning_rate": 1.6343466666666667e-05, + "loss": 0.0257, + "step": 85700 + }, + { + "epoch": 0.548512, + "grad_norm": 1.0738849639892578, + "learning_rate": 1.6343253333333334e-05, + "loss": 0.0211, + "step": 85705 + }, + { + "epoch": 0.548544, + "grad_norm": 0.19562236964702606, + "learning_rate": 1.6343040000000002e-05, + "loss": 0.0133, + "step": 85710 + }, + { + "epoch": 0.548576, + "grad_norm": 0.3885999321937561, + "learning_rate": 1.634282666666667e-05, + "loss": 0.0274, + "step": 85715 + }, + { + "epoch": 0.548608, + "grad_norm": 1.163134217262268, + "learning_rate": 1.6342613333333334e-05, + "loss": 0.0182, + "step": 85720 + }, + { + "epoch": 0.54864, + "grad_norm": 0.6083697080612183, + "learning_rate": 1.63424e-05, + "loss": 0.0223, + "step": 85725 + }, + { + "epoch": 0.548672, + "grad_norm": 0.8946638107299805, + "learning_rate": 1.634218666666667e-05, + "loss": 0.0313, + "step": 85730 + }, + { + "epoch": 0.548704, + "grad_norm": 0.6259006261825562, + "learning_rate": 1.6341973333333333e-05, + "loss": 0.0124, + "step": 85735 + }, + { + "epoch": 0.548736, + "grad_norm": 0.2567256689071655, + "learning_rate": 1.634176e-05, + "loss": 0.0301, + "step": 85740 + }, + { + "epoch": 0.548768, + "grad_norm": 0.36581704020500183, + "learning_rate": 1.6341546666666668e-05, + "loss": 0.0121, + "step": 85745 + }, + { + "epoch": 0.5488, + "grad_norm": 0.637673020362854, + "learning_rate": 1.6341333333333336e-05, + "loss": 0.0158, + "step": 85750 + }, + { + "epoch": 0.548832, + "grad_norm": 1.1847004890441895, + "learning_rate": 1.634112e-05, + "loss": 0.0379, + "step": 85755 + }, + { + "epoch": 0.548864, + "grad_norm": 1.3509657382965088, + "learning_rate": 1.6340906666666667e-05, + "loss": 0.0494, + "step": 85760 + }, + { + "epoch": 0.548896, + "grad_norm": 0.18124938011169434, + "learning_rate": 1.6340693333333335e-05, + "loss": 0.0201, + "step": 85765 + }, + { + "epoch": 0.548928, + "grad_norm": 0.9970150589942932, + "learning_rate": 1.634048e-05, + "loss": 0.0201, + "step": 85770 + }, + { + "epoch": 0.54896, + "grad_norm": 0.3258298635482788, + "learning_rate": 1.634026666666667e-05, + "loss": 0.0109, + "step": 85775 + }, + { + "epoch": 0.548992, + "grad_norm": 0.9019511938095093, + "learning_rate": 1.6340053333333334e-05, + "loss": 0.0119, + "step": 85780 + }, + { + "epoch": 0.549024, + "grad_norm": 3.076085090637207, + "learning_rate": 1.6339840000000002e-05, + "loss": 0.0169, + "step": 85785 + }, + { + "epoch": 0.549056, + "grad_norm": 0.19340874254703522, + "learning_rate": 1.633962666666667e-05, + "loss": 0.0114, + "step": 85790 + }, + { + "epoch": 0.549088, + "grad_norm": 0.8396432399749756, + "learning_rate": 1.6339413333333333e-05, + "loss": 0.025, + "step": 85795 + }, + { + "epoch": 0.54912, + "grad_norm": 0.8629012703895569, + "learning_rate": 1.63392e-05, + "loss": 0.0187, + "step": 85800 + }, + { + "epoch": 0.549152, + "grad_norm": 0.2786335051059723, + "learning_rate": 1.633898666666667e-05, + "loss": 0.013, + "step": 85805 + }, + { + "epoch": 0.549184, + "grad_norm": 0.6940518617630005, + "learning_rate": 1.6338773333333336e-05, + "loss": 0.0149, + "step": 85810 + }, + { + "epoch": 0.549216, + "grad_norm": 0.7453247308731079, + "learning_rate": 1.633856e-05, + "loss": 0.0145, + "step": 85815 + }, + { + "epoch": 0.549248, + "grad_norm": 1.0732555389404297, + "learning_rate": 1.6338346666666668e-05, + "loss": 0.0122, + "step": 85820 + }, + { + "epoch": 0.54928, + "grad_norm": 1.5586674213409424, + "learning_rate": 1.6338133333333335e-05, + "loss": 0.0427, + "step": 85825 + }, + { + "epoch": 0.549312, + "grad_norm": 1.0438153743743896, + "learning_rate": 1.633792e-05, + "loss": 0.0153, + "step": 85830 + }, + { + "epoch": 0.549344, + "grad_norm": 1.582047462463379, + "learning_rate": 1.6337706666666667e-05, + "loss": 0.0174, + "step": 85835 + }, + { + "epoch": 0.549376, + "grad_norm": 1.8168301582336426, + "learning_rate": 1.6337493333333335e-05, + "loss": 0.018, + "step": 85840 + }, + { + "epoch": 0.549408, + "grad_norm": 0.27461570501327515, + "learning_rate": 1.6337280000000002e-05, + "loss": 0.0128, + "step": 85845 + }, + { + "epoch": 0.54944, + "grad_norm": 0.09651073813438416, + "learning_rate": 1.6337066666666666e-05, + "loss": 0.0195, + "step": 85850 + }, + { + "epoch": 0.549472, + "grad_norm": 0.40826502442359924, + "learning_rate": 1.6336853333333337e-05, + "loss": 0.0134, + "step": 85855 + }, + { + "epoch": 0.549504, + "grad_norm": 1.1983250379562378, + "learning_rate": 1.633664e-05, + "loss": 0.0171, + "step": 85860 + }, + { + "epoch": 0.549536, + "grad_norm": 0.8164234161376953, + "learning_rate": 1.6336426666666666e-05, + "loss": 0.0217, + "step": 85865 + }, + { + "epoch": 0.549568, + "grad_norm": 0.5782622694969177, + "learning_rate": 1.6336213333333337e-05, + "loss": 0.0085, + "step": 85870 + }, + { + "epoch": 0.5496, + "grad_norm": 0.09883071482181549, + "learning_rate": 1.6336e-05, + "loss": 0.0309, + "step": 85875 + }, + { + "epoch": 0.549632, + "grad_norm": 0.11564701795578003, + "learning_rate": 1.633578666666667e-05, + "loss": 0.0135, + "step": 85880 + }, + { + "epoch": 0.549664, + "grad_norm": 1.3141472339630127, + "learning_rate": 1.6335573333333336e-05, + "loss": 0.0173, + "step": 85885 + }, + { + "epoch": 0.549696, + "grad_norm": 0.6512880921363831, + "learning_rate": 1.6335360000000003e-05, + "loss": 0.0218, + "step": 85890 + }, + { + "epoch": 0.549728, + "grad_norm": 1.0152348279953003, + "learning_rate": 1.6335146666666668e-05, + "loss": 0.0199, + "step": 85895 + }, + { + "epoch": 0.54976, + "grad_norm": 0.7198938727378845, + "learning_rate": 1.6334933333333335e-05, + "loss": 0.0221, + "step": 85900 + }, + { + "epoch": 0.549792, + "grad_norm": 0.5651187300682068, + "learning_rate": 1.6334720000000003e-05, + "loss": 0.0108, + "step": 85905 + }, + { + "epoch": 0.549824, + "grad_norm": 1.1355623006820679, + "learning_rate": 1.6334506666666667e-05, + "loss": 0.0127, + "step": 85910 + }, + { + "epoch": 0.549856, + "grad_norm": 0.37591618299484253, + "learning_rate": 1.6334293333333334e-05, + "loss": 0.0192, + "step": 85915 + }, + { + "epoch": 0.549888, + "grad_norm": 0.3673105537891388, + "learning_rate": 1.6334080000000002e-05, + "loss": 0.0146, + "step": 85920 + }, + { + "epoch": 0.54992, + "grad_norm": 0.5365878343582153, + "learning_rate": 1.633386666666667e-05, + "loss": 0.0054, + "step": 85925 + }, + { + "epoch": 0.549952, + "grad_norm": 0.18718008697032928, + "learning_rate": 1.6333653333333334e-05, + "loss": 0.0157, + "step": 85930 + }, + { + "epoch": 0.549984, + "grad_norm": 0.5277296900749207, + "learning_rate": 1.633344e-05, + "loss": 0.016, + "step": 85935 + }, + { + "epoch": 0.550016, + "grad_norm": 1.270263910293579, + "learning_rate": 1.633322666666667e-05, + "loss": 0.0073, + "step": 85940 + }, + { + "epoch": 0.550048, + "grad_norm": 0.21000397205352783, + "learning_rate": 1.6333013333333333e-05, + "loss": 0.0092, + "step": 85945 + }, + { + "epoch": 0.55008, + "grad_norm": 0.39243265986442566, + "learning_rate": 1.63328e-05, + "loss": 0.0251, + "step": 85950 + }, + { + "epoch": 0.550112, + "grad_norm": 0.954480767250061, + "learning_rate": 1.6332586666666668e-05, + "loss": 0.0074, + "step": 85955 + }, + { + "epoch": 0.550144, + "grad_norm": 0.29724395275115967, + "learning_rate": 1.6332373333333336e-05, + "loss": 0.0089, + "step": 85960 + }, + { + "epoch": 0.550176, + "grad_norm": 0.7527499794960022, + "learning_rate": 1.633216e-05, + "loss": 0.0216, + "step": 85965 + }, + { + "epoch": 0.550208, + "grad_norm": 0.5011777877807617, + "learning_rate": 1.6331946666666667e-05, + "loss": 0.0125, + "step": 85970 + }, + { + "epoch": 0.55024, + "grad_norm": 0.4772072732448578, + "learning_rate": 1.6331733333333335e-05, + "loss": 0.0201, + "step": 85975 + }, + { + "epoch": 0.550272, + "grad_norm": 0.14106342196464539, + "learning_rate": 1.633152e-05, + "loss": 0.0066, + "step": 85980 + }, + { + "epoch": 0.550304, + "grad_norm": 0.14938516914844513, + "learning_rate": 1.633130666666667e-05, + "loss": 0.0054, + "step": 85985 + }, + { + "epoch": 0.550336, + "grad_norm": 0.2018965631723404, + "learning_rate": 1.6331093333333334e-05, + "loss": 0.0162, + "step": 85990 + }, + { + "epoch": 0.550368, + "grad_norm": 0.20898617804050446, + "learning_rate": 1.6330880000000002e-05, + "loss": 0.0088, + "step": 85995 + }, + { + "epoch": 0.5504, + "grad_norm": 0.7405384182929993, + "learning_rate": 1.633066666666667e-05, + "loss": 0.0168, + "step": 86000 + }, + { + "epoch": 0.550432, + "grad_norm": 0.3910540044307709, + "learning_rate": 1.6330453333333333e-05, + "loss": 0.0068, + "step": 86005 + }, + { + "epoch": 0.550464, + "grad_norm": 0.1514361947774887, + "learning_rate": 1.633024e-05, + "loss": 0.021, + "step": 86010 + }, + { + "epoch": 0.550496, + "grad_norm": 0.35218584537506104, + "learning_rate": 1.633002666666667e-05, + "loss": 0.0208, + "step": 86015 + }, + { + "epoch": 0.550528, + "grad_norm": 0.34730616211891174, + "learning_rate": 1.6329813333333336e-05, + "loss": 0.0073, + "step": 86020 + }, + { + "epoch": 0.55056, + "grad_norm": 0.3376682996749878, + "learning_rate": 1.63296e-05, + "loss": 0.016, + "step": 86025 + }, + { + "epoch": 0.550592, + "grad_norm": 0.25369563698768616, + "learning_rate": 1.6329386666666668e-05, + "loss": 0.0188, + "step": 86030 + }, + { + "epoch": 0.550624, + "grad_norm": 0.7170425653457642, + "learning_rate": 1.6329173333333335e-05, + "loss": 0.0159, + "step": 86035 + }, + { + "epoch": 0.550656, + "grad_norm": 0.43823137879371643, + "learning_rate": 1.632896e-05, + "loss": 0.008, + "step": 86040 + }, + { + "epoch": 0.550688, + "grad_norm": 0.053456392139196396, + "learning_rate": 1.6328746666666667e-05, + "loss": 0.0156, + "step": 86045 + }, + { + "epoch": 0.55072, + "grad_norm": 0.42654383182525635, + "learning_rate": 1.6328533333333335e-05, + "loss": 0.0365, + "step": 86050 + }, + { + "epoch": 0.550752, + "grad_norm": 0.12868782877922058, + "learning_rate": 1.6328320000000002e-05, + "loss": 0.0202, + "step": 86055 + }, + { + "epoch": 0.550784, + "grad_norm": 0.3640628755092621, + "learning_rate": 1.6328106666666666e-05, + "loss": 0.0151, + "step": 86060 + }, + { + "epoch": 0.550816, + "grad_norm": 0.36865076422691345, + "learning_rate": 1.6327893333333334e-05, + "loss": 0.0164, + "step": 86065 + }, + { + "epoch": 0.550848, + "grad_norm": 0.39324817061424255, + "learning_rate": 1.632768e-05, + "loss": 0.0298, + "step": 86070 + }, + { + "epoch": 0.55088, + "grad_norm": 0.5845702886581421, + "learning_rate": 1.6327466666666666e-05, + "loss": 0.0075, + "step": 86075 + }, + { + "epoch": 0.550912, + "grad_norm": 3.7348825931549072, + "learning_rate": 1.6327253333333337e-05, + "loss": 0.0475, + "step": 86080 + }, + { + "epoch": 0.550944, + "grad_norm": 0.49351343512535095, + "learning_rate": 1.632704e-05, + "loss": 0.0127, + "step": 86085 + }, + { + "epoch": 0.550976, + "grad_norm": 0.5987451076507568, + "learning_rate": 1.632682666666667e-05, + "loss": 0.0253, + "step": 86090 + }, + { + "epoch": 0.551008, + "grad_norm": 0.4839721918106079, + "learning_rate": 1.6326613333333336e-05, + "loss": 0.0122, + "step": 86095 + }, + { + "epoch": 0.55104, + "grad_norm": 1.6137890815734863, + "learning_rate": 1.6326400000000003e-05, + "loss": 0.0371, + "step": 86100 + }, + { + "epoch": 0.551072, + "grad_norm": 0.47038260102272034, + "learning_rate": 1.6326186666666668e-05, + "loss": 0.0091, + "step": 86105 + }, + { + "epoch": 0.551104, + "grad_norm": 0.44615623354911804, + "learning_rate": 1.6325973333333335e-05, + "loss": 0.0208, + "step": 86110 + }, + { + "epoch": 0.551136, + "grad_norm": 0.6452433466911316, + "learning_rate": 1.6325760000000003e-05, + "loss": 0.012, + "step": 86115 + }, + { + "epoch": 0.551168, + "grad_norm": 0.82130366563797, + "learning_rate": 1.6325546666666667e-05, + "loss": 0.0258, + "step": 86120 + }, + { + "epoch": 0.5512, + "grad_norm": 0.5247398018836975, + "learning_rate": 1.6325333333333334e-05, + "loss": 0.0272, + "step": 86125 + }, + { + "epoch": 0.551232, + "grad_norm": 1.1441709995269775, + "learning_rate": 1.6325120000000002e-05, + "loss": 0.0218, + "step": 86130 + }, + { + "epoch": 0.551264, + "grad_norm": 0.03291679918766022, + "learning_rate": 1.632490666666667e-05, + "loss": 0.0073, + "step": 86135 + }, + { + "epoch": 0.551296, + "grad_norm": 0.2911692261695862, + "learning_rate": 1.6324693333333334e-05, + "loss": 0.0184, + "step": 86140 + }, + { + "epoch": 0.551328, + "grad_norm": 0.2998286485671997, + "learning_rate": 1.632448e-05, + "loss": 0.0147, + "step": 86145 + }, + { + "epoch": 0.55136, + "grad_norm": 0.6014891862869263, + "learning_rate": 1.632426666666667e-05, + "loss": 0.0129, + "step": 86150 + }, + { + "epoch": 0.551392, + "grad_norm": 0.8064721822738647, + "learning_rate": 1.6324053333333333e-05, + "loss": 0.029, + "step": 86155 + }, + { + "epoch": 0.551424, + "grad_norm": 1.1452370882034302, + "learning_rate": 1.632384e-05, + "loss": 0.015, + "step": 86160 + }, + { + "epoch": 0.551456, + "grad_norm": 0.7920799255371094, + "learning_rate": 1.6323626666666668e-05, + "loss": 0.0226, + "step": 86165 + }, + { + "epoch": 0.551488, + "grad_norm": 1.2724682092666626, + "learning_rate": 1.6323413333333336e-05, + "loss": 0.0169, + "step": 86170 + }, + { + "epoch": 0.55152, + "grad_norm": 0.40698495507240295, + "learning_rate": 1.63232e-05, + "loss": 0.0106, + "step": 86175 + }, + { + "epoch": 0.551552, + "grad_norm": 0.14458706974983215, + "learning_rate": 1.6322986666666667e-05, + "loss": 0.0083, + "step": 86180 + }, + { + "epoch": 0.551584, + "grad_norm": 0.4285701513290405, + "learning_rate": 1.6322773333333335e-05, + "loss": 0.0226, + "step": 86185 + }, + { + "epoch": 0.551616, + "grad_norm": 1.5942431688308716, + "learning_rate": 1.632256e-05, + "loss": 0.0222, + "step": 86190 + }, + { + "epoch": 0.551648, + "grad_norm": 1.0888148546218872, + "learning_rate": 1.632234666666667e-05, + "loss": 0.0233, + "step": 86195 + }, + { + "epoch": 0.55168, + "grad_norm": 0.9677391648292542, + "learning_rate": 1.6322133333333334e-05, + "loss": 0.0459, + "step": 86200 + }, + { + "epoch": 0.551712, + "grad_norm": 2.649017572402954, + "learning_rate": 1.6321920000000002e-05, + "loss": 0.0418, + "step": 86205 + }, + { + "epoch": 0.551744, + "grad_norm": 0.058040015399456024, + "learning_rate": 1.632170666666667e-05, + "loss": 0.0206, + "step": 86210 + }, + { + "epoch": 0.551776, + "grad_norm": 0.2863559424877167, + "learning_rate": 1.6321493333333333e-05, + "loss": 0.0091, + "step": 86215 + }, + { + "epoch": 0.551808, + "grad_norm": 0.3494512438774109, + "learning_rate": 1.632128e-05, + "loss": 0.01, + "step": 86220 + }, + { + "epoch": 0.55184, + "grad_norm": 0.044930215924978256, + "learning_rate": 1.632106666666667e-05, + "loss": 0.0103, + "step": 86225 + }, + { + "epoch": 0.551872, + "grad_norm": 0.6504202485084534, + "learning_rate": 1.6320853333333336e-05, + "loss": 0.0275, + "step": 86230 + }, + { + "epoch": 0.551904, + "grad_norm": 0.7805190682411194, + "learning_rate": 1.632064e-05, + "loss": 0.0249, + "step": 86235 + }, + { + "epoch": 0.551936, + "grad_norm": 0.1478452980518341, + "learning_rate": 1.6320426666666668e-05, + "loss": 0.0208, + "step": 86240 + }, + { + "epoch": 0.551968, + "grad_norm": 1.8729692697525024, + "learning_rate": 1.6320213333333335e-05, + "loss": 0.023, + "step": 86245 + }, + { + "epoch": 0.552, + "grad_norm": 1.5931801795959473, + "learning_rate": 1.632e-05, + "loss": 0.0241, + "step": 86250 + }, + { + "epoch": 0.552032, + "grad_norm": 0.39920979738235474, + "learning_rate": 1.6319786666666667e-05, + "loss": 0.0135, + "step": 86255 + }, + { + "epoch": 0.552064, + "grad_norm": 0.8934932351112366, + "learning_rate": 1.6319573333333335e-05, + "loss": 0.0296, + "step": 86260 + }, + { + "epoch": 0.552096, + "grad_norm": 0.6301618218421936, + "learning_rate": 1.6319360000000002e-05, + "loss": 0.0248, + "step": 86265 + }, + { + "epoch": 0.552128, + "grad_norm": 1.5768539905548096, + "learning_rate": 1.6319146666666666e-05, + "loss": 0.0204, + "step": 86270 + }, + { + "epoch": 0.55216, + "grad_norm": 0.713487446308136, + "learning_rate": 1.6318933333333334e-05, + "loss": 0.0209, + "step": 86275 + }, + { + "epoch": 0.552192, + "grad_norm": 0.6632584929466248, + "learning_rate": 1.631872e-05, + "loss": 0.0225, + "step": 86280 + }, + { + "epoch": 0.552224, + "grad_norm": 0.14389468729496002, + "learning_rate": 1.6318506666666666e-05, + "loss": 0.0172, + "step": 86285 + }, + { + "epoch": 0.552256, + "grad_norm": 0.5393590331077576, + "learning_rate": 1.6318293333333333e-05, + "loss": 0.0118, + "step": 86290 + }, + { + "epoch": 0.552288, + "grad_norm": 0.425148069858551, + "learning_rate": 1.631808e-05, + "loss": 0.0379, + "step": 86295 + }, + { + "epoch": 0.55232, + "grad_norm": 0.7733482718467712, + "learning_rate": 1.631786666666667e-05, + "loss": 0.0263, + "step": 86300 + }, + { + "epoch": 0.552352, + "grad_norm": 0.11264607310295105, + "learning_rate": 1.6317653333333336e-05, + "loss": 0.0192, + "step": 86305 + }, + { + "epoch": 0.552384, + "grad_norm": 0.6655347347259521, + "learning_rate": 1.6317440000000003e-05, + "loss": 0.0282, + "step": 86310 + }, + { + "epoch": 0.552416, + "grad_norm": 0.8288773894309998, + "learning_rate": 1.6317226666666668e-05, + "loss": 0.021, + "step": 86315 + }, + { + "epoch": 0.552448, + "grad_norm": 0.2402174174785614, + "learning_rate": 1.6317013333333335e-05, + "loss": 0.0098, + "step": 86320 + }, + { + "epoch": 0.55248, + "grad_norm": 0.8758824467658997, + "learning_rate": 1.6316800000000003e-05, + "loss": 0.0189, + "step": 86325 + }, + { + "epoch": 0.552512, + "grad_norm": 0.4435122311115265, + "learning_rate": 1.6316586666666667e-05, + "loss": 0.0151, + "step": 86330 + }, + { + "epoch": 0.552544, + "grad_norm": 0.497205525636673, + "learning_rate": 1.6316373333333334e-05, + "loss": 0.0132, + "step": 86335 + }, + { + "epoch": 0.552576, + "grad_norm": 0.3408053517341614, + "learning_rate": 1.6316160000000002e-05, + "loss": 0.0191, + "step": 86340 + }, + { + "epoch": 0.552608, + "grad_norm": 0.41012904047966003, + "learning_rate": 1.631594666666667e-05, + "loss": 0.0072, + "step": 86345 + }, + { + "epoch": 0.55264, + "grad_norm": 0.41811326146125793, + "learning_rate": 1.6315733333333334e-05, + "loss": 0.0096, + "step": 86350 + }, + { + "epoch": 0.552672, + "grad_norm": 0.8414251804351807, + "learning_rate": 1.631552e-05, + "loss": 0.0153, + "step": 86355 + }, + { + "epoch": 0.552704, + "grad_norm": 0.7406512498855591, + "learning_rate": 1.631530666666667e-05, + "loss": 0.0268, + "step": 86360 + }, + { + "epoch": 0.552736, + "grad_norm": 1.739251971244812, + "learning_rate": 1.6315093333333333e-05, + "loss": 0.0146, + "step": 86365 + }, + { + "epoch": 0.552768, + "grad_norm": 0.11907130479812622, + "learning_rate": 1.631488e-05, + "loss": 0.0138, + "step": 86370 + }, + { + "epoch": 0.5528, + "grad_norm": 0.6185717582702637, + "learning_rate": 1.6314666666666668e-05, + "loss": 0.0291, + "step": 86375 + }, + { + "epoch": 0.552832, + "grad_norm": 0.04838595911860466, + "learning_rate": 1.6314453333333336e-05, + "loss": 0.0173, + "step": 86380 + }, + { + "epoch": 0.552864, + "grad_norm": 0.066832035779953, + "learning_rate": 1.631424e-05, + "loss": 0.0133, + "step": 86385 + }, + { + "epoch": 0.552896, + "grad_norm": 0.41511398553848267, + "learning_rate": 1.6314026666666667e-05, + "loss": 0.009, + "step": 86390 + }, + { + "epoch": 0.552928, + "grad_norm": 0.5658575892448425, + "learning_rate": 1.6313813333333335e-05, + "loss": 0.0122, + "step": 86395 + }, + { + "epoch": 0.55296, + "grad_norm": 0.24301773309707642, + "learning_rate": 1.63136e-05, + "loss": 0.0057, + "step": 86400 + }, + { + "epoch": 0.552992, + "grad_norm": 0.5819284319877625, + "learning_rate": 1.631338666666667e-05, + "loss": 0.0082, + "step": 86405 + }, + { + "epoch": 0.553024, + "grad_norm": 0.5121536254882812, + "learning_rate": 1.6313173333333334e-05, + "loss": 0.0111, + "step": 86410 + }, + { + "epoch": 0.553056, + "grad_norm": 0.26255595684051514, + "learning_rate": 1.6312960000000002e-05, + "loss": 0.0105, + "step": 86415 + }, + { + "epoch": 0.553088, + "grad_norm": 0.4298286437988281, + "learning_rate": 1.631274666666667e-05, + "loss": 0.0111, + "step": 86420 + }, + { + "epoch": 0.55312, + "grad_norm": 0.19491389393806458, + "learning_rate": 1.6312533333333337e-05, + "loss": 0.013, + "step": 86425 + }, + { + "epoch": 0.553152, + "grad_norm": 0.457675963640213, + "learning_rate": 1.631232e-05, + "loss": 0.0108, + "step": 86430 + }, + { + "epoch": 0.553184, + "grad_norm": 1.1576906442642212, + "learning_rate": 1.631210666666667e-05, + "loss": 0.0384, + "step": 86435 + }, + { + "epoch": 0.553216, + "grad_norm": 0.708073616027832, + "learning_rate": 1.6311893333333336e-05, + "loss": 0.027, + "step": 86440 + }, + { + "epoch": 0.553248, + "grad_norm": 0.12208375334739685, + "learning_rate": 1.631168e-05, + "loss": 0.0095, + "step": 86445 + }, + { + "epoch": 0.55328, + "grad_norm": 0.45773041248321533, + "learning_rate": 1.6311466666666668e-05, + "loss": 0.0281, + "step": 86450 + }, + { + "epoch": 0.553312, + "grad_norm": 1.0523784160614014, + "learning_rate": 1.6311253333333335e-05, + "loss": 0.0232, + "step": 86455 + }, + { + "epoch": 0.553344, + "grad_norm": 0.14496557414531708, + "learning_rate": 1.6311040000000003e-05, + "loss": 0.0393, + "step": 86460 + }, + { + "epoch": 0.553376, + "grad_norm": 0.603266716003418, + "learning_rate": 1.6310826666666667e-05, + "loss": 0.0308, + "step": 86465 + }, + { + "epoch": 0.553408, + "grad_norm": 0.6674613952636719, + "learning_rate": 1.6310613333333335e-05, + "loss": 0.0119, + "step": 86470 + }, + { + "epoch": 0.55344, + "grad_norm": 1.886366844177246, + "learning_rate": 1.6310400000000002e-05, + "loss": 0.0367, + "step": 86475 + }, + { + "epoch": 0.553472, + "grad_norm": 0.81876140832901, + "learning_rate": 1.6310186666666666e-05, + "loss": 0.0122, + "step": 86480 + }, + { + "epoch": 0.553504, + "grad_norm": 1.4827196598052979, + "learning_rate": 1.6309973333333334e-05, + "loss": 0.0399, + "step": 86485 + }, + { + "epoch": 0.553536, + "grad_norm": 0.1620323807001114, + "learning_rate": 1.630976e-05, + "loss": 0.0259, + "step": 86490 + }, + { + "epoch": 0.553568, + "grad_norm": 0.9496659636497498, + "learning_rate": 1.630954666666667e-05, + "loss": 0.0231, + "step": 86495 + }, + { + "epoch": 0.5536, + "grad_norm": 0.6941573023796082, + "learning_rate": 1.6309333333333333e-05, + "loss": 0.0127, + "step": 86500 + }, + { + "epoch": 0.553632, + "grad_norm": 1.1186822652816772, + "learning_rate": 1.630912e-05, + "loss": 0.0152, + "step": 86505 + }, + { + "epoch": 0.553664, + "grad_norm": 0.19766025245189667, + "learning_rate": 1.630890666666667e-05, + "loss": 0.0174, + "step": 86510 + }, + { + "epoch": 0.553696, + "grad_norm": 0.41534316539764404, + "learning_rate": 1.6308693333333333e-05, + "loss": 0.0222, + "step": 86515 + }, + { + "epoch": 0.553728, + "grad_norm": 1.243624210357666, + "learning_rate": 1.6308480000000003e-05, + "loss": 0.0132, + "step": 86520 + }, + { + "epoch": 0.55376, + "grad_norm": 0.4144221544265747, + "learning_rate": 1.6308266666666668e-05, + "loss": 0.0255, + "step": 86525 + }, + { + "epoch": 0.553792, + "grad_norm": 0.8265808820724487, + "learning_rate": 1.6308053333333335e-05, + "loss": 0.0286, + "step": 86530 + }, + { + "epoch": 0.553824, + "grad_norm": 2.0595510005950928, + "learning_rate": 1.6307840000000003e-05, + "loss": 0.0368, + "step": 86535 + }, + { + "epoch": 0.553856, + "grad_norm": 0.3758317828178406, + "learning_rate": 1.6307626666666667e-05, + "loss": 0.0176, + "step": 86540 + }, + { + "epoch": 0.553888, + "grad_norm": 0.36575648188591003, + "learning_rate": 1.6307413333333334e-05, + "loss": 0.0163, + "step": 86545 + }, + { + "epoch": 0.55392, + "grad_norm": 0.3699709177017212, + "learning_rate": 1.6307200000000002e-05, + "loss": 0.0258, + "step": 86550 + }, + { + "epoch": 0.553952, + "grad_norm": 0.38436275720596313, + "learning_rate": 1.630698666666667e-05, + "loss": 0.0151, + "step": 86555 + }, + { + "epoch": 0.553984, + "grad_norm": 0.37129461765289307, + "learning_rate": 1.6306773333333334e-05, + "loss": 0.0128, + "step": 86560 + }, + { + "epoch": 0.554016, + "grad_norm": 0.27526623010635376, + "learning_rate": 1.630656e-05, + "loss": 0.0104, + "step": 86565 + }, + { + "epoch": 0.554048, + "grad_norm": 0.5673726201057434, + "learning_rate": 1.630634666666667e-05, + "loss": 0.0111, + "step": 86570 + }, + { + "epoch": 0.55408, + "grad_norm": 0.9321593046188354, + "learning_rate": 1.6306133333333333e-05, + "loss": 0.0142, + "step": 86575 + }, + { + "epoch": 0.554112, + "grad_norm": 0.7955771684646606, + "learning_rate": 1.630592e-05, + "loss": 0.0177, + "step": 86580 + }, + { + "epoch": 0.554144, + "grad_norm": 0.84098881483078, + "learning_rate": 1.6305706666666668e-05, + "loss": 0.0215, + "step": 86585 + }, + { + "epoch": 0.554176, + "grad_norm": 0.059705790132284164, + "learning_rate": 1.6305493333333336e-05, + "loss": 0.0153, + "step": 86590 + }, + { + "epoch": 0.554208, + "grad_norm": 0.5216681361198425, + "learning_rate": 1.630528e-05, + "loss": 0.0197, + "step": 86595 + }, + { + "epoch": 0.55424, + "grad_norm": 3.081949234008789, + "learning_rate": 1.6305066666666667e-05, + "loss": 0.0185, + "step": 86600 + }, + { + "epoch": 0.554272, + "grad_norm": 0.6703639626502991, + "learning_rate": 1.6304853333333335e-05, + "loss": 0.0243, + "step": 86605 + }, + { + "epoch": 0.554304, + "grad_norm": 0.45354363322257996, + "learning_rate": 1.630464e-05, + "loss": 0.0193, + "step": 86610 + }, + { + "epoch": 0.554336, + "grad_norm": 0.4250778257846832, + "learning_rate": 1.630442666666667e-05, + "loss": 0.0187, + "step": 86615 + }, + { + "epoch": 0.554368, + "grad_norm": 1.6368738412857056, + "learning_rate": 1.6304213333333334e-05, + "loss": 0.0118, + "step": 86620 + }, + { + "epoch": 0.5544, + "grad_norm": 0.18470856547355652, + "learning_rate": 1.6304000000000002e-05, + "loss": 0.0125, + "step": 86625 + }, + { + "epoch": 0.554432, + "grad_norm": 1.0070154666900635, + "learning_rate": 1.630378666666667e-05, + "loss": 0.0188, + "step": 86630 + }, + { + "epoch": 0.554464, + "grad_norm": 0.10839322954416275, + "learning_rate": 1.6303573333333337e-05, + "loss": 0.0165, + "step": 86635 + }, + { + "epoch": 0.554496, + "grad_norm": 0.5280616879463196, + "learning_rate": 1.630336e-05, + "loss": 0.026, + "step": 86640 + }, + { + "epoch": 0.554528, + "grad_norm": 0.5381854176521301, + "learning_rate": 1.630314666666667e-05, + "loss": 0.0262, + "step": 86645 + }, + { + "epoch": 0.55456, + "grad_norm": 0.6824178695678711, + "learning_rate": 1.6302933333333336e-05, + "loss": 0.015, + "step": 86650 + }, + { + "epoch": 0.554592, + "grad_norm": 0.07449401915073395, + "learning_rate": 1.630272e-05, + "loss": 0.0163, + "step": 86655 + }, + { + "epoch": 0.554624, + "grad_norm": 0.5681144595146179, + "learning_rate": 1.6302506666666668e-05, + "loss": 0.016, + "step": 86660 + }, + { + "epoch": 0.554656, + "grad_norm": 0.2833658754825592, + "learning_rate": 1.6302293333333335e-05, + "loss": 0.0159, + "step": 86665 + }, + { + "epoch": 0.554688, + "grad_norm": 0.999189555644989, + "learning_rate": 1.6302080000000003e-05, + "loss": 0.0284, + "step": 86670 + }, + { + "epoch": 0.55472, + "grad_norm": 0.44834470748901367, + "learning_rate": 1.6301866666666667e-05, + "loss": 0.0077, + "step": 86675 + }, + { + "epoch": 0.554752, + "grad_norm": 0.8807175159454346, + "learning_rate": 1.6301653333333335e-05, + "loss": 0.0271, + "step": 86680 + }, + { + "epoch": 0.554784, + "grad_norm": 0.35596737265586853, + "learning_rate": 1.6301440000000002e-05, + "loss": 0.0138, + "step": 86685 + }, + { + "epoch": 0.554816, + "grad_norm": 0.12268556654453278, + "learning_rate": 1.6301226666666666e-05, + "loss": 0.0216, + "step": 86690 + }, + { + "epoch": 0.554848, + "grad_norm": 1.9337712526321411, + "learning_rate": 1.6301013333333334e-05, + "loss": 0.033, + "step": 86695 + }, + { + "epoch": 0.55488, + "grad_norm": 0.5935804843902588, + "learning_rate": 1.63008e-05, + "loss": 0.0131, + "step": 86700 + }, + { + "epoch": 0.554912, + "grad_norm": 0.13157495856285095, + "learning_rate": 1.630058666666667e-05, + "loss": 0.0117, + "step": 86705 + }, + { + "epoch": 0.554944, + "grad_norm": 0.8568494319915771, + "learning_rate": 1.6300373333333333e-05, + "loss": 0.0152, + "step": 86710 + }, + { + "epoch": 0.554976, + "grad_norm": 0.962378740310669, + "learning_rate": 1.630016e-05, + "loss": 0.0273, + "step": 86715 + }, + { + "epoch": 0.555008, + "grad_norm": 0.958069384098053, + "learning_rate": 1.629994666666667e-05, + "loss": 0.0169, + "step": 86720 + }, + { + "epoch": 0.55504, + "grad_norm": 0.877962589263916, + "learning_rate": 1.6299733333333333e-05, + "loss": 0.0119, + "step": 86725 + }, + { + "epoch": 0.555072, + "grad_norm": 0.5575514435768127, + "learning_rate": 1.6299520000000003e-05, + "loss": 0.0071, + "step": 86730 + }, + { + "epoch": 0.555104, + "grad_norm": 3.061182737350464, + "learning_rate": 1.6299306666666668e-05, + "loss": 0.0142, + "step": 86735 + }, + { + "epoch": 0.555136, + "grad_norm": 1.0373111963272095, + "learning_rate": 1.6299093333333335e-05, + "loss": 0.0162, + "step": 86740 + }, + { + "epoch": 0.555168, + "grad_norm": 0.057729579508304596, + "learning_rate": 1.6298880000000003e-05, + "loss": 0.009, + "step": 86745 + }, + { + "epoch": 0.5552, + "grad_norm": 0.7932621240615845, + "learning_rate": 1.6298666666666667e-05, + "loss": 0.0176, + "step": 86750 + }, + { + "epoch": 0.555232, + "grad_norm": 0.4447665512561798, + "learning_rate": 1.6298453333333334e-05, + "loss": 0.02, + "step": 86755 + }, + { + "epoch": 0.555264, + "grad_norm": 0.1480967104434967, + "learning_rate": 1.6298240000000002e-05, + "loss": 0.0154, + "step": 86760 + }, + { + "epoch": 0.555296, + "grad_norm": 0.14154811203479767, + "learning_rate": 1.629802666666667e-05, + "loss": 0.015, + "step": 86765 + }, + { + "epoch": 0.555328, + "grad_norm": 0.48353633284568787, + "learning_rate": 1.6297813333333334e-05, + "loss": 0.0465, + "step": 86770 + }, + { + "epoch": 0.55536, + "grad_norm": 0.3656003475189209, + "learning_rate": 1.62976e-05, + "loss": 0.0232, + "step": 86775 + }, + { + "epoch": 0.555392, + "grad_norm": 0.43869638442993164, + "learning_rate": 1.629738666666667e-05, + "loss": 0.0403, + "step": 86780 + }, + { + "epoch": 0.555424, + "grad_norm": 0.600054144859314, + "learning_rate": 1.6297173333333333e-05, + "loss": 0.0152, + "step": 86785 + }, + { + "epoch": 0.555456, + "grad_norm": 0.5299767255783081, + "learning_rate": 1.629696e-05, + "loss": 0.0108, + "step": 86790 + }, + { + "epoch": 0.555488, + "grad_norm": 0.25598055124282837, + "learning_rate": 1.6296746666666668e-05, + "loss": 0.0084, + "step": 86795 + }, + { + "epoch": 0.55552, + "grad_norm": 0.8598647117614746, + "learning_rate": 1.6296533333333336e-05, + "loss": 0.0103, + "step": 86800 + }, + { + "epoch": 0.555552, + "grad_norm": 1.0493690967559814, + "learning_rate": 1.629632e-05, + "loss": 0.0131, + "step": 86805 + }, + { + "epoch": 0.555584, + "grad_norm": 1.4343551397323608, + "learning_rate": 1.6296106666666667e-05, + "loss": 0.0245, + "step": 86810 + }, + { + "epoch": 0.555616, + "grad_norm": 0.44652628898620605, + "learning_rate": 1.6295893333333335e-05, + "loss": 0.0182, + "step": 86815 + }, + { + "epoch": 0.555648, + "grad_norm": 0.24089232087135315, + "learning_rate": 1.629568e-05, + "loss": 0.015, + "step": 86820 + }, + { + "epoch": 0.55568, + "grad_norm": 0.7771397829055786, + "learning_rate": 1.6295466666666667e-05, + "loss": 0.0196, + "step": 86825 + }, + { + "epoch": 0.555712, + "grad_norm": 0.26969292759895325, + "learning_rate": 1.6295253333333334e-05, + "loss": 0.008, + "step": 86830 + }, + { + "epoch": 0.555744, + "grad_norm": 0.828022301197052, + "learning_rate": 1.6295040000000002e-05, + "loss": 0.0206, + "step": 86835 + }, + { + "epoch": 0.555776, + "grad_norm": 0.8073553442955017, + "learning_rate": 1.629482666666667e-05, + "loss": 0.023, + "step": 86840 + }, + { + "epoch": 0.555808, + "grad_norm": 0.7808221578598022, + "learning_rate": 1.6294613333333337e-05, + "loss": 0.02, + "step": 86845 + }, + { + "epoch": 0.55584, + "grad_norm": 0.5866563320159912, + "learning_rate": 1.62944e-05, + "loss": 0.0214, + "step": 86850 + }, + { + "epoch": 0.555872, + "grad_norm": 0.5383490920066833, + "learning_rate": 1.629418666666667e-05, + "loss": 0.0127, + "step": 86855 + }, + { + "epoch": 0.555904, + "grad_norm": 2.1853504180908203, + "learning_rate": 1.6293973333333336e-05, + "loss": 0.0432, + "step": 86860 + }, + { + "epoch": 0.555936, + "grad_norm": 0.4602573812007904, + "learning_rate": 1.629376e-05, + "loss": 0.0254, + "step": 86865 + }, + { + "epoch": 0.555968, + "grad_norm": 0.469448983669281, + "learning_rate": 1.6293546666666668e-05, + "loss": 0.0176, + "step": 86870 + }, + { + "epoch": 0.556, + "grad_norm": 0.7075011134147644, + "learning_rate": 1.6293333333333335e-05, + "loss": 0.029, + "step": 86875 + }, + { + "epoch": 0.556032, + "grad_norm": 0.5728673338890076, + "learning_rate": 1.6293120000000003e-05, + "loss": 0.0172, + "step": 86880 + }, + { + "epoch": 0.556064, + "grad_norm": 1.1131300926208496, + "learning_rate": 1.6292906666666667e-05, + "loss": 0.0139, + "step": 86885 + }, + { + "epoch": 0.556096, + "grad_norm": 0.23381921648979187, + "learning_rate": 1.6292693333333335e-05, + "loss": 0.0215, + "step": 86890 + }, + { + "epoch": 0.556128, + "grad_norm": 0.551897406578064, + "learning_rate": 1.6292480000000002e-05, + "loss": 0.0415, + "step": 86895 + }, + { + "epoch": 0.55616, + "grad_norm": 0.588261604309082, + "learning_rate": 1.6292266666666666e-05, + "loss": 0.0206, + "step": 86900 + }, + { + "epoch": 0.556192, + "grad_norm": 0.82961106300354, + "learning_rate": 1.6292053333333334e-05, + "loss": 0.0192, + "step": 86905 + }, + { + "epoch": 0.556224, + "grad_norm": 1.124667763710022, + "learning_rate": 1.629184e-05, + "loss": 0.0235, + "step": 86910 + }, + { + "epoch": 0.556256, + "grad_norm": 0.6555049419403076, + "learning_rate": 1.629162666666667e-05, + "loss": 0.0195, + "step": 86915 + }, + { + "epoch": 0.556288, + "grad_norm": 0.8797488808631897, + "learning_rate": 1.6291413333333333e-05, + "loss": 0.0127, + "step": 86920 + }, + { + "epoch": 0.55632, + "grad_norm": 0.3761972188949585, + "learning_rate": 1.62912e-05, + "loss": 0.0147, + "step": 86925 + }, + { + "epoch": 0.556352, + "grad_norm": 0.8232135772705078, + "learning_rate": 1.629098666666667e-05, + "loss": 0.0208, + "step": 86930 + }, + { + "epoch": 0.556384, + "grad_norm": 0.6498252749443054, + "learning_rate": 1.6290773333333333e-05, + "loss": 0.0307, + "step": 86935 + }, + { + "epoch": 0.556416, + "grad_norm": 0.2144385278224945, + "learning_rate": 1.6290560000000003e-05, + "loss": 0.0112, + "step": 86940 + }, + { + "epoch": 0.556448, + "grad_norm": 0.6601362824440002, + "learning_rate": 1.6290346666666668e-05, + "loss": 0.0259, + "step": 86945 + }, + { + "epoch": 0.55648, + "grad_norm": 0.2652304470539093, + "learning_rate": 1.6290133333333335e-05, + "loss": 0.0171, + "step": 86950 + }, + { + "epoch": 0.556512, + "grad_norm": 0.36659926176071167, + "learning_rate": 1.6289920000000003e-05, + "loss": 0.0091, + "step": 86955 + }, + { + "epoch": 0.556544, + "grad_norm": 0.0754222646355629, + "learning_rate": 1.6289706666666667e-05, + "loss": 0.0085, + "step": 86960 + }, + { + "epoch": 0.556576, + "grad_norm": 0.2370455116033554, + "learning_rate": 1.6289493333333334e-05, + "loss": 0.0104, + "step": 86965 + }, + { + "epoch": 0.556608, + "grad_norm": 0.6789146661758423, + "learning_rate": 1.6289280000000002e-05, + "loss": 0.0312, + "step": 86970 + }, + { + "epoch": 0.55664, + "grad_norm": 0.45095697045326233, + "learning_rate": 1.628906666666667e-05, + "loss": 0.0169, + "step": 86975 + }, + { + "epoch": 0.556672, + "grad_norm": 0.5485079288482666, + "learning_rate": 1.6288853333333334e-05, + "loss": 0.0075, + "step": 86980 + }, + { + "epoch": 0.556704, + "grad_norm": 0.8489239811897278, + "learning_rate": 1.628864e-05, + "loss": 0.0209, + "step": 86985 + }, + { + "epoch": 0.556736, + "grad_norm": 0.3356013298034668, + "learning_rate": 1.628842666666667e-05, + "loss": 0.0115, + "step": 86990 + }, + { + "epoch": 0.556768, + "grad_norm": 0.5919277667999268, + "learning_rate": 1.6288213333333333e-05, + "loss": 0.0202, + "step": 86995 + }, + { + "epoch": 0.5568, + "grad_norm": 0.18800733983516693, + "learning_rate": 1.6288e-05, + "loss": 0.0141, + "step": 87000 + }, + { + "epoch": 0.556832, + "grad_norm": 0.2397259771823883, + "learning_rate": 1.6287786666666668e-05, + "loss": 0.0144, + "step": 87005 + }, + { + "epoch": 0.556864, + "grad_norm": 0.37182125449180603, + "learning_rate": 1.6287573333333336e-05, + "loss": 0.0107, + "step": 87010 + }, + { + "epoch": 0.556896, + "grad_norm": 2.6545660495758057, + "learning_rate": 1.628736e-05, + "loss": 0.0373, + "step": 87015 + }, + { + "epoch": 0.556928, + "grad_norm": 0.8212401270866394, + "learning_rate": 1.6287146666666667e-05, + "loss": 0.0106, + "step": 87020 + }, + { + "epoch": 0.55696, + "grad_norm": 1.2724552154541016, + "learning_rate": 1.6286933333333335e-05, + "loss": 0.0431, + "step": 87025 + }, + { + "epoch": 0.556992, + "grad_norm": 0.20091286301612854, + "learning_rate": 1.628672e-05, + "loss": 0.006, + "step": 87030 + }, + { + "epoch": 0.557024, + "grad_norm": 0.244167760014534, + "learning_rate": 1.6286506666666667e-05, + "loss": 0.0151, + "step": 87035 + }, + { + "epoch": 0.557056, + "grad_norm": 1.0669150352478027, + "learning_rate": 1.6286293333333334e-05, + "loss": 0.0284, + "step": 87040 + }, + { + "epoch": 0.557088, + "grad_norm": 0.5188122987747192, + "learning_rate": 1.6286080000000002e-05, + "loss": 0.0129, + "step": 87045 + }, + { + "epoch": 0.55712, + "grad_norm": 0.4544181823730469, + "learning_rate": 1.6285866666666666e-05, + "loss": 0.0074, + "step": 87050 + }, + { + "epoch": 0.557152, + "grad_norm": 0.9507756233215332, + "learning_rate": 1.6285653333333337e-05, + "loss": 0.018, + "step": 87055 + }, + { + "epoch": 0.557184, + "grad_norm": 0.351681113243103, + "learning_rate": 1.628544e-05, + "loss": 0.0497, + "step": 87060 + }, + { + "epoch": 0.557216, + "grad_norm": 1.1275314092636108, + "learning_rate": 1.628522666666667e-05, + "loss": 0.0221, + "step": 87065 + }, + { + "epoch": 0.557248, + "grad_norm": 0.7730678915977478, + "learning_rate": 1.6285013333333336e-05, + "loss": 0.0199, + "step": 87070 + }, + { + "epoch": 0.55728, + "grad_norm": 0.10953958332538605, + "learning_rate": 1.62848e-05, + "loss": 0.0121, + "step": 87075 + }, + { + "epoch": 0.557312, + "grad_norm": 0.5560193657875061, + "learning_rate": 1.6284586666666668e-05, + "loss": 0.024, + "step": 87080 + }, + { + "epoch": 0.557344, + "grad_norm": 1.5132616758346558, + "learning_rate": 1.6284373333333335e-05, + "loss": 0.0183, + "step": 87085 + }, + { + "epoch": 0.557376, + "grad_norm": 0.39021599292755127, + "learning_rate": 1.6284160000000003e-05, + "loss": 0.0162, + "step": 87090 + }, + { + "epoch": 0.557408, + "grad_norm": 0.20882418751716614, + "learning_rate": 1.6283946666666667e-05, + "loss": 0.0161, + "step": 87095 + }, + { + "epoch": 0.55744, + "grad_norm": 0.05731061473488808, + "learning_rate": 1.6283733333333335e-05, + "loss": 0.0067, + "step": 87100 + }, + { + "epoch": 0.557472, + "grad_norm": 0.4246751368045807, + "learning_rate": 1.6283520000000002e-05, + "loss": 0.0305, + "step": 87105 + }, + { + "epoch": 0.557504, + "grad_norm": 0.459641695022583, + "learning_rate": 1.6283306666666666e-05, + "loss": 0.0081, + "step": 87110 + }, + { + "epoch": 0.557536, + "grad_norm": 0.34277236461639404, + "learning_rate": 1.6283093333333334e-05, + "loss": 0.0221, + "step": 87115 + }, + { + "epoch": 0.557568, + "grad_norm": 0.31332290172576904, + "learning_rate": 1.628288e-05, + "loss": 0.0158, + "step": 87120 + }, + { + "epoch": 0.5576, + "grad_norm": 0.847308337688446, + "learning_rate": 1.628266666666667e-05, + "loss": 0.0555, + "step": 87125 + }, + { + "epoch": 0.557632, + "grad_norm": 1.3444536924362183, + "learning_rate": 1.6282453333333333e-05, + "loss": 0.0172, + "step": 87130 + }, + { + "epoch": 0.557664, + "grad_norm": 0.32867544889450073, + "learning_rate": 1.628224e-05, + "loss": 0.0148, + "step": 87135 + }, + { + "epoch": 0.557696, + "grad_norm": 0.7168745994567871, + "learning_rate": 1.628202666666667e-05, + "loss": 0.0132, + "step": 87140 + }, + { + "epoch": 0.557728, + "grad_norm": 3.467247247695923, + "learning_rate": 1.6281813333333333e-05, + "loss": 0.0403, + "step": 87145 + }, + { + "epoch": 0.55776, + "grad_norm": 0.13198773562908173, + "learning_rate": 1.6281600000000003e-05, + "loss": 0.0266, + "step": 87150 + }, + { + "epoch": 0.557792, + "grad_norm": 0.17951038479804993, + "learning_rate": 1.6281386666666668e-05, + "loss": 0.0191, + "step": 87155 + }, + { + "epoch": 0.557824, + "grad_norm": 0.5436636209487915, + "learning_rate": 1.6281173333333335e-05, + "loss": 0.0105, + "step": 87160 + }, + { + "epoch": 0.557856, + "grad_norm": 1.412779450416565, + "learning_rate": 1.6280960000000003e-05, + "loss": 0.0425, + "step": 87165 + }, + { + "epoch": 0.557888, + "grad_norm": 0.6722660064697266, + "learning_rate": 1.6280746666666667e-05, + "loss": 0.0132, + "step": 87170 + }, + { + "epoch": 0.55792, + "grad_norm": 1.0584923028945923, + "learning_rate": 1.6280533333333334e-05, + "loss": 0.0277, + "step": 87175 + }, + { + "epoch": 0.557952, + "grad_norm": 1.4726630449295044, + "learning_rate": 1.6280320000000002e-05, + "loss": 0.0152, + "step": 87180 + }, + { + "epoch": 0.557984, + "grad_norm": 0.16495780646800995, + "learning_rate": 1.628010666666667e-05, + "loss": 0.0086, + "step": 87185 + }, + { + "epoch": 0.558016, + "grad_norm": 0.11229100823402405, + "learning_rate": 1.6279893333333334e-05, + "loss": 0.015, + "step": 87190 + }, + { + "epoch": 0.558048, + "grad_norm": 0.6780596375465393, + "learning_rate": 1.627968e-05, + "loss": 0.0114, + "step": 87195 + }, + { + "epoch": 0.55808, + "grad_norm": 0.5734279155731201, + "learning_rate": 1.627946666666667e-05, + "loss": 0.0118, + "step": 87200 + }, + { + "epoch": 0.558112, + "grad_norm": 1.761544108390808, + "learning_rate": 1.6279253333333333e-05, + "loss": 0.0187, + "step": 87205 + }, + { + "epoch": 0.558144, + "grad_norm": 0.678867757320404, + "learning_rate": 1.627904e-05, + "loss": 0.0232, + "step": 87210 + }, + { + "epoch": 0.558176, + "grad_norm": 0.7360358834266663, + "learning_rate": 1.6278826666666668e-05, + "loss": 0.0398, + "step": 87215 + }, + { + "epoch": 0.558208, + "grad_norm": 0.11992001533508301, + "learning_rate": 1.6278613333333336e-05, + "loss": 0.0113, + "step": 87220 + }, + { + "epoch": 0.55824, + "grad_norm": 0.5981577038764954, + "learning_rate": 1.62784e-05, + "loss": 0.0109, + "step": 87225 + }, + { + "epoch": 0.558272, + "grad_norm": 4.946390628814697, + "learning_rate": 1.6278186666666667e-05, + "loss": 0.0176, + "step": 87230 + }, + { + "epoch": 0.558304, + "grad_norm": 0.05097108334302902, + "learning_rate": 1.6277973333333335e-05, + "loss": 0.0115, + "step": 87235 + }, + { + "epoch": 0.558336, + "grad_norm": 0.5059701800346375, + "learning_rate": 1.627776e-05, + "loss": 0.0108, + "step": 87240 + }, + { + "epoch": 0.558368, + "grad_norm": 0.823249340057373, + "learning_rate": 1.6277546666666667e-05, + "loss": 0.0203, + "step": 87245 + }, + { + "epoch": 0.5584, + "grad_norm": 0.25854066014289856, + "learning_rate": 1.6277333333333334e-05, + "loss": 0.02, + "step": 87250 + }, + { + "epoch": 0.558432, + "grad_norm": 0.39616188406944275, + "learning_rate": 1.6277120000000002e-05, + "loss": 0.0117, + "step": 87255 + }, + { + "epoch": 0.558464, + "grad_norm": 0.8128914833068848, + "learning_rate": 1.6276906666666666e-05, + "loss": 0.0191, + "step": 87260 + }, + { + "epoch": 0.558496, + "grad_norm": 0.3882496654987335, + "learning_rate": 1.6276693333333337e-05, + "loss": 0.0187, + "step": 87265 + }, + { + "epoch": 0.558528, + "grad_norm": 0.5088117718696594, + "learning_rate": 1.627648e-05, + "loss": 0.0138, + "step": 87270 + }, + { + "epoch": 0.55856, + "grad_norm": 0.26157575845718384, + "learning_rate": 1.627626666666667e-05, + "loss": 0.0141, + "step": 87275 + }, + { + "epoch": 0.558592, + "grad_norm": 0.5306520462036133, + "learning_rate": 1.6276053333333336e-05, + "loss": 0.0182, + "step": 87280 + }, + { + "epoch": 0.558624, + "grad_norm": 0.3640105128288269, + "learning_rate": 1.627584e-05, + "loss": 0.0284, + "step": 87285 + }, + { + "epoch": 0.558656, + "grad_norm": 0.8424741625785828, + "learning_rate": 1.6275626666666668e-05, + "loss": 0.0197, + "step": 87290 + }, + { + "epoch": 0.558688, + "grad_norm": 0.9082436561584473, + "learning_rate": 1.6275413333333335e-05, + "loss": 0.0272, + "step": 87295 + }, + { + "epoch": 0.55872, + "grad_norm": 0.19645187258720398, + "learning_rate": 1.6275200000000003e-05, + "loss": 0.0122, + "step": 87300 + }, + { + "epoch": 0.558752, + "grad_norm": 2.7551798820495605, + "learning_rate": 1.6274986666666667e-05, + "loss": 0.0181, + "step": 87305 + }, + { + "epoch": 0.558784, + "grad_norm": 0.6051709651947021, + "learning_rate": 1.6274773333333335e-05, + "loss": 0.0253, + "step": 87310 + }, + { + "epoch": 0.558816, + "grad_norm": 0.3675903081893921, + "learning_rate": 1.6274560000000002e-05, + "loss": 0.0147, + "step": 87315 + }, + { + "epoch": 0.558848, + "grad_norm": 0.048498544842004776, + "learning_rate": 1.6274346666666666e-05, + "loss": 0.0166, + "step": 87320 + }, + { + "epoch": 0.55888, + "grad_norm": 0.30302032828330994, + "learning_rate": 1.6274133333333334e-05, + "loss": 0.0097, + "step": 87325 + }, + { + "epoch": 0.558912, + "grad_norm": 0.24121008813381195, + "learning_rate": 1.627392e-05, + "loss": 0.0104, + "step": 87330 + }, + { + "epoch": 0.558944, + "grad_norm": 0.10219568014144897, + "learning_rate": 1.627370666666667e-05, + "loss": 0.0117, + "step": 87335 + }, + { + "epoch": 0.558976, + "grad_norm": 0.4404183626174927, + "learning_rate": 1.6273493333333333e-05, + "loss": 0.0139, + "step": 87340 + }, + { + "epoch": 0.559008, + "grad_norm": 0.0725274309515953, + "learning_rate": 1.627328e-05, + "loss": 0.0099, + "step": 87345 + }, + { + "epoch": 0.55904, + "grad_norm": 0.8346889019012451, + "learning_rate": 1.627306666666667e-05, + "loss": 0.0166, + "step": 87350 + }, + { + "epoch": 0.559072, + "grad_norm": 1.5784474611282349, + "learning_rate": 1.6272853333333333e-05, + "loss": 0.0294, + "step": 87355 + }, + { + "epoch": 0.559104, + "grad_norm": 1.085726022720337, + "learning_rate": 1.627264e-05, + "loss": 0.0288, + "step": 87360 + }, + { + "epoch": 0.559136, + "grad_norm": 0.3295001685619354, + "learning_rate": 1.6272426666666668e-05, + "loss": 0.014, + "step": 87365 + }, + { + "epoch": 0.559168, + "grad_norm": 0.8514919877052307, + "learning_rate": 1.6272213333333335e-05, + "loss": 0.0194, + "step": 87370 + }, + { + "epoch": 0.5592, + "grad_norm": 0.24027560651302338, + "learning_rate": 1.6272000000000003e-05, + "loss": 0.0221, + "step": 87375 + }, + { + "epoch": 0.559232, + "grad_norm": 0.19687098264694214, + "learning_rate": 1.627178666666667e-05, + "loss": 0.0204, + "step": 87380 + }, + { + "epoch": 0.559264, + "grad_norm": 1.562026858329773, + "learning_rate": 1.6271573333333334e-05, + "loss": 0.0157, + "step": 87385 + }, + { + "epoch": 0.559296, + "grad_norm": 0.4018305540084839, + "learning_rate": 1.6271360000000002e-05, + "loss": 0.0095, + "step": 87390 + }, + { + "epoch": 0.559328, + "grad_norm": 0.6393802762031555, + "learning_rate": 1.627114666666667e-05, + "loss": 0.0111, + "step": 87395 + }, + { + "epoch": 0.55936, + "grad_norm": 0.21412551403045654, + "learning_rate": 1.6270933333333334e-05, + "loss": 0.0169, + "step": 87400 + }, + { + "epoch": 0.559392, + "grad_norm": 0.9155643582344055, + "learning_rate": 1.627072e-05, + "loss": 0.0196, + "step": 87405 + }, + { + "epoch": 0.559424, + "grad_norm": 0.4666980504989624, + "learning_rate": 1.627050666666667e-05, + "loss": 0.0194, + "step": 87410 + }, + { + "epoch": 0.559456, + "grad_norm": 0.10390669107437134, + "learning_rate": 1.6270293333333336e-05, + "loss": 0.0074, + "step": 87415 + }, + { + "epoch": 0.559488, + "grad_norm": 0.7435945272445679, + "learning_rate": 1.627008e-05, + "loss": 0.0123, + "step": 87420 + }, + { + "epoch": 0.55952, + "grad_norm": 0.35914358496665955, + "learning_rate": 1.6269866666666668e-05, + "loss": 0.0149, + "step": 87425 + }, + { + "epoch": 0.559552, + "grad_norm": 0.29322049021720886, + "learning_rate": 1.6269653333333336e-05, + "loss": 0.0296, + "step": 87430 + }, + { + "epoch": 0.559584, + "grad_norm": 0.022671939805150032, + "learning_rate": 1.626944e-05, + "loss": 0.0065, + "step": 87435 + }, + { + "epoch": 0.559616, + "grad_norm": 1.0052850246429443, + "learning_rate": 1.6269226666666667e-05, + "loss": 0.0134, + "step": 87440 + }, + { + "epoch": 0.559648, + "grad_norm": 1.0472099781036377, + "learning_rate": 1.6269013333333335e-05, + "loss": 0.0316, + "step": 87445 + }, + { + "epoch": 0.55968, + "grad_norm": 0.26367855072021484, + "learning_rate": 1.6268800000000003e-05, + "loss": 0.0176, + "step": 87450 + }, + { + "epoch": 0.559712, + "grad_norm": 0.27499526739120483, + "learning_rate": 1.6268586666666667e-05, + "loss": 0.0483, + "step": 87455 + }, + { + "epoch": 0.559744, + "grad_norm": 0.3583832085132599, + "learning_rate": 1.6268373333333334e-05, + "loss": 0.034, + "step": 87460 + }, + { + "epoch": 0.559776, + "grad_norm": 0.6001278758049011, + "learning_rate": 1.6268160000000002e-05, + "loss": 0.0198, + "step": 87465 + }, + { + "epoch": 0.559808, + "grad_norm": 0.7843261957168579, + "learning_rate": 1.6267946666666666e-05, + "loss": 0.0153, + "step": 87470 + }, + { + "epoch": 0.55984, + "grad_norm": 0.3839323818683624, + "learning_rate": 1.6267733333333337e-05, + "loss": 0.0103, + "step": 87475 + }, + { + "epoch": 0.559872, + "grad_norm": 0.15432241559028625, + "learning_rate": 1.626752e-05, + "loss": 0.0146, + "step": 87480 + }, + { + "epoch": 0.559904, + "grad_norm": 0.1947416365146637, + "learning_rate": 1.626730666666667e-05, + "loss": 0.0137, + "step": 87485 + }, + { + "epoch": 0.559936, + "grad_norm": 0.13035701215267181, + "learning_rate": 1.6267093333333336e-05, + "loss": 0.0107, + "step": 87490 + }, + { + "epoch": 0.559968, + "grad_norm": 0.7315236926078796, + "learning_rate": 1.626688e-05, + "loss": 0.0118, + "step": 87495 + }, + { + "epoch": 0.56, + "grad_norm": 0.613881528377533, + "learning_rate": 1.6266666666666668e-05, + "loss": 0.0235, + "step": 87500 + }, + { + "epoch": 0.560032, + "grad_norm": 0.35465478897094727, + "learning_rate": 1.6266453333333335e-05, + "loss": 0.0228, + "step": 87505 + }, + { + "epoch": 0.560064, + "grad_norm": 0.6302694082260132, + "learning_rate": 1.6266240000000003e-05, + "loss": 0.0271, + "step": 87510 + }, + { + "epoch": 0.560096, + "grad_norm": 0.3474322557449341, + "learning_rate": 1.6266026666666667e-05, + "loss": 0.017, + "step": 87515 + }, + { + "epoch": 0.560128, + "grad_norm": 0.33778613805770874, + "learning_rate": 1.6265813333333335e-05, + "loss": 0.0126, + "step": 87520 + }, + { + "epoch": 0.56016, + "grad_norm": 0.6157407164573669, + "learning_rate": 1.6265600000000002e-05, + "loss": 0.0349, + "step": 87525 + }, + { + "epoch": 0.560192, + "grad_norm": 0.6319441199302673, + "learning_rate": 1.6265386666666666e-05, + "loss": 0.0103, + "step": 87530 + }, + { + "epoch": 0.560224, + "grad_norm": 0.23947985470294952, + "learning_rate": 1.6265173333333334e-05, + "loss": 0.0161, + "step": 87535 + }, + { + "epoch": 0.560256, + "grad_norm": 0.9805176854133606, + "learning_rate": 1.626496e-05, + "loss": 0.0149, + "step": 87540 + }, + { + "epoch": 0.560288, + "grad_norm": 0.34963715076446533, + "learning_rate": 1.626474666666667e-05, + "loss": 0.0148, + "step": 87545 + }, + { + "epoch": 0.56032, + "grad_norm": 0.03752686083316803, + "learning_rate": 1.6264533333333333e-05, + "loss": 0.0096, + "step": 87550 + }, + { + "epoch": 0.560352, + "grad_norm": 0.3813174068927765, + "learning_rate": 1.626432e-05, + "loss": 0.0069, + "step": 87555 + }, + { + "epoch": 0.560384, + "grad_norm": 0.5124898552894592, + "learning_rate": 1.626410666666667e-05, + "loss": 0.0088, + "step": 87560 + }, + { + "epoch": 0.560416, + "grad_norm": 0.5752241015434265, + "learning_rate": 1.6263893333333333e-05, + "loss": 0.0289, + "step": 87565 + }, + { + "epoch": 0.560448, + "grad_norm": 0.16033366322517395, + "learning_rate": 1.626368e-05, + "loss": 0.0193, + "step": 87570 + }, + { + "epoch": 0.56048, + "grad_norm": 0.10130990296602249, + "learning_rate": 1.6263466666666668e-05, + "loss": 0.0145, + "step": 87575 + }, + { + "epoch": 0.560512, + "grad_norm": 0.42119336128234863, + "learning_rate": 1.6263253333333335e-05, + "loss": 0.0102, + "step": 87580 + }, + { + "epoch": 0.560544, + "grad_norm": 0.33696702122688293, + "learning_rate": 1.626304e-05, + "loss": 0.0263, + "step": 87585 + }, + { + "epoch": 0.560576, + "grad_norm": 0.4529927372932434, + "learning_rate": 1.626282666666667e-05, + "loss": 0.0218, + "step": 87590 + }, + { + "epoch": 0.560608, + "grad_norm": 0.4475105106830597, + "learning_rate": 1.6262613333333334e-05, + "loss": 0.0134, + "step": 87595 + }, + { + "epoch": 0.56064, + "grad_norm": 1.454521894454956, + "learning_rate": 1.6262400000000002e-05, + "loss": 0.03, + "step": 87600 + }, + { + "epoch": 0.560672, + "grad_norm": 0.490296870470047, + "learning_rate": 1.626218666666667e-05, + "loss": 0.0124, + "step": 87605 + }, + { + "epoch": 0.560704, + "grad_norm": 3.1698498725891113, + "learning_rate": 1.6261973333333334e-05, + "loss": 0.0264, + "step": 87610 + }, + { + "epoch": 0.560736, + "grad_norm": 0.25462260842323303, + "learning_rate": 1.626176e-05, + "loss": 0.0137, + "step": 87615 + }, + { + "epoch": 0.560768, + "grad_norm": 0.4919474422931671, + "learning_rate": 1.626154666666667e-05, + "loss": 0.0127, + "step": 87620 + }, + { + "epoch": 0.5608, + "grad_norm": 0.5666295289993286, + "learning_rate": 1.6261333333333336e-05, + "loss": 0.0094, + "step": 87625 + }, + { + "epoch": 0.560832, + "grad_norm": 0.6418536901473999, + "learning_rate": 1.626112e-05, + "loss": 0.0161, + "step": 87630 + }, + { + "epoch": 0.560864, + "grad_norm": 0.14550113677978516, + "learning_rate": 1.6260906666666668e-05, + "loss": 0.0158, + "step": 87635 + }, + { + "epoch": 0.560896, + "grad_norm": 0.32360708713531494, + "learning_rate": 1.6260693333333336e-05, + "loss": 0.0148, + "step": 87640 + }, + { + "epoch": 0.560928, + "grad_norm": 0.18625348806381226, + "learning_rate": 1.626048e-05, + "loss": 0.0188, + "step": 87645 + }, + { + "epoch": 0.56096, + "grad_norm": 1.5189231634140015, + "learning_rate": 1.6260266666666667e-05, + "loss": 0.04, + "step": 87650 + }, + { + "epoch": 0.560992, + "grad_norm": 0.22398394346237183, + "learning_rate": 1.6260053333333335e-05, + "loss": 0.0111, + "step": 87655 + }, + { + "epoch": 0.561024, + "grad_norm": 0.5526928305625916, + "learning_rate": 1.6259840000000003e-05, + "loss": 0.0279, + "step": 87660 + }, + { + "epoch": 0.561056, + "grad_norm": 0.45106247067451477, + "learning_rate": 1.6259626666666667e-05, + "loss": 0.0183, + "step": 87665 + }, + { + "epoch": 0.561088, + "grad_norm": 0.9388793706893921, + "learning_rate": 1.6259413333333334e-05, + "loss": 0.0235, + "step": 87670 + }, + { + "epoch": 0.56112, + "grad_norm": 0.4588601887226105, + "learning_rate": 1.6259200000000002e-05, + "loss": 0.0111, + "step": 87675 + }, + { + "epoch": 0.561152, + "grad_norm": 0.13547182083129883, + "learning_rate": 1.6258986666666666e-05, + "loss": 0.0195, + "step": 87680 + }, + { + "epoch": 0.561184, + "grad_norm": 1.4492833614349365, + "learning_rate": 1.6258773333333337e-05, + "loss": 0.0238, + "step": 87685 + }, + { + "epoch": 0.561216, + "grad_norm": 0.745956301689148, + "learning_rate": 1.625856e-05, + "loss": 0.0107, + "step": 87690 + }, + { + "epoch": 0.561248, + "grad_norm": 0.9439200162887573, + "learning_rate": 1.625834666666667e-05, + "loss": 0.018, + "step": 87695 + }, + { + "epoch": 0.56128, + "grad_norm": 0.5185262560844421, + "learning_rate": 1.6258133333333336e-05, + "loss": 0.0233, + "step": 87700 + }, + { + "epoch": 0.561312, + "grad_norm": 0.16550536453723907, + "learning_rate": 1.625792e-05, + "loss": 0.0094, + "step": 87705 + }, + { + "epoch": 0.561344, + "grad_norm": 0.6588399410247803, + "learning_rate": 1.6257706666666668e-05, + "loss": 0.0196, + "step": 87710 + }, + { + "epoch": 0.561376, + "grad_norm": 1.030606985092163, + "learning_rate": 1.6257493333333335e-05, + "loss": 0.0173, + "step": 87715 + }, + { + "epoch": 0.561408, + "grad_norm": 0.5242732167243958, + "learning_rate": 1.6257280000000003e-05, + "loss": 0.0179, + "step": 87720 + }, + { + "epoch": 0.56144, + "grad_norm": 1.0355803966522217, + "learning_rate": 1.6257066666666667e-05, + "loss": 0.0268, + "step": 87725 + }, + { + "epoch": 0.561472, + "grad_norm": 0.5229295492172241, + "learning_rate": 1.6256853333333335e-05, + "loss": 0.0179, + "step": 87730 + }, + { + "epoch": 0.561504, + "grad_norm": 1.5992830991744995, + "learning_rate": 1.6256640000000002e-05, + "loss": 0.0232, + "step": 87735 + }, + { + "epoch": 0.561536, + "grad_norm": 0.6251218914985657, + "learning_rate": 1.6256426666666666e-05, + "loss": 0.0231, + "step": 87740 + }, + { + "epoch": 0.561568, + "grad_norm": 1.1091665029525757, + "learning_rate": 1.6256213333333334e-05, + "loss": 0.016, + "step": 87745 + }, + { + "epoch": 0.5616, + "grad_norm": 0.4923744201660156, + "learning_rate": 1.6256e-05, + "loss": 0.0094, + "step": 87750 + }, + { + "epoch": 0.561632, + "grad_norm": 0.16572947800159454, + "learning_rate": 1.625578666666667e-05, + "loss": 0.0151, + "step": 87755 + }, + { + "epoch": 0.561664, + "grad_norm": 0.5145816802978516, + "learning_rate": 1.6255573333333333e-05, + "loss": 0.0217, + "step": 87760 + }, + { + "epoch": 0.561696, + "grad_norm": 0.8639888167381287, + "learning_rate": 1.625536e-05, + "loss": 0.0127, + "step": 87765 + }, + { + "epoch": 0.561728, + "grad_norm": 0.1351272016763687, + "learning_rate": 1.625514666666667e-05, + "loss": 0.0162, + "step": 87770 + }, + { + "epoch": 0.56176, + "grad_norm": 0.7269724011421204, + "learning_rate": 1.6254933333333333e-05, + "loss": 0.0171, + "step": 87775 + }, + { + "epoch": 0.561792, + "grad_norm": 0.7109425067901611, + "learning_rate": 1.625472e-05, + "loss": 0.01, + "step": 87780 + }, + { + "epoch": 0.561824, + "grad_norm": 0.493456095457077, + "learning_rate": 1.6254506666666668e-05, + "loss": 0.0222, + "step": 87785 + }, + { + "epoch": 0.561856, + "grad_norm": 0.5493245720863342, + "learning_rate": 1.6254293333333335e-05, + "loss": 0.0109, + "step": 87790 + }, + { + "epoch": 0.561888, + "grad_norm": 0.2794577479362488, + "learning_rate": 1.625408e-05, + "loss": 0.0183, + "step": 87795 + }, + { + "epoch": 0.56192, + "grad_norm": 3.7927794456481934, + "learning_rate": 1.625386666666667e-05, + "loss": 0.0259, + "step": 87800 + }, + { + "epoch": 0.561952, + "grad_norm": 0.4232980012893677, + "learning_rate": 1.6253653333333334e-05, + "loss": 0.0076, + "step": 87805 + }, + { + "epoch": 0.561984, + "grad_norm": 0.08893715590238571, + "learning_rate": 1.625344e-05, + "loss": 0.0201, + "step": 87810 + }, + { + "epoch": 0.562016, + "grad_norm": 0.11032643169164658, + "learning_rate": 1.625322666666667e-05, + "loss": 0.0097, + "step": 87815 + }, + { + "epoch": 0.562048, + "grad_norm": 0.45886361598968506, + "learning_rate": 1.6253013333333334e-05, + "loss": 0.0131, + "step": 87820 + }, + { + "epoch": 0.56208, + "grad_norm": 1.16128671169281, + "learning_rate": 1.62528e-05, + "loss": 0.0156, + "step": 87825 + }, + { + "epoch": 0.562112, + "grad_norm": 0.2828228175640106, + "learning_rate": 1.625258666666667e-05, + "loss": 0.0158, + "step": 87830 + }, + { + "epoch": 0.562144, + "grad_norm": 0.36935487389564514, + "learning_rate": 1.6252373333333336e-05, + "loss": 0.0416, + "step": 87835 + }, + { + "epoch": 0.562176, + "grad_norm": 2.0974080562591553, + "learning_rate": 1.625216e-05, + "loss": 0.0218, + "step": 87840 + }, + { + "epoch": 0.562208, + "grad_norm": 0.15409857034683228, + "learning_rate": 1.6251946666666668e-05, + "loss": 0.0094, + "step": 87845 + }, + { + "epoch": 0.56224, + "grad_norm": 0.4761553704738617, + "learning_rate": 1.6251733333333336e-05, + "loss": 0.0384, + "step": 87850 + }, + { + "epoch": 0.562272, + "grad_norm": 0.9468624591827393, + "learning_rate": 1.625152e-05, + "loss": 0.0337, + "step": 87855 + }, + { + "epoch": 0.562304, + "grad_norm": 1.6387742757797241, + "learning_rate": 1.6251306666666667e-05, + "loss": 0.0168, + "step": 87860 + }, + { + "epoch": 0.562336, + "grad_norm": 0.4759090542793274, + "learning_rate": 1.6251093333333335e-05, + "loss": 0.0125, + "step": 87865 + }, + { + "epoch": 0.562368, + "grad_norm": 0.485212504863739, + "learning_rate": 1.6250880000000003e-05, + "loss": 0.0171, + "step": 87870 + }, + { + "epoch": 0.5624, + "grad_norm": 0.9226506948471069, + "learning_rate": 1.6250666666666667e-05, + "loss": 0.0164, + "step": 87875 + }, + { + "epoch": 0.562432, + "grad_norm": 0.6546938419342041, + "learning_rate": 1.6250453333333334e-05, + "loss": 0.0215, + "step": 87880 + }, + { + "epoch": 0.562464, + "grad_norm": 0.5927308201789856, + "learning_rate": 1.6250240000000002e-05, + "loss": 0.0225, + "step": 87885 + }, + { + "epoch": 0.562496, + "grad_norm": 0.6284862160682678, + "learning_rate": 1.6250026666666666e-05, + "loss": 0.0238, + "step": 87890 + }, + { + "epoch": 0.562528, + "grad_norm": 0.4768117666244507, + "learning_rate": 1.6249813333333334e-05, + "loss": 0.0154, + "step": 87895 + }, + { + "epoch": 0.56256, + "grad_norm": 0.7460775375366211, + "learning_rate": 1.62496e-05, + "loss": 0.0376, + "step": 87900 + }, + { + "epoch": 0.562592, + "grad_norm": 1.4426662921905518, + "learning_rate": 1.624938666666667e-05, + "loss": 0.0131, + "step": 87905 + }, + { + "epoch": 0.562624, + "grad_norm": 0.15554465353488922, + "learning_rate": 1.6249173333333336e-05, + "loss": 0.0216, + "step": 87910 + }, + { + "epoch": 0.562656, + "grad_norm": 1.9901751279830933, + "learning_rate": 1.624896e-05, + "loss": 0.044, + "step": 87915 + }, + { + "epoch": 0.562688, + "grad_norm": 0.17221732437610626, + "learning_rate": 1.6248746666666668e-05, + "loss": 0.0214, + "step": 87920 + }, + { + "epoch": 0.56272, + "grad_norm": 0.12571445107460022, + "learning_rate": 1.6248533333333335e-05, + "loss": 0.0301, + "step": 87925 + }, + { + "epoch": 0.562752, + "grad_norm": 0.09797010570764542, + "learning_rate": 1.6248320000000003e-05, + "loss": 0.0296, + "step": 87930 + }, + { + "epoch": 0.562784, + "grad_norm": 0.20829622447490692, + "learning_rate": 1.6248106666666667e-05, + "loss": 0.0115, + "step": 87935 + }, + { + "epoch": 0.562816, + "grad_norm": 0.9623501300811768, + "learning_rate": 1.6247893333333335e-05, + "loss": 0.018, + "step": 87940 + }, + { + "epoch": 0.562848, + "grad_norm": 0.698015570640564, + "learning_rate": 1.6247680000000002e-05, + "loss": 0.0121, + "step": 87945 + }, + { + "epoch": 0.56288, + "grad_norm": 0.4782628118991852, + "learning_rate": 1.6247466666666666e-05, + "loss": 0.018, + "step": 87950 + }, + { + "epoch": 0.562912, + "grad_norm": 0.25144606828689575, + "learning_rate": 1.6247253333333334e-05, + "loss": 0.0172, + "step": 87955 + }, + { + "epoch": 0.562944, + "grad_norm": 0.14566877484321594, + "learning_rate": 1.624704e-05, + "loss": 0.0605, + "step": 87960 + }, + { + "epoch": 0.562976, + "grad_norm": 0.21017657220363617, + "learning_rate": 1.624682666666667e-05, + "loss": 0.029, + "step": 87965 + }, + { + "epoch": 0.563008, + "grad_norm": 0.10394272208213806, + "learning_rate": 1.6246613333333333e-05, + "loss": 0.0238, + "step": 87970 + }, + { + "epoch": 0.56304, + "grad_norm": 0.546478271484375, + "learning_rate": 1.62464e-05, + "loss": 0.0324, + "step": 87975 + }, + { + "epoch": 0.563072, + "grad_norm": 0.3599739074707031, + "learning_rate": 1.624618666666667e-05, + "loss": 0.0092, + "step": 87980 + }, + { + "epoch": 0.563104, + "grad_norm": 0.4403398036956787, + "learning_rate": 1.6245973333333333e-05, + "loss": 0.0134, + "step": 87985 + }, + { + "epoch": 0.563136, + "grad_norm": 0.6022318005561829, + "learning_rate": 1.624576e-05, + "loss": 0.0078, + "step": 87990 + }, + { + "epoch": 0.563168, + "grad_norm": 0.4115324914455414, + "learning_rate": 1.6245546666666668e-05, + "loss": 0.0207, + "step": 87995 + }, + { + "epoch": 0.5632, + "grad_norm": 1.577856183052063, + "learning_rate": 1.6245333333333335e-05, + "loss": 0.0185, + "step": 88000 + }, + { + "epoch": 0.563232, + "grad_norm": 4.1508259773254395, + "learning_rate": 1.624512e-05, + "loss": 0.0188, + "step": 88005 + }, + { + "epoch": 0.563264, + "grad_norm": 0.15296505391597748, + "learning_rate": 1.624490666666667e-05, + "loss": 0.0226, + "step": 88010 + }, + { + "epoch": 0.563296, + "grad_norm": 1.1561121940612793, + "learning_rate": 1.6244693333333335e-05, + "loss": 0.0248, + "step": 88015 + }, + { + "epoch": 0.563328, + "grad_norm": 0.5746093988418579, + "learning_rate": 1.624448e-05, + "loss": 0.0196, + "step": 88020 + }, + { + "epoch": 0.56336, + "grad_norm": 1.3709043264389038, + "learning_rate": 1.624426666666667e-05, + "loss": 0.0378, + "step": 88025 + }, + { + "epoch": 0.563392, + "grad_norm": 1.0294140577316284, + "learning_rate": 1.6244053333333334e-05, + "loss": 0.0129, + "step": 88030 + }, + { + "epoch": 0.563424, + "grad_norm": 0.49402013421058655, + "learning_rate": 1.624384e-05, + "loss": 0.0212, + "step": 88035 + }, + { + "epoch": 0.563456, + "grad_norm": 0.47522038221359253, + "learning_rate": 1.624362666666667e-05, + "loss": 0.0057, + "step": 88040 + }, + { + "epoch": 0.563488, + "grad_norm": 0.5790879130363464, + "learning_rate": 1.6243413333333336e-05, + "loss": 0.0263, + "step": 88045 + }, + { + "epoch": 0.56352, + "grad_norm": 0.6370350122451782, + "learning_rate": 1.62432e-05, + "loss": 0.0454, + "step": 88050 + }, + { + "epoch": 0.563552, + "grad_norm": 0.7344685196876526, + "learning_rate": 1.6242986666666668e-05, + "loss": 0.0141, + "step": 88055 + }, + { + "epoch": 0.563584, + "grad_norm": 0.18667399883270264, + "learning_rate": 1.6242773333333336e-05, + "loss": 0.0047, + "step": 88060 + }, + { + "epoch": 0.563616, + "grad_norm": 0.6546300053596497, + "learning_rate": 1.624256e-05, + "loss": 0.0186, + "step": 88065 + }, + { + "epoch": 0.563648, + "grad_norm": 0.5874097943305969, + "learning_rate": 1.6242346666666667e-05, + "loss": 0.0295, + "step": 88070 + }, + { + "epoch": 0.56368, + "grad_norm": 0.09348949044942856, + "learning_rate": 1.6242133333333335e-05, + "loss": 0.0313, + "step": 88075 + }, + { + "epoch": 0.563712, + "grad_norm": 0.08661621809005737, + "learning_rate": 1.6241920000000003e-05, + "loss": 0.0437, + "step": 88080 + }, + { + "epoch": 0.563744, + "grad_norm": 0.46866267919540405, + "learning_rate": 1.6241706666666667e-05, + "loss": 0.0113, + "step": 88085 + }, + { + "epoch": 0.563776, + "grad_norm": 0.0975126177072525, + "learning_rate": 1.6241493333333334e-05, + "loss": 0.0133, + "step": 88090 + }, + { + "epoch": 0.563808, + "grad_norm": 0.23570366203784943, + "learning_rate": 1.6241280000000002e-05, + "loss": 0.0151, + "step": 88095 + }, + { + "epoch": 0.56384, + "grad_norm": 0.9564216136932373, + "learning_rate": 1.6241066666666666e-05, + "loss": 0.0339, + "step": 88100 + }, + { + "epoch": 0.563872, + "grad_norm": 0.2694856822490692, + "learning_rate": 1.6240853333333334e-05, + "loss": 0.0133, + "step": 88105 + }, + { + "epoch": 0.563904, + "grad_norm": 0.36156967282295227, + "learning_rate": 1.624064e-05, + "loss": 0.0247, + "step": 88110 + }, + { + "epoch": 0.563936, + "grad_norm": 1.295676827430725, + "learning_rate": 1.624042666666667e-05, + "loss": 0.0204, + "step": 88115 + }, + { + "epoch": 0.563968, + "grad_norm": 1.1509946584701538, + "learning_rate": 1.6240213333333333e-05, + "loss": 0.0127, + "step": 88120 + }, + { + "epoch": 0.564, + "grad_norm": 0.10794338583946228, + "learning_rate": 1.6240000000000004e-05, + "loss": 0.0158, + "step": 88125 + }, + { + "epoch": 0.564032, + "grad_norm": 0.9700295329093933, + "learning_rate": 1.6239786666666668e-05, + "loss": 0.0175, + "step": 88130 + }, + { + "epoch": 0.564064, + "grad_norm": 0.6155255436897278, + "learning_rate": 1.6239573333333335e-05, + "loss": 0.0067, + "step": 88135 + }, + { + "epoch": 0.564096, + "grad_norm": 0.15206007659435272, + "learning_rate": 1.6239360000000003e-05, + "loss": 0.0222, + "step": 88140 + }, + { + "epoch": 0.564128, + "grad_norm": 0.2791561484336853, + "learning_rate": 1.6239146666666667e-05, + "loss": 0.0138, + "step": 88145 + }, + { + "epoch": 0.56416, + "grad_norm": 0.07676190882921219, + "learning_rate": 1.6238933333333335e-05, + "loss": 0.0334, + "step": 88150 + }, + { + "epoch": 0.564192, + "grad_norm": 0.2745455503463745, + "learning_rate": 1.6238720000000002e-05, + "loss": 0.0193, + "step": 88155 + }, + { + "epoch": 0.564224, + "grad_norm": 0.6193594336509705, + "learning_rate": 1.623850666666667e-05, + "loss": 0.0158, + "step": 88160 + }, + { + "epoch": 0.564256, + "grad_norm": 0.41866570711135864, + "learning_rate": 1.6238293333333334e-05, + "loss": 0.0083, + "step": 88165 + }, + { + "epoch": 0.564288, + "grad_norm": 0.29583463072776794, + "learning_rate": 1.623808e-05, + "loss": 0.0089, + "step": 88170 + }, + { + "epoch": 0.56432, + "grad_norm": 0.6326091289520264, + "learning_rate": 1.623786666666667e-05, + "loss": 0.0214, + "step": 88175 + }, + { + "epoch": 0.564352, + "grad_norm": 0.4280136525630951, + "learning_rate": 1.6237653333333333e-05, + "loss": 0.0177, + "step": 88180 + }, + { + "epoch": 0.564384, + "grad_norm": 0.3381389379501343, + "learning_rate": 1.623744e-05, + "loss": 0.0139, + "step": 88185 + }, + { + "epoch": 0.564416, + "grad_norm": 0.4246487021446228, + "learning_rate": 1.623722666666667e-05, + "loss": 0.0222, + "step": 88190 + }, + { + "epoch": 0.564448, + "grad_norm": 0.282308429479599, + "learning_rate": 1.6237013333333336e-05, + "loss": 0.0079, + "step": 88195 + }, + { + "epoch": 0.56448, + "grad_norm": 0.41153350472450256, + "learning_rate": 1.62368e-05, + "loss": 0.0147, + "step": 88200 + }, + { + "epoch": 0.564512, + "grad_norm": 0.6153138279914856, + "learning_rate": 1.6236586666666668e-05, + "loss": 0.0176, + "step": 88205 + }, + { + "epoch": 0.564544, + "grad_norm": 0.5587999224662781, + "learning_rate": 1.6236373333333335e-05, + "loss": 0.0298, + "step": 88210 + }, + { + "epoch": 0.564576, + "grad_norm": 0.5482107996940613, + "learning_rate": 1.623616e-05, + "loss": 0.0184, + "step": 88215 + }, + { + "epoch": 0.564608, + "grad_norm": 0.7945345044136047, + "learning_rate": 1.623594666666667e-05, + "loss": 0.0208, + "step": 88220 + }, + { + "epoch": 0.56464, + "grad_norm": 0.21977385878562927, + "learning_rate": 1.6235733333333335e-05, + "loss": 0.018, + "step": 88225 + }, + { + "epoch": 0.564672, + "grad_norm": 0.4659818112850189, + "learning_rate": 1.6235520000000002e-05, + "loss": 0.0153, + "step": 88230 + }, + { + "epoch": 0.564704, + "grad_norm": 0.2612154483795166, + "learning_rate": 1.623530666666667e-05, + "loss": 0.0095, + "step": 88235 + }, + { + "epoch": 0.564736, + "grad_norm": 0.7753272652626038, + "learning_rate": 1.6235093333333334e-05, + "loss": 0.0216, + "step": 88240 + }, + { + "epoch": 0.564768, + "grad_norm": 2.2433245182037354, + "learning_rate": 1.623488e-05, + "loss": 0.023, + "step": 88245 + }, + { + "epoch": 0.5648, + "grad_norm": 0.5997040271759033, + "learning_rate": 1.623466666666667e-05, + "loss": 0.0183, + "step": 88250 + }, + { + "epoch": 0.564832, + "grad_norm": 0.79915452003479, + "learning_rate": 1.6234453333333336e-05, + "loss": 0.0191, + "step": 88255 + }, + { + "epoch": 0.564864, + "grad_norm": 1.2282360792160034, + "learning_rate": 1.623424e-05, + "loss": 0.0152, + "step": 88260 + }, + { + "epoch": 0.564896, + "grad_norm": 0.7324875593185425, + "learning_rate": 1.6234026666666668e-05, + "loss": 0.0169, + "step": 88265 + }, + { + "epoch": 0.564928, + "grad_norm": 0.4344981610774994, + "learning_rate": 1.6233813333333336e-05, + "loss": 0.0273, + "step": 88270 + }, + { + "epoch": 0.56496, + "grad_norm": 0.29763615131378174, + "learning_rate": 1.62336e-05, + "loss": 0.0056, + "step": 88275 + }, + { + "epoch": 0.564992, + "grad_norm": 1.0090231895446777, + "learning_rate": 1.6233386666666667e-05, + "loss": 0.018, + "step": 88280 + }, + { + "epoch": 0.565024, + "grad_norm": 0.277099072933197, + "learning_rate": 1.6233173333333335e-05, + "loss": 0.0365, + "step": 88285 + }, + { + "epoch": 0.565056, + "grad_norm": 2.9170942306518555, + "learning_rate": 1.6232960000000003e-05, + "loss": 0.0221, + "step": 88290 + }, + { + "epoch": 0.565088, + "grad_norm": 0.8609470129013062, + "learning_rate": 1.6232746666666667e-05, + "loss": 0.0392, + "step": 88295 + }, + { + "epoch": 0.56512, + "grad_norm": 0.14110802114009857, + "learning_rate": 1.6232533333333334e-05, + "loss": 0.0129, + "step": 88300 + }, + { + "epoch": 0.565152, + "grad_norm": 0.582842230796814, + "learning_rate": 1.6232320000000002e-05, + "loss": 0.0261, + "step": 88305 + }, + { + "epoch": 0.565184, + "grad_norm": 0.6930359601974487, + "learning_rate": 1.6232106666666666e-05, + "loss": 0.0206, + "step": 88310 + }, + { + "epoch": 0.565216, + "grad_norm": 0.06769957393407822, + "learning_rate": 1.6231893333333334e-05, + "loss": 0.009, + "step": 88315 + }, + { + "epoch": 0.565248, + "grad_norm": 1.2289533615112305, + "learning_rate": 1.623168e-05, + "loss": 0.0253, + "step": 88320 + }, + { + "epoch": 0.56528, + "grad_norm": 0.6543577909469604, + "learning_rate": 1.623146666666667e-05, + "loss": 0.0216, + "step": 88325 + }, + { + "epoch": 0.565312, + "grad_norm": 0.6576623916625977, + "learning_rate": 1.6231253333333333e-05, + "loss": 0.0197, + "step": 88330 + }, + { + "epoch": 0.565344, + "grad_norm": 0.926417887210846, + "learning_rate": 1.6231040000000004e-05, + "loss": 0.0257, + "step": 88335 + }, + { + "epoch": 0.565376, + "grad_norm": 0.34593018889427185, + "learning_rate": 1.6230826666666668e-05, + "loss": 0.0116, + "step": 88340 + }, + { + "epoch": 0.565408, + "grad_norm": 0.27324849367141724, + "learning_rate": 1.6230613333333332e-05, + "loss": 0.0098, + "step": 88345 + }, + { + "epoch": 0.56544, + "grad_norm": 0.6962952613830566, + "learning_rate": 1.6230400000000003e-05, + "loss": 0.0268, + "step": 88350 + }, + { + "epoch": 0.565472, + "grad_norm": 0.06002412736415863, + "learning_rate": 1.6230186666666667e-05, + "loss": 0.0259, + "step": 88355 + }, + { + "epoch": 0.565504, + "grad_norm": 1.4398884773254395, + "learning_rate": 1.6229973333333335e-05, + "loss": 0.028, + "step": 88360 + }, + { + "epoch": 0.565536, + "grad_norm": 0.952730655670166, + "learning_rate": 1.6229760000000002e-05, + "loss": 0.0142, + "step": 88365 + }, + { + "epoch": 0.565568, + "grad_norm": 0.8149253726005554, + "learning_rate": 1.622954666666667e-05, + "loss": 0.0146, + "step": 88370 + }, + { + "epoch": 0.5656, + "grad_norm": 0.9256314635276794, + "learning_rate": 1.6229333333333334e-05, + "loss": 0.0163, + "step": 88375 + }, + { + "epoch": 0.565632, + "grad_norm": 0.6987666487693787, + "learning_rate": 1.622912e-05, + "loss": 0.0225, + "step": 88380 + }, + { + "epoch": 0.565664, + "grad_norm": 0.08960457891225815, + "learning_rate": 1.622890666666667e-05, + "loss": 0.0165, + "step": 88385 + }, + { + "epoch": 0.565696, + "grad_norm": 0.5468252897262573, + "learning_rate": 1.6228693333333333e-05, + "loss": 0.016, + "step": 88390 + }, + { + "epoch": 0.565728, + "grad_norm": 0.4883723258972168, + "learning_rate": 1.622848e-05, + "loss": 0.012, + "step": 88395 + }, + { + "epoch": 0.56576, + "grad_norm": 0.2719945013523102, + "learning_rate": 1.622826666666667e-05, + "loss": 0.0112, + "step": 88400 + }, + { + "epoch": 0.565792, + "grad_norm": 0.7032315135002136, + "learning_rate": 1.6228053333333336e-05, + "loss": 0.0226, + "step": 88405 + }, + { + "epoch": 0.565824, + "grad_norm": 0.7635425329208374, + "learning_rate": 1.622784e-05, + "loss": 0.0165, + "step": 88410 + }, + { + "epoch": 0.565856, + "grad_norm": 1.1675320863723755, + "learning_rate": 1.6227626666666668e-05, + "loss": 0.032, + "step": 88415 + }, + { + "epoch": 0.565888, + "grad_norm": 0.4803241789340973, + "learning_rate": 1.6227413333333335e-05, + "loss": 0.0076, + "step": 88420 + }, + { + "epoch": 0.56592, + "grad_norm": 0.4000771641731262, + "learning_rate": 1.62272e-05, + "loss": 0.0266, + "step": 88425 + }, + { + "epoch": 0.565952, + "grad_norm": 0.29707419872283936, + "learning_rate": 1.622698666666667e-05, + "loss": 0.0239, + "step": 88430 + }, + { + "epoch": 0.565984, + "grad_norm": 0.4418565034866333, + "learning_rate": 1.6226773333333335e-05, + "loss": 0.0258, + "step": 88435 + }, + { + "epoch": 0.566016, + "grad_norm": 0.19906213879585266, + "learning_rate": 1.6226560000000002e-05, + "loss": 0.0243, + "step": 88440 + }, + { + "epoch": 0.566048, + "grad_norm": 0.29025763273239136, + "learning_rate": 1.622634666666667e-05, + "loss": 0.0111, + "step": 88445 + }, + { + "epoch": 0.56608, + "grad_norm": 0.5808419585227966, + "learning_rate": 1.6226133333333334e-05, + "loss": 0.0191, + "step": 88450 + }, + { + "epoch": 0.566112, + "grad_norm": 0.2561904788017273, + "learning_rate": 1.622592e-05, + "loss": 0.0128, + "step": 88455 + }, + { + "epoch": 0.566144, + "grad_norm": 1.4924677610397339, + "learning_rate": 1.622570666666667e-05, + "loss": 0.0164, + "step": 88460 + }, + { + "epoch": 0.566176, + "grad_norm": 0.5196875333786011, + "learning_rate": 1.6225493333333336e-05, + "loss": 0.0056, + "step": 88465 + }, + { + "epoch": 0.566208, + "grad_norm": 0.4601733386516571, + "learning_rate": 1.622528e-05, + "loss": 0.012, + "step": 88470 + }, + { + "epoch": 0.56624, + "grad_norm": 1.543847918510437, + "learning_rate": 1.6225066666666668e-05, + "loss": 0.0196, + "step": 88475 + }, + { + "epoch": 0.566272, + "grad_norm": 3.558372735977173, + "learning_rate": 1.6224853333333336e-05, + "loss": 0.0299, + "step": 88480 + }, + { + "epoch": 0.566304, + "grad_norm": 0.597789466381073, + "learning_rate": 1.622464e-05, + "loss": 0.0146, + "step": 88485 + }, + { + "epoch": 0.566336, + "grad_norm": 0.9769478440284729, + "learning_rate": 1.6224426666666667e-05, + "loss": 0.0219, + "step": 88490 + }, + { + "epoch": 0.566368, + "grad_norm": 0.9492721557617188, + "learning_rate": 1.6224213333333335e-05, + "loss": 0.0238, + "step": 88495 + }, + { + "epoch": 0.5664, + "grad_norm": 0.7723848223686218, + "learning_rate": 1.6224000000000003e-05, + "loss": 0.0193, + "step": 88500 + }, + { + "epoch": 0.566432, + "grad_norm": 0.4721209406852722, + "learning_rate": 1.6223786666666667e-05, + "loss": 0.0242, + "step": 88505 + }, + { + "epoch": 0.566464, + "grad_norm": 1.0610718727111816, + "learning_rate": 1.6223573333333334e-05, + "loss": 0.0126, + "step": 88510 + }, + { + "epoch": 0.566496, + "grad_norm": 0.2636774778366089, + "learning_rate": 1.6223360000000002e-05, + "loss": 0.0224, + "step": 88515 + }, + { + "epoch": 0.566528, + "grad_norm": 0.13528721034526825, + "learning_rate": 1.6223146666666666e-05, + "loss": 0.012, + "step": 88520 + }, + { + "epoch": 0.56656, + "grad_norm": 0.2976098358631134, + "learning_rate": 1.6222933333333334e-05, + "loss": 0.0079, + "step": 88525 + }, + { + "epoch": 0.566592, + "grad_norm": 0.5702313184738159, + "learning_rate": 1.622272e-05, + "loss": 0.0088, + "step": 88530 + }, + { + "epoch": 0.566624, + "grad_norm": 0.9683160781860352, + "learning_rate": 1.622250666666667e-05, + "loss": 0.0177, + "step": 88535 + }, + { + "epoch": 0.566656, + "grad_norm": 0.3930055499076843, + "learning_rate": 1.6222293333333333e-05, + "loss": 0.0198, + "step": 88540 + }, + { + "epoch": 0.566688, + "grad_norm": 1.284153938293457, + "learning_rate": 1.6222080000000004e-05, + "loss": 0.0154, + "step": 88545 + }, + { + "epoch": 0.56672, + "grad_norm": 0.10898719727993011, + "learning_rate": 1.6221866666666668e-05, + "loss": 0.0131, + "step": 88550 + }, + { + "epoch": 0.566752, + "grad_norm": 0.09835702925920486, + "learning_rate": 1.6221653333333332e-05, + "loss": 0.0116, + "step": 88555 + }, + { + "epoch": 0.566784, + "grad_norm": 2.0461032390594482, + "learning_rate": 1.6221440000000003e-05, + "loss": 0.0585, + "step": 88560 + }, + { + "epoch": 0.566816, + "grad_norm": 1.7767996788024902, + "learning_rate": 1.6221226666666667e-05, + "loss": 0.0291, + "step": 88565 + }, + { + "epoch": 0.566848, + "grad_norm": 0.26506805419921875, + "learning_rate": 1.6221013333333335e-05, + "loss": 0.0157, + "step": 88570 + }, + { + "epoch": 0.56688, + "grad_norm": 0.30056363344192505, + "learning_rate": 1.6220800000000002e-05, + "loss": 0.0174, + "step": 88575 + }, + { + "epoch": 0.566912, + "grad_norm": 0.2757079601287842, + "learning_rate": 1.622058666666667e-05, + "loss": 0.02, + "step": 88580 + }, + { + "epoch": 0.566944, + "grad_norm": 0.4337490200996399, + "learning_rate": 1.6220373333333334e-05, + "loss": 0.0386, + "step": 88585 + }, + { + "epoch": 0.566976, + "grad_norm": 0.37168315052986145, + "learning_rate": 1.622016e-05, + "loss": 0.009, + "step": 88590 + }, + { + "epoch": 0.567008, + "grad_norm": 0.493315190076828, + "learning_rate": 1.621994666666667e-05, + "loss": 0.019, + "step": 88595 + }, + { + "epoch": 0.56704, + "grad_norm": 0.36014729738235474, + "learning_rate": 1.6219733333333333e-05, + "loss": 0.024, + "step": 88600 + }, + { + "epoch": 0.567072, + "grad_norm": 0.050765346735715866, + "learning_rate": 1.621952e-05, + "loss": 0.0216, + "step": 88605 + }, + { + "epoch": 0.567104, + "grad_norm": 0.36097005009651184, + "learning_rate": 1.621930666666667e-05, + "loss": 0.0188, + "step": 88610 + }, + { + "epoch": 0.567136, + "grad_norm": 0.7339540123939514, + "learning_rate": 1.6219093333333336e-05, + "loss": 0.0428, + "step": 88615 + }, + { + "epoch": 0.567168, + "grad_norm": 0.2338663637638092, + "learning_rate": 1.621888e-05, + "loss": 0.0289, + "step": 88620 + }, + { + "epoch": 0.5672, + "grad_norm": 0.6275272369384766, + "learning_rate": 1.6218666666666668e-05, + "loss": 0.0279, + "step": 88625 + }, + { + "epoch": 0.567232, + "grad_norm": 0.546333372592926, + "learning_rate": 1.6218453333333335e-05, + "loss": 0.0109, + "step": 88630 + }, + { + "epoch": 0.567264, + "grad_norm": 0.3420217037200928, + "learning_rate": 1.621824e-05, + "loss": 0.0229, + "step": 88635 + }, + { + "epoch": 0.567296, + "grad_norm": 0.6433475613594055, + "learning_rate": 1.6218026666666667e-05, + "loss": 0.0121, + "step": 88640 + }, + { + "epoch": 0.567328, + "grad_norm": 0.5777593851089478, + "learning_rate": 1.6217813333333335e-05, + "loss": 0.0144, + "step": 88645 + }, + { + "epoch": 0.56736, + "grad_norm": 0.3643248379230499, + "learning_rate": 1.6217600000000002e-05, + "loss": 0.0177, + "step": 88650 + }, + { + "epoch": 0.567392, + "grad_norm": 1.0379185676574707, + "learning_rate": 1.621738666666667e-05, + "loss": 0.0153, + "step": 88655 + }, + { + "epoch": 0.567424, + "grad_norm": 0.6675599217414856, + "learning_rate": 1.6217173333333334e-05, + "loss": 0.0095, + "step": 88660 + }, + { + "epoch": 0.567456, + "grad_norm": 0.5588273406028748, + "learning_rate": 1.621696e-05, + "loss": 0.0136, + "step": 88665 + }, + { + "epoch": 0.567488, + "grad_norm": 0.05049968883395195, + "learning_rate": 1.621674666666667e-05, + "loss": 0.0114, + "step": 88670 + }, + { + "epoch": 0.56752, + "grad_norm": 0.9294849038124084, + "learning_rate": 1.6216533333333336e-05, + "loss": 0.0122, + "step": 88675 + }, + { + "epoch": 0.567552, + "grad_norm": 0.10296133160591125, + "learning_rate": 1.621632e-05, + "loss": 0.0135, + "step": 88680 + }, + { + "epoch": 0.567584, + "grad_norm": 0.5175428986549377, + "learning_rate": 1.6216106666666668e-05, + "loss": 0.0154, + "step": 88685 + }, + { + "epoch": 0.567616, + "grad_norm": 0.5272433161735535, + "learning_rate": 1.6215893333333336e-05, + "loss": 0.0215, + "step": 88690 + }, + { + "epoch": 0.567648, + "grad_norm": 0.9950927495956421, + "learning_rate": 1.621568e-05, + "loss": 0.0342, + "step": 88695 + }, + { + "epoch": 0.56768, + "grad_norm": 0.4869619309902191, + "learning_rate": 1.6215466666666667e-05, + "loss": 0.0152, + "step": 88700 + }, + { + "epoch": 0.567712, + "grad_norm": 0.5597577095031738, + "learning_rate": 1.6215253333333335e-05, + "loss": 0.0358, + "step": 88705 + }, + { + "epoch": 0.567744, + "grad_norm": 0.6038678288459778, + "learning_rate": 1.6215040000000003e-05, + "loss": 0.0079, + "step": 88710 + }, + { + "epoch": 0.567776, + "grad_norm": 5.491440296173096, + "learning_rate": 1.6214826666666667e-05, + "loss": 0.025, + "step": 88715 + }, + { + "epoch": 0.567808, + "grad_norm": 1.9619007110595703, + "learning_rate": 1.6214613333333334e-05, + "loss": 0.0251, + "step": 88720 + }, + { + "epoch": 0.56784, + "grad_norm": 0.526037335395813, + "learning_rate": 1.6214400000000002e-05, + "loss": 0.026, + "step": 88725 + }, + { + "epoch": 0.567872, + "grad_norm": 1.0120196342468262, + "learning_rate": 1.6214186666666666e-05, + "loss": 0.0151, + "step": 88730 + }, + { + "epoch": 0.567904, + "grad_norm": 1.5653165578842163, + "learning_rate": 1.6213973333333334e-05, + "loss": 0.0174, + "step": 88735 + }, + { + "epoch": 0.567936, + "grad_norm": 0.45941847562789917, + "learning_rate": 1.621376e-05, + "loss": 0.016, + "step": 88740 + }, + { + "epoch": 0.567968, + "grad_norm": 2.3822662830352783, + "learning_rate": 1.621354666666667e-05, + "loss": 0.0197, + "step": 88745 + }, + { + "epoch": 0.568, + "grad_norm": 0.6440567970275879, + "learning_rate": 1.6213333333333333e-05, + "loss": 0.0145, + "step": 88750 + }, + { + "epoch": 0.568032, + "grad_norm": 0.2563250958919525, + "learning_rate": 1.6213120000000004e-05, + "loss": 0.0197, + "step": 88755 + }, + { + "epoch": 0.568064, + "grad_norm": 0.40032336115837097, + "learning_rate": 1.6212906666666668e-05, + "loss": 0.0087, + "step": 88760 + }, + { + "epoch": 0.568096, + "grad_norm": 0.2986379861831665, + "learning_rate": 1.6212693333333332e-05, + "loss": 0.018, + "step": 88765 + }, + { + "epoch": 0.568128, + "grad_norm": 0.6044086813926697, + "learning_rate": 1.6212480000000003e-05, + "loss": 0.0091, + "step": 88770 + }, + { + "epoch": 0.56816, + "grad_norm": 0.1276322305202484, + "learning_rate": 1.6212266666666667e-05, + "loss": 0.0103, + "step": 88775 + }, + { + "epoch": 0.568192, + "grad_norm": 1.0068089962005615, + "learning_rate": 1.6212053333333335e-05, + "loss": 0.0225, + "step": 88780 + }, + { + "epoch": 0.568224, + "grad_norm": 1.0382533073425293, + "learning_rate": 1.6211840000000002e-05, + "loss": 0.0209, + "step": 88785 + }, + { + "epoch": 0.568256, + "grad_norm": 0.7591906189918518, + "learning_rate": 1.621162666666667e-05, + "loss": 0.0214, + "step": 88790 + }, + { + "epoch": 0.568288, + "grad_norm": 2.1273632049560547, + "learning_rate": 1.6211413333333334e-05, + "loss": 0.0351, + "step": 88795 + }, + { + "epoch": 0.56832, + "grad_norm": 0.38102486729621887, + "learning_rate": 1.62112e-05, + "loss": 0.021, + "step": 88800 + }, + { + "epoch": 0.568352, + "grad_norm": 0.27406707406044006, + "learning_rate": 1.621098666666667e-05, + "loss": 0.0273, + "step": 88805 + }, + { + "epoch": 0.568384, + "grad_norm": 1.1523663997650146, + "learning_rate": 1.6210773333333333e-05, + "loss": 0.0141, + "step": 88810 + }, + { + "epoch": 0.568416, + "grad_norm": 0.4027044177055359, + "learning_rate": 1.621056e-05, + "loss": 0.0089, + "step": 88815 + }, + { + "epoch": 0.568448, + "grad_norm": 0.18823687732219696, + "learning_rate": 1.621034666666667e-05, + "loss": 0.0167, + "step": 88820 + }, + { + "epoch": 0.56848, + "grad_norm": 0.7723393440246582, + "learning_rate": 1.6210133333333336e-05, + "loss": 0.0197, + "step": 88825 + }, + { + "epoch": 0.568512, + "grad_norm": 0.9033933281898499, + "learning_rate": 1.620992e-05, + "loss": 0.0159, + "step": 88830 + }, + { + "epoch": 0.568544, + "grad_norm": 0.21737781167030334, + "learning_rate": 1.6209706666666668e-05, + "loss": 0.0134, + "step": 88835 + }, + { + "epoch": 0.568576, + "grad_norm": 0.051823198795318604, + "learning_rate": 1.6209493333333335e-05, + "loss": 0.0178, + "step": 88840 + }, + { + "epoch": 0.568608, + "grad_norm": 0.04489615559577942, + "learning_rate": 1.620928e-05, + "loss": 0.0092, + "step": 88845 + }, + { + "epoch": 0.56864, + "grad_norm": 0.41586190462112427, + "learning_rate": 1.6209066666666667e-05, + "loss": 0.0131, + "step": 88850 + }, + { + "epoch": 0.568672, + "grad_norm": 0.3782145380973816, + "learning_rate": 1.6208853333333335e-05, + "loss": 0.0132, + "step": 88855 + }, + { + "epoch": 0.568704, + "grad_norm": 0.8078215718269348, + "learning_rate": 1.6208640000000002e-05, + "loss": 0.0168, + "step": 88860 + }, + { + "epoch": 0.568736, + "grad_norm": 0.1928212195634842, + "learning_rate": 1.6208426666666666e-05, + "loss": 0.032, + "step": 88865 + }, + { + "epoch": 0.568768, + "grad_norm": 0.6890723705291748, + "learning_rate": 1.6208213333333334e-05, + "loss": 0.012, + "step": 88870 + }, + { + "epoch": 0.5688, + "grad_norm": 1.0658038854599, + "learning_rate": 1.6208e-05, + "loss": 0.0277, + "step": 88875 + }, + { + "epoch": 0.568832, + "grad_norm": 1.3217405080795288, + "learning_rate": 1.620778666666667e-05, + "loss": 0.0179, + "step": 88880 + }, + { + "epoch": 0.568864, + "grad_norm": 0.36304110288619995, + "learning_rate": 1.6207573333333336e-05, + "loss": 0.0174, + "step": 88885 + }, + { + "epoch": 0.568896, + "grad_norm": 0.5296661257743835, + "learning_rate": 1.620736e-05, + "loss": 0.0182, + "step": 88890 + }, + { + "epoch": 0.568928, + "grad_norm": 0.323184996843338, + "learning_rate": 1.6207146666666668e-05, + "loss": 0.0106, + "step": 88895 + }, + { + "epoch": 0.56896, + "grad_norm": 1.0868759155273438, + "learning_rate": 1.6206933333333336e-05, + "loss": 0.0125, + "step": 88900 + }, + { + "epoch": 0.568992, + "grad_norm": 0.6731203198432922, + "learning_rate": 1.620672e-05, + "loss": 0.0208, + "step": 88905 + }, + { + "epoch": 0.569024, + "grad_norm": 0.4552304148674011, + "learning_rate": 1.6206506666666667e-05, + "loss": 0.0073, + "step": 88910 + }, + { + "epoch": 0.569056, + "grad_norm": 0.23161207139492035, + "learning_rate": 1.6206293333333335e-05, + "loss": 0.0289, + "step": 88915 + }, + { + "epoch": 0.569088, + "grad_norm": 1.5074721574783325, + "learning_rate": 1.6206080000000003e-05, + "loss": 0.0296, + "step": 88920 + }, + { + "epoch": 0.56912, + "grad_norm": 1.1103564500808716, + "learning_rate": 1.6205866666666667e-05, + "loss": 0.0168, + "step": 88925 + }, + { + "epoch": 0.569152, + "grad_norm": 0.5665233731269836, + "learning_rate": 1.6205653333333334e-05, + "loss": 0.0207, + "step": 88930 + }, + { + "epoch": 0.569184, + "grad_norm": 0.704569935798645, + "learning_rate": 1.6205440000000002e-05, + "loss": 0.0146, + "step": 88935 + }, + { + "epoch": 0.569216, + "grad_norm": 0.5007663369178772, + "learning_rate": 1.6205226666666666e-05, + "loss": 0.0107, + "step": 88940 + }, + { + "epoch": 0.569248, + "grad_norm": 0.39958059787750244, + "learning_rate": 1.6205013333333334e-05, + "loss": 0.0075, + "step": 88945 + }, + { + "epoch": 0.56928, + "grad_norm": 0.10287284106016159, + "learning_rate": 1.62048e-05, + "loss": 0.0125, + "step": 88950 + }, + { + "epoch": 0.569312, + "grad_norm": 1.0231518745422363, + "learning_rate": 1.620458666666667e-05, + "loss": 0.0195, + "step": 88955 + }, + { + "epoch": 0.569344, + "grad_norm": 1.018351674079895, + "learning_rate": 1.6204373333333333e-05, + "loss": 0.0371, + "step": 88960 + }, + { + "epoch": 0.569376, + "grad_norm": 0.6349673867225647, + "learning_rate": 1.6204160000000004e-05, + "loss": 0.0189, + "step": 88965 + }, + { + "epoch": 0.569408, + "grad_norm": 0.7732678055763245, + "learning_rate": 1.6203946666666668e-05, + "loss": 0.0262, + "step": 88970 + }, + { + "epoch": 0.56944, + "grad_norm": 1.0764695405960083, + "learning_rate": 1.6203733333333335e-05, + "loss": 0.0174, + "step": 88975 + }, + { + "epoch": 0.569472, + "grad_norm": 0.12521108984947205, + "learning_rate": 1.6203520000000003e-05, + "loss": 0.0114, + "step": 88980 + }, + { + "epoch": 0.569504, + "grad_norm": 0.7687109708786011, + "learning_rate": 1.6203306666666667e-05, + "loss": 0.0106, + "step": 88985 + }, + { + "epoch": 0.569536, + "grad_norm": 0.3411082625389099, + "learning_rate": 1.6203093333333335e-05, + "loss": 0.0147, + "step": 88990 + }, + { + "epoch": 0.569568, + "grad_norm": 0.32844606041908264, + "learning_rate": 1.6202880000000002e-05, + "loss": 0.0113, + "step": 88995 + }, + { + "epoch": 0.5696, + "grad_norm": 0.6087116599082947, + "learning_rate": 1.620266666666667e-05, + "loss": 0.0081, + "step": 89000 + }, + { + "epoch": 0.569632, + "grad_norm": 0.6242120265960693, + "learning_rate": 1.6202453333333334e-05, + "loss": 0.012, + "step": 89005 + }, + { + "epoch": 0.569664, + "grad_norm": 0.8385945558547974, + "learning_rate": 1.620224e-05, + "loss": 0.0192, + "step": 89010 + }, + { + "epoch": 0.569696, + "grad_norm": 0.5189236998558044, + "learning_rate": 1.620202666666667e-05, + "loss": 0.0187, + "step": 89015 + }, + { + "epoch": 0.569728, + "grad_norm": 0.40192461013793945, + "learning_rate": 1.6201813333333333e-05, + "loss": 0.0176, + "step": 89020 + }, + { + "epoch": 0.56976, + "grad_norm": 3.556147336959839, + "learning_rate": 1.62016e-05, + "loss": 0.0177, + "step": 89025 + }, + { + "epoch": 0.569792, + "grad_norm": 0.2799813151359558, + "learning_rate": 1.620138666666667e-05, + "loss": 0.0471, + "step": 89030 + }, + { + "epoch": 0.569824, + "grad_norm": 0.715634822845459, + "learning_rate": 1.6201173333333336e-05, + "loss": 0.0304, + "step": 89035 + }, + { + "epoch": 0.569856, + "grad_norm": 0.14930851757526398, + "learning_rate": 1.620096e-05, + "loss": 0.012, + "step": 89040 + }, + { + "epoch": 0.569888, + "grad_norm": 0.8374524712562561, + "learning_rate": 1.6200746666666668e-05, + "loss": 0.0335, + "step": 89045 + }, + { + "epoch": 0.56992, + "grad_norm": 2.320396661758423, + "learning_rate": 1.6200533333333335e-05, + "loss": 0.0211, + "step": 89050 + }, + { + "epoch": 0.569952, + "grad_norm": 1.0109333992004395, + "learning_rate": 1.620032e-05, + "loss": 0.0194, + "step": 89055 + }, + { + "epoch": 0.569984, + "grad_norm": 0.521331250667572, + "learning_rate": 1.6200106666666667e-05, + "loss": 0.0248, + "step": 89060 + }, + { + "epoch": 0.570016, + "grad_norm": 0.46073397994041443, + "learning_rate": 1.6199893333333335e-05, + "loss": 0.0122, + "step": 89065 + }, + { + "epoch": 0.570048, + "grad_norm": 1.5434821844100952, + "learning_rate": 1.6199680000000002e-05, + "loss": 0.0189, + "step": 89070 + }, + { + "epoch": 0.57008, + "grad_norm": 1.326710820198059, + "learning_rate": 1.6199466666666666e-05, + "loss": 0.0161, + "step": 89075 + }, + { + "epoch": 0.570112, + "grad_norm": 0.847431480884552, + "learning_rate": 1.6199253333333337e-05, + "loss": 0.0203, + "step": 89080 + }, + { + "epoch": 0.570144, + "grad_norm": 1.3811854124069214, + "learning_rate": 1.619904e-05, + "loss": 0.0234, + "step": 89085 + }, + { + "epoch": 0.570176, + "grad_norm": 0.5968211889266968, + "learning_rate": 1.6198826666666666e-05, + "loss": 0.0195, + "step": 89090 + }, + { + "epoch": 0.570208, + "grad_norm": 0.7835192680358887, + "learning_rate": 1.6198613333333336e-05, + "loss": 0.0189, + "step": 89095 + }, + { + "epoch": 0.57024, + "grad_norm": 0.7971853017807007, + "learning_rate": 1.61984e-05, + "loss": 0.0071, + "step": 89100 + }, + { + "epoch": 0.570272, + "grad_norm": 0.5179630517959595, + "learning_rate": 1.6198186666666668e-05, + "loss": 0.0103, + "step": 89105 + }, + { + "epoch": 0.570304, + "grad_norm": 0.5171725749969482, + "learning_rate": 1.6197973333333336e-05, + "loss": 0.0198, + "step": 89110 + }, + { + "epoch": 0.570336, + "grad_norm": 0.8807749152183533, + "learning_rate": 1.6197760000000003e-05, + "loss": 0.0129, + "step": 89115 + }, + { + "epoch": 0.570368, + "grad_norm": 1.6686522960662842, + "learning_rate": 1.6197546666666667e-05, + "loss": 0.0164, + "step": 89120 + }, + { + "epoch": 0.5704, + "grad_norm": 0.01982315070927143, + "learning_rate": 1.6197333333333335e-05, + "loss": 0.0184, + "step": 89125 + }, + { + "epoch": 0.570432, + "grad_norm": 1.556375503540039, + "learning_rate": 1.6197120000000003e-05, + "loss": 0.0221, + "step": 89130 + }, + { + "epoch": 0.570464, + "grad_norm": 0.23432041704654694, + "learning_rate": 1.6196906666666667e-05, + "loss": 0.019, + "step": 89135 + }, + { + "epoch": 0.570496, + "grad_norm": 0.10457706451416016, + "learning_rate": 1.6196693333333334e-05, + "loss": 0.0254, + "step": 89140 + }, + { + "epoch": 0.570528, + "grad_norm": 0.029241016134619713, + "learning_rate": 1.6196480000000002e-05, + "loss": 0.0223, + "step": 89145 + }, + { + "epoch": 0.57056, + "grad_norm": 1.3268303871154785, + "learning_rate": 1.619626666666667e-05, + "loss": 0.0214, + "step": 89150 + }, + { + "epoch": 0.570592, + "grad_norm": 0.6197463274002075, + "learning_rate": 1.6196053333333334e-05, + "loss": 0.0097, + "step": 89155 + }, + { + "epoch": 0.570624, + "grad_norm": 0.586458146572113, + "learning_rate": 1.619584e-05, + "loss": 0.012, + "step": 89160 + }, + { + "epoch": 0.570656, + "grad_norm": 0.6110325455665588, + "learning_rate": 1.619562666666667e-05, + "loss": 0.0296, + "step": 89165 + }, + { + "epoch": 0.570688, + "grad_norm": 0.5308600664138794, + "learning_rate": 1.6195413333333333e-05, + "loss": 0.0122, + "step": 89170 + }, + { + "epoch": 0.57072, + "grad_norm": 0.7160322666168213, + "learning_rate": 1.61952e-05, + "loss": 0.0174, + "step": 89175 + }, + { + "epoch": 0.570752, + "grad_norm": 0.7066516280174255, + "learning_rate": 1.6194986666666668e-05, + "loss": 0.0165, + "step": 89180 + }, + { + "epoch": 0.570784, + "grad_norm": 0.7846476435661316, + "learning_rate": 1.6194773333333335e-05, + "loss": 0.0323, + "step": 89185 + }, + { + "epoch": 0.570816, + "grad_norm": 1.433623194694519, + "learning_rate": 1.6194560000000003e-05, + "loss": 0.0237, + "step": 89190 + }, + { + "epoch": 0.570848, + "grad_norm": 1.076072335243225, + "learning_rate": 1.6194346666666667e-05, + "loss": 0.0072, + "step": 89195 + }, + { + "epoch": 0.57088, + "grad_norm": 0.45504844188690186, + "learning_rate": 1.6194133333333335e-05, + "loss": 0.0079, + "step": 89200 + }, + { + "epoch": 0.570912, + "grad_norm": 0.33625832200050354, + "learning_rate": 1.6193920000000002e-05, + "loss": 0.0155, + "step": 89205 + }, + { + "epoch": 0.570944, + "grad_norm": 0.23956511914730072, + "learning_rate": 1.619370666666667e-05, + "loss": 0.0045, + "step": 89210 + }, + { + "epoch": 0.570976, + "grad_norm": 0.6178038120269775, + "learning_rate": 1.6193493333333334e-05, + "loss": 0.0155, + "step": 89215 + }, + { + "epoch": 0.571008, + "grad_norm": 0.4528602063655853, + "learning_rate": 1.619328e-05, + "loss": 0.0147, + "step": 89220 + }, + { + "epoch": 0.57104, + "grad_norm": 1.376954436302185, + "learning_rate": 1.619306666666667e-05, + "loss": 0.0096, + "step": 89225 + }, + { + "epoch": 0.571072, + "grad_norm": 0.32940220832824707, + "learning_rate": 1.6192853333333333e-05, + "loss": 0.0102, + "step": 89230 + }, + { + "epoch": 0.571104, + "grad_norm": 0.6563593745231628, + "learning_rate": 1.619264e-05, + "loss": 0.0099, + "step": 89235 + }, + { + "epoch": 0.571136, + "grad_norm": 0.8977519273757935, + "learning_rate": 1.619242666666667e-05, + "loss": 0.032, + "step": 89240 + }, + { + "epoch": 0.571168, + "grad_norm": 0.14689184725284576, + "learning_rate": 1.6192213333333336e-05, + "loss": 0.0086, + "step": 89245 + }, + { + "epoch": 0.5712, + "grad_norm": 0.928607702255249, + "learning_rate": 1.6192e-05, + "loss": 0.0116, + "step": 89250 + }, + { + "epoch": 0.571232, + "grad_norm": 0.11186251789331436, + "learning_rate": 1.6191786666666668e-05, + "loss": 0.0194, + "step": 89255 + }, + { + "epoch": 0.571264, + "grad_norm": 1.5291301012039185, + "learning_rate": 1.6191573333333335e-05, + "loss": 0.0208, + "step": 89260 + }, + { + "epoch": 0.571296, + "grad_norm": 0.49071669578552246, + "learning_rate": 1.619136e-05, + "loss": 0.015, + "step": 89265 + }, + { + "epoch": 0.571328, + "grad_norm": 0.6074156761169434, + "learning_rate": 1.6191146666666667e-05, + "loss": 0.0199, + "step": 89270 + }, + { + "epoch": 0.57136, + "grad_norm": 0.9601053595542908, + "learning_rate": 1.6190933333333335e-05, + "loss": 0.0218, + "step": 89275 + }, + { + "epoch": 0.571392, + "grad_norm": 1.0158987045288086, + "learning_rate": 1.6190720000000002e-05, + "loss": 0.0198, + "step": 89280 + }, + { + "epoch": 0.571424, + "grad_norm": 1.207224726676941, + "learning_rate": 1.6190506666666666e-05, + "loss": 0.0125, + "step": 89285 + }, + { + "epoch": 0.571456, + "grad_norm": 0.5556225180625916, + "learning_rate": 1.6190293333333337e-05, + "loss": 0.0093, + "step": 89290 + }, + { + "epoch": 0.571488, + "grad_norm": 0.08484800904989243, + "learning_rate": 1.619008e-05, + "loss": 0.0076, + "step": 89295 + }, + { + "epoch": 0.57152, + "grad_norm": 0.013740229420363903, + "learning_rate": 1.6189866666666666e-05, + "loss": 0.009, + "step": 89300 + }, + { + "epoch": 0.571552, + "grad_norm": 0.20817025005817413, + "learning_rate": 1.6189653333333336e-05, + "loss": 0.0154, + "step": 89305 + }, + { + "epoch": 0.571584, + "grad_norm": 0.5914969444274902, + "learning_rate": 1.618944e-05, + "loss": 0.0195, + "step": 89310 + }, + { + "epoch": 0.571616, + "grad_norm": 1.2100738286972046, + "learning_rate": 1.6189226666666668e-05, + "loss": 0.0401, + "step": 89315 + }, + { + "epoch": 0.571648, + "grad_norm": 0.09063094854354858, + "learning_rate": 1.6189013333333336e-05, + "loss": 0.0207, + "step": 89320 + }, + { + "epoch": 0.57168, + "grad_norm": 0.8153955340385437, + "learning_rate": 1.6188800000000003e-05, + "loss": 0.0176, + "step": 89325 + }, + { + "epoch": 0.571712, + "grad_norm": 3.5601375102996826, + "learning_rate": 1.6188586666666667e-05, + "loss": 0.0194, + "step": 89330 + }, + { + "epoch": 0.571744, + "grad_norm": 0.8200785517692566, + "learning_rate": 1.6188373333333335e-05, + "loss": 0.0174, + "step": 89335 + }, + { + "epoch": 0.571776, + "grad_norm": 0.05840938538312912, + "learning_rate": 1.6188160000000003e-05, + "loss": 0.0083, + "step": 89340 + }, + { + "epoch": 0.571808, + "grad_norm": 0.6588246822357178, + "learning_rate": 1.6187946666666667e-05, + "loss": 0.0137, + "step": 89345 + }, + { + "epoch": 0.57184, + "grad_norm": 0.6116777062416077, + "learning_rate": 1.6187733333333334e-05, + "loss": 0.0125, + "step": 89350 + }, + { + "epoch": 0.571872, + "grad_norm": 0.8253591060638428, + "learning_rate": 1.6187520000000002e-05, + "loss": 0.0216, + "step": 89355 + }, + { + "epoch": 0.571904, + "grad_norm": 1.7071887254714966, + "learning_rate": 1.618730666666667e-05, + "loss": 0.0154, + "step": 89360 + }, + { + "epoch": 0.571936, + "grad_norm": 0.7883448004722595, + "learning_rate": 1.6187093333333334e-05, + "loss": 0.0104, + "step": 89365 + }, + { + "epoch": 0.571968, + "grad_norm": 0.06834420561790466, + "learning_rate": 1.618688e-05, + "loss": 0.0272, + "step": 89370 + }, + { + "epoch": 0.572, + "grad_norm": 1.3908629417419434, + "learning_rate": 1.618666666666667e-05, + "loss": 0.019, + "step": 89375 + }, + { + "epoch": 0.572032, + "grad_norm": 0.286305695772171, + "learning_rate": 1.6186453333333333e-05, + "loss": 0.0126, + "step": 89380 + }, + { + "epoch": 0.572064, + "grad_norm": 0.9051372408866882, + "learning_rate": 1.618624e-05, + "loss": 0.021, + "step": 89385 + }, + { + "epoch": 0.572096, + "grad_norm": 0.7839381694793701, + "learning_rate": 1.6186026666666668e-05, + "loss": 0.0266, + "step": 89390 + }, + { + "epoch": 0.572128, + "grad_norm": 0.8934786915779114, + "learning_rate": 1.6185813333333336e-05, + "loss": 0.0211, + "step": 89395 + }, + { + "epoch": 0.57216, + "grad_norm": 0.7020853757858276, + "learning_rate": 1.61856e-05, + "loss": 0.0118, + "step": 89400 + }, + { + "epoch": 0.572192, + "grad_norm": 1.6533392667770386, + "learning_rate": 1.6185386666666667e-05, + "loss": 0.0535, + "step": 89405 + }, + { + "epoch": 0.572224, + "grad_norm": 0.6350135207176208, + "learning_rate": 1.6185173333333335e-05, + "loss": 0.008, + "step": 89410 + }, + { + "epoch": 0.572256, + "grad_norm": 0.8988195061683655, + "learning_rate": 1.6184960000000002e-05, + "loss": 0.0228, + "step": 89415 + }, + { + "epoch": 0.572288, + "grad_norm": 0.12026635557413101, + "learning_rate": 1.618474666666667e-05, + "loss": 0.0144, + "step": 89420 + }, + { + "epoch": 0.57232, + "grad_norm": 0.2956932783126831, + "learning_rate": 1.6184533333333334e-05, + "loss": 0.0078, + "step": 89425 + }, + { + "epoch": 0.572352, + "grad_norm": 0.7872253656387329, + "learning_rate": 1.618432e-05, + "loss": 0.0264, + "step": 89430 + }, + { + "epoch": 0.572384, + "grad_norm": 0.6070308685302734, + "learning_rate": 1.618410666666667e-05, + "loss": 0.0139, + "step": 89435 + }, + { + "epoch": 0.572416, + "grad_norm": 0.15427909791469574, + "learning_rate": 1.6183893333333333e-05, + "loss": 0.0153, + "step": 89440 + }, + { + "epoch": 0.572448, + "grad_norm": 0.33415687084198, + "learning_rate": 1.618368e-05, + "loss": 0.0161, + "step": 89445 + }, + { + "epoch": 0.57248, + "grad_norm": 0.2697862684726715, + "learning_rate": 1.618346666666667e-05, + "loss": 0.0162, + "step": 89450 + }, + { + "epoch": 0.572512, + "grad_norm": 0.36761146783828735, + "learning_rate": 1.6183253333333336e-05, + "loss": 0.0105, + "step": 89455 + }, + { + "epoch": 0.572544, + "grad_norm": 0.7721503376960754, + "learning_rate": 1.618304e-05, + "loss": 0.0325, + "step": 89460 + }, + { + "epoch": 0.572576, + "grad_norm": 0.2279253602027893, + "learning_rate": 1.6182826666666668e-05, + "loss": 0.0165, + "step": 89465 + }, + { + "epoch": 0.572608, + "grad_norm": 0.15488868951797485, + "learning_rate": 1.6182613333333335e-05, + "loss": 0.0103, + "step": 89470 + }, + { + "epoch": 0.57264, + "grad_norm": 0.18109318614006042, + "learning_rate": 1.61824e-05, + "loss": 0.014, + "step": 89475 + }, + { + "epoch": 0.572672, + "grad_norm": 0.05902629345655441, + "learning_rate": 1.6182186666666667e-05, + "loss": 0.0355, + "step": 89480 + }, + { + "epoch": 0.572704, + "grad_norm": 1.0793044567108154, + "learning_rate": 1.6181973333333335e-05, + "loss": 0.0191, + "step": 89485 + }, + { + "epoch": 0.572736, + "grad_norm": 0.6676493287086487, + "learning_rate": 1.6181760000000002e-05, + "loss": 0.0106, + "step": 89490 + }, + { + "epoch": 0.572768, + "grad_norm": 0.7627990245819092, + "learning_rate": 1.6181546666666666e-05, + "loss": 0.0297, + "step": 89495 + }, + { + "epoch": 0.5728, + "grad_norm": 1.1736021041870117, + "learning_rate": 1.6181333333333337e-05, + "loss": 0.0186, + "step": 89500 + }, + { + "epoch": 0.572832, + "grad_norm": 1.557096004486084, + "learning_rate": 1.618112e-05, + "loss": 0.0184, + "step": 89505 + }, + { + "epoch": 0.572864, + "grad_norm": 0.5267243385314941, + "learning_rate": 1.6180906666666666e-05, + "loss": 0.0308, + "step": 89510 + }, + { + "epoch": 0.572896, + "grad_norm": 0.6630822420120239, + "learning_rate": 1.6180693333333336e-05, + "loss": 0.0138, + "step": 89515 + }, + { + "epoch": 0.572928, + "grad_norm": 0.5043638348579407, + "learning_rate": 1.618048e-05, + "loss": 0.0168, + "step": 89520 + }, + { + "epoch": 0.57296, + "grad_norm": 1.0892378091812134, + "learning_rate": 1.6180266666666668e-05, + "loss": 0.0233, + "step": 89525 + }, + { + "epoch": 0.572992, + "grad_norm": 0.634360671043396, + "learning_rate": 1.6180053333333336e-05, + "loss": 0.0177, + "step": 89530 + }, + { + "epoch": 0.573024, + "grad_norm": 0.5941262245178223, + "learning_rate": 1.6179840000000003e-05, + "loss": 0.0108, + "step": 89535 + }, + { + "epoch": 0.573056, + "grad_norm": 0.8541527390480042, + "learning_rate": 1.6179626666666667e-05, + "loss": 0.0088, + "step": 89540 + }, + { + "epoch": 0.573088, + "grad_norm": 1.0505259037017822, + "learning_rate": 1.6179413333333335e-05, + "loss": 0.0204, + "step": 89545 + }, + { + "epoch": 0.57312, + "grad_norm": 0.2620733976364136, + "learning_rate": 1.6179200000000003e-05, + "loss": 0.0074, + "step": 89550 + }, + { + "epoch": 0.573152, + "grad_norm": 0.10012105852365494, + "learning_rate": 1.6178986666666667e-05, + "loss": 0.0291, + "step": 89555 + }, + { + "epoch": 0.573184, + "grad_norm": 0.12525483965873718, + "learning_rate": 1.6178773333333334e-05, + "loss": 0.0101, + "step": 89560 + }, + { + "epoch": 0.573216, + "grad_norm": 0.7105996012687683, + "learning_rate": 1.6178560000000002e-05, + "loss": 0.0228, + "step": 89565 + }, + { + "epoch": 0.573248, + "grad_norm": 0.5763883590698242, + "learning_rate": 1.617834666666667e-05, + "loss": 0.0105, + "step": 89570 + }, + { + "epoch": 0.57328, + "grad_norm": 1.3856223821640015, + "learning_rate": 1.6178133333333334e-05, + "loss": 0.0112, + "step": 89575 + }, + { + "epoch": 0.573312, + "grad_norm": 0.10717575997114182, + "learning_rate": 1.617792e-05, + "loss": 0.0186, + "step": 89580 + }, + { + "epoch": 0.573344, + "grad_norm": 0.943840503692627, + "learning_rate": 1.617770666666667e-05, + "loss": 0.0118, + "step": 89585 + }, + { + "epoch": 0.573376, + "grad_norm": 0.5392378568649292, + "learning_rate": 1.6177493333333333e-05, + "loss": 0.0272, + "step": 89590 + }, + { + "epoch": 0.573408, + "grad_norm": 0.4523215591907501, + "learning_rate": 1.617728e-05, + "loss": 0.0079, + "step": 89595 + }, + { + "epoch": 0.57344, + "grad_norm": 0.26667824387550354, + "learning_rate": 1.6177066666666668e-05, + "loss": 0.0064, + "step": 89600 + }, + { + "epoch": 0.573472, + "grad_norm": 0.5096449851989746, + "learning_rate": 1.6176853333333336e-05, + "loss": 0.0134, + "step": 89605 + }, + { + "epoch": 0.573504, + "grad_norm": 1.1318365335464478, + "learning_rate": 1.617664e-05, + "loss": 0.0461, + "step": 89610 + }, + { + "epoch": 0.573536, + "grad_norm": 0.4282465875148773, + "learning_rate": 1.6176426666666667e-05, + "loss": 0.0209, + "step": 89615 + }, + { + "epoch": 0.573568, + "grad_norm": 4.548612594604492, + "learning_rate": 1.6176213333333335e-05, + "loss": 0.0206, + "step": 89620 + }, + { + "epoch": 0.5736, + "grad_norm": 0.7402815818786621, + "learning_rate": 1.6176e-05, + "loss": 0.0297, + "step": 89625 + }, + { + "epoch": 0.573632, + "grad_norm": 2.105012893676758, + "learning_rate": 1.617578666666667e-05, + "loss": 0.0247, + "step": 89630 + }, + { + "epoch": 0.573664, + "grad_norm": 0.7572946548461914, + "learning_rate": 1.6175573333333334e-05, + "loss": 0.0196, + "step": 89635 + }, + { + "epoch": 0.573696, + "grad_norm": 0.6344521641731262, + "learning_rate": 1.617536e-05, + "loss": 0.0104, + "step": 89640 + }, + { + "epoch": 0.573728, + "grad_norm": 0.9950153231620789, + "learning_rate": 1.617514666666667e-05, + "loss": 0.0302, + "step": 89645 + }, + { + "epoch": 0.57376, + "grad_norm": 0.3140057623386383, + "learning_rate": 1.6174933333333333e-05, + "loss": 0.0086, + "step": 89650 + }, + { + "epoch": 0.573792, + "grad_norm": 0.02901841700077057, + "learning_rate": 1.617472e-05, + "loss": 0.0326, + "step": 89655 + }, + { + "epoch": 0.573824, + "grad_norm": 0.274481862783432, + "learning_rate": 1.617450666666667e-05, + "loss": 0.007, + "step": 89660 + }, + { + "epoch": 0.573856, + "grad_norm": 0.600754976272583, + "learning_rate": 1.6174293333333336e-05, + "loss": 0.0171, + "step": 89665 + }, + { + "epoch": 0.573888, + "grad_norm": 0.5012707710266113, + "learning_rate": 1.617408e-05, + "loss": 0.016, + "step": 89670 + }, + { + "epoch": 0.57392, + "grad_norm": 0.5606211423873901, + "learning_rate": 1.6173866666666668e-05, + "loss": 0.0131, + "step": 89675 + }, + { + "epoch": 0.573952, + "grad_norm": 1.5324019193649292, + "learning_rate": 1.6173653333333335e-05, + "loss": 0.0241, + "step": 89680 + }, + { + "epoch": 0.573984, + "grad_norm": 0.9667274951934814, + "learning_rate": 1.617344e-05, + "loss": 0.0234, + "step": 89685 + }, + { + "epoch": 0.574016, + "grad_norm": 0.6337529420852661, + "learning_rate": 1.6173226666666667e-05, + "loss": 0.0223, + "step": 89690 + }, + { + "epoch": 0.574048, + "grad_norm": 0.4860619902610779, + "learning_rate": 1.6173013333333335e-05, + "loss": 0.0185, + "step": 89695 + }, + { + "epoch": 0.57408, + "grad_norm": 0.6041051745414734, + "learning_rate": 1.6172800000000002e-05, + "loss": 0.0132, + "step": 89700 + }, + { + "epoch": 0.574112, + "grad_norm": 0.06315084546804428, + "learning_rate": 1.6172586666666666e-05, + "loss": 0.0095, + "step": 89705 + }, + { + "epoch": 0.574144, + "grad_norm": 0.528834342956543, + "learning_rate": 1.6172373333333334e-05, + "loss": 0.0161, + "step": 89710 + }, + { + "epoch": 0.574176, + "grad_norm": 0.8092013001441956, + "learning_rate": 1.617216e-05, + "loss": 0.0314, + "step": 89715 + }, + { + "epoch": 0.574208, + "grad_norm": 0.3260604739189148, + "learning_rate": 1.6171946666666666e-05, + "loss": 0.0078, + "step": 89720 + }, + { + "epoch": 0.57424, + "grad_norm": 0.5671939849853516, + "learning_rate": 1.6171733333333336e-05, + "loss": 0.0141, + "step": 89725 + }, + { + "epoch": 0.574272, + "grad_norm": 0.3293640613555908, + "learning_rate": 1.617152e-05, + "loss": 0.0089, + "step": 89730 + }, + { + "epoch": 0.574304, + "grad_norm": 1.3058537244796753, + "learning_rate": 1.6171306666666668e-05, + "loss": 0.0126, + "step": 89735 + }, + { + "epoch": 0.574336, + "grad_norm": 0.04393323138356209, + "learning_rate": 1.6171093333333336e-05, + "loss": 0.011, + "step": 89740 + }, + { + "epoch": 0.574368, + "grad_norm": 0.44496116042137146, + "learning_rate": 1.6170880000000003e-05, + "loss": 0.0099, + "step": 89745 + }, + { + "epoch": 0.5744, + "grad_norm": 2.2225871086120605, + "learning_rate": 1.6170666666666667e-05, + "loss": 0.0337, + "step": 89750 + }, + { + "epoch": 0.574432, + "grad_norm": 0.9333620071411133, + "learning_rate": 1.6170453333333335e-05, + "loss": 0.0258, + "step": 89755 + }, + { + "epoch": 0.574464, + "grad_norm": 0.6715536713600159, + "learning_rate": 1.6170240000000003e-05, + "loss": 0.0263, + "step": 89760 + }, + { + "epoch": 0.574496, + "grad_norm": 0.529898464679718, + "learning_rate": 1.6170026666666667e-05, + "loss": 0.0141, + "step": 89765 + }, + { + "epoch": 0.574528, + "grad_norm": 0.36902809143066406, + "learning_rate": 1.6169813333333334e-05, + "loss": 0.0241, + "step": 89770 + }, + { + "epoch": 0.57456, + "grad_norm": 0.38640275597572327, + "learning_rate": 1.6169600000000002e-05, + "loss": 0.012, + "step": 89775 + }, + { + "epoch": 0.574592, + "grad_norm": 0.19570469856262207, + "learning_rate": 1.616938666666667e-05, + "loss": 0.0111, + "step": 89780 + }, + { + "epoch": 0.574624, + "grad_norm": 0.6908960938453674, + "learning_rate": 1.6169173333333334e-05, + "loss": 0.0274, + "step": 89785 + }, + { + "epoch": 0.574656, + "grad_norm": 0.28469815850257874, + "learning_rate": 1.616896e-05, + "loss": 0.0079, + "step": 89790 + }, + { + "epoch": 0.574688, + "grad_norm": 0.668414294719696, + "learning_rate": 1.616874666666667e-05, + "loss": 0.0172, + "step": 89795 + }, + { + "epoch": 0.57472, + "grad_norm": 0.6986804008483887, + "learning_rate": 1.6168533333333333e-05, + "loss": 0.0254, + "step": 89800 + }, + { + "epoch": 0.574752, + "grad_norm": 0.7007860541343689, + "learning_rate": 1.616832e-05, + "loss": 0.0294, + "step": 89805 + }, + { + "epoch": 0.574784, + "grad_norm": 0.9067171216011047, + "learning_rate": 1.6168106666666668e-05, + "loss": 0.0152, + "step": 89810 + }, + { + "epoch": 0.574816, + "grad_norm": 0.6379391551017761, + "learning_rate": 1.6167893333333336e-05, + "loss": 0.0133, + "step": 89815 + }, + { + "epoch": 0.574848, + "grad_norm": 0.32785019278526306, + "learning_rate": 1.616768e-05, + "loss": 0.0161, + "step": 89820 + }, + { + "epoch": 0.57488, + "grad_norm": 2.0999248027801514, + "learning_rate": 1.616746666666667e-05, + "loss": 0.0105, + "step": 89825 + }, + { + "epoch": 0.574912, + "grad_norm": 0.9249013662338257, + "learning_rate": 1.6167253333333335e-05, + "loss": 0.0333, + "step": 89830 + }, + { + "epoch": 0.574944, + "grad_norm": 0.8660057783126831, + "learning_rate": 1.616704e-05, + "loss": 0.0223, + "step": 89835 + }, + { + "epoch": 0.574976, + "grad_norm": 0.22194766998291016, + "learning_rate": 1.616682666666667e-05, + "loss": 0.0082, + "step": 89840 + }, + { + "epoch": 0.575008, + "grad_norm": 0.5132027864456177, + "learning_rate": 1.6166613333333334e-05, + "loss": 0.0103, + "step": 89845 + }, + { + "epoch": 0.57504, + "grad_norm": 0.8960824608802795, + "learning_rate": 1.61664e-05, + "loss": 0.0103, + "step": 89850 + }, + { + "epoch": 0.575072, + "grad_norm": 1.0438106060028076, + "learning_rate": 1.616618666666667e-05, + "loss": 0.0162, + "step": 89855 + }, + { + "epoch": 0.575104, + "grad_norm": 0.4923435151576996, + "learning_rate": 1.6165973333333337e-05, + "loss": 0.0145, + "step": 89860 + }, + { + "epoch": 0.575136, + "grad_norm": 0.3919224739074707, + "learning_rate": 1.616576e-05, + "loss": 0.0094, + "step": 89865 + }, + { + "epoch": 0.575168, + "grad_norm": 0.2911421060562134, + "learning_rate": 1.616554666666667e-05, + "loss": 0.0129, + "step": 89870 + }, + { + "epoch": 0.5752, + "grad_norm": 0.7726278901100159, + "learning_rate": 1.6165333333333336e-05, + "loss": 0.0172, + "step": 89875 + }, + { + "epoch": 0.575232, + "grad_norm": 0.08680057525634766, + "learning_rate": 1.616512e-05, + "loss": 0.0118, + "step": 89880 + }, + { + "epoch": 0.575264, + "grad_norm": 0.43570348620414734, + "learning_rate": 1.6164906666666668e-05, + "loss": 0.0103, + "step": 89885 + }, + { + "epoch": 0.575296, + "grad_norm": 0.18129901587963104, + "learning_rate": 1.6164693333333335e-05, + "loss": 0.0268, + "step": 89890 + }, + { + "epoch": 0.575328, + "grad_norm": 0.8668360114097595, + "learning_rate": 1.6164480000000003e-05, + "loss": 0.021, + "step": 89895 + }, + { + "epoch": 0.57536, + "grad_norm": 0.6425719857215881, + "learning_rate": 1.6164266666666667e-05, + "loss": 0.0217, + "step": 89900 + }, + { + "epoch": 0.575392, + "grad_norm": 0.4235229790210724, + "learning_rate": 1.6164053333333335e-05, + "loss": 0.03, + "step": 89905 + }, + { + "epoch": 0.575424, + "grad_norm": 0.5849725604057312, + "learning_rate": 1.6163840000000002e-05, + "loss": 0.0154, + "step": 89910 + }, + { + "epoch": 0.575456, + "grad_norm": 0.0928349494934082, + "learning_rate": 1.6163626666666666e-05, + "loss": 0.0185, + "step": 89915 + }, + { + "epoch": 0.575488, + "grad_norm": 0.5696415305137634, + "learning_rate": 1.6163413333333334e-05, + "loss": 0.0128, + "step": 89920 + }, + { + "epoch": 0.57552, + "grad_norm": 0.26326069235801697, + "learning_rate": 1.61632e-05, + "loss": 0.0165, + "step": 89925 + }, + { + "epoch": 0.575552, + "grad_norm": 0.4061916768550873, + "learning_rate": 1.616298666666667e-05, + "loss": 0.0172, + "step": 89930 + }, + { + "epoch": 0.575584, + "grad_norm": 0.3407500088214874, + "learning_rate": 1.6162773333333333e-05, + "loss": 0.0217, + "step": 89935 + }, + { + "epoch": 0.575616, + "grad_norm": 0.17583277821540833, + "learning_rate": 1.616256e-05, + "loss": 0.0177, + "step": 89940 + }, + { + "epoch": 0.575648, + "grad_norm": 0.395546019077301, + "learning_rate": 1.6162346666666668e-05, + "loss": 0.0107, + "step": 89945 + }, + { + "epoch": 0.57568, + "grad_norm": 0.39265528321266174, + "learning_rate": 1.6162133333333336e-05, + "loss": 0.0158, + "step": 89950 + }, + { + "epoch": 0.575712, + "grad_norm": 1.1082097291946411, + "learning_rate": 1.6161920000000003e-05, + "loss": 0.0263, + "step": 89955 + }, + { + "epoch": 0.575744, + "grad_norm": 0.5430114269256592, + "learning_rate": 1.6161706666666667e-05, + "loss": 0.0564, + "step": 89960 + }, + { + "epoch": 0.575776, + "grad_norm": 0.5969249606132507, + "learning_rate": 1.6161493333333335e-05, + "loss": 0.0134, + "step": 89965 + }, + { + "epoch": 0.575808, + "grad_norm": 0.5518985390663147, + "learning_rate": 1.6161280000000003e-05, + "loss": 0.0178, + "step": 89970 + }, + { + "epoch": 0.57584, + "grad_norm": 0.9253455996513367, + "learning_rate": 1.6161066666666667e-05, + "loss": 0.0194, + "step": 89975 + }, + { + "epoch": 0.575872, + "grad_norm": 0.26771607995033264, + "learning_rate": 1.6160853333333334e-05, + "loss": 0.013, + "step": 89980 + }, + { + "epoch": 0.575904, + "grad_norm": 0.49469706416130066, + "learning_rate": 1.6160640000000002e-05, + "loss": 0.0265, + "step": 89985 + }, + { + "epoch": 0.575936, + "grad_norm": 0.1591106653213501, + "learning_rate": 1.616042666666667e-05, + "loss": 0.0133, + "step": 89990 + }, + { + "epoch": 0.575968, + "grad_norm": 0.5152984261512756, + "learning_rate": 1.6160213333333334e-05, + "loss": 0.0092, + "step": 89995 + }, + { + "epoch": 0.576, + "grad_norm": 0.29126566648483276, + "learning_rate": 1.616e-05, + "loss": 0.0131, + "step": 90000 + }, + { + "epoch": 0.576032, + "grad_norm": 0.11721522361040115, + "learning_rate": 1.615978666666667e-05, + "loss": 0.0095, + "step": 90005 + }, + { + "epoch": 0.576064, + "grad_norm": 0.8309969305992126, + "learning_rate": 1.6159573333333333e-05, + "loss": 0.0134, + "step": 90010 + }, + { + "epoch": 0.576096, + "grad_norm": 0.133908212184906, + "learning_rate": 1.615936e-05, + "loss": 0.0235, + "step": 90015 + }, + { + "epoch": 0.576128, + "grad_norm": 0.3663293123245239, + "learning_rate": 1.6159146666666668e-05, + "loss": 0.0311, + "step": 90020 + }, + { + "epoch": 0.57616, + "grad_norm": 0.72823166847229, + "learning_rate": 1.6158933333333336e-05, + "loss": 0.0082, + "step": 90025 + }, + { + "epoch": 0.576192, + "grad_norm": 1.1158111095428467, + "learning_rate": 1.615872e-05, + "loss": 0.0154, + "step": 90030 + }, + { + "epoch": 0.576224, + "grad_norm": 0.4281093180179596, + "learning_rate": 1.615850666666667e-05, + "loss": 0.0114, + "step": 90035 + }, + { + "epoch": 0.576256, + "grad_norm": 0.8370816707611084, + "learning_rate": 1.6158293333333335e-05, + "loss": 0.0231, + "step": 90040 + }, + { + "epoch": 0.576288, + "grad_norm": 0.7222098112106323, + "learning_rate": 1.615808e-05, + "loss": 0.0275, + "step": 90045 + }, + { + "epoch": 0.57632, + "grad_norm": 0.49077317118644714, + "learning_rate": 1.615786666666667e-05, + "loss": 0.0202, + "step": 90050 + }, + { + "epoch": 0.576352, + "grad_norm": 0.8428062200546265, + "learning_rate": 1.6157653333333334e-05, + "loss": 0.0119, + "step": 90055 + }, + { + "epoch": 0.576384, + "grad_norm": 0.3462981879711151, + "learning_rate": 1.615744e-05, + "loss": 0.0313, + "step": 90060 + }, + { + "epoch": 0.576416, + "grad_norm": 0.05550656467676163, + "learning_rate": 1.615722666666667e-05, + "loss": 0.0129, + "step": 90065 + }, + { + "epoch": 0.576448, + "grad_norm": 0.13644817471504211, + "learning_rate": 1.6157013333333337e-05, + "loss": 0.0069, + "step": 90070 + }, + { + "epoch": 0.57648, + "grad_norm": 2.447622060775757, + "learning_rate": 1.61568e-05, + "loss": 0.0213, + "step": 90075 + }, + { + "epoch": 0.576512, + "grad_norm": 0.8733986616134644, + "learning_rate": 1.615658666666667e-05, + "loss": 0.0222, + "step": 90080 + }, + { + "epoch": 0.576544, + "grad_norm": 0.3471902906894684, + "learning_rate": 1.6156373333333336e-05, + "loss": 0.0136, + "step": 90085 + }, + { + "epoch": 0.576576, + "grad_norm": 0.22994209825992584, + "learning_rate": 1.615616e-05, + "loss": 0.006, + "step": 90090 + }, + { + "epoch": 0.576608, + "grad_norm": 0.17389188706874847, + "learning_rate": 1.6155946666666668e-05, + "loss": 0.0097, + "step": 90095 + }, + { + "epoch": 0.57664, + "grad_norm": 1.0894185304641724, + "learning_rate": 1.6155733333333335e-05, + "loss": 0.0102, + "step": 90100 + }, + { + "epoch": 0.576672, + "grad_norm": 0.04564321041107178, + "learning_rate": 1.6155520000000003e-05, + "loss": 0.0187, + "step": 90105 + }, + { + "epoch": 0.576704, + "grad_norm": 0.5051161646842957, + "learning_rate": 1.6155306666666667e-05, + "loss": 0.0211, + "step": 90110 + }, + { + "epoch": 0.576736, + "grad_norm": 0.35202422738075256, + "learning_rate": 1.6155093333333335e-05, + "loss": 0.008, + "step": 90115 + }, + { + "epoch": 0.576768, + "grad_norm": 0.3738957345485687, + "learning_rate": 1.6154880000000002e-05, + "loss": 0.0191, + "step": 90120 + }, + { + "epoch": 0.5768, + "grad_norm": 0.4759942293167114, + "learning_rate": 1.6154666666666666e-05, + "loss": 0.0262, + "step": 90125 + }, + { + "epoch": 0.576832, + "grad_norm": 1.2508691549301147, + "learning_rate": 1.6154453333333334e-05, + "loss": 0.0221, + "step": 90130 + }, + { + "epoch": 0.576864, + "grad_norm": 1.7131479978561401, + "learning_rate": 1.615424e-05, + "loss": 0.0419, + "step": 90135 + }, + { + "epoch": 0.576896, + "grad_norm": 0.7059473395347595, + "learning_rate": 1.615402666666667e-05, + "loss": 0.0174, + "step": 90140 + }, + { + "epoch": 0.576928, + "grad_norm": 0.2176709771156311, + "learning_rate": 1.6153813333333333e-05, + "loss": 0.0126, + "step": 90145 + }, + { + "epoch": 0.57696, + "grad_norm": 0.6383565664291382, + "learning_rate": 1.61536e-05, + "loss": 0.0135, + "step": 90150 + }, + { + "epoch": 0.576992, + "grad_norm": 0.5476018190383911, + "learning_rate": 1.6153386666666668e-05, + "loss": 0.0262, + "step": 90155 + }, + { + "epoch": 0.577024, + "grad_norm": 0.7666431665420532, + "learning_rate": 1.6153173333333332e-05, + "loss": 0.0132, + "step": 90160 + }, + { + "epoch": 0.577056, + "grad_norm": 0.23294726014137268, + "learning_rate": 1.6152960000000003e-05, + "loss": 0.0141, + "step": 90165 + }, + { + "epoch": 0.577088, + "grad_norm": 0.3467355966567993, + "learning_rate": 1.6152746666666667e-05, + "loss": 0.0087, + "step": 90170 + }, + { + "epoch": 0.57712, + "grad_norm": 0.31875208020210266, + "learning_rate": 1.6152533333333335e-05, + "loss": 0.0218, + "step": 90175 + }, + { + "epoch": 0.577152, + "grad_norm": 0.19030418992042542, + "learning_rate": 1.6152320000000003e-05, + "loss": 0.0036, + "step": 90180 + }, + { + "epoch": 0.577184, + "grad_norm": 2.7612524032592773, + "learning_rate": 1.6152106666666667e-05, + "loss": 0.0257, + "step": 90185 + }, + { + "epoch": 0.577216, + "grad_norm": 0.3614796996116638, + "learning_rate": 1.6151893333333334e-05, + "loss": 0.0083, + "step": 90190 + }, + { + "epoch": 0.577248, + "grad_norm": 0.9183721542358398, + "learning_rate": 1.6151680000000002e-05, + "loss": 0.0125, + "step": 90195 + }, + { + "epoch": 0.57728, + "grad_norm": 0.5031559467315674, + "learning_rate": 1.615146666666667e-05, + "loss": 0.0299, + "step": 90200 + }, + { + "epoch": 0.577312, + "grad_norm": 0.43021076917648315, + "learning_rate": 1.6151253333333334e-05, + "loss": 0.0093, + "step": 90205 + }, + { + "epoch": 0.577344, + "grad_norm": 1.6324760913848877, + "learning_rate": 1.615104e-05, + "loss": 0.0169, + "step": 90210 + }, + { + "epoch": 0.577376, + "grad_norm": 0.1700911819934845, + "learning_rate": 1.615082666666667e-05, + "loss": 0.0201, + "step": 90215 + }, + { + "epoch": 0.577408, + "grad_norm": 0.3601609170436859, + "learning_rate": 1.6150613333333333e-05, + "loss": 0.0128, + "step": 90220 + }, + { + "epoch": 0.57744, + "grad_norm": 0.3224108815193176, + "learning_rate": 1.61504e-05, + "loss": 0.0153, + "step": 90225 + }, + { + "epoch": 0.577472, + "grad_norm": 0.24861888587474823, + "learning_rate": 1.6150186666666668e-05, + "loss": 0.0897, + "step": 90230 + }, + { + "epoch": 0.577504, + "grad_norm": 0.5551006197929382, + "learning_rate": 1.6149973333333336e-05, + "loss": 0.0269, + "step": 90235 + }, + { + "epoch": 0.577536, + "grad_norm": 0.4642678201198578, + "learning_rate": 1.614976e-05, + "loss": 0.0156, + "step": 90240 + }, + { + "epoch": 0.577568, + "grad_norm": 0.4478149712085724, + "learning_rate": 1.6149546666666667e-05, + "loss": 0.0187, + "step": 90245 + }, + { + "epoch": 0.5776, + "grad_norm": 0.543628454208374, + "learning_rate": 1.6149333333333335e-05, + "loss": 0.0128, + "step": 90250 + }, + { + "epoch": 0.577632, + "grad_norm": 0.8883463144302368, + "learning_rate": 1.614912e-05, + "loss": 0.0211, + "step": 90255 + }, + { + "epoch": 0.577664, + "grad_norm": 0.42798909544944763, + "learning_rate": 1.614890666666667e-05, + "loss": 0.0225, + "step": 90260 + }, + { + "epoch": 0.577696, + "grad_norm": 0.23539993166923523, + "learning_rate": 1.6148693333333334e-05, + "loss": 0.013, + "step": 90265 + }, + { + "epoch": 0.577728, + "grad_norm": 0.42552512884140015, + "learning_rate": 1.614848e-05, + "loss": 0.0151, + "step": 90270 + }, + { + "epoch": 0.57776, + "grad_norm": 14.872379302978516, + "learning_rate": 1.614826666666667e-05, + "loss": 0.0239, + "step": 90275 + }, + { + "epoch": 0.577792, + "grad_norm": 1.2850173711776733, + "learning_rate": 1.6148053333333337e-05, + "loss": 0.0118, + "step": 90280 + }, + { + "epoch": 0.577824, + "grad_norm": 0.846804141998291, + "learning_rate": 1.614784e-05, + "loss": 0.0224, + "step": 90285 + }, + { + "epoch": 0.577856, + "grad_norm": 2.2605056762695312, + "learning_rate": 1.614762666666667e-05, + "loss": 0.0307, + "step": 90290 + }, + { + "epoch": 0.577888, + "grad_norm": 1.6614103317260742, + "learning_rate": 1.6147413333333336e-05, + "loss": 0.0664, + "step": 90295 + }, + { + "epoch": 0.57792, + "grad_norm": 1.0223177671432495, + "learning_rate": 1.61472e-05, + "loss": 0.0135, + "step": 90300 + }, + { + "epoch": 0.577952, + "grad_norm": 0.19030846655368805, + "learning_rate": 1.6146986666666668e-05, + "loss": 0.0196, + "step": 90305 + }, + { + "epoch": 0.577984, + "grad_norm": 0.33457911014556885, + "learning_rate": 1.6146773333333335e-05, + "loss": 0.0189, + "step": 90310 + }, + { + "epoch": 0.578016, + "grad_norm": 1.0744203329086304, + "learning_rate": 1.6146560000000003e-05, + "loss": 0.0619, + "step": 90315 + }, + { + "epoch": 0.578048, + "grad_norm": 0.3215830326080322, + "learning_rate": 1.6146346666666667e-05, + "loss": 0.0296, + "step": 90320 + }, + { + "epoch": 0.57808, + "grad_norm": 0.7331669926643372, + "learning_rate": 1.6146133333333335e-05, + "loss": 0.0065, + "step": 90325 + }, + { + "epoch": 0.578112, + "grad_norm": 0.41680940985679626, + "learning_rate": 1.6145920000000002e-05, + "loss": 0.0136, + "step": 90330 + }, + { + "epoch": 0.578144, + "grad_norm": 0.3051656484603882, + "learning_rate": 1.6145706666666666e-05, + "loss": 0.0111, + "step": 90335 + }, + { + "epoch": 0.578176, + "grad_norm": 0.7055026888847351, + "learning_rate": 1.6145493333333334e-05, + "loss": 0.0173, + "step": 90340 + }, + { + "epoch": 0.578208, + "grad_norm": 0.8277003169059753, + "learning_rate": 1.614528e-05, + "loss": 0.0219, + "step": 90345 + }, + { + "epoch": 0.57824, + "grad_norm": 0.11902628093957901, + "learning_rate": 1.614506666666667e-05, + "loss": 0.0222, + "step": 90350 + }, + { + "epoch": 0.578272, + "grad_norm": 2.929056167602539, + "learning_rate": 1.6144853333333333e-05, + "loss": 0.0204, + "step": 90355 + }, + { + "epoch": 0.578304, + "grad_norm": 0.6020559668540955, + "learning_rate": 1.614464e-05, + "loss": 0.0205, + "step": 90360 + }, + { + "epoch": 0.578336, + "grad_norm": 0.23602111637592316, + "learning_rate": 1.6144426666666668e-05, + "loss": 0.0233, + "step": 90365 + }, + { + "epoch": 0.578368, + "grad_norm": 0.783374547958374, + "learning_rate": 1.6144213333333332e-05, + "loss": 0.0314, + "step": 90370 + }, + { + "epoch": 0.5784, + "grad_norm": 0.3605482578277588, + "learning_rate": 1.6144000000000003e-05, + "loss": 0.0167, + "step": 90375 + }, + { + "epoch": 0.578432, + "grad_norm": 0.38340651988983154, + "learning_rate": 1.6143786666666667e-05, + "loss": 0.008, + "step": 90380 + }, + { + "epoch": 0.578464, + "grad_norm": 0.09837237745523453, + "learning_rate": 1.6143573333333335e-05, + "loss": 0.0123, + "step": 90385 + }, + { + "epoch": 0.578496, + "grad_norm": 0.8097020983695984, + "learning_rate": 1.6143360000000003e-05, + "loss": 0.0191, + "step": 90390 + }, + { + "epoch": 0.578528, + "grad_norm": 1.8549134731292725, + "learning_rate": 1.6143146666666667e-05, + "loss": 0.0267, + "step": 90395 + }, + { + "epoch": 0.57856, + "grad_norm": 0.10014844685792923, + "learning_rate": 1.6142933333333334e-05, + "loss": 0.0102, + "step": 90400 + }, + { + "epoch": 0.578592, + "grad_norm": 0.25059929490089417, + "learning_rate": 1.6142720000000002e-05, + "loss": 0.0106, + "step": 90405 + }, + { + "epoch": 0.578624, + "grad_norm": 0.8287845849990845, + "learning_rate": 1.614250666666667e-05, + "loss": 0.019, + "step": 90410 + }, + { + "epoch": 0.578656, + "grad_norm": 0.12281305342912674, + "learning_rate": 1.6142293333333334e-05, + "loss": 0.0211, + "step": 90415 + }, + { + "epoch": 0.578688, + "grad_norm": 0.9982243180274963, + "learning_rate": 1.614208e-05, + "loss": 0.0156, + "step": 90420 + }, + { + "epoch": 0.57872, + "grad_norm": 1.4109879732131958, + "learning_rate": 1.614186666666667e-05, + "loss": 0.0136, + "step": 90425 + }, + { + "epoch": 0.578752, + "grad_norm": 0.33671727776527405, + "learning_rate": 1.6141653333333333e-05, + "loss": 0.0064, + "step": 90430 + }, + { + "epoch": 0.578784, + "grad_norm": 0.4810898005962372, + "learning_rate": 1.614144e-05, + "loss": 0.0135, + "step": 90435 + }, + { + "epoch": 0.578816, + "grad_norm": 0.8464449644088745, + "learning_rate": 1.6141226666666668e-05, + "loss": 0.0149, + "step": 90440 + }, + { + "epoch": 0.578848, + "grad_norm": 0.15604160726070404, + "learning_rate": 1.6141013333333336e-05, + "loss": 0.0134, + "step": 90445 + }, + { + "epoch": 0.57888, + "grad_norm": 1.0308998823165894, + "learning_rate": 1.61408e-05, + "loss": 0.0395, + "step": 90450 + }, + { + "epoch": 0.578912, + "grad_norm": 1.677384376525879, + "learning_rate": 1.6140586666666667e-05, + "loss": 0.0052, + "step": 90455 + }, + { + "epoch": 0.578944, + "grad_norm": 0.3736764192581177, + "learning_rate": 1.6140373333333335e-05, + "loss": 0.0076, + "step": 90460 + }, + { + "epoch": 0.578976, + "grad_norm": 0.9738271832466125, + "learning_rate": 1.614016e-05, + "loss": 0.0136, + "step": 90465 + }, + { + "epoch": 0.579008, + "grad_norm": 2.336174488067627, + "learning_rate": 1.6139946666666667e-05, + "loss": 0.0285, + "step": 90470 + }, + { + "epoch": 0.57904, + "grad_norm": 0.9092585444450378, + "learning_rate": 1.6139733333333334e-05, + "loss": 0.0296, + "step": 90475 + }, + { + "epoch": 0.579072, + "grad_norm": 0.47416046261787415, + "learning_rate": 1.613952e-05, + "loss": 0.0206, + "step": 90480 + }, + { + "epoch": 0.579104, + "grad_norm": 0.9603009819984436, + "learning_rate": 1.613930666666667e-05, + "loss": 0.0086, + "step": 90485 + }, + { + "epoch": 0.579136, + "grad_norm": 0.3173297941684723, + "learning_rate": 1.6139093333333337e-05, + "loss": 0.0122, + "step": 90490 + }, + { + "epoch": 0.579168, + "grad_norm": 1.2779581546783447, + "learning_rate": 1.613888e-05, + "loss": 0.0209, + "step": 90495 + }, + { + "epoch": 0.5792, + "grad_norm": 1.1229466199874878, + "learning_rate": 1.613866666666667e-05, + "loss": 0.0413, + "step": 90500 + }, + { + "epoch": 0.579232, + "grad_norm": 0.5137180685997009, + "learning_rate": 1.6138453333333336e-05, + "loss": 0.0092, + "step": 90505 + }, + { + "epoch": 0.579264, + "grad_norm": 0.24877962470054626, + "learning_rate": 1.613824e-05, + "loss": 0.0187, + "step": 90510 + }, + { + "epoch": 0.579296, + "grad_norm": 0.07178375124931335, + "learning_rate": 1.6138026666666668e-05, + "loss": 0.0208, + "step": 90515 + }, + { + "epoch": 0.579328, + "grad_norm": 0.723197877407074, + "learning_rate": 1.6137813333333335e-05, + "loss": 0.0141, + "step": 90520 + }, + { + "epoch": 0.57936, + "grad_norm": 0.5785256624221802, + "learning_rate": 1.6137600000000003e-05, + "loss": 0.0131, + "step": 90525 + }, + { + "epoch": 0.579392, + "grad_norm": 1.081925868988037, + "learning_rate": 1.6137386666666667e-05, + "loss": 0.0503, + "step": 90530 + }, + { + "epoch": 0.579424, + "grad_norm": 0.08593697100877762, + "learning_rate": 1.6137173333333335e-05, + "loss": 0.0104, + "step": 90535 + }, + { + "epoch": 0.579456, + "grad_norm": 0.3161851465702057, + "learning_rate": 1.6136960000000002e-05, + "loss": 0.0071, + "step": 90540 + }, + { + "epoch": 0.579488, + "grad_norm": 0.1878940761089325, + "learning_rate": 1.6136746666666666e-05, + "loss": 0.0149, + "step": 90545 + }, + { + "epoch": 0.57952, + "grad_norm": 0.17596237361431122, + "learning_rate": 1.6136533333333334e-05, + "loss": 0.0102, + "step": 90550 + }, + { + "epoch": 0.579552, + "grad_norm": 0.2088238149881363, + "learning_rate": 1.613632e-05, + "loss": 0.0156, + "step": 90555 + }, + { + "epoch": 0.579584, + "grad_norm": 0.14169453084468842, + "learning_rate": 1.613610666666667e-05, + "loss": 0.011, + "step": 90560 + }, + { + "epoch": 0.579616, + "grad_norm": 0.4099261462688446, + "learning_rate": 1.6135893333333333e-05, + "loss": 0.0166, + "step": 90565 + }, + { + "epoch": 0.579648, + "grad_norm": 0.6159945726394653, + "learning_rate": 1.613568e-05, + "loss": 0.0191, + "step": 90570 + }, + { + "epoch": 0.57968, + "grad_norm": 0.1874106377363205, + "learning_rate": 1.6135466666666668e-05, + "loss": 0.0265, + "step": 90575 + }, + { + "epoch": 0.579712, + "grad_norm": 1.3643699884414673, + "learning_rate": 1.6135253333333332e-05, + "loss": 0.0138, + "step": 90580 + }, + { + "epoch": 0.579744, + "grad_norm": 1.1053787469863892, + "learning_rate": 1.6135040000000003e-05, + "loss": 0.0376, + "step": 90585 + }, + { + "epoch": 0.579776, + "grad_norm": 0.24929103255271912, + "learning_rate": 1.6134826666666667e-05, + "loss": 0.0274, + "step": 90590 + }, + { + "epoch": 0.579808, + "grad_norm": 0.7039598226547241, + "learning_rate": 1.6134613333333335e-05, + "loss": 0.0093, + "step": 90595 + }, + { + "epoch": 0.57984, + "grad_norm": 0.26719075441360474, + "learning_rate": 1.6134400000000003e-05, + "loss": 0.0064, + "step": 90600 + }, + { + "epoch": 0.579872, + "grad_norm": 0.3053065240383148, + "learning_rate": 1.6134186666666667e-05, + "loss": 0.0195, + "step": 90605 + }, + { + "epoch": 0.579904, + "grad_norm": 1.1906852722167969, + "learning_rate": 1.6133973333333334e-05, + "loss": 0.0153, + "step": 90610 + }, + { + "epoch": 0.579936, + "grad_norm": 0.1997232586145401, + "learning_rate": 1.6133760000000002e-05, + "loss": 0.0125, + "step": 90615 + }, + { + "epoch": 0.579968, + "grad_norm": 0.7579809427261353, + "learning_rate": 1.613354666666667e-05, + "loss": 0.0136, + "step": 90620 + }, + { + "epoch": 0.58, + "grad_norm": 0.315801203250885, + "learning_rate": 1.6133333333333334e-05, + "loss": 0.0412, + "step": 90625 + }, + { + "epoch": 0.580032, + "grad_norm": 0.35533562302589417, + "learning_rate": 1.613312e-05, + "loss": 0.0093, + "step": 90630 + }, + { + "epoch": 0.580064, + "grad_norm": 0.0732002928853035, + "learning_rate": 1.613290666666667e-05, + "loss": 0.0075, + "step": 90635 + }, + { + "epoch": 0.580096, + "grad_norm": 0.8594253659248352, + "learning_rate": 1.6132693333333336e-05, + "loss": 0.0156, + "step": 90640 + }, + { + "epoch": 0.580128, + "grad_norm": 0.8016524910926819, + "learning_rate": 1.613248e-05, + "loss": 0.0284, + "step": 90645 + }, + { + "epoch": 0.58016, + "grad_norm": 0.33090922236442566, + "learning_rate": 1.6132266666666668e-05, + "loss": 0.0096, + "step": 90650 + }, + { + "epoch": 0.580192, + "grad_norm": 0.16816692054271698, + "learning_rate": 1.6132053333333336e-05, + "loss": 0.0141, + "step": 90655 + }, + { + "epoch": 0.580224, + "grad_norm": 0.08463283628225327, + "learning_rate": 1.613184e-05, + "loss": 0.0248, + "step": 90660 + }, + { + "epoch": 0.580256, + "grad_norm": 0.40367254614830017, + "learning_rate": 1.6131626666666667e-05, + "loss": 0.023, + "step": 90665 + }, + { + "epoch": 0.580288, + "grad_norm": 0.0912747010588646, + "learning_rate": 1.6131413333333335e-05, + "loss": 0.0127, + "step": 90670 + }, + { + "epoch": 0.58032, + "grad_norm": 0.42938390374183655, + "learning_rate": 1.6131200000000002e-05, + "loss": 0.0169, + "step": 90675 + }, + { + "epoch": 0.580352, + "grad_norm": 0.19409221410751343, + "learning_rate": 1.6130986666666667e-05, + "loss": 0.0353, + "step": 90680 + }, + { + "epoch": 0.580384, + "grad_norm": 0.3592299222946167, + "learning_rate": 1.6130773333333334e-05, + "loss": 0.015, + "step": 90685 + }, + { + "epoch": 0.580416, + "grad_norm": 0.3340003788471222, + "learning_rate": 1.613056e-05, + "loss": 0.0144, + "step": 90690 + }, + { + "epoch": 0.580448, + "grad_norm": 0.6770392656326294, + "learning_rate": 1.6130346666666666e-05, + "loss": 0.026, + "step": 90695 + }, + { + "epoch": 0.58048, + "grad_norm": 0.22289110720157623, + "learning_rate": 1.6130133333333337e-05, + "loss": 0.0104, + "step": 90700 + }, + { + "epoch": 0.580512, + "grad_norm": 1.1644811630249023, + "learning_rate": 1.612992e-05, + "loss": 0.0422, + "step": 90705 + }, + { + "epoch": 0.580544, + "grad_norm": 0.8042818307876587, + "learning_rate": 1.612970666666667e-05, + "loss": 0.0157, + "step": 90710 + }, + { + "epoch": 0.580576, + "grad_norm": 1.579045295715332, + "learning_rate": 1.6129493333333336e-05, + "loss": 0.0185, + "step": 90715 + }, + { + "epoch": 0.580608, + "grad_norm": 0.47172489762306213, + "learning_rate": 1.612928e-05, + "loss": 0.0075, + "step": 90720 + }, + { + "epoch": 0.58064, + "grad_norm": 0.7325344085693359, + "learning_rate": 1.6129066666666668e-05, + "loss": 0.0176, + "step": 90725 + }, + { + "epoch": 0.580672, + "grad_norm": 0.7975472807884216, + "learning_rate": 1.6128853333333335e-05, + "loss": 0.0126, + "step": 90730 + }, + { + "epoch": 0.580704, + "grad_norm": 0.6724101901054382, + "learning_rate": 1.6128640000000003e-05, + "loss": 0.0163, + "step": 90735 + }, + { + "epoch": 0.580736, + "grad_norm": 0.5469779372215271, + "learning_rate": 1.6128426666666667e-05, + "loss": 0.0157, + "step": 90740 + }, + { + "epoch": 0.580768, + "grad_norm": 0.30381518602371216, + "learning_rate": 1.6128213333333335e-05, + "loss": 0.0211, + "step": 90745 + }, + { + "epoch": 0.5808, + "grad_norm": 0.29515036940574646, + "learning_rate": 1.6128000000000002e-05, + "loss": 0.0087, + "step": 90750 + }, + { + "epoch": 0.580832, + "grad_norm": 0.13567638397216797, + "learning_rate": 1.6127786666666666e-05, + "loss": 0.0168, + "step": 90755 + }, + { + "epoch": 0.580864, + "grad_norm": 1.022175908088684, + "learning_rate": 1.6127573333333334e-05, + "loss": 0.0142, + "step": 90760 + }, + { + "epoch": 0.580896, + "grad_norm": 0.4876977503299713, + "learning_rate": 1.612736e-05, + "loss": 0.0181, + "step": 90765 + }, + { + "epoch": 0.580928, + "grad_norm": 0.6577277779579163, + "learning_rate": 1.612714666666667e-05, + "loss": 0.0307, + "step": 90770 + }, + { + "epoch": 0.58096, + "grad_norm": 0.08703210204839706, + "learning_rate": 1.6126933333333333e-05, + "loss": 0.0312, + "step": 90775 + }, + { + "epoch": 0.580992, + "grad_norm": 0.3346876800060272, + "learning_rate": 1.6126720000000004e-05, + "loss": 0.0121, + "step": 90780 + }, + { + "epoch": 0.581024, + "grad_norm": 0.22543127834796906, + "learning_rate": 1.6126506666666668e-05, + "loss": 0.0126, + "step": 90785 + }, + { + "epoch": 0.581056, + "grad_norm": 0.9044647216796875, + "learning_rate": 1.6126293333333332e-05, + "loss": 0.016, + "step": 90790 + }, + { + "epoch": 0.581088, + "grad_norm": 0.4062177240848541, + "learning_rate": 1.6126080000000003e-05, + "loss": 0.0252, + "step": 90795 + }, + { + "epoch": 0.58112, + "grad_norm": 0.558158278465271, + "learning_rate": 1.6125866666666667e-05, + "loss": 0.0133, + "step": 90800 + }, + { + "epoch": 0.581152, + "grad_norm": 0.6235583424568176, + "learning_rate": 1.6125653333333335e-05, + "loss": 0.0115, + "step": 90805 + }, + { + "epoch": 0.581184, + "grad_norm": 0.11701429635286331, + "learning_rate": 1.6125440000000003e-05, + "loss": 0.018, + "step": 90810 + }, + { + "epoch": 0.581216, + "grad_norm": 0.6545358300209045, + "learning_rate": 1.612522666666667e-05, + "loss": 0.0071, + "step": 90815 + }, + { + "epoch": 0.581248, + "grad_norm": 0.2535572648048401, + "learning_rate": 1.6125013333333334e-05, + "loss": 0.0102, + "step": 90820 + }, + { + "epoch": 0.58128, + "grad_norm": 0.9570872187614441, + "learning_rate": 1.6124800000000002e-05, + "loss": 0.024, + "step": 90825 + }, + { + "epoch": 0.581312, + "grad_norm": 0.8475958704948425, + "learning_rate": 1.612458666666667e-05, + "loss": 0.0158, + "step": 90830 + }, + { + "epoch": 0.581344, + "grad_norm": 0.6836190819740295, + "learning_rate": 1.6124373333333334e-05, + "loss": 0.0221, + "step": 90835 + }, + { + "epoch": 0.581376, + "grad_norm": 0.672243595123291, + "learning_rate": 1.612416e-05, + "loss": 0.02, + "step": 90840 + }, + { + "epoch": 0.581408, + "grad_norm": 0.26358598470687866, + "learning_rate": 1.612394666666667e-05, + "loss": 0.0076, + "step": 90845 + }, + { + "epoch": 0.58144, + "grad_norm": 0.05049709975719452, + "learning_rate": 1.6123733333333336e-05, + "loss": 0.0134, + "step": 90850 + }, + { + "epoch": 0.581472, + "grad_norm": 0.691632091999054, + "learning_rate": 1.612352e-05, + "loss": 0.0258, + "step": 90855 + }, + { + "epoch": 0.581504, + "grad_norm": 0.4620405435562134, + "learning_rate": 1.6123306666666668e-05, + "loss": 0.0204, + "step": 90860 + }, + { + "epoch": 0.581536, + "grad_norm": 0.32126539945602417, + "learning_rate": 1.6123093333333336e-05, + "loss": 0.0377, + "step": 90865 + }, + { + "epoch": 0.581568, + "grad_norm": 0.6405621767044067, + "learning_rate": 1.612288e-05, + "loss": 0.0097, + "step": 90870 + }, + { + "epoch": 0.5816, + "grad_norm": 0.4339771866798401, + "learning_rate": 1.6122666666666667e-05, + "loss": 0.0106, + "step": 90875 + }, + { + "epoch": 0.581632, + "grad_norm": 0.6985936164855957, + "learning_rate": 1.6122453333333335e-05, + "loss": 0.017, + "step": 90880 + }, + { + "epoch": 0.581664, + "grad_norm": 0.7466912269592285, + "learning_rate": 1.6122240000000002e-05, + "loss": 0.0149, + "step": 90885 + }, + { + "epoch": 0.581696, + "grad_norm": 1.688528060913086, + "learning_rate": 1.6122026666666667e-05, + "loss": 0.0254, + "step": 90890 + }, + { + "epoch": 0.581728, + "grad_norm": 0.34412670135498047, + "learning_rate": 1.6121813333333334e-05, + "loss": 0.0087, + "step": 90895 + }, + { + "epoch": 0.58176, + "grad_norm": 0.4534626007080078, + "learning_rate": 1.61216e-05, + "loss": 0.0123, + "step": 90900 + }, + { + "epoch": 0.581792, + "grad_norm": 0.3986709415912628, + "learning_rate": 1.6121386666666666e-05, + "loss": 0.0093, + "step": 90905 + }, + { + "epoch": 0.581824, + "grad_norm": 0.1874171644449234, + "learning_rate": 1.6121173333333337e-05, + "loss": 0.0077, + "step": 90910 + }, + { + "epoch": 0.581856, + "grad_norm": 0.6122398972511292, + "learning_rate": 1.612096e-05, + "loss": 0.026, + "step": 90915 + }, + { + "epoch": 0.581888, + "grad_norm": 0.4732834994792938, + "learning_rate": 1.612074666666667e-05, + "loss": 0.011, + "step": 90920 + }, + { + "epoch": 0.58192, + "grad_norm": 1.0349023342132568, + "learning_rate": 1.6120533333333336e-05, + "loss": 0.0121, + "step": 90925 + }, + { + "epoch": 0.581952, + "grad_norm": 0.7654078602790833, + "learning_rate": 1.612032e-05, + "loss": 0.0223, + "step": 90930 + }, + { + "epoch": 0.581984, + "grad_norm": 0.3674657940864563, + "learning_rate": 1.6120106666666668e-05, + "loss": 0.014, + "step": 90935 + }, + { + "epoch": 0.582016, + "grad_norm": 1.1944386959075928, + "learning_rate": 1.6119893333333335e-05, + "loss": 0.0128, + "step": 90940 + }, + { + "epoch": 0.582048, + "grad_norm": 0.8328696489334106, + "learning_rate": 1.6119680000000003e-05, + "loss": 0.0323, + "step": 90945 + }, + { + "epoch": 0.58208, + "grad_norm": 0.30321887135505676, + "learning_rate": 1.6119466666666667e-05, + "loss": 0.0188, + "step": 90950 + }, + { + "epoch": 0.582112, + "grad_norm": 0.7826409935951233, + "learning_rate": 1.6119253333333335e-05, + "loss": 0.0229, + "step": 90955 + }, + { + "epoch": 0.582144, + "grad_norm": 1.0423215627670288, + "learning_rate": 1.6119040000000002e-05, + "loss": 0.0175, + "step": 90960 + }, + { + "epoch": 0.582176, + "grad_norm": 0.534252405166626, + "learning_rate": 1.6118826666666666e-05, + "loss": 0.0161, + "step": 90965 + }, + { + "epoch": 0.582208, + "grad_norm": 0.030995365232229233, + "learning_rate": 1.6118613333333334e-05, + "loss": 0.0097, + "step": 90970 + }, + { + "epoch": 0.58224, + "grad_norm": 2.877462148666382, + "learning_rate": 1.61184e-05, + "loss": 0.0339, + "step": 90975 + }, + { + "epoch": 0.582272, + "grad_norm": 1.0920758247375488, + "learning_rate": 1.611818666666667e-05, + "loss": 0.0285, + "step": 90980 + }, + { + "epoch": 0.582304, + "grad_norm": 0.44763487577438354, + "learning_rate": 1.6117973333333333e-05, + "loss": 0.0168, + "step": 90985 + }, + { + "epoch": 0.582336, + "grad_norm": 0.25745779275894165, + "learning_rate": 1.611776e-05, + "loss": 0.012, + "step": 90990 + }, + { + "epoch": 0.582368, + "grad_norm": 0.6330803632736206, + "learning_rate": 1.6117546666666668e-05, + "loss": 0.0227, + "step": 90995 + }, + { + "epoch": 0.5824, + "grad_norm": 1.536742091178894, + "learning_rate": 1.6117333333333332e-05, + "loss": 0.0182, + "step": 91000 + }, + { + "epoch": 0.582432, + "grad_norm": 0.19369027018547058, + "learning_rate": 1.6117120000000003e-05, + "loss": 0.0161, + "step": 91005 + }, + { + "epoch": 0.582464, + "grad_norm": 0.3177053928375244, + "learning_rate": 1.6116906666666667e-05, + "loss": 0.0077, + "step": 91010 + }, + { + "epoch": 0.582496, + "grad_norm": 0.43569639325141907, + "learning_rate": 1.6116693333333335e-05, + "loss": 0.0102, + "step": 91015 + }, + { + "epoch": 0.582528, + "grad_norm": 0.8468717932701111, + "learning_rate": 1.6116480000000003e-05, + "loss": 0.015, + "step": 91020 + }, + { + "epoch": 0.58256, + "grad_norm": 0.09626638144254684, + "learning_rate": 1.611626666666667e-05, + "loss": 0.0068, + "step": 91025 + }, + { + "epoch": 0.582592, + "grad_norm": 0.3929241895675659, + "learning_rate": 1.6116053333333334e-05, + "loss": 0.0253, + "step": 91030 + }, + { + "epoch": 0.582624, + "grad_norm": 0.11736781150102615, + "learning_rate": 1.6115840000000002e-05, + "loss": 0.0211, + "step": 91035 + }, + { + "epoch": 0.582656, + "grad_norm": 1.541733980178833, + "learning_rate": 1.611562666666667e-05, + "loss": 0.0407, + "step": 91040 + }, + { + "epoch": 0.582688, + "grad_norm": 0.5361217856407166, + "learning_rate": 1.6115413333333334e-05, + "loss": 0.0271, + "step": 91045 + }, + { + "epoch": 0.58272, + "grad_norm": 0.649023175239563, + "learning_rate": 1.61152e-05, + "loss": 0.0167, + "step": 91050 + }, + { + "epoch": 0.582752, + "grad_norm": 0.9453520178794861, + "learning_rate": 1.611498666666667e-05, + "loss": 0.0394, + "step": 91055 + }, + { + "epoch": 0.582784, + "grad_norm": 0.6283522248268127, + "learning_rate": 1.6114773333333336e-05, + "loss": 0.0211, + "step": 91060 + }, + { + "epoch": 0.582816, + "grad_norm": 0.5714288949966431, + "learning_rate": 1.611456e-05, + "loss": 0.0156, + "step": 91065 + }, + { + "epoch": 0.582848, + "grad_norm": 1.1956714391708374, + "learning_rate": 1.6114346666666668e-05, + "loss": 0.015, + "step": 91070 + }, + { + "epoch": 0.58288, + "grad_norm": 0.40179383754730225, + "learning_rate": 1.6114133333333336e-05, + "loss": 0.0037, + "step": 91075 + }, + { + "epoch": 0.582912, + "grad_norm": 0.6726821660995483, + "learning_rate": 1.611392e-05, + "loss": 0.0293, + "step": 91080 + }, + { + "epoch": 0.582944, + "grad_norm": 0.2062111347913742, + "learning_rate": 1.6113706666666667e-05, + "loss": 0.0162, + "step": 91085 + }, + { + "epoch": 0.582976, + "grad_norm": 0.2415992021560669, + "learning_rate": 1.6113493333333335e-05, + "loss": 0.0243, + "step": 91090 + }, + { + "epoch": 0.583008, + "grad_norm": 0.39984145760536194, + "learning_rate": 1.6113280000000002e-05, + "loss": 0.0144, + "step": 91095 + }, + { + "epoch": 0.58304, + "grad_norm": 2.388850688934326, + "learning_rate": 1.6113066666666667e-05, + "loss": 0.0183, + "step": 91100 + }, + { + "epoch": 0.583072, + "grad_norm": 0.43551838397979736, + "learning_rate": 1.6112853333333334e-05, + "loss": 0.0144, + "step": 91105 + }, + { + "epoch": 0.583104, + "grad_norm": 0.5928164124488831, + "learning_rate": 1.611264e-05, + "loss": 0.0245, + "step": 91110 + }, + { + "epoch": 0.583136, + "grad_norm": 0.6425737738609314, + "learning_rate": 1.6112426666666666e-05, + "loss": 0.0243, + "step": 91115 + }, + { + "epoch": 0.583168, + "grad_norm": 0.9526904821395874, + "learning_rate": 1.6112213333333337e-05, + "loss": 0.032, + "step": 91120 + }, + { + "epoch": 0.5832, + "grad_norm": 0.26113566756248474, + "learning_rate": 1.6112e-05, + "loss": 0.0115, + "step": 91125 + }, + { + "epoch": 0.583232, + "grad_norm": 1.1124541759490967, + "learning_rate": 1.611178666666667e-05, + "loss": 0.0322, + "step": 91130 + }, + { + "epoch": 0.583264, + "grad_norm": 1.0891941785812378, + "learning_rate": 1.6111573333333336e-05, + "loss": 0.0408, + "step": 91135 + }, + { + "epoch": 0.583296, + "grad_norm": 0.775562584400177, + "learning_rate": 1.611136e-05, + "loss": 0.0323, + "step": 91140 + }, + { + "epoch": 0.583328, + "grad_norm": 0.38194453716278076, + "learning_rate": 1.6111146666666668e-05, + "loss": 0.0169, + "step": 91145 + }, + { + "epoch": 0.58336, + "grad_norm": 0.07693302631378174, + "learning_rate": 1.6110933333333335e-05, + "loss": 0.0148, + "step": 91150 + }, + { + "epoch": 0.583392, + "grad_norm": 0.12153606861829758, + "learning_rate": 1.6110720000000003e-05, + "loss": 0.0085, + "step": 91155 + }, + { + "epoch": 0.583424, + "grad_norm": 1.1858940124511719, + "learning_rate": 1.6110506666666667e-05, + "loss": 0.0213, + "step": 91160 + }, + { + "epoch": 0.583456, + "grad_norm": 1.0988751649856567, + "learning_rate": 1.6110293333333335e-05, + "loss": 0.0146, + "step": 91165 + }, + { + "epoch": 0.583488, + "grad_norm": 0.6144698262214661, + "learning_rate": 1.6110080000000002e-05, + "loss": 0.0171, + "step": 91170 + }, + { + "epoch": 0.58352, + "grad_norm": 0.4383038282394409, + "learning_rate": 1.6109866666666666e-05, + "loss": 0.006, + "step": 91175 + }, + { + "epoch": 0.583552, + "grad_norm": 0.6194592714309692, + "learning_rate": 1.6109653333333334e-05, + "loss": 0.0105, + "step": 91180 + }, + { + "epoch": 0.583584, + "grad_norm": 0.4001576006412506, + "learning_rate": 1.610944e-05, + "loss": 0.018, + "step": 91185 + }, + { + "epoch": 0.583616, + "grad_norm": 0.16908356547355652, + "learning_rate": 1.610922666666667e-05, + "loss": 0.0085, + "step": 91190 + }, + { + "epoch": 0.583648, + "grad_norm": 1.1753981113433838, + "learning_rate": 1.6109013333333333e-05, + "loss": 0.0207, + "step": 91195 + }, + { + "epoch": 0.58368, + "grad_norm": 0.7707626223564148, + "learning_rate": 1.61088e-05, + "loss": 0.0163, + "step": 91200 + }, + { + "epoch": 0.583712, + "grad_norm": 1.1088287830352783, + "learning_rate": 1.6108586666666668e-05, + "loss": 0.0113, + "step": 91205 + }, + { + "epoch": 0.583744, + "grad_norm": 0.2057723104953766, + "learning_rate": 1.6108373333333332e-05, + "loss": 0.0225, + "step": 91210 + }, + { + "epoch": 0.583776, + "grad_norm": 0.6052790284156799, + "learning_rate": 1.610816e-05, + "loss": 0.011, + "step": 91215 + }, + { + "epoch": 0.583808, + "grad_norm": 0.15732218325138092, + "learning_rate": 1.6107946666666668e-05, + "loss": 0.0293, + "step": 91220 + }, + { + "epoch": 0.58384, + "grad_norm": 0.546607255935669, + "learning_rate": 1.6107733333333335e-05, + "loss": 0.0179, + "step": 91225 + }, + { + "epoch": 0.583872, + "grad_norm": 0.3722972273826599, + "learning_rate": 1.6107520000000003e-05, + "loss": 0.0068, + "step": 91230 + }, + { + "epoch": 0.583904, + "grad_norm": 0.7063165903091431, + "learning_rate": 1.610730666666667e-05, + "loss": 0.0336, + "step": 91235 + }, + { + "epoch": 0.583936, + "grad_norm": 0.5226427912712097, + "learning_rate": 1.6107093333333334e-05, + "loss": 0.022, + "step": 91240 + }, + { + "epoch": 0.583968, + "grad_norm": 0.5043201446533203, + "learning_rate": 1.6106880000000002e-05, + "loss": 0.0076, + "step": 91245 + }, + { + "epoch": 0.584, + "grad_norm": 1.0914363861083984, + "learning_rate": 1.610666666666667e-05, + "loss": 0.0211, + "step": 91250 + }, + { + "epoch": 0.584032, + "grad_norm": 0.03972199186682701, + "learning_rate": 1.6106453333333334e-05, + "loss": 0.0308, + "step": 91255 + }, + { + "epoch": 0.584064, + "grad_norm": 0.11332675069570541, + "learning_rate": 1.610624e-05, + "loss": 0.0106, + "step": 91260 + }, + { + "epoch": 0.584096, + "grad_norm": 0.7722634673118591, + "learning_rate": 1.610602666666667e-05, + "loss": 0.0195, + "step": 91265 + }, + { + "epoch": 0.584128, + "grad_norm": 0.5751103758811951, + "learning_rate": 1.6105813333333336e-05, + "loss": 0.0165, + "step": 91270 + }, + { + "epoch": 0.58416, + "grad_norm": 0.7571357488632202, + "learning_rate": 1.61056e-05, + "loss": 0.0132, + "step": 91275 + }, + { + "epoch": 0.584192, + "grad_norm": 0.1144585832953453, + "learning_rate": 1.6105386666666668e-05, + "loss": 0.0097, + "step": 91280 + }, + { + "epoch": 0.584224, + "grad_norm": 0.6933155655860901, + "learning_rate": 1.6105173333333336e-05, + "loss": 0.0246, + "step": 91285 + }, + { + "epoch": 0.584256, + "grad_norm": 0.1242397353053093, + "learning_rate": 1.610496e-05, + "loss": 0.0074, + "step": 91290 + }, + { + "epoch": 0.584288, + "grad_norm": 0.2767936587333679, + "learning_rate": 1.6104746666666667e-05, + "loss": 0.0066, + "step": 91295 + }, + { + "epoch": 0.58432, + "grad_norm": 1.0882080793380737, + "learning_rate": 1.6104533333333335e-05, + "loss": 0.0116, + "step": 91300 + }, + { + "epoch": 0.584352, + "grad_norm": 0.8940737247467041, + "learning_rate": 1.6104320000000002e-05, + "loss": 0.0074, + "step": 91305 + }, + { + "epoch": 0.584384, + "grad_norm": 0.1963426023721695, + "learning_rate": 1.6104106666666667e-05, + "loss": 0.0179, + "step": 91310 + }, + { + "epoch": 0.584416, + "grad_norm": 0.3680758774280548, + "learning_rate": 1.6103893333333334e-05, + "loss": 0.016, + "step": 91315 + }, + { + "epoch": 0.584448, + "grad_norm": 0.11798595637083054, + "learning_rate": 1.610368e-05, + "loss": 0.0218, + "step": 91320 + }, + { + "epoch": 0.58448, + "grad_norm": 1.636866807937622, + "learning_rate": 1.6103466666666666e-05, + "loss": 0.0221, + "step": 91325 + }, + { + "epoch": 0.584512, + "grad_norm": 0.5704647898674011, + "learning_rate": 1.6103253333333337e-05, + "loss": 0.0177, + "step": 91330 + }, + { + "epoch": 0.584544, + "grad_norm": 0.7172999382019043, + "learning_rate": 1.610304e-05, + "loss": 0.0182, + "step": 91335 + }, + { + "epoch": 0.584576, + "grad_norm": 1.7066295146942139, + "learning_rate": 1.610282666666667e-05, + "loss": 0.0091, + "step": 91340 + }, + { + "epoch": 0.584608, + "grad_norm": 0.20713213086128235, + "learning_rate": 1.6102613333333336e-05, + "loss": 0.0202, + "step": 91345 + }, + { + "epoch": 0.58464, + "grad_norm": 0.34387826919555664, + "learning_rate": 1.61024e-05, + "loss": 0.0096, + "step": 91350 + }, + { + "epoch": 0.584672, + "grad_norm": 0.2658536732196808, + "learning_rate": 1.6102186666666668e-05, + "loss": 0.008, + "step": 91355 + }, + { + "epoch": 0.584704, + "grad_norm": 1.3219785690307617, + "learning_rate": 1.6101973333333335e-05, + "loss": 0.0329, + "step": 91360 + }, + { + "epoch": 0.584736, + "grad_norm": 0.1695505678653717, + "learning_rate": 1.6101760000000003e-05, + "loss": 0.0103, + "step": 91365 + }, + { + "epoch": 0.584768, + "grad_norm": 0.10111229866743088, + "learning_rate": 1.6101546666666667e-05, + "loss": 0.0065, + "step": 91370 + }, + { + "epoch": 0.5848, + "grad_norm": 0.36076027154922485, + "learning_rate": 1.6101333333333335e-05, + "loss": 0.0091, + "step": 91375 + }, + { + "epoch": 0.584832, + "grad_norm": 0.610144317150116, + "learning_rate": 1.6101120000000002e-05, + "loss": 0.0138, + "step": 91380 + }, + { + "epoch": 0.584864, + "grad_norm": 0.6445695161819458, + "learning_rate": 1.6100906666666666e-05, + "loss": 0.0168, + "step": 91385 + }, + { + "epoch": 0.584896, + "grad_norm": 0.3491288125514984, + "learning_rate": 1.6100693333333334e-05, + "loss": 0.0123, + "step": 91390 + }, + { + "epoch": 0.584928, + "grad_norm": 0.38059714436531067, + "learning_rate": 1.610048e-05, + "loss": 0.0227, + "step": 91395 + }, + { + "epoch": 0.58496, + "grad_norm": 0.46306002140045166, + "learning_rate": 1.610026666666667e-05, + "loss": 0.0148, + "step": 91400 + }, + { + "epoch": 0.584992, + "grad_norm": 0.11762520670890808, + "learning_rate": 1.6100053333333333e-05, + "loss": 0.0122, + "step": 91405 + }, + { + "epoch": 0.585024, + "grad_norm": 0.6259715557098389, + "learning_rate": 1.609984e-05, + "loss": 0.0142, + "step": 91410 + }, + { + "epoch": 0.585056, + "grad_norm": 0.7220315933227539, + "learning_rate": 1.6099626666666668e-05, + "loss": 0.0147, + "step": 91415 + }, + { + "epoch": 0.585088, + "grad_norm": 1.0738871097564697, + "learning_rate": 1.6099413333333332e-05, + "loss": 0.032, + "step": 91420 + }, + { + "epoch": 0.58512, + "grad_norm": 0.10626862943172455, + "learning_rate": 1.60992e-05, + "loss": 0.0197, + "step": 91425 + }, + { + "epoch": 0.585152, + "grad_norm": 1.0272988080978394, + "learning_rate": 1.6098986666666668e-05, + "loss": 0.0179, + "step": 91430 + }, + { + "epoch": 0.585184, + "grad_norm": 1.1275956630706787, + "learning_rate": 1.6098773333333335e-05, + "loss": 0.0238, + "step": 91435 + }, + { + "epoch": 0.585216, + "grad_norm": 0.9993698596954346, + "learning_rate": 1.609856e-05, + "loss": 0.0209, + "step": 91440 + }, + { + "epoch": 0.585248, + "grad_norm": 1.3131904602050781, + "learning_rate": 1.609834666666667e-05, + "loss": 0.0276, + "step": 91445 + }, + { + "epoch": 0.58528, + "grad_norm": 0.12978699803352356, + "learning_rate": 1.6098133333333334e-05, + "loss": 0.0097, + "step": 91450 + }, + { + "epoch": 0.585312, + "grad_norm": 0.2556361258029938, + "learning_rate": 1.6097920000000002e-05, + "loss": 0.0052, + "step": 91455 + }, + { + "epoch": 0.585344, + "grad_norm": 0.7570590376853943, + "learning_rate": 1.609770666666667e-05, + "loss": 0.0137, + "step": 91460 + }, + { + "epoch": 0.585376, + "grad_norm": 0.20249466598033905, + "learning_rate": 1.6097493333333334e-05, + "loss": 0.0054, + "step": 91465 + }, + { + "epoch": 0.585408, + "grad_norm": 2.5817325115203857, + "learning_rate": 1.609728e-05, + "loss": 0.0144, + "step": 91470 + }, + { + "epoch": 0.58544, + "grad_norm": 3.033623456954956, + "learning_rate": 1.609706666666667e-05, + "loss": 0.0154, + "step": 91475 + }, + { + "epoch": 0.585472, + "grad_norm": 0.6056951880455017, + "learning_rate": 1.6096853333333336e-05, + "loss": 0.0251, + "step": 91480 + }, + { + "epoch": 0.585504, + "grad_norm": 0.19065716862678528, + "learning_rate": 1.609664e-05, + "loss": 0.015, + "step": 91485 + }, + { + "epoch": 0.585536, + "grad_norm": 0.29361826181411743, + "learning_rate": 1.6096426666666668e-05, + "loss": 0.0169, + "step": 91490 + }, + { + "epoch": 0.585568, + "grad_norm": 0.16130277514457703, + "learning_rate": 1.6096213333333336e-05, + "loss": 0.0242, + "step": 91495 + }, + { + "epoch": 0.5856, + "grad_norm": 1.2681516408920288, + "learning_rate": 1.6096e-05, + "loss": 0.0121, + "step": 91500 + }, + { + "epoch": 0.585632, + "grad_norm": 1.1722246408462524, + "learning_rate": 1.6095786666666667e-05, + "loss": 0.0235, + "step": 91505 + }, + { + "epoch": 0.585664, + "grad_norm": 0.4704072177410126, + "learning_rate": 1.6095573333333335e-05, + "loss": 0.0271, + "step": 91510 + }, + { + "epoch": 0.585696, + "grad_norm": 0.6772554516792297, + "learning_rate": 1.6095360000000002e-05, + "loss": 0.0285, + "step": 91515 + }, + { + "epoch": 0.585728, + "grad_norm": 0.44477754831314087, + "learning_rate": 1.6095146666666667e-05, + "loss": 0.0173, + "step": 91520 + }, + { + "epoch": 0.58576, + "grad_norm": 2.4969546794891357, + "learning_rate": 1.6094933333333334e-05, + "loss": 0.0219, + "step": 91525 + }, + { + "epoch": 0.585792, + "grad_norm": 0.25489526987075806, + "learning_rate": 1.609472e-05, + "loss": 0.0398, + "step": 91530 + }, + { + "epoch": 0.585824, + "grad_norm": 0.7869203090667725, + "learning_rate": 1.6094506666666666e-05, + "loss": 0.0152, + "step": 91535 + }, + { + "epoch": 0.585856, + "grad_norm": 1.126376748085022, + "learning_rate": 1.6094293333333337e-05, + "loss": 0.0198, + "step": 91540 + }, + { + "epoch": 0.585888, + "grad_norm": 0.1375190019607544, + "learning_rate": 1.609408e-05, + "loss": 0.0174, + "step": 91545 + }, + { + "epoch": 0.58592, + "grad_norm": 0.3135121166706085, + "learning_rate": 1.609386666666667e-05, + "loss": 0.0163, + "step": 91550 + }, + { + "epoch": 0.585952, + "grad_norm": 0.7792566418647766, + "learning_rate": 1.6093653333333336e-05, + "loss": 0.0277, + "step": 91555 + }, + { + "epoch": 0.585984, + "grad_norm": 0.6874578595161438, + "learning_rate": 1.6093440000000004e-05, + "loss": 0.014, + "step": 91560 + }, + { + "epoch": 0.586016, + "grad_norm": 0.21913495659828186, + "learning_rate": 1.6093226666666668e-05, + "loss": 0.0122, + "step": 91565 + }, + { + "epoch": 0.586048, + "grad_norm": 0.5368397235870361, + "learning_rate": 1.6093013333333335e-05, + "loss": 0.0079, + "step": 91570 + }, + { + "epoch": 0.58608, + "grad_norm": 0.2755414545536041, + "learning_rate": 1.6092800000000003e-05, + "loss": 0.0183, + "step": 91575 + }, + { + "epoch": 0.586112, + "grad_norm": 1.2513364553451538, + "learning_rate": 1.6092586666666667e-05, + "loss": 0.0276, + "step": 91580 + }, + { + "epoch": 0.586144, + "grad_norm": 1.7519960403442383, + "learning_rate": 1.6092373333333335e-05, + "loss": 0.0179, + "step": 91585 + }, + { + "epoch": 0.586176, + "grad_norm": 0.7171586155891418, + "learning_rate": 1.6092160000000002e-05, + "loss": 0.014, + "step": 91590 + }, + { + "epoch": 0.586208, + "grad_norm": 0.29863548278808594, + "learning_rate": 1.609194666666667e-05, + "loss": 0.0135, + "step": 91595 + }, + { + "epoch": 0.58624, + "grad_norm": 0.48207196593284607, + "learning_rate": 1.6091733333333334e-05, + "loss": 0.0327, + "step": 91600 + }, + { + "epoch": 0.586272, + "grad_norm": 0.42368605732917786, + "learning_rate": 1.609152e-05, + "loss": 0.011, + "step": 91605 + }, + { + "epoch": 0.586304, + "grad_norm": 0.3748798966407776, + "learning_rate": 1.609130666666667e-05, + "loss": 0.0209, + "step": 91610 + }, + { + "epoch": 0.586336, + "grad_norm": 0.4163370132446289, + "learning_rate": 1.6091093333333333e-05, + "loss": 0.0086, + "step": 91615 + }, + { + "epoch": 0.586368, + "grad_norm": 0.2630610466003418, + "learning_rate": 1.609088e-05, + "loss": 0.0101, + "step": 91620 + }, + { + "epoch": 0.5864, + "grad_norm": 0.13003627955913544, + "learning_rate": 1.6090666666666668e-05, + "loss": 0.0098, + "step": 91625 + }, + { + "epoch": 0.586432, + "grad_norm": 1.5801427364349365, + "learning_rate": 1.6090453333333336e-05, + "loss": 0.0286, + "step": 91630 + }, + { + "epoch": 0.586464, + "grad_norm": 1.8411608934402466, + "learning_rate": 1.609024e-05, + "loss": 0.0112, + "step": 91635 + }, + { + "epoch": 0.586496, + "grad_norm": 0.5930204391479492, + "learning_rate": 1.6090026666666668e-05, + "loss": 0.0201, + "step": 91640 + }, + { + "epoch": 0.586528, + "grad_norm": 0.5302838087081909, + "learning_rate": 1.6089813333333335e-05, + "loss": 0.0119, + "step": 91645 + }, + { + "epoch": 0.58656, + "grad_norm": 0.15287576615810394, + "learning_rate": 1.60896e-05, + "loss": 0.0191, + "step": 91650 + }, + { + "epoch": 0.586592, + "grad_norm": 0.35395315289497375, + "learning_rate": 1.608938666666667e-05, + "loss": 0.0211, + "step": 91655 + }, + { + "epoch": 0.586624, + "grad_norm": 0.3738797605037689, + "learning_rate": 1.6089173333333334e-05, + "loss": 0.0087, + "step": 91660 + }, + { + "epoch": 0.586656, + "grad_norm": 0.060761820524930954, + "learning_rate": 1.6088960000000002e-05, + "loss": 0.0272, + "step": 91665 + }, + { + "epoch": 0.586688, + "grad_norm": 1.2001953125, + "learning_rate": 1.608874666666667e-05, + "loss": 0.014, + "step": 91670 + }, + { + "epoch": 0.58672, + "grad_norm": 1.04498291015625, + "learning_rate": 1.6088533333333334e-05, + "loss": 0.0157, + "step": 91675 + }, + { + "epoch": 0.586752, + "grad_norm": 0.6584046483039856, + "learning_rate": 1.608832e-05, + "loss": 0.0217, + "step": 91680 + }, + { + "epoch": 0.586784, + "grad_norm": 0.3640068471431732, + "learning_rate": 1.608810666666667e-05, + "loss": 0.0073, + "step": 91685 + }, + { + "epoch": 0.586816, + "grad_norm": 0.30672845244407654, + "learning_rate": 1.6087893333333336e-05, + "loss": 0.0129, + "step": 91690 + }, + { + "epoch": 0.586848, + "grad_norm": 1.1464983224868774, + "learning_rate": 1.608768e-05, + "loss": 0.0312, + "step": 91695 + }, + { + "epoch": 0.58688, + "grad_norm": 0.02271392196416855, + "learning_rate": 1.6087466666666668e-05, + "loss": 0.0179, + "step": 91700 + }, + { + "epoch": 0.586912, + "grad_norm": 0.08069896697998047, + "learning_rate": 1.6087253333333336e-05, + "loss": 0.0039, + "step": 91705 + }, + { + "epoch": 0.586944, + "grad_norm": 0.6609709858894348, + "learning_rate": 1.608704e-05, + "loss": 0.0143, + "step": 91710 + }, + { + "epoch": 0.586976, + "grad_norm": 0.6672311425209045, + "learning_rate": 1.6086826666666667e-05, + "loss": 0.0125, + "step": 91715 + }, + { + "epoch": 0.587008, + "grad_norm": 0.24587759375572205, + "learning_rate": 1.6086613333333335e-05, + "loss": 0.0059, + "step": 91720 + }, + { + "epoch": 0.58704, + "grad_norm": 0.8800219297409058, + "learning_rate": 1.6086400000000002e-05, + "loss": 0.0169, + "step": 91725 + }, + { + "epoch": 0.587072, + "grad_norm": 1.0999042987823486, + "learning_rate": 1.6086186666666667e-05, + "loss": 0.0173, + "step": 91730 + }, + { + "epoch": 0.587104, + "grad_norm": 0.4849906265735626, + "learning_rate": 1.6085973333333334e-05, + "loss": 0.013, + "step": 91735 + }, + { + "epoch": 0.587136, + "grad_norm": 0.39730513095855713, + "learning_rate": 1.608576e-05, + "loss": 0.0121, + "step": 91740 + }, + { + "epoch": 0.587168, + "grad_norm": 0.6268057227134705, + "learning_rate": 1.6085546666666666e-05, + "loss": 0.0158, + "step": 91745 + }, + { + "epoch": 0.5872, + "grad_norm": 0.8622888326644897, + "learning_rate": 1.6085333333333333e-05, + "loss": 0.0161, + "step": 91750 + }, + { + "epoch": 0.587232, + "grad_norm": 0.7774882912635803, + "learning_rate": 1.608512e-05, + "loss": 0.0225, + "step": 91755 + }, + { + "epoch": 0.587264, + "grad_norm": 0.08141565322875977, + "learning_rate": 1.608490666666667e-05, + "loss": 0.0055, + "step": 91760 + }, + { + "epoch": 0.587296, + "grad_norm": 1.3011606931686401, + "learning_rate": 1.6084693333333336e-05, + "loss": 0.0244, + "step": 91765 + }, + { + "epoch": 0.587328, + "grad_norm": 0.2924511432647705, + "learning_rate": 1.6084480000000004e-05, + "loss": 0.019, + "step": 91770 + }, + { + "epoch": 0.58736, + "grad_norm": 0.0066877128556370735, + "learning_rate": 1.6084266666666668e-05, + "loss": 0.0075, + "step": 91775 + }, + { + "epoch": 0.587392, + "grad_norm": 0.8073601722717285, + "learning_rate": 1.6084053333333335e-05, + "loss": 0.0172, + "step": 91780 + }, + { + "epoch": 0.587424, + "grad_norm": 0.11825621128082275, + "learning_rate": 1.6083840000000003e-05, + "loss": 0.0152, + "step": 91785 + }, + { + "epoch": 0.587456, + "grad_norm": 1.55237877368927, + "learning_rate": 1.6083626666666667e-05, + "loss": 0.0181, + "step": 91790 + }, + { + "epoch": 0.587488, + "grad_norm": 0.5218703150749207, + "learning_rate": 1.6083413333333335e-05, + "loss": 0.0108, + "step": 91795 + }, + { + "epoch": 0.58752, + "grad_norm": 0.6807266473770142, + "learning_rate": 1.6083200000000002e-05, + "loss": 0.0199, + "step": 91800 + }, + { + "epoch": 0.587552, + "grad_norm": 0.17517343163490295, + "learning_rate": 1.608298666666667e-05, + "loss": 0.0048, + "step": 91805 + }, + { + "epoch": 0.587584, + "grad_norm": 0.23661869764328003, + "learning_rate": 1.6082773333333334e-05, + "loss": 0.0264, + "step": 91810 + }, + { + "epoch": 0.587616, + "grad_norm": 0.07737144082784653, + "learning_rate": 1.608256e-05, + "loss": 0.0105, + "step": 91815 + }, + { + "epoch": 0.587648, + "grad_norm": 1.013495683670044, + "learning_rate": 1.608234666666667e-05, + "loss": 0.0119, + "step": 91820 + }, + { + "epoch": 0.58768, + "grad_norm": 1.0047495365142822, + "learning_rate": 1.6082133333333333e-05, + "loss": 0.0232, + "step": 91825 + }, + { + "epoch": 0.587712, + "grad_norm": 0.046222809702157974, + "learning_rate": 1.608192e-05, + "loss": 0.014, + "step": 91830 + }, + { + "epoch": 0.587744, + "grad_norm": 0.5769832730293274, + "learning_rate": 1.6081706666666668e-05, + "loss": 0.0159, + "step": 91835 + }, + { + "epoch": 0.587776, + "grad_norm": 0.15715575218200684, + "learning_rate": 1.6081493333333336e-05, + "loss": 0.0203, + "step": 91840 + }, + { + "epoch": 0.587808, + "grad_norm": 0.8387504816055298, + "learning_rate": 1.608128e-05, + "loss": 0.0104, + "step": 91845 + }, + { + "epoch": 0.58784, + "grad_norm": 0.4018251895904541, + "learning_rate": 1.6081066666666668e-05, + "loss": 0.0117, + "step": 91850 + }, + { + "epoch": 0.587872, + "grad_norm": 0.35202547907829285, + "learning_rate": 1.6080853333333335e-05, + "loss": 0.0248, + "step": 91855 + }, + { + "epoch": 0.587904, + "grad_norm": 0.4234563708305359, + "learning_rate": 1.608064e-05, + "loss": 0.0198, + "step": 91860 + }, + { + "epoch": 0.587936, + "grad_norm": 0.8576996922492981, + "learning_rate": 1.608042666666667e-05, + "loss": 0.0252, + "step": 91865 + }, + { + "epoch": 0.587968, + "grad_norm": 0.14538949728012085, + "learning_rate": 1.6080213333333334e-05, + "loss": 0.0179, + "step": 91870 + }, + { + "epoch": 0.588, + "grad_norm": 0.4452536106109619, + "learning_rate": 1.6080000000000002e-05, + "loss": 0.0285, + "step": 91875 + }, + { + "epoch": 0.588032, + "grad_norm": 0.04954012855887413, + "learning_rate": 1.607978666666667e-05, + "loss": 0.0054, + "step": 91880 + }, + { + "epoch": 0.588064, + "grad_norm": 0.4357169568538666, + "learning_rate": 1.6079573333333334e-05, + "loss": 0.0146, + "step": 91885 + }, + { + "epoch": 0.588096, + "grad_norm": 0.34280773997306824, + "learning_rate": 1.607936e-05, + "loss": 0.0114, + "step": 91890 + }, + { + "epoch": 0.588128, + "grad_norm": 0.12433870136737823, + "learning_rate": 1.607914666666667e-05, + "loss": 0.007, + "step": 91895 + }, + { + "epoch": 0.58816, + "grad_norm": 0.2690180540084839, + "learning_rate": 1.6078933333333336e-05, + "loss": 0.0101, + "step": 91900 + }, + { + "epoch": 0.588192, + "grad_norm": 0.14554986357688904, + "learning_rate": 1.607872e-05, + "loss": 0.0208, + "step": 91905 + }, + { + "epoch": 0.588224, + "grad_norm": 0.4001353979110718, + "learning_rate": 1.6078506666666668e-05, + "loss": 0.0281, + "step": 91910 + }, + { + "epoch": 0.588256, + "grad_norm": 0.2835906445980072, + "learning_rate": 1.6078293333333336e-05, + "loss": 0.0142, + "step": 91915 + }, + { + "epoch": 0.588288, + "grad_norm": 0.21582815051078796, + "learning_rate": 1.607808e-05, + "loss": 0.0066, + "step": 91920 + }, + { + "epoch": 0.58832, + "grad_norm": 0.14387324452400208, + "learning_rate": 1.6077866666666667e-05, + "loss": 0.0063, + "step": 91925 + }, + { + "epoch": 0.588352, + "grad_norm": 0.43125391006469727, + "learning_rate": 1.6077653333333335e-05, + "loss": 0.01, + "step": 91930 + }, + { + "epoch": 0.588384, + "grad_norm": 0.9907779693603516, + "learning_rate": 1.6077440000000002e-05, + "loss": 0.0128, + "step": 91935 + }, + { + "epoch": 0.588416, + "grad_norm": 0.6905488967895508, + "learning_rate": 1.6077226666666667e-05, + "loss": 0.0171, + "step": 91940 + }, + { + "epoch": 0.588448, + "grad_norm": 0.12742656469345093, + "learning_rate": 1.6077013333333334e-05, + "loss": 0.0214, + "step": 91945 + }, + { + "epoch": 0.58848, + "grad_norm": 0.18087439239025116, + "learning_rate": 1.60768e-05, + "loss": 0.0077, + "step": 91950 + }, + { + "epoch": 0.588512, + "grad_norm": 1.1337602138519287, + "learning_rate": 1.6076586666666666e-05, + "loss": 0.0179, + "step": 91955 + }, + { + "epoch": 0.588544, + "grad_norm": 0.4241839647293091, + "learning_rate": 1.6076373333333333e-05, + "loss": 0.0131, + "step": 91960 + }, + { + "epoch": 0.588576, + "grad_norm": 0.428278386592865, + "learning_rate": 1.607616e-05, + "loss": 0.0175, + "step": 91965 + }, + { + "epoch": 0.588608, + "grad_norm": 0.3070891797542572, + "learning_rate": 1.607594666666667e-05, + "loss": 0.0093, + "step": 91970 + }, + { + "epoch": 0.58864, + "grad_norm": 0.9018575549125671, + "learning_rate": 1.6075733333333333e-05, + "loss": 0.0157, + "step": 91975 + }, + { + "epoch": 0.588672, + "grad_norm": 0.7289487719535828, + "learning_rate": 1.6075520000000004e-05, + "loss": 0.0243, + "step": 91980 + }, + { + "epoch": 0.588704, + "grad_norm": 0.4365313649177551, + "learning_rate": 1.6075306666666668e-05, + "loss": 0.0291, + "step": 91985 + }, + { + "epoch": 0.588736, + "grad_norm": 1.5291386842727661, + "learning_rate": 1.6075093333333335e-05, + "loss": 0.0139, + "step": 91990 + }, + { + "epoch": 0.588768, + "grad_norm": 0.21267026662826538, + "learning_rate": 1.6074880000000003e-05, + "loss": 0.0119, + "step": 91995 + }, + { + "epoch": 0.5888, + "grad_norm": 2.8695461750030518, + "learning_rate": 1.6074666666666667e-05, + "loss": 0.0152, + "step": 92000 + }, + { + "epoch": 0.588832, + "grad_norm": 0.6946286559104919, + "learning_rate": 1.6074453333333335e-05, + "loss": 0.0208, + "step": 92005 + }, + { + "epoch": 0.588864, + "grad_norm": 0.7490655183792114, + "learning_rate": 1.6074240000000002e-05, + "loss": 0.0273, + "step": 92010 + }, + { + "epoch": 0.588896, + "grad_norm": 3.5307679176330566, + "learning_rate": 1.607402666666667e-05, + "loss": 0.0153, + "step": 92015 + }, + { + "epoch": 0.588928, + "grad_norm": 1.2069615125656128, + "learning_rate": 1.6073813333333334e-05, + "loss": 0.0201, + "step": 92020 + }, + { + "epoch": 0.58896, + "grad_norm": 1.0836257934570312, + "learning_rate": 1.60736e-05, + "loss": 0.0099, + "step": 92025 + }, + { + "epoch": 0.588992, + "grad_norm": 0.8670366406440735, + "learning_rate": 1.607338666666667e-05, + "loss": 0.0156, + "step": 92030 + }, + { + "epoch": 0.589024, + "grad_norm": 0.187119260430336, + "learning_rate": 1.6073173333333333e-05, + "loss": 0.0063, + "step": 92035 + }, + { + "epoch": 0.589056, + "grad_norm": 0.3028090000152588, + "learning_rate": 1.607296e-05, + "loss": 0.0144, + "step": 92040 + }, + { + "epoch": 0.589088, + "grad_norm": 0.5306181907653809, + "learning_rate": 1.6072746666666668e-05, + "loss": 0.0064, + "step": 92045 + }, + { + "epoch": 0.58912, + "grad_norm": 0.6362829804420471, + "learning_rate": 1.6072533333333336e-05, + "loss": 0.0119, + "step": 92050 + }, + { + "epoch": 0.589152, + "grad_norm": 0.49859514832496643, + "learning_rate": 1.607232e-05, + "loss": 0.0103, + "step": 92055 + }, + { + "epoch": 0.589184, + "grad_norm": 0.6064808964729309, + "learning_rate": 1.6072106666666668e-05, + "loss": 0.0296, + "step": 92060 + }, + { + "epoch": 0.589216, + "grad_norm": 0.4023554027080536, + "learning_rate": 1.6071893333333335e-05, + "loss": 0.0261, + "step": 92065 + }, + { + "epoch": 0.589248, + "grad_norm": 0.20426741242408752, + "learning_rate": 1.607168e-05, + "loss": 0.0076, + "step": 92070 + }, + { + "epoch": 0.58928, + "grad_norm": 0.24538373947143555, + "learning_rate": 1.607146666666667e-05, + "loss": 0.0115, + "step": 92075 + }, + { + "epoch": 0.589312, + "grad_norm": 1.4061033725738525, + "learning_rate": 1.6071253333333334e-05, + "loss": 0.0299, + "step": 92080 + }, + { + "epoch": 0.589344, + "grad_norm": 1.0116087198257446, + "learning_rate": 1.6071040000000002e-05, + "loss": 0.0188, + "step": 92085 + }, + { + "epoch": 0.589376, + "grad_norm": 0.37615296244621277, + "learning_rate": 1.607082666666667e-05, + "loss": 0.0132, + "step": 92090 + }, + { + "epoch": 0.589408, + "grad_norm": 0.07719039916992188, + "learning_rate": 1.6070613333333334e-05, + "loss": 0.0139, + "step": 92095 + }, + { + "epoch": 0.58944, + "grad_norm": 0.6186582446098328, + "learning_rate": 1.60704e-05, + "loss": 0.0144, + "step": 92100 + }, + { + "epoch": 0.589472, + "grad_norm": 0.7984388470649719, + "learning_rate": 1.607018666666667e-05, + "loss": 0.0267, + "step": 92105 + }, + { + "epoch": 0.589504, + "grad_norm": 0.6799739003181458, + "learning_rate": 1.6069973333333336e-05, + "loss": 0.0069, + "step": 92110 + }, + { + "epoch": 0.589536, + "grad_norm": 0.40127721428871155, + "learning_rate": 1.606976e-05, + "loss": 0.0408, + "step": 92115 + }, + { + "epoch": 0.589568, + "grad_norm": 0.424229234457016, + "learning_rate": 1.6069546666666668e-05, + "loss": 0.0109, + "step": 92120 + }, + { + "epoch": 0.5896, + "grad_norm": 0.8401353359222412, + "learning_rate": 1.6069333333333336e-05, + "loss": 0.0086, + "step": 92125 + }, + { + "epoch": 0.589632, + "grad_norm": 1.1313285827636719, + "learning_rate": 1.606912e-05, + "loss": 0.0104, + "step": 92130 + }, + { + "epoch": 0.589664, + "grad_norm": 0.18454331159591675, + "learning_rate": 1.6068906666666667e-05, + "loss": 0.0039, + "step": 92135 + }, + { + "epoch": 0.589696, + "grad_norm": 0.8285955190658569, + "learning_rate": 1.6068693333333335e-05, + "loss": 0.0242, + "step": 92140 + }, + { + "epoch": 0.589728, + "grad_norm": 0.43578773736953735, + "learning_rate": 1.6068480000000002e-05, + "loss": 0.0292, + "step": 92145 + }, + { + "epoch": 0.58976, + "grad_norm": 0.6519797444343567, + "learning_rate": 1.6068266666666667e-05, + "loss": 0.0153, + "step": 92150 + }, + { + "epoch": 0.589792, + "grad_norm": 0.7238961458206177, + "learning_rate": 1.6068053333333334e-05, + "loss": 0.011, + "step": 92155 + }, + { + "epoch": 0.589824, + "grad_norm": 0.41786327958106995, + "learning_rate": 1.606784e-05, + "loss": 0.0114, + "step": 92160 + }, + { + "epoch": 0.589856, + "grad_norm": 0.9114614725112915, + "learning_rate": 1.6067626666666666e-05, + "loss": 0.028, + "step": 92165 + }, + { + "epoch": 0.589888, + "grad_norm": 0.49309998750686646, + "learning_rate": 1.6067413333333333e-05, + "loss": 0.0069, + "step": 92170 + }, + { + "epoch": 0.58992, + "grad_norm": 1.2435463666915894, + "learning_rate": 1.60672e-05, + "loss": 0.0197, + "step": 92175 + }, + { + "epoch": 0.589952, + "grad_norm": 0.5673893094062805, + "learning_rate": 1.606698666666667e-05, + "loss": 0.0239, + "step": 92180 + }, + { + "epoch": 0.589984, + "grad_norm": 0.893764853477478, + "learning_rate": 1.6066773333333333e-05, + "loss": 0.0129, + "step": 92185 + }, + { + "epoch": 0.590016, + "grad_norm": 0.8958621025085449, + "learning_rate": 1.6066560000000004e-05, + "loss": 0.027, + "step": 92190 + }, + { + "epoch": 0.590048, + "grad_norm": 1.1788008213043213, + "learning_rate": 1.6066346666666668e-05, + "loss": 0.0094, + "step": 92195 + }, + { + "epoch": 0.59008, + "grad_norm": 0.42571455240249634, + "learning_rate": 1.6066133333333332e-05, + "loss": 0.012, + "step": 92200 + }, + { + "epoch": 0.590112, + "grad_norm": 0.0298751313239336, + "learning_rate": 1.6065920000000003e-05, + "loss": 0.0045, + "step": 92205 + }, + { + "epoch": 0.590144, + "grad_norm": 0.5335708856582642, + "learning_rate": 1.6065706666666667e-05, + "loss": 0.014, + "step": 92210 + }, + { + "epoch": 0.590176, + "grad_norm": 0.10641930997371674, + "learning_rate": 1.6065493333333335e-05, + "loss": 0.0126, + "step": 92215 + }, + { + "epoch": 0.590208, + "grad_norm": 2.245990514755249, + "learning_rate": 1.6065280000000002e-05, + "loss": 0.0307, + "step": 92220 + }, + { + "epoch": 0.59024, + "grad_norm": 0.6031553745269775, + "learning_rate": 1.606506666666667e-05, + "loss": 0.0188, + "step": 92225 + }, + { + "epoch": 0.590272, + "grad_norm": 0.8402388691902161, + "learning_rate": 1.6064853333333334e-05, + "loss": 0.0305, + "step": 92230 + }, + { + "epoch": 0.590304, + "grad_norm": 0.8374412655830383, + "learning_rate": 1.606464e-05, + "loss": 0.0123, + "step": 92235 + }, + { + "epoch": 0.590336, + "grad_norm": 0.12802323698997498, + "learning_rate": 1.606442666666667e-05, + "loss": 0.0118, + "step": 92240 + }, + { + "epoch": 0.590368, + "grad_norm": 0.48958998918533325, + "learning_rate": 1.6064213333333333e-05, + "loss": 0.009, + "step": 92245 + }, + { + "epoch": 0.5904, + "grad_norm": 0.21437226235866547, + "learning_rate": 1.6064e-05, + "loss": 0.0117, + "step": 92250 + }, + { + "epoch": 0.590432, + "grad_norm": 1.0019993782043457, + "learning_rate": 1.6063786666666668e-05, + "loss": 0.018, + "step": 92255 + }, + { + "epoch": 0.590464, + "grad_norm": 0.04908602312207222, + "learning_rate": 1.6063573333333336e-05, + "loss": 0.025, + "step": 92260 + }, + { + "epoch": 0.590496, + "grad_norm": 0.16205500066280365, + "learning_rate": 1.606336e-05, + "loss": 0.005, + "step": 92265 + }, + { + "epoch": 0.590528, + "grad_norm": 0.8120308518409729, + "learning_rate": 1.6063146666666668e-05, + "loss": 0.0184, + "step": 92270 + }, + { + "epoch": 0.59056, + "grad_norm": 5.328930854797363, + "learning_rate": 1.6062933333333335e-05, + "loss": 0.0265, + "step": 92275 + }, + { + "epoch": 0.590592, + "grad_norm": 0.26460593938827515, + "learning_rate": 1.606272e-05, + "loss": 0.0043, + "step": 92280 + }, + { + "epoch": 0.590624, + "grad_norm": 0.4365237355232239, + "learning_rate": 1.6062506666666667e-05, + "loss": 0.0226, + "step": 92285 + }, + { + "epoch": 0.590656, + "grad_norm": 0.48484209179878235, + "learning_rate": 1.6062293333333334e-05, + "loss": 0.0139, + "step": 92290 + }, + { + "epoch": 0.590688, + "grad_norm": 0.1278940737247467, + "learning_rate": 1.6062080000000002e-05, + "loss": 0.0067, + "step": 92295 + }, + { + "epoch": 0.59072, + "grad_norm": 0.36687082052230835, + "learning_rate": 1.606186666666667e-05, + "loss": 0.0064, + "step": 92300 + }, + { + "epoch": 0.590752, + "grad_norm": 0.48338207602500916, + "learning_rate": 1.6061653333333334e-05, + "loss": 0.0092, + "step": 92305 + }, + { + "epoch": 0.590784, + "grad_norm": 0.31086236238479614, + "learning_rate": 1.606144e-05, + "loss": 0.0085, + "step": 92310 + }, + { + "epoch": 0.590816, + "grad_norm": 0.35511884093284607, + "learning_rate": 1.606122666666667e-05, + "loss": 0.0154, + "step": 92315 + }, + { + "epoch": 0.590848, + "grad_norm": 0.6051470041275024, + "learning_rate": 1.6061013333333336e-05, + "loss": 0.0253, + "step": 92320 + }, + { + "epoch": 0.59088, + "grad_norm": 0.40612709522247314, + "learning_rate": 1.60608e-05, + "loss": 0.0074, + "step": 92325 + }, + { + "epoch": 0.590912, + "grad_norm": 0.5310391187667847, + "learning_rate": 1.6060586666666668e-05, + "loss": 0.0197, + "step": 92330 + }, + { + "epoch": 0.590944, + "grad_norm": 0.5600672364234924, + "learning_rate": 1.6060373333333336e-05, + "loss": 0.0152, + "step": 92335 + }, + { + "epoch": 0.590976, + "grad_norm": 0.2995375990867615, + "learning_rate": 1.6060160000000003e-05, + "loss": 0.0149, + "step": 92340 + }, + { + "epoch": 0.591008, + "grad_norm": 0.5302298069000244, + "learning_rate": 1.6059946666666667e-05, + "loss": 0.0169, + "step": 92345 + }, + { + "epoch": 0.59104, + "grad_norm": 0.4950929582118988, + "learning_rate": 1.6059733333333335e-05, + "loss": 0.0192, + "step": 92350 + }, + { + "epoch": 0.591072, + "grad_norm": 0.9416609406471252, + "learning_rate": 1.6059520000000002e-05, + "loss": 0.0062, + "step": 92355 + }, + { + "epoch": 0.591104, + "grad_norm": 0.2706465423107147, + "learning_rate": 1.6059306666666667e-05, + "loss": 0.009, + "step": 92360 + }, + { + "epoch": 0.591136, + "grad_norm": 0.17022603750228882, + "learning_rate": 1.6059093333333334e-05, + "loss": 0.0149, + "step": 92365 + }, + { + "epoch": 0.591168, + "grad_norm": 0.657572865486145, + "learning_rate": 1.605888e-05, + "loss": 0.0144, + "step": 92370 + }, + { + "epoch": 0.5912, + "grad_norm": 1.9745351076126099, + "learning_rate": 1.605866666666667e-05, + "loss": 0.0318, + "step": 92375 + }, + { + "epoch": 0.591232, + "grad_norm": 0.4428628087043762, + "learning_rate": 1.6058453333333333e-05, + "loss": 0.0158, + "step": 92380 + }, + { + "epoch": 0.591264, + "grad_norm": 4.891689777374268, + "learning_rate": 1.605824e-05, + "loss": 0.0386, + "step": 92385 + }, + { + "epoch": 0.591296, + "grad_norm": 1.212971568107605, + "learning_rate": 1.605802666666667e-05, + "loss": 0.0344, + "step": 92390 + }, + { + "epoch": 0.591328, + "grad_norm": 0.48269122838974, + "learning_rate": 1.6057813333333333e-05, + "loss": 0.0115, + "step": 92395 + }, + { + "epoch": 0.59136, + "grad_norm": 0.19148674607276917, + "learning_rate": 1.6057600000000004e-05, + "loss": 0.0069, + "step": 92400 + }, + { + "epoch": 0.591392, + "grad_norm": 0.9787231087684631, + "learning_rate": 1.6057386666666668e-05, + "loss": 0.0224, + "step": 92405 + }, + { + "epoch": 0.591424, + "grad_norm": 1.0262116193771362, + "learning_rate": 1.6057173333333335e-05, + "loss": 0.0228, + "step": 92410 + }, + { + "epoch": 0.591456, + "grad_norm": 0.4231644868850708, + "learning_rate": 1.6056960000000003e-05, + "loss": 0.0107, + "step": 92415 + }, + { + "epoch": 0.591488, + "grad_norm": 0.02641945146024227, + "learning_rate": 1.6056746666666667e-05, + "loss": 0.0076, + "step": 92420 + }, + { + "epoch": 0.59152, + "grad_norm": 0.6504582762718201, + "learning_rate": 1.6056533333333335e-05, + "loss": 0.0108, + "step": 92425 + }, + { + "epoch": 0.591552, + "grad_norm": 0.2372228503227234, + "learning_rate": 1.6056320000000002e-05, + "loss": 0.0129, + "step": 92430 + }, + { + "epoch": 0.591584, + "grad_norm": 0.27463027834892273, + "learning_rate": 1.605610666666667e-05, + "loss": 0.0055, + "step": 92435 + }, + { + "epoch": 0.591616, + "grad_norm": 0.8382584452629089, + "learning_rate": 1.6055893333333334e-05, + "loss": 0.0116, + "step": 92440 + }, + { + "epoch": 0.591648, + "grad_norm": 0.7069393396377563, + "learning_rate": 1.605568e-05, + "loss": 0.0184, + "step": 92445 + }, + { + "epoch": 0.59168, + "grad_norm": 0.42421093583106995, + "learning_rate": 1.605546666666667e-05, + "loss": 0.0304, + "step": 92450 + }, + { + "epoch": 0.591712, + "grad_norm": 0.4671044945716858, + "learning_rate": 1.6055253333333333e-05, + "loss": 0.0266, + "step": 92455 + }, + { + "epoch": 0.591744, + "grad_norm": 0.42937785387039185, + "learning_rate": 1.605504e-05, + "loss": 0.0186, + "step": 92460 + }, + { + "epoch": 0.591776, + "grad_norm": 0.14830300211906433, + "learning_rate": 1.6054826666666668e-05, + "loss": 0.0164, + "step": 92465 + }, + { + "epoch": 0.591808, + "grad_norm": 2.1521542072296143, + "learning_rate": 1.6054613333333336e-05, + "loss": 0.0148, + "step": 92470 + }, + { + "epoch": 0.59184, + "grad_norm": 0.4408103823661804, + "learning_rate": 1.60544e-05, + "loss": 0.0182, + "step": 92475 + }, + { + "epoch": 0.591872, + "grad_norm": 6.161107540130615, + "learning_rate": 1.6054186666666668e-05, + "loss": 0.0288, + "step": 92480 + }, + { + "epoch": 0.591904, + "grad_norm": 0.6308736205101013, + "learning_rate": 1.6053973333333335e-05, + "loss": 0.0117, + "step": 92485 + }, + { + "epoch": 0.591936, + "grad_norm": 0.07151670008897781, + "learning_rate": 1.605376e-05, + "loss": 0.0216, + "step": 92490 + }, + { + "epoch": 0.591968, + "grad_norm": 0.3274558484554291, + "learning_rate": 1.6053546666666667e-05, + "loss": 0.0271, + "step": 92495 + }, + { + "epoch": 0.592, + "grad_norm": 0.425713449716568, + "learning_rate": 1.6053333333333334e-05, + "loss": 0.0168, + "step": 92500 + }, + { + "epoch": 0.592032, + "grad_norm": 1.609761118888855, + "learning_rate": 1.6053120000000002e-05, + "loss": 0.0219, + "step": 92505 + }, + { + "epoch": 0.592064, + "grad_norm": 0.6748943328857422, + "learning_rate": 1.6052906666666666e-05, + "loss": 0.0222, + "step": 92510 + }, + { + "epoch": 0.592096, + "grad_norm": 0.5175104141235352, + "learning_rate": 1.6052693333333337e-05, + "loss": 0.0151, + "step": 92515 + }, + { + "epoch": 0.592128, + "grad_norm": 0.06048330292105675, + "learning_rate": 1.605248e-05, + "loss": 0.0185, + "step": 92520 + }, + { + "epoch": 0.59216, + "grad_norm": 0.6031408309936523, + "learning_rate": 1.605226666666667e-05, + "loss": 0.0146, + "step": 92525 + }, + { + "epoch": 0.592192, + "grad_norm": 0.07735477387905121, + "learning_rate": 1.6052053333333336e-05, + "loss": 0.0115, + "step": 92530 + }, + { + "epoch": 0.592224, + "grad_norm": 1.7601351737976074, + "learning_rate": 1.605184e-05, + "loss": 0.0187, + "step": 92535 + }, + { + "epoch": 0.592256, + "grad_norm": 0.2393263280391693, + "learning_rate": 1.6051626666666668e-05, + "loss": 0.0205, + "step": 92540 + }, + { + "epoch": 0.592288, + "grad_norm": 0.5659306645393372, + "learning_rate": 1.6051413333333336e-05, + "loss": 0.0198, + "step": 92545 + }, + { + "epoch": 0.59232, + "grad_norm": 0.1457635760307312, + "learning_rate": 1.6051200000000003e-05, + "loss": 0.0104, + "step": 92550 + }, + { + "epoch": 0.592352, + "grad_norm": 0.49093079566955566, + "learning_rate": 1.6050986666666667e-05, + "loss": 0.0165, + "step": 92555 + }, + { + "epoch": 0.592384, + "grad_norm": 0.6962445378303528, + "learning_rate": 1.6050773333333335e-05, + "loss": 0.0156, + "step": 92560 + }, + { + "epoch": 0.592416, + "grad_norm": 0.10412763059139252, + "learning_rate": 1.6050560000000002e-05, + "loss": 0.0082, + "step": 92565 + }, + { + "epoch": 0.592448, + "grad_norm": 0.39106637239456177, + "learning_rate": 1.6050346666666667e-05, + "loss": 0.0207, + "step": 92570 + }, + { + "epoch": 0.59248, + "grad_norm": 1.4226694107055664, + "learning_rate": 1.6050133333333334e-05, + "loss": 0.0316, + "step": 92575 + }, + { + "epoch": 0.592512, + "grad_norm": 0.6492220163345337, + "learning_rate": 1.604992e-05, + "loss": 0.0183, + "step": 92580 + }, + { + "epoch": 0.592544, + "grad_norm": 0.05004018172621727, + "learning_rate": 1.604970666666667e-05, + "loss": 0.0146, + "step": 92585 + }, + { + "epoch": 0.592576, + "grad_norm": 0.08235073834657669, + "learning_rate": 1.6049493333333333e-05, + "loss": 0.0226, + "step": 92590 + }, + { + "epoch": 0.592608, + "grad_norm": 0.9897251725196838, + "learning_rate": 1.604928e-05, + "loss": 0.0173, + "step": 92595 + }, + { + "epoch": 0.59264, + "grad_norm": 0.8115825057029724, + "learning_rate": 1.604906666666667e-05, + "loss": 0.0086, + "step": 92600 + }, + { + "epoch": 0.592672, + "grad_norm": 0.10442716628313065, + "learning_rate": 1.6048853333333333e-05, + "loss": 0.0148, + "step": 92605 + }, + { + "epoch": 0.592704, + "grad_norm": 0.21318189799785614, + "learning_rate": 1.6048640000000004e-05, + "loss": 0.0205, + "step": 92610 + }, + { + "epoch": 0.592736, + "grad_norm": 0.21867252886295319, + "learning_rate": 1.6048426666666668e-05, + "loss": 0.0126, + "step": 92615 + }, + { + "epoch": 0.592768, + "grad_norm": 1.1955817937850952, + "learning_rate": 1.6048213333333335e-05, + "loss": 0.0202, + "step": 92620 + }, + { + "epoch": 0.5928, + "grad_norm": 0.5879036784172058, + "learning_rate": 1.6048000000000003e-05, + "loss": 0.0121, + "step": 92625 + }, + { + "epoch": 0.592832, + "grad_norm": 0.09554218500852585, + "learning_rate": 1.6047786666666667e-05, + "loss": 0.0119, + "step": 92630 + }, + { + "epoch": 0.592864, + "grad_norm": 0.37889501452445984, + "learning_rate": 1.6047573333333335e-05, + "loss": 0.0069, + "step": 92635 + }, + { + "epoch": 0.592896, + "grad_norm": 0.5598084926605225, + "learning_rate": 1.6047360000000002e-05, + "loss": 0.0136, + "step": 92640 + }, + { + "epoch": 0.592928, + "grad_norm": 0.728015124797821, + "learning_rate": 1.604714666666667e-05, + "loss": 0.0264, + "step": 92645 + }, + { + "epoch": 0.59296, + "grad_norm": 0.09087957441806793, + "learning_rate": 1.6046933333333334e-05, + "loss": 0.021, + "step": 92650 + }, + { + "epoch": 0.592992, + "grad_norm": 1.1419709920883179, + "learning_rate": 1.604672e-05, + "loss": 0.02, + "step": 92655 + }, + { + "epoch": 0.593024, + "grad_norm": 1.3992892503738403, + "learning_rate": 1.604650666666667e-05, + "loss": 0.0377, + "step": 92660 + }, + { + "epoch": 0.593056, + "grad_norm": 2.003889560699463, + "learning_rate": 1.6046293333333333e-05, + "loss": 0.0143, + "step": 92665 + }, + { + "epoch": 0.593088, + "grad_norm": 0.25474417209625244, + "learning_rate": 1.604608e-05, + "loss": 0.023, + "step": 92670 + }, + { + "epoch": 0.59312, + "grad_norm": 0.291048139333725, + "learning_rate": 1.6045866666666668e-05, + "loss": 0.0141, + "step": 92675 + }, + { + "epoch": 0.593152, + "grad_norm": 0.26218026876449585, + "learning_rate": 1.6045653333333336e-05, + "loss": 0.0248, + "step": 92680 + }, + { + "epoch": 0.593184, + "grad_norm": 0.637064516544342, + "learning_rate": 1.604544e-05, + "loss": 0.0155, + "step": 92685 + }, + { + "epoch": 0.593216, + "grad_norm": 1.6289687156677246, + "learning_rate": 1.6045226666666668e-05, + "loss": 0.0211, + "step": 92690 + }, + { + "epoch": 0.593248, + "grad_norm": 0.3697628974914551, + "learning_rate": 1.6045013333333335e-05, + "loss": 0.0184, + "step": 92695 + }, + { + "epoch": 0.59328, + "grad_norm": 0.9204807281494141, + "learning_rate": 1.60448e-05, + "loss": 0.0206, + "step": 92700 + }, + { + "epoch": 0.593312, + "grad_norm": 0.40716150403022766, + "learning_rate": 1.6044586666666667e-05, + "loss": 0.0076, + "step": 92705 + }, + { + "epoch": 0.593344, + "grad_norm": 0.7507596015930176, + "learning_rate": 1.6044373333333334e-05, + "loss": 0.0141, + "step": 92710 + }, + { + "epoch": 0.593376, + "grad_norm": 0.689344048500061, + "learning_rate": 1.6044160000000002e-05, + "loss": 0.0107, + "step": 92715 + }, + { + "epoch": 0.593408, + "grad_norm": 0.5444225668907166, + "learning_rate": 1.6043946666666666e-05, + "loss": 0.0193, + "step": 92720 + }, + { + "epoch": 0.59344, + "grad_norm": 0.9222080707550049, + "learning_rate": 1.6043733333333337e-05, + "loss": 0.0132, + "step": 92725 + }, + { + "epoch": 0.593472, + "grad_norm": 0.6385986804962158, + "learning_rate": 1.604352e-05, + "loss": 0.0169, + "step": 92730 + }, + { + "epoch": 0.593504, + "grad_norm": 0.08967249095439911, + "learning_rate": 1.6043306666666665e-05, + "loss": 0.0252, + "step": 92735 + }, + { + "epoch": 0.593536, + "grad_norm": 0.11706027388572693, + "learning_rate": 1.6043093333333336e-05, + "loss": 0.0099, + "step": 92740 + }, + { + "epoch": 0.593568, + "grad_norm": 0.029126344248652458, + "learning_rate": 1.604288e-05, + "loss": 0.0061, + "step": 92745 + }, + { + "epoch": 0.5936, + "grad_norm": 0.48920518159866333, + "learning_rate": 1.6042666666666668e-05, + "loss": 0.0035, + "step": 92750 + }, + { + "epoch": 0.593632, + "grad_norm": 0.03849882259964943, + "learning_rate": 1.6042453333333336e-05, + "loss": 0.0068, + "step": 92755 + }, + { + "epoch": 0.593664, + "grad_norm": 0.08644834905862808, + "learning_rate": 1.6042240000000003e-05, + "loss": 0.0241, + "step": 92760 + }, + { + "epoch": 0.593696, + "grad_norm": 0.17046764492988586, + "learning_rate": 1.6042026666666667e-05, + "loss": 0.0111, + "step": 92765 + }, + { + "epoch": 0.593728, + "grad_norm": 0.17338573932647705, + "learning_rate": 1.6041813333333335e-05, + "loss": 0.0073, + "step": 92770 + }, + { + "epoch": 0.59376, + "grad_norm": 0.6453655362129211, + "learning_rate": 1.6041600000000002e-05, + "loss": 0.0141, + "step": 92775 + }, + { + "epoch": 0.593792, + "grad_norm": 0.19711019098758698, + "learning_rate": 1.6041386666666667e-05, + "loss": 0.0052, + "step": 92780 + }, + { + "epoch": 0.593824, + "grad_norm": 0.06325377523899078, + "learning_rate": 1.6041173333333334e-05, + "loss": 0.0192, + "step": 92785 + }, + { + "epoch": 0.593856, + "grad_norm": 0.15204556286334991, + "learning_rate": 1.604096e-05, + "loss": 0.0164, + "step": 92790 + }, + { + "epoch": 0.593888, + "grad_norm": 0.24780230224132538, + "learning_rate": 1.604074666666667e-05, + "loss": 0.0103, + "step": 92795 + }, + { + "epoch": 0.59392, + "grad_norm": 1.052439570426941, + "learning_rate": 1.6040533333333333e-05, + "loss": 0.0119, + "step": 92800 + }, + { + "epoch": 0.593952, + "grad_norm": 0.28195229172706604, + "learning_rate": 1.604032e-05, + "loss": 0.0382, + "step": 92805 + }, + { + "epoch": 0.593984, + "grad_norm": 0.3491574227809906, + "learning_rate": 1.604010666666667e-05, + "loss": 0.0069, + "step": 92810 + }, + { + "epoch": 0.594016, + "grad_norm": 0.4858323335647583, + "learning_rate": 1.6039893333333333e-05, + "loss": 0.0085, + "step": 92815 + }, + { + "epoch": 0.594048, + "grad_norm": 0.13938024640083313, + "learning_rate": 1.603968e-05, + "loss": 0.0073, + "step": 92820 + }, + { + "epoch": 0.59408, + "grad_norm": 0.14607660472393036, + "learning_rate": 1.6039466666666668e-05, + "loss": 0.0591, + "step": 92825 + }, + { + "epoch": 0.594112, + "grad_norm": 0.5162631273269653, + "learning_rate": 1.6039253333333335e-05, + "loss": 0.0123, + "step": 92830 + }, + { + "epoch": 0.594144, + "grad_norm": 1.020225167274475, + "learning_rate": 1.6039040000000003e-05, + "loss": 0.0219, + "step": 92835 + }, + { + "epoch": 0.594176, + "grad_norm": 0.08937293291091919, + "learning_rate": 1.6038826666666667e-05, + "loss": 0.0065, + "step": 92840 + }, + { + "epoch": 0.594208, + "grad_norm": 0.4349089562892914, + "learning_rate": 1.6038613333333335e-05, + "loss": 0.0081, + "step": 92845 + }, + { + "epoch": 0.59424, + "grad_norm": 0.38614755868911743, + "learning_rate": 1.6038400000000002e-05, + "loss": 0.0114, + "step": 92850 + }, + { + "epoch": 0.594272, + "grad_norm": 0.5901859998703003, + "learning_rate": 1.603818666666667e-05, + "loss": 0.0087, + "step": 92855 + }, + { + "epoch": 0.594304, + "grad_norm": 0.3226154148578644, + "learning_rate": 1.6037973333333334e-05, + "loss": 0.0045, + "step": 92860 + }, + { + "epoch": 0.594336, + "grad_norm": 0.06672366708517075, + "learning_rate": 1.603776e-05, + "loss": 0.0099, + "step": 92865 + }, + { + "epoch": 0.594368, + "grad_norm": 5.154798984527588, + "learning_rate": 1.603754666666667e-05, + "loss": 0.0283, + "step": 92870 + }, + { + "epoch": 0.5944, + "grad_norm": 0.22192922234535217, + "learning_rate": 1.6037333333333333e-05, + "loss": 0.0188, + "step": 92875 + }, + { + "epoch": 0.594432, + "grad_norm": 0.2102554738521576, + "learning_rate": 1.603712e-05, + "loss": 0.0174, + "step": 92880 + }, + { + "epoch": 0.594464, + "grad_norm": 2.335522174835205, + "learning_rate": 1.6036906666666668e-05, + "loss": 0.0349, + "step": 92885 + }, + { + "epoch": 0.594496, + "grad_norm": 0.587958037853241, + "learning_rate": 1.6036693333333336e-05, + "loss": 0.0139, + "step": 92890 + }, + { + "epoch": 0.594528, + "grad_norm": 0.19483447074890137, + "learning_rate": 1.603648e-05, + "loss": 0.0079, + "step": 92895 + }, + { + "epoch": 0.59456, + "grad_norm": 0.33474797010421753, + "learning_rate": 1.6036266666666668e-05, + "loss": 0.0093, + "step": 92900 + }, + { + "epoch": 0.594592, + "grad_norm": 0.6230043172836304, + "learning_rate": 1.6036053333333335e-05, + "loss": 0.0126, + "step": 92905 + }, + { + "epoch": 0.594624, + "grad_norm": 0.6352638006210327, + "learning_rate": 1.603584e-05, + "loss": 0.0267, + "step": 92910 + }, + { + "epoch": 0.594656, + "grad_norm": 1.571302056312561, + "learning_rate": 1.6035626666666667e-05, + "loss": 0.0177, + "step": 92915 + }, + { + "epoch": 0.594688, + "grad_norm": 2.3727877140045166, + "learning_rate": 1.6035413333333334e-05, + "loss": 0.0217, + "step": 92920 + }, + { + "epoch": 0.59472, + "grad_norm": 0.7321924567222595, + "learning_rate": 1.6035200000000002e-05, + "loss": 0.0176, + "step": 92925 + }, + { + "epoch": 0.594752, + "grad_norm": 0.8986292481422424, + "learning_rate": 1.6034986666666666e-05, + "loss": 0.0185, + "step": 92930 + }, + { + "epoch": 0.594784, + "grad_norm": 1.0179288387298584, + "learning_rate": 1.6034773333333337e-05, + "loss": 0.0163, + "step": 92935 + }, + { + "epoch": 0.594816, + "grad_norm": 0.06422565132379532, + "learning_rate": 1.603456e-05, + "loss": 0.0169, + "step": 92940 + }, + { + "epoch": 0.594848, + "grad_norm": 1.5293350219726562, + "learning_rate": 1.6034346666666665e-05, + "loss": 0.0164, + "step": 92945 + }, + { + "epoch": 0.59488, + "grad_norm": 0.3952597379684448, + "learning_rate": 1.6034133333333336e-05, + "loss": 0.0163, + "step": 92950 + }, + { + "epoch": 0.594912, + "grad_norm": 2.322629690170288, + "learning_rate": 1.603392e-05, + "loss": 0.0165, + "step": 92955 + }, + { + "epoch": 0.594944, + "grad_norm": 0.8274943232536316, + "learning_rate": 1.6033706666666668e-05, + "loss": 0.0197, + "step": 92960 + }, + { + "epoch": 0.594976, + "grad_norm": 0.7009426355361938, + "learning_rate": 1.6033493333333336e-05, + "loss": 0.0207, + "step": 92965 + }, + { + "epoch": 0.595008, + "grad_norm": 0.3537408113479614, + "learning_rate": 1.6033280000000003e-05, + "loss": 0.014, + "step": 92970 + }, + { + "epoch": 0.59504, + "grad_norm": 0.9248809814453125, + "learning_rate": 1.6033066666666667e-05, + "loss": 0.0262, + "step": 92975 + }, + { + "epoch": 0.595072, + "grad_norm": 0.2515448033809662, + "learning_rate": 1.6032853333333335e-05, + "loss": 0.0381, + "step": 92980 + }, + { + "epoch": 0.595104, + "grad_norm": 0.46937063336372375, + "learning_rate": 1.6032640000000002e-05, + "loss": 0.0111, + "step": 92985 + }, + { + "epoch": 0.595136, + "grad_norm": 0.22967147827148438, + "learning_rate": 1.6032426666666667e-05, + "loss": 0.0171, + "step": 92990 + }, + { + "epoch": 0.595168, + "grad_norm": 0.49260246753692627, + "learning_rate": 1.6032213333333334e-05, + "loss": 0.0163, + "step": 92995 + }, + { + "epoch": 0.5952, + "grad_norm": 0.07336394488811493, + "learning_rate": 1.6032e-05, + "loss": 0.0155, + "step": 93000 + }, + { + "epoch": 0.595232, + "grad_norm": 0.589492678642273, + "learning_rate": 1.603178666666667e-05, + "loss": 0.0136, + "step": 93005 + }, + { + "epoch": 0.595264, + "grad_norm": 0.03143617883324623, + "learning_rate": 1.6031573333333333e-05, + "loss": 0.0208, + "step": 93010 + }, + { + "epoch": 0.595296, + "grad_norm": 0.7190346717834473, + "learning_rate": 1.603136e-05, + "loss": 0.0124, + "step": 93015 + }, + { + "epoch": 0.595328, + "grad_norm": 0.4452735483646393, + "learning_rate": 1.603114666666667e-05, + "loss": 0.008, + "step": 93020 + }, + { + "epoch": 0.59536, + "grad_norm": 0.9332335591316223, + "learning_rate": 1.6030933333333333e-05, + "loss": 0.0196, + "step": 93025 + }, + { + "epoch": 0.595392, + "grad_norm": 0.9455219507217407, + "learning_rate": 1.603072e-05, + "loss": 0.009, + "step": 93030 + }, + { + "epoch": 0.595424, + "grad_norm": 3.667738437652588, + "learning_rate": 1.6030506666666668e-05, + "loss": 0.0283, + "step": 93035 + }, + { + "epoch": 0.595456, + "grad_norm": 0.6467164754867554, + "learning_rate": 1.6030293333333335e-05, + "loss": 0.0054, + "step": 93040 + }, + { + "epoch": 0.595488, + "grad_norm": 1.594451904296875, + "learning_rate": 1.603008e-05, + "loss": 0.0116, + "step": 93045 + }, + { + "epoch": 0.59552, + "grad_norm": 0.5955331325531006, + "learning_rate": 1.6029866666666667e-05, + "loss": 0.0097, + "step": 93050 + }, + { + "epoch": 0.595552, + "grad_norm": 0.9820345044136047, + "learning_rate": 1.6029653333333335e-05, + "loss": 0.0151, + "step": 93055 + }, + { + "epoch": 0.595584, + "grad_norm": 0.6424056887626648, + "learning_rate": 1.6029440000000002e-05, + "loss": 0.0155, + "step": 93060 + }, + { + "epoch": 0.595616, + "grad_norm": 0.17181143164634705, + "learning_rate": 1.602922666666667e-05, + "loss": 0.0087, + "step": 93065 + }, + { + "epoch": 0.595648, + "grad_norm": 1.040124773979187, + "learning_rate": 1.6029013333333334e-05, + "loss": 0.0189, + "step": 93070 + }, + { + "epoch": 0.59568, + "grad_norm": 0.07791191339492798, + "learning_rate": 1.60288e-05, + "loss": 0.0091, + "step": 93075 + }, + { + "epoch": 0.595712, + "grad_norm": 1.1345727443695068, + "learning_rate": 1.602858666666667e-05, + "loss": 0.0263, + "step": 93080 + }, + { + "epoch": 0.595744, + "grad_norm": 0.8243845701217651, + "learning_rate": 1.6028373333333333e-05, + "loss": 0.029, + "step": 93085 + }, + { + "epoch": 0.595776, + "grad_norm": 0.861133873462677, + "learning_rate": 1.602816e-05, + "loss": 0.0221, + "step": 93090 + }, + { + "epoch": 0.595808, + "grad_norm": 0.6427109241485596, + "learning_rate": 1.6027946666666668e-05, + "loss": 0.0311, + "step": 93095 + }, + { + "epoch": 0.59584, + "grad_norm": 0.7209858894348145, + "learning_rate": 1.6027733333333336e-05, + "loss": 0.0147, + "step": 93100 + }, + { + "epoch": 0.595872, + "grad_norm": 0.07469997555017471, + "learning_rate": 1.602752e-05, + "loss": 0.0102, + "step": 93105 + }, + { + "epoch": 0.595904, + "grad_norm": 1.3111525774002075, + "learning_rate": 1.6027306666666668e-05, + "loss": 0.0253, + "step": 93110 + }, + { + "epoch": 0.595936, + "grad_norm": 0.8922929763793945, + "learning_rate": 1.6027093333333335e-05, + "loss": 0.0233, + "step": 93115 + }, + { + "epoch": 0.595968, + "grad_norm": 0.5432797074317932, + "learning_rate": 1.602688e-05, + "loss": 0.0155, + "step": 93120 + }, + { + "epoch": 0.596, + "grad_norm": 0.20651362836360931, + "learning_rate": 1.6026666666666667e-05, + "loss": 0.0124, + "step": 93125 + }, + { + "epoch": 0.596032, + "grad_norm": 0.7109828591346741, + "learning_rate": 1.6026453333333334e-05, + "loss": 0.0204, + "step": 93130 + }, + { + "epoch": 0.596064, + "grad_norm": 0.4044387638568878, + "learning_rate": 1.6026240000000002e-05, + "loss": 0.0242, + "step": 93135 + }, + { + "epoch": 0.596096, + "grad_norm": 10.250713348388672, + "learning_rate": 1.6026026666666666e-05, + "loss": 0.0284, + "step": 93140 + }, + { + "epoch": 0.596128, + "grad_norm": 0.8918135762214661, + "learning_rate": 1.6025813333333337e-05, + "loss": 0.0282, + "step": 93145 + }, + { + "epoch": 0.59616, + "grad_norm": 0.18183781206607819, + "learning_rate": 1.60256e-05, + "loss": 0.0045, + "step": 93150 + }, + { + "epoch": 0.596192, + "grad_norm": 0.20284277200698853, + "learning_rate": 1.6025386666666665e-05, + "loss": 0.0079, + "step": 93155 + }, + { + "epoch": 0.596224, + "grad_norm": 0.8426037430763245, + "learning_rate": 1.6025173333333336e-05, + "loss": 0.0159, + "step": 93160 + }, + { + "epoch": 0.596256, + "grad_norm": 0.04411469027400017, + "learning_rate": 1.602496e-05, + "loss": 0.0182, + "step": 93165 + }, + { + "epoch": 0.596288, + "grad_norm": 0.6453974843025208, + "learning_rate": 1.6024746666666668e-05, + "loss": 0.0229, + "step": 93170 + }, + { + "epoch": 0.59632, + "grad_norm": 0.5937280654907227, + "learning_rate": 1.6024533333333336e-05, + "loss": 0.016, + "step": 93175 + }, + { + "epoch": 0.596352, + "grad_norm": 0.09868645668029785, + "learning_rate": 1.6024320000000003e-05, + "loss": 0.0259, + "step": 93180 + }, + { + "epoch": 0.596384, + "grad_norm": 0.15864765644073486, + "learning_rate": 1.6024106666666667e-05, + "loss": 0.0164, + "step": 93185 + }, + { + "epoch": 0.596416, + "grad_norm": 0.02377825602889061, + "learning_rate": 1.6023893333333335e-05, + "loss": 0.0096, + "step": 93190 + }, + { + "epoch": 0.596448, + "grad_norm": 0.02616686373949051, + "learning_rate": 1.6023680000000002e-05, + "loss": 0.0128, + "step": 93195 + }, + { + "epoch": 0.59648, + "grad_norm": 0.20203445851802826, + "learning_rate": 1.6023466666666667e-05, + "loss": 0.0084, + "step": 93200 + }, + { + "epoch": 0.596512, + "grad_norm": 0.736224889755249, + "learning_rate": 1.6023253333333334e-05, + "loss": 0.0349, + "step": 93205 + }, + { + "epoch": 0.596544, + "grad_norm": 0.4052475392818451, + "learning_rate": 1.602304e-05, + "loss": 0.0099, + "step": 93210 + }, + { + "epoch": 0.596576, + "grad_norm": 0.6743244528770447, + "learning_rate": 1.602282666666667e-05, + "loss": 0.0137, + "step": 93215 + }, + { + "epoch": 0.596608, + "grad_norm": 0.36110028624534607, + "learning_rate": 1.6022613333333333e-05, + "loss": 0.016, + "step": 93220 + }, + { + "epoch": 0.59664, + "grad_norm": 0.6630631685256958, + "learning_rate": 1.60224e-05, + "loss": 0.0223, + "step": 93225 + }, + { + "epoch": 0.596672, + "grad_norm": 0.19672739505767822, + "learning_rate": 1.602218666666667e-05, + "loss": 0.0211, + "step": 93230 + }, + { + "epoch": 0.596704, + "grad_norm": 0.4598075747489929, + "learning_rate": 1.6021973333333333e-05, + "loss": 0.0169, + "step": 93235 + }, + { + "epoch": 0.596736, + "grad_norm": 0.5770881772041321, + "learning_rate": 1.602176e-05, + "loss": 0.0272, + "step": 93240 + }, + { + "epoch": 0.596768, + "grad_norm": 0.6781526803970337, + "learning_rate": 1.6021546666666668e-05, + "loss": 0.0163, + "step": 93245 + }, + { + "epoch": 0.5968, + "grad_norm": 0.36828622221946716, + "learning_rate": 1.6021333333333335e-05, + "loss": 0.0185, + "step": 93250 + }, + { + "epoch": 0.596832, + "grad_norm": 0.6556254029273987, + "learning_rate": 1.602112e-05, + "loss": 0.0092, + "step": 93255 + }, + { + "epoch": 0.596864, + "grad_norm": 0.5363777279853821, + "learning_rate": 1.602090666666667e-05, + "loss": 0.0232, + "step": 93260 + }, + { + "epoch": 0.596896, + "grad_norm": 0.3211568295955658, + "learning_rate": 1.6020693333333335e-05, + "loss": 0.0093, + "step": 93265 + }, + { + "epoch": 0.596928, + "grad_norm": 0.27482324838638306, + "learning_rate": 1.6020480000000002e-05, + "loss": 0.0079, + "step": 93270 + }, + { + "epoch": 0.59696, + "grad_norm": 0.3824959695339203, + "learning_rate": 1.602026666666667e-05, + "loss": 0.0104, + "step": 93275 + }, + { + "epoch": 0.596992, + "grad_norm": 1.2783584594726562, + "learning_rate": 1.6020053333333334e-05, + "loss": 0.0121, + "step": 93280 + }, + { + "epoch": 0.597024, + "grad_norm": 0.27998417615890503, + "learning_rate": 1.601984e-05, + "loss": 0.0229, + "step": 93285 + }, + { + "epoch": 0.597056, + "grad_norm": 0.45602938532829285, + "learning_rate": 1.601962666666667e-05, + "loss": 0.0122, + "step": 93290 + }, + { + "epoch": 0.597088, + "grad_norm": 0.12723073363304138, + "learning_rate": 1.6019413333333337e-05, + "loss": 0.0052, + "step": 93295 + }, + { + "epoch": 0.59712, + "grad_norm": 0.14972783625125885, + "learning_rate": 1.60192e-05, + "loss": 0.0053, + "step": 93300 + }, + { + "epoch": 0.597152, + "grad_norm": 0.08800121396780014, + "learning_rate": 1.6018986666666668e-05, + "loss": 0.0114, + "step": 93305 + }, + { + "epoch": 0.597184, + "grad_norm": 0.2370704561471939, + "learning_rate": 1.6018773333333336e-05, + "loss": 0.0095, + "step": 93310 + }, + { + "epoch": 0.597216, + "grad_norm": 0.48316237330436707, + "learning_rate": 1.601856e-05, + "loss": 0.0156, + "step": 93315 + }, + { + "epoch": 0.597248, + "grad_norm": 0.20054808259010315, + "learning_rate": 1.6018346666666668e-05, + "loss": 0.0128, + "step": 93320 + }, + { + "epoch": 0.59728, + "grad_norm": 0.7046163082122803, + "learning_rate": 1.6018133333333335e-05, + "loss": 0.0162, + "step": 93325 + }, + { + "epoch": 0.597312, + "grad_norm": 0.901192307472229, + "learning_rate": 1.6017920000000003e-05, + "loss": 0.0121, + "step": 93330 + }, + { + "epoch": 0.597344, + "grad_norm": 0.30200251936912537, + "learning_rate": 1.6017706666666667e-05, + "loss": 0.0101, + "step": 93335 + }, + { + "epoch": 0.597376, + "grad_norm": 0.41570422053337097, + "learning_rate": 1.6017493333333334e-05, + "loss": 0.0305, + "step": 93340 + }, + { + "epoch": 0.597408, + "grad_norm": 0.9993859529495239, + "learning_rate": 1.6017280000000002e-05, + "loss": 0.0172, + "step": 93345 + }, + { + "epoch": 0.59744, + "grad_norm": 0.7251864075660706, + "learning_rate": 1.6017066666666666e-05, + "loss": 0.0096, + "step": 93350 + }, + { + "epoch": 0.597472, + "grad_norm": 0.2278088927268982, + "learning_rate": 1.6016853333333337e-05, + "loss": 0.0082, + "step": 93355 + }, + { + "epoch": 0.597504, + "grad_norm": 0.8232221603393555, + "learning_rate": 1.601664e-05, + "loss": 0.0197, + "step": 93360 + }, + { + "epoch": 0.597536, + "grad_norm": 0.41215190291404724, + "learning_rate": 1.601642666666667e-05, + "loss": 0.0165, + "step": 93365 + }, + { + "epoch": 0.597568, + "grad_norm": 0.5850323438644409, + "learning_rate": 1.6016213333333336e-05, + "loss": 0.0093, + "step": 93370 + }, + { + "epoch": 0.5976, + "grad_norm": 0.10923094302415848, + "learning_rate": 1.6016e-05, + "loss": 0.0131, + "step": 93375 + }, + { + "epoch": 0.597632, + "grad_norm": 1.6598711013793945, + "learning_rate": 1.6015786666666668e-05, + "loss": 0.0097, + "step": 93380 + }, + { + "epoch": 0.597664, + "grad_norm": 0.3800485134124756, + "learning_rate": 1.6015573333333336e-05, + "loss": 0.0266, + "step": 93385 + }, + { + "epoch": 0.597696, + "grad_norm": 0.37380582094192505, + "learning_rate": 1.6015360000000003e-05, + "loss": 0.0106, + "step": 93390 + }, + { + "epoch": 0.597728, + "grad_norm": 1.9640567302703857, + "learning_rate": 1.6015146666666667e-05, + "loss": 0.0231, + "step": 93395 + }, + { + "epoch": 0.59776, + "grad_norm": 0.34967565536499023, + "learning_rate": 1.6014933333333335e-05, + "loss": 0.0123, + "step": 93400 + }, + { + "epoch": 0.597792, + "grad_norm": 0.38719460368156433, + "learning_rate": 1.6014720000000002e-05, + "loss": 0.0114, + "step": 93405 + }, + { + "epoch": 0.597824, + "grad_norm": 0.16984407603740692, + "learning_rate": 1.6014506666666667e-05, + "loss": 0.034, + "step": 93410 + }, + { + "epoch": 0.597856, + "grad_norm": 0.09631401300430298, + "learning_rate": 1.6014293333333334e-05, + "loss": 0.0173, + "step": 93415 + }, + { + "epoch": 0.597888, + "grad_norm": 0.36375555396080017, + "learning_rate": 1.601408e-05, + "loss": 0.0134, + "step": 93420 + }, + { + "epoch": 0.59792, + "grad_norm": 1.3738925457000732, + "learning_rate": 1.601386666666667e-05, + "loss": 0.0295, + "step": 93425 + }, + { + "epoch": 0.597952, + "grad_norm": 0.5880947113037109, + "learning_rate": 1.6013653333333333e-05, + "loss": 0.0152, + "step": 93430 + }, + { + "epoch": 0.597984, + "grad_norm": 0.5472456812858582, + "learning_rate": 1.601344e-05, + "loss": 0.0174, + "step": 93435 + }, + { + "epoch": 0.598016, + "grad_norm": 0.6582221984863281, + "learning_rate": 1.601322666666667e-05, + "loss": 0.0137, + "step": 93440 + }, + { + "epoch": 0.598048, + "grad_norm": 0.5577594041824341, + "learning_rate": 1.6013013333333333e-05, + "loss": 0.0194, + "step": 93445 + }, + { + "epoch": 0.59808, + "grad_norm": 0.1765238344669342, + "learning_rate": 1.60128e-05, + "loss": 0.0099, + "step": 93450 + }, + { + "epoch": 0.598112, + "grad_norm": 0.0933576375246048, + "learning_rate": 1.6012586666666668e-05, + "loss": 0.011, + "step": 93455 + }, + { + "epoch": 0.598144, + "grad_norm": 0.14766985177993774, + "learning_rate": 1.6012373333333335e-05, + "loss": 0.0081, + "step": 93460 + }, + { + "epoch": 0.598176, + "grad_norm": 0.17510810494422913, + "learning_rate": 1.601216e-05, + "loss": 0.0092, + "step": 93465 + }, + { + "epoch": 0.598208, + "grad_norm": 1.3434855937957764, + "learning_rate": 1.601194666666667e-05, + "loss": 0.0181, + "step": 93470 + }, + { + "epoch": 0.59824, + "grad_norm": 0.5180147886276245, + "learning_rate": 1.6011733333333335e-05, + "loss": 0.0066, + "step": 93475 + }, + { + "epoch": 0.598272, + "grad_norm": 1.1692205667495728, + "learning_rate": 1.601152e-05, + "loss": 0.0196, + "step": 93480 + }, + { + "epoch": 0.598304, + "grad_norm": 0.3614851236343384, + "learning_rate": 1.601130666666667e-05, + "loss": 0.0126, + "step": 93485 + }, + { + "epoch": 0.598336, + "grad_norm": 1.1552268266677856, + "learning_rate": 1.6011093333333334e-05, + "loss": 0.0128, + "step": 93490 + }, + { + "epoch": 0.598368, + "grad_norm": 0.11093543469905853, + "learning_rate": 1.601088e-05, + "loss": 0.0271, + "step": 93495 + }, + { + "epoch": 0.5984, + "grad_norm": 1.0972955226898193, + "learning_rate": 1.601066666666667e-05, + "loss": 0.0354, + "step": 93500 + }, + { + "epoch": 0.598432, + "grad_norm": 0.3607398569583893, + "learning_rate": 1.6010453333333337e-05, + "loss": 0.0231, + "step": 93505 + }, + { + "epoch": 0.598464, + "grad_norm": 0.14224056899547577, + "learning_rate": 1.601024e-05, + "loss": 0.0489, + "step": 93510 + }, + { + "epoch": 0.598496, + "grad_norm": 0.230063796043396, + "learning_rate": 1.6010026666666668e-05, + "loss": 0.015, + "step": 93515 + }, + { + "epoch": 0.598528, + "grad_norm": 0.9944371581077576, + "learning_rate": 1.6009813333333336e-05, + "loss": 0.0253, + "step": 93520 + }, + { + "epoch": 0.59856, + "grad_norm": 0.46993130445480347, + "learning_rate": 1.60096e-05, + "loss": 0.0131, + "step": 93525 + }, + { + "epoch": 0.598592, + "grad_norm": 1.1882743835449219, + "learning_rate": 1.6009386666666668e-05, + "loss": 0.0159, + "step": 93530 + }, + { + "epoch": 0.598624, + "grad_norm": 0.1962336301803589, + "learning_rate": 1.6009173333333335e-05, + "loss": 0.0145, + "step": 93535 + }, + { + "epoch": 0.598656, + "grad_norm": 4.504781723022461, + "learning_rate": 1.6008960000000003e-05, + "loss": 0.0148, + "step": 93540 + }, + { + "epoch": 0.598688, + "grad_norm": 8.45671558380127, + "learning_rate": 1.6008746666666667e-05, + "loss": 0.0416, + "step": 93545 + }, + { + "epoch": 0.59872, + "grad_norm": 0.5685730576515198, + "learning_rate": 1.6008533333333334e-05, + "loss": 0.0228, + "step": 93550 + }, + { + "epoch": 0.598752, + "grad_norm": 0.024991318583488464, + "learning_rate": 1.6008320000000002e-05, + "loss": 0.0107, + "step": 93555 + }, + { + "epoch": 0.598784, + "grad_norm": 0.6194668412208557, + "learning_rate": 1.6008106666666666e-05, + "loss": 0.0149, + "step": 93560 + }, + { + "epoch": 0.598816, + "grad_norm": 0.9092258810997009, + "learning_rate": 1.6007893333333334e-05, + "loss": 0.0202, + "step": 93565 + }, + { + "epoch": 0.598848, + "grad_norm": 0.30426153540611267, + "learning_rate": 1.600768e-05, + "loss": 0.002, + "step": 93570 + }, + { + "epoch": 0.59888, + "grad_norm": 0.5474815368652344, + "learning_rate": 1.600746666666667e-05, + "loss": 0.0343, + "step": 93575 + }, + { + "epoch": 0.598912, + "grad_norm": 0.42052924633026123, + "learning_rate": 1.6007253333333336e-05, + "loss": 0.0132, + "step": 93580 + }, + { + "epoch": 0.598944, + "grad_norm": 0.29237881302833557, + "learning_rate": 1.600704e-05, + "loss": 0.0226, + "step": 93585 + }, + { + "epoch": 0.598976, + "grad_norm": 0.18766719102859497, + "learning_rate": 1.6006826666666668e-05, + "loss": 0.0054, + "step": 93590 + }, + { + "epoch": 0.599008, + "grad_norm": 1.1204866170883179, + "learning_rate": 1.6006613333333336e-05, + "loss": 0.0154, + "step": 93595 + }, + { + "epoch": 0.59904, + "grad_norm": 0.04461640864610672, + "learning_rate": 1.6006400000000003e-05, + "loss": 0.0218, + "step": 93600 + }, + { + "epoch": 0.599072, + "grad_norm": 0.6401610970497131, + "learning_rate": 1.6006186666666667e-05, + "loss": 0.0105, + "step": 93605 + }, + { + "epoch": 0.599104, + "grad_norm": 0.361359566450119, + "learning_rate": 1.6005973333333335e-05, + "loss": 0.0096, + "step": 93610 + }, + { + "epoch": 0.599136, + "grad_norm": 0.46422991156578064, + "learning_rate": 1.6005760000000002e-05, + "loss": 0.0088, + "step": 93615 + }, + { + "epoch": 0.599168, + "grad_norm": 0.7248538136482239, + "learning_rate": 1.6005546666666667e-05, + "loss": 0.0094, + "step": 93620 + }, + { + "epoch": 0.5992, + "grad_norm": 0.09465814381837845, + "learning_rate": 1.6005333333333334e-05, + "loss": 0.0119, + "step": 93625 + }, + { + "epoch": 0.599232, + "grad_norm": 0.6512946486473083, + "learning_rate": 1.600512e-05, + "loss": 0.0164, + "step": 93630 + }, + { + "epoch": 0.599264, + "grad_norm": 0.09177874028682709, + "learning_rate": 1.600490666666667e-05, + "loss": 0.0182, + "step": 93635 + }, + { + "epoch": 0.599296, + "grad_norm": 0.14572906494140625, + "learning_rate": 1.6004693333333333e-05, + "loss": 0.0317, + "step": 93640 + }, + { + "epoch": 0.599328, + "grad_norm": 0.38660895824432373, + "learning_rate": 1.600448e-05, + "loss": 0.0124, + "step": 93645 + }, + { + "epoch": 0.59936, + "grad_norm": 0.5131832957267761, + "learning_rate": 1.600426666666667e-05, + "loss": 0.0121, + "step": 93650 + }, + { + "epoch": 0.599392, + "grad_norm": 1.0270689725875854, + "learning_rate": 1.6004053333333333e-05, + "loss": 0.0192, + "step": 93655 + }, + { + "epoch": 0.599424, + "grad_norm": 0.6933608651161194, + "learning_rate": 1.600384e-05, + "loss": 0.0338, + "step": 93660 + }, + { + "epoch": 0.599456, + "grad_norm": 0.13309770822525024, + "learning_rate": 1.6003626666666668e-05, + "loss": 0.0109, + "step": 93665 + }, + { + "epoch": 0.599488, + "grad_norm": 0.5357807278633118, + "learning_rate": 1.6003413333333335e-05, + "loss": 0.029, + "step": 93670 + }, + { + "epoch": 0.59952, + "grad_norm": 0.14054936170578003, + "learning_rate": 1.60032e-05, + "loss": 0.0272, + "step": 93675 + }, + { + "epoch": 0.599552, + "grad_norm": 0.19675801694393158, + "learning_rate": 1.600298666666667e-05, + "loss": 0.0156, + "step": 93680 + }, + { + "epoch": 0.599584, + "grad_norm": 0.5983178615570068, + "learning_rate": 1.6002773333333335e-05, + "loss": 0.0135, + "step": 93685 + }, + { + "epoch": 0.599616, + "grad_norm": 0.2730754315853119, + "learning_rate": 1.600256e-05, + "loss": 0.0157, + "step": 93690 + }, + { + "epoch": 0.599648, + "grad_norm": 0.32531362771987915, + "learning_rate": 1.600234666666667e-05, + "loss": 0.0115, + "step": 93695 + }, + { + "epoch": 0.59968, + "grad_norm": 0.5006062388420105, + "learning_rate": 1.6002133333333334e-05, + "loss": 0.0113, + "step": 93700 + }, + { + "epoch": 0.599712, + "grad_norm": 0.2486884593963623, + "learning_rate": 1.600192e-05, + "loss": 0.0144, + "step": 93705 + }, + { + "epoch": 0.599744, + "grad_norm": 0.5234395265579224, + "learning_rate": 1.600170666666667e-05, + "loss": 0.0069, + "step": 93710 + }, + { + "epoch": 0.599776, + "grad_norm": 0.21267853677272797, + "learning_rate": 1.6001493333333337e-05, + "loss": 0.0077, + "step": 93715 + }, + { + "epoch": 0.599808, + "grad_norm": 0.13542556762695312, + "learning_rate": 1.600128e-05, + "loss": 0.008, + "step": 93720 + }, + { + "epoch": 0.59984, + "grad_norm": 1.2223460674285889, + "learning_rate": 1.6001066666666668e-05, + "loss": 0.0202, + "step": 93725 + }, + { + "epoch": 0.599872, + "grad_norm": 0.07985898852348328, + "learning_rate": 1.6000853333333336e-05, + "loss": 0.0172, + "step": 93730 + }, + { + "epoch": 0.599904, + "grad_norm": 0.5019875168800354, + "learning_rate": 1.600064e-05, + "loss": 0.0125, + "step": 93735 + }, + { + "epoch": 0.599936, + "grad_norm": 0.377781480550766, + "learning_rate": 1.6000426666666668e-05, + "loss": 0.0205, + "step": 93740 + }, + { + "epoch": 0.599968, + "grad_norm": 0.9281393885612488, + "learning_rate": 1.6000213333333335e-05, + "loss": 0.0162, + "step": 93745 + }, + { + "epoch": 0.6, + "grad_norm": 0.23742465674877167, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.0132, + "step": 93750 + }, + { + "epoch": 0.600032, + "grad_norm": 0.5414782166481018, + "learning_rate": 1.5999786666666667e-05, + "loss": 0.0188, + "step": 93755 + }, + { + "epoch": 0.600064, + "grad_norm": 0.348112016916275, + "learning_rate": 1.5999573333333334e-05, + "loss": 0.0113, + "step": 93760 + }, + { + "epoch": 0.600096, + "grad_norm": 0.13714365661144257, + "learning_rate": 1.5999360000000002e-05, + "loss": 0.0103, + "step": 93765 + }, + { + "epoch": 0.600128, + "grad_norm": 1.3545461893081665, + "learning_rate": 1.5999146666666666e-05, + "loss": 0.015, + "step": 93770 + }, + { + "epoch": 0.60016, + "grad_norm": 0.8320741057395935, + "learning_rate": 1.5998933333333334e-05, + "loss": 0.0132, + "step": 93775 + }, + { + "epoch": 0.600192, + "grad_norm": 0.7265404462814331, + "learning_rate": 1.599872e-05, + "loss": 0.0163, + "step": 93780 + }, + { + "epoch": 0.600224, + "grad_norm": 0.9633196592330933, + "learning_rate": 1.599850666666667e-05, + "loss": 0.0161, + "step": 93785 + }, + { + "epoch": 0.600256, + "grad_norm": 0.6709863543510437, + "learning_rate": 1.5998293333333333e-05, + "loss": 0.0274, + "step": 93790 + }, + { + "epoch": 0.600288, + "grad_norm": 0.8500716090202332, + "learning_rate": 1.599808e-05, + "loss": 0.0199, + "step": 93795 + }, + { + "epoch": 0.60032, + "grad_norm": 0.3320437967777252, + "learning_rate": 1.5997866666666668e-05, + "loss": 0.0137, + "step": 93800 + }, + { + "epoch": 0.600352, + "grad_norm": 0.27153947949409485, + "learning_rate": 1.5997653333333336e-05, + "loss": 0.013, + "step": 93805 + }, + { + "epoch": 0.600384, + "grad_norm": 0.34159064292907715, + "learning_rate": 1.5997440000000003e-05, + "loss": 0.0152, + "step": 93810 + }, + { + "epoch": 0.600416, + "grad_norm": 0.06652092188596725, + "learning_rate": 1.5997226666666667e-05, + "loss": 0.0074, + "step": 93815 + }, + { + "epoch": 0.600448, + "grad_norm": 0.7158427238464355, + "learning_rate": 1.5997013333333335e-05, + "loss": 0.0265, + "step": 93820 + }, + { + "epoch": 0.60048, + "grad_norm": 0.4173045754432678, + "learning_rate": 1.5996800000000002e-05, + "loss": 0.0161, + "step": 93825 + }, + { + "epoch": 0.600512, + "grad_norm": 1.3731117248535156, + "learning_rate": 1.5996586666666667e-05, + "loss": 0.0261, + "step": 93830 + }, + { + "epoch": 0.600544, + "grad_norm": 0.29585376381874084, + "learning_rate": 1.5996373333333334e-05, + "loss": 0.0092, + "step": 93835 + }, + { + "epoch": 0.600576, + "grad_norm": 1.3987692594528198, + "learning_rate": 1.5996160000000002e-05, + "loss": 0.0298, + "step": 93840 + }, + { + "epoch": 0.600608, + "grad_norm": 0.2177017629146576, + "learning_rate": 1.599594666666667e-05, + "loss": 0.0111, + "step": 93845 + }, + { + "epoch": 0.60064, + "grad_norm": 0.29755088686943054, + "learning_rate": 1.5995733333333333e-05, + "loss": 0.0074, + "step": 93850 + }, + { + "epoch": 0.600672, + "grad_norm": 0.6786912679672241, + "learning_rate": 1.599552e-05, + "loss": 0.012, + "step": 93855 + }, + { + "epoch": 0.600704, + "grad_norm": 0.14948785305023193, + "learning_rate": 1.599530666666667e-05, + "loss": 0.0339, + "step": 93860 + }, + { + "epoch": 0.600736, + "grad_norm": 0.5181599855422974, + "learning_rate": 1.5995093333333333e-05, + "loss": 0.0118, + "step": 93865 + }, + { + "epoch": 0.600768, + "grad_norm": 0.17557553946971893, + "learning_rate": 1.599488e-05, + "loss": 0.0194, + "step": 93870 + }, + { + "epoch": 0.6008, + "grad_norm": 1.5088821649551392, + "learning_rate": 1.5994666666666668e-05, + "loss": 0.0308, + "step": 93875 + }, + { + "epoch": 0.600832, + "grad_norm": 0.7066774964332581, + "learning_rate": 1.5994453333333335e-05, + "loss": 0.027, + "step": 93880 + }, + { + "epoch": 0.600864, + "grad_norm": 2.904977321624756, + "learning_rate": 1.599424e-05, + "loss": 0.0625, + "step": 93885 + }, + { + "epoch": 0.600896, + "grad_norm": 0.2386704385280609, + "learning_rate": 1.599402666666667e-05, + "loss": 0.0181, + "step": 93890 + }, + { + "epoch": 0.600928, + "grad_norm": 0.14372634887695312, + "learning_rate": 1.5993813333333335e-05, + "loss": 0.0071, + "step": 93895 + }, + { + "epoch": 0.60096, + "grad_norm": 0.5209841728210449, + "learning_rate": 1.59936e-05, + "loss": 0.0193, + "step": 93900 + }, + { + "epoch": 0.600992, + "grad_norm": 2.541656255722046, + "learning_rate": 1.599338666666667e-05, + "loss": 0.0419, + "step": 93905 + }, + { + "epoch": 0.601024, + "grad_norm": 0.24762442708015442, + "learning_rate": 1.5993173333333334e-05, + "loss": 0.0083, + "step": 93910 + }, + { + "epoch": 0.601056, + "grad_norm": 0.9482408761978149, + "learning_rate": 1.599296e-05, + "loss": 0.0122, + "step": 93915 + }, + { + "epoch": 0.601088, + "grad_norm": 0.31656980514526367, + "learning_rate": 1.599274666666667e-05, + "loss": 0.0105, + "step": 93920 + }, + { + "epoch": 0.60112, + "grad_norm": 0.055898480117321014, + "learning_rate": 1.5992533333333337e-05, + "loss": 0.0203, + "step": 93925 + }, + { + "epoch": 0.601152, + "grad_norm": 0.5518990755081177, + "learning_rate": 1.599232e-05, + "loss": 0.0148, + "step": 93930 + }, + { + "epoch": 0.601184, + "grad_norm": 0.4783720076084137, + "learning_rate": 1.5992106666666668e-05, + "loss": 0.0193, + "step": 93935 + }, + { + "epoch": 0.601216, + "grad_norm": 1.0896042585372925, + "learning_rate": 1.5991893333333336e-05, + "loss": 0.027, + "step": 93940 + }, + { + "epoch": 0.601248, + "grad_norm": 0.10685210675001144, + "learning_rate": 1.599168e-05, + "loss": 0.005, + "step": 93945 + }, + { + "epoch": 0.60128, + "grad_norm": 0.3305317163467407, + "learning_rate": 1.5991466666666668e-05, + "loss": 0.0388, + "step": 93950 + }, + { + "epoch": 0.601312, + "grad_norm": 1.2504252195358276, + "learning_rate": 1.5991253333333335e-05, + "loss": 0.0081, + "step": 93955 + }, + { + "epoch": 0.601344, + "grad_norm": 0.3733769953250885, + "learning_rate": 1.5991040000000003e-05, + "loss": 0.0063, + "step": 93960 + }, + { + "epoch": 0.601376, + "grad_norm": 0.14109668135643005, + "learning_rate": 1.5990826666666667e-05, + "loss": 0.0063, + "step": 93965 + }, + { + "epoch": 0.601408, + "grad_norm": 0.5695047378540039, + "learning_rate": 1.5990613333333334e-05, + "loss": 0.0425, + "step": 93970 + }, + { + "epoch": 0.60144, + "grad_norm": 0.37977737188339233, + "learning_rate": 1.5990400000000002e-05, + "loss": 0.0086, + "step": 93975 + }, + { + "epoch": 0.601472, + "grad_norm": 0.7241944074630737, + "learning_rate": 1.5990186666666666e-05, + "loss": 0.0125, + "step": 93980 + }, + { + "epoch": 0.601504, + "grad_norm": 0.7246743440628052, + "learning_rate": 1.5989973333333334e-05, + "loss": 0.0164, + "step": 93985 + }, + { + "epoch": 0.601536, + "grad_norm": 0.10932060331106186, + "learning_rate": 1.598976e-05, + "loss": 0.0118, + "step": 93990 + }, + { + "epoch": 0.601568, + "grad_norm": 0.8666649460792542, + "learning_rate": 1.598954666666667e-05, + "loss": 0.0114, + "step": 93995 + }, + { + "epoch": 0.6016, + "grad_norm": 0.2567322850227356, + "learning_rate": 1.5989333333333333e-05, + "loss": 0.0139, + "step": 94000 + }, + { + "epoch": 0.601632, + "grad_norm": 0.737648606300354, + "learning_rate": 1.5989120000000004e-05, + "loss": 0.0174, + "step": 94005 + }, + { + "epoch": 0.601664, + "grad_norm": 0.32539287209510803, + "learning_rate": 1.5988906666666668e-05, + "loss": 0.027, + "step": 94010 + }, + { + "epoch": 0.601696, + "grad_norm": 0.036146584898233414, + "learning_rate": 1.5988693333333332e-05, + "loss": 0.0084, + "step": 94015 + }, + { + "epoch": 0.601728, + "grad_norm": 0.9797828197479248, + "learning_rate": 1.5988480000000003e-05, + "loss": 0.0275, + "step": 94020 + }, + { + "epoch": 0.60176, + "grad_norm": 0.3402445316314697, + "learning_rate": 1.5988266666666667e-05, + "loss": 0.0173, + "step": 94025 + }, + { + "epoch": 0.601792, + "grad_norm": 0.9475285410881042, + "learning_rate": 1.5988053333333335e-05, + "loss": 0.0227, + "step": 94030 + }, + { + "epoch": 0.601824, + "grad_norm": 0.48689553141593933, + "learning_rate": 1.5987840000000002e-05, + "loss": 0.0123, + "step": 94035 + }, + { + "epoch": 0.601856, + "grad_norm": 0.2232535034418106, + "learning_rate": 1.598762666666667e-05, + "loss": 0.0312, + "step": 94040 + }, + { + "epoch": 0.601888, + "grad_norm": 2.1175127029418945, + "learning_rate": 1.5987413333333334e-05, + "loss": 0.013, + "step": 94045 + }, + { + "epoch": 0.60192, + "grad_norm": 0.05467488616704941, + "learning_rate": 1.5987200000000002e-05, + "loss": 0.0318, + "step": 94050 + }, + { + "epoch": 0.601952, + "grad_norm": 1.2884759902954102, + "learning_rate": 1.598698666666667e-05, + "loss": 0.0248, + "step": 94055 + }, + { + "epoch": 0.601984, + "grad_norm": 0.5194371342658997, + "learning_rate": 1.5986773333333333e-05, + "loss": 0.0068, + "step": 94060 + }, + { + "epoch": 0.602016, + "grad_norm": 0.062102023512125015, + "learning_rate": 1.598656e-05, + "loss": 0.0104, + "step": 94065 + }, + { + "epoch": 0.602048, + "grad_norm": 0.209278404712677, + "learning_rate": 1.598634666666667e-05, + "loss": 0.0053, + "step": 94070 + }, + { + "epoch": 0.60208, + "grad_norm": 0.6911196112632751, + "learning_rate": 1.5986133333333336e-05, + "loss": 0.0105, + "step": 94075 + }, + { + "epoch": 0.602112, + "grad_norm": 0.5759300589561462, + "learning_rate": 1.598592e-05, + "loss": 0.0088, + "step": 94080 + }, + { + "epoch": 0.602144, + "grad_norm": 0.71351557970047, + "learning_rate": 1.5985706666666668e-05, + "loss": 0.0206, + "step": 94085 + }, + { + "epoch": 0.602176, + "grad_norm": 0.056896843016147614, + "learning_rate": 1.5985493333333335e-05, + "loss": 0.0092, + "step": 94090 + }, + { + "epoch": 0.602208, + "grad_norm": 0.4044334888458252, + "learning_rate": 1.598528e-05, + "loss": 0.0107, + "step": 94095 + }, + { + "epoch": 0.60224, + "grad_norm": 0.24773664772510529, + "learning_rate": 1.5985066666666667e-05, + "loss": 0.0263, + "step": 94100 + }, + { + "epoch": 0.602272, + "grad_norm": 0.8561417460441589, + "learning_rate": 1.5984853333333335e-05, + "loss": 0.0238, + "step": 94105 + }, + { + "epoch": 0.602304, + "grad_norm": 0.0931193083524704, + "learning_rate": 1.5984640000000002e-05, + "loss": 0.0138, + "step": 94110 + }, + { + "epoch": 0.602336, + "grad_norm": 0.7976195812225342, + "learning_rate": 1.598442666666667e-05, + "loss": 0.0116, + "step": 94115 + }, + { + "epoch": 0.602368, + "grad_norm": 0.35914331674575806, + "learning_rate": 1.5984213333333334e-05, + "loss": 0.0066, + "step": 94120 + }, + { + "epoch": 0.6024, + "grad_norm": 1.1493107080459595, + "learning_rate": 1.5984e-05, + "loss": 0.0178, + "step": 94125 + }, + { + "epoch": 0.602432, + "grad_norm": 0.3881726562976837, + "learning_rate": 1.598378666666667e-05, + "loss": 0.0122, + "step": 94130 + }, + { + "epoch": 0.602464, + "grad_norm": 1.1186367273330688, + "learning_rate": 1.5983573333333337e-05, + "loss": 0.0116, + "step": 94135 + }, + { + "epoch": 0.602496, + "grad_norm": 0.42895951867103577, + "learning_rate": 1.598336e-05, + "loss": 0.0173, + "step": 94140 + }, + { + "epoch": 0.602528, + "grad_norm": 0.49772486090660095, + "learning_rate": 1.5983146666666668e-05, + "loss": 0.0285, + "step": 94145 + }, + { + "epoch": 0.60256, + "grad_norm": 0.016488593071699142, + "learning_rate": 1.5982933333333336e-05, + "loss": 0.0139, + "step": 94150 + }, + { + "epoch": 0.602592, + "grad_norm": 0.42654675245285034, + "learning_rate": 1.598272e-05, + "loss": 0.0139, + "step": 94155 + }, + { + "epoch": 0.602624, + "grad_norm": 0.4765363335609436, + "learning_rate": 1.5982506666666668e-05, + "loss": 0.0192, + "step": 94160 + }, + { + "epoch": 0.602656, + "grad_norm": 0.05997534841299057, + "learning_rate": 1.5982293333333335e-05, + "loss": 0.011, + "step": 94165 + }, + { + "epoch": 0.602688, + "grad_norm": 0.1116267517209053, + "learning_rate": 1.5982080000000003e-05, + "loss": 0.0066, + "step": 94170 + }, + { + "epoch": 0.60272, + "grad_norm": 0.45062702894210815, + "learning_rate": 1.5981866666666667e-05, + "loss": 0.0099, + "step": 94175 + }, + { + "epoch": 0.602752, + "grad_norm": 0.23065274953842163, + "learning_rate": 1.5981653333333334e-05, + "loss": 0.0285, + "step": 94180 + }, + { + "epoch": 0.602784, + "grad_norm": 0.34903815388679504, + "learning_rate": 1.5981440000000002e-05, + "loss": 0.0188, + "step": 94185 + }, + { + "epoch": 0.602816, + "grad_norm": 0.15725727379322052, + "learning_rate": 1.5981226666666666e-05, + "loss": 0.0248, + "step": 94190 + }, + { + "epoch": 0.602848, + "grad_norm": 0.4853413701057434, + "learning_rate": 1.5981013333333334e-05, + "loss": 0.008, + "step": 94195 + }, + { + "epoch": 0.60288, + "grad_norm": 1.8077776432037354, + "learning_rate": 1.59808e-05, + "loss": 0.0266, + "step": 94200 + }, + { + "epoch": 0.602912, + "grad_norm": 0.6418582201004028, + "learning_rate": 1.598058666666667e-05, + "loss": 0.0182, + "step": 94205 + }, + { + "epoch": 0.602944, + "grad_norm": 0.3892041742801666, + "learning_rate": 1.5980373333333333e-05, + "loss": 0.0115, + "step": 94210 + }, + { + "epoch": 0.602976, + "grad_norm": 0.7314574122428894, + "learning_rate": 1.5980160000000004e-05, + "loss": 0.0194, + "step": 94215 + }, + { + "epoch": 0.603008, + "grad_norm": 0.06671719253063202, + "learning_rate": 1.5979946666666668e-05, + "loss": 0.0086, + "step": 94220 + }, + { + "epoch": 0.60304, + "grad_norm": 0.582955002784729, + "learning_rate": 1.5979733333333332e-05, + "loss": 0.0227, + "step": 94225 + }, + { + "epoch": 0.603072, + "grad_norm": 0.6148300766944885, + "learning_rate": 1.5979520000000003e-05, + "loss": 0.0108, + "step": 94230 + }, + { + "epoch": 0.603104, + "grad_norm": 0.2575306296348572, + "learning_rate": 1.5979306666666667e-05, + "loss": 0.0082, + "step": 94235 + }, + { + "epoch": 0.603136, + "grad_norm": 0.29218393564224243, + "learning_rate": 1.5979093333333335e-05, + "loss": 0.0101, + "step": 94240 + }, + { + "epoch": 0.603168, + "grad_norm": 0.5286566615104675, + "learning_rate": 1.5978880000000002e-05, + "loss": 0.016, + "step": 94245 + }, + { + "epoch": 0.6032, + "grad_norm": 0.5862122178077698, + "learning_rate": 1.597866666666667e-05, + "loss": 0.0184, + "step": 94250 + }, + { + "epoch": 0.603232, + "grad_norm": 0.08828046917915344, + "learning_rate": 1.5978453333333334e-05, + "loss": 0.0072, + "step": 94255 + }, + { + "epoch": 0.603264, + "grad_norm": 0.604481041431427, + "learning_rate": 1.5978240000000002e-05, + "loss": 0.0097, + "step": 94260 + }, + { + "epoch": 0.603296, + "grad_norm": 0.290773868560791, + "learning_rate": 1.597802666666667e-05, + "loss": 0.0071, + "step": 94265 + }, + { + "epoch": 0.603328, + "grad_norm": 0.11633487045764923, + "learning_rate": 1.5977813333333333e-05, + "loss": 0.0102, + "step": 94270 + }, + { + "epoch": 0.60336, + "grad_norm": 0.3661518692970276, + "learning_rate": 1.59776e-05, + "loss": 0.0376, + "step": 94275 + }, + { + "epoch": 0.603392, + "grad_norm": 1.2108206748962402, + "learning_rate": 1.597738666666667e-05, + "loss": 0.0101, + "step": 94280 + }, + { + "epoch": 0.603424, + "grad_norm": 0.4230859577655792, + "learning_rate": 1.5977173333333336e-05, + "loss": 0.0227, + "step": 94285 + }, + { + "epoch": 0.603456, + "grad_norm": 0.31994175910949707, + "learning_rate": 1.597696e-05, + "loss": 0.015, + "step": 94290 + }, + { + "epoch": 0.603488, + "grad_norm": 0.4262283742427826, + "learning_rate": 1.5976746666666668e-05, + "loss": 0.0199, + "step": 94295 + }, + { + "epoch": 0.60352, + "grad_norm": 0.7150429487228394, + "learning_rate": 1.5976533333333335e-05, + "loss": 0.0097, + "step": 94300 + }, + { + "epoch": 0.603552, + "grad_norm": 0.321100115776062, + "learning_rate": 1.597632e-05, + "loss": 0.0161, + "step": 94305 + }, + { + "epoch": 0.603584, + "grad_norm": 0.40597331523895264, + "learning_rate": 1.5976106666666667e-05, + "loss": 0.0145, + "step": 94310 + }, + { + "epoch": 0.603616, + "grad_norm": 0.3226592540740967, + "learning_rate": 1.5975893333333335e-05, + "loss": 0.0154, + "step": 94315 + }, + { + "epoch": 0.603648, + "grad_norm": 0.1272011399269104, + "learning_rate": 1.5975680000000002e-05, + "loss": 0.0079, + "step": 94320 + }, + { + "epoch": 0.60368, + "grad_norm": 1.00477135181427, + "learning_rate": 1.5975466666666666e-05, + "loss": 0.0495, + "step": 94325 + }, + { + "epoch": 0.603712, + "grad_norm": 0.2882893681526184, + "learning_rate": 1.5975253333333334e-05, + "loss": 0.0107, + "step": 94330 + }, + { + "epoch": 0.603744, + "grad_norm": 0.4100622832775116, + "learning_rate": 1.597504e-05, + "loss": 0.0285, + "step": 94335 + }, + { + "epoch": 0.603776, + "grad_norm": 0.04433279484510422, + "learning_rate": 1.597482666666667e-05, + "loss": 0.0124, + "step": 94340 + }, + { + "epoch": 0.603808, + "grad_norm": 1.0140058994293213, + "learning_rate": 1.5974613333333337e-05, + "loss": 0.0183, + "step": 94345 + }, + { + "epoch": 0.60384, + "grad_norm": 0.586876392364502, + "learning_rate": 1.59744e-05, + "loss": 0.0126, + "step": 94350 + }, + { + "epoch": 0.603872, + "grad_norm": 0.7314874529838562, + "learning_rate": 1.5974186666666668e-05, + "loss": 0.0108, + "step": 94355 + }, + { + "epoch": 0.603904, + "grad_norm": 0.41640138626098633, + "learning_rate": 1.5973973333333336e-05, + "loss": 0.0139, + "step": 94360 + }, + { + "epoch": 0.603936, + "grad_norm": 0.5347014665603638, + "learning_rate": 1.597376e-05, + "loss": 0.026, + "step": 94365 + }, + { + "epoch": 0.603968, + "grad_norm": 0.6047186255455017, + "learning_rate": 1.5973546666666668e-05, + "loss": 0.0194, + "step": 94370 + }, + { + "epoch": 0.604, + "grad_norm": 0.5120190978050232, + "learning_rate": 1.5973333333333335e-05, + "loss": 0.0323, + "step": 94375 + }, + { + "epoch": 0.604032, + "grad_norm": 0.2914700508117676, + "learning_rate": 1.5973120000000003e-05, + "loss": 0.0204, + "step": 94380 + }, + { + "epoch": 0.604064, + "grad_norm": 0.8032835125923157, + "learning_rate": 1.5972906666666667e-05, + "loss": 0.0131, + "step": 94385 + }, + { + "epoch": 0.604096, + "grad_norm": 0.5483582615852356, + "learning_rate": 1.5972693333333334e-05, + "loss": 0.0069, + "step": 94390 + }, + { + "epoch": 0.604128, + "grad_norm": 0.7609129548072815, + "learning_rate": 1.5972480000000002e-05, + "loss": 0.0114, + "step": 94395 + }, + { + "epoch": 0.60416, + "grad_norm": 0.6712179780006409, + "learning_rate": 1.5972266666666666e-05, + "loss": 0.0186, + "step": 94400 + }, + { + "epoch": 0.604192, + "grad_norm": 0.2570633888244629, + "learning_rate": 1.5972053333333334e-05, + "loss": 0.0122, + "step": 94405 + }, + { + "epoch": 0.604224, + "grad_norm": 0.21063387393951416, + "learning_rate": 1.597184e-05, + "loss": 0.0062, + "step": 94410 + }, + { + "epoch": 0.604256, + "grad_norm": 0.26369908452033997, + "learning_rate": 1.597162666666667e-05, + "loss": 0.0096, + "step": 94415 + }, + { + "epoch": 0.604288, + "grad_norm": 0.2997574508190155, + "learning_rate": 1.5971413333333333e-05, + "loss": 0.0096, + "step": 94420 + }, + { + "epoch": 0.60432, + "grad_norm": 0.33573272824287415, + "learning_rate": 1.5971200000000004e-05, + "loss": 0.0126, + "step": 94425 + }, + { + "epoch": 0.604352, + "grad_norm": 0.8347224593162537, + "learning_rate": 1.5970986666666668e-05, + "loss": 0.0079, + "step": 94430 + }, + { + "epoch": 0.604384, + "grad_norm": 0.7090810537338257, + "learning_rate": 1.5970773333333332e-05, + "loss": 0.0231, + "step": 94435 + }, + { + "epoch": 0.604416, + "grad_norm": 0.3685310184955597, + "learning_rate": 1.5970560000000003e-05, + "loss": 0.0099, + "step": 94440 + }, + { + "epoch": 0.604448, + "grad_norm": 0.07998302578926086, + "learning_rate": 1.5970346666666667e-05, + "loss": 0.0111, + "step": 94445 + }, + { + "epoch": 0.60448, + "grad_norm": 0.2311244159936905, + "learning_rate": 1.5970133333333335e-05, + "loss": 0.0091, + "step": 94450 + }, + { + "epoch": 0.604512, + "grad_norm": 1.0681043863296509, + "learning_rate": 1.5969920000000002e-05, + "loss": 0.0114, + "step": 94455 + }, + { + "epoch": 0.604544, + "grad_norm": 2.5337181091308594, + "learning_rate": 1.596970666666667e-05, + "loss": 0.0128, + "step": 94460 + }, + { + "epoch": 0.604576, + "grad_norm": 0.5597544312477112, + "learning_rate": 1.5969493333333334e-05, + "loss": 0.0049, + "step": 94465 + }, + { + "epoch": 0.604608, + "grad_norm": 0.6041985154151917, + "learning_rate": 1.5969280000000002e-05, + "loss": 0.0164, + "step": 94470 + }, + { + "epoch": 0.60464, + "grad_norm": 0.7362116575241089, + "learning_rate": 1.596906666666667e-05, + "loss": 0.0209, + "step": 94475 + }, + { + "epoch": 0.604672, + "grad_norm": 0.879218578338623, + "learning_rate": 1.5968853333333333e-05, + "loss": 0.0096, + "step": 94480 + }, + { + "epoch": 0.604704, + "grad_norm": 0.15092545747756958, + "learning_rate": 1.596864e-05, + "loss": 0.0122, + "step": 94485 + }, + { + "epoch": 0.604736, + "grad_norm": 0.2191402167081833, + "learning_rate": 1.596842666666667e-05, + "loss": 0.0155, + "step": 94490 + }, + { + "epoch": 0.604768, + "grad_norm": 1.449571967124939, + "learning_rate": 1.5968213333333336e-05, + "loss": 0.0221, + "step": 94495 + }, + { + "epoch": 0.6048, + "grad_norm": 0.677763044834137, + "learning_rate": 1.5968e-05, + "loss": 0.0151, + "step": 94500 + }, + { + "epoch": 0.604832, + "grad_norm": 0.3343673646450043, + "learning_rate": 1.5967786666666668e-05, + "loss": 0.0125, + "step": 94505 + }, + { + "epoch": 0.604864, + "grad_norm": 0.2986678183078766, + "learning_rate": 1.5967573333333335e-05, + "loss": 0.0276, + "step": 94510 + }, + { + "epoch": 0.604896, + "grad_norm": 0.7230954766273499, + "learning_rate": 1.596736e-05, + "loss": 0.0333, + "step": 94515 + }, + { + "epoch": 0.604928, + "grad_norm": 0.2173631191253662, + "learning_rate": 1.5967146666666667e-05, + "loss": 0.023, + "step": 94520 + }, + { + "epoch": 0.60496, + "grad_norm": 1.012690782546997, + "learning_rate": 1.5966933333333335e-05, + "loss": 0.0144, + "step": 94525 + }, + { + "epoch": 0.604992, + "grad_norm": 1.0785571336746216, + "learning_rate": 1.5966720000000002e-05, + "loss": 0.0269, + "step": 94530 + }, + { + "epoch": 0.605024, + "grad_norm": 0.27757006883621216, + "learning_rate": 1.5966506666666666e-05, + "loss": 0.0112, + "step": 94535 + }, + { + "epoch": 0.605056, + "grad_norm": 2.413137197494507, + "learning_rate": 1.5966293333333334e-05, + "loss": 0.0216, + "step": 94540 + }, + { + "epoch": 0.605088, + "grad_norm": 0.17858614027500153, + "learning_rate": 1.596608e-05, + "loss": 0.0149, + "step": 94545 + }, + { + "epoch": 0.60512, + "grad_norm": 1.161977767944336, + "learning_rate": 1.5965866666666666e-05, + "loss": 0.013, + "step": 94550 + }, + { + "epoch": 0.605152, + "grad_norm": 0.3003363311290741, + "learning_rate": 1.5965653333333337e-05, + "loss": 0.0288, + "step": 94555 + }, + { + "epoch": 0.605184, + "grad_norm": 0.13648667931556702, + "learning_rate": 1.596544e-05, + "loss": 0.0306, + "step": 94560 + }, + { + "epoch": 0.605216, + "grad_norm": 0.8868920803070068, + "learning_rate": 1.5965226666666668e-05, + "loss": 0.014, + "step": 94565 + }, + { + "epoch": 0.605248, + "grad_norm": 0.5817071199417114, + "learning_rate": 1.5965013333333336e-05, + "loss": 0.0107, + "step": 94570 + }, + { + "epoch": 0.60528, + "grad_norm": 1.5606056451797485, + "learning_rate": 1.59648e-05, + "loss": 0.019, + "step": 94575 + }, + { + "epoch": 0.605312, + "grad_norm": 0.1705644428730011, + "learning_rate": 1.5964586666666668e-05, + "loss": 0.0112, + "step": 94580 + }, + { + "epoch": 0.605344, + "grad_norm": 0.7249128222465515, + "learning_rate": 1.5964373333333335e-05, + "loss": 0.0096, + "step": 94585 + }, + { + "epoch": 0.605376, + "grad_norm": 0.053210169076919556, + "learning_rate": 1.5964160000000003e-05, + "loss": 0.0124, + "step": 94590 + }, + { + "epoch": 0.605408, + "grad_norm": 0.3431476354598999, + "learning_rate": 1.5963946666666667e-05, + "loss": 0.0343, + "step": 94595 + }, + { + "epoch": 0.60544, + "grad_norm": 1.0967748165130615, + "learning_rate": 1.5963733333333334e-05, + "loss": 0.0257, + "step": 94600 + }, + { + "epoch": 0.605472, + "grad_norm": 0.2693043649196625, + "learning_rate": 1.5963520000000002e-05, + "loss": 0.0161, + "step": 94605 + }, + { + "epoch": 0.605504, + "grad_norm": 0.10019506514072418, + "learning_rate": 1.5963306666666666e-05, + "loss": 0.0229, + "step": 94610 + }, + { + "epoch": 0.605536, + "grad_norm": 0.06800749152898788, + "learning_rate": 1.5963093333333334e-05, + "loss": 0.006, + "step": 94615 + }, + { + "epoch": 0.605568, + "grad_norm": 0.05904553830623627, + "learning_rate": 1.596288e-05, + "loss": 0.011, + "step": 94620 + }, + { + "epoch": 0.6056, + "grad_norm": 0.6553288698196411, + "learning_rate": 1.596266666666667e-05, + "loss": 0.0169, + "step": 94625 + }, + { + "epoch": 0.605632, + "grad_norm": 0.778518795967102, + "learning_rate": 1.5962453333333333e-05, + "loss": 0.0209, + "step": 94630 + }, + { + "epoch": 0.605664, + "grad_norm": 0.5885170698165894, + "learning_rate": 1.596224e-05, + "loss": 0.0271, + "step": 94635 + }, + { + "epoch": 0.605696, + "grad_norm": 0.5096716284751892, + "learning_rate": 1.5962026666666668e-05, + "loss": 0.0323, + "step": 94640 + }, + { + "epoch": 0.605728, + "grad_norm": 0.6961511373519897, + "learning_rate": 1.5961813333333332e-05, + "loss": 0.0121, + "step": 94645 + }, + { + "epoch": 0.60576, + "grad_norm": 0.9079698324203491, + "learning_rate": 1.5961600000000003e-05, + "loss": 0.0119, + "step": 94650 + }, + { + "epoch": 0.605792, + "grad_norm": 0.4190922975540161, + "learning_rate": 1.5961386666666667e-05, + "loss": 0.0199, + "step": 94655 + }, + { + "epoch": 0.605824, + "grad_norm": 0.4630430340766907, + "learning_rate": 1.5961173333333335e-05, + "loss": 0.0155, + "step": 94660 + }, + { + "epoch": 0.605856, + "grad_norm": 0.02085496112704277, + "learning_rate": 1.5960960000000002e-05, + "loss": 0.0226, + "step": 94665 + }, + { + "epoch": 0.605888, + "grad_norm": 0.42238563299179077, + "learning_rate": 1.596074666666667e-05, + "loss": 0.0091, + "step": 94670 + }, + { + "epoch": 0.60592, + "grad_norm": 0.9853199124336243, + "learning_rate": 1.5960533333333334e-05, + "loss": 0.0091, + "step": 94675 + }, + { + "epoch": 0.605952, + "grad_norm": 0.05423156917095184, + "learning_rate": 1.5960320000000002e-05, + "loss": 0.0117, + "step": 94680 + }, + { + "epoch": 0.605984, + "grad_norm": 0.4591536819934845, + "learning_rate": 1.596010666666667e-05, + "loss": 0.0204, + "step": 94685 + }, + { + "epoch": 0.606016, + "grad_norm": 0.23105672001838684, + "learning_rate": 1.5959893333333333e-05, + "loss": 0.0098, + "step": 94690 + }, + { + "epoch": 0.606048, + "grad_norm": 0.40881651639938354, + "learning_rate": 1.595968e-05, + "loss": 0.0131, + "step": 94695 + }, + { + "epoch": 0.60608, + "grad_norm": 0.6126047968864441, + "learning_rate": 1.595946666666667e-05, + "loss": 0.0155, + "step": 94700 + }, + { + "epoch": 0.606112, + "grad_norm": 1.205952525138855, + "learning_rate": 1.5959253333333336e-05, + "loss": 0.0095, + "step": 94705 + }, + { + "epoch": 0.606144, + "grad_norm": 0.7748953700065613, + "learning_rate": 1.595904e-05, + "loss": 0.0182, + "step": 94710 + }, + { + "epoch": 0.606176, + "grad_norm": 0.24964873492717743, + "learning_rate": 1.5958826666666668e-05, + "loss": 0.0213, + "step": 94715 + }, + { + "epoch": 0.606208, + "grad_norm": 0.10691338032484055, + "learning_rate": 1.5958613333333335e-05, + "loss": 0.0149, + "step": 94720 + }, + { + "epoch": 0.60624, + "grad_norm": 0.8494064807891846, + "learning_rate": 1.59584e-05, + "loss": 0.0085, + "step": 94725 + }, + { + "epoch": 0.606272, + "grad_norm": 0.06914123892784119, + "learning_rate": 1.5958186666666667e-05, + "loss": 0.0114, + "step": 94730 + }, + { + "epoch": 0.606304, + "grad_norm": 1.0637352466583252, + "learning_rate": 1.5957973333333335e-05, + "loss": 0.019, + "step": 94735 + }, + { + "epoch": 0.606336, + "grad_norm": 0.2645243704319, + "learning_rate": 1.5957760000000002e-05, + "loss": 0.0088, + "step": 94740 + }, + { + "epoch": 0.606368, + "grad_norm": 1.0608817338943481, + "learning_rate": 1.5957546666666666e-05, + "loss": 0.0154, + "step": 94745 + }, + { + "epoch": 0.6064, + "grad_norm": 0.8782463073730469, + "learning_rate": 1.5957333333333334e-05, + "loss": 0.0152, + "step": 94750 + }, + { + "epoch": 0.606432, + "grad_norm": 0.045019637793302536, + "learning_rate": 1.595712e-05, + "loss": 0.0064, + "step": 94755 + }, + { + "epoch": 0.606464, + "grad_norm": 0.7050798535346985, + "learning_rate": 1.5956906666666666e-05, + "loss": 0.0142, + "step": 94760 + }, + { + "epoch": 0.606496, + "grad_norm": 0.08230894058942795, + "learning_rate": 1.5956693333333337e-05, + "loss": 0.0184, + "step": 94765 + }, + { + "epoch": 0.606528, + "grad_norm": 0.11638011038303375, + "learning_rate": 1.595648e-05, + "loss": 0.0083, + "step": 94770 + }, + { + "epoch": 0.60656, + "grad_norm": 5.257347583770752, + "learning_rate": 1.5956266666666668e-05, + "loss": 0.0509, + "step": 94775 + }, + { + "epoch": 0.606592, + "grad_norm": 0.4569421708583832, + "learning_rate": 1.5956053333333336e-05, + "loss": 0.0423, + "step": 94780 + }, + { + "epoch": 0.606624, + "grad_norm": 0.913442850112915, + "learning_rate": 1.595584e-05, + "loss": 0.0185, + "step": 94785 + }, + { + "epoch": 0.606656, + "grad_norm": 0.8367058038711548, + "learning_rate": 1.5955626666666668e-05, + "loss": 0.0156, + "step": 94790 + }, + { + "epoch": 0.606688, + "grad_norm": 0.029883718118071556, + "learning_rate": 1.5955413333333335e-05, + "loss": 0.0107, + "step": 94795 + }, + { + "epoch": 0.60672, + "grad_norm": 0.277222603559494, + "learning_rate": 1.5955200000000003e-05, + "loss": 0.0144, + "step": 94800 + }, + { + "epoch": 0.606752, + "grad_norm": 0.5478081107139587, + "learning_rate": 1.5954986666666667e-05, + "loss": 0.0223, + "step": 94805 + }, + { + "epoch": 0.606784, + "grad_norm": 0.0486760288476944, + "learning_rate": 1.5954773333333334e-05, + "loss": 0.0104, + "step": 94810 + }, + { + "epoch": 0.606816, + "grad_norm": 0.3369784653186798, + "learning_rate": 1.5954560000000002e-05, + "loss": 0.0111, + "step": 94815 + }, + { + "epoch": 0.606848, + "grad_norm": 0.7149839401245117, + "learning_rate": 1.5954346666666666e-05, + "loss": 0.0225, + "step": 94820 + }, + { + "epoch": 0.60688, + "grad_norm": 1.1694939136505127, + "learning_rate": 1.5954133333333334e-05, + "loss": 0.0205, + "step": 94825 + }, + { + "epoch": 0.606912, + "grad_norm": 0.24455025792121887, + "learning_rate": 1.595392e-05, + "loss": 0.016, + "step": 94830 + }, + { + "epoch": 0.606944, + "grad_norm": 2.9096829891204834, + "learning_rate": 1.595370666666667e-05, + "loss": 0.0167, + "step": 94835 + }, + { + "epoch": 0.606976, + "grad_norm": 0.22047552466392517, + "learning_rate": 1.5953493333333333e-05, + "loss": 0.0207, + "step": 94840 + }, + { + "epoch": 0.607008, + "grad_norm": 0.016624588519334793, + "learning_rate": 1.595328e-05, + "loss": 0.0118, + "step": 94845 + }, + { + "epoch": 0.60704, + "grad_norm": 0.5574315786361694, + "learning_rate": 1.5953066666666668e-05, + "loss": 0.0231, + "step": 94850 + }, + { + "epoch": 0.607072, + "grad_norm": 0.4893249571323395, + "learning_rate": 1.5952853333333336e-05, + "loss": 0.013, + "step": 94855 + }, + { + "epoch": 0.607104, + "grad_norm": 0.3627921938896179, + "learning_rate": 1.595264e-05, + "loss": 0.0125, + "step": 94860 + }, + { + "epoch": 0.607136, + "grad_norm": 0.21304449439048767, + "learning_rate": 1.5952426666666667e-05, + "loss": 0.0103, + "step": 94865 + }, + { + "epoch": 0.607168, + "grad_norm": 0.10984402894973755, + "learning_rate": 1.5952213333333335e-05, + "loss": 0.0133, + "step": 94870 + }, + { + "epoch": 0.6072, + "grad_norm": 2.3502376079559326, + "learning_rate": 1.5952000000000002e-05, + "loss": 0.0164, + "step": 94875 + }, + { + "epoch": 0.607232, + "grad_norm": 0.21828602254390717, + "learning_rate": 1.595178666666667e-05, + "loss": 0.0173, + "step": 94880 + }, + { + "epoch": 0.607264, + "grad_norm": 0.530045747756958, + "learning_rate": 1.5951573333333334e-05, + "loss": 0.0193, + "step": 94885 + }, + { + "epoch": 0.607296, + "grad_norm": 0.09958305954933167, + "learning_rate": 1.5951360000000002e-05, + "loss": 0.0046, + "step": 94890 + }, + { + "epoch": 0.607328, + "grad_norm": 0.05999033525586128, + "learning_rate": 1.595114666666667e-05, + "loss": 0.0108, + "step": 94895 + }, + { + "epoch": 0.60736, + "grad_norm": 0.600763201713562, + "learning_rate": 1.5950933333333333e-05, + "loss": 0.0249, + "step": 94900 + }, + { + "epoch": 0.607392, + "grad_norm": 0.5845460295677185, + "learning_rate": 1.595072e-05, + "loss": 0.0198, + "step": 94905 + }, + { + "epoch": 0.607424, + "grad_norm": 0.06505485624074936, + "learning_rate": 1.595050666666667e-05, + "loss": 0.0069, + "step": 94910 + }, + { + "epoch": 0.607456, + "grad_norm": 0.330345094203949, + "learning_rate": 1.5950293333333336e-05, + "loss": 0.0059, + "step": 94915 + }, + { + "epoch": 0.607488, + "grad_norm": 0.2065974622964859, + "learning_rate": 1.595008e-05, + "loss": 0.0202, + "step": 94920 + }, + { + "epoch": 0.60752, + "grad_norm": 0.44129663705825806, + "learning_rate": 1.5949866666666668e-05, + "loss": 0.0074, + "step": 94925 + }, + { + "epoch": 0.607552, + "grad_norm": 0.09603997319936752, + "learning_rate": 1.5949653333333335e-05, + "loss": 0.0092, + "step": 94930 + }, + { + "epoch": 0.607584, + "grad_norm": 0.5686771273612976, + "learning_rate": 1.594944e-05, + "loss": 0.0115, + "step": 94935 + }, + { + "epoch": 0.607616, + "grad_norm": 0.6074991822242737, + "learning_rate": 1.5949226666666667e-05, + "loss": 0.0166, + "step": 94940 + }, + { + "epoch": 0.607648, + "grad_norm": 0.7860154509544373, + "learning_rate": 1.5949013333333335e-05, + "loss": 0.0133, + "step": 94945 + }, + { + "epoch": 0.60768, + "grad_norm": 1.6124906539916992, + "learning_rate": 1.5948800000000002e-05, + "loss": 0.0169, + "step": 94950 + }, + { + "epoch": 0.607712, + "grad_norm": 0.20747394859790802, + "learning_rate": 1.5948586666666666e-05, + "loss": 0.0082, + "step": 94955 + }, + { + "epoch": 0.607744, + "grad_norm": 0.5736282467842102, + "learning_rate": 1.5948373333333337e-05, + "loss": 0.0114, + "step": 94960 + }, + { + "epoch": 0.607776, + "grad_norm": 0.06540984660387039, + "learning_rate": 1.594816e-05, + "loss": 0.0077, + "step": 94965 + }, + { + "epoch": 0.607808, + "grad_norm": 0.6455404758453369, + "learning_rate": 1.5947946666666666e-05, + "loss": 0.0135, + "step": 94970 + }, + { + "epoch": 0.60784, + "grad_norm": 0.35688936710357666, + "learning_rate": 1.5947733333333337e-05, + "loss": 0.0185, + "step": 94975 + }, + { + "epoch": 0.607872, + "grad_norm": 0.3986606001853943, + "learning_rate": 1.594752e-05, + "loss": 0.0055, + "step": 94980 + }, + { + "epoch": 0.607904, + "grad_norm": 0.11453761160373688, + "learning_rate": 1.594730666666667e-05, + "loss": 0.0116, + "step": 94985 + }, + { + "epoch": 0.607936, + "grad_norm": 0.5304670929908752, + "learning_rate": 1.5947093333333336e-05, + "loss": 0.0157, + "step": 94990 + }, + { + "epoch": 0.607968, + "grad_norm": 1.2631093263626099, + "learning_rate": 1.5946880000000003e-05, + "loss": 0.0164, + "step": 94995 + }, + { + "epoch": 0.608, + "grad_norm": 0.0907810777425766, + "learning_rate": 1.5946666666666668e-05, + "loss": 0.0121, + "step": 95000 + }, + { + "epoch": 0.608032, + "grad_norm": 0.9315540790557861, + "learning_rate": 1.5946453333333335e-05, + "loss": 0.014, + "step": 95005 + }, + { + "epoch": 0.608064, + "grad_norm": 0.5559771656990051, + "learning_rate": 1.5946240000000003e-05, + "loss": 0.0059, + "step": 95010 + }, + { + "epoch": 0.608096, + "grad_norm": 0.49970853328704834, + "learning_rate": 1.5946026666666667e-05, + "loss": 0.0152, + "step": 95015 + }, + { + "epoch": 0.608128, + "grad_norm": 0.619300127029419, + "learning_rate": 1.5945813333333334e-05, + "loss": 0.0179, + "step": 95020 + }, + { + "epoch": 0.60816, + "grad_norm": 0.3908778727054596, + "learning_rate": 1.5945600000000002e-05, + "loss": 0.022, + "step": 95025 + }, + { + "epoch": 0.608192, + "grad_norm": 0.22504451870918274, + "learning_rate": 1.594538666666667e-05, + "loss": 0.02, + "step": 95030 + }, + { + "epoch": 0.608224, + "grad_norm": 1.3776131868362427, + "learning_rate": 1.5945173333333334e-05, + "loss": 0.0187, + "step": 95035 + }, + { + "epoch": 0.608256, + "grad_norm": 0.7217006683349609, + "learning_rate": 1.594496e-05, + "loss": 0.0113, + "step": 95040 + }, + { + "epoch": 0.608288, + "grad_norm": 0.24686728417873383, + "learning_rate": 1.594474666666667e-05, + "loss": 0.0027, + "step": 95045 + }, + { + "epoch": 0.60832, + "grad_norm": 0.5655739307403564, + "learning_rate": 1.5944533333333333e-05, + "loss": 0.0212, + "step": 95050 + }, + { + "epoch": 0.608352, + "grad_norm": 0.8626297116279602, + "learning_rate": 1.594432e-05, + "loss": 0.0086, + "step": 95055 + }, + { + "epoch": 0.608384, + "grad_norm": 0.0736941546201706, + "learning_rate": 1.5944106666666668e-05, + "loss": 0.0078, + "step": 95060 + }, + { + "epoch": 0.608416, + "grad_norm": 0.1118859201669693, + "learning_rate": 1.5943893333333336e-05, + "loss": 0.0085, + "step": 95065 + }, + { + "epoch": 0.608448, + "grad_norm": 0.07559867203235626, + "learning_rate": 1.594368e-05, + "loss": 0.0125, + "step": 95070 + }, + { + "epoch": 0.60848, + "grad_norm": 0.5797579884529114, + "learning_rate": 1.5943466666666667e-05, + "loss": 0.0125, + "step": 95075 + }, + { + "epoch": 0.608512, + "grad_norm": 0.7357770800590515, + "learning_rate": 1.5943253333333335e-05, + "loss": 0.0258, + "step": 95080 + }, + { + "epoch": 0.608544, + "grad_norm": 0.0539717860519886, + "learning_rate": 1.594304e-05, + "loss": 0.0037, + "step": 95085 + }, + { + "epoch": 0.608576, + "grad_norm": 1.8202955722808838, + "learning_rate": 1.594282666666667e-05, + "loss": 0.0232, + "step": 95090 + }, + { + "epoch": 0.608608, + "grad_norm": 0.8501142859458923, + "learning_rate": 1.5942613333333334e-05, + "loss": 0.0297, + "step": 95095 + }, + { + "epoch": 0.60864, + "grad_norm": 1.1110917329788208, + "learning_rate": 1.5942400000000002e-05, + "loss": 0.0237, + "step": 95100 + }, + { + "epoch": 0.608672, + "grad_norm": 0.22207683324813843, + "learning_rate": 1.594218666666667e-05, + "loss": 0.0049, + "step": 95105 + }, + { + "epoch": 0.608704, + "grad_norm": 0.7632472515106201, + "learning_rate": 1.5941973333333333e-05, + "loss": 0.0134, + "step": 95110 + }, + { + "epoch": 0.608736, + "grad_norm": 0.6030846238136292, + "learning_rate": 1.594176e-05, + "loss": 0.0209, + "step": 95115 + }, + { + "epoch": 0.608768, + "grad_norm": 0.48379233479499817, + "learning_rate": 1.594154666666667e-05, + "loss": 0.0209, + "step": 95120 + }, + { + "epoch": 0.6088, + "grad_norm": 1.3767402172088623, + "learning_rate": 1.5941333333333336e-05, + "loss": 0.0057, + "step": 95125 + }, + { + "epoch": 0.608832, + "grad_norm": 0.27797046303749084, + "learning_rate": 1.594112e-05, + "loss": 0.0073, + "step": 95130 + }, + { + "epoch": 0.608864, + "grad_norm": 0.7183713316917419, + "learning_rate": 1.5940906666666668e-05, + "loss": 0.0158, + "step": 95135 + }, + { + "epoch": 0.608896, + "grad_norm": 0.8206831812858582, + "learning_rate": 1.5940693333333335e-05, + "loss": 0.0129, + "step": 95140 + }, + { + "epoch": 0.608928, + "grad_norm": 0.20983955264091492, + "learning_rate": 1.594048e-05, + "loss": 0.014, + "step": 95145 + }, + { + "epoch": 0.60896, + "grad_norm": 0.0677434504032135, + "learning_rate": 1.5940266666666667e-05, + "loss": 0.013, + "step": 95150 + }, + { + "epoch": 0.608992, + "grad_norm": 0.9193704724311829, + "learning_rate": 1.5940053333333335e-05, + "loss": 0.0176, + "step": 95155 + }, + { + "epoch": 0.609024, + "grad_norm": 0.7131531834602356, + "learning_rate": 1.5939840000000002e-05, + "loss": 0.0198, + "step": 95160 + }, + { + "epoch": 0.609056, + "grad_norm": 0.8809248208999634, + "learning_rate": 1.5939626666666666e-05, + "loss": 0.0119, + "step": 95165 + }, + { + "epoch": 0.609088, + "grad_norm": 0.7465060353279114, + "learning_rate": 1.5939413333333337e-05, + "loss": 0.0262, + "step": 95170 + }, + { + "epoch": 0.60912, + "grad_norm": 0.08284635096788406, + "learning_rate": 1.59392e-05, + "loss": 0.0166, + "step": 95175 + }, + { + "epoch": 0.609152, + "grad_norm": 0.05394203960895538, + "learning_rate": 1.5938986666666666e-05, + "loss": 0.0104, + "step": 95180 + }, + { + "epoch": 0.609184, + "grad_norm": 0.16255810856819153, + "learning_rate": 1.5938773333333337e-05, + "loss": 0.0153, + "step": 95185 + }, + { + "epoch": 0.609216, + "grad_norm": 0.317486435174942, + "learning_rate": 1.593856e-05, + "loss": 0.0132, + "step": 95190 + }, + { + "epoch": 0.609248, + "grad_norm": 0.5970394015312195, + "learning_rate": 1.593834666666667e-05, + "loss": 0.0216, + "step": 95195 + }, + { + "epoch": 0.60928, + "grad_norm": 0.1591307818889618, + "learning_rate": 1.5938133333333336e-05, + "loss": 0.0082, + "step": 95200 + }, + { + "epoch": 0.609312, + "grad_norm": 0.08021922409534454, + "learning_rate": 1.5937920000000003e-05, + "loss": 0.0099, + "step": 95205 + }, + { + "epoch": 0.609344, + "grad_norm": 0.16726729273796082, + "learning_rate": 1.5937706666666668e-05, + "loss": 0.0091, + "step": 95210 + }, + { + "epoch": 0.609376, + "grad_norm": 0.8299664855003357, + "learning_rate": 1.5937493333333335e-05, + "loss": 0.0208, + "step": 95215 + }, + { + "epoch": 0.609408, + "grad_norm": 1.583916187286377, + "learning_rate": 1.5937280000000003e-05, + "loss": 0.0214, + "step": 95220 + }, + { + "epoch": 0.60944, + "grad_norm": 0.8134579658508301, + "learning_rate": 1.5937066666666667e-05, + "loss": 0.0114, + "step": 95225 + }, + { + "epoch": 0.609472, + "grad_norm": 0.23826245963573456, + "learning_rate": 1.5936853333333334e-05, + "loss": 0.0209, + "step": 95230 + }, + { + "epoch": 0.609504, + "grad_norm": 0.6358265280723572, + "learning_rate": 1.5936640000000002e-05, + "loss": 0.0121, + "step": 95235 + }, + { + "epoch": 0.609536, + "grad_norm": 0.8058297634124756, + "learning_rate": 1.593642666666667e-05, + "loss": 0.0124, + "step": 95240 + }, + { + "epoch": 0.609568, + "grad_norm": 0.4257223606109619, + "learning_rate": 1.5936213333333334e-05, + "loss": 0.0184, + "step": 95245 + }, + { + "epoch": 0.6096, + "grad_norm": 1.0816442966461182, + "learning_rate": 1.5936e-05, + "loss": 0.0094, + "step": 95250 + }, + { + "epoch": 0.609632, + "grad_norm": 0.695374071598053, + "learning_rate": 1.593578666666667e-05, + "loss": 0.0264, + "step": 95255 + }, + { + "epoch": 0.609664, + "grad_norm": 0.7119573950767517, + "learning_rate": 1.5935573333333333e-05, + "loss": 0.0115, + "step": 95260 + }, + { + "epoch": 0.609696, + "grad_norm": 0.5376966595649719, + "learning_rate": 1.593536e-05, + "loss": 0.0238, + "step": 95265 + }, + { + "epoch": 0.609728, + "grad_norm": 0.17878593504428864, + "learning_rate": 1.5935146666666668e-05, + "loss": 0.0147, + "step": 95270 + }, + { + "epoch": 0.60976, + "grad_norm": 0.25986728072166443, + "learning_rate": 1.5934933333333336e-05, + "loss": 0.0111, + "step": 95275 + }, + { + "epoch": 0.609792, + "grad_norm": 0.24786978960037231, + "learning_rate": 1.593472e-05, + "loss": 0.0122, + "step": 95280 + }, + { + "epoch": 0.609824, + "grad_norm": 0.4129263460636139, + "learning_rate": 1.5934506666666667e-05, + "loss": 0.0202, + "step": 95285 + }, + { + "epoch": 0.609856, + "grad_norm": 0.7318411469459534, + "learning_rate": 1.5934293333333335e-05, + "loss": 0.0254, + "step": 95290 + }, + { + "epoch": 0.609888, + "grad_norm": 0.06791453063488007, + "learning_rate": 1.593408e-05, + "loss": 0.0206, + "step": 95295 + }, + { + "epoch": 0.60992, + "grad_norm": 1.0215861797332764, + "learning_rate": 1.593386666666667e-05, + "loss": 0.0174, + "step": 95300 + }, + { + "epoch": 0.609952, + "grad_norm": 0.5278100967407227, + "learning_rate": 1.5933653333333334e-05, + "loss": 0.0117, + "step": 95305 + }, + { + "epoch": 0.609984, + "grad_norm": 0.9458724856376648, + "learning_rate": 1.5933440000000002e-05, + "loss": 0.0252, + "step": 95310 + }, + { + "epoch": 0.610016, + "grad_norm": 0.4770341217517853, + "learning_rate": 1.593322666666667e-05, + "loss": 0.0059, + "step": 95315 + }, + { + "epoch": 0.610048, + "grad_norm": 0.9388559460639954, + "learning_rate": 1.5933013333333333e-05, + "loss": 0.0088, + "step": 95320 + }, + { + "epoch": 0.61008, + "grad_norm": 3.9605815410614014, + "learning_rate": 1.59328e-05, + "loss": 0.0228, + "step": 95325 + }, + { + "epoch": 0.610112, + "grad_norm": 0.058638304471969604, + "learning_rate": 1.593258666666667e-05, + "loss": 0.0072, + "step": 95330 + }, + { + "epoch": 0.610144, + "grad_norm": 0.19375523924827576, + "learning_rate": 1.5932373333333336e-05, + "loss": 0.014, + "step": 95335 + }, + { + "epoch": 0.610176, + "grad_norm": 0.6623049974441528, + "learning_rate": 1.593216e-05, + "loss": 0.0054, + "step": 95340 + }, + { + "epoch": 0.610208, + "grad_norm": 0.9857752323150635, + "learning_rate": 1.5931946666666668e-05, + "loss": 0.0308, + "step": 95345 + }, + { + "epoch": 0.61024, + "grad_norm": 0.3638641834259033, + "learning_rate": 1.5931733333333335e-05, + "loss": 0.0184, + "step": 95350 + }, + { + "epoch": 0.610272, + "grad_norm": 0.15046358108520508, + "learning_rate": 1.593152e-05, + "loss": 0.0098, + "step": 95355 + }, + { + "epoch": 0.610304, + "grad_norm": 0.5056740641593933, + "learning_rate": 1.5931306666666667e-05, + "loss": 0.0161, + "step": 95360 + }, + { + "epoch": 0.610336, + "grad_norm": 0.5248053669929504, + "learning_rate": 1.5931093333333335e-05, + "loss": 0.008, + "step": 95365 + }, + { + "epoch": 0.610368, + "grad_norm": 0.6456406116485596, + "learning_rate": 1.5930880000000002e-05, + "loss": 0.0086, + "step": 95370 + }, + { + "epoch": 0.6104, + "grad_norm": 0.6810694336891174, + "learning_rate": 1.5930666666666666e-05, + "loss": 0.0156, + "step": 95375 + }, + { + "epoch": 0.610432, + "grad_norm": 0.36187249422073364, + "learning_rate": 1.5930453333333334e-05, + "loss": 0.0117, + "step": 95380 + }, + { + "epoch": 0.610464, + "grad_norm": 0.2795579433441162, + "learning_rate": 1.593024e-05, + "loss": 0.02, + "step": 95385 + }, + { + "epoch": 0.610496, + "grad_norm": 0.1713745892047882, + "learning_rate": 1.5930026666666666e-05, + "loss": 0.0079, + "step": 95390 + }, + { + "epoch": 0.610528, + "grad_norm": 0.8864994645118713, + "learning_rate": 1.5929813333333337e-05, + "loss": 0.02, + "step": 95395 + }, + { + "epoch": 0.61056, + "grad_norm": 0.7326353192329407, + "learning_rate": 1.59296e-05, + "loss": 0.019, + "step": 95400 + }, + { + "epoch": 0.610592, + "grad_norm": 0.27735066413879395, + "learning_rate": 1.592938666666667e-05, + "loss": 0.0169, + "step": 95405 + }, + { + "epoch": 0.610624, + "grad_norm": 0.38043665885925293, + "learning_rate": 1.5929173333333336e-05, + "loss": 0.0157, + "step": 95410 + }, + { + "epoch": 0.610656, + "grad_norm": 0.5706251263618469, + "learning_rate": 1.5928960000000003e-05, + "loss": 0.0102, + "step": 95415 + }, + { + "epoch": 0.610688, + "grad_norm": 4.937828063964844, + "learning_rate": 1.5928746666666668e-05, + "loss": 0.0309, + "step": 95420 + }, + { + "epoch": 0.61072, + "grad_norm": 0.640448272228241, + "learning_rate": 1.5928533333333335e-05, + "loss": 0.0156, + "step": 95425 + }, + { + "epoch": 0.610752, + "grad_norm": 0.8063846230506897, + "learning_rate": 1.5928320000000003e-05, + "loss": 0.0135, + "step": 95430 + }, + { + "epoch": 0.610784, + "grad_norm": 0.373416543006897, + "learning_rate": 1.5928106666666667e-05, + "loss": 0.0087, + "step": 95435 + }, + { + "epoch": 0.610816, + "grad_norm": 0.12708458304405212, + "learning_rate": 1.5927893333333334e-05, + "loss": 0.0054, + "step": 95440 + }, + { + "epoch": 0.610848, + "grad_norm": 0.8702318072319031, + "learning_rate": 1.5927680000000002e-05, + "loss": 0.0122, + "step": 95445 + }, + { + "epoch": 0.61088, + "grad_norm": 0.2824738621711731, + "learning_rate": 1.592746666666667e-05, + "loss": 0.008, + "step": 95450 + }, + { + "epoch": 0.610912, + "grad_norm": 0.31945034861564636, + "learning_rate": 1.5927253333333334e-05, + "loss": 0.0343, + "step": 95455 + }, + { + "epoch": 0.610944, + "grad_norm": 0.9617243409156799, + "learning_rate": 1.592704e-05, + "loss": 0.0092, + "step": 95460 + }, + { + "epoch": 0.610976, + "grad_norm": 0.45016369223594666, + "learning_rate": 1.592682666666667e-05, + "loss": 0.0185, + "step": 95465 + }, + { + "epoch": 0.611008, + "grad_norm": 0.734686017036438, + "learning_rate": 1.5926613333333333e-05, + "loss": 0.0299, + "step": 95470 + }, + { + "epoch": 0.61104, + "grad_norm": 0.04015488550066948, + "learning_rate": 1.59264e-05, + "loss": 0.0147, + "step": 95475 + }, + { + "epoch": 0.611072, + "grad_norm": 0.057829923927783966, + "learning_rate": 1.5926186666666668e-05, + "loss": 0.0191, + "step": 95480 + }, + { + "epoch": 0.611104, + "grad_norm": 1.1462482213974, + "learning_rate": 1.5925973333333336e-05, + "loss": 0.0117, + "step": 95485 + }, + { + "epoch": 0.611136, + "grad_norm": 1.0255876779556274, + "learning_rate": 1.592576e-05, + "loss": 0.0188, + "step": 95490 + }, + { + "epoch": 0.611168, + "grad_norm": 0.08491669595241547, + "learning_rate": 1.5925546666666667e-05, + "loss": 0.0049, + "step": 95495 + }, + { + "epoch": 0.6112, + "grad_norm": 0.4256741404533386, + "learning_rate": 1.5925333333333335e-05, + "loss": 0.0246, + "step": 95500 + }, + { + "epoch": 0.611232, + "grad_norm": 0.3908657729625702, + "learning_rate": 1.592512e-05, + "loss": 0.0278, + "step": 95505 + }, + { + "epoch": 0.611264, + "grad_norm": 0.5896547436714172, + "learning_rate": 1.592490666666667e-05, + "loss": 0.0145, + "step": 95510 + }, + { + "epoch": 0.611296, + "grad_norm": 0.3423413634300232, + "learning_rate": 1.5924693333333334e-05, + "loss": 0.0109, + "step": 95515 + }, + { + "epoch": 0.611328, + "grad_norm": 0.069558285176754, + "learning_rate": 1.5924480000000002e-05, + "loss": 0.012, + "step": 95520 + }, + { + "epoch": 0.61136, + "grad_norm": 0.9195117950439453, + "learning_rate": 1.592426666666667e-05, + "loss": 0.0292, + "step": 95525 + }, + { + "epoch": 0.611392, + "grad_norm": 0.264975905418396, + "learning_rate": 1.5924053333333333e-05, + "loss": 0.0431, + "step": 95530 + }, + { + "epoch": 0.611424, + "grad_norm": 0.2247164398431778, + "learning_rate": 1.592384e-05, + "loss": 0.0167, + "step": 95535 + }, + { + "epoch": 0.611456, + "grad_norm": 1.055533766746521, + "learning_rate": 1.592362666666667e-05, + "loss": 0.0283, + "step": 95540 + }, + { + "epoch": 0.611488, + "grad_norm": 0.6036071181297302, + "learning_rate": 1.5923413333333336e-05, + "loss": 0.0106, + "step": 95545 + }, + { + "epoch": 0.61152, + "grad_norm": 2.14430832862854, + "learning_rate": 1.59232e-05, + "loss": 0.0383, + "step": 95550 + }, + { + "epoch": 0.611552, + "grad_norm": 1.9021010398864746, + "learning_rate": 1.5922986666666668e-05, + "loss": 0.0504, + "step": 95555 + }, + { + "epoch": 0.611584, + "grad_norm": 0.45999231934547424, + "learning_rate": 1.5922773333333335e-05, + "loss": 0.0223, + "step": 95560 + }, + { + "epoch": 0.611616, + "grad_norm": 0.06630413979291916, + "learning_rate": 1.592256e-05, + "loss": 0.0064, + "step": 95565 + }, + { + "epoch": 0.611648, + "grad_norm": 0.6812294125556946, + "learning_rate": 1.5922346666666667e-05, + "loss": 0.0105, + "step": 95570 + }, + { + "epoch": 0.61168, + "grad_norm": 1.191357135772705, + "learning_rate": 1.5922133333333335e-05, + "loss": 0.0199, + "step": 95575 + }, + { + "epoch": 0.611712, + "grad_norm": 0.6680206060409546, + "learning_rate": 1.5921920000000002e-05, + "loss": 0.0222, + "step": 95580 + }, + { + "epoch": 0.611744, + "grad_norm": 0.21531721949577332, + "learning_rate": 1.5921706666666666e-05, + "loss": 0.0201, + "step": 95585 + }, + { + "epoch": 0.611776, + "grad_norm": 0.9004803895950317, + "learning_rate": 1.5921493333333334e-05, + "loss": 0.0388, + "step": 95590 + }, + { + "epoch": 0.611808, + "grad_norm": 0.17869967222213745, + "learning_rate": 1.592128e-05, + "loss": 0.0145, + "step": 95595 + }, + { + "epoch": 0.61184, + "grad_norm": 0.03970606252551079, + "learning_rate": 1.5921066666666666e-05, + "loss": 0.0109, + "step": 95600 + }, + { + "epoch": 0.611872, + "grad_norm": 0.19554363191127777, + "learning_rate": 1.5920853333333333e-05, + "loss": 0.0105, + "step": 95605 + }, + { + "epoch": 0.611904, + "grad_norm": 0.8825512528419495, + "learning_rate": 1.592064e-05, + "loss": 0.0103, + "step": 95610 + }, + { + "epoch": 0.611936, + "grad_norm": 0.24809198081493378, + "learning_rate": 1.592042666666667e-05, + "loss": 0.0095, + "step": 95615 + }, + { + "epoch": 0.611968, + "grad_norm": 0.7456077337265015, + "learning_rate": 1.5920213333333336e-05, + "loss": 0.0349, + "step": 95620 + }, + { + "epoch": 0.612, + "grad_norm": 0.7798192501068115, + "learning_rate": 1.5920000000000003e-05, + "loss": 0.0119, + "step": 95625 + }, + { + "epoch": 0.612032, + "grad_norm": 0.4607228934764862, + "learning_rate": 1.5919786666666668e-05, + "loss": 0.0094, + "step": 95630 + }, + { + "epoch": 0.612064, + "grad_norm": 0.7058013677597046, + "learning_rate": 1.5919573333333335e-05, + "loss": 0.0117, + "step": 95635 + }, + { + "epoch": 0.612096, + "grad_norm": 0.2500618100166321, + "learning_rate": 1.5919360000000003e-05, + "loss": 0.0157, + "step": 95640 + }, + { + "epoch": 0.612128, + "grad_norm": 0.44522625207901, + "learning_rate": 1.5919146666666667e-05, + "loss": 0.0169, + "step": 95645 + }, + { + "epoch": 0.61216, + "grad_norm": 0.8413479328155518, + "learning_rate": 1.5918933333333334e-05, + "loss": 0.0096, + "step": 95650 + }, + { + "epoch": 0.612192, + "grad_norm": 0.3201707899570465, + "learning_rate": 1.5918720000000002e-05, + "loss": 0.0129, + "step": 95655 + }, + { + "epoch": 0.612224, + "grad_norm": 0.34431344270706177, + "learning_rate": 1.591850666666667e-05, + "loss": 0.0333, + "step": 95660 + }, + { + "epoch": 0.612256, + "grad_norm": 1.9240516424179077, + "learning_rate": 1.5918293333333334e-05, + "loss": 0.0207, + "step": 95665 + }, + { + "epoch": 0.612288, + "grad_norm": 1.0873388051986694, + "learning_rate": 1.591808e-05, + "loss": 0.0264, + "step": 95670 + }, + { + "epoch": 0.61232, + "grad_norm": 0.4502420127391815, + "learning_rate": 1.591786666666667e-05, + "loss": 0.0113, + "step": 95675 + }, + { + "epoch": 0.612352, + "grad_norm": 0.2138708084821701, + "learning_rate": 1.5917653333333333e-05, + "loss": 0.0109, + "step": 95680 + }, + { + "epoch": 0.612384, + "grad_norm": 0.4487355947494507, + "learning_rate": 1.591744e-05, + "loss": 0.0115, + "step": 95685 + }, + { + "epoch": 0.612416, + "grad_norm": 0.7362614274024963, + "learning_rate": 1.5917226666666668e-05, + "loss": 0.0216, + "step": 95690 + }, + { + "epoch": 0.612448, + "grad_norm": 0.48913058638572693, + "learning_rate": 1.5917013333333336e-05, + "loss": 0.0283, + "step": 95695 + }, + { + "epoch": 0.61248, + "grad_norm": 0.03210524842143059, + "learning_rate": 1.59168e-05, + "loss": 0.0057, + "step": 95700 + }, + { + "epoch": 0.612512, + "grad_norm": 4.269079208374023, + "learning_rate": 1.591658666666667e-05, + "loss": 0.0455, + "step": 95705 + }, + { + "epoch": 0.612544, + "grad_norm": 1.6781997680664062, + "learning_rate": 1.5916373333333335e-05, + "loss": 0.0196, + "step": 95710 + }, + { + "epoch": 0.612576, + "grad_norm": 0.5642796158790588, + "learning_rate": 1.591616e-05, + "loss": 0.0179, + "step": 95715 + }, + { + "epoch": 0.612608, + "grad_norm": 0.17115168273448944, + "learning_rate": 1.591594666666667e-05, + "loss": 0.0309, + "step": 95720 + }, + { + "epoch": 0.61264, + "grad_norm": 0.7489533424377441, + "learning_rate": 1.5915733333333334e-05, + "loss": 0.01, + "step": 95725 + }, + { + "epoch": 0.612672, + "grad_norm": 0.7047468423843384, + "learning_rate": 1.5915520000000002e-05, + "loss": 0.0305, + "step": 95730 + }, + { + "epoch": 0.612704, + "grad_norm": 0.04206977039575577, + "learning_rate": 1.591530666666667e-05, + "loss": 0.022, + "step": 95735 + }, + { + "epoch": 0.612736, + "grad_norm": 1.3238046169281006, + "learning_rate": 1.5915093333333337e-05, + "loss": 0.0165, + "step": 95740 + }, + { + "epoch": 0.612768, + "grad_norm": 1.1046241521835327, + "learning_rate": 1.591488e-05, + "loss": 0.0274, + "step": 95745 + }, + { + "epoch": 0.6128, + "grad_norm": 0.3604210615158081, + "learning_rate": 1.591466666666667e-05, + "loss": 0.008, + "step": 95750 + }, + { + "epoch": 0.612832, + "grad_norm": 0.6111058592796326, + "learning_rate": 1.5914453333333336e-05, + "loss": 0.0239, + "step": 95755 + }, + { + "epoch": 0.612864, + "grad_norm": 0.20004794001579285, + "learning_rate": 1.591424e-05, + "loss": 0.0069, + "step": 95760 + }, + { + "epoch": 0.612896, + "grad_norm": 0.17904557287693024, + "learning_rate": 1.5914026666666668e-05, + "loss": 0.0089, + "step": 95765 + }, + { + "epoch": 0.612928, + "grad_norm": 0.22025607526302338, + "learning_rate": 1.5913813333333335e-05, + "loss": 0.0099, + "step": 95770 + }, + { + "epoch": 0.61296, + "grad_norm": 1.1041749715805054, + "learning_rate": 1.5913600000000003e-05, + "loss": 0.0193, + "step": 95775 + }, + { + "epoch": 0.612992, + "grad_norm": 1.0892491340637207, + "learning_rate": 1.5913386666666667e-05, + "loss": 0.0449, + "step": 95780 + }, + { + "epoch": 0.613024, + "grad_norm": 0.30248960852622986, + "learning_rate": 1.5913173333333335e-05, + "loss": 0.0221, + "step": 95785 + }, + { + "epoch": 0.613056, + "grad_norm": 0.4922851026058197, + "learning_rate": 1.5912960000000002e-05, + "loss": 0.012, + "step": 95790 + }, + { + "epoch": 0.613088, + "grad_norm": 0.4583277702331543, + "learning_rate": 1.5912746666666666e-05, + "loss": 0.0123, + "step": 95795 + }, + { + "epoch": 0.61312, + "grad_norm": 0.20737124979496002, + "learning_rate": 1.5912533333333334e-05, + "loss": 0.0218, + "step": 95800 + }, + { + "epoch": 0.613152, + "grad_norm": 0.5742285847663879, + "learning_rate": 1.591232e-05, + "loss": 0.0259, + "step": 95805 + }, + { + "epoch": 0.613184, + "grad_norm": 0.6581738591194153, + "learning_rate": 1.591210666666667e-05, + "loss": 0.0176, + "step": 95810 + }, + { + "epoch": 0.613216, + "grad_norm": 0.15047316253185272, + "learning_rate": 1.5911893333333333e-05, + "loss": 0.0134, + "step": 95815 + }, + { + "epoch": 0.613248, + "grad_norm": 0.2740804851055145, + "learning_rate": 1.591168e-05, + "loss": 0.0159, + "step": 95820 + }, + { + "epoch": 0.61328, + "grad_norm": 0.410970002412796, + "learning_rate": 1.591146666666667e-05, + "loss": 0.019, + "step": 95825 + }, + { + "epoch": 0.613312, + "grad_norm": 1.0206584930419922, + "learning_rate": 1.5911253333333332e-05, + "loss": 0.0192, + "step": 95830 + }, + { + "epoch": 0.613344, + "grad_norm": 0.08582441508769989, + "learning_rate": 1.5911040000000003e-05, + "loss": 0.0017, + "step": 95835 + }, + { + "epoch": 0.613376, + "grad_norm": 0.27989664673805237, + "learning_rate": 1.5910826666666668e-05, + "loss": 0.01, + "step": 95840 + }, + { + "epoch": 0.613408, + "grad_norm": 0.4166205823421478, + "learning_rate": 1.5910613333333335e-05, + "loss": 0.0192, + "step": 95845 + }, + { + "epoch": 0.61344, + "grad_norm": 0.1568709760904312, + "learning_rate": 1.5910400000000003e-05, + "loss": 0.009, + "step": 95850 + }, + { + "epoch": 0.613472, + "grad_norm": 0.7723309993743896, + "learning_rate": 1.5910186666666667e-05, + "loss": 0.018, + "step": 95855 + }, + { + "epoch": 0.613504, + "grad_norm": 0.5206175446510315, + "learning_rate": 1.5909973333333334e-05, + "loss": 0.0197, + "step": 95860 + }, + { + "epoch": 0.613536, + "grad_norm": 0.9371886253356934, + "learning_rate": 1.5909760000000002e-05, + "loss": 0.0172, + "step": 95865 + }, + { + "epoch": 0.613568, + "grad_norm": 0.2929293215274811, + "learning_rate": 1.590954666666667e-05, + "loss": 0.0117, + "step": 95870 + }, + { + "epoch": 0.6136, + "grad_norm": 0.04527480527758598, + "learning_rate": 1.5909333333333334e-05, + "loss": 0.0106, + "step": 95875 + }, + { + "epoch": 0.613632, + "grad_norm": 1.6877143383026123, + "learning_rate": 1.590912e-05, + "loss": 0.0309, + "step": 95880 + }, + { + "epoch": 0.613664, + "grad_norm": 0.15556001663208008, + "learning_rate": 1.590890666666667e-05, + "loss": 0.0225, + "step": 95885 + }, + { + "epoch": 0.613696, + "grad_norm": 0.2646808922290802, + "learning_rate": 1.5908693333333333e-05, + "loss": 0.023, + "step": 95890 + }, + { + "epoch": 0.613728, + "grad_norm": 0.44468191266059875, + "learning_rate": 1.590848e-05, + "loss": 0.0233, + "step": 95895 + }, + { + "epoch": 0.61376, + "grad_norm": 2.625129222869873, + "learning_rate": 1.5908266666666668e-05, + "loss": 0.0218, + "step": 95900 + }, + { + "epoch": 0.613792, + "grad_norm": 0.26581963896751404, + "learning_rate": 1.5908053333333336e-05, + "loss": 0.0103, + "step": 95905 + }, + { + "epoch": 0.613824, + "grad_norm": 0.35987499356269836, + "learning_rate": 1.590784e-05, + "loss": 0.0203, + "step": 95910 + }, + { + "epoch": 0.613856, + "grad_norm": 0.6805075407028198, + "learning_rate": 1.5907626666666667e-05, + "loss": 0.0142, + "step": 95915 + }, + { + "epoch": 0.613888, + "grad_norm": 0.6098837852478027, + "learning_rate": 1.5907413333333335e-05, + "loss": 0.0112, + "step": 95920 + }, + { + "epoch": 0.61392, + "grad_norm": 0.33048856258392334, + "learning_rate": 1.59072e-05, + "loss": 0.0093, + "step": 95925 + }, + { + "epoch": 0.613952, + "grad_norm": 0.5077909231185913, + "learning_rate": 1.590698666666667e-05, + "loss": 0.0131, + "step": 95930 + }, + { + "epoch": 0.613984, + "grad_norm": 1.684181571006775, + "learning_rate": 1.5906773333333334e-05, + "loss": 0.0147, + "step": 95935 + }, + { + "epoch": 0.614016, + "grad_norm": 0.5754221677780151, + "learning_rate": 1.5906560000000002e-05, + "loss": 0.008, + "step": 95940 + }, + { + "epoch": 0.614048, + "grad_norm": 0.3668144941329956, + "learning_rate": 1.590634666666667e-05, + "loss": 0.0267, + "step": 95945 + }, + { + "epoch": 0.61408, + "grad_norm": 1.0233362913131714, + "learning_rate": 1.5906133333333337e-05, + "loss": 0.0233, + "step": 95950 + }, + { + "epoch": 0.614112, + "grad_norm": 0.15716221928596497, + "learning_rate": 1.590592e-05, + "loss": 0.011, + "step": 95955 + }, + { + "epoch": 0.614144, + "grad_norm": 0.34969890117645264, + "learning_rate": 1.590570666666667e-05, + "loss": 0.0186, + "step": 95960 + }, + { + "epoch": 0.614176, + "grad_norm": 0.9718775749206543, + "learning_rate": 1.5905493333333336e-05, + "loss": 0.0131, + "step": 95965 + }, + { + "epoch": 0.614208, + "grad_norm": 0.18701159954071045, + "learning_rate": 1.590528e-05, + "loss": 0.0091, + "step": 95970 + }, + { + "epoch": 0.61424, + "grad_norm": 0.17828206717967987, + "learning_rate": 1.5905066666666668e-05, + "loss": 0.0114, + "step": 95975 + }, + { + "epoch": 0.614272, + "grad_norm": 2.1362476348876953, + "learning_rate": 1.5904853333333335e-05, + "loss": 0.0096, + "step": 95980 + }, + { + "epoch": 0.614304, + "grad_norm": 1.0142157077789307, + "learning_rate": 1.5904640000000003e-05, + "loss": 0.0317, + "step": 95985 + }, + { + "epoch": 0.614336, + "grad_norm": 0.3744005560874939, + "learning_rate": 1.5904426666666667e-05, + "loss": 0.0146, + "step": 95990 + }, + { + "epoch": 0.614368, + "grad_norm": 0.41888365149497986, + "learning_rate": 1.5904213333333335e-05, + "loss": 0.0085, + "step": 95995 + }, + { + "epoch": 0.6144, + "grad_norm": 0.5652748942375183, + "learning_rate": 1.5904000000000002e-05, + "loss": 0.0156, + "step": 96000 + }, + { + "epoch": 0.614432, + "grad_norm": 0.525791585445404, + "learning_rate": 1.5903786666666666e-05, + "loss": 0.0099, + "step": 96005 + }, + { + "epoch": 0.614464, + "grad_norm": 0.11160868406295776, + "learning_rate": 1.5903573333333334e-05, + "loss": 0.0161, + "step": 96010 + }, + { + "epoch": 0.614496, + "grad_norm": 0.4779239594936371, + "learning_rate": 1.590336e-05, + "loss": 0.0192, + "step": 96015 + }, + { + "epoch": 0.614528, + "grad_norm": 0.3008570373058319, + "learning_rate": 1.590314666666667e-05, + "loss": 0.0123, + "step": 96020 + }, + { + "epoch": 0.61456, + "grad_norm": 0.41789987683296204, + "learning_rate": 1.5902933333333333e-05, + "loss": 0.0147, + "step": 96025 + }, + { + "epoch": 0.614592, + "grad_norm": 0.5030638575553894, + "learning_rate": 1.590272e-05, + "loss": 0.0384, + "step": 96030 + }, + { + "epoch": 0.614624, + "grad_norm": 0.44809767603874207, + "learning_rate": 1.590250666666667e-05, + "loss": 0.0176, + "step": 96035 + }, + { + "epoch": 0.614656, + "grad_norm": 0.5671260356903076, + "learning_rate": 1.5902293333333332e-05, + "loss": 0.0246, + "step": 96040 + }, + { + "epoch": 0.614688, + "grad_norm": 1.0222225189208984, + "learning_rate": 1.5902080000000003e-05, + "loss": 0.0179, + "step": 96045 + }, + { + "epoch": 0.61472, + "grad_norm": 1.0173802375793457, + "learning_rate": 1.5901866666666668e-05, + "loss": 0.0363, + "step": 96050 + }, + { + "epoch": 0.614752, + "grad_norm": 0.2747414708137512, + "learning_rate": 1.5901653333333335e-05, + "loss": 0.0079, + "step": 96055 + }, + { + "epoch": 0.614784, + "grad_norm": 0.7255774140357971, + "learning_rate": 1.5901440000000003e-05, + "loss": 0.0189, + "step": 96060 + }, + { + "epoch": 0.614816, + "grad_norm": 0.5371516942977905, + "learning_rate": 1.5901226666666667e-05, + "loss": 0.0156, + "step": 96065 + }, + { + "epoch": 0.614848, + "grad_norm": 0.7953338027000427, + "learning_rate": 1.5901013333333334e-05, + "loss": 0.037, + "step": 96070 + }, + { + "epoch": 0.61488, + "grad_norm": 0.3308514356613159, + "learning_rate": 1.5900800000000002e-05, + "loss": 0.0232, + "step": 96075 + }, + { + "epoch": 0.614912, + "grad_norm": 0.06661678850650787, + "learning_rate": 1.590058666666667e-05, + "loss": 0.0071, + "step": 96080 + }, + { + "epoch": 0.614944, + "grad_norm": 0.06911401450634003, + "learning_rate": 1.5900373333333334e-05, + "loss": 0.0068, + "step": 96085 + }, + { + "epoch": 0.614976, + "grad_norm": 0.3470994830131531, + "learning_rate": 1.590016e-05, + "loss": 0.0125, + "step": 96090 + }, + { + "epoch": 0.615008, + "grad_norm": 0.09704825282096863, + "learning_rate": 1.589994666666667e-05, + "loss": 0.0087, + "step": 96095 + }, + { + "epoch": 0.61504, + "grad_norm": 0.74493008852005, + "learning_rate": 1.5899733333333333e-05, + "loss": 0.0263, + "step": 96100 + }, + { + "epoch": 0.615072, + "grad_norm": 0.8179919719696045, + "learning_rate": 1.589952e-05, + "loss": 0.0097, + "step": 96105 + }, + { + "epoch": 0.615104, + "grad_norm": 1.0240641832351685, + "learning_rate": 1.5899306666666668e-05, + "loss": 0.0172, + "step": 96110 + }, + { + "epoch": 0.615136, + "grad_norm": 0.34523242712020874, + "learning_rate": 1.5899093333333336e-05, + "loss": 0.0115, + "step": 96115 + }, + { + "epoch": 0.615168, + "grad_norm": 0.7173383235931396, + "learning_rate": 1.589888e-05, + "loss": 0.0225, + "step": 96120 + }, + { + "epoch": 0.6152, + "grad_norm": 0.9331470727920532, + "learning_rate": 1.5898666666666667e-05, + "loss": 0.0088, + "step": 96125 + }, + { + "epoch": 0.615232, + "grad_norm": 0.23227789998054504, + "learning_rate": 1.5898453333333335e-05, + "loss": 0.0201, + "step": 96130 + }, + { + "epoch": 0.615264, + "grad_norm": 1.319464087486267, + "learning_rate": 1.589824e-05, + "loss": 0.0224, + "step": 96135 + }, + { + "epoch": 0.615296, + "grad_norm": 1.6078606843948364, + "learning_rate": 1.5898026666666667e-05, + "loss": 0.0143, + "step": 96140 + }, + { + "epoch": 0.615328, + "grad_norm": 1.0779222249984741, + "learning_rate": 1.5897813333333334e-05, + "loss": 0.0137, + "step": 96145 + }, + { + "epoch": 0.61536, + "grad_norm": 0.15040886402130127, + "learning_rate": 1.5897600000000002e-05, + "loss": 0.0148, + "step": 96150 + }, + { + "epoch": 0.615392, + "grad_norm": 2.222468137741089, + "learning_rate": 1.589738666666667e-05, + "loss": 0.014, + "step": 96155 + }, + { + "epoch": 0.615424, + "grad_norm": 0.536470890045166, + "learning_rate": 1.5897173333333337e-05, + "loss": 0.0139, + "step": 96160 + }, + { + "epoch": 0.615456, + "grad_norm": 0.18801897764205933, + "learning_rate": 1.589696e-05, + "loss": 0.0177, + "step": 96165 + }, + { + "epoch": 0.615488, + "grad_norm": 0.22787514328956604, + "learning_rate": 1.589674666666667e-05, + "loss": 0.0162, + "step": 96170 + }, + { + "epoch": 0.61552, + "grad_norm": 0.910368025302887, + "learning_rate": 1.5896533333333336e-05, + "loss": 0.0106, + "step": 96175 + }, + { + "epoch": 0.615552, + "grad_norm": 0.13029782474040985, + "learning_rate": 1.589632e-05, + "loss": 0.014, + "step": 96180 + }, + { + "epoch": 0.615584, + "grad_norm": 0.3528042733669281, + "learning_rate": 1.5896106666666668e-05, + "loss": 0.0177, + "step": 96185 + }, + { + "epoch": 0.615616, + "grad_norm": 0.5453888773918152, + "learning_rate": 1.5895893333333335e-05, + "loss": 0.0198, + "step": 96190 + }, + { + "epoch": 0.615648, + "grad_norm": 1.8009943962097168, + "learning_rate": 1.5895680000000003e-05, + "loss": 0.0151, + "step": 96195 + }, + { + "epoch": 0.61568, + "grad_norm": 0.43757572770118713, + "learning_rate": 1.5895466666666667e-05, + "loss": 0.013, + "step": 96200 + }, + { + "epoch": 0.615712, + "grad_norm": 0.1812712550163269, + "learning_rate": 1.5895253333333335e-05, + "loss": 0.0186, + "step": 96205 + }, + { + "epoch": 0.615744, + "grad_norm": 0.5548380017280579, + "learning_rate": 1.5895040000000002e-05, + "loss": 0.0192, + "step": 96210 + }, + { + "epoch": 0.615776, + "grad_norm": 0.4081742465496063, + "learning_rate": 1.5894826666666666e-05, + "loss": 0.0174, + "step": 96215 + }, + { + "epoch": 0.615808, + "grad_norm": 0.3296431303024292, + "learning_rate": 1.5894613333333334e-05, + "loss": 0.018, + "step": 96220 + }, + { + "epoch": 0.61584, + "grad_norm": 0.5868179202079773, + "learning_rate": 1.58944e-05, + "loss": 0.0167, + "step": 96225 + }, + { + "epoch": 0.615872, + "grad_norm": 1.0662879943847656, + "learning_rate": 1.589418666666667e-05, + "loss": 0.014, + "step": 96230 + }, + { + "epoch": 0.615904, + "grad_norm": 0.17630749940872192, + "learning_rate": 1.5893973333333333e-05, + "loss": 0.0107, + "step": 96235 + }, + { + "epoch": 0.615936, + "grad_norm": 0.10844960808753967, + "learning_rate": 1.589376e-05, + "loss": 0.0233, + "step": 96240 + }, + { + "epoch": 0.615968, + "grad_norm": 0.21003642678260803, + "learning_rate": 1.589354666666667e-05, + "loss": 0.0185, + "step": 96245 + }, + { + "epoch": 0.616, + "grad_norm": 0.08913514018058777, + "learning_rate": 1.5893333333333333e-05, + "loss": 0.0176, + "step": 96250 + }, + { + "epoch": 0.616032, + "grad_norm": 0.31589260697364807, + "learning_rate": 1.5893120000000003e-05, + "loss": 0.0059, + "step": 96255 + }, + { + "epoch": 0.616064, + "grad_norm": 0.4874480664730072, + "learning_rate": 1.5892906666666668e-05, + "loss": 0.0307, + "step": 96260 + }, + { + "epoch": 0.616096, + "grad_norm": 0.1575387418270111, + "learning_rate": 1.5892693333333335e-05, + "loss": 0.0153, + "step": 96265 + }, + { + "epoch": 0.616128, + "grad_norm": 0.8297024965286255, + "learning_rate": 1.5892480000000003e-05, + "loss": 0.0334, + "step": 96270 + }, + { + "epoch": 0.61616, + "grad_norm": 0.16745491325855255, + "learning_rate": 1.5892266666666667e-05, + "loss": 0.0085, + "step": 96275 + }, + { + "epoch": 0.616192, + "grad_norm": 0.4191708266735077, + "learning_rate": 1.5892053333333334e-05, + "loss": 0.0109, + "step": 96280 + }, + { + "epoch": 0.616224, + "grad_norm": 0.52976393699646, + "learning_rate": 1.5891840000000002e-05, + "loss": 0.0318, + "step": 96285 + }, + { + "epoch": 0.616256, + "grad_norm": 0.9700552225112915, + "learning_rate": 1.589162666666667e-05, + "loss": 0.0179, + "step": 96290 + }, + { + "epoch": 0.616288, + "grad_norm": 0.9683387279510498, + "learning_rate": 1.5891413333333334e-05, + "loss": 0.0185, + "step": 96295 + }, + { + "epoch": 0.61632, + "grad_norm": 1.6860045194625854, + "learning_rate": 1.58912e-05, + "loss": 0.0294, + "step": 96300 + }, + { + "epoch": 0.616352, + "grad_norm": 0.3472798764705658, + "learning_rate": 1.589098666666667e-05, + "loss": 0.0131, + "step": 96305 + }, + { + "epoch": 0.616384, + "grad_norm": 0.43966102600097656, + "learning_rate": 1.5890773333333333e-05, + "loss": 0.0091, + "step": 96310 + }, + { + "epoch": 0.616416, + "grad_norm": 0.06755349040031433, + "learning_rate": 1.589056e-05, + "loss": 0.0035, + "step": 96315 + }, + { + "epoch": 0.616448, + "grad_norm": 0.636533796787262, + "learning_rate": 1.5890346666666668e-05, + "loss": 0.0055, + "step": 96320 + }, + { + "epoch": 0.61648, + "grad_norm": 1.1752851009368896, + "learning_rate": 1.5890133333333336e-05, + "loss": 0.0372, + "step": 96325 + }, + { + "epoch": 0.616512, + "grad_norm": 2.5005877017974854, + "learning_rate": 1.588992e-05, + "loss": 0.0217, + "step": 96330 + }, + { + "epoch": 0.616544, + "grad_norm": 0.24032659828662872, + "learning_rate": 1.5889706666666667e-05, + "loss": 0.0134, + "step": 96335 + }, + { + "epoch": 0.616576, + "grad_norm": 2.4302632808685303, + "learning_rate": 1.5889493333333335e-05, + "loss": 0.0189, + "step": 96340 + }, + { + "epoch": 0.616608, + "grad_norm": 0.06850503385066986, + "learning_rate": 1.588928e-05, + "loss": 0.0196, + "step": 96345 + }, + { + "epoch": 0.61664, + "grad_norm": 0.04754331707954407, + "learning_rate": 1.5889066666666667e-05, + "loss": 0.0116, + "step": 96350 + }, + { + "epoch": 0.616672, + "grad_norm": 0.09341157972812653, + "learning_rate": 1.5888853333333334e-05, + "loss": 0.0104, + "step": 96355 + }, + { + "epoch": 0.616704, + "grad_norm": 0.1400747448205948, + "learning_rate": 1.5888640000000002e-05, + "loss": 0.0184, + "step": 96360 + }, + { + "epoch": 0.616736, + "grad_norm": 0.10357943922281265, + "learning_rate": 1.5888426666666666e-05, + "loss": 0.0045, + "step": 96365 + }, + { + "epoch": 0.616768, + "grad_norm": 0.859661340713501, + "learning_rate": 1.5888213333333337e-05, + "loss": 0.0234, + "step": 96370 + }, + { + "epoch": 0.6168, + "grad_norm": 0.3633122742176056, + "learning_rate": 1.5888e-05, + "loss": 0.0088, + "step": 96375 + }, + { + "epoch": 0.616832, + "grad_norm": 0.38606709241867065, + "learning_rate": 1.588778666666667e-05, + "loss": 0.0051, + "step": 96380 + }, + { + "epoch": 0.616864, + "grad_norm": 0.4779474437236786, + "learning_rate": 1.5887573333333336e-05, + "loss": 0.0264, + "step": 96385 + }, + { + "epoch": 0.616896, + "grad_norm": 0.6328539252281189, + "learning_rate": 1.588736e-05, + "loss": 0.0176, + "step": 96390 + }, + { + "epoch": 0.616928, + "grad_norm": 1.8799110651016235, + "learning_rate": 1.5887146666666668e-05, + "loss": 0.0129, + "step": 96395 + }, + { + "epoch": 0.61696, + "grad_norm": 1.9503792524337769, + "learning_rate": 1.5886933333333335e-05, + "loss": 0.0162, + "step": 96400 + }, + { + "epoch": 0.616992, + "grad_norm": 0.8950541019439697, + "learning_rate": 1.5886720000000003e-05, + "loss": 0.0132, + "step": 96405 + }, + { + "epoch": 0.617024, + "grad_norm": 0.10664147138595581, + "learning_rate": 1.5886506666666667e-05, + "loss": 0.0191, + "step": 96410 + }, + { + "epoch": 0.617056, + "grad_norm": 0.07482630014419556, + "learning_rate": 1.5886293333333335e-05, + "loss": 0.016, + "step": 96415 + }, + { + "epoch": 0.617088, + "grad_norm": 1.0579603910446167, + "learning_rate": 1.5886080000000002e-05, + "loss": 0.0289, + "step": 96420 + }, + { + "epoch": 0.61712, + "grad_norm": 0.4521629512310028, + "learning_rate": 1.5885866666666666e-05, + "loss": 0.0084, + "step": 96425 + }, + { + "epoch": 0.617152, + "grad_norm": 0.15226826071739197, + "learning_rate": 1.5885653333333334e-05, + "loss": 0.0108, + "step": 96430 + }, + { + "epoch": 0.617184, + "grad_norm": 0.22879642248153687, + "learning_rate": 1.588544e-05, + "loss": 0.0161, + "step": 96435 + }, + { + "epoch": 0.617216, + "grad_norm": 0.8861264586448669, + "learning_rate": 1.588522666666667e-05, + "loss": 0.0126, + "step": 96440 + }, + { + "epoch": 0.617248, + "grad_norm": 0.8480879068374634, + "learning_rate": 1.5885013333333333e-05, + "loss": 0.0071, + "step": 96445 + }, + { + "epoch": 0.61728, + "grad_norm": 0.30564379692077637, + "learning_rate": 1.58848e-05, + "loss": 0.0079, + "step": 96450 + }, + { + "epoch": 0.617312, + "grad_norm": 1.8876276016235352, + "learning_rate": 1.588458666666667e-05, + "loss": 0.0676, + "step": 96455 + }, + { + "epoch": 0.617344, + "grad_norm": 0.2641058564186096, + "learning_rate": 1.5884373333333333e-05, + "loss": 0.0224, + "step": 96460 + }, + { + "epoch": 0.617376, + "grad_norm": 0.683860182762146, + "learning_rate": 1.5884160000000003e-05, + "loss": 0.0163, + "step": 96465 + }, + { + "epoch": 0.617408, + "grad_norm": 0.38333040475845337, + "learning_rate": 1.5883946666666668e-05, + "loss": 0.0107, + "step": 96470 + }, + { + "epoch": 0.61744, + "grad_norm": 0.15076984465122223, + "learning_rate": 1.5883733333333335e-05, + "loss": 0.0134, + "step": 96475 + }, + { + "epoch": 0.617472, + "grad_norm": 0.10555653274059296, + "learning_rate": 1.5883520000000003e-05, + "loss": 0.0117, + "step": 96480 + }, + { + "epoch": 0.617504, + "grad_norm": 0.3563758134841919, + "learning_rate": 1.5883306666666667e-05, + "loss": 0.0057, + "step": 96485 + }, + { + "epoch": 0.617536, + "grad_norm": 0.41939106583595276, + "learning_rate": 1.5883093333333334e-05, + "loss": 0.0205, + "step": 96490 + }, + { + "epoch": 0.617568, + "grad_norm": 0.6213886141777039, + "learning_rate": 1.5882880000000002e-05, + "loss": 0.0267, + "step": 96495 + }, + { + "epoch": 0.6176, + "grad_norm": 0.4013618528842926, + "learning_rate": 1.588266666666667e-05, + "loss": 0.0104, + "step": 96500 + }, + { + "epoch": 0.617632, + "grad_norm": 0.9766589403152466, + "learning_rate": 1.5882453333333334e-05, + "loss": 0.0232, + "step": 96505 + }, + { + "epoch": 0.617664, + "grad_norm": 0.007158479653298855, + "learning_rate": 1.588224e-05, + "loss": 0.0065, + "step": 96510 + }, + { + "epoch": 0.617696, + "grad_norm": 0.8181378841400146, + "learning_rate": 1.588202666666667e-05, + "loss": 0.024, + "step": 96515 + }, + { + "epoch": 0.617728, + "grad_norm": 0.2828347682952881, + "learning_rate": 1.5881813333333333e-05, + "loss": 0.0186, + "step": 96520 + }, + { + "epoch": 0.61776, + "grad_norm": 0.8233983516693115, + "learning_rate": 1.58816e-05, + "loss": 0.0162, + "step": 96525 + }, + { + "epoch": 0.617792, + "grad_norm": 0.6593042612075806, + "learning_rate": 1.5881386666666668e-05, + "loss": 0.0167, + "step": 96530 + }, + { + "epoch": 0.617824, + "grad_norm": 0.8248619437217712, + "learning_rate": 1.5881173333333336e-05, + "loss": 0.0188, + "step": 96535 + }, + { + "epoch": 0.617856, + "grad_norm": 0.8679817914962769, + "learning_rate": 1.588096e-05, + "loss": 0.0161, + "step": 96540 + }, + { + "epoch": 0.617888, + "grad_norm": 0.47746238112449646, + "learning_rate": 1.5880746666666667e-05, + "loss": 0.016, + "step": 96545 + }, + { + "epoch": 0.61792, + "grad_norm": 0.6431676149368286, + "learning_rate": 1.5880533333333335e-05, + "loss": 0.0093, + "step": 96550 + }, + { + "epoch": 0.617952, + "grad_norm": 0.7705056071281433, + "learning_rate": 1.5880320000000002e-05, + "loss": 0.0215, + "step": 96555 + }, + { + "epoch": 0.617984, + "grad_norm": 0.4718357026576996, + "learning_rate": 1.5880106666666667e-05, + "loss": 0.0166, + "step": 96560 + }, + { + "epoch": 0.618016, + "grad_norm": 0.2468947023153305, + "learning_rate": 1.5879893333333334e-05, + "loss": 0.0147, + "step": 96565 + }, + { + "epoch": 0.618048, + "grad_norm": 0.5131610035896301, + "learning_rate": 1.5879680000000002e-05, + "loss": 0.0191, + "step": 96570 + }, + { + "epoch": 0.61808, + "grad_norm": 1.129725694656372, + "learning_rate": 1.5879466666666666e-05, + "loss": 0.0225, + "step": 96575 + }, + { + "epoch": 0.618112, + "grad_norm": 0.4349675476551056, + "learning_rate": 1.5879253333333337e-05, + "loss": 0.0221, + "step": 96580 + }, + { + "epoch": 0.618144, + "grad_norm": 0.10330723971128464, + "learning_rate": 1.587904e-05, + "loss": 0.0089, + "step": 96585 + }, + { + "epoch": 0.618176, + "grad_norm": 0.2796001732349396, + "learning_rate": 1.587882666666667e-05, + "loss": 0.0129, + "step": 96590 + }, + { + "epoch": 0.618208, + "grad_norm": 0.46002280712127686, + "learning_rate": 1.5878613333333336e-05, + "loss": 0.0179, + "step": 96595 + }, + { + "epoch": 0.61824, + "grad_norm": 0.30029088258743286, + "learning_rate": 1.58784e-05, + "loss": 0.0081, + "step": 96600 + }, + { + "epoch": 0.618272, + "grad_norm": 0.6662402153015137, + "learning_rate": 1.5878186666666668e-05, + "loss": 0.0147, + "step": 96605 + }, + { + "epoch": 0.618304, + "grad_norm": 0.7239199876785278, + "learning_rate": 1.5877973333333335e-05, + "loss": 0.0191, + "step": 96610 + }, + { + "epoch": 0.618336, + "grad_norm": 0.08576897531747818, + "learning_rate": 1.5877760000000003e-05, + "loss": 0.0111, + "step": 96615 + }, + { + "epoch": 0.618368, + "grad_norm": 0.1175616905093193, + "learning_rate": 1.5877546666666667e-05, + "loss": 0.0284, + "step": 96620 + }, + { + "epoch": 0.6184, + "grad_norm": 0.5842430591583252, + "learning_rate": 1.5877333333333335e-05, + "loss": 0.0181, + "step": 96625 + }, + { + "epoch": 0.618432, + "grad_norm": 0.8455796837806702, + "learning_rate": 1.5877120000000002e-05, + "loss": 0.015, + "step": 96630 + }, + { + "epoch": 0.618464, + "grad_norm": 0.23016543686389923, + "learning_rate": 1.5876906666666666e-05, + "loss": 0.0138, + "step": 96635 + }, + { + "epoch": 0.618496, + "grad_norm": 0.10066226124763489, + "learning_rate": 1.5876693333333334e-05, + "loss": 0.0121, + "step": 96640 + }, + { + "epoch": 0.618528, + "grad_norm": 0.18450970947742462, + "learning_rate": 1.587648e-05, + "loss": 0.0168, + "step": 96645 + }, + { + "epoch": 0.61856, + "grad_norm": 0.49636974930763245, + "learning_rate": 1.587626666666667e-05, + "loss": 0.0279, + "step": 96650 + }, + { + "epoch": 0.618592, + "grad_norm": 3.089473247528076, + "learning_rate": 1.5876053333333333e-05, + "loss": 0.0285, + "step": 96655 + }, + { + "epoch": 0.618624, + "grad_norm": 0.689002513885498, + "learning_rate": 1.587584e-05, + "loss": 0.0157, + "step": 96660 + }, + { + "epoch": 0.618656, + "grad_norm": 0.2753414511680603, + "learning_rate": 1.587562666666667e-05, + "loss": 0.0081, + "step": 96665 + }, + { + "epoch": 0.618688, + "grad_norm": 0.5968999862670898, + "learning_rate": 1.5875413333333333e-05, + "loss": 0.0177, + "step": 96670 + }, + { + "epoch": 0.61872, + "grad_norm": 0.667730450630188, + "learning_rate": 1.58752e-05, + "loss": 0.0159, + "step": 96675 + }, + { + "epoch": 0.618752, + "grad_norm": 0.5091091990470886, + "learning_rate": 1.5874986666666668e-05, + "loss": 0.016, + "step": 96680 + }, + { + "epoch": 0.618784, + "grad_norm": 0.5571486949920654, + "learning_rate": 1.5874773333333335e-05, + "loss": 0.0248, + "step": 96685 + }, + { + "epoch": 0.618816, + "grad_norm": 2.849219799041748, + "learning_rate": 1.5874560000000003e-05, + "loss": 0.0307, + "step": 96690 + }, + { + "epoch": 0.618848, + "grad_norm": 0.3728645145893097, + "learning_rate": 1.587434666666667e-05, + "loss": 0.0097, + "step": 96695 + }, + { + "epoch": 0.61888, + "grad_norm": 0.21147127449512482, + "learning_rate": 1.5874133333333334e-05, + "loss": 0.0173, + "step": 96700 + }, + { + "epoch": 0.618912, + "grad_norm": 0.07991056144237518, + "learning_rate": 1.5873920000000002e-05, + "loss": 0.0227, + "step": 96705 + }, + { + "epoch": 0.618944, + "grad_norm": 0.39534157514572144, + "learning_rate": 1.587370666666667e-05, + "loss": 0.0273, + "step": 96710 + }, + { + "epoch": 0.618976, + "grad_norm": 0.33941903710365295, + "learning_rate": 1.5873493333333334e-05, + "loss": 0.0255, + "step": 96715 + }, + { + "epoch": 0.619008, + "grad_norm": 0.7719660401344299, + "learning_rate": 1.587328e-05, + "loss": 0.0124, + "step": 96720 + }, + { + "epoch": 0.61904, + "grad_norm": 0.3383258283138275, + "learning_rate": 1.587306666666667e-05, + "loss": 0.0162, + "step": 96725 + }, + { + "epoch": 0.619072, + "grad_norm": 0.33383551239967346, + "learning_rate": 1.5872853333333336e-05, + "loss": 0.0177, + "step": 96730 + }, + { + "epoch": 0.619104, + "grad_norm": 0.6250375509262085, + "learning_rate": 1.587264e-05, + "loss": 0.0257, + "step": 96735 + }, + { + "epoch": 0.619136, + "grad_norm": 0.9500707387924194, + "learning_rate": 1.5872426666666668e-05, + "loss": 0.0309, + "step": 96740 + }, + { + "epoch": 0.619168, + "grad_norm": 0.648655891418457, + "learning_rate": 1.5872213333333336e-05, + "loss": 0.0161, + "step": 96745 + }, + { + "epoch": 0.6192, + "grad_norm": 1.2437983751296997, + "learning_rate": 1.5872e-05, + "loss": 0.0183, + "step": 96750 + }, + { + "epoch": 0.619232, + "grad_norm": 1.0193406343460083, + "learning_rate": 1.5871786666666667e-05, + "loss": 0.0263, + "step": 96755 + }, + { + "epoch": 0.619264, + "grad_norm": 0.5761285424232483, + "learning_rate": 1.5871573333333335e-05, + "loss": 0.0117, + "step": 96760 + }, + { + "epoch": 0.619296, + "grad_norm": 0.26134857535362244, + "learning_rate": 1.5871360000000002e-05, + "loss": 0.007, + "step": 96765 + }, + { + "epoch": 0.619328, + "grad_norm": 0.5504117608070374, + "learning_rate": 1.5871146666666667e-05, + "loss": 0.0168, + "step": 96770 + }, + { + "epoch": 0.61936, + "grad_norm": 0.15651395916938782, + "learning_rate": 1.5870933333333334e-05, + "loss": 0.0033, + "step": 96775 + }, + { + "epoch": 0.619392, + "grad_norm": 0.4694874882698059, + "learning_rate": 1.5870720000000002e-05, + "loss": 0.014, + "step": 96780 + }, + { + "epoch": 0.619424, + "grad_norm": 0.2619016766548157, + "learning_rate": 1.5870506666666666e-05, + "loss": 0.0086, + "step": 96785 + }, + { + "epoch": 0.619456, + "grad_norm": 0.6876202821731567, + "learning_rate": 1.5870293333333337e-05, + "loss": 0.0146, + "step": 96790 + }, + { + "epoch": 0.619488, + "grad_norm": 0.8079246878623962, + "learning_rate": 1.587008e-05, + "loss": 0.0096, + "step": 96795 + }, + { + "epoch": 0.61952, + "grad_norm": 0.4076370596885681, + "learning_rate": 1.586986666666667e-05, + "loss": 0.0111, + "step": 96800 + }, + { + "epoch": 0.619552, + "grad_norm": 0.31356650590896606, + "learning_rate": 1.5869653333333336e-05, + "loss": 0.0095, + "step": 96805 + }, + { + "epoch": 0.619584, + "grad_norm": 0.28279927372932434, + "learning_rate": 1.586944e-05, + "loss": 0.0089, + "step": 96810 + }, + { + "epoch": 0.619616, + "grad_norm": 0.6071203947067261, + "learning_rate": 1.5869226666666668e-05, + "loss": 0.0454, + "step": 96815 + }, + { + "epoch": 0.619648, + "grad_norm": 1.1056116819381714, + "learning_rate": 1.5869013333333335e-05, + "loss": 0.0094, + "step": 96820 + }, + { + "epoch": 0.61968, + "grad_norm": 0.9579269289970398, + "learning_rate": 1.5868800000000003e-05, + "loss": 0.0245, + "step": 96825 + }, + { + "epoch": 0.619712, + "grad_norm": 0.4178693890571594, + "learning_rate": 1.5868586666666667e-05, + "loss": 0.0107, + "step": 96830 + }, + { + "epoch": 0.619744, + "grad_norm": 1.0978788137435913, + "learning_rate": 1.5868373333333335e-05, + "loss": 0.0149, + "step": 96835 + }, + { + "epoch": 0.619776, + "grad_norm": 0.11912215501070023, + "learning_rate": 1.5868160000000002e-05, + "loss": 0.013, + "step": 96840 + }, + { + "epoch": 0.619808, + "grad_norm": 0.34491094946861267, + "learning_rate": 1.5867946666666666e-05, + "loss": 0.0081, + "step": 96845 + }, + { + "epoch": 0.61984, + "grad_norm": 0.20828036963939667, + "learning_rate": 1.5867733333333334e-05, + "loss": 0.0197, + "step": 96850 + }, + { + "epoch": 0.619872, + "grad_norm": 1.2289459705352783, + "learning_rate": 1.586752e-05, + "loss": 0.0134, + "step": 96855 + }, + { + "epoch": 0.619904, + "grad_norm": 0.2662713825702667, + "learning_rate": 1.586730666666667e-05, + "loss": 0.0245, + "step": 96860 + }, + { + "epoch": 0.619936, + "grad_norm": 0.4921116828918457, + "learning_rate": 1.5867093333333333e-05, + "loss": 0.0108, + "step": 96865 + }, + { + "epoch": 0.619968, + "grad_norm": 0.8960212469100952, + "learning_rate": 1.586688e-05, + "loss": 0.0369, + "step": 96870 + }, + { + "epoch": 0.62, + "grad_norm": 2.313406467437744, + "learning_rate": 1.586666666666667e-05, + "loss": 0.0295, + "step": 96875 + }, + { + "epoch": 0.620032, + "grad_norm": 1.5726312398910522, + "learning_rate": 1.5866453333333333e-05, + "loss": 0.0135, + "step": 96880 + }, + { + "epoch": 0.620064, + "grad_norm": 0.43238529562950134, + "learning_rate": 1.586624e-05, + "loss": 0.0233, + "step": 96885 + }, + { + "epoch": 0.620096, + "grad_norm": 1.0950556993484497, + "learning_rate": 1.5866026666666668e-05, + "loss": 0.0095, + "step": 96890 + }, + { + "epoch": 0.620128, + "grad_norm": 0.27099108695983887, + "learning_rate": 1.5865813333333335e-05, + "loss": 0.0176, + "step": 96895 + }, + { + "epoch": 0.62016, + "grad_norm": 0.126057967543602, + "learning_rate": 1.58656e-05, + "loss": 0.0151, + "step": 96900 + }, + { + "epoch": 0.620192, + "grad_norm": 0.41332292556762695, + "learning_rate": 1.586538666666667e-05, + "loss": 0.0191, + "step": 96905 + }, + { + "epoch": 0.620224, + "grad_norm": 0.03564811870455742, + "learning_rate": 1.5865173333333334e-05, + "loss": 0.0134, + "step": 96910 + }, + { + "epoch": 0.620256, + "grad_norm": 0.024916764348745346, + "learning_rate": 1.5864960000000002e-05, + "loss": 0.0134, + "step": 96915 + }, + { + "epoch": 0.620288, + "grad_norm": 0.9692798852920532, + "learning_rate": 1.586474666666667e-05, + "loss": 0.0148, + "step": 96920 + }, + { + "epoch": 0.62032, + "grad_norm": 0.5794446468353271, + "learning_rate": 1.5864533333333334e-05, + "loss": 0.0343, + "step": 96925 + }, + { + "epoch": 0.620352, + "grad_norm": 0.9093561172485352, + "learning_rate": 1.586432e-05, + "loss": 0.0152, + "step": 96930 + }, + { + "epoch": 0.620384, + "grad_norm": 0.6878216862678528, + "learning_rate": 1.586410666666667e-05, + "loss": 0.0376, + "step": 96935 + }, + { + "epoch": 0.620416, + "grad_norm": 1.218674659729004, + "learning_rate": 1.5863893333333336e-05, + "loss": 0.0299, + "step": 96940 + }, + { + "epoch": 0.620448, + "grad_norm": 0.5157750844955444, + "learning_rate": 1.586368e-05, + "loss": 0.0145, + "step": 96945 + }, + { + "epoch": 0.62048, + "grad_norm": 0.817211925983429, + "learning_rate": 1.5863466666666668e-05, + "loss": 0.0104, + "step": 96950 + }, + { + "epoch": 0.620512, + "grad_norm": 0.48756906390190125, + "learning_rate": 1.5863253333333336e-05, + "loss": 0.0072, + "step": 96955 + }, + { + "epoch": 0.620544, + "grad_norm": 0.5003433227539062, + "learning_rate": 1.586304e-05, + "loss": 0.0098, + "step": 96960 + }, + { + "epoch": 0.620576, + "grad_norm": 0.4679773449897766, + "learning_rate": 1.5862826666666667e-05, + "loss": 0.025, + "step": 96965 + }, + { + "epoch": 0.620608, + "grad_norm": 2.90718412399292, + "learning_rate": 1.5862613333333335e-05, + "loss": 0.0111, + "step": 96970 + }, + { + "epoch": 0.62064, + "grad_norm": 0.6010041236877441, + "learning_rate": 1.5862400000000002e-05, + "loss": 0.0141, + "step": 96975 + }, + { + "epoch": 0.620672, + "grad_norm": 1.2425440549850464, + "learning_rate": 1.5862186666666667e-05, + "loss": 0.0101, + "step": 96980 + }, + { + "epoch": 0.620704, + "grad_norm": 0.5089508891105652, + "learning_rate": 1.5861973333333334e-05, + "loss": 0.0185, + "step": 96985 + }, + { + "epoch": 0.620736, + "grad_norm": 0.5752678513526917, + "learning_rate": 1.5861760000000002e-05, + "loss": 0.0195, + "step": 96990 + }, + { + "epoch": 0.620768, + "grad_norm": 0.24155543744564056, + "learning_rate": 1.5861546666666666e-05, + "loss": 0.0116, + "step": 96995 + }, + { + "epoch": 0.6208, + "grad_norm": 0.5039722323417664, + "learning_rate": 1.5861333333333337e-05, + "loss": 0.021, + "step": 97000 + }, + { + "epoch": 0.620832, + "grad_norm": 0.22817331552505493, + "learning_rate": 1.586112e-05, + "loss": 0.007, + "step": 97005 + }, + { + "epoch": 0.620864, + "grad_norm": 0.2977675795555115, + "learning_rate": 1.586090666666667e-05, + "loss": 0.0119, + "step": 97010 + }, + { + "epoch": 0.620896, + "grad_norm": 0.32844477891921997, + "learning_rate": 1.5860693333333336e-05, + "loss": 0.006, + "step": 97015 + }, + { + "epoch": 0.620928, + "grad_norm": 1.1264773607254028, + "learning_rate": 1.586048e-05, + "loss": 0.0239, + "step": 97020 + }, + { + "epoch": 0.62096, + "grad_norm": 0.3613206446170807, + "learning_rate": 1.5860266666666668e-05, + "loss": 0.026, + "step": 97025 + }, + { + "epoch": 0.620992, + "grad_norm": 0.1155211329460144, + "learning_rate": 1.5860053333333335e-05, + "loss": 0.0104, + "step": 97030 + }, + { + "epoch": 0.621024, + "grad_norm": 0.6466799378395081, + "learning_rate": 1.5859840000000003e-05, + "loss": 0.0119, + "step": 97035 + }, + { + "epoch": 0.621056, + "grad_norm": 0.3560478687286377, + "learning_rate": 1.5859626666666667e-05, + "loss": 0.0214, + "step": 97040 + }, + { + "epoch": 0.621088, + "grad_norm": 0.30236780643463135, + "learning_rate": 1.5859413333333335e-05, + "loss": 0.0116, + "step": 97045 + }, + { + "epoch": 0.62112, + "grad_norm": 0.25118985772132874, + "learning_rate": 1.5859200000000002e-05, + "loss": 0.01, + "step": 97050 + }, + { + "epoch": 0.621152, + "grad_norm": 0.837442934513092, + "learning_rate": 1.5858986666666666e-05, + "loss": 0.0234, + "step": 97055 + }, + { + "epoch": 0.621184, + "grad_norm": 0.1787438690662384, + "learning_rate": 1.5858773333333334e-05, + "loss": 0.0204, + "step": 97060 + }, + { + "epoch": 0.621216, + "grad_norm": 1.129980444908142, + "learning_rate": 1.585856e-05, + "loss": 0.0154, + "step": 97065 + }, + { + "epoch": 0.621248, + "grad_norm": 0.03583255782723427, + "learning_rate": 1.585834666666667e-05, + "loss": 0.0156, + "step": 97070 + }, + { + "epoch": 0.62128, + "grad_norm": 0.10675941407680511, + "learning_rate": 1.5858133333333333e-05, + "loss": 0.0101, + "step": 97075 + }, + { + "epoch": 0.621312, + "grad_norm": 0.18572403490543365, + "learning_rate": 1.585792e-05, + "loss": 0.0324, + "step": 97080 + }, + { + "epoch": 0.621344, + "grad_norm": 0.6419875621795654, + "learning_rate": 1.585770666666667e-05, + "loss": 0.0226, + "step": 97085 + }, + { + "epoch": 0.621376, + "grad_norm": 0.8712900280952454, + "learning_rate": 1.5857493333333333e-05, + "loss": 0.0266, + "step": 97090 + }, + { + "epoch": 0.621408, + "grad_norm": 0.7252208590507507, + "learning_rate": 1.585728e-05, + "loss": 0.0082, + "step": 97095 + }, + { + "epoch": 0.62144, + "grad_norm": 1.5375040769577026, + "learning_rate": 1.5857066666666668e-05, + "loss": 0.0286, + "step": 97100 + }, + { + "epoch": 0.621472, + "grad_norm": 0.38254642486572266, + "learning_rate": 1.5856853333333335e-05, + "loss": 0.0172, + "step": 97105 + }, + { + "epoch": 0.621504, + "grad_norm": 0.9812323451042175, + "learning_rate": 1.585664e-05, + "loss": 0.0109, + "step": 97110 + }, + { + "epoch": 0.621536, + "grad_norm": 0.8601697683334351, + "learning_rate": 1.585642666666667e-05, + "loss": 0.0105, + "step": 97115 + }, + { + "epoch": 0.621568, + "grad_norm": 0.2174462527036667, + "learning_rate": 1.5856213333333334e-05, + "loss": 0.0122, + "step": 97120 + }, + { + "epoch": 0.6216, + "grad_norm": 0.5903938412666321, + "learning_rate": 1.5856e-05, + "loss": 0.0097, + "step": 97125 + }, + { + "epoch": 0.621632, + "grad_norm": 3.3234612941741943, + "learning_rate": 1.585578666666667e-05, + "loss": 0.0247, + "step": 97130 + }, + { + "epoch": 0.621664, + "grad_norm": 0.3338193893432617, + "learning_rate": 1.5855573333333334e-05, + "loss": 0.0167, + "step": 97135 + }, + { + "epoch": 0.621696, + "grad_norm": 0.37720075249671936, + "learning_rate": 1.585536e-05, + "loss": 0.0089, + "step": 97140 + }, + { + "epoch": 0.621728, + "grad_norm": 0.009639655239880085, + "learning_rate": 1.585514666666667e-05, + "loss": 0.0204, + "step": 97145 + }, + { + "epoch": 0.62176, + "grad_norm": 0.380364328622818, + "learning_rate": 1.5854933333333336e-05, + "loss": 0.0195, + "step": 97150 + }, + { + "epoch": 0.621792, + "grad_norm": 0.4382376968860626, + "learning_rate": 1.585472e-05, + "loss": 0.0285, + "step": 97155 + }, + { + "epoch": 0.621824, + "grad_norm": 0.274825781583786, + "learning_rate": 1.5854506666666668e-05, + "loss": 0.0114, + "step": 97160 + }, + { + "epoch": 0.621856, + "grad_norm": 0.0918143093585968, + "learning_rate": 1.5854293333333336e-05, + "loss": 0.0197, + "step": 97165 + }, + { + "epoch": 0.621888, + "grad_norm": 0.31550949811935425, + "learning_rate": 1.585408e-05, + "loss": 0.015, + "step": 97170 + }, + { + "epoch": 0.62192, + "grad_norm": 0.595960795879364, + "learning_rate": 1.5853866666666667e-05, + "loss": 0.0081, + "step": 97175 + }, + { + "epoch": 0.621952, + "grad_norm": 0.2540815770626068, + "learning_rate": 1.5853653333333335e-05, + "loss": 0.0113, + "step": 97180 + }, + { + "epoch": 0.621984, + "grad_norm": 1.0870453119277954, + "learning_rate": 1.5853440000000002e-05, + "loss": 0.0167, + "step": 97185 + }, + { + "epoch": 0.622016, + "grad_norm": 0.45636671781539917, + "learning_rate": 1.5853226666666667e-05, + "loss": 0.0102, + "step": 97190 + }, + { + "epoch": 0.622048, + "grad_norm": 0.48439115285873413, + "learning_rate": 1.5853013333333334e-05, + "loss": 0.0101, + "step": 97195 + }, + { + "epoch": 0.62208, + "grad_norm": 1.2803723812103271, + "learning_rate": 1.5852800000000002e-05, + "loss": 0.0198, + "step": 97200 + }, + { + "epoch": 0.622112, + "grad_norm": 0.40833309292793274, + "learning_rate": 1.5852586666666666e-05, + "loss": 0.0144, + "step": 97205 + }, + { + "epoch": 0.622144, + "grad_norm": 0.5180486440658569, + "learning_rate": 1.5852373333333333e-05, + "loss": 0.0184, + "step": 97210 + }, + { + "epoch": 0.622176, + "grad_norm": 0.17240138351917267, + "learning_rate": 1.585216e-05, + "loss": 0.0082, + "step": 97215 + }, + { + "epoch": 0.622208, + "grad_norm": 0.9820098876953125, + "learning_rate": 1.585194666666667e-05, + "loss": 0.0248, + "step": 97220 + }, + { + "epoch": 0.62224, + "grad_norm": 0.04972505569458008, + "learning_rate": 1.5851733333333336e-05, + "loss": 0.0123, + "step": 97225 + }, + { + "epoch": 0.622272, + "grad_norm": 0.427462100982666, + "learning_rate": 1.585152e-05, + "loss": 0.0137, + "step": 97230 + }, + { + "epoch": 0.622304, + "grad_norm": 0.40071162581443787, + "learning_rate": 1.5851306666666668e-05, + "loss": 0.0142, + "step": 97235 + }, + { + "epoch": 0.622336, + "grad_norm": 0.6721789836883545, + "learning_rate": 1.5851093333333335e-05, + "loss": 0.0172, + "step": 97240 + }, + { + "epoch": 0.622368, + "grad_norm": 3.795461654663086, + "learning_rate": 1.5850880000000003e-05, + "loss": 0.0232, + "step": 97245 + }, + { + "epoch": 0.6224, + "grad_norm": 0.08852054923772812, + "learning_rate": 1.5850666666666667e-05, + "loss": 0.0128, + "step": 97250 + }, + { + "epoch": 0.622432, + "grad_norm": 0.33196184039115906, + "learning_rate": 1.5850453333333335e-05, + "loss": 0.0073, + "step": 97255 + }, + { + "epoch": 0.622464, + "grad_norm": 0.6895884275436401, + "learning_rate": 1.5850240000000002e-05, + "loss": 0.0091, + "step": 97260 + }, + { + "epoch": 0.622496, + "grad_norm": 0.029053645208477974, + "learning_rate": 1.5850026666666666e-05, + "loss": 0.0173, + "step": 97265 + }, + { + "epoch": 0.622528, + "grad_norm": 1.1708056926727295, + "learning_rate": 1.5849813333333334e-05, + "loss": 0.016, + "step": 97270 + }, + { + "epoch": 0.62256, + "grad_norm": 0.3780614733695984, + "learning_rate": 1.58496e-05, + "loss": 0.0121, + "step": 97275 + }, + { + "epoch": 0.622592, + "grad_norm": 0.8682056665420532, + "learning_rate": 1.584938666666667e-05, + "loss": 0.0209, + "step": 97280 + }, + { + "epoch": 0.622624, + "grad_norm": 2.2156152725219727, + "learning_rate": 1.5849173333333333e-05, + "loss": 0.03, + "step": 97285 + }, + { + "epoch": 0.622656, + "grad_norm": 0.2552790939807892, + "learning_rate": 1.584896e-05, + "loss": 0.0232, + "step": 97290 + }, + { + "epoch": 0.622688, + "grad_norm": 0.17335949838161469, + "learning_rate": 1.584874666666667e-05, + "loss": 0.0417, + "step": 97295 + }, + { + "epoch": 0.62272, + "grad_norm": 0.8198294043540955, + "learning_rate": 1.5848533333333333e-05, + "loss": 0.0121, + "step": 97300 + }, + { + "epoch": 0.622752, + "grad_norm": 0.20033006370067596, + "learning_rate": 1.584832e-05, + "loss": 0.0083, + "step": 97305 + }, + { + "epoch": 0.622784, + "grad_norm": 2.4158849716186523, + "learning_rate": 1.5848106666666668e-05, + "loss": 0.0167, + "step": 97310 + }, + { + "epoch": 0.622816, + "grad_norm": 1.1067439317703247, + "learning_rate": 1.5847893333333335e-05, + "loss": 0.0216, + "step": 97315 + }, + { + "epoch": 0.622848, + "grad_norm": 0.7857285737991333, + "learning_rate": 1.584768e-05, + "loss": 0.0224, + "step": 97320 + }, + { + "epoch": 0.62288, + "grad_norm": 0.7131339907646179, + "learning_rate": 1.584746666666667e-05, + "loss": 0.0127, + "step": 97325 + }, + { + "epoch": 0.622912, + "grad_norm": 0.8805472254753113, + "learning_rate": 1.5847253333333334e-05, + "loss": 0.018, + "step": 97330 + }, + { + "epoch": 0.622944, + "grad_norm": 0.4737643897533417, + "learning_rate": 1.584704e-05, + "loss": 0.0178, + "step": 97335 + }, + { + "epoch": 0.622976, + "grad_norm": 1.1682995557785034, + "learning_rate": 1.584682666666667e-05, + "loss": 0.0092, + "step": 97340 + }, + { + "epoch": 0.623008, + "grad_norm": 1.0999642610549927, + "learning_rate": 1.5846613333333334e-05, + "loss": 0.0237, + "step": 97345 + }, + { + "epoch": 0.62304, + "grad_norm": 0.21389293670654297, + "learning_rate": 1.58464e-05, + "loss": 0.0146, + "step": 97350 + }, + { + "epoch": 0.623072, + "grad_norm": 0.47240114212036133, + "learning_rate": 1.584618666666667e-05, + "loss": 0.009, + "step": 97355 + }, + { + "epoch": 0.623104, + "grad_norm": 0.5523800253868103, + "learning_rate": 1.5845973333333336e-05, + "loss": 0.0146, + "step": 97360 + }, + { + "epoch": 0.623136, + "grad_norm": 1.2945016622543335, + "learning_rate": 1.584576e-05, + "loss": 0.0217, + "step": 97365 + }, + { + "epoch": 0.623168, + "grad_norm": 0.5261749029159546, + "learning_rate": 1.5845546666666668e-05, + "loss": 0.0178, + "step": 97370 + }, + { + "epoch": 0.6232, + "grad_norm": 0.5922544598579407, + "learning_rate": 1.5845333333333336e-05, + "loss": 0.0053, + "step": 97375 + }, + { + "epoch": 0.623232, + "grad_norm": 0.6504905223846436, + "learning_rate": 1.584512e-05, + "loss": 0.0112, + "step": 97380 + }, + { + "epoch": 0.623264, + "grad_norm": 0.18738064169883728, + "learning_rate": 1.5844906666666667e-05, + "loss": 0.0169, + "step": 97385 + }, + { + "epoch": 0.623296, + "grad_norm": 1.1618465185165405, + "learning_rate": 1.5844693333333335e-05, + "loss": 0.0122, + "step": 97390 + }, + { + "epoch": 0.623328, + "grad_norm": 0.02504616416990757, + "learning_rate": 1.5844480000000002e-05, + "loss": 0.0032, + "step": 97395 + }, + { + "epoch": 0.62336, + "grad_norm": 0.27448606491088867, + "learning_rate": 1.5844266666666667e-05, + "loss": 0.0364, + "step": 97400 + }, + { + "epoch": 0.623392, + "grad_norm": 0.4107881188392639, + "learning_rate": 1.5844053333333334e-05, + "loss": 0.0319, + "step": 97405 + }, + { + "epoch": 0.623424, + "grad_norm": 0.03152064234018326, + "learning_rate": 1.5843840000000002e-05, + "loss": 0.0134, + "step": 97410 + }, + { + "epoch": 0.623456, + "grad_norm": 0.23255375027656555, + "learning_rate": 1.5843626666666666e-05, + "loss": 0.0073, + "step": 97415 + }, + { + "epoch": 0.623488, + "grad_norm": 0.22499307990074158, + "learning_rate": 1.5843413333333333e-05, + "loss": 0.0057, + "step": 97420 + }, + { + "epoch": 0.62352, + "grad_norm": 0.20453201234340668, + "learning_rate": 1.58432e-05, + "loss": 0.0132, + "step": 97425 + }, + { + "epoch": 0.623552, + "grad_norm": 0.7682365775108337, + "learning_rate": 1.584298666666667e-05, + "loss": 0.0315, + "step": 97430 + }, + { + "epoch": 0.623584, + "grad_norm": 0.1926269382238388, + "learning_rate": 1.5842773333333333e-05, + "loss": 0.0057, + "step": 97435 + }, + { + "epoch": 0.623616, + "grad_norm": 0.044576868414878845, + "learning_rate": 1.5842560000000004e-05, + "loss": 0.0139, + "step": 97440 + }, + { + "epoch": 0.623648, + "grad_norm": 0.43980416655540466, + "learning_rate": 1.5842346666666668e-05, + "loss": 0.0161, + "step": 97445 + }, + { + "epoch": 0.62368, + "grad_norm": 0.5765295624732971, + "learning_rate": 1.5842133333333335e-05, + "loss": 0.0077, + "step": 97450 + }, + { + "epoch": 0.623712, + "grad_norm": 0.37915295362472534, + "learning_rate": 1.5841920000000003e-05, + "loss": 0.0232, + "step": 97455 + }, + { + "epoch": 0.623744, + "grad_norm": 0.11887500435113907, + "learning_rate": 1.5841706666666667e-05, + "loss": 0.0082, + "step": 97460 + }, + { + "epoch": 0.623776, + "grad_norm": 1.7281136512756348, + "learning_rate": 1.5841493333333335e-05, + "loss": 0.0073, + "step": 97465 + }, + { + "epoch": 0.623808, + "grad_norm": 1.1466610431671143, + "learning_rate": 1.5841280000000002e-05, + "loss": 0.0146, + "step": 97470 + }, + { + "epoch": 0.62384, + "grad_norm": 0.1669231504201889, + "learning_rate": 1.584106666666667e-05, + "loss": 0.0029, + "step": 97475 + }, + { + "epoch": 0.623872, + "grad_norm": 0.8577494025230408, + "learning_rate": 1.5840853333333334e-05, + "loss": 0.0153, + "step": 97480 + }, + { + "epoch": 0.623904, + "grad_norm": 1.7641081809997559, + "learning_rate": 1.584064e-05, + "loss": 0.0113, + "step": 97485 + }, + { + "epoch": 0.623936, + "grad_norm": 1.3667644262313843, + "learning_rate": 1.584042666666667e-05, + "loss": 0.0358, + "step": 97490 + }, + { + "epoch": 0.623968, + "grad_norm": 0.13663972914218903, + "learning_rate": 1.5840213333333333e-05, + "loss": 0.0152, + "step": 97495 + }, + { + "epoch": 0.624, + "grad_norm": 0.2913967967033386, + "learning_rate": 1.584e-05, + "loss": 0.0116, + "step": 97500 + }, + { + "epoch": 0.624032, + "grad_norm": 0.5419195294380188, + "learning_rate": 1.583978666666667e-05, + "loss": 0.0244, + "step": 97505 + }, + { + "epoch": 0.624064, + "grad_norm": 0.26036128401756287, + "learning_rate": 1.5839573333333336e-05, + "loss": 0.0111, + "step": 97510 + }, + { + "epoch": 0.624096, + "grad_norm": 0.10948766767978668, + "learning_rate": 1.583936e-05, + "loss": 0.0137, + "step": 97515 + }, + { + "epoch": 0.624128, + "grad_norm": 1.4232310056686401, + "learning_rate": 1.5839146666666668e-05, + "loss": 0.0283, + "step": 97520 + }, + { + "epoch": 0.62416, + "grad_norm": 0.3034840226173401, + "learning_rate": 1.5838933333333335e-05, + "loss": 0.0117, + "step": 97525 + }, + { + "epoch": 0.624192, + "grad_norm": 0.05846667289733887, + "learning_rate": 1.583872e-05, + "loss": 0.011, + "step": 97530 + }, + { + "epoch": 0.624224, + "grad_norm": 0.1256907433271408, + "learning_rate": 1.583850666666667e-05, + "loss": 0.0168, + "step": 97535 + }, + { + "epoch": 0.624256, + "grad_norm": 0.291278213262558, + "learning_rate": 1.5838293333333334e-05, + "loss": 0.0167, + "step": 97540 + }, + { + "epoch": 0.624288, + "grad_norm": 0.055648528039455414, + "learning_rate": 1.5838080000000002e-05, + "loss": 0.0091, + "step": 97545 + }, + { + "epoch": 0.62432, + "grad_norm": 0.5054994821548462, + "learning_rate": 1.583786666666667e-05, + "loss": 0.0096, + "step": 97550 + }, + { + "epoch": 0.624352, + "grad_norm": 0.46705466508865356, + "learning_rate": 1.5837653333333334e-05, + "loss": 0.013, + "step": 97555 + }, + { + "epoch": 0.624384, + "grad_norm": 0.7964938282966614, + "learning_rate": 1.583744e-05, + "loss": 0.0205, + "step": 97560 + }, + { + "epoch": 0.624416, + "grad_norm": 0.4688529372215271, + "learning_rate": 1.583722666666667e-05, + "loss": 0.0269, + "step": 97565 + }, + { + "epoch": 0.624448, + "grad_norm": 0.07919169217348099, + "learning_rate": 1.5837013333333336e-05, + "loss": 0.0132, + "step": 97570 + }, + { + "epoch": 0.62448, + "grad_norm": 1.3562370538711548, + "learning_rate": 1.58368e-05, + "loss": 0.0245, + "step": 97575 + }, + { + "epoch": 0.624512, + "grad_norm": 0.8126693964004517, + "learning_rate": 1.5836586666666668e-05, + "loss": 0.0204, + "step": 97580 + }, + { + "epoch": 0.624544, + "grad_norm": 0.39049452543258667, + "learning_rate": 1.5836373333333336e-05, + "loss": 0.0148, + "step": 97585 + }, + { + "epoch": 0.624576, + "grad_norm": 0.11727000027894974, + "learning_rate": 1.583616e-05, + "loss": 0.0123, + "step": 97590 + }, + { + "epoch": 0.624608, + "grad_norm": 0.2105829268693924, + "learning_rate": 1.5835946666666667e-05, + "loss": 0.0065, + "step": 97595 + }, + { + "epoch": 0.62464, + "grad_norm": 0.014846793375909328, + "learning_rate": 1.5835733333333335e-05, + "loss": 0.013, + "step": 97600 + }, + { + "epoch": 0.624672, + "grad_norm": 0.5292280316352844, + "learning_rate": 1.5835520000000003e-05, + "loss": 0.012, + "step": 97605 + }, + { + "epoch": 0.624704, + "grad_norm": 0.7398255467414856, + "learning_rate": 1.5835306666666667e-05, + "loss": 0.0122, + "step": 97610 + }, + { + "epoch": 0.624736, + "grad_norm": 0.21330143511295319, + "learning_rate": 1.5835093333333334e-05, + "loss": 0.0053, + "step": 97615 + }, + { + "epoch": 0.624768, + "grad_norm": 3.193371534347534, + "learning_rate": 1.5834880000000002e-05, + "loss": 0.0481, + "step": 97620 + }, + { + "epoch": 0.6248, + "grad_norm": 0.35416534543037415, + "learning_rate": 1.5834666666666666e-05, + "loss": 0.0054, + "step": 97625 + }, + { + "epoch": 0.624832, + "grad_norm": 0.6414397954940796, + "learning_rate": 1.5834453333333333e-05, + "loss": 0.0139, + "step": 97630 + }, + { + "epoch": 0.624864, + "grad_norm": 0.2502557039260864, + "learning_rate": 1.583424e-05, + "loss": 0.01, + "step": 97635 + }, + { + "epoch": 0.624896, + "grad_norm": 0.07743854820728302, + "learning_rate": 1.583402666666667e-05, + "loss": 0.0234, + "step": 97640 + }, + { + "epoch": 0.624928, + "grad_norm": 0.22617115080356598, + "learning_rate": 1.5833813333333333e-05, + "loss": 0.0083, + "step": 97645 + }, + { + "epoch": 0.62496, + "grad_norm": 0.7332350015640259, + "learning_rate": 1.5833600000000004e-05, + "loss": 0.0245, + "step": 97650 + }, + { + "epoch": 0.624992, + "grad_norm": 0.7170100212097168, + "learning_rate": 1.5833386666666668e-05, + "loss": 0.0217, + "step": 97655 + }, + { + "epoch": 0.625024, + "grad_norm": 2.9155728816986084, + "learning_rate": 1.5833173333333332e-05, + "loss": 0.0215, + "step": 97660 + }, + { + "epoch": 0.625056, + "grad_norm": 0.3459549844264984, + "learning_rate": 1.5832960000000003e-05, + "loss": 0.0065, + "step": 97665 + }, + { + "epoch": 0.625088, + "grad_norm": 0.21132314205169678, + "learning_rate": 1.5832746666666667e-05, + "loss": 0.0057, + "step": 97670 + }, + { + "epoch": 0.62512, + "grad_norm": 0.3471229672431946, + "learning_rate": 1.5832533333333335e-05, + "loss": 0.0115, + "step": 97675 + }, + { + "epoch": 0.625152, + "grad_norm": 3.723844528198242, + "learning_rate": 1.5832320000000002e-05, + "loss": 0.0526, + "step": 97680 + }, + { + "epoch": 0.625184, + "grad_norm": 0.4538877010345459, + "learning_rate": 1.583210666666667e-05, + "loss": 0.0068, + "step": 97685 + }, + { + "epoch": 0.625216, + "grad_norm": 0.08188354223966599, + "learning_rate": 1.5831893333333334e-05, + "loss": 0.0119, + "step": 97690 + }, + { + "epoch": 0.625248, + "grad_norm": 0.08379461616277695, + "learning_rate": 1.583168e-05, + "loss": 0.008, + "step": 97695 + }, + { + "epoch": 0.62528, + "grad_norm": 0.479804664850235, + "learning_rate": 1.583146666666667e-05, + "loss": 0.0165, + "step": 97700 + }, + { + "epoch": 0.625312, + "grad_norm": 0.3120996356010437, + "learning_rate": 1.5831253333333333e-05, + "loss": 0.0137, + "step": 97705 + }, + { + "epoch": 0.625344, + "grad_norm": 0.06268883496522903, + "learning_rate": 1.583104e-05, + "loss": 0.0137, + "step": 97710 + }, + { + "epoch": 0.625376, + "grad_norm": 0.26601821184158325, + "learning_rate": 1.583082666666667e-05, + "loss": 0.0128, + "step": 97715 + }, + { + "epoch": 0.625408, + "grad_norm": 0.5712568759918213, + "learning_rate": 1.5830613333333336e-05, + "loss": 0.0139, + "step": 97720 + }, + { + "epoch": 0.62544, + "grad_norm": 1.1256014108657837, + "learning_rate": 1.58304e-05, + "loss": 0.0174, + "step": 97725 + }, + { + "epoch": 0.625472, + "grad_norm": 0.2641533315181732, + "learning_rate": 1.5830186666666668e-05, + "loss": 0.0291, + "step": 97730 + }, + { + "epoch": 0.625504, + "grad_norm": 0.3881359398365021, + "learning_rate": 1.5829973333333335e-05, + "loss": 0.009, + "step": 97735 + }, + { + "epoch": 0.625536, + "grad_norm": 0.6374224424362183, + "learning_rate": 1.582976e-05, + "loss": 0.0135, + "step": 97740 + }, + { + "epoch": 0.625568, + "grad_norm": 1.1174565553665161, + "learning_rate": 1.582954666666667e-05, + "loss": 0.0126, + "step": 97745 + }, + { + "epoch": 0.6256, + "grad_norm": 7.816230773925781, + "learning_rate": 1.5829333333333334e-05, + "loss": 0.0139, + "step": 97750 + }, + { + "epoch": 0.625632, + "grad_norm": 0.7934423089027405, + "learning_rate": 1.5829120000000002e-05, + "loss": 0.0174, + "step": 97755 + }, + { + "epoch": 0.625664, + "grad_norm": 0.25276270508766174, + "learning_rate": 1.582890666666667e-05, + "loss": 0.0143, + "step": 97760 + }, + { + "epoch": 0.625696, + "grad_norm": 0.27276530861854553, + "learning_rate": 1.5828693333333334e-05, + "loss": 0.0127, + "step": 97765 + }, + { + "epoch": 0.625728, + "grad_norm": 0.0912204161286354, + "learning_rate": 1.582848e-05, + "loss": 0.0109, + "step": 97770 + }, + { + "epoch": 0.62576, + "grad_norm": 0.9560322165489197, + "learning_rate": 1.582826666666667e-05, + "loss": 0.0166, + "step": 97775 + }, + { + "epoch": 0.625792, + "grad_norm": 1.3736604452133179, + "learning_rate": 1.5828053333333336e-05, + "loss": 0.0082, + "step": 97780 + }, + { + "epoch": 0.625824, + "grad_norm": 0.7188602685928345, + "learning_rate": 1.582784e-05, + "loss": 0.0131, + "step": 97785 + }, + { + "epoch": 0.625856, + "grad_norm": 0.5893393158912659, + "learning_rate": 1.5827626666666668e-05, + "loss": 0.0115, + "step": 97790 + }, + { + "epoch": 0.625888, + "grad_norm": 0.39261767268180847, + "learning_rate": 1.5827413333333336e-05, + "loss": 0.0149, + "step": 97795 + }, + { + "epoch": 0.62592, + "grad_norm": 0.259540319442749, + "learning_rate": 1.58272e-05, + "loss": 0.02, + "step": 97800 + }, + { + "epoch": 0.625952, + "grad_norm": 0.07581397145986557, + "learning_rate": 1.5826986666666667e-05, + "loss": 0.0225, + "step": 97805 + }, + { + "epoch": 0.625984, + "grad_norm": 0.7758535146713257, + "learning_rate": 1.5826773333333335e-05, + "loss": 0.0126, + "step": 97810 + }, + { + "epoch": 0.626016, + "grad_norm": 1.075598955154419, + "learning_rate": 1.5826560000000003e-05, + "loss": 0.0229, + "step": 97815 + }, + { + "epoch": 0.626048, + "grad_norm": 0.17919619381427765, + "learning_rate": 1.5826346666666667e-05, + "loss": 0.0142, + "step": 97820 + }, + { + "epoch": 0.62608, + "grad_norm": 0.48094016313552856, + "learning_rate": 1.5826133333333334e-05, + "loss": 0.0379, + "step": 97825 + }, + { + "epoch": 0.626112, + "grad_norm": 0.7679511308670044, + "learning_rate": 1.5825920000000002e-05, + "loss": 0.0087, + "step": 97830 + }, + { + "epoch": 0.626144, + "grad_norm": 0.32448479533195496, + "learning_rate": 1.5825706666666666e-05, + "loss": 0.0227, + "step": 97835 + }, + { + "epoch": 0.626176, + "grad_norm": 1.3598484992980957, + "learning_rate": 1.5825493333333334e-05, + "loss": 0.0306, + "step": 97840 + }, + { + "epoch": 0.626208, + "grad_norm": 0.6138195395469666, + "learning_rate": 1.582528e-05, + "loss": 0.0124, + "step": 97845 + }, + { + "epoch": 0.62624, + "grad_norm": 1.537248969078064, + "learning_rate": 1.582506666666667e-05, + "loss": 0.0228, + "step": 97850 + }, + { + "epoch": 0.626272, + "grad_norm": 0.0882689356803894, + "learning_rate": 1.5824853333333333e-05, + "loss": 0.0052, + "step": 97855 + }, + { + "epoch": 0.626304, + "grad_norm": 0.4432157278060913, + "learning_rate": 1.5824640000000004e-05, + "loss": 0.0209, + "step": 97860 + }, + { + "epoch": 0.626336, + "grad_norm": 0.04998253285884857, + "learning_rate": 1.5824426666666668e-05, + "loss": 0.0108, + "step": 97865 + }, + { + "epoch": 0.626368, + "grad_norm": 0.6295086145401001, + "learning_rate": 1.5824213333333332e-05, + "loss": 0.0098, + "step": 97870 + }, + { + "epoch": 0.6264, + "grad_norm": 0.2463618516921997, + "learning_rate": 1.5824000000000003e-05, + "loss": 0.0079, + "step": 97875 + }, + { + "epoch": 0.626432, + "grad_norm": 0.23599186539649963, + "learning_rate": 1.5823786666666667e-05, + "loss": 0.0093, + "step": 97880 + }, + { + "epoch": 0.626464, + "grad_norm": 2.510519027709961, + "learning_rate": 1.5823573333333335e-05, + "loss": 0.0074, + "step": 97885 + }, + { + "epoch": 0.626496, + "grad_norm": 0.6070870757102966, + "learning_rate": 1.5823360000000002e-05, + "loss": 0.0324, + "step": 97890 + }, + { + "epoch": 0.626528, + "grad_norm": 0.07836832851171494, + "learning_rate": 1.582314666666667e-05, + "loss": 0.014, + "step": 97895 + }, + { + "epoch": 0.62656, + "grad_norm": 1.0494322776794434, + "learning_rate": 1.5822933333333334e-05, + "loss": 0.0383, + "step": 97900 + }, + { + "epoch": 0.626592, + "grad_norm": 0.12021514028310776, + "learning_rate": 1.582272e-05, + "loss": 0.0182, + "step": 97905 + }, + { + "epoch": 0.626624, + "grad_norm": 0.7414190769195557, + "learning_rate": 1.582250666666667e-05, + "loss": 0.0271, + "step": 97910 + }, + { + "epoch": 0.626656, + "grad_norm": 0.5266469120979309, + "learning_rate": 1.5822293333333333e-05, + "loss": 0.0195, + "step": 97915 + }, + { + "epoch": 0.626688, + "grad_norm": 0.4454456567764282, + "learning_rate": 1.582208e-05, + "loss": 0.0143, + "step": 97920 + }, + { + "epoch": 0.62672, + "grad_norm": 0.5835167765617371, + "learning_rate": 1.582186666666667e-05, + "loss": 0.0166, + "step": 97925 + }, + { + "epoch": 0.626752, + "grad_norm": 0.10990538448095322, + "learning_rate": 1.5821653333333336e-05, + "loss": 0.0126, + "step": 97930 + }, + { + "epoch": 0.626784, + "grad_norm": 0.08963998407125473, + "learning_rate": 1.582144e-05, + "loss": 0.0204, + "step": 97935 + }, + { + "epoch": 0.626816, + "grad_norm": 0.2912348508834839, + "learning_rate": 1.5821226666666668e-05, + "loss": 0.0068, + "step": 97940 + }, + { + "epoch": 0.626848, + "grad_norm": 0.07143658399581909, + "learning_rate": 1.5821013333333335e-05, + "loss": 0.0166, + "step": 97945 + }, + { + "epoch": 0.62688, + "grad_norm": 0.3801400065422058, + "learning_rate": 1.58208e-05, + "loss": 0.0135, + "step": 97950 + }, + { + "epoch": 0.626912, + "grad_norm": 0.5027640461921692, + "learning_rate": 1.5820586666666667e-05, + "loss": 0.0074, + "step": 97955 + }, + { + "epoch": 0.626944, + "grad_norm": 0.10586042702198029, + "learning_rate": 1.5820373333333334e-05, + "loss": 0.0212, + "step": 97960 + }, + { + "epoch": 0.626976, + "grad_norm": 0.2951362133026123, + "learning_rate": 1.5820160000000002e-05, + "loss": 0.0102, + "step": 97965 + }, + { + "epoch": 0.627008, + "grad_norm": 0.04860682785511017, + "learning_rate": 1.581994666666667e-05, + "loss": 0.0174, + "step": 97970 + }, + { + "epoch": 0.62704, + "grad_norm": 1.0143767595291138, + "learning_rate": 1.5819733333333334e-05, + "loss": 0.0224, + "step": 97975 + }, + { + "epoch": 0.627072, + "grad_norm": 0.0755128562450409, + "learning_rate": 1.581952e-05, + "loss": 0.0161, + "step": 97980 + }, + { + "epoch": 0.627104, + "grad_norm": 0.6591864824295044, + "learning_rate": 1.581930666666667e-05, + "loss": 0.0097, + "step": 97985 + }, + { + "epoch": 0.627136, + "grad_norm": 0.6618676781654358, + "learning_rate": 1.5819093333333336e-05, + "loss": 0.0352, + "step": 97990 + }, + { + "epoch": 0.627168, + "grad_norm": 0.07880561053752899, + "learning_rate": 1.581888e-05, + "loss": 0.015, + "step": 97995 + }, + { + "epoch": 0.6272, + "grad_norm": 0.28260698914527893, + "learning_rate": 1.5818666666666668e-05, + "loss": 0.0083, + "step": 98000 + }, + { + "epoch": 0.627232, + "grad_norm": 0.5723695755004883, + "learning_rate": 1.5818453333333336e-05, + "loss": 0.0141, + "step": 98005 + }, + { + "epoch": 0.627264, + "grad_norm": 0.4894241392612457, + "learning_rate": 1.581824e-05, + "loss": 0.0114, + "step": 98010 + }, + { + "epoch": 0.627296, + "grad_norm": 0.5895810723304749, + "learning_rate": 1.5818026666666667e-05, + "loss": 0.0096, + "step": 98015 + }, + { + "epoch": 0.627328, + "grad_norm": 0.39162009954452515, + "learning_rate": 1.5817813333333335e-05, + "loss": 0.0213, + "step": 98020 + }, + { + "epoch": 0.62736, + "grad_norm": 0.5752030611038208, + "learning_rate": 1.5817600000000003e-05, + "loss": 0.0197, + "step": 98025 + }, + { + "epoch": 0.627392, + "grad_norm": 0.6999294757843018, + "learning_rate": 1.5817386666666667e-05, + "loss": 0.0186, + "step": 98030 + }, + { + "epoch": 0.627424, + "grad_norm": 0.18631061911582947, + "learning_rate": 1.5817173333333334e-05, + "loss": 0.0065, + "step": 98035 + }, + { + "epoch": 0.627456, + "grad_norm": 0.2661900818347931, + "learning_rate": 1.5816960000000002e-05, + "loss": 0.0141, + "step": 98040 + }, + { + "epoch": 0.627488, + "grad_norm": 0.1358339935541153, + "learning_rate": 1.5816746666666666e-05, + "loss": 0.0224, + "step": 98045 + }, + { + "epoch": 0.62752, + "grad_norm": 0.5039637684822083, + "learning_rate": 1.5816533333333334e-05, + "loss": 0.0294, + "step": 98050 + }, + { + "epoch": 0.627552, + "grad_norm": 1.8852308988571167, + "learning_rate": 1.581632e-05, + "loss": 0.0213, + "step": 98055 + }, + { + "epoch": 0.627584, + "grad_norm": 0.4005587697029114, + "learning_rate": 1.581610666666667e-05, + "loss": 0.0115, + "step": 98060 + }, + { + "epoch": 0.627616, + "grad_norm": 0.1657588630914688, + "learning_rate": 1.5815893333333333e-05, + "loss": 0.007, + "step": 98065 + }, + { + "epoch": 0.627648, + "grad_norm": 0.6657940149307251, + "learning_rate": 1.5815680000000004e-05, + "loss": 0.031, + "step": 98070 + }, + { + "epoch": 0.62768, + "grad_norm": 0.370156854391098, + "learning_rate": 1.5815466666666668e-05, + "loss": 0.0197, + "step": 98075 + }, + { + "epoch": 0.627712, + "grad_norm": 0.5513137578964233, + "learning_rate": 1.5815253333333332e-05, + "loss": 0.0239, + "step": 98080 + }, + { + "epoch": 0.627744, + "grad_norm": 0.4920085370540619, + "learning_rate": 1.5815040000000003e-05, + "loss": 0.0131, + "step": 98085 + }, + { + "epoch": 0.627776, + "grad_norm": 2.113961696624756, + "learning_rate": 1.5814826666666667e-05, + "loss": 0.0102, + "step": 98090 + }, + { + "epoch": 0.627808, + "grad_norm": 1.1043150424957275, + "learning_rate": 1.5814613333333335e-05, + "loss": 0.0256, + "step": 98095 + }, + { + "epoch": 0.62784, + "grad_norm": 0.33393383026123047, + "learning_rate": 1.5814400000000002e-05, + "loss": 0.0111, + "step": 98100 + }, + { + "epoch": 0.627872, + "grad_norm": 0.7873202562332153, + "learning_rate": 1.581418666666667e-05, + "loss": 0.027, + "step": 98105 + }, + { + "epoch": 0.627904, + "grad_norm": 0.39275166392326355, + "learning_rate": 1.5813973333333334e-05, + "loss": 0.0111, + "step": 98110 + }, + { + "epoch": 0.627936, + "grad_norm": 0.6449770331382751, + "learning_rate": 1.581376e-05, + "loss": 0.0085, + "step": 98115 + }, + { + "epoch": 0.627968, + "grad_norm": 0.9362053871154785, + "learning_rate": 1.581354666666667e-05, + "loss": 0.0287, + "step": 98120 + }, + { + "epoch": 0.628, + "grad_norm": 0.48266565799713135, + "learning_rate": 1.5813333333333333e-05, + "loss": 0.0096, + "step": 98125 + }, + { + "epoch": 0.628032, + "grad_norm": 0.271211177110672, + "learning_rate": 1.581312e-05, + "loss": 0.0083, + "step": 98130 + }, + { + "epoch": 0.628064, + "grad_norm": 0.3003982603549957, + "learning_rate": 1.581290666666667e-05, + "loss": 0.0083, + "step": 98135 + }, + { + "epoch": 0.628096, + "grad_norm": 0.06395511329174042, + "learning_rate": 1.5812693333333336e-05, + "loss": 0.0094, + "step": 98140 + }, + { + "epoch": 0.628128, + "grad_norm": 0.053183335810899734, + "learning_rate": 1.581248e-05, + "loss": 0.0064, + "step": 98145 + }, + { + "epoch": 0.62816, + "grad_norm": 0.5722589492797852, + "learning_rate": 1.5812266666666668e-05, + "loss": 0.0242, + "step": 98150 + }, + { + "epoch": 0.628192, + "grad_norm": 0.8902522325515747, + "learning_rate": 1.5812053333333335e-05, + "loss": 0.0134, + "step": 98155 + }, + { + "epoch": 0.628224, + "grad_norm": 1.0907478332519531, + "learning_rate": 1.581184e-05, + "loss": 0.0179, + "step": 98160 + }, + { + "epoch": 0.628256, + "grad_norm": 0.23013994097709656, + "learning_rate": 1.5811626666666667e-05, + "loss": 0.0076, + "step": 98165 + }, + { + "epoch": 0.628288, + "grad_norm": 0.8898914456367493, + "learning_rate": 1.5811413333333334e-05, + "loss": 0.0083, + "step": 98170 + }, + { + "epoch": 0.62832, + "grad_norm": 0.3326769471168518, + "learning_rate": 1.5811200000000002e-05, + "loss": 0.0149, + "step": 98175 + }, + { + "epoch": 0.628352, + "grad_norm": 0.139179065823555, + "learning_rate": 1.5810986666666666e-05, + "loss": 0.0207, + "step": 98180 + }, + { + "epoch": 0.628384, + "grad_norm": 0.29920336604118347, + "learning_rate": 1.5810773333333334e-05, + "loss": 0.0106, + "step": 98185 + }, + { + "epoch": 0.628416, + "grad_norm": 0.9406037926673889, + "learning_rate": 1.581056e-05, + "loss": 0.0583, + "step": 98190 + }, + { + "epoch": 0.628448, + "grad_norm": 0.5906901359558105, + "learning_rate": 1.581034666666667e-05, + "loss": 0.0101, + "step": 98195 + }, + { + "epoch": 0.62848, + "grad_norm": 0.21482601761817932, + "learning_rate": 1.5810133333333336e-05, + "loss": 0.0176, + "step": 98200 + }, + { + "epoch": 0.628512, + "grad_norm": 0.31589657068252563, + "learning_rate": 1.580992e-05, + "loss": 0.0127, + "step": 98205 + }, + { + "epoch": 0.628544, + "grad_norm": 0.21410852670669556, + "learning_rate": 1.5809706666666668e-05, + "loss": 0.0134, + "step": 98210 + }, + { + "epoch": 0.628576, + "grad_norm": 0.37461328506469727, + "learning_rate": 1.5809493333333336e-05, + "loss": 0.0054, + "step": 98215 + }, + { + "epoch": 0.628608, + "grad_norm": 1.2658270597457886, + "learning_rate": 1.5809280000000003e-05, + "loss": 0.0178, + "step": 98220 + }, + { + "epoch": 0.62864, + "grad_norm": 0.08930117636919022, + "learning_rate": 1.5809066666666667e-05, + "loss": 0.013, + "step": 98225 + }, + { + "epoch": 0.628672, + "grad_norm": 0.440487265586853, + "learning_rate": 1.5808853333333335e-05, + "loss": 0.0122, + "step": 98230 + }, + { + "epoch": 0.628704, + "grad_norm": 0.9687167406082153, + "learning_rate": 1.5808640000000003e-05, + "loss": 0.022, + "step": 98235 + }, + { + "epoch": 0.628736, + "grad_norm": 0.4508977234363556, + "learning_rate": 1.5808426666666667e-05, + "loss": 0.0231, + "step": 98240 + }, + { + "epoch": 0.628768, + "grad_norm": 0.47369641065597534, + "learning_rate": 1.5808213333333334e-05, + "loss": 0.0203, + "step": 98245 + }, + { + "epoch": 0.6288, + "grad_norm": 0.3646776080131531, + "learning_rate": 1.5808000000000002e-05, + "loss": 0.0119, + "step": 98250 + }, + { + "epoch": 0.628832, + "grad_norm": 0.6029427647590637, + "learning_rate": 1.580778666666667e-05, + "loss": 0.0171, + "step": 98255 + }, + { + "epoch": 0.628864, + "grad_norm": 0.5662010312080383, + "learning_rate": 1.5807573333333334e-05, + "loss": 0.0219, + "step": 98260 + }, + { + "epoch": 0.628896, + "grad_norm": 0.6350651383399963, + "learning_rate": 1.580736e-05, + "loss": 0.0176, + "step": 98265 + }, + { + "epoch": 0.628928, + "grad_norm": 0.4625765085220337, + "learning_rate": 1.580714666666667e-05, + "loss": 0.0157, + "step": 98270 + }, + { + "epoch": 0.62896, + "grad_norm": 0.06479835510253906, + "learning_rate": 1.5806933333333333e-05, + "loss": 0.0097, + "step": 98275 + }, + { + "epoch": 0.628992, + "grad_norm": 0.307022362947464, + "learning_rate": 1.5806720000000004e-05, + "loss": 0.0104, + "step": 98280 + }, + { + "epoch": 0.629024, + "grad_norm": 0.2436714917421341, + "learning_rate": 1.5806506666666668e-05, + "loss": 0.0114, + "step": 98285 + }, + { + "epoch": 0.629056, + "grad_norm": 0.04446680098772049, + "learning_rate": 1.5806293333333335e-05, + "loss": 0.0087, + "step": 98290 + }, + { + "epoch": 0.629088, + "grad_norm": 0.747946560382843, + "learning_rate": 1.5806080000000003e-05, + "loss": 0.0162, + "step": 98295 + }, + { + "epoch": 0.62912, + "grad_norm": 0.05099905654788017, + "learning_rate": 1.5805866666666667e-05, + "loss": 0.012, + "step": 98300 + }, + { + "epoch": 0.629152, + "grad_norm": 0.04935338720679283, + "learning_rate": 1.5805653333333335e-05, + "loss": 0.0026, + "step": 98305 + }, + { + "epoch": 0.629184, + "grad_norm": 0.8360017538070679, + "learning_rate": 1.5805440000000002e-05, + "loss": 0.0077, + "step": 98310 + }, + { + "epoch": 0.629216, + "grad_norm": 0.18693149089813232, + "learning_rate": 1.580522666666667e-05, + "loss": 0.0061, + "step": 98315 + }, + { + "epoch": 0.629248, + "grad_norm": 0.34671634435653687, + "learning_rate": 1.5805013333333334e-05, + "loss": 0.0106, + "step": 98320 + }, + { + "epoch": 0.62928, + "grad_norm": 0.08014779537916183, + "learning_rate": 1.58048e-05, + "loss": 0.0277, + "step": 98325 + }, + { + "epoch": 0.629312, + "grad_norm": 4.998498916625977, + "learning_rate": 1.580458666666667e-05, + "loss": 0.0185, + "step": 98330 + }, + { + "epoch": 0.629344, + "grad_norm": 0.4638262987136841, + "learning_rate": 1.5804373333333333e-05, + "loss": 0.0186, + "step": 98335 + }, + { + "epoch": 0.629376, + "grad_norm": 0.9974039196968079, + "learning_rate": 1.580416e-05, + "loss": 0.0115, + "step": 98340 + }, + { + "epoch": 0.629408, + "grad_norm": 0.5456752181053162, + "learning_rate": 1.580394666666667e-05, + "loss": 0.0215, + "step": 98345 + }, + { + "epoch": 0.62944, + "grad_norm": 0.028640946373343468, + "learning_rate": 1.5803733333333336e-05, + "loss": 0.0089, + "step": 98350 + }, + { + "epoch": 0.629472, + "grad_norm": 0.9081927537918091, + "learning_rate": 1.580352e-05, + "loss": 0.0158, + "step": 98355 + }, + { + "epoch": 0.629504, + "grad_norm": 1.4999362230300903, + "learning_rate": 1.5803306666666668e-05, + "loss": 0.0219, + "step": 98360 + }, + { + "epoch": 0.629536, + "grad_norm": 0.5501458048820496, + "learning_rate": 1.5803093333333335e-05, + "loss": 0.0089, + "step": 98365 + }, + { + "epoch": 0.629568, + "grad_norm": 0.6562267541885376, + "learning_rate": 1.580288e-05, + "loss": 0.0113, + "step": 98370 + }, + { + "epoch": 0.6296, + "grad_norm": 0.30061423778533936, + "learning_rate": 1.5802666666666667e-05, + "loss": 0.0188, + "step": 98375 + }, + { + "epoch": 0.629632, + "grad_norm": 0.04974733665585518, + "learning_rate": 1.5802453333333334e-05, + "loss": 0.01, + "step": 98380 + }, + { + "epoch": 0.629664, + "grad_norm": 0.7982539534568787, + "learning_rate": 1.5802240000000002e-05, + "loss": 0.0143, + "step": 98385 + }, + { + "epoch": 0.629696, + "grad_norm": 0.27579158544540405, + "learning_rate": 1.5802026666666666e-05, + "loss": 0.0152, + "step": 98390 + }, + { + "epoch": 0.629728, + "grad_norm": 0.7840959429740906, + "learning_rate": 1.5801813333333337e-05, + "loss": 0.0214, + "step": 98395 + }, + { + "epoch": 0.62976, + "grad_norm": 0.14160367846488953, + "learning_rate": 1.58016e-05, + "loss": 0.0043, + "step": 98400 + }, + { + "epoch": 0.629792, + "grad_norm": 1.0505787134170532, + "learning_rate": 1.5801386666666665e-05, + "loss": 0.0143, + "step": 98405 + }, + { + "epoch": 0.629824, + "grad_norm": 1.8851701021194458, + "learning_rate": 1.5801173333333336e-05, + "loss": 0.029, + "step": 98410 + }, + { + "epoch": 0.629856, + "grad_norm": 1.0530261993408203, + "learning_rate": 1.580096e-05, + "loss": 0.0198, + "step": 98415 + }, + { + "epoch": 0.629888, + "grad_norm": 0.15252333879470825, + "learning_rate": 1.5800746666666668e-05, + "loss": 0.0168, + "step": 98420 + }, + { + "epoch": 0.62992, + "grad_norm": 0.11863408237695694, + "learning_rate": 1.5800533333333336e-05, + "loss": 0.0063, + "step": 98425 + }, + { + "epoch": 0.629952, + "grad_norm": 0.2758227586746216, + "learning_rate": 1.5800320000000003e-05, + "loss": 0.0145, + "step": 98430 + }, + { + "epoch": 0.629984, + "grad_norm": 0.04887379705905914, + "learning_rate": 1.5800106666666667e-05, + "loss": 0.0186, + "step": 98435 + }, + { + "epoch": 0.630016, + "grad_norm": 0.4798313081264496, + "learning_rate": 1.5799893333333335e-05, + "loss": 0.0217, + "step": 98440 + }, + { + "epoch": 0.630048, + "grad_norm": 0.11455778777599335, + "learning_rate": 1.5799680000000003e-05, + "loss": 0.0255, + "step": 98445 + }, + { + "epoch": 0.63008, + "grad_norm": 0.29984045028686523, + "learning_rate": 1.5799466666666667e-05, + "loss": 0.0093, + "step": 98450 + }, + { + "epoch": 0.630112, + "grad_norm": 0.5225870013237, + "learning_rate": 1.5799253333333334e-05, + "loss": 0.0117, + "step": 98455 + }, + { + "epoch": 0.630144, + "grad_norm": 4.340458869934082, + "learning_rate": 1.5799040000000002e-05, + "loss": 0.0162, + "step": 98460 + }, + { + "epoch": 0.630176, + "grad_norm": 0.7569552659988403, + "learning_rate": 1.579882666666667e-05, + "loss": 0.0199, + "step": 98465 + }, + { + "epoch": 0.630208, + "grad_norm": 3.4502620697021484, + "learning_rate": 1.5798613333333334e-05, + "loss": 0.0302, + "step": 98470 + }, + { + "epoch": 0.63024, + "grad_norm": 1.2541863918304443, + "learning_rate": 1.57984e-05, + "loss": 0.0142, + "step": 98475 + }, + { + "epoch": 0.630272, + "grad_norm": 0.2936936318874359, + "learning_rate": 1.579818666666667e-05, + "loss": 0.0087, + "step": 98480 + }, + { + "epoch": 0.630304, + "grad_norm": 0.058995410799980164, + "learning_rate": 1.5797973333333333e-05, + "loss": 0.0246, + "step": 98485 + }, + { + "epoch": 0.630336, + "grad_norm": 0.18968944251537323, + "learning_rate": 1.579776e-05, + "loss": 0.0112, + "step": 98490 + }, + { + "epoch": 0.630368, + "grad_norm": 0.39150553941726685, + "learning_rate": 1.5797546666666668e-05, + "loss": 0.0132, + "step": 98495 + }, + { + "epoch": 0.6304, + "grad_norm": 0.9746017456054688, + "learning_rate": 1.5797333333333335e-05, + "loss": 0.01, + "step": 98500 + }, + { + "epoch": 0.630432, + "grad_norm": 1.1791044473648071, + "learning_rate": 1.5797120000000003e-05, + "loss": 0.0151, + "step": 98505 + }, + { + "epoch": 0.630464, + "grad_norm": 1.1938018798828125, + "learning_rate": 1.5796906666666667e-05, + "loss": 0.0172, + "step": 98510 + }, + { + "epoch": 0.630496, + "grad_norm": 0.10359358787536621, + "learning_rate": 1.5796693333333335e-05, + "loss": 0.0157, + "step": 98515 + }, + { + "epoch": 0.630528, + "grad_norm": 0.24448388814926147, + "learning_rate": 1.5796480000000002e-05, + "loss": 0.0181, + "step": 98520 + }, + { + "epoch": 0.63056, + "grad_norm": 0.16631220281124115, + "learning_rate": 1.579626666666667e-05, + "loss": 0.0223, + "step": 98525 + }, + { + "epoch": 0.630592, + "grad_norm": 0.08707455545663834, + "learning_rate": 1.5796053333333334e-05, + "loss": 0.0083, + "step": 98530 + }, + { + "epoch": 0.630624, + "grad_norm": 0.8283371329307556, + "learning_rate": 1.579584e-05, + "loss": 0.025, + "step": 98535 + }, + { + "epoch": 0.630656, + "grad_norm": 0.12496305257081985, + "learning_rate": 1.579562666666667e-05, + "loss": 0.0145, + "step": 98540 + }, + { + "epoch": 0.630688, + "grad_norm": 0.2066812813282013, + "learning_rate": 1.5795413333333333e-05, + "loss": 0.0123, + "step": 98545 + }, + { + "epoch": 0.63072, + "grad_norm": 1.571112036705017, + "learning_rate": 1.57952e-05, + "loss": 0.0213, + "step": 98550 + }, + { + "epoch": 0.630752, + "grad_norm": 0.3246752619743347, + "learning_rate": 1.579498666666667e-05, + "loss": 0.0099, + "step": 98555 + }, + { + "epoch": 0.630784, + "grad_norm": 0.1890861839056015, + "learning_rate": 1.5794773333333336e-05, + "loss": 0.0046, + "step": 98560 + }, + { + "epoch": 0.630816, + "grad_norm": 0.8039790391921997, + "learning_rate": 1.579456e-05, + "loss": 0.0153, + "step": 98565 + }, + { + "epoch": 0.630848, + "grad_norm": 1.001220464706421, + "learning_rate": 1.5794346666666668e-05, + "loss": 0.028, + "step": 98570 + }, + { + "epoch": 0.63088, + "grad_norm": 0.28707242012023926, + "learning_rate": 1.5794133333333335e-05, + "loss": 0.0262, + "step": 98575 + }, + { + "epoch": 0.630912, + "grad_norm": 1.103024959564209, + "learning_rate": 1.579392e-05, + "loss": 0.0138, + "step": 98580 + }, + { + "epoch": 0.630944, + "grad_norm": 1.686150074005127, + "learning_rate": 1.5793706666666667e-05, + "loss": 0.0208, + "step": 98585 + }, + { + "epoch": 0.630976, + "grad_norm": 0.10692251473665237, + "learning_rate": 1.5793493333333334e-05, + "loss": 0.012, + "step": 98590 + }, + { + "epoch": 0.631008, + "grad_norm": 0.9491398930549622, + "learning_rate": 1.5793280000000002e-05, + "loss": 0.0262, + "step": 98595 + }, + { + "epoch": 0.63104, + "grad_norm": 0.43559473752975464, + "learning_rate": 1.5793066666666666e-05, + "loss": 0.0275, + "step": 98600 + }, + { + "epoch": 0.631072, + "grad_norm": 0.26052039861679077, + "learning_rate": 1.5792853333333337e-05, + "loss": 0.0118, + "step": 98605 + }, + { + "epoch": 0.631104, + "grad_norm": 0.3755455017089844, + "learning_rate": 1.579264e-05, + "loss": 0.0276, + "step": 98610 + }, + { + "epoch": 0.631136, + "grad_norm": 0.4807916283607483, + "learning_rate": 1.5792426666666665e-05, + "loss": 0.0216, + "step": 98615 + }, + { + "epoch": 0.631168, + "grad_norm": 0.413321852684021, + "learning_rate": 1.5792213333333336e-05, + "loss": 0.0171, + "step": 98620 + }, + { + "epoch": 0.6312, + "grad_norm": 0.20961152017116547, + "learning_rate": 1.5792e-05, + "loss": 0.0168, + "step": 98625 + }, + { + "epoch": 0.631232, + "grad_norm": 0.6389849781990051, + "learning_rate": 1.5791786666666668e-05, + "loss": 0.029, + "step": 98630 + }, + { + "epoch": 0.631264, + "grad_norm": 0.29049351811408997, + "learning_rate": 1.5791573333333336e-05, + "loss": 0.0122, + "step": 98635 + }, + { + "epoch": 0.631296, + "grad_norm": 0.5548057556152344, + "learning_rate": 1.5791360000000003e-05, + "loss": 0.0254, + "step": 98640 + }, + { + "epoch": 0.631328, + "grad_norm": 0.11991097033023834, + "learning_rate": 1.5791146666666667e-05, + "loss": 0.0132, + "step": 98645 + }, + { + "epoch": 0.63136, + "grad_norm": 0.6927704215049744, + "learning_rate": 1.5790933333333335e-05, + "loss": 0.0135, + "step": 98650 + }, + { + "epoch": 0.631392, + "grad_norm": 0.5253009796142578, + "learning_rate": 1.5790720000000003e-05, + "loss": 0.0238, + "step": 98655 + }, + { + "epoch": 0.631424, + "grad_norm": 0.5436838269233704, + "learning_rate": 1.5790506666666667e-05, + "loss": 0.028, + "step": 98660 + }, + { + "epoch": 0.631456, + "grad_norm": 0.37158286571502686, + "learning_rate": 1.5790293333333334e-05, + "loss": 0.0087, + "step": 98665 + }, + { + "epoch": 0.631488, + "grad_norm": 0.5898923873901367, + "learning_rate": 1.5790080000000002e-05, + "loss": 0.0237, + "step": 98670 + }, + { + "epoch": 0.63152, + "grad_norm": 0.30498242378234863, + "learning_rate": 1.578986666666667e-05, + "loss": 0.007, + "step": 98675 + }, + { + "epoch": 0.631552, + "grad_norm": 0.3495882749557495, + "learning_rate": 1.5789653333333334e-05, + "loss": 0.0092, + "step": 98680 + }, + { + "epoch": 0.631584, + "grad_norm": 0.6065791845321655, + "learning_rate": 1.578944e-05, + "loss": 0.0143, + "step": 98685 + }, + { + "epoch": 0.631616, + "grad_norm": 0.37406161427497864, + "learning_rate": 1.578922666666667e-05, + "loss": 0.0112, + "step": 98690 + }, + { + "epoch": 0.631648, + "grad_norm": 0.22591698169708252, + "learning_rate": 1.5789013333333333e-05, + "loss": 0.0118, + "step": 98695 + }, + { + "epoch": 0.63168, + "grad_norm": 0.6582919955253601, + "learning_rate": 1.57888e-05, + "loss": 0.0162, + "step": 98700 + }, + { + "epoch": 0.631712, + "grad_norm": 0.08997112512588501, + "learning_rate": 1.5788586666666668e-05, + "loss": 0.0135, + "step": 98705 + }, + { + "epoch": 0.631744, + "grad_norm": 0.1612003892660141, + "learning_rate": 1.5788373333333335e-05, + "loss": 0.0086, + "step": 98710 + }, + { + "epoch": 0.631776, + "grad_norm": 0.4862945079803467, + "learning_rate": 1.578816e-05, + "loss": 0.0135, + "step": 98715 + }, + { + "epoch": 0.631808, + "grad_norm": 0.501777172088623, + "learning_rate": 1.5787946666666667e-05, + "loss": 0.0063, + "step": 98720 + }, + { + "epoch": 0.63184, + "grad_norm": 0.047543954104185104, + "learning_rate": 1.5787733333333335e-05, + "loss": 0.0116, + "step": 98725 + }, + { + "epoch": 0.631872, + "grad_norm": 0.6884896159172058, + "learning_rate": 1.5787520000000002e-05, + "loss": 0.0067, + "step": 98730 + }, + { + "epoch": 0.631904, + "grad_norm": 0.8662983775138855, + "learning_rate": 1.578730666666667e-05, + "loss": 0.0144, + "step": 98735 + }, + { + "epoch": 0.631936, + "grad_norm": 0.8628950119018555, + "learning_rate": 1.5787093333333334e-05, + "loss": 0.0137, + "step": 98740 + }, + { + "epoch": 0.631968, + "grad_norm": 0.3344314992427826, + "learning_rate": 1.578688e-05, + "loss": 0.0113, + "step": 98745 + }, + { + "epoch": 0.632, + "grad_norm": 0.895444393157959, + "learning_rate": 1.578666666666667e-05, + "loss": 0.0119, + "step": 98750 + }, + { + "epoch": 0.632032, + "grad_norm": 0.37348389625549316, + "learning_rate": 1.5786453333333333e-05, + "loss": 0.0127, + "step": 98755 + }, + { + "epoch": 0.632064, + "grad_norm": 0.9222697615623474, + "learning_rate": 1.578624e-05, + "loss": 0.0147, + "step": 98760 + }, + { + "epoch": 0.632096, + "grad_norm": 0.28640392422676086, + "learning_rate": 1.578602666666667e-05, + "loss": 0.0118, + "step": 98765 + }, + { + "epoch": 0.632128, + "grad_norm": 1.493813157081604, + "learning_rate": 1.5785813333333336e-05, + "loss": 0.0229, + "step": 98770 + }, + { + "epoch": 0.63216, + "grad_norm": 0.4177643358707428, + "learning_rate": 1.57856e-05, + "loss": 0.0106, + "step": 98775 + }, + { + "epoch": 0.632192, + "grad_norm": 0.46766993403434753, + "learning_rate": 1.5785386666666668e-05, + "loss": 0.0052, + "step": 98780 + }, + { + "epoch": 0.632224, + "grad_norm": 0.04991349205374718, + "learning_rate": 1.5785173333333335e-05, + "loss": 0.0095, + "step": 98785 + }, + { + "epoch": 0.632256, + "grad_norm": 0.6824820041656494, + "learning_rate": 1.578496e-05, + "loss": 0.0148, + "step": 98790 + }, + { + "epoch": 0.632288, + "grad_norm": 0.2062532752752304, + "learning_rate": 1.5784746666666667e-05, + "loss": 0.0113, + "step": 98795 + }, + { + "epoch": 0.63232, + "grad_norm": 0.5396539568901062, + "learning_rate": 1.5784533333333334e-05, + "loss": 0.0164, + "step": 98800 + }, + { + "epoch": 0.632352, + "grad_norm": 0.46155068278312683, + "learning_rate": 1.5784320000000002e-05, + "loss": 0.0126, + "step": 98805 + }, + { + "epoch": 0.632384, + "grad_norm": 0.09138716012239456, + "learning_rate": 1.5784106666666666e-05, + "loss": 0.007, + "step": 98810 + }, + { + "epoch": 0.632416, + "grad_norm": 0.23204754292964935, + "learning_rate": 1.5783893333333337e-05, + "loss": 0.0068, + "step": 98815 + }, + { + "epoch": 0.632448, + "grad_norm": 0.6525080800056458, + "learning_rate": 1.578368e-05, + "loss": 0.0167, + "step": 98820 + }, + { + "epoch": 0.63248, + "grad_norm": 0.3931560218334198, + "learning_rate": 1.5783466666666665e-05, + "loss": 0.0223, + "step": 98825 + }, + { + "epoch": 0.632512, + "grad_norm": 0.9659731388092041, + "learning_rate": 1.5783253333333336e-05, + "loss": 0.0186, + "step": 98830 + }, + { + "epoch": 0.632544, + "grad_norm": 0.20500433444976807, + "learning_rate": 1.578304e-05, + "loss": 0.008, + "step": 98835 + }, + { + "epoch": 0.632576, + "grad_norm": 0.5362922549247742, + "learning_rate": 1.5782826666666668e-05, + "loss": 0.0269, + "step": 98840 + }, + { + "epoch": 0.632608, + "grad_norm": 0.8915546536445618, + "learning_rate": 1.5782613333333336e-05, + "loss": 0.0308, + "step": 98845 + }, + { + "epoch": 0.63264, + "grad_norm": 0.588491678237915, + "learning_rate": 1.5782400000000003e-05, + "loss": 0.0149, + "step": 98850 + }, + { + "epoch": 0.632672, + "grad_norm": 0.26006001234054565, + "learning_rate": 1.5782186666666667e-05, + "loss": 0.0111, + "step": 98855 + }, + { + "epoch": 0.632704, + "grad_norm": 0.6062136292457581, + "learning_rate": 1.5781973333333335e-05, + "loss": 0.0262, + "step": 98860 + }, + { + "epoch": 0.632736, + "grad_norm": 1.2564663887023926, + "learning_rate": 1.5781760000000003e-05, + "loss": 0.0252, + "step": 98865 + }, + { + "epoch": 0.632768, + "grad_norm": 1.0719751119613647, + "learning_rate": 1.5781546666666667e-05, + "loss": 0.0087, + "step": 98870 + }, + { + "epoch": 0.6328, + "grad_norm": 0.1490662693977356, + "learning_rate": 1.5781333333333334e-05, + "loss": 0.0085, + "step": 98875 + }, + { + "epoch": 0.632832, + "grad_norm": 2.8344507217407227, + "learning_rate": 1.5781120000000002e-05, + "loss": 0.0175, + "step": 98880 + }, + { + "epoch": 0.632864, + "grad_norm": 0.6037525534629822, + "learning_rate": 1.578090666666667e-05, + "loss": 0.0204, + "step": 98885 + }, + { + "epoch": 0.632896, + "grad_norm": 1.5166786909103394, + "learning_rate": 1.5780693333333334e-05, + "loss": 0.0391, + "step": 98890 + }, + { + "epoch": 0.632928, + "grad_norm": 0.4679960310459137, + "learning_rate": 1.578048e-05, + "loss": 0.0116, + "step": 98895 + }, + { + "epoch": 0.63296, + "grad_norm": 0.14806008338928223, + "learning_rate": 1.578026666666667e-05, + "loss": 0.0099, + "step": 98900 + }, + { + "epoch": 0.632992, + "grad_norm": 0.5927896499633789, + "learning_rate": 1.5780053333333333e-05, + "loss": 0.0122, + "step": 98905 + }, + { + "epoch": 0.633024, + "grad_norm": 0.4846689999103546, + "learning_rate": 1.577984e-05, + "loss": 0.0172, + "step": 98910 + }, + { + "epoch": 0.633056, + "grad_norm": 1.8939759731292725, + "learning_rate": 1.5779626666666668e-05, + "loss": 0.0199, + "step": 98915 + }, + { + "epoch": 0.633088, + "grad_norm": 0.25842681527137756, + "learning_rate": 1.5779413333333335e-05, + "loss": 0.0271, + "step": 98920 + }, + { + "epoch": 0.63312, + "grad_norm": 0.4804675579071045, + "learning_rate": 1.57792e-05, + "loss": 0.0086, + "step": 98925 + }, + { + "epoch": 0.633152, + "grad_norm": 0.05206863582134247, + "learning_rate": 1.5778986666666667e-05, + "loss": 0.0058, + "step": 98930 + }, + { + "epoch": 0.633184, + "grad_norm": 0.2608914375305176, + "learning_rate": 1.5778773333333335e-05, + "loss": 0.0099, + "step": 98935 + }, + { + "epoch": 0.633216, + "grad_norm": 0.3318575322628021, + "learning_rate": 1.577856e-05, + "loss": 0.0147, + "step": 98940 + }, + { + "epoch": 0.633248, + "grad_norm": 0.6021316647529602, + "learning_rate": 1.577834666666667e-05, + "loss": 0.0096, + "step": 98945 + }, + { + "epoch": 0.63328, + "grad_norm": 1.5166938304901123, + "learning_rate": 1.5778133333333334e-05, + "loss": 0.0156, + "step": 98950 + }, + { + "epoch": 0.633312, + "grad_norm": 0.380718857049942, + "learning_rate": 1.577792e-05, + "loss": 0.0148, + "step": 98955 + }, + { + "epoch": 0.633344, + "grad_norm": 0.21124346554279327, + "learning_rate": 1.577770666666667e-05, + "loss": 0.0115, + "step": 98960 + }, + { + "epoch": 0.633376, + "grad_norm": 0.33823272585868835, + "learning_rate": 1.5777493333333333e-05, + "loss": 0.0084, + "step": 98965 + }, + { + "epoch": 0.633408, + "grad_norm": 0.9903450608253479, + "learning_rate": 1.577728e-05, + "loss": 0.0111, + "step": 98970 + }, + { + "epoch": 0.63344, + "grad_norm": 0.7174157500267029, + "learning_rate": 1.577706666666667e-05, + "loss": 0.017, + "step": 98975 + }, + { + "epoch": 0.633472, + "grad_norm": 0.405319482088089, + "learning_rate": 1.5776853333333336e-05, + "loss": 0.0101, + "step": 98980 + }, + { + "epoch": 0.633504, + "grad_norm": 0.6062766909599304, + "learning_rate": 1.577664e-05, + "loss": 0.0095, + "step": 98985 + }, + { + "epoch": 0.633536, + "grad_norm": 0.995820164680481, + "learning_rate": 1.5776426666666668e-05, + "loss": 0.0196, + "step": 98990 + }, + { + "epoch": 0.633568, + "grad_norm": 0.9550426602363586, + "learning_rate": 1.5776213333333335e-05, + "loss": 0.0125, + "step": 98995 + }, + { + "epoch": 0.6336, + "grad_norm": 0.17458608746528625, + "learning_rate": 1.5776e-05, + "loss": 0.0032, + "step": 99000 + }, + { + "epoch": 0.633632, + "grad_norm": 0.28549107909202576, + "learning_rate": 1.5775786666666667e-05, + "loss": 0.0064, + "step": 99005 + }, + { + "epoch": 0.633664, + "grad_norm": 0.6035943031311035, + "learning_rate": 1.5775573333333334e-05, + "loss": 0.0093, + "step": 99010 + }, + { + "epoch": 0.633696, + "grad_norm": 0.6746791005134583, + "learning_rate": 1.5775360000000002e-05, + "loss": 0.0174, + "step": 99015 + }, + { + "epoch": 0.633728, + "grad_norm": 0.6178739070892334, + "learning_rate": 1.5775146666666666e-05, + "loss": 0.0116, + "step": 99020 + }, + { + "epoch": 0.63376, + "grad_norm": 0.2832185924053192, + "learning_rate": 1.5774933333333334e-05, + "loss": 0.0088, + "step": 99025 + }, + { + "epoch": 0.633792, + "grad_norm": 0.20680253207683563, + "learning_rate": 1.577472e-05, + "loss": 0.0174, + "step": 99030 + }, + { + "epoch": 0.633824, + "grad_norm": 0.45676493644714355, + "learning_rate": 1.5774506666666665e-05, + "loss": 0.0189, + "step": 99035 + }, + { + "epoch": 0.633856, + "grad_norm": 0.21920616924762726, + "learning_rate": 1.5774293333333336e-05, + "loss": 0.0163, + "step": 99040 + }, + { + "epoch": 0.633888, + "grad_norm": 0.7376197576522827, + "learning_rate": 1.577408e-05, + "loss": 0.0202, + "step": 99045 + }, + { + "epoch": 0.63392, + "grad_norm": 0.3803641200065613, + "learning_rate": 1.5773866666666668e-05, + "loss": 0.0188, + "step": 99050 + }, + { + "epoch": 0.633952, + "grad_norm": 0.45222586393356323, + "learning_rate": 1.5773653333333336e-05, + "loss": 0.0154, + "step": 99055 + }, + { + "epoch": 0.633984, + "grad_norm": 2.9221084117889404, + "learning_rate": 1.5773440000000003e-05, + "loss": 0.0065, + "step": 99060 + }, + { + "epoch": 0.634016, + "grad_norm": 0.5875200629234314, + "learning_rate": 1.5773226666666667e-05, + "loss": 0.0119, + "step": 99065 + }, + { + "epoch": 0.634048, + "grad_norm": 0.2464330941438675, + "learning_rate": 1.5773013333333335e-05, + "loss": 0.0095, + "step": 99070 + }, + { + "epoch": 0.63408, + "grad_norm": 0.11116979271173477, + "learning_rate": 1.5772800000000003e-05, + "loss": 0.0191, + "step": 99075 + }, + { + "epoch": 0.634112, + "grad_norm": 0.11679139733314514, + "learning_rate": 1.5772586666666667e-05, + "loss": 0.0179, + "step": 99080 + }, + { + "epoch": 0.634144, + "grad_norm": 0.4050033390522003, + "learning_rate": 1.5772373333333334e-05, + "loss": 0.0506, + "step": 99085 + }, + { + "epoch": 0.634176, + "grad_norm": 0.07349266111850739, + "learning_rate": 1.5772160000000002e-05, + "loss": 0.0084, + "step": 99090 + }, + { + "epoch": 0.634208, + "grad_norm": 1.2332364320755005, + "learning_rate": 1.577194666666667e-05, + "loss": 0.0234, + "step": 99095 + }, + { + "epoch": 0.63424, + "grad_norm": 0.5228683352470398, + "learning_rate": 1.5771733333333334e-05, + "loss": 0.0171, + "step": 99100 + }, + { + "epoch": 0.634272, + "grad_norm": 0.35155779123306274, + "learning_rate": 1.577152e-05, + "loss": 0.0072, + "step": 99105 + }, + { + "epoch": 0.634304, + "grad_norm": 0.7006412744522095, + "learning_rate": 1.577130666666667e-05, + "loss": 0.0126, + "step": 99110 + }, + { + "epoch": 0.634336, + "grad_norm": 0.43640702962875366, + "learning_rate": 1.5771093333333333e-05, + "loss": 0.0251, + "step": 99115 + }, + { + "epoch": 0.634368, + "grad_norm": 0.30530664324760437, + "learning_rate": 1.577088e-05, + "loss": 0.0131, + "step": 99120 + }, + { + "epoch": 0.6344, + "grad_norm": 0.13459157943725586, + "learning_rate": 1.5770666666666668e-05, + "loss": 0.0243, + "step": 99125 + }, + { + "epoch": 0.634432, + "grad_norm": 0.025105563923716545, + "learning_rate": 1.5770453333333335e-05, + "loss": 0.0188, + "step": 99130 + }, + { + "epoch": 0.634464, + "grad_norm": 1.407318353652954, + "learning_rate": 1.577024e-05, + "loss": 0.0365, + "step": 99135 + }, + { + "epoch": 0.634496, + "grad_norm": 0.707633912563324, + "learning_rate": 1.577002666666667e-05, + "loss": 0.0148, + "step": 99140 + }, + { + "epoch": 0.634528, + "grad_norm": 0.8331979513168335, + "learning_rate": 1.5769813333333335e-05, + "loss": 0.0082, + "step": 99145 + }, + { + "epoch": 0.63456, + "grad_norm": 0.6079710721969604, + "learning_rate": 1.57696e-05, + "loss": 0.022, + "step": 99150 + }, + { + "epoch": 0.634592, + "grad_norm": 0.1607481986284256, + "learning_rate": 1.576938666666667e-05, + "loss": 0.0036, + "step": 99155 + }, + { + "epoch": 0.634624, + "grad_norm": 0.41252216696739197, + "learning_rate": 1.5769173333333334e-05, + "loss": 0.0151, + "step": 99160 + }, + { + "epoch": 0.634656, + "grad_norm": 0.08861858397722244, + "learning_rate": 1.576896e-05, + "loss": 0.0081, + "step": 99165 + }, + { + "epoch": 0.634688, + "grad_norm": 0.33879780769348145, + "learning_rate": 1.576874666666667e-05, + "loss": 0.0082, + "step": 99170 + }, + { + "epoch": 0.63472, + "grad_norm": 0.3941589295864105, + "learning_rate": 1.5768533333333337e-05, + "loss": 0.0075, + "step": 99175 + }, + { + "epoch": 0.634752, + "grad_norm": 0.4025030732154846, + "learning_rate": 1.576832e-05, + "loss": 0.0098, + "step": 99180 + }, + { + "epoch": 0.634784, + "grad_norm": 0.5845109224319458, + "learning_rate": 1.576810666666667e-05, + "loss": 0.0159, + "step": 99185 + }, + { + "epoch": 0.634816, + "grad_norm": 0.14351382851600647, + "learning_rate": 1.5767893333333336e-05, + "loss": 0.0453, + "step": 99190 + }, + { + "epoch": 0.634848, + "grad_norm": 1.1210460662841797, + "learning_rate": 1.576768e-05, + "loss": 0.0118, + "step": 99195 + }, + { + "epoch": 0.63488, + "grad_norm": 0.7279502749443054, + "learning_rate": 1.5767466666666668e-05, + "loss": 0.0121, + "step": 99200 + }, + { + "epoch": 0.634912, + "grad_norm": 0.4925844967365265, + "learning_rate": 1.5767253333333335e-05, + "loss": 0.0215, + "step": 99205 + }, + { + "epoch": 0.634944, + "grad_norm": 0.37041521072387695, + "learning_rate": 1.5767040000000003e-05, + "loss": 0.0087, + "step": 99210 + }, + { + "epoch": 0.634976, + "grad_norm": 0.303057998418808, + "learning_rate": 1.5766826666666667e-05, + "loss": 0.0316, + "step": 99215 + }, + { + "epoch": 0.635008, + "grad_norm": 0.10703162848949432, + "learning_rate": 1.5766613333333335e-05, + "loss": 0.0132, + "step": 99220 + }, + { + "epoch": 0.63504, + "grad_norm": 0.37306174635887146, + "learning_rate": 1.5766400000000002e-05, + "loss": 0.0089, + "step": 99225 + }, + { + "epoch": 0.635072, + "grad_norm": 0.2727813720703125, + "learning_rate": 1.5766186666666666e-05, + "loss": 0.0243, + "step": 99230 + }, + { + "epoch": 0.635104, + "grad_norm": 1.713356852531433, + "learning_rate": 1.5765973333333334e-05, + "loss": 0.0127, + "step": 99235 + }, + { + "epoch": 0.635136, + "grad_norm": 0.6918370127677917, + "learning_rate": 1.576576e-05, + "loss": 0.0155, + "step": 99240 + }, + { + "epoch": 0.635168, + "grad_norm": 2.3355159759521484, + "learning_rate": 1.576554666666667e-05, + "loss": 0.0452, + "step": 99245 + }, + { + "epoch": 0.6352, + "grad_norm": 0.37518495321273804, + "learning_rate": 1.5765333333333333e-05, + "loss": 0.0121, + "step": 99250 + }, + { + "epoch": 0.635232, + "grad_norm": 0.12421604990959167, + "learning_rate": 1.576512e-05, + "loss": 0.0057, + "step": 99255 + }, + { + "epoch": 0.635264, + "grad_norm": 0.2747325599193573, + "learning_rate": 1.5764906666666668e-05, + "loss": 0.0144, + "step": 99260 + }, + { + "epoch": 0.635296, + "grad_norm": 1.8516895771026611, + "learning_rate": 1.5764693333333336e-05, + "loss": 0.0135, + "step": 99265 + }, + { + "epoch": 0.635328, + "grad_norm": 0.050934892147779465, + "learning_rate": 1.5764480000000003e-05, + "loss": 0.0314, + "step": 99270 + }, + { + "epoch": 0.63536, + "grad_norm": 0.5114607810974121, + "learning_rate": 1.5764266666666667e-05, + "loss": 0.0093, + "step": 99275 + }, + { + "epoch": 0.635392, + "grad_norm": 0.40316200256347656, + "learning_rate": 1.5764053333333335e-05, + "loss": 0.007, + "step": 99280 + }, + { + "epoch": 0.635424, + "grad_norm": 0.25448286533355713, + "learning_rate": 1.5763840000000003e-05, + "loss": 0.0086, + "step": 99285 + }, + { + "epoch": 0.635456, + "grad_norm": 2.0910484790802, + "learning_rate": 1.5763626666666667e-05, + "loss": 0.0338, + "step": 99290 + }, + { + "epoch": 0.635488, + "grad_norm": 0.4616772532463074, + "learning_rate": 1.5763413333333334e-05, + "loss": 0.0089, + "step": 99295 + }, + { + "epoch": 0.63552, + "grad_norm": 1.0740693807601929, + "learning_rate": 1.5763200000000002e-05, + "loss": 0.0123, + "step": 99300 + }, + { + "epoch": 0.635552, + "grad_norm": 1.0541316270828247, + "learning_rate": 1.576298666666667e-05, + "loss": 0.0152, + "step": 99305 + }, + { + "epoch": 0.635584, + "grad_norm": 0.07641156762838364, + "learning_rate": 1.5762773333333334e-05, + "loss": 0.0034, + "step": 99310 + }, + { + "epoch": 0.635616, + "grad_norm": 3.094588279724121, + "learning_rate": 1.576256e-05, + "loss": 0.0324, + "step": 99315 + }, + { + "epoch": 0.635648, + "grad_norm": 0.22599707543849945, + "learning_rate": 1.576234666666667e-05, + "loss": 0.0093, + "step": 99320 + }, + { + "epoch": 0.63568, + "grad_norm": 0.622585117816925, + "learning_rate": 1.5762133333333333e-05, + "loss": 0.022, + "step": 99325 + }, + { + "epoch": 0.635712, + "grad_norm": 0.14287781715393066, + "learning_rate": 1.576192e-05, + "loss": 0.0155, + "step": 99330 + }, + { + "epoch": 0.635744, + "grad_norm": 1.5547592639923096, + "learning_rate": 1.5761706666666668e-05, + "loss": 0.0219, + "step": 99335 + }, + { + "epoch": 0.635776, + "grad_norm": 0.046602945774793625, + "learning_rate": 1.5761493333333335e-05, + "loss": 0.0069, + "step": 99340 + }, + { + "epoch": 0.635808, + "grad_norm": 0.37525373697280884, + "learning_rate": 1.576128e-05, + "loss": 0.0061, + "step": 99345 + }, + { + "epoch": 0.63584, + "grad_norm": 0.20682385563850403, + "learning_rate": 1.576106666666667e-05, + "loss": 0.0191, + "step": 99350 + }, + { + "epoch": 0.635872, + "grad_norm": 0.4863828718662262, + "learning_rate": 1.5760853333333335e-05, + "loss": 0.0064, + "step": 99355 + }, + { + "epoch": 0.635904, + "grad_norm": 1.9664608240127563, + "learning_rate": 1.576064e-05, + "loss": 0.0195, + "step": 99360 + }, + { + "epoch": 0.635936, + "grad_norm": 0.08762150257825851, + "learning_rate": 1.576042666666667e-05, + "loss": 0.0079, + "step": 99365 + }, + { + "epoch": 0.635968, + "grad_norm": 0.12978661060333252, + "learning_rate": 1.5760213333333334e-05, + "loss": 0.0092, + "step": 99370 + }, + { + "epoch": 0.636, + "grad_norm": 0.6980943083763123, + "learning_rate": 1.576e-05, + "loss": 0.0115, + "step": 99375 + }, + { + "epoch": 0.636032, + "grad_norm": 0.5495493412017822, + "learning_rate": 1.575978666666667e-05, + "loss": 0.0128, + "step": 99380 + }, + { + "epoch": 0.636064, + "grad_norm": 0.4220201373100281, + "learning_rate": 1.5759573333333337e-05, + "loss": 0.011, + "step": 99385 + }, + { + "epoch": 0.636096, + "grad_norm": 0.5204105377197266, + "learning_rate": 1.575936e-05, + "loss": 0.0176, + "step": 99390 + }, + { + "epoch": 0.636128, + "grad_norm": 0.35258084535598755, + "learning_rate": 1.575914666666667e-05, + "loss": 0.0115, + "step": 99395 + }, + { + "epoch": 0.63616, + "grad_norm": 0.9843119382858276, + "learning_rate": 1.5758933333333336e-05, + "loss": 0.0145, + "step": 99400 + }, + { + "epoch": 0.636192, + "grad_norm": 0.5112688541412354, + "learning_rate": 1.575872e-05, + "loss": 0.0114, + "step": 99405 + }, + { + "epoch": 0.636224, + "grad_norm": 0.6443564295768738, + "learning_rate": 1.5758506666666668e-05, + "loss": 0.0137, + "step": 99410 + }, + { + "epoch": 0.636256, + "grad_norm": 4.599752902984619, + "learning_rate": 1.5758293333333335e-05, + "loss": 0.028, + "step": 99415 + }, + { + "epoch": 0.636288, + "grad_norm": 0.2869432270526886, + "learning_rate": 1.5758080000000003e-05, + "loss": 0.0104, + "step": 99420 + }, + { + "epoch": 0.63632, + "grad_norm": 0.22669149935245514, + "learning_rate": 1.5757866666666667e-05, + "loss": 0.0131, + "step": 99425 + }, + { + "epoch": 0.636352, + "grad_norm": 1.2200782299041748, + "learning_rate": 1.5757653333333335e-05, + "loss": 0.0258, + "step": 99430 + }, + { + "epoch": 0.636384, + "grad_norm": 0.5276212096214294, + "learning_rate": 1.5757440000000002e-05, + "loss": 0.0152, + "step": 99435 + }, + { + "epoch": 0.636416, + "grad_norm": 0.12264405190944672, + "learning_rate": 1.5757226666666666e-05, + "loss": 0.0129, + "step": 99440 + }, + { + "epoch": 0.636448, + "grad_norm": 1.434966802597046, + "learning_rate": 1.5757013333333334e-05, + "loss": 0.0116, + "step": 99445 + }, + { + "epoch": 0.63648, + "grad_norm": 0.6285207271575928, + "learning_rate": 1.57568e-05, + "loss": 0.0151, + "step": 99450 + }, + { + "epoch": 0.636512, + "grad_norm": 0.5627556443214417, + "learning_rate": 1.575658666666667e-05, + "loss": 0.0173, + "step": 99455 + }, + { + "epoch": 0.636544, + "grad_norm": 0.11188046634197235, + "learning_rate": 1.5756373333333333e-05, + "loss": 0.0162, + "step": 99460 + }, + { + "epoch": 0.636576, + "grad_norm": 3.2755470275878906, + "learning_rate": 1.575616e-05, + "loss": 0.0173, + "step": 99465 + }, + { + "epoch": 0.636608, + "grad_norm": 0.7977238297462463, + "learning_rate": 1.5755946666666668e-05, + "loss": 0.019, + "step": 99470 + }, + { + "epoch": 0.63664, + "grad_norm": 0.7106015086174011, + "learning_rate": 1.5755733333333332e-05, + "loss": 0.0204, + "step": 99475 + }, + { + "epoch": 0.636672, + "grad_norm": 0.01774713210761547, + "learning_rate": 1.5755520000000003e-05, + "loss": 0.0095, + "step": 99480 + }, + { + "epoch": 0.636704, + "grad_norm": 0.9532032012939453, + "learning_rate": 1.5755306666666667e-05, + "loss": 0.0201, + "step": 99485 + }, + { + "epoch": 0.636736, + "grad_norm": 0.6293459534645081, + "learning_rate": 1.5755093333333335e-05, + "loss": 0.0046, + "step": 99490 + }, + { + "epoch": 0.636768, + "grad_norm": 0.9764416813850403, + "learning_rate": 1.5754880000000003e-05, + "loss": 0.0211, + "step": 99495 + }, + { + "epoch": 0.6368, + "grad_norm": 0.7379928231239319, + "learning_rate": 1.5754666666666667e-05, + "loss": 0.0167, + "step": 99500 + }, + { + "epoch": 0.636832, + "grad_norm": 0.2756071984767914, + "learning_rate": 1.5754453333333334e-05, + "loss": 0.0143, + "step": 99505 + }, + { + "epoch": 0.636864, + "grad_norm": 0.39250391721725464, + "learning_rate": 1.5754240000000002e-05, + "loss": 0.0173, + "step": 99510 + }, + { + "epoch": 0.636896, + "grad_norm": 0.020826220512390137, + "learning_rate": 1.575402666666667e-05, + "loss": 0.0029, + "step": 99515 + }, + { + "epoch": 0.636928, + "grad_norm": 0.2082497626543045, + "learning_rate": 1.5753813333333334e-05, + "loss": 0.0115, + "step": 99520 + }, + { + "epoch": 0.63696, + "grad_norm": 0.3723900020122528, + "learning_rate": 1.57536e-05, + "loss": 0.02, + "step": 99525 + }, + { + "epoch": 0.636992, + "grad_norm": 1.3006305694580078, + "learning_rate": 1.575338666666667e-05, + "loss": 0.029, + "step": 99530 + }, + { + "epoch": 0.637024, + "grad_norm": 0.5293320417404175, + "learning_rate": 1.5753173333333333e-05, + "loss": 0.0189, + "step": 99535 + }, + { + "epoch": 0.637056, + "grad_norm": 0.7989487051963806, + "learning_rate": 1.575296e-05, + "loss": 0.0125, + "step": 99540 + }, + { + "epoch": 0.637088, + "grad_norm": 0.7324773073196411, + "learning_rate": 1.5752746666666668e-05, + "loss": 0.013, + "step": 99545 + }, + { + "epoch": 0.63712, + "grad_norm": 0.5003669261932373, + "learning_rate": 1.5752533333333335e-05, + "loss": 0.0109, + "step": 99550 + }, + { + "epoch": 0.637152, + "grad_norm": 0.3921658396720886, + "learning_rate": 1.575232e-05, + "loss": 0.0091, + "step": 99555 + }, + { + "epoch": 0.637184, + "grad_norm": 0.09068000316619873, + "learning_rate": 1.5752106666666667e-05, + "loss": 0.0047, + "step": 99560 + }, + { + "epoch": 0.637216, + "grad_norm": 0.2469465136528015, + "learning_rate": 1.5751893333333335e-05, + "loss": 0.0087, + "step": 99565 + }, + { + "epoch": 0.637248, + "grad_norm": 1.107586145401001, + "learning_rate": 1.575168e-05, + "loss": 0.0221, + "step": 99570 + }, + { + "epoch": 0.63728, + "grad_norm": 0.04777746647596359, + "learning_rate": 1.575146666666667e-05, + "loss": 0.0049, + "step": 99575 + }, + { + "epoch": 0.637312, + "grad_norm": 0.39217469096183777, + "learning_rate": 1.5751253333333334e-05, + "loss": 0.0195, + "step": 99580 + }, + { + "epoch": 0.637344, + "grad_norm": 0.5230839252471924, + "learning_rate": 1.575104e-05, + "loss": 0.0087, + "step": 99585 + }, + { + "epoch": 0.637376, + "grad_norm": 0.12494568526744843, + "learning_rate": 1.575082666666667e-05, + "loss": 0.0102, + "step": 99590 + }, + { + "epoch": 0.637408, + "grad_norm": 0.30046775937080383, + "learning_rate": 1.5750613333333337e-05, + "loss": 0.0145, + "step": 99595 + }, + { + "epoch": 0.63744, + "grad_norm": 0.23303022980690002, + "learning_rate": 1.57504e-05, + "loss": 0.0088, + "step": 99600 + }, + { + "epoch": 0.637472, + "grad_norm": 0.4375573992729187, + "learning_rate": 1.575018666666667e-05, + "loss": 0.0102, + "step": 99605 + }, + { + "epoch": 0.637504, + "grad_norm": 0.5817619562149048, + "learning_rate": 1.5749973333333336e-05, + "loss": 0.0081, + "step": 99610 + }, + { + "epoch": 0.637536, + "grad_norm": 1.1708002090454102, + "learning_rate": 1.574976e-05, + "loss": 0.0152, + "step": 99615 + }, + { + "epoch": 0.637568, + "grad_norm": 0.27104949951171875, + "learning_rate": 1.5749546666666668e-05, + "loss": 0.0068, + "step": 99620 + }, + { + "epoch": 0.6376, + "grad_norm": 0.1387857347726822, + "learning_rate": 1.5749333333333335e-05, + "loss": 0.009, + "step": 99625 + }, + { + "epoch": 0.637632, + "grad_norm": 0.3059239685535431, + "learning_rate": 1.5749120000000003e-05, + "loss": 0.0329, + "step": 99630 + }, + { + "epoch": 0.637664, + "grad_norm": 0.12986114621162415, + "learning_rate": 1.5748906666666667e-05, + "loss": 0.019, + "step": 99635 + }, + { + "epoch": 0.637696, + "grad_norm": 0.6301871538162231, + "learning_rate": 1.5748693333333335e-05, + "loss": 0.011, + "step": 99640 + }, + { + "epoch": 0.637728, + "grad_norm": 0.16681700944900513, + "learning_rate": 1.5748480000000002e-05, + "loss": 0.0177, + "step": 99645 + }, + { + "epoch": 0.63776, + "grad_norm": 0.38825663924217224, + "learning_rate": 1.5748266666666666e-05, + "loss": 0.0094, + "step": 99650 + }, + { + "epoch": 0.637792, + "grad_norm": 0.4895044267177582, + "learning_rate": 1.5748053333333334e-05, + "loss": 0.0074, + "step": 99655 + }, + { + "epoch": 0.637824, + "grad_norm": 0.6641789674758911, + "learning_rate": 1.574784e-05, + "loss": 0.0153, + "step": 99660 + }, + { + "epoch": 0.637856, + "grad_norm": 0.8694018721580505, + "learning_rate": 1.574762666666667e-05, + "loss": 0.011, + "step": 99665 + }, + { + "epoch": 0.637888, + "grad_norm": 0.5748684406280518, + "learning_rate": 1.5747413333333333e-05, + "loss": 0.008, + "step": 99670 + }, + { + "epoch": 0.63792, + "grad_norm": 0.17352530360221863, + "learning_rate": 1.57472e-05, + "loss": 0.0168, + "step": 99675 + }, + { + "epoch": 0.637952, + "grad_norm": 0.34166619181632996, + "learning_rate": 1.5746986666666668e-05, + "loss": 0.0126, + "step": 99680 + }, + { + "epoch": 0.637984, + "grad_norm": 0.4353159964084625, + "learning_rate": 1.5746773333333332e-05, + "loss": 0.021, + "step": 99685 + }, + { + "epoch": 0.638016, + "grad_norm": 0.881015956401825, + "learning_rate": 1.5746560000000003e-05, + "loss": 0.0114, + "step": 99690 + }, + { + "epoch": 0.638048, + "grad_norm": 1.728713870048523, + "learning_rate": 1.5746346666666667e-05, + "loss": 0.006, + "step": 99695 + }, + { + "epoch": 0.63808, + "grad_norm": 0.3969855308532715, + "learning_rate": 1.5746133333333335e-05, + "loss": 0.0211, + "step": 99700 + }, + { + "epoch": 0.638112, + "grad_norm": 0.44000858068466187, + "learning_rate": 1.5745920000000003e-05, + "loss": 0.0131, + "step": 99705 + }, + { + "epoch": 0.638144, + "grad_norm": 1.1250816583633423, + "learning_rate": 1.5745706666666667e-05, + "loss": 0.0147, + "step": 99710 + }, + { + "epoch": 0.638176, + "grad_norm": 0.7035368084907532, + "learning_rate": 1.5745493333333334e-05, + "loss": 0.0277, + "step": 99715 + }, + { + "epoch": 0.638208, + "grad_norm": 0.3161502778530121, + "learning_rate": 1.5745280000000002e-05, + "loss": 0.0095, + "step": 99720 + }, + { + "epoch": 0.63824, + "grad_norm": 0.10852017253637314, + "learning_rate": 1.574506666666667e-05, + "loss": 0.0068, + "step": 99725 + }, + { + "epoch": 0.638272, + "grad_norm": 0.41739609837532043, + "learning_rate": 1.5744853333333334e-05, + "loss": 0.023, + "step": 99730 + }, + { + "epoch": 0.638304, + "grad_norm": 1.3924909830093384, + "learning_rate": 1.574464e-05, + "loss": 0.0146, + "step": 99735 + }, + { + "epoch": 0.638336, + "grad_norm": 0.15039800107479095, + "learning_rate": 1.574442666666667e-05, + "loss": 0.0211, + "step": 99740 + }, + { + "epoch": 0.638368, + "grad_norm": 0.10677186399698257, + "learning_rate": 1.5744213333333333e-05, + "loss": 0.014, + "step": 99745 + }, + { + "epoch": 0.6384, + "grad_norm": 0.6055272221565247, + "learning_rate": 1.5744e-05, + "loss": 0.0192, + "step": 99750 + }, + { + "epoch": 0.638432, + "grad_norm": 0.6333318948745728, + "learning_rate": 1.5743786666666668e-05, + "loss": 0.0226, + "step": 99755 + }, + { + "epoch": 0.638464, + "grad_norm": 0.23776216804981232, + "learning_rate": 1.5743573333333335e-05, + "loss": 0.0139, + "step": 99760 + }, + { + "epoch": 0.638496, + "grad_norm": 0.04121595248579979, + "learning_rate": 1.574336e-05, + "loss": 0.0066, + "step": 99765 + }, + { + "epoch": 0.638528, + "grad_norm": 0.04443126544356346, + "learning_rate": 1.5743146666666667e-05, + "loss": 0.0093, + "step": 99770 + }, + { + "epoch": 0.63856, + "grad_norm": 0.9876899123191833, + "learning_rate": 1.5742933333333335e-05, + "loss": 0.0164, + "step": 99775 + }, + { + "epoch": 0.638592, + "grad_norm": 1.0137261152267456, + "learning_rate": 1.574272e-05, + "loss": 0.0085, + "step": 99780 + }, + { + "epoch": 0.638624, + "grad_norm": 0.3733966648578644, + "learning_rate": 1.5742506666666666e-05, + "loss": 0.0057, + "step": 99785 + }, + { + "epoch": 0.638656, + "grad_norm": 0.1882200390100479, + "learning_rate": 1.5742293333333334e-05, + "loss": 0.0071, + "step": 99790 + }, + { + "epoch": 0.638688, + "grad_norm": 4.202548503875732, + "learning_rate": 1.574208e-05, + "loss": 0.0115, + "step": 99795 + }, + { + "epoch": 0.63872, + "grad_norm": 0.4322258234024048, + "learning_rate": 1.574186666666667e-05, + "loss": 0.007, + "step": 99800 + }, + { + "epoch": 0.638752, + "grad_norm": 0.7285283803939819, + "learning_rate": 1.5741653333333337e-05, + "loss": 0.0226, + "step": 99805 + }, + { + "epoch": 0.638784, + "grad_norm": 1.6532130241394043, + "learning_rate": 1.574144e-05, + "loss": 0.0416, + "step": 99810 + }, + { + "epoch": 0.638816, + "grad_norm": 0.09422361105680466, + "learning_rate": 1.574122666666667e-05, + "loss": 0.0065, + "step": 99815 + }, + { + "epoch": 0.638848, + "grad_norm": 0.3905864357948303, + "learning_rate": 1.5741013333333336e-05, + "loss": 0.0106, + "step": 99820 + }, + { + "epoch": 0.63888, + "grad_norm": 0.13629509508609772, + "learning_rate": 1.57408e-05, + "loss": 0.041, + "step": 99825 + }, + { + "epoch": 0.638912, + "grad_norm": 0.9318645000457764, + "learning_rate": 1.5740586666666668e-05, + "loss": 0.0196, + "step": 99830 + }, + { + "epoch": 0.638944, + "grad_norm": 1.1374413967132568, + "learning_rate": 1.5740373333333335e-05, + "loss": 0.0161, + "step": 99835 + }, + { + "epoch": 0.638976, + "grad_norm": 0.06493393331766129, + "learning_rate": 1.5740160000000003e-05, + "loss": 0.0065, + "step": 99840 + }, + { + "epoch": 0.639008, + "grad_norm": 0.555571436882019, + "learning_rate": 1.5739946666666667e-05, + "loss": 0.0383, + "step": 99845 + }, + { + "epoch": 0.63904, + "grad_norm": 0.2129688560962677, + "learning_rate": 1.5739733333333335e-05, + "loss": 0.0187, + "step": 99850 + }, + { + "epoch": 0.639072, + "grad_norm": 0.4000142216682434, + "learning_rate": 1.5739520000000002e-05, + "loss": 0.0031, + "step": 99855 + }, + { + "epoch": 0.639104, + "grad_norm": 1.0669993162155151, + "learning_rate": 1.5739306666666666e-05, + "loss": 0.0153, + "step": 99860 + }, + { + "epoch": 0.639136, + "grad_norm": 0.4133722484111786, + "learning_rate": 1.5739093333333334e-05, + "loss": 0.0094, + "step": 99865 + }, + { + "epoch": 0.639168, + "grad_norm": 0.1154957041144371, + "learning_rate": 1.573888e-05, + "loss": 0.0106, + "step": 99870 + }, + { + "epoch": 0.6392, + "grad_norm": 0.14759765565395355, + "learning_rate": 1.573866666666667e-05, + "loss": 0.0059, + "step": 99875 + }, + { + "epoch": 0.639232, + "grad_norm": 0.20401093363761902, + "learning_rate": 1.5738453333333333e-05, + "loss": 0.0135, + "step": 99880 + }, + { + "epoch": 0.639264, + "grad_norm": 0.7810998558998108, + "learning_rate": 1.573824e-05, + "loss": 0.0182, + "step": 99885 + }, + { + "epoch": 0.639296, + "grad_norm": 2.6731033325195312, + "learning_rate": 1.5738026666666668e-05, + "loss": 0.0188, + "step": 99890 + }, + { + "epoch": 0.639328, + "grad_norm": 0.4589759111404419, + "learning_rate": 1.5737813333333332e-05, + "loss": 0.0133, + "step": 99895 + }, + { + "epoch": 0.63936, + "grad_norm": 0.17450329661369324, + "learning_rate": 1.5737600000000003e-05, + "loss": 0.0094, + "step": 99900 + }, + { + "epoch": 0.639392, + "grad_norm": 1.2779184579849243, + "learning_rate": 1.5737386666666667e-05, + "loss": 0.0139, + "step": 99905 + }, + { + "epoch": 0.639424, + "grad_norm": 0.5822553038597107, + "learning_rate": 1.5737173333333335e-05, + "loss": 0.02, + "step": 99910 + }, + { + "epoch": 0.639456, + "grad_norm": 0.25149795413017273, + "learning_rate": 1.5736960000000003e-05, + "loss": 0.0095, + "step": 99915 + }, + { + "epoch": 0.639488, + "grad_norm": 0.6331637501716614, + "learning_rate": 1.573674666666667e-05, + "loss": 0.0102, + "step": 99920 + }, + { + "epoch": 0.63952, + "grad_norm": 0.48836439847946167, + "learning_rate": 1.5736533333333334e-05, + "loss": 0.0248, + "step": 99925 + }, + { + "epoch": 0.639552, + "grad_norm": 0.6185893416404724, + "learning_rate": 1.5736320000000002e-05, + "loss": 0.0382, + "step": 99930 + }, + { + "epoch": 0.639584, + "grad_norm": 0.15966680645942688, + "learning_rate": 1.573610666666667e-05, + "loss": 0.008, + "step": 99935 + }, + { + "epoch": 0.639616, + "grad_norm": 0.44092077016830444, + "learning_rate": 1.5735893333333334e-05, + "loss": 0.0098, + "step": 99940 + }, + { + "epoch": 0.639648, + "grad_norm": 0.4701636731624603, + "learning_rate": 1.573568e-05, + "loss": 0.0083, + "step": 99945 + }, + { + "epoch": 0.63968, + "grad_norm": 0.22045062482357025, + "learning_rate": 1.573546666666667e-05, + "loss": 0.0032, + "step": 99950 + }, + { + "epoch": 0.639712, + "grad_norm": 1.3839712142944336, + "learning_rate": 1.5735253333333336e-05, + "loss": 0.0336, + "step": 99955 + }, + { + "epoch": 0.639744, + "grad_norm": 0.7763224244117737, + "learning_rate": 1.573504e-05, + "loss": 0.0166, + "step": 99960 + }, + { + "epoch": 0.639776, + "grad_norm": 0.2637975811958313, + "learning_rate": 1.5734826666666668e-05, + "loss": 0.0077, + "step": 99965 + }, + { + "epoch": 0.639808, + "grad_norm": 0.6363551020622253, + "learning_rate": 1.5734613333333335e-05, + "loss": 0.0101, + "step": 99970 + }, + { + "epoch": 0.63984, + "grad_norm": 0.44108936190605164, + "learning_rate": 1.57344e-05, + "loss": 0.0347, + "step": 99975 + }, + { + "epoch": 0.639872, + "grad_norm": 0.3986711800098419, + "learning_rate": 1.5734186666666667e-05, + "loss": 0.0077, + "step": 99980 + }, + { + "epoch": 0.639904, + "grad_norm": 0.21155905723571777, + "learning_rate": 1.5733973333333335e-05, + "loss": 0.0137, + "step": 99985 + }, + { + "epoch": 0.639936, + "grad_norm": 3.9688057899475098, + "learning_rate": 1.5733760000000002e-05, + "loss": 0.0133, + "step": 99990 + }, + { + "epoch": 0.639968, + "grad_norm": 0.15929783880710602, + "learning_rate": 1.5733546666666666e-05, + "loss": 0.0307, + "step": 99995 + }, + { + "epoch": 0.64, + "grad_norm": 0.5829972624778748, + "learning_rate": 1.5733333333333334e-05, + "loss": 0.0318, + "step": 100000 + }, + { + "epoch": 0.640032, + "grad_norm": 0.579559862613678, + "learning_rate": 1.573312e-05, + "loss": 0.0115, + "step": 100005 + }, + { + "epoch": 0.640064, + "grad_norm": 0.8007950782775879, + "learning_rate": 1.5732906666666666e-05, + "loss": 0.0056, + "step": 100010 + }, + { + "epoch": 0.640096, + "grad_norm": 0.29731011390686035, + "learning_rate": 1.5732693333333337e-05, + "loss": 0.0149, + "step": 100015 + }, + { + "epoch": 0.640128, + "grad_norm": 0.7961945533752441, + "learning_rate": 1.573248e-05, + "loss": 0.0203, + "step": 100020 + }, + { + "epoch": 0.64016, + "grad_norm": 0.14891712367534637, + "learning_rate": 1.573226666666667e-05, + "loss": 0.0148, + "step": 100025 + }, + { + "epoch": 0.640192, + "grad_norm": 0.05044231936335564, + "learning_rate": 1.5732053333333336e-05, + "loss": 0.0091, + "step": 100030 + }, + { + "epoch": 0.640224, + "grad_norm": 0.3127375543117523, + "learning_rate": 1.573184e-05, + "loss": 0.0097, + "step": 100035 + }, + { + "epoch": 0.640256, + "grad_norm": 0.22841225564479828, + "learning_rate": 1.5731626666666668e-05, + "loss": 0.005, + "step": 100040 + }, + { + "epoch": 0.640288, + "grad_norm": 0.6561771631240845, + "learning_rate": 1.5731413333333335e-05, + "loss": 0.007, + "step": 100045 + }, + { + "epoch": 0.64032, + "grad_norm": 1.0832880735397339, + "learning_rate": 1.5731200000000003e-05, + "loss": 0.0387, + "step": 100050 + }, + { + "epoch": 0.640352, + "grad_norm": 0.40552961826324463, + "learning_rate": 1.5730986666666667e-05, + "loss": 0.0392, + "step": 100055 + }, + { + "epoch": 0.640384, + "grad_norm": 0.3484848737716675, + "learning_rate": 1.5730773333333335e-05, + "loss": 0.0126, + "step": 100060 + }, + { + "epoch": 0.640416, + "grad_norm": 0.3753703236579895, + "learning_rate": 1.5730560000000002e-05, + "loss": 0.0237, + "step": 100065 + }, + { + "epoch": 0.640448, + "grad_norm": 0.5469161868095398, + "learning_rate": 1.5730346666666666e-05, + "loss": 0.0282, + "step": 100070 + }, + { + "epoch": 0.64048, + "grad_norm": 1.1476092338562012, + "learning_rate": 1.5730133333333334e-05, + "loss": 0.014, + "step": 100075 + }, + { + "epoch": 0.640512, + "grad_norm": 0.03255985304713249, + "learning_rate": 1.572992e-05, + "loss": 0.0081, + "step": 100080 + }, + { + "epoch": 0.640544, + "grad_norm": 0.19087456166744232, + "learning_rate": 1.572970666666667e-05, + "loss": 0.0084, + "step": 100085 + }, + { + "epoch": 0.640576, + "grad_norm": 0.15051671862602234, + "learning_rate": 1.5729493333333333e-05, + "loss": 0.0199, + "step": 100090 + }, + { + "epoch": 0.640608, + "grad_norm": 1.0533244609832764, + "learning_rate": 1.5729280000000004e-05, + "loss": 0.0163, + "step": 100095 + }, + { + "epoch": 0.64064, + "grad_norm": 0.21404673159122467, + "learning_rate": 1.5729066666666668e-05, + "loss": 0.0067, + "step": 100100 + }, + { + "epoch": 0.640672, + "grad_norm": 0.6791211366653442, + "learning_rate": 1.5728853333333332e-05, + "loss": 0.0088, + "step": 100105 + }, + { + "epoch": 0.640704, + "grad_norm": 3.129085063934326, + "learning_rate": 1.5728640000000003e-05, + "loss": 0.0299, + "step": 100110 + }, + { + "epoch": 0.640736, + "grad_norm": 0.6149122714996338, + "learning_rate": 1.5728426666666667e-05, + "loss": 0.0111, + "step": 100115 + }, + { + "epoch": 0.640768, + "grad_norm": 0.4652567505836487, + "learning_rate": 1.5728213333333335e-05, + "loss": 0.0066, + "step": 100120 + }, + { + "epoch": 0.6408, + "grad_norm": 0.3296263515949249, + "learning_rate": 1.5728000000000003e-05, + "loss": 0.0165, + "step": 100125 + }, + { + "epoch": 0.640832, + "grad_norm": 0.238363578915596, + "learning_rate": 1.572778666666667e-05, + "loss": 0.0211, + "step": 100130 + }, + { + "epoch": 0.640864, + "grad_norm": 0.17639166116714478, + "learning_rate": 1.5727573333333334e-05, + "loss": 0.0115, + "step": 100135 + }, + { + "epoch": 0.640896, + "grad_norm": 0.38449642062187195, + "learning_rate": 1.5727360000000002e-05, + "loss": 0.0141, + "step": 100140 + }, + { + "epoch": 0.640928, + "grad_norm": 0.36894840002059937, + "learning_rate": 1.572714666666667e-05, + "loss": 0.0095, + "step": 100145 + }, + { + "epoch": 0.64096, + "grad_norm": 0.4069097936153412, + "learning_rate": 1.5726933333333334e-05, + "loss": 0.0428, + "step": 100150 + }, + { + "epoch": 0.640992, + "grad_norm": 0.4385824501514435, + "learning_rate": 1.572672e-05, + "loss": 0.0065, + "step": 100155 + }, + { + "epoch": 0.641024, + "grad_norm": 0.48004916310310364, + "learning_rate": 1.572650666666667e-05, + "loss": 0.0145, + "step": 100160 + }, + { + "epoch": 0.641056, + "grad_norm": 0.6162137389183044, + "learning_rate": 1.5726293333333336e-05, + "loss": 0.0129, + "step": 100165 + }, + { + "epoch": 0.641088, + "grad_norm": 0.7231011986732483, + "learning_rate": 1.572608e-05, + "loss": 0.0223, + "step": 100170 + }, + { + "epoch": 0.64112, + "grad_norm": 0.7430177330970764, + "learning_rate": 1.5725866666666668e-05, + "loss": 0.0204, + "step": 100175 + }, + { + "epoch": 0.641152, + "grad_norm": 1.723749041557312, + "learning_rate": 1.5725653333333335e-05, + "loss": 0.0217, + "step": 100180 + }, + { + "epoch": 0.641184, + "grad_norm": 0.4420674741268158, + "learning_rate": 1.572544e-05, + "loss": 0.0136, + "step": 100185 + }, + { + "epoch": 0.641216, + "grad_norm": 0.02505379356443882, + "learning_rate": 1.5725226666666667e-05, + "loss": 0.0047, + "step": 100190 + }, + { + "epoch": 0.641248, + "grad_norm": 0.28314208984375, + "learning_rate": 1.5725013333333335e-05, + "loss": 0.0131, + "step": 100195 + }, + { + "epoch": 0.64128, + "grad_norm": 0.4551664888858795, + "learning_rate": 1.5724800000000002e-05, + "loss": 0.0174, + "step": 100200 + }, + { + "epoch": 0.641312, + "grad_norm": 0.9590370655059814, + "learning_rate": 1.5724586666666666e-05, + "loss": 0.0109, + "step": 100205 + }, + { + "epoch": 0.641344, + "grad_norm": 0.8297623991966248, + "learning_rate": 1.5724373333333334e-05, + "loss": 0.0136, + "step": 100210 + }, + { + "epoch": 0.641376, + "grad_norm": 2.993511915206909, + "learning_rate": 1.572416e-05, + "loss": 0.0161, + "step": 100215 + }, + { + "epoch": 0.641408, + "grad_norm": 0.5083053112030029, + "learning_rate": 1.5723946666666666e-05, + "loss": 0.0156, + "step": 100220 + }, + { + "epoch": 0.64144, + "grad_norm": 1.8973735570907593, + "learning_rate": 1.5723733333333337e-05, + "loss": 0.0195, + "step": 100225 + }, + { + "epoch": 0.641472, + "grad_norm": 0.44107118248939514, + "learning_rate": 1.572352e-05, + "loss": 0.0146, + "step": 100230 + }, + { + "epoch": 0.641504, + "grad_norm": 0.22309216856956482, + "learning_rate": 1.572330666666667e-05, + "loss": 0.0041, + "step": 100235 + }, + { + "epoch": 0.641536, + "grad_norm": 0.2851303219795227, + "learning_rate": 1.5723093333333336e-05, + "loss": 0.0079, + "step": 100240 + }, + { + "epoch": 0.641568, + "grad_norm": 0.7256035804748535, + "learning_rate": 1.572288e-05, + "loss": 0.0288, + "step": 100245 + }, + { + "epoch": 0.6416, + "grad_norm": 3.41552472114563, + "learning_rate": 1.5722666666666668e-05, + "loss": 0.0136, + "step": 100250 + }, + { + "epoch": 0.641632, + "grad_norm": 0.1600431650876999, + "learning_rate": 1.5722453333333335e-05, + "loss": 0.0104, + "step": 100255 + }, + { + "epoch": 0.641664, + "grad_norm": 0.2627891004085541, + "learning_rate": 1.5722240000000003e-05, + "loss": 0.0508, + "step": 100260 + }, + { + "epoch": 0.641696, + "grad_norm": 0.3861047923564911, + "learning_rate": 1.5722026666666667e-05, + "loss": 0.0109, + "step": 100265 + }, + { + "epoch": 0.641728, + "grad_norm": 0.28804513812065125, + "learning_rate": 1.5721813333333335e-05, + "loss": 0.0105, + "step": 100270 + }, + { + "epoch": 0.64176, + "grad_norm": 0.4785913825035095, + "learning_rate": 1.5721600000000002e-05, + "loss": 0.0107, + "step": 100275 + }, + { + "epoch": 0.641792, + "grad_norm": 0.2726784944534302, + "learning_rate": 1.5721386666666666e-05, + "loss": 0.018, + "step": 100280 + }, + { + "epoch": 0.641824, + "grad_norm": 0.17334049940109253, + "learning_rate": 1.5721173333333334e-05, + "loss": 0.0093, + "step": 100285 + }, + { + "epoch": 0.641856, + "grad_norm": 0.617030918598175, + "learning_rate": 1.572096e-05, + "loss": 0.023, + "step": 100290 + }, + { + "epoch": 0.641888, + "grad_norm": 0.3563007414340973, + "learning_rate": 1.572074666666667e-05, + "loss": 0.0105, + "step": 100295 + }, + { + "epoch": 0.64192, + "grad_norm": 0.5705892443656921, + "learning_rate": 1.5720533333333333e-05, + "loss": 0.0054, + "step": 100300 + }, + { + "epoch": 0.641952, + "grad_norm": 0.07432875782251358, + "learning_rate": 1.572032e-05, + "loss": 0.0025, + "step": 100305 + }, + { + "epoch": 0.641984, + "grad_norm": 0.791060209274292, + "learning_rate": 1.5720106666666668e-05, + "loss": 0.0153, + "step": 100310 + }, + { + "epoch": 0.642016, + "grad_norm": 0.06538943201303482, + "learning_rate": 1.5719893333333332e-05, + "loss": 0.017, + "step": 100315 + }, + { + "epoch": 0.642048, + "grad_norm": 0.4653330147266388, + "learning_rate": 1.5719680000000003e-05, + "loss": 0.0071, + "step": 100320 + }, + { + "epoch": 0.64208, + "grad_norm": 2.2995800971984863, + "learning_rate": 1.5719466666666667e-05, + "loss": 0.0124, + "step": 100325 + }, + { + "epoch": 0.642112, + "grad_norm": 0.3363053798675537, + "learning_rate": 1.5719253333333335e-05, + "loss": 0.0235, + "step": 100330 + }, + { + "epoch": 0.642144, + "grad_norm": 0.3425353765487671, + "learning_rate": 1.5719040000000003e-05, + "loss": 0.0098, + "step": 100335 + }, + { + "epoch": 0.642176, + "grad_norm": 0.3944135904312134, + "learning_rate": 1.571882666666667e-05, + "loss": 0.0129, + "step": 100340 + }, + { + "epoch": 0.642208, + "grad_norm": 0.5848632454872131, + "learning_rate": 1.5718613333333334e-05, + "loss": 0.0153, + "step": 100345 + }, + { + "epoch": 0.64224, + "grad_norm": 1.1108108758926392, + "learning_rate": 1.5718400000000002e-05, + "loss": 0.0313, + "step": 100350 + }, + { + "epoch": 0.642272, + "grad_norm": 0.2609224319458008, + "learning_rate": 1.571818666666667e-05, + "loss": 0.0054, + "step": 100355 + }, + { + "epoch": 0.642304, + "grad_norm": 1.2209248542785645, + "learning_rate": 1.5717973333333334e-05, + "loss": 0.0121, + "step": 100360 + }, + { + "epoch": 0.642336, + "grad_norm": 3.1301522254943848, + "learning_rate": 1.571776e-05, + "loss": 0.0142, + "step": 100365 + }, + { + "epoch": 0.642368, + "grad_norm": 0.5341231226921082, + "learning_rate": 1.571754666666667e-05, + "loss": 0.0065, + "step": 100370 + }, + { + "epoch": 0.6424, + "grad_norm": 0.2996298670768738, + "learning_rate": 1.5717333333333336e-05, + "loss": 0.0204, + "step": 100375 + }, + { + "epoch": 0.642432, + "grad_norm": 0.2508597671985626, + "learning_rate": 1.571712e-05, + "loss": 0.0307, + "step": 100380 + }, + { + "epoch": 0.642464, + "grad_norm": 1.1802024841308594, + "learning_rate": 1.5716906666666668e-05, + "loss": 0.0121, + "step": 100385 + }, + { + "epoch": 0.642496, + "grad_norm": 0.24543219804763794, + "learning_rate": 1.5716693333333335e-05, + "loss": 0.0126, + "step": 100390 + }, + { + "epoch": 0.642528, + "grad_norm": 0.6638566255569458, + "learning_rate": 1.571648e-05, + "loss": 0.0299, + "step": 100395 + }, + { + "epoch": 0.64256, + "grad_norm": 0.5826324224472046, + "learning_rate": 1.5716266666666667e-05, + "loss": 0.0161, + "step": 100400 + }, + { + "epoch": 0.642592, + "grad_norm": 0.3876032829284668, + "learning_rate": 1.5716053333333335e-05, + "loss": 0.0044, + "step": 100405 + }, + { + "epoch": 0.642624, + "grad_norm": 0.13543695211410522, + "learning_rate": 1.5715840000000002e-05, + "loss": 0.0208, + "step": 100410 + }, + { + "epoch": 0.642656, + "grad_norm": 0.3893476724624634, + "learning_rate": 1.5715626666666666e-05, + "loss": 0.022, + "step": 100415 + }, + { + "epoch": 0.642688, + "grad_norm": 0.8063662648200989, + "learning_rate": 1.5715413333333334e-05, + "loss": 0.0154, + "step": 100420 + }, + { + "epoch": 0.64272, + "grad_norm": 0.7353633046150208, + "learning_rate": 1.57152e-05, + "loss": 0.0551, + "step": 100425 + }, + { + "epoch": 0.642752, + "grad_norm": 1.020669937133789, + "learning_rate": 1.5714986666666666e-05, + "loss": 0.0114, + "step": 100430 + }, + { + "epoch": 0.642784, + "grad_norm": 0.7471089363098145, + "learning_rate": 1.5714773333333337e-05, + "loss": 0.0186, + "step": 100435 + }, + { + "epoch": 0.642816, + "grad_norm": 0.11199058592319489, + "learning_rate": 1.571456e-05, + "loss": 0.0083, + "step": 100440 + }, + { + "epoch": 0.642848, + "grad_norm": 0.5206743478775024, + "learning_rate": 1.571434666666667e-05, + "loss": 0.019, + "step": 100445 + }, + { + "epoch": 0.64288, + "grad_norm": 0.02371564321219921, + "learning_rate": 1.5714133333333336e-05, + "loss": 0.0198, + "step": 100450 + }, + { + "epoch": 0.642912, + "grad_norm": 0.3300974369049072, + "learning_rate": 1.571392e-05, + "loss": 0.0098, + "step": 100455 + }, + { + "epoch": 0.642944, + "grad_norm": 1.1578105688095093, + "learning_rate": 1.5713706666666668e-05, + "loss": 0.0246, + "step": 100460 + }, + { + "epoch": 0.642976, + "grad_norm": 0.17228564620018005, + "learning_rate": 1.5713493333333335e-05, + "loss": 0.0089, + "step": 100465 + }, + { + "epoch": 0.643008, + "grad_norm": 0.7435917258262634, + "learning_rate": 1.5713280000000003e-05, + "loss": 0.0124, + "step": 100470 + }, + { + "epoch": 0.64304, + "grad_norm": 0.7730109095573425, + "learning_rate": 1.5713066666666667e-05, + "loss": 0.0137, + "step": 100475 + }, + { + "epoch": 0.643072, + "grad_norm": 0.30426204204559326, + "learning_rate": 1.5712853333333335e-05, + "loss": 0.0156, + "step": 100480 + }, + { + "epoch": 0.643104, + "grad_norm": 0.0305511225014925, + "learning_rate": 1.5712640000000002e-05, + "loss": 0.0159, + "step": 100485 + }, + { + "epoch": 0.643136, + "grad_norm": 0.08756686747074127, + "learning_rate": 1.5712426666666666e-05, + "loss": 0.0068, + "step": 100490 + }, + { + "epoch": 0.643168, + "grad_norm": 0.24544456601142883, + "learning_rate": 1.5712213333333334e-05, + "loss": 0.0058, + "step": 100495 + }, + { + "epoch": 0.6432, + "grad_norm": 0.31470414996147156, + "learning_rate": 1.5712e-05, + "loss": 0.0079, + "step": 100500 + }, + { + "epoch": 0.643232, + "grad_norm": 0.45669975876808167, + "learning_rate": 1.571178666666667e-05, + "loss": 0.0128, + "step": 100505 + }, + { + "epoch": 0.643264, + "grad_norm": 0.3966425061225891, + "learning_rate": 1.5711573333333333e-05, + "loss": 0.0087, + "step": 100510 + }, + { + "epoch": 0.643296, + "grad_norm": 0.13731521368026733, + "learning_rate": 1.571136e-05, + "loss": 0.0067, + "step": 100515 + }, + { + "epoch": 0.643328, + "grad_norm": 0.07385414838790894, + "learning_rate": 1.5711146666666668e-05, + "loss": 0.0098, + "step": 100520 + }, + { + "epoch": 0.64336, + "grad_norm": 0.38143637776374817, + "learning_rate": 1.5710933333333332e-05, + "loss": 0.0123, + "step": 100525 + }, + { + "epoch": 0.643392, + "grad_norm": 0.6677535176277161, + "learning_rate": 1.571072e-05, + "loss": 0.0117, + "step": 100530 + }, + { + "epoch": 0.643424, + "grad_norm": 0.8759310245513916, + "learning_rate": 1.5710506666666667e-05, + "loss": 0.017, + "step": 100535 + }, + { + "epoch": 0.643456, + "grad_norm": 1.614729642868042, + "learning_rate": 1.5710293333333335e-05, + "loss": 0.0092, + "step": 100540 + }, + { + "epoch": 0.643488, + "grad_norm": 0.39141666889190674, + "learning_rate": 1.5710080000000003e-05, + "loss": 0.0113, + "step": 100545 + }, + { + "epoch": 0.64352, + "grad_norm": 0.11530423909425735, + "learning_rate": 1.570986666666667e-05, + "loss": 0.0053, + "step": 100550 + }, + { + "epoch": 0.643552, + "grad_norm": 0.7668474316596985, + "learning_rate": 1.5709653333333334e-05, + "loss": 0.0152, + "step": 100555 + }, + { + "epoch": 0.643584, + "grad_norm": 0.4169246554374695, + "learning_rate": 1.5709440000000002e-05, + "loss": 0.0093, + "step": 100560 + }, + { + "epoch": 0.643616, + "grad_norm": 0.4209514558315277, + "learning_rate": 1.570922666666667e-05, + "loss": 0.01, + "step": 100565 + }, + { + "epoch": 0.643648, + "grad_norm": 0.2227732092142105, + "learning_rate": 1.5709013333333334e-05, + "loss": 0.0123, + "step": 100570 + }, + { + "epoch": 0.64368, + "grad_norm": 0.5218021273612976, + "learning_rate": 1.57088e-05, + "loss": 0.0294, + "step": 100575 + }, + { + "epoch": 0.643712, + "grad_norm": 0.8099848628044128, + "learning_rate": 1.570858666666667e-05, + "loss": 0.0149, + "step": 100580 + }, + { + "epoch": 0.643744, + "grad_norm": 0.19202350080013275, + "learning_rate": 1.5708373333333336e-05, + "loss": 0.0146, + "step": 100585 + }, + { + "epoch": 0.643776, + "grad_norm": 0.6786018013954163, + "learning_rate": 1.570816e-05, + "loss": 0.0121, + "step": 100590 + }, + { + "epoch": 0.643808, + "grad_norm": 2.7565224170684814, + "learning_rate": 1.5707946666666668e-05, + "loss": 0.013, + "step": 100595 + }, + { + "epoch": 0.64384, + "grad_norm": 0.06528609991073608, + "learning_rate": 1.5707733333333335e-05, + "loss": 0.0049, + "step": 100600 + }, + { + "epoch": 0.643872, + "grad_norm": 0.6323118805885315, + "learning_rate": 1.570752e-05, + "loss": 0.0059, + "step": 100605 + }, + { + "epoch": 0.643904, + "grad_norm": 0.7941099405288696, + "learning_rate": 1.5707306666666667e-05, + "loss": 0.0144, + "step": 100610 + }, + { + "epoch": 0.643936, + "grad_norm": 0.33462396264076233, + "learning_rate": 1.5707093333333335e-05, + "loss": 0.0096, + "step": 100615 + }, + { + "epoch": 0.643968, + "grad_norm": 0.5237446427345276, + "learning_rate": 1.5706880000000002e-05, + "loss": 0.0175, + "step": 100620 + }, + { + "epoch": 0.644, + "grad_norm": 0.18380780518054962, + "learning_rate": 1.5706666666666666e-05, + "loss": 0.0102, + "step": 100625 + }, + { + "epoch": 0.644032, + "grad_norm": 0.5553516149520874, + "learning_rate": 1.5706453333333334e-05, + "loss": 0.0118, + "step": 100630 + }, + { + "epoch": 0.644064, + "grad_norm": 0.552932620048523, + "learning_rate": 1.570624e-05, + "loss": 0.0114, + "step": 100635 + }, + { + "epoch": 0.644096, + "grad_norm": 0.3152709901332855, + "learning_rate": 1.5706026666666666e-05, + "loss": 0.0159, + "step": 100640 + }, + { + "epoch": 0.644128, + "grad_norm": 0.6217930912971497, + "learning_rate": 1.5705813333333337e-05, + "loss": 0.0184, + "step": 100645 + }, + { + "epoch": 0.64416, + "grad_norm": 0.5228744149208069, + "learning_rate": 1.57056e-05, + "loss": 0.0177, + "step": 100650 + }, + { + "epoch": 0.644192, + "grad_norm": 0.7261651754379272, + "learning_rate": 1.570538666666667e-05, + "loss": 0.0319, + "step": 100655 + }, + { + "epoch": 0.644224, + "grad_norm": 0.3238975703716278, + "learning_rate": 1.5705173333333336e-05, + "loss": 0.0043, + "step": 100660 + }, + { + "epoch": 0.644256, + "grad_norm": 0.40233099460601807, + "learning_rate": 1.570496e-05, + "loss": 0.0129, + "step": 100665 + }, + { + "epoch": 0.644288, + "grad_norm": 0.41902777552604675, + "learning_rate": 1.5704746666666668e-05, + "loss": 0.0121, + "step": 100670 + }, + { + "epoch": 0.64432, + "grad_norm": 0.5343785881996155, + "learning_rate": 1.5704533333333335e-05, + "loss": 0.0148, + "step": 100675 + }, + { + "epoch": 0.644352, + "grad_norm": 0.8883615732192993, + "learning_rate": 1.5704320000000003e-05, + "loss": 0.0266, + "step": 100680 + }, + { + "epoch": 0.644384, + "grad_norm": 0.1900714784860611, + "learning_rate": 1.5704106666666667e-05, + "loss": 0.0234, + "step": 100685 + }, + { + "epoch": 0.644416, + "grad_norm": 2.4443788528442383, + "learning_rate": 1.5703893333333335e-05, + "loss": 0.0285, + "step": 100690 + }, + { + "epoch": 0.644448, + "grad_norm": 0.027551865205168724, + "learning_rate": 1.5703680000000002e-05, + "loss": 0.0091, + "step": 100695 + }, + { + "epoch": 0.64448, + "grad_norm": 0.7288154363632202, + "learning_rate": 1.5703466666666666e-05, + "loss": 0.0497, + "step": 100700 + }, + { + "epoch": 0.644512, + "grad_norm": 1.027223825454712, + "learning_rate": 1.5703253333333334e-05, + "loss": 0.0223, + "step": 100705 + }, + { + "epoch": 0.644544, + "grad_norm": 0.06606356799602509, + "learning_rate": 1.570304e-05, + "loss": 0.0217, + "step": 100710 + }, + { + "epoch": 0.644576, + "grad_norm": 0.4598053991794586, + "learning_rate": 1.570282666666667e-05, + "loss": 0.0055, + "step": 100715 + }, + { + "epoch": 0.644608, + "grad_norm": 0.4543958902359009, + "learning_rate": 1.5702613333333333e-05, + "loss": 0.0116, + "step": 100720 + }, + { + "epoch": 0.64464, + "grad_norm": 1.4811636209487915, + "learning_rate": 1.57024e-05, + "loss": 0.0245, + "step": 100725 + }, + { + "epoch": 0.644672, + "grad_norm": 0.4956711232662201, + "learning_rate": 1.5702186666666668e-05, + "loss": 0.0092, + "step": 100730 + }, + { + "epoch": 0.644704, + "grad_norm": 0.07188469171524048, + "learning_rate": 1.5701973333333332e-05, + "loss": 0.0085, + "step": 100735 + }, + { + "epoch": 0.644736, + "grad_norm": 1.2341281175613403, + "learning_rate": 1.570176e-05, + "loss": 0.0185, + "step": 100740 + }, + { + "epoch": 0.644768, + "grad_norm": 0.5747650265693665, + "learning_rate": 1.5701546666666667e-05, + "loss": 0.0156, + "step": 100745 + }, + { + "epoch": 0.6448, + "grad_norm": 0.7904307246208191, + "learning_rate": 1.5701333333333335e-05, + "loss": 0.0217, + "step": 100750 + }, + { + "epoch": 0.644832, + "grad_norm": 1.4831496477127075, + "learning_rate": 1.570112e-05, + "loss": 0.0224, + "step": 100755 + }, + { + "epoch": 0.644864, + "grad_norm": 0.17898985743522644, + "learning_rate": 1.570090666666667e-05, + "loss": 0.0056, + "step": 100760 + }, + { + "epoch": 0.644896, + "grad_norm": 0.7527914643287659, + "learning_rate": 1.5700693333333334e-05, + "loss": 0.0072, + "step": 100765 + }, + { + "epoch": 0.644928, + "grad_norm": 0.10654601454734802, + "learning_rate": 1.5700480000000002e-05, + "loss": 0.0033, + "step": 100770 + }, + { + "epoch": 0.64496, + "grad_norm": 1.3376133441925049, + "learning_rate": 1.570026666666667e-05, + "loss": 0.034, + "step": 100775 + }, + { + "epoch": 0.644992, + "grad_norm": 0.169465109705925, + "learning_rate": 1.5700053333333334e-05, + "loss": 0.0147, + "step": 100780 + }, + { + "epoch": 0.645024, + "grad_norm": 0.15824872255325317, + "learning_rate": 1.569984e-05, + "loss": 0.0134, + "step": 100785 + }, + { + "epoch": 0.645056, + "grad_norm": 0.4686097502708435, + "learning_rate": 1.569962666666667e-05, + "loss": 0.0129, + "step": 100790 + }, + { + "epoch": 0.645088, + "grad_norm": 0.21556328237056732, + "learning_rate": 1.5699413333333336e-05, + "loss": 0.0107, + "step": 100795 + }, + { + "epoch": 0.64512, + "grad_norm": 1.1866984367370605, + "learning_rate": 1.56992e-05, + "loss": 0.0297, + "step": 100800 + }, + { + "epoch": 0.645152, + "grad_norm": 0.3695380687713623, + "learning_rate": 1.5698986666666668e-05, + "loss": 0.0086, + "step": 100805 + }, + { + "epoch": 0.645184, + "grad_norm": 0.15772956609725952, + "learning_rate": 1.5698773333333336e-05, + "loss": 0.0043, + "step": 100810 + }, + { + "epoch": 0.645216, + "grad_norm": 0.2420162409543991, + "learning_rate": 1.569856e-05, + "loss": 0.0112, + "step": 100815 + }, + { + "epoch": 0.645248, + "grad_norm": 2.41849946975708, + "learning_rate": 1.5698346666666667e-05, + "loss": 0.0158, + "step": 100820 + }, + { + "epoch": 0.64528, + "grad_norm": 0.3983294367790222, + "learning_rate": 1.5698133333333335e-05, + "loss": 0.016, + "step": 100825 + }, + { + "epoch": 0.645312, + "grad_norm": 0.8883098363876343, + "learning_rate": 1.5697920000000002e-05, + "loss": 0.0251, + "step": 100830 + }, + { + "epoch": 0.645344, + "grad_norm": 1.143322229385376, + "learning_rate": 1.5697706666666666e-05, + "loss": 0.0133, + "step": 100835 + }, + { + "epoch": 0.645376, + "grad_norm": 0.14217664301395416, + "learning_rate": 1.5697493333333334e-05, + "loss": 0.0137, + "step": 100840 + }, + { + "epoch": 0.645408, + "grad_norm": 0.552686333656311, + "learning_rate": 1.569728e-05, + "loss": 0.0057, + "step": 100845 + }, + { + "epoch": 0.64544, + "grad_norm": 0.8997004628181458, + "learning_rate": 1.5697066666666666e-05, + "loss": 0.022, + "step": 100850 + }, + { + "epoch": 0.645472, + "grad_norm": 0.9879317879676819, + "learning_rate": 1.5696853333333337e-05, + "loss": 0.0113, + "step": 100855 + }, + { + "epoch": 0.645504, + "grad_norm": 0.29426807165145874, + "learning_rate": 1.569664e-05, + "loss": 0.0071, + "step": 100860 + }, + { + "epoch": 0.645536, + "grad_norm": 1.342102289199829, + "learning_rate": 1.569642666666667e-05, + "loss": 0.0326, + "step": 100865 + }, + { + "epoch": 0.645568, + "grad_norm": 0.5556221604347229, + "learning_rate": 1.5696213333333336e-05, + "loss": 0.0048, + "step": 100870 + }, + { + "epoch": 0.6456, + "grad_norm": 1.0038633346557617, + "learning_rate": 1.5696000000000004e-05, + "loss": 0.0154, + "step": 100875 + }, + { + "epoch": 0.645632, + "grad_norm": 0.8290687203407288, + "learning_rate": 1.5695786666666668e-05, + "loss": 0.0105, + "step": 100880 + }, + { + "epoch": 0.645664, + "grad_norm": 0.042139653116464615, + "learning_rate": 1.5695573333333335e-05, + "loss": 0.0075, + "step": 100885 + }, + { + "epoch": 0.645696, + "grad_norm": 0.3057681918144226, + "learning_rate": 1.5695360000000003e-05, + "loss": 0.0108, + "step": 100890 + }, + { + "epoch": 0.645728, + "grad_norm": 0.2850911617279053, + "learning_rate": 1.5695146666666667e-05, + "loss": 0.0094, + "step": 100895 + }, + { + "epoch": 0.64576, + "grad_norm": 0.5520837306976318, + "learning_rate": 1.5694933333333335e-05, + "loss": 0.0148, + "step": 100900 + }, + { + "epoch": 0.645792, + "grad_norm": 0.5219700336456299, + "learning_rate": 1.5694720000000002e-05, + "loss": 0.0276, + "step": 100905 + }, + { + "epoch": 0.645824, + "grad_norm": 0.8029244542121887, + "learning_rate": 1.569450666666667e-05, + "loss": 0.0087, + "step": 100910 + }, + { + "epoch": 0.645856, + "grad_norm": 0.6380369067192078, + "learning_rate": 1.5694293333333334e-05, + "loss": 0.0163, + "step": 100915 + }, + { + "epoch": 0.645888, + "grad_norm": 0.45319119095802307, + "learning_rate": 1.569408e-05, + "loss": 0.0167, + "step": 100920 + }, + { + "epoch": 0.64592, + "grad_norm": 0.12049852311611176, + "learning_rate": 1.569386666666667e-05, + "loss": 0.0146, + "step": 100925 + }, + { + "epoch": 0.645952, + "grad_norm": 0.5387046337127686, + "learning_rate": 1.5693653333333333e-05, + "loss": 0.0202, + "step": 100930 + }, + { + "epoch": 0.645984, + "grad_norm": 1.2752610445022583, + "learning_rate": 1.569344e-05, + "loss": 0.021, + "step": 100935 + }, + { + "epoch": 0.646016, + "grad_norm": 0.38792479038238525, + "learning_rate": 1.5693226666666668e-05, + "loss": 0.0082, + "step": 100940 + }, + { + "epoch": 0.646048, + "grad_norm": 0.13022480905056, + "learning_rate": 1.5693013333333336e-05, + "loss": 0.0128, + "step": 100945 + }, + { + "epoch": 0.64608, + "grad_norm": 0.22034871578216553, + "learning_rate": 1.56928e-05, + "loss": 0.0224, + "step": 100950 + }, + { + "epoch": 0.646112, + "grad_norm": 1.1271508932113647, + "learning_rate": 1.5692586666666667e-05, + "loss": 0.0169, + "step": 100955 + }, + { + "epoch": 0.646144, + "grad_norm": 0.2245015949010849, + "learning_rate": 1.5692373333333335e-05, + "loss": 0.0142, + "step": 100960 + }, + { + "epoch": 0.646176, + "grad_norm": 0.9329276084899902, + "learning_rate": 1.569216e-05, + "loss": 0.0325, + "step": 100965 + }, + { + "epoch": 0.646208, + "grad_norm": 0.5486963987350464, + "learning_rate": 1.569194666666667e-05, + "loss": 0.009, + "step": 100970 + }, + { + "epoch": 0.64624, + "grad_norm": 1.5839953422546387, + "learning_rate": 1.5691733333333334e-05, + "loss": 0.0075, + "step": 100975 + }, + { + "epoch": 0.646272, + "grad_norm": 0.5789195895195007, + "learning_rate": 1.5691520000000002e-05, + "loss": 0.0153, + "step": 100980 + }, + { + "epoch": 0.646304, + "grad_norm": 0.15025494992733002, + "learning_rate": 1.569130666666667e-05, + "loss": 0.0294, + "step": 100985 + }, + { + "epoch": 0.646336, + "grad_norm": 0.5503209233283997, + "learning_rate": 1.5691093333333334e-05, + "loss": 0.0148, + "step": 100990 + }, + { + "epoch": 0.646368, + "grad_norm": 0.4867779314517975, + "learning_rate": 1.569088e-05, + "loss": 0.0109, + "step": 100995 + }, + { + "epoch": 0.6464, + "grad_norm": 2.043078660964966, + "learning_rate": 1.569066666666667e-05, + "loss": 0.0153, + "step": 101000 + }, + { + "epoch": 0.646432, + "grad_norm": 0.47809281945228577, + "learning_rate": 1.5690453333333336e-05, + "loss": 0.0077, + "step": 101005 + }, + { + "epoch": 0.646464, + "grad_norm": 0.18368537724018097, + "learning_rate": 1.569024e-05, + "loss": 0.0039, + "step": 101010 + }, + { + "epoch": 0.646496, + "grad_norm": 1.340627908706665, + "learning_rate": 1.5690026666666668e-05, + "loss": 0.022, + "step": 101015 + }, + { + "epoch": 0.646528, + "grad_norm": 0.5275871753692627, + "learning_rate": 1.5689813333333336e-05, + "loss": 0.0111, + "step": 101020 + }, + { + "epoch": 0.64656, + "grad_norm": 1.0803334712982178, + "learning_rate": 1.56896e-05, + "loss": 0.0206, + "step": 101025 + }, + { + "epoch": 0.646592, + "grad_norm": 0.7672280073165894, + "learning_rate": 1.5689386666666667e-05, + "loss": 0.0145, + "step": 101030 + }, + { + "epoch": 0.646624, + "grad_norm": 1.1303539276123047, + "learning_rate": 1.5689173333333335e-05, + "loss": 0.0085, + "step": 101035 + }, + { + "epoch": 0.646656, + "grad_norm": 0.6542871594429016, + "learning_rate": 1.5688960000000002e-05, + "loss": 0.0233, + "step": 101040 + }, + { + "epoch": 0.646688, + "grad_norm": 1.381659746170044, + "learning_rate": 1.5688746666666667e-05, + "loss": 0.0173, + "step": 101045 + }, + { + "epoch": 0.64672, + "grad_norm": 0.8694497346878052, + "learning_rate": 1.5688533333333334e-05, + "loss": 0.0091, + "step": 101050 + }, + { + "epoch": 0.646752, + "grad_norm": 0.1382884830236435, + "learning_rate": 1.568832e-05, + "loss": 0.0086, + "step": 101055 + }, + { + "epoch": 0.646784, + "grad_norm": 0.3048163652420044, + "learning_rate": 1.5688106666666666e-05, + "loss": 0.0104, + "step": 101060 + }, + { + "epoch": 0.646816, + "grad_norm": 0.6246410012245178, + "learning_rate": 1.5687893333333333e-05, + "loss": 0.0116, + "step": 101065 + }, + { + "epoch": 0.646848, + "grad_norm": 4.146832466125488, + "learning_rate": 1.568768e-05, + "loss": 0.0217, + "step": 101070 + }, + { + "epoch": 0.64688, + "grad_norm": 0.9355682730674744, + "learning_rate": 1.568746666666667e-05, + "loss": 0.0273, + "step": 101075 + }, + { + "epoch": 0.646912, + "grad_norm": 0.8302252292633057, + "learning_rate": 1.5687253333333336e-05, + "loss": 0.0078, + "step": 101080 + }, + { + "epoch": 0.646944, + "grad_norm": 1.1206156015396118, + "learning_rate": 1.5687040000000004e-05, + "loss": 0.028, + "step": 101085 + }, + { + "epoch": 0.646976, + "grad_norm": 0.05236388370394707, + "learning_rate": 1.5686826666666668e-05, + "loss": 0.0088, + "step": 101090 + }, + { + "epoch": 0.647008, + "grad_norm": 0.07237815856933594, + "learning_rate": 1.5686613333333335e-05, + "loss": 0.0211, + "step": 101095 + }, + { + "epoch": 0.64704, + "grad_norm": 0.42425069212913513, + "learning_rate": 1.5686400000000003e-05, + "loss": 0.0127, + "step": 101100 + }, + { + "epoch": 0.647072, + "grad_norm": 0.13748863339424133, + "learning_rate": 1.5686186666666667e-05, + "loss": 0.0058, + "step": 101105 + }, + { + "epoch": 0.647104, + "grad_norm": 1.191109538078308, + "learning_rate": 1.5685973333333335e-05, + "loss": 0.0203, + "step": 101110 + }, + { + "epoch": 0.647136, + "grad_norm": 0.2075386643409729, + "learning_rate": 1.5685760000000002e-05, + "loss": 0.0054, + "step": 101115 + }, + { + "epoch": 0.647168, + "grad_norm": 0.7898874878883362, + "learning_rate": 1.568554666666667e-05, + "loss": 0.0084, + "step": 101120 + }, + { + "epoch": 0.6472, + "grad_norm": 0.8791306018829346, + "learning_rate": 1.5685333333333334e-05, + "loss": 0.0175, + "step": 101125 + }, + { + "epoch": 0.647232, + "grad_norm": 0.42267295718193054, + "learning_rate": 1.568512e-05, + "loss": 0.0128, + "step": 101130 + }, + { + "epoch": 0.647264, + "grad_norm": 0.74322110414505, + "learning_rate": 1.568490666666667e-05, + "loss": 0.0237, + "step": 101135 + }, + { + "epoch": 0.647296, + "grad_norm": 0.8211914300918579, + "learning_rate": 1.5684693333333333e-05, + "loss": 0.0139, + "step": 101140 + }, + { + "epoch": 0.647328, + "grad_norm": 0.04312815144658089, + "learning_rate": 1.568448e-05, + "loss": 0.0179, + "step": 101145 + }, + { + "epoch": 0.64736, + "grad_norm": 2.7243363857269287, + "learning_rate": 1.5684266666666668e-05, + "loss": 0.0077, + "step": 101150 + }, + { + "epoch": 0.647392, + "grad_norm": 0.2642699182033539, + "learning_rate": 1.5684053333333336e-05, + "loss": 0.0047, + "step": 101155 + }, + { + "epoch": 0.647424, + "grad_norm": 0.5746487975120544, + "learning_rate": 1.568384e-05, + "loss": 0.0235, + "step": 101160 + }, + { + "epoch": 0.647456, + "grad_norm": 1.5273337364196777, + "learning_rate": 1.5683626666666667e-05, + "loss": 0.0159, + "step": 101165 + }, + { + "epoch": 0.647488, + "grad_norm": 0.7673177123069763, + "learning_rate": 1.5683413333333335e-05, + "loss": 0.0121, + "step": 101170 + }, + { + "epoch": 0.64752, + "grad_norm": 0.5024123191833496, + "learning_rate": 1.56832e-05, + "loss": 0.0305, + "step": 101175 + }, + { + "epoch": 0.647552, + "grad_norm": 0.8562350869178772, + "learning_rate": 1.568298666666667e-05, + "loss": 0.0126, + "step": 101180 + }, + { + "epoch": 0.647584, + "grad_norm": 1.2166872024536133, + "learning_rate": 1.5682773333333334e-05, + "loss": 0.0354, + "step": 101185 + }, + { + "epoch": 0.647616, + "grad_norm": 0.48551249504089355, + "learning_rate": 1.5682560000000002e-05, + "loss": 0.0179, + "step": 101190 + }, + { + "epoch": 0.647648, + "grad_norm": 0.9064130187034607, + "learning_rate": 1.568234666666667e-05, + "loss": 0.0214, + "step": 101195 + }, + { + "epoch": 0.64768, + "grad_norm": 0.4829513430595398, + "learning_rate": 1.5682133333333334e-05, + "loss": 0.0089, + "step": 101200 + }, + { + "epoch": 0.647712, + "grad_norm": 0.7197662591934204, + "learning_rate": 1.568192e-05, + "loss": 0.0218, + "step": 101205 + }, + { + "epoch": 0.647744, + "grad_norm": 0.19608403742313385, + "learning_rate": 1.568170666666667e-05, + "loss": 0.0231, + "step": 101210 + }, + { + "epoch": 0.647776, + "grad_norm": 0.39351364970207214, + "learning_rate": 1.5681493333333336e-05, + "loss": 0.0057, + "step": 101215 + }, + { + "epoch": 0.647808, + "grad_norm": 0.1747402548789978, + "learning_rate": 1.568128e-05, + "loss": 0.0026, + "step": 101220 + }, + { + "epoch": 0.64784, + "grad_norm": 1.6124242544174194, + "learning_rate": 1.5681066666666668e-05, + "loss": 0.0276, + "step": 101225 + }, + { + "epoch": 0.647872, + "grad_norm": 0.6368685364723206, + "learning_rate": 1.5680853333333336e-05, + "loss": 0.0259, + "step": 101230 + }, + { + "epoch": 0.647904, + "grad_norm": 0.9678460359573364, + "learning_rate": 1.568064e-05, + "loss": 0.0128, + "step": 101235 + }, + { + "epoch": 0.647936, + "grad_norm": 0.40511834621429443, + "learning_rate": 1.5680426666666667e-05, + "loss": 0.0284, + "step": 101240 + }, + { + "epoch": 0.647968, + "grad_norm": 0.6021729111671448, + "learning_rate": 1.5680213333333335e-05, + "loss": 0.0283, + "step": 101245 + }, + { + "epoch": 0.648, + "grad_norm": 0.12669092416763306, + "learning_rate": 1.5680000000000002e-05, + "loss": 0.0121, + "step": 101250 + }, + { + "epoch": 0.648032, + "grad_norm": 0.2906776964664459, + "learning_rate": 1.5679786666666667e-05, + "loss": 0.0147, + "step": 101255 + }, + { + "epoch": 0.648064, + "grad_norm": 0.24375031888484955, + "learning_rate": 1.5679573333333334e-05, + "loss": 0.0118, + "step": 101260 + }, + { + "epoch": 0.648096, + "grad_norm": 0.1891312301158905, + "learning_rate": 1.567936e-05, + "loss": 0.014, + "step": 101265 + }, + { + "epoch": 0.648128, + "grad_norm": 1.7674998044967651, + "learning_rate": 1.5679146666666666e-05, + "loss": 0.0141, + "step": 101270 + }, + { + "epoch": 0.64816, + "grad_norm": 0.8136289715766907, + "learning_rate": 1.5678933333333333e-05, + "loss": 0.0177, + "step": 101275 + }, + { + "epoch": 0.648192, + "grad_norm": 0.6611989140510559, + "learning_rate": 1.567872e-05, + "loss": 0.0103, + "step": 101280 + }, + { + "epoch": 0.648224, + "grad_norm": 0.541275143623352, + "learning_rate": 1.567850666666667e-05, + "loss": 0.0063, + "step": 101285 + }, + { + "epoch": 0.648256, + "grad_norm": 1.0383799076080322, + "learning_rate": 1.5678293333333333e-05, + "loss": 0.0082, + "step": 101290 + }, + { + "epoch": 0.648288, + "grad_norm": 0.6710258722305298, + "learning_rate": 1.5678080000000004e-05, + "loss": 0.0093, + "step": 101295 + }, + { + "epoch": 0.64832, + "grad_norm": 0.6422277092933655, + "learning_rate": 1.5677866666666668e-05, + "loss": 0.0196, + "step": 101300 + }, + { + "epoch": 0.648352, + "grad_norm": 0.44595518708229065, + "learning_rate": 1.5677653333333335e-05, + "loss": 0.0139, + "step": 101305 + }, + { + "epoch": 0.648384, + "grad_norm": 0.4010518491268158, + "learning_rate": 1.5677440000000003e-05, + "loss": 0.0123, + "step": 101310 + }, + { + "epoch": 0.648416, + "grad_norm": 0.2098376601934433, + "learning_rate": 1.5677226666666667e-05, + "loss": 0.0075, + "step": 101315 + }, + { + "epoch": 0.648448, + "grad_norm": 0.8154605031013489, + "learning_rate": 1.5677013333333335e-05, + "loss": 0.0188, + "step": 101320 + }, + { + "epoch": 0.64848, + "grad_norm": 0.24851879477500916, + "learning_rate": 1.5676800000000002e-05, + "loss": 0.0063, + "step": 101325 + }, + { + "epoch": 0.648512, + "grad_norm": 0.07899977266788483, + "learning_rate": 1.567658666666667e-05, + "loss": 0.0081, + "step": 101330 + }, + { + "epoch": 0.648544, + "grad_norm": 0.3367694616317749, + "learning_rate": 1.5676373333333334e-05, + "loss": 0.0096, + "step": 101335 + }, + { + "epoch": 0.648576, + "grad_norm": 0.706171452999115, + "learning_rate": 1.567616e-05, + "loss": 0.0088, + "step": 101340 + }, + { + "epoch": 0.648608, + "grad_norm": 1.2591644525527954, + "learning_rate": 1.567594666666667e-05, + "loss": 0.0171, + "step": 101345 + }, + { + "epoch": 0.64864, + "grad_norm": 0.8343570828437805, + "learning_rate": 1.5675733333333333e-05, + "loss": 0.0228, + "step": 101350 + }, + { + "epoch": 0.648672, + "grad_norm": 0.2537092864513397, + "learning_rate": 1.567552e-05, + "loss": 0.0065, + "step": 101355 + }, + { + "epoch": 0.648704, + "grad_norm": 0.055437687784433365, + "learning_rate": 1.5675306666666668e-05, + "loss": 0.0237, + "step": 101360 + }, + { + "epoch": 0.648736, + "grad_norm": 2.5414421558380127, + "learning_rate": 1.5675093333333336e-05, + "loss": 0.0191, + "step": 101365 + }, + { + "epoch": 0.648768, + "grad_norm": 0.06155730411410332, + "learning_rate": 1.567488e-05, + "loss": 0.0052, + "step": 101370 + }, + { + "epoch": 0.6488, + "grad_norm": 0.5449173450469971, + "learning_rate": 1.5674666666666667e-05, + "loss": 0.0038, + "step": 101375 + }, + { + "epoch": 0.648832, + "grad_norm": 0.4584362804889679, + "learning_rate": 1.5674453333333335e-05, + "loss": 0.0118, + "step": 101380 + }, + { + "epoch": 0.648864, + "grad_norm": 0.1949554979801178, + "learning_rate": 1.567424e-05, + "loss": 0.0122, + "step": 101385 + }, + { + "epoch": 0.648896, + "grad_norm": 0.4088701605796814, + "learning_rate": 1.567402666666667e-05, + "loss": 0.0076, + "step": 101390 + }, + { + "epoch": 0.648928, + "grad_norm": 0.6019644737243652, + "learning_rate": 1.5673813333333334e-05, + "loss": 0.0162, + "step": 101395 + }, + { + "epoch": 0.64896, + "grad_norm": 1.5972340106964111, + "learning_rate": 1.5673600000000002e-05, + "loss": 0.0196, + "step": 101400 + }, + { + "epoch": 0.648992, + "grad_norm": 0.614240825176239, + "learning_rate": 1.567338666666667e-05, + "loss": 0.0134, + "step": 101405 + }, + { + "epoch": 0.649024, + "grad_norm": 0.06675073504447937, + "learning_rate": 1.5673173333333334e-05, + "loss": 0.0038, + "step": 101410 + }, + { + "epoch": 0.649056, + "grad_norm": 0.30807310342788696, + "learning_rate": 1.567296e-05, + "loss": 0.0359, + "step": 101415 + }, + { + "epoch": 0.649088, + "grad_norm": 0.22327080368995667, + "learning_rate": 1.567274666666667e-05, + "loss": 0.0159, + "step": 101420 + }, + { + "epoch": 0.64912, + "grad_norm": 0.23530270159244537, + "learning_rate": 1.5672533333333336e-05, + "loss": 0.0188, + "step": 101425 + }, + { + "epoch": 0.649152, + "grad_norm": 0.28837454319000244, + "learning_rate": 1.567232e-05, + "loss": 0.01, + "step": 101430 + }, + { + "epoch": 0.649184, + "grad_norm": 0.314688503742218, + "learning_rate": 1.5672106666666668e-05, + "loss": 0.0324, + "step": 101435 + }, + { + "epoch": 0.649216, + "grad_norm": 0.6945244073867798, + "learning_rate": 1.5671893333333336e-05, + "loss": 0.0133, + "step": 101440 + }, + { + "epoch": 0.649248, + "grad_norm": 0.9392558932304382, + "learning_rate": 1.567168e-05, + "loss": 0.0137, + "step": 101445 + }, + { + "epoch": 0.64928, + "grad_norm": 0.8001696467399597, + "learning_rate": 1.5671466666666667e-05, + "loss": 0.0055, + "step": 101450 + }, + { + "epoch": 0.649312, + "grad_norm": 0.058453336358070374, + "learning_rate": 1.5671253333333335e-05, + "loss": 0.0134, + "step": 101455 + }, + { + "epoch": 0.649344, + "grad_norm": 0.6991164088249207, + "learning_rate": 1.5671040000000002e-05, + "loss": 0.0114, + "step": 101460 + }, + { + "epoch": 0.649376, + "grad_norm": 0.19061174988746643, + "learning_rate": 1.5670826666666667e-05, + "loss": 0.011, + "step": 101465 + }, + { + "epoch": 0.649408, + "grad_norm": 0.5114729404449463, + "learning_rate": 1.5670613333333334e-05, + "loss": 0.0179, + "step": 101470 + }, + { + "epoch": 0.64944, + "grad_norm": 0.6015409231185913, + "learning_rate": 1.56704e-05, + "loss": 0.0203, + "step": 101475 + }, + { + "epoch": 0.649472, + "grad_norm": 0.23194831609725952, + "learning_rate": 1.5670186666666666e-05, + "loss": 0.0142, + "step": 101480 + }, + { + "epoch": 0.649504, + "grad_norm": 0.6765583157539368, + "learning_rate": 1.5669973333333333e-05, + "loss": 0.0063, + "step": 101485 + }, + { + "epoch": 0.649536, + "grad_norm": 0.5678910613059998, + "learning_rate": 1.566976e-05, + "loss": 0.0219, + "step": 101490 + }, + { + "epoch": 0.649568, + "grad_norm": 3.761366367340088, + "learning_rate": 1.566954666666667e-05, + "loss": 0.0846, + "step": 101495 + }, + { + "epoch": 0.6496, + "grad_norm": 0.8104605674743652, + "learning_rate": 1.5669333333333333e-05, + "loss": 0.0133, + "step": 101500 + }, + { + "epoch": 0.649632, + "grad_norm": 1.3238929510116577, + "learning_rate": 1.5669120000000004e-05, + "loss": 0.0168, + "step": 101505 + }, + { + "epoch": 0.649664, + "grad_norm": 0.35946083068847656, + "learning_rate": 1.5668906666666668e-05, + "loss": 0.0068, + "step": 101510 + }, + { + "epoch": 0.649696, + "grad_norm": 0.9200698137283325, + "learning_rate": 1.5668693333333332e-05, + "loss": 0.0107, + "step": 101515 + }, + { + "epoch": 0.649728, + "grad_norm": 0.42601537704467773, + "learning_rate": 1.5668480000000003e-05, + "loss": 0.0048, + "step": 101520 + }, + { + "epoch": 0.64976, + "grad_norm": 1.0456030368804932, + "learning_rate": 1.5668266666666667e-05, + "loss": 0.0167, + "step": 101525 + }, + { + "epoch": 0.649792, + "grad_norm": 0.5197963118553162, + "learning_rate": 1.5668053333333335e-05, + "loss": 0.0097, + "step": 101530 + }, + { + "epoch": 0.649824, + "grad_norm": 0.49024319648742676, + "learning_rate": 1.5667840000000002e-05, + "loss": 0.0097, + "step": 101535 + }, + { + "epoch": 0.649856, + "grad_norm": 0.6759063601493835, + "learning_rate": 1.566762666666667e-05, + "loss": 0.0205, + "step": 101540 + }, + { + "epoch": 0.649888, + "grad_norm": 0.0390373058617115, + "learning_rate": 1.5667413333333334e-05, + "loss": 0.017, + "step": 101545 + }, + { + "epoch": 0.64992, + "grad_norm": 0.17459051311016083, + "learning_rate": 1.56672e-05, + "loss": 0.0153, + "step": 101550 + }, + { + "epoch": 0.649952, + "grad_norm": 0.2728390395641327, + "learning_rate": 1.566698666666667e-05, + "loss": 0.0125, + "step": 101555 + }, + { + "epoch": 0.649984, + "grad_norm": 1.0362244844436646, + "learning_rate": 1.5666773333333333e-05, + "loss": 0.014, + "step": 101560 + }, + { + "epoch": 0.650016, + "grad_norm": 0.3479287326335907, + "learning_rate": 1.566656e-05, + "loss": 0.0316, + "step": 101565 + }, + { + "epoch": 0.650048, + "grad_norm": 0.23083657026290894, + "learning_rate": 1.5666346666666668e-05, + "loss": 0.0078, + "step": 101570 + }, + { + "epoch": 0.65008, + "grad_norm": 0.6481449007987976, + "learning_rate": 1.5666133333333336e-05, + "loss": 0.0112, + "step": 101575 + }, + { + "epoch": 0.650112, + "grad_norm": 0.6807597279548645, + "learning_rate": 1.566592e-05, + "loss": 0.0229, + "step": 101580 + }, + { + "epoch": 0.650144, + "grad_norm": 0.28100430965423584, + "learning_rate": 1.5665706666666667e-05, + "loss": 0.0171, + "step": 101585 + }, + { + "epoch": 0.650176, + "grad_norm": 0.3758953809738159, + "learning_rate": 1.5665493333333335e-05, + "loss": 0.0089, + "step": 101590 + }, + { + "epoch": 0.650208, + "grad_norm": 0.3758058547973633, + "learning_rate": 1.566528e-05, + "loss": 0.0142, + "step": 101595 + }, + { + "epoch": 0.65024, + "grad_norm": 0.4246865510940552, + "learning_rate": 1.5665066666666667e-05, + "loss": 0.0069, + "step": 101600 + }, + { + "epoch": 0.650272, + "grad_norm": 0.6668639779090881, + "learning_rate": 1.5664853333333334e-05, + "loss": 0.0236, + "step": 101605 + }, + { + "epoch": 0.650304, + "grad_norm": 0.10010747611522675, + "learning_rate": 1.5664640000000002e-05, + "loss": 0.0197, + "step": 101610 + }, + { + "epoch": 0.650336, + "grad_norm": 1.2463256120681763, + "learning_rate": 1.566442666666667e-05, + "loss": 0.0131, + "step": 101615 + }, + { + "epoch": 0.650368, + "grad_norm": 0.3366239368915558, + "learning_rate": 1.5664213333333337e-05, + "loss": 0.0285, + "step": 101620 + }, + { + "epoch": 0.6504, + "grad_norm": 0.05543167516589165, + "learning_rate": 1.5664e-05, + "loss": 0.0164, + "step": 101625 + }, + { + "epoch": 0.650432, + "grad_norm": 1.2622627019882202, + "learning_rate": 1.566378666666667e-05, + "loss": 0.0247, + "step": 101630 + }, + { + "epoch": 0.650464, + "grad_norm": 0.21656079590320587, + "learning_rate": 1.5663573333333336e-05, + "loss": 0.0104, + "step": 101635 + }, + { + "epoch": 0.650496, + "grad_norm": 0.6466637849807739, + "learning_rate": 1.566336e-05, + "loss": 0.0121, + "step": 101640 + }, + { + "epoch": 0.650528, + "grad_norm": 0.10372057557106018, + "learning_rate": 1.5663146666666668e-05, + "loss": 0.0073, + "step": 101645 + }, + { + "epoch": 0.65056, + "grad_norm": 1.730312466621399, + "learning_rate": 1.5662933333333336e-05, + "loss": 0.0129, + "step": 101650 + }, + { + "epoch": 0.650592, + "grad_norm": 1.4142521619796753, + "learning_rate": 1.5662720000000003e-05, + "loss": 0.0143, + "step": 101655 + }, + { + "epoch": 0.650624, + "grad_norm": 0.03142426162958145, + "learning_rate": 1.5662506666666667e-05, + "loss": 0.0138, + "step": 101660 + }, + { + "epoch": 0.650656, + "grad_norm": 0.1956934630870819, + "learning_rate": 1.5662293333333335e-05, + "loss": 0.0029, + "step": 101665 + }, + { + "epoch": 0.650688, + "grad_norm": 0.525882363319397, + "learning_rate": 1.5662080000000002e-05, + "loss": 0.0076, + "step": 101670 + }, + { + "epoch": 0.65072, + "grad_norm": 0.5354093313217163, + "learning_rate": 1.5661866666666667e-05, + "loss": 0.0143, + "step": 101675 + }, + { + "epoch": 0.650752, + "grad_norm": 0.8684264421463013, + "learning_rate": 1.5661653333333334e-05, + "loss": 0.0052, + "step": 101680 + }, + { + "epoch": 0.650784, + "grad_norm": 1.3779652118682861, + "learning_rate": 1.566144e-05, + "loss": 0.0166, + "step": 101685 + }, + { + "epoch": 0.650816, + "grad_norm": 0.3552555739879608, + "learning_rate": 1.566122666666667e-05, + "loss": 0.005, + "step": 101690 + }, + { + "epoch": 0.650848, + "grad_norm": 0.854676365852356, + "learning_rate": 1.5661013333333333e-05, + "loss": 0.0142, + "step": 101695 + }, + { + "epoch": 0.65088, + "grad_norm": 0.7004010081291199, + "learning_rate": 1.56608e-05, + "loss": 0.0245, + "step": 101700 + }, + { + "epoch": 0.650912, + "grad_norm": 1.3156300783157349, + "learning_rate": 1.566058666666667e-05, + "loss": 0.0262, + "step": 101705 + }, + { + "epoch": 0.650944, + "grad_norm": 0.3391983211040497, + "learning_rate": 1.5660373333333333e-05, + "loss": 0.007, + "step": 101710 + }, + { + "epoch": 0.650976, + "grad_norm": 0.5243371725082397, + "learning_rate": 1.5660160000000004e-05, + "loss": 0.0204, + "step": 101715 + }, + { + "epoch": 0.651008, + "grad_norm": 0.3337378203868866, + "learning_rate": 1.5659946666666668e-05, + "loss": 0.0111, + "step": 101720 + }, + { + "epoch": 0.65104, + "grad_norm": 0.8933824300765991, + "learning_rate": 1.5659733333333335e-05, + "loss": 0.0169, + "step": 101725 + }, + { + "epoch": 0.651072, + "grad_norm": 0.8382242321968079, + "learning_rate": 1.5659520000000003e-05, + "loss": 0.0208, + "step": 101730 + }, + { + "epoch": 0.651104, + "grad_norm": 0.14706532657146454, + "learning_rate": 1.5659306666666667e-05, + "loss": 0.0102, + "step": 101735 + }, + { + "epoch": 0.651136, + "grad_norm": 3.6878013610839844, + "learning_rate": 1.5659093333333335e-05, + "loss": 0.0094, + "step": 101740 + }, + { + "epoch": 0.651168, + "grad_norm": 0.31334733963012695, + "learning_rate": 1.5658880000000002e-05, + "loss": 0.0141, + "step": 101745 + }, + { + "epoch": 0.6512, + "grad_norm": 0.40829944610595703, + "learning_rate": 1.565866666666667e-05, + "loss": 0.0217, + "step": 101750 + }, + { + "epoch": 0.651232, + "grad_norm": 0.8446263074874878, + "learning_rate": 1.5658453333333334e-05, + "loss": 0.0185, + "step": 101755 + }, + { + "epoch": 0.651264, + "grad_norm": 0.5240735411643982, + "learning_rate": 1.565824e-05, + "loss": 0.0162, + "step": 101760 + }, + { + "epoch": 0.651296, + "grad_norm": 0.5591540336608887, + "learning_rate": 1.565802666666667e-05, + "loss": 0.0128, + "step": 101765 + }, + { + "epoch": 0.651328, + "grad_norm": 1.0644748210906982, + "learning_rate": 1.5657813333333333e-05, + "loss": 0.0104, + "step": 101770 + }, + { + "epoch": 0.65136, + "grad_norm": 0.6959215998649597, + "learning_rate": 1.56576e-05, + "loss": 0.0107, + "step": 101775 + }, + { + "epoch": 0.651392, + "grad_norm": 0.7390925288200378, + "learning_rate": 1.5657386666666668e-05, + "loss": 0.0245, + "step": 101780 + }, + { + "epoch": 0.651424, + "grad_norm": 1.6188883781433105, + "learning_rate": 1.5657173333333336e-05, + "loss": 0.0326, + "step": 101785 + }, + { + "epoch": 0.651456, + "grad_norm": 0.4912339448928833, + "learning_rate": 1.565696e-05, + "loss": 0.0187, + "step": 101790 + }, + { + "epoch": 0.651488, + "grad_norm": 0.3935319185256958, + "learning_rate": 1.5656746666666667e-05, + "loss": 0.0152, + "step": 101795 + }, + { + "epoch": 0.65152, + "grad_norm": 1.0433087348937988, + "learning_rate": 1.5656533333333335e-05, + "loss": 0.0114, + "step": 101800 + }, + { + "epoch": 0.651552, + "grad_norm": 0.7150837779045105, + "learning_rate": 1.565632e-05, + "loss": 0.0079, + "step": 101805 + }, + { + "epoch": 0.651584, + "grad_norm": 0.45171868801116943, + "learning_rate": 1.5656106666666667e-05, + "loss": 0.0257, + "step": 101810 + }, + { + "epoch": 0.651616, + "grad_norm": 0.10450155287981033, + "learning_rate": 1.5655893333333334e-05, + "loss": 0.025, + "step": 101815 + }, + { + "epoch": 0.651648, + "grad_norm": 0.5297490358352661, + "learning_rate": 1.5655680000000002e-05, + "loss": 0.0077, + "step": 101820 + }, + { + "epoch": 0.65168, + "grad_norm": 0.455729603767395, + "learning_rate": 1.5655466666666666e-05, + "loss": 0.0134, + "step": 101825 + }, + { + "epoch": 0.651712, + "grad_norm": 0.05306924879550934, + "learning_rate": 1.5655253333333337e-05, + "loss": 0.0056, + "step": 101830 + }, + { + "epoch": 0.651744, + "grad_norm": 0.27085673809051514, + "learning_rate": 1.565504e-05, + "loss": 0.0103, + "step": 101835 + }, + { + "epoch": 0.651776, + "grad_norm": 0.7614977359771729, + "learning_rate": 1.565482666666667e-05, + "loss": 0.0127, + "step": 101840 + }, + { + "epoch": 0.651808, + "grad_norm": 1.778058409690857, + "learning_rate": 1.5654613333333336e-05, + "loss": 0.032, + "step": 101845 + }, + { + "epoch": 0.65184, + "grad_norm": 0.6517274379730225, + "learning_rate": 1.56544e-05, + "loss": 0.009, + "step": 101850 + }, + { + "epoch": 0.651872, + "grad_norm": 0.26796993613243103, + "learning_rate": 1.5654186666666668e-05, + "loss": 0.0101, + "step": 101855 + }, + { + "epoch": 0.651904, + "grad_norm": 0.2906074523925781, + "learning_rate": 1.5653973333333336e-05, + "loss": 0.008, + "step": 101860 + }, + { + "epoch": 0.651936, + "grad_norm": 0.27648937702178955, + "learning_rate": 1.5653760000000003e-05, + "loss": 0.0161, + "step": 101865 + }, + { + "epoch": 0.651968, + "grad_norm": 0.09204458445310593, + "learning_rate": 1.5653546666666667e-05, + "loss": 0.0238, + "step": 101870 + }, + { + "epoch": 0.652, + "grad_norm": 1.6572617292404175, + "learning_rate": 1.5653333333333335e-05, + "loss": 0.0287, + "step": 101875 + }, + { + "epoch": 0.652032, + "grad_norm": 0.07562887668609619, + "learning_rate": 1.5653120000000002e-05, + "loss": 0.0062, + "step": 101880 + }, + { + "epoch": 0.652064, + "grad_norm": 0.2361849844455719, + "learning_rate": 1.5652906666666667e-05, + "loss": 0.0251, + "step": 101885 + }, + { + "epoch": 0.652096, + "grad_norm": 0.2362460196018219, + "learning_rate": 1.5652693333333334e-05, + "loss": 0.0097, + "step": 101890 + }, + { + "epoch": 0.652128, + "grad_norm": 0.28266385197639465, + "learning_rate": 1.565248e-05, + "loss": 0.0134, + "step": 101895 + }, + { + "epoch": 0.65216, + "grad_norm": 0.273588627576828, + "learning_rate": 1.565226666666667e-05, + "loss": 0.0087, + "step": 101900 + }, + { + "epoch": 0.652192, + "grad_norm": 0.43139398097991943, + "learning_rate": 1.5652053333333333e-05, + "loss": 0.0212, + "step": 101905 + }, + { + "epoch": 0.652224, + "grad_norm": 0.6103140711784363, + "learning_rate": 1.565184e-05, + "loss": 0.011, + "step": 101910 + }, + { + "epoch": 0.652256, + "grad_norm": 0.33627399802207947, + "learning_rate": 1.565162666666667e-05, + "loss": 0.0326, + "step": 101915 + }, + { + "epoch": 0.652288, + "grad_norm": 0.5088798999786377, + "learning_rate": 1.5651413333333333e-05, + "loss": 0.0114, + "step": 101920 + }, + { + "epoch": 0.65232, + "grad_norm": 0.22039256989955902, + "learning_rate": 1.5651200000000004e-05, + "loss": 0.0082, + "step": 101925 + }, + { + "epoch": 0.652352, + "grad_norm": 1.2207177877426147, + "learning_rate": 1.5650986666666668e-05, + "loss": 0.0339, + "step": 101930 + }, + { + "epoch": 0.652384, + "grad_norm": 1.0466309785842896, + "learning_rate": 1.5650773333333335e-05, + "loss": 0.0185, + "step": 101935 + }, + { + "epoch": 0.652416, + "grad_norm": 0.5093215703964233, + "learning_rate": 1.5650560000000003e-05, + "loss": 0.0057, + "step": 101940 + }, + { + "epoch": 0.652448, + "grad_norm": 0.508733332157135, + "learning_rate": 1.5650346666666667e-05, + "loss": 0.0199, + "step": 101945 + }, + { + "epoch": 0.65248, + "grad_norm": 1.0302709341049194, + "learning_rate": 1.5650133333333335e-05, + "loss": 0.0271, + "step": 101950 + }, + { + "epoch": 0.652512, + "grad_norm": 0.5530356168746948, + "learning_rate": 1.5649920000000002e-05, + "loss": 0.012, + "step": 101955 + }, + { + "epoch": 0.652544, + "grad_norm": 0.7787180542945862, + "learning_rate": 1.564970666666667e-05, + "loss": 0.0125, + "step": 101960 + }, + { + "epoch": 0.652576, + "grad_norm": 0.12606078386306763, + "learning_rate": 1.5649493333333334e-05, + "loss": 0.0182, + "step": 101965 + }, + { + "epoch": 0.652608, + "grad_norm": 1.3680304288864136, + "learning_rate": 1.564928e-05, + "loss": 0.0152, + "step": 101970 + }, + { + "epoch": 0.65264, + "grad_norm": 1.0223807096481323, + "learning_rate": 1.564906666666667e-05, + "loss": 0.0124, + "step": 101975 + }, + { + "epoch": 0.652672, + "grad_norm": 0.10994791239500046, + "learning_rate": 1.5648853333333333e-05, + "loss": 0.0088, + "step": 101980 + }, + { + "epoch": 0.652704, + "grad_norm": 1.0071609020233154, + "learning_rate": 1.564864e-05, + "loss": 0.0163, + "step": 101985 + }, + { + "epoch": 0.652736, + "grad_norm": 1.0992351770401, + "learning_rate": 1.5648426666666668e-05, + "loss": 0.0185, + "step": 101990 + }, + { + "epoch": 0.652768, + "grad_norm": 0.424509733915329, + "learning_rate": 1.5648213333333336e-05, + "loss": 0.0231, + "step": 101995 + }, + { + "epoch": 0.6528, + "grad_norm": 0.2277984768152237, + "learning_rate": 1.5648e-05, + "loss": 0.0205, + "step": 102000 + }, + { + "epoch": 0.652832, + "grad_norm": 0.6019077897071838, + "learning_rate": 1.5647786666666667e-05, + "loss": 0.0065, + "step": 102005 + }, + { + "epoch": 0.652864, + "grad_norm": 0.7370211482048035, + "learning_rate": 1.5647573333333335e-05, + "loss": 0.0099, + "step": 102010 + }, + { + "epoch": 0.652896, + "grad_norm": 0.3480621874332428, + "learning_rate": 1.564736e-05, + "loss": 0.0124, + "step": 102015 + }, + { + "epoch": 0.652928, + "grad_norm": 0.1330694705247879, + "learning_rate": 1.5647146666666667e-05, + "loss": 0.0101, + "step": 102020 + }, + { + "epoch": 0.65296, + "grad_norm": 0.4054729640483856, + "learning_rate": 1.5646933333333334e-05, + "loss": 0.0067, + "step": 102025 + }, + { + "epoch": 0.652992, + "grad_norm": 0.39285579323768616, + "learning_rate": 1.5646720000000002e-05, + "loss": 0.0183, + "step": 102030 + }, + { + "epoch": 0.653024, + "grad_norm": 0.578174352645874, + "learning_rate": 1.5646506666666666e-05, + "loss": 0.0166, + "step": 102035 + }, + { + "epoch": 0.653056, + "grad_norm": 0.42228519916534424, + "learning_rate": 1.5646293333333337e-05, + "loss": 0.0156, + "step": 102040 + }, + { + "epoch": 0.653088, + "grad_norm": 0.5504369735717773, + "learning_rate": 1.564608e-05, + "loss": 0.013, + "step": 102045 + }, + { + "epoch": 0.65312, + "grad_norm": 0.6688588261604309, + "learning_rate": 1.5645866666666665e-05, + "loss": 0.0145, + "step": 102050 + }, + { + "epoch": 0.653152, + "grad_norm": 0.11550416797399521, + "learning_rate": 1.5645653333333336e-05, + "loss": 0.0061, + "step": 102055 + }, + { + "epoch": 0.653184, + "grad_norm": 0.5037559866905212, + "learning_rate": 1.564544e-05, + "loss": 0.0099, + "step": 102060 + }, + { + "epoch": 0.653216, + "grad_norm": 0.08106310665607452, + "learning_rate": 1.5645226666666668e-05, + "loss": 0.0111, + "step": 102065 + }, + { + "epoch": 0.653248, + "grad_norm": 0.49749326705932617, + "learning_rate": 1.5645013333333336e-05, + "loss": 0.0096, + "step": 102070 + }, + { + "epoch": 0.65328, + "grad_norm": 1.0520806312561035, + "learning_rate": 1.5644800000000003e-05, + "loss": 0.037, + "step": 102075 + }, + { + "epoch": 0.653312, + "grad_norm": 1.4236561059951782, + "learning_rate": 1.5644586666666667e-05, + "loss": 0.0422, + "step": 102080 + }, + { + "epoch": 0.653344, + "grad_norm": 0.1749752014875412, + "learning_rate": 1.5644373333333335e-05, + "loss": 0.0139, + "step": 102085 + }, + { + "epoch": 0.653376, + "grad_norm": 1.4401493072509766, + "learning_rate": 1.5644160000000002e-05, + "loss": 0.0161, + "step": 102090 + }, + { + "epoch": 0.653408, + "grad_norm": 0.2796435058116913, + "learning_rate": 1.5643946666666667e-05, + "loss": 0.0112, + "step": 102095 + }, + { + "epoch": 0.65344, + "grad_norm": 0.46072110533714294, + "learning_rate": 1.5643733333333334e-05, + "loss": 0.035, + "step": 102100 + }, + { + "epoch": 0.653472, + "grad_norm": 0.5993375778198242, + "learning_rate": 1.564352e-05, + "loss": 0.0097, + "step": 102105 + }, + { + "epoch": 0.653504, + "grad_norm": 0.8022689819335938, + "learning_rate": 1.564330666666667e-05, + "loss": 0.011, + "step": 102110 + }, + { + "epoch": 0.653536, + "grad_norm": 0.20315515995025635, + "learning_rate": 1.5643093333333333e-05, + "loss": 0.0098, + "step": 102115 + }, + { + "epoch": 0.653568, + "grad_norm": 0.10645877569913864, + "learning_rate": 1.564288e-05, + "loss": 0.0108, + "step": 102120 + }, + { + "epoch": 0.6536, + "grad_norm": 0.03509945422410965, + "learning_rate": 1.564266666666667e-05, + "loss": 0.0191, + "step": 102125 + }, + { + "epoch": 0.653632, + "grad_norm": 0.7357134819030762, + "learning_rate": 1.5642453333333333e-05, + "loss": 0.0099, + "step": 102130 + }, + { + "epoch": 0.653664, + "grad_norm": 0.5939499139785767, + "learning_rate": 1.564224e-05, + "loss": 0.0121, + "step": 102135 + }, + { + "epoch": 0.653696, + "grad_norm": 0.7506416440010071, + "learning_rate": 1.5642026666666668e-05, + "loss": 0.0137, + "step": 102140 + }, + { + "epoch": 0.653728, + "grad_norm": 0.5365375280380249, + "learning_rate": 1.5641813333333335e-05, + "loss": 0.006, + "step": 102145 + }, + { + "epoch": 0.65376, + "grad_norm": 0.6805958151817322, + "learning_rate": 1.5641600000000003e-05, + "loss": 0.01, + "step": 102150 + }, + { + "epoch": 0.653792, + "grad_norm": 0.9060679078102112, + "learning_rate": 1.5641386666666667e-05, + "loss": 0.0099, + "step": 102155 + }, + { + "epoch": 0.653824, + "grad_norm": 0.17251268029212952, + "learning_rate": 1.5641173333333335e-05, + "loss": 0.0072, + "step": 102160 + }, + { + "epoch": 0.653856, + "grad_norm": 0.36808228492736816, + "learning_rate": 1.5640960000000002e-05, + "loss": 0.0131, + "step": 102165 + }, + { + "epoch": 0.653888, + "grad_norm": 0.7258473038673401, + "learning_rate": 1.564074666666667e-05, + "loss": 0.0156, + "step": 102170 + }, + { + "epoch": 0.65392, + "grad_norm": 0.8816245794296265, + "learning_rate": 1.5640533333333334e-05, + "loss": 0.0075, + "step": 102175 + }, + { + "epoch": 0.653952, + "grad_norm": 1.0080012083053589, + "learning_rate": 1.564032e-05, + "loss": 0.0106, + "step": 102180 + }, + { + "epoch": 0.653984, + "grad_norm": 0.2596014142036438, + "learning_rate": 1.564010666666667e-05, + "loss": 0.01, + "step": 102185 + }, + { + "epoch": 0.654016, + "grad_norm": 0.1528714895248413, + "learning_rate": 1.5639893333333333e-05, + "loss": 0.008, + "step": 102190 + }, + { + "epoch": 0.654048, + "grad_norm": 0.2875244915485382, + "learning_rate": 1.563968e-05, + "loss": 0.025, + "step": 102195 + }, + { + "epoch": 0.65408, + "grad_norm": 0.6912077069282532, + "learning_rate": 1.5639466666666668e-05, + "loss": 0.0191, + "step": 102200 + }, + { + "epoch": 0.654112, + "grad_norm": 0.5929685235023499, + "learning_rate": 1.5639253333333336e-05, + "loss": 0.0117, + "step": 102205 + }, + { + "epoch": 0.654144, + "grad_norm": 0.4508861005306244, + "learning_rate": 1.563904e-05, + "loss": 0.0048, + "step": 102210 + }, + { + "epoch": 0.654176, + "grad_norm": 1.2430119514465332, + "learning_rate": 1.5638826666666667e-05, + "loss": 0.0095, + "step": 102215 + }, + { + "epoch": 0.654208, + "grad_norm": 0.09005799144506454, + "learning_rate": 1.5638613333333335e-05, + "loss": 0.0096, + "step": 102220 + }, + { + "epoch": 0.65424, + "grad_norm": 0.43817463517189026, + "learning_rate": 1.56384e-05, + "loss": 0.0086, + "step": 102225 + }, + { + "epoch": 0.654272, + "grad_norm": 0.34063076972961426, + "learning_rate": 1.5638186666666667e-05, + "loss": 0.0214, + "step": 102230 + }, + { + "epoch": 0.654304, + "grad_norm": 1.627334475517273, + "learning_rate": 1.5637973333333334e-05, + "loss": 0.0387, + "step": 102235 + }, + { + "epoch": 0.654336, + "grad_norm": 0.1286676675081253, + "learning_rate": 1.5637760000000002e-05, + "loss": 0.0055, + "step": 102240 + }, + { + "epoch": 0.654368, + "grad_norm": 0.5947828888893127, + "learning_rate": 1.5637546666666666e-05, + "loss": 0.0072, + "step": 102245 + }, + { + "epoch": 0.6544, + "grad_norm": 1.7877471446990967, + "learning_rate": 1.5637333333333337e-05, + "loss": 0.0135, + "step": 102250 + }, + { + "epoch": 0.654432, + "grad_norm": 0.3834191858768463, + "learning_rate": 1.563712e-05, + "loss": 0.0274, + "step": 102255 + }, + { + "epoch": 0.654464, + "grad_norm": 2.0752551555633545, + "learning_rate": 1.5636906666666665e-05, + "loss": 0.0093, + "step": 102260 + }, + { + "epoch": 0.654496, + "grad_norm": 0.23313434422016144, + "learning_rate": 1.5636693333333336e-05, + "loss": 0.0178, + "step": 102265 + }, + { + "epoch": 0.654528, + "grad_norm": 0.43749651312828064, + "learning_rate": 1.563648e-05, + "loss": 0.0102, + "step": 102270 + }, + { + "epoch": 0.65456, + "grad_norm": 0.9072876572608948, + "learning_rate": 1.5636266666666668e-05, + "loss": 0.0132, + "step": 102275 + }, + { + "epoch": 0.654592, + "grad_norm": 1.6272674798965454, + "learning_rate": 1.5636053333333336e-05, + "loss": 0.0167, + "step": 102280 + }, + { + "epoch": 0.654624, + "grad_norm": 0.9288020133972168, + "learning_rate": 1.5635840000000003e-05, + "loss": 0.0252, + "step": 102285 + }, + { + "epoch": 0.654656, + "grad_norm": 1.1286542415618896, + "learning_rate": 1.5635626666666667e-05, + "loss": 0.0212, + "step": 102290 + }, + { + "epoch": 0.654688, + "grad_norm": 1.5589607954025269, + "learning_rate": 1.5635413333333335e-05, + "loss": 0.0241, + "step": 102295 + }, + { + "epoch": 0.65472, + "grad_norm": 0.5503507852554321, + "learning_rate": 1.5635200000000002e-05, + "loss": 0.0141, + "step": 102300 + }, + { + "epoch": 0.654752, + "grad_norm": 0.7527374029159546, + "learning_rate": 1.5634986666666667e-05, + "loss": 0.0084, + "step": 102305 + }, + { + "epoch": 0.654784, + "grad_norm": 8.798739433288574, + "learning_rate": 1.5634773333333334e-05, + "loss": 0.042, + "step": 102310 + }, + { + "epoch": 0.654816, + "grad_norm": 0.22757668793201447, + "learning_rate": 1.563456e-05, + "loss": 0.0089, + "step": 102315 + }, + { + "epoch": 0.654848, + "grad_norm": 1.7562626600265503, + "learning_rate": 1.563434666666667e-05, + "loss": 0.0153, + "step": 102320 + }, + { + "epoch": 0.65488, + "grad_norm": 0.31857389211654663, + "learning_rate": 1.5634133333333333e-05, + "loss": 0.0104, + "step": 102325 + }, + { + "epoch": 0.654912, + "grad_norm": 0.828464925289154, + "learning_rate": 1.563392e-05, + "loss": 0.0132, + "step": 102330 + }, + { + "epoch": 0.654944, + "grad_norm": 0.6321501135826111, + "learning_rate": 1.563370666666667e-05, + "loss": 0.0323, + "step": 102335 + }, + { + "epoch": 0.654976, + "grad_norm": 0.5271966457366943, + "learning_rate": 1.5633493333333333e-05, + "loss": 0.029, + "step": 102340 + }, + { + "epoch": 0.655008, + "grad_norm": 0.5525974631309509, + "learning_rate": 1.563328e-05, + "loss": 0.0097, + "step": 102345 + }, + { + "epoch": 0.65504, + "grad_norm": 0.7578514218330383, + "learning_rate": 1.5633066666666668e-05, + "loss": 0.0225, + "step": 102350 + }, + { + "epoch": 0.655072, + "grad_norm": 0.8487861752510071, + "learning_rate": 1.5632853333333335e-05, + "loss": 0.0365, + "step": 102355 + }, + { + "epoch": 0.655104, + "grad_norm": 0.07829728722572327, + "learning_rate": 1.563264e-05, + "loss": 0.0115, + "step": 102360 + }, + { + "epoch": 0.655136, + "grad_norm": 0.3266678750514984, + "learning_rate": 1.5632426666666667e-05, + "loss": 0.0128, + "step": 102365 + }, + { + "epoch": 0.655168, + "grad_norm": 0.1669401228427887, + "learning_rate": 1.5632213333333335e-05, + "loss": 0.0078, + "step": 102370 + }, + { + "epoch": 0.6552, + "grad_norm": 0.2527223825454712, + "learning_rate": 1.5632000000000002e-05, + "loss": 0.0111, + "step": 102375 + }, + { + "epoch": 0.655232, + "grad_norm": 0.2794632613658905, + "learning_rate": 1.563178666666667e-05, + "loss": 0.0159, + "step": 102380 + }, + { + "epoch": 0.655264, + "grad_norm": 0.1208343356847763, + "learning_rate": 1.5631573333333334e-05, + "loss": 0.0118, + "step": 102385 + }, + { + "epoch": 0.655296, + "grad_norm": 0.7900546789169312, + "learning_rate": 1.563136e-05, + "loss": 0.0172, + "step": 102390 + }, + { + "epoch": 0.655328, + "grad_norm": 0.6208534240722656, + "learning_rate": 1.563114666666667e-05, + "loss": 0.0163, + "step": 102395 + }, + { + "epoch": 0.65536, + "grad_norm": 0.5981175899505615, + "learning_rate": 1.5630933333333333e-05, + "loss": 0.0202, + "step": 102400 + }, + { + "epoch": 0.655392, + "grad_norm": 0.6676075458526611, + "learning_rate": 1.563072e-05, + "loss": 0.0091, + "step": 102405 + }, + { + "epoch": 0.655424, + "grad_norm": 2.0374867916107178, + "learning_rate": 1.5630506666666668e-05, + "loss": 0.0188, + "step": 102410 + }, + { + "epoch": 0.655456, + "grad_norm": 0.5403698086738586, + "learning_rate": 1.5630293333333336e-05, + "loss": 0.0145, + "step": 102415 + }, + { + "epoch": 0.655488, + "grad_norm": 0.7842931747436523, + "learning_rate": 1.563008e-05, + "loss": 0.0098, + "step": 102420 + }, + { + "epoch": 0.65552, + "grad_norm": 0.1923762559890747, + "learning_rate": 1.5629866666666667e-05, + "loss": 0.0167, + "step": 102425 + }, + { + "epoch": 0.655552, + "grad_norm": 0.1495639830827713, + "learning_rate": 1.5629653333333335e-05, + "loss": 0.0158, + "step": 102430 + }, + { + "epoch": 0.655584, + "grad_norm": 0.19528783857822418, + "learning_rate": 1.5629440000000003e-05, + "loss": 0.0154, + "step": 102435 + }, + { + "epoch": 0.655616, + "grad_norm": 0.4195271134376526, + "learning_rate": 1.5629226666666667e-05, + "loss": 0.0187, + "step": 102440 + }, + { + "epoch": 0.655648, + "grad_norm": 0.23785769939422607, + "learning_rate": 1.5629013333333334e-05, + "loss": 0.0262, + "step": 102445 + }, + { + "epoch": 0.65568, + "grad_norm": 0.7221958637237549, + "learning_rate": 1.5628800000000002e-05, + "loss": 0.0303, + "step": 102450 + }, + { + "epoch": 0.655712, + "grad_norm": 0.04393872991204262, + "learning_rate": 1.5628586666666666e-05, + "loss": 0.0079, + "step": 102455 + }, + { + "epoch": 0.655744, + "grad_norm": 1.1717714071273804, + "learning_rate": 1.5628373333333337e-05, + "loss": 0.0095, + "step": 102460 + }, + { + "epoch": 0.655776, + "grad_norm": 0.8209392428398132, + "learning_rate": 1.562816e-05, + "loss": 0.0154, + "step": 102465 + }, + { + "epoch": 0.655808, + "grad_norm": 0.36651113629341125, + "learning_rate": 1.562794666666667e-05, + "loss": 0.0101, + "step": 102470 + }, + { + "epoch": 0.65584, + "grad_norm": 1.0238561630249023, + "learning_rate": 1.5627733333333336e-05, + "loss": 0.0135, + "step": 102475 + }, + { + "epoch": 0.655872, + "grad_norm": 0.06030043214559555, + "learning_rate": 1.562752e-05, + "loss": 0.0072, + "step": 102480 + }, + { + "epoch": 0.655904, + "grad_norm": 0.1183311715722084, + "learning_rate": 1.5627306666666668e-05, + "loss": 0.0089, + "step": 102485 + }, + { + "epoch": 0.655936, + "grad_norm": 0.969620406627655, + "learning_rate": 1.5627093333333336e-05, + "loss": 0.0208, + "step": 102490 + }, + { + "epoch": 0.655968, + "grad_norm": 0.2872539758682251, + "learning_rate": 1.5626880000000003e-05, + "loss": 0.014, + "step": 102495 + }, + { + "epoch": 0.656, + "grad_norm": 0.26241761445999146, + "learning_rate": 1.5626666666666667e-05, + "loss": 0.0079, + "step": 102500 + }, + { + "epoch": 0.656032, + "grad_norm": 0.2199755162000656, + "learning_rate": 1.5626453333333335e-05, + "loss": 0.0238, + "step": 102505 + }, + { + "epoch": 0.656064, + "grad_norm": 0.1306406855583191, + "learning_rate": 1.5626240000000002e-05, + "loss": 0.0108, + "step": 102510 + }, + { + "epoch": 0.656096, + "grad_norm": 0.11296004801988602, + "learning_rate": 1.5626026666666667e-05, + "loss": 0.0118, + "step": 102515 + }, + { + "epoch": 0.656128, + "grad_norm": 0.3213588297367096, + "learning_rate": 1.5625813333333334e-05, + "loss": 0.0129, + "step": 102520 + }, + { + "epoch": 0.65616, + "grad_norm": 0.2142905443906784, + "learning_rate": 1.56256e-05, + "loss": 0.0037, + "step": 102525 + }, + { + "epoch": 0.656192, + "grad_norm": 2.5934653282165527, + "learning_rate": 1.562538666666667e-05, + "loss": 0.0114, + "step": 102530 + }, + { + "epoch": 0.656224, + "grad_norm": 1.0431523323059082, + "learning_rate": 1.5625173333333333e-05, + "loss": 0.0148, + "step": 102535 + }, + { + "epoch": 0.656256, + "grad_norm": 0.275338351726532, + "learning_rate": 1.562496e-05, + "loss": 0.015, + "step": 102540 + }, + { + "epoch": 0.656288, + "grad_norm": 0.6233958601951599, + "learning_rate": 1.562474666666667e-05, + "loss": 0.0069, + "step": 102545 + }, + { + "epoch": 0.65632, + "grad_norm": 0.59788578748703, + "learning_rate": 1.5624533333333333e-05, + "loss": 0.0127, + "step": 102550 + }, + { + "epoch": 0.656352, + "grad_norm": 1.0915087461471558, + "learning_rate": 1.562432e-05, + "loss": 0.0151, + "step": 102555 + }, + { + "epoch": 0.656384, + "grad_norm": 0.3134806454181671, + "learning_rate": 1.5624106666666668e-05, + "loss": 0.0079, + "step": 102560 + }, + { + "epoch": 0.656416, + "grad_norm": 0.11950854957103729, + "learning_rate": 1.5623893333333335e-05, + "loss": 0.0046, + "step": 102565 + }, + { + "epoch": 0.656448, + "grad_norm": 1.418246865272522, + "learning_rate": 1.562368e-05, + "loss": 0.0119, + "step": 102570 + }, + { + "epoch": 0.65648, + "grad_norm": 0.7949985265731812, + "learning_rate": 1.562346666666667e-05, + "loss": 0.0182, + "step": 102575 + }, + { + "epoch": 0.656512, + "grad_norm": 0.07728387415409088, + "learning_rate": 1.5623253333333335e-05, + "loss": 0.0211, + "step": 102580 + }, + { + "epoch": 0.656544, + "grad_norm": 0.5259081125259399, + "learning_rate": 1.562304e-05, + "loss": 0.0041, + "step": 102585 + }, + { + "epoch": 0.656576, + "grad_norm": 0.4586215317249298, + "learning_rate": 1.562282666666667e-05, + "loss": 0.0082, + "step": 102590 + }, + { + "epoch": 0.656608, + "grad_norm": 0.7047890424728394, + "learning_rate": 1.5622613333333334e-05, + "loss": 0.0172, + "step": 102595 + }, + { + "epoch": 0.65664, + "grad_norm": 0.3512627184391022, + "learning_rate": 1.56224e-05, + "loss": 0.0375, + "step": 102600 + }, + { + "epoch": 0.656672, + "grad_norm": 0.38544389605522156, + "learning_rate": 1.562218666666667e-05, + "loss": 0.0063, + "step": 102605 + }, + { + "epoch": 0.656704, + "grad_norm": 0.9196707606315613, + "learning_rate": 1.5621973333333337e-05, + "loss": 0.0099, + "step": 102610 + }, + { + "epoch": 0.656736, + "grad_norm": 0.6860361695289612, + "learning_rate": 1.562176e-05, + "loss": 0.0099, + "step": 102615 + }, + { + "epoch": 0.656768, + "grad_norm": 0.12332499027252197, + "learning_rate": 1.5621546666666668e-05, + "loss": 0.0175, + "step": 102620 + }, + { + "epoch": 0.6568, + "grad_norm": 0.1541038304567337, + "learning_rate": 1.5621333333333336e-05, + "loss": 0.0175, + "step": 102625 + }, + { + "epoch": 0.656832, + "grad_norm": 0.7345969676971436, + "learning_rate": 1.562112e-05, + "loss": 0.0133, + "step": 102630 + }, + { + "epoch": 0.656864, + "grad_norm": 0.5712012052536011, + "learning_rate": 1.5620906666666668e-05, + "loss": 0.02, + "step": 102635 + }, + { + "epoch": 0.656896, + "grad_norm": 0.3774428963661194, + "learning_rate": 1.5620693333333335e-05, + "loss": 0.0088, + "step": 102640 + }, + { + "epoch": 0.656928, + "grad_norm": 0.6502440571784973, + "learning_rate": 1.5620480000000003e-05, + "loss": 0.0541, + "step": 102645 + }, + { + "epoch": 0.65696, + "grad_norm": 1.0801184177398682, + "learning_rate": 1.5620266666666667e-05, + "loss": 0.0113, + "step": 102650 + }, + { + "epoch": 0.656992, + "grad_norm": 1.7512688636779785, + "learning_rate": 1.5620053333333334e-05, + "loss": 0.0243, + "step": 102655 + }, + { + "epoch": 0.657024, + "grad_norm": 0.7310634255409241, + "learning_rate": 1.5619840000000002e-05, + "loss": 0.0295, + "step": 102660 + }, + { + "epoch": 0.657056, + "grad_norm": 1.5073134899139404, + "learning_rate": 1.5619626666666666e-05, + "loss": 0.0154, + "step": 102665 + }, + { + "epoch": 0.657088, + "grad_norm": 1.0124050378799438, + "learning_rate": 1.5619413333333337e-05, + "loss": 0.0082, + "step": 102670 + }, + { + "epoch": 0.65712, + "grad_norm": 0.21956372261047363, + "learning_rate": 1.56192e-05, + "loss": 0.0255, + "step": 102675 + }, + { + "epoch": 0.657152, + "grad_norm": 3.4170939922332764, + "learning_rate": 1.561898666666667e-05, + "loss": 0.103, + "step": 102680 + }, + { + "epoch": 0.657184, + "grad_norm": 0.05574744567275047, + "learning_rate": 1.5618773333333336e-05, + "loss": 0.0235, + "step": 102685 + }, + { + "epoch": 0.657216, + "grad_norm": 0.883669912815094, + "learning_rate": 1.561856e-05, + "loss": 0.0206, + "step": 102690 + }, + { + "epoch": 0.657248, + "grad_norm": 0.2769632339477539, + "learning_rate": 1.5618346666666668e-05, + "loss": 0.0042, + "step": 102695 + }, + { + "epoch": 0.65728, + "grad_norm": 0.4966614544391632, + "learning_rate": 1.5618133333333336e-05, + "loss": 0.0088, + "step": 102700 + }, + { + "epoch": 0.657312, + "grad_norm": 0.8136359453201294, + "learning_rate": 1.5617920000000003e-05, + "loss": 0.0137, + "step": 102705 + }, + { + "epoch": 0.657344, + "grad_norm": 1.1618566513061523, + "learning_rate": 1.5617706666666667e-05, + "loss": 0.0169, + "step": 102710 + }, + { + "epoch": 0.657376, + "grad_norm": 0.07765204459428787, + "learning_rate": 1.5617493333333335e-05, + "loss": 0.0135, + "step": 102715 + }, + { + "epoch": 0.657408, + "grad_norm": 0.33709004521369934, + "learning_rate": 1.5617280000000002e-05, + "loss": 0.01, + "step": 102720 + }, + { + "epoch": 0.65744, + "grad_norm": 0.24540500342845917, + "learning_rate": 1.5617066666666667e-05, + "loss": 0.0137, + "step": 102725 + }, + { + "epoch": 0.657472, + "grad_norm": 0.307925283908844, + "learning_rate": 1.5616853333333334e-05, + "loss": 0.0067, + "step": 102730 + }, + { + "epoch": 0.657504, + "grad_norm": 0.057089775800704956, + "learning_rate": 1.561664e-05, + "loss": 0.0168, + "step": 102735 + }, + { + "epoch": 0.657536, + "grad_norm": 1.2861324548721313, + "learning_rate": 1.561642666666667e-05, + "loss": 0.0232, + "step": 102740 + }, + { + "epoch": 0.657568, + "grad_norm": 0.8636112809181213, + "learning_rate": 1.5616213333333333e-05, + "loss": 0.0069, + "step": 102745 + }, + { + "epoch": 0.6576, + "grad_norm": 0.8970140814781189, + "learning_rate": 1.5616e-05, + "loss": 0.0209, + "step": 102750 + }, + { + "epoch": 0.657632, + "grad_norm": 0.6735202670097351, + "learning_rate": 1.561578666666667e-05, + "loss": 0.0096, + "step": 102755 + }, + { + "epoch": 0.657664, + "grad_norm": 0.06987821310758591, + "learning_rate": 1.5615573333333333e-05, + "loss": 0.0039, + "step": 102760 + }, + { + "epoch": 0.657696, + "grad_norm": 1.9317972660064697, + "learning_rate": 1.561536e-05, + "loss": 0.0382, + "step": 102765 + }, + { + "epoch": 0.657728, + "grad_norm": 0.04915602132678032, + "learning_rate": 1.5615146666666668e-05, + "loss": 0.0244, + "step": 102770 + }, + { + "epoch": 0.65776, + "grad_norm": 0.32349035143852234, + "learning_rate": 1.5614933333333335e-05, + "loss": 0.0199, + "step": 102775 + }, + { + "epoch": 0.657792, + "grad_norm": 0.6423767805099487, + "learning_rate": 1.561472e-05, + "loss": 0.0172, + "step": 102780 + }, + { + "epoch": 0.657824, + "grad_norm": 0.7230902314186096, + "learning_rate": 1.561450666666667e-05, + "loss": 0.0217, + "step": 102785 + }, + { + "epoch": 0.657856, + "grad_norm": 0.17990371584892273, + "learning_rate": 1.5614293333333335e-05, + "loss": 0.0161, + "step": 102790 + }, + { + "epoch": 0.657888, + "grad_norm": 0.0592639334499836, + "learning_rate": 1.561408e-05, + "loss": 0.0094, + "step": 102795 + }, + { + "epoch": 0.65792, + "grad_norm": 0.28417283296585083, + "learning_rate": 1.561386666666667e-05, + "loss": 0.0103, + "step": 102800 + }, + { + "epoch": 0.657952, + "grad_norm": 0.6166678071022034, + "learning_rate": 1.5613653333333334e-05, + "loss": 0.0154, + "step": 102805 + }, + { + "epoch": 0.657984, + "grad_norm": 0.2850898206233978, + "learning_rate": 1.561344e-05, + "loss": 0.0051, + "step": 102810 + }, + { + "epoch": 0.658016, + "grad_norm": 0.9237937331199646, + "learning_rate": 1.561322666666667e-05, + "loss": 0.0145, + "step": 102815 + }, + { + "epoch": 0.658048, + "grad_norm": 0.9619254469871521, + "learning_rate": 1.5613013333333337e-05, + "loss": 0.0259, + "step": 102820 + }, + { + "epoch": 0.65808, + "grad_norm": 0.35380202531814575, + "learning_rate": 1.56128e-05, + "loss": 0.0131, + "step": 102825 + }, + { + "epoch": 0.658112, + "grad_norm": 1.053094744682312, + "learning_rate": 1.5612586666666668e-05, + "loss": 0.0146, + "step": 102830 + }, + { + "epoch": 0.658144, + "grad_norm": 0.38862693309783936, + "learning_rate": 1.5612373333333336e-05, + "loss": 0.0139, + "step": 102835 + }, + { + "epoch": 0.658176, + "grad_norm": 0.647195041179657, + "learning_rate": 1.561216e-05, + "loss": 0.0101, + "step": 102840 + }, + { + "epoch": 0.658208, + "grad_norm": 0.646225094795227, + "learning_rate": 1.5611946666666668e-05, + "loss": 0.017, + "step": 102845 + }, + { + "epoch": 0.65824, + "grad_norm": 0.324819952249527, + "learning_rate": 1.5611733333333335e-05, + "loss": 0.0167, + "step": 102850 + }, + { + "epoch": 0.658272, + "grad_norm": 0.9084996581077576, + "learning_rate": 1.5611520000000003e-05, + "loss": 0.0057, + "step": 102855 + }, + { + "epoch": 0.658304, + "grad_norm": 0.8751239776611328, + "learning_rate": 1.5611306666666667e-05, + "loss": 0.0205, + "step": 102860 + }, + { + "epoch": 0.658336, + "grad_norm": 0.43897345662117004, + "learning_rate": 1.5611093333333334e-05, + "loss": 0.015, + "step": 102865 + }, + { + "epoch": 0.658368, + "grad_norm": 0.018535032868385315, + "learning_rate": 1.5610880000000002e-05, + "loss": 0.0025, + "step": 102870 + }, + { + "epoch": 0.6584, + "grad_norm": 0.35867252945899963, + "learning_rate": 1.5610666666666666e-05, + "loss": 0.0147, + "step": 102875 + }, + { + "epoch": 0.658432, + "grad_norm": 0.455842524766922, + "learning_rate": 1.5610453333333334e-05, + "loss": 0.0126, + "step": 102880 + }, + { + "epoch": 0.658464, + "grad_norm": 0.40574318170547485, + "learning_rate": 1.561024e-05, + "loss": 0.0124, + "step": 102885 + }, + { + "epoch": 0.658496, + "grad_norm": 0.11566691845655441, + "learning_rate": 1.561002666666667e-05, + "loss": 0.0177, + "step": 102890 + }, + { + "epoch": 0.658528, + "grad_norm": 0.10155832022428513, + "learning_rate": 1.5609813333333336e-05, + "loss": 0.0159, + "step": 102895 + }, + { + "epoch": 0.65856, + "grad_norm": 0.2643316090106964, + "learning_rate": 1.56096e-05, + "loss": 0.0082, + "step": 102900 + }, + { + "epoch": 0.658592, + "grad_norm": 0.09375688433647156, + "learning_rate": 1.5609386666666668e-05, + "loss": 0.0262, + "step": 102905 + }, + { + "epoch": 0.658624, + "grad_norm": 0.6463413238525391, + "learning_rate": 1.5609173333333336e-05, + "loss": 0.0113, + "step": 102910 + }, + { + "epoch": 0.658656, + "grad_norm": 0.4803996980190277, + "learning_rate": 1.5608960000000003e-05, + "loss": 0.0079, + "step": 102915 + }, + { + "epoch": 0.658688, + "grad_norm": 0.5625379681587219, + "learning_rate": 1.5608746666666667e-05, + "loss": 0.0141, + "step": 102920 + }, + { + "epoch": 0.65872, + "grad_norm": 0.6887170672416687, + "learning_rate": 1.5608533333333335e-05, + "loss": 0.0103, + "step": 102925 + }, + { + "epoch": 0.658752, + "grad_norm": 0.9687064290046692, + "learning_rate": 1.5608320000000002e-05, + "loss": 0.0217, + "step": 102930 + }, + { + "epoch": 0.658784, + "grad_norm": 0.29666924476623535, + "learning_rate": 1.5608106666666667e-05, + "loss": 0.0141, + "step": 102935 + }, + { + "epoch": 0.658816, + "grad_norm": 0.4322613775730133, + "learning_rate": 1.5607893333333334e-05, + "loss": 0.0077, + "step": 102940 + }, + { + "epoch": 0.658848, + "grad_norm": 0.7055623531341553, + "learning_rate": 1.560768e-05, + "loss": 0.0079, + "step": 102945 + }, + { + "epoch": 0.65888, + "grad_norm": 1.2053117752075195, + "learning_rate": 1.560746666666667e-05, + "loss": 0.0172, + "step": 102950 + }, + { + "epoch": 0.658912, + "grad_norm": 1.1499004364013672, + "learning_rate": 1.5607253333333333e-05, + "loss": 0.0226, + "step": 102955 + }, + { + "epoch": 0.658944, + "grad_norm": 0.9400091171264648, + "learning_rate": 1.560704e-05, + "loss": 0.0188, + "step": 102960 + }, + { + "epoch": 0.658976, + "grad_norm": 0.6072003245353699, + "learning_rate": 1.560682666666667e-05, + "loss": 0.0147, + "step": 102965 + }, + { + "epoch": 0.659008, + "grad_norm": 0.09368856996297836, + "learning_rate": 1.5606613333333333e-05, + "loss": 0.0123, + "step": 102970 + }, + { + "epoch": 0.65904, + "grad_norm": 0.9619132280349731, + "learning_rate": 1.56064e-05, + "loss": 0.0111, + "step": 102975 + }, + { + "epoch": 0.659072, + "grad_norm": 0.3328588306903839, + "learning_rate": 1.5606186666666668e-05, + "loss": 0.0163, + "step": 102980 + }, + { + "epoch": 0.659104, + "grad_norm": 0.2505470812320709, + "learning_rate": 1.5605973333333335e-05, + "loss": 0.0038, + "step": 102985 + }, + { + "epoch": 0.659136, + "grad_norm": 0.5801927447319031, + "learning_rate": 1.560576e-05, + "loss": 0.0081, + "step": 102990 + }, + { + "epoch": 0.659168, + "grad_norm": 0.5910155773162842, + "learning_rate": 1.560554666666667e-05, + "loss": 0.0138, + "step": 102995 + }, + { + "epoch": 0.6592, + "grad_norm": 0.15444053709506989, + "learning_rate": 1.5605333333333335e-05, + "loss": 0.0042, + "step": 103000 + }, + { + "epoch": 0.659232, + "grad_norm": 0.7153126001358032, + "learning_rate": 1.560512e-05, + "loss": 0.0152, + "step": 103005 + }, + { + "epoch": 0.659264, + "grad_norm": 0.7787716388702393, + "learning_rate": 1.560490666666667e-05, + "loss": 0.011, + "step": 103010 + }, + { + "epoch": 0.659296, + "grad_norm": 0.31549978256225586, + "learning_rate": 1.5604693333333334e-05, + "loss": 0.0036, + "step": 103015 + }, + { + "epoch": 0.659328, + "grad_norm": 0.4916260242462158, + "learning_rate": 1.560448e-05, + "loss": 0.0216, + "step": 103020 + }, + { + "epoch": 0.65936, + "grad_norm": 0.6104608178138733, + "learning_rate": 1.560426666666667e-05, + "loss": 0.0142, + "step": 103025 + }, + { + "epoch": 0.659392, + "grad_norm": 0.7301571369171143, + "learning_rate": 1.5604053333333337e-05, + "loss": 0.0207, + "step": 103030 + }, + { + "epoch": 0.659424, + "grad_norm": 0.0964517891407013, + "learning_rate": 1.560384e-05, + "loss": 0.018, + "step": 103035 + }, + { + "epoch": 0.659456, + "grad_norm": 0.22725577652454376, + "learning_rate": 1.5603626666666668e-05, + "loss": 0.0071, + "step": 103040 + }, + { + "epoch": 0.659488, + "grad_norm": 0.4477775990962982, + "learning_rate": 1.5603413333333336e-05, + "loss": 0.0203, + "step": 103045 + }, + { + "epoch": 0.65952, + "grad_norm": 0.685947835445404, + "learning_rate": 1.56032e-05, + "loss": 0.0101, + "step": 103050 + }, + { + "epoch": 0.659552, + "grad_norm": 0.05141293630003929, + "learning_rate": 1.5602986666666668e-05, + "loss": 0.012, + "step": 103055 + }, + { + "epoch": 0.659584, + "grad_norm": 0.5362921357154846, + "learning_rate": 1.5602773333333335e-05, + "loss": 0.0111, + "step": 103060 + }, + { + "epoch": 0.659616, + "grad_norm": 0.11420851945877075, + "learning_rate": 1.5602560000000003e-05, + "loss": 0.0138, + "step": 103065 + }, + { + "epoch": 0.659648, + "grad_norm": 0.6818459033966064, + "learning_rate": 1.5602346666666667e-05, + "loss": 0.0067, + "step": 103070 + }, + { + "epoch": 0.65968, + "grad_norm": 0.5753856301307678, + "learning_rate": 1.5602133333333334e-05, + "loss": 0.0123, + "step": 103075 + }, + { + "epoch": 0.659712, + "grad_norm": 1.2822017669677734, + "learning_rate": 1.5601920000000002e-05, + "loss": 0.0134, + "step": 103080 + }, + { + "epoch": 0.659744, + "grad_norm": 0.9450973272323608, + "learning_rate": 1.5601706666666666e-05, + "loss": 0.0218, + "step": 103085 + }, + { + "epoch": 0.659776, + "grad_norm": 0.1757095456123352, + "learning_rate": 1.5601493333333334e-05, + "loss": 0.0162, + "step": 103090 + }, + { + "epoch": 0.659808, + "grad_norm": 2.365981101989746, + "learning_rate": 1.560128e-05, + "loss": 0.0278, + "step": 103095 + }, + { + "epoch": 0.65984, + "grad_norm": 0.7150219678878784, + "learning_rate": 1.560106666666667e-05, + "loss": 0.013, + "step": 103100 + }, + { + "epoch": 0.659872, + "grad_norm": 3.532261848449707, + "learning_rate": 1.5600853333333333e-05, + "loss": 0.0158, + "step": 103105 + }, + { + "epoch": 0.659904, + "grad_norm": 0.5943725109100342, + "learning_rate": 1.560064e-05, + "loss": 0.0323, + "step": 103110 + }, + { + "epoch": 0.659936, + "grad_norm": 0.013935951516032219, + "learning_rate": 1.5600426666666668e-05, + "loss": 0.0167, + "step": 103115 + }, + { + "epoch": 0.659968, + "grad_norm": 0.4421234130859375, + "learning_rate": 1.5600213333333336e-05, + "loss": 0.0067, + "step": 103120 + }, + { + "epoch": 0.66, + "grad_norm": 0.7919891476631165, + "learning_rate": 1.5600000000000003e-05, + "loss": 0.0104, + "step": 103125 + }, + { + "epoch": 0.660032, + "grad_norm": 0.15925513207912445, + "learning_rate": 1.5599786666666667e-05, + "loss": 0.0056, + "step": 103130 + }, + { + "epoch": 0.660064, + "grad_norm": 0.72719407081604, + "learning_rate": 1.5599573333333335e-05, + "loss": 0.0148, + "step": 103135 + }, + { + "epoch": 0.660096, + "grad_norm": 0.6779996752738953, + "learning_rate": 1.5599360000000002e-05, + "loss": 0.0191, + "step": 103140 + }, + { + "epoch": 0.660128, + "grad_norm": 0.545846164226532, + "learning_rate": 1.5599146666666667e-05, + "loss": 0.0226, + "step": 103145 + }, + { + "epoch": 0.66016, + "grad_norm": 0.5123775601387024, + "learning_rate": 1.5598933333333334e-05, + "loss": 0.0328, + "step": 103150 + }, + { + "epoch": 0.660192, + "grad_norm": 0.3198302984237671, + "learning_rate": 1.559872e-05, + "loss": 0.0135, + "step": 103155 + }, + { + "epoch": 0.660224, + "grad_norm": 0.15888677537441254, + "learning_rate": 1.559850666666667e-05, + "loss": 0.0185, + "step": 103160 + }, + { + "epoch": 0.660256, + "grad_norm": 0.18219110369682312, + "learning_rate": 1.5598293333333333e-05, + "loss": 0.0235, + "step": 103165 + }, + { + "epoch": 0.660288, + "grad_norm": 0.14255709946155548, + "learning_rate": 1.559808e-05, + "loss": 0.003, + "step": 103170 + }, + { + "epoch": 0.66032, + "grad_norm": 0.6200275421142578, + "learning_rate": 1.559786666666667e-05, + "loss": 0.015, + "step": 103175 + }, + { + "epoch": 0.660352, + "grad_norm": 0.33281734585762024, + "learning_rate": 1.5597653333333333e-05, + "loss": 0.0157, + "step": 103180 + }, + { + "epoch": 0.660384, + "grad_norm": 1.2959860563278198, + "learning_rate": 1.559744e-05, + "loss": 0.0281, + "step": 103185 + }, + { + "epoch": 0.660416, + "grad_norm": 0.5976632237434387, + "learning_rate": 1.5597226666666668e-05, + "loss": 0.0228, + "step": 103190 + }, + { + "epoch": 0.660448, + "grad_norm": 0.15556354820728302, + "learning_rate": 1.5597013333333335e-05, + "loss": 0.0132, + "step": 103195 + }, + { + "epoch": 0.66048, + "grad_norm": 0.5322539806365967, + "learning_rate": 1.55968e-05, + "loss": 0.013, + "step": 103200 + }, + { + "epoch": 0.660512, + "grad_norm": 0.43079912662506104, + "learning_rate": 1.559658666666667e-05, + "loss": 0.011, + "step": 103205 + }, + { + "epoch": 0.660544, + "grad_norm": 1.0970054864883423, + "learning_rate": 1.5596373333333335e-05, + "loss": 0.0142, + "step": 103210 + }, + { + "epoch": 0.660576, + "grad_norm": 0.15386490523815155, + "learning_rate": 1.559616e-05, + "loss": 0.0054, + "step": 103215 + }, + { + "epoch": 0.660608, + "grad_norm": 0.2545236647129059, + "learning_rate": 1.559594666666667e-05, + "loss": 0.0288, + "step": 103220 + }, + { + "epoch": 0.66064, + "grad_norm": 1.816989779472351, + "learning_rate": 1.5595733333333334e-05, + "loss": 0.034, + "step": 103225 + }, + { + "epoch": 0.660672, + "grad_norm": 0.4744292199611664, + "learning_rate": 1.559552e-05, + "loss": 0.0089, + "step": 103230 + }, + { + "epoch": 0.660704, + "grad_norm": 1.2047075033187866, + "learning_rate": 1.559530666666667e-05, + "loss": 0.0129, + "step": 103235 + }, + { + "epoch": 0.660736, + "grad_norm": 0.08940020948648453, + "learning_rate": 1.5595093333333337e-05, + "loss": 0.012, + "step": 103240 + }, + { + "epoch": 0.660768, + "grad_norm": 0.1168852224946022, + "learning_rate": 1.559488e-05, + "loss": 0.0107, + "step": 103245 + }, + { + "epoch": 0.6608, + "grad_norm": 0.3481305241584778, + "learning_rate": 1.5594666666666668e-05, + "loss": 0.0041, + "step": 103250 + }, + { + "epoch": 0.660832, + "grad_norm": 0.21218977868556976, + "learning_rate": 1.5594453333333336e-05, + "loss": 0.0195, + "step": 103255 + }, + { + "epoch": 0.660864, + "grad_norm": 0.2915285527706146, + "learning_rate": 1.559424e-05, + "loss": 0.0132, + "step": 103260 + }, + { + "epoch": 0.660896, + "grad_norm": 0.015440544113516808, + "learning_rate": 1.5594026666666668e-05, + "loss": 0.0074, + "step": 103265 + }, + { + "epoch": 0.660928, + "grad_norm": 0.24783216416835785, + "learning_rate": 1.5593813333333335e-05, + "loss": 0.0068, + "step": 103270 + }, + { + "epoch": 0.66096, + "grad_norm": 0.913693904876709, + "learning_rate": 1.5593600000000003e-05, + "loss": 0.0169, + "step": 103275 + }, + { + "epoch": 0.660992, + "grad_norm": 0.6338818073272705, + "learning_rate": 1.5593386666666667e-05, + "loss": 0.0139, + "step": 103280 + }, + { + "epoch": 0.661024, + "grad_norm": 0.11008106917142868, + "learning_rate": 1.5593173333333334e-05, + "loss": 0.0084, + "step": 103285 + }, + { + "epoch": 0.661056, + "grad_norm": 0.9977067112922668, + "learning_rate": 1.5592960000000002e-05, + "loss": 0.0181, + "step": 103290 + }, + { + "epoch": 0.661088, + "grad_norm": 0.6840224862098694, + "learning_rate": 1.5592746666666666e-05, + "loss": 0.0091, + "step": 103295 + }, + { + "epoch": 0.66112, + "grad_norm": 0.19877032935619354, + "learning_rate": 1.5592533333333334e-05, + "loss": 0.0092, + "step": 103300 + }, + { + "epoch": 0.661152, + "grad_norm": 0.27084189653396606, + "learning_rate": 1.559232e-05, + "loss": 0.0608, + "step": 103305 + }, + { + "epoch": 0.661184, + "grad_norm": 0.6959133148193359, + "learning_rate": 1.559210666666667e-05, + "loss": 0.0199, + "step": 103310 + }, + { + "epoch": 0.661216, + "grad_norm": 0.7718847990036011, + "learning_rate": 1.5591893333333333e-05, + "loss": 0.0179, + "step": 103315 + }, + { + "epoch": 0.661248, + "grad_norm": 0.3730570375919342, + "learning_rate": 1.5591680000000004e-05, + "loss": 0.0162, + "step": 103320 + }, + { + "epoch": 0.66128, + "grad_norm": 0.21373996138572693, + "learning_rate": 1.5591466666666668e-05, + "loss": 0.0033, + "step": 103325 + }, + { + "epoch": 0.661312, + "grad_norm": 0.1195315271615982, + "learning_rate": 1.5591253333333332e-05, + "loss": 0.018, + "step": 103330 + }, + { + "epoch": 0.661344, + "grad_norm": 0.7034177184104919, + "learning_rate": 1.5591040000000003e-05, + "loss": 0.0153, + "step": 103335 + }, + { + "epoch": 0.661376, + "grad_norm": 1.1762877702713013, + "learning_rate": 1.5590826666666667e-05, + "loss": 0.0316, + "step": 103340 + }, + { + "epoch": 0.661408, + "grad_norm": 1.2842469215393066, + "learning_rate": 1.5590613333333335e-05, + "loss": 0.0118, + "step": 103345 + }, + { + "epoch": 0.66144, + "grad_norm": 0.14612005650997162, + "learning_rate": 1.5590400000000002e-05, + "loss": 0.0067, + "step": 103350 + }, + { + "epoch": 0.661472, + "grad_norm": 1.5538830757141113, + "learning_rate": 1.559018666666667e-05, + "loss": 0.0318, + "step": 103355 + }, + { + "epoch": 0.661504, + "grad_norm": 0.9386588931083679, + "learning_rate": 1.5589973333333334e-05, + "loss": 0.0292, + "step": 103360 + }, + { + "epoch": 0.661536, + "grad_norm": 0.17234914004802704, + "learning_rate": 1.558976e-05, + "loss": 0.0063, + "step": 103365 + }, + { + "epoch": 0.661568, + "grad_norm": 1.4633667469024658, + "learning_rate": 1.558954666666667e-05, + "loss": 0.0176, + "step": 103370 + }, + { + "epoch": 0.6616, + "grad_norm": 0.695457935333252, + "learning_rate": 1.5589333333333333e-05, + "loss": 0.0187, + "step": 103375 + }, + { + "epoch": 0.661632, + "grad_norm": 0.9099878668785095, + "learning_rate": 1.558912e-05, + "loss": 0.0173, + "step": 103380 + }, + { + "epoch": 0.661664, + "grad_norm": 0.6795752644538879, + "learning_rate": 1.558890666666667e-05, + "loss": 0.0133, + "step": 103385 + }, + { + "epoch": 0.661696, + "grad_norm": 0.5778852105140686, + "learning_rate": 1.5588693333333336e-05, + "loss": 0.0159, + "step": 103390 + }, + { + "epoch": 0.661728, + "grad_norm": 0.1688643842935562, + "learning_rate": 1.558848e-05, + "loss": 0.0172, + "step": 103395 + }, + { + "epoch": 0.66176, + "grad_norm": 0.3764079213142395, + "learning_rate": 1.5588266666666668e-05, + "loss": 0.0252, + "step": 103400 + }, + { + "epoch": 0.661792, + "grad_norm": 1.1799715757369995, + "learning_rate": 1.5588053333333335e-05, + "loss": 0.0149, + "step": 103405 + }, + { + "epoch": 0.661824, + "grad_norm": 0.4755415618419647, + "learning_rate": 1.558784e-05, + "loss": 0.0147, + "step": 103410 + }, + { + "epoch": 0.661856, + "grad_norm": 0.6585130095481873, + "learning_rate": 1.5587626666666667e-05, + "loss": 0.0148, + "step": 103415 + }, + { + "epoch": 0.661888, + "grad_norm": 0.1784937083721161, + "learning_rate": 1.5587413333333335e-05, + "loss": 0.0062, + "step": 103420 + }, + { + "epoch": 0.66192, + "grad_norm": 0.38886547088623047, + "learning_rate": 1.5587200000000002e-05, + "loss": 0.0086, + "step": 103425 + }, + { + "epoch": 0.661952, + "grad_norm": 0.6853736639022827, + "learning_rate": 1.558698666666667e-05, + "loss": 0.0126, + "step": 103430 + }, + { + "epoch": 0.661984, + "grad_norm": 0.15125302970409393, + "learning_rate": 1.5586773333333334e-05, + "loss": 0.0061, + "step": 103435 + }, + { + "epoch": 0.662016, + "grad_norm": 0.5718452334403992, + "learning_rate": 1.558656e-05, + "loss": 0.0203, + "step": 103440 + }, + { + "epoch": 0.662048, + "grad_norm": 0.2616141438484192, + "learning_rate": 1.558634666666667e-05, + "loss": 0.0255, + "step": 103445 + }, + { + "epoch": 0.66208, + "grad_norm": 0.2542162537574768, + "learning_rate": 1.5586133333333337e-05, + "loss": 0.0041, + "step": 103450 + }, + { + "epoch": 0.662112, + "grad_norm": 0.24039191007614136, + "learning_rate": 1.558592e-05, + "loss": 0.005, + "step": 103455 + }, + { + "epoch": 0.662144, + "grad_norm": 0.6369194388389587, + "learning_rate": 1.5585706666666668e-05, + "loss": 0.0201, + "step": 103460 + }, + { + "epoch": 0.662176, + "grad_norm": 0.5389924645423889, + "learning_rate": 1.5585493333333336e-05, + "loss": 0.0187, + "step": 103465 + }, + { + "epoch": 0.662208, + "grad_norm": 0.26413077116012573, + "learning_rate": 1.558528e-05, + "loss": 0.0165, + "step": 103470 + }, + { + "epoch": 0.66224, + "grad_norm": 0.032397761940956116, + "learning_rate": 1.5585066666666668e-05, + "loss": 0.0119, + "step": 103475 + }, + { + "epoch": 0.662272, + "grad_norm": 0.9716533422470093, + "learning_rate": 1.5584853333333335e-05, + "loss": 0.0105, + "step": 103480 + }, + { + "epoch": 0.662304, + "grad_norm": 0.7522912621498108, + "learning_rate": 1.5584640000000003e-05, + "loss": 0.0156, + "step": 103485 + }, + { + "epoch": 0.662336, + "grad_norm": 0.2666601836681366, + "learning_rate": 1.5584426666666667e-05, + "loss": 0.0198, + "step": 103490 + }, + { + "epoch": 0.662368, + "grad_norm": 1.5655499696731567, + "learning_rate": 1.5584213333333334e-05, + "loss": 0.0178, + "step": 103495 + }, + { + "epoch": 0.6624, + "grad_norm": 0.2830539047718048, + "learning_rate": 1.5584000000000002e-05, + "loss": 0.0056, + "step": 103500 + }, + { + "epoch": 0.662432, + "grad_norm": 0.5161607265472412, + "learning_rate": 1.5583786666666666e-05, + "loss": 0.0215, + "step": 103505 + }, + { + "epoch": 0.662464, + "grad_norm": 0.5899184346199036, + "learning_rate": 1.5583573333333334e-05, + "loss": 0.0143, + "step": 103510 + }, + { + "epoch": 0.662496, + "grad_norm": 0.055555835366249084, + "learning_rate": 1.558336e-05, + "loss": 0.0173, + "step": 103515 + }, + { + "epoch": 0.662528, + "grad_norm": 0.7237216830253601, + "learning_rate": 1.558314666666667e-05, + "loss": 0.0123, + "step": 103520 + }, + { + "epoch": 0.66256, + "grad_norm": 0.32407528162002563, + "learning_rate": 1.5582933333333333e-05, + "loss": 0.018, + "step": 103525 + }, + { + "epoch": 0.662592, + "grad_norm": 0.3553541898727417, + "learning_rate": 1.5582720000000004e-05, + "loss": 0.016, + "step": 103530 + }, + { + "epoch": 0.662624, + "grad_norm": 0.28473466634750366, + "learning_rate": 1.5582506666666668e-05, + "loss": 0.0135, + "step": 103535 + }, + { + "epoch": 0.662656, + "grad_norm": 1.2660218477249146, + "learning_rate": 1.5582293333333332e-05, + "loss": 0.0257, + "step": 103540 + }, + { + "epoch": 0.662688, + "grad_norm": 0.704643189907074, + "learning_rate": 1.5582080000000003e-05, + "loss": 0.0133, + "step": 103545 + }, + { + "epoch": 0.66272, + "grad_norm": 0.13172686100006104, + "learning_rate": 1.5581866666666667e-05, + "loss": 0.0099, + "step": 103550 + }, + { + "epoch": 0.662752, + "grad_norm": 0.0330798514187336, + "learning_rate": 1.5581653333333335e-05, + "loss": 0.0131, + "step": 103555 + }, + { + "epoch": 0.662784, + "grad_norm": 0.39673832058906555, + "learning_rate": 1.5581440000000002e-05, + "loss": 0.0158, + "step": 103560 + }, + { + "epoch": 0.662816, + "grad_norm": 0.9834098815917969, + "learning_rate": 1.558122666666667e-05, + "loss": 0.0191, + "step": 103565 + }, + { + "epoch": 0.662848, + "grad_norm": 0.3863166570663452, + "learning_rate": 1.5581013333333334e-05, + "loss": 0.0307, + "step": 103570 + }, + { + "epoch": 0.66288, + "grad_norm": 0.7271983623504639, + "learning_rate": 1.55808e-05, + "loss": 0.007, + "step": 103575 + }, + { + "epoch": 0.662912, + "grad_norm": 0.3049823045730591, + "learning_rate": 1.558058666666667e-05, + "loss": 0.0328, + "step": 103580 + }, + { + "epoch": 0.662944, + "grad_norm": 0.033273935317993164, + "learning_rate": 1.5580373333333333e-05, + "loss": 0.0137, + "step": 103585 + }, + { + "epoch": 0.662976, + "grad_norm": 0.7578489184379578, + "learning_rate": 1.558016e-05, + "loss": 0.017, + "step": 103590 + }, + { + "epoch": 0.663008, + "grad_norm": 0.24048158526420593, + "learning_rate": 1.557994666666667e-05, + "loss": 0.0298, + "step": 103595 + }, + { + "epoch": 0.66304, + "grad_norm": 1.4987404346466064, + "learning_rate": 1.5579733333333336e-05, + "loss": 0.0235, + "step": 103600 + }, + { + "epoch": 0.663072, + "grad_norm": 0.4077947437763214, + "learning_rate": 1.557952e-05, + "loss": 0.0131, + "step": 103605 + }, + { + "epoch": 0.663104, + "grad_norm": 0.4871513247489929, + "learning_rate": 1.5579306666666668e-05, + "loss": 0.0118, + "step": 103610 + }, + { + "epoch": 0.663136, + "grad_norm": 1.1732252836227417, + "learning_rate": 1.5579093333333335e-05, + "loss": 0.0257, + "step": 103615 + }, + { + "epoch": 0.663168, + "grad_norm": 0.9394612312316895, + "learning_rate": 1.557888e-05, + "loss": 0.0213, + "step": 103620 + }, + { + "epoch": 0.6632, + "grad_norm": 0.4506901502609253, + "learning_rate": 1.5578666666666667e-05, + "loss": 0.0161, + "step": 103625 + }, + { + "epoch": 0.663232, + "grad_norm": 0.22940514981746674, + "learning_rate": 1.5578453333333335e-05, + "loss": 0.0084, + "step": 103630 + }, + { + "epoch": 0.663264, + "grad_norm": 0.07550235837697983, + "learning_rate": 1.5578240000000002e-05, + "loss": 0.0069, + "step": 103635 + }, + { + "epoch": 0.663296, + "grad_norm": 0.5433691143989563, + "learning_rate": 1.5578026666666666e-05, + "loss": 0.0175, + "step": 103640 + }, + { + "epoch": 0.663328, + "grad_norm": 0.2085939347743988, + "learning_rate": 1.5577813333333334e-05, + "loss": 0.0064, + "step": 103645 + }, + { + "epoch": 0.66336, + "grad_norm": 0.5981922149658203, + "learning_rate": 1.55776e-05, + "loss": 0.0144, + "step": 103650 + }, + { + "epoch": 0.663392, + "grad_norm": 0.44822272658348083, + "learning_rate": 1.557738666666667e-05, + "loss": 0.0106, + "step": 103655 + }, + { + "epoch": 0.663424, + "grad_norm": 0.806063711643219, + "learning_rate": 1.5577173333333337e-05, + "loss": 0.0118, + "step": 103660 + }, + { + "epoch": 0.663456, + "grad_norm": 0.08383238315582275, + "learning_rate": 1.557696e-05, + "loss": 0.0099, + "step": 103665 + }, + { + "epoch": 0.663488, + "grad_norm": 0.22441677749156952, + "learning_rate": 1.5576746666666668e-05, + "loss": 0.0099, + "step": 103670 + }, + { + "epoch": 0.66352, + "grad_norm": 0.6094475388526917, + "learning_rate": 1.5576533333333336e-05, + "loss": 0.02, + "step": 103675 + }, + { + "epoch": 0.663552, + "grad_norm": 0.26019513607025146, + "learning_rate": 1.557632e-05, + "loss": 0.0089, + "step": 103680 + }, + { + "epoch": 0.663584, + "grad_norm": 0.7624320983886719, + "learning_rate": 1.5576106666666668e-05, + "loss": 0.0245, + "step": 103685 + }, + { + "epoch": 0.663616, + "grad_norm": 0.0239893589168787, + "learning_rate": 1.5575893333333335e-05, + "loss": 0.0096, + "step": 103690 + }, + { + "epoch": 0.663648, + "grad_norm": 0.28303152322769165, + "learning_rate": 1.5575680000000003e-05, + "loss": 0.0117, + "step": 103695 + }, + { + "epoch": 0.66368, + "grad_norm": 1.744719386100769, + "learning_rate": 1.5575466666666667e-05, + "loss": 0.0187, + "step": 103700 + }, + { + "epoch": 0.663712, + "grad_norm": 0.09189457446336746, + "learning_rate": 1.5575253333333334e-05, + "loss": 0.0168, + "step": 103705 + }, + { + "epoch": 0.663744, + "grad_norm": 0.7051904201507568, + "learning_rate": 1.5575040000000002e-05, + "loss": 0.0068, + "step": 103710 + }, + { + "epoch": 0.663776, + "grad_norm": 0.7574850916862488, + "learning_rate": 1.5574826666666666e-05, + "loss": 0.0116, + "step": 103715 + }, + { + "epoch": 0.663808, + "grad_norm": 0.5298790335655212, + "learning_rate": 1.5574613333333334e-05, + "loss": 0.0086, + "step": 103720 + }, + { + "epoch": 0.66384, + "grad_norm": 0.10883338004350662, + "learning_rate": 1.55744e-05, + "loss": 0.016, + "step": 103725 + }, + { + "epoch": 0.663872, + "grad_norm": 0.19859670102596283, + "learning_rate": 1.557418666666667e-05, + "loss": 0.0206, + "step": 103730 + }, + { + "epoch": 0.663904, + "grad_norm": 0.2462908774614334, + "learning_rate": 1.5573973333333333e-05, + "loss": 0.0247, + "step": 103735 + }, + { + "epoch": 0.663936, + "grad_norm": 0.4248068928718567, + "learning_rate": 1.5573760000000004e-05, + "loss": 0.0104, + "step": 103740 + }, + { + "epoch": 0.663968, + "grad_norm": 0.7544201612472534, + "learning_rate": 1.5573546666666668e-05, + "loss": 0.0084, + "step": 103745 + }, + { + "epoch": 0.664, + "grad_norm": 0.4662586450576782, + "learning_rate": 1.5573333333333332e-05, + "loss": 0.0139, + "step": 103750 + }, + { + "epoch": 0.664032, + "grad_norm": 0.5436680316925049, + "learning_rate": 1.5573120000000003e-05, + "loss": 0.0194, + "step": 103755 + }, + { + "epoch": 0.664064, + "grad_norm": 0.31766727566719055, + "learning_rate": 1.5572906666666667e-05, + "loss": 0.0151, + "step": 103760 + }, + { + "epoch": 0.664096, + "grad_norm": 1.7439604997634888, + "learning_rate": 1.5572693333333335e-05, + "loss": 0.016, + "step": 103765 + }, + { + "epoch": 0.664128, + "grad_norm": 0.054377440363168716, + "learning_rate": 1.5572480000000002e-05, + "loss": 0.0076, + "step": 103770 + }, + { + "epoch": 0.66416, + "grad_norm": 0.041765980422496796, + "learning_rate": 1.557226666666667e-05, + "loss": 0.0084, + "step": 103775 + }, + { + "epoch": 0.664192, + "grad_norm": 1.1543891429901123, + "learning_rate": 1.5572053333333334e-05, + "loss": 0.0259, + "step": 103780 + }, + { + "epoch": 0.664224, + "grad_norm": 2.203791856765747, + "learning_rate": 1.557184e-05, + "loss": 0.0242, + "step": 103785 + }, + { + "epoch": 0.664256, + "grad_norm": 1.2128221988677979, + "learning_rate": 1.557162666666667e-05, + "loss": 0.0242, + "step": 103790 + }, + { + "epoch": 0.664288, + "grad_norm": 0.6903886795043945, + "learning_rate": 1.5571413333333333e-05, + "loss": 0.0133, + "step": 103795 + }, + { + "epoch": 0.66432, + "grad_norm": 1.265454649925232, + "learning_rate": 1.55712e-05, + "loss": 0.0073, + "step": 103800 + }, + { + "epoch": 0.664352, + "grad_norm": 0.1600775420665741, + "learning_rate": 1.557098666666667e-05, + "loss": 0.0146, + "step": 103805 + }, + { + "epoch": 0.664384, + "grad_norm": 0.29470059275627136, + "learning_rate": 1.5570773333333336e-05, + "loss": 0.0129, + "step": 103810 + }, + { + "epoch": 0.664416, + "grad_norm": 0.20055051147937775, + "learning_rate": 1.557056e-05, + "loss": 0.0237, + "step": 103815 + }, + { + "epoch": 0.664448, + "grad_norm": 0.37868615984916687, + "learning_rate": 1.5570346666666668e-05, + "loss": 0.0318, + "step": 103820 + }, + { + "epoch": 0.66448, + "grad_norm": 0.3696875274181366, + "learning_rate": 1.5570133333333335e-05, + "loss": 0.0063, + "step": 103825 + }, + { + "epoch": 0.664512, + "grad_norm": 0.29084107279777527, + "learning_rate": 1.556992e-05, + "loss": 0.0101, + "step": 103830 + }, + { + "epoch": 0.664544, + "grad_norm": 0.46847447752952576, + "learning_rate": 1.5569706666666667e-05, + "loss": 0.0027, + "step": 103835 + }, + { + "epoch": 0.664576, + "grad_norm": 0.6325767636299133, + "learning_rate": 1.5569493333333335e-05, + "loss": 0.0294, + "step": 103840 + }, + { + "epoch": 0.664608, + "grad_norm": 0.25919991731643677, + "learning_rate": 1.5569280000000002e-05, + "loss": 0.0147, + "step": 103845 + }, + { + "epoch": 0.66464, + "grad_norm": 0.21363531053066254, + "learning_rate": 1.5569066666666666e-05, + "loss": 0.0108, + "step": 103850 + }, + { + "epoch": 0.664672, + "grad_norm": 1.325895071029663, + "learning_rate": 1.5568853333333334e-05, + "loss": 0.0226, + "step": 103855 + }, + { + "epoch": 0.664704, + "grad_norm": 1.043045997619629, + "learning_rate": 1.556864e-05, + "loss": 0.0222, + "step": 103860 + }, + { + "epoch": 0.664736, + "grad_norm": 2.4913885593414307, + "learning_rate": 1.5568426666666666e-05, + "loss": 0.0178, + "step": 103865 + }, + { + "epoch": 0.664768, + "grad_norm": 0.14434227347373962, + "learning_rate": 1.5568213333333337e-05, + "loss": 0.0036, + "step": 103870 + }, + { + "epoch": 0.6648, + "grad_norm": 0.19472257792949677, + "learning_rate": 1.5568e-05, + "loss": 0.0064, + "step": 103875 + }, + { + "epoch": 0.664832, + "grad_norm": 28.44625473022461, + "learning_rate": 1.5567786666666668e-05, + "loss": 0.0264, + "step": 103880 + }, + { + "epoch": 0.664864, + "grad_norm": 0.6762231588363647, + "learning_rate": 1.5567573333333336e-05, + "loss": 0.008, + "step": 103885 + }, + { + "epoch": 0.664896, + "grad_norm": 0.04433697462081909, + "learning_rate": 1.556736e-05, + "loss": 0.0164, + "step": 103890 + }, + { + "epoch": 0.664928, + "grad_norm": 0.132926344871521, + "learning_rate": 1.5567146666666668e-05, + "loss": 0.0076, + "step": 103895 + }, + { + "epoch": 0.66496, + "grad_norm": 0.30089035630226135, + "learning_rate": 1.5566933333333335e-05, + "loss": 0.0199, + "step": 103900 + }, + { + "epoch": 0.664992, + "grad_norm": 0.43563151359558105, + "learning_rate": 1.5566720000000003e-05, + "loss": 0.0098, + "step": 103905 + }, + { + "epoch": 0.665024, + "grad_norm": 1.0255213975906372, + "learning_rate": 1.5566506666666667e-05, + "loss": 0.0159, + "step": 103910 + }, + { + "epoch": 0.665056, + "grad_norm": 0.7918391227722168, + "learning_rate": 1.5566293333333334e-05, + "loss": 0.0141, + "step": 103915 + }, + { + "epoch": 0.665088, + "grad_norm": 0.14715149998664856, + "learning_rate": 1.5566080000000002e-05, + "loss": 0.0166, + "step": 103920 + }, + { + "epoch": 0.66512, + "grad_norm": 0.7341498732566833, + "learning_rate": 1.5565866666666666e-05, + "loss": 0.0356, + "step": 103925 + }, + { + "epoch": 0.665152, + "grad_norm": 0.3980441391468048, + "learning_rate": 1.5565653333333334e-05, + "loss": 0.0085, + "step": 103930 + }, + { + "epoch": 0.665184, + "grad_norm": 0.024241024628281593, + "learning_rate": 1.556544e-05, + "loss": 0.0134, + "step": 103935 + }, + { + "epoch": 0.665216, + "grad_norm": 0.3598164916038513, + "learning_rate": 1.556522666666667e-05, + "loss": 0.0141, + "step": 103940 + }, + { + "epoch": 0.665248, + "grad_norm": 0.21114857494831085, + "learning_rate": 1.5565013333333333e-05, + "loss": 0.0053, + "step": 103945 + }, + { + "epoch": 0.66528, + "grad_norm": 1.385536789894104, + "learning_rate": 1.55648e-05, + "loss": 0.0321, + "step": 103950 + }, + { + "epoch": 0.665312, + "grad_norm": 0.37256669998168945, + "learning_rate": 1.5564586666666668e-05, + "loss": 0.0042, + "step": 103955 + }, + { + "epoch": 0.665344, + "grad_norm": 0.3536704480648041, + "learning_rate": 1.5564373333333332e-05, + "loss": 0.0167, + "step": 103960 + }, + { + "epoch": 0.665376, + "grad_norm": 0.5028924942016602, + "learning_rate": 1.5564160000000003e-05, + "loss": 0.0122, + "step": 103965 + }, + { + "epoch": 0.665408, + "grad_norm": 0.3803056478500366, + "learning_rate": 1.5563946666666667e-05, + "loss": 0.0159, + "step": 103970 + }, + { + "epoch": 0.66544, + "grad_norm": 0.35725483298301697, + "learning_rate": 1.5563733333333335e-05, + "loss": 0.0145, + "step": 103975 + }, + { + "epoch": 0.665472, + "grad_norm": 0.6936265230178833, + "learning_rate": 1.5563520000000002e-05, + "loss": 0.0143, + "step": 103980 + }, + { + "epoch": 0.665504, + "grad_norm": 0.12626318633556366, + "learning_rate": 1.556330666666667e-05, + "loss": 0.0046, + "step": 103985 + }, + { + "epoch": 0.665536, + "grad_norm": 0.3362182080745697, + "learning_rate": 1.5563093333333334e-05, + "loss": 0.0238, + "step": 103990 + }, + { + "epoch": 0.665568, + "grad_norm": 0.43784603476524353, + "learning_rate": 1.556288e-05, + "loss": 0.0155, + "step": 103995 + }, + { + "epoch": 0.6656, + "grad_norm": 0.09097585827112198, + "learning_rate": 1.556266666666667e-05, + "loss": 0.0116, + "step": 104000 + }, + { + "epoch": 0.665632, + "grad_norm": 0.5133948922157288, + "learning_rate": 1.5562453333333333e-05, + "loss": 0.0166, + "step": 104005 + }, + { + "epoch": 0.665664, + "grad_norm": 0.09368421137332916, + "learning_rate": 1.556224e-05, + "loss": 0.0172, + "step": 104010 + }, + { + "epoch": 0.665696, + "grad_norm": 2.0848238468170166, + "learning_rate": 1.556202666666667e-05, + "loss": 0.0201, + "step": 104015 + }, + { + "epoch": 0.665728, + "grad_norm": 0.20243678987026215, + "learning_rate": 1.5561813333333336e-05, + "loss": 0.0061, + "step": 104020 + }, + { + "epoch": 0.66576, + "grad_norm": 0.2066096067428589, + "learning_rate": 1.55616e-05, + "loss": 0.0052, + "step": 104025 + }, + { + "epoch": 0.665792, + "grad_norm": 0.29164230823516846, + "learning_rate": 1.5561386666666668e-05, + "loss": 0.0093, + "step": 104030 + }, + { + "epoch": 0.665824, + "grad_norm": 0.2950144112110138, + "learning_rate": 1.5561173333333335e-05, + "loss": 0.0049, + "step": 104035 + }, + { + "epoch": 0.665856, + "grad_norm": 0.3317268490791321, + "learning_rate": 1.556096e-05, + "loss": 0.0072, + "step": 104040 + }, + { + "epoch": 0.665888, + "grad_norm": 0.043617647141218185, + "learning_rate": 1.5560746666666667e-05, + "loss": 0.0084, + "step": 104045 + }, + { + "epoch": 0.66592, + "grad_norm": 0.34441977739334106, + "learning_rate": 1.5560533333333335e-05, + "loss": 0.0075, + "step": 104050 + }, + { + "epoch": 0.665952, + "grad_norm": 0.5579419136047363, + "learning_rate": 1.5560320000000002e-05, + "loss": 0.0075, + "step": 104055 + }, + { + "epoch": 0.665984, + "grad_norm": 0.907676100730896, + "learning_rate": 1.5560106666666666e-05, + "loss": 0.0104, + "step": 104060 + }, + { + "epoch": 0.666016, + "grad_norm": 0.2045459747314453, + "learning_rate": 1.5559893333333334e-05, + "loss": 0.0099, + "step": 104065 + }, + { + "epoch": 0.666048, + "grad_norm": 0.2673339247703552, + "learning_rate": 1.555968e-05, + "loss": 0.0211, + "step": 104070 + }, + { + "epoch": 0.66608, + "grad_norm": 0.97218918800354, + "learning_rate": 1.5559466666666666e-05, + "loss": 0.0225, + "step": 104075 + }, + { + "epoch": 0.666112, + "grad_norm": 0.055158581584692, + "learning_rate": 1.5559253333333337e-05, + "loss": 0.0048, + "step": 104080 + }, + { + "epoch": 0.666144, + "grad_norm": 0.1871487945318222, + "learning_rate": 1.555904e-05, + "loss": 0.0097, + "step": 104085 + }, + { + "epoch": 0.666176, + "grad_norm": 1.1543006896972656, + "learning_rate": 1.5558826666666668e-05, + "loss": 0.0109, + "step": 104090 + }, + { + "epoch": 0.666208, + "grad_norm": 1.4620919227600098, + "learning_rate": 1.5558613333333336e-05, + "loss": 0.0212, + "step": 104095 + }, + { + "epoch": 0.66624, + "grad_norm": 0.6270264387130737, + "learning_rate": 1.55584e-05, + "loss": 0.0154, + "step": 104100 + }, + { + "epoch": 0.666272, + "grad_norm": 2.3733327388763428, + "learning_rate": 1.5558186666666668e-05, + "loss": 0.0272, + "step": 104105 + }, + { + "epoch": 0.666304, + "grad_norm": 0.07956928014755249, + "learning_rate": 1.5557973333333335e-05, + "loss": 0.0163, + "step": 104110 + }, + { + "epoch": 0.666336, + "grad_norm": 0.6177488565444946, + "learning_rate": 1.5557760000000003e-05, + "loss": 0.0136, + "step": 104115 + }, + { + "epoch": 0.666368, + "grad_norm": 0.15000002086162567, + "learning_rate": 1.5557546666666667e-05, + "loss": 0.0067, + "step": 104120 + }, + { + "epoch": 0.6664, + "grad_norm": 0.22080868482589722, + "learning_rate": 1.5557333333333334e-05, + "loss": 0.0074, + "step": 104125 + }, + { + "epoch": 0.666432, + "grad_norm": 0.5442888140678406, + "learning_rate": 1.5557120000000002e-05, + "loss": 0.0088, + "step": 104130 + }, + { + "epoch": 0.666464, + "grad_norm": 0.33373144268989563, + "learning_rate": 1.555690666666667e-05, + "loss": 0.0054, + "step": 104135 + }, + { + "epoch": 0.666496, + "grad_norm": 1.8555175065994263, + "learning_rate": 1.5556693333333334e-05, + "loss": 0.0105, + "step": 104140 + }, + { + "epoch": 0.666528, + "grad_norm": 0.6285932660102844, + "learning_rate": 1.555648e-05, + "loss": 0.0086, + "step": 104145 + }, + { + "epoch": 0.66656, + "grad_norm": 0.1727866530418396, + "learning_rate": 1.555626666666667e-05, + "loss": 0.0111, + "step": 104150 + }, + { + "epoch": 0.666592, + "grad_norm": 0.22235137224197388, + "learning_rate": 1.5556053333333333e-05, + "loss": 0.0216, + "step": 104155 + }, + { + "epoch": 0.666624, + "grad_norm": 0.6186622381210327, + "learning_rate": 1.555584e-05, + "loss": 0.0077, + "step": 104160 + }, + { + "epoch": 0.666656, + "grad_norm": 0.649024486541748, + "learning_rate": 1.5555626666666668e-05, + "loss": 0.0115, + "step": 104165 + }, + { + "epoch": 0.666688, + "grad_norm": 1.2739615440368652, + "learning_rate": 1.5555413333333336e-05, + "loss": 0.024, + "step": 104170 + }, + { + "epoch": 0.66672, + "grad_norm": 0.254068523645401, + "learning_rate": 1.55552e-05, + "loss": 0.0107, + "step": 104175 + }, + { + "epoch": 0.666752, + "grad_norm": 0.1917208731174469, + "learning_rate": 1.5554986666666667e-05, + "loss": 0.0062, + "step": 104180 + }, + { + "epoch": 0.666784, + "grad_norm": 0.6483584046363831, + "learning_rate": 1.5554773333333335e-05, + "loss": 0.0152, + "step": 104185 + }, + { + "epoch": 0.666816, + "grad_norm": 0.4283526539802551, + "learning_rate": 1.5554560000000002e-05, + "loss": 0.0159, + "step": 104190 + }, + { + "epoch": 0.666848, + "grad_norm": 1.6234363317489624, + "learning_rate": 1.555434666666667e-05, + "loss": 0.0395, + "step": 104195 + }, + { + "epoch": 0.66688, + "grad_norm": 0.027955813333392143, + "learning_rate": 1.5554133333333334e-05, + "loss": 0.0035, + "step": 104200 + }, + { + "epoch": 0.666912, + "grad_norm": 0.4762399196624756, + "learning_rate": 1.555392e-05, + "loss": 0.0176, + "step": 104205 + }, + { + "epoch": 0.666944, + "grad_norm": 0.15459582209587097, + "learning_rate": 1.555370666666667e-05, + "loss": 0.0089, + "step": 104210 + }, + { + "epoch": 0.666976, + "grad_norm": 0.5690165162086487, + "learning_rate": 1.5553493333333333e-05, + "loss": 0.0095, + "step": 104215 + }, + { + "epoch": 0.667008, + "grad_norm": 0.344872385263443, + "learning_rate": 1.555328e-05, + "loss": 0.0166, + "step": 104220 + }, + { + "epoch": 0.66704, + "grad_norm": 0.32301202416419983, + "learning_rate": 1.555306666666667e-05, + "loss": 0.0244, + "step": 104225 + }, + { + "epoch": 0.667072, + "grad_norm": 0.03798086196184158, + "learning_rate": 1.5552853333333336e-05, + "loss": 0.0043, + "step": 104230 + }, + { + "epoch": 0.667104, + "grad_norm": 0.09314215928316116, + "learning_rate": 1.555264e-05, + "loss": 0.0022, + "step": 104235 + }, + { + "epoch": 0.667136, + "grad_norm": 0.18678006529808044, + "learning_rate": 1.5552426666666668e-05, + "loss": 0.0086, + "step": 104240 + }, + { + "epoch": 0.667168, + "grad_norm": 0.10901400446891785, + "learning_rate": 1.5552213333333335e-05, + "loss": 0.0045, + "step": 104245 + }, + { + "epoch": 0.6672, + "grad_norm": 0.46982017159461975, + "learning_rate": 1.5552e-05, + "loss": 0.0132, + "step": 104250 + }, + { + "epoch": 0.667232, + "grad_norm": 0.30519744753837585, + "learning_rate": 1.5551786666666667e-05, + "loss": 0.0092, + "step": 104255 + }, + { + "epoch": 0.667264, + "grad_norm": 0.8295790553092957, + "learning_rate": 1.5551573333333335e-05, + "loss": 0.0143, + "step": 104260 + }, + { + "epoch": 0.667296, + "grad_norm": 1.1353516578674316, + "learning_rate": 1.5551360000000002e-05, + "loss": 0.0178, + "step": 104265 + }, + { + "epoch": 0.667328, + "grad_norm": 1.1147300004959106, + "learning_rate": 1.5551146666666666e-05, + "loss": 0.0255, + "step": 104270 + }, + { + "epoch": 0.66736, + "grad_norm": 0.9049325585365295, + "learning_rate": 1.5550933333333337e-05, + "loss": 0.0122, + "step": 104275 + }, + { + "epoch": 0.667392, + "grad_norm": 0.26652029156684875, + "learning_rate": 1.555072e-05, + "loss": 0.0043, + "step": 104280 + }, + { + "epoch": 0.667424, + "grad_norm": 0.23096276819705963, + "learning_rate": 1.5550506666666666e-05, + "loss": 0.0128, + "step": 104285 + }, + { + "epoch": 0.667456, + "grad_norm": 0.7600331902503967, + "learning_rate": 1.5550293333333337e-05, + "loss": 0.0087, + "step": 104290 + }, + { + "epoch": 0.667488, + "grad_norm": 0.9531756639480591, + "learning_rate": 1.555008e-05, + "loss": 0.0169, + "step": 104295 + }, + { + "epoch": 0.66752, + "grad_norm": 0.42883461713790894, + "learning_rate": 1.5549866666666668e-05, + "loss": 0.0125, + "step": 104300 + }, + { + "epoch": 0.667552, + "grad_norm": 0.6645626425743103, + "learning_rate": 1.5549653333333336e-05, + "loss": 0.0153, + "step": 104305 + }, + { + "epoch": 0.667584, + "grad_norm": 1.0418314933776855, + "learning_rate": 1.5549440000000003e-05, + "loss": 0.0134, + "step": 104310 + }, + { + "epoch": 0.667616, + "grad_norm": 0.744175374507904, + "learning_rate": 1.5549226666666668e-05, + "loss": 0.0512, + "step": 104315 + }, + { + "epoch": 0.667648, + "grad_norm": 1.7340036630630493, + "learning_rate": 1.5549013333333335e-05, + "loss": 0.0183, + "step": 104320 + }, + { + "epoch": 0.66768, + "grad_norm": 0.697550356388092, + "learning_rate": 1.5548800000000003e-05, + "loss": 0.0273, + "step": 104325 + }, + { + "epoch": 0.667712, + "grad_norm": 0.3101450502872467, + "learning_rate": 1.5548586666666667e-05, + "loss": 0.006, + "step": 104330 + }, + { + "epoch": 0.667744, + "grad_norm": 0.6004893779754639, + "learning_rate": 1.5548373333333334e-05, + "loss": 0.0134, + "step": 104335 + }, + { + "epoch": 0.667776, + "grad_norm": 0.5009283423423767, + "learning_rate": 1.5548160000000002e-05, + "loss": 0.0142, + "step": 104340 + }, + { + "epoch": 0.667808, + "grad_norm": 0.6351646184921265, + "learning_rate": 1.554794666666667e-05, + "loss": 0.0109, + "step": 104345 + }, + { + "epoch": 0.66784, + "grad_norm": 2.181490182876587, + "learning_rate": 1.5547733333333334e-05, + "loss": 0.016, + "step": 104350 + }, + { + "epoch": 0.667872, + "grad_norm": 0.2781938314437866, + "learning_rate": 1.554752e-05, + "loss": 0.0052, + "step": 104355 + }, + { + "epoch": 0.667904, + "grad_norm": 0.21189558506011963, + "learning_rate": 1.554730666666667e-05, + "loss": 0.0217, + "step": 104360 + }, + { + "epoch": 0.667936, + "grad_norm": 0.8119097352027893, + "learning_rate": 1.5547093333333333e-05, + "loss": 0.0162, + "step": 104365 + }, + { + "epoch": 0.667968, + "grad_norm": 0.9492568373680115, + "learning_rate": 1.554688e-05, + "loss": 0.0158, + "step": 104370 + }, + { + "epoch": 0.668, + "grad_norm": 0.5086936950683594, + "learning_rate": 1.5546666666666668e-05, + "loss": 0.0094, + "step": 104375 + }, + { + "epoch": 0.668032, + "grad_norm": 0.29186904430389404, + "learning_rate": 1.5546453333333336e-05, + "loss": 0.0096, + "step": 104380 + }, + { + "epoch": 0.668064, + "grad_norm": 1.359580636024475, + "learning_rate": 1.554624e-05, + "loss": 0.0127, + "step": 104385 + }, + { + "epoch": 0.668096, + "grad_norm": 1.03188157081604, + "learning_rate": 1.5546026666666667e-05, + "loss": 0.0116, + "step": 104390 + }, + { + "epoch": 0.668128, + "grad_norm": 0.15182967483997345, + "learning_rate": 1.5545813333333335e-05, + "loss": 0.003, + "step": 104395 + }, + { + "epoch": 0.66816, + "grad_norm": 0.5239233374595642, + "learning_rate": 1.55456e-05, + "loss": 0.0108, + "step": 104400 + }, + { + "epoch": 0.668192, + "grad_norm": 0.8281641006469727, + "learning_rate": 1.554538666666667e-05, + "loss": 0.0107, + "step": 104405 + }, + { + "epoch": 0.668224, + "grad_norm": 2.1648013591766357, + "learning_rate": 1.5545173333333334e-05, + "loss": 0.0125, + "step": 104410 + }, + { + "epoch": 0.668256, + "grad_norm": 0.49866461753845215, + "learning_rate": 1.554496e-05, + "loss": 0.01, + "step": 104415 + }, + { + "epoch": 0.668288, + "grad_norm": 0.23029881715774536, + "learning_rate": 1.554474666666667e-05, + "loss": 0.0035, + "step": 104420 + }, + { + "epoch": 0.66832, + "grad_norm": 0.8618120551109314, + "learning_rate": 1.5544533333333333e-05, + "loss": 0.0112, + "step": 104425 + }, + { + "epoch": 0.668352, + "grad_norm": 3.397711992263794, + "learning_rate": 1.554432e-05, + "loss": 0.0448, + "step": 104430 + }, + { + "epoch": 0.668384, + "grad_norm": 0.07876310497522354, + "learning_rate": 1.554410666666667e-05, + "loss": 0.005, + "step": 104435 + }, + { + "epoch": 0.668416, + "grad_norm": 0.6684606671333313, + "learning_rate": 1.5543893333333336e-05, + "loss": 0.0127, + "step": 104440 + }, + { + "epoch": 0.668448, + "grad_norm": 0.5540797710418701, + "learning_rate": 1.554368e-05, + "loss": 0.0132, + "step": 104445 + }, + { + "epoch": 0.66848, + "grad_norm": 0.19270206987857819, + "learning_rate": 1.5543466666666668e-05, + "loss": 0.0147, + "step": 104450 + }, + { + "epoch": 0.668512, + "grad_norm": 0.32444748282432556, + "learning_rate": 1.5543253333333335e-05, + "loss": 0.0079, + "step": 104455 + }, + { + "epoch": 0.668544, + "grad_norm": 0.859236478805542, + "learning_rate": 1.554304e-05, + "loss": 0.0093, + "step": 104460 + }, + { + "epoch": 0.668576, + "grad_norm": 0.45664873719215393, + "learning_rate": 1.5542826666666667e-05, + "loss": 0.02, + "step": 104465 + }, + { + "epoch": 0.668608, + "grad_norm": 0.2227909117937088, + "learning_rate": 1.5542613333333335e-05, + "loss": 0.0066, + "step": 104470 + }, + { + "epoch": 0.66864, + "grad_norm": 0.6451442837715149, + "learning_rate": 1.5542400000000002e-05, + "loss": 0.0105, + "step": 104475 + }, + { + "epoch": 0.668672, + "grad_norm": 0.5121220350265503, + "learning_rate": 1.5542186666666666e-05, + "loss": 0.0192, + "step": 104480 + }, + { + "epoch": 0.668704, + "grad_norm": 0.20260977745056152, + "learning_rate": 1.5541973333333334e-05, + "loss": 0.0101, + "step": 104485 + }, + { + "epoch": 0.668736, + "grad_norm": 0.058905228972435, + "learning_rate": 1.554176e-05, + "loss": 0.0118, + "step": 104490 + }, + { + "epoch": 0.668768, + "grad_norm": 6.942492961883545, + "learning_rate": 1.5541546666666666e-05, + "loss": 0.015, + "step": 104495 + }, + { + "epoch": 0.6688, + "grad_norm": 0.5529202818870544, + "learning_rate": 1.5541333333333337e-05, + "loss": 0.0079, + "step": 104500 + }, + { + "epoch": 0.668832, + "grad_norm": 0.6125757098197937, + "learning_rate": 1.554112e-05, + "loss": 0.008, + "step": 104505 + }, + { + "epoch": 0.668864, + "grad_norm": 4.276516437530518, + "learning_rate": 1.5540906666666668e-05, + "loss": 0.0358, + "step": 104510 + }, + { + "epoch": 0.668896, + "grad_norm": 0.5447620153427124, + "learning_rate": 1.5540693333333336e-05, + "loss": 0.0139, + "step": 104515 + }, + { + "epoch": 0.668928, + "grad_norm": 0.6584077477455139, + "learning_rate": 1.5540480000000003e-05, + "loss": 0.0141, + "step": 104520 + }, + { + "epoch": 0.66896, + "grad_norm": 0.3816133439540863, + "learning_rate": 1.5540266666666668e-05, + "loss": 0.0165, + "step": 104525 + }, + { + "epoch": 0.668992, + "grad_norm": 0.07594338804483414, + "learning_rate": 1.5540053333333335e-05, + "loss": 0.0023, + "step": 104530 + }, + { + "epoch": 0.669024, + "grad_norm": 0.10271294414997101, + "learning_rate": 1.5539840000000003e-05, + "loss": 0.008, + "step": 104535 + }, + { + "epoch": 0.669056, + "grad_norm": 0.06067048758268356, + "learning_rate": 1.5539626666666667e-05, + "loss": 0.0103, + "step": 104540 + }, + { + "epoch": 0.669088, + "grad_norm": 0.47058266401290894, + "learning_rate": 1.5539413333333334e-05, + "loss": 0.0055, + "step": 104545 + }, + { + "epoch": 0.66912, + "grad_norm": 0.6132267713546753, + "learning_rate": 1.5539200000000002e-05, + "loss": 0.0585, + "step": 104550 + }, + { + "epoch": 0.669152, + "grad_norm": 1.1188629865646362, + "learning_rate": 1.553898666666667e-05, + "loss": 0.0166, + "step": 104555 + }, + { + "epoch": 0.669184, + "grad_norm": 0.34253689646720886, + "learning_rate": 1.5538773333333334e-05, + "loss": 0.0215, + "step": 104560 + }, + { + "epoch": 0.669216, + "grad_norm": 0.8998873829841614, + "learning_rate": 1.553856e-05, + "loss": 0.0143, + "step": 104565 + }, + { + "epoch": 0.669248, + "grad_norm": 0.7940580248832703, + "learning_rate": 1.553834666666667e-05, + "loss": 0.0142, + "step": 104570 + }, + { + "epoch": 0.66928, + "grad_norm": 0.5312301516532898, + "learning_rate": 1.5538133333333333e-05, + "loss": 0.013, + "step": 104575 + }, + { + "epoch": 0.669312, + "grad_norm": 0.11318212002515793, + "learning_rate": 1.553792e-05, + "loss": 0.0078, + "step": 104580 + }, + { + "epoch": 0.669344, + "grad_norm": 0.40291228890419006, + "learning_rate": 1.5537706666666668e-05, + "loss": 0.0138, + "step": 104585 + }, + { + "epoch": 0.669376, + "grad_norm": 0.09172141551971436, + "learning_rate": 1.5537493333333336e-05, + "loss": 0.0109, + "step": 104590 + }, + { + "epoch": 0.669408, + "grad_norm": 0.8817897439002991, + "learning_rate": 1.553728e-05, + "loss": 0.0345, + "step": 104595 + }, + { + "epoch": 0.66944, + "grad_norm": 0.5571608543395996, + "learning_rate": 1.5537066666666667e-05, + "loss": 0.0229, + "step": 104600 + }, + { + "epoch": 0.669472, + "grad_norm": 0.40841320157051086, + "learning_rate": 1.5536853333333335e-05, + "loss": 0.0223, + "step": 104605 + }, + { + "epoch": 0.669504, + "grad_norm": 0.45259860157966614, + "learning_rate": 1.553664e-05, + "loss": 0.0201, + "step": 104610 + }, + { + "epoch": 0.669536, + "grad_norm": 0.0999898612499237, + "learning_rate": 1.553642666666667e-05, + "loss": 0.011, + "step": 104615 + }, + { + "epoch": 0.669568, + "grad_norm": 0.9153841137886047, + "learning_rate": 1.5536213333333334e-05, + "loss": 0.0136, + "step": 104620 + }, + { + "epoch": 0.6696, + "grad_norm": 0.24799886345863342, + "learning_rate": 1.5536e-05, + "loss": 0.022, + "step": 104625 + }, + { + "epoch": 0.669632, + "grad_norm": 0.353512704372406, + "learning_rate": 1.553578666666667e-05, + "loss": 0.0166, + "step": 104630 + }, + { + "epoch": 0.669664, + "grad_norm": 0.20138193666934967, + "learning_rate": 1.5535573333333333e-05, + "loss": 0.0208, + "step": 104635 + }, + { + "epoch": 0.669696, + "grad_norm": 0.3117200434207916, + "learning_rate": 1.553536e-05, + "loss": 0.0189, + "step": 104640 + }, + { + "epoch": 0.669728, + "grad_norm": 0.009992467239499092, + "learning_rate": 1.553514666666667e-05, + "loss": 0.0134, + "step": 104645 + }, + { + "epoch": 0.66976, + "grad_norm": 0.23941917717456818, + "learning_rate": 1.5534933333333336e-05, + "loss": 0.0076, + "step": 104650 + }, + { + "epoch": 0.669792, + "grad_norm": 0.11850181221961975, + "learning_rate": 1.553472e-05, + "loss": 0.0043, + "step": 104655 + }, + { + "epoch": 0.669824, + "grad_norm": 0.5218929648399353, + "learning_rate": 1.5534506666666668e-05, + "loss": 0.0258, + "step": 104660 + }, + { + "epoch": 0.669856, + "grad_norm": 1.4584044218063354, + "learning_rate": 1.5534293333333335e-05, + "loss": 0.0123, + "step": 104665 + }, + { + "epoch": 0.669888, + "grad_norm": 0.5112531185150146, + "learning_rate": 1.553408e-05, + "loss": 0.0085, + "step": 104670 + }, + { + "epoch": 0.66992, + "grad_norm": 0.6727093458175659, + "learning_rate": 1.5533866666666667e-05, + "loss": 0.0053, + "step": 104675 + }, + { + "epoch": 0.669952, + "grad_norm": 0.08624254912137985, + "learning_rate": 1.5533653333333335e-05, + "loss": 0.0074, + "step": 104680 + }, + { + "epoch": 0.669984, + "grad_norm": 0.21877583861351013, + "learning_rate": 1.5533440000000002e-05, + "loss": 0.009, + "step": 104685 + }, + { + "epoch": 0.670016, + "grad_norm": 0.7938385605812073, + "learning_rate": 1.5533226666666666e-05, + "loss": 0.0155, + "step": 104690 + }, + { + "epoch": 0.670048, + "grad_norm": 0.287451833486557, + "learning_rate": 1.5533013333333334e-05, + "loss": 0.0064, + "step": 104695 + }, + { + "epoch": 0.67008, + "grad_norm": 0.30586516857147217, + "learning_rate": 1.55328e-05, + "loss": 0.0063, + "step": 104700 + }, + { + "epoch": 0.670112, + "grad_norm": 0.6799408197402954, + "learning_rate": 1.5532586666666666e-05, + "loss": 0.0162, + "step": 104705 + }, + { + "epoch": 0.670144, + "grad_norm": 0.050240401178598404, + "learning_rate": 1.5532373333333333e-05, + "loss": 0.0065, + "step": 104710 + }, + { + "epoch": 0.670176, + "grad_norm": 0.3525749742984772, + "learning_rate": 1.553216e-05, + "loss": 0.0059, + "step": 104715 + }, + { + "epoch": 0.670208, + "grad_norm": 0.9661799073219299, + "learning_rate": 1.5531946666666668e-05, + "loss": 0.0081, + "step": 104720 + }, + { + "epoch": 0.67024, + "grad_norm": 0.294962614774704, + "learning_rate": 1.5531733333333336e-05, + "loss": 0.0135, + "step": 104725 + }, + { + "epoch": 0.670272, + "grad_norm": 0.333182692527771, + "learning_rate": 1.5531520000000003e-05, + "loss": 0.0061, + "step": 104730 + }, + { + "epoch": 0.670304, + "grad_norm": 0.4702719449996948, + "learning_rate": 1.5531306666666668e-05, + "loss": 0.0147, + "step": 104735 + }, + { + "epoch": 0.670336, + "grad_norm": 1.0974218845367432, + "learning_rate": 1.5531093333333335e-05, + "loss": 0.0163, + "step": 104740 + }, + { + "epoch": 0.670368, + "grad_norm": 0.04731639474630356, + "learning_rate": 1.5530880000000003e-05, + "loss": 0.0073, + "step": 104745 + }, + { + "epoch": 0.6704, + "grad_norm": 0.3426700532436371, + "learning_rate": 1.5530666666666667e-05, + "loss": 0.0174, + "step": 104750 + }, + { + "epoch": 0.670432, + "grad_norm": 0.5155438184738159, + "learning_rate": 1.5530453333333334e-05, + "loss": 0.0182, + "step": 104755 + }, + { + "epoch": 0.670464, + "grad_norm": 0.9527314305305481, + "learning_rate": 1.5530240000000002e-05, + "loss": 0.0128, + "step": 104760 + }, + { + "epoch": 0.670496, + "grad_norm": 0.16664133965969086, + "learning_rate": 1.553002666666667e-05, + "loss": 0.0042, + "step": 104765 + }, + { + "epoch": 0.670528, + "grad_norm": 0.36816346645355225, + "learning_rate": 1.5529813333333334e-05, + "loss": 0.0178, + "step": 104770 + }, + { + "epoch": 0.67056, + "grad_norm": 0.05374887213110924, + "learning_rate": 1.55296e-05, + "loss": 0.009, + "step": 104775 + }, + { + "epoch": 0.670592, + "grad_norm": 0.20563170313835144, + "learning_rate": 1.552938666666667e-05, + "loss": 0.0198, + "step": 104780 + }, + { + "epoch": 0.670624, + "grad_norm": 0.3026874363422394, + "learning_rate": 1.5529173333333333e-05, + "loss": 0.0167, + "step": 104785 + }, + { + "epoch": 0.670656, + "grad_norm": 0.5627340078353882, + "learning_rate": 1.552896e-05, + "loss": 0.0077, + "step": 104790 + }, + { + "epoch": 0.670688, + "grad_norm": 0.46219533681869507, + "learning_rate": 1.5528746666666668e-05, + "loss": 0.0062, + "step": 104795 + }, + { + "epoch": 0.67072, + "grad_norm": 0.42002788186073303, + "learning_rate": 1.5528533333333336e-05, + "loss": 0.012, + "step": 104800 + }, + { + "epoch": 0.670752, + "grad_norm": 0.664061963558197, + "learning_rate": 1.552832e-05, + "loss": 0.0224, + "step": 104805 + }, + { + "epoch": 0.670784, + "grad_norm": 0.612180769443512, + "learning_rate": 1.5528106666666667e-05, + "loss": 0.0084, + "step": 104810 + }, + { + "epoch": 0.670816, + "grad_norm": 0.09114775061607361, + "learning_rate": 1.5527893333333335e-05, + "loss": 0.0134, + "step": 104815 + }, + { + "epoch": 0.670848, + "grad_norm": 0.2844211161136627, + "learning_rate": 1.552768e-05, + "loss": 0.0081, + "step": 104820 + }, + { + "epoch": 0.67088, + "grad_norm": 0.5988032221794128, + "learning_rate": 1.552746666666667e-05, + "loss": 0.0111, + "step": 104825 + }, + { + "epoch": 0.670912, + "grad_norm": 0.2581537961959839, + "learning_rate": 1.5527253333333334e-05, + "loss": 0.0136, + "step": 104830 + }, + { + "epoch": 0.670944, + "grad_norm": 0.3707737326622009, + "learning_rate": 1.552704e-05, + "loss": 0.0167, + "step": 104835 + }, + { + "epoch": 0.670976, + "grad_norm": 0.37349653244018555, + "learning_rate": 1.552682666666667e-05, + "loss": 0.0118, + "step": 104840 + }, + { + "epoch": 0.671008, + "grad_norm": 0.7535449862480164, + "learning_rate": 1.5526613333333333e-05, + "loss": 0.008, + "step": 104845 + }, + { + "epoch": 0.67104, + "grad_norm": 0.22438792884349823, + "learning_rate": 1.55264e-05, + "loss": 0.0174, + "step": 104850 + }, + { + "epoch": 0.671072, + "grad_norm": 0.9107124209403992, + "learning_rate": 1.552618666666667e-05, + "loss": 0.0134, + "step": 104855 + }, + { + "epoch": 0.671104, + "grad_norm": 0.2581578493118286, + "learning_rate": 1.5525973333333336e-05, + "loss": 0.0065, + "step": 104860 + }, + { + "epoch": 0.671136, + "grad_norm": 0.6383887529373169, + "learning_rate": 1.552576e-05, + "loss": 0.0165, + "step": 104865 + }, + { + "epoch": 0.671168, + "grad_norm": 0.11836439371109009, + "learning_rate": 1.5525546666666668e-05, + "loss": 0.0085, + "step": 104870 + }, + { + "epoch": 0.6712, + "grad_norm": 1.0377466678619385, + "learning_rate": 1.5525333333333335e-05, + "loss": 0.018, + "step": 104875 + }, + { + "epoch": 0.671232, + "grad_norm": 0.5967204570770264, + "learning_rate": 1.552512e-05, + "loss": 0.0102, + "step": 104880 + }, + { + "epoch": 0.671264, + "grad_norm": 0.6617076396942139, + "learning_rate": 1.5524906666666667e-05, + "loss": 0.0149, + "step": 104885 + }, + { + "epoch": 0.671296, + "grad_norm": 0.18677829205989838, + "learning_rate": 1.5524693333333335e-05, + "loss": 0.0432, + "step": 104890 + }, + { + "epoch": 0.671328, + "grad_norm": 0.6073219180107117, + "learning_rate": 1.5524480000000002e-05, + "loss": 0.0157, + "step": 104895 + }, + { + "epoch": 0.67136, + "grad_norm": 0.40615811944007874, + "learning_rate": 1.5524266666666666e-05, + "loss": 0.0197, + "step": 104900 + }, + { + "epoch": 0.671392, + "grad_norm": 0.08978819847106934, + "learning_rate": 1.5524053333333334e-05, + "loss": 0.0262, + "step": 104905 + }, + { + "epoch": 0.671424, + "grad_norm": 0.2866830825805664, + "learning_rate": 1.552384e-05, + "loss": 0.0077, + "step": 104910 + }, + { + "epoch": 0.671456, + "grad_norm": 1.5495909452438354, + "learning_rate": 1.5523626666666666e-05, + "loss": 0.0215, + "step": 104915 + }, + { + "epoch": 0.671488, + "grad_norm": 0.3408116400241852, + "learning_rate": 1.5523413333333333e-05, + "loss": 0.0391, + "step": 104920 + }, + { + "epoch": 0.67152, + "grad_norm": 0.6173465251922607, + "learning_rate": 1.55232e-05, + "loss": 0.0544, + "step": 104925 + }, + { + "epoch": 0.671552, + "grad_norm": 0.21645551919937134, + "learning_rate": 1.5522986666666668e-05, + "loss": 0.0213, + "step": 104930 + }, + { + "epoch": 0.671584, + "grad_norm": 1.184695839881897, + "learning_rate": 1.5522773333333332e-05, + "loss": 0.0252, + "step": 104935 + }, + { + "epoch": 0.671616, + "grad_norm": 0.12787672877311707, + "learning_rate": 1.5522560000000003e-05, + "loss": 0.0314, + "step": 104940 + }, + { + "epoch": 0.671648, + "grad_norm": 0.9065402150154114, + "learning_rate": 1.5522346666666668e-05, + "loss": 0.0154, + "step": 104945 + }, + { + "epoch": 0.67168, + "grad_norm": 0.27549314498901367, + "learning_rate": 1.5522133333333335e-05, + "loss": 0.0244, + "step": 104950 + }, + { + "epoch": 0.671712, + "grad_norm": 0.30797794461250305, + "learning_rate": 1.5521920000000003e-05, + "loss": 0.0108, + "step": 104955 + }, + { + "epoch": 0.671744, + "grad_norm": 0.7466243505477905, + "learning_rate": 1.5521706666666667e-05, + "loss": 0.0111, + "step": 104960 + }, + { + "epoch": 0.671776, + "grad_norm": 0.27298569679260254, + "learning_rate": 1.5521493333333334e-05, + "loss": 0.0267, + "step": 104965 + }, + { + "epoch": 0.671808, + "grad_norm": 0.4030191898345947, + "learning_rate": 1.5521280000000002e-05, + "loss": 0.0454, + "step": 104970 + }, + { + "epoch": 0.67184, + "grad_norm": 0.06409670412540436, + "learning_rate": 1.552106666666667e-05, + "loss": 0.0087, + "step": 104975 + }, + { + "epoch": 0.671872, + "grad_norm": 0.5577895045280457, + "learning_rate": 1.5520853333333334e-05, + "loss": 0.0076, + "step": 104980 + }, + { + "epoch": 0.671904, + "grad_norm": 0.19572767615318298, + "learning_rate": 1.552064e-05, + "loss": 0.009, + "step": 104985 + }, + { + "epoch": 0.671936, + "grad_norm": 0.022666895762085915, + "learning_rate": 1.552042666666667e-05, + "loss": 0.0072, + "step": 104990 + }, + { + "epoch": 0.671968, + "grad_norm": 0.30640414357185364, + "learning_rate": 1.5520213333333333e-05, + "loss": 0.0099, + "step": 104995 + }, + { + "epoch": 0.672, + "grad_norm": 1.8530775308609009, + "learning_rate": 1.552e-05, + "loss": 0.0435, + "step": 105000 + }, + { + "epoch": 0.672032, + "grad_norm": 0.04669268801808357, + "learning_rate": 1.5519786666666668e-05, + "loss": 0.0109, + "step": 105005 + }, + { + "epoch": 0.672064, + "grad_norm": 0.14036133885383606, + "learning_rate": 1.5519573333333336e-05, + "loss": 0.0061, + "step": 105010 + }, + { + "epoch": 0.672096, + "grad_norm": 0.23679475486278534, + "learning_rate": 1.551936e-05, + "loss": 0.0061, + "step": 105015 + }, + { + "epoch": 0.672128, + "grad_norm": 0.7048212885856628, + "learning_rate": 1.551914666666667e-05, + "loss": 0.023, + "step": 105020 + }, + { + "epoch": 0.67216, + "grad_norm": 0.03694170340895653, + "learning_rate": 1.5518933333333335e-05, + "loss": 0.0105, + "step": 105025 + }, + { + "epoch": 0.672192, + "grad_norm": 0.3290424048900604, + "learning_rate": 1.551872e-05, + "loss": 0.0291, + "step": 105030 + }, + { + "epoch": 0.672224, + "grad_norm": 0.06787396967411041, + "learning_rate": 1.551850666666667e-05, + "loss": 0.0087, + "step": 105035 + }, + { + "epoch": 0.672256, + "grad_norm": 0.2096288949251175, + "learning_rate": 1.5518293333333334e-05, + "loss": 0.0154, + "step": 105040 + }, + { + "epoch": 0.672288, + "grad_norm": 0.44369786977767944, + "learning_rate": 1.5518080000000002e-05, + "loss": 0.0083, + "step": 105045 + }, + { + "epoch": 0.67232, + "grad_norm": 0.0603654719889164, + "learning_rate": 1.551786666666667e-05, + "loss": 0.0188, + "step": 105050 + }, + { + "epoch": 0.672352, + "grad_norm": 0.10756012797355652, + "learning_rate": 1.5517653333333337e-05, + "loss": 0.0252, + "step": 105055 + }, + { + "epoch": 0.672384, + "grad_norm": 2.0938663482666016, + "learning_rate": 1.551744e-05, + "loss": 0.0225, + "step": 105060 + }, + { + "epoch": 0.672416, + "grad_norm": 0.42706090211868286, + "learning_rate": 1.551722666666667e-05, + "loss": 0.009, + "step": 105065 + }, + { + "epoch": 0.672448, + "grad_norm": 0.08249782770872116, + "learning_rate": 1.5517013333333336e-05, + "loss": 0.0134, + "step": 105070 + }, + { + "epoch": 0.67248, + "grad_norm": 0.502041220664978, + "learning_rate": 1.55168e-05, + "loss": 0.0113, + "step": 105075 + }, + { + "epoch": 0.672512, + "grad_norm": 0.593165934085846, + "learning_rate": 1.5516586666666668e-05, + "loss": 0.0209, + "step": 105080 + }, + { + "epoch": 0.672544, + "grad_norm": 0.20602424442768097, + "learning_rate": 1.5516373333333335e-05, + "loss": 0.0117, + "step": 105085 + }, + { + "epoch": 0.672576, + "grad_norm": 0.8348727822303772, + "learning_rate": 1.5516160000000003e-05, + "loss": 0.0127, + "step": 105090 + }, + { + "epoch": 0.672608, + "grad_norm": 0.2783464789390564, + "learning_rate": 1.5515946666666667e-05, + "loss": 0.0157, + "step": 105095 + }, + { + "epoch": 0.67264, + "grad_norm": 0.4413079023361206, + "learning_rate": 1.5515733333333335e-05, + "loss": 0.008, + "step": 105100 + }, + { + "epoch": 0.672672, + "grad_norm": 0.4025880694389343, + "learning_rate": 1.5515520000000002e-05, + "loss": 0.0097, + "step": 105105 + }, + { + "epoch": 0.672704, + "grad_norm": 0.35082006454467773, + "learning_rate": 1.5515306666666666e-05, + "loss": 0.0113, + "step": 105110 + }, + { + "epoch": 0.672736, + "grad_norm": 0.5192052721977234, + "learning_rate": 1.5515093333333334e-05, + "loss": 0.0059, + "step": 105115 + }, + { + "epoch": 0.672768, + "grad_norm": 0.12757503986358643, + "learning_rate": 1.551488e-05, + "loss": 0.0055, + "step": 105120 + }, + { + "epoch": 0.6728, + "grad_norm": 0.9051635265350342, + "learning_rate": 1.551466666666667e-05, + "loss": 0.0057, + "step": 105125 + }, + { + "epoch": 0.672832, + "grad_norm": 0.4363633394241333, + "learning_rate": 1.5514453333333333e-05, + "loss": 0.0052, + "step": 105130 + }, + { + "epoch": 0.672864, + "grad_norm": 0.10320822894573212, + "learning_rate": 1.551424e-05, + "loss": 0.01, + "step": 105135 + }, + { + "epoch": 0.672896, + "grad_norm": 0.865315854549408, + "learning_rate": 1.5514026666666668e-05, + "loss": 0.0174, + "step": 105140 + }, + { + "epoch": 0.672928, + "grad_norm": 0.4733981490135193, + "learning_rate": 1.5513813333333332e-05, + "loss": 0.0179, + "step": 105145 + }, + { + "epoch": 0.67296, + "grad_norm": 0.3824818432331085, + "learning_rate": 1.5513600000000003e-05, + "loss": 0.014, + "step": 105150 + }, + { + "epoch": 0.672992, + "grad_norm": 0.28849679231643677, + "learning_rate": 1.5513386666666668e-05, + "loss": 0.0071, + "step": 105155 + }, + { + "epoch": 0.673024, + "grad_norm": 0.8552068471908569, + "learning_rate": 1.5513173333333335e-05, + "loss": 0.0474, + "step": 105160 + }, + { + "epoch": 0.673056, + "grad_norm": 0.05043557286262512, + "learning_rate": 1.5512960000000003e-05, + "loss": 0.0123, + "step": 105165 + }, + { + "epoch": 0.673088, + "grad_norm": 0.6235977411270142, + "learning_rate": 1.5512746666666667e-05, + "loss": 0.011, + "step": 105170 + }, + { + "epoch": 0.67312, + "grad_norm": 0.3975187838077545, + "learning_rate": 1.5512533333333334e-05, + "loss": 0.01, + "step": 105175 + }, + { + "epoch": 0.673152, + "grad_norm": 0.24425476789474487, + "learning_rate": 1.5512320000000002e-05, + "loss": 0.0161, + "step": 105180 + }, + { + "epoch": 0.673184, + "grad_norm": 0.41184696555137634, + "learning_rate": 1.551210666666667e-05, + "loss": 0.028, + "step": 105185 + }, + { + "epoch": 0.673216, + "grad_norm": 0.04688876122236252, + "learning_rate": 1.5511893333333334e-05, + "loss": 0.0212, + "step": 105190 + }, + { + "epoch": 0.673248, + "grad_norm": 0.8451234698295593, + "learning_rate": 1.551168e-05, + "loss": 0.0201, + "step": 105195 + }, + { + "epoch": 0.67328, + "grad_norm": 0.6025123596191406, + "learning_rate": 1.551146666666667e-05, + "loss": 0.011, + "step": 105200 + }, + { + "epoch": 0.673312, + "grad_norm": 0.0749702900648117, + "learning_rate": 1.5511253333333333e-05, + "loss": 0.0299, + "step": 105205 + }, + { + "epoch": 0.673344, + "grad_norm": 0.9002909660339355, + "learning_rate": 1.551104e-05, + "loss": 0.0055, + "step": 105210 + }, + { + "epoch": 0.673376, + "grad_norm": 0.34396469593048096, + "learning_rate": 1.5510826666666668e-05, + "loss": 0.0079, + "step": 105215 + }, + { + "epoch": 0.673408, + "grad_norm": 0.5707190036773682, + "learning_rate": 1.5510613333333336e-05, + "loss": 0.0074, + "step": 105220 + }, + { + "epoch": 0.67344, + "grad_norm": 0.9300005435943604, + "learning_rate": 1.55104e-05, + "loss": 0.0155, + "step": 105225 + }, + { + "epoch": 0.673472, + "grad_norm": 0.5265486836433411, + "learning_rate": 1.5510186666666667e-05, + "loss": 0.0123, + "step": 105230 + }, + { + "epoch": 0.673504, + "grad_norm": 0.028567159548401833, + "learning_rate": 1.5509973333333335e-05, + "loss": 0.0149, + "step": 105235 + }, + { + "epoch": 0.673536, + "grad_norm": 1.3132519721984863, + "learning_rate": 1.550976e-05, + "loss": 0.0135, + "step": 105240 + }, + { + "epoch": 0.673568, + "grad_norm": 0.34179893136024475, + "learning_rate": 1.550954666666667e-05, + "loss": 0.0078, + "step": 105245 + }, + { + "epoch": 0.6736, + "grad_norm": 0.47644323110580444, + "learning_rate": 1.5509333333333334e-05, + "loss": 0.0269, + "step": 105250 + }, + { + "epoch": 0.673632, + "grad_norm": 0.22681643068790436, + "learning_rate": 1.5509120000000002e-05, + "loss": 0.0106, + "step": 105255 + }, + { + "epoch": 0.673664, + "grad_norm": 0.7917389273643494, + "learning_rate": 1.550890666666667e-05, + "loss": 0.0258, + "step": 105260 + }, + { + "epoch": 0.673696, + "grad_norm": 0.2183641493320465, + "learning_rate": 1.5508693333333337e-05, + "loss": 0.0327, + "step": 105265 + }, + { + "epoch": 0.673728, + "grad_norm": 0.6512753963470459, + "learning_rate": 1.550848e-05, + "loss": 0.0127, + "step": 105270 + }, + { + "epoch": 0.67376, + "grad_norm": 0.035082925111055374, + "learning_rate": 1.550826666666667e-05, + "loss": 0.0226, + "step": 105275 + }, + { + "epoch": 0.673792, + "grad_norm": 0.4565809369087219, + "learning_rate": 1.5508053333333336e-05, + "loss": 0.0215, + "step": 105280 + }, + { + "epoch": 0.673824, + "grad_norm": 0.13735449314117432, + "learning_rate": 1.550784e-05, + "loss": 0.0117, + "step": 105285 + }, + { + "epoch": 0.673856, + "grad_norm": 0.5083716511726379, + "learning_rate": 1.5507626666666668e-05, + "loss": 0.0169, + "step": 105290 + }, + { + "epoch": 0.673888, + "grad_norm": 1.5762057304382324, + "learning_rate": 1.5507413333333335e-05, + "loss": 0.0196, + "step": 105295 + }, + { + "epoch": 0.67392, + "grad_norm": 1.147718071937561, + "learning_rate": 1.5507200000000003e-05, + "loss": 0.0125, + "step": 105300 + }, + { + "epoch": 0.673952, + "grad_norm": 0.3861118257045746, + "learning_rate": 1.5506986666666667e-05, + "loss": 0.0169, + "step": 105305 + }, + { + "epoch": 0.673984, + "grad_norm": 0.17541487514972687, + "learning_rate": 1.5506773333333335e-05, + "loss": 0.0105, + "step": 105310 + }, + { + "epoch": 0.674016, + "grad_norm": 1.8242807388305664, + "learning_rate": 1.5506560000000002e-05, + "loss": 0.0114, + "step": 105315 + }, + { + "epoch": 0.674048, + "grad_norm": 0.6023750305175781, + "learning_rate": 1.5506346666666666e-05, + "loss": 0.0078, + "step": 105320 + }, + { + "epoch": 0.67408, + "grad_norm": 1.3354629278182983, + "learning_rate": 1.5506133333333334e-05, + "loss": 0.0135, + "step": 105325 + }, + { + "epoch": 0.674112, + "grad_norm": 0.529285728931427, + "learning_rate": 1.550592e-05, + "loss": 0.0094, + "step": 105330 + }, + { + "epoch": 0.674144, + "grad_norm": 0.08470810204744339, + "learning_rate": 1.550570666666667e-05, + "loss": 0.0034, + "step": 105335 + }, + { + "epoch": 0.674176, + "grad_norm": 0.2684955894947052, + "learning_rate": 1.5505493333333333e-05, + "loss": 0.011, + "step": 105340 + }, + { + "epoch": 0.674208, + "grad_norm": 0.8715861439704895, + "learning_rate": 1.550528e-05, + "loss": 0.0218, + "step": 105345 + }, + { + "epoch": 0.67424, + "grad_norm": 0.5448310375213623, + "learning_rate": 1.5505066666666668e-05, + "loss": 0.0126, + "step": 105350 + }, + { + "epoch": 0.674272, + "grad_norm": 0.6070755124092102, + "learning_rate": 1.5504853333333332e-05, + "loss": 0.0123, + "step": 105355 + }, + { + "epoch": 0.674304, + "grad_norm": 0.34491488337516785, + "learning_rate": 1.5504640000000003e-05, + "loss": 0.014, + "step": 105360 + }, + { + "epoch": 0.674336, + "grad_norm": 0.6877880096435547, + "learning_rate": 1.5504426666666668e-05, + "loss": 0.0242, + "step": 105365 + }, + { + "epoch": 0.674368, + "grad_norm": 0.26873621344566345, + "learning_rate": 1.5504213333333335e-05, + "loss": 0.0318, + "step": 105370 + }, + { + "epoch": 0.6744, + "grad_norm": 0.4096302390098572, + "learning_rate": 1.5504000000000003e-05, + "loss": 0.0184, + "step": 105375 + }, + { + "epoch": 0.674432, + "grad_norm": 1.4160635471343994, + "learning_rate": 1.5503786666666667e-05, + "loss": 0.0213, + "step": 105380 + }, + { + "epoch": 0.674464, + "grad_norm": 1.952710509300232, + "learning_rate": 1.5503573333333334e-05, + "loss": 0.0092, + "step": 105385 + }, + { + "epoch": 0.674496, + "grad_norm": 1.6928751468658447, + "learning_rate": 1.5503360000000002e-05, + "loss": 0.0147, + "step": 105390 + }, + { + "epoch": 0.674528, + "grad_norm": 0.11224721372127533, + "learning_rate": 1.550314666666667e-05, + "loss": 0.0106, + "step": 105395 + }, + { + "epoch": 0.67456, + "grad_norm": 0.44534099102020264, + "learning_rate": 1.5502933333333334e-05, + "loss": 0.0155, + "step": 105400 + }, + { + "epoch": 0.674592, + "grad_norm": 1.0102488994598389, + "learning_rate": 1.550272e-05, + "loss": 0.0093, + "step": 105405 + }, + { + "epoch": 0.674624, + "grad_norm": 0.6345097422599792, + "learning_rate": 1.550250666666667e-05, + "loss": 0.01, + "step": 105410 + }, + { + "epoch": 0.674656, + "grad_norm": 0.2505127787590027, + "learning_rate": 1.5502293333333333e-05, + "loss": 0.018, + "step": 105415 + }, + { + "epoch": 0.674688, + "grad_norm": 0.3194409906864166, + "learning_rate": 1.550208e-05, + "loss": 0.0043, + "step": 105420 + }, + { + "epoch": 0.67472, + "grad_norm": 0.37616920471191406, + "learning_rate": 1.5501866666666668e-05, + "loss": 0.0117, + "step": 105425 + }, + { + "epoch": 0.674752, + "grad_norm": 0.0709233433008194, + "learning_rate": 1.5501653333333336e-05, + "loss": 0.0041, + "step": 105430 + }, + { + "epoch": 0.674784, + "grad_norm": 0.721164345741272, + "learning_rate": 1.550144e-05, + "loss": 0.0086, + "step": 105435 + }, + { + "epoch": 0.674816, + "grad_norm": 0.30040010809898376, + "learning_rate": 1.5501226666666667e-05, + "loss": 0.0147, + "step": 105440 + }, + { + "epoch": 0.674848, + "grad_norm": 0.07415474206209183, + "learning_rate": 1.5501013333333335e-05, + "loss": 0.0157, + "step": 105445 + }, + { + "epoch": 0.67488, + "grad_norm": 0.10429040342569351, + "learning_rate": 1.55008e-05, + "loss": 0.0058, + "step": 105450 + }, + { + "epoch": 0.674912, + "grad_norm": 0.3619820475578308, + "learning_rate": 1.5500586666666667e-05, + "loss": 0.0244, + "step": 105455 + }, + { + "epoch": 0.674944, + "grad_norm": 0.20183701813220978, + "learning_rate": 1.5500373333333334e-05, + "loss": 0.0083, + "step": 105460 + }, + { + "epoch": 0.674976, + "grad_norm": 0.15788935124874115, + "learning_rate": 1.5500160000000002e-05, + "loss": 0.0044, + "step": 105465 + }, + { + "epoch": 0.675008, + "grad_norm": 0.5219143629074097, + "learning_rate": 1.549994666666667e-05, + "loss": 0.0124, + "step": 105470 + }, + { + "epoch": 0.67504, + "grad_norm": 0.3654777705669403, + "learning_rate": 1.5499733333333337e-05, + "loss": 0.0108, + "step": 105475 + }, + { + "epoch": 0.675072, + "grad_norm": 0.23872019350528717, + "learning_rate": 1.549952e-05, + "loss": 0.0051, + "step": 105480 + }, + { + "epoch": 0.675104, + "grad_norm": 1.4326343536376953, + "learning_rate": 1.549930666666667e-05, + "loss": 0.0169, + "step": 105485 + }, + { + "epoch": 0.675136, + "grad_norm": 0.488400399684906, + "learning_rate": 1.5499093333333336e-05, + "loss": 0.0155, + "step": 105490 + }, + { + "epoch": 0.675168, + "grad_norm": 0.16049794852733612, + "learning_rate": 1.549888e-05, + "loss": 0.0083, + "step": 105495 + }, + { + "epoch": 0.6752, + "grad_norm": 0.2532019317150116, + "learning_rate": 1.5498666666666668e-05, + "loss": 0.0156, + "step": 105500 + }, + { + "epoch": 0.675232, + "grad_norm": 0.1968836784362793, + "learning_rate": 1.5498453333333335e-05, + "loss": 0.0047, + "step": 105505 + }, + { + "epoch": 0.675264, + "grad_norm": 0.3227825462818146, + "learning_rate": 1.5498240000000003e-05, + "loss": 0.0183, + "step": 105510 + }, + { + "epoch": 0.675296, + "grad_norm": 1.4036834239959717, + "learning_rate": 1.5498026666666667e-05, + "loss": 0.0186, + "step": 105515 + }, + { + "epoch": 0.675328, + "grad_norm": 0.7342678308486938, + "learning_rate": 1.5497813333333335e-05, + "loss": 0.0134, + "step": 105520 + }, + { + "epoch": 0.67536, + "grad_norm": 0.1923302710056305, + "learning_rate": 1.5497600000000002e-05, + "loss": 0.0063, + "step": 105525 + }, + { + "epoch": 0.675392, + "grad_norm": 0.9881296157836914, + "learning_rate": 1.5497386666666666e-05, + "loss": 0.0194, + "step": 105530 + }, + { + "epoch": 0.675424, + "grad_norm": 0.7864812612533569, + "learning_rate": 1.5497173333333334e-05, + "loss": 0.0109, + "step": 105535 + }, + { + "epoch": 0.675456, + "grad_norm": 0.02564375102519989, + "learning_rate": 1.549696e-05, + "loss": 0.015, + "step": 105540 + }, + { + "epoch": 0.675488, + "grad_norm": 0.45733287930488586, + "learning_rate": 1.549674666666667e-05, + "loss": 0.0178, + "step": 105545 + }, + { + "epoch": 0.67552, + "grad_norm": 0.0931633710861206, + "learning_rate": 1.5496533333333333e-05, + "loss": 0.0274, + "step": 105550 + }, + { + "epoch": 0.675552, + "grad_norm": 0.37695878744125366, + "learning_rate": 1.549632e-05, + "loss": 0.0048, + "step": 105555 + }, + { + "epoch": 0.675584, + "grad_norm": 0.3180024027824402, + "learning_rate": 1.5496106666666668e-05, + "loss": 0.0199, + "step": 105560 + }, + { + "epoch": 0.675616, + "grad_norm": 0.2772272825241089, + "learning_rate": 1.5495893333333332e-05, + "loss": 0.0262, + "step": 105565 + }, + { + "epoch": 0.675648, + "grad_norm": 0.07165070623159409, + "learning_rate": 1.5495680000000003e-05, + "loss": 0.0233, + "step": 105570 + }, + { + "epoch": 0.67568, + "grad_norm": 0.45414403080940247, + "learning_rate": 1.5495466666666668e-05, + "loss": 0.016, + "step": 105575 + }, + { + "epoch": 0.675712, + "grad_norm": 0.5858761072158813, + "learning_rate": 1.5495253333333335e-05, + "loss": 0.0127, + "step": 105580 + }, + { + "epoch": 0.675744, + "grad_norm": 1.6236151456832886, + "learning_rate": 1.5495040000000003e-05, + "loss": 0.0177, + "step": 105585 + }, + { + "epoch": 0.675776, + "grad_norm": 1.0007728338241577, + "learning_rate": 1.5494826666666667e-05, + "loss": 0.0103, + "step": 105590 + }, + { + "epoch": 0.675808, + "grad_norm": 0.504252552986145, + "learning_rate": 1.5494613333333334e-05, + "loss": 0.0175, + "step": 105595 + }, + { + "epoch": 0.67584, + "grad_norm": 0.6758325099945068, + "learning_rate": 1.5494400000000002e-05, + "loss": 0.012, + "step": 105600 + }, + { + "epoch": 0.675872, + "grad_norm": 2.0068509578704834, + "learning_rate": 1.549418666666667e-05, + "loss": 0.0183, + "step": 105605 + }, + { + "epoch": 0.675904, + "grad_norm": 0.4701746702194214, + "learning_rate": 1.5493973333333334e-05, + "loss": 0.026, + "step": 105610 + }, + { + "epoch": 0.675936, + "grad_norm": 1.0000250339508057, + "learning_rate": 1.549376e-05, + "loss": 0.0456, + "step": 105615 + }, + { + "epoch": 0.675968, + "grad_norm": 0.6766345500946045, + "learning_rate": 1.549354666666667e-05, + "loss": 0.0072, + "step": 105620 + }, + { + "epoch": 0.676, + "grad_norm": 0.583868145942688, + "learning_rate": 1.5493333333333333e-05, + "loss": 0.0075, + "step": 105625 + }, + { + "epoch": 0.676032, + "grad_norm": 0.16102035343647003, + "learning_rate": 1.549312e-05, + "loss": 0.0063, + "step": 105630 + }, + { + "epoch": 0.676064, + "grad_norm": 0.5220444798469543, + "learning_rate": 1.5492906666666668e-05, + "loss": 0.0105, + "step": 105635 + }, + { + "epoch": 0.676096, + "grad_norm": 0.28211984038352966, + "learning_rate": 1.5492693333333336e-05, + "loss": 0.0114, + "step": 105640 + }, + { + "epoch": 0.676128, + "grad_norm": 0.9107869267463684, + "learning_rate": 1.549248e-05, + "loss": 0.0231, + "step": 105645 + }, + { + "epoch": 0.67616, + "grad_norm": 0.2571799159049988, + "learning_rate": 1.5492266666666667e-05, + "loss": 0.0054, + "step": 105650 + }, + { + "epoch": 0.676192, + "grad_norm": 0.13633665442466736, + "learning_rate": 1.5492053333333335e-05, + "loss": 0.0115, + "step": 105655 + }, + { + "epoch": 0.676224, + "grad_norm": 0.48181506991386414, + "learning_rate": 1.549184e-05, + "loss": 0.0372, + "step": 105660 + }, + { + "epoch": 0.676256, + "grad_norm": 0.5461753010749817, + "learning_rate": 1.5491626666666667e-05, + "loss": 0.0194, + "step": 105665 + }, + { + "epoch": 0.676288, + "grad_norm": 0.9159020781517029, + "learning_rate": 1.5491413333333334e-05, + "loss": 0.0294, + "step": 105670 + }, + { + "epoch": 0.67632, + "grad_norm": 0.704435408115387, + "learning_rate": 1.5491200000000002e-05, + "loss": 0.0228, + "step": 105675 + }, + { + "epoch": 0.676352, + "grad_norm": 0.683805525302887, + "learning_rate": 1.5490986666666666e-05, + "loss": 0.0151, + "step": 105680 + }, + { + "epoch": 0.676384, + "grad_norm": 0.8093430995941162, + "learning_rate": 1.5490773333333337e-05, + "loss": 0.0154, + "step": 105685 + }, + { + "epoch": 0.676416, + "grad_norm": 0.2511008679866791, + "learning_rate": 1.549056e-05, + "loss": 0.0105, + "step": 105690 + }, + { + "epoch": 0.676448, + "grad_norm": 0.9586232900619507, + "learning_rate": 1.549034666666667e-05, + "loss": 0.02, + "step": 105695 + }, + { + "epoch": 0.67648, + "grad_norm": 0.4863130748271942, + "learning_rate": 1.5490133333333336e-05, + "loss": 0.0153, + "step": 105700 + }, + { + "epoch": 0.676512, + "grad_norm": 1.8067317008972168, + "learning_rate": 1.548992e-05, + "loss": 0.0066, + "step": 105705 + }, + { + "epoch": 0.676544, + "grad_norm": 0.5110768675804138, + "learning_rate": 1.5489706666666668e-05, + "loss": 0.0089, + "step": 105710 + }, + { + "epoch": 0.676576, + "grad_norm": 0.6460601091384888, + "learning_rate": 1.5489493333333335e-05, + "loss": 0.0106, + "step": 105715 + }, + { + "epoch": 0.676608, + "grad_norm": 0.22789838910102844, + "learning_rate": 1.5489280000000003e-05, + "loss": 0.035, + "step": 105720 + }, + { + "epoch": 0.67664, + "grad_norm": 0.19625703990459442, + "learning_rate": 1.5489066666666667e-05, + "loss": 0.0083, + "step": 105725 + }, + { + "epoch": 0.676672, + "grad_norm": 0.24218204617500305, + "learning_rate": 1.5488853333333335e-05, + "loss": 0.0074, + "step": 105730 + }, + { + "epoch": 0.676704, + "grad_norm": 0.8176535367965698, + "learning_rate": 1.5488640000000002e-05, + "loss": 0.0149, + "step": 105735 + }, + { + "epoch": 0.676736, + "grad_norm": 0.10007333755493164, + "learning_rate": 1.5488426666666666e-05, + "loss": 0.0038, + "step": 105740 + }, + { + "epoch": 0.676768, + "grad_norm": 1.2368720769882202, + "learning_rate": 1.5488213333333334e-05, + "loss": 0.0102, + "step": 105745 + }, + { + "epoch": 0.6768, + "grad_norm": 0.07309798896312714, + "learning_rate": 1.5488e-05, + "loss": 0.0059, + "step": 105750 + }, + { + "epoch": 0.676832, + "grad_norm": 0.922204315662384, + "learning_rate": 1.548778666666667e-05, + "loss": 0.0173, + "step": 105755 + }, + { + "epoch": 0.676864, + "grad_norm": 0.6814716458320618, + "learning_rate": 1.5487573333333333e-05, + "loss": 0.0093, + "step": 105760 + }, + { + "epoch": 0.676896, + "grad_norm": 0.21221311390399933, + "learning_rate": 1.548736e-05, + "loss": 0.023, + "step": 105765 + }, + { + "epoch": 0.676928, + "grad_norm": 0.19602492451667786, + "learning_rate": 1.5487146666666668e-05, + "loss": 0.0103, + "step": 105770 + }, + { + "epoch": 0.67696, + "grad_norm": 0.3581419587135315, + "learning_rate": 1.5486933333333332e-05, + "loss": 0.0099, + "step": 105775 + }, + { + "epoch": 0.676992, + "grad_norm": 0.42935630679130554, + "learning_rate": 1.5486720000000003e-05, + "loss": 0.0088, + "step": 105780 + }, + { + "epoch": 0.677024, + "grad_norm": 0.322988361120224, + "learning_rate": 1.5486506666666668e-05, + "loss": 0.0103, + "step": 105785 + }, + { + "epoch": 0.677056, + "grad_norm": 0.4490942060947418, + "learning_rate": 1.5486293333333335e-05, + "loss": 0.0158, + "step": 105790 + }, + { + "epoch": 0.677088, + "grad_norm": 0.5076648592948914, + "learning_rate": 1.5486080000000003e-05, + "loss": 0.0244, + "step": 105795 + }, + { + "epoch": 0.67712, + "grad_norm": 0.6160578727722168, + "learning_rate": 1.5485866666666667e-05, + "loss": 0.008, + "step": 105800 + }, + { + "epoch": 0.677152, + "grad_norm": 0.36178600788116455, + "learning_rate": 1.5485653333333334e-05, + "loss": 0.0097, + "step": 105805 + }, + { + "epoch": 0.677184, + "grad_norm": 0.9064164757728577, + "learning_rate": 1.5485440000000002e-05, + "loss": 0.0319, + "step": 105810 + }, + { + "epoch": 0.677216, + "grad_norm": 0.16771510243415833, + "learning_rate": 1.548522666666667e-05, + "loss": 0.0096, + "step": 105815 + }, + { + "epoch": 0.677248, + "grad_norm": 0.5642691850662231, + "learning_rate": 1.5485013333333334e-05, + "loss": 0.0171, + "step": 105820 + }, + { + "epoch": 0.67728, + "grad_norm": 0.2786787152290344, + "learning_rate": 1.54848e-05, + "loss": 0.0089, + "step": 105825 + }, + { + "epoch": 0.677312, + "grad_norm": 0.23766165971755981, + "learning_rate": 1.548458666666667e-05, + "loss": 0.0156, + "step": 105830 + }, + { + "epoch": 0.677344, + "grad_norm": 1.186127781867981, + "learning_rate": 1.5484373333333336e-05, + "loss": 0.0105, + "step": 105835 + }, + { + "epoch": 0.677376, + "grad_norm": 0.25012966990470886, + "learning_rate": 1.548416e-05, + "loss": 0.0169, + "step": 105840 + }, + { + "epoch": 0.677408, + "grad_norm": 0.08766042441129684, + "learning_rate": 1.5483946666666668e-05, + "loss": 0.0089, + "step": 105845 + }, + { + "epoch": 0.67744, + "grad_norm": 0.6529065370559692, + "learning_rate": 1.5483733333333336e-05, + "loss": 0.0235, + "step": 105850 + }, + { + "epoch": 0.677472, + "grad_norm": 1.3400251865386963, + "learning_rate": 1.548352e-05, + "loss": 0.0165, + "step": 105855 + }, + { + "epoch": 0.677504, + "grad_norm": 0.18014131486415863, + "learning_rate": 1.5483306666666667e-05, + "loss": 0.0124, + "step": 105860 + }, + { + "epoch": 0.677536, + "grad_norm": 0.6074699759483337, + "learning_rate": 1.5483093333333335e-05, + "loss": 0.0184, + "step": 105865 + }, + { + "epoch": 0.677568, + "grad_norm": 0.5780839323997498, + "learning_rate": 1.5482880000000002e-05, + "loss": 0.01, + "step": 105870 + }, + { + "epoch": 0.6776, + "grad_norm": 0.473850280046463, + "learning_rate": 1.5482666666666667e-05, + "loss": 0.0137, + "step": 105875 + }, + { + "epoch": 0.677632, + "grad_norm": 0.9545907974243164, + "learning_rate": 1.5482453333333334e-05, + "loss": 0.0038, + "step": 105880 + }, + { + "epoch": 0.677664, + "grad_norm": 0.753563642501831, + "learning_rate": 1.5482240000000002e-05, + "loss": 0.0133, + "step": 105885 + }, + { + "epoch": 0.677696, + "grad_norm": 0.8601505160331726, + "learning_rate": 1.5482026666666666e-05, + "loss": 0.0141, + "step": 105890 + }, + { + "epoch": 0.677728, + "grad_norm": 0.28107789158821106, + "learning_rate": 1.5481813333333337e-05, + "loss": 0.0098, + "step": 105895 + }, + { + "epoch": 0.67776, + "grad_norm": 1.062483310699463, + "learning_rate": 1.54816e-05, + "loss": 0.0124, + "step": 105900 + }, + { + "epoch": 0.677792, + "grad_norm": 0.7830012440681458, + "learning_rate": 1.548138666666667e-05, + "loss": 0.0094, + "step": 105905 + }, + { + "epoch": 0.677824, + "grad_norm": 0.3785952031612396, + "learning_rate": 1.5481173333333336e-05, + "loss": 0.0203, + "step": 105910 + }, + { + "epoch": 0.677856, + "grad_norm": 0.10272999107837677, + "learning_rate": 1.548096e-05, + "loss": 0.0059, + "step": 105915 + }, + { + "epoch": 0.677888, + "grad_norm": 0.6881963610649109, + "learning_rate": 1.5480746666666668e-05, + "loss": 0.0127, + "step": 105920 + }, + { + "epoch": 0.67792, + "grad_norm": 0.7766656875610352, + "learning_rate": 1.5480533333333335e-05, + "loss": 0.006, + "step": 105925 + }, + { + "epoch": 0.677952, + "grad_norm": 0.14520637691020966, + "learning_rate": 1.5480320000000003e-05, + "loss": 0.0077, + "step": 105930 + }, + { + "epoch": 0.677984, + "grad_norm": 1.2162234783172607, + "learning_rate": 1.5480106666666667e-05, + "loss": 0.0174, + "step": 105935 + }, + { + "epoch": 0.678016, + "grad_norm": 0.4982385039329529, + "learning_rate": 1.5479893333333335e-05, + "loss": 0.0092, + "step": 105940 + }, + { + "epoch": 0.678048, + "grad_norm": 1.1516708135604858, + "learning_rate": 1.5479680000000002e-05, + "loss": 0.0214, + "step": 105945 + }, + { + "epoch": 0.67808, + "grad_norm": 0.5557915568351746, + "learning_rate": 1.5479466666666666e-05, + "loss": 0.0075, + "step": 105950 + }, + { + "epoch": 0.678112, + "grad_norm": 0.6450743079185486, + "learning_rate": 1.5479253333333334e-05, + "loss": 0.0104, + "step": 105955 + }, + { + "epoch": 0.678144, + "grad_norm": 0.6275241374969482, + "learning_rate": 1.547904e-05, + "loss": 0.0103, + "step": 105960 + }, + { + "epoch": 0.678176, + "grad_norm": 1.9055925607681274, + "learning_rate": 1.547882666666667e-05, + "loss": 0.0218, + "step": 105965 + }, + { + "epoch": 0.678208, + "grad_norm": 0.8164899945259094, + "learning_rate": 1.5478613333333333e-05, + "loss": 0.023, + "step": 105970 + }, + { + "epoch": 0.67824, + "grad_norm": 0.10334250330924988, + "learning_rate": 1.54784e-05, + "loss": 0.0072, + "step": 105975 + }, + { + "epoch": 0.678272, + "grad_norm": 0.4423569142818451, + "learning_rate": 1.5478186666666668e-05, + "loss": 0.0251, + "step": 105980 + }, + { + "epoch": 0.678304, + "grad_norm": 1.0012956857681274, + "learning_rate": 1.5477973333333332e-05, + "loss": 0.0171, + "step": 105985 + }, + { + "epoch": 0.678336, + "grad_norm": 0.46564367413520813, + "learning_rate": 1.547776e-05, + "loss": 0.0163, + "step": 105990 + }, + { + "epoch": 0.678368, + "grad_norm": 4.4864044189453125, + "learning_rate": 1.5477546666666668e-05, + "loss": 0.042, + "step": 105995 + }, + { + "epoch": 0.6784, + "grad_norm": 0.41036149859428406, + "learning_rate": 1.5477333333333335e-05, + "loss": 0.0155, + "step": 106000 + }, + { + "epoch": 0.678432, + "grad_norm": 0.40584999322891235, + "learning_rate": 1.5477120000000003e-05, + "loss": 0.0089, + "step": 106005 + }, + { + "epoch": 0.678464, + "grad_norm": 1.088650107383728, + "learning_rate": 1.547690666666667e-05, + "loss": 0.0193, + "step": 106010 + }, + { + "epoch": 0.678496, + "grad_norm": 0.2649628520011902, + "learning_rate": 1.5476693333333334e-05, + "loss": 0.0137, + "step": 106015 + }, + { + "epoch": 0.678528, + "grad_norm": 0.7469481229782104, + "learning_rate": 1.5476480000000002e-05, + "loss": 0.0161, + "step": 106020 + }, + { + "epoch": 0.67856, + "grad_norm": 0.5348629355430603, + "learning_rate": 1.547626666666667e-05, + "loss": 0.017, + "step": 106025 + }, + { + "epoch": 0.678592, + "grad_norm": 0.20775960385799408, + "learning_rate": 1.5476053333333334e-05, + "loss": 0.0162, + "step": 106030 + }, + { + "epoch": 0.678624, + "grad_norm": 1.1833627223968506, + "learning_rate": 1.547584e-05, + "loss": 0.0199, + "step": 106035 + }, + { + "epoch": 0.678656, + "grad_norm": 0.4034554362297058, + "learning_rate": 1.547562666666667e-05, + "loss": 0.0081, + "step": 106040 + }, + { + "epoch": 0.678688, + "grad_norm": 0.6876378655433655, + "learning_rate": 1.5475413333333336e-05, + "loss": 0.0159, + "step": 106045 + }, + { + "epoch": 0.67872, + "grad_norm": 1.2779567241668701, + "learning_rate": 1.54752e-05, + "loss": 0.0145, + "step": 106050 + }, + { + "epoch": 0.678752, + "grad_norm": 3.249708652496338, + "learning_rate": 1.5474986666666668e-05, + "loss": 0.0167, + "step": 106055 + }, + { + "epoch": 0.678784, + "grad_norm": 0.7609418630599976, + "learning_rate": 1.5474773333333336e-05, + "loss": 0.0189, + "step": 106060 + }, + { + "epoch": 0.678816, + "grad_norm": 1.0282522439956665, + "learning_rate": 1.547456e-05, + "loss": 0.0123, + "step": 106065 + }, + { + "epoch": 0.678848, + "grad_norm": 0.3885067403316498, + "learning_rate": 1.5474346666666667e-05, + "loss": 0.0054, + "step": 106070 + }, + { + "epoch": 0.67888, + "grad_norm": 0.44475746154785156, + "learning_rate": 1.5474133333333335e-05, + "loss": 0.0072, + "step": 106075 + }, + { + "epoch": 0.678912, + "grad_norm": 3.3079886436462402, + "learning_rate": 1.5473920000000002e-05, + "loss": 0.0271, + "step": 106080 + }, + { + "epoch": 0.678944, + "grad_norm": 0.6691142916679382, + "learning_rate": 1.5473706666666667e-05, + "loss": 0.0088, + "step": 106085 + }, + { + "epoch": 0.678976, + "grad_norm": 0.6697283387184143, + "learning_rate": 1.5473493333333334e-05, + "loss": 0.0073, + "step": 106090 + }, + { + "epoch": 0.679008, + "grad_norm": 0.36181509494781494, + "learning_rate": 1.5473280000000002e-05, + "loss": 0.0166, + "step": 106095 + }, + { + "epoch": 0.67904, + "grad_norm": 0.7002836465835571, + "learning_rate": 1.5473066666666666e-05, + "loss": 0.0226, + "step": 106100 + }, + { + "epoch": 0.679072, + "grad_norm": 0.09425027668476105, + "learning_rate": 1.5472853333333337e-05, + "loss": 0.0107, + "step": 106105 + }, + { + "epoch": 0.679104, + "grad_norm": 0.5234909653663635, + "learning_rate": 1.547264e-05, + "loss": 0.0074, + "step": 106110 + }, + { + "epoch": 0.679136, + "grad_norm": 0.13255208730697632, + "learning_rate": 1.547242666666667e-05, + "loss": 0.008, + "step": 106115 + }, + { + "epoch": 0.679168, + "grad_norm": 0.6557806134223938, + "learning_rate": 1.5472213333333336e-05, + "loss": 0.0125, + "step": 106120 + }, + { + "epoch": 0.6792, + "grad_norm": 1.168602466583252, + "learning_rate": 1.5472e-05, + "loss": 0.0122, + "step": 106125 + }, + { + "epoch": 0.679232, + "grad_norm": 0.5241314768791199, + "learning_rate": 1.5471786666666668e-05, + "loss": 0.0107, + "step": 106130 + }, + { + "epoch": 0.679264, + "grad_norm": 0.8230088949203491, + "learning_rate": 1.5471573333333335e-05, + "loss": 0.0126, + "step": 106135 + }, + { + "epoch": 0.679296, + "grad_norm": 0.20402255654335022, + "learning_rate": 1.5471360000000003e-05, + "loss": 0.0104, + "step": 106140 + }, + { + "epoch": 0.679328, + "grad_norm": 0.78932124376297, + "learning_rate": 1.5471146666666667e-05, + "loss": 0.0202, + "step": 106145 + }, + { + "epoch": 0.67936, + "grad_norm": 1.6827532052993774, + "learning_rate": 1.5470933333333335e-05, + "loss": 0.0288, + "step": 106150 + }, + { + "epoch": 0.679392, + "grad_norm": 0.7071521282196045, + "learning_rate": 1.5470720000000002e-05, + "loss": 0.0091, + "step": 106155 + }, + { + "epoch": 0.679424, + "grad_norm": 0.2950593829154968, + "learning_rate": 1.5470506666666666e-05, + "loss": 0.0132, + "step": 106160 + }, + { + "epoch": 0.679456, + "grad_norm": 0.03464789688587189, + "learning_rate": 1.5470293333333334e-05, + "loss": 0.0188, + "step": 106165 + }, + { + "epoch": 0.679488, + "grad_norm": 0.20104552805423737, + "learning_rate": 1.547008e-05, + "loss": 0.011, + "step": 106170 + }, + { + "epoch": 0.67952, + "grad_norm": 0.08805288374423981, + "learning_rate": 1.546986666666667e-05, + "loss": 0.0115, + "step": 106175 + }, + { + "epoch": 0.679552, + "grad_norm": 2.440547227859497, + "learning_rate": 1.5469653333333333e-05, + "loss": 0.0152, + "step": 106180 + }, + { + "epoch": 0.679584, + "grad_norm": 0.8919312357902527, + "learning_rate": 1.546944e-05, + "loss": 0.0147, + "step": 106185 + }, + { + "epoch": 0.679616, + "grad_norm": 0.8834999799728394, + "learning_rate": 1.5469226666666668e-05, + "loss": 0.0237, + "step": 106190 + }, + { + "epoch": 0.679648, + "grad_norm": 0.24815692007541656, + "learning_rate": 1.5469013333333332e-05, + "loss": 0.0135, + "step": 106195 + }, + { + "epoch": 0.67968, + "grad_norm": 0.5599088668823242, + "learning_rate": 1.54688e-05, + "loss": 0.0362, + "step": 106200 + }, + { + "epoch": 0.679712, + "grad_norm": 0.8181852698326111, + "learning_rate": 1.5468586666666668e-05, + "loss": 0.0161, + "step": 106205 + }, + { + "epoch": 0.679744, + "grad_norm": 0.5460638999938965, + "learning_rate": 1.5468373333333335e-05, + "loss": 0.0138, + "step": 106210 + }, + { + "epoch": 0.679776, + "grad_norm": 0.5101193189620972, + "learning_rate": 1.546816e-05, + "loss": 0.0067, + "step": 106215 + }, + { + "epoch": 0.679808, + "grad_norm": 0.14752539992332458, + "learning_rate": 1.546794666666667e-05, + "loss": 0.01, + "step": 106220 + }, + { + "epoch": 0.67984, + "grad_norm": 1.8926465511322021, + "learning_rate": 1.5467733333333334e-05, + "loss": 0.0235, + "step": 106225 + }, + { + "epoch": 0.679872, + "grad_norm": 0.7785958647727966, + "learning_rate": 1.5467520000000002e-05, + "loss": 0.0103, + "step": 106230 + }, + { + "epoch": 0.679904, + "grad_norm": 0.6646199226379395, + "learning_rate": 1.546730666666667e-05, + "loss": 0.0136, + "step": 106235 + }, + { + "epoch": 0.679936, + "grad_norm": 0.2715117037296295, + "learning_rate": 1.5467093333333334e-05, + "loss": 0.0413, + "step": 106240 + }, + { + "epoch": 0.679968, + "grad_norm": 0.5330536365509033, + "learning_rate": 1.546688e-05, + "loss": 0.0087, + "step": 106245 + }, + { + "epoch": 0.68, + "grad_norm": 0.2804625630378723, + "learning_rate": 1.546666666666667e-05, + "loss": 0.0142, + "step": 106250 + }, + { + "epoch": 0.680032, + "grad_norm": 0.1704157292842865, + "learning_rate": 1.5466453333333336e-05, + "loss": 0.0178, + "step": 106255 + }, + { + "epoch": 0.680064, + "grad_norm": 0.34947213530540466, + "learning_rate": 1.546624e-05, + "loss": 0.0112, + "step": 106260 + }, + { + "epoch": 0.680096, + "grad_norm": 1.8033033609390259, + "learning_rate": 1.5466026666666668e-05, + "loss": 0.0105, + "step": 106265 + }, + { + "epoch": 0.680128, + "grad_norm": 0.43399524688720703, + "learning_rate": 1.5465813333333336e-05, + "loss": 0.02, + "step": 106270 + }, + { + "epoch": 0.68016, + "grad_norm": 0.19700278341770172, + "learning_rate": 1.54656e-05, + "loss": 0.0206, + "step": 106275 + }, + { + "epoch": 0.680192, + "grad_norm": 0.3706604540348053, + "learning_rate": 1.5465386666666667e-05, + "loss": 0.0119, + "step": 106280 + }, + { + "epoch": 0.680224, + "grad_norm": 0.13138748705387115, + "learning_rate": 1.5465173333333335e-05, + "loss": 0.0179, + "step": 106285 + }, + { + "epoch": 0.680256, + "grad_norm": 0.1351463943719864, + "learning_rate": 1.5464960000000002e-05, + "loss": 0.017, + "step": 106290 + }, + { + "epoch": 0.680288, + "grad_norm": 0.3549725115299225, + "learning_rate": 1.5464746666666667e-05, + "loss": 0.0199, + "step": 106295 + }, + { + "epoch": 0.68032, + "grad_norm": 0.15442900359630585, + "learning_rate": 1.5464533333333334e-05, + "loss": 0.0063, + "step": 106300 + }, + { + "epoch": 0.680352, + "grad_norm": 0.06782093644142151, + "learning_rate": 1.5464320000000002e-05, + "loss": 0.0167, + "step": 106305 + }, + { + "epoch": 0.680384, + "grad_norm": 1.0404125452041626, + "learning_rate": 1.5464106666666666e-05, + "loss": 0.0193, + "step": 106310 + }, + { + "epoch": 0.680416, + "grad_norm": 0.19381728768348694, + "learning_rate": 1.5463893333333337e-05, + "loss": 0.0073, + "step": 106315 + }, + { + "epoch": 0.680448, + "grad_norm": 0.10811322927474976, + "learning_rate": 1.546368e-05, + "loss": 0.0093, + "step": 106320 + }, + { + "epoch": 0.68048, + "grad_norm": 0.29500630497932434, + "learning_rate": 1.546346666666667e-05, + "loss": 0.0144, + "step": 106325 + }, + { + "epoch": 0.680512, + "grad_norm": 1.158488392829895, + "learning_rate": 1.5463253333333336e-05, + "loss": 0.0082, + "step": 106330 + }, + { + "epoch": 0.680544, + "grad_norm": 3.810642719268799, + "learning_rate": 1.546304e-05, + "loss": 0.0258, + "step": 106335 + }, + { + "epoch": 0.680576, + "grad_norm": 0.38154006004333496, + "learning_rate": 1.5462826666666668e-05, + "loss": 0.0173, + "step": 106340 + }, + { + "epoch": 0.680608, + "grad_norm": 0.5254184603691101, + "learning_rate": 1.5462613333333335e-05, + "loss": 0.0096, + "step": 106345 + }, + { + "epoch": 0.68064, + "grad_norm": 0.09973277896642685, + "learning_rate": 1.5462400000000003e-05, + "loss": 0.0076, + "step": 106350 + }, + { + "epoch": 0.680672, + "grad_norm": 0.35859906673431396, + "learning_rate": 1.5462186666666667e-05, + "loss": 0.0135, + "step": 106355 + }, + { + "epoch": 0.680704, + "grad_norm": 0.028086259961128235, + "learning_rate": 1.5461973333333335e-05, + "loss": 0.0049, + "step": 106360 + }, + { + "epoch": 0.680736, + "grad_norm": 0.10295353084802628, + "learning_rate": 1.5461760000000002e-05, + "loss": 0.0137, + "step": 106365 + }, + { + "epoch": 0.680768, + "grad_norm": 0.743296205997467, + "learning_rate": 1.5461546666666666e-05, + "loss": 0.013, + "step": 106370 + }, + { + "epoch": 0.6808, + "grad_norm": 0.3794268071651459, + "learning_rate": 1.5461333333333334e-05, + "loss": 0.0196, + "step": 106375 + }, + { + "epoch": 0.680832, + "grad_norm": 0.5788630843162537, + "learning_rate": 1.546112e-05, + "loss": 0.0081, + "step": 106380 + }, + { + "epoch": 0.680864, + "grad_norm": 0.1252555251121521, + "learning_rate": 1.546090666666667e-05, + "loss": 0.0147, + "step": 106385 + }, + { + "epoch": 0.680896, + "grad_norm": 0.601525604724884, + "learning_rate": 1.5460693333333333e-05, + "loss": 0.0227, + "step": 106390 + }, + { + "epoch": 0.680928, + "grad_norm": 0.039974428713321686, + "learning_rate": 1.546048e-05, + "loss": 0.0191, + "step": 106395 + }, + { + "epoch": 0.68096, + "grad_norm": 0.2254221886396408, + "learning_rate": 1.546026666666667e-05, + "loss": 0.0094, + "step": 106400 + }, + { + "epoch": 0.680992, + "grad_norm": 0.10697277635335922, + "learning_rate": 1.5460053333333332e-05, + "loss": 0.0167, + "step": 106405 + }, + { + "epoch": 0.681024, + "grad_norm": 0.43331179022789, + "learning_rate": 1.545984e-05, + "loss": 0.0061, + "step": 106410 + }, + { + "epoch": 0.681056, + "grad_norm": 0.2445567101240158, + "learning_rate": 1.5459626666666668e-05, + "loss": 0.0044, + "step": 106415 + }, + { + "epoch": 0.681088, + "grad_norm": 1.2296552658081055, + "learning_rate": 1.5459413333333335e-05, + "loss": 0.0168, + "step": 106420 + }, + { + "epoch": 0.68112, + "grad_norm": 0.32357674837112427, + "learning_rate": 1.54592e-05, + "loss": 0.0169, + "step": 106425 + }, + { + "epoch": 0.681152, + "grad_norm": 0.586211085319519, + "learning_rate": 1.545898666666667e-05, + "loss": 0.0214, + "step": 106430 + }, + { + "epoch": 0.681184, + "grad_norm": 1.4805175065994263, + "learning_rate": 1.5458773333333334e-05, + "loss": 0.0272, + "step": 106435 + }, + { + "epoch": 0.681216, + "grad_norm": 0.4179445207118988, + "learning_rate": 1.545856e-05, + "loss": 0.0139, + "step": 106440 + }, + { + "epoch": 0.681248, + "grad_norm": 0.4333679676055908, + "learning_rate": 1.545834666666667e-05, + "loss": 0.0089, + "step": 106445 + }, + { + "epoch": 0.68128, + "grad_norm": 0.33125609159469604, + "learning_rate": 1.5458133333333334e-05, + "loss": 0.0113, + "step": 106450 + }, + { + "epoch": 0.681312, + "grad_norm": 0.19343121349811554, + "learning_rate": 1.545792e-05, + "loss": 0.016, + "step": 106455 + }, + { + "epoch": 0.681344, + "grad_norm": 0.11614196747541428, + "learning_rate": 1.545770666666667e-05, + "loss": 0.0118, + "step": 106460 + }, + { + "epoch": 0.681376, + "grad_norm": 1.213004469871521, + "learning_rate": 1.5457493333333336e-05, + "loss": 0.011, + "step": 106465 + }, + { + "epoch": 0.681408, + "grad_norm": 0.3378227651119232, + "learning_rate": 1.545728e-05, + "loss": 0.0063, + "step": 106470 + }, + { + "epoch": 0.68144, + "grad_norm": 0.3436751961708069, + "learning_rate": 1.5457066666666668e-05, + "loss": 0.0174, + "step": 106475 + }, + { + "epoch": 0.681472, + "grad_norm": 0.20337986946105957, + "learning_rate": 1.5456853333333336e-05, + "loss": 0.0207, + "step": 106480 + }, + { + "epoch": 0.681504, + "grad_norm": 1.1030759811401367, + "learning_rate": 1.545664e-05, + "loss": 0.011, + "step": 106485 + }, + { + "epoch": 0.681536, + "grad_norm": 0.3655649423599243, + "learning_rate": 1.5456426666666667e-05, + "loss": 0.0099, + "step": 106490 + }, + { + "epoch": 0.681568, + "grad_norm": 0.5533867478370667, + "learning_rate": 1.5456213333333335e-05, + "loss": 0.0218, + "step": 106495 + }, + { + "epoch": 0.6816, + "grad_norm": 0.3347805142402649, + "learning_rate": 1.5456000000000002e-05, + "loss": 0.0057, + "step": 106500 + }, + { + "epoch": 0.681632, + "grad_norm": 0.4129049479961395, + "learning_rate": 1.5455786666666667e-05, + "loss": 0.0231, + "step": 106505 + }, + { + "epoch": 0.681664, + "grad_norm": 0.5241691470146179, + "learning_rate": 1.5455573333333334e-05, + "loss": 0.0089, + "step": 106510 + }, + { + "epoch": 0.681696, + "grad_norm": 0.1265791356563568, + "learning_rate": 1.5455360000000002e-05, + "loss": 0.0157, + "step": 106515 + }, + { + "epoch": 0.681728, + "grad_norm": 2.312873601913452, + "learning_rate": 1.5455146666666666e-05, + "loss": 0.0182, + "step": 106520 + }, + { + "epoch": 0.68176, + "grad_norm": 1.1624925136566162, + "learning_rate": 1.5454933333333333e-05, + "loss": 0.0064, + "step": 106525 + }, + { + "epoch": 0.681792, + "grad_norm": 1.035341739654541, + "learning_rate": 1.545472e-05, + "loss": 0.0132, + "step": 106530 + }, + { + "epoch": 0.681824, + "grad_norm": 0.872870922088623, + "learning_rate": 1.545450666666667e-05, + "loss": 0.0271, + "step": 106535 + }, + { + "epoch": 0.681856, + "grad_norm": 0.2745813727378845, + "learning_rate": 1.5454293333333336e-05, + "loss": 0.016, + "step": 106540 + }, + { + "epoch": 0.681888, + "grad_norm": 0.39607951045036316, + "learning_rate": 1.545408e-05, + "loss": 0.0124, + "step": 106545 + }, + { + "epoch": 0.68192, + "grad_norm": 0.6595926284790039, + "learning_rate": 1.5453866666666668e-05, + "loss": 0.0136, + "step": 106550 + }, + { + "epoch": 0.681952, + "grad_norm": 1.8109381198883057, + "learning_rate": 1.5453653333333335e-05, + "loss": 0.0184, + "step": 106555 + }, + { + "epoch": 0.681984, + "grad_norm": 0.7503178119659424, + "learning_rate": 1.5453440000000003e-05, + "loss": 0.0189, + "step": 106560 + }, + { + "epoch": 0.682016, + "grad_norm": 0.021961335092782974, + "learning_rate": 1.5453226666666667e-05, + "loss": 0.0201, + "step": 106565 + }, + { + "epoch": 0.682048, + "grad_norm": 0.3676813840866089, + "learning_rate": 1.5453013333333335e-05, + "loss": 0.0089, + "step": 106570 + }, + { + "epoch": 0.68208, + "grad_norm": 0.06779786944389343, + "learning_rate": 1.5452800000000002e-05, + "loss": 0.0108, + "step": 106575 + }, + { + "epoch": 0.682112, + "grad_norm": 0.16163058578968048, + "learning_rate": 1.5452586666666666e-05, + "loss": 0.005, + "step": 106580 + }, + { + "epoch": 0.682144, + "grad_norm": 0.6003148555755615, + "learning_rate": 1.5452373333333334e-05, + "loss": 0.0085, + "step": 106585 + }, + { + "epoch": 0.682176, + "grad_norm": 2.3811113834381104, + "learning_rate": 1.545216e-05, + "loss": 0.0097, + "step": 106590 + }, + { + "epoch": 0.682208, + "grad_norm": 0.6906594038009644, + "learning_rate": 1.545194666666667e-05, + "loss": 0.0208, + "step": 106595 + }, + { + "epoch": 0.68224, + "grad_norm": 0.1808052510023117, + "learning_rate": 1.5451733333333333e-05, + "loss": 0.0164, + "step": 106600 + }, + { + "epoch": 0.682272, + "grad_norm": 0.6208068132400513, + "learning_rate": 1.545152e-05, + "loss": 0.0188, + "step": 106605 + }, + { + "epoch": 0.682304, + "grad_norm": 0.7222529649734497, + "learning_rate": 1.545130666666667e-05, + "loss": 0.0133, + "step": 106610 + }, + { + "epoch": 0.682336, + "grad_norm": 1.4983718395233154, + "learning_rate": 1.5451093333333332e-05, + "loss": 0.0198, + "step": 106615 + }, + { + "epoch": 0.682368, + "grad_norm": 0.2720440626144409, + "learning_rate": 1.545088e-05, + "loss": 0.0037, + "step": 106620 + }, + { + "epoch": 0.6824, + "grad_norm": 0.06957127153873444, + "learning_rate": 1.5450666666666668e-05, + "loss": 0.0127, + "step": 106625 + }, + { + "epoch": 0.682432, + "grad_norm": 0.14069092273712158, + "learning_rate": 1.5450453333333335e-05, + "loss": 0.0079, + "step": 106630 + }, + { + "epoch": 0.682464, + "grad_norm": 1.221744418144226, + "learning_rate": 1.545024e-05, + "loss": 0.0079, + "step": 106635 + }, + { + "epoch": 0.682496, + "grad_norm": 1.3673288822174072, + "learning_rate": 1.545002666666667e-05, + "loss": 0.0113, + "step": 106640 + }, + { + "epoch": 0.682528, + "grad_norm": 0.43698650598526, + "learning_rate": 1.5449813333333334e-05, + "loss": 0.0095, + "step": 106645 + }, + { + "epoch": 0.68256, + "grad_norm": 0.48390328884124756, + "learning_rate": 1.5449600000000002e-05, + "loss": 0.0093, + "step": 106650 + }, + { + "epoch": 0.682592, + "grad_norm": 0.04047536477446556, + "learning_rate": 1.544938666666667e-05, + "loss": 0.0116, + "step": 106655 + }, + { + "epoch": 0.682624, + "grad_norm": 0.6703708171844482, + "learning_rate": 1.5449173333333334e-05, + "loss": 0.0206, + "step": 106660 + }, + { + "epoch": 0.682656, + "grad_norm": 0.8735926151275635, + "learning_rate": 1.544896e-05, + "loss": 0.0131, + "step": 106665 + }, + { + "epoch": 0.682688, + "grad_norm": 0.5643491148948669, + "learning_rate": 1.544874666666667e-05, + "loss": 0.0088, + "step": 106670 + }, + { + "epoch": 0.68272, + "grad_norm": 0.8298634886741638, + "learning_rate": 1.5448533333333336e-05, + "loss": 0.0183, + "step": 106675 + }, + { + "epoch": 0.682752, + "grad_norm": 0.6393493413925171, + "learning_rate": 1.544832e-05, + "loss": 0.0245, + "step": 106680 + }, + { + "epoch": 0.682784, + "grad_norm": 6.920407772064209, + "learning_rate": 1.5448106666666668e-05, + "loss": 0.0155, + "step": 106685 + }, + { + "epoch": 0.682816, + "grad_norm": 0.4053911566734314, + "learning_rate": 1.5447893333333336e-05, + "loss": 0.0076, + "step": 106690 + }, + { + "epoch": 0.682848, + "grad_norm": 0.6058886051177979, + "learning_rate": 1.544768e-05, + "loss": 0.0058, + "step": 106695 + }, + { + "epoch": 0.68288, + "grad_norm": 0.20640327036380768, + "learning_rate": 1.5447466666666667e-05, + "loss": 0.0093, + "step": 106700 + }, + { + "epoch": 0.682912, + "grad_norm": 0.07000290602445602, + "learning_rate": 1.5447253333333335e-05, + "loss": 0.0054, + "step": 106705 + }, + { + "epoch": 0.682944, + "grad_norm": 0.9755910634994507, + "learning_rate": 1.5447040000000002e-05, + "loss": 0.014, + "step": 106710 + }, + { + "epoch": 0.682976, + "grad_norm": 0.4857628047466278, + "learning_rate": 1.5446826666666667e-05, + "loss": 0.0159, + "step": 106715 + }, + { + "epoch": 0.683008, + "grad_norm": 0.7273767590522766, + "learning_rate": 1.5446613333333334e-05, + "loss": 0.008, + "step": 106720 + }, + { + "epoch": 0.68304, + "grad_norm": 0.026569370180368423, + "learning_rate": 1.5446400000000002e-05, + "loss": 0.0087, + "step": 106725 + }, + { + "epoch": 0.683072, + "grad_norm": 0.2585071623325348, + "learning_rate": 1.5446186666666666e-05, + "loss": 0.0055, + "step": 106730 + }, + { + "epoch": 0.683104, + "grad_norm": 0.08661369234323502, + "learning_rate": 1.5445973333333333e-05, + "loss": 0.014, + "step": 106735 + }, + { + "epoch": 0.683136, + "grad_norm": 0.9495697617530823, + "learning_rate": 1.544576e-05, + "loss": 0.0101, + "step": 106740 + }, + { + "epoch": 0.683168, + "grad_norm": 0.12053145468235016, + "learning_rate": 1.544554666666667e-05, + "loss": 0.0088, + "step": 106745 + }, + { + "epoch": 0.6832, + "grad_norm": 1.003898024559021, + "learning_rate": 1.5445333333333333e-05, + "loss": 0.0035, + "step": 106750 + }, + { + "epoch": 0.683232, + "grad_norm": 0.4880076050758362, + "learning_rate": 1.5445120000000004e-05, + "loss": 0.0193, + "step": 106755 + }, + { + "epoch": 0.683264, + "grad_norm": 0.6988927125930786, + "learning_rate": 1.5444906666666668e-05, + "loss": 0.0225, + "step": 106760 + }, + { + "epoch": 0.683296, + "grad_norm": 0.9528237581253052, + "learning_rate": 1.5444693333333335e-05, + "loss": 0.0088, + "step": 106765 + }, + { + "epoch": 0.683328, + "grad_norm": 1.0707982778549194, + "learning_rate": 1.5444480000000003e-05, + "loss": 0.0339, + "step": 106770 + }, + { + "epoch": 0.68336, + "grad_norm": 0.12480422109365463, + "learning_rate": 1.5444266666666667e-05, + "loss": 0.0071, + "step": 106775 + }, + { + "epoch": 0.683392, + "grad_norm": 0.9492934346199036, + "learning_rate": 1.5444053333333335e-05, + "loss": 0.0063, + "step": 106780 + }, + { + "epoch": 0.683424, + "grad_norm": 0.4158742427825928, + "learning_rate": 1.5443840000000002e-05, + "loss": 0.0156, + "step": 106785 + }, + { + "epoch": 0.683456, + "grad_norm": 0.5013777613639832, + "learning_rate": 1.544362666666667e-05, + "loss": 0.0127, + "step": 106790 + }, + { + "epoch": 0.683488, + "grad_norm": 0.13323171436786652, + "learning_rate": 1.5443413333333334e-05, + "loss": 0.0195, + "step": 106795 + }, + { + "epoch": 0.68352, + "grad_norm": 0.3709169924259186, + "learning_rate": 1.54432e-05, + "loss": 0.0114, + "step": 106800 + }, + { + "epoch": 0.683552, + "grad_norm": 0.1103975921869278, + "learning_rate": 1.544298666666667e-05, + "loss": 0.0338, + "step": 106805 + }, + { + "epoch": 0.683584, + "grad_norm": 0.25609952211380005, + "learning_rate": 1.5442773333333333e-05, + "loss": 0.0065, + "step": 106810 + }, + { + "epoch": 0.683616, + "grad_norm": 0.8301967978477478, + "learning_rate": 1.544256e-05, + "loss": 0.0133, + "step": 106815 + }, + { + "epoch": 0.683648, + "grad_norm": 0.3755374550819397, + "learning_rate": 1.544234666666667e-05, + "loss": 0.0073, + "step": 106820 + }, + { + "epoch": 0.68368, + "grad_norm": 0.021843617781996727, + "learning_rate": 1.5442133333333336e-05, + "loss": 0.0055, + "step": 106825 + }, + { + "epoch": 0.683712, + "grad_norm": 0.4856244623661041, + "learning_rate": 1.544192e-05, + "loss": 0.0105, + "step": 106830 + }, + { + "epoch": 0.683744, + "grad_norm": 1.8031005859375, + "learning_rate": 1.5441706666666668e-05, + "loss": 0.0106, + "step": 106835 + }, + { + "epoch": 0.683776, + "grad_norm": 0.4669778347015381, + "learning_rate": 1.5441493333333335e-05, + "loss": 0.0072, + "step": 106840 + }, + { + "epoch": 0.683808, + "grad_norm": 0.2046525627374649, + "learning_rate": 1.544128e-05, + "loss": 0.0092, + "step": 106845 + }, + { + "epoch": 0.68384, + "grad_norm": 0.5758138298988342, + "learning_rate": 1.544106666666667e-05, + "loss": 0.0061, + "step": 106850 + }, + { + "epoch": 0.683872, + "grad_norm": 0.32843026518821716, + "learning_rate": 1.5440853333333334e-05, + "loss": 0.0146, + "step": 106855 + }, + { + "epoch": 0.683904, + "grad_norm": 0.04000379890203476, + "learning_rate": 1.5440640000000002e-05, + "loss": 0.0123, + "step": 106860 + }, + { + "epoch": 0.683936, + "grad_norm": 0.349105566740036, + "learning_rate": 1.544042666666667e-05, + "loss": 0.0081, + "step": 106865 + }, + { + "epoch": 0.683968, + "grad_norm": 0.6174692511558533, + "learning_rate": 1.5440213333333334e-05, + "loss": 0.0142, + "step": 106870 + }, + { + "epoch": 0.684, + "grad_norm": 1.51702082157135, + "learning_rate": 1.544e-05, + "loss": 0.0189, + "step": 106875 + }, + { + "epoch": 0.684032, + "grad_norm": 0.44088906049728394, + "learning_rate": 1.543978666666667e-05, + "loss": 0.0142, + "step": 106880 + }, + { + "epoch": 0.684064, + "grad_norm": 0.2690224051475525, + "learning_rate": 1.5439573333333336e-05, + "loss": 0.011, + "step": 106885 + }, + { + "epoch": 0.684096, + "grad_norm": 0.2725369334220886, + "learning_rate": 1.543936e-05, + "loss": 0.0132, + "step": 106890 + }, + { + "epoch": 0.684128, + "grad_norm": 0.17074796557426453, + "learning_rate": 1.5439146666666668e-05, + "loss": 0.0136, + "step": 106895 + }, + { + "epoch": 0.68416, + "grad_norm": 0.652126669883728, + "learning_rate": 1.5438933333333336e-05, + "loss": 0.016, + "step": 106900 + }, + { + "epoch": 0.684192, + "grad_norm": 0.17024876177310944, + "learning_rate": 1.543872e-05, + "loss": 0.0076, + "step": 106905 + }, + { + "epoch": 0.684224, + "grad_norm": 0.17790235579013824, + "learning_rate": 1.5438506666666667e-05, + "loss": 0.0079, + "step": 106910 + }, + { + "epoch": 0.684256, + "grad_norm": 1.4873453378677368, + "learning_rate": 1.5438293333333335e-05, + "loss": 0.0369, + "step": 106915 + }, + { + "epoch": 0.684288, + "grad_norm": 0.8372886180877686, + "learning_rate": 1.5438080000000002e-05, + "loss": 0.01, + "step": 106920 + }, + { + "epoch": 0.68432, + "grad_norm": 0.2112255096435547, + "learning_rate": 1.5437866666666667e-05, + "loss": 0.0067, + "step": 106925 + }, + { + "epoch": 0.684352, + "grad_norm": 0.16799570620059967, + "learning_rate": 1.5437653333333334e-05, + "loss": 0.0097, + "step": 106930 + }, + { + "epoch": 0.684384, + "grad_norm": 0.19669722020626068, + "learning_rate": 1.5437440000000002e-05, + "loss": 0.0045, + "step": 106935 + }, + { + "epoch": 0.684416, + "grad_norm": 0.18564468622207642, + "learning_rate": 1.5437226666666666e-05, + "loss": 0.0079, + "step": 106940 + }, + { + "epoch": 0.684448, + "grad_norm": 0.29977235198020935, + "learning_rate": 1.5437013333333333e-05, + "loss": 0.0072, + "step": 106945 + }, + { + "epoch": 0.68448, + "grad_norm": 0.6722949147224426, + "learning_rate": 1.54368e-05, + "loss": 0.0265, + "step": 106950 + }, + { + "epoch": 0.684512, + "grad_norm": 0.5634177923202515, + "learning_rate": 1.543658666666667e-05, + "loss": 0.0182, + "step": 106955 + }, + { + "epoch": 0.684544, + "grad_norm": 0.5682928562164307, + "learning_rate": 1.5436373333333333e-05, + "loss": 0.0097, + "step": 106960 + }, + { + "epoch": 0.684576, + "grad_norm": 0.19330446422100067, + "learning_rate": 1.5436160000000004e-05, + "loss": 0.0171, + "step": 106965 + }, + { + "epoch": 0.684608, + "grad_norm": 1.039046287536621, + "learning_rate": 1.5435946666666668e-05, + "loss": 0.0106, + "step": 106970 + }, + { + "epoch": 0.68464, + "grad_norm": 0.343258798122406, + "learning_rate": 1.5435733333333332e-05, + "loss": 0.0083, + "step": 106975 + }, + { + "epoch": 0.684672, + "grad_norm": 0.49610447883605957, + "learning_rate": 1.5435520000000003e-05, + "loss": 0.0194, + "step": 106980 + }, + { + "epoch": 0.684704, + "grad_norm": 0.4429190456867218, + "learning_rate": 1.5435306666666667e-05, + "loss": 0.0098, + "step": 106985 + }, + { + "epoch": 0.684736, + "grad_norm": 0.07245507091283798, + "learning_rate": 1.5435093333333335e-05, + "loss": 0.0057, + "step": 106990 + }, + { + "epoch": 0.684768, + "grad_norm": 0.6932607293128967, + "learning_rate": 1.5434880000000002e-05, + "loss": 0.0125, + "step": 106995 + }, + { + "epoch": 0.6848, + "grad_norm": 0.18439653515815735, + "learning_rate": 1.543466666666667e-05, + "loss": 0.009, + "step": 107000 + }, + { + "epoch": 0.684832, + "grad_norm": 0.3045775592327118, + "learning_rate": 1.5434453333333334e-05, + "loss": 0.014, + "step": 107005 + }, + { + "epoch": 0.684864, + "grad_norm": 0.37304747104644775, + "learning_rate": 1.543424e-05, + "loss": 0.0189, + "step": 107010 + }, + { + "epoch": 0.684896, + "grad_norm": 0.9180299043655396, + "learning_rate": 1.543402666666667e-05, + "loss": 0.0156, + "step": 107015 + }, + { + "epoch": 0.684928, + "grad_norm": 0.23430794477462769, + "learning_rate": 1.5433813333333333e-05, + "loss": 0.0075, + "step": 107020 + }, + { + "epoch": 0.68496, + "grad_norm": 0.44758620858192444, + "learning_rate": 1.54336e-05, + "loss": 0.015, + "step": 107025 + }, + { + "epoch": 0.684992, + "grad_norm": 0.6683389544487, + "learning_rate": 1.543338666666667e-05, + "loss": 0.0082, + "step": 107030 + }, + { + "epoch": 0.685024, + "grad_norm": 0.41648635268211365, + "learning_rate": 1.5433173333333336e-05, + "loss": 0.0104, + "step": 107035 + }, + { + "epoch": 0.685056, + "grad_norm": 0.03695300221443176, + "learning_rate": 1.543296e-05, + "loss": 0.0131, + "step": 107040 + }, + { + "epoch": 0.685088, + "grad_norm": 0.10919953137636185, + "learning_rate": 1.5432746666666668e-05, + "loss": 0.0087, + "step": 107045 + }, + { + "epoch": 0.68512, + "grad_norm": 0.9391272068023682, + "learning_rate": 1.5432533333333335e-05, + "loss": 0.0336, + "step": 107050 + }, + { + "epoch": 0.685152, + "grad_norm": 1.130424976348877, + "learning_rate": 1.543232e-05, + "loss": 0.0265, + "step": 107055 + }, + { + "epoch": 0.685184, + "grad_norm": 0.10796019434928894, + "learning_rate": 1.543210666666667e-05, + "loss": 0.0071, + "step": 107060 + }, + { + "epoch": 0.685216, + "grad_norm": 0.6099790334701538, + "learning_rate": 1.5431893333333334e-05, + "loss": 0.021, + "step": 107065 + }, + { + "epoch": 0.685248, + "grad_norm": 0.6730071306228638, + "learning_rate": 1.5431680000000002e-05, + "loss": 0.0098, + "step": 107070 + }, + { + "epoch": 0.68528, + "grad_norm": 0.6428638100624084, + "learning_rate": 1.543146666666667e-05, + "loss": 0.0034, + "step": 107075 + }, + { + "epoch": 0.685312, + "grad_norm": 0.0691293403506279, + "learning_rate": 1.5431253333333334e-05, + "loss": 0.0218, + "step": 107080 + }, + { + "epoch": 0.685344, + "grad_norm": 0.05148513242602348, + "learning_rate": 1.543104e-05, + "loss": 0.0072, + "step": 107085 + }, + { + "epoch": 0.685376, + "grad_norm": 0.7979893684387207, + "learning_rate": 1.543082666666667e-05, + "loss": 0.0109, + "step": 107090 + }, + { + "epoch": 0.685408, + "grad_norm": 0.047758348286151886, + "learning_rate": 1.5430613333333336e-05, + "loss": 0.0038, + "step": 107095 + }, + { + "epoch": 0.68544, + "grad_norm": 0.755910336971283, + "learning_rate": 1.54304e-05, + "loss": 0.0125, + "step": 107100 + }, + { + "epoch": 0.685472, + "grad_norm": 0.14444082975387573, + "learning_rate": 1.5430186666666668e-05, + "loss": 0.0147, + "step": 107105 + }, + { + "epoch": 0.685504, + "grad_norm": 0.1368759274482727, + "learning_rate": 1.5429973333333336e-05, + "loss": 0.0074, + "step": 107110 + }, + { + "epoch": 0.685536, + "grad_norm": 0.37424102425575256, + "learning_rate": 1.542976e-05, + "loss": 0.0065, + "step": 107115 + }, + { + "epoch": 0.685568, + "grad_norm": 0.5846465229988098, + "learning_rate": 1.5429546666666667e-05, + "loss": 0.0161, + "step": 107120 + }, + { + "epoch": 0.6856, + "grad_norm": 0.7554014921188354, + "learning_rate": 1.5429333333333335e-05, + "loss": 0.0205, + "step": 107125 + }, + { + "epoch": 0.685632, + "grad_norm": 0.23524293303489685, + "learning_rate": 1.5429120000000002e-05, + "loss": 0.0152, + "step": 107130 + }, + { + "epoch": 0.685664, + "grad_norm": 0.1520320326089859, + "learning_rate": 1.5428906666666667e-05, + "loss": 0.0113, + "step": 107135 + }, + { + "epoch": 0.685696, + "grad_norm": 0.11448092013597488, + "learning_rate": 1.5428693333333334e-05, + "loss": 0.0047, + "step": 107140 + }, + { + "epoch": 0.685728, + "grad_norm": 0.5518510341644287, + "learning_rate": 1.5428480000000002e-05, + "loss": 0.0265, + "step": 107145 + }, + { + "epoch": 0.68576, + "grad_norm": 0.5737682580947876, + "learning_rate": 1.5428266666666666e-05, + "loss": 0.0085, + "step": 107150 + }, + { + "epoch": 0.685792, + "grad_norm": 0.8812460899353027, + "learning_rate": 1.5428053333333333e-05, + "loss": 0.0253, + "step": 107155 + }, + { + "epoch": 0.685824, + "grad_norm": 0.2572892904281616, + "learning_rate": 1.542784e-05, + "loss": 0.006, + "step": 107160 + }, + { + "epoch": 0.685856, + "grad_norm": 0.5734053254127502, + "learning_rate": 1.542762666666667e-05, + "loss": 0.0089, + "step": 107165 + }, + { + "epoch": 0.685888, + "grad_norm": 0.43515047430992126, + "learning_rate": 1.5427413333333333e-05, + "loss": 0.0058, + "step": 107170 + }, + { + "epoch": 0.68592, + "grad_norm": 0.6459776759147644, + "learning_rate": 1.5427200000000004e-05, + "loss": 0.0045, + "step": 107175 + }, + { + "epoch": 0.685952, + "grad_norm": 0.15735068917274475, + "learning_rate": 1.5426986666666668e-05, + "loss": 0.0297, + "step": 107180 + }, + { + "epoch": 0.685984, + "grad_norm": 0.7155976891517639, + "learning_rate": 1.5426773333333332e-05, + "loss": 0.0153, + "step": 107185 + }, + { + "epoch": 0.686016, + "grad_norm": 0.7760375738143921, + "learning_rate": 1.5426560000000003e-05, + "loss": 0.0039, + "step": 107190 + }, + { + "epoch": 0.686048, + "grad_norm": 0.41599199175834656, + "learning_rate": 1.5426346666666667e-05, + "loss": 0.0042, + "step": 107195 + }, + { + "epoch": 0.68608, + "grad_norm": 0.20165890455245972, + "learning_rate": 1.5426133333333335e-05, + "loss": 0.0123, + "step": 107200 + }, + { + "epoch": 0.686112, + "grad_norm": 0.2481582909822464, + "learning_rate": 1.5425920000000002e-05, + "loss": 0.0177, + "step": 107205 + }, + { + "epoch": 0.686144, + "grad_norm": 1.2067593336105347, + "learning_rate": 1.542570666666667e-05, + "loss": 0.0234, + "step": 107210 + }, + { + "epoch": 0.686176, + "grad_norm": 0.12542276084423065, + "learning_rate": 1.5425493333333334e-05, + "loss": 0.0128, + "step": 107215 + }, + { + "epoch": 0.686208, + "grad_norm": 0.4025709629058838, + "learning_rate": 1.542528e-05, + "loss": 0.0052, + "step": 107220 + }, + { + "epoch": 0.68624, + "grad_norm": 1.2001656293869019, + "learning_rate": 1.542506666666667e-05, + "loss": 0.0136, + "step": 107225 + }, + { + "epoch": 0.686272, + "grad_norm": 0.48668137192726135, + "learning_rate": 1.5424853333333333e-05, + "loss": 0.0115, + "step": 107230 + }, + { + "epoch": 0.686304, + "grad_norm": 0.05602112039923668, + "learning_rate": 1.542464e-05, + "loss": 0.0082, + "step": 107235 + }, + { + "epoch": 0.686336, + "grad_norm": 1.6429288387298584, + "learning_rate": 1.542442666666667e-05, + "loss": 0.015, + "step": 107240 + }, + { + "epoch": 0.686368, + "grad_norm": 3.979654550552368, + "learning_rate": 1.5424213333333336e-05, + "loss": 0.0228, + "step": 107245 + }, + { + "epoch": 0.6864, + "grad_norm": 0.20135164260864258, + "learning_rate": 1.5424e-05, + "loss": 0.0256, + "step": 107250 + }, + { + "epoch": 0.686432, + "grad_norm": 0.43163689970970154, + "learning_rate": 1.5423786666666668e-05, + "loss": 0.0103, + "step": 107255 + }, + { + "epoch": 0.686464, + "grad_norm": 0.427856981754303, + "learning_rate": 1.5423573333333335e-05, + "loss": 0.009, + "step": 107260 + }, + { + "epoch": 0.686496, + "grad_norm": 0.7750991582870483, + "learning_rate": 1.542336e-05, + "loss": 0.0047, + "step": 107265 + }, + { + "epoch": 0.686528, + "grad_norm": 0.2826337218284607, + "learning_rate": 1.5423146666666667e-05, + "loss": 0.019, + "step": 107270 + }, + { + "epoch": 0.68656, + "grad_norm": 0.10812310129404068, + "learning_rate": 1.5422933333333334e-05, + "loss": 0.0128, + "step": 107275 + }, + { + "epoch": 0.686592, + "grad_norm": 0.552330732345581, + "learning_rate": 1.5422720000000002e-05, + "loss": 0.012, + "step": 107280 + }, + { + "epoch": 0.686624, + "grad_norm": 0.6748287081718445, + "learning_rate": 1.542250666666667e-05, + "loss": 0.0121, + "step": 107285 + }, + { + "epoch": 0.686656, + "grad_norm": 0.3441581726074219, + "learning_rate": 1.5422293333333334e-05, + "loss": 0.0119, + "step": 107290 + }, + { + "epoch": 0.686688, + "grad_norm": 1.0217769145965576, + "learning_rate": 1.542208e-05, + "loss": 0.0178, + "step": 107295 + }, + { + "epoch": 0.68672, + "grad_norm": 0.018624378368258476, + "learning_rate": 1.542186666666667e-05, + "loss": 0.0087, + "step": 107300 + }, + { + "epoch": 0.686752, + "grad_norm": 0.15434220433235168, + "learning_rate": 1.5421653333333336e-05, + "loss": 0.0148, + "step": 107305 + }, + { + "epoch": 0.686784, + "grad_norm": 0.8797668814659119, + "learning_rate": 1.542144e-05, + "loss": 0.0119, + "step": 107310 + }, + { + "epoch": 0.686816, + "grad_norm": 0.4076210558414459, + "learning_rate": 1.5421226666666668e-05, + "loss": 0.0061, + "step": 107315 + }, + { + "epoch": 0.686848, + "grad_norm": 0.24626260995864868, + "learning_rate": 1.5421013333333336e-05, + "loss": 0.0101, + "step": 107320 + }, + { + "epoch": 0.68688, + "grad_norm": 0.6490113139152527, + "learning_rate": 1.54208e-05, + "loss": 0.0121, + "step": 107325 + }, + { + "epoch": 0.686912, + "grad_norm": 0.13727089762687683, + "learning_rate": 1.5420586666666667e-05, + "loss": 0.0088, + "step": 107330 + }, + { + "epoch": 0.686944, + "grad_norm": 0.32431015372276306, + "learning_rate": 1.5420373333333335e-05, + "loss": 0.0288, + "step": 107335 + }, + { + "epoch": 0.686976, + "grad_norm": 0.14677143096923828, + "learning_rate": 1.5420160000000002e-05, + "loss": 0.0135, + "step": 107340 + }, + { + "epoch": 0.687008, + "grad_norm": 0.33661985397338867, + "learning_rate": 1.5419946666666667e-05, + "loss": 0.017, + "step": 107345 + }, + { + "epoch": 0.68704, + "grad_norm": 0.20009982585906982, + "learning_rate": 1.5419733333333334e-05, + "loss": 0.0084, + "step": 107350 + }, + { + "epoch": 0.687072, + "grad_norm": 0.371240496635437, + "learning_rate": 1.5419520000000002e-05, + "loss": 0.0093, + "step": 107355 + }, + { + "epoch": 0.687104, + "grad_norm": 0.472824364900589, + "learning_rate": 1.5419306666666666e-05, + "loss": 0.0199, + "step": 107360 + }, + { + "epoch": 0.687136, + "grad_norm": 1.2602981328964233, + "learning_rate": 1.5419093333333333e-05, + "loss": 0.0236, + "step": 107365 + }, + { + "epoch": 0.687168, + "grad_norm": 0.7146162390708923, + "learning_rate": 1.541888e-05, + "loss": 0.0136, + "step": 107370 + }, + { + "epoch": 0.6872, + "grad_norm": 0.407416433095932, + "learning_rate": 1.541866666666667e-05, + "loss": 0.0067, + "step": 107375 + }, + { + "epoch": 0.687232, + "grad_norm": 0.17682723701000214, + "learning_rate": 1.5418453333333333e-05, + "loss": 0.0177, + "step": 107380 + }, + { + "epoch": 0.687264, + "grad_norm": 0.06378097832202911, + "learning_rate": 1.5418240000000004e-05, + "loss": 0.0276, + "step": 107385 + }, + { + "epoch": 0.687296, + "grad_norm": 0.2848232686519623, + "learning_rate": 1.5418026666666668e-05, + "loss": 0.0082, + "step": 107390 + }, + { + "epoch": 0.687328, + "grad_norm": 0.039944496005773544, + "learning_rate": 1.5417813333333332e-05, + "loss": 0.0092, + "step": 107395 + }, + { + "epoch": 0.68736, + "grad_norm": 0.044759780168533325, + "learning_rate": 1.5417600000000003e-05, + "loss": 0.0072, + "step": 107400 + }, + { + "epoch": 0.687392, + "grad_norm": 2.3243248462677, + "learning_rate": 1.5417386666666667e-05, + "loss": 0.0183, + "step": 107405 + }, + { + "epoch": 0.687424, + "grad_norm": 0.3904873728752136, + "learning_rate": 1.5417173333333335e-05, + "loss": 0.0063, + "step": 107410 + }, + { + "epoch": 0.687456, + "grad_norm": 0.054524052888154984, + "learning_rate": 1.5416960000000002e-05, + "loss": 0.0109, + "step": 107415 + }, + { + "epoch": 0.687488, + "grad_norm": 0.21817944943904877, + "learning_rate": 1.541674666666667e-05, + "loss": 0.0069, + "step": 107420 + }, + { + "epoch": 0.68752, + "grad_norm": 0.3570604920387268, + "learning_rate": 1.5416533333333334e-05, + "loss": 0.0057, + "step": 107425 + }, + { + "epoch": 0.687552, + "grad_norm": 1.271362066268921, + "learning_rate": 1.541632e-05, + "loss": 0.0132, + "step": 107430 + }, + { + "epoch": 0.687584, + "grad_norm": 0.08471440523862839, + "learning_rate": 1.541610666666667e-05, + "loss": 0.0158, + "step": 107435 + }, + { + "epoch": 0.687616, + "grad_norm": 0.21860522031784058, + "learning_rate": 1.5415893333333333e-05, + "loss": 0.0052, + "step": 107440 + }, + { + "epoch": 0.687648, + "grad_norm": 0.17271560430526733, + "learning_rate": 1.541568e-05, + "loss": 0.0126, + "step": 107445 + }, + { + "epoch": 0.68768, + "grad_norm": 0.41410717368125916, + "learning_rate": 1.541546666666667e-05, + "loss": 0.0167, + "step": 107450 + }, + { + "epoch": 0.687712, + "grad_norm": 0.326048880815506, + "learning_rate": 1.5415253333333336e-05, + "loss": 0.0111, + "step": 107455 + }, + { + "epoch": 0.687744, + "grad_norm": 0.03351958468556404, + "learning_rate": 1.541504e-05, + "loss": 0.0116, + "step": 107460 + }, + { + "epoch": 0.687776, + "grad_norm": 0.039939239621162415, + "learning_rate": 1.5414826666666668e-05, + "loss": 0.0097, + "step": 107465 + }, + { + "epoch": 0.687808, + "grad_norm": 0.00938320904970169, + "learning_rate": 1.5414613333333335e-05, + "loss": 0.0123, + "step": 107470 + }, + { + "epoch": 0.68784, + "grad_norm": 0.8981524705886841, + "learning_rate": 1.54144e-05, + "loss": 0.0019, + "step": 107475 + }, + { + "epoch": 0.687872, + "grad_norm": 15.212370872497559, + "learning_rate": 1.5414186666666667e-05, + "loss": 0.0255, + "step": 107480 + }, + { + "epoch": 0.687904, + "grad_norm": 0.027866601943969727, + "learning_rate": 1.5413973333333334e-05, + "loss": 0.0146, + "step": 107485 + }, + { + "epoch": 0.687936, + "grad_norm": 1.0437871217727661, + "learning_rate": 1.5413760000000002e-05, + "loss": 0.0133, + "step": 107490 + }, + { + "epoch": 0.687968, + "grad_norm": 0.5717723369598389, + "learning_rate": 1.5413546666666666e-05, + "loss": 0.0234, + "step": 107495 + }, + { + "epoch": 0.688, + "grad_norm": 0.922096312046051, + "learning_rate": 1.5413333333333337e-05, + "loss": 0.0189, + "step": 107500 + }, + { + "epoch": 0.688032, + "grad_norm": 0.3336743414402008, + "learning_rate": 1.541312e-05, + "loss": 0.013, + "step": 107505 + }, + { + "epoch": 0.688064, + "grad_norm": 0.11746761202812195, + "learning_rate": 1.541290666666667e-05, + "loss": 0.0136, + "step": 107510 + }, + { + "epoch": 0.688096, + "grad_norm": 0.10461653769016266, + "learning_rate": 1.5412693333333336e-05, + "loss": 0.0093, + "step": 107515 + }, + { + "epoch": 0.688128, + "grad_norm": 0.15811066329479218, + "learning_rate": 1.541248e-05, + "loss": 0.0064, + "step": 107520 + }, + { + "epoch": 0.68816, + "grad_norm": 0.034620966762304306, + "learning_rate": 1.5412266666666668e-05, + "loss": 0.0112, + "step": 107525 + }, + { + "epoch": 0.688192, + "grad_norm": 0.03236747905611992, + "learning_rate": 1.5412053333333336e-05, + "loss": 0.0071, + "step": 107530 + }, + { + "epoch": 0.688224, + "grad_norm": 0.5723585486412048, + "learning_rate": 1.5411840000000003e-05, + "loss": 0.0167, + "step": 107535 + }, + { + "epoch": 0.688256, + "grad_norm": 0.7288445234298706, + "learning_rate": 1.5411626666666667e-05, + "loss": 0.0145, + "step": 107540 + }, + { + "epoch": 0.688288, + "grad_norm": 1.1317814588546753, + "learning_rate": 1.5411413333333335e-05, + "loss": 0.0155, + "step": 107545 + }, + { + "epoch": 0.68832, + "grad_norm": 0.4848875105381012, + "learning_rate": 1.5411200000000002e-05, + "loss": 0.0039, + "step": 107550 + }, + { + "epoch": 0.688352, + "grad_norm": 0.4464777112007141, + "learning_rate": 1.5410986666666667e-05, + "loss": 0.0194, + "step": 107555 + }, + { + "epoch": 0.688384, + "grad_norm": 0.45294034481048584, + "learning_rate": 1.5410773333333334e-05, + "loss": 0.0057, + "step": 107560 + }, + { + "epoch": 0.688416, + "grad_norm": 2.3397960662841797, + "learning_rate": 1.5410560000000002e-05, + "loss": 0.0058, + "step": 107565 + }, + { + "epoch": 0.688448, + "grad_norm": 0.23939181864261627, + "learning_rate": 1.541034666666667e-05, + "loss": 0.0055, + "step": 107570 + }, + { + "epoch": 0.68848, + "grad_norm": 0.47409704327583313, + "learning_rate": 1.5410133333333333e-05, + "loss": 0.0077, + "step": 107575 + }, + { + "epoch": 0.688512, + "grad_norm": 0.15614871680736542, + "learning_rate": 1.540992e-05, + "loss": 0.0183, + "step": 107580 + }, + { + "epoch": 0.688544, + "grad_norm": 0.18445579707622528, + "learning_rate": 1.540970666666667e-05, + "loss": 0.004, + "step": 107585 + }, + { + "epoch": 0.688576, + "grad_norm": 0.14759425818920135, + "learning_rate": 1.5409493333333333e-05, + "loss": 0.0068, + "step": 107590 + }, + { + "epoch": 0.688608, + "grad_norm": 0.29927143454551697, + "learning_rate": 1.5409280000000004e-05, + "loss": 0.004, + "step": 107595 + }, + { + "epoch": 0.68864, + "grad_norm": 0.16976889967918396, + "learning_rate": 1.5409066666666668e-05, + "loss": 0.0077, + "step": 107600 + }, + { + "epoch": 0.688672, + "grad_norm": 2.2773144245147705, + "learning_rate": 1.5408853333333335e-05, + "loss": 0.0096, + "step": 107605 + }, + { + "epoch": 0.688704, + "grad_norm": 0.46657589077949524, + "learning_rate": 1.5408640000000003e-05, + "loss": 0.021, + "step": 107610 + }, + { + "epoch": 0.688736, + "grad_norm": 0.6915275454521179, + "learning_rate": 1.5408426666666667e-05, + "loss": 0.0099, + "step": 107615 + }, + { + "epoch": 0.688768, + "grad_norm": 0.7476817965507507, + "learning_rate": 1.5408213333333335e-05, + "loss": 0.0228, + "step": 107620 + }, + { + "epoch": 0.6888, + "grad_norm": 0.9432779550552368, + "learning_rate": 1.5408000000000002e-05, + "loss": 0.0105, + "step": 107625 + }, + { + "epoch": 0.688832, + "grad_norm": 1.2258833646774292, + "learning_rate": 1.540778666666667e-05, + "loss": 0.0138, + "step": 107630 + }, + { + "epoch": 0.688864, + "grad_norm": 0.45337626338005066, + "learning_rate": 1.5407573333333334e-05, + "loss": 0.0271, + "step": 107635 + }, + { + "epoch": 0.688896, + "grad_norm": 0.5467807054519653, + "learning_rate": 1.540736e-05, + "loss": 0.0082, + "step": 107640 + }, + { + "epoch": 0.688928, + "grad_norm": 0.12607364356517792, + "learning_rate": 1.540714666666667e-05, + "loss": 0.0047, + "step": 107645 + }, + { + "epoch": 0.68896, + "grad_norm": 0.6393042802810669, + "learning_rate": 1.5406933333333333e-05, + "loss": 0.0084, + "step": 107650 + }, + { + "epoch": 0.688992, + "grad_norm": 0.09831911325454712, + "learning_rate": 1.540672e-05, + "loss": 0.0085, + "step": 107655 + }, + { + "epoch": 0.689024, + "grad_norm": 0.39733463525772095, + "learning_rate": 1.540650666666667e-05, + "loss": 0.0243, + "step": 107660 + }, + { + "epoch": 0.689056, + "grad_norm": 0.12741737067699432, + "learning_rate": 1.5406293333333336e-05, + "loss": 0.0045, + "step": 107665 + }, + { + "epoch": 0.689088, + "grad_norm": 0.12369947880506516, + "learning_rate": 1.540608e-05, + "loss": 0.006, + "step": 107670 + }, + { + "epoch": 0.68912, + "grad_norm": 0.5119870901107788, + "learning_rate": 1.5405866666666668e-05, + "loss": 0.0136, + "step": 107675 + }, + { + "epoch": 0.689152, + "grad_norm": 0.5715923309326172, + "learning_rate": 1.5405653333333335e-05, + "loss": 0.0122, + "step": 107680 + }, + { + "epoch": 0.689184, + "grad_norm": 2.0471110343933105, + "learning_rate": 1.540544e-05, + "loss": 0.0146, + "step": 107685 + }, + { + "epoch": 0.689216, + "grad_norm": 0.4701261520385742, + "learning_rate": 1.5405226666666667e-05, + "loss": 0.012, + "step": 107690 + }, + { + "epoch": 0.689248, + "grad_norm": 0.2744700610637665, + "learning_rate": 1.5405013333333334e-05, + "loss": 0.0189, + "step": 107695 + }, + { + "epoch": 0.68928, + "grad_norm": 1.0159450769424438, + "learning_rate": 1.5404800000000002e-05, + "loss": 0.0118, + "step": 107700 + }, + { + "epoch": 0.689312, + "grad_norm": 0.11898894608020782, + "learning_rate": 1.5404586666666666e-05, + "loss": 0.0058, + "step": 107705 + }, + { + "epoch": 0.689344, + "grad_norm": 0.465707927942276, + "learning_rate": 1.5404373333333337e-05, + "loss": 0.0121, + "step": 107710 + }, + { + "epoch": 0.689376, + "grad_norm": 0.1841081976890564, + "learning_rate": 1.540416e-05, + "loss": 0.012, + "step": 107715 + }, + { + "epoch": 0.689408, + "grad_norm": 0.12895403802394867, + "learning_rate": 1.5403946666666665e-05, + "loss": 0.0145, + "step": 107720 + }, + { + "epoch": 0.68944, + "grad_norm": 0.8936904072761536, + "learning_rate": 1.5403733333333336e-05, + "loss": 0.0042, + "step": 107725 + }, + { + "epoch": 0.689472, + "grad_norm": 0.41430798172950745, + "learning_rate": 1.540352e-05, + "loss": 0.0138, + "step": 107730 + }, + { + "epoch": 0.689504, + "grad_norm": 0.6127166748046875, + "learning_rate": 1.5403306666666668e-05, + "loss": 0.0031, + "step": 107735 + }, + { + "epoch": 0.689536, + "grad_norm": 0.8942316174507141, + "learning_rate": 1.5403093333333336e-05, + "loss": 0.0218, + "step": 107740 + }, + { + "epoch": 0.689568, + "grad_norm": 1.053823709487915, + "learning_rate": 1.5402880000000003e-05, + "loss": 0.0121, + "step": 107745 + }, + { + "epoch": 0.6896, + "grad_norm": 0.34312307834625244, + "learning_rate": 1.5402666666666667e-05, + "loss": 0.0098, + "step": 107750 + }, + { + "epoch": 0.689632, + "grad_norm": 0.27550557255744934, + "learning_rate": 1.5402453333333335e-05, + "loss": 0.009, + "step": 107755 + }, + { + "epoch": 0.689664, + "grad_norm": 0.10894448310136795, + "learning_rate": 1.5402240000000002e-05, + "loss": 0.0044, + "step": 107760 + }, + { + "epoch": 0.689696, + "grad_norm": 0.5037463903427124, + "learning_rate": 1.5402026666666667e-05, + "loss": 0.0056, + "step": 107765 + }, + { + "epoch": 0.689728, + "grad_norm": 0.5035726428031921, + "learning_rate": 1.5401813333333334e-05, + "loss": 0.0077, + "step": 107770 + }, + { + "epoch": 0.68976, + "grad_norm": 1.0504201650619507, + "learning_rate": 1.5401600000000002e-05, + "loss": 0.0126, + "step": 107775 + }, + { + "epoch": 0.689792, + "grad_norm": 0.8883902430534363, + "learning_rate": 1.540138666666667e-05, + "loss": 0.0117, + "step": 107780 + }, + { + "epoch": 0.689824, + "grad_norm": 0.375847727060318, + "learning_rate": 1.5401173333333333e-05, + "loss": 0.0102, + "step": 107785 + }, + { + "epoch": 0.689856, + "grad_norm": 0.28964006900787354, + "learning_rate": 1.540096e-05, + "loss": 0.0133, + "step": 107790 + }, + { + "epoch": 0.689888, + "grad_norm": 0.864721953868866, + "learning_rate": 1.540074666666667e-05, + "loss": 0.0095, + "step": 107795 + }, + { + "epoch": 0.68992, + "grad_norm": 0.5541905164718628, + "learning_rate": 1.5400533333333333e-05, + "loss": 0.0143, + "step": 107800 + }, + { + "epoch": 0.689952, + "grad_norm": 0.41618335247039795, + "learning_rate": 1.540032e-05, + "loss": 0.0061, + "step": 107805 + }, + { + "epoch": 0.689984, + "grad_norm": 0.27394118905067444, + "learning_rate": 1.5400106666666668e-05, + "loss": 0.0179, + "step": 107810 + }, + { + "epoch": 0.690016, + "grad_norm": 0.2318597137928009, + "learning_rate": 1.5399893333333335e-05, + "loss": 0.0078, + "step": 107815 + }, + { + "epoch": 0.690048, + "grad_norm": 1.096378207206726, + "learning_rate": 1.5399680000000003e-05, + "loss": 0.0243, + "step": 107820 + }, + { + "epoch": 0.69008, + "grad_norm": 0.19440966844558716, + "learning_rate": 1.5399466666666667e-05, + "loss": 0.0043, + "step": 107825 + }, + { + "epoch": 0.690112, + "grad_norm": 0.8695823550224304, + "learning_rate": 1.5399253333333335e-05, + "loss": 0.0173, + "step": 107830 + }, + { + "epoch": 0.690144, + "grad_norm": 0.31480872631073, + "learning_rate": 1.5399040000000002e-05, + "loss": 0.0135, + "step": 107835 + }, + { + "epoch": 0.690176, + "grad_norm": 0.3385474681854248, + "learning_rate": 1.539882666666667e-05, + "loss": 0.0042, + "step": 107840 + }, + { + "epoch": 0.690208, + "grad_norm": 0.9416621923446655, + "learning_rate": 1.5398613333333334e-05, + "loss": 0.0229, + "step": 107845 + }, + { + "epoch": 0.69024, + "grad_norm": 0.05053068697452545, + "learning_rate": 1.53984e-05, + "loss": 0.014, + "step": 107850 + }, + { + "epoch": 0.690272, + "grad_norm": 0.244134321808815, + "learning_rate": 1.539818666666667e-05, + "loss": 0.0138, + "step": 107855 + }, + { + "epoch": 0.690304, + "grad_norm": 0.8366278409957886, + "learning_rate": 1.5397973333333333e-05, + "loss": 0.0075, + "step": 107860 + }, + { + "epoch": 0.690336, + "grad_norm": 0.14992541074752808, + "learning_rate": 1.539776e-05, + "loss": 0.0075, + "step": 107865 + }, + { + "epoch": 0.690368, + "grad_norm": 0.2006022185087204, + "learning_rate": 1.539754666666667e-05, + "loss": 0.0084, + "step": 107870 + }, + { + "epoch": 0.6904, + "grad_norm": 0.3391644358634949, + "learning_rate": 1.5397333333333336e-05, + "loss": 0.0212, + "step": 107875 + }, + { + "epoch": 0.690432, + "grad_norm": 0.05311138555407524, + "learning_rate": 1.539712e-05, + "loss": 0.0231, + "step": 107880 + }, + { + "epoch": 0.690464, + "grad_norm": 0.33351507782936096, + "learning_rate": 1.5396906666666668e-05, + "loss": 0.0126, + "step": 107885 + }, + { + "epoch": 0.690496, + "grad_norm": 0.7279925346374512, + "learning_rate": 1.5396693333333335e-05, + "loss": 0.01, + "step": 107890 + }, + { + "epoch": 0.690528, + "grad_norm": 0.1738738864660263, + "learning_rate": 1.539648e-05, + "loss": 0.0071, + "step": 107895 + }, + { + "epoch": 0.69056, + "grad_norm": 0.40859031677246094, + "learning_rate": 1.5396266666666667e-05, + "loss": 0.0137, + "step": 107900 + }, + { + "epoch": 0.690592, + "grad_norm": 0.026415392756462097, + "learning_rate": 1.5396053333333334e-05, + "loss": 0.0054, + "step": 107905 + }, + { + "epoch": 0.690624, + "grad_norm": 0.5946769714355469, + "learning_rate": 1.5395840000000002e-05, + "loss": 0.0133, + "step": 107910 + }, + { + "epoch": 0.690656, + "grad_norm": 0.8714624047279358, + "learning_rate": 1.5395626666666666e-05, + "loss": 0.0181, + "step": 107915 + }, + { + "epoch": 0.690688, + "grad_norm": 0.11134125292301178, + "learning_rate": 1.5395413333333337e-05, + "loss": 0.0055, + "step": 107920 + }, + { + "epoch": 0.69072, + "grad_norm": 0.043448105454444885, + "learning_rate": 1.53952e-05, + "loss": 0.0153, + "step": 107925 + }, + { + "epoch": 0.690752, + "grad_norm": 0.5732213854789734, + "learning_rate": 1.5394986666666665e-05, + "loss": 0.0163, + "step": 107930 + }, + { + "epoch": 0.690784, + "grad_norm": 0.7592922449111938, + "learning_rate": 1.5394773333333336e-05, + "loss": 0.0202, + "step": 107935 + }, + { + "epoch": 0.690816, + "grad_norm": 0.6777772307395935, + "learning_rate": 1.539456e-05, + "loss": 0.0122, + "step": 107940 + }, + { + "epoch": 0.690848, + "grad_norm": 0.23807278275489807, + "learning_rate": 1.5394346666666668e-05, + "loss": 0.0104, + "step": 107945 + }, + { + "epoch": 0.69088, + "grad_norm": 0.4158860743045807, + "learning_rate": 1.5394133333333336e-05, + "loss": 0.0135, + "step": 107950 + }, + { + "epoch": 0.690912, + "grad_norm": 0.36332422494888306, + "learning_rate": 1.5393920000000003e-05, + "loss": 0.0161, + "step": 107955 + }, + { + "epoch": 0.690944, + "grad_norm": 0.7005073428153992, + "learning_rate": 1.5393706666666667e-05, + "loss": 0.0103, + "step": 107960 + }, + { + "epoch": 0.690976, + "grad_norm": 0.018429428339004517, + "learning_rate": 1.5393493333333335e-05, + "loss": 0.0037, + "step": 107965 + }, + { + "epoch": 0.691008, + "grad_norm": 0.2016017884016037, + "learning_rate": 1.5393280000000002e-05, + "loss": 0.0305, + "step": 107970 + }, + { + "epoch": 0.69104, + "grad_norm": 0.11964592337608337, + "learning_rate": 1.5393066666666667e-05, + "loss": 0.0149, + "step": 107975 + }, + { + "epoch": 0.691072, + "grad_norm": 0.38887396454811096, + "learning_rate": 1.5392853333333334e-05, + "loss": 0.0173, + "step": 107980 + }, + { + "epoch": 0.691104, + "grad_norm": 0.3863730728626251, + "learning_rate": 1.5392640000000002e-05, + "loss": 0.0104, + "step": 107985 + }, + { + "epoch": 0.691136, + "grad_norm": 0.052460040897130966, + "learning_rate": 1.539242666666667e-05, + "loss": 0.0092, + "step": 107990 + }, + { + "epoch": 0.691168, + "grad_norm": 0.5718029141426086, + "learning_rate": 1.5392213333333333e-05, + "loss": 0.0124, + "step": 107995 + }, + { + "epoch": 0.6912, + "grad_norm": 4.275208950042725, + "learning_rate": 1.5392e-05, + "loss": 0.0278, + "step": 108000 + }, + { + "epoch": 0.691232, + "grad_norm": 0.05854789540171623, + "learning_rate": 1.539178666666667e-05, + "loss": 0.0058, + "step": 108005 + }, + { + "epoch": 0.691264, + "grad_norm": 0.29897570610046387, + "learning_rate": 1.5391573333333333e-05, + "loss": 0.0057, + "step": 108010 + }, + { + "epoch": 0.691296, + "grad_norm": 0.6449705362319946, + "learning_rate": 1.539136e-05, + "loss": 0.0135, + "step": 108015 + }, + { + "epoch": 0.691328, + "grad_norm": 0.20588761568069458, + "learning_rate": 1.5391146666666668e-05, + "loss": 0.0057, + "step": 108020 + }, + { + "epoch": 0.69136, + "grad_norm": 0.20221906900405884, + "learning_rate": 1.5390933333333335e-05, + "loss": 0.0032, + "step": 108025 + }, + { + "epoch": 0.691392, + "grad_norm": 0.3112699091434479, + "learning_rate": 1.539072e-05, + "loss": 0.0184, + "step": 108030 + }, + { + "epoch": 0.691424, + "grad_norm": 0.4273522198200226, + "learning_rate": 1.5390506666666667e-05, + "loss": 0.0089, + "step": 108035 + }, + { + "epoch": 0.691456, + "grad_norm": 0.36433395743370056, + "learning_rate": 1.5390293333333335e-05, + "loss": 0.0145, + "step": 108040 + }, + { + "epoch": 0.691488, + "grad_norm": 1.6357423067092896, + "learning_rate": 1.5390080000000002e-05, + "loss": 0.024, + "step": 108045 + }, + { + "epoch": 0.69152, + "grad_norm": 0.49747684597969055, + "learning_rate": 1.538986666666667e-05, + "loss": 0.0182, + "step": 108050 + }, + { + "epoch": 0.691552, + "grad_norm": 0.5980868339538574, + "learning_rate": 1.5389653333333334e-05, + "loss": 0.0089, + "step": 108055 + }, + { + "epoch": 0.691584, + "grad_norm": 1.2857316732406616, + "learning_rate": 1.538944e-05, + "loss": 0.0139, + "step": 108060 + }, + { + "epoch": 0.691616, + "grad_norm": 0.23139813542366028, + "learning_rate": 1.538922666666667e-05, + "loss": 0.0097, + "step": 108065 + }, + { + "epoch": 0.691648, + "grad_norm": 1.3941758871078491, + "learning_rate": 1.5389013333333333e-05, + "loss": 0.003, + "step": 108070 + }, + { + "epoch": 0.69168, + "grad_norm": 0.2529500126838684, + "learning_rate": 1.53888e-05, + "loss": 0.0077, + "step": 108075 + }, + { + "epoch": 0.691712, + "grad_norm": 0.7360563278198242, + "learning_rate": 1.538858666666667e-05, + "loss": 0.0138, + "step": 108080 + }, + { + "epoch": 0.691744, + "grad_norm": 0.5776042342185974, + "learning_rate": 1.5388373333333336e-05, + "loss": 0.014, + "step": 108085 + }, + { + "epoch": 0.691776, + "grad_norm": 0.5421877503395081, + "learning_rate": 1.538816e-05, + "loss": 0.0201, + "step": 108090 + }, + { + "epoch": 0.691808, + "grad_norm": 1.1964831352233887, + "learning_rate": 1.5387946666666668e-05, + "loss": 0.0095, + "step": 108095 + }, + { + "epoch": 0.69184, + "grad_norm": 0.41270869970321655, + "learning_rate": 1.5387733333333335e-05, + "loss": 0.0059, + "step": 108100 + }, + { + "epoch": 0.691872, + "grad_norm": 0.015833009034395218, + "learning_rate": 1.538752e-05, + "loss": 0.012, + "step": 108105 + }, + { + "epoch": 0.691904, + "grad_norm": 0.14331400394439697, + "learning_rate": 1.5387306666666667e-05, + "loss": 0.038, + "step": 108110 + }, + { + "epoch": 0.691936, + "grad_norm": 1.1465555429458618, + "learning_rate": 1.5387093333333334e-05, + "loss": 0.0246, + "step": 108115 + }, + { + "epoch": 0.691968, + "grad_norm": 1.4276297092437744, + "learning_rate": 1.5386880000000002e-05, + "loss": 0.0141, + "step": 108120 + }, + { + "epoch": 0.692, + "grad_norm": 0.44420966506004333, + "learning_rate": 1.5386666666666666e-05, + "loss": 0.0086, + "step": 108125 + }, + { + "epoch": 0.692032, + "grad_norm": 0.30759409070014954, + "learning_rate": 1.5386453333333337e-05, + "loss": 0.0058, + "step": 108130 + }, + { + "epoch": 0.692064, + "grad_norm": 0.03242858126759529, + "learning_rate": 1.538624e-05, + "loss": 0.0112, + "step": 108135 + }, + { + "epoch": 0.692096, + "grad_norm": 0.5611723065376282, + "learning_rate": 1.5386026666666665e-05, + "loss": 0.0127, + "step": 108140 + }, + { + "epoch": 0.692128, + "grad_norm": 0.393218457698822, + "learning_rate": 1.5385813333333336e-05, + "loss": 0.0109, + "step": 108145 + }, + { + "epoch": 0.69216, + "grad_norm": 0.6293879151344299, + "learning_rate": 1.53856e-05, + "loss": 0.0202, + "step": 108150 + }, + { + "epoch": 0.692192, + "grad_norm": 1.3382208347320557, + "learning_rate": 1.5385386666666668e-05, + "loss": 0.0244, + "step": 108155 + }, + { + "epoch": 0.692224, + "grad_norm": 0.3479398190975189, + "learning_rate": 1.5385173333333336e-05, + "loss": 0.0049, + "step": 108160 + }, + { + "epoch": 0.692256, + "grad_norm": 0.3111186921596527, + "learning_rate": 1.5384960000000003e-05, + "loss": 0.0149, + "step": 108165 + }, + { + "epoch": 0.692288, + "grad_norm": 0.2260228842496872, + "learning_rate": 1.5384746666666667e-05, + "loss": 0.008, + "step": 108170 + }, + { + "epoch": 0.69232, + "grad_norm": 3.069854974746704, + "learning_rate": 1.5384533333333335e-05, + "loss": 0.0134, + "step": 108175 + }, + { + "epoch": 0.692352, + "grad_norm": 0.17357708513736725, + "learning_rate": 1.5384320000000002e-05, + "loss": 0.0064, + "step": 108180 + }, + { + "epoch": 0.692384, + "grad_norm": 0.34636402130126953, + "learning_rate": 1.5384106666666667e-05, + "loss": 0.006, + "step": 108185 + }, + { + "epoch": 0.692416, + "grad_norm": 0.31589263677597046, + "learning_rate": 1.5383893333333334e-05, + "loss": 0.03, + "step": 108190 + }, + { + "epoch": 0.692448, + "grad_norm": 1.7873828411102295, + "learning_rate": 1.5383680000000002e-05, + "loss": 0.0262, + "step": 108195 + }, + { + "epoch": 0.69248, + "grad_norm": 0.6164000034332275, + "learning_rate": 1.538346666666667e-05, + "loss": 0.0274, + "step": 108200 + }, + { + "epoch": 0.692512, + "grad_norm": 0.4395061433315277, + "learning_rate": 1.5383253333333333e-05, + "loss": 0.0101, + "step": 108205 + }, + { + "epoch": 0.692544, + "grad_norm": 0.29693344235420227, + "learning_rate": 1.538304e-05, + "loss": 0.0218, + "step": 108210 + }, + { + "epoch": 0.692576, + "grad_norm": 0.17564788460731506, + "learning_rate": 1.538282666666667e-05, + "loss": 0.0052, + "step": 108215 + }, + { + "epoch": 0.692608, + "grad_norm": 0.10648266971111298, + "learning_rate": 1.5382613333333333e-05, + "loss": 0.018, + "step": 108220 + }, + { + "epoch": 0.69264, + "grad_norm": 0.4183492362499237, + "learning_rate": 1.53824e-05, + "loss": 0.012, + "step": 108225 + }, + { + "epoch": 0.692672, + "grad_norm": 0.08678257465362549, + "learning_rate": 1.5382186666666668e-05, + "loss": 0.0177, + "step": 108230 + }, + { + "epoch": 0.692704, + "grad_norm": 0.6300824880599976, + "learning_rate": 1.5381973333333335e-05, + "loss": 0.0203, + "step": 108235 + }, + { + "epoch": 0.692736, + "grad_norm": 0.918573260307312, + "learning_rate": 1.538176e-05, + "loss": 0.0147, + "step": 108240 + }, + { + "epoch": 0.692768, + "grad_norm": 0.360606849193573, + "learning_rate": 1.5381546666666667e-05, + "loss": 0.0078, + "step": 108245 + }, + { + "epoch": 0.6928, + "grad_norm": 0.7024654746055603, + "learning_rate": 1.5381333333333335e-05, + "loss": 0.0174, + "step": 108250 + }, + { + "epoch": 0.692832, + "grad_norm": 0.6125783920288086, + "learning_rate": 1.538112e-05, + "loss": 0.0084, + "step": 108255 + }, + { + "epoch": 0.692864, + "grad_norm": 0.12955468893051147, + "learning_rate": 1.538090666666667e-05, + "loss": 0.0088, + "step": 108260 + }, + { + "epoch": 0.692896, + "grad_norm": 0.1633387953042984, + "learning_rate": 1.5380693333333334e-05, + "loss": 0.0134, + "step": 108265 + }, + { + "epoch": 0.692928, + "grad_norm": 0.03133755177259445, + "learning_rate": 1.538048e-05, + "loss": 0.0162, + "step": 108270 + }, + { + "epoch": 0.69296, + "grad_norm": 0.17938700318336487, + "learning_rate": 1.538026666666667e-05, + "loss": 0.0058, + "step": 108275 + }, + { + "epoch": 0.692992, + "grad_norm": 0.6407942175865173, + "learning_rate": 1.5380053333333333e-05, + "loss": 0.0128, + "step": 108280 + }, + { + "epoch": 0.693024, + "grad_norm": 1.8232377767562866, + "learning_rate": 1.537984e-05, + "loss": 0.0067, + "step": 108285 + }, + { + "epoch": 0.693056, + "grad_norm": 0.08995407074689865, + "learning_rate": 1.537962666666667e-05, + "loss": 0.0071, + "step": 108290 + }, + { + "epoch": 0.693088, + "grad_norm": 0.07649180293083191, + "learning_rate": 1.5379413333333336e-05, + "loss": 0.0178, + "step": 108295 + }, + { + "epoch": 0.69312, + "grad_norm": 0.29819515347480774, + "learning_rate": 1.53792e-05, + "loss": 0.0086, + "step": 108300 + }, + { + "epoch": 0.693152, + "grad_norm": 0.401568204164505, + "learning_rate": 1.5378986666666668e-05, + "loss": 0.0041, + "step": 108305 + }, + { + "epoch": 0.693184, + "grad_norm": 0.12996859848499298, + "learning_rate": 1.5378773333333335e-05, + "loss": 0.0114, + "step": 108310 + }, + { + "epoch": 0.693216, + "grad_norm": 0.29656410217285156, + "learning_rate": 1.537856e-05, + "loss": 0.0061, + "step": 108315 + }, + { + "epoch": 0.693248, + "grad_norm": 0.5414953827857971, + "learning_rate": 1.5378346666666667e-05, + "loss": 0.0186, + "step": 108320 + }, + { + "epoch": 0.69328, + "grad_norm": 0.5905183553695679, + "learning_rate": 1.5378133333333334e-05, + "loss": 0.017, + "step": 108325 + }, + { + "epoch": 0.693312, + "grad_norm": 0.9927238821983337, + "learning_rate": 1.5377920000000002e-05, + "loss": 0.0329, + "step": 108330 + }, + { + "epoch": 0.693344, + "grad_norm": 0.9929977059364319, + "learning_rate": 1.5377706666666666e-05, + "loss": 0.0164, + "step": 108335 + }, + { + "epoch": 0.693376, + "grad_norm": 1.9733073711395264, + "learning_rate": 1.5377493333333334e-05, + "loss": 0.0124, + "step": 108340 + }, + { + "epoch": 0.693408, + "grad_norm": 0.7418979406356812, + "learning_rate": 1.537728e-05, + "loss": 0.0143, + "step": 108345 + }, + { + "epoch": 0.69344, + "grad_norm": 0.7553631067276001, + "learning_rate": 1.537706666666667e-05, + "loss": 0.012, + "step": 108350 + }, + { + "epoch": 0.693472, + "grad_norm": 0.4754441976547241, + "learning_rate": 1.5376853333333336e-05, + "loss": 0.0105, + "step": 108355 + }, + { + "epoch": 0.693504, + "grad_norm": 0.2700951099395752, + "learning_rate": 1.537664e-05, + "loss": 0.0133, + "step": 108360 + }, + { + "epoch": 0.693536, + "grad_norm": 0.4039343297481537, + "learning_rate": 1.5376426666666668e-05, + "loss": 0.0184, + "step": 108365 + }, + { + "epoch": 0.693568, + "grad_norm": 0.052581027150154114, + "learning_rate": 1.5376213333333336e-05, + "loss": 0.007, + "step": 108370 + }, + { + "epoch": 0.6936, + "grad_norm": 0.6319666504859924, + "learning_rate": 1.5376000000000003e-05, + "loss": 0.0109, + "step": 108375 + }, + { + "epoch": 0.693632, + "grad_norm": 0.5094556212425232, + "learning_rate": 1.5375786666666667e-05, + "loss": 0.0078, + "step": 108380 + }, + { + "epoch": 0.693664, + "grad_norm": 0.2556123435497284, + "learning_rate": 1.5375573333333335e-05, + "loss": 0.016, + "step": 108385 + }, + { + "epoch": 0.693696, + "grad_norm": 0.09878764301538467, + "learning_rate": 1.5375360000000002e-05, + "loss": 0.0039, + "step": 108390 + }, + { + "epoch": 0.693728, + "grad_norm": 0.4828377366065979, + "learning_rate": 1.5375146666666667e-05, + "loss": 0.0103, + "step": 108395 + }, + { + "epoch": 0.69376, + "grad_norm": 1.3209443092346191, + "learning_rate": 1.5374933333333334e-05, + "loss": 0.0105, + "step": 108400 + }, + { + "epoch": 0.693792, + "grad_norm": 0.11368580162525177, + "learning_rate": 1.5374720000000002e-05, + "loss": 0.0082, + "step": 108405 + }, + { + "epoch": 0.693824, + "grad_norm": 0.10502272844314575, + "learning_rate": 1.537450666666667e-05, + "loss": 0.0127, + "step": 108410 + }, + { + "epoch": 0.693856, + "grad_norm": 0.45167627930641174, + "learning_rate": 1.5374293333333333e-05, + "loss": 0.0223, + "step": 108415 + }, + { + "epoch": 0.693888, + "grad_norm": 0.7555602192878723, + "learning_rate": 1.537408e-05, + "loss": 0.0157, + "step": 108420 + }, + { + "epoch": 0.69392, + "grad_norm": 0.45900991559028625, + "learning_rate": 1.537386666666667e-05, + "loss": 0.0109, + "step": 108425 + }, + { + "epoch": 0.693952, + "grad_norm": 0.017980046570301056, + "learning_rate": 1.5373653333333333e-05, + "loss": 0.0029, + "step": 108430 + }, + { + "epoch": 0.693984, + "grad_norm": 0.938318133354187, + "learning_rate": 1.537344e-05, + "loss": 0.0128, + "step": 108435 + }, + { + "epoch": 0.694016, + "grad_norm": 0.11923183500766754, + "learning_rate": 1.5373226666666668e-05, + "loss": 0.0087, + "step": 108440 + }, + { + "epoch": 0.694048, + "grad_norm": 1.0390254259109497, + "learning_rate": 1.5373013333333335e-05, + "loss": 0.0161, + "step": 108445 + }, + { + "epoch": 0.69408, + "grad_norm": 0.186233252286911, + "learning_rate": 1.53728e-05, + "loss": 0.0131, + "step": 108450 + }, + { + "epoch": 0.694112, + "grad_norm": 0.0774923637509346, + "learning_rate": 1.537258666666667e-05, + "loss": 0.0148, + "step": 108455 + }, + { + "epoch": 0.694144, + "grad_norm": 0.8225990533828735, + "learning_rate": 1.5372373333333335e-05, + "loss": 0.0193, + "step": 108460 + }, + { + "epoch": 0.694176, + "grad_norm": 0.2666827142238617, + "learning_rate": 1.537216e-05, + "loss": 0.0106, + "step": 108465 + }, + { + "epoch": 0.694208, + "grad_norm": 0.5485624074935913, + "learning_rate": 1.537194666666667e-05, + "loss": 0.007, + "step": 108470 + }, + { + "epoch": 0.69424, + "grad_norm": 0.25000491738319397, + "learning_rate": 1.5371733333333334e-05, + "loss": 0.0074, + "step": 108475 + }, + { + "epoch": 0.694272, + "grad_norm": 0.273208349943161, + "learning_rate": 1.537152e-05, + "loss": 0.0052, + "step": 108480 + }, + { + "epoch": 0.694304, + "grad_norm": 0.8901630640029907, + "learning_rate": 1.537130666666667e-05, + "loss": 0.0059, + "step": 108485 + }, + { + "epoch": 0.694336, + "grad_norm": 0.7334536910057068, + "learning_rate": 1.5371093333333337e-05, + "loss": 0.0228, + "step": 108490 + }, + { + "epoch": 0.694368, + "grad_norm": 0.12228929251432419, + "learning_rate": 1.537088e-05, + "loss": 0.013, + "step": 108495 + }, + { + "epoch": 0.6944, + "grad_norm": 0.6956946849822998, + "learning_rate": 1.537066666666667e-05, + "loss": 0.0192, + "step": 108500 + }, + { + "epoch": 0.694432, + "grad_norm": 0.13303357362747192, + "learning_rate": 1.5370453333333336e-05, + "loss": 0.0032, + "step": 108505 + }, + { + "epoch": 0.694464, + "grad_norm": 0.11393600702285767, + "learning_rate": 1.537024e-05, + "loss": 0.0101, + "step": 108510 + }, + { + "epoch": 0.694496, + "grad_norm": 1.6732749938964844, + "learning_rate": 1.5370026666666668e-05, + "loss": 0.0128, + "step": 108515 + }, + { + "epoch": 0.694528, + "grad_norm": 0.42221784591674805, + "learning_rate": 1.5369813333333335e-05, + "loss": 0.0167, + "step": 108520 + }, + { + "epoch": 0.69456, + "grad_norm": 0.40543875098228455, + "learning_rate": 1.5369600000000003e-05, + "loss": 0.0068, + "step": 108525 + }, + { + "epoch": 0.694592, + "grad_norm": 0.034748271107673645, + "learning_rate": 1.5369386666666667e-05, + "loss": 0.0158, + "step": 108530 + }, + { + "epoch": 0.694624, + "grad_norm": 0.3626531958580017, + "learning_rate": 1.5369173333333334e-05, + "loss": 0.0102, + "step": 108535 + }, + { + "epoch": 0.694656, + "grad_norm": 0.5301428437232971, + "learning_rate": 1.5368960000000002e-05, + "loss": 0.0162, + "step": 108540 + }, + { + "epoch": 0.694688, + "grad_norm": 0.5328857898712158, + "learning_rate": 1.5368746666666666e-05, + "loss": 0.0225, + "step": 108545 + }, + { + "epoch": 0.69472, + "grad_norm": 0.12576721608638763, + "learning_rate": 1.5368533333333334e-05, + "loss": 0.0093, + "step": 108550 + }, + { + "epoch": 0.694752, + "grad_norm": 0.7727892398834229, + "learning_rate": 1.536832e-05, + "loss": 0.0178, + "step": 108555 + }, + { + "epoch": 0.694784, + "grad_norm": 0.49576249718666077, + "learning_rate": 1.536810666666667e-05, + "loss": 0.0052, + "step": 108560 + }, + { + "epoch": 0.694816, + "grad_norm": 1.435421347618103, + "learning_rate": 1.5367893333333333e-05, + "loss": 0.0238, + "step": 108565 + }, + { + "epoch": 0.694848, + "grad_norm": 0.3954063355922699, + "learning_rate": 1.536768e-05, + "loss": 0.0171, + "step": 108570 + }, + { + "epoch": 0.69488, + "grad_norm": 0.21934479475021362, + "learning_rate": 1.5367466666666668e-05, + "loss": 0.0113, + "step": 108575 + }, + { + "epoch": 0.694912, + "grad_norm": 0.9767328500747681, + "learning_rate": 1.5367253333333336e-05, + "loss": 0.0118, + "step": 108580 + }, + { + "epoch": 0.694944, + "grad_norm": 0.48174646496772766, + "learning_rate": 1.5367040000000003e-05, + "loss": 0.0047, + "step": 108585 + }, + { + "epoch": 0.694976, + "grad_norm": 0.15427203476428986, + "learning_rate": 1.5366826666666667e-05, + "loss": 0.0123, + "step": 108590 + }, + { + "epoch": 0.695008, + "grad_norm": 0.6386772394180298, + "learning_rate": 1.5366613333333335e-05, + "loss": 0.0085, + "step": 108595 + }, + { + "epoch": 0.69504, + "grad_norm": 0.24278999865055084, + "learning_rate": 1.5366400000000002e-05, + "loss": 0.021, + "step": 108600 + }, + { + "epoch": 0.695072, + "grad_norm": 0.6548411846160889, + "learning_rate": 1.5366186666666667e-05, + "loss": 0.006, + "step": 108605 + }, + { + "epoch": 0.695104, + "grad_norm": 0.2265949845314026, + "learning_rate": 1.5365973333333334e-05, + "loss": 0.0065, + "step": 108610 + }, + { + "epoch": 0.695136, + "grad_norm": 0.6472672820091248, + "learning_rate": 1.5365760000000002e-05, + "loss": 0.0056, + "step": 108615 + }, + { + "epoch": 0.695168, + "grad_norm": 0.6725519299507141, + "learning_rate": 1.536554666666667e-05, + "loss": 0.0093, + "step": 108620 + }, + { + "epoch": 0.6952, + "grad_norm": 0.07529356330633163, + "learning_rate": 1.5365333333333333e-05, + "loss": 0.0068, + "step": 108625 + }, + { + "epoch": 0.695232, + "grad_norm": 0.1422823965549469, + "learning_rate": 1.536512e-05, + "loss": 0.0051, + "step": 108630 + }, + { + "epoch": 0.695264, + "grad_norm": 0.2551540732383728, + "learning_rate": 1.536490666666667e-05, + "loss": 0.0134, + "step": 108635 + }, + { + "epoch": 0.695296, + "grad_norm": 1.4652255773544312, + "learning_rate": 1.5364693333333333e-05, + "loss": 0.0129, + "step": 108640 + }, + { + "epoch": 0.695328, + "grad_norm": 1.2543967962265015, + "learning_rate": 1.536448e-05, + "loss": 0.011, + "step": 108645 + }, + { + "epoch": 0.69536, + "grad_norm": 0.5729315876960754, + "learning_rate": 1.5364266666666668e-05, + "loss": 0.0424, + "step": 108650 + }, + { + "epoch": 0.695392, + "grad_norm": 0.036056824028491974, + "learning_rate": 1.5364053333333335e-05, + "loss": 0.0039, + "step": 108655 + }, + { + "epoch": 0.695424, + "grad_norm": 0.9645020365715027, + "learning_rate": 1.536384e-05, + "loss": 0.0037, + "step": 108660 + }, + { + "epoch": 0.695456, + "grad_norm": 0.11394751071929932, + "learning_rate": 1.536362666666667e-05, + "loss": 0.0057, + "step": 108665 + }, + { + "epoch": 0.695488, + "grad_norm": 0.3634245693683624, + "learning_rate": 1.5363413333333335e-05, + "loss": 0.0126, + "step": 108670 + }, + { + "epoch": 0.69552, + "grad_norm": 0.9561683535575867, + "learning_rate": 1.53632e-05, + "loss": 0.0348, + "step": 108675 + }, + { + "epoch": 0.695552, + "grad_norm": 0.35534346103668213, + "learning_rate": 1.536298666666667e-05, + "loss": 0.0299, + "step": 108680 + }, + { + "epoch": 0.695584, + "grad_norm": 0.5985174775123596, + "learning_rate": 1.5362773333333334e-05, + "loss": 0.0256, + "step": 108685 + }, + { + "epoch": 0.695616, + "grad_norm": 0.5087961554527283, + "learning_rate": 1.536256e-05, + "loss": 0.0129, + "step": 108690 + }, + { + "epoch": 0.695648, + "grad_norm": 0.12487137317657471, + "learning_rate": 1.536234666666667e-05, + "loss": 0.0137, + "step": 108695 + }, + { + "epoch": 0.69568, + "grad_norm": 0.7134240865707397, + "learning_rate": 1.5362133333333337e-05, + "loss": 0.0157, + "step": 108700 + }, + { + "epoch": 0.695712, + "grad_norm": 0.07909122854471207, + "learning_rate": 1.536192e-05, + "loss": 0.015, + "step": 108705 + }, + { + "epoch": 0.695744, + "grad_norm": 0.759274959564209, + "learning_rate": 1.536170666666667e-05, + "loss": 0.0113, + "step": 108710 + }, + { + "epoch": 0.695776, + "grad_norm": 1.3733807802200317, + "learning_rate": 1.5361493333333336e-05, + "loss": 0.0183, + "step": 108715 + }, + { + "epoch": 0.695808, + "grad_norm": 0.6445863842964172, + "learning_rate": 1.536128e-05, + "loss": 0.028, + "step": 108720 + }, + { + "epoch": 0.69584, + "grad_norm": 0.8677378296852112, + "learning_rate": 1.5361066666666668e-05, + "loss": 0.0103, + "step": 108725 + }, + { + "epoch": 0.695872, + "grad_norm": 0.24396686255931854, + "learning_rate": 1.5360853333333335e-05, + "loss": 0.0047, + "step": 108730 + }, + { + "epoch": 0.695904, + "grad_norm": 0.8712932467460632, + "learning_rate": 1.5360640000000003e-05, + "loss": 0.0119, + "step": 108735 + }, + { + "epoch": 0.695936, + "grad_norm": 0.06909305602312088, + "learning_rate": 1.5360426666666667e-05, + "loss": 0.0067, + "step": 108740 + }, + { + "epoch": 0.695968, + "grad_norm": 0.2683742344379425, + "learning_rate": 1.5360213333333334e-05, + "loss": 0.0241, + "step": 108745 + }, + { + "epoch": 0.696, + "grad_norm": 0.03797545284032822, + "learning_rate": 1.5360000000000002e-05, + "loss": 0.0154, + "step": 108750 + }, + { + "epoch": 0.696032, + "grad_norm": 0.30053776502609253, + "learning_rate": 1.5359786666666666e-05, + "loss": 0.0025, + "step": 108755 + }, + { + "epoch": 0.696064, + "grad_norm": 0.49560821056365967, + "learning_rate": 1.5359573333333334e-05, + "loss": 0.0101, + "step": 108760 + }, + { + "epoch": 0.696096, + "grad_norm": 0.3015371859073639, + "learning_rate": 1.535936e-05, + "loss": 0.0208, + "step": 108765 + }, + { + "epoch": 0.696128, + "grad_norm": 1.2836568355560303, + "learning_rate": 1.535914666666667e-05, + "loss": 0.0381, + "step": 108770 + }, + { + "epoch": 0.69616, + "grad_norm": 0.3828218877315521, + "learning_rate": 1.5358933333333333e-05, + "loss": 0.0054, + "step": 108775 + }, + { + "epoch": 0.696192, + "grad_norm": 1.141118049621582, + "learning_rate": 1.535872e-05, + "loss": 0.0138, + "step": 108780 + }, + { + "epoch": 0.696224, + "grad_norm": 0.11174164712429047, + "learning_rate": 1.5358506666666668e-05, + "loss": 0.0066, + "step": 108785 + }, + { + "epoch": 0.696256, + "grad_norm": 0.02108638361096382, + "learning_rate": 1.5358293333333332e-05, + "loss": 0.0048, + "step": 108790 + }, + { + "epoch": 0.696288, + "grad_norm": 0.7853583097457886, + "learning_rate": 1.5358080000000003e-05, + "loss": 0.004, + "step": 108795 + }, + { + "epoch": 0.69632, + "grad_norm": 0.4354918897151947, + "learning_rate": 1.5357866666666667e-05, + "loss": 0.0145, + "step": 108800 + }, + { + "epoch": 0.696352, + "grad_norm": 0.8237006068229675, + "learning_rate": 1.5357653333333335e-05, + "loss": 0.0156, + "step": 108805 + }, + { + "epoch": 0.696384, + "grad_norm": 0.20143567025661469, + "learning_rate": 1.5357440000000003e-05, + "loss": 0.0127, + "step": 108810 + }, + { + "epoch": 0.696416, + "grad_norm": 0.09309957176446915, + "learning_rate": 1.5357226666666667e-05, + "loss": 0.0035, + "step": 108815 + }, + { + "epoch": 0.696448, + "grad_norm": 0.22005595266819, + "learning_rate": 1.5357013333333334e-05, + "loss": 0.0126, + "step": 108820 + }, + { + "epoch": 0.69648, + "grad_norm": 0.3057161569595337, + "learning_rate": 1.5356800000000002e-05, + "loss": 0.0105, + "step": 108825 + }, + { + "epoch": 0.696512, + "grad_norm": 0.15132048726081848, + "learning_rate": 1.535658666666667e-05, + "loss": 0.0091, + "step": 108830 + }, + { + "epoch": 0.696544, + "grad_norm": 1.6695282459259033, + "learning_rate": 1.5356373333333333e-05, + "loss": 0.0159, + "step": 108835 + }, + { + "epoch": 0.696576, + "grad_norm": 0.6192989945411682, + "learning_rate": 1.535616e-05, + "loss": 0.0097, + "step": 108840 + }, + { + "epoch": 0.696608, + "grad_norm": 0.1780804693698883, + "learning_rate": 1.535594666666667e-05, + "loss": 0.0198, + "step": 108845 + }, + { + "epoch": 0.69664, + "grad_norm": 1.2593748569488525, + "learning_rate": 1.5355733333333333e-05, + "loss": 0.0122, + "step": 108850 + }, + { + "epoch": 0.696672, + "grad_norm": 0.21547803282737732, + "learning_rate": 1.535552e-05, + "loss": 0.0106, + "step": 108855 + }, + { + "epoch": 0.696704, + "grad_norm": 0.15703654289245605, + "learning_rate": 1.5355306666666668e-05, + "loss": 0.0073, + "step": 108860 + }, + { + "epoch": 0.696736, + "grad_norm": 0.1931247115135193, + "learning_rate": 1.5355093333333335e-05, + "loss": 0.0096, + "step": 108865 + }, + { + "epoch": 0.696768, + "grad_norm": 0.24012617766857147, + "learning_rate": 1.535488e-05, + "loss": 0.0045, + "step": 108870 + }, + { + "epoch": 0.6968, + "grad_norm": 0.2513411045074463, + "learning_rate": 1.5354666666666667e-05, + "loss": 0.0036, + "step": 108875 + }, + { + "epoch": 0.696832, + "grad_norm": 0.825944721698761, + "learning_rate": 1.5354453333333335e-05, + "loss": 0.0269, + "step": 108880 + }, + { + "epoch": 0.696864, + "grad_norm": 0.7405954003334045, + "learning_rate": 1.535424e-05, + "loss": 0.0172, + "step": 108885 + }, + { + "epoch": 0.696896, + "grad_norm": 0.919276237487793, + "learning_rate": 1.535402666666667e-05, + "loss": 0.0103, + "step": 108890 + }, + { + "epoch": 0.696928, + "grad_norm": 0.016012998297810555, + "learning_rate": 1.5353813333333334e-05, + "loss": 0.0328, + "step": 108895 + }, + { + "epoch": 0.69696, + "grad_norm": 0.19455726444721222, + "learning_rate": 1.53536e-05, + "loss": 0.0091, + "step": 108900 + }, + { + "epoch": 0.696992, + "grad_norm": 0.7578690648078918, + "learning_rate": 1.535338666666667e-05, + "loss": 0.022, + "step": 108905 + }, + { + "epoch": 0.697024, + "grad_norm": 0.9223350882530212, + "learning_rate": 1.5353173333333337e-05, + "loss": 0.0406, + "step": 108910 + }, + { + "epoch": 0.697056, + "grad_norm": 0.45786765217781067, + "learning_rate": 1.535296e-05, + "loss": 0.0076, + "step": 108915 + }, + { + "epoch": 0.697088, + "grad_norm": 0.07865511626005173, + "learning_rate": 1.535274666666667e-05, + "loss": 0.0048, + "step": 108920 + }, + { + "epoch": 0.69712, + "grad_norm": 0.4573085308074951, + "learning_rate": 1.5352533333333336e-05, + "loss": 0.0146, + "step": 108925 + }, + { + "epoch": 0.697152, + "grad_norm": 0.7501506209373474, + "learning_rate": 1.535232e-05, + "loss": 0.0314, + "step": 108930 + }, + { + "epoch": 0.697184, + "grad_norm": 0.24436967074871063, + "learning_rate": 1.5352106666666668e-05, + "loss": 0.0062, + "step": 108935 + }, + { + "epoch": 0.697216, + "grad_norm": 0.4446635842323303, + "learning_rate": 1.5351893333333335e-05, + "loss": 0.0117, + "step": 108940 + }, + { + "epoch": 0.697248, + "grad_norm": 0.011061353608965874, + "learning_rate": 1.5351680000000003e-05, + "loss": 0.0096, + "step": 108945 + }, + { + "epoch": 0.69728, + "grad_norm": 0.10667666792869568, + "learning_rate": 1.5351466666666667e-05, + "loss": 0.0295, + "step": 108950 + }, + { + "epoch": 0.697312, + "grad_norm": 0.09119565039873123, + "learning_rate": 1.5351253333333334e-05, + "loss": 0.0039, + "step": 108955 + }, + { + "epoch": 0.697344, + "grad_norm": 0.3662675619125366, + "learning_rate": 1.5351040000000002e-05, + "loss": 0.0243, + "step": 108960 + }, + { + "epoch": 0.697376, + "grad_norm": 0.35929247736930847, + "learning_rate": 1.5350826666666666e-05, + "loss": 0.0062, + "step": 108965 + }, + { + "epoch": 0.697408, + "grad_norm": 0.8586470484733582, + "learning_rate": 1.5350613333333334e-05, + "loss": 0.0172, + "step": 108970 + }, + { + "epoch": 0.69744, + "grad_norm": 0.3773941695690155, + "learning_rate": 1.53504e-05, + "loss": 0.0145, + "step": 108975 + }, + { + "epoch": 0.697472, + "grad_norm": 0.04094673693180084, + "learning_rate": 1.535018666666667e-05, + "loss": 0.0123, + "step": 108980 + }, + { + "epoch": 0.697504, + "grad_norm": 0.14357230067253113, + "learning_rate": 1.5349973333333333e-05, + "loss": 0.0069, + "step": 108985 + }, + { + "epoch": 0.697536, + "grad_norm": 0.0721450075507164, + "learning_rate": 1.534976e-05, + "loss": 0.0123, + "step": 108990 + }, + { + "epoch": 0.697568, + "grad_norm": 0.8710184693336487, + "learning_rate": 1.5349546666666668e-05, + "loss": 0.0166, + "step": 108995 + }, + { + "epoch": 0.6976, + "grad_norm": 0.2253122478723526, + "learning_rate": 1.5349333333333332e-05, + "loss": 0.0158, + "step": 109000 + }, + { + "epoch": 0.697632, + "grad_norm": 0.05227311700582504, + "learning_rate": 1.5349120000000003e-05, + "loss": 0.0111, + "step": 109005 + }, + { + "epoch": 0.697664, + "grad_norm": 0.9228615760803223, + "learning_rate": 1.5348906666666667e-05, + "loss": 0.0178, + "step": 109010 + }, + { + "epoch": 0.697696, + "grad_norm": 0.3576977252960205, + "learning_rate": 1.5348693333333335e-05, + "loss": 0.0241, + "step": 109015 + }, + { + "epoch": 0.697728, + "grad_norm": 0.08941255509853363, + "learning_rate": 1.5348480000000003e-05, + "loss": 0.0134, + "step": 109020 + }, + { + "epoch": 0.69776, + "grad_norm": 0.1088087409734726, + "learning_rate": 1.5348266666666667e-05, + "loss": 0.0165, + "step": 109025 + }, + { + "epoch": 0.697792, + "grad_norm": 0.4360993206501007, + "learning_rate": 1.5348053333333334e-05, + "loss": 0.0086, + "step": 109030 + }, + { + "epoch": 0.697824, + "grad_norm": 0.6321828365325928, + "learning_rate": 1.5347840000000002e-05, + "loss": 0.0093, + "step": 109035 + }, + { + "epoch": 0.697856, + "grad_norm": 0.18651267886161804, + "learning_rate": 1.534762666666667e-05, + "loss": 0.0077, + "step": 109040 + }, + { + "epoch": 0.697888, + "grad_norm": 0.6425191164016724, + "learning_rate": 1.5347413333333333e-05, + "loss": 0.0072, + "step": 109045 + }, + { + "epoch": 0.69792, + "grad_norm": 0.0839032381772995, + "learning_rate": 1.53472e-05, + "loss": 0.0127, + "step": 109050 + }, + { + "epoch": 0.697952, + "grad_norm": 0.12420455366373062, + "learning_rate": 1.534698666666667e-05, + "loss": 0.0215, + "step": 109055 + }, + { + "epoch": 0.697984, + "grad_norm": 0.074300616979599, + "learning_rate": 1.5346773333333333e-05, + "loss": 0.0039, + "step": 109060 + }, + { + "epoch": 0.698016, + "grad_norm": 0.66037917137146, + "learning_rate": 1.534656e-05, + "loss": 0.0088, + "step": 109065 + }, + { + "epoch": 0.698048, + "grad_norm": 0.29956647753715515, + "learning_rate": 1.5346346666666668e-05, + "loss": 0.0238, + "step": 109070 + }, + { + "epoch": 0.69808, + "grad_norm": 0.8564891815185547, + "learning_rate": 1.5346133333333335e-05, + "loss": 0.0271, + "step": 109075 + }, + { + "epoch": 0.698112, + "grad_norm": 0.8439885973930359, + "learning_rate": 1.534592e-05, + "loss": 0.0106, + "step": 109080 + }, + { + "epoch": 0.698144, + "grad_norm": 1.1950932741165161, + "learning_rate": 1.5345706666666667e-05, + "loss": 0.0096, + "step": 109085 + }, + { + "epoch": 0.698176, + "grad_norm": 0.4530564844608307, + "learning_rate": 1.5345493333333335e-05, + "loss": 0.0112, + "step": 109090 + }, + { + "epoch": 0.698208, + "grad_norm": 1.4947806596755981, + "learning_rate": 1.534528e-05, + "loss": 0.0109, + "step": 109095 + }, + { + "epoch": 0.69824, + "grad_norm": 0.2521853446960449, + "learning_rate": 1.5345066666666666e-05, + "loss": 0.0113, + "step": 109100 + }, + { + "epoch": 0.698272, + "grad_norm": 0.12966860830783844, + "learning_rate": 1.5344853333333334e-05, + "loss": 0.0097, + "step": 109105 + }, + { + "epoch": 0.698304, + "grad_norm": 0.6317111849784851, + "learning_rate": 1.534464e-05, + "loss": 0.0267, + "step": 109110 + }, + { + "epoch": 0.698336, + "grad_norm": 0.7397374510765076, + "learning_rate": 1.534442666666667e-05, + "loss": 0.0136, + "step": 109115 + }, + { + "epoch": 0.698368, + "grad_norm": 0.6451286673545837, + "learning_rate": 1.5344213333333337e-05, + "loss": 0.0043, + "step": 109120 + }, + { + "epoch": 0.6984, + "grad_norm": 1.0981792211532593, + "learning_rate": 1.5344e-05, + "loss": 0.0212, + "step": 109125 + }, + { + "epoch": 0.698432, + "grad_norm": 0.15978524088859558, + "learning_rate": 1.534378666666667e-05, + "loss": 0.0149, + "step": 109130 + }, + { + "epoch": 0.698464, + "grad_norm": 0.1593366265296936, + "learning_rate": 1.5343573333333336e-05, + "loss": 0.0188, + "step": 109135 + }, + { + "epoch": 0.698496, + "grad_norm": 0.3121304512023926, + "learning_rate": 1.534336e-05, + "loss": 0.0046, + "step": 109140 + }, + { + "epoch": 0.698528, + "grad_norm": 0.2382039874792099, + "learning_rate": 1.5343146666666668e-05, + "loss": 0.0194, + "step": 109145 + }, + { + "epoch": 0.69856, + "grad_norm": 0.4379960298538208, + "learning_rate": 1.5342933333333335e-05, + "loss": 0.0126, + "step": 109150 + }, + { + "epoch": 0.698592, + "grad_norm": 0.5017265677452087, + "learning_rate": 1.5342720000000003e-05, + "loss": 0.0101, + "step": 109155 + }, + { + "epoch": 0.698624, + "grad_norm": 0.07216660678386688, + "learning_rate": 1.5342506666666667e-05, + "loss": 0.0128, + "step": 109160 + }, + { + "epoch": 0.698656, + "grad_norm": 0.020569877699017525, + "learning_rate": 1.5342293333333334e-05, + "loss": 0.0143, + "step": 109165 + }, + { + "epoch": 0.698688, + "grad_norm": 0.600817084312439, + "learning_rate": 1.5342080000000002e-05, + "loss": 0.0107, + "step": 109170 + }, + { + "epoch": 0.69872, + "grad_norm": 0.1720113605260849, + "learning_rate": 1.5341866666666666e-05, + "loss": 0.004, + "step": 109175 + }, + { + "epoch": 0.698752, + "grad_norm": 0.408927857875824, + "learning_rate": 1.5341653333333334e-05, + "loss": 0.0091, + "step": 109180 + }, + { + "epoch": 0.698784, + "grad_norm": 0.3115278482437134, + "learning_rate": 1.534144e-05, + "loss": 0.0084, + "step": 109185 + }, + { + "epoch": 0.698816, + "grad_norm": 0.96657794713974, + "learning_rate": 1.534122666666667e-05, + "loss": 0.0218, + "step": 109190 + }, + { + "epoch": 0.698848, + "grad_norm": 0.5972577929496765, + "learning_rate": 1.5341013333333333e-05, + "loss": 0.0151, + "step": 109195 + }, + { + "epoch": 0.69888, + "grad_norm": 0.7755335569381714, + "learning_rate": 1.5340800000000004e-05, + "loss": 0.0101, + "step": 109200 + }, + { + "epoch": 0.698912, + "grad_norm": 0.039002932608127594, + "learning_rate": 1.5340586666666668e-05, + "loss": 0.0176, + "step": 109205 + }, + { + "epoch": 0.698944, + "grad_norm": 0.026317492127418518, + "learning_rate": 1.5340373333333332e-05, + "loss": 0.0027, + "step": 109210 + }, + { + "epoch": 0.698976, + "grad_norm": 0.36939460039138794, + "learning_rate": 1.5340160000000003e-05, + "loss": 0.0382, + "step": 109215 + }, + { + "epoch": 0.699008, + "grad_norm": 0.5462157726287842, + "learning_rate": 1.5339946666666667e-05, + "loss": 0.0095, + "step": 109220 + }, + { + "epoch": 0.69904, + "grad_norm": 0.6643908023834229, + "learning_rate": 1.5339733333333335e-05, + "loss": 0.0118, + "step": 109225 + }, + { + "epoch": 0.699072, + "grad_norm": 0.1696896106004715, + "learning_rate": 1.5339520000000003e-05, + "loss": 0.0111, + "step": 109230 + }, + { + "epoch": 0.699104, + "grad_norm": 1.6772005558013916, + "learning_rate": 1.533930666666667e-05, + "loss": 0.0227, + "step": 109235 + }, + { + "epoch": 0.699136, + "grad_norm": 2.054529905319214, + "learning_rate": 1.5339093333333334e-05, + "loss": 0.0068, + "step": 109240 + }, + { + "epoch": 0.699168, + "grad_norm": 0.05536716431379318, + "learning_rate": 1.5338880000000002e-05, + "loss": 0.0192, + "step": 109245 + }, + { + "epoch": 0.6992, + "grad_norm": 0.3542739152908325, + "learning_rate": 1.533866666666667e-05, + "loss": 0.0035, + "step": 109250 + }, + { + "epoch": 0.699232, + "grad_norm": 1.3785574436187744, + "learning_rate": 1.5338453333333334e-05, + "loss": 0.0176, + "step": 109255 + }, + { + "epoch": 0.699264, + "grad_norm": 0.03356997296214104, + "learning_rate": 1.533824e-05, + "loss": 0.0042, + "step": 109260 + }, + { + "epoch": 0.699296, + "grad_norm": 1.0684435367584229, + "learning_rate": 1.533802666666667e-05, + "loss": 0.027, + "step": 109265 + }, + { + "epoch": 0.699328, + "grad_norm": 0.3780888617038727, + "learning_rate": 1.5337813333333336e-05, + "loss": 0.0055, + "step": 109270 + }, + { + "epoch": 0.69936, + "grad_norm": 2.3965463638305664, + "learning_rate": 1.53376e-05, + "loss": 0.0263, + "step": 109275 + }, + { + "epoch": 0.699392, + "grad_norm": 0.1888166069984436, + "learning_rate": 1.5337386666666668e-05, + "loss": 0.0078, + "step": 109280 + }, + { + "epoch": 0.699424, + "grad_norm": 0.25081437826156616, + "learning_rate": 1.5337173333333335e-05, + "loss": 0.029, + "step": 109285 + }, + { + "epoch": 0.699456, + "grad_norm": 0.45153549313545227, + "learning_rate": 1.533696e-05, + "loss": 0.0296, + "step": 109290 + }, + { + "epoch": 0.699488, + "grad_norm": 0.48063164949417114, + "learning_rate": 1.5336746666666667e-05, + "loss": 0.01, + "step": 109295 + }, + { + "epoch": 0.69952, + "grad_norm": 1.2741323709487915, + "learning_rate": 1.5336533333333335e-05, + "loss": 0.0131, + "step": 109300 + }, + { + "epoch": 0.699552, + "grad_norm": 0.9045596718788147, + "learning_rate": 1.5336320000000002e-05, + "loss": 0.0114, + "step": 109305 + }, + { + "epoch": 0.699584, + "grad_norm": 1.226159930229187, + "learning_rate": 1.5336106666666666e-05, + "loss": 0.0099, + "step": 109310 + }, + { + "epoch": 0.699616, + "grad_norm": 1.0262759923934937, + "learning_rate": 1.5335893333333334e-05, + "loss": 0.0127, + "step": 109315 + }, + { + "epoch": 0.699648, + "grad_norm": 0.037877149879932404, + "learning_rate": 1.533568e-05, + "loss": 0.0472, + "step": 109320 + }, + { + "epoch": 0.69968, + "grad_norm": 0.4804295003414154, + "learning_rate": 1.5335466666666666e-05, + "loss": 0.0074, + "step": 109325 + }, + { + "epoch": 0.699712, + "grad_norm": 0.06939274072647095, + "learning_rate": 1.5335253333333337e-05, + "loss": 0.0163, + "step": 109330 + }, + { + "epoch": 0.699744, + "grad_norm": 0.1049027070403099, + "learning_rate": 1.533504e-05, + "loss": 0.0069, + "step": 109335 + }, + { + "epoch": 0.699776, + "grad_norm": 0.36355525255203247, + "learning_rate": 1.533482666666667e-05, + "loss": 0.0126, + "step": 109340 + }, + { + "epoch": 0.699808, + "grad_norm": 0.10852566361427307, + "learning_rate": 1.5334613333333336e-05, + "loss": 0.0043, + "step": 109345 + }, + { + "epoch": 0.69984, + "grad_norm": 0.3871697187423706, + "learning_rate": 1.53344e-05, + "loss": 0.0067, + "step": 109350 + }, + { + "epoch": 0.699872, + "grad_norm": 0.16364459693431854, + "learning_rate": 1.5334186666666668e-05, + "loss": 0.0162, + "step": 109355 + }, + { + "epoch": 0.699904, + "grad_norm": 0.15156032145023346, + "learning_rate": 1.5333973333333335e-05, + "loss": 0.0151, + "step": 109360 + }, + { + "epoch": 0.699936, + "grad_norm": 0.4441191852092743, + "learning_rate": 1.5333760000000003e-05, + "loss": 0.0144, + "step": 109365 + }, + { + "epoch": 0.699968, + "grad_norm": 0.4937720000743866, + "learning_rate": 1.5333546666666667e-05, + "loss": 0.0104, + "step": 109370 + }, + { + "epoch": 0.7, + "grad_norm": 0.15647460520267487, + "learning_rate": 1.5333333333333334e-05, + "loss": 0.0052, + "step": 109375 + }, + { + "epoch": 0.700032, + "grad_norm": 1.3933199644088745, + "learning_rate": 1.5333120000000002e-05, + "loss": 0.0072, + "step": 109380 + }, + { + "epoch": 0.700064, + "grad_norm": 0.8435169458389282, + "learning_rate": 1.5332906666666666e-05, + "loss": 0.0187, + "step": 109385 + }, + { + "epoch": 0.700096, + "grad_norm": 0.6112713813781738, + "learning_rate": 1.5332693333333334e-05, + "loss": 0.0152, + "step": 109390 + }, + { + "epoch": 0.700128, + "grad_norm": 0.2898789644241333, + "learning_rate": 1.533248e-05, + "loss": 0.0418, + "step": 109395 + }, + { + "epoch": 0.70016, + "grad_norm": 0.09481683373451233, + "learning_rate": 1.533226666666667e-05, + "loss": 0.0252, + "step": 109400 + }, + { + "epoch": 0.700192, + "grad_norm": 0.1584426760673523, + "learning_rate": 1.5332053333333333e-05, + "loss": 0.0106, + "step": 109405 + }, + { + "epoch": 0.700224, + "grad_norm": 0.4838509261608124, + "learning_rate": 1.5331840000000004e-05, + "loss": 0.0132, + "step": 109410 + }, + { + "epoch": 0.700256, + "grad_norm": 0.4906977415084839, + "learning_rate": 1.5331626666666668e-05, + "loss": 0.0097, + "step": 109415 + }, + { + "epoch": 0.700288, + "grad_norm": 1.020830750465393, + "learning_rate": 1.5331413333333332e-05, + "loss": 0.011, + "step": 109420 + }, + { + "epoch": 0.70032, + "grad_norm": 0.3695795238018036, + "learning_rate": 1.5331200000000003e-05, + "loss": 0.0063, + "step": 109425 + }, + { + "epoch": 0.700352, + "grad_norm": 0.8059163093566895, + "learning_rate": 1.5330986666666667e-05, + "loss": 0.0108, + "step": 109430 + }, + { + "epoch": 0.700384, + "grad_norm": 0.23970086872577667, + "learning_rate": 1.5330773333333335e-05, + "loss": 0.0086, + "step": 109435 + }, + { + "epoch": 0.700416, + "grad_norm": 0.6308201551437378, + "learning_rate": 1.5330560000000003e-05, + "loss": 0.0052, + "step": 109440 + }, + { + "epoch": 0.700448, + "grad_norm": 0.07190872728824615, + "learning_rate": 1.533034666666667e-05, + "loss": 0.0154, + "step": 109445 + }, + { + "epoch": 0.70048, + "grad_norm": 0.6515073180198669, + "learning_rate": 1.5330133333333334e-05, + "loss": 0.0202, + "step": 109450 + }, + { + "epoch": 0.700512, + "grad_norm": 0.1641765832901001, + "learning_rate": 1.5329920000000002e-05, + "loss": 0.0098, + "step": 109455 + }, + { + "epoch": 0.700544, + "grad_norm": 0.12570665776729584, + "learning_rate": 1.532970666666667e-05, + "loss": 0.0081, + "step": 109460 + }, + { + "epoch": 0.700576, + "grad_norm": 0.09965518862009048, + "learning_rate": 1.5329493333333334e-05, + "loss": 0.0077, + "step": 109465 + }, + { + "epoch": 0.700608, + "grad_norm": 0.01469983160495758, + "learning_rate": 1.532928e-05, + "loss": 0.0054, + "step": 109470 + }, + { + "epoch": 0.70064, + "grad_norm": 0.9640564322471619, + "learning_rate": 1.532906666666667e-05, + "loss": 0.0187, + "step": 109475 + }, + { + "epoch": 0.700672, + "grad_norm": 0.24474534392356873, + "learning_rate": 1.5328853333333336e-05, + "loss": 0.0114, + "step": 109480 + }, + { + "epoch": 0.700704, + "grad_norm": 0.7953673601150513, + "learning_rate": 1.532864e-05, + "loss": 0.0126, + "step": 109485 + }, + { + "epoch": 0.700736, + "grad_norm": 0.6131451725959778, + "learning_rate": 1.5328426666666668e-05, + "loss": 0.0122, + "step": 109490 + }, + { + "epoch": 0.700768, + "grad_norm": 1.027297019958496, + "learning_rate": 1.5328213333333335e-05, + "loss": 0.0057, + "step": 109495 + }, + { + "epoch": 0.7008, + "grad_norm": 0.3980676829814911, + "learning_rate": 1.5328e-05, + "loss": 0.0309, + "step": 109500 + }, + { + "epoch": 0.700832, + "grad_norm": 0.03562195226550102, + "learning_rate": 1.5327786666666667e-05, + "loss": 0.025, + "step": 109505 + }, + { + "epoch": 0.700864, + "grad_norm": 0.7381303310394287, + "learning_rate": 1.5327573333333335e-05, + "loss": 0.014, + "step": 109510 + }, + { + "epoch": 0.700896, + "grad_norm": 1.3978543281555176, + "learning_rate": 1.5327360000000002e-05, + "loss": 0.0259, + "step": 109515 + }, + { + "epoch": 0.700928, + "grad_norm": 0.20598888397216797, + "learning_rate": 1.5327146666666666e-05, + "loss": 0.0028, + "step": 109520 + }, + { + "epoch": 0.70096, + "grad_norm": 0.1492747664451599, + "learning_rate": 1.5326933333333334e-05, + "loss": 0.0105, + "step": 109525 + }, + { + "epoch": 0.700992, + "grad_norm": 0.13866561651229858, + "learning_rate": 1.532672e-05, + "loss": 0.0109, + "step": 109530 + }, + { + "epoch": 0.701024, + "grad_norm": 0.18168891966342926, + "learning_rate": 1.5326506666666666e-05, + "loss": 0.008, + "step": 109535 + }, + { + "epoch": 0.701056, + "grad_norm": 0.3213596045970917, + "learning_rate": 1.5326293333333337e-05, + "loss": 0.0061, + "step": 109540 + }, + { + "epoch": 0.701088, + "grad_norm": 0.5868259072303772, + "learning_rate": 1.532608e-05, + "loss": 0.0374, + "step": 109545 + }, + { + "epoch": 0.70112, + "grad_norm": 3.1064958572387695, + "learning_rate": 1.532586666666667e-05, + "loss": 0.0198, + "step": 109550 + }, + { + "epoch": 0.701152, + "grad_norm": 0.12090839445590973, + "learning_rate": 1.5325653333333336e-05, + "loss": 0.0055, + "step": 109555 + }, + { + "epoch": 0.701184, + "grad_norm": 0.15285788476467133, + "learning_rate": 1.532544e-05, + "loss": 0.0118, + "step": 109560 + }, + { + "epoch": 0.701216, + "grad_norm": 0.014987912029027939, + "learning_rate": 1.5325226666666668e-05, + "loss": 0.0034, + "step": 109565 + }, + { + "epoch": 0.701248, + "grad_norm": 1.5516462326049805, + "learning_rate": 1.5325013333333335e-05, + "loss": 0.0251, + "step": 109570 + }, + { + "epoch": 0.70128, + "grad_norm": 0.2942946255207062, + "learning_rate": 1.5324800000000003e-05, + "loss": 0.011, + "step": 109575 + }, + { + "epoch": 0.701312, + "grad_norm": 0.016950007528066635, + "learning_rate": 1.5324586666666667e-05, + "loss": 0.0228, + "step": 109580 + }, + { + "epoch": 0.701344, + "grad_norm": 0.3302832543849945, + "learning_rate": 1.5324373333333334e-05, + "loss": 0.0066, + "step": 109585 + }, + { + "epoch": 0.701376, + "grad_norm": 0.2747988998889923, + "learning_rate": 1.5324160000000002e-05, + "loss": 0.0195, + "step": 109590 + }, + { + "epoch": 0.701408, + "grad_norm": 0.1313508003950119, + "learning_rate": 1.5323946666666666e-05, + "loss": 0.0078, + "step": 109595 + }, + { + "epoch": 0.70144, + "grad_norm": 0.48326581716537476, + "learning_rate": 1.5323733333333334e-05, + "loss": 0.0161, + "step": 109600 + }, + { + "epoch": 0.701472, + "grad_norm": 0.4221714437007904, + "learning_rate": 1.532352e-05, + "loss": 0.0151, + "step": 109605 + }, + { + "epoch": 0.701504, + "grad_norm": 0.1774711310863495, + "learning_rate": 1.532330666666667e-05, + "loss": 0.0079, + "step": 109610 + }, + { + "epoch": 0.701536, + "grad_norm": 1.3178478479385376, + "learning_rate": 1.5323093333333333e-05, + "loss": 0.0127, + "step": 109615 + }, + { + "epoch": 0.701568, + "grad_norm": 0.6896342635154724, + "learning_rate": 1.532288e-05, + "loss": 0.0261, + "step": 109620 + }, + { + "epoch": 0.7016, + "grad_norm": 0.2919226288795471, + "learning_rate": 1.5322666666666668e-05, + "loss": 0.0106, + "step": 109625 + }, + { + "epoch": 0.701632, + "grad_norm": 5.1793036460876465, + "learning_rate": 1.5322453333333332e-05, + "loss": 0.0251, + "step": 109630 + }, + { + "epoch": 0.701664, + "grad_norm": 1.0499980449676514, + "learning_rate": 1.5322240000000003e-05, + "loss": 0.0165, + "step": 109635 + }, + { + "epoch": 0.701696, + "grad_norm": 0.12454573065042496, + "learning_rate": 1.5322026666666667e-05, + "loss": 0.0083, + "step": 109640 + }, + { + "epoch": 0.701728, + "grad_norm": 0.7511793375015259, + "learning_rate": 1.5321813333333335e-05, + "loss": 0.0085, + "step": 109645 + }, + { + "epoch": 0.70176, + "grad_norm": 0.40247198939323425, + "learning_rate": 1.5321600000000003e-05, + "loss": 0.0239, + "step": 109650 + }, + { + "epoch": 0.701792, + "grad_norm": 0.3998120427131653, + "learning_rate": 1.532138666666667e-05, + "loss": 0.013, + "step": 109655 + }, + { + "epoch": 0.701824, + "grad_norm": 0.4584248661994934, + "learning_rate": 1.5321173333333334e-05, + "loss": 0.0076, + "step": 109660 + }, + { + "epoch": 0.701856, + "grad_norm": 0.16086715459823608, + "learning_rate": 1.5320960000000002e-05, + "loss": 0.0161, + "step": 109665 + }, + { + "epoch": 0.701888, + "grad_norm": 0.16132284700870514, + "learning_rate": 1.532074666666667e-05, + "loss": 0.0117, + "step": 109670 + }, + { + "epoch": 0.70192, + "grad_norm": 0.403432160615921, + "learning_rate": 1.5320533333333334e-05, + "loss": 0.0572, + "step": 109675 + }, + { + "epoch": 0.701952, + "grad_norm": 0.14463143050670624, + "learning_rate": 1.532032e-05, + "loss": 0.0021, + "step": 109680 + }, + { + "epoch": 0.701984, + "grad_norm": 0.6099666953086853, + "learning_rate": 1.532010666666667e-05, + "loss": 0.0343, + "step": 109685 + }, + { + "epoch": 0.702016, + "grad_norm": 1.4519273042678833, + "learning_rate": 1.5319893333333336e-05, + "loss": 0.0284, + "step": 109690 + }, + { + "epoch": 0.702048, + "grad_norm": 0.44885334372520447, + "learning_rate": 1.531968e-05, + "loss": 0.0118, + "step": 109695 + }, + { + "epoch": 0.70208, + "grad_norm": 0.42084935307502747, + "learning_rate": 1.5319466666666668e-05, + "loss": 0.005, + "step": 109700 + }, + { + "epoch": 0.702112, + "grad_norm": 0.8750676512718201, + "learning_rate": 1.5319253333333335e-05, + "loss": 0.0139, + "step": 109705 + }, + { + "epoch": 0.702144, + "grad_norm": 0.4639831781387329, + "learning_rate": 1.531904e-05, + "loss": 0.02, + "step": 109710 + }, + { + "epoch": 0.702176, + "grad_norm": 0.2742324769496918, + "learning_rate": 1.5318826666666667e-05, + "loss": 0.009, + "step": 109715 + }, + { + "epoch": 0.702208, + "grad_norm": 0.41159796714782715, + "learning_rate": 1.5318613333333335e-05, + "loss": 0.0216, + "step": 109720 + }, + { + "epoch": 0.70224, + "grad_norm": 2.200453042984009, + "learning_rate": 1.5318400000000002e-05, + "loss": 0.0088, + "step": 109725 + }, + { + "epoch": 0.702272, + "grad_norm": 0.30435702204704285, + "learning_rate": 1.5318186666666666e-05, + "loss": 0.0135, + "step": 109730 + }, + { + "epoch": 0.702304, + "grad_norm": 0.638581395149231, + "learning_rate": 1.5317973333333334e-05, + "loss": 0.0292, + "step": 109735 + }, + { + "epoch": 0.702336, + "grad_norm": 0.37145888805389404, + "learning_rate": 1.531776e-05, + "loss": 0.0301, + "step": 109740 + }, + { + "epoch": 0.702368, + "grad_norm": 0.6835351586341858, + "learning_rate": 1.5317546666666666e-05, + "loss": 0.0108, + "step": 109745 + }, + { + "epoch": 0.7024, + "grad_norm": 0.03395692631602287, + "learning_rate": 1.5317333333333337e-05, + "loss": 0.0063, + "step": 109750 + }, + { + "epoch": 0.702432, + "grad_norm": 0.7499050498008728, + "learning_rate": 1.531712e-05, + "loss": 0.0163, + "step": 109755 + }, + { + "epoch": 0.702464, + "grad_norm": 0.6174631714820862, + "learning_rate": 1.531690666666667e-05, + "loss": 0.0055, + "step": 109760 + }, + { + "epoch": 0.702496, + "grad_norm": 0.9768980145454407, + "learning_rate": 1.5316693333333336e-05, + "loss": 0.0131, + "step": 109765 + }, + { + "epoch": 0.702528, + "grad_norm": 0.09370493143796921, + "learning_rate": 1.531648e-05, + "loss": 0.0045, + "step": 109770 + }, + { + "epoch": 0.70256, + "grad_norm": 0.07877897471189499, + "learning_rate": 1.5316266666666668e-05, + "loss": 0.0018, + "step": 109775 + }, + { + "epoch": 0.702592, + "grad_norm": 0.21492712199687958, + "learning_rate": 1.5316053333333335e-05, + "loss": 0.0151, + "step": 109780 + }, + { + "epoch": 0.702624, + "grad_norm": 0.5321323871612549, + "learning_rate": 1.5315840000000003e-05, + "loss": 0.0195, + "step": 109785 + }, + { + "epoch": 0.702656, + "grad_norm": 0.6061326265335083, + "learning_rate": 1.5315626666666667e-05, + "loss": 0.0215, + "step": 109790 + }, + { + "epoch": 0.702688, + "grad_norm": 1.0007842779159546, + "learning_rate": 1.5315413333333334e-05, + "loss": 0.0122, + "step": 109795 + }, + { + "epoch": 0.70272, + "grad_norm": 0.19754455983638763, + "learning_rate": 1.5315200000000002e-05, + "loss": 0.0158, + "step": 109800 + }, + { + "epoch": 0.702752, + "grad_norm": 0.49192115664482117, + "learning_rate": 1.5314986666666666e-05, + "loss": 0.0092, + "step": 109805 + }, + { + "epoch": 0.702784, + "grad_norm": 0.1126968041062355, + "learning_rate": 1.5314773333333334e-05, + "loss": 0.0105, + "step": 109810 + }, + { + "epoch": 0.702816, + "grad_norm": 1.681858777999878, + "learning_rate": 1.531456e-05, + "loss": 0.0113, + "step": 109815 + }, + { + "epoch": 0.702848, + "grad_norm": 0.3190354108810425, + "learning_rate": 1.531434666666667e-05, + "loss": 0.025, + "step": 109820 + }, + { + "epoch": 0.70288, + "grad_norm": 0.7427157759666443, + "learning_rate": 1.5314133333333333e-05, + "loss": 0.0128, + "step": 109825 + }, + { + "epoch": 0.702912, + "grad_norm": 0.3066294491291046, + "learning_rate": 1.531392e-05, + "loss": 0.0212, + "step": 109830 + }, + { + "epoch": 0.702944, + "grad_norm": 0.3104053735733032, + "learning_rate": 1.5313706666666668e-05, + "loss": 0.0066, + "step": 109835 + }, + { + "epoch": 0.702976, + "grad_norm": 0.6761888265609741, + "learning_rate": 1.5313493333333332e-05, + "loss": 0.0149, + "step": 109840 + }, + { + "epoch": 0.703008, + "grad_norm": 0.4940250515937805, + "learning_rate": 1.531328e-05, + "loss": 0.0188, + "step": 109845 + }, + { + "epoch": 0.70304, + "grad_norm": 0.3123374879360199, + "learning_rate": 1.5313066666666667e-05, + "loss": 0.0052, + "step": 109850 + }, + { + "epoch": 0.703072, + "grad_norm": 0.8264981508255005, + "learning_rate": 1.5312853333333335e-05, + "loss": 0.0158, + "step": 109855 + }, + { + "epoch": 0.703104, + "grad_norm": 0.6315563917160034, + "learning_rate": 1.5312640000000003e-05, + "loss": 0.0081, + "step": 109860 + }, + { + "epoch": 0.703136, + "grad_norm": 0.721341609954834, + "learning_rate": 1.531242666666667e-05, + "loss": 0.0081, + "step": 109865 + }, + { + "epoch": 0.703168, + "grad_norm": 0.3895781338214874, + "learning_rate": 1.5312213333333334e-05, + "loss": 0.0152, + "step": 109870 + }, + { + "epoch": 0.7032, + "grad_norm": 0.012766920030117035, + "learning_rate": 1.5312000000000002e-05, + "loss": 0.0035, + "step": 109875 + }, + { + "epoch": 0.703232, + "grad_norm": 0.6183503270149231, + "learning_rate": 1.531178666666667e-05, + "loss": 0.0246, + "step": 109880 + }, + { + "epoch": 0.703264, + "grad_norm": 0.5484092831611633, + "learning_rate": 1.5311573333333334e-05, + "loss": 0.0124, + "step": 109885 + }, + { + "epoch": 0.703296, + "grad_norm": 0.549948513507843, + "learning_rate": 1.531136e-05, + "loss": 0.0106, + "step": 109890 + }, + { + "epoch": 0.703328, + "grad_norm": 0.040347278118133545, + "learning_rate": 1.531114666666667e-05, + "loss": 0.0052, + "step": 109895 + }, + { + "epoch": 0.70336, + "grad_norm": 0.768168032169342, + "learning_rate": 1.5310933333333336e-05, + "loss": 0.0141, + "step": 109900 + }, + { + "epoch": 0.703392, + "grad_norm": 0.23720648884773254, + "learning_rate": 1.531072e-05, + "loss": 0.0137, + "step": 109905 + }, + { + "epoch": 0.703424, + "grad_norm": 1.0783361196517944, + "learning_rate": 1.5310506666666668e-05, + "loss": 0.0106, + "step": 109910 + }, + { + "epoch": 0.703456, + "grad_norm": 0.5407588481903076, + "learning_rate": 1.5310293333333335e-05, + "loss": 0.0048, + "step": 109915 + }, + { + "epoch": 0.703488, + "grad_norm": 0.3415679931640625, + "learning_rate": 1.531008e-05, + "loss": 0.0212, + "step": 109920 + }, + { + "epoch": 0.70352, + "grad_norm": 1.3996554613113403, + "learning_rate": 1.5309866666666667e-05, + "loss": 0.0148, + "step": 109925 + }, + { + "epoch": 0.703552, + "grad_norm": 0.7203885912895203, + "learning_rate": 1.5309653333333335e-05, + "loss": 0.0104, + "step": 109930 + }, + { + "epoch": 0.703584, + "grad_norm": 0.023016057908535004, + "learning_rate": 1.5309440000000002e-05, + "loss": 0.0067, + "step": 109935 + }, + { + "epoch": 0.703616, + "grad_norm": 0.05298532173037529, + "learning_rate": 1.5309226666666666e-05, + "loss": 0.0031, + "step": 109940 + }, + { + "epoch": 0.703648, + "grad_norm": 0.5623376965522766, + "learning_rate": 1.5309013333333334e-05, + "loss": 0.0107, + "step": 109945 + }, + { + "epoch": 0.70368, + "grad_norm": 0.1746903657913208, + "learning_rate": 1.53088e-05, + "loss": 0.0525, + "step": 109950 + }, + { + "epoch": 0.703712, + "grad_norm": 1.392535924911499, + "learning_rate": 1.5308586666666666e-05, + "loss": 0.0098, + "step": 109955 + }, + { + "epoch": 0.703744, + "grad_norm": 1.1566987037658691, + "learning_rate": 1.5308373333333337e-05, + "loss": 0.0123, + "step": 109960 + }, + { + "epoch": 0.703776, + "grad_norm": 1.0468720197677612, + "learning_rate": 1.530816e-05, + "loss": 0.0197, + "step": 109965 + }, + { + "epoch": 0.703808, + "grad_norm": 0.013027946464717388, + "learning_rate": 1.530794666666667e-05, + "loss": 0.0074, + "step": 109970 + }, + { + "epoch": 0.70384, + "grad_norm": 0.33559682965278625, + "learning_rate": 1.5307733333333336e-05, + "loss": 0.0111, + "step": 109975 + }, + { + "epoch": 0.703872, + "grad_norm": 0.4076809585094452, + "learning_rate": 1.530752e-05, + "loss": 0.0131, + "step": 109980 + }, + { + "epoch": 0.703904, + "grad_norm": 0.42944419384002686, + "learning_rate": 1.5307306666666668e-05, + "loss": 0.0038, + "step": 109985 + }, + { + "epoch": 0.703936, + "grad_norm": 0.0278538316488266, + "learning_rate": 1.5307093333333335e-05, + "loss": 0.0019, + "step": 109990 + }, + { + "epoch": 0.703968, + "grad_norm": 0.9618178009986877, + "learning_rate": 1.5306880000000003e-05, + "loss": 0.0069, + "step": 109995 + }, + { + "epoch": 0.704, + "grad_norm": 0.743057370185852, + "learning_rate": 1.5306666666666667e-05, + "loss": 0.0268, + "step": 110000 + }, + { + "epoch": 0.704032, + "grad_norm": 0.189970001578331, + "learning_rate": 1.5306453333333334e-05, + "loss": 0.016, + "step": 110005 + }, + { + "epoch": 0.704064, + "grad_norm": 0.33829301595687866, + "learning_rate": 1.5306240000000002e-05, + "loss": 0.0053, + "step": 110010 + }, + { + "epoch": 0.704096, + "grad_norm": 0.251949667930603, + "learning_rate": 1.5306026666666666e-05, + "loss": 0.0183, + "step": 110015 + }, + { + "epoch": 0.704128, + "grad_norm": 0.3706180155277252, + "learning_rate": 1.5305813333333334e-05, + "loss": 0.0099, + "step": 110020 + }, + { + "epoch": 0.70416, + "grad_norm": 0.16984012722969055, + "learning_rate": 1.53056e-05, + "loss": 0.0067, + "step": 110025 + }, + { + "epoch": 0.704192, + "grad_norm": 0.04597703367471695, + "learning_rate": 1.530538666666667e-05, + "loss": 0.0104, + "step": 110030 + }, + { + "epoch": 0.704224, + "grad_norm": 0.04691062867641449, + "learning_rate": 1.5305173333333333e-05, + "loss": 0.0058, + "step": 110035 + }, + { + "epoch": 0.704256, + "grad_norm": 0.21501480042934418, + "learning_rate": 1.530496e-05, + "loss": 0.011, + "step": 110040 + }, + { + "epoch": 0.704288, + "grad_norm": 0.23047006130218506, + "learning_rate": 1.5304746666666668e-05, + "loss": 0.0126, + "step": 110045 + }, + { + "epoch": 0.70432, + "grad_norm": 0.1760769635438919, + "learning_rate": 1.5304533333333336e-05, + "loss": 0.0085, + "step": 110050 + }, + { + "epoch": 0.704352, + "grad_norm": 0.18121223151683807, + "learning_rate": 1.530432e-05, + "loss": 0.0139, + "step": 110055 + }, + { + "epoch": 0.704384, + "grad_norm": 0.8347513675689697, + "learning_rate": 1.5304106666666667e-05, + "loss": 0.0124, + "step": 110060 + }, + { + "epoch": 0.704416, + "grad_norm": 0.7713158130645752, + "learning_rate": 1.5303893333333335e-05, + "loss": 0.0082, + "step": 110065 + }, + { + "epoch": 0.704448, + "grad_norm": 0.08431573212146759, + "learning_rate": 1.530368e-05, + "loss": 0.0095, + "step": 110070 + }, + { + "epoch": 0.70448, + "grad_norm": 0.09667392820119858, + "learning_rate": 1.530346666666667e-05, + "loss": 0.0064, + "step": 110075 + }, + { + "epoch": 0.704512, + "grad_norm": 0.025902627035975456, + "learning_rate": 1.5303253333333334e-05, + "loss": 0.0083, + "step": 110080 + }, + { + "epoch": 0.704544, + "grad_norm": 0.6640841364860535, + "learning_rate": 1.5303040000000002e-05, + "loss": 0.0107, + "step": 110085 + }, + { + "epoch": 0.704576, + "grad_norm": 0.26311731338500977, + "learning_rate": 1.530282666666667e-05, + "loss": 0.0035, + "step": 110090 + }, + { + "epoch": 0.704608, + "grad_norm": 0.3218134641647339, + "learning_rate": 1.5302613333333334e-05, + "loss": 0.0055, + "step": 110095 + }, + { + "epoch": 0.70464, + "grad_norm": 0.2601706385612488, + "learning_rate": 1.53024e-05, + "loss": 0.0068, + "step": 110100 + }, + { + "epoch": 0.704672, + "grad_norm": 0.864382803440094, + "learning_rate": 1.530218666666667e-05, + "loss": 0.0041, + "step": 110105 + }, + { + "epoch": 0.704704, + "grad_norm": 0.8212753534317017, + "learning_rate": 1.5301973333333336e-05, + "loss": 0.0126, + "step": 110110 + }, + { + "epoch": 0.704736, + "grad_norm": 0.03979899734258652, + "learning_rate": 1.530176e-05, + "loss": 0.0157, + "step": 110115 + }, + { + "epoch": 0.704768, + "grad_norm": 0.09513571113348007, + "learning_rate": 1.5301546666666668e-05, + "loss": 0.014, + "step": 110120 + }, + { + "epoch": 0.7048, + "grad_norm": 0.4965769648551941, + "learning_rate": 1.5301333333333335e-05, + "loss": 0.0142, + "step": 110125 + }, + { + "epoch": 0.704832, + "grad_norm": 0.5058364272117615, + "learning_rate": 1.530112e-05, + "loss": 0.0176, + "step": 110130 + }, + { + "epoch": 0.704864, + "grad_norm": 0.4990476071834564, + "learning_rate": 1.5300906666666667e-05, + "loss": 0.0095, + "step": 110135 + }, + { + "epoch": 0.704896, + "grad_norm": 0.1007983386516571, + "learning_rate": 1.5300693333333335e-05, + "loss": 0.0047, + "step": 110140 + }, + { + "epoch": 0.704928, + "grad_norm": 0.66642165184021, + "learning_rate": 1.5300480000000002e-05, + "loss": 0.01, + "step": 110145 + }, + { + "epoch": 0.70496, + "grad_norm": 0.23808833956718445, + "learning_rate": 1.5300266666666666e-05, + "loss": 0.0415, + "step": 110150 + }, + { + "epoch": 0.704992, + "grad_norm": 1.3801121711730957, + "learning_rate": 1.5300053333333334e-05, + "loss": 0.0068, + "step": 110155 + }, + { + "epoch": 0.705024, + "grad_norm": 0.18842101097106934, + "learning_rate": 1.529984e-05, + "loss": 0.0128, + "step": 110160 + }, + { + "epoch": 0.705056, + "grad_norm": 0.6059574484825134, + "learning_rate": 1.5299626666666666e-05, + "loss": 0.0087, + "step": 110165 + }, + { + "epoch": 0.705088, + "grad_norm": 0.32146167755126953, + "learning_rate": 1.5299413333333337e-05, + "loss": 0.0146, + "step": 110170 + }, + { + "epoch": 0.70512, + "grad_norm": 0.08084210753440857, + "learning_rate": 1.52992e-05, + "loss": 0.0065, + "step": 110175 + }, + { + "epoch": 0.705152, + "grad_norm": 0.8087601661682129, + "learning_rate": 1.529898666666667e-05, + "loss": 0.0081, + "step": 110180 + }, + { + "epoch": 0.705184, + "grad_norm": 0.17010001838207245, + "learning_rate": 1.5298773333333336e-05, + "loss": 0.0113, + "step": 110185 + }, + { + "epoch": 0.705216, + "grad_norm": 0.03979639708995819, + "learning_rate": 1.5298560000000003e-05, + "loss": 0.0059, + "step": 110190 + }, + { + "epoch": 0.705248, + "grad_norm": 3.22731351852417, + "learning_rate": 1.5298346666666668e-05, + "loss": 0.038, + "step": 110195 + }, + { + "epoch": 0.70528, + "grad_norm": 0.44809287786483765, + "learning_rate": 1.5298133333333335e-05, + "loss": 0.0171, + "step": 110200 + }, + { + "epoch": 0.705312, + "grad_norm": 0.2222830206155777, + "learning_rate": 1.5297920000000003e-05, + "loss": 0.0137, + "step": 110205 + }, + { + "epoch": 0.705344, + "grad_norm": 0.17410793900489807, + "learning_rate": 1.5297706666666667e-05, + "loss": 0.0077, + "step": 110210 + }, + { + "epoch": 0.705376, + "grad_norm": 0.8882379531860352, + "learning_rate": 1.5297493333333334e-05, + "loss": 0.0099, + "step": 110215 + }, + { + "epoch": 0.705408, + "grad_norm": 0.30444806814193726, + "learning_rate": 1.5297280000000002e-05, + "loss": 0.0085, + "step": 110220 + }, + { + "epoch": 0.70544, + "grad_norm": 0.5156007409095764, + "learning_rate": 1.529706666666667e-05, + "loss": 0.0092, + "step": 110225 + }, + { + "epoch": 0.705472, + "grad_norm": 0.8810920715332031, + "learning_rate": 1.5296853333333334e-05, + "loss": 0.0134, + "step": 110230 + }, + { + "epoch": 0.705504, + "grad_norm": 1.1787869930267334, + "learning_rate": 1.529664e-05, + "loss": 0.0105, + "step": 110235 + }, + { + "epoch": 0.705536, + "grad_norm": 2.774296760559082, + "learning_rate": 1.529642666666667e-05, + "loss": 0.0256, + "step": 110240 + }, + { + "epoch": 0.705568, + "grad_norm": 0.5732157826423645, + "learning_rate": 1.5296213333333333e-05, + "loss": 0.0154, + "step": 110245 + }, + { + "epoch": 0.7056, + "grad_norm": 0.6496112942695618, + "learning_rate": 1.5296e-05, + "loss": 0.0044, + "step": 110250 + }, + { + "epoch": 0.705632, + "grad_norm": 0.3890184760093689, + "learning_rate": 1.5295786666666668e-05, + "loss": 0.0147, + "step": 110255 + }, + { + "epoch": 0.705664, + "grad_norm": 0.9635012745857239, + "learning_rate": 1.5295573333333336e-05, + "loss": 0.0122, + "step": 110260 + }, + { + "epoch": 0.705696, + "grad_norm": 0.28555119037628174, + "learning_rate": 1.529536e-05, + "loss": 0.0061, + "step": 110265 + }, + { + "epoch": 0.705728, + "grad_norm": 0.4524179995059967, + "learning_rate": 1.5295146666666667e-05, + "loss": 0.0104, + "step": 110270 + }, + { + "epoch": 0.70576, + "grad_norm": 0.549834132194519, + "learning_rate": 1.5294933333333335e-05, + "loss": 0.0109, + "step": 110275 + }, + { + "epoch": 0.705792, + "grad_norm": 0.3829266428947449, + "learning_rate": 1.529472e-05, + "loss": 0.0247, + "step": 110280 + }, + { + "epoch": 0.705824, + "grad_norm": 1.4924588203430176, + "learning_rate": 1.529450666666667e-05, + "loss": 0.013, + "step": 110285 + }, + { + "epoch": 0.705856, + "grad_norm": 0.5582283139228821, + "learning_rate": 1.5294293333333334e-05, + "loss": 0.0116, + "step": 110290 + }, + { + "epoch": 0.705888, + "grad_norm": 0.07773791998624802, + "learning_rate": 1.5294080000000002e-05, + "loss": 0.0053, + "step": 110295 + }, + { + "epoch": 0.70592, + "grad_norm": 0.3640144467353821, + "learning_rate": 1.529386666666667e-05, + "loss": 0.0093, + "step": 110300 + }, + { + "epoch": 0.705952, + "grad_norm": 0.4294341504573822, + "learning_rate": 1.5293653333333334e-05, + "loss": 0.0063, + "step": 110305 + }, + { + "epoch": 0.705984, + "grad_norm": 0.20392535626888275, + "learning_rate": 1.529344e-05, + "loss": 0.0101, + "step": 110310 + }, + { + "epoch": 0.706016, + "grad_norm": 0.12216418981552124, + "learning_rate": 1.529322666666667e-05, + "loss": 0.0303, + "step": 110315 + }, + { + "epoch": 0.706048, + "grad_norm": 1.2425363063812256, + "learning_rate": 1.5293013333333336e-05, + "loss": 0.0225, + "step": 110320 + }, + { + "epoch": 0.70608, + "grad_norm": 0.4439976215362549, + "learning_rate": 1.52928e-05, + "loss": 0.0092, + "step": 110325 + }, + { + "epoch": 0.706112, + "grad_norm": 0.5352077484130859, + "learning_rate": 1.5292586666666668e-05, + "loss": 0.0067, + "step": 110330 + }, + { + "epoch": 0.706144, + "grad_norm": 0.19699901342391968, + "learning_rate": 1.5292373333333335e-05, + "loss": 0.007, + "step": 110335 + }, + { + "epoch": 0.706176, + "grad_norm": 0.6888089776039124, + "learning_rate": 1.529216e-05, + "loss": 0.0125, + "step": 110340 + }, + { + "epoch": 0.706208, + "grad_norm": 0.06217002868652344, + "learning_rate": 1.5291946666666667e-05, + "loss": 0.0068, + "step": 110345 + }, + { + "epoch": 0.70624, + "grad_norm": 0.47126108407974243, + "learning_rate": 1.5291733333333335e-05, + "loss": 0.0168, + "step": 110350 + }, + { + "epoch": 0.706272, + "grad_norm": 0.1205999106168747, + "learning_rate": 1.5291520000000002e-05, + "loss": 0.007, + "step": 110355 + }, + { + "epoch": 0.706304, + "grad_norm": 2.5259411334991455, + "learning_rate": 1.5291306666666666e-05, + "loss": 0.008, + "step": 110360 + }, + { + "epoch": 0.706336, + "grad_norm": 0.6462200284004211, + "learning_rate": 1.5291093333333334e-05, + "loss": 0.0084, + "step": 110365 + }, + { + "epoch": 0.706368, + "grad_norm": 0.07630946487188339, + "learning_rate": 1.529088e-05, + "loss": 0.0077, + "step": 110370 + }, + { + "epoch": 0.7064, + "grad_norm": 0.6598501205444336, + "learning_rate": 1.5290666666666666e-05, + "loss": 0.0086, + "step": 110375 + }, + { + "epoch": 0.706432, + "grad_norm": 0.6659751534461975, + "learning_rate": 1.5290453333333333e-05, + "loss": 0.0089, + "step": 110380 + }, + { + "epoch": 0.706464, + "grad_norm": 0.27049699425697327, + "learning_rate": 1.529024e-05, + "loss": 0.0109, + "step": 110385 + }, + { + "epoch": 0.706496, + "grad_norm": 0.28327715396881104, + "learning_rate": 1.529002666666667e-05, + "loss": 0.0069, + "step": 110390 + }, + { + "epoch": 0.706528, + "grad_norm": 0.4964695870876312, + "learning_rate": 1.5289813333333336e-05, + "loss": 0.0143, + "step": 110395 + }, + { + "epoch": 0.70656, + "grad_norm": 0.6476213932037354, + "learning_rate": 1.5289600000000004e-05, + "loss": 0.0118, + "step": 110400 + }, + { + "epoch": 0.706592, + "grad_norm": 0.5319278836250305, + "learning_rate": 1.5289386666666668e-05, + "loss": 0.0095, + "step": 110405 + }, + { + "epoch": 0.706624, + "grad_norm": 0.27241814136505127, + "learning_rate": 1.5289173333333335e-05, + "loss": 0.0074, + "step": 110410 + }, + { + "epoch": 0.706656, + "grad_norm": 0.053374648094177246, + "learning_rate": 1.5288960000000003e-05, + "loss": 0.0047, + "step": 110415 + }, + { + "epoch": 0.706688, + "grad_norm": 0.045584533363580704, + "learning_rate": 1.5288746666666667e-05, + "loss": 0.0041, + "step": 110420 + }, + { + "epoch": 0.70672, + "grad_norm": 0.4734221398830414, + "learning_rate": 1.5288533333333334e-05, + "loss": 0.0056, + "step": 110425 + }, + { + "epoch": 0.706752, + "grad_norm": 0.4939538538455963, + "learning_rate": 1.5288320000000002e-05, + "loss": 0.012, + "step": 110430 + }, + { + "epoch": 0.706784, + "grad_norm": 0.13207031786441803, + "learning_rate": 1.528810666666667e-05, + "loss": 0.0131, + "step": 110435 + }, + { + "epoch": 0.706816, + "grad_norm": 1.150488018989563, + "learning_rate": 1.5287893333333334e-05, + "loss": 0.0166, + "step": 110440 + }, + { + "epoch": 0.706848, + "grad_norm": 0.07384789735078812, + "learning_rate": 1.528768e-05, + "loss": 0.0082, + "step": 110445 + }, + { + "epoch": 0.70688, + "grad_norm": 0.7866816520690918, + "learning_rate": 1.528746666666667e-05, + "loss": 0.0095, + "step": 110450 + }, + { + "epoch": 0.706912, + "grad_norm": 0.03726617246866226, + "learning_rate": 1.5287253333333333e-05, + "loss": 0.0028, + "step": 110455 + }, + { + "epoch": 0.706944, + "grad_norm": 0.480206698179245, + "learning_rate": 1.528704e-05, + "loss": 0.0145, + "step": 110460 + }, + { + "epoch": 0.706976, + "grad_norm": 1.1231738328933716, + "learning_rate": 1.5286826666666668e-05, + "loss": 0.0101, + "step": 110465 + }, + { + "epoch": 0.707008, + "grad_norm": 0.34629398584365845, + "learning_rate": 1.5286613333333336e-05, + "loss": 0.0111, + "step": 110470 + }, + { + "epoch": 0.70704, + "grad_norm": 0.4206703305244446, + "learning_rate": 1.52864e-05, + "loss": 0.0037, + "step": 110475 + }, + { + "epoch": 0.707072, + "grad_norm": 0.31604278087615967, + "learning_rate": 1.5286186666666667e-05, + "loss": 0.0062, + "step": 110480 + }, + { + "epoch": 0.707104, + "grad_norm": 0.24592715501785278, + "learning_rate": 1.5285973333333335e-05, + "loss": 0.0189, + "step": 110485 + }, + { + "epoch": 0.707136, + "grad_norm": 0.7766109704971313, + "learning_rate": 1.528576e-05, + "loss": 0.0217, + "step": 110490 + }, + { + "epoch": 0.707168, + "grad_norm": 2.421653985977173, + "learning_rate": 1.528554666666667e-05, + "loss": 0.005, + "step": 110495 + }, + { + "epoch": 0.7072, + "grad_norm": 0.42717525362968445, + "learning_rate": 1.5285333333333334e-05, + "loss": 0.025, + "step": 110500 + }, + { + "epoch": 0.707232, + "grad_norm": 0.05973637476563454, + "learning_rate": 1.5285120000000002e-05, + "loss": 0.0071, + "step": 110505 + }, + { + "epoch": 0.707264, + "grad_norm": 0.8518308997154236, + "learning_rate": 1.528490666666667e-05, + "loss": 0.0228, + "step": 110510 + }, + { + "epoch": 0.707296, + "grad_norm": 0.23190423846244812, + "learning_rate": 1.5284693333333334e-05, + "loss": 0.0163, + "step": 110515 + }, + { + "epoch": 0.707328, + "grad_norm": 0.042181987315416336, + "learning_rate": 1.528448e-05, + "loss": 0.0111, + "step": 110520 + }, + { + "epoch": 0.70736, + "grad_norm": 0.8214651346206665, + "learning_rate": 1.528426666666667e-05, + "loss": 0.0161, + "step": 110525 + }, + { + "epoch": 0.707392, + "grad_norm": 0.2531362771987915, + "learning_rate": 1.5284053333333336e-05, + "loss": 0.0293, + "step": 110530 + }, + { + "epoch": 0.707424, + "grad_norm": 2.6415886878967285, + "learning_rate": 1.528384e-05, + "loss": 0.0516, + "step": 110535 + }, + { + "epoch": 0.707456, + "grad_norm": 0.28279346227645874, + "learning_rate": 1.5283626666666668e-05, + "loss": 0.0115, + "step": 110540 + }, + { + "epoch": 0.707488, + "grad_norm": 0.42403122782707214, + "learning_rate": 1.5283413333333335e-05, + "loss": 0.0087, + "step": 110545 + }, + { + "epoch": 0.70752, + "grad_norm": 0.5683269500732422, + "learning_rate": 1.52832e-05, + "loss": 0.013, + "step": 110550 + }, + { + "epoch": 0.707552, + "grad_norm": 0.5899836421012878, + "learning_rate": 1.5282986666666667e-05, + "loss": 0.0122, + "step": 110555 + }, + { + "epoch": 0.707584, + "grad_norm": 1.0015692710876465, + "learning_rate": 1.5282773333333335e-05, + "loss": 0.0215, + "step": 110560 + }, + { + "epoch": 0.707616, + "grad_norm": 1.5450998544692993, + "learning_rate": 1.5282560000000002e-05, + "loss": 0.0125, + "step": 110565 + }, + { + "epoch": 0.707648, + "grad_norm": 0.2862142324447632, + "learning_rate": 1.5282346666666666e-05, + "loss": 0.0074, + "step": 110570 + }, + { + "epoch": 0.70768, + "grad_norm": 0.6298617720603943, + "learning_rate": 1.5282133333333334e-05, + "loss": 0.0073, + "step": 110575 + }, + { + "epoch": 0.707712, + "grad_norm": 0.7605098485946655, + "learning_rate": 1.528192e-05, + "loss": 0.0094, + "step": 110580 + }, + { + "epoch": 0.707744, + "grad_norm": 0.6153088212013245, + "learning_rate": 1.5281706666666666e-05, + "loss": 0.0167, + "step": 110585 + }, + { + "epoch": 0.707776, + "grad_norm": 0.3176117539405823, + "learning_rate": 1.5281493333333333e-05, + "loss": 0.0094, + "step": 110590 + }, + { + "epoch": 0.707808, + "grad_norm": 0.2767198383808136, + "learning_rate": 1.528128e-05, + "loss": 0.0087, + "step": 110595 + }, + { + "epoch": 0.70784, + "grad_norm": 1.0590736865997314, + "learning_rate": 1.528106666666667e-05, + "loss": 0.0173, + "step": 110600 + }, + { + "epoch": 0.707872, + "grad_norm": 0.7977579832077026, + "learning_rate": 1.5280853333333333e-05, + "loss": 0.0056, + "step": 110605 + }, + { + "epoch": 0.707904, + "grad_norm": 1.622975468635559, + "learning_rate": 1.5280640000000004e-05, + "loss": 0.0139, + "step": 110610 + }, + { + "epoch": 0.707936, + "grad_norm": 0.11526494473218918, + "learning_rate": 1.5280426666666668e-05, + "loss": 0.0068, + "step": 110615 + }, + { + "epoch": 0.707968, + "grad_norm": 0.3496516942977905, + "learning_rate": 1.5280213333333335e-05, + "loss": 0.0226, + "step": 110620 + }, + { + "epoch": 0.708, + "grad_norm": 0.8573590517044067, + "learning_rate": 1.5280000000000003e-05, + "loss": 0.0111, + "step": 110625 + }, + { + "epoch": 0.708032, + "grad_norm": 0.10631183534860611, + "learning_rate": 1.5279786666666667e-05, + "loss": 0.0179, + "step": 110630 + }, + { + "epoch": 0.708064, + "grad_norm": 0.055592816323041916, + "learning_rate": 1.5279573333333335e-05, + "loss": 0.0282, + "step": 110635 + }, + { + "epoch": 0.708096, + "grad_norm": 1.8174022436141968, + "learning_rate": 1.5279360000000002e-05, + "loss": 0.0258, + "step": 110640 + }, + { + "epoch": 0.708128, + "grad_norm": 0.7901833653450012, + "learning_rate": 1.527914666666667e-05, + "loss": 0.01, + "step": 110645 + }, + { + "epoch": 0.70816, + "grad_norm": 0.9329328536987305, + "learning_rate": 1.5278933333333334e-05, + "loss": 0.0133, + "step": 110650 + }, + { + "epoch": 0.708192, + "grad_norm": 0.2333863079547882, + "learning_rate": 1.527872e-05, + "loss": 0.0151, + "step": 110655 + }, + { + "epoch": 0.708224, + "grad_norm": 0.12415473163127899, + "learning_rate": 1.527850666666667e-05, + "loss": 0.0273, + "step": 110660 + }, + { + "epoch": 0.708256, + "grad_norm": 0.11821847409009933, + "learning_rate": 1.5278293333333333e-05, + "loss": 0.0075, + "step": 110665 + }, + { + "epoch": 0.708288, + "grad_norm": 0.6082244515419006, + "learning_rate": 1.527808e-05, + "loss": 0.015, + "step": 110670 + }, + { + "epoch": 0.70832, + "grad_norm": 0.06864537298679352, + "learning_rate": 1.5277866666666668e-05, + "loss": 0.0085, + "step": 110675 + }, + { + "epoch": 0.708352, + "grad_norm": 0.6121724247932434, + "learning_rate": 1.5277653333333336e-05, + "loss": 0.0055, + "step": 110680 + }, + { + "epoch": 0.708384, + "grad_norm": 0.5792840123176575, + "learning_rate": 1.527744e-05, + "loss": 0.0082, + "step": 110685 + }, + { + "epoch": 0.708416, + "grad_norm": 0.3150753676891327, + "learning_rate": 1.5277226666666667e-05, + "loss": 0.0066, + "step": 110690 + }, + { + "epoch": 0.708448, + "grad_norm": 0.04139137640595436, + "learning_rate": 1.5277013333333335e-05, + "loss": 0.0059, + "step": 110695 + }, + { + "epoch": 0.70848, + "grad_norm": 0.06402623653411865, + "learning_rate": 1.52768e-05, + "loss": 0.0115, + "step": 110700 + }, + { + "epoch": 0.708512, + "grad_norm": 0.1080375537276268, + "learning_rate": 1.527658666666667e-05, + "loss": 0.012, + "step": 110705 + }, + { + "epoch": 0.708544, + "grad_norm": 1.0541470050811768, + "learning_rate": 1.5276373333333334e-05, + "loss": 0.0179, + "step": 110710 + }, + { + "epoch": 0.708576, + "grad_norm": 0.37878814339637756, + "learning_rate": 1.5276160000000002e-05, + "loss": 0.0103, + "step": 110715 + }, + { + "epoch": 0.708608, + "grad_norm": 0.4644494950771332, + "learning_rate": 1.527594666666667e-05, + "loss": 0.0089, + "step": 110720 + }, + { + "epoch": 0.70864, + "grad_norm": 0.2497035264968872, + "learning_rate": 1.5275733333333334e-05, + "loss": 0.0107, + "step": 110725 + }, + { + "epoch": 0.708672, + "grad_norm": 0.8351953029632568, + "learning_rate": 1.527552e-05, + "loss": 0.0177, + "step": 110730 + }, + { + "epoch": 0.708704, + "grad_norm": 0.0698573887348175, + "learning_rate": 1.527530666666667e-05, + "loss": 0.0112, + "step": 110735 + }, + { + "epoch": 0.708736, + "grad_norm": 0.4400356113910675, + "learning_rate": 1.5275093333333336e-05, + "loss": 0.0182, + "step": 110740 + }, + { + "epoch": 0.708768, + "grad_norm": 0.6203176975250244, + "learning_rate": 1.527488e-05, + "loss": 0.0242, + "step": 110745 + }, + { + "epoch": 0.7088, + "grad_norm": 0.09684386849403381, + "learning_rate": 1.5274666666666668e-05, + "loss": 0.0178, + "step": 110750 + }, + { + "epoch": 0.708832, + "grad_norm": 0.16195805370807648, + "learning_rate": 1.5274453333333335e-05, + "loss": 0.0137, + "step": 110755 + }, + { + "epoch": 0.708864, + "grad_norm": 0.32789093255996704, + "learning_rate": 1.527424e-05, + "loss": 0.0187, + "step": 110760 + }, + { + "epoch": 0.708896, + "grad_norm": 0.05539589375257492, + "learning_rate": 1.5274026666666667e-05, + "loss": 0.0098, + "step": 110765 + }, + { + "epoch": 0.708928, + "grad_norm": 0.30027687549591064, + "learning_rate": 1.5273813333333335e-05, + "loss": 0.0125, + "step": 110770 + }, + { + "epoch": 0.70896, + "grad_norm": 0.4625571668148041, + "learning_rate": 1.5273600000000002e-05, + "loss": 0.0038, + "step": 110775 + }, + { + "epoch": 0.708992, + "grad_norm": 0.3861894905567169, + "learning_rate": 1.5273386666666666e-05, + "loss": 0.0104, + "step": 110780 + }, + { + "epoch": 0.709024, + "grad_norm": 1.0716246366500854, + "learning_rate": 1.5273173333333334e-05, + "loss": 0.0233, + "step": 110785 + }, + { + "epoch": 0.709056, + "grad_norm": 0.22800831496715546, + "learning_rate": 1.527296e-05, + "loss": 0.0033, + "step": 110790 + }, + { + "epoch": 0.709088, + "grad_norm": 1.3800894021987915, + "learning_rate": 1.5272746666666666e-05, + "loss": 0.0119, + "step": 110795 + }, + { + "epoch": 0.70912, + "grad_norm": 0.479934960603714, + "learning_rate": 1.5272533333333333e-05, + "loss": 0.0178, + "step": 110800 + }, + { + "epoch": 0.709152, + "grad_norm": 0.21710501611232758, + "learning_rate": 1.527232e-05, + "loss": 0.0102, + "step": 110805 + }, + { + "epoch": 0.709184, + "grad_norm": 1.235432744026184, + "learning_rate": 1.527210666666667e-05, + "loss": 0.0101, + "step": 110810 + }, + { + "epoch": 0.709216, + "grad_norm": 0.25942420959472656, + "learning_rate": 1.5271893333333333e-05, + "loss": 0.0053, + "step": 110815 + }, + { + "epoch": 0.709248, + "grad_norm": 0.31839877367019653, + "learning_rate": 1.5271680000000004e-05, + "loss": 0.0146, + "step": 110820 + }, + { + "epoch": 0.70928, + "grad_norm": 0.27114152908325195, + "learning_rate": 1.5271466666666668e-05, + "loss": 0.0148, + "step": 110825 + }, + { + "epoch": 0.709312, + "grad_norm": 0.4395112097263336, + "learning_rate": 1.5271253333333332e-05, + "loss": 0.0143, + "step": 110830 + }, + { + "epoch": 0.709344, + "grad_norm": 0.01849287375807762, + "learning_rate": 1.5271040000000003e-05, + "loss": 0.0094, + "step": 110835 + }, + { + "epoch": 0.709376, + "grad_norm": 0.08703376352787018, + "learning_rate": 1.5270826666666667e-05, + "loss": 0.0038, + "step": 110840 + }, + { + "epoch": 0.709408, + "grad_norm": 0.07800300419330597, + "learning_rate": 1.5270613333333335e-05, + "loss": 0.0169, + "step": 110845 + }, + { + "epoch": 0.70944, + "grad_norm": 0.5327343344688416, + "learning_rate": 1.5270400000000002e-05, + "loss": 0.0124, + "step": 110850 + }, + { + "epoch": 0.709472, + "grad_norm": 5.96241569519043, + "learning_rate": 1.527018666666667e-05, + "loss": 0.0078, + "step": 110855 + }, + { + "epoch": 0.709504, + "grad_norm": 1.7048395872116089, + "learning_rate": 1.5269973333333334e-05, + "loss": 0.0231, + "step": 110860 + }, + { + "epoch": 0.709536, + "grad_norm": 0.8174861669540405, + "learning_rate": 1.526976e-05, + "loss": 0.0116, + "step": 110865 + }, + { + "epoch": 0.709568, + "grad_norm": 0.5576809644699097, + "learning_rate": 1.526954666666667e-05, + "loss": 0.0114, + "step": 110870 + }, + { + "epoch": 0.7096, + "grad_norm": 0.6242471933364868, + "learning_rate": 1.5269333333333333e-05, + "loss": 0.0142, + "step": 110875 + }, + { + "epoch": 0.709632, + "grad_norm": 0.07029673457145691, + "learning_rate": 1.526912e-05, + "loss": 0.01, + "step": 110880 + }, + { + "epoch": 0.709664, + "grad_norm": 0.5662846565246582, + "learning_rate": 1.5268906666666668e-05, + "loss": 0.013, + "step": 110885 + }, + { + "epoch": 0.709696, + "grad_norm": 0.26486945152282715, + "learning_rate": 1.5268693333333336e-05, + "loss": 0.0063, + "step": 110890 + }, + { + "epoch": 0.709728, + "grad_norm": 1.3316569328308105, + "learning_rate": 1.526848e-05, + "loss": 0.0206, + "step": 110895 + }, + { + "epoch": 0.70976, + "grad_norm": 0.06505344808101654, + "learning_rate": 1.5268266666666667e-05, + "loss": 0.0063, + "step": 110900 + }, + { + "epoch": 0.709792, + "grad_norm": 0.03675053268671036, + "learning_rate": 1.5268053333333335e-05, + "loss": 0.0054, + "step": 110905 + }, + { + "epoch": 0.709824, + "grad_norm": 0.7562505006790161, + "learning_rate": 1.526784e-05, + "loss": 0.0104, + "step": 110910 + }, + { + "epoch": 0.709856, + "grad_norm": 1.364723801612854, + "learning_rate": 1.5267626666666667e-05, + "loss": 0.0188, + "step": 110915 + }, + { + "epoch": 0.709888, + "grad_norm": 0.41197094321250916, + "learning_rate": 1.5267413333333334e-05, + "loss": 0.0082, + "step": 110920 + }, + { + "epoch": 0.70992, + "grad_norm": 1.6795709133148193, + "learning_rate": 1.5267200000000002e-05, + "loss": 0.021, + "step": 110925 + }, + { + "epoch": 0.709952, + "grad_norm": 0.10324274748563766, + "learning_rate": 1.526698666666667e-05, + "loss": 0.0142, + "step": 110930 + }, + { + "epoch": 0.709984, + "grad_norm": 0.2711000144481659, + "learning_rate": 1.5266773333333337e-05, + "loss": 0.0056, + "step": 110935 + }, + { + "epoch": 0.710016, + "grad_norm": 0.6900362372398376, + "learning_rate": 1.526656e-05, + "loss": 0.0097, + "step": 110940 + }, + { + "epoch": 0.710048, + "grad_norm": 1.0654466152191162, + "learning_rate": 1.526634666666667e-05, + "loss": 0.0221, + "step": 110945 + }, + { + "epoch": 0.71008, + "grad_norm": 0.07665442675352097, + "learning_rate": 1.5266133333333336e-05, + "loss": 0.0138, + "step": 110950 + }, + { + "epoch": 0.710112, + "grad_norm": 0.10267486423254013, + "learning_rate": 1.526592e-05, + "loss": 0.0108, + "step": 110955 + }, + { + "epoch": 0.710144, + "grad_norm": 0.18257901072502136, + "learning_rate": 1.5265706666666668e-05, + "loss": 0.0071, + "step": 110960 + }, + { + "epoch": 0.710176, + "grad_norm": 0.8347157835960388, + "learning_rate": 1.5265493333333335e-05, + "loss": 0.0094, + "step": 110965 + }, + { + "epoch": 0.710208, + "grad_norm": 0.4871273636817932, + "learning_rate": 1.5265280000000003e-05, + "loss": 0.0214, + "step": 110970 + }, + { + "epoch": 0.71024, + "grad_norm": 0.4543754756450653, + "learning_rate": 1.5265066666666667e-05, + "loss": 0.0068, + "step": 110975 + }, + { + "epoch": 0.710272, + "grad_norm": 0.5800524950027466, + "learning_rate": 1.5264853333333335e-05, + "loss": 0.015, + "step": 110980 + }, + { + "epoch": 0.710304, + "grad_norm": 0.31799134612083435, + "learning_rate": 1.5264640000000002e-05, + "loss": 0.0042, + "step": 110985 + }, + { + "epoch": 0.710336, + "grad_norm": 0.09804584830999374, + "learning_rate": 1.5264426666666666e-05, + "loss": 0.0073, + "step": 110990 + }, + { + "epoch": 0.710368, + "grad_norm": 0.2474844604730606, + "learning_rate": 1.5264213333333334e-05, + "loss": 0.0168, + "step": 110995 + }, + { + "epoch": 0.7104, + "grad_norm": 0.9277887940406799, + "learning_rate": 1.5264e-05, + "loss": 0.0123, + "step": 111000 + }, + { + "epoch": 0.710432, + "grad_norm": 0.6874173283576965, + "learning_rate": 1.526378666666667e-05, + "loss": 0.0099, + "step": 111005 + }, + { + "epoch": 0.710464, + "grad_norm": 0.5686007142066956, + "learning_rate": 1.5263573333333333e-05, + "loss": 0.0054, + "step": 111010 + }, + { + "epoch": 0.710496, + "grad_norm": 1.2325972318649292, + "learning_rate": 1.526336e-05, + "loss": 0.012, + "step": 111015 + }, + { + "epoch": 0.710528, + "grad_norm": 0.6975988149642944, + "learning_rate": 1.526314666666667e-05, + "loss": 0.0103, + "step": 111020 + }, + { + "epoch": 0.71056, + "grad_norm": 0.906234860420227, + "learning_rate": 1.5262933333333333e-05, + "loss": 0.0202, + "step": 111025 + }, + { + "epoch": 0.710592, + "grad_norm": 0.35492485761642456, + "learning_rate": 1.5262720000000004e-05, + "loss": 0.0124, + "step": 111030 + }, + { + "epoch": 0.710624, + "grad_norm": 1.0864425897598267, + "learning_rate": 1.5262506666666668e-05, + "loss": 0.0095, + "step": 111035 + }, + { + "epoch": 0.710656, + "grad_norm": 0.440357506275177, + "learning_rate": 1.5262293333333335e-05, + "loss": 0.0089, + "step": 111040 + }, + { + "epoch": 0.710688, + "grad_norm": 0.5836203098297119, + "learning_rate": 1.5262080000000003e-05, + "loss": 0.0075, + "step": 111045 + }, + { + "epoch": 0.71072, + "grad_norm": 0.14757026731967926, + "learning_rate": 1.5261866666666667e-05, + "loss": 0.0024, + "step": 111050 + }, + { + "epoch": 0.710752, + "grad_norm": 0.34667232632637024, + "learning_rate": 1.5261653333333335e-05, + "loss": 0.0177, + "step": 111055 + }, + { + "epoch": 0.710784, + "grad_norm": 0.19544072449207306, + "learning_rate": 1.5261440000000002e-05, + "loss": 0.004, + "step": 111060 + }, + { + "epoch": 0.710816, + "grad_norm": 0.08242086321115494, + "learning_rate": 1.526122666666667e-05, + "loss": 0.0121, + "step": 111065 + }, + { + "epoch": 0.710848, + "grad_norm": 0.26232823729515076, + "learning_rate": 1.5261013333333334e-05, + "loss": 0.024, + "step": 111070 + }, + { + "epoch": 0.71088, + "grad_norm": 0.04541916772723198, + "learning_rate": 1.52608e-05, + "loss": 0.0169, + "step": 111075 + }, + { + "epoch": 0.710912, + "grad_norm": 0.1915006935596466, + "learning_rate": 1.526058666666667e-05, + "loss": 0.0094, + "step": 111080 + }, + { + "epoch": 0.710944, + "grad_norm": 0.05165846273303032, + "learning_rate": 1.5260373333333333e-05, + "loss": 0.0041, + "step": 111085 + }, + { + "epoch": 0.710976, + "grad_norm": 0.21097686886787415, + "learning_rate": 1.526016e-05, + "loss": 0.0195, + "step": 111090 + }, + { + "epoch": 0.711008, + "grad_norm": 0.45869016647338867, + "learning_rate": 1.5259946666666668e-05, + "loss": 0.012, + "step": 111095 + }, + { + "epoch": 0.71104, + "grad_norm": 0.46435919404029846, + "learning_rate": 1.5259733333333336e-05, + "loss": 0.0087, + "step": 111100 + }, + { + "epoch": 0.711072, + "grad_norm": 0.48899707198143005, + "learning_rate": 1.525952e-05, + "loss": 0.0156, + "step": 111105 + }, + { + "epoch": 0.711104, + "grad_norm": 0.04422736167907715, + "learning_rate": 1.5259306666666667e-05, + "loss": 0.0226, + "step": 111110 + }, + { + "epoch": 0.711136, + "grad_norm": 0.06329409778118134, + "learning_rate": 1.5259093333333335e-05, + "loss": 0.0091, + "step": 111115 + }, + { + "epoch": 0.711168, + "grad_norm": 0.5878533720970154, + "learning_rate": 1.525888e-05, + "loss": 0.0053, + "step": 111120 + }, + { + "epoch": 0.7112, + "grad_norm": 2.168741226196289, + "learning_rate": 1.5258666666666668e-05, + "loss": 0.0354, + "step": 111125 + }, + { + "epoch": 0.711232, + "grad_norm": 0.26201510429382324, + "learning_rate": 1.5258453333333334e-05, + "loss": 0.019, + "step": 111130 + }, + { + "epoch": 0.711264, + "grad_norm": 0.12903732061386108, + "learning_rate": 1.5258240000000002e-05, + "loss": 0.0074, + "step": 111135 + }, + { + "epoch": 0.711296, + "grad_norm": 0.675117552280426, + "learning_rate": 1.5258026666666668e-05, + "loss": 0.0096, + "step": 111140 + }, + { + "epoch": 0.711328, + "grad_norm": 0.24992972612380981, + "learning_rate": 1.5257813333333335e-05, + "loss": 0.0032, + "step": 111145 + }, + { + "epoch": 0.71136, + "grad_norm": 0.09569841623306274, + "learning_rate": 1.5257600000000001e-05, + "loss": 0.0046, + "step": 111150 + }, + { + "epoch": 0.711392, + "grad_norm": 0.3810752332210541, + "learning_rate": 1.5257386666666667e-05, + "loss": 0.0128, + "step": 111155 + }, + { + "epoch": 0.711424, + "grad_norm": 0.08785483986139297, + "learning_rate": 1.5257173333333335e-05, + "loss": 0.0077, + "step": 111160 + }, + { + "epoch": 0.711456, + "grad_norm": 1.0746263265609741, + "learning_rate": 1.525696e-05, + "loss": 0.0229, + "step": 111165 + }, + { + "epoch": 0.711488, + "grad_norm": 0.24364382028579712, + "learning_rate": 1.5256746666666668e-05, + "loss": 0.0094, + "step": 111170 + }, + { + "epoch": 0.71152, + "grad_norm": 0.23347944021224976, + "learning_rate": 1.5256533333333334e-05, + "loss": 0.0105, + "step": 111175 + }, + { + "epoch": 0.711552, + "grad_norm": 0.04516607150435448, + "learning_rate": 1.5256320000000003e-05, + "loss": 0.0122, + "step": 111180 + }, + { + "epoch": 0.711584, + "grad_norm": 0.44005271792411804, + "learning_rate": 1.5256106666666667e-05, + "loss": 0.0041, + "step": 111185 + }, + { + "epoch": 0.711616, + "grad_norm": 1.2698347568511963, + "learning_rate": 1.5255893333333333e-05, + "loss": 0.0217, + "step": 111190 + }, + { + "epoch": 0.711648, + "grad_norm": 0.4449300765991211, + "learning_rate": 1.5255680000000002e-05, + "loss": 0.0074, + "step": 111195 + }, + { + "epoch": 0.71168, + "grad_norm": 0.16428068280220032, + "learning_rate": 1.5255466666666666e-05, + "loss": 0.0168, + "step": 111200 + }, + { + "epoch": 0.711712, + "grad_norm": 0.8526878952980042, + "learning_rate": 1.5255253333333336e-05, + "loss": 0.0103, + "step": 111205 + }, + { + "epoch": 0.711744, + "grad_norm": 1.0259426832199097, + "learning_rate": 1.5255040000000002e-05, + "loss": 0.012, + "step": 111210 + }, + { + "epoch": 0.711776, + "grad_norm": 0.272244930267334, + "learning_rate": 1.5254826666666669e-05, + "loss": 0.0089, + "step": 111215 + }, + { + "epoch": 0.711808, + "grad_norm": 0.25722619891166687, + "learning_rate": 1.5254613333333335e-05, + "loss": 0.0186, + "step": 111220 + }, + { + "epoch": 0.71184, + "grad_norm": 0.5459690690040588, + "learning_rate": 1.5254400000000001e-05, + "loss": 0.0136, + "step": 111225 + }, + { + "epoch": 0.711872, + "grad_norm": 0.13421417772769928, + "learning_rate": 1.5254186666666668e-05, + "loss": 0.0098, + "step": 111230 + }, + { + "epoch": 0.711904, + "grad_norm": 0.014560926705598831, + "learning_rate": 1.5253973333333334e-05, + "loss": 0.0092, + "step": 111235 + }, + { + "epoch": 0.711936, + "grad_norm": 0.564362645149231, + "learning_rate": 1.5253760000000002e-05, + "loss": 0.0075, + "step": 111240 + }, + { + "epoch": 0.711968, + "grad_norm": 0.4591415226459503, + "learning_rate": 1.5253546666666668e-05, + "loss": 0.0069, + "step": 111245 + }, + { + "epoch": 0.712, + "grad_norm": 0.4515002369880676, + "learning_rate": 1.5253333333333335e-05, + "loss": 0.0055, + "step": 111250 + }, + { + "epoch": 0.712032, + "grad_norm": 0.5213806629180908, + "learning_rate": 1.5253120000000001e-05, + "loss": 0.0046, + "step": 111255 + }, + { + "epoch": 0.712064, + "grad_norm": 1.1270769834518433, + "learning_rate": 1.5252906666666667e-05, + "loss": 0.0092, + "step": 111260 + }, + { + "epoch": 0.712096, + "grad_norm": 1.8527140617370605, + "learning_rate": 1.5252693333333335e-05, + "loss": 0.0159, + "step": 111265 + }, + { + "epoch": 0.712128, + "grad_norm": 0.04831618815660477, + "learning_rate": 1.525248e-05, + "loss": 0.0153, + "step": 111270 + }, + { + "epoch": 0.71216, + "grad_norm": 0.5649320483207703, + "learning_rate": 1.5252266666666668e-05, + "loss": 0.0202, + "step": 111275 + }, + { + "epoch": 0.712192, + "grad_norm": 1.0899962186813354, + "learning_rate": 1.5252053333333334e-05, + "loss": 0.0148, + "step": 111280 + }, + { + "epoch": 0.712224, + "grad_norm": 0.5075024962425232, + "learning_rate": 1.5251840000000003e-05, + "loss": 0.0126, + "step": 111285 + }, + { + "epoch": 0.712256, + "grad_norm": 1.2717318534851074, + "learning_rate": 1.5251626666666667e-05, + "loss": 0.0171, + "step": 111290 + }, + { + "epoch": 0.712288, + "grad_norm": 1.353678584098816, + "learning_rate": 1.5251413333333333e-05, + "loss": 0.0132, + "step": 111295 + }, + { + "epoch": 0.71232, + "grad_norm": 1.0134196281433105, + "learning_rate": 1.5251200000000002e-05, + "loss": 0.0123, + "step": 111300 + }, + { + "epoch": 0.712352, + "grad_norm": 0.14601561427116394, + "learning_rate": 1.5250986666666666e-05, + "loss": 0.0164, + "step": 111305 + }, + { + "epoch": 0.712384, + "grad_norm": 1.499141812324524, + "learning_rate": 1.5250773333333336e-05, + "loss": 0.0102, + "step": 111310 + }, + { + "epoch": 0.712416, + "grad_norm": 0.4519551694393158, + "learning_rate": 1.5250560000000002e-05, + "loss": 0.0119, + "step": 111315 + }, + { + "epoch": 0.712448, + "grad_norm": 0.23892797529697418, + "learning_rate": 1.5250346666666669e-05, + "loss": 0.0151, + "step": 111320 + }, + { + "epoch": 0.71248, + "grad_norm": 0.9987961053848267, + "learning_rate": 1.5250133333333335e-05, + "loss": 0.0214, + "step": 111325 + }, + { + "epoch": 0.712512, + "grad_norm": 0.762371301651001, + "learning_rate": 1.5249920000000001e-05, + "loss": 0.0133, + "step": 111330 + }, + { + "epoch": 0.712544, + "grad_norm": 0.08613725751638412, + "learning_rate": 1.5249706666666668e-05, + "loss": 0.009, + "step": 111335 + }, + { + "epoch": 0.712576, + "grad_norm": 0.21046578884124756, + "learning_rate": 1.5249493333333334e-05, + "loss": 0.0125, + "step": 111340 + }, + { + "epoch": 0.712608, + "grad_norm": 0.0464322604238987, + "learning_rate": 1.5249280000000002e-05, + "loss": 0.0112, + "step": 111345 + }, + { + "epoch": 0.71264, + "grad_norm": 0.9367482662200928, + "learning_rate": 1.5249066666666668e-05, + "loss": 0.0183, + "step": 111350 + }, + { + "epoch": 0.712672, + "grad_norm": 0.6609582901000977, + "learning_rate": 1.5248853333333335e-05, + "loss": 0.0109, + "step": 111355 + }, + { + "epoch": 0.712704, + "grad_norm": 0.19203393161296844, + "learning_rate": 1.5248640000000001e-05, + "loss": 0.0113, + "step": 111360 + }, + { + "epoch": 0.712736, + "grad_norm": 0.16889527440071106, + "learning_rate": 1.5248426666666667e-05, + "loss": 0.0171, + "step": 111365 + }, + { + "epoch": 0.712768, + "grad_norm": 0.08882761746644974, + "learning_rate": 1.5248213333333335e-05, + "loss": 0.0043, + "step": 111370 + }, + { + "epoch": 0.7128, + "grad_norm": 1.2273911237716675, + "learning_rate": 1.5248e-05, + "loss": 0.0098, + "step": 111375 + }, + { + "epoch": 0.712832, + "grad_norm": 0.3696923553943634, + "learning_rate": 1.5247786666666668e-05, + "loss": 0.0095, + "step": 111380 + }, + { + "epoch": 0.712864, + "grad_norm": 0.21889817714691162, + "learning_rate": 1.5247573333333334e-05, + "loss": 0.0042, + "step": 111385 + }, + { + "epoch": 0.712896, + "grad_norm": 0.8476191759109497, + "learning_rate": 1.5247360000000001e-05, + "loss": 0.011, + "step": 111390 + }, + { + "epoch": 0.712928, + "grad_norm": 0.054192498326301575, + "learning_rate": 1.5247146666666667e-05, + "loss": 0.0063, + "step": 111395 + }, + { + "epoch": 0.71296, + "grad_norm": 0.5096997022628784, + "learning_rate": 1.5246933333333333e-05, + "loss": 0.0113, + "step": 111400 + }, + { + "epoch": 0.712992, + "grad_norm": 1.4065916538238525, + "learning_rate": 1.5246720000000002e-05, + "loss": 0.0069, + "step": 111405 + }, + { + "epoch": 0.713024, + "grad_norm": 0.6231067776679993, + "learning_rate": 1.5246506666666666e-05, + "loss": 0.0092, + "step": 111410 + }, + { + "epoch": 0.713056, + "grad_norm": 0.6796966195106506, + "learning_rate": 1.5246293333333336e-05, + "loss": 0.0079, + "step": 111415 + }, + { + "epoch": 0.713088, + "grad_norm": 0.7048458456993103, + "learning_rate": 1.5246080000000002e-05, + "loss": 0.0082, + "step": 111420 + }, + { + "epoch": 0.71312, + "grad_norm": 0.13508309423923492, + "learning_rate": 1.5245866666666669e-05, + "loss": 0.0085, + "step": 111425 + }, + { + "epoch": 0.713152, + "grad_norm": 0.36393576860427856, + "learning_rate": 1.5245653333333335e-05, + "loss": 0.0083, + "step": 111430 + }, + { + "epoch": 0.713184, + "grad_norm": 0.5836217999458313, + "learning_rate": 1.5245440000000001e-05, + "loss": 0.0034, + "step": 111435 + }, + { + "epoch": 0.713216, + "grad_norm": 0.30614882707595825, + "learning_rate": 1.5245226666666668e-05, + "loss": 0.007, + "step": 111440 + }, + { + "epoch": 0.713248, + "grad_norm": 0.21392734348773956, + "learning_rate": 1.5245013333333334e-05, + "loss": 0.0114, + "step": 111445 + }, + { + "epoch": 0.71328, + "grad_norm": 0.06898943334817886, + "learning_rate": 1.5244800000000002e-05, + "loss": 0.0229, + "step": 111450 + }, + { + "epoch": 0.713312, + "grad_norm": 0.5984708666801453, + "learning_rate": 1.5244586666666668e-05, + "loss": 0.0284, + "step": 111455 + }, + { + "epoch": 0.713344, + "grad_norm": 0.18570055067539215, + "learning_rate": 1.5244373333333335e-05, + "loss": 0.0137, + "step": 111460 + }, + { + "epoch": 0.713376, + "grad_norm": 0.19548645615577698, + "learning_rate": 1.5244160000000001e-05, + "loss": 0.0144, + "step": 111465 + }, + { + "epoch": 0.713408, + "grad_norm": 0.11812420189380646, + "learning_rate": 1.5243946666666667e-05, + "loss": 0.0108, + "step": 111470 + }, + { + "epoch": 0.71344, + "grad_norm": 0.026713410392403603, + "learning_rate": 1.5243733333333335e-05, + "loss": 0.0247, + "step": 111475 + }, + { + "epoch": 0.713472, + "grad_norm": 0.013670306652784348, + "learning_rate": 1.524352e-05, + "loss": 0.0073, + "step": 111480 + }, + { + "epoch": 0.713504, + "grad_norm": 0.007276635617017746, + "learning_rate": 1.5243306666666668e-05, + "loss": 0.0202, + "step": 111485 + }, + { + "epoch": 0.713536, + "grad_norm": 0.6149256825447083, + "learning_rate": 1.5243093333333334e-05, + "loss": 0.0144, + "step": 111490 + }, + { + "epoch": 0.713568, + "grad_norm": 0.09201090782880783, + "learning_rate": 1.5242880000000001e-05, + "loss": 0.0057, + "step": 111495 + }, + { + "epoch": 0.7136, + "grad_norm": 0.24689823389053345, + "learning_rate": 1.5242666666666667e-05, + "loss": 0.0073, + "step": 111500 + }, + { + "epoch": 0.713632, + "grad_norm": 0.09300585091114044, + "learning_rate": 1.5242453333333333e-05, + "loss": 0.0204, + "step": 111505 + }, + { + "epoch": 0.713664, + "grad_norm": 1.3468542098999023, + "learning_rate": 1.5242240000000002e-05, + "loss": 0.0216, + "step": 111510 + }, + { + "epoch": 0.713696, + "grad_norm": 0.06978733092546463, + "learning_rate": 1.5242026666666666e-05, + "loss": 0.0112, + "step": 111515 + }, + { + "epoch": 0.713728, + "grad_norm": 0.903614342212677, + "learning_rate": 1.5241813333333336e-05, + "loss": 0.015, + "step": 111520 + }, + { + "epoch": 0.71376, + "grad_norm": 0.44654640555381775, + "learning_rate": 1.5241600000000002e-05, + "loss": 0.0131, + "step": 111525 + }, + { + "epoch": 0.713792, + "grad_norm": 0.9390820860862732, + "learning_rate": 1.5241386666666669e-05, + "loss": 0.0124, + "step": 111530 + }, + { + "epoch": 0.713824, + "grad_norm": 0.4852711856365204, + "learning_rate": 1.5241173333333335e-05, + "loss": 0.0102, + "step": 111535 + }, + { + "epoch": 0.713856, + "grad_norm": 0.12225553393363953, + "learning_rate": 1.5240960000000001e-05, + "loss": 0.006, + "step": 111540 + }, + { + "epoch": 0.713888, + "grad_norm": 0.6840425729751587, + "learning_rate": 1.5240746666666668e-05, + "loss": 0.0063, + "step": 111545 + }, + { + "epoch": 0.71392, + "grad_norm": 0.1998482346534729, + "learning_rate": 1.5240533333333334e-05, + "loss": 0.031, + "step": 111550 + }, + { + "epoch": 0.713952, + "grad_norm": 0.6192846894264221, + "learning_rate": 1.5240320000000002e-05, + "loss": 0.0144, + "step": 111555 + }, + { + "epoch": 0.713984, + "grad_norm": 0.5310654044151306, + "learning_rate": 1.5240106666666668e-05, + "loss": 0.0119, + "step": 111560 + }, + { + "epoch": 0.714016, + "grad_norm": 1.277190089225769, + "learning_rate": 1.5239893333333335e-05, + "loss": 0.0118, + "step": 111565 + }, + { + "epoch": 0.714048, + "grad_norm": 0.647926926612854, + "learning_rate": 1.5239680000000001e-05, + "loss": 0.0087, + "step": 111570 + }, + { + "epoch": 0.71408, + "grad_norm": 1.2854881286621094, + "learning_rate": 1.5239466666666667e-05, + "loss": 0.0105, + "step": 111575 + }, + { + "epoch": 0.714112, + "grad_norm": 1.1575192213058472, + "learning_rate": 1.5239253333333335e-05, + "loss": 0.0123, + "step": 111580 + }, + { + "epoch": 0.714144, + "grad_norm": 1.2974079847335815, + "learning_rate": 1.523904e-05, + "loss": 0.0082, + "step": 111585 + }, + { + "epoch": 0.714176, + "grad_norm": 0.8815208077430725, + "learning_rate": 1.5238826666666668e-05, + "loss": 0.0076, + "step": 111590 + }, + { + "epoch": 0.714208, + "grad_norm": 0.49984216690063477, + "learning_rate": 1.5238613333333334e-05, + "loss": 0.0153, + "step": 111595 + }, + { + "epoch": 0.71424, + "grad_norm": 0.14451864361763, + "learning_rate": 1.5238400000000001e-05, + "loss": 0.0126, + "step": 111600 + }, + { + "epoch": 0.714272, + "grad_norm": 0.10549864917993546, + "learning_rate": 1.5238186666666667e-05, + "loss": 0.0071, + "step": 111605 + }, + { + "epoch": 0.714304, + "grad_norm": 0.5454772710800171, + "learning_rate": 1.5237973333333333e-05, + "loss": 0.0128, + "step": 111610 + }, + { + "epoch": 0.714336, + "grad_norm": 0.8175941109657288, + "learning_rate": 1.523776e-05, + "loss": 0.0136, + "step": 111615 + }, + { + "epoch": 0.714368, + "grad_norm": 0.16733349859714508, + "learning_rate": 1.5237546666666666e-05, + "loss": 0.0112, + "step": 111620 + }, + { + "epoch": 0.7144, + "grad_norm": 0.5471622347831726, + "learning_rate": 1.5237333333333336e-05, + "loss": 0.0165, + "step": 111625 + }, + { + "epoch": 0.714432, + "grad_norm": 0.2766645848751068, + "learning_rate": 1.5237120000000002e-05, + "loss": 0.0273, + "step": 111630 + }, + { + "epoch": 0.714464, + "grad_norm": 0.023229019716382027, + "learning_rate": 1.5236906666666669e-05, + "loss": 0.0077, + "step": 111635 + }, + { + "epoch": 0.714496, + "grad_norm": 0.35032257437705994, + "learning_rate": 1.5236693333333335e-05, + "loss": 0.0224, + "step": 111640 + }, + { + "epoch": 0.714528, + "grad_norm": 0.285614013671875, + "learning_rate": 1.5236480000000001e-05, + "loss": 0.0089, + "step": 111645 + }, + { + "epoch": 0.71456, + "grad_norm": 0.39250144362449646, + "learning_rate": 1.5236266666666668e-05, + "loss": 0.0047, + "step": 111650 + }, + { + "epoch": 0.714592, + "grad_norm": 0.2148711234331131, + "learning_rate": 1.5236053333333334e-05, + "loss": 0.0075, + "step": 111655 + }, + { + "epoch": 0.714624, + "grad_norm": 0.7835498452186584, + "learning_rate": 1.5235840000000002e-05, + "loss": 0.0054, + "step": 111660 + }, + { + "epoch": 0.714656, + "grad_norm": 0.25124794244766235, + "learning_rate": 1.5235626666666668e-05, + "loss": 0.0097, + "step": 111665 + }, + { + "epoch": 0.714688, + "grad_norm": 1.0140131711959839, + "learning_rate": 1.5235413333333335e-05, + "loss": 0.02, + "step": 111670 + }, + { + "epoch": 0.71472, + "grad_norm": 0.07242703437805176, + "learning_rate": 1.5235200000000001e-05, + "loss": 0.0055, + "step": 111675 + }, + { + "epoch": 0.714752, + "grad_norm": 0.2259630560874939, + "learning_rate": 1.5234986666666667e-05, + "loss": 0.0212, + "step": 111680 + }, + { + "epoch": 0.714784, + "grad_norm": 0.5501732230186462, + "learning_rate": 1.5234773333333335e-05, + "loss": 0.0127, + "step": 111685 + }, + { + "epoch": 0.714816, + "grad_norm": 0.6707233190536499, + "learning_rate": 1.523456e-05, + "loss": 0.0088, + "step": 111690 + }, + { + "epoch": 0.714848, + "grad_norm": 0.07434654235839844, + "learning_rate": 1.5234346666666668e-05, + "loss": 0.0079, + "step": 111695 + }, + { + "epoch": 0.71488, + "grad_norm": 0.9749171733856201, + "learning_rate": 1.5234133333333334e-05, + "loss": 0.0166, + "step": 111700 + }, + { + "epoch": 0.714912, + "grad_norm": 0.588866651058197, + "learning_rate": 1.5233920000000001e-05, + "loss": 0.0122, + "step": 111705 + }, + { + "epoch": 0.714944, + "grad_norm": 0.044487327337265015, + "learning_rate": 1.5233706666666667e-05, + "loss": 0.0144, + "step": 111710 + }, + { + "epoch": 0.714976, + "grad_norm": 1.3340682983398438, + "learning_rate": 1.5233493333333336e-05, + "loss": 0.0062, + "step": 111715 + }, + { + "epoch": 0.715008, + "grad_norm": 0.25811222195625305, + "learning_rate": 1.523328e-05, + "loss": 0.006, + "step": 111720 + }, + { + "epoch": 0.71504, + "grad_norm": 0.1231115534901619, + "learning_rate": 1.5233066666666666e-05, + "loss": 0.005, + "step": 111725 + }, + { + "epoch": 0.715072, + "grad_norm": 0.12252011150121689, + "learning_rate": 1.5232853333333336e-05, + "loss": 0.0063, + "step": 111730 + }, + { + "epoch": 0.715104, + "grad_norm": 0.11623594164848328, + "learning_rate": 1.5232640000000002e-05, + "loss": 0.0113, + "step": 111735 + }, + { + "epoch": 0.715136, + "grad_norm": 0.9148833751678467, + "learning_rate": 1.5232426666666669e-05, + "loss": 0.0078, + "step": 111740 + }, + { + "epoch": 0.715168, + "grad_norm": 0.33062368631362915, + "learning_rate": 1.5232213333333335e-05, + "loss": 0.0193, + "step": 111745 + }, + { + "epoch": 0.7152, + "grad_norm": 0.05855988338589668, + "learning_rate": 1.5232000000000003e-05, + "loss": 0.0034, + "step": 111750 + }, + { + "epoch": 0.715232, + "grad_norm": 0.09373584389686584, + "learning_rate": 1.5231786666666668e-05, + "loss": 0.0098, + "step": 111755 + }, + { + "epoch": 0.715264, + "grad_norm": 0.6795745491981506, + "learning_rate": 1.5231573333333334e-05, + "loss": 0.0054, + "step": 111760 + }, + { + "epoch": 0.715296, + "grad_norm": 0.743627667427063, + "learning_rate": 1.5231360000000002e-05, + "loss": 0.0257, + "step": 111765 + }, + { + "epoch": 0.715328, + "grad_norm": 1.091976523399353, + "learning_rate": 1.5231146666666668e-05, + "loss": 0.0068, + "step": 111770 + }, + { + "epoch": 0.71536, + "grad_norm": 0.24583135545253754, + "learning_rate": 1.5230933333333335e-05, + "loss": 0.0138, + "step": 111775 + }, + { + "epoch": 0.715392, + "grad_norm": 0.7507240176200867, + "learning_rate": 1.5230720000000001e-05, + "loss": 0.0085, + "step": 111780 + }, + { + "epoch": 0.715424, + "grad_norm": 0.13466519117355347, + "learning_rate": 1.5230506666666669e-05, + "loss": 0.0137, + "step": 111785 + }, + { + "epoch": 0.715456, + "grad_norm": 0.7191416621208191, + "learning_rate": 1.5230293333333335e-05, + "loss": 0.0116, + "step": 111790 + }, + { + "epoch": 0.715488, + "grad_norm": 0.332945317029953, + "learning_rate": 1.523008e-05, + "loss": 0.0336, + "step": 111795 + }, + { + "epoch": 0.71552, + "grad_norm": 0.2052372694015503, + "learning_rate": 1.5229866666666668e-05, + "loss": 0.0112, + "step": 111800 + }, + { + "epoch": 0.715552, + "grad_norm": 0.8460288047790527, + "learning_rate": 1.5229653333333334e-05, + "loss": 0.0178, + "step": 111805 + }, + { + "epoch": 0.715584, + "grad_norm": 0.5822333693504333, + "learning_rate": 1.5229440000000001e-05, + "loss": 0.0138, + "step": 111810 + }, + { + "epoch": 0.715616, + "grad_norm": 0.2452022284269333, + "learning_rate": 1.5229226666666667e-05, + "loss": 0.0293, + "step": 111815 + }, + { + "epoch": 0.715648, + "grad_norm": 0.33553212881088257, + "learning_rate": 1.5229013333333336e-05, + "loss": 0.0139, + "step": 111820 + }, + { + "epoch": 0.71568, + "grad_norm": 1.2724688053131104, + "learning_rate": 1.52288e-05, + "loss": 0.0214, + "step": 111825 + }, + { + "epoch": 0.715712, + "grad_norm": 0.2618687152862549, + "learning_rate": 1.5228586666666666e-05, + "loss": 0.0155, + "step": 111830 + }, + { + "epoch": 0.715744, + "grad_norm": 0.30451568961143494, + "learning_rate": 1.5228373333333336e-05, + "loss": 0.0079, + "step": 111835 + }, + { + "epoch": 0.715776, + "grad_norm": 0.02010936103761196, + "learning_rate": 1.522816e-05, + "loss": 0.0113, + "step": 111840 + }, + { + "epoch": 0.715808, + "grad_norm": 0.303202360868454, + "learning_rate": 1.5227946666666669e-05, + "loss": 0.0076, + "step": 111845 + }, + { + "epoch": 0.71584, + "grad_norm": 0.6156119704246521, + "learning_rate": 1.5227733333333335e-05, + "loss": 0.0099, + "step": 111850 + }, + { + "epoch": 0.715872, + "grad_norm": 0.11769303679466248, + "learning_rate": 1.5227520000000003e-05, + "loss": 0.0044, + "step": 111855 + }, + { + "epoch": 0.715904, + "grad_norm": 0.764809250831604, + "learning_rate": 1.5227306666666668e-05, + "loss": 0.0066, + "step": 111860 + }, + { + "epoch": 0.715936, + "grad_norm": 0.32568278908729553, + "learning_rate": 1.5227093333333334e-05, + "loss": 0.0139, + "step": 111865 + }, + { + "epoch": 0.715968, + "grad_norm": 0.2839605212211609, + "learning_rate": 1.5226880000000002e-05, + "loss": 0.011, + "step": 111870 + }, + { + "epoch": 0.716, + "grad_norm": 0.2033112347126007, + "learning_rate": 1.5226666666666668e-05, + "loss": 0.0113, + "step": 111875 + }, + { + "epoch": 0.716032, + "grad_norm": 0.7511265277862549, + "learning_rate": 1.5226453333333335e-05, + "loss": 0.0188, + "step": 111880 + }, + { + "epoch": 0.716064, + "grad_norm": 0.17076605558395386, + "learning_rate": 1.5226240000000001e-05, + "loss": 0.0333, + "step": 111885 + }, + { + "epoch": 0.716096, + "grad_norm": 0.3955594301223755, + "learning_rate": 1.5226026666666669e-05, + "loss": 0.0115, + "step": 111890 + }, + { + "epoch": 0.716128, + "grad_norm": 0.04998733475804329, + "learning_rate": 1.5225813333333335e-05, + "loss": 0.0138, + "step": 111895 + }, + { + "epoch": 0.71616, + "grad_norm": 0.07166119664907455, + "learning_rate": 1.52256e-05, + "loss": 0.0017, + "step": 111900 + }, + { + "epoch": 0.716192, + "grad_norm": 0.5761393904685974, + "learning_rate": 1.5225386666666668e-05, + "loss": 0.0126, + "step": 111905 + }, + { + "epoch": 0.716224, + "grad_norm": 0.22610831260681152, + "learning_rate": 1.5225173333333334e-05, + "loss": 0.0084, + "step": 111910 + }, + { + "epoch": 0.716256, + "grad_norm": 0.7420429587364197, + "learning_rate": 1.5224960000000001e-05, + "loss": 0.0095, + "step": 111915 + }, + { + "epoch": 0.716288, + "grad_norm": 0.960564911365509, + "learning_rate": 1.5224746666666667e-05, + "loss": 0.0113, + "step": 111920 + }, + { + "epoch": 0.71632, + "grad_norm": 0.044845983386039734, + "learning_rate": 1.5224533333333335e-05, + "loss": 0.0071, + "step": 111925 + }, + { + "epoch": 0.716352, + "grad_norm": 0.4737578332424164, + "learning_rate": 1.522432e-05, + "loss": 0.0171, + "step": 111930 + }, + { + "epoch": 0.716384, + "grad_norm": 0.43681880831718445, + "learning_rate": 1.5224106666666666e-05, + "loss": 0.0178, + "step": 111935 + }, + { + "epoch": 0.716416, + "grad_norm": 0.647918164730072, + "learning_rate": 1.5223893333333336e-05, + "loss": 0.0066, + "step": 111940 + }, + { + "epoch": 0.716448, + "grad_norm": 0.9126670360565186, + "learning_rate": 1.522368e-05, + "loss": 0.0087, + "step": 111945 + }, + { + "epoch": 0.71648, + "grad_norm": 0.3934747576713562, + "learning_rate": 1.522346666666667e-05, + "loss": 0.0149, + "step": 111950 + }, + { + "epoch": 0.716512, + "grad_norm": 0.5410600304603577, + "learning_rate": 1.5223253333333335e-05, + "loss": 0.0072, + "step": 111955 + }, + { + "epoch": 0.716544, + "grad_norm": 0.43298131227493286, + "learning_rate": 1.5223040000000003e-05, + "loss": 0.0082, + "step": 111960 + }, + { + "epoch": 0.716576, + "grad_norm": 0.38169968128204346, + "learning_rate": 1.5222826666666668e-05, + "loss": 0.0092, + "step": 111965 + }, + { + "epoch": 0.716608, + "grad_norm": 0.08460575342178345, + "learning_rate": 1.5222613333333334e-05, + "loss": 0.029, + "step": 111970 + }, + { + "epoch": 0.71664, + "grad_norm": 0.08486995846033096, + "learning_rate": 1.5222400000000002e-05, + "loss": 0.0122, + "step": 111975 + }, + { + "epoch": 0.716672, + "grad_norm": 0.5606469511985779, + "learning_rate": 1.5222186666666668e-05, + "loss": 0.0107, + "step": 111980 + }, + { + "epoch": 0.716704, + "grad_norm": 0.7751898169517517, + "learning_rate": 1.5221973333333335e-05, + "loss": 0.0057, + "step": 111985 + }, + { + "epoch": 0.716736, + "grad_norm": 1.108161211013794, + "learning_rate": 1.5221760000000001e-05, + "loss": 0.0118, + "step": 111990 + }, + { + "epoch": 0.716768, + "grad_norm": 0.21985085308551788, + "learning_rate": 1.5221546666666669e-05, + "loss": 0.0128, + "step": 111995 + }, + { + "epoch": 0.7168, + "grad_norm": 0.5063008069992065, + "learning_rate": 1.5221333333333335e-05, + "loss": 0.0198, + "step": 112000 + }, + { + "epoch": 0.716832, + "grad_norm": 0.22511941194534302, + "learning_rate": 1.522112e-05, + "loss": 0.0587, + "step": 112005 + }, + { + "epoch": 0.716864, + "grad_norm": 0.5412102937698364, + "learning_rate": 1.5220906666666668e-05, + "loss": 0.0153, + "step": 112010 + }, + { + "epoch": 0.716896, + "grad_norm": 0.3816882073879242, + "learning_rate": 1.5220693333333334e-05, + "loss": 0.0224, + "step": 112015 + }, + { + "epoch": 0.716928, + "grad_norm": 0.5953067541122437, + "learning_rate": 1.5220480000000001e-05, + "loss": 0.0092, + "step": 112020 + }, + { + "epoch": 0.71696, + "grad_norm": 0.15106794238090515, + "learning_rate": 1.5220266666666667e-05, + "loss": 0.0037, + "step": 112025 + }, + { + "epoch": 0.716992, + "grad_norm": 0.06672726571559906, + "learning_rate": 1.5220053333333335e-05, + "loss": 0.0076, + "step": 112030 + }, + { + "epoch": 0.717024, + "grad_norm": 0.2931370437145233, + "learning_rate": 1.521984e-05, + "loss": 0.0091, + "step": 112035 + }, + { + "epoch": 0.717056, + "grad_norm": 0.11310571432113647, + "learning_rate": 1.5219626666666666e-05, + "loss": 0.0038, + "step": 112040 + }, + { + "epoch": 0.717088, + "grad_norm": 0.390573114156723, + "learning_rate": 1.5219413333333336e-05, + "loss": 0.0078, + "step": 112045 + }, + { + "epoch": 0.71712, + "grad_norm": 0.5244423747062683, + "learning_rate": 1.52192e-05, + "loss": 0.0099, + "step": 112050 + }, + { + "epoch": 0.717152, + "grad_norm": 0.7176150679588318, + "learning_rate": 1.521898666666667e-05, + "loss": 0.0273, + "step": 112055 + }, + { + "epoch": 0.717184, + "grad_norm": 0.5811265707015991, + "learning_rate": 1.5218773333333335e-05, + "loss": 0.0146, + "step": 112060 + }, + { + "epoch": 0.717216, + "grad_norm": 0.29760876297950745, + "learning_rate": 1.5218560000000003e-05, + "loss": 0.0215, + "step": 112065 + }, + { + "epoch": 0.717248, + "grad_norm": 0.6354401707649231, + "learning_rate": 1.5218346666666668e-05, + "loss": 0.0296, + "step": 112070 + }, + { + "epoch": 0.71728, + "grad_norm": 0.24083730578422546, + "learning_rate": 1.5218133333333334e-05, + "loss": 0.0072, + "step": 112075 + }, + { + "epoch": 0.717312, + "grad_norm": 1.5454107522964478, + "learning_rate": 1.5217920000000002e-05, + "loss": 0.0118, + "step": 112080 + }, + { + "epoch": 0.717344, + "grad_norm": 0.14605537056922913, + "learning_rate": 1.5217706666666668e-05, + "loss": 0.0116, + "step": 112085 + }, + { + "epoch": 0.717376, + "grad_norm": 0.14615125954151154, + "learning_rate": 1.5217493333333335e-05, + "loss": 0.002, + "step": 112090 + }, + { + "epoch": 0.717408, + "grad_norm": 0.292005330324173, + "learning_rate": 1.5217280000000001e-05, + "loss": 0.0105, + "step": 112095 + }, + { + "epoch": 0.71744, + "grad_norm": 4.005380153656006, + "learning_rate": 1.5217066666666669e-05, + "loss": 0.0185, + "step": 112100 + }, + { + "epoch": 0.717472, + "grad_norm": 0.1494673639535904, + "learning_rate": 1.5216853333333335e-05, + "loss": 0.0105, + "step": 112105 + }, + { + "epoch": 0.717504, + "grad_norm": 0.20939002931118011, + "learning_rate": 1.521664e-05, + "loss": 0.0202, + "step": 112110 + }, + { + "epoch": 0.717536, + "grad_norm": 0.30249667167663574, + "learning_rate": 1.5216426666666668e-05, + "loss": 0.0077, + "step": 112115 + }, + { + "epoch": 0.717568, + "grad_norm": 0.6343377828598022, + "learning_rate": 1.5216213333333334e-05, + "loss": 0.0123, + "step": 112120 + }, + { + "epoch": 0.7176, + "grad_norm": 1.1438952684402466, + "learning_rate": 1.5216000000000001e-05, + "loss": 0.0151, + "step": 112125 + }, + { + "epoch": 0.717632, + "grad_norm": 0.43782609701156616, + "learning_rate": 1.5215786666666667e-05, + "loss": 0.0266, + "step": 112130 + }, + { + "epoch": 0.717664, + "grad_norm": 0.7414583563804626, + "learning_rate": 1.5215573333333335e-05, + "loss": 0.0223, + "step": 112135 + }, + { + "epoch": 0.717696, + "grad_norm": 0.43619397282600403, + "learning_rate": 1.521536e-05, + "loss": 0.0117, + "step": 112140 + }, + { + "epoch": 0.717728, + "grad_norm": 0.1103912815451622, + "learning_rate": 1.5215146666666666e-05, + "loss": 0.0064, + "step": 112145 + }, + { + "epoch": 0.71776, + "grad_norm": 0.41340023279190063, + "learning_rate": 1.5214933333333334e-05, + "loss": 0.0163, + "step": 112150 + }, + { + "epoch": 0.717792, + "grad_norm": 0.4806528389453888, + "learning_rate": 1.521472e-05, + "loss": 0.0057, + "step": 112155 + }, + { + "epoch": 0.717824, + "grad_norm": 0.3786029517650604, + "learning_rate": 1.521450666666667e-05, + "loss": 0.0081, + "step": 112160 + }, + { + "epoch": 0.717856, + "grad_norm": 1.436269998550415, + "learning_rate": 1.5214293333333335e-05, + "loss": 0.0272, + "step": 112165 + }, + { + "epoch": 0.717888, + "grad_norm": 0.6479411125183105, + "learning_rate": 1.5214080000000003e-05, + "loss": 0.009, + "step": 112170 + }, + { + "epoch": 0.71792, + "grad_norm": 0.12094718962907791, + "learning_rate": 1.5213866666666668e-05, + "loss": 0.024, + "step": 112175 + }, + { + "epoch": 0.717952, + "grad_norm": 0.3208242952823639, + "learning_rate": 1.5213653333333334e-05, + "loss": 0.0088, + "step": 112180 + }, + { + "epoch": 0.717984, + "grad_norm": 0.18893492221832275, + "learning_rate": 1.5213440000000002e-05, + "loss": 0.0116, + "step": 112185 + }, + { + "epoch": 0.718016, + "grad_norm": 0.3263191878795624, + "learning_rate": 1.5213226666666668e-05, + "loss": 0.0066, + "step": 112190 + }, + { + "epoch": 0.718048, + "grad_norm": 0.2074950486421585, + "learning_rate": 1.5213013333333335e-05, + "loss": 0.0078, + "step": 112195 + }, + { + "epoch": 0.71808, + "grad_norm": 1.111639142036438, + "learning_rate": 1.5212800000000001e-05, + "loss": 0.0209, + "step": 112200 + }, + { + "epoch": 0.718112, + "grad_norm": 0.8225822448730469, + "learning_rate": 1.5212586666666669e-05, + "loss": 0.0119, + "step": 112205 + }, + { + "epoch": 0.718144, + "grad_norm": 0.5244051218032837, + "learning_rate": 1.5212373333333335e-05, + "loss": 0.0087, + "step": 112210 + }, + { + "epoch": 0.718176, + "grad_norm": 0.40082451701164246, + "learning_rate": 1.521216e-05, + "loss": 0.0058, + "step": 112215 + }, + { + "epoch": 0.718208, + "grad_norm": 0.35749551653862, + "learning_rate": 1.5211946666666668e-05, + "loss": 0.0103, + "step": 112220 + }, + { + "epoch": 0.71824, + "grad_norm": 0.27043694257736206, + "learning_rate": 1.5211733333333334e-05, + "loss": 0.0089, + "step": 112225 + }, + { + "epoch": 0.718272, + "grad_norm": 0.41041937470436096, + "learning_rate": 1.5211520000000001e-05, + "loss": 0.0207, + "step": 112230 + }, + { + "epoch": 0.718304, + "grad_norm": 1.1257253885269165, + "learning_rate": 1.5211306666666667e-05, + "loss": 0.0089, + "step": 112235 + }, + { + "epoch": 0.718336, + "grad_norm": 0.23433734476566315, + "learning_rate": 1.5211093333333335e-05, + "loss": 0.0077, + "step": 112240 + }, + { + "epoch": 0.718368, + "grad_norm": 0.6455175280570984, + "learning_rate": 1.521088e-05, + "loss": 0.0148, + "step": 112245 + }, + { + "epoch": 0.7184, + "grad_norm": 1.749799370765686, + "learning_rate": 1.5210666666666666e-05, + "loss": 0.0173, + "step": 112250 + }, + { + "epoch": 0.718432, + "grad_norm": 0.2978133261203766, + "learning_rate": 1.5210453333333334e-05, + "loss": 0.0104, + "step": 112255 + }, + { + "epoch": 0.718464, + "grad_norm": 0.6405586004257202, + "learning_rate": 1.521024e-05, + "loss": 0.0062, + "step": 112260 + }, + { + "epoch": 0.718496, + "grad_norm": 0.02481829933822155, + "learning_rate": 1.521002666666667e-05, + "loss": 0.0041, + "step": 112265 + }, + { + "epoch": 0.718528, + "grad_norm": 0.2717084288597107, + "learning_rate": 1.5209813333333335e-05, + "loss": 0.0181, + "step": 112270 + }, + { + "epoch": 0.71856, + "grad_norm": 0.2736252546310425, + "learning_rate": 1.5209600000000003e-05, + "loss": 0.0065, + "step": 112275 + }, + { + "epoch": 0.718592, + "grad_norm": 0.2688036561012268, + "learning_rate": 1.5209386666666668e-05, + "loss": 0.0102, + "step": 112280 + }, + { + "epoch": 0.718624, + "grad_norm": 0.45929908752441406, + "learning_rate": 1.5209173333333334e-05, + "loss": 0.0068, + "step": 112285 + }, + { + "epoch": 0.718656, + "grad_norm": 0.35645848512649536, + "learning_rate": 1.5208960000000002e-05, + "loss": 0.014, + "step": 112290 + }, + { + "epoch": 0.718688, + "grad_norm": 0.23189666867256165, + "learning_rate": 1.5208746666666668e-05, + "loss": 0.0071, + "step": 112295 + }, + { + "epoch": 0.71872, + "grad_norm": 1.2684015035629272, + "learning_rate": 1.5208533333333335e-05, + "loss": 0.0094, + "step": 112300 + }, + { + "epoch": 0.718752, + "grad_norm": 0.14848792552947998, + "learning_rate": 1.5208320000000001e-05, + "loss": 0.0088, + "step": 112305 + }, + { + "epoch": 0.718784, + "grad_norm": 0.7974116206169128, + "learning_rate": 1.5208106666666669e-05, + "loss": 0.0093, + "step": 112310 + }, + { + "epoch": 0.718816, + "grad_norm": 0.5422621369361877, + "learning_rate": 1.5207893333333335e-05, + "loss": 0.0085, + "step": 112315 + }, + { + "epoch": 0.718848, + "grad_norm": 0.12012840807437897, + "learning_rate": 1.520768e-05, + "loss": 0.0048, + "step": 112320 + }, + { + "epoch": 0.71888, + "grad_norm": 0.7611218094825745, + "learning_rate": 1.5207466666666668e-05, + "loss": 0.0209, + "step": 112325 + }, + { + "epoch": 0.718912, + "grad_norm": 0.19084763526916504, + "learning_rate": 1.5207253333333334e-05, + "loss": 0.0147, + "step": 112330 + }, + { + "epoch": 0.718944, + "grad_norm": 0.34580743312835693, + "learning_rate": 1.5207040000000001e-05, + "loss": 0.006, + "step": 112335 + }, + { + "epoch": 0.718976, + "grad_norm": 0.5266379714012146, + "learning_rate": 1.5206826666666667e-05, + "loss": 0.0127, + "step": 112340 + }, + { + "epoch": 0.719008, + "grad_norm": 0.1567607820034027, + "learning_rate": 1.5206613333333335e-05, + "loss": 0.0115, + "step": 112345 + }, + { + "epoch": 0.71904, + "grad_norm": 0.22603002190589905, + "learning_rate": 1.52064e-05, + "loss": 0.0096, + "step": 112350 + }, + { + "epoch": 0.719072, + "grad_norm": 0.8071293234825134, + "learning_rate": 1.5206186666666667e-05, + "loss": 0.0298, + "step": 112355 + }, + { + "epoch": 0.719104, + "grad_norm": 0.014559241011738777, + "learning_rate": 1.5205973333333334e-05, + "loss": 0.0055, + "step": 112360 + }, + { + "epoch": 0.719136, + "grad_norm": 0.40129202604293823, + "learning_rate": 1.520576e-05, + "loss": 0.0117, + "step": 112365 + }, + { + "epoch": 0.719168, + "grad_norm": 0.04935850948095322, + "learning_rate": 1.520554666666667e-05, + "loss": 0.0152, + "step": 112370 + }, + { + "epoch": 0.7192, + "grad_norm": 0.3468230366706848, + "learning_rate": 1.5205333333333333e-05, + "loss": 0.0115, + "step": 112375 + }, + { + "epoch": 0.719232, + "grad_norm": 0.9383134245872498, + "learning_rate": 1.5205120000000003e-05, + "loss": 0.0107, + "step": 112380 + }, + { + "epoch": 0.719264, + "grad_norm": 0.5400253534317017, + "learning_rate": 1.5204906666666668e-05, + "loss": 0.0103, + "step": 112385 + }, + { + "epoch": 0.719296, + "grad_norm": 0.4838886559009552, + "learning_rate": 1.5204693333333334e-05, + "loss": 0.0117, + "step": 112390 + }, + { + "epoch": 0.719328, + "grad_norm": 0.05100180208683014, + "learning_rate": 1.5204480000000002e-05, + "loss": 0.0127, + "step": 112395 + }, + { + "epoch": 0.71936, + "grad_norm": 0.345896452665329, + "learning_rate": 1.5204266666666668e-05, + "loss": 0.0049, + "step": 112400 + }, + { + "epoch": 0.719392, + "grad_norm": 0.14918124675750732, + "learning_rate": 1.5204053333333335e-05, + "loss": 0.0037, + "step": 112405 + }, + { + "epoch": 0.719424, + "grad_norm": 0.5398695468902588, + "learning_rate": 1.5203840000000001e-05, + "loss": 0.0085, + "step": 112410 + }, + { + "epoch": 0.719456, + "grad_norm": 0.4678696393966675, + "learning_rate": 1.5203626666666669e-05, + "loss": 0.02, + "step": 112415 + }, + { + "epoch": 0.719488, + "grad_norm": 0.8146971464157104, + "learning_rate": 1.5203413333333335e-05, + "loss": 0.0083, + "step": 112420 + }, + { + "epoch": 0.71952, + "grad_norm": 0.6450633406639099, + "learning_rate": 1.52032e-05, + "loss": 0.017, + "step": 112425 + }, + { + "epoch": 0.719552, + "grad_norm": 0.37178704142570496, + "learning_rate": 1.5202986666666668e-05, + "loss": 0.0182, + "step": 112430 + }, + { + "epoch": 0.719584, + "grad_norm": 0.05162142962217331, + "learning_rate": 1.5202773333333334e-05, + "loss": 0.0061, + "step": 112435 + }, + { + "epoch": 0.719616, + "grad_norm": 1.4498724937438965, + "learning_rate": 1.5202560000000001e-05, + "loss": 0.0153, + "step": 112440 + }, + { + "epoch": 0.719648, + "grad_norm": 0.5846990346908569, + "learning_rate": 1.5202346666666667e-05, + "loss": 0.0071, + "step": 112445 + }, + { + "epoch": 0.71968, + "grad_norm": 2.712186336517334, + "learning_rate": 1.5202133333333335e-05, + "loss": 0.0276, + "step": 112450 + }, + { + "epoch": 0.719712, + "grad_norm": 0.3016901910305023, + "learning_rate": 1.520192e-05, + "loss": 0.0079, + "step": 112455 + }, + { + "epoch": 0.719744, + "grad_norm": 0.4082052409648895, + "learning_rate": 1.5201706666666667e-05, + "loss": 0.0159, + "step": 112460 + }, + { + "epoch": 0.719776, + "grad_norm": 0.5374351143836975, + "learning_rate": 1.5201493333333334e-05, + "loss": 0.0165, + "step": 112465 + }, + { + "epoch": 0.719808, + "grad_norm": 0.455218106508255, + "learning_rate": 1.520128e-05, + "loss": 0.0131, + "step": 112470 + }, + { + "epoch": 0.71984, + "grad_norm": 1.7902108430862427, + "learning_rate": 1.520106666666667e-05, + "loss": 0.0057, + "step": 112475 + }, + { + "epoch": 0.719872, + "grad_norm": 0.43882930278778076, + "learning_rate": 1.5200853333333333e-05, + "loss": 0.0071, + "step": 112480 + }, + { + "epoch": 0.719904, + "grad_norm": 1.0737539529800415, + "learning_rate": 1.5200640000000003e-05, + "loss": 0.0196, + "step": 112485 + }, + { + "epoch": 0.719936, + "grad_norm": 0.06250526010990143, + "learning_rate": 1.5200426666666668e-05, + "loss": 0.0087, + "step": 112490 + }, + { + "epoch": 0.719968, + "grad_norm": 0.33962419629096985, + "learning_rate": 1.5200213333333334e-05, + "loss": 0.0035, + "step": 112495 + }, + { + "epoch": 0.72, + "grad_norm": 0.4475170969963074, + "learning_rate": 1.5200000000000002e-05, + "loss": 0.0083, + "step": 112500 + }, + { + "epoch": 0.720032, + "grad_norm": 0.4689386188983917, + "learning_rate": 1.5199786666666668e-05, + "loss": 0.0039, + "step": 112505 + }, + { + "epoch": 0.720064, + "grad_norm": 0.06197136268019676, + "learning_rate": 1.5199573333333335e-05, + "loss": 0.0164, + "step": 112510 + }, + { + "epoch": 0.720096, + "grad_norm": 0.44190481305122375, + "learning_rate": 1.5199360000000001e-05, + "loss": 0.0048, + "step": 112515 + }, + { + "epoch": 0.720128, + "grad_norm": 2.339310646057129, + "learning_rate": 1.5199146666666669e-05, + "loss": 0.0108, + "step": 112520 + }, + { + "epoch": 0.72016, + "grad_norm": 0.4656139016151428, + "learning_rate": 1.5198933333333335e-05, + "loss": 0.0104, + "step": 112525 + }, + { + "epoch": 0.720192, + "grad_norm": 0.3880699872970581, + "learning_rate": 1.519872e-05, + "loss": 0.012, + "step": 112530 + }, + { + "epoch": 0.720224, + "grad_norm": 0.44507452845573425, + "learning_rate": 1.5198506666666668e-05, + "loss": 0.0085, + "step": 112535 + }, + { + "epoch": 0.720256, + "grad_norm": 0.07493975758552551, + "learning_rate": 1.5198293333333334e-05, + "loss": 0.0156, + "step": 112540 + }, + { + "epoch": 0.720288, + "grad_norm": 0.245443657040596, + "learning_rate": 1.5198080000000001e-05, + "loss": 0.0217, + "step": 112545 + }, + { + "epoch": 0.72032, + "grad_norm": 0.4746113717556, + "learning_rate": 1.5197866666666667e-05, + "loss": 0.0164, + "step": 112550 + }, + { + "epoch": 0.720352, + "grad_norm": 0.8367869853973389, + "learning_rate": 1.5197653333333335e-05, + "loss": 0.0102, + "step": 112555 + }, + { + "epoch": 0.720384, + "grad_norm": 0.13366664946079254, + "learning_rate": 1.519744e-05, + "loss": 0.0102, + "step": 112560 + }, + { + "epoch": 0.720416, + "grad_norm": 0.23849263787269592, + "learning_rate": 1.5197226666666668e-05, + "loss": 0.0039, + "step": 112565 + }, + { + "epoch": 0.720448, + "grad_norm": 0.2470017671585083, + "learning_rate": 1.5197013333333334e-05, + "loss": 0.0043, + "step": 112570 + }, + { + "epoch": 0.72048, + "grad_norm": 0.6435996294021606, + "learning_rate": 1.51968e-05, + "loss": 0.0166, + "step": 112575 + }, + { + "epoch": 0.720512, + "grad_norm": 0.7742946147918701, + "learning_rate": 1.519658666666667e-05, + "loss": 0.0079, + "step": 112580 + }, + { + "epoch": 0.720544, + "grad_norm": 0.8546043634414673, + "learning_rate": 1.5196373333333333e-05, + "loss": 0.0168, + "step": 112585 + }, + { + "epoch": 0.720576, + "grad_norm": 0.6580063104629517, + "learning_rate": 1.5196160000000003e-05, + "loss": 0.0149, + "step": 112590 + }, + { + "epoch": 0.720608, + "grad_norm": 0.0739072859287262, + "learning_rate": 1.5195946666666668e-05, + "loss": 0.0028, + "step": 112595 + }, + { + "epoch": 0.72064, + "grad_norm": 0.18769292533397675, + "learning_rate": 1.5195733333333336e-05, + "loss": 0.0129, + "step": 112600 + }, + { + "epoch": 0.720672, + "grad_norm": 1.1853702068328857, + "learning_rate": 1.5195520000000002e-05, + "loss": 0.0146, + "step": 112605 + }, + { + "epoch": 0.720704, + "grad_norm": 0.14864178001880646, + "learning_rate": 1.5195306666666668e-05, + "loss": 0.0104, + "step": 112610 + }, + { + "epoch": 0.720736, + "grad_norm": 0.5101749897003174, + "learning_rate": 1.5195093333333335e-05, + "loss": 0.0229, + "step": 112615 + }, + { + "epoch": 0.720768, + "grad_norm": 0.056293047964572906, + "learning_rate": 1.5194880000000001e-05, + "loss": 0.0079, + "step": 112620 + }, + { + "epoch": 0.7208, + "grad_norm": 0.02396329492330551, + "learning_rate": 1.5194666666666669e-05, + "loss": 0.0047, + "step": 112625 + }, + { + "epoch": 0.720832, + "grad_norm": 0.3160180449485779, + "learning_rate": 1.5194453333333335e-05, + "loss": 0.0162, + "step": 112630 + }, + { + "epoch": 0.720864, + "grad_norm": 1.5377545356750488, + "learning_rate": 1.5194240000000002e-05, + "loss": 0.0163, + "step": 112635 + }, + { + "epoch": 0.720896, + "grad_norm": 0.8742735981941223, + "learning_rate": 1.5194026666666668e-05, + "loss": 0.0124, + "step": 112640 + }, + { + "epoch": 0.720928, + "grad_norm": 0.11917976289987564, + "learning_rate": 1.5193813333333334e-05, + "loss": 0.0058, + "step": 112645 + }, + { + "epoch": 0.72096, + "grad_norm": 0.5628016591072083, + "learning_rate": 1.5193600000000001e-05, + "loss": 0.0086, + "step": 112650 + }, + { + "epoch": 0.720992, + "grad_norm": 1.6494771242141724, + "learning_rate": 1.5193386666666667e-05, + "loss": 0.0135, + "step": 112655 + }, + { + "epoch": 0.721024, + "grad_norm": 1.7202177047729492, + "learning_rate": 1.5193173333333335e-05, + "loss": 0.0051, + "step": 112660 + }, + { + "epoch": 0.721056, + "grad_norm": 0.7571689486503601, + "learning_rate": 1.519296e-05, + "loss": 0.0148, + "step": 112665 + }, + { + "epoch": 0.721088, + "grad_norm": 0.7364576458930969, + "learning_rate": 1.5192746666666668e-05, + "loss": 0.0139, + "step": 112670 + }, + { + "epoch": 0.72112, + "grad_norm": 1.62226402759552, + "learning_rate": 1.5192533333333334e-05, + "loss": 0.0207, + "step": 112675 + }, + { + "epoch": 0.721152, + "grad_norm": 1.2457958459854126, + "learning_rate": 1.519232e-05, + "loss": 0.0103, + "step": 112680 + }, + { + "epoch": 0.721184, + "grad_norm": 0.006088429596275091, + "learning_rate": 1.519210666666667e-05, + "loss": 0.011, + "step": 112685 + }, + { + "epoch": 0.721216, + "grad_norm": 0.47270259261131287, + "learning_rate": 1.5191893333333333e-05, + "loss": 0.0314, + "step": 112690 + }, + { + "epoch": 0.721248, + "grad_norm": 0.10514122247695923, + "learning_rate": 1.5191680000000003e-05, + "loss": 0.008, + "step": 112695 + }, + { + "epoch": 0.72128, + "grad_norm": 0.3821742534637451, + "learning_rate": 1.5191466666666668e-05, + "loss": 0.0051, + "step": 112700 + }, + { + "epoch": 0.721312, + "grad_norm": 0.5217188000679016, + "learning_rate": 1.5191253333333336e-05, + "loss": 0.0151, + "step": 112705 + }, + { + "epoch": 0.721344, + "grad_norm": 0.16560083627700806, + "learning_rate": 1.5191040000000002e-05, + "loss": 0.0086, + "step": 112710 + }, + { + "epoch": 0.721376, + "grad_norm": 1.1075220108032227, + "learning_rate": 1.5190826666666668e-05, + "loss": 0.0283, + "step": 112715 + }, + { + "epoch": 0.721408, + "grad_norm": 2.6398873329162598, + "learning_rate": 1.5190613333333335e-05, + "loss": 0.0312, + "step": 112720 + }, + { + "epoch": 0.72144, + "grad_norm": 0.14233779907226562, + "learning_rate": 1.5190400000000001e-05, + "loss": 0.0039, + "step": 112725 + }, + { + "epoch": 0.721472, + "grad_norm": 0.4181172251701355, + "learning_rate": 1.5190186666666669e-05, + "loss": 0.0296, + "step": 112730 + }, + { + "epoch": 0.721504, + "grad_norm": 1.6206637620925903, + "learning_rate": 1.5189973333333335e-05, + "loss": 0.029, + "step": 112735 + }, + { + "epoch": 0.721536, + "grad_norm": 0.23528620600700378, + "learning_rate": 1.5189760000000002e-05, + "loss": 0.0072, + "step": 112740 + }, + { + "epoch": 0.721568, + "grad_norm": 0.03955443575978279, + "learning_rate": 1.5189546666666668e-05, + "loss": 0.0084, + "step": 112745 + }, + { + "epoch": 0.7216, + "grad_norm": 2.6339612007141113, + "learning_rate": 1.5189333333333334e-05, + "loss": 0.0183, + "step": 112750 + }, + { + "epoch": 0.721632, + "grad_norm": 0.20196591317653656, + "learning_rate": 1.5189120000000001e-05, + "loss": 0.0161, + "step": 112755 + }, + { + "epoch": 0.721664, + "grad_norm": 0.4220200777053833, + "learning_rate": 1.5188906666666667e-05, + "loss": 0.0167, + "step": 112760 + }, + { + "epoch": 0.721696, + "grad_norm": 0.7031159996986389, + "learning_rate": 1.5188693333333335e-05, + "loss": 0.0157, + "step": 112765 + }, + { + "epoch": 0.721728, + "grad_norm": 0.31337612867355347, + "learning_rate": 1.518848e-05, + "loss": 0.0115, + "step": 112770 + }, + { + "epoch": 0.72176, + "grad_norm": 1.377314805984497, + "learning_rate": 1.5188266666666668e-05, + "loss": 0.0299, + "step": 112775 + }, + { + "epoch": 0.721792, + "grad_norm": 0.10258232057094574, + "learning_rate": 1.5188053333333334e-05, + "loss": 0.0091, + "step": 112780 + }, + { + "epoch": 0.721824, + "grad_norm": 0.10442366451025009, + "learning_rate": 1.518784e-05, + "loss": 0.0062, + "step": 112785 + }, + { + "epoch": 0.721856, + "grad_norm": 2.527277708053589, + "learning_rate": 1.5187626666666667e-05, + "loss": 0.0214, + "step": 112790 + }, + { + "epoch": 0.721888, + "grad_norm": 0.3732457160949707, + "learning_rate": 1.5187413333333333e-05, + "loss": 0.0128, + "step": 112795 + }, + { + "epoch": 0.72192, + "grad_norm": 0.5501187443733215, + "learning_rate": 1.5187200000000003e-05, + "loss": 0.0114, + "step": 112800 + }, + { + "epoch": 0.721952, + "grad_norm": 0.289237380027771, + "learning_rate": 1.5186986666666668e-05, + "loss": 0.0082, + "step": 112805 + }, + { + "epoch": 0.721984, + "grad_norm": 0.07392977923154831, + "learning_rate": 1.5186773333333336e-05, + "loss": 0.0072, + "step": 112810 + }, + { + "epoch": 0.722016, + "grad_norm": 5.13197135925293, + "learning_rate": 1.5186560000000002e-05, + "loss": 0.0283, + "step": 112815 + }, + { + "epoch": 0.722048, + "grad_norm": 1.6359033584594727, + "learning_rate": 1.5186346666666668e-05, + "loss": 0.0146, + "step": 112820 + }, + { + "epoch": 0.72208, + "grad_norm": 0.9994748830795288, + "learning_rate": 1.5186133333333335e-05, + "loss": 0.0139, + "step": 112825 + }, + { + "epoch": 0.722112, + "grad_norm": 1.1625267267227173, + "learning_rate": 1.5185920000000001e-05, + "loss": 0.0126, + "step": 112830 + }, + { + "epoch": 0.722144, + "grad_norm": 0.12590573728084564, + "learning_rate": 1.5185706666666669e-05, + "loss": 0.0144, + "step": 112835 + }, + { + "epoch": 0.722176, + "grad_norm": 0.057630907744169235, + "learning_rate": 1.5185493333333335e-05, + "loss": 0.0104, + "step": 112840 + }, + { + "epoch": 0.722208, + "grad_norm": 0.3721223473548889, + "learning_rate": 1.5185280000000002e-05, + "loss": 0.0177, + "step": 112845 + }, + { + "epoch": 0.72224, + "grad_norm": 0.5478348135948181, + "learning_rate": 1.5185066666666668e-05, + "loss": 0.0127, + "step": 112850 + }, + { + "epoch": 0.722272, + "grad_norm": 0.13886776566505432, + "learning_rate": 1.5184853333333334e-05, + "loss": 0.0061, + "step": 112855 + }, + { + "epoch": 0.722304, + "grad_norm": 0.7522328495979309, + "learning_rate": 1.5184640000000001e-05, + "loss": 0.02, + "step": 112860 + }, + { + "epoch": 0.722336, + "grad_norm": 0.2016318440437317, + "learning_rate": 1.5184426666666667e-05, + "loss": 0.01, + "step": 112865 + }, + { + "epoch": 0.722368, + "grad_norm": 1.351867914199829, + "learning_rate": 1.5184213333333335e-05, + "loss": 0.0296, + "step": 112870 + }, + { + "epoch": 0.7224, + "grad_norm": 0.35021549463272095, + "learning_rate": 1.5184e-05, + "loss": 0.0144, + "step": 112875 + }, + { + "epoch": 0.722432, + "grad_norm": 0.4991949200630188, + "learning_rate": 1.5183786666666668e-05, + "loss": 0.0139, + "step": 112880 + }, + { + "epoch": 0.722464, + "grad_norm": 0.8277355432510376, + "learning_rate": 1.5183573333333334e-05, + "loss": 0.0219, + "step": 112885 + }, + { + "epoch": 0.722496, + "grad_norm": 2.1195321083068848, + "learning_rate": 1.518336e-05, + "loss": 0.0112, + "step": 112890 + }, + { + "epoch": 0.722528, + "grad_norm": 0.3194487392902374, + "learning_rate": 1.5183146666666667e-05, + "loss": 0.0043, + "step": 112895 + }, + { + "epoch": 0.72256, + "grad_norm": 0.5637977719306946, + "learning_rate": 1.5182933333333333e-05, + "loss": 0.0308, + "step": 112900 + }, + { + "epoch": 0.722592, + "grad_norm": 1.257932424545288, + "learning_rate": 1.5182720000000003e-05, + "loss": 0.0207, + "step": 112905 + }, + { + "epoch": 0.722624, + "grad_norm": 0.05351921543478966, + "learning_rate": 1.5182506666666668e-05, + "loss": 0.0278, + "step": 112910 + }, + { + "epoch": 0.722656, + "grad_norm": 0.3756834864616394, + "learning_rate": 1.5182293333333336e-05, + "loss": 0.0136, + "step": 112915 + }, + { + "epoch": 0.722688, + "grad_norm": 0.6206645965576172, + "learning_rate": 1.5182080000000002e-05, + "loss": 0.0147, + "step": 112920 + }, + { + "epoch": 0.72272, + "grad_norm": 0.22883738577365875, + "learning_rate": 1.5181866666666668e-05, + "loss": 0.0083, + "step": 112925 + }, + { + "epoch": 0.722752, + "grad_norm": 0.272645503282547, + "learning_rate": 1.5181653333333335e-05, + "loss": 0.0134, + "step": 112930 + }, + { + "epoch": 0.722784, + "grad_norm": 0.3247685134410858, + "learning_rate": 1.5181440000000001e-05, + "loss": 0.0104, + "step": 112935 + }, + { + "epoch": 0.722816, + "grad_norm": 0.1521754264831543, + "learning_rate": 1.5181226666666669e-05, + "loss": 0.0278, + "step": 112940 + }, + { + "epoch": 0.722848, + "grad_norm": 0.5647313594818115, + "learning_rate": 1.5181013333333335e-05, + "loss": 0.0137, + "step": 112945 + }, + { + "epoch": 0.72288, + "grad_norm": 0.6068991422653198, + "learning_rate": 1.5180800000000002e-05, + "loss": 0.0129, + "step": 112950 + }, + { + "epoch": 0.722912, + "grad_norm": 0.12261432409286499, + "learning_rate": 1.5180586666666668e-05, + "loss": 0.0061, + "step": 112955 + }, + { + "epoch": 0.722944, + "grad_norm": 0.5560926198959351, + "learning_rate": 1.5180373333333334e-05, + "loss": 0.0079, + "step": 112960 + }, + { + "epoch": 0.722976, + "grad_norm": 0.10760871320962906, + "learning_rate": 1.5180160000000001e-05, + "loss": 0.0034, + "step": 112965 + }, + { + "epoch": 0.723008, + "grad_norm": 0.862760066986084, + "learning_rate": 1.5179946666666667e-05, + "loss": 0.0081, + "step": 112970 + }, + { + "epoch": 0.72304, + "grad_norm": 0.8623788356781006, + "learning_rate": 1.5179733333333335e-05, + "loss": 0.0187, + "step": 112975 + }, + { + "epoch": 0.723072, + "grad_norm": 0.0713973119854927, + "learning_rate": 1.517952e-05, + "loss": 0.0169, + "step": 112980 + }, + { + "epoch": 0.723104, + "grad_norm": 0.62114417552948, + "learning_rate": 1.5179306666666668e-05, + "loss": 0.0132, + "step": 112985 + }, + { + "epoch": 0.723136, + "grad_norm": 0.8357540369033813, + "learning_rate": 1.5179093333333334e-05, + "loss": 0.0132, + "step": 112990 + }, + { + "epoch": 0.723168, + "grad_norm": 0.3614956736564636, + "learning_rate": 1.517888e-05, + "loss": 0.0054, + "step": 112995 + }, + { + "epoch": 0.7232, + "grad_norm": 0.9986741542816162, + "learning_rate": 1.5178666666666667e-05, + "loss": 0.0146, + "step": 113000 + }, + { + "epoch": 0.723232, + "grad_norm": 0.561531126499176, + "learning_rate": 1.5178453333333333e-05, + "loss": 0.0117, + "step": 113005 + }, + { + "epoch": 0.723264, + "grad_norm": 0.09016895294189453, + "learning_rate": 1.5178240000000003e-05, + "loss": 0.0061, + "step": 113010 + }, + { + "epoch": 0.723296, + "grad_norm": 0.8032486438751221, + "learning_rate": 1.5178026666666667e-05, + "loss": 0.009, + "step": 113015 + }, + { + "epoch": 0.723328, + "grad_norm": 0.4403717815876007, + "learning_rate": 1.5177813333333336e-05, + "loss": 0.0037, + "step": 113020 + }, + { + "epoch": 0.72336, + "grad_norm": 0.7297261357307434, + "learning_rate": 1.5177600000000002e-05, + "loss": 0.0137, + "step": 113025 + }, + { + "epoch": 0.723392, + "grad_norm": 0.6377800107002258, + "learning_rate": 1.5177386666666668e-05, + "loss": 0.0271, + "step": 113030 + }, + { + "epoch": 0.723424, + "grad_norm": 0.079181969165802, + "learning_rate": 1.5177173333333335e-05, + "loss": 0.0062, + "step": 113035 + }, + { + "epoch": 0.723456, + "grad_norm": 0.14889457821846008, + "learning_rate": 1.5176960000000001e-05, + "loss": 0.0028, + "step": 113040 + }, + { + "epoch": 0.723488, + "grad_norm": 0.43912866711616516, + "learning_rate": 1.5176746666666669e-05, + "loss": 0.0138, + "step": 113045 + }, + { + "epoch": 0.72352, + "grad_norm": 0.4271549582481384, + "learning_rate": 1.5176533333333335e-05, + "loss": 0.016, + "step": 113050 + }, + { + "epoch": 0.723552, + "grad_norm": 0.4692029058933258, + "learning_rate": 1.5176320000000002e-05, + "loss": 0.0071, + "step": 113055 + }, + { + "epoch": 0.723584, + "grad_norm": 0.31849372386932373, + "learning_rate": 1.5176106666666668e-05, + "loss": 0.0102, + "step": 113060 + }, + { + "epoch": 0.723616, + "grad_norm": 0.396377295255661, + "learning_rate": 1.5175893333333334e-05, + "loss": 0.008, + "step": 113065 + }, + { + "epoch": 0.723648, + "grad_norm": 0.14628161489963531, + "learning_rate": 1.5175680000000001e-05, + "loss": 0.0051, + "step": 113070 + }, + { + "epoch": 0.72368, + "grad_norm": 0.0867805927991867, + "learning_rate": 1.5175466666666667e-05, + "loss": 0.008, + "step": 113075 + }, + { + "epoch": 0.723712, + "grad_norm": 0.4130450189113617, + "learning_rate": 1.5175253333333335e-05, + "loss": 0.0061, + "step": 113080 + }, + { + "epoch": 0.723744, + "grad_norm": 0.5206069946289062, + "learning_rate": 1.517504e-05, + "loss": 0.0069, + "step": 113085 + }, + { + "epoch": 0.723776, + "grad_norm": 0.09507749229669571, + "learning_rate": 1.5174826666666668e-05, + "loss": 0.01, + "step": 113090 + }, + { + "epoch": 0.723808, + "grad_norm": 0.6852171421051025, + "learning_rate": 1.5174613333333334e-05, + "loss": 0.0237, + "step": 113095 + }, + { + "epoch": 0.72384, + "grad_norm": 0.6397178769111633, + "learning_rate": 1.51744e-05, + "loss": 0.0132, + "step": 113100 + }, + { + "epoch": 0.723872, + "grad_norm": 0.17632728815078735, + "learning_rate": 1.5174186666666667e-05, + "loss": 0.0073, + "step": 113105 + }, + { + "epoch": 0.723904, + "grad_norm": 0.08558958023786545, + "learning_rate": 1.5173973333333333e-05, + "loss": 0.0161, + "step": 113110 + }, + { + "epoch": 0.723936, + "grad_norm": 0.24286292493343353, + "learning_rate": 1.5173760000000003e-05, + "loss": 0.0069, + "step": 113115 + }, + { + "epoch": 0.723968, + "grad_norm": 0.36221441626548767, + "learning_rate": 1.5173546666666667e-05, + "loss": 0.0184, + "step": 113120 + }, + { + "epoch": 0.724, + "grad_norm": 0.04644685611128807, + "learning_rate": 1.5173333333333336e-05, + "loss": 0.0563, + "step": 113125 + }, + { + "epoch": 0.724032, + "grad_norm": 1.1310142278671265, + "learning_rate": 1.5173120000000002e-05, + "loss": 0.0198, + "step": 113130 + }, + { + "epoch": 0.724064, + "grad_norm": 0.6658039093017578, + "learning_rate": 1.5172906666666668e-05, + "loss": 0.0183, + "step": 113135 + }, + { + "epoch": 0.724096, + "grad_norm": 0.08087030053138733, + "learning_rate": 1.5172693333333335e-05, + "loss": 0.0061, + "step": 113140 + }, + { + "epoch": 0.724128, + "grad_norm": 0.6810038685798645, + "learning_rate": 1.5172480000000001e-05, + "loss": 0.0174, + "step": 113145 + }, + { + "epoch": 0.72416, + "grad_norm": 0.20880354940891266, + "learning_rate": 1.5172266666666669e-05, + "loss": 0.005, + "step": 113150 + }, + { + "epoch": 0.724192, + "grad_norm": 0.21131235361099243, + "learning_rate": 1.5172053333333335e-05, + "loss": 0.0136, + "step": 113155 + }, + { + "epoch": 0.724224, + "grad_norm": 1.234853982925415, + "learning_rate": 1.5171840000000002e-05, + "loss": 0.0179, + "step": 113160 + }, + { + "epoch": 0.724256, + "grad_norm": 0.7214266657829285, + "learning_rate": 1.5171626666666668e-05, + "loss": 0.0289, + "step": 113165 + }, + { + "epoch": 0.724288, + "grad_norm": 0.824778139591217, + "learning_rate": 1.5171413333333334e-05, + "loss": 0.008, + "step": 113170 + }, + { + "epoch": 0.72432, + "grad_norm": 0.10350363701581955, + "learning_rate": 1.5171200000000001e-05, + "loss": 0.0102, + "step": 113175 + }, + { + "epoch": 0.724352, + "grad_norm": 0.9771579504013062, + "learning_rate": 1.5170986666666667e-05, + "loss": 0.0155, + "step": 113180 + }, + { + "epoch": 0.724384, + "grad_norm": 0.09784925729036331, + "learning_rate": 1.5170773333333335e-05, + "loss": 0.0079, + "step": 113185 + }, + { + "epoch": 0.724416, + "grad_norm": 0.7374281287193298, + "learning_rate": 1.517056e-05, + "loss": 0.0056, + "step": 113190 + }, + { + "epoch": 0.724448, + "grad_norm": 0.39266717433929443, + "learning_rate": 1.5170346666666668e-05, + "loss": 0.0051, + "step": 113195 + }, + { + "epoch": 0.72448, + "grad_norm": 0.4757860600948334, + "learning_rate": 1.5170133333333334e-05, + "loss": 0.0105, + "step": 113200 + }, + { + "epoch": 0.724512, + "grad_norm": 0.06367707252502441, + "learning_rate": 1.516992e-05, + "loss": 0.0153, + "step": 113205 + }, + { + "epoch": 0.724544, + "grad_norm": 0.1473328173160553, + "learning_rate": 1.5169706666666667e-05, + "loss": 0.008, + "step": 113210 + }, + { + "epoch": 0.724576, + "grad_norm": 0.7982593774795532, + "learning_rate": 1.5169493333333333e-05, + "loss": 0.0114, + "step": 113215 + }, + { + "epoch": 0.724608, + "grad_norm": 0.20242634415626526, + "learning_rate": 1.5169280000000003e-05, + "loss": 0.0197, + "step": 113220 + }, + { + "epoch": 0.72464, + "grad_norm": 0.29845303297042847, + "learning_rate": 1.5169066666666667e-05, + "loss": 0.0206, + "step": 113225 + }, + { + "epoch": 0.724672, + "grad_norm": 0.11195197701454163, + "learning_rate": 1.5168853333333336e-05, + "loss": 0.0039, + "step": 113230 + }, + { + "epoch": 0.724704, + "grad_norm": 1.1246806383132935, + "learning_rate": 1.5168640000000002e-05, + "loss": 0.0398, + "step": 113235 + }, + { + "epoch": 0.724736, + "grad_norm": 0.5664863586425781, + "learning_rate": 1.5168426666666666e-05, + "loss": 0.0125, + "step": 113240 + }, + { + "epoch": 0.724768, + "grad_norm": 0.2707553505897522, + "learning_rate": 1.5168213333333335e-05, + "loss": 0.0049, + "step": 113245 + }, + { + "epoch": 0.7248, + "grad_norm": 0.3533270061016083, + "learning_rate": 1.5168000000000001e-05, + "loss": 0.0129, + "step": 113250 + }, + { + "epoch": 0.724832, + "grad_norm": 0.7534610629081726, + "learning_rate": 1.5167786666666669e-05, + "loss": 0.0177, + "step": 113255 + }, + { + "epoch": 0.724864, + "grad_norm": 0.9052928686141968, + "learning_rate": 1.5167573333333335e-05, + "loss": 0.0222, + "step": 113260 + }, + { + "epoch": 0.724896, + "grad_norm": 0.5514746904373169, + "learning_rate": 1.5167360000000002e-05, + "loss": 0.0088, + "step": 113265 + }, + { + "epoch": 0.724928, + "grad_norm": 0.5826448202133179, + "learning_rate": 1.5167146666666668e-05, + "loss": 0.0288, + "step": 113270 + }, + { + "epoch": 0.72496, + "grad_norm": 0.3131466805934906, + "learning_rate": 1.5166933333333334e-05, + "loss": 0.0051, + "step": 113275 + }, + { + "epoch": 0.724992, + "grad_norm": 2.1454079151153564, + "learning_rate": 1.5166720000000001e-05, + "loss": 0.0054, + "step": 113280 + }, + { + "epoch": 0.725024, + "grad_norm": 0.5688304901123047, + "learning_rate": 1.5166506666666667e-05, + "loss": 0.005, + "step": 113285 + }, + { + "epoch": 0.725056, + "grad_norm": 1.2792998552322388, + "learning_rate": 1.5166293333333335e-05, + "loss": 0.0342, + "step": 113290 + }, + { + "epoch": 0.725088, + "grad_norm": 0.3970271050930023, + "learning_rate": 1.516608e-05, + "loss": 0.0086, + "step": 113295 + }, + { + "epoch": 0.72512, + "grad_norm": 0.43415987491607666, + "learning_rate": 1.5165866666666668e-05, + "loss": 0.0059, + "step": 113300 + }, + { + "epoch": 0.725152, + "grad_norm": 0.29804864525794983, + "learning_rate": 1.5165653333333334e-05, + "loss": 0.0164, + "step": 113305 + }, + { + "epoch": 0.725184, + "grad_norm": 0.5212723612785339, + "learning_rate": 1.516544e-05, + "loss": 0.0092, + "step": 113310 + }, + { + "epoch": 0.725216, + "grad_norm": 0.6791102886199951, + "learning_rate": 1.5165226666666667e-05, + "loss": 0.0104, + "step": 113315 + }, + { + "epoch": 0.725248, + "grad_norm": 0.2598326504230499, + "learning_rate": 1.5165013333333333e-05, + "loss": 0.0074, + "step": 113320 + }, + { + "epoch": 0.72528, + "grad_norm": 0.5703383684158325, + "learning_rate": 1.5164800000000001e-05, + "loss": 0.0105, + "step": 113325 + }, + { + "epoch": 0.725312, + "grad_norm": 0.02306751348078251, + "learning_rate": 1.5164586666666667e-05, + "loss": 0.013, + "step": 113330 + }, + { + "epoch": 0.725344, + "grad_norm": 0.5599650144577026, + "learning_rate": 1.5164373333333336e-05, + "loss": 0.0148, + "step": 113335 + }, + { + "epoch": 0.725376, + "grad_norm": 0.062007807195186615, + "learning_rate": 1.5164160000000002e-05, + "loss": 0.0106, + "step": 113340 + }, + { + "epoch": 0.725408, + "grad_norm": 0.03133862838149071, + "learning_rate": 1.5163946666666666e-05, + "loss": 0.0087, + "step": 113345 + }, + { + "epoch": 0.72544, + "grad_norm": 0.19333404302597046, + "learning_rate": 1.5163733333333335e-05, + "loss": 0.0094, + "step": 113350 + }, + { + "epoch": 0.725472, + "grad_norm": 0.5988562107086182, + "learning_rate": 1.5163520000000001e-05, + "loss": 0.0177, + "step": 113355 + }, + { + "epoch": 0.725504, + "grad_norm": 0.03198996186256409, + "learning_rate": 1.5163306666666669e-05, + "loss": 0.0126, + "step": 113360 + }, + { + "epoch": 0.725536, + "grad_norm": 0.09460815787315369, + "learning_rate": 1.5163093333333335e-05, + "loss": 0.0116, + "step": 113365 + }, + { + "epoch": 0.725568, + "grad_norm": 0.3080192506313324, + "learning_rate": 1.5162880000000002e-05, + "loss": 0.0175, + "step": 113370 + }, + { + "epoch": 0.7256, + "grad_norm": 0.10044646263122559, + "learning_rate": 1.5162666666666668e-05, + "loss": 0.0075, + "step": 113375 + }, + { + "epoch": 0.725632, + "grad_norm": 1.3838679790496826, + "learning_rate": 1.5162453333333334e-05, + "loss": 0.0123, + "step": 113380 + }, + { + "epoch": 0.725664, + "grad_norm": 0.4287443161010742, + "learning_rate": 1.5162240000000001e-05, + "loss": 0.0096, + "step": 113385 + }, + { + "epoch": 0.725696, + "grad_norm": 0.07676864415407181, + "learning_rate": 1.5162026666666667e-05, + "loss": 0.0212, + "step": 113390 + }, + { + "epoch": 0.725728, + "grad_norm": 0.2390555739402771, + "learning_rate": 1.5161813333333335e-05, + "loss": 0.0066, + "step": 113395 + }, + { + "epoch": 0.72576, + "grad_norm": 1.388974666595459, + "learning_rate": 1.51616e-05, + "loss": 0.0108, + "step": 113400 + }, + { + "epoch": 0.725792, + "grad_norm": 0.22659257054328918, + "learning_rate": 1.5161386666666668e-05, + "loss": 0.0132, + "step": 113405 + }, + { + "epoch": 0.725824, + "grad_norm": 1.2452176809310913, + "learning_rate": 1.5161173333333334e-05, + "loss": 0.0144, + "step": 113410 + }, + { + "epoch": 0.725856, + "grad_norm": 0.8625617027282715, + "learning_rate": 1.5160960000000002e-05, + "loss": 0.0108, + "step": 113415 + }, + { + "epoch": 0.725888, + "grad_norm": 0.09004688262939453, + "learning_rate": 1.5160746666666667e-05, + "loss": 0.0165, + "step": 113420 + }, + { + "epoch": 0.72592, + "grad_norm": 1.053743600845337, + "learning_rate": 1.5160533333333333e-05, + "loss": 0.0093, + "step": 113425 + }, + { + "epoch": 0.725952, + "grad_norm": 0.724781334400177, + "learning_rate": 1.5160320000000001e-05, + "loss": 0.0248, + "step": 113430 + }, + { + "epoch": 0.725984, + "grad_norm": 0.5200225114822388, + "learning_rate": 1.5160106666666667e-05, + "loss": 0.0217, + "step": 113435 + }, + { + "epoch": 0.726016, + "grad_norm": 0.4420549273490906, + "learning_rate": 1.5159893333333336e-05, + "loss": 0.0066, + "step": 113440 + }, + { + "epoch": 0.726048, + "grad_norm": 0.24243824183940887, + "learning_rate": 1.5159680000000002e-05, + "loss": 0.0051, + "step": 113445 + }, + { + "epoch": 0.72608, + "grad_norm": 0.8869205713272095, + "learning_rate": 1.515946666666667e-05, + "loss": 0.0098, + "step": 113450 + }, + { + "epoch": 0.726112, + "grad_norm": 0.1601056009531021, + "learning_rate": 1.5159253333333335e-05, + "loss": 0.0078, + "step": 113455 + }, + { + "epoch": 0.726144, + "grad_norm": 0.27673646807670593, + "learning_rate": 1.5159040000000001e-05, + "loss": 0.003, + "step": 113460 + }, + { + "epoch": 0.726176, + "grad_norm": 0.02952941693365574, + "learning_rate": 1.5158826666666669e-05, + "loss": 0.0077, + "step": 113465 + }, + { + "epoch": 0.726208, + "grad_norm": 0.2941299080848694, + "learning_rate": 1.5158613333333335e-05, + "loss": 0.0104, + "step": 113470 + }, + { + "epoch": 0.72624, + "grad_norm": 0.034887004643678665, + "learning_rate": 1.5158400000000002e-05, + "loss": 0.0088, + "step": 113475 + }, + { + "epoch": 0.726272, + "grad_norm": 1.1911311149597168, + "learning_rate": 1.5158186666666668e-05, + "loss": 0.0132, + "step": 113480 + }, + { + "epoch": 0.726304, + "grad_norm": 0.2020452618598938, + "learning_rate": 1.5157973333333336e-05, + "loss": 0.0181, + "step": 113485 + }, + { + "epoch": 0.726336, + "grad_norm": 0.24761728942394257, + "learning_rate": 1.5157760000000001e-05, + "loss": 0.0058, + "step": 113490 + }, + { + "epoch": 0.726368, + "grad_norm": 0.5570091009140015, + "learning_rate": 1.5157546666666667e-05, + "loss": 0.0086, + "step": 113495 + }, + { + "epoch": 0.7264, + "grad_norm": 0.5564073920249939, + "learning_rate": 1.5157333333333335e-05, + "loss": 0.0111, + "step": 113500 + }, + { + "epoch": 0.726432, + "grad_norm": 0.0789709985256195, + "learning_rate": 1.515712e-05, + "loss": 0.0077, + "step": 113505 + }, + { + "epoch": 0.726464, + "grad_norm": 0.32859721779823303, + "learning_rate": 1.5156906666666668e-05, + "loss": 0.0133, + "step": 113510 + }, + { + "epoch": 0.726496, + "grad_norm": 0.05336346477270126, + "learning_rate": 1.5156693333333334e-05, + "loss": 0.0053, + "step": 113515 + }, + { + "epoch": 0.726528, + "grad_norm": 1.8124927282333374, + "learning_rate": 1.5156480000000002e-05, + "loss": 0.0248, + "step": 113520 + }, + { + "epoch": 0.72656, + "grad_norm": 0.654051661491394, + "learning_rate": 1.5156266666666667e-05, + "loss": 0.0077, + "step": 113525 + }, + { + "epoch": 0.726592, + "grad_norm": 1.9233285188674927, + "learning_rate": 1.5156053333333333e-05, + "loss": 0.0312, + "step": 113530 + }, + { + "epoch": 0.726624, + "grad_norm": 0.05572041496634483, + "learning_rate": 1.5155840000000001e-05, + "loss": 0.01, + "step": 113535 + }, + { + "epoch": 0.726656, + "grad_norm": 0.3634742200374603, + "learning_rate": 1.5155626666666667e-05, + "loss": 0.0139, + "step": 113540 + }, + { + "epoch": 0.726688, + "grad_norm": 0.8627164959907532, + "learning_rate": 1.5155413333333336e-05, + "loss": 0.0142, + "step": 113545 + }, + { + "epoch": 0.72672, + "grad_norm": 0.3360741436481476, + "learning_rate": 1.51552e-05, + "loss": 0.0175, + "step": 113550 + }, + { + "epoch": 0.726752, + "grad_norm": 0.8648125529289246, + "learning_rate": 1.515498666666667e-05, + "loss": 0.0155, + "step": 113555 + }, + { + "epoch": 0.726784, + "grad_norm": 0.4400762915611267, + "learning_rate": 1.5154773333333335e-05, + "loss": 0.0119, + "step": 113560 + }, + { + "epoch": 0.726816, + "grad_norm": 0.6390506625175476, + "learning_rate": 1.5154560000000001e-05, + "loss": 0.0088, + "step": 113565 + }, + { + "epoch": 0.726848, + "grad_norm": 0.9611903429031372, + "learning_rate": 1.5154346666666669e-05, + "loss": 0.0124, + "step": 113570 + }, + { + "epoch": 0.72688, + "grad_norm": 0.16735577583312988, + "learning_rate": 1.5154133333333335e-05, + "loss": 0.0065, + "step": 113575 + }, + { + "epoch": 0.726912, + "grad_norm": 0.067923903465271, + "learning_rate": 1.5153920000000002e-05, + "loss": 0.0126, + "step": 113580 + }, + { + "epoch": 0.726944, + "grad_norm": 1.1533504724502563, + "learning_rate": 1.5153706666666668e-05, + "loss": 0.0088, + "step": 113585 + }, + { + "epoch": 0.726976, + "grad_norm": 0.04175802320241928, + "learning_rate": 1.5153493333333336e-05, + "loss": 0.0169, + "step": 113590 + }, + { + "epoch": 0.727008, + "grad_norm": 1.021074652671814, + "learning_rate": 1.5153280000000001e-05, + "loss": 0.0167, + "step": 113595 + }, + { + "epoch": 0.72704, + "grad_norm": 1.2706990242004395, + "learning_rate": 1.5153066666666667e-05, + "loss": 0.0274, + "step": 113600 + }, + { + "epoch": 0.727072, + "grad_norm": 1.717605710029602, + "learning_rate": 1.5152853333333335e-05, + "loss": 0.0124, + "step": 113605 + }, + { + "epoch": 0.727104, + "grad_norm": 1.7186615467071533, + "learning_rate": 1.515264e-05, + "loss": 0.0112, + "step": 113610 + }, + { + "epoch": 0.727136, + "grad_norm": 0.09058131277561188, + "learning_rate": 1.5152426666666668e-05, + "loss": 0.0104, + "step": 113615 + }, + { + "epoch": 0.727168, + "grad_norm": 0.14075195789337158, + "learning_rate": 1.5152213333333334e-05, + "loss": 0.0056, + "step": 113620 + }, + { + "epoch": 0.7272, + "grad_norm": 0.08143027871847153, + "learning_rate": 1.5152000000000002e-05, + "loss": 0.0056, + "step": 113625 + }, + { + "epoch": 0.727232, + "grad_norm": 0.34841588139533997, + "learning_rate": 1.5151786666666667e-05, + "loss": 0.0084, + "step": 113630 + }, + { + "epoch": 0.727264, + "grad_norm": 0.29169419407844543, + "learning_rate": 1.5151573333333333e-05, + "loss": 0.0205, + "step": 113635 + }, + { + "epoch": 0.727296, + "grad_norm": 0.15585120022296906, + "learning_rate": 1.5151360000000001e-05, + "loss": 0.0156, + "step": 113640 + }, + { + "epoch": 0.727328, + "grad_norm": 0.949261486530304, + "learning_rate": 1.5151146666666667e-05, + "loss": 0.0088, + "step": 113645 + }, + { + "epoch": 0.72736, + "grad_norm": 0.05234382674098015, + "learning_rate": 1.5150933333333336e-05, + "loss": 0.0109, + "step": 113650 + }, + { + "epoch": 0.727392, + "grad_norm": 0.4070718288421631, + "learning_rate": 1.515072e-05, + "loss": 0.0058, + "step": 113655 + }, + { + "epoch": 0.727424, + "grad_norm": 0.6176541447639465, + "learning_rate": 1.515050666666667e-05, + "loss": 0.015, + "step": 113660 + }, + { + "epoch": 0.727456, + "grad_norm": 0.7296249270439148, + "learning_rate": 1.5150293333333335e-05, + "loss": 0.0128, + "step": 113665 + }, + { + "epoch": 0.727488, + "grad_norm": 0.7609613537788391, + "learning_rate": 1.5150080000000001e-05, + "loss": 0.0103, + "step": 113670 + }, + { + "epoch": 0.72752, + "grad_norm": 0.06761489808559418, + "learning_rate": 1.5149866666666669e-05, + "loss": 0.0023, + "step": 113675 + }, + { + "epoch": 0.727552, + "grad_norm": 0.5699825286865234, + "learning_rate": 1.5149653333333335e-05, + "loss": 0.0107, + "step": 113680 + }, + { + "epoch": 0.727584, + "grad_norm": 0.08066807687282562, + "learning_rate": 1.5149440000000002e-05, + "loss": 0.0135, + "step": 113685 + }, + { + "epoch": 0.727616, + "grad_norm": 0.22780011594295502, + "learning_rate": 1.5149226666666668e-05, + "loss": 0.0127, + "step": 113690 + }, + { + "epoch": 0.727648, + "grad_norm": 0.7749622464179993, + "learning_rate": 1.5149013333333336e-05, + "loss": 0.0288, + "step": 113695 + }, + { + "epoch": 0.72768, + "grad_norm": 0.6756487488746643, + "learning_rate": 1.5148800000000001e-05, + "loss": 0.01, + "step": 113700 + }, + { + "epoch": 0.727712, + "grad_norm": 0.012829931452870369, + "learning_rate": 1.5148586666666667e-05, + "loss": 0.0015, + "step": 113705 + }, + { + "epoch": 0.727744, + "grad_norm": 0.56803959608078, + "learning_rate": 1.5148373333333335e-05, + "loss": 0.0079, + "step": 113710 + }, + { + "epoch": 0.727776, + "grad_norm": 0.65207839012146, + "learning_rate": 1.514816e-05, + "loss": 0.0095, + "step": 113715 + }, + { + "epoch": 0.727808, + "grad_norm": 0.42288658022880554, + "learning_rate": 1.5147946666666668e-05, + "loss": 0.0139, + "step": 113720 + }, + { + "epoch": 0.72784, + "grad_norm": 0.20299942791461945, + "learning_rate": 1.5147733333333334e-05, + "loss": 0.0057, + "step": 113725 + }, + { + "epoch": 0.727872, + "grad_norm": 0.199216827750206, + "learning_rate": 1.5147520000000002e-05, + "loss": 0.0083, + "step": 113730 + }, + { + "epoch": 0.727904, + "grad_norm": 0.7442799210548401, + "learning_rate": 1.5147306666666667e-05, + "loss": 0.0086, + "step": 113735 + }, + { + "epoch": 0.727936, + "grad_norm": 0.793510913848877, + "learning_rate": 1.5147093333333333e-05, + "loss": 0.0087, + "step": 113740 + }, + { + "epoch": 0.727968, + "grad_norm": 0.5600529313087463, + "learning_rate": 1.5146880000000001e-05, + "loss": 0.0122, + "step": 113745 + }, + { + "epoch": 0.728, + "grad_norm": 1.294851303100586, + "learning_rate": 1.5146666666666667e-05, + "loss": 0.0167, + "step": 113750 + }, + { + "epoch": 0.728032, + "grad_norm": 0.22554589807987213, + "learning_rate": 1.5146453333333336e-05, + "loss": 0.0084, + "step": 113755 + }, + { + "epoch": 0.728064, + "grad_norm": 0.6335764527320862, + "learning_rate": 1.514624e-05, + "loss": 0.0126, + "step": 113760 + }, + { + "epoch": 0.728096, + "grad_norm": 0.5944926738739014, + "learning_rate": 1.514602666666667e-05, + "loss": 0.0085, + "step": 113765 + }, + { + "epoch": 0.728128, + "grad_norm": 0.9077136516571045, + "learning_rate": 1.5145813333333335e-05, + "loss": 0.0117, + "step": 113770 + }, + { + "epoch": 0.72816, + "grad_norm": 0.412820041179657, + "learning_rate": 1.51456e-05, + "loss": 0.0232, + "step": 113775 + }, + { + "epoch": 0.728192, + "grad_norm": 0.3626469671726227, + "learning_rate": 1.5145386666666669e-05, + "loss": 0.0074, + "step": 113780 + }, + { + "epoch": 0.728224, + "grad_norm": 0.19542184472084045, + "learning_rate": 1.5145173333333335e-05, + "loss": 0.0092, + "step": 113785 + }, + { + "epoch": 0.728256, + "grad_norm": 0.01465984620153904, + "learning_rate": 1.5144960000000002e-05, + "loss": 0.0035, + "step": 113790 + }, + { + "epoch": 0.728288, + "grad_norm": 0.17090733349323273, + "learning_rate": 1.5144746666666668e-05, + "loss": 0.0086, + "step": 113795 + }, + { + "epoch": 0.72832, + "grad_norm": 0.044177211821079254, + "learning_rate": 1.5144533333333336e-05, + "loss": 0.0138, + "step": 113800 + }, + { + "epoch": 0.728352, + "grad_norm": 1.700827717781067, + "learning_rate": 1.5144320000000001e-05, + "loss": 0.0319, + "step": 113805 + }, + { + "epoch": 0.728384, + "grad_norm": 0.5576447248458862, + "learning_rate": 1.5144106666666667e-05, + "loss": 0.0147, + "step": 113810 + }, + { + "epoch": 0.728416, + "grad_norm": 0.6533845663070679, + "learning_rate": 1.5143893333333335e-05, + "loss": 0.0144, + "step": 113815 + }, + { + "epoch": 0.728448, + "grad_norm": 0.37081649899482727, + "learning_rate": 1.514368e-05, + "loss": 0.0101, + "step": 113820 + }, + { + "epoch": 0.72848, + "grad_norm": 3.9424779415130615, + "learning_rate": 1.5143466666666668e-05, + "loss": 0.0128, + "step": 113825 + }, + { + "epoch": 0.728512, + "grad_norm": 0.6686091423034668, + "learning_rate": 1.5143253333333334e-05, + "loss": 0.0126, + "step": 113830 + }, + { + "epoch": 0.728544, + "grad_norm": 0.07154033333063126, + "learning_rate": 1.5143040000000002e-05, + "loss": 0.0131, + "step": 113835 + }, + { + "epoch": 0.728576, + "grad_norm": 0.2596994936466217, + "learning_rate": 1.5142826666666667e-05, + "loss": 0.0248, + "step": 113840 + }, + { + "epoch": 0.728608, + "grad_norm": 0.055601201951503754, + "learning_rate": 1.5142613333333333e-05, + "loss": 0.0067, + "step": 113845 + }, + { + "epoch": 0.72864, + "grad_norm": 1.4549365043640137, + "learning_rate": 1.5142400000000001e-05, + "loss": 0.0149, + "step": 113850 + }, + { + "epoch": 0.728672, + "grad_norm": 0.6071651577949524, + "learning_rate": 1.5142186666666667e-05, + "loss": 0.0059, + "step": 113855 + }, + { + "epoch": 0.728704, + "grad_norm": 1.9203225374221802, + "learning_rate": 1.5141973333333336e-05, + "loss": 0.0209, + "step": 113860 + }, + { + "epoch": 0.728736, + "grad_norm": 0.1792791187763214, + "learning_rate": 1.514176e-05, + "loss": 0.0087, + "step": 113865 + }, + { + "epoch": 0.728768, + "grad_norm": 0.18976756930351257, + "learning_rate": 1.514154666666667e-05, + "loss": 0.0089, + "step": 113870 + }, + { + "epoch": 0.7288, + "grad_norm": 0.5367119312286377, + "learning_rate": 1.5141333333333335e-05, + "loss": 0.008, + "step": 113875 + }, + { + "epoch": 0.728832, + "grad_norm": 0.5111004114151001, + "learning_rate": 1.514112e-05, + "loss": 0.0117, + "step": 113880 + }, + { + "epoch": 0.728864, + "grad_norm": 1.1088740825653076, + "learning_rate": 1.5140906666666669e-05, + "loss": 0.0049, + "step": 113885 + }, + { + "epoch": 0.728896, + "grad_norm": 0.037137895822525024, + "learning_rate": 1.5140693333333335e-05, + "loss": 0.0202, + "step": 113890 + }, + { + "epoch": 0.728928, + "grad_norm": 0.04739522933959961, + "learning_rate": 1.5140480000000002e-05, + "loss": 0.0069, + "step": 113895 + }, + { + "epoch": 0.72896, + "grad_norm": 0.30645161867141724, + "learning_rate": 1.5140266666666668e-05, + "loss": 0.008, + "step": 113900 + }, + { + "epoch": 0.728992, + "grad_norm": 0.47626712918281555, + "learning_rate": 1.5140053333333336e-05, + "loss": 0.0061, + "step": 113905 + }, + { + "epoch": 0.729024, + "grad_norm": 0.31862661242485046, + "learning_rate": 1.5139840000000001e-05, + "loss": 0.0111, + "step": 113910 + }, + { + "epoch": 0.729056, + "grad_norm": 0.16918984055519104, + "learning_rate": 1.5139626666666667e-05, + "loss": 0.0183, + "step": 113915 + }, + { + "epoch": 0.729088, + "grad_norm": 0.9420089721679688, + "learning_rate": 1.5139413333333335e-05, + "loss": 0.0064, + "step": 113920 + }, + { + "epoch": 0.72912, + "grad_norm": 0.628999650478363, + "learning_rate": 1.51392e-05, + "loss": 0.0132, + "step": 113925 + }, + { + "epoch": 0.729152, + "grad_norm": 0.610659658908844, + "learning_rate": 1.5138986666666668e-05, + "loss": 0.0184, + "step": 113930 + }, + { + "epoch": 0.729184, + "grad_norm": 2.359740734100342, + "learning_rate": 1.5138773333333334e-05, + "loss": 0.015, + "step": 113935 + }, + { + "epoch": 0.729216, + "grad_norm": 0.7280580401420593, + "learning_rate": 1.5138560000000002e-05, + "loss": 0.0096, + "step": 113940 + }, + { + "epoch": 0.729248, + "grad_norm": 0.8611981868743896, + "learning_rate": 1.5138346666666668e-05, + "loss": 0.0105, + "step": 113945 + }, + { + "epoch": 0.72928, + "grad_norm": 0.5456041693687439, + "learning_rate": 1.5138133333333333e-05, + "loss": 0.018, + "step": 113950 + }, + { + "epoch": 0.729312, + "grad_norm": 0.41078421473503113, + "learning_rate": 1.5137920000000001e-05, + "loss": 0.0116, + "step": 113955 + }, + { + "epoch": 0.729344, + "grad_norm": 1.1385852098464966, + "learning_rate": 1.5137706666666667e-05, + "loss": 0.0235, + "step": 113960 + }, + { + "epoch": 0.729376, + "grad_norm": 0.668825089931488, + "learning_rate": 1.5137493333333334e-05, + "loss": 0.0112, + "step": 113965 + }, + { + "epoch": 0.729408, + "grad_norm": 0.545953631401062, + "learning_rate": 1.513728e-05, + "loss": 0.0063, + "step": 113970 + }, + { + "epoch": 0.72944, + "grad_norm": 0.4953942894935608, + "learning_rate": 1.513706666666667e-05, + "loss": 0.0112, + "step": 113975 + }, + { + "epoch": 0.729472, + "grad_norm": 0.10940537601709366, + "learning_rate": 1.5136853333333335e-05, + "loss": 0.0065, + "step": 113980 + }, + { + "epoch": 0.729504, + "grad_norm": 0.11797111481428146, + "learning_rate": 1.513664e-05, + "loss": 0.0039, + "step": 113985 + }, + { + "epoch": 0.729536, + "grad_norm": 0.602031946182251, + "learning_rate": 1.5136426666666669e-05, + "loss": 0.0085, + "step": 113990 + }, + { + "epoch": 0.729568, + "grad_norm": 0.6101386547088623, + "learning_rate": 1.5136213333333335e-05, + "loss": 0.008, + "step": 113995 + }, + { + "epoch": 0.7296, + "grad_norm": 0.01522697415202856, + "learning_rate": 1.5136000000000002e-05, + "loss": 0.0033, + "step": 114000 + }, + { + "epoch": 0.729632, + "grad_norm": 1.6466624736785889, + "learning_rate": 1.5135786666666668e-05, + "loss": 0.0133, + "step": 114005 + }, + { + "epoch": 0.729664, + "grad_norm": 0.16567830741405487, + "learning_rate": 1.5135573333333336e-05, + "loss": 0.0105, + "step": 114010 + }, + { + "epoch": 0.729696, + "grad_norm": 0.09935899823904037, + "learning_rate": 1.5135360000000001e-05, + "loss": 0.0166, + "step": 114015 + }, + { + "epoch": 0.729728, + "grad_norm": 0.5231214165687561, + "learning_rate": 1.5135146666666667e-05, + "loss": 0.021, + "step": 114020 + }, + { + "epoch": 0.72976, + "grad_norm": 0.0866309180855751, + "learning_rate": 1.5134933333333335e-05, + "loss": 0.0143, + "step": 114025 + }, + { + "epoch": 0.729792, + "grad_norm": 0.32236525416374207, + "learning_rate": 1.513472e-05, + "loss": 0.0158, + "step": 114030 + }, + { + "epoch": 0.729824, + "grad_norm": 0.8131550550460815, + "learning_rate": 1.5134506666666668e-05, + "loss": 0.0129, + "step": 114035 + }, + { + "epoch": 0.729856, + "grad_norm": 0.47882750630378723, + "learning_rate": 1.5134293333333334e-05, + "loss": 0.0117, + "step": 114040 + }, + { + "epoch": 0.729888, + "grad_norm": 1.083092451095581, + "learning_rate": 1.5134080000000002e-05, + "loss": 0.0206, + "step": 114045 + }, + { + "epoch": 0.72992, + "grad_norm": 0.07869597524404526, + "learning_rate": 1.5133866666666668e-05, + "loss": 0.0031, + "step": 114050 + }, + { + "epoch": 0.729952, + "grad_norm": 0.07233373820781708, + "learning_rate": 1.5133653333333333e-05, + "loss": 0.0119, + "step": 114055 + }, + { + "epoch": 0.729984, + "grad_norm": 0.06187841668725014, + "learning_rate": 1.5133440000000001e-05, + "loss": 0.007, + "step": 114060 + }, + { + "epoch": 0.730016, + "grad_norm": 0.1748853623867035, + "learning_rate": 1.5133226666666667e-05, + "loss": 0.0291, + "step": 114065 + }, + { + "epoch": 0.730048, + "grad_norm": 0.40699854493141174, + "learning_rate": 1.5133013333333334e-05, + "loss": 0.0057, + "step": 114070 + }, + { + "epoch": 0.73008, + "grad_norm": 0.7827551960945129, + "learning_rate": 1.51328e-05, + "loss": 0.0072, + "step": 114075 + }, + { + "epoch": 0.730112, + "grad_norm": 0.9765970706939697, + "learning_rate": 1.513258666666667e-05, + "loss": 0.0171, + "step": 114080 + }, + { + "epoch": 0.730144, + "grad_norm": 0.230463445186615, + "learning_rate": 1.5132373333333335e-05, + "loss": 0.0106, + "step": 114085 + }, + { + "epoch": 0.730176, + "grad_norm": 0.2080705165863037, + "learning_rate": 1.513216e-05, + "loss": 0.0093, + "step": 114090 + }, + { + "epoch": 0.730208, + "grad_norm": 1.8190580606460571, + "learning_rate": 1.5131946666666669e-05, + "loss": 0.0087, + "step": 114095 + }, + { + "epoch": 0.73024, + "grad_norm": 0.8668934106826782, + "learning_rate": 1.5131733333333335e-05, + "loss": 0.0126, + "step": 114100 + }, + { + "epoch": 0.730272, + "grad_norm": 0.38504573702812195, + "learning_rate": 1.5131520000000002e-05, + "loss": 0.0036, + "step": 114105 + }, + { + "epoch": 0.730304, + "grad_norm": 0.08134854584932327, + "learning_rate": 1.5131306666666668e-05, + "loss": 0.0054, + "step": 114110 + }, + { + "epoch": 0.730336, + "grad_norm": 0.43868952989578247, + "learning_rate": 1.5131093333333336e-05, + "loss": 0.0229, + "step": 114115 + }, + { + "epoch": 0.730368, + "grad_norm": 1.0278247594833374, + "learning_rate": 1.5130880000000001e-05, + "loss": 0.0141, + "step": 114120 + }, + { + "epoch": 0.7304, + "grad_norm": 0.2881069779396057, + "learning_rate": 1.5130666666666667e-05, + "loss": 0.0059, + "step": 114125 + }, + { + "epoch": 0.730432, + "grad_norm": 1.4128844738006592, + "learning_rate": 1.5130453333333335e-05, + "loss": 0.0127, + "step": 114130 + }, + { + "epoch": 0.730464, + "grad_norm": 0.08027414977550507, + "learning_rate": 1.513024e-05, + "loss": 0.0022, + "step": 114135 + }, + { + "epoch": 0.730496, + "grad_norm": 1.1156340837478638, + "learning_rate": 1.5130026666666668e-05, + "loss": 0.0237, + "step": 114140 + }, + { + "epoch": 0.730528, + "grad_norm": 0.1103290468454361, + "learning_rate": 1.5129813333333334e-05, + "loss": 0.0201, + "step": 114145 + }, + { + "epoch": 0.73056, + "grad_norm": 0.18152493238449097, + "learning_rate": 1.5129600000000002e-05, + "loss": 0.0411, + "step": 114150 + }, + { + "epoch": 0.730592, + "grad_norm": 1.0772361755371094, + "learning_rate": 1.5129386666666668e-05, + "loss": 0.0129, + "step": 114155 + }, + { + "epoch": 0.730624, + "grad_norm": 0.37915584444999695, + "learning_rate": 1.5129173333333333e-05, + "loss": 0.0046, + "step": 114160 + }, + { + "epoch": 0.730656, + "grad_norm": 0.26988595724105835, + "learning_rate": 1.5128960000000001e-05, + "loss": 0.0134, + "step": 114165 + }, + { + "epoch": 0.730688, + "grad_norm": 0.08814579248428345, + "learning_rate": 1.5128746666666667e-05, + "loss": 0.0027, + "step": 114170 + }, + { + "epoch": 0.73072, + "grad_norm": 0.787642240524292, + "learning_rate": 1.5128533333333334e-05, + "loss": 0.0162, + "step": 114175 + }, + { + "epoch": 0.730752, + "grad_norm": 0.740787148475647, + "learning_rate": 1.512832e-05, + "loss": 0.0128, + "step": 114180 + }, + { + "epoch": 0.730784, + "grad_norm": 0.0634651705622673, + "learning_rate": 1.512810666666667e-05, + "loss": 0.0029, + "step": 114185 + }, + { + "epoch": 0.730816, + "grad_norm": 0.24651257693767548, + "learning_rate": 1.5127893333333334e-05, + "loss": 0.0082, + "step": 114190 + }, + { + "epoch": 0.730848, + "grad_norm": 6.9497880935668945, + "learning_rate": 1.512768e-05, + "loss": 0.015, + "step": 114195 + }, + { + "epoch": 0.73088, + "grad_norm": 0.39481282234191895, + "learning_rate": 1.5127466666666669e-05, + "loss": 0.0064, + "step": 114200 + }, + { + "epoch": 0.730912, + "grad_norm": 0.4707162082195282, + "learning_rate": 1.5127253333333335e-05, + "loss": 0.0037, + "step": 114205 + }, + { + "epoch": 0.730944, + "grad_norm": 0.4577791690826416, + "learning_rate": 1.5127040000000002e-05, + "loss": 0.0149, + "step": 114210 + }, + { + "epoch": 0.730976, + "grad_norm": 0.7247313261032104, + "learning_rate": 1.5126826666666668e-05, + "loss": 0.0079, + "step": 114215 + }, + { + "epoch": 0.731008, + "grad_norm": 0.2718254029750824, + "learning_rate": 1.5126613333333336e-05, + "loss": 0.0063, + "step": 114220 + }, + { + "epoch": 0.73104, + "grad_norm": 0.4066535234451294, + "learning_rate": 1.5126400000000001e-05, + "loss": 0.0165, + "step": 114225 + }, + { + "epoch": 0.731072, + "grad_norm": 0.42553526163101196, + "learning_rate": 1.5126186666666667e-05, + "loss": 0.0114, + "step": 114230 + }, + { + "epoch": 0.731104, + "grad_norm": 0.6792029142379761, + "learning_rate": 1.5125973333333335e-05, + "loss": 0.0185, + "step": 114235 + }, + { + "epoch": 0.731136, + "grad_norm": 0.6972022652626038, + "learning_rate": 1.512576e-05, + "loss": 0.0061, + "step": 114240 + }, + { + "epoch": 0.731168, + "grad_norm": 0.7076672911643982, + "learning_rate": 1.5125546666666668e-05, + "loss": 0.0089, + "step": 114245 + }, + { + "epoch": 0.7312, + "grad_norm": 2.2623159885406494, + "learning_rate": 1.5125333333333334e-05, + "loss": 0.0099, + "step": 114250 + }, + { + "epoch": 0.731232, + "grad_norm": 0.076813243329525, + "learning_rate": 1.5125120000000002e-05, + "loss": 0.0177, + "step": 114255 + }, + { + "epoch": 0.731264, + "grad_norm": 1.3090399503707886, + "learning_rate": 1.5124906666666668e-05, + "loss": 0.0121, + "step": 114260 + }, + { + "epoch": 0.731296, + "grad_norm": 0.05395503342151642, + "learning_rate": 1.5124693333333335e-05, + "loss": 0.0407, + "step": 114265 + }, + { + "epoch": 0.731328, + "grad_norm": 0.4884798526763916, + "learning_rate": 1.5124480000000001e-05, + "loss": 0.009, + "step": 114270 + }, + { + "epoch": 0.73136, + "grad_norm": 0.1929052770137787, + "learning_rate": 1.5124266666666667e-05, + "loss": 0.0186, + "step": 114275 + }, + { + "epoch": 0.731392, + "grad_norm": 0.547920823097229, + "learning_rate": 1.5124053333333334e-05, + "loss": 0.0089, + "step": 114280 + }, + { + "epoch": 0.731424, + "grad_norm": 0.5632917881011963, + "learning_rate": 1.512384e-05, + "loss": 0.0113, + "step": 114285 + }, + { + "epoch": 0.731456, + "grad_norm": 1.1461029052734375, + "learning_rate": 1.512362666666667e-05, + "loss": 0.0024, + "step": 114290 + }, + { + "epoch": 0.731488, + "grad_norm": 0.024161141365766525, + "learning_rate": 1.5123413333333334e-05, + "loss": 0.0088, + "step": 114295 + }, + { + "epoch": 0.73152, + "grad_norm": 0.02403593622148037, + "learning_rate": 1.5123200000000003e-05, + "loss": 0.0129, + "step": 114300 + }, + { + "epoch": 0.731552, + "grad_norm": 0.051058001816272736, + "learning_rate": 1.5122986666666669e-05, + "loss": 0.0151, + "step": 114305 + }, + { + "epoch": 0.731584, + "grad_norm": 0.46086302399635315, + "learning_rate": 1.5122773333333335e-05, + "loss": 0.0143, + "step": 114310 + }, + { + "epoch": 0.731616, + "grad_norm": 0.6538702845573425, + "learning_rate": 1.5122560000000002e-05, + "loss": 0.0072, + "step": 114315 + }, + { + "epoch": 0.731648, + "grad_norm": 0.3502577543258667, + "learning_rate": 1.5122346666666668e-05, + "loss": 0.0094, + "step": 114320 + }, + { + "epoch": 0.73168, + "grad_norm": 0.031379759311676025, + "learning_rate": 1.5122133333333336e-05, + "loss": 0.0064, + "step": 114325 + }, + { + "epoch": 0.731712, + "grad_norm": 0.6708771586418152, + "learning_rate": 1.5121920000000001e-05, + "loss": 0.008, + "step": 114330 + }, + { + "epoch": 0.731744, + "grad_norm": 0.0452280156314373, + "learning_rate": 1.5121706666666669e-05, + "loss": 0.0082, + "step": 114335 + }, + { + "epoch": 0.731776, + "grad_norm": 0.6359905004501343, + "learning_rate": 1.5121493333333335e-05, + "loss": 0.0144, + "step": 114340 + }, + { + "epoch": 0.731808, + "grad_norm": 0.3551708161830902, + "learning_rate": 1.512128e-05, + "loss": 0.0244, + "step": 114345 + }, + { + "epoch": 0.73184, + "grad_norm": 0.26221439242362976, + "learning_rate": 1.5121066666666668e-05, + "loss": 0.0131, + "step": 114350 + }, + { + "epoch": 0.731872, + "grad_norm": 0.15909066796302795, + "learning_rate": 1.5120853333333334e-05, + "loss": 0.0092, + "step": 114355 + }, + { + "epoch": 0.731904, + "grad_norm": 0.17494797706604004, + "learning_rate": 1.5120640000000002e-05, + "loss": 0.0105, + "step": 114360 + }, + { + "epoch": 0.731936, + "grad_norm": 1.779954433441162, + "learning_rate": 1.5120426666666668e-05, + "loss": 0.0103, + "step": 114365 + }, + { + "epoch": 0.731968, + "grad_norm": 0.35510608553886414, + "learning_rate": 1.5120213333333335e-05, + "loss": 0.0049, + "step": 114370 + }, + { + "epoch": 0.732, + "grad_norm": 0.44715416431427, + "learning_rate": 1.5120000000000001e-05, + "loss": 0.0087, + "step": 114375 + }, + { + "epoch": 0.732032, + "grad_norm": 0.28312090039253235, + "learning_rate": 1.5119786666666667e-05, + "loss": 0.0131, + "step": 114380 + }, + { + "epoch": 0.732064, + "grad_norm": 0.1737358421087265, + "learning_rate": 1.5119573333333334e-05, + "loss": 0.0061, + "step": 114385 + }, + { + "epoch": 0.732096, + "grad_norm": 0.06935609877109528, + "learning_rate": 1.511936e-05, + "loss": 0.0093, + "step": 114390 + }, + { + "epoch": 0.732128, + "grad_norm": 0.6882845163345337, + "learning_rate": 1.511914666666667e-05, + "loss": 0.0264, + "step": 114395 + }, + { + "epoch": 0.73216, + "grad_norm": 0.09841086715459824, + "learning_rate": 1.5118933333333334e-05, + "loss": 0.0077, + "step": 114400 + }, + { + "epoch": 0.732192, + "grad_norm": 0.10364218056201935, + "learning_rate": 1.5118720000000003e-05, + "loss": 0.0131, + "step": 114405 + }, + { + "epoch": 0.732224, + "grad_norm": 0.2439228594303131, + "learning_rate": 1.5118506666666669e-05, + "loss": 0.0119, + "step": 114410 + }, + { + "epoch": 0.732256, + "grad_norm": 0.1282263696193695, + "learning_rate": 1.5118293333333333e-05, + "loss": 0.0071, + "step": 114415 + }, + { + "epoch": 0.732288, + "grad_norm": 0.2457989603281021, + "learning_rate": 1.5118080000000002e-05, + "loss": 0.0033, + "step": 114420 + }, + { + "epoch": 0.73232, + "grad_norm": 0.13816975057125092, + "learning_rate": 1.5117866666666668e-05, + "loss": 0.0062, + "step": 114425 + }, + { + "epoch": 0.732352, + "grad_norm": 0.3760218918323517, + "learning_rate": 1.5117653333333336e-05, + "loss": 0.0062, + "step": 114430 + }, + { + "epoch": 0.732384, + "grad_norm": 0.46543869376182556, + "learning_rate": 1.5117440000000001e-05, + "loss": 0.0161, + "step": 114435 + }, + { + "epoch": 0.732416, + "grad_norm": 0.21063759922981262, + "learning_rate": 1.5117226666666669e-05, + "loss": 0.0063, + "step": 114440 + }, + { + "epoch": 0.732448, + "grad_norm": 4.708242893218994, + "learning_rate": 1.5117013333333335e-05, + "loss": 0.0105, + "step": 114445 + }, + { + "epoch": 0.73248, + "grad_norm": 0.11195074021816254, + "learning_rate": 1.51168e-05, + "loss": 0.0122, + "step": 114450 + }, + { + "epoch": 0.732512, + "grad_norm": 0.1996876448392868, + "learning_rate": 1.5116586666666668e-05, + "loss": 0.0095, + "step": 114455 + }, + { + "epoch": 0.732544, + "grad_norm": 0.09855467081069946, + "learning_rate": 1.5116373333333334e-05, + "loss": 0.0088, + "step": 114460 + }, + { + "epoch": 0.732576, + "grad_norm": 0.2022351622581482, + "learning_rate": 1.5116160000000002e-05, + "loss": 0.0067, + "step": 114465 + }, + { + "epoch": 0.732608, + "grad_norm": 0.3323332667350769, + "learning_rate": 1.5115946666666668e-05, + "loss": 0.0116, + "step": 114470 + }, + { + "epoch": 0.73264, + "grad_norm": 0.16440197825431824, + "learning_rate": 1.5115733333333335e-05, + "loss": 0.0026, + "step": 114475 + }, + { + "epoch": 0.732672, + "grad_norm": 0.2868081331253052, + "learning_rate": 1.5115520000000001e-05, + "loss": 0.0179, + "step": 114480 + }, + { + "epoch": 0.732704, + "grad_norm": 0.05909474194049835, + "learning_rate": 1.5115306666666667e-05, + "loss": 0.0055, + "step": 114485 + }, + { + "epoch": 0.732736, + "grad_norm": 0.21317316591739655, + "learning_rate": 1.5115093333333334e-05, + "loss": 0.0059, + "step": 114490 + }, + { + "epoch": 0.732768, + "grad_norm": 0.8085522055625916, + "learning_rate": 1.511488e-05, + "loss": 0.0272, + "step": 114495 + }, + { + "epoch": 0.7328, + "grad_norm": 1.5296201705932617, + "learning_rate": 1.5114666666666668e-05, + "loss": 0.0284, + "step": 114500 + }, + { + "epoch": 0.732832, + "grad_norm": 0.26092687249183655, + "learning_rate": 1.5114453333333334e-05, + "loss": 0.0166, + "step": 114505 + }, + { + "epoch": 0.732864, + "grad_norm": 0.09627416729927063, + "learning_rate": 1.5114240000000003e-05, + "loss": 0.002, + "step": 114510 + }, + { + "epoch": 0.732896, + "grad_norm": 0.6710973381996155, + "learning_rate": 1.5114026666666669e-05, + "loss": 0.0151, + "step": 114515 + }, + { + "epoch": 0.732928, + "grad_norm": 0.6096486449241638, + "learning_rate": 1.5113813333333333e-05, + "loss": 0.0259, + "step": 114520 + }, + { + "epoch": 0.73296, + "grad_norm": 0.9829683899879456, + "learning_rate": 1.5113600000000002e-05, + "loss": 0.0082, + "step": 114525 + }, + { + "epoch": 0.732992, + "grad_norm": 0.19017086923122406, + "learning_rate": 1.5113386666666668e-05, + "loss": 0.0035, + "step": 114530 + }, + { + "epoch": 0.733024, + "grad_norm": 0.25428763031959534, + "learning_rate": 1.5113173333333336e-05, + "loss": 0.0103, + "step": 114535 + }, + { + "epoch": 0.733056, + "grad_norm": 1.0593568086624146, + "learning_rate": 1.5112960000000001e-05, + "loss": 0.0087, + "step": 114540 + }, + { + "epoch": 0.733088, + "grad_norm": 0.5938888192176819, + "learning_rate": 1.5112746666666669e-05, + "loss": 0.0188, + "step": 114545 + }, + { + "epoch": 0.73312, + "grad_norm": 0.9534386992454529, + "learning_rate": 1.5112533333333335e-05, + "loss": 0.008, + "step": 114550 + }, + { + "epoch": 0.733152, + "grad_norm": 0.4048449397087097, + "learning_rate": 1.511232e-05, + "loss": 0.0172, + "step": 114555 + }, + { + "epoch": 0.733184, + "grad_norm": 0.20689323544502258, + "learning_rate": 1.5112106666666668e-05, + "loss": 0.0051, + "step": 114560 + }, + { + "epoch": 0.733216, + "grad_norm": 0.02132412977516651, + "learning_rate": 1.5111893333333334e-05, + "loss": 0.0096, + "step": 114565 + }, + { + "epoch": 0.733248, + "grad_norm": 0.5620824098587036, + "learning_rate": 1.5111680000000002e-05, + "loss": 0.0055, + "step": 114570 + }, + { + "epoch": 0.73328, + "grad_norm": 0.8528695702552795, + "learning_rate": 1.5111466666666668e-05, + "loss": 0.0056, + "step": 114575 + }, + { + "epoch": 0.733312, + "grad_norm": 0.5604957342147827, + "learning_rate": 1.5111253333333335e-05, + "loss": 0.0019, + "step": 114580 + }, + { + "epoch": 0.733344, + "grad_norm": 1.1612311601638794, + "learning_rate": 1.5111040000000001e-05, + "loss": 0.0132, + "step": 114585 + }, + { + "epoch": 0.733376, + "grad_norm": 0.3720485270023346, + "learning_rate": 1.5110826666666667e-05, + "loss": 0.0105, + "step": 114590 + }, + { + "epoch": 0.733408, + "grad_norm": 0.02679344452917576, + "learning_rate": 1.5110613333333334e-05, + "loss": 0.0133, + "step": 114595 + }, + { + "epoch": 0.73344, + "grad_norm": 0.4911092221736908, + "learning_rate": 1.51104e-05, + "loss": 0.011, + "step": 114600 + }, + { + "epoch": 0.733472, + "grad_norm": 0.10552847385406494, + "learning_rate": 1.5110186666666668e-05, + "loss": 0.0078, + "step": 114605 + }, + { + "epoch": 0.733504, + "grad_norm": 1.9818835258483887, + "learning_rate": 1.5109973333333334e-05, + "loss": 0.0048, + "step": 114610 + }, + { + "epoch": 0.733536, + "grad_norm": 0.6837723255157471, + "learning_rate": 1.5109760000000003e-05, + "loss": 0.0055, + "step": 114615 + }, + { + "epoch": 0.733568, + "grad_norm": 0.3693268597126007, + "learning_rate": 1.5109546666666669e-05, + "loss": 0.0111, + "step": 114620 + }, + { + "epoch": 0.7336, + "grad_norm": 1.6293758153915405, + "learning_rate": 1.5109333333333333e-05, + "loss": 0.0103, + "step": 114625 + }, + { + "epoch": 0.733632, + "grad_norm": 0.3695570230484009, + "learning_rate": 1.5109120000000002e-05, + "loss": 0.0105, + "step": 114630 + }, + { + "epoch": 0.733664, + "grad_norm": 0.7622122168540955, + "learning_rate": 1.5108906666666668e-05, + "loss": 0.0054, + "step": 114635 + }, + { + "epoch": 0.733696, + "grad_norm": 0.15566690266132355, + "learning_rate": 1.5108693333333336e-05, + "loss": 0.0039, + "step": 114640 + }, + { + "epoch": 0.733728, + "grad_norm": 0.6448770761489868, + "learning_rate": 1.5108480000000001e-05, + "loss": 0.0214, + "step": 114645 + }, + { + "epoch": 0.73376, + "grad_norm": 0.48262760043144226, + "learning_rate": 1.5108266666666669e-05, + "loss": 0.0083, + "step": 114650 + }, + { + "epoch": 0.733792, + "grad_norm": 0.2243981510400772, + "learning_rate": 1.5108053333333335e-05, + "loss": 0.0075, + "step": 114655 + }, + { + "epoch": 0.733824, + "grad_norm": 0.14964894950389862, + "learning_rate": 1.510784e-05, + "loss": 0.0091, + "step": 114660 + }, + { + "epoch": 0.733856, + "grad_norm": 0.3311387002468109, + "learning_rate": 1.5107626666666668e-05, + "loss": 0.0071, + "step": 114665 + }, + { + "epoch": 0.733888, + "grad_norm": 0.3483715355396271, + "learning_rate": 1.5107413333333334e-05, + "loss": 0.0089, + "step": 114670 + }, + { + "epoch": 0.73392, + "grad_norm": 0.8241171836853027, + "learning_rate": 1.5107200000000002e-05, + "loss": 0.0171, + "step": 114675 + }, + { + "epoch": 0.733952, + "grad_norm": 0.5236290097236633, + "learning_rate": 1.5106986666666668e-05, + "loss": 0.0164, + "step": 114680 + }, + { + "epoch": 0.733984, + "grad_norm": 0.2172900140285492, + "learning_rate": 1.5106773333333335e-05, + "loss": 0.0114, + "step": 114685 + }, + { + "epoch": 0.734016, + "grad_norm": 0.6128727793693542, + "learning_rate": 1.5106560000000001e-05, + "loss": 0.0125, + "step": 114690 + }, + { + "epoch": 0.734048, + "grad_norm": 0.47599172592163086, + "learning_rate": 1.5106346666666667e-05, + "loss": 0.0197, + "step": 114695 + }, + { + "epoch": 0.73408, + "grad_norm": 0.1300528645515442, + "learning_rate": 1.5106133333333334e-05, + "loss": 0.0117, + "step": 114700 + }, + { + "epoch": 0.734112, + "grad_norm": 0.9624497890472412, + "learning_rate": 1.510592e-05, + "loss": 0.0133, + "step": 114705 + }, + { + "epoch": 0.734144, + "grad_norm": 0.03041517361998558, + "learning_rate": 1.5105706666666668e-05, + "loss": 0.0079, + "step": 114710 + }, + { + "epoch": 0.734176, + "grad_norm": 0.34935641288757324, + "learning_rate": 1.5105493333333334e-05, + "loss": 0.0176, + "step": 114715 + }, + { + "epoch": 0.734208, + "grad_norm": 2.9459688663482666, + "learning_rate": 1.5105280000000003e-05, + "loss": 0.0183, + "step": 114720 + }, + { + "epoch": 0.73424, + "grad_norm": 1.1301178932189941, + "learning_rate": 1.5105066666666667e-05, + "loss": 0.0179, + "step": 114725 + }, + { + "epoch": 0.734272, + "grad_norm": 0.08035390079021454, + "learning_rate": 1.5104853333333333e-05, + "loss": 0.0052, + "step": 114730 + }, + { + "epoch": 0.734304, + "grad_norm": 15.009337425231934, + "learning_rate": 1.5104640000000002e-05, + "loss": 0.0272, + "step": 114735 + }, + { + "epoch": 0.734336, + "grad_norm": 0.16563986241817474, + "learning_rate": 1.5104426666666668e-05, + "loss": 0.0156, + "step": 114740 + }, + { + "epoch": 0.734368, + "grad_norm": 0.40772321820259094, + "learning_rate": 1.5104213333333336e-05, + "loss": 0.0034, + "step": 114745 + }, + { + "epoch": 0.7344, + "grad_norm": 0.6352375149726868, + "learning_rate": 1.5104000000000001e-05, + "loss": 0.0078, + "step": 114750 + }, + { + "epoch": 0.734432, + "grad_norm": 0.10635785758495331, + "learning_rate": 1.5103786666666669e-05, + "loss": 0.0121, + "step": 114755 + }, + { + "epoch": 0.734464, + "grad_norm": 0.9515585899353027, + "learning_rate": 1.5103573333333335e-05, + "loss": 0.0198, + "step": 114760 + }, + { + "epoch": 0.734496, + "grad_norm": 0.046869441866874695, + "learning_rate": 1.510336e-05, + "loss": 0.0073, + "step": 114765 + }, + { + "epoch": 0.734528, + "grad_norm": 0.4025646448135376, + "learning_rate": 1.5103146666666668e-05, + "loss": 0.0072, + "step": 114770 + }, + { + "epoch": 0.73456, + "grad_norm": 0.9378787875175476, + "learning_rate": 1.5102933333333334e-05, + "loss": 0.0045, + "step": 114775 + }, + { + "epoch": 0.734592, + "grad_norm": 0.2604551911354065, + "learning_rate": 1.5102720000000002e-05, + "loss": 0.0179, + "step": 114780 + }, + { + "epoch": 0.734624, + "grad_norm": 0.6540559530258179, + "learning_rate": 1.5102506666666668e-05, + "loss": 0.0188, + "step": 114785 + }, + { + "epoch": 0.734656, + "grad_norm": 0.2108628898859024, + "learning_rate": 1.5102293333333335e-05, + "loss": 0.0106, + "step": 114790 + }, + { + "epoch": 0.734688, + "grad_norm": 4.457301616668701, + "learning_rate": 1.5102080000000001e-05, + "loss": 0.0257, + "step": 114795 + }, + { + "epoch": 0.73472, + "grad_norm": 0.5541125535964966, + "learning_rate": 1.5101866666666667e-05, + "loss": 0.0056, + "step": 114800 + }, + { + "epoch": 0.734752, + "grad_norm": 0.343163400888443, + "learning_rate": 1.5101653333333334e-05, + "loss": 0.0039, + "step": 114805 + }, + { + "epoch": 0.734784, + "grad_norm": 8.288954734802246, + "learning_rate": 1.510144e-05, + "loss": 0.0345, + "step": 114810 + }, + { + "epoch": 0.734816, + "grad_norm": 0.14221981167793274, + "learning_rate": 1.5101226666666668e-05, + "loss": 0.0071, + "step": 114815 + }, + { + "epoch": 0.734848, + "grad_norm": 0.6946263909339905, + "learning_rate": 1.5101013333333334e-05, + "loss": 0.0118, + "step": 114820 + }, + { + "epoch": 0.73488, + "grad_norm": 1.971984624862671, + "learning_rate": 1.5100800000000003e-05, + "loss": 0.0094, + "step": 114825 + }, + { + "epoch": 0.734912, + "grad_norm": 0.556777834892273, + "learning_rate": 1.5100586666666667e-05, + "loss": 0.0091, + "step": 114830 + }, + { + "epoch": 0.734944, + "grad_norm": 0.1321081817150116, + "learning_rate": 1.5100373333333333e-05, + "loss": 0.004, + "step": 114835 + }, + { + "epoch": 0.734976, + "grad_norm": 0.1652611494064331, + "learning_rate": 1.5100160000000002e-05, + "loss": 0.0064, + "step": 114840 + }, + { + "epoch": 0.735008, + "grad_norm": 0.40395164489746094, + "learning_rate": 1.5099946666666668e-05, + "loss": 0.005, + "step": 114845 + }, + { + "epoch": 0.73504, + "grad_norm": 0.40591248869895935, + "learning_rate": 1.5099733333333336e-05, + "loss": 0.0087, + "step": 114850 + }, + { + "epoch": 0.735072, + "grad_norm": 0.4807773232460022, + "learning_rate": 1.5099520000000001e-05, + "loss": 0.0051, + "step": 114855 + }, + { + "epoch": 0.735104, + "grad_norm": 0.40473270416259766, + "learning_rate": 1.5099306666666669e-05, + "loss": 0.0417, + "step": 114860 + }, + { + "epoch": 0.735136, + "grad_norm": 0.3290776014328003, + "learning_rate": 1.5099093333333335e-05, + "loss": 0.0066, + "step": 114865 + }, + { + "epoch": 0.735168, + "grad_norm": 0.04889237880706787, + "learning_rate": 1.509888e-05, + "loss": 0.016, + "step": 114870 + }, + { + "epoch": 0.7352, + "grad_norm": 0.8114756345748901, + "learning_rate": 1.5098666666666668e-05, + "loss": 0.009, + "step": 114875 + }, + { + "epoch": 0.735232, + "grad_norm": 1.1482822895050049, + "learning_rate": 1.5098453333333334e-05, + "loss": 0.0163, + "step": 114880 + }, + { + "epoch": 0.735264, + "grad_norm": 0.41418418288230896, + "learning_rate": 1.5098240000000002e-05, + "loss": 0.0174, + "step": 114885 + }, + { + "epoch": 0.735296, + "grad_norm": 0.9221271276473999, + "learning_rate": 1.5098026666666668e-05, + "loss": 0.008, + "step": 114890 + }, + { + "epoch": 0.735328, + "grad_norm": 1.0651544332504272, + "learning_rate": 1.5097813333333335e-05, + "loss": 0.0163, + "step": 114895 + }, + { + "epoch": 0.73536, + "grad_norm": 0.10446880012750626, + "learning_rate": 1.5097600000000001e-05, + "loss": 0.006, + "step": 114900 + }, + { + "epoch": 0.735392, + "grad_norm": 0.7424020767211914, + "learning_rate": 1.5097386666666667e-05, + "loss": 0.0137, + "step": 114905 + }, + { + "epoch": 0.735424, + "grad_norm": 0.4931548833847046, + "learning_rate": 1.5097173333333334e-05, + "loss": 0.0112, + "step": 114910 + }, + { + "epoch": 0.735456, + "grad_norm": 0.630861759185791, + "learning_rate": 1.509696e-05, + "loss": 0.01, + "step": 114915 + }, + { + "epoch": 0.735488, + "grad_norm": 0.7277397513389587, + "learning_rate": 1.5096746666666668e-05, + "loss": 0.007, + "step": 114920 + }, + { + "epoch": 0.73552, + "grad_norm": 0.3767627477645874, + "learning_rate": 1.5096533333333334e-05, + "loss": 0.0043, + "step": 114925 + }, + { + "epoch": 0.735552, + "grad_norm": 0.4426185190677643, + "learning_rate": 1.5096320000000003e-05, + "loss": 0.009, + "step": 114930 + }, + { + "epoch": 0.735584, + "grad_norm": 0.370111882686615, + "learning_rate": 1.5096106666666667e-05, + "loss": 0.0167, + "step": 114935 + }, + { + "epoch": 0.735616, + "grad_norm": 2.441793918609619, + "learning_rate": 1.5095893333333333e-05, + "loss": 0.0341, + "step": 114940 + }, + { + "epoch": 0.735648, + "grad_norm": 0.4106748700141907, + "learning_rate": 1.5095680000000002e-05, + "loss": 0.0202, + "step": 114945 + }, + { + "epoch": 0.73568, + "grad_norm": 1.0131771564483643, + "learning_rate": 1.5095466666666666e-05, + "loss": 0.0096, + "step": 114950 + }, + { + "epoch": 0.735712, + "grad_norm": 0.12480942904949188, + "learning_rate": 1.5095253333333336e-05, + "loss": 0.0174, + "step": 114955 + }, + { + "epoch": 0.735744, + "grad_norm": 0.5317182540893555, + "learning_rate": 1.5095040000000001e-05, + "loss": 0.0137, + "step": 114960 + }, + { + "epoch": 0.735776, + "grad_norm": 0.0519690178334713, + "learning_rate": 1.5094826666666669e-05, + "loss": 0.0092, + "step": 114965 + }, + { + "epoch": 0.735808, + "grad_norm": 0.474048912525177, + "learning_rate": 1.5094613333333335e-05, + "loss": 0.0086, + "step": 114970 + }, + { + "epoch": 0.73584, + "grad_norm": 0.7294279336929321, + "learning_rate": 1.50944e-05, + "loss": 0.0152, + "step": 114975 + }, + { + "epoch": 0.735872, + "grad_norm": 0.14995840191841125, + "learning_rate": 1.5094186666666668e-05, + "loss": 0.0113, + "step": 114980 + }, + { + "epoch": 0.735904, + "grad_norm": 0.11473877727985382, + "learning_rate": 1.5093973333333334e-05, + "loss": 0.0068, + "step": 114985 + }, + { + "epoch": 0.735936, + "grad_norm": 0.3719916343688965, + "learning_rate": 1.5093760000000002e-05, + "loss": 0.0164, + "step": 114990 + }, + { + "epoch": 0.735968, + "grad_norm": 0.6104527115821838, + "learning_rate": 1.5093546666666668e-05, + "loss": 0.0095, + "step": 114995 + }, + { + "epoch": 0.736, + "grad_norm": 0.09488003700971603, + "learning_rate": 1.5093333333333335e-05, + "loss": 0.0123, + "step": 115000 + }, + { + "epoch": 0.736032, + "grad_norm": 0.777994692325592, + "learning_rate": 1.5093120000000001e-05, + "loss": 0.0093, + "step": 115005 + }, + { + "epoch": 0.736064, + "grad_norm": 0.9244142770767212, + "learning_rate": 1.5092906666666667e-05, + "loss": 0.0133, + "step": 115010 + }, + { + "epoch": 0.736096, + "grad_norm": 1.1725505590438843, + "learning_rate": 1.5092693333333334e-05, + "loss": 0.011, + "step": 115015 + }, + { + "epoch": 0.736128, + "grad_norm": 0.619275689125061, + "learning_rate": 1.509248e-05, + "loss": 0.0087, + "step": 115020 + }, + { + "epoch": 0.73616, + "grad_norm": 0.21392065286636353, + "learning_rate": 1.5092266666666668e-05, + "loss": 0.0071, + "step": 115025 + }, + { + "epoch": 0.736192, + "grad_norm": 0.2223823219537735, + "learning_rate": 1.5092053333333334e-05, + "loss": 0.0082, + "step": 115030 + }, + { + "epoch": 0.736224, + "grad_norm": 0.9884060621261597, + "learning_rate": 1.5091840000000003e-05, + "loss": 0.0203, + "step": 115035 + }, + { + "epoch": 0.736256, + "grad_norm": 0.25831252336502075, + "learning_rate": 1.5091626666666667e-05, + "loss": 0.0032, + "step": 115040 + }, + { + "epoch": 0.736288, + "grad_norm": 0.6910414695739746, + "learning_rate": 1.5091413333333333e-05, + "loss": 0.0152, + "step": 115045 + }, + { + "epoch": 0.73632, + "grad_norm": 0.6072533130645752, + "learning_rate": 1.5091200000000002e-05, + "loss": 0.0108, + "step": 115050 + }, + { + "epoch": 0.736352, + "grad_norm": 0.03171176835894585, + "learning_rate": 1.5090986666666666e-05, + "loss": 0.0032, + "step": 115055 + }, + { + "epoch": 0.736384, + "grad_norm": 0.39877849817276, + "learning_rate": 1.5090773333333336e-05, + "loss": 0.0203, + "step": 115060 + }, + { + "epoch": 0.736416, + "grad_norm": 0.3263744115829468, + "learning_rate": 1.5090560000000001e-05, + "loss": 0.006, + "step": 115065 + }, + { + "epoch": 0.736448, + "grad_norm": 0.662369430065155, + "learning_rate": 1.5090346666666669e-05, + "loss": 0.0107, + "step": 115070 + }, + { + "epoch": 0.73648, + "grad_norm": 0.1057470440864563, + "learning_rate": 1.5090133333333335e-05, + "loss": 0.0083, + "step": 115075 + }, + { + "epoch": 0.736512, + "grad_norm": 0.4510972499847412, + "learning_rate": 1.5089920000000002e-05, + "loss": 0.014, + "step": 115080 + }, + { + "epoch": 0.736544, + "grad_norm": 1.5460957288742065, + "learning_rate": 1.5089706666666668e-05, + "loss": 0.0188, + "step": 115085 + }, + { + "epoch": 0.736576, + "grad_norm": 0.19083714485168457, + "learning_rate": 1.5089493333333334e-05, + "loss": 0.0158, + "step": 115090 + }, + { + "epoch": 0.736608, + "grad_norm": 0.09956590831279755, + "learning_rate": 1.5089280000000002e-05, + "loss": 0.0125, + "step": 115095 + }, + { + "epoch": 0.73664, + "grad_norm": 0.39575862884521484, + "learning_rate": 1.5089066666666668e-05, + "loss": 0.023, + "step": 115100 + }, + { + "epoch": 0.736672, + "grad_norm": 0.6807107329368591, + "learning_rate": 1.5088853333333335e-05, + "loss": 0.0279, + "step": 115105 + }, + { + "epoch": 0.736704, + "grad_norm": 0.8717378973960876, + "learning_rate": 1.5088640000000001e-05, + "loss": 0.0144, + "step": 115110 + }, + { + "epoch": 0.736736, + "grad_norm": 0.494355708360672, + "learning_rate": 1.5088426666666668e-05, + "loss": 0.0077, + "step": 115115 + }, + { + "epoch": 0.736768, + "grad_norm": 0.28278544545173645, + "learning_rate": 1.5088213333333334e-05, + "loss": 0.0028, + "step": 115120 + }, + { + "epoch": 0.7368, + "grad_norm": 1.6082961559295654, + "learning_rate": 1.5088e-05, + "loss": 0.0074, + "step": 115125 + }, + { + "epoch": 0.736832, + "grad_norm": 0.4468437433242798, + "learning_rate": 1.5087786666666668e-05, + "loss": 0.0115, + "step": 115130 + }, + { + "epoch": 0.736864, + "grad_norm": 0.6919891834259033, + "learning_rate": 1.5087573333333334e-05, + "loss": 0.0077, + "step": 115135 + }, + { + "epoch": 0.736896, + "grad_norm": 0.12982355058193207, + "learning_rate": 1.5087360000000001e-05, + "loss": 0.021, + "step": 115140 + }, + { + "epoch": 0.736928, + "grad_norm": 1.110186219215393, + "learning_rate": 1.5087146666666667e-05, + "loss": 0.0137, + "step": 115145 + }, + { + "epoch": 0.73696, + "grad_norm": 0.1332269012928009, + "learning_rate": 1.5086933333333336e-05, + "loss": 0.0067, + "step": 115150 + }, + { + "epoch": 0.736992, + "grad_norm": 0.11830954253673553, + "learning_rate": 1.5086720000000002e-05, + "loss": 0.012, + "step": 115155 + }, + { + "epoch": 0.737024, + "grad_norm": 0.3694808781147003, + "learning_rate": 1.5086506666666666e-05, + "loss": 0.0281, + "step": 115160 + }, + { + "epoch": 0.737056, + "grad_norm": 0.8701088428497314, + "learning_rate": 1.5086293333333336e-05, + "loss": 0.0208, + "step": 115165 + }, + { + "epoch": 0.737088, + "grad_norm": 0.6329377889633179, + "learning_rate": 1.5086080000000001e-05, + "loss": 0.0097, + "step": 115170 + }, + { + "epoch": 0.73712, + "grad_norm": 0.045439667999744415, + "learning_rate": 1.5085866666666669e-05, + "loss": 0.0132, + "step": 115175 + }, + { + "epoch": 0.737152, + "grad_norm": 0.3617909550666809, + "learning_rate": 1.5085653333333335e-05, + "loss": 0.0069, + "step": 115180 + }, + { + "epoch": 0.737184, + "grad_norm": 0.3350248336791992, + "learning_rate": 1.5085440000000002e-05, + "loss": 0.0327, + "step": 115185 + }, + { + "epoch": 0.737216, + "grad_norm": 0.519914984703064, + "learning_rate": 1.5085226666666668e-05, + "loss": 0.0077, + "step": 115190 + }, + { + "epoch": 0.737248, + "grad_norm": 1.050817847251892, + "learning_rate": 1.5085013333333334e-05, + "loss": 0.0055, + "step": 115195 + }, + { + "epoch": 0.73728, + "grad_norm": 0.3604055941104889, + "learning_rate": 1.5084800000000002e-05, + "loss": 0.0137, + "step": 115200 + }, + { + "epoch": 0.737312, + "grad_norm": 0.5725263953208923, + "learning_rate": 1.5084586666666668e-05, + "loss": 0.0293, + "step": 115205 + }, + { + "epoch": 0.737344, + "grad_norm": 0.9473813772201538, + "learning_rate": 1.5084373333333335e-05, + "loss": 0.0258, + "step": 115210 + }, + { + "epoch": 0.737376, + "grad_norm": 0.1093120202422142, + "learning_rate": 1.5084160000000001e-05, + "loss": 0.0056, + "step": 115215 + }, + { + "epoch": 0.737408, + "grad_norm": 0.12956863641738892, + "learning_rate": 1.5083946666666668e-05, + "loss": 0.0053, + "step": 115220 + }, + { + "epoch": 0.73744, + "grad_norm": 1.9995899200439453, + "learning_rate": 1.5083733333333334e-05, + "loss": 0.0188, + "step": 115225 + }, + { + "epoch": 0.737472, + "grad_norm": 0.11641532927751541, + "learning_rate": 1.508352e-05, + "loss": 0.0059, + "step": 115230 + }, + { + "epoch": 0.737504, + "grad_norm": 1.4345271587371826, + "learning_rate": 1.5083306666666668e-05, + "loss": 0.0166, + "step": 115235 + }, + { + "epoch": 0.737536, + "grad_norm": 0.04554465413093567, + "learning_rate": 1.5083093333333334e-05, + "loss": 0.0148, + "step": 115240 + }, + { + "epoch": 0.737568, + "grad_norm": 0.5555871725082397, + "learning_rate": 1.5082880000000001e-05, + "loss": 0.0083, + "step": 115245 + }, + { + "epoch": 0.7376, + "grad_norm": 0.19099217653274536, + "learning_rate": 1.5082666666666667e-05, + "loss": 0.0111, + "step": 115250 + }, + { + "epoch": 0.737632, + "grad_norm": 0.6381857395172119, + "learning_rate": 1.5082453333333336e-05, + "loss": 0.0084, + "step": 115255 + }, + { + "epoch": 0.737664, + "grad_norm": 0.11802773922681808, + "learning_rate": 1.5082240000000002e-05, + "loss": 0.0134, + "step": 115260 + }, + { + "epoch": 0.737696, + "grad_norm": 0.08280286937952042, + "learning_rate": 1.5082026666666666e-05, + "loss": 0.0042, + "step": 115265 + }, + { + "epoch": 0.737728, + "grad_norm": 0.4350316822528839, + "learning_rate": 1.5081813333333336e-05, + "loss": 0.0101, + "step": 115270 + }, + { + "epoch": 0.73776, + "grad_norm": 0.09942349791526794, + "learning_rate": 1.5081600000000001e-05, + "loss": 0.0096, + "step": 115275 + }, + { + "epoch": 0.737792, + "grad_norm": 1.7622579336166382, + "learning_rate": 1.5081386666666669e-05, + "loss": 0.0221, + "step": 115280 + }, + { + "epoch": 0.737824, + "grad_norm": 0.09251584112644196, + "learning_rate": 1.5081173333333335e-05, + "loss": 0.0069, + "step": 115285 + }, + { + "epoch": 0.737856, + "grad_norm": 0.10966318845748901, + "learning_rate": 1.5080960000000002e-05, + "loss": 0.0028, + "step": 115290 + }, + { + "epoch": 0.737888, + "grad_norm": 0.2153935432434082, + "learning_rate": 1.5080746666666668e-05, + "loss": 0.0027, + "step": 115295 + }, + { + "epoch": 0.73792, + "grad_norm": 0.8977113962173462, + "learning_rate": 1.5080533333333334e-05, + "loss": 0.0064, + "step": 115300 + }, + { + "epoch": 0.737952, + "grad_norm": 0.9182907938957214, + "learning_rate": 1.5080320000000002e-05, + "loss": 0.0044, + "step": 115305 + }, + { + "epoch": 0.737984, + "grad_norm": 0.0047481125220656395, + "learning_rate": 1.5080106666666668e-05, + "loss": 0.0082, + "step": 115310 + }, + { + "epoch": 0.738016, + "grad_norm": 0.4244444668292999, + "learning_rate": 1.5079893333333335e-05, + "loss": 0.0055, + "step": 115315 + }, + { + "epoch": 0.738048, + "grad_norm": 1.0419745445251465, + "learning_rate": 1.5079680000000001e-05, + "loss": 0.018, + "step": 115320 + }, + { + "epoch": 0.73808, + "grad_norm": 0.14992918074131012, + "learning_rate": 1.5079466666666668e-05, + "loss": 0.007, + "step": 115325 + }, + { + "epoch": 0.738112, + "grad_norm": 1.043086290359497, + "learning_rate": 1.5079253333333334e-05, + "loss": 0.0071, + "step": 115330 + }, + { + "epoch": 0.738144, + "grad_norm": 0.12145093083381653, + "learning_rate": 1.507904e-05, + "loss": 0.0099, + "step": 115335 + }, + { + "epoch": 0.738176, + "grad_norm": 1.0892400741577148, + "learning_rate": 1.5078826666666668e-05, + "loss": 0.0121, + "step": 115340 + }, + { + "epoch": 0.738208, + "grad_norm": 0.29555049538612366, + "learning_rate": 1.5078613333333334e-05, + "loss": 0.0063, + "step": 115345 + }, + { + "epoch": 0.73824, + "grad_norm": 0.9076245427131653, + "learning_rate": 1.5078400000000001e-05, + "loss": 0.0071, + "step": 115350 + }, + { + "epoch": 0.738272, + "grad_norm": 0.8272998929023743, + "learning_rate": 1.5078186666666667e-05, + "loss": 0.0092, + "step": 115355 + }, + { + "epoch": 0.738304, + "grad_norm": 0.15656276047229767, + "learning_rate": 1.5077973333333336e-05, + "loss": 0.0082, + "step": 115360 + }, + { + "epoch": 0.738336, + "grad_norm": 0.2448517382144928, + "learning_rate": 1.507776e-05, + "loss": 0.0064, + "step": 115365 + }, + { + "epoch": 0.738368, + "grad_norm": 0.19258666038513184, + "learning_rate": 1.5077546666666666e-05, + "loss": 0.0042, + "step": 115370 + }, + { + "epoch": 0.7384, + "grad_norm": 0.061916861683130264, + "learning_rate": 1.5077333333333336e-05, + "loss": 0.0148, + "step": 115375 + }, + { + "epoch": 0.738432, + "grad_norm": 0.6153186559677124, + "learning_rate": 1.5077120000000001e-05, + "loss": 0.0201, + "step": 115380 + }, + { + "epoch": 0.738464, + "grad_norm": 0.0906374529004097, + "learning_rate": 1.5076906666666669e-05, + "loss": 0.0069, + "step": 115385 + }, + { + "epoch": 0.738496, + "grad_norm": 0.35898661613464355, + "learning_rate": 1.5076693333333335e-05, + "loss": 0.0074, + "step": 115390 + }, + { + "epoch": 0.738528, + "grad_norm": 1.1575266122817993, + "learning_rate": 1.5076480000000002e-05, + "loss": 0.0217, + "step": 115395 + }, + { + "epoch": 0.73856, + "grad_norm": 0.016257034614682198, + "learning_rate": 1.5076266666666668e-05, + "loss": 0.0033, + "step": 115400 + }, + { + "epoch": 0.738592, + "grad_norm": 0.1864507794380188, + "learning_rate": 1.5076053333333334e-05, + "loss": 0.0086, + "step": 115405 + }, + { + "epoch": 0.738624, + "grad_norm": 0.0788528174161911, + "learning_rate": 1.5075840000000002e-05, + "loss": 0.0134, + "step": 115410 + }, + { + "epoch": 0.738656, + "grad_norm": 0.2841765582561493, + "learning_rate": 1.5075626666666668e-05, + "loss": 0.008, + "step": 115415 + }, + { + "epoch": 0.738688, + "grad_norm": 0.019166316837072372, + "learning_rate": 1.5075413333333335e-05, + "loss": 0.006, + "step": 115420 + }, + { + "epoch": 0.73872, + "grad_norm": 0.673263430595398, + "learning_rate": 1.5075200000000001e-05, + "loss": 0.0072, + "step": 115425 + }, + { + "epoch": 0.738752, + "grad_norm": 0.013358608819544315, + "learning_rate": 1.5074986666666669e-05, + "loss": 0.0102, + "step": 115430 + }, + { + "epoch": 0.738784, + "grad_norm": 0.042725566774606705, + "learning_rate": 1.5074773333333334e-05, + "loss": 0.0025, + "step": 115435 + }, + { + "epoch": 0.738816, + "grad_norm": 0.0711570680141449, + "learning_rate": 1.507456e-05, + "loss": 0.0114, + "step": 115440 + }, + { + "epoch": 0.738848, + "grad_norm": 0.5465512871742249, + "learning_rate": 1.5074346666666668e-05, + "loss": 0.0105, + "step": 115445 + }, + { + "epoch": 0.73888, + "grad_norm": 1.440708875656128, + "learning_rate": 1.5074133333333334e-05, + "loss": 0.0129, + "step": 115450 + }, + { + "epoch": 0.738912, + "grad_norm": 0.23649993538856506, + "learning_rate": 1.5073920000000001e-05, + "loss": 0.0047, + "step": 115455 + }, + { + "epoch": 0.738944, + "grad_norm": 0.19521044194698334, + "learning_rate": 1.5073706666666667e-05, + "loss": 0.0078, + "step": 115460 + }, + { + "epoch": 0.738976, + "grad_norm": 0.013204497285187244, + "learning_rate": 1.5073493333333336e-05, + "loss": 0.0107, + "step": 115465 + }, + { + "epoch": 0.739008, + "grad_norm": 0.4450327455997467, + "learning_rate": 1.507328e-05, + "loss": 0.018, + "step": 115470 + }, + { + "epoch": 0.73904, + "grad_norm": 0.14378266036510468, + "learning_rate": 1.5073066666666666e-05, + "loss": 0.0072, + "step": 115475 + }, + { + "epoch": 0.739072, + "grad_norm": 0.3661023676395416, + "learning_rate": 1.5072853333333336e-05, + "loss": 0.0071, + "step": 115480 + }, + { + "epoch": 0.739104, + "grad_norm": 0.6553508043289185, + "learning_rate": 1.5072640000000001e-05, + "loss": 0.0175, + "step": 115485 + }, + { + "epoch": 0.739136, + "grad_norm": 0.08269163221120834, + "learning_rate": 1.5072426666666669e-05, + "loss": 0.0109, + "step": 115490 + }, + { + "epoch": 0.739168, + "grad_norm": 0.4976159632205963, + "learning_rate": 1.5072213333333335e-05, + "loss": 0.0122, + "step": 115495 + }, + { + "epoch": 0.7392, + "grad_norm": 0.3598712682723999, + "learning_rate": 1.5072000000000002e-05, + "loss": 0.0152, + "step": 115500 + }, + { + "epoch": 0.739232, + "grad_norm": 0.28826409578323364, + "learning_rate": 1.5071786666666668e-05, + "loss": 0.0048, + "step": 115505 + }, + { + "epoch": 0.739264, + "grad_norm": 0.40706974267959595, + "learning_rate": 1.5071573333333334e-05, + "loss": 0.0076, + "step": 115510 + }, + { + "epoch": 0.739296, + "grad_norm": 0.483277827501297, + "learning_rate": 1.5071360000000002e-05, + "loss": 0.0122, + "step": 115515 + }, + { + "epoch": 0.739328, + "grad_norm": 0.9704558849334717, + "learning_rate": 1.5071146666666668e-05, + "loss": 0.0051, + "step": 115520 + }, + { + "epoch": 0.73936, + "grad_norm": 0.14015012979507446, + "learning_rate": 1.5070933333333335e-05, + "loss": 0.0198, + "step": 115525 + }, + { + "epoch": 0.739392, + "grad_norm": 0.8368369340896606, + "learning_rate": 1.5070720000000001e-05, + "loss": 0.0095, + "step": 115530 + }, + { + "epoch": 0.739424, + "grad_norm": 0.5635333061218262, + "learning_rate": 1.5070506666666669e-05, + "loss": 0.0084, + "step": 115535 + }, + { + "epoch": 0.739456, + "grad_norm": 0.035785142332315445, + "learning_rate": 1.5070293333333334e-05, + "loss": 0.0034, + "step": 115540 + }, + { + "epoch": 0.739488, + "grad_norm": 0.9439208507537842, + "learning_rate": 1.507008e-05, + "loss": 0.0208, + "step": 115545 + }, + { + "epoch": 0.73952, + "grad_norm": 0.084566630423069, + "learning_rate": 1.5069866666666668e-05, + "loss": 0.0038, + "step": 115550 + }, + { + "epoch": 0.739552, + "grad_norm": 0.12104514986276627, + "learning_rate": 1.5069653333333334e-05, + "loss": 0.0178, + "step": 115555 + }, + { + "epoch": 0.739584, + "grad_norm": 0.5741472840309143, + "learning_rate": 1.5069440000000001e-05, + "loss": 0.0119, + "step": 115560 + }, + { + "epoch": 0.739616, + "grad_norm": 0.38171517848968506, + "learning_rate": 1.5069226666666667e-05, + "loss": 0.0224, + "step": 115565 + }, + { + "epoch": 0.739648, + "grad_norm": 0.0452573336660862, + "learning_rate": 1.5069013333333336e-05, + "loss": 0.0089, + "step": 115570 + }, + { + "epoch": 0.73968, + "grad_norm": 0.04875382035970688, + "learning_rate": 1.50688e-05, + "loss": 0.0564, + "step": 115575 + }, + { + "epoch": 0.739712, + "grad_norm": 1.0251870155334473, + "learning_rate": 1.5068586666666666e-05, + "loss": 0.0079, + "step": 115580 + }, + { + "epoch": 0.739744, + "grad_norm": 1.3864911794662476, + "learning_rate": 1.5068373333333336e-05, + "loss": 0.0074, + "step": 115585 + }, + { + "epoch": 0.739776, + "grad_norm": 0.33741289377212524, + "learning_rate": 1.506816e-05, + "loss": 0.0076, + "step": 115590 + }, + { + "epoch": 0.739808, + "grad_norm": 0.595439612865448, + "learning_rate": 1.5067946666666669e-05, + "loss": 0.0095, + "step": 115595 + }, + { + "epoch": 0.73984, + "grad_norm": 0.10797800868749619, + "learning_rate": 1.5067733333333335e-05, + "loss": 0.0062, + "step": 115600 + }, + { + "epoch": 0.739872, + "grad_norm": 0.06678500771522522, + "learning_rate": 1.5067520000000002e-05, + "loss": 0.0057, + "step": 115605 + }, + { + "epoch": 0.739904, + "grad_norm": 0.3190980553627014, + "learning_rate": 1.5067306666666668e-05, + "loss": 0.0083, + "step": 115610 + }, + { + "epoch": 0.739936, + "grad_norm": 0.7488524317741394, + "learning_rate": 1.5067093333333334e-05, + "loss": 0.0123, + "step": 115615 + }, + { + "epoch": 0.739968, + "grad_norm": 0.6484046578407288, + "learning_rate": 1.5066880000000002e-05, + "loss": 0.0072, + "step": 115620 + }, + { + "epoch": 0.74, + "grad_norm": 0.17253610491752625, + "learning_rate": 1.5066666666666668e-05, + "loss": 0.0073, + "step": 115625 + }, + { + "epoch": 0.740032, + "grad_norm": 0.07692907750606537, + "learning_rate": 1.5066453333333335e-05, + "loss": 0.0057, + "step": 115630 + }, + { + "epoch": 0.740064, + "grad_norm": 0.5305876731872559, + "learning_rate": 1.5066240000000001e-05, + "loss": 0.0158, + "step": 115635 + }, + { + "epoch": 0.740096, + "grad_norm": 0.1378997415304184, + "learning_rate": 1.5066026666666669e-05, + "loss": 0.0095, + "step": 115640 + }, + { + "epoch": 0.740128, + "grad_norm": 0.06410601735115051, + "learning_rate": 1.5065813333333334e-05, + "loss": 0.0051, + "step": 115645 + }, + { + "epoch": 0.74016, + "grad_norm": 0.21789374947547913, + "learning_rate": 1.50656e-05, + "loss": 0.0131, + "step": 115650 + }, + { + "epoch": 0.740192, + "grad_norm": 0.2318485975265503, + "learning_rate": 1.5065386666666668e-05, + "loss": 0.0049, + "step": 115655 + }, + { + "epoch": 0.740224, + "grad_norm": 0.463026225566864, + "learning_rate": 1.5065173333333334e-05, + "loss": 0.0231, + "step": 115660 + }, + { + "epoch": 0.740256, + "grad_norm": 0.9162247776985168, + "learning_rate": 1.5064960000000001e-05, + "loss": 0.0095, + "step": 115665 + }, + { + "epoch": 0.740288, + "grad_norm": 1.2192258834838867, + "learning_rate": 1.5064746666666667e-05, + "loss": 0.0309, + "step": 115670 + }, + { + "epoch": 0.74032, + "grad_norm": 0.06221480295062065, + "learning_rate": 1.5064533333333335e-05, + "loss": 0.0142, + "step": 115675 + }, + { + "epoch": 0.740352, + "grad_norm": 0.6015599370002747, + "learning_rate": 1.506432e-05, + "loss": 0.0076, + "step": 115680 + }, + { + "epoch": 0.740384, + "grad_norm": 0.2725420296192169, + "learning_rate": 1.5064106666666666e-05, + "loss": 0.002, + "step": 115685 + }, + { + "epoch": 0.740416, + "grad_norm": 0.02354903146624565, + "learning_rate": 1.5063893333333336e-05, + "loss": 0.0311, + "step": 115690 + }, + { + "epoch": 0.740448, + "grad_norm": 0.26735711097717285, + "learning_rate": 1.506368e-05, + "loss": 0.0071, + "step": 115695 + }, + { + "epoch": 0.74048, + "grad_norm": 1.3781920671463013, + "learning_rate": 1.5063466666666669e-05, + "loss": 0.0324, + "step": 115700 + }, + { + "epoch": 0.740512, + "grad_norm": 0.162284716963768, + "learning_rate": 1.5063253333333335e-05, + "loss": 0.0096, + "step": 115705 + }, + { + "epoch": 0.740544, + "grad_norm": 0.3112415075302124, + "learning_rate": 1.5063040000000002e-05, + "loss": 0.0098, + "step": 115710 + }, + { + "epoch": 0.740576, + "grad_norm": 0.10148633271455765, + "learning_rate": 1.5062826666666668e-05, + "loss": 0.0053, + "step": 115715 + }, + { + "epoch": 0.740608, + "grad_norm": 0.35567760467529297, + "learning_rate": 1.5062613333333334e-05, + "loss": 0.0107, + "step": 115720 + }, + { + "epoch": 0.74064, + "grad_norm": 0.35139352083206177, + "learning_rate": 1.5062400000000002e-05, + "loss": 0.0093, + "step": 115725 + }, + { + "epoch": 0.740672, + "grad_norm": 0.06008077785372734, + "learning_rate": 1.5062186666666668e-05, + "loss": 0.0154, + "step": 115730 + }, + { + "epoch": 0.740704, + "grad_norm": 0.12858138978481293, + "learning_rate": 1.5061973333333335e-05, + "loss": 0.0124, + "step": 115735 + }, + { + "epoch": 0.740736, + "grad_norm": 0.2668195366859436, + "learning_rate": 1.5061760000000001e-05, + "loss": 0.0219, + "step": 115740 + }, + { + "epoch": 0.740768, + "grad_norm": 0.31488746404647827, + "learning_rate": 1.5061546666666669e-05, + "loss": 0.0088, + "step": 115745 + }, + { + "epoch": 0.7408, + "grad_norm": 0.1545102894306183, + "learning_rate": 1.5061333333333334e-05, + "loss": 0.0029, + "step": 115750 + }, + { + "epoch": 0.740832, + "grad_norm": 0.20080602169036865, + "learning_rate": 1.506112e-05, + "loss": 0.022, + "step": 115755 + }, + { + "epoch": 0.740864, + "grad_norm": 3.1302523612976074, + "learning_rate": 1.5060906666666668e-05, + "loss": 0.0146, + "step": 115760 + }, + { + "epoch": 0.740896, + "grad_norm": 0.18543684482574463, + "learning_rate": 1.5060693333333334e-05, + "loss": 0.005, + "step": 115765 + }, + { + "epoch": 0.740928, + "grad_norm": 0.3865472674369812, + "learning_rate": 1.5060480000000001e-05, + "loss": 0.0046, + "step": 115770 + }, + { + "epoch": 0.74096, + "grad_norm": 0.03631268069148064, + "learning_rate": 1.5060266666666667e-05, + "loss": 0.0176, + "step": 115775 + }, + { + "epoch": 0.740992, + "grad_norm": 0.7979909777641296, + "learning_rate": 1.5060053333333335e-05, + "loss": 0.0058, + "step": 115780 + }, + { + "epoch": 0.741024, + "grad_norm": 0.04273318871855736, + "learning_rate": 1.505984e-05, + "loss": 0.0136, + "step": 115785 + }, + { + "epoch": 0.741056, + "grad_norm": 0.6258131265640259, + "learning_rate": 1.5059626666666666e-05, + "loss": 0.0115, + "step": 115790 + }, + { + "epoch": 0.741088, + "grad_norm": 0.02481246180832386, + "learning_rate": 1.5059413333333336e-05, + "loss": 0.0083, + "step": 115795 + }, + { + "epoch": 0.74112, + "grad_norm": 0.16916437447071075, + "learning_rate": 1.50592e-05, + "loss": 0.007, + "step": 115800 + }, + { + "epoch": 0.741152, + "grad_norm": 0.042427483946084976, + "learning_rate": 1.5058986666666669e-05, + "loss": 0.0068, + "step": 115805 + }, + { + "epoch": 0.741184, + "grad_norm": 0.12451630085706711, + "learning_rate": 1.5058773333333335e-05, + "loss": 0.0205, + "step": 115810 + }, + { + "epoch": 0.741216, + "grad_norm": 0.5620454549789429, + "learning_rate": 1.5058560000000002e-05, + "loss": 0.0099, + "step": 115815 + }, + { + "epoch": 0.741248, + "grad_norm": 2.1021692752838135, + "learning_rate": 1.5058346666666668e-05, + "loss": 0.0365, + "step": 115820 + }, + { + "epoch": 0.74128, + "grad_norm": 0.09678548574447632, + "learning_rate": 1.5058133333333334e-05, + "loss": 0.0194, + "step": 115825 + }, + { + "epoch": 0.741312, + "grad_norm": 0.27395254373550415, + "learning_rate": 1.5057920000000002e-05, + "loss": 0.0084, + "step": 115830 + }, + { + "epoch": 0.741344, + "grad_norm": 0.4553007185459137, + "learning_rate": 1.5057706666666668e-05, + "loss": 0.0104, + "step": 115835 + }, + { + "epoch": 0.741376, + "grad_norm": 0.026386501267552376, + "learning_rate": 1.5057493333333335e-05, + "loss": 0.0077, + "step": 115840 + }, + { + "epoch": 0.741408, + "grad_norm": 0.6198146939277649, + "learning_rate": 1.5057280000000001e-05, + "loss": 0.015, + "step": 115845 + }, + { + "epoch": 0.74144, + "grad_norm": 0.23771138489246368, + "learning_rate": 1.5057066666666669e-05, + "loss": 0.0158, + "step": 115850 + }, + { + "epoch": 0.741472, + "grad_norm": 0.41040316224098206, + "learning_rate": 1.5056853333333334e-05, + "loss": 0.0154, + "step": 115855 + }, + { + "epoch": 0.741504, + "grad_norm": 0.3273771107196808, + "learning_rate": 1.505664e-05, + "loss": 0.0078, + "step": 115860 + }, + { + "epoch": 0.741536, + "grad_norm": 0.6691750884056091, + "learning_rate": 1.5056426666666668e-05, + "loss": 0.0087, + "step": 115865 + }, + { + "epoch": 0.741568, + "grad_norm": 0.19416652619838715, + "learning_rate": 1.5056213333333334e-05, + "loss": 0.0044, + "step": 115870 + }, + { + "epoch": 0.7416, + "grad_norm": 0.07056961208581924, + "learning_rate": 1.5056000000000001e-05, + "loss": 0.005, + "step": 115875 + }, + { + "epoch": 0.741632, + "grad_norm": 0.01924199052155018, + "learning_rate": 1.5055786666666667e-05, + "loss": 0.0053, + "step": 115880 + }, + { + "epoch": 0.741664, + "grad_norm": 0.32541143894195557, + "learning_rate": 1.5055573333333335e-05, + "loss": 0.015, + "step": 115885 + }, + { + "epoch": 0.741696, + "grad_norm": 0.4371037781238556, + "learning_rate": 1.505536e-05, + "loss": 0.0063, + "step": 115890 + }, + { + "epoch": 0.741728, + "grad_norm": 0.17576752603054047, + "learning_rate": 1.5055146666666666e-05, + "loss": 0.0055, + "step": 115895 + }, + { + "epoch": 0.74176, + "grad_norm": 0.2096218764781952, + "learning_rate": 1.5054933333333334e-05, + "loss": 0.0094, + "step": 115900 + }, + { + "epoch": 0.741792, + "grad_norm": 0.17140763998031616, + "learning_rate": 1.505472e-05, + "loss": 0.0108, + "step": 115905 + }, + { + "epoch": 0.741824, + "grad_norm": 5.927398681640625, + "learning_rate": 1.5054506666666669e-05, + "loss": 0.0241, + "step": 115910 + }, + { + "epoch": 0.741856, + "grad_norm": 0.21496030688285828, + "learning_rate": 1.5054293333333335e-05, + "loss": 0.0345, + "step": 115915 + }, + { + "epoch": 0.741888, + "grad_norm": 1.5082039833068848, + "learning_rate": 1.5054080000000002e-05, + "loss": 0.0094, + "step": 115920 + }, + { + "epoch": 0.74192, + "grad_norm": 0.495521605014801, + "learning_rate": 1.5053866666666668e-05, + "loss": 0.017, + "step": 115925 + }, + { + "epoch": 0.741952, + "grad_norm": 0.6147423982620239, + "learning_rate": 1.5053653333333336e-05, + "loss": 0.0101, + "step": 115930 + }, + { + "epoch": 0.741984, + "grad_norm": 0.054988160729408264, + "learning_rate": 1.5053440000000002e-05, + "loss": 0.0074, + "step": 115935 + }, + { + "epoch": 0.742016, + "grad_norm": 0.17706358432769775, + "learning_rate": 1.5053226666666668e-05, + "loss": 0.0042, + "step": 115940 + }, + { + "epoch": 0.742048, + "grad_norm": 0.5807818174362183, + "learning_rate": 1.5053013333333335e-05, + "loss": 0.021, + "step": 115945 + }, + { + "epoch": 0.74208, + "grad_norm": 0.28846287727355957, + "learning_rate": 1.5052800000000001e-05, + "loss": 0.009, + "step": 115950 + }, + { + "epoch": 0.742112, + "grad_norm": 0.35779041051864624, + "learning_rate": 1.5052586666666669e-05, + "loss": 0.0066, + "step": 115955 + }, + { + "epoch": 0.742144, + "grad_norm": 0.47187554836273193, + "learning_rate": 1.5052373333333334e-05, + "loss": 0.0197, + "step": 115960 + }, + { + "epoch": 0.742176, + "grad_norm": 0.287514865398407, + "learning_rate": 1.5052160000000002e-05, + "loss": 0.0042, + "step": 115965 + }, + { + "epoch": 0.742208, + "grad_norm": 0.5310325622558594, + "learning_rate": 1.5051946666666668e-05, + "loss": 0.0107, + "step": 115970 + }, + { + "epoch": 0.74224, + "grad_norm": 1.7882767915725708, + "learning_rate": 1.5051733333333334e-05, + "loss": 0.0309, + "step": 115975 + }, + { + "epoch": 0.742272, + "grad_norm": 0.08040260523557663, + "learning_rate": 1.5051520000000001e-05, + "loss": 0.0089, + "step": 115980 + }, + { + "epoch": 0.742304, + "grad_norm": 0.15666615962982178, + "learning_rate": 1.5051306666666667e-05, + "loss": 0.0317, + "step": 115985 + }, + { + "epoch": 0.742336, + "grad_norm": 0.018408361822366714, + "learning_rate": 1.5051093333333335e-05, + "loss": 0.0046, + "step": 115990 + }, + { + "epoch": 0.742368, + "grad_norm": 0.1537415087223053, + "learning_rate": 1.505088e-05, + "loss": 0.0148, + "step": 115995 + }, + { + "epoch": 0.7424, + "grad_norm": 1.2537540197372437, + "learning_rate": 1.505066666666667e-05, + "loss": 0.0199, + "step": 116000 + }, + { + "epoch": 0.742432, + "grad_norm": 0.2085549235343933, + "learning_rate": 1.5050453333333334e-05, + "loss": 0.0032, + "step": 116005 + }, + { + "epoch": 0.742464, + "grad_norm": 2.0873336791992188, + "learning_rate": 1.505024e-05, + "loss": 0.0046, + "step": 116010 + }, + { + "epoch": 0.742496, + "grad_norm": 0.6314343214035034, + "learning_rate": 1.5050026666666669e-05, + "loss": 0.0135, + "step": 116015 + }, + { + "epoch": 0.742528, + "grad_norm": 1.2526901960372925, + "learning_rate": 1.5049813333333335e-05, + "loss": 0.0274, + "step": 116020 + }, + { + "epoch": 0.74256, + "grad_norm": 0.23371778428554535, + "learning_rate": 1.5049600000000002e-05, + "loss": 0.0116, + "step": 116025 + }, + { + "epoch": 0.742592, + "grad_norm": 0.48513367772102356, + "learning_rate": 1.5049386666666668e-05, + "loss": 0.0142, + "step": 116030 + }, + { + "epoch": 0.742624, + "grad_norm": 0.736585259437561, + "learning_rate": 1.5049173333333336e-05, + "loss": 0.0074, + "step": 116035 + }, + { + "epoch": 0.742656, + "grad_norm": 0.7319164276123047, + "learning_rate": 1.5048960000000002e-05, + "loss": 0.0105, + "step": 116040 + }, + { + "epoch": 0.742688, + "grad_norm": 0.5617448687553406, + "learning_rate": 1.5048746666666668e-05, + "loss": 0.0133, + "step": 116045 + }, + { + "epoch": 0.74272, + "grad_norm": 0.13589797914028168, + "learning_rate": 1.5048533333333335e-05, + "loss": 0.0096, + "step": 116050 + }, + { + "epoch": 0.742752, + "grad_norm": 0.051328059285879135, + "learning_rate": 1.5048320000000001e-05, + "loss": 0.0035, + "step": 116055 + }, + { + "epoch": 0.742784, + "grad_norm": 0.3551079332828522, + "learning_rate": 1.5048106666666669e-05, + "loss": 0.0058, + "step": 116060 + }, + { + "epoch": 0.742816, + "grad_norm": 0.8993018865585327, + "learning_rate": 1.5047893333333334e-05, + "loss": 0.016, + "step": 116065 + }, + { + "epoch": 0.742848, + "grad_norm": 0.4022228717803955, + "learning_rate": 1.5047680000000002e-05, + "loss": 0.0134, + "step": 116070 + }, + { + "epoch": 0.74288, + "grad_norm": 0.4793551564216614, + "learning_rate": 1.5047466666666668e-05, + "loss": 0.02, + "step": 116075 + }, + { + "epoch": 0.742912, + "grad_norm": 0.3054386377334595, + "learning_rate": 1.5047253333333334e-05, + "loss": 0.0078, + "step": 116080 + }, + { + "epoch": 0.742944, + "grad_norm": 1.480755090713501, + "learning_rate": 1.5047040000000001e-05, + "loss": 0.009, + "step": 116085 + }, + { + "epoch": 0.742976, + "grad_norm": 0.11837028712034225, + "learning_rate": 1.5046826666666667e-05, + "loss": 0.0114, + "step": 116090 + }, + { + "epoch": 0.743008, + "grad_norm": 0.48580580949783325, + "learning_rate": 1.5046613333333335e-05, + "loss": 0.0072, + "step": 116095 + }, + { + "epoch": 0.74304, + "grad_norm": 0.6954612135887146, + "learning_rate": 1.50464e-05, + "loss": 0.0217, + "step": 116100 + }, + { + "epoch": 0.743072, + "grad_norm": 0.18453358113765717, + "learning_rate": 1.504618666666667e-05, + "loss": 0.0077, + "step": 116105 + }, + { + "epoch": 0.743104, + "grad_norm": 0.18438059091567993, + "learning_rate": 1.5045973333333334e-05, + "loss": 0.0058, + "step": 116110 + }, + { + "epoch": 0.743136, + "grad_norm": 0.2651289999485016, + "learning_rate": 1.504576e-05, + "loss": 0.0093, + "step": 116115 + }, + { + "epoch": 0.743168, + "grad_norm": 0.5816539525985718, + "learning_rate": 1.5045546666666669e-05, + "loss": 0.0062, + "step": 116120 + }, + { + "epoch": 0.7432, + "grad_norm": 0.28048577904701233, + "learning_rate": 1.5045333333333333e-05, + "loss": 0.0043, + "step": 116125 + }, + { + "epoch": 0.743232, + "grad_norm": 0.013153597712516785, + "learning_rate": 1.5045120000000002e-05, + "loss": 0.0115, + "step": 116130 + }, + { + "epoch": 0.743264, + "grad_norm": 0.2700739800930023, + "learning_rate": 1.5044906666666668e-05, + "loss": 0.0018, + "step": 116135 + }, + { + "epoch": 0.743296, + "grad_norm": 0.4085085988044739, + "learning_rate": 1.5044693333333336e-05, + "loss": 0.0157, + "step": 116140 + }, + { + "epoch": 0.743328, + "grad_norm": 0.15203213691711426, + "learning_rate": 1.5044480000000002e-05, + "loss": 0.0085, + "step": 116145 + }, + { + "epoch": 0.74336, + "grad_norm": 0.2675083577632904, + "learning_rate": 1.5044266666666668e-05, + "loss": 0.0121, + "step": 116150 + }, + { + "epoch": 0.743392, + "grad_norm": 0.09961672127246857, + "learning_rate": 1.5044053333333335e-05, + "loss": 0.0057, + "step": 116155 + }, + { + "epoch": 0.743424, + "grad_norm": 0.053315091878175735, + "learning_rate": 1.5043840000000001e-05, + "loss": 0.0038, + "step": 116160 + }, + { + "epoch": 0.743456, + "grad_norm": 0.22449573874473572, + "learning_rate": 1.5043626666666669e-05, + "loss": 0.0066, + "step": 116165 + }, + { + "epoch": 0.743488, + "grad_norm": 0.05820833891630173, + "learning_rate": 1.5043413333333334e-05, + "loss": 0.0145, + "step": 116170 + }, + { + "epoch": 0.74352, + "grad_norm": 0.08463425934314728, + "learning_rate": 1.5043200000000002e-05, + "loss": 0.0087, + "step": 116175 + }, + { + "epoch": 0.743552, + "grad_norm": 0.02575512044131756, + "learning_rate": 1.5042986666666668e-05, + "loss": 0.009, + "step": 116180 + }, + { + "epoch": 0.743584, + "grad_norm": 0.041281022131443024, + "learning_rate": 1.5042773333333334e-05, + "loss": 0.0053, + "step": 116185 + }, + { + "epoch": 0.743616, + "grad_norm": 0.1425272524356842, + "learning_rate": 1.5042560000000001e-05, + "loss": 0.0042, + "step": 116190 + }, + { + "epoch": 0.743648, + "grad_norm": 0.4764406979084015, + "learning_rate": 1.5042346666666667e-05, + "loss": 0.0087, + "step": 116195 + }, + { + "epoch": 0.74368, + "grad_norm": 0.4117216467857361, + "learning_rate": 1.5042133333333335e-05, + "loss": 0.0047, + "step": 116200 + }, + { + "epoch": 0.743712, + "grad_norm": 0.653719961643219, + "learning_rate": 1.504192e-05, + "loss": 0.0119, + "step": 116205 + }, + { + "epoch": 0.743744, + "grad_norm": 0.33671408891677856, + "learning_rate": 1.504170666666667e-05, + "loss": 0.0069, + "step": 116210 + }, + { + "epoch": 0.743776, + "grad_norm": 0.6100398898124695, + "learning_rate": 1.5041493333333334e-05, + "loss": 0.0093, + "step": 116215 + }, + { + "epoch": 0.743808, + "grad_norm": 1.1744754314422607, + "learning_rate": 1.504128e-05, + "loss": 0.0149, + "step": 116220 + }, + { + "epoch": 0.74384, + "grad_norm": 0.6448958516120911, + "learning_rate": 1.5041066666666669e-05, + "loss": 0.0041, + "step": 116225 + }, + { + "epoch": 0.743872, + "grad_norm": 0.5174651741981506, + "learning_rate": 1.5040853333333333e-05, + "loss": 0.0045, + "step": 116230 + }, + { + "epoch": 0.743904, + "grad_norm": 0.036497458815574646, + "learning_rate": 1.5040640000000002e-05, + "loss": 0.0099, + "step": 116235 + }, + { + "epoch": 0.743936, + "grad_norm": 0.3850775957107544, + "learning_rate": 1.5040426666666668e-05, + "loss": 0.0097, + "step": 116240 + }, + { + "epoch": 0.743968, + "grad_norm": 0.4079088270664215, + "learning_rate": 1.5040213333333336e-05, + "loss": 0.0433, + "step": 116245 + }, + { + "epoch": 0.744, + "grad_norm": 0.05518461391329765, + "learning_rate": 1.5040000000000002e-05, + "loss": 0.0093, + "step": 116250 + }, + { + "epoch": 0.744032, + "grad_norm": 0.40175050497055054, + "learning_rate": 1.5039786666666668e-05, + "loss": 0.0032, + "step": 116255 + }, + { + "epoch": 0.744064, + "grad_norm": 0.02642163448035717, + "learning_rate": 1.5039573333333335e-05, + "loss": 0.0072, + "step": 116260 + }, + { + "epoch": 0.744096, + "grad_norm": 0.6213170289993286, + "learning_rate": 1.5039360000000001e-05, + "loss": 0.0084, + "step": 116265 + }, + { + "epoch": 0.744128, + "grad_norm": 1.0206828117370605, + "learning_rate": 1.5039146666666669e-05, + "loss": 0.0222, + "step": 116270 + }, + { + "epoch": 0.74416, + "grad_norm": 0.44779539108276367, + "learning_rate": 1.5038933333333334e-05, + "loss": 0.0107, + "step": 116275 + }, + { + "epoch": 0.744192, + "grad_norm": 0.13790273666381836, + "learning_rate": 1.5038720000000002e-05, + "loss": 0.0103, + "step": 116280 + }, + { + "epoch": 0.744224, + "grad_norm": 0.9963458776473999, + "learning_rate": 1.5038506666666668e-05, + "loss": 0.041, + "step": 116285 + }, + { + "epoch": 0.744256, + "grad_norm": 0.2848500609397888, + "learning_rate": 1.5038293333333334e-05, + "loss": 0.0053, + "step": 116290 + }, + { + "epoch": 0.744288, + "grad_norm": 0.666965901851654, + "learning_rate": 1.5038080000000001e-05, + "loss": 0.017, + "step": 116295 + }, + { + "epoch": 0.74432, + "grad_norm": 0.8579214811325073, + "learning_rate": 1.5037866666666667e-05, + "loss": 0.0076, + "step": 116300 + }, + { + "epoch": 0.744352, + "grad_norm": 0.10951000452041626, + "learning_rate": 1.5037653333333335e-05, + "loss": 0.0121, + "step": 116305 + }, + { + "epoch": 0.744384, + "grad_norm": 0.9243096113204956, + "learning_rate": 1.503744e-05, + "loss": 0.0048, + "step": 116310 + }, + { + "epoch": 0.744416, + "grad_norm": 0.5765427350997925, + "learning_rate": 1.5037226666666668e-05, + "loss": 0.0374, + "step": 116315 + }, + { + "epoch": 0.744448, + "grad_norm": 0.03591017425060272, + "learning_rate": 1.5037013333333334e-05, + "loss": 0.008, + "step": 116320 + }, + { + "epoch": 0.74448, + "grad_norm": 0.30562418699264526, + "learning_rate": 1.50368e-05, + "loss": 0.0065, + "step": 116325 + }, + { + "epoch": 0.744512, + "grad_norm": 1.1629992723464966, + "learning_rate": 1.5036586666666669e-05, + "loss": 0.0076, + "step": 116330 + }, + { + "epoch": 0.744544, + "grad_norm": 0.038956739008426666, + "learning_rate": 1.5036373333333333e-05, + "loss": 0.0046, + "step": 116335 + }, + { + "epoch": 0.744576, + "grad_norm": 0.697089672088623, + "learning_rate": 1.5036160000000002e-05, + "loss": 0.0051, + "step": 116340 + }, + { + "epoch": 0.744608, + "grad_norm": 0.28912433981895447, + "learning_rate": 1.5035946666666668e-05, + "loss": 0.0097, + "step": 116345 + }, + { + "epoch": 0.74464, + "grad_norm": 0.05592631176114082, + "learning_rate": 1.5035733333333336e-05, + "loss": 0.0074, + "step": 116350 + }, + { + "epoch": 0.744672, + "grad_norm": 0.09816423803567886, + "learning_rate": 1.5035520000000002e-05, + "loss": 0.0079, + "step": 116355 + }, + { + "epoch": 0.744704, + "grad_norm": 1.5024305582046509, + "learning_rate": 1.5035306666666668e-05, + "loss": 0.0048, + "step": 116360 + }, + { + "epoch": 0.744736, + "grad_norm": 0.6728000044822693, + "learning_rate": 1.5035093333333335e-05, + "loss": 0.0078, + "step": 116365 + }, + { + "epoch": 0.744768, + "grad_norm": 0.6924755573272705, + "learning_rate": 1.5034880000000001e-05, + "loss": 0.0129, + "step": 116370 + }, + { + "epoch": 0.7448, + "grad_norm": 0.2885076105594635, + "learning_rate": 1.5034666666666669e-05, + "loss": 0.0042, + "step": 116375 + }, + { + "epoch": 0.744832, + "grad_norm": 0.15773843228816986, + "learning_rate": 1.5034453333333334e-05, + "loss": 0.0181, + "step": 116380 + }, + { + "epoch": 0.744864, + "grad_norm": 0.2496677041053772, + "learning_rate": 1.5034240000000002e-05, + "loss": 0.0156, + "step": 116385 + }, + { + "epoch": 0.744896, + "grad_norm": 1.8739889860153198, + "learning_rate": 1.5034026666666668e-05, + "loss": 0.0212, + "step": 116390 + }, + { + "epoch": 0.744928, + "grad_norm": 0.13356776535511017, + "learning_rate": 1.5033813333333334e-05, + "loss": 0.0077, + "step": 116395 + }, + { + "epoch": 0.74496, + "grad_norm": 0.11767406016588211, + "learning_rate": 1.5033600000000001e-05, + "loss": 0.0095, + "step": 116400 + }, + { + "epoch": 0.744992, + "grad_norm": 0.6259245872497559, + "learning_rate": 1.5033386666666667e-05, + "loss": 0.0103, + "step": 116405 + }, + { + "epoch": 0.745024, + "grad_norm": 0.2115836888551712, + "learning_rate": 1.5033173333333335e-05, + "loss": 0.0036, + "step": 116410 + }, + { + "epoch": 0.745056, + "grad_norm": 0.7713289856910706, + "learning_rate": 1.503296e-05, + "loss": 0.0068, + "step": 116415 + }, + { + "epoch": 0.745088, + "grad_norm": 0.2792341411113739, + "learning_rate": 1.5032746666666668e-05, + "loss": 0.0274, + "step": 116420 + }, + { + "epoch": 0.74512, + "grad_norm": 0.33687806129455566, + "learning_rate": 1.5032533333333334e-05, + "loss": 0.0082, + "step": 116425 + }, + { + "epoch": 0.745152, + "grad_norm": 1.1270256042480469, + "learning_rate": 1.503232e-05, + "loss": 0.0154, + "step": 116430 + }, + { + "epoch": 0.745184, + "grad_norm": 0.2977088987827301, + "learning_rate": 1.5032106666666669e-05, + "loss": 0.0041, + "step": 116435 + }, + { + "epoch": 0.745216, + "grad_norm": 0.5685322880744934, + "learning_rate": 1.5031893333333333e-05, + "loss": 0.0191, + "step": 116440 + }, + { + "epoch": 0.745248, + "grad_norm": 0.2747095227241516, + "learning_rate": 1.5031680000000002e-05, + "loss": 0.0171, + "step": 116445 + }, + { + "epoch": 0.74528, + "grad_norm": 0.7123211622238159, + "learning_rate": 1.5031466666666668e-05, + "loss": 0.0133, + "step": 116450 + }, + { + "epoch": 0.745312, + "grad_norm": 1.121324062347412, + "learning_rate": 1.5031253333333336e-05, + "loss": 0.0114, + "step": 116455 + }, + { + "epoch": 0.745344, + "grad_norm": 0.49059683084487915, + "learning_rate": 1.5031040000000002e-05, + "loss": 0.0067, + "step": 116460 + }, + { + "epoch": 0.745376, + "grad_norm": 0.5218520760536194, + "learning_rate": 1.5030826666666668e-05, + "loss": 0.0087, + "step": 116465 + }, + { + "epoch": 0.745408, + "grad_norm": 0.2538875341415405, + "learning_rate": 1.5030613333333335e-05, + "loss": 0.0078, + "step": 116470 + }, + { + "epoch": 0.74544, + "grad_norm": 0.8844736218452454, + "learning_rate": 1.5030400000000001e-05, + "loss": 0.0121, + "step": 116475 + }, + { + "epoch": 0.745472, + "grad_norm": 0.03231737017631531, + "learning_rate": 1.5030186666666669e-05, + "loss": 0.0256, + "step": 116480 + }, + { + "epoch": 0.745504, + "grad_norm": 0.3965519070625305, + "learning_rate": 1.5029973333333334e-05, + "loss": 0.0064, + "step": 116485 + }, + { + "epoch": 0.745536, + "grad_norm": 0.027173127979040146, + "learning_rate": 1.5029760000000002e-05, + "loss": 0.0097, + "step": 116490 + }, + { + "epoch": 0.745568, + "grad_norm": 0.5789932608604431, + "learning_rate": 1.5029546666666668e-05, + "loss": 0.0123, + "step": 116495 + }, + { + "epoch": 0.7456, + "grad_norm": 1.0207263231277466, + "learning_rate": 1.5029333333333334e-05, + "loss": 0.0158, + "step": 116500 + }, + { + "epoch": 0.745632, + "grad_norm": 1.2327115535736084, + "learning_rate": 1.5029120000000001e-05, + "loss": 0.008, + "step": 116505 + }, + { + "epoch": 0.745664, + "grad_norm": 0.27933505177497864, + "learning_rate": 1.5028906666666667e-05, + "loss": 0.0059, + "step": 116510 + }, + { + "epoch": 0.745696, + "grad_norm": 0.1868966966867447, + "learning_rate": 1.5028693333333335e-05, + "loss": 0.0111, + "step": 116515 + }, + { + "epoch": 0.745728, + "grad_norm": 0.10331650823354721, + "learning_rate": 1.502848e-05, + "loss": 0.0121, + "step": 116520 + }, + { + "epoch": 0.74576, + "grad_norm": 0.08409587293863297, + "learning_rate": 1.5028266666666668e-05, + "loss": 0.0099, + "step": 116525 + }, + { + "epoch": 0.745792, + "grad_norm": 0.583364725112915, + "learning_rate": 1.5028053333333334e-05, + "loss": 0.0052, + "step": 116530 + }, + { + "epoch": 0.745824, + "grad_norm": 0.7087348103523254, + "learning_rate": 1.502784e-05, + "loss": 0.0118, + "step": 116535 + }, + { + "epoch": 0.745856, + "grad_norm": 0.20315760374069214, + "learning_rate": 1.5027626666666667e-05, + "loss": 0.0034, + "step": 116540 + }, + { + "epoch": 0.745888, + "grad_norm": 0.05481463298201561, + "learning_rate": 1.5027413333333333e-05, + "loss": 0.0149, + "step": 116545 + }, + { + "epoch": 0.74592, + "grad_norm": 0.7936640381813049, + "learning_rate": 1.5027200000000002e-05, + "loss": 0.0108, + "step": 116550 + }, + { + "epoch": 0.745952, + "grad_norm": 0.7022765874862671, + "learning_rate": 1.5026986666666668e-05, + "loss": 0.0071, + "step": 116555 + }, + { + "epoch": 0.745984, + "grad_norm": 0.18879874050617218, + "learning_rate": 1.5026773333333336e-05, + "loss": 0.007, + "step": 116560 + }, + { + "epoch": 0.746016, + "grad_norm": 0.41342654824256897, + "learning_rate": 1.5026560000000002e-05, + "loss": 0.016, + "step": 116565 + }, + { + "epoch": 0.746048, + "grad_norm": 0.5133269429206848, + "learning_rate": 1.5026346666666668e-05, + "loss": 0.0118, + "step": 116570 + }, + { + "epoch": 0.74608, + "grad_norm": 1.156507968902588, + "learning_rate": 1.5026133333333335e-05, + "loss": 0.0302, + "step": 116575 + }, + { + "epoch": 0.746112, + "grad_norm": 0.5075064301490784, + "learning_rate": 1.5025920000000001e-05, + "loss": 0.0119, + "step": 116580 + }, + { + "epoch": 0.746144, + "grad_norm": 2.3903448581695557, + "learning_rate": 1.5025706666666669e-05, + "loss": 0.0333, + "step": 116585 + }, + { + "epoch": 0.746176, + "grad_norm": 0.5100275874137878, + "learning_rate": 1.5025493333333334e-05, + "loss": 0.0146, + "step": 116590 + }, + { + "epoch": 0.746208, + "grad_norm": 0.151996448636055, + "learning_rate": 1.5025280000000002e-05, + "loss": 0.0107, + "step": 116595 + }, + { + "epoch": 0.74624, + "grad_norm": 0.816957950592041, + "learning_rate": 1.5025066666666668e-05, + "loss": 0.0128, + "step": 116600 + }, + { + "epoch": 0.746272, + "grad_norm": 0.16737180948257446, + "learning_rate": 1.5024853333333334e-05, + "loss": 0.0102, + "step": 116605 + }, + { + "epoch": 0.746304, + "grad_norm": 0.11502081155776978, + "learning_rate": 1.5024640000000001e-05, + "loss": 0.0092, + "step": 116610 + }, + { + "epoch": 0.746336, + "grad_norm": 1.1622380018234253, + "learning_rate": 1.5024426666666667e-05, + "loss": 0.0112, + "step": 116615 + }, + { + "epoch": 0.746368, + "grad_norm": 1.7657774686813354, + "learning_rate": 1.5024213333333335e-05, + "loss": 0.0471, + "step": 116620 + }, + { + "epoch": 0.7464, + "grad_norm": 0.7300229072570801, + "learning_rate": 1.5024e-05, + "loss": 0.0198, + "step": 116625 + }, + { + "epoch": 0.746432, + "grad_norm": 0.41523465514183044, + "learning_rate": 1.5023786666666668e-05, + "loss": 0.0074, + "step": 116630 + }, + { + "epoch": 0.746464, + "grad_norm": 0.5096539258956909, + "learning_rate": 1.5023573333333334e-05, + "loss": 0.0073, + "step": 116635 + }, + { + "epoch": 0.746496, + "grad_norm": 0.09311524778604507, + "learning_rate": 1.502336e-05, + "loss": 0.0098, + "step": 116640 + }, + { + "epoch": 0.746528, + "grad_norm": 0.018374772742390633, + "learning_rate": 1.5023146666666667e-05, + "loss": 0.0052, + "step": 116645 + }, + { + "epoch": 0.74656, + "grad_norm": 0.0638025775551796, + "learning_rate": 1.5022933333333333e-05, + "loss": 0.005, + "step": 116650 + }, + { + "epoch": 0.746592, + "grad_norm": 0.609442949295044, + "learning_rate": 1.5022720000000002e-05, + "loss": 0.0162, + "step": 116655 + }, + { + "epoch": 0.746624, + "grad_norm": 0.07977604120969772, + "learning_rate": 1.5022506666666668e-05, + "loss": 0.005, + "step": 116660 + }, + { + "epoch": 0.746656, + "grad_norm": 0.48950397968292236, + "learning_rate": 1.5022293333333336e-05, + "loss": 0.0106, + "step": 116665 + }, + { + "epoch": 0.746688, + "grad_norm": 0.11819350719451904, + "learning_rate": 1.5022080000000002e-05, + "loss": 0.0103, + "step": 116670 + }, + { + "epoch": 0.74672, + "grad_norm": 0.2268693596124649, + "learning_rate": 1.5021866666666668e-05, + "loss": 0.0094, + "step": 116675 + }, + { + "epoch": 0.746752, + "grad_norm": 0.3094496726989746, + "learning_rate": 1.5021653333333335e-05, + "loss": 0.0109, + "step": 116680 + }, + { + "epoch": 0.746784, + "grad_norm": 0.13370151817798615, + "learning_rate": 1.5021440000000001e-05, + "loss": 0.0198, + "step": 116685 + }, + { + "epoch": 0.746816, + "grad_norm": 1.4052881002426147, + "learning_rate": 1.5021226666666669e-05, + "loss": 0.0226, + "step": 116690 + }, + { + "epoch": 0.746848, + "grad_norm": 0.59361332654953, + "learning_rate": 1.5021013333333334e-05, + "loss": 0.0123, + "step": 116695 + }, + { + "epoch": 0.74688, + "grad_norm": 0.822540283203125, + "learning_rate": 1.5020800000000002e-05, + "loss": 0.0111, + "step": 116700 + }, + { + "epoch": 0.746912, + "grad_norm": 0.20257751643657684, + "learning_rate": 1.5020586666666668e-05, + "loss": 0.0062, + "step": 116705 + }, + { + "epoch": 0.746944, + "grad_norm": 0.3222723603248596, + "learning_rate": 1.5020373333333334e-05, + "loss": 0.0068, + "step": 116710 + }, + { + "epoch": 0.746976, + "grad_norm": 0.0600164532661438, + "learning_rate": 1.5020160000000001e-05, + "loss": 0.0077, + "step": 116715 + }, + { + "epoch": 0.747008, + "grad_norm": 0.9038942456245422, + "learning_rate": 1.5019946666666667e-05, + "loss": 0.0197, + "step": 116720 + }, + { + "epoch": 0.74704, + "grad_norm": 0.7691439986228943, + "learning_rate": 1.5019733333333335e-05, + "loss": 0.0149, + "step": 116725 + }, + { + "epoch": 0.747072, + "grad_norm": 0.5713217854499817, + "learning_rate": 1.501952e-05, + "loss": 0.0089, + "step": 116730 + }, + { + "epoch": 0.747104, + "grad_norm": 0.05959367752075195, + "learning_rate": 1.5019306666666668e-05, + "loss": 0.024, + "step": 116735 + }, + { + "epoch": 0.747136, + "grad_norm": 0.20274880528450012, + "learning_rate": 1.5019093333333334e-05, + "loss": 0.0071, + "step": 116740 + }, + { + "epoch": 0.747168, + "grad_norm": 0.08559117466211319, + "learning_rate": 1.501888e-05, + "loss": 0.0155, + "step": 116745 + }, + { + "epoch": 0.7472, + "grad_norm": 0.06833869218826294, + "learning_rate": 1.5018666666666667e-05, + "loss": 0.0137, + "step": 116750 + }, + { + "epoch": 0.747232, + "grad_norm": 0.1571643054485321, + "learning_rate": 1.5018453333333333e-05, + "loss": 0.0085, + "step": 116755 + }, + { + "epoch": 0.747264, + "grad_norm": 0.1999870091676712, + "learning_rate": 1.5018240000000002e-05, + "loss": 0.0285, + "step": 116760 + }, + { + "epoch": 0.747296, + "grad_norm": 0.7365699410438538, + "learning_rate": 1.5018026666666667e-05, + "loss": 0.0163, + "step": 116765 + }, + { + "epoch": 0.747328, + "grad_norm": 2.207878351211548, + "learning_rate": 1.5017813333333336e-05, + "loss": 0.021, + "step": 116770 + }, + { + "epoch": 0.74736, + "grad_norm": 0.5307512283325195, + "learning_rate": 1.5017600000000002e-05, + "loss": 0.0101, + "step": 116775 + }, + { + "epoch": 0.747392, + "grad_norm": 0.5599746108055115, + "learning_rate": 1.501738666666667e-05, + "loss": 0.0073, + "step": 116780 + }, + { + "epoch": 0.747424, + "grad_norm": 1.4454299211502075, + "learning_rate": 1.5017173333333335e-05, + "loss": 0.0174, + "step": 116785 + }, + { + "epoch": 0.747456, + "grad_norm": 0.6258885264396667, + "learning_rate": 1.5016960000000001e-05, + "loss": 0.0065, + "step": 116790 + }, + { + "epoch": 0.747488, + "grad_norm": 0.6659066677093506, + "learning_rate": 1.5016746666666669e-05, + "loss": 0.0119, + "step": 116795 + }, + { + "epoch": 0.74752, + "grad_norm": 0.7584593296051025, + "learning_rate": 1.5016533333333334e-05, + "loss": 0.0085, + "step": 116800 + }, + { + "epoch": 0.747552, + "grad_norm": 0.3552755117416382, + "learning_rate": 1.5016320000000002e-05, + "loss": 0.0071, + "step": 116805 + }, + { + "epoch": 0.747584, + "grad_norm": 1.8005621433258057, + "learning_rate": 1.5016106666666668e-05, + "loss": 0.0403, + "step": 116810 + }, + { + "epoch": 0.747616, + "grad_norm": 0.12788471579551697, + "learning_rate": 1.5015893333333335e-05, + "loss": 0.0082, + "step": 116815 + }, + { + "epoch": 0.747648, + "grad_norm": 0.10093751549720764, + "learning_rate": 1.5015680000000001e-05, + "loss": 0.0078, + "step": 116820 + }, + { + "epoch": 0.74768, + "grad_norm": 0.11838939785957336, + "learning_rate": 1.5015466666666667e-05, + "loss": 0.0038, + "step": 116825 + }, + { + "epoch": 0.747712, + "grad_norm": 0.029285768046975136, + "learning_rate": 1.5015253333333335e-05, + "loss": 0.0074, + "step": 116830 + }, + { + "epoch": 0.747744, + "grad_norm": 0.0330594964325428, + "learning_rate": 1.501504e-05, + "loss": 0.0028, + "step": 116835 + }, + { + "epoch": 0.747776, + "grad_norm": 0.9942607283592224, + "learning_rate": 1.5014826666666668e-05, + "loss": 0.0318, + "step": 116840 + }, + { + "epoch": 0.747808, + "grad_norm": 1.5552319288253784, + "learning_rate": 1.5014613333333334e-05, + "loss": 0.0253, + "step": 116845 + }, + { + "epoch": 0.74784, + "grad_norm": 0.45648953318595886, + "learning_rate": 1.5014400000000001e-05, + "loss": 0.0123, + "step": 116850 + }, + { + "epoch": 0.747872, + "grad_norm": 0.5986682176589966, + "learning_rate": 1.5014186666666667e-05, + "loss": 0.0077, + "step": 116855 + }, + { + "epoch": 0.747904, + "grad_norm": 1.2118608951568604, + "learning_rate": 1.5013973333333333e-05, + "loss": 0.0264, + "step": 116860 + }, + { + "epoch": 0.747936, + "grad_norm": 0.46715912222862244, + "learning_rate": 1.5013760000000002e-05, + "loss": 0.0119, + "step": 116865 + }, + { + "epoch": 0.747968, + "grad_norm": 0.940615177154541, + "learning_rate": 1.5013546666666667e-05, + "loss": 0.0125, + "step": 116870 + }, + { + "epoch": 0.748, + "grad_norm": 0.5985199213027954, + "learning_rate": 1.5013333333333336e-05, + "loss": 0.008, + "step": 116875 + }, + { + "epoch": 0.748032, + "grad_norm": 0.07333453744649887, + "learning_rate": 1.5013120000000002e-05, + "loss": 0.0143, + "step": 116880 + }, + { + "epoch": 0.748064, + "grad_norm": 0.18444842100143433, + "learning_rate": 1.501290666666667e-05, + "loss": 0.0071, + "step": 116885 + }, + { + "epoch": 0.748096, + "grad_norm": 0.8234758973121643, + "learning_rate": 1.5012693333333335e-05, + "loss": 0.0112, + "step": 116890 + }, + { + "epoch": 0.748128, + "grad_norm": 0.032460346817970276, + "learning_rate": 1.5012480000000001e-05, + "loss": 0.0053, + "step": 116895 + }, + { + "epoch": 0.74816, + "grad_norm": 0.8557748198509216, + "learning_rate": 1.5012266666666669e-05, + "loss": 0.0113, + "step": 116900 + }, + { + "epoch": 0.748192, + "grad_norm": 0.11087960749864578, + "learning_rate": 1.5012053333333334e-05, + "loss": 0.0235, + "step": 116905 + }, + { + "epoch": 0.748224, + "grad_norm": 0.744601309299469, + "learning_rate": 1.5011840000000002e-05, + "loss": 0.0126, + "step": 116910 + }, + { + "epoch": 0.748256, + "grad_norm": 1.251142978668213, + "learning_rate": 1.5011626666666668e-05, + "loss": 0.0144, + "step": 116915 + }, + { + "epoch": 0.748288, + "grad_norm": 0.6690187454223633, + "learning_rate": 1.5011413333333335e-05, + "loss": 0.009, + "step": 116920 + }, + { + "epoch": 0.74832, + "grad_norm": 0.22237981855869293, + "learning_rate": 1.5011200000000001e-05, + "loss": 0.0057, + "step": 116925 + }, + { + "epoch": 0.748352, + "grad_norm": 0.3871307969093323, + "learning_rate": 1.5010986666666667e-05, + "loss": 0.0176, + "step": 116930 + }, + { + "epoch": 0.748384, + "grad_norm": 3.6307742595672607, + "learning_rate": 1.5010773333333335e-05, + "loss": 0.0176, + "step": 116935 + }, + { + "epoch": 0.748416, + "grad_norm": 1.0778299570083618, + "learning_rate": 1.501056e-05, + "loss": 0.0138, + "step": 116940 + }, + { + "epoch": 0.748448, + "grad_norm": 0.4636456370353699, + "learning_rate": 1.5010346666666668e-05, + "loss": 0.0145, + "step": 116945 + }, + { + "epoch": 0.74848, + "grad_norm": 0.5933041572570801, + "learning_rate": 1.5010133333333334e-05, + "loss": 0.0066, + "step": 116950 + }, + { + "epoch": 0.748512, + "grad_norm": 0.07658349722623825, + "learning_rate": 1.5009920000000001e-05, + "loss": 0.0049, + "step": 116955 + }, + { + "epoch": 0.748544, + "grad_norm": 0.36186495423316956, + "learning_rate": 1.5009706666666667e-05, + "loss": 0.0037, + "step": 116960 + }, + { + "epoch": 0.748576, + "grad_norm": 0.4811682403087616, + "learning_rate": 1.5009493333333333e-05, + "loss": 0.0179, + "step": 116965 + }, + { + "epoch": 0.748608, + "grad_norm": 0.6681097149848938, + "learning_rate": 1.5009280000000002e-05, + "loss": 0.0167, + "step": 116970 + }, + { + "epoch": 0.74864, + "grad_norm": 0.6060976982116699, + "learning_rate": 1.5009066666666667e-05, + "loss": 0.0074, + "step": 116975 + }, + { + "epoch": 0.748672, + "grad_norm": 0.11120302975177765, + "learning_rate": 1.5008853333333336e-05, + "loss": 0.009, + "step": 116980 + }, + { + "epoch": 0.748704, + "grad_norm": 0.2167448103427887, + "learning_rate": 1.5008640000000002e-05, + "loss": 0.0571, + "step": 116985 + }, + { + "epoch": 0.748736, + "grad_norm": 0.16586843132972717, + "learning_rate": 1.500842666666667e-05, + "loss": 0.0054, + "step": 116990 + }, + { + "epoch": 0.748768, + "grad_norm": 4.94261360168457, + "learning_rate": 1.5008213333333335e-05, + "loss": 0.0199, + "step": 116995 + }, + { + "epoch": 0.7488, + "grad_norm": 0.27324342727661133, + "learning_rate": 1.5008000000000001e-05, + "loss": 0.0071, + "step": 117000 + }, + { + "epoch": 0.748832, + "grad_norm": 0.12180856615304947, + "learning_rate": 1.5007786666666669e-05, + "loss": 0.0081, + "step": 117005 + }, + { + "epoch": 0.748864, + "grad_norm": 0.06144742667675018, + "learning_rate": 1.5007573333333334e-05, + "loss": 0.004, + "step": 117010 + }, + { + "epoch": 0.748896, + "grad_norm": 0.8207441568374634, + "learning_rate": 1.5007360000000002e-05, + "loss": 0.0279, + "step": 117015 + }, + { + "epoch": 0.748928, + "grad_norm": 0.3429347276687622, + "learning_rate": 1.5007146666666668e-05, + "loss": 0.0133, + "step": 117020 + }, + { + "epoch": 0.74896, + "grad_norm": 0.8553513884544373, + "learning_rate": 1.5006933333333335e-05, + "loss": 0.0041, + "step": 117025 + }, + { + "epoch": 0.748992, + "grad_norm": 0.21377983689308167, + "learning_rate": 1.5006720000000001e-05, + "loss": 0.0092, + "step": 117030 + }, + { + "epoch": 0.749024, + "grad_norm": 0.1715109646320343, + "learning_rate": 1.5006506666666667e-05, + "loss": 0.0087, + "step": 117035 + }, + { + "epoch": 0.749056, + "grad_norm": 0.42664211988449097, + "learning_rate": 1.5006293333333335e-05, + "loss": 0.0067, + "step": 117040 + }, + { + "epoch": 0.749088, + "grad_norm": 0.20207750797271729, + "learning_rate": 1.500608e-05, + "loss": 0.0125, + "step": 117045 + }, + { + "epoch": 0.74912, + "grad_norm": 0.042479727417230606, + "learning_rate": 1.5005866666666668e-05, + "loss": 0.0053, + "step": 117050 + }, + { + "epoch": 0.749152, + "grad_norm": 0.9689775705337524, + "learning_rate": 1.5005653333333334e-05, + "loss": 0.0111, + "step": 117055 + }, + { + "epoch": 0.749184, + "grad_norm": 0.45239734649658203, + "learning_rate": 1.5005440000000001e-05, + "loss": 0.0052, + "step": 117060 + }, + { + "epoch": 0.749216, + "grad_norm": 0.7215058207511902, + "learning_rate": 1.5005226666666667e-05, + "loss": 0.0156, + "step": 117065 + }, + { + "epoch": 0.749248, + "grad_norm": 0.6880027651786804, + "learning_rate": 1.5005013333333333e-05, + "loss": 0.0115, + "step": 117070 + }, + { + "epoch": 0.74928, + "grad_norm": 1.1741372346878052, + "learning_rate": 1.50048e-05, + "loss": 0.0167, + "step": 117075 + }, + { + "epoch": 0.749312, + "grad_norm": 0.026026105508208275, + "learning_rate": 1.5004586666666667e-05, + "loss": 0.0088, + "step": 117080 + }, + { + "epoch": 0.749344, + "grad_norm": 3.388240098953247, + "learning_rate": 1.5004373333333336e-05, + "loss": 0.0273, + "step": 117085 + }, + { + "epoch": 0.749376, + "grad_norm": 0.13906431198120117, + "learning_rate": 1.5004160000000002e-05, + "loss": 0.0162, + "step": 117090 + }, + { + "epoch": 0.749408, + "grad_norm": 1.3158761262893677, + "learning_rate": 1.500394666666667e-05, + "loss": 0.0164, + "step": 117095 + }, + { + "epoch": 0.74944, + "grad_norm": 0.10750776529312134, + "learning_rate": 1.5003733333333335e-05, + "loss": 0.0066, + "step": 117100 + }, + { + "epoch": 0.749472, + "grad_norm": 0.2607726454734802, + "learning_rate": 1.5003520000000001e-05, + "loss": 0.0139, + "step": 117105 + }, + { + "epoch": 0.749504, + "grad_norm": 0.003078213194385171, + "learning_rate": 1.5003306666666669e-05, + "loss": 0.0022, + "step": 117110 + }, + { + "epoch": 0.749536, + "grad_norm": 0.05967622622847557, + "learning_rate": 1.5003093333333334e-05, + "loss": 0.0105, + "step": 117115 + }, + { + "epoch": 0.749568, + "grad_norm": 0.39322054386138916, + "learning_rate": 1.5002880000000002e-05, + "loss": 0.0084, + "step": 117120 + }, + { + "epoch": 0.7496, + "grad_norm": 0.08531225472688675, + "learning_rate": 1.5002666666666668e-05, + "loss": 0.0028, + "step": 117125 + }, + { + "epoch": 0.749632, + "grad_norm": 0.0387871190905571, + "learning_rate": 1.5002453333333335e-05, + "loss": 0.0191, + "step": 117130 + }, + { + "epoch": 0.749664, + "grad_norm": 0.7021304965019226, + "learning_rate": 1.5002240000000001e-05, + "loss": 0.0119, + "step": 117135 + }, + { + "epoch": 0.749696, + "grad_norm": 0.9603161811828613, + "learning_rate": 1.5002026666666667e-05, + "loss": 0.0198, + "step": 117140 + }, + { + "epoch": 0.749728, + "grad_norm": 0.9762489795684814, + "learning_rate": 1.5001813333333335e-05, + "loss": 0.0115, + "step": 117145 + }, + { + "epoch": 0.74976, + "grad_norm": 0.30751287937164307, + "learning_rate": 1.50016e-05, + "loss": 0.0079, + "step": 117150 + }, + { + "epoch": 0.749792, + "grad_norm": 0.028308384120464325, + "learning_rate": 1.5001386666666668e-05, + "loss": 0.0029, + "step": 117155 + }, + { + "epoch": 0.749824, + "grad_norm": 0.3656885623931885, + "learning_rate": 1.5001173333333334e-05, + "loss": 0.035, + "step": 117160 + }, + { + "epoch": 0.749856, + "grad_norm": 2.066304922103882, + "learning_rate": 1.5000960000000001e-05, + "loss": 0.0324, + "step": 117165 + }, + { + "epoch": 0.749888, + "grad_norm": 0.44498705863952637, + "learning_rate": 1.5000746666666667e-05, + "loss": 0.0095, + "step": 117170 + }, + { + "epoch": 0.74992, + "grad_norm": 0.6515316367149353, + "learning_rate": 1.5000533333333333e-05, + "loss": 0.0065, + "step": 117175 + }, + { + "epoch": 0.749952, + "grad_norm": 1.434720516204834, + "learning_rate": 1.500032e-05, + "loss": 0.0046, + "step": 117180 + }, + { + "epoch": 0.749984, + "grad_norm": 0.5165668725967407, + "learning_rate": 1.5000106666666667e-05, + "loss": 0.0051, + "step": 117185 + }, + { + "epoch": 0.750016, + "grad_norm": 0.17117899656295776, + "learning_rate": 1.4999893333333336e-05, + "loss": 0.0118, + "step": 117190 + }, + { + "epoch": 0.750048, + "grad_norm": 0.1259591281414032, + "learning_rate": 1.4999680000000002e-05, + "loss": 0.0152, + "step": 117195 + }, + { + "epoch": 0.75008, + "grad_norm": 0.29737982153892517, + "learning_rate": 1.499946666666667e-05, + "loss": 0.0065, + "step": 117200 + }, + { + "epoch": 0.750112, + "grad_norm": 0.22714760899543762, + "learning_rate": 1.4999253333333335e-05, + "loss": 0.0115, + "step": 117205 + }, + { + "epoch": 0.750144, + "grad_norm": 1.7543725967407227, + "learning_rate": 1.4999040000000001e-05, + "loss": 0.0183, + "step": 117210 + }, + { + "epoch": 0.750176, + "grad_norm": 0.664263904094696, + "learning_rate": 1.4998826666666669e-05, + "loss": 0.0093, + "step": 117215 + }, + { + "epoch": 0.750208, + "grad_norm": 0.635830819606781, + "learning_rate": 1.4998613333333334e-05, + "loss": 0.0172, + "step": 117220 + }, + { + "epoch": 0.75024, + "grad_norm": 0.20598480105400085, + "learning_rate": 1.4998400000000002e-05, + "loss": 0.0076, + "step": 117225 + }, + { + "epoch": 0.750272, + "grad_norm": 0.20032761991024017, + "learning_rate": 1.4998186666666668e-05, + "loss": 0.0038, + "step": 117230 + }, + { + "epoch": 0.750304, + "grad_norm": 0.9058203101158142, + "learning_rate": 1.4997973333333335e-05, + "loss": 0.017, + "step": 117235 + }, + { + "epoch": 0.750336, + "grad_norm": 1.0431420803070068, + "learning_rate": 1.4997760000000001e-05, + "loss": 0.0141, + "step": 117240 + }, + { + "epoch": 0.750368, + "grad_norm": 0.36009088158607483, + "learning_rate": 1.4997546666666667e-05, + "loss": 0.0051, + "step": 117245 + }, + { + "epoch": 0.7504, + "grad_norm": 2.8625400066375732, + "learning_rate": 1.4997333333333335e-05, + "loss": 0.0504, + "step": 117250 + }, + { + "epoch": 0.750432, + "grad_norm": 0.6590975522994995, + "learning_rate": 1.499712e-05, + "loss": 0.0208, + "step": 117255 + }, + { + "epoch": 0.750464, + "grad_norm": 0.2781037986278534, + "learning_rate": 1.4996906666666668e-05, + "loss": 0.0124, + "step": 117260 + }, + { + "epoch": 0.750496, + "grad_norm": 0.04550716280937195, + "learning_rate": 1.4996693333333334e-05, + "loss": 0.0052, + "step": 117265 + }, + { + "epoch": 0.750528, + "grad_norm": 0.4327389597892761, + "learning_rate": 1.4996480000000001e-05, + "loss": 0.0035, + "step": 117270 + }, + { + "epoch": 0.75056, + "grad_norm": 1.360500454902649, + "learning_rate": 1.4996266666666667e-05, + "loss": 0.0102, + "step": 117275 + }, + { + "epoch": 0.750592, + "grad_norm": 0.25394031405448914, + "learning_rate": 1.4996053333333333e-05, + "loss": 0.0136, + "step": 117280 + }, + { + "epoch": 0.750624, + "grad_norm": 0.007169655058532953, + "learning_rate": 1.499584e-05, + "loss": 0.0112, + "step": 117285 + }, + { + "epoch": 0.750656, + "grad_norm": 0.5554951429367065, + "learning_rate": 1.4995626666666667e-05, + "loss": 0.009, + "step": 117290 + }, + { + "epoch": 0.750688, + "grad_norm": 0.1611602008342743, + "learning_rate": 1.4995413333333336e-05, + "loss": 0.0133, + "step": 117295 + }, + { + "epoch": 0.75072, + "grad_norm": 0.6201685667037964, + "learning_rate": 1.4995200000000002e-05, + "loss": 0.0086, + "step": 117300 + }, + { + "epoch": 0.750752, + "grad_norm": 0.2743876278400421, + "learning_rate": 1.499498666666667e-05, + "loss": 0.0317, + "step": 117305 + }, + { + "epoch": 0.750784, + "grad_norm": 1.12455415725708, + "learning_rate": 1.4994773333333335e-05, + "loss": 0.0228, + "step": 117310 + }, + { + "epoch": 0.750816, + "grad_norm": 0.2940930724143982, + "learning_rate": 1.4994560000000001e-05, + "loss": 0.0063, + "step": 117315 + }, + { + "epoch": 0.750848, + "grad_norm": 0.2822383642196655, + "learning_rate": 1.4994346666666669e-05, + "loss": 0.0167, + "step": 117320 + }, + { + "epoch": 0.75088, + "grad_norm": 0.07721369713544846, + "learning_rate": 1.4994133333333334e-05, + "loss": 0.0057, + "step": 117325 + }, + { + "epoch": 0.750912, + "grad_norm": 0.1526239514350891, + "learning_rate": 1.4993920000000002e-05, + "loss": 0.0094, + "step": 117330 + }, + { + "epoch": 0.750944, + "grad_norm": 0.37011149525642395, + "learning_rate": 1.4993706666666668e-05, + "loss": 0.0105, + "step": 117335 + }, + { + "epoch": 0.750976, + "grad_norm": 0.9028756618499756, + "learning_rate": 1.4993493333333335e-05, + "loss": 0.0092, + "step": 117340 + }, + { + "epoch": 0.751008, + "grad_norm": 0.8907569050788879, + "learning_rate": 1.4993280000000001e-05, + "loss": 0.0133, + "step": 117345 + }, + { + "epoch": 0.75104, + "grad_norm": 0.1479130983352661, + "learning_rate": 1.4993066666666667e-05, + "loss": 0.0062, + "step": 117350 + }, + { + "epoch": 0.751072, + "grad_norm": 0.8267259001731873, + "learning_rate": 1.4992853333333335e-05, + "loss": 0.0202, + "step": 117355 + }, + { + "epoch": 0.751104, + "grad_norm": 0.041521064937114716, + "learning_rate": 1.499264e-05, + "loss": 0.0078, + "step": 117360 + }, + { + "epoch": 0.751136, + "grad_norm": 0.3305131196975708, + "learning_rate": 1.4992426666666668e-05, + "loss": 0.0077, + "step": 117365 + }, + { + "epoch": 0.751168, + "grad_norm": 0.13932138681411743, + "learning_rate": 1.4992213333333334e-05, + "loss": 0.013, + "step": 117370 + }, + { + "epoch": 0.7512, + "grad_norm": 0.8657050132751465, + "learning_rate": 1.4992000000000001e-05, + "loss": 0.044, + "step": 117375 + }, + { + "epoch": 0.751232, + "grad_norm": 0.7522708177566528, + "learning_rate": 1.4991786666666667e-05, + "loss": 0.0199, + "step": 117380 + }, + { + "epoch": 0.751264, + "grad_norm": 0.14025528728961945, + "learning_rate": 1.4991573333333333e-05, + "loss": 0.0071, + "step": 117385 + }, + { + "epoch": 0.751296, + "grad_norm": 0.027613159269094467, + "learning_rate": 1.499136e-05, + "loss": 0.0217, + "step": 117390 + }, + { + "epoch": 0.751328, + "grad_norm": 3.29968523979187, + "learning_rate": 1.4991146666666667e-05, + "loss": 0.0333, + "step": 117395 + }, + { + "epoch": 0.75136, + "grad_norm": 0.360059916973114, + "learning_rate": 1.4990933333333336e-05, + "loss": 0.0069, + "step": 117400 + }, + { + "epoch": 0.751392, + "grad_norm": 1.1031819581985474, + "learning_rate": 1.499072e-05, + "loss": 0.0064, + "step": 117405 + }, + { + "epoch": 0.751424, + "grad_norm": 0.8782874941825867, + "learning_rate": 1.499050666666667e-05, + "loss": 0.0143, + "step": 117410 + }, + { + "epoch": 0.751456, + "grad_norm": 0.8814614415168762, + "learning_rate": 1.4990293333333335e-05, + "loss": 0.0078, + "step": 117415 + }, + { + "epoch": 0.751488, + "grad_norm": 0.08579728752374649, + "learning_rate": 1.4990080000000001e-05, + "loss": 0.0191, + "step": 117420 + }, + { + "epoch": 0.75152, + "grad_norm": 0.20812366902828217, + "learning_rate": 1.4989866666666669e-05, + "loss": 0.0093, + "step": 117425 + }, + { + "epoch": 0.751552, + "grad_norm": 0.07143522053956985, + "learning_rate": 1.4989653333333334e-05, + "loss": 0.0098, + "step": 117430 + }, + { + "epoch": 0.751584, + "grad_norm": 0.2268424779176712, + "learning_rate": 1.4989440000000002e-05, + "loss": 0.0065, + "step": 117435 + }, + { + "epoch": 0.751616, + "grad_norm": 0.13502143323421478, + "learning_rate": 1.4989226666666668e-05, + "loss": 0.0152, + "step": 117440 + }, + { + "epoch": 0.751648, + "grad_norm": 0.4847450256347656, + "learning_rate": 1.4989013333333335e-05, + "loss": 0.0241, + "step": 117445 + }, + { + "epoch": 0.75168, + "grad_norm": 0.24987784028053284, + "learning_rate": 1.4988800000000001e-05, + "loss": 0.0031, + "step": 117450 + }, + { + "epoch": 0.751712, + "grad_norm": 0.4874565005302429, + "learning_rate": 1.4988586666666667e-05, + "loss": 0.0071, + "step": 117455 + }, + { + "epoch": 0.751744, + "grad_norm": 0.04026392847299576, + "learning_rate": 1.4988373333333335e-05, + "loss": 0.0075, + "step": 117460 + }, + { + "epoch": 0.751776, + "grad_norm": 0.33204227685928345, + "learning_rate": 1.498816e-05, + "loss": 0.0054, + "step": 117465 + }, + { + "epoch": 0.751808, + "grad_norm": 0.3915260136127472, + "learning_rate": 1.4987946666666668e-05, + "loss": 0.0135, + "step": 117470 + }, + { + "epoch": 0.75184, + "grad_norm": 0.3365747034549713, + "learning_rate": 1.4987733333333334e-05, + "loss": 0.0047, + "step": 117475 + }, + { + "epoch": 0.751872, + "grad_norm": 0.8575521111488342, + "learning_rate": 1.4987520000000001e-05, + "loss": 0.016, + "step": 117480 + }, + { + "epoch": 0.751904, + "grad_norm": 0.7029047608375549, + "learning_rate": 1.4987306666666667e-05, + "loss": 0.0122, + "step": 117485 + }, + { + "epoch": 0.751936, + "grad_norm": 0.0983472615480423, + "learning_rate": 1.4987093333333333e-05, + "loss": 0.0049, + "step": 117490 + }, + { + "epoch": 0.751968, + "grad_norm": 0.6154252290725708, + "learning_rate": 1.498688e-05, + "loss": 0.0386, + "step": 117495 + }, + { + "epoch": 0.752, + "grad_norm": 0.4667012393474579, + "learning_rate": 1.4986666666666667e-05, + "loss": 0.008, + "step": 117500 + }, + { + "epoch": 0.752032, + "grad_norm": 0.785446047782898, + "learning_rate": 1.4986453333333336e-05, + "loss": 0.0085, + "step": 117505 + }, + { + "epoch": 0.752064, + "grad_norm": 1.1053825616836548, + "learning_rate": 1.498624e-05, + "loss": 0.0071, + "step": 117510 + }, + { + "epoch": 0.752096, + "grad_norm": 0.038565170019865036, + "learning_rate": 1.498602666666667e-05, + "loss": 0.0105, + "step": 117515 + }, + { + "epoch": 0.752128, + "grad_norm": 0.5919449925422668, + "learning_rate": 1.4985813333333335e-05, + "loss": 0.0134, + "step": 117520 + }, + { + "epoch": 0.75216, + "grad_norm": 0.795676052570343, + "learning_rate": 1.4985600000000001e-05, + "loss": 0.0154, + "step": 117525 + }, + { + "epoch": 0.752192, + "grad_norm": 0.8470682501792908, + "learning_rate": 1.4985386666666669e-05, + "loss": 0.0125, + "step": 117530 + }, + { + "epoch": 0.752224, + "grad_norm": 0.007043837569653988, + "learning_rate": 1.4985173333333334e-05, + "loss": 0.0087, + "step": 117535 + }, + { + "epoch": 0.752256, + "grad_norm": 1.1083012819290161, + "learning_rate": 1.4984960000000002e-05, + "loss": 0.0218, + "step": 117540 + }, + { + "epoch": 0.752288, + "grad_norm": 0.6370024681091309, + "learning_rate": 1.4984746666666668e-05, + "loss": 0.0155, + "step": 117545 + }, + { + "epoch": 0.75232, + "grad_norm": 0.7112820148468018, + "learning_rate": 1.4984533333333335e-05, + "loss": 0.0113, + "step": 117550 + }, + { + "epoch": 0.752352, + "grad_norm": 0.695145845413208, + "learning_rate": 1.4984320000000001e-05, + "loss": 0.0103, + "step": 117555 + }, + { + "epoch": 0.752384, + "grad_norm": 0.4485934376716614, + "learning_rate": 1.4984106666666667e-05, + "loss": 0.0332, + "step": 117560 + }, + { + "epoch": 0.752416, + "grad_norm": 0.4055289626121521, + "learning_rate": 1.4983893333333335e-05, + "loss": 0.0129, + "step": 117565 + }, + { + "epoch": 0.752448, + "grad_norm": 1.312985897064209, + "learning_rate": 1.498368e-05, + "loss": 0.008, + "step": 117570 + }, + { + "epoch": 0.75248, + "grad_norm": 0.42919716238975525, + "learning_rate": 1.4983466666666668e-05, + "loss": 0.0163, + "step": 117575 + }, + { + "epoch": 0.752512, + "grad_norm": 0.11000711470842361, + "learning_rate": 1.4983253333333334e-05, + "loss": 0.004, + "step": 117580 + }, + { + "epoch": 0.752544, + "grad_norm": 0.11507828533649445, + "learning_rate": 1.4983040000000001e-05, + "loss": 0.0085, + "step": 117585 + }, + { + "epoch": 0.752576, + "grad_norm": 0.6215900182723999, + "learning_rate": 1.4982826666666667e-05, + "loss": 0.0066, + "step": 117590 + }, + { + "epoch": 0.752608, + "grad_norm": 0.8629385828971863, + "learning_rate": 1.4982613333333333e-05, + "loss": 0.0075, + "step": 117595 + }, + { + "epoch": 0.75264, + "grad_norm": 0.26720377802848816, + "learning_rate": 1.49824e-05, + "loss": 0.0082, + "step": 117600 + }, + { + "epoch": 0.752672, + "grad_norm": 1.3777614831924438, + "learning_rate": 1.4982186666666667e-05, + "loss": 0.0114, + "step": 117605 + }, + { + "epoch": 0.752704, + "grad_norm": 0.20653453469276428, + "learning_rate": 1.4981973333333336e-05, + "loss": 0.0046, + "step": 117610 + }, + { + "epoch": 0.752736, + "grad_norm": 0.3433513939380646, + "learning_rate": 1.498176e-05, + "loss": 0.0149, + "step": 117615 + }, + { + "epoch": 0.752768, + "grad_norm": 0.14209651947021484, + "learning_rate": 1.498154666666667e-05, + "loss": 0.0127, + "step": 117620 + }, + { + "epoch": 0.7528, + "grad_norm": 0.7276880741119385, + "learning_rate": 1.4981333333333335e-05, + "loss": 0.0159, + "step": 117625 + }, + { + "epoch": 0.752832, + "grad_norm": 0.4115315079689026, + "learning_rate": 1.4981120000000003e-05, + "loss": 0.0131, + "step": 117630 + }, + { + "epoch": 0.752864, + "grad_norm": 0.33757632970809937, + "learning_rate": 1.4980906666666669e-05, + "loss": 0.005, + "step": 117635 + }, + { + "epoch": 0.752896, + "grad_norm": 0.201425701379776, + "learning_rate": 1.4980693333333334e-05, + "loss": 0.0069, + "step": 117640 + }, + { + "epoch": 0.752928, + "grad_norm": 0.2447752207517624, + "learning_rate": 1.4980480000000002e-05, + "loss": 0.0056, + "step": 117645 + }, + { + "epoch": 0.75296, + "grad_norm": 0.5925922393798828, + "learning_rate": 1.4980266666666668e-05, + "loss": 0.0084, + "step": 117650 + }, + { + "epoch": 0.752992, + "grad_norm": 0.5708678960800171, + "learning_rate": 1.4980053333333335e-05, + "loss": 0.0105, + "step": 117655 + }, + { + "epoch": 0.753024, + "grad_norm": 0.23282785713672638, + "learning_rate": 1.4979840000000001e-05, + "loss": 0.0088, + "step": 117660 + }, + { + "epoch": 0.753056, + "grad_norm": 0.8946158289909363, + "learning_rate": 1.4979626666666669e-05, + "loss": 0.0324, + "step": 117665 + }, + { + "epoch": 0.753088, + "grad_norm": 0.1437629908323288, + "learning_rate": 1.4979413333333335e-05, + "loss": 0.0033, + "step": 117670 + }, + { + "epoch": 0.75312, + "grad_norm": 1.0899198055267334, + "learning_rate": 1.49792e-05, + "loss": 0.0163, + "step": 117675 + }, + { + "epoch": 0.753152, + "grad_norm": 0.6853206753730774, + "learning_rate": 1.4978986666666668e-05, + "loss": 0.0105, + "step": 117680 + }, + { + "epoch": 0.753184, + "grad_norm": 0.4793914556503296, + "learning_rate": 1.4978773333333334e-05, + "loss": 0.0158, + "step": 117685 + }, + { + "epoch": 0.753216, + "grad_norm": 0.07897894084453583, + "learning_rate": 1.4978560000000001e-05, + "loss": 0.0084, + "step": 117690 + }, + { + "epoch": 0.753248, + "grad_norm": 0.28384435176849365, + "learning_rate": 1.4978346666666667e-05, + "loss": 0.0056, + "step": 117695 + }, + { + "epoch": 0.75328, + "grad_norm": 0.8586641550064087, + "learning_rate": 1.4978133333333335e-05, + "loss": 0.0088, + "step": 117700 + }, + { + "epoch": 0.753312, + "grad_norm": 0.439531534910202, + "learning_rate": 1.497792e-05, + "loss": 0.0095, + "step": 117705 + }, + { + "epoch": 0.753344, + "grad_norm": 1.2900292873382568, + "learning_rate": 1.4977706666666667e-05, + "loss": 0.0151, + "step": 117710 + }, + { + "epoch": 0.753376, + "grad_norm": 0.7374888062477112, + "learning_rate": 1.4977493333333334e-05, + "loss": 0.0129, + "step": 117715 + }, + { + "epoch": 0.753408, + "grad_norm": 0.7373655438423157, + "learning_rate": 1.497728e-05, + "loss": 0.013, + "step": 117720 + }, + { + "epoch": 0.75344, + "grad_norm": 0.0818963497877121, + "learning_rate": 1.497706666666667e-05, + "loss": 0.0023, + "step": 117725 + }, + { + "epoch": 0.753472, + "grad_norm": 0.23218312859535217, + "learning_rate": 1.4976853333333335e-05, + "loss": 0.0097, + "step": 117730 + }, + { + "epoch": 0.753504, + "grad_norm": 0.5329015254974365, + "learning_rate": 1.4976640000000003e-05, + "loss": 0.0105, + "step": 117735 + }, + { + "epoch": 0.753536, + "grad_norm": 0.17146098613739014, + "learning_rate": 1.4976426666666669e-05, + "loss": 0.031, + "step": 117740 + }, + { + "epoch": 0.753568, + "grad_norm": 0.3287992775440216, + "learning_rate": 1.4976213333333334e-05, + "loss": 0.0045, + "step": 117745 + }, + { + "epoch": 0.7536, + "grad_norm": 1.4285098314285278, + "learning_rate": 1.4976000000000002e-05, + "loss": 0.0143, + "step": 117750 + }, + { + "epoch": 0.753632, + "grad_norm": 0.02611387148499489, + "learning_rate": 1.4975786666666668e-05, + "loss": 0.0049, + "step": 117755 + }, + { + "epoch": 0.753664, + "grad_norm": 3.1302921772003174, + "learning_rate": 1.4975573333333335e-05, + "loss": 0.016, + "step": 117760 + }, + { + "epoch": 0.753696, + "grad_norm": 0.12105290591716766, + "learning_rate": 1.4975360000000001e-05, + "loss": 0.0323, + "step": 117765 + }, + { + "epoch": 0.753728, + "grad_norm": 0.09708750993013382, + "learning_rate": 1.4975146666666669e-05, + "loss": 0.0121, + "step": 117770 + }, + { + "epoch": 0.75376, + "grad_norm": 0.24586257338523865, + "learning_rate": 1.4974933333333335e-05, + "loss": 0.0161, + "step": 117775 + }, + { + "epoch": 0.753792, + "grad_norm": 0.35429060459136963, + "learning_rate": 1.497472e-05, + "loss": 0.0085, + "step": 117780 + }, + { + "epoch": 0.753824, + "grad_norm": 0.47885194420814514, + "learning_rate": 1.4974506666666668e-05, + "loss": 0.0052, + "step": 117785 + }, + { + "epoch": 0.753856, + "grad_norm": 0.5279284119606018, + "learning_rate": 1.4974293333333334e-05, + "loss": 0.0054, + "step": 117790 + }, + { + "epoch": 0.753888, + "grad_norm": 0.48416343331336975, + "learning_rate": 1.4974080000000001e-05, + "loss": 0.0055, + "step": 117795 + }, + { + "epoch": 0.75392, + "grad_norm": 0.13471126556396484, + "learning_rate": 1.4973866666666667e-05, + "loss": 0.0023, + "step": 117800 + }, + { + "epoch": 0.753952, + "grad_norm": 0.44932085275650024, + "learning_rate": 1.4973653333333335e-05, + "loss": 0.0095, + "step": 117805 + }, + { + "epoch": 0.753984, + "grad_norm": 1.1173980236053467, + "learning_rate": 1.497344e-05, + "loss": 0.0102, + "step": 117810 + }, + { + "epoch": 0.754016, + "grad_norm": 1.998374104499817, + "learning_rate": 1.4973226666666667e-05, + "loss": 0.0157, + "step": 117815 + }, + { + "epoch": 0.754048, + "grad_norm": 0.49055376648902893, + "learning_rate": 1.4973013333333334e-05, + "loss": 0.0098, + "step": 117820 + }, + { + "epoch": 0.75408, + "grad_norm": 0.5698611736297607, + "learning_rate": 1.49728e-05, + "loss": 0.0109, + "step": 117825 + }, + { + "epoch": 0.754112, + "grad_norm": 0.16482293605804443, + "learning_rate": 1.497258666666667e-05, + "loss": 0.005, + "step": 117830 + }, + { + "epoch": 0.754144, + "grad_norm": 0.6447885036468506, + "learning_rate": 1.4972373333333335e-05, + "loss": 0.0079, + "step": 117835 + }, + { + "epoch": 0.754176, + "grad_norm": 0.8336877226829529, + "learning_rate": 1.4972160000000003e-05, + "loss": 0.0191, + "step": 117840 + }, + { + "epoch": 0.754208, + "grad_norm": 0.21193832159042358, + "learning_rate": 1.4971946666666669e-05, + "loss": 0.0172, + "step": 117845 + }, + { + "epoch": 0.75424, + "grad_norm": 0.1348966509103775, + "learning_rate": 1.4971733333333334e-05, + "loss": 0.0124, + "step": 117850 + }, + { + "epoch": 0.754272, + "grad_norm": 0.18645069003105164, + "learning_rate": 1.4971520000000002e-05, + "loss": 0.0125, + "step": 117855 + }, + { + "epoch": 0.754304, + "grad_norm": 0.6830195784568787, + "learning_rate": 1.4971306666666668e-05, + "loss": 0.0104, + "step": 117860 + }, + { + "epoch": 0.754336, + "grad_norm": 0.8626929521560669, + "learning_rate": 1.4971093333333335e-05, + "loss": 0.0224, + "step": 117865 + }, + { + "epoch": 0.754368, + "grad_norm": 0.21315591037273407, + "learning_rate": 1.4970880000000001e-05, + "loss": 0.0242, + "step": 117870 + }, + { + "epoch": 0.7544, + "grad_norm": 0.0886310562491417, + "learning_rate": 1.4970666666666669e-05, + "loss": 0.0034, + "step": 117875 + }, + { + "epoch": 0.754432, + "grad_norm": 0.4660581648349762, + "learning_rate": 1.4970453333333335e-05, + "loss": 0.0114, + "step": 117880 + }, + { + "epoch": 0.754464, + "grad_norm": 0.08083562552928925, + "learning_rate": 1.497024e-05, + "loss": 0.0123, + "step": 117885 + }, + { + "epoch": 0.754496, + "grad_norm": 0.1256408393383026, + "learning_rate": 1.4970026666666668e-05, + "loss": 0.008, + "step": 117890 + }, + { + "epoch": 0.754528, + "grad_norm": 0.055574722588062286, + "learning_rate": 1.4969813333333334e-05, + "loss": 0.0098, + "step": 117895 + }, + { + "epoch": 0.75456, + "grad_norm": 0.5306127071380615, + "learning_rate": 1.4969600000000001e-05, + "loss": 0.0108, + "step": 117900 + }, + { + "epoch": 0.754592, + "grad_norm": 0.0687885582447052, + "learning_rate": 1.4969386666666667e-05, + "loss": 0.0054, + "step": 117905 + }, + { + "epoch": 0.754624, + "grad_norm": 0.19492366909980774, + "learning_rate": 1.4969173333333335e-05, + "loss": 0.0044, + "step": 117910 + }, + { + "epoch": 0.754656, + "grad_norm": 0.35084736347198486, + "learning_rate": 1.496896e-05, + "loss": 0.0068, + "step": 117915 + }, + { + "epoch": 0.754688, + "grad_norm": 0.8296476602554321, + "learning_rate": 1.4968746666666667e-05, + "loss": 0.0064, + "step": 117920 + }, + { + "epoch": 0.75472, + "grad_norm": 2.9859819412231445, + "learning_rate": 1.4968533333333334e-05, + "loss": 0.0146, + "step": 117925 + }, + { + "epoch": 0.754752, + "grad_norm": 0.9739839434623718, + "learning_rate": 1.496832e-05, + "loss": 0.0064, + "step": 117930 + }, + { + "epoch": 0.754784, + "grad_norm": 0.7278710603713989, + "learning_rate": 1.496810666666667e-05, + "loss": 0.0095, + "step": 117935 + }, + { + "epoch": 0.754816, + "grad_norm": 0.2804659307003021, + "learning_rate": 1.4967893333333333e-05, + "loss": 0.007, + "step": 117940 + }, + { + "epoch": 0.754848, + "grad_norm": 0.31534814834594727, + "learning_rate": 1.4967680000000003e-05, + "loss": 0.019, + "step": 117945 + }, + { + "epoch": 0.75488, + "grad_norm": 0.08689728379249573, + "learning_rate": 1.4967466666666669e-05, + "loss": 0.01, + "step": 117950 + }, + { + "epoch": 0.754912, + "grad_norm": 1.2698659896850586, + "learning_rate": 1.4967253333333334e-05, + "loss": 0.0165, + "step": 117955 + }, + { + "epoch": 0.754944, + "grad_norm": 0.014952372759580612, + "learning_rate": 1.4967040000000002e-05, + "loss": 0.0077, + "step": 117960 + }, + { + "epoch": 0.754976, + "grad_norm": 0.10909813642501831, + "learning_rate": 1.4966826666666668e-05, + "loss": 0.0068, + "step": 117965 + }, + { + "epoch": 0.755008, + "grad_norm": 0.10610300302505493, + "learning_rate": 1.4966613333333335e-05, + "loss": 0.0074, + "step": 117970 + }, + { + "epoch": 0.75504, + "grad_norm": 0.1648530811071396, + "learning_rate": 1.4966400000000001e-05, + "loss": 0.004, + "step": 117975 + }, + { + "epoch": 0.755072, + "grad_norm": 0.32364773750305176, + "learning_rate": 1.4966186666666669e-05, + "loss": 0.0082, + "step": 117980 + }, + { + "epoch": 0.755104, + "grad_norm": 0.12182873487472534, + "learning_rate": 1.4965973333333335e-05, + "loss": 0.0069, + "step": 117985 + }, + { + "epoch": 0.755136, + "grad_norm": 3.604135036468506, + "learning_rate": 1.496576e-05, + "loss": 0.034, + "step": 117990 + }, + { + "epoch": 0.755168, + "grad_norm": 1.0020159482955933, + "learning_rate": 1.4965546666666668e-05, + "loss": 0.0133, + "step": 117995 + }, + { + "epoch": 0.7552, + "grad_norm": 0.1173817366361618, + "learning_rate": 1.4965333333333334e-05, + "loss": 0.0476, + "step": 118000 + }, + { + "epoch": 0.755232, + "grad_norm": 0.17117567360401154, + "learning_rate": 1.4965120000000001e-05, + "loss": 0.006, + "step": 118005 + }, + { + "epoch": 0.755264, + "grad_norm": 1.2276896238327026, + "learning_rate": 1.4964906666666667e-05, + "loss": 0.0096, + "step": 118010 + }, + { + "epoch": 0.755296, + "grad_norm": 0.181462824344635, + "learning_rate": 1.4964693333333335e-05, + "loss": 0.003, + "step": 118015 + }, + { + "epoch": 0.755328, + "grad_norm": 0.44580379128456116, + "learning_rate": 1.496448e-05, + "loss": 0.0171, + "step": 118020 + }, + { + "epoch": 0.75536, + "grad_norm": 0.08110474795103073, + "learning_rate": 1.4964266666666667e-05, + "loss": 0.0042, + "step": 118025 + }, + { + "epoch": 0.755392, + "grad_norm": 0.14957565069198608, + "learning_rate": 1.4964053333333334e-05, + "loss": 0.0115, + "step": 118030 + }, + { + "epoch": 0.755424, + "grad_norm": 0.4679313600063324, + "learning_rate": 1.496384e-05, + "loss": 0.0085, + "step": 118035 + }, + { + "epoch": 0.755456, + "grad_norm": 2.0917627811431885, + "learning_rate": 1.496362666666667e-05, + "loss": 0.0308, + "step": 118040 + }, + { + "epoch": 0.755488, + "grad_norm": 0.19136656820774078, + "learning_rate": 1.4963413333333333e-05, + "loss": 0.0064, + "step": 118045 + }, + { + "epoch": 0.75552, + "grad_norm": 0.5322260856628418, + "learning_rate": 1.4963200000000003e-05, + "loss": 0.0069, + "step": 118050 + }, + { + "epoch": 0.755552, + "grad_norm": 1.1311910152435303, + "learning_rate": 1.4962986666666669e-05, + "loss": 0.0185, + "step": 118055 + }, + { + "epoch": 0.755584, + "grad_norm": 0.02573939599096775, + "learning_rate": 1.4962773333333334e-05, + "loss": 0.0041, + "step": 118060 + }, + { + "epoch": 0.755616, + "grad_norm": 0.20928749442100525, + "learning_rate": 1.4962560000000002e-05, + "loss": 0.0067, + "step": 118065 + }, + { + "epoch": 0.755648, + "grad_norm": 0.4701765775680542, + "learning_rate": 1.4962346666666668e-05, + "loss": 0.0088, + "step": 118070 + }, + { + "epoch": 0.75568, + "grad_norm": 0.7014572024345398, + "learning_rate": 1.4962133333333335e-05, + "loss": 0.0129, + "step": 118075 + }, + { + "epoch": 0.755712, + "grad_norm": 0.08750047534704208, + "learning_rate": 1.4961920000000001e-05, + "loss": 0.0198, + "step": 118080 + }, + { + "epoch": 0.755744, + "grad_norm": 0.24424606561660767, + "learning_rate": 1.4961706666666669e-05, + "loss": 0.0028, + "step": 118085 + }, + { + "epoch": 0.755776, + "grad_norm": 0.2831020653247833, + "learning_rate": 1.4961493333333335e-05, + "loss": 0.0072, + "step": 118090 + }, + { + "epoch": 0.755808, + "grad_norm": 0.05995515361428261, + "learning_rate": 1.496128e-05, + "loss": 0.0076, + "step": 118095 + }, + { + "epoch": 0.75584, + "grad_norm": 2.0238871574401855, + "learning_rate": 1.4961066666666668e-05, + "loss": 0.0172, + "step": 118100 + }, + { + "epoch": 0.755872, + "grad_norm": 0.44091352820396423, + "learning_rate": 1.4960853333333334e-05, + "loss": 0.0251, + "step": 118105 + }, + { + "epoch": 0.755904, + "grad_norm": 0.90587317943573, + "learning_rate": 1.4960640000000001e-05, + "loss": 0.0221, + "step": 118110 + }, + { + "epoch": 0.755936, + "grad_norm": 1.1367510557174683, + "learning_rate": 1.4960426666666667e-05, + "loss": 0.0145, + "step": 118115 + }, + { + "epoch": 0.755968, + "grad_norm": 0.12916961312294006, + "learning_rate": 1.4960213333333335e-05, + "loss": 0.0047, + "step": 118120 + }, + { + "epoch": 0.756, + "grad_norm": 0.007828089408576488, + "learning_rate": 1.496e-05, + "loss": 0.0277, + "step": 118125 + }, + { + "epoch": 0.756032, + "grad_norm": 1.3422054052352905, + "learning_rate": 1.4959786666666667e-05, + "loss": 0.0183, + "step": 118130 + }, + { + "epoch": 0.756064, + "grad_norm": 0.5787317156791687, + "learning_rate": 1.4959573333333334e-05, + "loss": 0.0076, + "step": 118135 + }, + { + "epoch": 0.756096, + "grad_norm": 0.16545364260673523, + "learning_rate": 1.495936e-05, + "loss": 0.0211, + "step": 118140 + }, + { + "epoch": 0.756128, + "grad_norm": 0.3843974173069, + "learning_rate": 1.495914666666667e-05, + "loss": 0.0049, + "step": 118145 + }, + { + "epoch": 0.75616, + "grad_norm": 0.6076486110687256, + "learning_rate": 1.4958933333333333e-05, + "loss": 0.0317, + "step": 118150 + }, + { + "epoch": 0.756192, + "grad_norm": 0.33935755491256714, + "learning_rate": 1.4958720000000003e-05, + "loss": 0.0089, + "step": 118155 + }, + { + "epoch": 0.756224, + "grad_norm": 0.20240041613578796, + "learning_rate": 1.4958506666666669e-05, + "loss": 0.0041, + "step": 118160 + }, + { + "epoch": 0.756256, + "grad_norm": 0.875815749168396, + "learning_rate": 1.4958293333333333e-05, + "loss": 0.0082, + "step": 118165 + }, + { + "epoch": 0.756288, + "grad_norm": 0.4606819450855255, + "learning_rate": 1.4958080000000002e-05, + "loss": 0.0086, + "step": 118170 + }, + { + "epoch": 0.75632, + "grad_norm": 0.7473684549331665, + "learning_rate": 1.4957866666666668e-05, + "loss": 0.0104, + "step": 118175 + }, + { + "epoch": 0.756352, + "grad_norm": 0.35279107093811035, + "learning_rate": 1.4957653333333335e-05, + "loss": 0.0054, + "step": 118180 + }, + { + "epoch": 0.756384, + "grad_norm": 0.21058973670005798, + "learning_rate": 1.4957440000000001e-05, + "loss": 0.0221, + "step": 118185 + }, + { + "epoch": 0.756416, + "grad_norm": 0.2313690334558487, + "learning_rate": 1.4957226666666669e-05, + "loss": 0.0042, + "step": 118190 + }, + { + "epoch": 0.756448, + "grad_norm": 0.02643665485084057, + "learning_rate": 1.4957013333333335e-05, + "loss": 0.0023, + "step": 118195 + }, + { + "epoch": 0.75648, + "grad_norm": 0.03938823938369751, + "learning_rate": 1.49568e-05, + "loss": 0.0037, + "step": 118200 + }, + { + "epoch": 0.756512, + "grad_norm": 0.961349606513977, + "learning_rate": 1.4956586666666668e-05, + "loss": 0.0118, + "step": 118205 + }, + { + "epoch": 0.756544, + "grad_norm": 0.47350013256073, + "learning_rate": 1.4956373333333334e-05, + "loss": 0.0118, + "step": 118210 + }, + { + "epoch": 0.756576, + "grad_norm": 0.0508798211812973, + "learning_rate": 1.4956160000000001e-05, + "loss": 0.0058, + "step": 118215 + }, + { + "epoch": 0.756608, + "grad_norm": 0.8977180123329163, + "learning_rate": 1.4955946666666667e-05, + "loss": 0.0107, + "step": 118220 + }, + { + "epoch": 0.75664, + "grad_norm": 0.03176025301218033, + "learning_rate": 1.4955733333333335e-05, + "loss": 0.0029, + "step": 118225 + }, + { + "epoch": 0.756672, + "grad_norm": 0.7044583559036255, + "learning_rate": 1.495552e-05, + "loss": 0.0106, + "step": 118230 + }, + { + "epoch": 0.756704, + "grad_norm": 0.2638741135597229, + "learning_rate": 1.4955306666666667e-05, + "loss": 0.0192, + "step": 118235 + }, + { + "epoch": 0.756736, + "grad_norm": 0.4767190217971802, + "learning_rate": 1.4955093333333334e-05, + "loss": 0.0089, + "step": 118240 + }, + { + "epoch": 0.756768, + "grad_norm": 0.13599084317684174, + "learning_rate": 1.495488e-05, + "loss": 0.0038, + "step": 118245 + }, + { + "epoch": 0.7568, + "grad_norm": 0.447112500667572, + "learning_rate": 1.495466666666667e-05, + "loss": 0.0065, + "step": 118250 + }, + { + "epoch": 0.756832, + "grad_norm": 0.8791349530220032, + "learning_rate": 1.4954453333333333e-05, + "loss": 0.0102, + "step": 118255 + }, + { + "epoch": 0.756864, + "grad_norm": 0.19002746045589447, + "learning_rate": 1.4954240000000003e-05, + "loss": 0.0055, + "step": 118260 + }, + { + "epoch": 0.756896, + "grad_norm": 0.05886005982756615, + "learning_rate": 1.4954026666666669e-05, + "loss": 0.0056, + "step": 118265 + }, + { + "epoch": 0.756928, + "grad_norm": 0.026693375781178474, + "learning_rate": 1.4953813333333333e-05, + "loss": 0.0039, + "step": 118270 + }, + { + "epoch": 0.75696, + "grad_norm": 1.0757561922073364, + "learning_rate": 1.4953600000000002e-05, + "loss": 0.0212, + "step": 118275 + }, + { + "epoch": 0.756992, + "grad_norm": 0.2726590931415558, + "learning_rate": 1.4953386666666668e-05, + "loss": 0.0079, + "step": 118280 + }, + { + "epoch": 0.757024, + "grad_norm": 1.1667522192001343, + "learning_rate": 1.4953173333333335e-05, + "loss": 0.0138, + "step": 118285 + }, + { + "epoch": 0.757056, + "grad_norm": 0.03667023405432701, + "learning_rate": 1.4952960000000001e-05, + "loss": 0.0054, + "step": 118290 + }, + { + "epoch": 0.757088, + "grad_norm": 1.5962077379226685, + "learning_rate": 1.4952746666666669e-05, + "loss": 0.0199, + "step": 118295 + }, + { + "epoch": 0.75712, + "grad_norm": 0.16514649987220764, + "learning_rate": 1.4952533333333335e-05, + "loss": 0.0111, + "step": 118300 + }, + { + "epoch": 0.757152, + "grad_norm": 0.671869695186615, + "learning_rate": 1.495232e-05, + "loss": 0.0069, + "step": 118305 + }, + { + "epoch": 0.757184, + "grad_norm": 0.5470573306083679, + "learning_rate": 1.4952106666666668e-05, + "loss": 0.0046, + "step": 118310 + }, + { + "epoch": 0.757216, + "grad_norm": 0.1929115504026413, + "learning_rate": 1.4951893333333334e-05, + "loss": 0.0058, + "step": 118315 + }, + { + "epoch": 0.757248, + "grad_norm": 0.9786550402641296, + "learning_rate": 1.4951680000000001e-05, + "loss": 0.0097, + "step": 118320 + }, + { + "epoch": 0.75728, + "grad_norm": 0.35488998889923096, + "learning_rate": 1.4951466666666667e-05, + "loss": 0.0081, + "step": 118325 + }, + { + "epoch": 0.757312, + "grad_norm": 0.36345261335372925, + "learning_rate": 1.4951253333333335e-05, + "loss": 0.0064, + "step": 118330 + }, + { + "epoch": 0.757344, + "grad_norm": 0.32194626331329346, + "learning_rate": 1.495104e-05, + "loss": 0.0071, + "step": 118335 + }, + { + "epoch": 0.757376, + "grad_norm": 0.1402365118265152, + "learning_rate": 1.4950826666666667e-05, + "loss": 0.005, + "step": 118340 + }, + { + "epoch": 0.757408, + "grad_norm": 0.4423253834247589, + "learning_rate": 1.4950613333333334e-05, + "loss": 0.0169, + "step": 118345 + }, + { + "epoch": 0.75744, + "grad_norm": 0.06972796469926834, + "learning_rate": 1.49504e-05, + "loss": 0.0068, + "step": 118350 + }, + { + "epoch": 0.757472, + "grad_norm": 0.19960610568523407, + "learning_rate": 1.4950186666666668e-05, + "loss": 0.0029, + "step": 118355 + }, + { + "epoch": 0.757504, + "grad_norm": 4.235036849975586, + "learning_rate": 1.4949973333333333e-05, + "loss": 0.0225, + "step": 118360 + }, + { + "epoch": 0.757536, + "grad_norm": 0.6317840218544006, + "learning_rate": 1.4949760000000003e-05, + "loss": 0.0112, + "step": 118365 + }, + { + "epoch": 0.757568, + "grad_norm": 0.5558953881263733, + "learning_rate": 1.4949546666666669e-05, + "loss": 0.0088, + "step": 118370 + }, + { + "epoch": 0.7576, + "grad_norm": 0.21276365220546722, + "learning_rate": 1.4949333333333333e-05, + "loss": 0.013, + "step": 118375 + }, + { + "epoch": 0.757632, + "grad_norm": 0.16864611208438873, + "learning_rate": 1.4949120000000002e-05, + "loss": 0.0069, + "step": 118380 + }, + { + "epoch": 0.757664, + "grad_norm": 0.12567876279354095, + "learning_rate": 1.4948906666666668e-05, + "loss": 0.0092, + "step": 118385 + }, + { + "epoch": 0.757696, + "grad_norm": 0.2831944525241852, + "learning_rate": 1.4948693333333335e-05, + "loss": 0.0075, + "step": 118390 + }, + { + "epoch": 0.757728, + "grad_norm": 0.5596063137054443, + "learning_rate": 1.4948480000000001e-05, + "loss": 0.0177, + "step": 118395 + }, + { + "epoch": 0.75776, + "grad_norm": 0.15434253215789795, + "learning_rate": 1.4948266666666669e-05, + "loss": 0.0053, + "step": 118400 + }, + { + "epoch": 0.757792, + "grad_norm": 0.004389794077724218, + "learning_rate": 1.4948053333333335e-05, + "loss": 0.0219, + "step": 118405 + }, + { + "epoch": 0.757824, + "grad_norm": 0.4400317668914795, + "learning_rate": 1.494784e-05, + "loss": 0.0109, + "step": 118410 + }, + { + "epoch": 0.757856, + "grad_norm": 1.0276564359664917, + "learning_rate": 1.4947626666666668e-05, + "loss": 0.0107, + "step": 118415 + }, + { + "epoch": 0.757888, + "grad_norm": 0.22257231175899506, + "learning_rate": 1.4947413333333334e-05, + "loss": 0.0144, + "step": 118420 + }, + { + "epoch": 0.75792, + "grad_norm": 0.9367735981941223, + "learning_rate": 1.4947200000000001e-05, + "loss": 0.0109, + "step": 118425 + }, + { + "epoch": 0.757952, + "grad_norm": 0.2544938027858734, + "learning_rate": 1.4946986666666667e-05, + "loss": 0.01, + "step": 118430 + }, + { + "epoch": 0.757984, + "grad_norm": 0.20549358427524567, + "learning_rate": 1.4946773333333335e-05, + "loss": 0.0061, + "step": 118435 + }, + { + "epoch": 0.758016, + "grad_norm": 0.40029028058052063, + "learning_rate": 1.494656e-05, + "loss": 0.0262, + "step": 118440 + }, + { + "epoch": 0.758048, + "grad_norm": 1.4869966506958008, + "learning_rate": 1.4946346666666667e-05, + "loss": 0.0314, + "step": 118445 + }, + { + "epoch": 0.75808, + "grad_norm": 0.3309098184108734, + "learning_rate": 1.4946133333333334e-05, + "loss": 0.0225, + "step": 118450 + }, + { + "epoch": 0.758112, + "grad_norm": 0.7576994895935059, + "learning_rate": 1.494592e-05, + "loss": 0.0066, + "step": 118455 + }, + { + "epoch": 0.758144, + "grad_norm": 0.9165310263633728, + "learning_rate": 1.4945706666666668e-05, + "loss": 0.0064, + "step": 118460 + }, + { + "epoch": 0.758176, + "grad_norm": 0.07268745452165604, + "learning_rate": 1.4945493333333333e-05, + "loss": 0.0063, + "step": 118465 + }, + { + "epoch": 0.758208, + "grad_norm": 0.5290085077285767, + "learning_rate": 1.4945280000000003e-05, + "loss": 0.0099, + "step": 118470 + }, + { + "epoch": 0.75824, + "grad_norm": 0.3140592873096466, + "learning_rate": 1.4945066666666669e-05, + "loss": 0.0203, + "step": 118475 + }, + { + "epoch": 0.758272, + "grad_norm": 0.9361559748649597, + "learning_rate": 1.4944853333333336e-05, + "loss": 0.023, + "step": 118480 + }, + { + "epoch": 0.758304, + "grad_norm": 0.3170022666454315, + "learning_rate": 1.4944640000000002e-05, + "loss": 0.017, + "step": 118485 + }, + { + "epoch": 0.758336, + "grad_norm": 0.15869735181331635, + "learning_rate": 1.4944426666666668e-05, + "loss": 0.0111, + "step": 118490 + }, + { + "epoch": 0.758368, + "grad_norm": 0.06432375311851501, + "learning_rate": 1.4944213333333335e-05, + "loss": 0.0072, + "step": 118495 + }, + { + "epoch": 0.7584, + "grad_norm": 1.0528085231781006, + "learning_rate": 1.4944000000000001e-05, + "loss": 0.0071, + "step": 118500 + }, + { + "epoch": 0.758432, + "grad_norm": 0.08911164849996567, + "learning_rate": 1.4943786666666669e-05, + "loss": 0.0042, + "step": 118505 + }, + { + "epoch": 0.758464, + "grad_norm": 0.15001638233661652, + "learning_rate": 1.4943573333333335e-05, + "loss": 0.0115, + "step": 118510 + }, + { + "epoch": 0.758496, + "grad_norm": 0.05397137254476547, + "learning_rate": 1.4943360000000002e-05, + "loss": 0.004, + "step": 118515 + }, + { + "epoch": 0.758528, + "grad_norm": 0.5312726497650146, + "learning_rate": 1.4943146666666668e-05, + "loss": 0.0169, + "step": 118520 + }, + { + "epoch": 0.75856, + "grad_norm": 0.05907026305794716, + "learning_rate": 1.4942933333333334e-05, + "loss": 0.0067, + "step": 118525 + }, + { + "epoch": 0.758592, + "grad_norm": 0.781097948551178, + "learning_rate": 1.4942720000000001e-05, + "loss": 0.0103, + "step": 118530 + }, + { + "epoch": 0.758624, + "grad_norm": 0.7345236539840698, + "learning_rate": 1.4942506666666667e-05, + "loss": 0.0127, + "step": 118535 + }, + { + "epoch": 0.758656, + "grad_norm": 0.09121860563755035, + "learning_rate": 1.4942293333333335e-05, + "loss": 0.0074, + "step": 118540 + }, + { + "epoch": 0.758688, + "grad_norm": 0.029712211340665817, + "learning_rate": 1.494208e-05, + "loss": 0.0077, + "step": 118545 + }, + { + "epoch": 0.75872, + "grad_norm": 0.325449675321579, + "learning_rate": 1.4941866666666668e-05, + "loss": 0.0033, + "step": 118550 + }, + { + "epoch": 0.758752, + "grad_norm": 0.2913060486316681, + "learning_rate": 1.4941653333333334e-05, + "loss": 0.0053, + "step": 118555 + }, + { + "epoch": 0.758784, + "grad_norm": 0.6499882936477661, + "learning_rate": 1.494144e-05, + "loss": 0.0068, + "step": 118560 + }, + { + "epoch": 0.758816, + "grad_norm": 3.6591506004333496, + "learning_rate": 1.4941226666666668e-05, + "loss": 0.0208, + "step": 118565 + }, + { + "epoch": 0.758848, + "grad_norm": 0.11633652448654175, + "learning_rate": 1.4941013333333333e-05, + "loss": 0.0028, + "step": 118570 + }, + { + "epoch": 0.75888, + "grad_norm": 0.5049077272415161, + "learning_rate": 1.4940800000000003e-05, + "loss": 0.0074, + "step": 118575 + }, + { + "epoch": 0.758912, + "grad_norm": 0.41085290908813477, + "learning_rate": 1.4940586666666667e-05, + "loss": 0.029, + "step": 118580 + }, + { + "epoch": 0.758944, + "grad_norm": 0.23929451406002045, + "learning_rate": 1.4940373333333336e-05, + "loss": 0.0023, + "step": 118585 + }, + { + "epoch": 0.758976, + "grad_norm": 0.30219048261642456, + "learning_rate": 1.4940160000000002e-05, + "loss": 0.0067, + "step": 118590 + }, + { + "epoch": 0.759008, + "grad_norm": 0.17009437084197998, + "learning_rate": 1.4939946666666668e-05, + "loss": 0.0067, + "step": 118595 + }, + { + "epoch": 0.75904, + "grad_norm": 0.10671144723892212, + "learning_rate": 1.4939733333333335e-05, + "loss": 0.0055, + "step": 118600 + }, + { + "epoch": 0.759072, + "grad_norm": 0.1634073704481125, + "learning_rate": 1.4939520000000001e-05, + "loss": 0.0097, + "step": 118605 + }, + { + "epoch": 0.759104, + "grad_norm": 0.7651265263557434, + "learning_rate": 1.4939306666666669e-05, + "loss": 0.0237, + "step": 118610 + }, + { + "epoch": 0.759136, + "grad_norm": 0.7369280457496643, + "learning_rate": 1.4939093333333335e-05, + "loss": 0.0161, + "step": 118615 + }, + { + "epoch": 0.759168, + "grad_norm": 0.3541727364063263, + "learning_rate": 1.4938880000000002e-05, + "loss": 0.0099, + "step": 118620 + }, + { + "epoch": 0.7592, + "grad_norm": 0.4875190854072571, + "learning_rate": 1.4938666666666668e-05, + "loss": 0.0071, + "step": 118625 + }, + { + "epoch": 0.759232, + "grad_norm": 2.667175531387329, + "learning_rate": 1.4938453333333334e-05, + "loss": 0.0118, + "step": 118630 + }, + { + "epoch": 0.759264, + "grad_norm": 0.2766687572002411, + "learning_rate": 1.4938240000000001e-05, + "loss": 0.0087, + "step": 118635 + }, + { + "epoch": 0.759296, + "grad_norm": 0.24921096861362457, + "learning_rate": 1.4938026666666667e-05, + "loss": 0.0259, + "step": 118640 + }, + { + "epoch": 0.759328, + "grad_norm": 0.025535250082612038, + "learning_rate": 1.4937813333333335e-05, + "loss": 0.0076, + "step": 118645 + }, + { + "epoch": 0.75936, + "grad_norm": 0.17614391446113586, + "learning_rate": 1.49376e-05, + "loss": 0.0114, + "step": 118650 + }, + { + "epoch": 0.759392, + "grad_norm": 0.1727425456047058, + "learning_rate": 1.4937386666666668e-05, + "loss": 0.0098, + "step": 118655 + }, + { + "epoch": 0.759424, + "grad_norm": 0.2860125005245209, + "learning_rate": 1.4937173333333334e-05, + "loss": 0.0038, + "step": 118660 + }, + { + "epoch": 0.759456, + "grad_norm": 0.37398311495780945, + "learning_rate": 1.493696e-05, + "loss": 0.0107, + "step": 118665 + }, + { + "epoch": 0.759488, + "grad_norm": 1.0512745380401611, + "learning_rate": 1.4936746666666668e-05, + "loss": 0.0078, + "step": 118670 + }, + { + "epoch": 0.75952, + "grad_norm": 0.01413405779749155, + "learning_rate": 1.4936533333333333e-05, + "loss": 0.0122, + "step": 118675 + }, + { + "epoch": 0.759552, + "grad_norm": 0.5003154873847961, + "learning_rate": 1.4936320000000003e-05, + "loss": 0.0081, + "step": 118680 + }, + { + "epoch": 0.759584, + "grad_norm": 0.3441680669784546, + "learning_rate": 1.4936106666666667e-05, + "loss": 0.0048, + "step": 118685 + }, + { + "epoch": 0.759616, + "grad_norm": 1.3853094577789307, + "learning_rate": 1.4935893333333336e-05, + "loss": 0.0085, + "step": 118690 + }, + { + "epoch": 0.759648, + "grad_norm": 0.475716233253479, + "learning_rate": 1.4935680000000002e-05, + "loss": 0.0068, + "step": 118695 + }, + { + "epoch": 0.75968, + "grad_norm": 0.1985277235507965, + "learning_rate": 1.4935466666666668e-05, + "loss": 0.0147, + "step": 118700 + }, + { + "epoch": 0.759712, + "grad_norm": 0.22893591225147247, + "learning_rate": 1.4935253333333335e-05, + "loss": 0.0177, + "step": 118705 + }, + { + "epoch": 0.759744, + "grad_norm": 0.3132578134536743, + "learning_rate": 1.4935040000000001e-05, + "loss": 0.008, + "step": 118710 + }, + { + "epoch": 0.759776, + "grad_norm": 0.11836646497249603, + "learning_rate": 1.4934826666666669e-05, + "loss": 0.0085, + "step": 118715 + }, + { + "epoch": 0.759808, + "grad_norm": 0.430298775434494, + "learning_rate": 1.4934613333333335e-05, + "loss": 0.0139, + "step": 118720 + }, + { + "epoch": 0.75984, + "grad_norm": 0.21540741622447968, + "learning_rate": 1.4934400000000002e-05, + "loss": 0.0186, + "step": 118725 + }, + { + "epoch": 0.759872, + "grad_norm": 0.09272154420614243, + "learning_rate": 1.4934186666666668e-05, + "loss": 0.0082, + "step": 118730 + }, + { + "epoch": 0.759904, + "grad_norm": 0.08230824768543243, + "learning_rate": 1.4933973333333334e-05, + "loss": 0.012, + "step": 118735 + }, + { + "epoch": 0.759936, + "grad_norm": 0.16265755891799927, + "learning_rate": 1.4933760000000002e-05, + "loss": 0.0062, + "step": 118740 + }, + { + "epoch": 0.759968, + "grad_norm": 0.19339773058891296, + "learning_rate": 1.4933546666666667e-05, + "loss": 0.0048, + "step": 118745 + }, + { + "epoch": 0.76, + "grad_norm": 0.9533739686012268, + "learning_rate": 1.4933333333333335e-05, + "loss": 0.0065, + "step": 118750 + }, + { + "epoch": 0.760032, + "grad_norm": 0.6969600915908813, + "learning_rate": 1.493312e-05, + "loss": 0.0146, + "step": 118755 + }, + { + "epoch": 0.760064, + "grad_norm": 0.1643267273902893, + "learning_rate": 1.4932906666666668e-05, + "loss": 0.0028, + "step": 118760 + }, + { + "epoch": 0.760096, + "grad_norm": 0.33663541078567505, + "learning_rate": 1.4932693333333334e-05, + "loss": 0.0066, + "step": 118765 + }, + { + "epoch": 0.760128, + "grad_norm": 0.6941505074501038, + "learning_rate": 1.493248e-05, + "loss": 0.0098, + "step": 118770 + }, + { + "epoch": 0.76016, + "grad_norm": 0.3840115964412689, + "learning_rate": 1.4932266666666668e-05, + "loss": 0.0061, + "step": 118775 + }, + { + "epoch": 0.760192, + "grad_norm": 0.9133305549621582, + "learning_rate": 1.4932053333333333e-05, + "loss": 0.0186, + "step": 118780 + }, + { + "epoch": 0.760224, + "grad_norm": 0.6369048953056335, + "learning_rate": 1.4931840000000003e-05, + "loss": 0.0093, + "step": 118785 + }, + { + "epoch": 0.760256, + "grad_norm": 0.7840215563774109, + "learning_rate": 1.4931626666666667e-05, + "loss": 0.0259, + "step": 118790 + }, + { + "epoch": 0.760288, + "grad_norm": 0.06529492884874344, + "learning_rate": 1.4931413333333336e-05, + "loss": 0.0073, + "step": 118795 + }, + { + "epoch": 0.76032, + "grad_norm": 0.3237624168395996, + "learning_rate": 1.4931200000000002e-05, + "loss": 0.0044, + "step": 118800 + }, + { + "epoch": 0.760352, + "grad_norm": 0.21374984085559845, + "learning_rate": 1.4930986666666666e-05, + "loss": 0.0088, + "step": 118805 + }, + { + "epoch": 0.760384, + "grad_norm": 0.04223901778459549, + "learning_rate": 1.4930773333333335e-05, + "loss": 0.0053, + "step": 118810 + }, + { + "epoch": 0.760416, + "grad_norm": 0.06023775413632393, + "learning_rate": 1.4930560000000001e-05, + "loss": 0.0047, + "step": 118815 + }, + { + "epoch": 0.760448, + "grad_norm": 0.038829125463962555, + "learning_rate": 1.4930346666666669e-05, + "loss": 0.0109, + "step": 118820 + }, + { + "epoch": 0.76048, + "grad_norm": 0.28561368584632874, + "learning_rate": 1.4930133333333335e-05, + "loss": 0.0061, + "step": 118825 + }, + { + "epoch": 0.760512, + "grad_norm": 0.3911283612251282, + "learning_rate": 1.4929920000000002e-05, + "loss": 0.0152, + "step": 118830 + }, + { + "epoch": 0.760544, + "grad_norm": 1.4279357194900513, + "learning_rate": 1.4929706666666668e-05, + "loss": 0.0368, + "step": 118835 + }, + { + "epoch": 0.760576, + "grad_norm": 0.07220984250307083, + "learning_rate": 1.4929493333333334e-05, + "loss": 0.0073, + "step": 118840 + }, + { + "epoch": 0.760608, + "grad_norm": 0.32737404108047485, + "learning_rate": 1.4929280000000002e-05, + "loss": 0.0145, + "step": 118845 + }, + { + "epoch": 0.76064, + "grad_norm": 0.18731538951396942, + "learning_rate": 1.4929066666666667e-05, + "loss": 0.0067, + "step": 118850 + }, + { + "epoch": 0.760672, + "grad_norm": 0.30422767996788025, + "learning_rate": 1.4928853333333335e-05, + "loss": 0.0047, + "step": 118855 + }, + { + "epoch": 0.760704, + "grad_norm": 0.5197527408599854, + "learning_rate": 1.492864e-05, + "loss": 0.0049, + "step": 118860 + }, + { + "epoch": 0.760736, + "grad_norm": 0.4474335014820099, + "learning_rate": 1.4928426666666668e-05, + "loss": 0.0228, + "step": 118865 + }, + { + "epoch": 0.760768, + "grad_norm": 0.04868046194314957, + "learning_rate": 1.4928213333333334e-05, + "loss": 0.0125, + "step": 118870 + }, + { + "epoch": 0.7608, + "grad_norm": 0.2978438436985016, + "learning_rate": 1.4928e-05, + "loss": 0.0022, + "step": 118875 + }, + { + "epoch": 0.760832, + "grad_norm": 0.6880240440368652, + "learning_rate": 1.4927786666666668e-05, + "loss": 0.0064, + "step": 118880 + }, + { + "epoch": 0.760864, + "grad_norm": 1.8611775636672974, + "learning_rate": 1.4927573333333333e-05, + "loss": 0.0136, + "step": 118885 + }, + { + "epoch": 0.760896, + "grad_norm": 0.13381974399089813, + "learning_rate": 1.4927360000000001e-05, + "loss": 0.0064, + "step": 118890 + }, + { + "epoch": 0.760928, + "grad_norm": 0.37636396288871765, + "learning_rate": 1.4927146666666667e-05, + "loss": 0.0059, + "step": 118895 + }, + { + "epoch": 0.76096, + "grad_norm": 0.08349239826202393, + "learning_rate": 1.4926933333333336e-05, + "loss": 0.0119, + "step": 118900 + }, + { + "epoch": 0.760992, + "grad_norm": 0.031171046197414398, + "learning_rate": 1.4926720000000002e-05, + "loss": 0.02, + "step": 118905 + }, + { + "epoch": 0.761024, + "grad_norm": 1.1048157215118408, + "learning_rate": 1.4926506666666666e-05, + "loss": 0.0091, + "step": 118910 + }, + { + "epoch": 0.761056, + "grad_norm": 0.4172511696815491, + "learning_rate": 1.4926293333333335e-05, + "loss": 0.0104, + "step": 118915 + }, + { + "epoch": 0.761088, + "grad_norm": 0.814826488494873, + "learning_rate": 1.4926080000000001e-05, + "loss": 0.0164, + "step": 118920 + }, + { + "epoch": 0.76112, + "grad_norm": 0.013101832941174507, + "learning_rate": 1.4925866666666669e-05, + "loss": 0.0038, + "step": 118925 + }, + { + "epoch": 0.761152, + "grad_norm": 0.028108688071370125, + "learning_rate": 1.4925653333333335e-05, + "loss": 0.0171, + "step": 118930 + }, + { + "epoch": 0.761184, + "grad_norm": 0.12731598317623138, + "learning_rate": 1.4925440000000002e-05, + "loss": 0.0094, + "step": 118935 + }, + { + "epoch": 0.761216, + "grad_norm": 0.7626954913139343, + "learning_rate": 1.4925226666666668e-05, + "loss": 0.009, + "step": 118940 + }, + { + "epoch": 0.761248, + "grad_norm": 0.3662979304790497, + "learning_rate": 1.4925013333333334e-05, + "loss": 0.0187, + "step": 118945 + }, + { + "epoch": 0.76128, + "grad_norm": 0.3033585548400879, + "learning_rate": 1.4924800000000002e-05, + "loss": 0.009, + "step": 118950 + }, + { + "epoch": 0.761312, + "grad_norm": 0.6409531235694885, + "learning_rate": 1.4924586666666667e-05, + "loss": 0.0091, + "step": 118955 + }, + { + "epoch": 0.761344, + "grad_norm": 0.3762250244617462, + "learning_rate": 1.4924373333333335e-05, + "loss": 0.0323, + "step": 118960 + }, + { + "epoch": 0.761376, + "grad_norm": 0.17209599912166595, + "learning_rate": 1.492416e-05, + "loss": 0.0074, + "step": 118965 + }, + { + "epoch": 0.761408, + "grad_norm": 1.3790138959884644, + "learning_rate": 1.4923946666666668e-05, + "loss": 0.0259, + "step": 118970 + }, + { + "epoch": 0.76144, + "grad_norm": 0.054365962743759155, + "learning_rate": 1.4923733333333334e-05, + "loss": 0.0176, + "step": 118975 + }, + { + "epoch": 0.761472, + "grad_norm": 0.37363922595977783, + "learning_rate": 1.492352e-05, + "loss": 0.03, + "step": 118980 + }, + { + "epoch": 0.761504, + "grad_norm": 0.5288213491439819, + "learning_rate": 1.4923306666666668e-05, + "loss": 0.0184, + "step": 118985 + }, + { + "epoch": 0.761536, + "grad_norm": 0.44892773032188416, + "learning_rate": 1.4923093333333333e-05, + "loss": 0.0028, + "step": 118990 + }, + { + "epoch": 0.761568, + "grad_norm": 1.871984839439392, + "learning_rate": 1.4922880000000001e-05, + "loss": 0.0114, + "step": 118995 + }, + { + "epoch": 0.7616, + "grad_norm": 0.04367702081799507, + "learning_rate": 1.4922666666666667e-05, + "loss": 0.0125, + "step": 119000 + }, + { + "epoch": 0.761632, + "grad_norm": 0.6474198698997498, + "learning_rate": 1.4922453333333336e-05, + "loss": 0.007, + "step": 119005 + }, + { + "epoch": 0.761664, + "grad_norm": 0.6530963182449341, + "learning_rate": 1.4922240000000002e-05, + "loss": 0.014, + "step": 119010 + }, + { + "epoch": 0.761696, + "grad_norm": 0.03100309520959854, + "learning_rate": 1.4922026666666666e-05, + "loss": 0.0085, + "step": 119015 + }, + { + "epoch": 0.761728, + "grad_norm": 0.15004627406597137, + "learning_rate": 1.4921813333333335e-05, + "loss": 0.0126, + "step": 119020 + }, + { + "epoch": 0.76176, + "grad_norm": 1.2016757726669312, + "learning_rate": 1.4921600000000001e-05, + "loss": 0.014, + "step": 119025 + }, + { + "epoch": 0.761792, + "grad_norm": 0.5484308004379272, + "learning_rate": 1.4921386666666669e-05, + "loss": 0.0039, + "step": 119030 + }, + { + "epoch": 0.761824, + "grad_norm": 1.1887766122817993, + "learning_rate": 1.4921173333333335e-05, + "loss": 0.0089, + "step": 119035 + }, + { + "epoch": 0.761856, + "grad_norm": 0.3436230421066284, + "learning_rate": 1.4920960000000002e-05, + "loss": 0.0037, + "step": 119040 + }, + { + "epoch": 0.761888, + "grad_norm": 0.0910118892788887, + "learning_rate": 1.4920746666666668e-05, + "loss": 0.0159, + "step": 119045 + }, + { + "epoch": 0.76192, + "grad_norm": 0.02741372399032116, + "learning_rate": 1.4920533333333334e-05, + "loss": 0.0041, + "step": 119050 + }, + { + "epoch": 0.761952, + "grad_norm": 0.03948087990283966, + "learning_rate": 1.4920320000000002e-05, + "loss": 0.0061, + "step": 119055 + }, + { + "epoch": 0.761984, + "grad_norm": 0.26703232526779175, + "learning_rate": 1.4920106666666667e-05, + "loss": 0.007, + "step": 119060 + }, + { + "epoch": 0.762016, + "grad_norm": 0.028461795300245285, + "learning_rate": 1.4919893333333335e-05, + "loss": 0.0054, + "step": 119065 + }, + { + "epoch": 0.762048, + "grad_norm": 0.16368092596530914, + "learning_rate": 1.491968e-05, + "loss": 0.0055, + "step": 119070 + }, + { + "epoch": 0.76208, + "grad_norm": 0.10013476014137268, + "learning_rate": 1.4919466666666668e-05, + "loss": 0.0088, + "step": 119075 + }, + { + "epoch": 0.762112, + "grad_norm": 2.4467263221740723, + "learning_rate": 1.4919253333333334e-05, + "loss": 0.0217, + "step": 119080 + }, + { + "epoch": 0.762144, + "grad_norm": 0.9655877351760864, + "learning_rate": 1.491904e-05, + "loss": 0.0424, + "step": 119085 + }, + { + "epoch": 0.762176, + "grad_norm": 0.18264596164226532, + "learning_rate": 1.4918826666666668e-05, + "loss": 0.0093, + "step": 119090 + }, + { + "epoch": 0.762208, + "grad_norm": 0.07052716612815857, + "learning_rate": 1.4918613333333333e-05, + "loss": 0.0094, + "step": 119095 + }, + { + "epoch": 0.76224, + "grad_norm": 0.5453333854675293, + "learning_rate": 1.4918400000000001e-05, + "loss": 0.0049, + "step": 119100 + }, + { + "epoch": 0.762272, + "grad_norm": 1.4571120738983154, + "learning_rate": 1.4918186666666667e-05, + "loss": 0.0033, + "step": 119105 + }, + { + "epoch": 0.762304, + "grad_norm": 0.24947233498096466, + "learning_rate": 1.4917973333333336e-05, + "loss": 0.005, + "step": 119110 + }, + { + "epoch": 0.762336, + "grad_norm": 0.32345885038375854, + "learning_rate": 1.491776e-05, + "loss": 0.0179, + "step": 119115 + }, + { + "epoch": 0.762368, + "grad_norm": 0.07466323673725128, + "learning_rate": 1.4917546666666666e-05, + "loss": 0.0067, + "step": 119120 + }, + { + "epoch": 0.7624, + "grad_norm": 0.16199029982089996, + "learning_rate": 1.4917333333333335e-05, + "loss": 0.0124, + "step": 119125 + }, + { + "epoch": 0.762432, + "grad_norm": 1.4261202812194824, + "learning_rate": 1.4917120000000001e-05, + "loss": 0.0083, + "step": 119130 + }, + { + "epoch": 0.762464, + "grad_norm": 0.35909736156463623, + "learning_rate": 1.4916906666666669e-05, + "loss": 0.0071, + "step": 119135 + }, + { + "epoch": 0.762496, + "grad_norm": 0.37576955556869507, + "learning_rate": 1.4916693333333335e-05, + "loss": 0.0131, + "step": 119140 + }, + { + "epoch": 0.762528, + "grad_norm": 0.2774055302143097, + "learning_rate": 1.4916480000000002e-05, + "loss": 0.016, + "step": 119145 + }, + { + "epoch": 0.76256, + "grad_norm": 0.20963887870311737, + "learning_rate": 1.4916266666666668e-05, + "loss": 0.0146, + "step": 119150 + }, + { + "epoch": 0.762592, + "grad_norm": 0.3480408489704132, + "learning_rate": 1.4916053333333334e-05, + "loss": 0.0084, + "step": 119155 + }, + { + "epoch": 0.762624, + "grad_norm": 0.17057888209819794, + "learning_rate": 1.4915840000000002e-05, + "loss": 0.0102, + "step": 119160 + }, + { + "epoch": 0.762656, + "grad_norm": 0.43222883343696594, + "learning_rate": 1.4915626666666667e-05, + "loss": 0.0048, + "step": 119165 + }, + { + "epoch": 0.762688, + "grad_norm": 0.5423287153244019, + "learning_rate": 1.4915413333333335e-05, + "loss": 0.0173, + "step": 119170 + }, + { + "epoch": 0.76272, + "grad_norm": 0.5883351564407349, + "learning_rate": 1.49152e-05, + "loss": 0.0117, + "step": 119175 + }, + { + "epoch": 0.762752, + "grad_norm": 0.13730527460575104, + "learning_rate": 1.4914986666666668e-05, + "loss": 0.0191, + "step": 119180 + }, + { + "epoch": 0.762784, + "grad_norm": 0.2970656454563141, + "learning_rate": 1.4914773333333334e-05, + "loss": 0.0075, + "step": 119185 + }, + { + "epoch": 0.762816, + "grad_norm": 0.4129413664340973, + "learning_rate": 1.491456e-05, + "loss": 0.0028, + "step": 119190 + }, + { + "epoch": 0.762848, + "grad_norm": 0.8922856450080872, + "learning_rate": 1.4914346666666668e-05, + "loss": 0.0087, + "step": 119195 + }, + { + "epoch": 0.76288, + "grad_norm": 0.00998330395668745, + "learning_rate": 1.4914133333333333e-05, + "loss": 0.0068, + "step": 119200 + }, + { + "epoch": 0.762912, + "grad_norm": 1.50343656539917, + "learning_rate": 1.4913920000000001e-05, + "loss": 0.0298, + "step": 119205 + }, + { + "epoch": 0.762944, + "grad_norm": 0.055386532098054886, + "learning_rate": 1.4913706666666667e-05, + "loss": 0.0184, + "step": 119210 + }, + { + "epoch": 0.762976, + "grad_norm": 0.36705300211906433, + "learning_rate": 1.4913493333333336e-05, + "loss": 0.0099, + "step": 119215 + }, + { + "epoch": 0.763008, + "grad_norm": 0.8653164505958557, + "learning_rate": 1.491328e-05, + "loss": 0.0154, + "step": 119220 + }, + { + "epoch": 0.76304, + "grad_norm": 0.4666442573070526, + "learning_rate": 1.4913066666666666e-05, + "loss": 0.0197, + "step": 119225 + }, + { + "epoch": 0.763072, + "grad_norm": 0.13465383648872375, + "learning_rate": 1.4912853333333335e-05, + "loss": 0.0085, + "step": 119230 + }, + { + "epoch": 0.763104, + "grad_norm": 0.7226046919822693, + "learning_rate": 1.4912640000000001e-05, + "loss": 0.013, + "step": 119235 + }, + { + "epoch": 0.763136, + "grad_norm": 0.9274981617927551, + "learning_rate": 1.4912426666666669e-05, + "loss": 0.0081, + "step": 119240 + }, + { + "epoch": 0.763168, + "grad_norm": 0.6030151844024658, + "learning_rate": 1.4912213333333335e-05, + "loss": 0.0097, + "step": 119245 + }, + { + "epoch": 0.7632, + "grad_norm": 1.1790351867675781, + "learning_rate": 1.4912000000000002e-05, + "loss": 0.0182, + "step": 119250 + }, + { + "epoch": 0.763232, + "grad_norm": 0.1256689429283142, + "learning_rate": 1.4911786666666668e-05, + "loss": 0.0067, + "step": 119255 + }, + { + "epoch": 0.763264, + "grad_norm": 0.4759131669998169, + "learning_rate": 1.4911573333333334e-05, + "loss": 0.0114, + "step": 119260 + }, + { + "epoch": 0.763296, + "grad_norm": 0.6805508136749268, + "learning_rate": 1.4911360000000002e-05, + "loss": 0.0074, + "step": 119265 + }, + { + "epoch": 0.763328, + "grad_norm": 0.9302850365638733, + "learning_rate": 1.4911146666666667e-05, + "loss": 0.0069, + "step": 119270 + }, + { + "epoch": 0.76336, + "grad_norm": 0.7271798253059387, + "learning_rate": 1.4910933333333335e-05, + "loss": 0.0055, + "step": 119275 + }, + { + "epoch": 0.763392, + "grad_norm": 0.22887678444385529, + "learning_rate": 1.491072e-05, + "loss": 0.0099, + "step": 119280 + }, + { + "epoch": 0.763424, + "grad_norm": 0.21172663569450378, + "learning_rate": 1.4910506666666668e-05, + "loss": 0.0103, + "step": 119285 + }, + { + "epoch": 0.763456, + "grad_norm": 0.47960788011550903, + "learning_rate": 1.4910293333333334e-05, + "loss": 0.0179, + "step": 119290 + }, + { + "epoch": 0.763488, + "grad_norm": 0.46172571182250977, + "learning_rate": 1.491008e-05, + "loss": 0.0041, + "step": 119295 + }, + { + "epoch": 0.76352, + "grad_norm": 0.07617034763097763, + "learning_rate": 1.4909866666666668e-05, + "loss": 0.0178, + "step": 119300 + }, + { + "epoch": 0.763552, + "grad_norm": 0.24209612607955933, + "learning_rate": 1.4909653333333333e-05, + "loss": 0.004, + "step": 119305 + }, + { + "epoch": 0.763584, + "grad_norm": 0.5000105500221252, + "learning_rate": 1.4909440000000001e-05, + "loss": 0.0057, + "step": 119310 + }, + { + "epoch": 0.763616, + "grad_norm": 0.46875107288360596, + "learning_rate": 1.4909226666666667e-05, + "loss": 0.0129, + "step": 119315 + }, + { + "epoch": 0.763648, + "grad_norm": 0.19950608909130096, + "learning_rate": 1.4909013333333336e-05, + "loss": 0.0202, + "step": 119320 + }, + { + "epoch": 0.76368, + "grad_norm": 0.25484374165534973, + "learning_rate": 1.49088e-05, + "loss": 0.0059, + "step": 119325 + }, + { + "epoch": 0.763712, + "grad_norm": 0.19181449711322784, + "learning_rate": 1.490858666666667e-05, + "loss": 0.0063, + "step": 119330 + }, + { + "epoch": 0.763744, + "grad_norm": 0.07411930710077286, + "learning_rate": 1.4908373333333335e-05, + "loss": 0.025, + "step": 119335 + }, + { + "epoch": 0.763776, + "grad_norm": 0.17492298781871796, + "learning_rate": 1.490816e-05, + "loss": 0.0078, + "step": 119340 + }, + { + "epoch": 0.763808, + "grad_norm": 0.7532479166984558, + "learning_rate": 1.4907946666666669e-05, + "loss": 0.0094, + "step": 119345 + }, + { + "epoch": 0.76384, + "grad_norm": 0.5153890252113342, + "learning_rate": 1.4907733333333335e-05, + "loss": 0.0163, + "step": 119350 + }, + { + "epoch": 0.763872, + "grad_norm": 0.07017763704061508, + "learning_rate": 1.4907520000000002e-05, + "loss": 0.0146, + "step": 119355 + }, + { + "epoch": 0.763904, + "grad_norm": 0.13283662497997284, + "learning_rate": 1.4907306666666668e-05, + "loss": 0.0147, + "step": 119360 + }, + { + "epoch": 0.763936, + "grad_norm": 1.910666823387146, + "learning_rate": 1.4907093333333336e-05, + "loss": 0.0152, + "step": 119365 + }, + { + "epoch": 0.763968, + "grad_norm": 0.22349770367145538, + "learning_rate": 1.4906880000000002e-05, + "loss": 0.0171, + "step": 119370 + }, + { + "epoch": 0.764, + "grad_norm": 0.5605908632278442, + "learning_rate": 1.4906666666666667e-05, + "loss": 0.0103, + "step": 119375 + }, + { + "epoch": 0.764032, + "grad_norm": 1.3697139024734497, + "learning_rate": 1.4906453333333335e-05, + "loss": 0.024, + "step": 119380 + }, + { + "epoch": 0.764064, + "grad_norm": 0.40262213349342346, + "learning_rate": 1.490624e-05, + "loss": 0.0063, + "step": 119385 + }, + { + "epoch": 0.764096, + "grad_norm": 0.48848962783813477, + "learning_rate": 1.4906026666666668e-05, + "loss": 0.0113, + "step": 119390 + }, + { + "epoch": 0.764128, + "grad_norm": 0.7199699282646179, + "learning_rate": 1.4905813333333334e-05, + "loss": 0.0069, + "step": 119395 + }, + { + "epoch": 0.76416, + "grad_norm": 0.12689736485481262, + "learning_rate": 1.4905600000000002e-05, + "loss": 0.0072, + "step": 119400 + }, + { + "epoch": 0.764192, + "grad_norm": 0.6607562303543091, + "learning_rate": 1.4905386666666668e-05, + "loss": 0.0138, + "step": 119405 + }, + { + "epoch": 0.764224, + "grad_norm": 0.24046757817268372, + "learning_rate": 1.4905173333333333e-05, + "loss": 0.0068, + "step": 119410 + }, + { + "epoch": 0.764256, + "grad_norm": 0.025033604353666306, + "learning_rate": 1.4904960000000001e-05, + "loss": 0.0069, + "step": 119415 + }, + { + "epoch": 0.764288, + "grad_norm": 0.9770995378494263, + "learning_rate": 1.4904746666666667e-05, + "loss": 0.0071, + "step": 119420 + }, + { + "epoch": 0.76432, + "grad_norm": 0.4695970118045807, + "learning_rate": 1.4904533333333336e-05, + "loss": 0.0159, + "step": 119425 + }, + { + "epoch": 0.764352, + "grad_norm": 0.2243424654006958, + "learning_rate": 1.490432e-05, + "loss": 0.0076, + "step": 119430 + }, + { + "epoch": 0.764384, + "grad_norm": 1.3881652355194092, + "learning_rate": 1.490410666666667e-05, + "loss": 0.0249, + "step": 119435 + }, + { + "epoch": 0.764416, + "grad_norm": 0.5722382664680481, + "learning_rate": 1.4903893333333335e-05, + "loss": 0.024, + "step": 119440 + }, + { + "epoch": 0.764448, + "grad_norm": 0.10273519903421402, + "learning_rate": 1.490368e-05, + "loss": 0.0047, + "step": 119445 + }, + { + "epoch": 0.76448, + "grad_norm": 0.12649449706077576, + "learning_rate": 1.4903466666666669e-05, + "loss": 0.0022, + "step": 119450 + }, + { + "epoch": 0.764512, + "grad_norm": 0.7429348826408386, + "learning_rate": 1.4903253333333335e-05, + "loss": 0.0096, + "step": 119455 + }, + { + "epoch": 0.764544, + "grad_norm": 0.2197839915752411, + "learning_rate": 1.4903040000000002e-05, + "loss": 0.0023, + "step": 119460 + }, + { + "epoch": 0.764576, + "grad_norm": 0.19324950873851776, + "learning_rate": 1.4902826666666668e-05, + "loss": 0.0108, + "step": 119465 + }, + { + "epoch": 0.764608, + "grad_norm": 0.1647212952375412, + "learning_rate": 1.4902613333333336e-05, + "loss": 0.0059, + "step": 119470 + }, + { + "epoch": 0.76464, + "grad_norm": 0.090717613697052, + "learning_rate": 1.4902400000000002e-05, + "loss": 0.0019, + "step": 119475 + }, + { + "epoch": 0.764672, + "grad_norm": 1.935513973236084, + "learning_rate": 1.4902186666666667e-05, + "loss": 0.0188, + "step": 119480 + }, + { + "epoch": 0.764704, + "grad_norm": 0.22921815514564514, + "learning_rate": 1.4901973333333335e-05, + "loss": 0.0049, + "step": 119485 + }, + { + "epoch": 0.764736, + "grad_norm": 0.04005058482289314, + "learning_rate": 1.490176e-05, + "loss": 0.0101, + "step": 119490 + }, + { + "epoch": 0.764768, + "grad_norm": 0.4404194951057434, + "learning_rate": 1.4901546666666668e-05, + "loss": 0.0201, + "step": 119495 + }, + { + "epoch": 0.7648, + "grad_norm": 0.5839529037475586, + "learning_rate": 1.4901333333333334e-05, + "loss": 0.01, + "step": 119500 + }, + { + "epoch": 0.764832, + "grad_norm": 0.8867234587669373, + "learning_rate": 1.4901120000000002e-05, + "loss": 0.0095, + "step": 119505 + }, + { + "epoch": 0.764864, + "grad_norm": 0.5191524624824524, + "learning_rate": 1.4900906666666668e-05, + "loss": 0.004, + "step": 119510 + }, + { + "epoch": 0.764896, + "grad_norm": 1.568464756011963, + "learning_rate": 1.4900693333333333e-05, + "loss": 0.013, + "step": 119515 + }, + { + "epoch": 0.764928, + "grad_norm": 0.08311382681131363, + "learning_rate": 1.4900480000000001e-05, + "loss": 0.0136, + "step": 119520 + }, + { + "epoch": 0.76496, + "grad_norm": 0.3526524305343628, + "learning_rate": 1.4900266666666667e-05, + "loss": 0.0086, + "step": 119525 + }, + { + "epoch": 0.764992, + "grad_norm": 0.11530841141939163, + "learning_rate": 1.4900053333333334e-05, + "loss": 0.0029, + "step": 119530 + }, + { + "epoch": 0.765024, + "grad_norm": 0.12859515845775604, + "learning_rate": 1.489984e-05, + "loss": 0.006, + "step": 119535 + }, + { + "epoch": 0.765056, + "grad_norm": 0.3313562273979187, + "learning_rate": 1.489962666666667e-05, + "loss": 0.0265, + "step": 119540 + }, + { + "epoch": 0.765088, + "grad_norm": 0.6940122246742249, + "learning_rate": 1.4899413333333335e-05, + "loss": 0.0179, + "step": 119545 + }, + { + "epoch": 0.76512, + "grad_norm": 0.6557725071907043, + "learning_rate": 1.48992e-05, + "loss": 0.0177, + "step": 119550 + }, + { + "epoch": 0.765152, + "grad_norm": 0.11010893434286118, + "learning_rate": 1.4898986666666669e-05, + "loss": 0.0065, + "step": 119555 + }, + { + "epoch": 0.765184, + "grad_norm": 0.9428874850273132, + "learning_rate": 1.4898773333333335e-05, + "loss": 0.0262, + "step": 119560 + }, + { + "epoch": 0.765216, + "grad_norm": 0.2631216049194336, + "learning_rate": 1.4898560000000002e-05, + "loss": 0.0218, + "step": 119565 + }, + { + "epoch": 0.765248, + "grad_norm": 0.33416351675987244, + "learning_rate": 1.4898346666666668e-05, + "loss": 0.0048, + "step": 119570 + }, + { + "epoch": 0.76528, + "grad_norm": 0.3572283387184143, + "learning_rate": 1.4898133333333336e-05, + "loss": 0.024, + "step": 119575 + }, + { + "epoch": 0.765312, + "grad_norm": 0.8969125747680664, + "learning_rate": 1.4897920000000002e-05, + "loss": 0.0087, + "step": 119580 + }, + { + "epoch": 0.765344, + "grad_norm": 0.5194356441497803, + "learning_rate": 1.4897706666666667e-05, + "loss": 0.008, + "step": 119585 + }, + { + "epoch": 0.765376, + "grad_norm": 0.7703825831413269, + "learning_rate": 1.4897493333333335e-05, + "loss": 0.0092, + "step": 119590 + }, + { + "epoch": 0.765408, + "grad_norm": 0.31500813364982605, + "learning_rate": 1.489728e-05, + "loss": 0.0104, + "step": 119595 + }, + { + "epoch": 0.76544, + "grad_norm": 0.7142232656478882, + "learning_rate": 1.4897066666666668e-05, + "loss": 0.0155, + "step": 119600 + }, + { + "epoch": 0.765472, + "grad_norm": 0.0627126693725586, + "learning_rate": 1.4896853333333334e-05, + "loss": 0.0066, + "step": 119605 + }, + { + "epoch": 0.765504, + "grad_norm": 0.651394248008728, + "learning_rate": 1.4896640000000002e-05, + "loss": 0.0044, + "step": 119610 + }, + { + "epoch": 0.765536, + "grad_norm": 0.9168283343315125, + "learning_rate": 1.4896426666666668e-05, + "loss": 0.006, + "step": 119615 + }, + { + "epoch": 0.765568, + "grad_norm": 0.4268207252025604, + "learning_rate": 1.4896213333333333e-05, + "loss": 0.0293, + "step": 119620 + }, + { + "epoch": 0.7656, + "grad_norm": 0.9839927554130554, + "learning_rate": 1.4896000000000001e-05, + "loss": 0.0209, + "step": 119625 + }, + { + "epoch": 0.765632, + "grad_norm": 0.33769139647483826, + "learning_rate": 1.4895786666666667e-05, + "loss": 0.003, + "step": 119630 + }, + { + "epoch": 0.765664, + "grad_norm": 0.202322855591774, + "learning_rate": 1.4895573333333334e-05, + "loss": 0.0069, + "step": 119635 + }, + { + "epoch": 0.765696, + "grad_norm": 0.09966740757226944, + "learning_rate": 1.489536e-05, + "loss": 0.0046, + "step": 119640 + }, + { + "epoch": 0.765728, + "grad_norm": 0.8035223484039307, + "learning_rate": 1.489514666666667e-05, + "loss": 0.0178, + "step": 119645 + }, + { + "epoch": 0.76576, + "grad_norm": 0.10221735388040543, + "learning_rate": 1.4894933333333335e-05, + "loss": 0.0033, + "step": 119650 + }, + { + "epoch": 0.765792, + "grad_norm": 2.297818660736084, + "learning_rate": 1.489472e-05, + "loss": 0.0511, + "step": 119655 + }, + { + "epoch": 0.765824, + "grad_norm": 0.08485861122608185, + "learning_rate": 1.4894506666666669e-05, + "loss": 0.0291, + "step": 119660 + }, + { + "epoch": 0.765856, + "grad_norm": 0.6221848726272583, + "learning_rate": 1.4894293333333335e-05, + "loss": 0.0087, + "step": 119665 + }, + { + "epoch": 0.765888, + "grad_norm": 0.43434181809425354, + "learning_rate": 1.4894080000000002e-05, + "loss": 0.0127, + "step": 119670 + }, + { + "epoch": 0.76592, + "grad_norm": 0.8300642371177673, + "learning_rate": 1.4893866666666668e-05, + "loss": 0.0181, + "step": 119675 + }, + { + "epoch": 0.765952, + "grad_norm": 0.3752302825450897, + "learning_rate": 1.4893653333333336e-05, + "loss": 0.009, + "step": 119680 + }, + { + "epoch": 0.765984, + "grad_norm": 0.5492497682571411, + "learning_rate": 1.4893440000000002e-05, + "loss": 0.0098, + "step": 119685 + }, + { + "epoch": 0.766016, + "grad_norm": 1.2296427488327026, + "learning_rate": 1.4893226666666667e-05, + "loss": 0.0199, + "step": 119690 + }, + { + "epoch": 0.766048, + "grad_norm": 0.24152782559394836, + "learning_rate": 1.4893013333333335e-05, + "loss": 0.0111, + "step": 119695 + }, + { + "epoch": 0.76608, + "grad_norm": 0.4697266221046448, + "learning_rate": 1.48928e-05, + "loss": 0.0121, + "step": 119700 + }, + { + "epoch": 0.766112, + "grad_norm": 0.6040915846824646, + "learning_rate": 1.4892586666666668e-05, + "loss": 0.0063, + "step": 119705 + }, + { + "epoch": 0.766144, + "grad_norm": 0.21736645698547363, + "learning_rate": 1.4892373333333334e-05, + "loss": 0.0125, + "step": 119710 + }, + { + "epoch": 0.766176, + "grad_norm": 0.25411152839660645, + "learning_rate": 1.4892160000000002e-05, + "loss": 0.0354, + "step": 119715 + }, + { + "epoch": 0.766208, + "grad_norm": 0.9133910536766052, + "learning_rate": 1.4891946666666668e-05, + "loss": 0.0354, + "step": 119720 + }, + { + "epoch": 0.76624, + "grad_norm": 1.682193636894226, + "learning_rate": 1.4891733333333333e-05, + "loss": 0.0179, + "step": 119725 + }, + { + "epoch": 0.766272, + "grad_norm": 1.23859441280365, + "learning_rate": 1.4891520000000001e-05, + "loss": 0.0054, + "step": 119730 + }, + { + "epoch": 0.766304, + "grad_norm": 0.29446646571159363, + "learning_rate": 1.4891306666666667e-05, + "loss": 0.009, + "step": 119735 + }, + { + "epoch": 0.766336, + "grad_norm": 0.6747132539749146, + "learning_rate": 1.4891093333333334e-05, + "loss": 0.0105, + "step": 119740 + }, + { + "epoch": 0.766368, + "grad_norm": 0.6577964425086975, + "learning_rate": 1.489088e-05, + "loss": 0.0214, + "step": 119745 + }, + { + "epoch": 0.7664, + "grad_norm": 0.45219042897224426, + "learning_rate": 1.489066666666667e-05, + "loss": 0.0128, + "step": 119750 + }, + { + "epoch": 0.766432, + "grad_norm": 0.4422995448112488, + "learning_rate": 1.4890453333333334e-05, + "loss": 0.0078, + "step": 119755 + }, + { + "epoch": 0.766464, + "grad_norm": 0.17879918217658997, + "learning_rate": 1.489024e-05, + "loss": 0.0025, + "step": 119760 + }, + { + "epoch": 0.766496, + "grad_norm": 0.1381550431251526, + "learning_rate": 1.4890026666666669e-05, + "loss": 0.0031, + "step": 119765 + }, + { + "epoch": 0.766528, + "grad_norm": 0.6209032535552979, + "learning_rate": 1.4889813333333335e-05, + "loss": 0.0129, + "step": 119770 + }, + { + "epoch": 0.76656, + "grad_norm": 8.762406349182129, + "learning_rate": 1.4889600000000002e-05, + "loss": 0.0156, + "step": 119775 + }, + { + "epoch": 0.766592, + "grad_norm": 1.5622881650924683, + "learning_rate": 1.4889386666666668e-05, + "loss": 0.0351, + "step": 119780 + }, + { + "epoch": 0.766624, + "grad_norm": 0.27926886081695557, + "learning_rate": 1.4889173333333336e-05, + "loss": 0.0134, + "step": 119785 + }, + { + "epoch": 0.766656, + "grad_norm": 0.7865962982177734, + "learning_rate": 1.4888960000000002e-05, + "loss": 0.0171, + "step": 119790 + }, + { + "epoch": 0.766688, + "grad_norm": 1.1226757764816284, + "learning_rate": 1.4888746666666667e-05, + "loss": 0.0203, + "step": 119795 + }, + { + "epoch": 0.76672, + "grad_norm": 0.3810563087463379, + "learning_rate": 1.4888533333333335e-05, + "loss": 0.0298, + "step": 119800 + }, + { + "epoch": 0.766752, + "grad_norm": 0.4087212383747101, + "learning_rate": 1.488832e-05, + "loss": 0.0175, + "step": 119805 + }, + { + "epoch": 0.766784, + "grad_norm": 0.28428900241851807, + "learning_rate": 1.4888106666666668e-05, + "loss": 0.0054, + "step": 119810 + }, + { + "epoch": 0.766816, + "grad_norm": 1.6422312259674072, + "learning_rate": 1.4887893333333334e-05, + "loss": 0.0198, + "step": 119815 + }, + { + "epoch": 0.766848, + "grad_norm": 2.1343817710876465, + "learning_rate": 1.4887680000000002e-05, + "loss": 0.0098, + "step": 119820 + }, + { + "epoch": 0.76688, + "grad_norm": 0.23648616671562195, + "learning_rate": 1.4887466666666668e-05, + "loss": 0.0047, + "step": 119825 + }, + { + "epoch": 0.766912, + "grad_norm": 0.2887406647205353, + "learning_rate": 1.4887253333333333e-05, + "loss": 0.0201, + "step": 119830 + }, + { + "epoch": 0.766944, + "grad_norm": 0.13803832232952118, + "learning_rate": 1.4887040000000001e-05, + "loss": 0.0206, + "step": 119835 + }, + { + "epoch": 0.766976, + "grad_norm": 0.08541621267795563, + "learning_rate": 1.4886826666666667e-05, + "loss": 0.0233, + "step": 119840 + }, + { + "epoch": 0.767008, + "grad_norm": 0.8609962463378906, + "learning_rate": 1.4886613333333334e-05, + "loss": 0.0086, + "step": 119845 + }, + { + "epoch": 0.76704, + "grad_norm": 0.09422919899225235, + "learning_rate": 1.48864e-05, + "loss": 0.0041, + "step": 119850 + }, + { + "epoch": 0.767072, + "grad_norm": 0.48441994190216064, + "learning_rate": 1.488618666666667e-05, + "loss": 0.0096, + "step": 119855 + }, + { + "epoch": 0.767104, + "grad_norm": 0.06254511326551437, + "learning_rate": 1.4885973333333334e-05, + "loss": 0.0092, + "step": 119860 + }, + { + "epoch": 0.767136, + "grad_norm": 0.13343378901481628, + "learning_rate": 1.488576e-05, + "loss": 0.0047, + "step": 119865 + }, + { + "epoch": 0.767168, + "grad_norm": 0.060591474175453186, + "learning_rate": 1.4885546666666669e-05, + "loss": 0.0034, + "step": 119870 + }, + { + "epoch": 0.7672, + "grad_norm": 0.2545110583305359, + "learning_rate": 1.4885333333333335e-05, + "loss": 0.0065, + "step": 119875 + }, + { + "epoch": 0.767232, + "grad_norm": 0.3107699751853943, + "learning_rate": 1.4885120000000002e-05, + "loss": 0.0135, + "step": 119880 + }, + { + "epoch": 0.767264, + "grad_norm": 0.7605282664299011, + "learning_rate": 1.4884906666666668e-05, + "loss": 0.0067, + "step": 119885 + }, + { + "epoch": 0.767296, + "grad_norm": 0.23389005661010742, + "learning_rate": 1.4884693333333336e-05, + "loss": 0.0142, + "step": 119890 + }, + { + "epoch": 0.767328, + "grad_norm": 0.5442388653755188, + "learning_rate": 1.4884480000000002e-05, + "loss": 0.0174, + "step": 119895 + }, + { + "epoch": 0.76736, + "grad_norm": 0.6811321973800659, + "learning_rate": 1.4884266666666667e-05, + "loss": 0.0305, + "step": 119900 + }, + { + "epoch": 0.767392, + "grad_norm": 0.4850653409957886, + "learning_rate": 1.4884053333333335e-05, + "loss": 0.0162, + "step": 119905 + }, + { + "epoch": 0.767424, + "grad_norm": 1.0230903625488281, + "learning_rate": 1.488384e-05, + "loss": 0.0118, + "step": 119910 + }, + { + "epoch": 0.767456, + "grad_norm": 0.2223193347454071, + "learning_rate": 1.4883626666666668e-05, + "loss": 0.0031, + "step": 119915 + }, + { + "epoch": 0.767488, + "grad_norm": 1.2561088800430298, + "learning_rate": 1.4883413333333334e-05, + "loss": 0.0122, + "step": 119920 + }, + { + "epoch": 0.76752, + "grad_norm": 0.9823490381240845, + "learning_rate": 1.4883200000000002e-05, + "loss": 0.0127, + "step": 119925 + }, + { + "epoch": 0.767552, + "grad_norm": 0.18698787689208984, + "learning_rate": 1.4882986666666668e-05, + "loss": 0.0095, + "step": 119930 + }, + { + "epoch": 0.767584, + "grad_norm": 0.8078472018241882, + "learning_rate": 1.4882773333333333e-05, + "loss": 0.0277, + "step": 119935 + }, + { + "epoch": 0.767616, + "grad_norm": 0.2370620220899582, + "learning_rate": 1.4882560000000001e-05, + "loss": 0.0061, + "step": 119940 + }, + { + "epoch": 0.767648, + "grad_norm": 1.8739253282546997, + "learning_rate": 1.4882346666666667e-05, + "loss": 0.0107, + "step": 119945 + }, + { + "epoch": 0.76768, + "grad_norm": 0.10626707971096039, + "learning_rate": 1.4882133333333334e-05, + "loss": 0.003, + "step": 119950 + }, + { + "epoch": 0.767712, + "grad_norm": 0.22151626646518707, + "learning_rate": 1.488192e-05, + "loss": 0.0077, + "step": 119955 + }, + { + "epoch": 0.767744, + "grad_norm": 1.3950929641723633, + "learning_rate": 1.488170666666667e-05, + "loss": 0.0101, + "step": 119960 + }, + { + "epoch": 0.767776, + "grad_norm": 0.5433721542358398, + "learning_rate": 1.4881493333333334e-05, + "loss": 0.0143, + "step": 119965 + }, + { + "epoch": 0.767808, + "grad_norm": 0.8032212257385254, + "learning_rate": 1.488128e-05, + "loss": 0.0154, + "step": 119970 + }, + { + "epoch": 0.76784, + "grad_norm": 0.16915664076805115, + "learning_rate": 1.4881066666666669e-05, + "loss": 0.0038, + "step": 119975 + }, + { + "epoch": 0.767872, + "grad_norm": 0.1237596869468689, + "learning_rate": 1.4880853333333333e-05, + "loss": 0.0118, + "step": 119980 + }, + { + "epoch": 0.767904, + "grad_norm": 0.5304538607597351, + "learning_rate": 1.4880640000000002e-05, + "loss": 0.0057, + "step": 119985 + }, + { + "epoch": 0.767936, + "grad_norm": 0.25882789492607117, + "learning_rate": 1.4880426666666668e-05, + "loss": 0.0075, + "step": 119990 + }, + { + "epoch": 0.767968, + "grad_norm": 0.039300598204135895, + "learning_rate": 1.4880213333333336e-05, + "loss": 0.0121, + "step": 119995 + }, + { + "epoch": 0.768, + "grad_norm": 0.4206414222717285, + "learning_rate": 1.4880000000000002e-05, + "loss": 0.0092, + "step": 120000 + }, + { + "epoch": 0.768032, + "grad_norm": 0.056484825909137726, + "learning_rate": 1.4879786666666667e-05, + "loss": 0.0124, + "step": 120005 + }, + { + "epoch": 0.768064, + "grad_norm": 0.055596109479665756, + "learning_rate": 1.4879573333333335e-05, + "loss": 0.0136, + "step": 120010 + }, + { + "epoch": 0.768096, + "grad_norm": 1.127673625946045, + "learning_rate": 1.487936e-05, + "loss": 0.0279, + "step": 120015 + }, + { + "epoch": 0.768128, + "grad_norm": 0.6261391043663025, + "learning_rate": 1.4879146666666668e-05, + "loss": 0.0095, + "step": 120020 + }, + { + "epoch": 0.76816, + "grad_norm": 0.22620989382266998, + "learning_rate": 1.4878933333333334e-05, + "loss": 0.0266, + "step": 120025 + }, + { + "epoch": 0.768192, + "grad_norm": 0.14221368730068207, + "learning_rate": 1.4878720000000002e-05, + "loss": 0.0089, + "step": 120030 + }, + { + "epoch": 0.768224, + "grad_norm": 0.07539375871419907, + "learning_rate": 1.4878506666666668e-05, + "loss": 0.0046, + "step": 120035 + }, + { + "epoch": 0.768256, + "grad_norm": 0.5002076029777527, + "learning_rate": 1.4878293333333333e-05, + "loss": 0.0167, + "step": 120040 + }, + { + "epoch": 0.768288, + "grad_norm": 0.010653690434992313, + "learning_rate": 1.4878080000000001e-05, + "loss": 0.0097, + "step": 120045 + }, + { + "epoch": 0.76832, + "grad_norm": 0.436057984828949, + "learning_rate": 1.4877866666666667e-05, + "loss": 0.0061, + "step": 120050 + }, + { + "epoch": 0.768352, + "grad_norm": 0.11623849719762802, + "learning_rate": 1.4877653333333334e-05, + "loss": 0.0115, + "step": 120055 + }, + { + "epoch": 0.768384, + "grad_norm": 0.8094683289527893, + "learning_rate": 1.487744e-05, + "loss": 0.0082, + "step": 120060 + }, + { + "epoch": 0.768416, + "grad_norm": 0.7879674434661865, + "learning_rate": 1.4877226666666668e-05, + "loss": 0.0091, + "step": 120065 + }, + { + "epoch": 0.768448, + "grad_norm": 0.2881959080696106, + "learning_rate": 1.4877013333333334e-05, + "loss": 0.0087, + "step": 120070 + }, + { + "epoch": 0.76848, + "grad_norm": 0.07242283970117569, + "learning_rate": 1.48768e-05, + "loss": 0.0048, + "step": 120075 + }, + { + "epoch": 0.768512, + "grad_norm": 0.22302396595478058, + "learning_rate": 1.4876586666666669e-05, + "loss": 0.0123, + "step": 120080 + }, + { + "epoch": 0.768544, + "grad_norm": 0.2580696642398834, + "learning_rate": 1.4876373333333333e-05, + "loss": 0.0169, + "step": 120085 + }, + { + "epoch": 0.768576, + "grad_norm": 0.5079638957977295, + "learning_rate": 1.4876160000000002e-05, + "loss": 0.0049, + "step": 120090 + }, + { + "epoch": 0.768608, + "grad_norm": 0.5591484308242798, + "learning_rate": 1.4875946666666668e-05, + "loss": 0.0094, + "step": 120095 + }, + { + "epoch": 0.76864, + "grad_norm": 0.3675420880317688, + "learning_rate": 1.4875733333333336e-05, + "loss": 0.0114, + "step": 120100 + }, + { + "epoch": 0.768672, + "grad_norm": 0.09281731396913528, + "learning_rate": 1.4875520000000002e-05, + "loss": 0.0178, + "step": 120105 + }, + { + "epoch": 0.768704, + "grad_norm": 0.19228167831897736, + "learning_rate": 1.4875306666666667e-05, + "loss": 0.0026, + "step": 120110 + }, + { + "epoch": 0.768736, + "grad_norm": 0.09980256110429764, + "learning_rate": 1.4875093333333335e-05, + "loss": 0.0092, + "step": 120115 + }, + { + "epoch": 0.768768, + "grad_norm": 0.0853755846619606, + "learning_rate": 1.487488e-05, + "loss": 0.0044, + "step": 120120 + }, + { + "epoch": 0.7688, + "grad_norm": 0.19143761694431305, + "learning_rate": 1.4874666666666668e-05, + "loss": 0.0092, + "step": 120125 + }, + { + "epoch": 0.768832, + "grad_norm": 0.2481754571199417, + "learning_rate": 1.4874453333333334e-05, + "loss": 0.0192, + "step": 120130 + }, + { + "epoch": 0.768864, + "grad_norm": 0.10236170142889023, + "learning_rate": 1.4874240000000002e-05, + "loss": 0.0035, + "step": 120135 + }, + { + "epoch": 0.768896, + "grad_norm": 0.791850745677948, + "learning_rate": 1.4874026666666668e-05, + "loss": 0.0113, + "step": 120140 + }, + { + "epoch": 0.768928, + "grad_norm": 0.13364823162555695, + "learning_rate": 1.4873813333333335e-05, + "loss": 0.0074, + "step": 120145 + }, + { + "epoch": 0.76896, + "grad_norm": 0.3929573893547058, + "learning_rate": 1.4873600000000001e-05, + "loss": 0.0108, + "step": 120150 + }, + { + "epoch": 0.768992, + "grad_norm": 0.0809933990240097, + "learning_rate": 1.4873386666666667e-05, + "loss": 0.0036, + "step": 120155 + }, + { + "epoch": 0.769024, + "grad_norm": 0.14971278607845306, + "learning_rate": 1.4873173333333334e-05, + "loss": 0.0047, + "step": 120160 + }, + { + "epoch": 0.769056, + "grad_norm": 0.8045225739479065, + "learning_rate": 1.487296e-05, + "loss": 0.0043, + "step": 120165 + }, + { + "epoch": 0.769088, + "grad_norm": 0.30728304386138916, + "learning_rate": 1.4872746666666668e-05, + "loss": 0.0033, + "step": 120170 + }, + { + "epoch": 0.76912, + "grad_norm": 0.07527422159910202, + "learning_rate": 1.4872533333333334e-05, + "loss": 0.015, + "step": 120175 + }, + { + "epoch": 0.769152, + "grad_norm": 1.213820219039917, + "learning_rate": 1.4872320000000003e-05, + "loss": 0.0135, + "step": 120180 + }, + { + "epoch": 0.769184, + "grad_norm": 0.07654894143342972, + "learning_rate": 1.4872106666666669e-05, + "loss": 0.017, + "step": 120185 + }, + { + "epoch": 0.769216, + "grad_norm": 0.6510069370269775, + "learning_rate": 1.4871893333333333e-05, + "loss": 0.019, + "step": 120190 + }, + { + "epoch": 0.769248, + "grad_norm": 0.08923991769552231, + "learning_rate": 1.4871680000000002e-05, + "loss": 0.0194, + "step": 120195 + }, + { + "epoch": 0.76928, + "grad_norm": 1.3325378894805908, + "learning_rate": 1.4871466666666668e-05, + "loss": 0.0088, + "step": 120200 + }, + { + "epoch": 0.769312, + "grad_norm": 2.6331794261932373, + "learning_rate": 1.4871253333333336e-05, + "loss": 0.008, + "step": 120205 + }, + { + "epoch": 0.769344, + "grad_norm": 0.21363255381584167, + "learning_rate": 1.4871040000000002e-05, + "loss": 0.0085, + "step": 120210 + }, + { + "epoch": 0.769376, + "grad_norm": 0.408833384513855, + "learning_rate": 1.4870826666666669e-05, + "loss": 0.0054, + "step": 120215 + }, + { + "epoch": 0.769408, + "grad_norm": 0.12781906127929688, + "learning_rate": 1.4870613333333335e-05, + "loss": 0.0067, + "step": 120220 + }, + { + "epoch": 0.76944, + "grad_norm": 0.15440687537193298, + "learning_rate": 1.48704e-05, + "loss": 0.0114, + "step": 120225 + }, + { + "epoch": 0.769472, + "grad_norm": 0.8919404149055481, + "learning_rate": 1.4870186666666668e-05, + "loss": 0.0078, + "step": 120230 + }, + { + "epoch": 0.769504, + "grad_norm": 0.8881675004959106, + "learning_rate": 1.4869973333333334e-05, + "loss": 0.0577, + "step": 120235 + }, + { + "epoch": 0.769536, + "grad_norm": 1.531950831413269, + "learning_rate": 1.4869760000000002e-05, + "loss": 0.029, + "step": 120240 + }, + { + "epoch": 0.769568, + "grad_norm": 0.11746437847614288, + "learning_rate": 1.4869546666666668e-05, + "loss": 0.0051, + "step": 120245 + }, + { + "epoch": 0.7696, + "grad_norm": 0.5462884902954102, + "learning_rate": 1.4869333333333335e-05, + "loss": 0.0066, + "step": 120250 + }, + { + "epoch": 0.769632, + "grad_norm": 1.6294403076171875, + "learning_rate": 1.4869120000000001e-05, + "loss": 0.0129, + "step": 120255 + }, + { + "epoch": 0.769664, + "grad_norm": 0.4996090829372406, + "learning_rate": 1.4868906666666667e-05, + "loss": 0.0066, + "step": 120260 + }, + { + "epoch": 0.769696, + "grad_norm": 0.8704591989517212, + "learning_rate": 1.4868693333333334e-05, + "loss": 0.0117, + "step": 120265 + }, + { + "epoch": 0.769728, + "grad_norm": 0.0636277049779892, + "learning_rate": 1.486848e-05, + "loss": 0.0159, + "step": 120270 + }, + { + "epoch": 0.76976, + "grad_norm": 0.09566375613212585, + "learning_rate": 1.4868266666666668e-05, + "loss": 0.0126, + "step": 120275 + }, + { + "epoch": 0.769792, + "grad_norm": 0.294392466545105, + "learning_rate": 1.4868053333333334e-05, + "loss": 0.0104, + "step": 120280 + }, + { + "epoch": 0.769824, + "grad_norm": 0.04148723930120468, + "learning_rate": 1.4867840000000003e-05, + "loss": 0.0049, + "step": 120285 + }, + { + "epoch": 0.769856, + "grad_norm": 0.8913683295249939, + "learning_rate": 1.4867626666666667e-05, + "loss": 0.0128, + "step": 120290 + }, + { + "epoch": 0.769888, + "grad_norm": 1.7971020936965942, + "learning_rate": 1.4867413333333333e-05, + "loss": 0.017, + "step": 120295 + }, + { + "epoch": 0.76992, + "grad_norm": 0.3039003014564514, + "learning_rate": 1.4867200000000002e-05, + "loss": 0.0085, + "step": 120300 + }, + { + "epoch": 0.769952, + "grad_norm": 0.6373974680900574, + "learning_rate": 1.4866986666666668e-05, + "loss": 0.0171, + "step": 120305 + }, + { + "epoch": 0.769984, + "grad_norm": 0.4204529821872711, + "learning_rate": 1.4866773333333336e-05, + "loss": 0.0131, + "step": 120310 + }, + { + "epoch": 0.770016, + "grad_norm": 0.1126754879951477, + "learning_rate": 1.4866560000000002e-05, + "loss": 0.0049, + "step": 120315 + }, + { + "epoch": 0.770048, + "grad_norm": 0.03488693758845329, + "learning_rate": 1.4866346666666669e-05, + "loss": 0.0107, + "step": 120320 + }, + { + "epoch": 0.77008, + "grad_norm": 1.131455898284912, + "learning_rate": 1.4866133333333335e-05, + "loss": 0.0106, + "step": 120325 + }, + { + "epoch": 0.770112, + "grad_norm": 0.3595641553401947, + "learning_rate": 1.486592e-05, + "loss": 0.0054, + "step": 120330 + }, + { + "epoch": 0.770144, + "grad_norm": 0.6487618088722229, + "learning_rate": 1.4865706666666668e-05, + "loss": 0.0047, + "step": 120335 + }, + { + "epoch": 0.770176, + "grad_norm": 0.33506613969802856, + "learning_rate": 1.4865493333333334e-05, + "loss": 0.0091, + "step": 120340 + }, + { + "epoch": 0.770208, + "grad_norm": 0.6335116624832153, + "learning_rate": 1.4865280000000002e-05, + "loss": 0.0058, + "step": 120345 + }, + { + "epoch": 0.77024, + "grad_norm": 0.08020996302366257, + "learning_rate": 1.4865066666666668e-05, + "loss": 0.0198, + "step": 120350 + }, + { + "epoch": 0.770272, + "grad_norm": 0.3086707890033722, + "learning_rate": 1.4864853333333335e-05, + "loss": 0.0039, + "step": 120355 + }, + { + "epoch": 0.770304, + "grad_norm": 1.0312682390213013, + "learning_rate": 1.4864640000000001e-05, + "loss": 0.0055, + "step": 120360 + }, + { + "epoch": 0.770336, + "grad_norm": 0.5421162843704224, + "learning_rate": 1.4864426666666667e-05, + "loss": 0.0215, + "step": 120365 + }, + { + "epoch": 0.770368, + "grad_norm": 0.3909524381160736, + "learning_rate": 1.4864213333333334e-05, + "loss": 0.0053, + "step": 120370 + }, + { + "epoch": 0.7704, + "grad_norm": 0.44705578684806824, + "learning_rate": 1.4864e-05, + "loss": 0.0086, + "step": 120375 + }, + { + "epoch": 0.770432, + "grad_norm": 0.6801341772079468, + "learning_rate": 1.4863786666666668e-05, + "loss": 0.0382, + "step": 120380 + }, + { + "epoch": 0.770464, + "grad_norm": 0.7267157435417175, + "learning_rate": 1.4863573333333334e-05, + "loss": 0.0179, + "step": 120385 + }, + { + "epoch": 0.770496, + "grad_norm": 0.057799458503723145, + "learning_rate": 1.4863360000000003e-05, + "loss": 0.0087, + "step": 120390 + }, + { + "epoch": 0.770528, + "grad_norm": 0.3600299656391144, + "learning_rate": 1.4863146666666667e-05, + "loss": 0.0137, + "step": 120395 + }, + { + "epoch": 0.77056, + "grad_norm": 0.6189901828765869, + "learning_rate": 1.4862933333333333e-05, + "loss": 0.0204, + "step": 120400 + }, + { + "epoch": 0.770592, + "grad_norm": 0.3756997287273407, + "learning_rate": 1.4862720000000002e-05, + "loss": 0.0105, + "step": 120405 + }, + { + "epoch": 0.770624, + "grad_norm": 0.27188819646835327, + "learning_rate": 1.4862506666666668e-05, + "loss": 0.0078, + "step": 120410 + }, + { + "epoch": 0.770656, + "grad_norm": 0.08940389007329941, + "learning_rate": 1.4862293333333336e-05, + "loss": 0.0078, + "step": 120415 + }, + { + "epoch": 0.770688, + "grad_norm": 1.1428484916687012, + "learning_rate": 1.4862080000000002e-05, + "loss": 0.0102, + "step": 120420 + }, + { + "epoch": 0.77072, + "grad_norm": 0.64786696434021, + "learning_rate": 1.4861866666666669e-05, + "loss": 0.0122, + "step": 120425 + }, + { + "epoch": 0.770752, + "grad_norm": 0.07753556966781616, + "learning_rate": 1.4861653333333335e-05, + "loss": 0.0108, + "step": 120430 + }, + { + "epoch": 0.770784, + "grad_norm": 0.3931398391723633, + "learning_rate": 1.486144e-05, + "loss": 0.0051, + "step": 120435 + }, + { + "epoch": 0.770816, + "grad_norm": 0.2929055690765381, + "learning_rate": 1.4861226666666668e-05, + "loss": 0.0046, + "step": 120440 + }, + { + "epoch": 0.770848, + "grad_norm": 0.055971842259168625, + "learning_rate": 1.4861013333333334e-05, + "loss": 0.0126, + "step": 120445 + }, + { + "epoch": 0.77088, + "grad_norm": 0.3056626617908478, + "learning_rate": 1.4860800000000002e-05, + "loss": 0.0172, + "step": 120450 + }, + { + "epoch": 0.770912, + "grad_norm": 0.1743885725736618, + "learning_rate": 1.4860586666666668e-05, + "loss": 0.0123, + "step": 120455 + }, + { + "epoch": 0.770944, + "grad_norm": 0.11286268383264542, + "learning_rate": 1.4860373333333335e-05, + "loss": 0.0106, + "step": 120460 + }, + { + "epoch": 0.770976, + "grad_norm": 0.9131667017936707, + "learning_rate": 1.4860160000000001e-05, + "loss": 0.0081, + "step": 120465 + }, + { + "epoch": 0.771008, + "grad_norm": 0.057662561535835266, + "learning_rate": 1.4859946666666667e-05, + "loss": 0.0035, + "step": 120470 + }, + { + "epoch": 0.77104, + "grad_norm": 0.014284126460552216, + "learning_rate": 1.4859733333333334e-05, + "loss": 0.0117, + "step": 120475 + }, + { + "epoch": 0.771072, + "grad_norm": 1.0275479555130005, + "learning_rate": 1.485952e-05, + "loss": 0.0312, + "step": 120480 + }, + { + "epoch": 0.771104, + "grad_norm": 1.2316592931747437, + "learning_rate": 1.4859306666666668e-05, + "loss": 0.0065, + "step": 120485 + }, + { + "epoch": 0.771136, + "grad_norm": 0.1272483766078949, + "learning_rate": 1.4859093333333334e-05, + "loss": 0.0046, + "step": 120490 + }, + { + "epoch": 0.771168, + "grad_norm": 0.187865749001503, + "learning_rate": 1.4858880000000003e-05, + "loss": 0.0145, + "step": 120495 + }, + { + "epoch": 0.7712, + "grad_norm": 2.484740734100342, + "learning_rate": 1.4858666666666667e-05, + "loss": 0.0114, + "step": 120500 + }, + { + "epoch": 0.771232, + "grad_norm": 0.4484761655330658, + "learning_rate": 1.4858453333333333e-05, + "loss": 0.0062, + "step": 120505 + }, + { + "epoch": 0.771264, + "grad_norm": 0.06469743698835373, + "learning_rate": 1.4858240000000002e-05, + "loss": 0.0039, + "step": 120510 + }, + { + "epoch": 0.771296, + "grad_norm": 0.4404714107513428, + "learning_rate": 1.4858026666666666e-05, + "loss": 0.0083, + "step": 120515 + }, + { + "epoch": 0.771328, + "grad_norm": 0.03706277161836624, + "learning_rate": 1.4857813333333336e-05, + "loss": 0.0106, + "step": 120520 + }, + { + "epoch": 0.77136, + "grad_norm": 0.5379124283790588, + "learning_rate": 1.4857600000000002e-05, + "loss": 0.0093, + "step": 120525 + }, + { + "epoch": 0.771392, + "grad_norm": 0.14132224023342133, + "learning_rate": 1.4857386666666669e-05, + "loss": 0.0068, + "step": 120530 + }, + { + "epoch": 0.771424, + "grad_norm": 0.6814059615135193, + "learning_rate": 1.4857173333333335e-05, + "loss": 0.0143, + "step": 120535 + }, + { + "epoch": 0.771456, + "grad_norm": 0.1323452591896057, + "learning_rate": 1.485696e-05, + "loss": 0.0157, + "step": 120540 + }, + { + "epoch": 0.771488, + "grad_norm": 0.6139066219329834, + "learning_rate": 1.4856746666666668e-05, + "loss": 0.0104, + "step": 120545 + }, + { + "epoch": 0.77152, + "grad_norm": 1.6567306518554688, + "learning_rate": 1.4856533333333334e-05, + "loss": 0.0107, + "step": 120550 + }, + { + "epoch": 0.771552, + "grad_norm": 0.8522403240203857, + "learning_rate": 1.4856320000000002e-05, + "loss": 0.0079, + "step": 120555 + }, + { + "epoch": 0.771584, + "grad_norm": 0.09757988154888153, + "learning_rate": 1.4856106666666668e-05, + "loss": 0.0091, + "step": 120560 + }, + { + "epoch": 0.771616, + "grad_norm": 0.0980382189154625, + "learning_rate": 1.4855893333333335e-05, + "loss": 0.0037, + "step": 120565 + }, + { + "epoch": 0.771648, + "grad_norm": 0.47034361958503723, + "learning_rate": 1.4855680000000001e-05, + "loss": 0.0041, + "step": 120570 + }, + { + "epoch": 0.77168, + "grad_norm": 0.49564075469970703, + "learning_rate": 1.4855466666666667e-05, + "loss": 0.0128, + "step": 120575 + }, + { + "epoch": 0.771712, + "grad_norm": 0.8098505735397339, + "learning_rate": 1.4855253333333334e-05, + "loss": 0.0084, + "step": 120580 + }, + { + "epoch": 0.771744, + "grad_norm": 1.141390085220337, + "learning_rate": 1.485504e-05, + "loss": 0.0164, + "step": 120585 + }, + { + "epoch": 0.771776, + "grad_norm": 0.5710179209709167, + "learning_rate": 1.4854826666666668e-05, + "loss": 0.0071, + "step": 120590 + }, + { + "epoch": 0.771808, + "grad_norm": 0.5414425730705261, + "learning_rate": 1.4854613333333334e-05, + "loss": 0.0103, + "step": 120595 + }, + { + "epoch": 0.77184, + "grad_norm": 0.14567787945270538, + "learning_rate": 1.4854400000000003e-05, + "loss": 0.0056, + "step": 120600 + }, + { + "epoch": 0.771872, + "grad_norm": 0.3555089235305786, + "learning_rate": 1.4854186666666667e-05, + "loss": 0.0156, + "step": 120605 + }, + { + "epoch": 0.771904, + "grad_norm": 0.3752036392688751, + "learning_rate": 1.4853973333333333e-05, + "loss": 0.0068, + "step": 120610 + }, + { + "epoch": 0.771936, + "grad_norm": 0.5990779399871826, + "learning_rate": 1.4853760000000002e-05, + "loss": 0.0221, + "step": 120615 + }, + { + "epoch": 0.771968, + "grad_norm": 1.5302072763442993, + "learning_rate": 1.4853546666666666e-05, + "loss": 0.0233, + "step": 120620 + }, + { + "epoch": 0.772, + "grad_norm": 0.19635039567947388, + "learning_rate": 1.4853333333333336e-05, + "loss": 0.0094, + "step": 120625 + }, + { + "epoch": 0.772032, + "grad_norm": 0.053347036242485046, + "learning_rate": 1.4853120000000002e-05, + "loss": 0.0038, + "step": 120630 + }, + { + "epoch": 0.772064, + "grad_norm": 0.24247007071971893, + "learning_rate": 1.4852906666666669e-05, + "loss": 0.0121, + "step": 120635 + }, + { + "epoch": 0.772096, + "grad_norm": 0.05492239445447922, + "learning_rate": 1.4852693333333335e-05, + "loss": 0.0012, + "step": 120640 + }, + { + "epoch": 0.772128, + "grad_norm": 0.4635605216026306, + "learning_rate": 1.485248e-05, + "loss": 0.0166, + "step": 120645 + }, + { + "epoch": 0.77216, + "grad_norm": 0.18894171714782715, + "learning_rate": 1.4852266666666668e-05, + "loss": 0.0092, + "step": 120650 + }, + { + "epoch": 0.772192, + "grad_norm": 0.32324567437171936, + "learning_rate": 1.4852053333333334e-05, + "loss": 0.008, + "step": 120655 + }, + { + "epoch": 0.772224, + "grad_norm": 0.10696247220039368, + "learning_rate": 1.4851840000000002e-05, + "loss": 0.0145, + "step": 120660 + }, + { + "epoch": 0.772256, + "grad_norm": 0.6930590271949768, + "learning_rate": 1.4851626666666668e-05, + "loss": 0.008, + "step": 120665 + }, + { + "epoch": 0.772288, + "grad_norm": 0.19572894275188446, + "learning_rate": 1.4851413333333335e-05, + "loss": 0.004, + "step": 120670 + }, + { + "epoch": 0.77232, + "grad_norm": 0.606693685054779, + "learning_rate": 1.4851200000000001e-05, + "loss": 0.0176, + "step": 120675 + }, + { + "epoch": 0.772352, + "grad_norm": 0.08577915281057358, + "learning_rate": 1.4850986666666667e-05, + "loss": 0.008, + "step": 120680 + }, + { + "epoch": 0.772384, + "grad_norm": 0.2268245667219162, + "learning_rate": 1.4850773333333334e-05, + "loss": 0.0144, + "step": 120685 + }, + { + "epoch": 0.772416, + "grad_norm": 0.6481177806854248, + "learning_rate": 1.485056e-05, + "loss": 0.0071, + "step": 120690 + }, + { + "epoch": 0.772448, + "grad_norm": 0.45542964339256287, + "learning_rate": 1.4850346666666668e-05, + "loss": 0.0071, + "step": 120695 + }, + { + "epoch": 0.77248, + "grad_norm": 0.1409550905227661, + "learning_rate": 1.4850133333333334e-05, + "loss": 0.0063, + "step": 120700 + }, + { + "epoch": 0.772512, + "grad_norm": 0.8943564295768738, + "learning_rate": 1.4849920000000001e-05, + "loss": 0.0123, + "step": 120705 + }, + { + "epoch": 0.772544, + "grad_norm": 0.6132548451423645, + "learning_rate": 1.4849706666666667e-05, + "loss": 0.0212, + "step": 120710 + }, + { + "epoch": 0.772576, + "grad_norm": 0.48827576637268066, + "learning_rate": 1.4849493333333333e-05, + "loss": 0.0085, + "step": 120715 + }, + { + "epoch": 0.772608, + "grad_norm": 0.10200192034244537, + "learning_rate": 1.4849280000000002e-05, + "loss": 0.0074, + "step": 120720 + }, + { + "epoch": 0.77264, + "grad_norm": 0.08501206338405609, + "learning_rate": 1.4849066666666666e-05, + "loss": 0.0189, + "step": 120725 + }, + { + "epoch": 0.772672, + "grad_norm": 0.24541246891021729, + "learning_rate": 1.4848853333333336e-05, + "loss": 0.0093, + "step": 120730 + }, + { + "epoch": 0.772704, + "grad_norm": 1.1121114492416382, + "learning_rate": 1.4848640000000002e-05, + "loss": 0.0164, + "step": 120735 + }, + { + "epoch": 0.772736, + "grad_norm": 0.7618526816368103, + "learning_rate": 1.4848426666666669e-05, + "loss": 0.0088, + "step": 120740 + }, + { + "epoch": 0.772768, + "grad_norm": 0.1329919546842575, + "learning_rate": 1.4848213333333335e-05, + "loss": 0.0159, + "step": 120745 + }, + { + "epoch": 0.7728, + "grad_norm": 1.6331145763397217, + "learning_rate": 1.4848e-05, + "loss": 0.0175, + "step": 120750 + }, + { + "epoch": 0.772832, + "grad_norm": 0.4289000928401947, + "learning_rate": 1.4847786666666668e-05, + "loss": 0.0147, + "step": 120755 + }, + { + "epoch": 0.772864, + "grad_norm": 0.16814947128295898, + "learning_rate": 1.4847573333333334e-05, + "loss": 0.007, + "step": 120760 + }, + { + "epoch": 0.772896, + "grad_norm": 0.0429404154419899, + "learning_rate": 1.4847360000000002e-05, + "loss": 0.0106, + "step": 120765 + }, + { + "epoch": 0.772928, + "grad_norm": 0.5982657670974731, + "learning_rate": 1.4847146666666668e-05, + "loss": 0.0114, + "step": 120770 + }, + { + "epoch": 0.77296, + "grad_norm": 0.11860458552837372, + "learning_rate": 1.4846933333333335e-05, + "loss": 0.02, + "step": 120775 + }, + { + "epoch": 0.772992, + "grad_norm": 0.08221728354692459, + "learning_rate": 1.4846720000000001e-05, + "loss": 0.0094, + "step": 120780 + }, + { + "epoch": 0.773024, + "grad_norm": 0.5253168344497681, + "learning_rate": 1.4846506666666667e-05, + "loss": 0.0071, + "step": 120785 + }, + { + "epoch": 0.773056, + "grad_norm": 0.6888241767883301, + "learning_rate": 1.4846293333333334e-05, + "loss": 0.0098, + "step": 120790 + }, + { + "epoch": 0.773088, + "grad_norm": 0.2560007572174072, + "learning_rate": 1.484608e-05, + "loss": 0.0066, + "step": 120795 + }, + { + "epoch": 0.77312, + "grad_norm": 0.7576097249984741, + "learning_rate": 1.4845866666666668e-05, + "loss": 0.0055, + "step": 120800 + }, + { + "epoch": 0.773152, + "grad_norm": 0.4485990107059479, + "learning_rate": 1.4845653333333334e-05, + "loss": 0.0102, + "step": 120805 + }, + { + "epoch": 0.773184, + "grad_norm": 2.06238055229187, + "learning_rate": 1.4845440000000001e-05, + "loss": 0.0077, + "step": 120810 + }, + { + "epoch": 0.773216, + "grad_norm": 0.21588583290576935, + "learning_rate": 1.4845226666666667e-05, + "loss": 0.016, + "step": 120815 + }, + { + "epoch": 0.773248, + "grad_norm": 0.02857581339776516, + "learning_rate": 1.4845013333333333e-05, + "loss": 0.004, + "step": 120820 + }, + { + "epoch": 0.77328, + "grad_norm": 0.14400631189346313, + "learning_rate": 1.4844800000000002e-05, + "loss": 0.0037, + "step": 120825 + }, + { + "epoch": 0.773312, + "grad_norm": 0.6846247315406799, + "learning_rate": 1.4844586666666666e-05, + "loss": 0.0097, + "step": 120830 + }, + { + "epoch": 0.773344, + "grad_norm": 0.11663571745157242, + "learning_rate": 1.4844373333333336e-05, + "loss": 0.0059, + "step": 120835 + }, + { + "epoch": 0.773376, + "grad_norm": 0.1773720681667328, + "learning_rate": 1.4844160000000002e-05, + "loss": 0.0155, + "step": 120840 + }, + { + "epoch": 0.773408, + "grad_norm": 0.2259015291929245, + "learning_rate": 1.4843946666666669e-05, + "loss": 0.0262, + "step": 120845 + }, + { + "epoch": 0.77344, + "grad_norm": 0.2997238039970398, + "learning_rate": 1.4843733333333335e-05, + "loss": 0.0105, + "step": 120850 + }, + { + "epoch": 0.773472, + "grad_norm": 1.3359284400939941, + "learning_rate": 1.484352e-05, + "loss": 0.0124, + "step": 120855 + }, + { + "epoch": 0.773504, + "grad_norm": 0.2656159996986389, + "learning_rate": 1.4843306666666668e-05, + "loss": 0.0067, + "step": 120860 + }, + { + "epoch": 0.773536, + "grad_norm": 0.31901538372039795, + "learning_rate": 1.4843093333333334e-05, + "loss": 0.013, + "step": 120865 + }, + { + "epoch": 0.773568, + "grad_norm": 0.2590850591659546, + "learning_rate": 1.4842880000000002e-05, + "loss": 0.0034, + "step": 120870 + }, + { + "epoch": 0.7736, + "grad_norm": 0.10912533104419708, + "learning_rate": 1.4842666666666668e-05, + "loss": 0.0011, + "step": 120875 + }, + { + "epoch": 0.773632, + "grad_norm": 0.5230330228805542, + "learning_rate": 1.4842453333333335e-05, + "loss": 0.0115, + "step": 120880 + }, + { + "epoch": 0.773664, + "grad_norm": 0.8941992521286011, + "learning_rate": 1.4842240000000001e-05, + "loss": 0.0109, + "step": 120885 + }, + { + "epoch": 0.773696, + "grad_norm": 0.03846488520503044, + "learning_rate": 1.4842026666666667e-05, + "loss": 0.0257, + "step": 120890 + }, + { + "epoch": 0.773728, + "grad_norm": 0.6023198366165161, + "learning_rate": 1.4841813333333334e-05, + "loss": 0.0125, + "step": 120895 + }, + { + "epoch": 0.77376, + "grad_norm": 0.16266237199306488, + "learning_rate": 1.48416e-05, + "loss": 0.0059, + "step": 120900 + }, + { + "epoch": 0.773792, + "grad_norm": 1.5582135915756226, + "learning_rate": 1.4841386666666668e-05, + "loss": 0.0134, + "step": 120905 + }, + { + "epoch": 0.773824, + "grad_norm": 0.6054887771606445, + "learning_rate": 1.4841173333333334e-05, + "loss": 0.0056, + "step": 120910 + }, + { + "epoch": 0.773856, + "grad_norm": 0.054440006613731384, + "learning_rate": 1.4840960000000001e-05, + "loss": 0.0138, + "step": 120915 + }, + { + "epoch": 0.773888, + "grad_norm": 0.37433311343193054, + "learning_rate": 1.4840746666666667e-05, + "loss": 0.0071, + "step": 120920 + }, + { + "epoch": 0.77392, + "grad_norm": 0.7130647897720337, + "learning_rate": 1.4840533333333333e-05, + "loss": 0.0149, + "step": 120925 + }, + { + "epoch": 0.773952, + "grad_norm": 0.2589704394340515, + "learning_rate": 1.484032e-05, + "loss": 0.0139, + "step": 120930 + }, + { + "epoch": 0.773984, + "grad_norm": 0.1837686151266098, + "learning_rate": 1.4840106666666666e-05, + "loss": 0.0181, + "step": 120935 + }, + { + "epoch": 0.774016, + "grad_norm": 0.04130003973841667, + "learning_rate": 1.4839893333333336e-05, + "loss": 0.0071, + "step": 120940 + }, + { + "epoch": 0.774048, + "grad_norm": 0.625318169593811, + "learning_rate": 1.4839680000000002e-05, + "loss": 0.0108, + "step": 120945 + }, + { + "epoch": 0.77408, + "grad_norm": 0.4435904622077942, + "learning_rate": 1.4839466666666669e-05, + "loss": 0.0108, + "step": 120950 + }, + { + "epoch": 0.774112, + "grad_norm": 0.6297327280044556, + "learning_rate": 1.4839253333333335e-05, + "loss": 0.0068, + "step": 120955 + }, + { + "epoch": 0.774144, + "grad_norm": 0.6860895156860352, + "learning_rate": 1.483904e-05, + "loss": 0.0073, + "step": 120960 + }, + { + "epoch": 0.774176, + "grad_norm": 1.15462064743042, + "learning_rate": 1.4838826666666668e-05, + "loss": 0.0131, + "step": 120965 + }, + { + "epoch": 0.774208, + "grad_norm": 0.28985804319381714, + "learning_rate": 1.4838613333333334e-05, + "loss": 0.0143, + "step": 120970 + }, + { + "epoch": 0.77424, + "grad_norm": 0.0506838895380497, + "learning_rate": 1.4838400000000002e-05, + "loss": 0.003, + "step": 120975 + }, + { + "epoch": 0.774272, + "grad_norm": 0.11922093480825424, + "learning_rate": 1.4838186666666668e-05, + "loss": 0.0061, + "step": 120980 + }, + { + "epoch": 0.774304, + "grad_norm": 0.1759600043296814, + "learning_rate": 1.4837973333333335e-05, + "loss": 0.0025, + "step": 120985 + }, + { + "epoch": 0.774336, + "grad_norm": 0.05440092831850052, + "learning_rate": 1.4837760000000001e-05, + "loss": 0.0065, + "step": 120990 + }, + { + "epoch": 0.774368, + "grad_norm": 0.2849026024341583, + "learning_rate": 1.4837546666666669e-05, + "loss": 0.0054, + "step": 120995 + }, + { + "epoch": 0.7744, + "grad_norm": 0.49561968445777893, + "learning_rate": 1.4837333333333334e-05, + "loss": 0.0205, + "step": 121000 + }, + { + "epoch": 0.774432, + "grad_norm": 0.7468932271003723, + "learning_rate": 1.483712e-05, + "loss": 0.0205, + "step": 121005 + }, + { + "epoch": 0.774464, + "grad_norm": 0.9071840643882751, + "learning_rate": 1.4836906666666668e-05, + "loss": 0.0244, + "step": 121010 + }, + { + "epoch": 0.774496, + "grad_norm": 0.34745144844055176, + "learning_rate": 1.4836693333333334e-05, + "loss": 0.0043, + "step": 121015 + }, + { + "epoch": 0.774528, + "grad_norm": 1.0468266010284424, + "learning_rate": 1.4836480000000001e-05, + "loss": 0.0173, + "step": 121020 + }, + { + "epoch": 0.77456, + "grad_norm": 0.29057976603507996, + "learning_rate": 1.4836266666666667e-05, + "loss": 0.0075, + "step": 121025 + }, + { + "epoch": 0.774592, + "grad_norm": 1.7190499305725098, + "learning_rate": 1.4836053333333336e-05, + "loss": 0.0193, + "step": 121030 + }, + { + "epoch": 0.774624, + "grad_norm": 0.07319468259811401, + "learning_rate": 1.483584e-05, + "loss": 0.0054, + "step": 121035 + }, + { + "epoch": 0.774656, + "grad_norm": 0.09470651298761368, + "learning_rate": 1.4835626666666666e-05, + "loss": 0.0258, + "step": 121040 + }, + { + "epoch": 0.774688, + "grad_norm": 0.7812389135360718, + "learning_rate": 1.4835413333333336e-05, + "loss": 0.0145, + "step": 121045 + }, + { + "epoch": 0.77472, + "grad_norm": 0.04916606843471527, + "learning_rate": 1.4835200000000002e-05, + "loss": 0.0122, + "step": 121050 + }, + { + "epoch": 0.774752, + "grad_norm": 0.23042041063308716, + "learning_rate": 1.4834986666666669e-05, + "loss": 0.0144, + "step": 121055 + }, + { + "epoch": 0.774784, + "grad_norm": 0.014755805023014545, + "learning_rate": 1.4834773333333335e-05, + "loss": 0.0081, + "step": 121060 + }, + { + "epoch": 0.774816, + "grad_norm": 0.1879422813653946, + "learning_rate": 1.4834560000000003e-05, + "loss": 0.0165, + "step": 121065 + }, + { + "epoch": 0.774848, + "grad_norm": 1.2878628969192505, + "learning_rate": 1.4834346666666668e-05, + "loss": 0.0164, + "step": 121070 + }, + { + "epoch": 0.77488, + "grad_norm": 0.20271232724189758, + "learning_rate": 1.4834133333333334e-05, + "loss": 0.0235, + "step": 121075 + }, + { + "epoch": 0.774912, + "grad_norm": 0.2930912673473358, + "learning_rate": 1.4833920000000002e-05, + "loss": 0.0085, + "step": 121080 + }, + { + "epoch": 0.774944, + "grad_norm": 0.06399983167648315, + "learning_rate": 1.4833706666666668e-05, + "loss": 0.0215, + "step": 121085 + }, + { + "epoch": 0.774976, + "grad_norm": 0.548869252204895, + "learning_rate": 1.4833493333333335e-05, + "loss": 0.0131, + "step": 121090 + }, + { + "epoch": 0.775008, + "grad_norm": 0.4098091423511505, + "learning_rate": 1.4833280000000001e-05, + "loss": 0.0073, + "step": 121095 + }, + { + "epoch": 0.77504, + "grad_norm": 0.978581428527832, + "learning_rate": 1.4833066666666669e-05, + "loss": 0.0166, + "step": 121100 + }, + { + "epoch": 0.775072, + "grad_norm": 0.018045347183942795, + "learning_rate": 1.4832853333333334e-05, + "loss": 0.0082, + "step": 121105 + }, + { + "epoch": 0.775104, + "grad_norm": 0.19025832414627075, + "learning_rate": 1.483264e-05, + "loss": 0.0314, + "step": 121110 + }, + { + "epoch": 0.775136, + "grad_norm": 0.2888284921646118, + "learning_rate": 1.4832426666666668e-05, + "loss": 0.004, + "step": 121115 + }, + { + "epoch": 0.775168, + "grad_norm": 0.23076093196868896, + "learning_rate": 1.4832213333333334e-05, + "loss": 0.0121, + "step": 121120 + }, + { + "epoch": 0.7752, + "grad_norm": 0.5522951483726501, + "learning_rate": 1.4832000000000001e-05, + "loss": 0.0302, + "step": 121125 + }, + { + "epoch": 0.775232, + "grad_norm": 0.34173986315727234, + "learning_rate": 1.4831786666666667e-05, + "loss": 0.0087, + "step": 121130 + }, + { + "epoch": 0.775264, + "grad_norm": 0.24593645334243774, + "learning_rate": 1.4831573333333336e-05, + "loss": 0.0033, + "step": 121135 + }, + { + "epoch": 0.775296, + "grad_norm": 0.38166970014572144, + "learning_rate": 1.483136e-05, + "loss": 0.0104, + "step": 121140 + }, + { + "epoch": 0.775328, + "grad_norm": 0.4867621064186096, + "learning_rate": 1.4831146666666666e-05, + "loss": 0.013, + "step": 121145 + }, + { + "epoch": 0.77536, + "grad_norm": 0.6190930604934692, + "learning_rate": 1.4830933333333336e-05, + "loss": 0.0161, + "step": 121150 + }, + { + "epoch": 0.775392, + "grad_norm": 0.9307205677032471, + "learning_rate": 1.483072e-05, + "loss": 0.0083, + "step": 121155 + }, + { + "epoch": 0.775424, + "grad_norm": 0.13764570653438568, + "learning_rate": 1.4830506666666669e-05, + "loss": 0.0082, + "step": 121160 + }, + { + "epoch": 0.775456, + "grad_norm": 0.07083146274089813, + "learning_rate": 1.4830293333333335e-05, + "loss": 0.0045, + "step": 121165 + }, + { + "epoch": 0.775488, + "grad_norm": 0.39445486664772034, + "learning_rate": 1.4830080000000003e-05, + "loss": 0.0136, + "step": 121170 + }, + { + "epoch": 0.77552, + "grad_norm": 0.579643964767456, + "learning_rate": 1.4829866666666668e-05, + "loss": 0.0061, + "step": 121175 + }, + { + "epoch": 0.775552, + "grad_norm": 0.2615402340888977, + "learning_rate": 1.4829653333333334e-05, + "loss": 0.005, + "step": 121180 + }, + { + "epoch": 0.775584, + "grad_norm": 0.5073090195655823, + "learning_rate": 1.4829440000000002e-05, + "loss": 0.0059, + "step": 121185 + }, + { + "epoch": 0.775616, + "grad_norm": 0.6436823606491089, + "learning_rate": 1.4829226666666668e-05, + "loss": 0.0162, + "step": 121190 + }, + { + "epoch": 0.775648, + "grad_norm": 0.11246094107627869, + "learning_rate": 1.4829013333333335e-05, + "loss": 0.007, + "step": 121195 + }, + { + "epoch": 0.77568, + "grad_norm": 0.4743102192878723, + "learning_rate": 1.4828800000000001e-05, + "loss": 0.0047, + "step": 121200 + }, + { + "epoch": 0.775712, + "grad_norm": 0.20229391753673553, + "learning_rate": 1.4828586666666669e-05, + "loss": 0.0056, + "step": 121205 + }, + { + "epoch": 0.775744, + "grad_norm": 0.6650784611701965, + "learning_rate": 1.4828373333333334e-05, + "loss": 0.0043, + "step": 121210 + }, + { + "epoch": 0.775776, + "grad_norm": 0.6877712607383728, + "learning_rate": 1.482816e-05, + "loss": 0.0054, + "step": 121215 + }, + { + "epoch": 0.775808, + "grad_norm": 0.6045452356338501, + "learning_rate": 1.4827946666666668e-05, + "loss": 0.018, + "step": 121220 + }, + { + "epoch": 0.77584, + "grad_norm": 0.3597033619880676, + "learning_rate": 1.4827733333333334e-05, + "loss": 0.0083, + "step": 121225 + }, + { + "epoch": 0.775872, + "grad_norm": 0.10887810587882996, + "learning_rate": 1.4827520000000001e-05, + "loss": 0.0355, + "step": 121230 + }, + { + "epoch": 0.775904, + "grad_norm": 0.46496373414993286, + "learning_rate": 1.4827306666666667e-05, + "loss": 0.0049, + "step": 121235 + }, + { + "epoch": 0.775936, + "grad_norm": 0.569025993347168, + "learning_rate": 1.4827093333333335e-05, + "loss": 0.0032, + "step": 121240 + }, + { + "epoch": 0.775968, + "grad_norm": 0.6609892249107361, + "learning_rate": 1.482688e-05, + "loss": 0.0208, + "step": 121245 + }, + { + "epoch": 0.776, + "grad_norm": 0.0845448449254036, + "learning_rate": 1.4826666666666666e-05, + "loss": 0.0073, + "step": 121250 + }, + { + "epoch": 0.776032, + "grad_norm": 0.5051936507225037, + "learning_rate": 1.4826453333333336e-05, + "loss": 0.0279, + "step": 121255 + }, + { + "epoch": 0.776064, + "grad_norm": 0.4271704852581024, + "learning_rate": 1.482624e-05, + "loss": 0.0171, + "step": 121260 + }, + { + "epoch": 0.776096, + "grad_norm": 0.5048920512199402, + "learning_rate": 1.4826026666666669e-05, + "loss": 0.0096, + "step": 121265 + }, + { + "epoch": 0.776128, + "grad_norm": 1.0135921239852905, + "learning_rate": 1.4825813333333335e-05, + "loss": 0.0102, + "step": 121270 + }, + { + "epoch": 0.77616, + "grad_norm": 1.2157409191131592, + "learning_rate": 1.4825600000000003e-05, + "loss": 0.0066, + "step": 121275 + }, + { + "epoch": 0.776192, + "grad_norm": 1.889424443244934, + "learning_rate": 1.4825386666666668e-05, + "loss": 0.0257, + "step": 121280 + }, + { + "epoch": 0.776224, + "grad_norm": 0.06439743936061859, + "learning_rate": 1.4825173333333334e-05, + "loss": 0.006, + "step": 121285 + }, + { + "epoch": 0.776256, + "grad_norm": 0.11811259388923645, + "learning_rate": 1.4824960000000002e-05, + "loss": 0.0062, + "step": 121290 + }, + { + "epoch": 0.776288, + "grad_norm": 0.6418573260307312, + "learning_rate": 1.4824746666666668e-05, + "loss": 0.0184, + "step": 121295 + }, + { + "epoch": 0.77632, + "grad_norm": 0.0681414008140564, + "learning_rate": 1.4824533333333335e-05, + "loss": 0.0073, + "step": 121300 + }, + { + "epoch": 0.776352, + "grad_norm": 0.38450703024864197, + "learning_rate": 1.4824320000000001e-05, + "loss": 0.0089, + "step": 121305 + }, + { + "epoch": 0.776384, + "grad_norm": 0.4815099537372589, + "learning_rate": 1.4824106666666669e-05, + "loss": 0.0038, + "step": 121310 + }, + { + "epoch": 0.776416, + "grad_norm": 0.18375332653522491, + "learning_rate": 1.4823893333333334e-05, + "loss": 0.0055, + "step": 121315 + }, + { + "epoch": 0.776448, + "grad_norm": 0.698945939540863, + "learning_rate": 1.482368e-05, + "loss": 0.0108, + "step": 121320 + }, + { + "epoch": 0.77648, + "grad_norm": 0.051349882036447525, + "learning_rate": 1.4823466666666668e-05, + "loss": 0.0042, + "step": 121325 + }, + { + "epoch": 0.776512, + "grad_norm": 0.9686425924301147, + "learning_rate": 1.4823253333333334e-05, + "loss": 0.0055, + "step": 121330 + }, + { + "epoch": 0.776544, + "grad_norm": 0.791732907295227, + "learning_rate": 1.4823040000000001e-05, + "loss": 0.0091, + "step": 121335 + }, + { + "epoch": 0.776576, + "grad_norm": 0.17970411479473114, + "learning_rate": 1.4822826666666667e-05, + "loss": 0.0045, + "step": 121340 + }, + { + "epoch": 0.776608, + "grad_norm": 0.06099461391568184, + "learning_rate": 1.4822613333333335e-05, + "loss": 0.0113, + "step": 121345 + }, + { + "epoch": 0.77664, + "grad_norm": 1.06240975856781, + "learning_rate": 1.48224e-05, + "loss": 0.0253, + "step": 121350 + }, + { + "epoch": 0.776672, + "grad_norm": 1.13020920753479, + "learning_rate": 1.4822186666666666e-05, + "loss": 0.0058, + "step": 121355 + }, + { + "epoch": 0.776704, + "grad_norm": 1.387026071548462, + "learning_rate": 1.4821973333333336e-05, + "loss": 0.0301, + "step": 121360 + }, + { + "epoch": 0.776736, + "grad_norm": 1.1235789060592651, + "learning_rate": 1.482176e-05, + "loss": 0.014, + "step": 121365 + }, + { + "epoch": 0.776768, + "grad_norm": 0.3404180705547333, + "learning_rate": 1.4821546666666669e-05, + "loss": 0.0057, + "step": 121370 + }, + { + "epoch": 0.7768, + "grad_norm": 0.3472047448158264, + "learning_rate": 1.4821333333333335e-05, + "loss": 0.0109, + "step": 121375 + }, + { + "epoch": 0.776832, + "grad_norm": 0.06498308479785919, + "learning_rate": 1.4821120000000003e-05, + "loss": 0.0041, + "step": 121380 + }, + { + "epoch": 0.776864, + "grad_norm": 0.5158761143684387, + "learning_rate": 1.4820906666666668e-05, + "loss": 0.0068, + "step": 121385 + }, + { + "epoch": 0.776896, + "grad_norm": 0.22774571180343628, + "learning_rate": 1.4820693333333334e-05, + "loss": 0.0091, + "step": 121390 + }, + { + "epoch": 0.776928, + "grad_norm": 0.1476568877696991, + "learning_rate": 1.4820480000000002e-05, + "loss": 0.0061, + "step": 121395 + }, + { + "epoch": 0.77696, + "grad_norm": 0.5680330991744995, + "learning_rate": 1.4820266666666668e-05, + "loss": 0.0097, + "step": 121400 + }, + { + "epoch": 0.776992, + "grad_norm": 0.11130126565694809, + "learning_rate": 1.4820053333333335e-05, + "loss": 0.0037, + "step": 121405 + }, + { + "epoch": 0.777024, + "grad_norm": 0.20743101835250854, + "learning_rate": 1.4819840000000001e-05, + "loss": 0.0036, + "step": 121410 + }, + { + "epoch": 0.777056, + "grad_norm": 0.0694037452340126, + "learning_rate": 1.4819626666666669e-05, + "loss": 0.0148, + "step": 121415 + }, + { + "epoch": 0.777088, + "grad_norm": 0.0930081233382225, + "learning_rate": 1.4819413333333334e-05, + "loss": 0.0042, + "step": 121420 + }, + { + "epoch": 0.77712, + "grad_norm": 0.7313183546066284, + "learning_rate": 1.48192e-05, + "loss": 0.0103, + "step": 121425 + }, + { + "epoch": 0.777152, + "grad_norm": 0.2891467213630676, + "learning_rate": 1.4818986666666668e-05, + "loss": 0.0082, + "step": 121430 + }, + { + "epoch": 0.777184, + "grad_norm": 1.6155544519424438, + "learning_rate": 1.4818773333333334e-05, + "loss": 0.0181, + "step": 121435 + }, + { + "epoch": 0.777216, + "grad_norm": 0.34592148661613464, + "learning_rate": 1.4818560000000001e-05, + "loss": 0.009, + "step": 121440 + }, + { + "epoch": 0.777248, + "grad_norm": 1.0009173154830933, + "learning_rate": 1.4818346666666667e-05, + "loss": 0.0099, + "step": 121445 + }, + { + "epoch": 0.77728, + "grad_norm": 0.28621020913124084, + "learning_rate": 1.4818133333333335e-05, + "loss": 0.0064, + "step": 121450 + }, + { + "epoch": 0.777312, + "grad_norm": 0.44701871275901794, + "learning_rate": 1.481792e-05, + "loss": 0.0074, + "step": 121455 + }, + { + "epoch": 0.777344, + "grad_norm": 0.07175355404615402, + "learning_rate": 1.4817706666666666e-05, + "loss": 0.0029, + "step": 121460 + }, + { + "epoch": 0.777376, + "grad_norm": 0.5183379650115967, + "learning_rate": 1.4817493333333334e-05, + "loss": 0.0166, + "step": 121465 + }, + { + "epoch": 0.777408, + "grad_norm": 0.3314857482910156, + "learning_rate": 1.481728e-05, + "loss": 0.0051, + "step": 121470 + }, + { + "epoch": 0.77744, + "grad_norm": 0.03538017347455025, + "learning_rate": 1.4817066666666669e-05, + "loss": 0.0053, + "step": 121475 + }, + { + "epoch": 0.777472, + "grad_norm": 0.34574633836746216, + "learning_rate": 1.4816853333333335e-05, + "loss": 0.0158, + "step": 121480 + }, + { + "epoch": 0.777504, + "grad_norm": 0.9002512097358704, + "learning_rate": 1.4816640000000003e-05, + "loss": 0.0346, + "step": 121485 + }, + { + "epoch": 0.777536, + "grad_norm": 0.05142928659915924, + "learning_rate": 1.4816426666666668e-05, + "loss": 0.0022, + "step": 121490 + }, + { + "epoch": 0.777568, + "grad_norm": 0.03427450731396675, + "learning_rate": 1.4816213333333334e-05, + "loss": 0.0127, + "step": 121495 + }, + { + "epoch": 0.7776, + "grad_norm": 0.5870488882064819, + "learning_rate": 1.4816000000000002e-05, + "loss": 0.0112, + "step": 121500 + }, + { + "epoch": 0.777632, + "grad_norm": 0.2915867865085602, + "learning_rate": 1.4815786666666668e-05, + "loss": 0.0057, + "step": 121505 + }, + { + "epoch": 0.777664, + "grad_norm": 1.0274757146835327, + "learning_rate": 1.4815573333333335e-05, + "loss": 0.0078, + "step": 121510 + }, + { + "epoch": 0.777696, + "grad_norm": 0.12354826182126999, + "learning_rate": 1.4815360000000001e-05, + "loss": 0.0052, + "step": 121515 + }, + { + "epoch": 0.777728, + "grad_norm": 0.07385531812906265, + "learning_rate": 1.4815146666666669e-05, + "loss": 0.0021, + "step": 121520 + }, + { + "epoch": 0.77776, + "grad_norm": 0.37873509526252747, + "learning_rate": 1.4814933333333334e-05, + "loss": 0.0139, + "step": 121525 + }, + { + "epoch": 0.777792, + "grad_norm": 0.4722703993320465, + "learning_rate": 1.481472e-05, + "loss": 0.0183, + "step": 121530 + }, + { + "epoch": 0.777824, + "grad_norm": 0.10841797292232513, + "learning_rate": 1.4814506666666668e-05, + "loss": 0.0063, + "step": 121535 + }, + { + "epoch": 0.777856, + "grad_norm": 0.4628943204879761, + "learning_rate": 1.4814293333333334e-05, + "loss": 0.0111, + "step": 121540 + }, + { + "epoch": 0.777888, + "grad_norm": 0.6963334679603577, + "learning_rate": 1.4814080000000001e-05, + "loss": 0.0123, + "step": 121545 + }, + { + "epoch": 0.77792, + "grad_norm": 1.1277637481689453, + "learning_rate": 1.4813866666666667e-05, + "loss": 0.0132, + "step": 121550 + }, + { + "epoch": 0.777952, + "grad_norm": 0.3770999610424042, + "learning_rate": 1.4813653333333335e-05, + "loss": 0.0064, + "step": 121555 + }, + { + "epoch": 0.777984, + "grad_norm": 1.593075156211853, + "learning_rate": 1.481344e-05, + "loss": 0.0123, + "step": 121560 + }, + { + "epoch": 0.778016, + "grad_norm": 0.17127838730812073, + "learning_rate": 1.4813226666666666e-05, + "loss": 0.0123, + "step": 121565 + }, + { + "epoch": 0.778048, + "grad_norm": 0.1744157075881958, + "learning_rate": 1.4813013333333334e-05, + "loss": 0.0058, + "step": 121570 + }, + { + "epoch": 0.77808, + "grad_norm": 1.107488751411438, + "learning_rate": 1.48128e-05, + "loss": 0.0234, + "step": 121575 + }, + { + "epoch": 0.778112, + "grad_norm": 1.3894482851028442, + "learning_rate": 1.4812586666666669e-05, + "loss": 0.0234, + "step": 121580 + }, + { + "epoch": 0.778144, + "grad_norm": 0.5287174582481384, + "learning_rate": 1.4812373333333335e-05, + "loss": 0.0062, + "step": 121585 + }, + { + "epoch": 0.778176, + "grad_norm": 0.15272974967956543, + "learning_rate": 1.4812160000000003e-05, + "loss": 0.0106, + "step": 121590 + }, + { + "epoch": 0.778208, + "grad_norm": 0.4705651104450226, + "learning_rate": 1.4811946666666668e-05, + "loss": 0.0251, + "step": 121595 + }, + { + "epoch": 0.77824, + "grad_norm": 0.2886200547218323, + "learning_rate": 1.4811733333333334e-05, + "loss": 0.0077, + "step": 121600 + }, + { + "epoch": 0.778272, + "grad_norm": 1.0238888263702393, + "learning_rate": 1.4811520000000002e-05, + "loss": 0.0132, + "step": 121605 + }, + { + "epoch": 0.778304, + "grad_norm": 0.08687771111726761, + "learning_rate": 1.4811306666666668e-05, + "loss": 0.0113, + "step": 121610 + }, + { + "epoch": 0.778336, + "grad_norm": 0.28702518343925476, + "learning_rate": 1.4811093333333335e-05, + "loss": 0.0194, + "step": 121615 + }, + { + "epoch": 0.778368, + "grad_norm": 0.4088849723339081, + "learning_rate": 1.4810880000000001e-05, + "loss": 0.01, + "step": 121620 + }, + { + "epoch": 0.7784, + "grad_norm": 0.5036894083023071, + "learning_rate": 1.4810666666666669e-05, + "loss": 0.013, + "step": 121625 + }, + { + "epoch": 0.778432, + "grad_norm": 0.5628613233566284, + "learning_rate": 1.4810453333333334e-05, + "loss": 0.01, + "step": 121630 + }, + { + "epoch": 0.778464, + "grad_norm": 0.13748180866241455, + "learning_rate": 1.481024e-05, + "loss": 0.0167, + "step": 121635 + }, + { + "epoch": 0.778496, + "grad_norm": 0.2518255114555359, + "learning_rate": 1.4810026666666668e-05, + "loss": 0.0158, + "step": 121640 + }, + { + "epoch": 0.778528, + "grad_norm": 0.20270176231861115, + "learning_rate": 1.4809813333333334e-05, + "loss": 0.0141, + "step": 121645 + }, + { + "epoch": 0.77856, + "grad_norm": 0.2929295301437378, + "learning_rate": 1.4809600000000001e-05, + "loss": 0.0417, + "step": 121650 + }, + { + "epoch": 0.778592, + "grad_norm": 0.8917859792709351, + "learning_rate": 1.4809386666666667e-05, + "loss": 0.027, + "step": 121655 + }, + { + "epoch": 0.778624, + "grad_norm": 0.6870394349098206, + "learning_rate": 1.4809173333333335e-05, + "loss": 0.0109, + "step": 121660 + }, + { + "epoch": 0.778656, + "grad_norm": 0.07392910122871399, + "learning_rate": 1.480896e-05, + "loss": 0.0185, + "step": 121665 + }, + { + "epoch": 0.778688, + "grad_norm": 0.6021245718002319, + "learning_rate": 1.4808746666666666e-05, + "loss": 0.0064, + "step": 121670 + }, + { + "epoch": 0.77872, + "grad_norm": 0.7143917083740234, + "learning_rate": 1.4808533333333334e-05, + "loss": 0.0067, + "step": 121675 + }, + { + "epoch": 0.778752, + "grad_norm": 0.8776759505271912, + "learning_rate": 1.480832e-05, + "loss": 0.0186, + "step": 121680 + }, + { + "epoch": 0.778784, + "grad_norm": 0.2994862496852875, + "learning_rate": 1.4808106666666669e-05, + "loss": 0.0182, + "step": 121685 + }, + { + "epoch": 0.778816, + "grad_norm": 0.04094851389527321, + "learning_rate": 1.4807893333333333e-05, + "loss": 0.0199, + "step": 121690 + }, + { + "epoch": 0.778848, + "grad_norm": 0.579959511756897, + "learning_rate": 1.4807680000000003e-05, + "loss": 0.0166, + "step": 121695 + }, + { + "epoch": 0.77888, + "grad_norm": 1.4495649337768555, + "learning_rate": 1.4807466666666668e-05, + "loss": 0.0068, + "step": 121700 + }, + { + "epoch": 0.778912, + "grad_norm": 0.07976878434419632, + "learning_rate": 1.4807253333333334e-05, + "loss": 0.0133, + "step": 121705 + }, + { + "epoch": 0.778944, + "grad_norm": 1.2304128408432007, + "learning_rate": 1.4807040000000002e-05, + "loss": 0.0073, + "step": 121710 + }, + { + "epoch": 0.778976, + "grad_norm": 0.39475807547569275, + "learning_rate": 1.4806826666666668e-05, + "loss": 0.0153, + "step": 121715 + }, + { + "epoch": 0.779008, + "grad_norm": 0.07391904294490814, + "learning_rate": 1.4806613333333335e-05, + "loss": 0.0164, + "step": 121720 + }, + { + "epoch": 0.77904, + "grad_norm": 0.14172936975955963, + "learning_rate": 1.4806400000000001e-05, + "loss": 0.0092, + "step": 121725 + }, + { + "epoch": 0.779072, + "grad_norm": 0.009920266456902027, + "learning_rate": 1.4806186666666669e-05, + "loss": 0.008, + "step": 121730 + }, + { + "epoch": 0.779104, + "grad_norm": 0.11723337322473526, + "learning_rate": 1.4805973333333334e-05, + "loss": 0.0182, + "step": 121735 + }, + { + "epoch": 0.779136, + "grad_norm": 0.7001765966415405, + "learning_rate": 1.480576e-05, + "loss": 0.0049, + "step": 121740 + }, + { + "epoch": 0.779168, + "grad_norm": 0.5150826573371887, + "learning_rate": 1.4805546666666668e-05, + "loss": 0.0116, + "step": 121745 + }, + { + "epoch": 0.7792, + "grad_norm": 0.25969061255455017, + "learning_rate": 1.4805333333333334e-05, + "loss": 0.0197, + "step": 121750 + }, + { + "epoch": 0.779232, + "grad_norm": 0.24534808099269867, + "learning_rate": 1.4805120000000001e-05, + "loss": 0.0115, + "step": 121755 + }, + { + "epoch": 0.779264, + "grad_norm": 0.045289721339941025, + "learning_rate": 1.4804906666666667e-05, + "loss": 0.0039, + "step": 121760 + }, + { + "epoch": 0.779296, + "grad_norm": 0.5540821552276611, + "learning_rate": 1.4804693333333335e-05, + "loss": 0.0105, + "step": 121765 + }, + { + "epoch": 0.779328, + "grad_norm": 0.31387844681739807, + "learning_rate": 1.480448e-05, + "loss": 0.0119, + "step": 121770 + }, + { + "epoch": 0.77936, + "grad_norm": 0.6900109648704529, + "learning_rate": 1.4804266666666666e-05, + "loss": 0.0199, + "step": 121775 + }, + { + "epoch": 0.779392, + "grad_norm": 0.06654079258441925, + "learning_rate": 1.4804053333333334e-05, + "loss": 0.0208, + "step": 121780 + }, + { + "epoch": 0.779424, + "grad_norm": 0.08815833926200867, + "learning_rate": 1.480384e-05, + "loss": 0.0208, + "step": 121785 + }, + { + "epoch": 0.779456, + "grad_norm": 1.9630645513534546, + "learning_rate": 1.4803626666666669e-05, + "loss": 0.0124, + "step": 121790 + }, + { + "epoch": 0.779488, + "grad_norm": 0.975279688835144, + "learning_rate": 1.4803413333333333e-05, + "loss": 0.0102, + "step": 121795 + }, + { + "epoch": 0.77952, + "grad_norm": 0.8687231540679932, + "learning_rate": 1.4803200000000003e-05, + "loss": 0.017, + "step": 121800 + }, + { + "epoch": 0.779552, + "grad_norm": 0.026134321466088295, + "learning_rate": 1.4802986666666668e-05, + "loss": 0.0044, + "step": 121805 + }, + { + "epoch": 0.779584, + "grad_norm": 1.1005496978759766, + "learning_rate": 1.4802773333333334e-05, + "loss": 0.0125, + "step": 121810 + }, + { + "epoch": 0.779616, + "grad_norm": 1.0266876220703125, + "learning_rate": 1.4802560000000002e-05, + "loss": 0.0379, + "step": 121815 + }, + { + "epoch": 0.779648, + "grad_norm": 1.2125502824783325, + "learning_rate": 1.4802346666666668e-05, + "loss": 0.0097, + "step": 121820 + }, + { + "epoch": 0.77968, + "grad_norm": 0.4753853678703308, + "learning_rate": 1.4802133333333335e-05, + "loss": 0.0108, + "step": 121825 + }, + { + "epoch": 0.779712, + "grad_norm": 0.4056510031223297, + "learning_rate": 1.4801920000000001e-05, + "loss": 0.018, + "step": 121830 + }, + { + "epoch": 0.779744, + "grad_norm": 0.2818215787410736, + "learning_rate": 1.4801706666666669e-05, + "loss": 0.029, + "step": 121835 + }, + { + "epoch": 0.779776, + "grad_norm": 0.5257434248924255, + "learning_rate": 1.4801493333333334e-05, + "loss": 0.0031, + "step": 121840 + }, + { + "epoch": 0.779808, + "grad_norm": 0.375573992729187, + "learning_rate": 1.4801280000000002e-05, + "loss": 0.0084, + "step": 121845 + }, + { + "epoch": 0.77984, + "grad_norm": 0.05647296831011772, + "learning_rate": 1.4801066666666668e-05, + "loss": 0.0093, + "step": 121850 + }, + { + "epoch": 0.779872, + "grad_norm": 0.8337801694869995, + "learning_rate": 1.4800853333333334e-05, + "loss": 0.0065, + "step": 121855 + }, + { + "epoch": 0.779904, + "grad_norm": 0.1531286984682083, + "learning_rate": 1.4800640000000001e-05, + "loss": 0.0492, + "step": 121860 + }, + { + "epoch": 0.779936, + "grad_norm": 0.646070122718811, + "learning_rate": 1.4800426666666667e-05, + "loss": 0.0055, + "step": 121865 + }, + { + "epoch": 0.779968, + "grad_norm": 0.5065655708312988, + "learning_rate": 1.4800213333333335e-05, + "loss": 0.0088, + "step": 121870 + }, + { + "epoch": 0.78, + "grad_norm": 1.3640379905700684, + "learning_rate": 1.48e-05, + "loss": 0.0282, + "step": 121875 + }, + { + "epoch": 0.780032, + "grad_norm": 0.533761203289032, + "learning_rate": 1.4799786666666668e-05, + "loss": 0.0142, + "step": 121880 + }, + { + "epoch": 0.780064, + "grad_norm": 0.8787095546722412, + "learning_rate": 1.4799573333333334e-05, + "loss": 0.009, + "step": 121885 + }, + { + "epoch": 0.780096, + "grad_norm": 1.029860496520996, + "learning_rate": 1.479936e-05, + "loss": 0.0079, + "step": 121890 + }, + { + "epoch": 0.780128, + "grad_norm": 0.6674533486366272, + "learning_rate": 1.4799146666666669e-05, + "loss": 0.0067, + "step": 121895 + }, + { + "epoch": 0.78016, + "grad_norm": 0.12725727260112762, + "learning_rate": 1.4798933333333333e-05, + "loss": 0.004, + "step": 121900 + }, + { + "epoch": 0.780192, + "grad_norm": 0.09557157009840012, + "learning_rate": 1.4798720000000003e-05, + "loss": 0.0143, + "step": 121905 + }, + { + "epoch": 0.780224, + "grad_norm": 2.0073025226593018, + "learning_rate": 1.4798506666666668e-05, + "loss": 0.003, + "step": 121910 + }, + { + "epoch": 0.780256, + "grad_norm": 0.8977876305580139, + "learning_rate": 1.4798293333333336e-05, + "loss": 0.008, + "step": 121915 + }, + { + "epoch": 0.780288, + "grad_norm": 0.07572556287050247, + "learning_rate": 1.4798080000000002e-05, + "loss": 0.0118, + "step": 121920 + }, + { + "epoch": 0.78032, + "grad_norm": 1.0354527235031128, + "learning_rate": 1.4797866666666668e-05, + "loss": 0.0193, + "step": 121925 + }, + { + "epoch": 0.780352, + "grad_norm": 0.1991918534040451, + "learning_rate": 1.4797653333333335e-05, + "loss": 0.0177, + "step": 121930 + }, + { + "epoch": 0.780384, + "grad_norm": 0.14181147515773773, + "learning_rate": 1.4797440000000001e-05, + "loss": 0.0113, + "step": 121935 + }, + { + "epoch": 0.780416, + "grad_norm": 0.877403974533081, + "learning_rate": 1.4797226666666669e-05, + "loss": 0.0034, + "step": 121940 + }, + { + "epoch": 0.780448, + "grad_norm": 0.29877209663391113, + "learning_rate": 1.4797013333333335e-05, + "loss": 0.0176, + "step": 121945 + }, + { + "epoch": 0.78048, + "grad_norm": 0.3265986442565918, + "learning_rate": 1.4796800000000002e-05, + "loss": 0.0166, + "step": 121950 + }, + { + "epoch": 0.780512, + "grad_norm": 0.02311004139482975, + "learning_rate": 1.4796586666666668e-05, + "loss": 0.0106, + "step": 121955 + }, + { + "epoch": 0.780544, + "grad_norm": 0.4584629237651825, + "learning_rate": 1.4796373333333334e-05, + "loss": 0.004, + "step": 121960 + }, + { + "epoch": 0.780576, + "grad_norm": 0.19180427491664886, + "learning_rate": 1.4796160000000001e-05, + "loss": 0.0131, + "step": 121965 + }, + { + "epoch": 0.780608, + "grad_norm": 1.3245660066604614, + "learning_rate": 1.4795946666666667e-05, + "loss": 0.0098, + "step": 121970 + }, + { + "epoch": 0.78064, + "grad_norm": 0.37547311186790466, + "learning_rate": 1.4795733333333335e-05, + "loss": 0.0054, + "step": 121975 + }, + { + "epoch": 0.780672, + "grad_norm": 0.19063420593738556, + "learning_rate": 1.479552e-05, + "loss": 0.0031, + "step": 121980 + }, + { + "epoch": 0.780704, + "grad_norm": 0.10145996510982513, + "learning_rate": 1.4795306666666668e-05, + "loss": 0.0077, + "step": 121985 + }, + { + "epoch": 0.780736, + "grad_norm": 0.8709626793861389, + "learning_rate": 1.4795093333333334e-05, + "loss": 0.0067, + "step": 121990 + }, + { + "epoch": 0.780768, + "grad_norm": 0.17695966362953186, + "learning_rate": 1.479488e-05, + "loss": 0.0117, + "step": 121995 + }, + { + "epoch": 0.7808, + "grad_norm": 1.0043836832046509, + "learning_rate": 1.4794666666666669e-05, + "loss": 0.0096, + "step": 122000 + }, + { + "epoch": 0.780832, + "grad_norm": 0.5629739165306091, + "learning_rate": 1.4794453333333333e-05, + "loss": 0.0099, + "step": 122005 + }, + { + "epoch": 0.780864, + "grad_norm": 2.1343886852264404, + "learning_rate": 1.4794240000000003e-05, + "loss": 0.0046, + "step": 122010 + }, + { + "epoch": 0.780896, + "grad_norm": 0.08279281109571457, + "learning_rate": 1.4794026666666668e-05, + "loss": 0.007, + "step": 122015 + }, + { + "epoch": 0.780928, + "grad_norm": 0.6657249331474304, + "learning_rate": 1.4793813333333336e-05, + "loss": 0.0124, + "step": 122020 + }, + { + "epoch": 0.78096, + "grad_norm": 0.020201541483402252, + "learning_rate": 1.4793600000000002e-05, + "loss": 0.0027, + "step": 122025 + }, + { + "epoch": 0.780992, + "grad_norm": 0.5343095660209656, + "learning_rate": 1.4793386666666668e-05, + "loss": 0.0069, + "step": 122030 + }, + { + "epoch": 0.781024, + "grad_norm": 0.18784764409065247, + "learning_rate": 1.4793173333333335e-05, + "loss": 0.0025, + "step": 122035 + }, + { + "epoch": 0.781056, + "grad_norm": 1.1373759508132935, + "learning_rate": 1.4792960000000001e-05, + "loss": 0.0111, + "step": 122040 + }, + { + "epoch": 0.781088, + "grad_norm": 0.03489932417869568, + "learning_rate": 1.4792746666666669e-05, + "loss": 0.0053, + "step": 122045 + }, + { + "epoch": 0.78112, + "grad_norm": 1.541415810585022, + "learning_rate": 1.4792533333333335e-05, + "loss": 0.0233, + "step": 122050 + }, + { + "epoch": 0.781152, + "grad_norm": 0.0119923185557127, + "learning_rate": 1.4792320000000002e-05, + "loss": 0.0023, + "step": 122055 + }, + { + "epoch": 0.781184, + "grad_norm": 0.12402086704969406, + "learning_rate": 1.4792106666666668e-05, + "loss": 0.0065, + "step": 122060 + }, + { + "epoch": 0.781216, + "grad_norm": 0.7051833271980286, + "learning_rate": 1.4791893333333334e-05, + "loss": 0.0098, + "step": 122065 + }, + { + "epoch": 0.781248, + "grad_norm": 0.1928108036518097, + "learning_rate": 1.4791680000000001e-05, + "loss": 0.0048, + "step": 122070 + }, + { + "epoch": 0.78128, + "grad_norm": 0.12412703782320023, + "learning_rate": 1.4791466666666667e-05, + "loss": 0.0035, + "step": 122075 + }, + { + "epoch": 0.781312, + "grad_norm": 0.3528651297092438, + "learning_rate": 1.4791253333333335e-05, + "loss": 0.0147, + "step": 122080 + }, + { + "epoch": 0.781344, + "grad_norm": 0.6018056869506836, + "learning_rate": 1.479104e-05, + "loss": 0.0102, + "step": 122085 + }, + { + "epoch": 0.781376, + "grad_norm": 0.4947352111339569, + "learning_rate": 1.4790826666666668e-05, + "loss": 0.023, + "step": 122090 + }, + { + "epoch": 0.781408, + "grad_norm": 0.7079322934150696, + "learning_rate": 1.4790613333333334e-05, + "loss": 0.0074, + "step": 122095 + }, + { + "epoch": 0.78144, + "grad_norm": 0.0654398500919342, + "learning_rate": 1.47904e-05, + "loss": 0.0129, + "step": 122100 + }, + { + "epoch": 0.781472, + "grad_norm": 1.3102824687957764, + "learning_rate": 1.4790186666666667e-05, + "loss": 0.0102, + "step": 122105 + }, + { + "epoch": 0.781504, + "grad_norm": 0.06450364738702774, + "learning_rate": 1.4789973333333333e-05, + "loss": 0.0037, + "step": 122110 + }, + { + "epoch": 0.781536, + "grad_norm": 2.613558053970337, + "learning_rate": 1.4789760000000003e-05, + "loss": 0.011, + "step": 122115 + }, + { + "epoch": 0.781568, + "grad_norm": 0.12130498886108398, + "learning_rate": 1.4789546666666668e-05, + "loss": 0.0063, + "step": 122120 + }, + { + "epoch": 0.7816, + "grad_norm": 0.24589334428310394, + "learning_rate": 1.4789333333333336e-05, + "loss": 0.0051, + "step": 122125 + }, + { + "epoch": 0.781632, + "grad_norm": 0.45563915371894836, + "learning_rate": 1.4789120000000002e-05, + "loss": 0.0099, + "step": 122130 + }, + { + "epoch": 0.781664, + "grad_norm": 0.29587221145629883, + "learning_rate": 1.4788906666666668e-05, + "loss": 0.0103, + "step": 122135 + }, + { + "epoch": 0.781696, + "grad_norm": 0.5927033424377441, + "learning_rate": 1.4788693333333335e-05, + "loss": 0.0086, + "step": 122140 + }, + { + "epoch": 0.781728, + "grad_norm": 0.21512781083583832, + "learning_rate": 1.4788480000000001e-05, + "loss": 0.0038, + "step": 122145 + }, + { + "epoch": 0.78176, + "grad_norm": 0.4614059627056122, + "learning_rate": 1.4788266666666669e-05, + "loss": 0.0044, + "step": 122150 + }, + { + "epoch": 0.781792, + "grad_norm": 2.6717071533203125, + "learning_rate": 1.4788053333333335e-05, + "loss": 0.0381, + "step": 122155 + }, + { + "epoch": 0.781824, + "grad_norm": 2.3441193103790283, + "learning_rate": 1.4787840000000002e-05, + "loss": 0.0151, + "step": 122160 + }, + { + "epoch": 0.781856, + "grad_norm": 1.2017678022384644, + "learning_rate": 1.4787626666666668e-05, + "loss": 0.0151, + "step": 122165 + }, + { + "epoch": 0.781888, + "grad_norm": 0.025758109986782074, + "learning_rate": 1.4787413333333334e-05, + "loss": 0.01, + "step": 122170 + }, + { + "epoch": 0.78192, + "grad_norm": 0.13731440901756287, + "learning_rate": 1.4787200000000001e-05, + "loss": 0.005, + "step": 122175 + }, + { + "epoch": 0.781952, + "grad_norm": 0.22160214185714722, + "learning_rate": 1.4786986666666667e-05, + "loss": 0.0024, + "step": 122180 + }, + { + "epoch": 0.781984, + "grad_norm": 0.05610914155840874, + "learning_rate": 1.4786773333333335e-05, + "loss": 0.0037, + "step": 122185 + }, + { + "epoch": 0.782016, + "grad_norm": 0.2538740634918213, + "learning_rate": 1.478656e-05, + "loss": 0.0058, + "step": 122190 + }, + { + "epoch": 0.782048, + "grad_norm": 0.11773280799388885, + "learning_rate": 1.4786346666666668e-05, + "loss": 0.0048, + "step": 122195 + }, + { + "epoch": 0.78208, + "grad_norm": 0.23545563220977783, + "learning_rate": 1.4786133333333334e-05, + "loss": 0.0426, + "step": 122200 + }, + { + "epoch": 0.782112, + "grad_norm": 1.5115272998809814, + "learning_rate": 1.478592e-05, + "loss": 0.0134, + "step": 122205 + }, + { + "epoch": 0.782144, + "grad_norm": 0.1652873307466507, + "learning_rate": 1.4785706666666667e-05, + "loss": 0.024, + "step": 122210 + }, + { + "epoch": 0.782176, + "grad_norm": 0.2253517210483551, + "learning_rate": 1.4785493333333333e-05, + "loss": 0.0162, + "step": 122215 + }, + { + "epoch": 0.782208, + "grad_norm": 0.8432288765907288, + "learning_rate": 1.4785280000000003e-05, + "loss": 0.0241, + "step": 122220 + }, + { + "epoch": 0.78224, + "grad_norm": 0.19147035479545593, + "learning_rate": 1.4785066666666668e-05, + "loss": 0.0087, + "step": 122225 + }, + { + "epoch": 0.782272, + "grad_norm": 0.11968089640140533, + "learning_rate": 1.4784853333333336e-05, + "loss": 0.0044, + "step": 122230 + }, + { + "epoch": 0.782304, + "grad_norm": 0.24418064951896667, + "learning_rate": 1.4784640000000002e-05, + "loss": 0.0162, + "step": 122235 + }, + { + "epoch": 0.782336, + "grad_norm": 0.5099950432777405, + "learning_rate": 1.4784426666666668e-05, + "loss": 0.0128, + "step": 122240 + }, + { + "epoch": 0.782368, + "grad_norm": 1.3796319961547852, + "learning_rate": 1.4784213333333335e-05, + "loss": 0.0131, + "step": 122245 + }, + { + "epoch": 0.7824, + "grad_norm": 2.0857040882110596, + "learning_rate": 1.4784000000000001e-05, + "loss": 0.0177, + "step": 122250 + }, + { + "epoch": 0.782432, + "grad_norm": 0.14424197375774384, + "learning_rate": 1.4783786666666669e-05, + "loss": 0.0066, + "step": 122255 + }, + { + "epoch": 0.782464, + "grad_norm": 0.4122513234615326, + "learning_rate": 1.4783573333333335e-05, + "loss": 0.0033, + "step": 122260 + }, + { + "epoch": 0.782496, + "grad_norm": 0.04085462912917137, + "learning_rate": 1.4783360000000002e-05, + "loss": 0.0134, + "step": 122265 + }, + { + "epoch": 0.782528, + "grad_norm": 0.7888595461845398, + "learning_rate": 1.4783146666666668e-05, + "loss": 0.0172, + "step": 122270 + }, + { + "epoch": 0.78256, + "grad_norm": 0.13516460359096527, + "learning_rate": 1.4782933333333334e-05, + "loss": 0.0126, + "step": 122275 + }, + { + "epoch": 0.782592, + "grad_norm": 0.4755072295665741, + "learning_rate": 1.4782720000000001e-05, + "loss": 0.0066, + "step": 122280 + }, + { + "epoch": 0.782624, + "grad_norm": 0.8406627774238586, + "learning_rate": 1.4782506666666667e-05, + "loss": 0.0079, + "step": 122285 + }, + { + "epoch": 0.782656, + "grad_norm": 0.2935332953929901, + "learning_rate": 1.4782293333333335e-05, + "loss": 0.004, + "step": 122290 + }, + { + "epoch": 0.782688, + "grad_norm": 0.37381577491760254, + "learning_rate": 1.478208e-05, + "loss": 0.003, + "step": 122295 + }, + { + "epoch": 0.78272, + "grad_norm": 0.32549822330474854, + "learning_rate": 1.4781866666666668e-05, + "loss": 0.0052, + "step": 122300 + }, + { + "epoch": 0.782752, + "grad_norm": 0.46965983510017395, + "learning_rate": 1.4781653333333334e-05, + "loss": 0.0096, + "step": 122305 + }, + { + "epoch": 0.782784, + "grad_norm": 0.523272693157196, + "learning_rate": 1.478144e-05, + "loss": 0.0116, + "step": 122310 + }, + { + "epoch": 0.782816, + "grad_norm": 0.3910185992717743, + "learning_rate": 1.4781226666666667e-05, + "loss": 0.0034, + "step": 122315 + }, + { + "epoch": 0.782848, + "grad_norm": 0.36981073021888733, + "learning_rate": 1.4781013333333333e-05, + "loss": 0.0048, + "step": 122320 + }, + { + "epoch": 0.78288, + "grad_norm": 0.3458355665206909, + "learning_rate": 1.4780800000000003e-05, + "loss": 0.0046, + "step": 122325 + }, + { + "epoch": 0.782912, + "grad_norm": 0.268671452999115, + "learning_rate": 1.4780586666666667e-05, + "loss": 0.0101, + "step": 122330 + }, + { + "epoch": 0.782944, + "grad_norm": 0.8275474905967712, + "learning_rate": 1.4780373333333336e-05, + "loss": 0.009, + "step": 122335 + }, + { + "epoch": 0.782976, + "grad_norm": 0.016832703724503517, + "learning_rate": 1.4780160000000002e-05, + "loss": 0.0024, + "step": 122340 + }, + { + "epoch": 0.783008, + "grad_norm": 0.2866550385951996, + "learning_rate": 1.4779946666666668e-05, + "loss": 0.0236, + "step": 122345 + }, + { + "epoch": 0.78304, + "grad_norm": 1.1032671928405762, + "learning_rate": 1.4779733333333335e-05, + "loss": 0.01, + "step": 122350 + }, + { + "epoch": 0.783072, + "grad_norm": 0.7089952230453491, + "learning_rate": 1.4779520000000001e-05, + "loss": 0.0172, + "step": 122355 + }, + { + "epoch": 0.783104, + "grad_norm": 0.2939421534538269, + "learning_rate": 1.4779306666666669e-05, + "loss": 0.0081, + "step": 122360 + }, + { + "epoch": 0.783136, + "grad_norm": 0.19948811829090118, + "learning_rate": 1.4779093333333335e-05, + "loss": 0.0023, + "step": 122365 + }, + { + "epoch": 0.783168, + "grad_norm": 0.043382592499256134, + "learning_rate": 1.4778880000000002e-05, + "loss": 0.0302, + "step": 122370 + }, + { + "epoch": 0.7832, + "grad_norm": 0.3720770478248596, + "learning_rate": 1.4778666666666668e-05, + "loss": 0.0117, + "step": 122375 + }, + { + "epoch": 0.783232, + "grad_norm": 1.1902183294296265, + "learning_rate": 1.4778453333333334e-05, + "loss": 0.0072, + "step": 122380 + }, + { + "epoch": 0.783264, + "grad_norm": 0.07536959648132324, + "learning_rate": 1.4778240000000001e-05, + "loss": 0.0051, + "step": 122385 + }, + { + "epoch": 0.783296, + "grad_norm": 0.25789308547973633, + "learning_rate": 1.4778026666666667e-05, + "loss": 0.0087, + "step": 122390 + }, + { + "epoch": 0.783328, + "grad_norm": 0.6014872789382935, + "learning_rate": 1.4777813333333335e-05, + "loss": 0.0065, + "step": 122395 + }, + { + "epoch": 0.78336, + "grad_norm": 0.3637561500072479, + "learning_rate": 1.47776e-05, + "loss": 0.0024, + "step": 122400 + }, + { + "epoch": 0.783392, + "grad_norm": 2.1205272674560547, + "learning_rate": 1.4777386666666668e-05, + "loss": 0.0193, + "step": 122405 + }, + { + "epoch": 0.783424, + "grad_norm": 1.3878141641616821, + "learning_rate": 1.4777173333333334e-05, + "loss": 0.031, + "step": 122410 + }, + { + "epoch": 0.783456, + "grad_norm": 0.17949146032333374, + "learning_rate": 1.477696e-05, + "loss": 0.0022, + "step": 122415 + }, + { + "epoch": 0.783488, + "grad_norm": 0.4319927394390106, + "learning_rate": 1.4776746666666667e-05, + "loss": 0.0085, + "step": 122420 + }, + { + "epoch": 0.78352, + "grad_norm": 0.04596760496497154, + "learning_rate": 1.4776533333333333e-05, + "loss": 0.0175, + "step": 122425 + }, + { + "epoch": 0.783552, + "grad_norm": 0.04559668153524399, + "learning_rate": 1.4776320000000003e-05, + "loss": 0.0052, + "step": 122430 + }, + { + "epoch": 0.783584, + "grad_norm": 0.6423738598823547, + "learning_rate": 1.4776106666666667e-05, + "loss": 0.0063, + "step": 122435 + }, + { + "epoch": 0.783616, + "grad_norm": 0.4898071885108948, + "learning_rate": 1.4775893333333336e-05, + "loss": 0.0214, + "step": 122440 + }, + { + "epoch": 0.783648, + "grad_norm": 0.7016074061393738, + "learning_rate": 1.4775680000000002e-05, + "loss": 0.0094, + "step": 122445 + }, + { + "epoch": 0.78368, + "grad_norm": 1.1472340822219849, + "learning_rate": 1.4775466666666668e-05, + "loss": 0.0142, + "step": 122450 + }, + { + "epoch": 0.783712, + "grad_norm": 0.24523797631263733, + "learning_rate": 1.4775253333333335e-05, + "loss": 0.0022, + "step": 122455 + }, + { + "epoch": 0.783744, + "grad_norm": 0.2314993441104889, + "learning_rate": 1.4775040000000001e-05, + "loss": 0.0094, + "step": 122460 + }, + { + "epoch": 0.783776, + "grad_norm": 0.07350865006446838, + "learning_rate": 1.4774826666666669e-05, + "loss": 0.0091, + "step": 122465 + }, + { + "epoch": 0.783808, + "grad_norm": 0.6074089407920837, + "learning_rate": 1.4774613333333335e-05, + "loss": 0.0042, + "step": 122470 + }, + { + "epoch": 0.78384, + "grad_norm": 0.24602010846138, + "learning_rate": 1.4774400000000002e-05, + "loss": 0.0109, + "step": 122475 + }, + { + "epoch": 0.783872, + "grad_norm": 1.1529525518417358, + "learning_rate": 1.4774186666666668e-05, + "loss": 0.0121, + "step": 122480 + }, + { + "epoch": 0.783904, + "grad_norm": 0.3679977357387543, + "learning_rate": 1.4773973333333334e-05, + "loss": 0.0112, + "step": 122485 + }, + { + "epoch": 0.783936, + "grad_norm": 0.03484456613659859, + "learning_rate": 1.4773760000000001e-05, + "loss": 0.0078, + "step": 122490 + }, + { + "epoch": 0.783968, + "grad_norm": 0.5740562677383423, + "learning_rate": 1.4773546666666667e-05, + "loss": 0.0121, + "step": 122495 + }, + { + "epoch": 0.784, + "grad_norm": 0.5429320931434631, + "learning_rate": 1.4773333333333335e-05, + "loss": 0.0031, + "step": 122500 + }, + { + "epoch": 0.784032, + "grad_norm": 0.09124249964952469, + "learning_rate": 1.477312e-05, + "loss": 0.0043, + "step": 122505 + }, + { + "epoch": 0.784064, + "grad_norm": 0.18903209269046783, + "learning_rate": 1.4772906666666668e-05, + "loss": 0.0071, + "step": 122510 + }, + { + "epoch": 0.784096, + "grad_norm": 0.12149921804666519, + "learning_rate": 1.4772693333333334e-05, + "loss": 0.0108, + "step": 122515 + }, + { + "epoch": 0.784128, + "grad_norm": 0.05591098964214325, + "learning_rate": 1.477248e-05, + "loss": 0.0169, + "step": 122520 + }, + { + "epoch": 0.78416, + "grad_norm": 0.17001432180404663, + "learning_rate": 1.4772266666666667e-05, + "loss": 0.0032, + "step": 122525 + }, + { + "epoch": 0.784192, + "grad_norm": 0.1537412405014038, + "learning_rate": 1.4772053333333333e-05, + "loss": 0.0112, + "step": 122530 + }, + { + "epoch": 0.784224, + "grad_norm": 0.5388966202735901, + "learning_rate": 1.4771840000000003e-05, + "loss": 0.0072, + "step": 122535 + }, + { + "epoch": 0.784256, + "grad_norm": 0.04778660833835602, + "learning_rate": 1.4771626666666667e-05, + "loss": 0.0067, + "step": 122540 + }, + { + "epoch": 0.784288, + "grad_norm": 0.19425097107887268, + "learning_rate": 1.4771413333333336e-05, + "loss": 0.0184, + "step": 122545 + }, + { + "epoch": 0.78432, + "grad_norm": 0.18964269757270813, + "learning_rate": 1.4771200000000002e-05, + "loss": 0.0117, + "step": 122550 + }, + { + "epoch": 0.784352, + "grad_norm": 0.5220720767974854, + "learning_rate": 1.4770986666666666e-05, + "loss": 0.0095, + "step": 122555 + }, + { + "epoch": 0.784384, + "grad_norm": 0.47638076543807983, + "learning_rate": 1.4770773333333335e-05, + "loss": 0.0052, + "step": 122560 + }, + { + "epoch": 0.784416, + "grad_norm": 0.7800378799438477, + "learning_rate": 1.4770560000000001e-05, + "loss": 0.0145, + "step": 122565 + }, + { + "epoch": 0.784448, + "grad_norm": 0.9908697009086609, + "learning_rate": 1.4770346666666669e-05, + "loss": 0.0082, + "step": 122570 + }, + { + "epoch": 0.78448, + "grad_norm": 0.62309330701828, + "learning_rate": 1.4770133333333335e-05, + "loss": 0.0059, + "step": 122575 + }, + { + "epoch": 0.784512, + "grad_norm": 0.5017606019973755, + "learning_rate": 1.4769920000000002e-05, + "loss": 0.0111, + "step": 122580 + }, + { + "epoch": 0.784544, + "grad_norm": 0.614660382270813, + "learning_rate": 1.4769706666666668e-05, + "loss": 0.007, + "step": 122585 + }, + { + "epoch": 0.784576, + "grad_norm": 0.2990083694458008, + "learning_rate": 1.4769493333333334e-05, + "loss": 0.0165, + "step": 122590 + }, + { + "epoch": 0.784608, + "grad_norm": 0.04892774298787117, + "learning_rate": 1.4769280000000001e-05, + "loss": 0.0106, + "step": 122595 + }, + { + "epoch": 0.78464, + "grad_norm": 0.05658147856593132, + "learning_rate": 1.4769066666666667e-05, + "loss": 0.0018, + "step": 122600 + }, + { + "epoch": 0.784672, + "grad_norm": 0.24549348652362823, + "learning_rate": 1.4768853333333335e-05, + "loss": 0.0058, + "step": 122605 + }, + { + "epoch": 0.784704, + "grad_norm": 0.15254248678684235, + "learning_rate": 1.476864e-05, + "loss": 0.0025, + "step": 122610 + }, + { + "epoch": 0.784736, + "grad_norm": 0.2766565680503845, + "learning_rate": 1.4768426666666668e-05, + "loss": 0.0073, + "step": 122615 + }, + { + "epoch": 0.784768, + "grad_norm": 0.22426830232143402, + "learning_rate": 1.4768213333333334e-05, + "loss": 0.0161, + "step": 122620 + }, + { + "epoch": 0.7848, + "grad_norm": 0.16020433604717255, + "learning_rate": 1.4768e-05, + "loss": 0.0063, + "step": 122625 + }, + { + "epoch": 0.784832, + "grad_norm": 0.6052217483520508, + "learning_rate": 1.4767786666666667e-05, + "loss": 0.0077, + "step": 122630 + }, + { + "epoch": 0.784864, + "grad_norm": 0.3497704565525055, + "learning_rate": 1.4767573333333333e-05, + "loss": 0.022, + "step": 122635 + }, + { + "epoch": 0.784896, + "grad_norm": 0.7381864190101624, + "learning_rate": 1.4767360000000001e-05, + "loss": 0.0048, + "step": 122640 + }, + { + "epoch": 0.784928, + "grad_norm": 0.4374672472476959, + "learning_rate": 1.4767146666666667e-05, + "loss": 0.0081, + "step": 122645 + }, + { + "epoch": 0.78496, + "grad_norm": 0.029544156044721603, + "learning_rate": 1.4766933333333336e-05, + "loss": 0.01, + "step": 122650 + }, + { + "epoch": 0.784992, + "grad_norm": 0.16790884733200073, + "learning_rate": 1.4766720000000002e-05, + "loss": 0.0142, + "step": 122655 + }, + { + "epoch": 0.785024, + "grad_norm": 0.7032694220542908, + "learning_rate": 1.4766506666666666e-05, + "loss": 0.017, + "step": 122660 + }, + { + "epoch": 0.785056, + "grad_norm": 0.5278021693229675, + "learning_rate": 1.4766293333333335e-05, + "loss": 0.0072, + "step": 122665 + }, + { + "epoch": 0.785088, + "grad_norm": 1.8977210521697998, + "learning_rate": 1.4766080000000001e-05, + "loss": 0.0232, + "step": 122670 + }, + { + "epoch": 0.78512, + "grad_norm": 0.05863470211625099, + "learning_rate": 1.4765866666666669e-05, + "loss": 0.005, + "step": 122675 + }, + { + "epoch": 0.785152, + "grad_norm": 1.0342985391616821, + "learning_rate": 1.4765653333333335e-05, + "loss": 0.007, + "step": 122680 + }, + { + "epoch": 0.785184, + "grad_norm": 0.458745539188385, + "learning_rate": 1.4765440000000002e-05, + "loss": 0.0122, + "step": 122685 + }, + { + "epoch": 0.785216, + "grad_norm": 0.2237301915884018, + "learning_rate": 1.4765226666666668e-05, + "loss": 0.0102, + "step": 122690 + }, + { + "epoch": 0.785248, + "grad_norm": 0.4837495684623718, + "learning_rate": 1.4765013333333335e-05, + "loss": 0.0296, + "step": 122695 + }, + { + "epoch": 0.78528, + "grad_norm": 0.9702584743499756, + "learning_rate": 1.4764800000000001e-05, + "loss": 0.0081, + "step": 122700 + }, + { + "epoch": 0.785312, + "grad_norm": 0.22948041558265686, + "learning_rate": 1.4764586666666667e-05, + "loss": 0.0059, + "step": 122705 + }, + { + "epoch": 0.785344, + "grad_norm": 0.1637103408575058, + "learning_rate": 1.4764373333333335e-05, + "loss": 0.007, + "step": 122710 + }, + { + "epoch": 0.785376, + "grad_norm": 0.549907922744751, + "learning_rate": 1.476416e-05, + "loss": 0.0114, + "step": 122715 + }, + { + "epoch": 0.785408, + "grad_norm": 0.07338355481624603, + "learning_rate": 1.4763946666666668e-05, + "loss": 0.0089, + "step": 122720 + }, + { + "epoch": 0.78544, + "grad_norm": 0.4234536290168762, + "learning_rate": 1.4763733333333334e-05, + "loss": 0.0044, + "step": 122725 + }, + { + "epoch": 0.785472, + "grad_norm": 0.5278949737548828, + "learning_rate": 1.4763520000000002e-05, + "loss": 0.0081, + "step": 122730 + }, + { + "epoch": 0.785504, + "grad_norm": 0.9476296305656433, + "learning_rate": 1.4763306666666667e-05, + "loss": 0.0268, + "step": 122735 + }, + { + "epoch": 0.785536, + "grad_norm": 1.7804545164108276, + "learning_rate": 1.4763093333333333e-05, + "loss": 0.0235, + "step": 122740 + }, + { + "epoch": 0.785568, + "grad_norm": 0.683849036693573, + "learning_rate": 1.4762880000000001e-05, + "loss": 0.0155, + "step": 122745 + }, + { + "epoch": 0.7856, + "grad_norm": 0.3356754183769226, + "learning_rate": 1.4762666666666667e-05, + "loss": 0.0067, + "step": 122750 + }, + { + "epoch": 0.785632, + "grad_norm": 0.12150871753692627, + "learning_rate": 1.4762453333333336e-05, + "loss": 0.0096, + "step": 122755 + }, + { + "epoch": 0.785664, + "grad_norm": 0.03616258129477501, + "learning_rate": 1.4762240000000002e-05, + "loss": 0.008, + "step": 122760 + }, + { + "epoch": 0.785696, + "grad_norm": 0.019436979666352272, + "learning_rate": 1.476202666666667e-05, + "loss": 0.0044, + "step": 122765 + }, + { + "epoch": 0.785728, + "grad_norm": 0.45118311047554016, + "learning_rate": 1.4761813333333335e-05, + "loss": 0.0063, + "step": 122770 + }, + { + "epoch": 0.78576, + "grad_norm": 0.366682767868042, + "learning_rate": 1.4761600000000001e-05, + "loss": 0.009, + "step": 122775 + }, + { + "epoch": 0.785792, + "grad_norm": 0.27722811698913574, + "learning_rate": 1.4761386666666669e-05, + "loss": 0.0025, + "step": 122780 + }, + { + "epoch": 0.785824, + "grad_norm": 0.12807407975196838, + "learning_rate": 1.4761173333333335e-05, + "loss": 0.0019, + "step": 122785 + }, + { + "epoch": 0.785856, + "grad_norm": 0.044427353888750076, + "learning_rate": 1.4760960000000002e-05, + "loss": 0.0068, + "step": 122790 + }, + { + "epoch": 0.785888, + "grad_norm": 0.6500276327133179, + "learning_rate": 1.4760746666666668e-05, + "loss": 0.0186, + "step": 122795 + }, + { + "epoch": 0.78592, + "grad_norm": 0.07492423057556152, + "learning_rate": 1.4760533333333335e-05, + "loss": 0.0319, + "step": 122800 + }, + { + "epoch": 0.785952, + "grad_norm": 1.3566033840179443, + "learning_rate": 1.4760320000000001e-05, + "loss": 0.0072, + "step": 122805 + }, + { + "epoch": 0.785984, + "grad_norm": 0.49851077795028687, + "learning_rate": 1.4760106666666667e-05, + "loss": 0.0056, + "step": 122810 + }, + { + "epoch": 0.786016, + "grad_norm": 0.02546321600675583, + "learning_rate": 1.4759893333333335e-05, + "loss": 0.0047, + "step": 122815 + }, + { + "epoch": 0.786048, + "grad_norm": 0.34274470806121826, + "learning_rate": 1.475968e-05, + "loss": 0.006, + "step": 122820 + }, + { + "epoch": 0.78608, + "grad_norm": 0.2021748125553131, + "learning_rate": 1.4759466666666668e-05, + "loss": 0.01, + "step": 122825 + }, + { + "epoch": 0.786112, + "grad_norm": 0.05375877022743225, + "learning_rate": 1.4759253333333334e-05, + "loss": 0.003, + "step": 122830 + }, + { + "epoch": 0.786144, + "grad_norm": 0.015472576022148132, + "learning_rate": 1.4759040000000002e-05, + "loss": 0.0088, + "step": 122835 + }, + { + "epoch": 0.786176, + "grad_norm": 0.4939363896846771, + "learning_rate": 1.4758826666666667e-05, + "loss": 0.0042, + "step": 122840 + }, + { + "epoch": 0.786208, + "grad_norm": 0.11170856654644012, + "learning_rate": 1.4758613333333333e-05, + "loss": 0.0061, + "step": 122845 + }, + { + "epoch": 0.78624, + "grad_norm": 0.09428135305643082, + "learning_rate": 1.4758400000000001e-05, + "loss": 0.0028, + "step": 122850 + }, + { + "epoch": 0.786272, + "grad_norm": 0.4999646246433258, + "learning_rate": 1.4758186666666667e-05, + "loss": 0.0083, + "step": 122855 + }, + { + "epoch": 0.786304, + "grad_norm": 0.4480416476726532, + "learning_rate": 1.4757973333333336e-05, + "loss": 0.02, + "step": 122860 + }, + { + "epoch": 0.786336, + "grad_norm": 0.04864038527011871, + "learning_rate": 1.475776e-05, + "loss": 0.009, + "step": 122865 + }, + { + "epoch": 0.786368, + "grad_norm": 0.12972129881381989, + "learning_rate": 1.475754666666667e-05, + "loss": 0.0274, + "step": 122870 + }, + { + "epoch": 0.7864, + "grad_norm": 0.7518121004104614, + "learning_rate": 1.4757333333333335e-05, + "loss": 0.0066, + "step": 122875 + }, + { + "epoch": 0.786432, + "grad_norm": 0.04664146527647972, + "learning_rate": 1.4757120000000001e-05, + "loss": 0.012, + "step": 122880 + }, + { + "epoch": 0.786464, + "grad_norm": 0.1593601256608963, + "learning_rate": 1.4756906666666669e-05, + "loss": 0.0054, + "step": 122885 + }, + { + "epoch": 0.786496, + "grad_norm": 0.06186018884181976, + "learning_rate": 1.4756693333333335e-05, + "loss": 0.0142, + "step": 122890 + }, + { + "epoch": 0.786528, + "grad_norm": 0.17391256988048553, + "learning_rate": 1.4756480000000002e-05, + "loss": 0.0082, + "step": 122895 + }, + { + "epoch": 0.78656, + "grad_norm": 0.5760543942451477, + "learning_rate": 1.4756266666666668e-05, + "loss": 0.0147, + "step": 122900 + }, + { + "epoch": 0.786592, + "grad_norm": 0.4167589545249939, + "learning_rate": 1.4756053333333335e-05, + "loss": 0.0023, + "step": 122905 + }, + { + "epoch": 0.786624, + "grad_norm": 0.2484886646270752, + "learning_rate": 1.4755840000000001e-05, + "loss": 0.0166, + "step": 122910 + }, + { + "epoch": 0.786656, + "grad_norm": 0.49140962958335876, + "learning_rate": 1.4755626666666667e-05, + "loss": 0.0102, + "step": 122915 + }, + { + "epoch": 0.786688, + "grad_norm": 0.045100100338459015, + "learning_rate": 1.4755413333333335e-05, + "loss": 0.0075, + "step": 122920 + }, + { + "epoch": 0.78672, + "grad_norm": 0.815016508102417, + "learning_rate": 1.47552e-05, + "loss": 0.0137, + "step": 122925 + }, + { + "epoch": 0.786752, + "grad_norm": 0.741946280002594, + "learning_rate": 1.4754986666666668e-05, + "loss": 0.005, + "step": 122930 + }, + { + "epoch": 0.786784, + "grad_norm": 0.6470624208450317, + "learning_rate": 1.4754773333333334e-05, + "loss": 0.0115, + "step": 122935 + }, + { + "epoch": 0.786816, + "grad_norm": 0.5940167903900146, + "learning_rate": 1.4754560000000002e-05, + "loss": 0.0026, + "step": 122940 + }, + { + "epoch": 0.786848, + "grad_norm": 1.2786569595336914, + "learning_rate": 1.4754346666666667e-05, + "loss": 0.0096, + "step": 122945 + }, + { + "epoch": 0.78688, + "grad_norm": 0.02575681544840336, + "learning_rate": 1.4754133333333333e-05, + "loss": 0.0088, + "step": 122950 + }, + { + "epoch": 0.786912, + "grad_norm": 0.36430272459983826, + "learning_rate": 1.4753920000000001e-05, + "loss": 0.0259, + "step": 122955 + }, + { + "epoch": 0.786944, + "grad_norm": 0.5239667296409607, + "learning_rate": 1.4753706666666667e-05, + "loss": 0.0036, + "step": 122960 + }, + { + "epoch": 0.786976, + "grad_norm": 0.3089275062084198, + "learning_rate": 1.4753493333333336e-05, + "loss": 0.0108, + "step": 122965 + }, + { + "epoch": 0.787008, + "grad_norm": 0.4882250726222992, + "learning_rate": 1.475328e-05, + "loss": 0.0087, + "step": 122970 + }, + { + "epoch": 0.78704, + "grad_norm": 0.1930890679359436, + "learning_rate": 1.475306666666667e-05, + "loss": 0.0068, + "step": 122975 + }, + { + "epoch": 0.787072, + "grad_norm": 0.16495096683502197, + "learning_rate": 1.4752853333333335e-05, + "loss": 0.0109, + "step": 122980 + }, + { + "epoch": 0.787104, + "grad_norm": 0.2858746647834778, + "learning_rate": 1.4752640000000001e-05, + "loss": 0.0077, + "step": 122985 + }, + { + "epoch": 0.787136, + "grad_norm": 0.7196360230445862, + "learning_rate": 1.4752426666666669e-05, + "loss": 0.0066, + "step": 122990 + }, + { + "epoch": 0.787168, + "grad_norm": 0.5003344416618347, + "learning_rate": 1.4752213333333335e-05, + "loss": 0.0117, + "step": 122995 + }, + { + "epoch": 0.7872, + "grad_norm": 0.20011016726493835, + "learning_rate": 1.4752000000000002e-05, + "loss": 0.0022, + "step": 123000 + }, + { + "epoch": 0.787232, + "grad_norm": 0.09097370505332947, + "learning_rate": 1.4751786666666668e-05, + "loss": 0.009, + "step": 123005 + }, + { + "epoch": 0.787264, + "grad_norm": 0.02010900340974331, + "learning_rate": 1.4751573333333335e-05, + "loss": 0.0077, + "step": 123010 + }, + { + "epoch": 0.787296, + "grad_norm": 0.5554965138435364, + "learning_rate": 1.4751360000000001e-05, + "loss": 0.0162, + "step": 123015 + }, + { + "epoch": 0.787328, + "grad_norm": 0.06156202405691147, + "learning_rate": 1.4751146666666667e-05, + "loss": 0.0089, + "step": 123020 + }, + { + "epoch": 0.78736, + "grad_norm": 0.14803114533424377, + "learning_rate": 1.4750933333333335e-05, + "loss": 0.0031, + "step": 123025 + }, + { + "epoch": 0.787392, + "grad_norm": 0.12230513989925385, + "learning_rate": 1.475072e-05, + "loss": 0.0033, + "step": 123030 + }, + { + "epoch": 0.787424, + "grad_norm": 0.49973881244659424, + "learning_rate": 1.4750506666666668e-05, + "loss": 0.0048, + "step": 123035 + }, + { + "epoch": 0.787456, + "grad_norm": 0.320511132478714, + "learning_rate": 1.4750293333333334e-05, + "loss": 0.0052, + "step": 123040 + }, + { + "epoch": 0.787488, + "grad_norm": 0.5990477204322815, + "learning_rate": 1.4750080000000002e-05, + "loss": 0.0079, + "step": 123045 + }, + { + "epoch": 0.78752, + "grad_norm": 0.5560676455497742, + "learning_rate": 1.4749866666666667e-05, + "loss": 0.0059, + "step": 123050 + }, + { + "epoch": 0.787552, + "grad_norm": 0.04710545018315315, + "learning_rate": 1.4749653333333333e-05, + "loss": 0.0152, + "step": 123055 + }, + { + "epoch": 0.787584, + "grad_norm": 0.7371565103530884, + "learning_rate": 1.4749440000000001e-05, + "loss": 0.0057, + "step": 123060 + }, + { + "epoch": 0.787616, + "grad_norm": 0.007229918148368597, + "learning_rate": 1.4749226666666667e-05, + "loss": 0.0033, + "step": 123065 + }, + { + "epoch": 0.787648, + "grad_norm": 1.0181515216827393, + "learning_rate": 1.4749013333333336e-05, + "loss": 0.0263, + "step": 123070 + }, + { + "epoch": 0.78768, + "grad_norm": 0.3954037129878998, + "learning_rate": 1.47488e-05, + "loss": 0.0153, + "step": 123075 + }, + { + "epoch": 0.787712, + "grad_norm": 0.014661218039691448, + "learning_rate": 1.474858666666667e-05, + "loss": 0.0017, + "step": 123080 + }, + { + "epoch": 0.787744, + "grad_norm": 0.6569460034370422, + "learning_rate": 1.4748373333333335e-05, + "loss": 0.006, + "step": 123085 + }, + { + "epoch": 0.787776, + "grad_norm": 0.3496449291706085, + "learning_rate": 1.474816e-05, + "loss": 0.0231, + "step": 123090 + }, + { + "epoch": 0.787808, + "grad_norm": 0.3650107681751251, + "learning_rate": 1.4747946666666669e-05, + "loss": 0.0109, + "step": 123095 + }, + { + "epoch": 0.78784, + "grad_norm": 0.07528743147850037, + "learning_rate": 1.4747733333333335e-05, + "loss": 0.0112, + "step": 123100 + }, + { + "epoch": 0.787872, + "grad_norm": 0.19310791790485382, + "learning_rate": 1.4747520000000002e-05, + "loss": 0.0048, + "step": 123105 + }, + { + "epoch": 0.787904, + "grad_norm": 0.04051191732287407, + "learning_rate": 1.4747306666666668e-05, + "loss": 0.016, + "step": 123110 + }, + { + "epoch": 0.787936, + "grad_norm": 0.26033031940460205, + "learning_rate": 1.4747093333333335e-05, + "loss": 0.0071, + "step": 123115 + }, + { + "epoch": 0.787968, + "grad_norm": 0.3748380243778229, + "learning_rate": 1.4746880000000001e-05, + "loss": 0.009, + "step": 123120 + }, + { + "epoch": 0.788, + "grad_norm": 0.15805992484092712, + "learning_rate": 1.4746666666666667e-05, + "loss": 0.0073, + "step": 123125 + }, + { + "epoch": 0.788032, + "grad_norm": 0.05385381728410721, + "learning_rate": 1.4746453333333335e-05, + "loss": 0.0018, + "step": 123130 + }, + { + "epoch": 0.788064, + "grad_norm": 0.05523020774126053, + "learning_rate": 1.474624e-05, + "loss": 0.0089, + "step": 123135 + }, + { + "epoch": 0.788096, + "grad_norm": 1.173232913017273, + "learning_rate": 1.4746026666666668e-05, + "loss": 0.0142, + "step": 123140 + }, + { + "epoch": 0.788128, + "grad_norm": 0.14554636180400848, + "learning_rate": 1.4745813333333334e-05, + "loss": 0.0082, + "step": 123145 + }, + { + "epoch": 0.78816, + "grad_norm": 0.36309128999710083, + "learning_rate": 1.4745600000000002e-05, + "loss": 0.0046, + "step": 123150 + }, + { + "epoch": 0.788192, + "grad_norm": 0.0048417034558951855, + "learning_rate": 1.4745386666666667e-05, + "loss": 0.0036, + "step": 123155 + }, + { + "epoch": 0.788224, + "grad_norm": 0.22931046783924103, + "learning_rate": 1.4745173333333333e-05, + "loss": 0.0022, + "step": 123160 + }, + { + "epoch": 0.788256, + "grad_norm": 0.44451093673706055, + "learning_rate": 1.4744960000000001e-05, + "loss": 0.0082, + "step": 123165 + }, + { + "epoch": 0.788288, + "grad_norm": 0.4888710081577301, + "learning_rate": 1.4744746666666667e-05, + "loss": 0.0169, + "step": 123170 + }, + { + "epoch": 0.78832, + "grad_norm": 0.07565031945705414, + "learning_rate": 1.4744533333333336e-05, + "loss": 0.0032, + "step": 123175 + }, + { + "epoch": 0.788352, + "grad_norm": 0.4923485219478607, + "learning_rate": 1.474432e-05, + "loss": 0.014, + "step": 123180 + }, + { + "epoch": 0.788384, + "grad_norm": 1.0703539848327637, + "learning_rate": 1.474410666666667e-05, + "loss": 0.0059, + "step": 123185 + }, + { + "epoch": 0.788416, + "grad_norm": 0.18025921285152435, + "learning_rate": 1.4743893333333335e-05, + "loss": 0.0041, + "step": 123190 + }, + { + "epoch": 0.788448, + "grad_norm": 0.08935358375310898, + "learning_rate": 1.474368e-05, + "loss": 0.0156, + "step": 123195 + }, + { + "epoch": 0.78848, + "grad_norm": 0.6402215957641602, + "learning_rate": 1.4743466666666669e-05, + "loss": 0.0079, + "step": 123200 + }, + { + "epoch": 0.788512, + "grad_norm": 0.04383542016148567, + "learning_rate": 1.4743253333333335e-05, + "loss": 0.0055, + "step": 123205 + }, + { + "epoch": 0.788544, + "grad_norm": 0.5114447474479675, + "learning_rate": 1.4743040000000002e-05, + "loss": 0.0077, + "step": 123210 + }, + { + "epoch": 0.788576, + "grad_norm": 0.3407023549079895, + "learning_rate": 1.4742826666666668e-05, + "loss": 0.0202, + "step": 123215 + }, + { + "epoch": 0.788608, + "grad_norm": 1.713212251663208, + "learning_rate": 1.4742613333333335e-05, + "loss": 0.0203, + "step": 123220 + }, + { + "epoch": 0.78864, + "grad_norm": 0.39224138855934143, + "learning_rate": 1.4742400000000001e-05, + "loss": 0.0039, + "step": 123225 + }, + { + "epoch": 0.788672, + "grad_norm": 0.5989259481430054, + "learning_rate": 1.4742186666666667e-05, + "loss": 0.0071, + "step": 123230 + }, + { + "epoch": 0.788704, + "grad_norm": 1.4831756353378296, + "learning_rate": 1.4741973333333335e-05, + "loss": 0.0046, + "step": 123235 + }, + { + "epoch": 0.788736, + "grad_norm": 0.12153085321187973, + "learning_rate": 1.474176e-05, + "loss": 0.0033, + "step": 123240 + }, + { + "epoch": 0.788768, + "grad_norm": 0.7039563655853271, + "learning_rate": 1.4741546666666668e-05, + "loss": 0.0114, + "step": 123245 + }, + { + "epoch": 0.7888, + "grad_norm": 0.1289052814245224, + "learning_rate": 1.4741333333333334e-05, + "loss": 0.01, + "step": 123250 + }, + { + "epoch": 0.788832, + "grad_norm": 0.951805055141449, + "learning_rate": 1.4741120000000002e-05, + "loss": 0.0256, + "step": 123255 + }, + { + "epoch": 0.788864, + "grad_norm": 0.34296396374702454, + "learning_rate": 1.4740906666666667e-05, + "loss": 0.0097, + "step": 123260 + }, + { + "epoch": 0.788896, + "grad_norm": 1.5457613468170166, + "learning_rate": 1.4740693333333333e-05, + "loss": 0.0122, + "step": 123265 + }, + { + "epoch": 0.788928, + "grad_norm": 0.06734447181224823, + "learning_rate": 1.4740480000000001e-05, + "loss": 0.007, + "step": 123270 + }, + { + "epoch": 0.78896, + "grad_norm": 0.25561678409576416, + "learning_rate": 1.4740266666666667e-05, + "loss": 0.0065, + "step": 123275 + }, + { + "epoch": 0.788992, + "grad_norm": 0.6172488927841187, + "learning_rate": 1.4740053333333334e-05, + "loss": 0.0071, + "step": 123280 + }, + { + "epoch": 0.789024, + "grad_norm": 0.4273362159729004, + "learning_rate": 1.473984e-05, + "loss": 0.0073, + "step": 123285 + }, + { + "epoch": 0.789056, + "grad_norm": 0.05467228218913078, + "learning_rate": 1.473962666666667e-05, + "loss": 0.0097, + "step": 123290 + }, + { + "epoch": 0.789088, + "grad_norm": 0.4655158221721649, + "learning_rate": 1.4739413333333335e-05, + "loss": 0.0132, + "step": 123295 + }, + { + "epoch": 0.78912, + "grad_norm": 0.25229746103286743, + "learning_rate": 1.47392e-05, + "loss": 0.0073, + "step": 123300 + }, + { + "epoch": 0.789152, + "grad_norm": 1.1031224727630615, + "learning_rate": 1.4738986666666669e-05, + "loss": 0.0139, + "step": 123305 + }, + { + "epoch": 0.789184, + "grad_norm": 0.7115300893783569, + "learning_rate": 1.4738773333333335e-05, + "loss": 0.0194, + "step": 123310 + }, + { + "epoch": 0.789216, + "grad_norm": 0.06453673541545868, + "learning_rate": 1.4738560000000002e-05, + "loss": 0.0096, + "step": 123315 + }, + { + "epoch": 0.789248, + "grad_norm": 0.016257690265774727, + "learning_rate": 1.4738346666666668e-05, + "loss": 0.0135, + "step": 123320 + }, + { + "epoch": 0.78928, + "grad_norm": 0.5911036133766174, + "learning_rate": 1.4738133333333335e-05, + "loss": 0.0101, + "step": 123325 + }, + { + "epoch": 0.789312, + "grad_norm": 0.7633534073829651, + "learning_rate": 1.4737920000000001e-05, + "loss": 0.0122, + "step": 123330 + }, + { + "epoch": 0.789344, + "grad_norm": 0.885576069355011, + "learning_rate": 1.4737706666666667e-05, + "loss": 0.0143, + "step": 123335 + }, + { + "epoch": 0.789376, + "grad_norm": 0.3457241952419281, + "learning_rate": 1.4737493333333335e-05, + "loss": 0.0082, + "step": 123340 + }, + { + "epoch": 0.789408, + "grad_norm": 0.4376637935638428, + "learning_rate": 1.473728e-05, + "loss": 0.0172, + "step": 123345 + }, + { + "epoch": 0.78944, + "grad_norm": 0.007185837719589472, + "learning_rate": 1.4737066666666668e-05, + "loss": 0.0016, + "step": 123350 + }, + { + "epoch": 0.789472, + "grad_norm": 0.29337602853775024, + "learning_rate": 1.4736853333333334e-05, + "loss": 0.0096, + "step": 123355 + }, + { + "epoch": 0.789504, + "grad_norm": 1.3681375980377197, + "learning_rate": 1.4736640000000002e-05, + "loss": 0.0133, + "step": 123360 + }, + { + "epoch": 0.789536, + "grad_norm": 1.2777503728866577, + "learning_rate": 1.4736426666666667e-05, + "loss": 0.0168, + "step": 123365 + }, + { + "epoch": 0.789568, + "grad_norm": 0.3968803286552429, + "learning_rate": 1.4736213333333333e-05, + "loss": 0.0091, + "step": 123370 + }, + { + "epoch": 0.7896, + "grad_norm": 0.752247154712677, + "learning_rate": 1.4736000000000001e-05, + "loss": 0.0092, + "step": 123375 + }, + { + "epoch": 0.789632, + "grad_norm": 0.01400815136730671, + "learning_rate": 1.4735786666666667e-05, + "loss": 0.0014, + "step": 123380 + }, + { + "epoch": 0.789664, + "grad_norm": 0.1768423467874527, + "learning_rate": 1.4735573333333334e-05, + "loss": 0.0078, + "step": 123385 + }, + { + "epoch": 0.789696, + "grad_norm": 0.09494569152593613, + "learning_rate": 1.473536e-05, + "loss": 0.006, + "step": 123390 + }, + { + "epoch": 0.789728, + "grad_norm": 0.0725734755396843, + "learning_rate": 1.473514666666667e-05, + "loss": 0.0056, + "step": 123395 + }, + { + "epoch": 0.78976, + "grad_norm": 1.4064359664916992, + "learning_rate": 1.4734933333333335e-05, + "loss": 0.0144, + "step": 123400 + }, + { + "epoch": 0.789792, + "grad_norm": 0.03894851729273796, + "learning_rate": 1.473472e-05, + "loss": 0.0248, + "step": 123405 + }, + { + "epoch": 0.789824, + "grad_norm": 0.416272908449173, + "learning_rate": 1.4734506666666669e-05, + "loss": 0.0197, + "step": 123410 + }, + { + "epoch": 0.789856, + "grad_norm": 0.4163728952407837, + "learning_rate": 1.4734293333333335e-05, + "loss": 0.0097, + "step": 123415 + }, + { + "epoch": 0.789888, + "grad_norm": 0.32646119594573975, + "learning_rate": 1.4734080000000002e-05, + "loss": 0.0139, + "step": 123420 + }, + { + "epoch": 0.78992, + "grad_norm": 0.283169686794281, + "learning_rate": 1.4733866666666668e-05, + "loss": 0.0085, + "step": 123425 + }, + { + "epoch": 0.789952, + "grad_norm": 0.392794132232666, + "learning_rate": 1.4733653333333335e-05, + "loss": 0.0082, + "step": 123430 + }, + { + "epoch": 0.789984, + "grad_norm": 0.3045261800289154, + "learning_rate": 1.4733440000000001e-05, + "loss": 0.005, + "step": 123435 + }, + { + "epoch": 0.790016, + "grad_norm": 0.8841341733932495, + "learning_rate": 1.4733226666666667e-05, + "loss": 0.013, + "step": 123440 + }, + { + "epoch": 0.790048, + "grad_norm": 1.4633067846298218, + "learning_rate": 1.4733013333333335e-05, + "loss": 0.0169, + "step": 123445 + }, + { + "epoch": 0.79008, + "grad_norm": 0.39937445521354675, + "learning_rate": 1.47328e-05, + "loss": 0.0071, + "step": 123450 + }, + { + "epoch": 0.790112, + "grad_norm": 0.3101655840873718, + "learning_rate": 1.4732586666666668e-05, + "loss": 0.0067, + "step": 123455 + }, + { + "epoch": 0.790144, + "grad_norm": 0.4327056407928467, + "learning_rate": 1.4732373333333334e-05, + "loss": 0.0055, + "step": 123460 + }, + { + "epoch": 0.790176, + "grad_norm": 0.333070307970047, + "learning_rate": 1.4732160000000002e-05, + "loss": 0.007, + "step": 123465 + }, + { + "epoch": 0.790208, + "grad_norm": 1.272286057472229, + "learning_rate": 1.4731946666666667e-05, + "loss": 0.0283, + "step": 123470 + }, + { + "epoch": 0.79024, + "grad_norm": 1.058318853378296, + "learning_rate": 1.4731733333333333e-05, + "loss": 0.0445, + "step": 123475 + }, + { + "epoch": 0.790272, + "grad_norm": 0.26331499218940735, + "learning_rate": 1.4731520000000001e-05, + "loss": 0.004, + "step": 123480 + }, + { + "epoch": 0.790304, + "grad_norm": 0.29779884219169617, + "learning_rate": 1.4731306666666667e-05, + "loss": 0.0083, + "step": 123485 + }, + { + "epoch": 0.790336, + "grad_norm": 0.25798624753952026, + "learning_rate": 1.4731093333333334e-05, + "loss": 0.0071, + "step": 123490 + }, + { + "epoch": 0.790368, + "grad_norm": 0.618000864982605, + "learning_rate": 1.473088e-05, + "loss": 0.0046, + "step": 123495 + }, + { + "epoch": 0.7904, + "grad_norm": 0.11436346173286438, + "learning_rate": 1.473066666666667e-05, + "loss": 0.0081, + "step": 123500 + }, + { + "epoch": 0.790432, + "grad_norm": 1.0540411472320557, + "learning_rate": 1.4730453333333334e-05, + "loss": 0.0076, + "step": 123505 + }, + { + "epoch": 0.790464, + "grad_norm": 1.6487340927124023, + "learning_rate": 1.473024e-05, + "loss": 0.0074, + "step": 123510 + }, + { + "epoch": 0.790496, + "grad_norm": 0.5148902535438538, + "learning_rate": 1.4730026666666669e-05, + "loss": 0.006, + "step": 123515 + }, + { + "epoch": 0.790528, + "grad_norm": 0.9931768178939819, + "learning_rate": 1.4729813333333335e-05, + "loss": 0.0275, + "step": 123520 + }, + { + "epoch": 0.79056, + "grad_norm": 0.12680105865001678, + "learning_rate": 1.4729600000000002e-05, + "loss": 0.0044, + "step": 123525 + }, + { + "epoch": 0.790592, + "grad_norm": 1.4595293998718262, + "learning_rate": 1.4729386666666668e-05, + "loss": 0.0051, + "step": 123530 + }, + { + "epoch": 0.790624, + "grad_norm": 0.15608032047748566, + "learning_rate": 1.4729173333333336e-05, + "loss": 0.0059, + "step": 123535 + }, + { + "epoch": 0.790656, + "grad_norm": 0.8684267401695251, + "learning_rate": 1.4728960000000001e-05, + "loss": 0.0137, + "step": 123540 + }, + { + "epoch": 0.790688, + "grad_norm": 0.38460683822631836, + "learning_rate": 1.4728746666666669e-05, + "loss": 0.0078, + "step": 123545 + }, + { + "epoch": 0.79072, + "grad_norm": 1.1478804349899292, + "learning_rate": 1.4728533333333335e-05, + "loss": 0.0114, + "step": 123550 + }, + { + "epoch": 0.790752, + "grad_norm": 0.1867377907037735, + "learning_rate": 1.472832e-05, + "loss": 0.0025, + "step": 123555 + }, + { + "epoch": 0.790784, + "grad_norm": 0.6742900013923645, + "learning_rate": 1.4728106666666668e-05, + "loss": 0.0051, + "step": 123560 + }, + { + "epoch": 0.790816, + "grad_norm": 0.1202608048915863, + "learning_rate": 1.4727893333333334e-05, + "loss": 0.0077, + "step": 123565 + }, + { + "epoch": 0.790848, + "grad_norm": 0.5479616522789001, + "learning_rate": 1.4727680000000002e-05, + "loss": 0.0118, + "step": 123570 + }, + { + "epoch": 0.79088, + "grad_norm": 0.8594542145729065, + "learning_rate": 1.4727466666666667e-05, + "loss": 0.0083, + "step": 123575 + }, + { + "epoch": 0.790912, + "grad_norm": 0.21537061035633087, + "learning_rate": 1.4727253333333335e-05, + "loss": 0.0083, + "step": 123580 + }, + { + "epoch": 0.790944, + "grad_norm": 0.6795967817306519, + "learning_rate": 1.4727040000000001e-05, + "loss": 0.0171, + "step": 123585 + }, + { + "epoch": 0.790976, + "grad_norm": 0.1812022626399994, + "learning_rate": 1.4726826666666667e-05, + "loss": 0.0042, + "step": 123590 + }, + { + "epoch": 0.791008, + "grad_norm": 0.02885250374674797, + "learning_rate": 1.4726613333333334e-05, + "loss": 0.0078, + "step": 123595 + }, + { + "epoch": 0.79104, + "grad_norm": 0.7651606202125549, + "learning_rate": 1.47264e-05, + "loss": 0.0101, + "step": 123600 + }, + { + "epoch": 0.791072, + "grad_norm": 0.09034958481788635, + "learning_rate": 1.472618666666667e-05, + "loss": 0.008, + "step": 123605 + }, + { + "epoch": 0.791104, + "grad_norm": 0.7220073938369751, + "learning_rate": 1.4725973333333334e-05, + "loss": 0.0182, + "step": 123610 + }, + { + "epoch": 0.791136, + "grad_norm": 0.5065948367118835, + "learning_rate": 1.4725760000000003e-05, + "loss": 0.0142, + "step": 123615 + }, + { + "epoch": 0.791168, + "grad_norm": 0.22732210159301758, + "learning_rate": 1.4725546666666669e-05, + "loss": 0.0057, + "step": 123620 + }, + { + "epoch": 0.7912, + "grad_norm": 0.03113561123609543, + "learning_rate": 1.4725333333333335e-05, + "loss": 0.0149, + "step": 123625 + }, + { + "epoch": 0.791232, + "grad_norm": 0.37797901034355164, + "learning_rate": 1.4725120000000002e-05, + "loss": 0.0077, + "step": 123630 + }, + { + "epoch": 0.791264, + "grad_norm": 0.725443422794342, + "learning_rate": 1.4724906666666668e-05, + "loss": 0.0058, + "step": 123635 + }, + { + "epoch": 0.791296, + "grad_norm": 0.12566080689430237, + "learning_rate": 1.4724693333333336e-05, + "loss": 0.0136, + "step": 123640 + }, + { + "epoch": 0.791328, + "grad_norm": 0.5344332456588745, + "learning_rate": 1.4724480000000001e-05, + "loss": 0.0067, + "step": 123645 + }, + { + "epoch": 0.79136, + "grad_norm": 0.3649948239326477, + "learning_rate": 1.4724266666666669e-05, + "loss": 0.0074, + "step": 123650 + }, + { + "epoch": 0.791392, + "grad_norm": 2.88100004196167, + "learning_rate": 1.4724053333333335e-05, + "loss": 0.0114, + "step": 123655 + }, + { + "epoch": 0.791424, + "grad_norm": 0.5118751525878906, + "learning_rate": 1.472384e-05, + "loss": 0.0187, + "step": 123660 + }, + { + "epoch": 0.791456, + "grad_norm": 0.31060925126075745, + "learning_rate": 1.4723626666666668e-05, + "loss": 0.024, + "step": 123665 + }, + { + "epoch": 0.791488, + "grad_norm": 0.1870288848876953, + "learning_rate": 1.4723413333333334e-05, + "loss": 0.0201, + "step": 123670 + }, + { + "epoch": 0.79152, + "grad_norm": 0.062357015907764435, + "learning_rate": 1.4723200000000002e-05, + "loss": 0.0152, + "step": 123675 + }, + { + "epoch": 0.791552, + "grad_norm": 0.3524472117424011, + "learning_rate": 1.4722986666666667e-05, + "loss": 0.0086, + "step": 123680 + }, + { + "epoch": 0.791584, + "grad_norm": 1.679060935974121, + "learning_rate": 1.4722773333333335e-05, + "loss": 0.0072, + "step": 123685 + }, + { + "epoch": 0.791616, + "grad_norm": 0.187289759516716, + "learning_rate": 1.4722560000000001e-05, + "loss": 0.0214, + "step": 123690 + }, + { + "epoch": 0.791648, + "grad_norm": 0.7623683214187622, + "learning_rate": 1.4722346666666667e-05, + "loss": 0.0137, + "step": 123695 + }, + { + "epoch": 0.79168, + "grad_norm": 0.24635697901248932, + "learning_rate": 1.4722133333333334e-05, + "loss": 0.0075, + "step": 123700 + }, + { + "epoch": 0.791712, + "grad_norm": 0.3525027930736542, + "learning_rate": 1.472192e-05, + "loss": 0.008, + "step": 123705 + }, + { + "epoch": 0.791744, + "grad_norm": 0.06453340500593185, + "learning_rate": 1.472170666666667e-05, + "loss": 0.0035, + "step": 123710 + }, + { + "epoch": 0.791776, + "grad_norm": 0.05335589498281479, + "learning_rate": 1.4721493333333334e-05, + "loss": 0.0068, + "step": 123715 + }, + { + "epoch": 0.791808, + "grad_norm": 0.08534978330135345, + "learning_rate": 1.4721280000000003e-05, + "loss": 0.0019, + "step": 123720 + }, + { + "epoch": 0.79184, + "grad_norm": 0.07240001112222672, + "learning_rate": 1.4721066666666669e-05, + "loss": 0.0189, + "step": 123725 + }, + { + "epoch": 0.791872, + "grad_norm": 0.3717336654663086, + "learning_rate": 1.4720853333333333e-05, + "loss": 0.0049, + "step": 123730 + }, + { + "epoch": 0.791904, + "grad_norm": 0.8475501537322998, + "learning_rate": 1.4720640000000002e-05, + "loss": 0.0083, + "step": 123735 + }, + { + "epoch": 0.791936, + "grad_norm": 0.19567452371120453, + "learning_rate": 1.4720426666666668e-05, + "loss": 0.0051, + "step": 123740 + }, + { + "epoch": 0.791968, + "grad_norm": 0.4100772440433502, + "learning_rate": 1.4720213333333336e-05, + "loss": 0.0077, + "step": 123745 + }, + { + "epoch": 0.792, + "grad_norm": 0.8717091083526611, + "learning_rate": 1.4720000000000001e-05, + "loss": 0.0038, + "step": 123750 + }, + { + "epoch": 0.792032, + "grad_norm": 0.42745620012283325, + "learning_rate": 1.4719786666666669e-05, + "loss": 0.0077, + "step": 123755 + }, + { + "epoch": 0.792064, + "grad_norm": 0.43637949228286743, + "learning_rate": 1.4719573333333335e-05, + "loss": 0.0072, + "step": 123760 + }, + { + "epoch": 0.792096, + "grad_norm": 0.05908059701323509, + "learning_rate": 1.471936e-05, + "loss": 0.0107, + "step": 123765 + }, + { + "epoch": 0.792128, + "grad_norm": 0.405098557472229, + "learning_rate": 1.4719146666666668e-05, + "loss": 0.0142, + "step": 123770 + }, + { + "epoch": 0.79216, + "grad_norm": 1.5346758365631104, + "learning_rate": 1.4718933333333334e-05, + "loss": 0.0155, + "step": 123775 + }, + { + "epoch": 0.792192, + "grad_norm": 0.1716488152742386, + "learning_rate": 1.4718720000000002e-05, + "loss": 0.0144, + "step": 123780 + }, + { + "epoch": 0.792224, + "grad_norm": 0.542699933052063, + "learning_rate": 1.4718506666666667e-05, + "loss": 0.0042, + "step": 123785 + }, + { + "epoch": 0.792256, + "grad_norm": 1.4070237874984741, + "learning_rate": 1.4718293333333335e-05, + "loss": 0.0177, + "step": 123790 + }, + { + "epoch": 0.792288, + "grad_norm": 1.1354243755340576, + "learning_rate": 1.4718080000000001e-05, + "loss": 0.0258, + "step": 123795 + }, + { + "epoch": 0.79232, + "grad_norm": 0.33879730105400085, + "learning_rate": 1.4717866666666667e-05, + "loss": 0.0072, + "step": 123800 + }, + { + "epoch": 0.792352, + "grad_norm": 0.09168663620948792, + "learning_rate": 1.4717653333333334e-05, + "loss": 0.0201, + "step": 123805 + }, + { + "epoch": 0.792384, + "grad_norm": 5.045965671539307, + "learning_rate": 1.471744e-05, + "loss": 0.0139, + "step": 123810 + }, + { + "epoch": 0.792416, + "grad_norm": 0.18089662492275238, + "learning_rate": 1.4717226666666668e-05, + "loss": 0.0121, + "step": 123815 + }, + { + "epoch": 0.792448, + "grad_norm": 0.2746365964412689, + "learning_rate": 1.4717013333333334e-05, + "loss": 0.0029, + "step": 123820 + }, + { + "epoch": 0.79248, + "grad_norm": 0.08857926726341248, + "learning_rate": 1.4716800000000003e-05, + "loss": 0.0097, + "step": 123825 + }, + { + "epoch": 0.792512, + "grad_norm": 0.11942799389362335, + "learning_rate": 1.4716586666666669e-05, + "loss": 0.0088, + "step": 123830 + }, + { + "epoch": 0.792544, + "grad_norm": 0.30727386474609375, + "learning_rate": 1.4716373333333333e-05, + "loss": 0.0114, + "step": 123835 + }, + { + "epoch": 0.792576, + "grad_norm": 0.4038028419017792, + "learning_rate": 1.4716160000000002e-05, + "loss": 0.0077, + "step": 123840 + }, + { + "epoch": 0.792608, + "grad_norm": 0.029145866632461548, + "learning_rate": 1.4715946666666668e-05, + "loss": 0.0085, + "step": 123845 + }, + { + "epoch": 0.79264, + "grad_norm": 0.02051806077361107, + "learning_rate": 1.4715733333333336e-05, + "loss": 0.0079, + "step": 123850 + }, + { + "epoch": 0.792672, + "grad_norm": 0.4342308044433594, + "learning_rate": 1.4715520000000001e-05, + "loss": 0.0081, + "step": 123855 + }, + { + "epoch": 0.792704, + "grad_norm": 0.3352980315685272, + "learning_rate": 1.4715306666666669e-05, + "loss": 0.0041, + "step": 123860 + }, + { + "epoch": 0.792736, + "grad_norm": 0.49135786294937134, + "learning_rate": 1.4715093333333335e-05, + "loss": 0.0096, + "step": 123865 + }, + { + "epoch": 0.792768, + "grad_norm": 0.37938883900642395, + "learning_rate": 1.471488e-05, + "loss": 0.0095, + "step": 123870 + }, + { + "epoch": 0.7928, + "grad_norm": 0.15479010343551636, + "learning_rate": 1.4714666666666668e-05, + "loss": 0.012, + "step": 123875 + }, + { + "epoch": 0.792832, + "grad_norm": 0.7702906131744385, + "learning_rate": 1.4714453333333334e-05, + "loss": 0.0087, + "step": 123880 + }, + { + "epoch": 0.792864, + "grad_norm": 1.151076316833496, + "learning_rate": 1.4714240000000002e-05, + "loss": 0.0205, + "step": 123885 + }, + { + "epoch": 0.792896, + "grad_norm": 0.10917387157678604, + "learning_rate": 1.4714026666666667e-05, + "loss": 0.0016, + "step": 123890 + }, + { + "epoch": 0.792928, + "grad_norm": 0.138539120554924, + "learning_rate": 1.4713813333333335e-05, + "loss": 0.0046, + "step": 123895 + }, + { + "epoch": 0.79296, + "grad_norm": 0.3119196891784668, + "learning_rate": 1.4713600000000001e-05, + "loss": 0.0106, + "step": 123900 + }, + { + "epoch": 0.792992, + "grad_norm": 0.4899567663669586, + "learning_rate": 1.4713386666666667e-05, + "loss": 0.0067, + "step": 123905 + }, + { + "epoch": 0.793024, + "grad_norm": 0.7598217725753784, + "learning_rate": 1.4713173333333334e-05, + "loss": 0.0093, + "step": 123910 + }, + { + "epoch": 0.793056, + "grad_norm": 0.3753671944141388, + "learning_rate": 1.471296e-05, + "loss": 0.004, + "step": 123915 + }, + { + "epoch": 0.793088, + "grad_norm": 0.09907392412424088, + "learning_rate": 1.4712746666666668e-05, + "loss": 0.0037, + "step": 123920 + }, + { + "epoch": 0.79312, + "grad_norm": 0.5205139517784119, + "learning_rate": 1.4712533333333334e-05, + "loss": 0.0251, + "step": 123925 + }, + { + "epoch": 0.793152, + "grad_norm": 0.13788914680480957, + "learning_rate": 1.4712320000000003e-05, + "loss": 0.0044, + "step": 123930 + }, + { + "epoch": 0.793184, + "grad_norm": 0.19208788871765137, + "learning_rate": 1.4712106666666669e-05, + "loss": 0.004, + "step": 123935 + }, + { + "epoch": 0.793216, + "grad_norm": 0.6179551482200623, + "learning_rate": 1.4711893333333333e-05, + "loss": 0.0053, + "step": 123940 + }, + { + "epoch": 0.793248, + "grad_norm": 0.05208383873105049, + "learning_rate": 1.4711680000000002e-05, + "loss": 0.0265, + "step": 123945 + }, + { + "epoch": 0.79328, + "grad_norm": 0.16120007634162903, + "learning_rate": 1.4711466666666668e-05, + "loss": 0.0182, + "step": 123950 + }, + { + "epoch": 0.793312, + "grad_norm": 0.027716174721717834, + "learning_rate": 1.4711253333333336e-05, + "loss": 0.0094, + "step": 123955 + }, + { + "epoch": 0.793344, + "grad_norm": 0.24444951117038727, + "learning_rate": 1.4711040000000001e-05, + "loss": 0.0085, + "step": 123960 + }, + { + "epoch": 0.793376, + "grad_norm": 1.3407881259918213, + "learning_rate": 1.4710826666666669e-05, + "loss": 0.0089, + "step": 123965 + }, + { + "epoch": 0.793408, + "grad_norm": 0.9401295185089111, + "learning_rate": 1.4710613333333335e-05, + "loss": 0.0044, + "step": 123970 + }, + { + "epoch": 0.79344, + "grad_norm": 0.05891485512256622, + "learning_rate": 1.47104e-05, + "loss": 0.0061, + "step": 123975 + }, + { + "epoch": 0.793472, + "grad_norm": 0.30953335762023926, + "learning_rate": 1.4710186666666668e-05, + "loss": 0.0068, + "step": 123980 + }, + { + "epoch": 0.793504, + "grad_norm": 0.11826973408460617, + "learning_rate": 1.4709973333333334e-05, + "loss": 0.0287, + "step": 123985 + }, + { + "epoch": 0.793536, + "grad_norm": 0.5857796669006348, + "learning_rate": 1.4709760000000002e-05, + "loss": 0.0095, + "step": 123990 + }, + { + "epoch": 0.793568, + "grad_norm": 0.03850318118929863, + "learning_rate": 1.4709546666666667e-05, + "loss": 0.0111, + "step": 123995 + }, + { + "epoch": 0.7936, + "grad_norm": 1.0797730684280396, + "learning_rate": 1.4709333333333335e-05, + "loss": 0.0155, + "step": 124000 + }, + { + "epoch": 0.793632, + "grad_norm": 0.18280643224716187, + "learning_rate": 1.4709120000000001e-05, + "loss": 0.0177, + "step": 124005 + }, + { + "epoch": 0.793664, + "grad_norm": 0.9596878290176392, + "learning_rate": 1.4708906666666667e-05, + "loss": 0.0093, + "step": 124010 + }, + { + "epoch": 0.793696, + "grad_norm": 0.8801317811012268, + "learning_rate": 1.4708693333333334e-05, + "loss": 0.0155, + "step": 124015 + }, + { + "epoch": 0.793728, + "grad_norm": 1.1410067081451416, + "learning_rate": 1.470848e-05, + "loss": 0.0175, + "step": 124020 + }, + { + "epoch": 0.79376, + "grad_norm": 0.3081541061401367, + "learning_rate": 1.4708266666666668e-05, + "loss": 0.0112, + "step": 124025 + }, + { + "epoch": 0.793792, + "grad_norm": 1.2230294942855835, + "learning_rate": 1.4708053333333334e-05, + "loss": 0.0106, + "step": 124030 + }, + { + "epoch": 0.793824, + "grad_norm": 0.5073772072792053, + "learning_rate": 1.4707840000000003e-05, + "loss": 0.0241, + "step": 124035 + }, + { + "epoch": 0.793856, + "grad_norm": 0.30392327904701233, + "learning_rate": 1.4707626666666667e-05, + "loss": 0.0082, + "step": 124040 + }, + { + "epoch": 0.793888, + "grad_norm": 0.7111969590187073, + "learning_rate": 1.4707413333333333e-05, + "loss": 0.0106, + "step": 124045 + }, + { + "epoch": 0.79392, + "grad_norm": 0.6298975944519043, + "learning_rate": 1.4707200000000002e-05, + "loss": 0.0101, + "step": 124050 + }, + { + "epoch": 0.793952, + "grad_norm": 0.30703240633010864, + "learning_rate": 1.4706986666666668e-05, + "loss": 0.0043, + "step": 124055 + }, + { + "epoch": 0.793984, + "grad_norm": 1.0429034233093262, + "learning_rate": 1.4706773333333336e-05, + "loss": 0.0173, + "step": 124060 + }, + { + "epoch": 0.794016, + "grad_norm": 0.21654312312602997, + "learning_rate": 1.4706560000000001e-05, + "loss": 0.0058, + "step": 124065 + }, + { + "epoch": 0.794048, + "grad_norm": 0.3512409031391144, + "learning_rate": 1.4706346666666669e-05, + "loss": 0.0045, + "step": 124070 + }, + { + "epoch": 0.79408, + "grad_norm": 0.029010161757469177, + "learning_rate": 1.4706133333333335e-05, + "loss": 0.0042, + "step": 124075 + }, + { + "epoch": 0.794112, + "grad_norm": 0.7369264960289001, + "learning_rate": 1.470592e-05, + "loss": 0.0069, + "step": 124080 + }, + { + "epoch": 0.794144, + "grad_norm": 0.5425875782966614, + "learning_rate": 1.4705706666666668e-05, + "loss": 0.0082, + "step": 124085 + }, + { + "epoch": 0.794176, + "grad_norm": 0.524018406867981, + "learning_rate": 1.4705493333333334e-05, + "loss": 0.0033, + "step": 124090 + }, + { + "epoch": 0.794208, + "grad_norm": 0.15679892897605896, + "learning_rate": 1.4705280000000002e-05, + "loss": 0.0103, + "step": 124095 + }, + { + "epoch": 0.79424, + "grad_norm": 0.2885797321796417, + "learning_rate": 1.4705066666666667e-05, + "loss": 0.0062, + "step": 124100 + }, + { + "epoch": 0.794272, + "grad_norm": 1.0396760702133179, + "learning_rate": 1.4704853333333335e-05, + "loss": 0.016, + "step": 124105 + }, + { + "epoch": 0.794304, + "grad_norm": 1.2753552198410034, + "learning_rate": 1.4704640000000001e-05, + "loss": 0.0124, + "step": 124110 + }, + { + "epoch": 0.794336, + "grad_norm": 0.8257318735122681, + "learning_rate": 1.4704426666666667e-05, + "loss": 0.0208, + "step": 124115 + }, + { + "epoch": 0.794368, + "grad_norm": 0.16520820558071136, + "learning_rate": 1.4704213333333334e-05, + "loss": 0.0116, + "step": 124120 + }, + { + "epoch": 0.7944, + "grad_norm": 3.1395726203918457, + "learning_rate": 1.4704e-05, + "loss": 0.0093, + "step": 124125 + }, + { + "epoch": 0.794432, + "grad_norm": 0.6595316529273987, + "learning_rate": 1.4703786666666668e-05, + "loss": 0.0086, + "step": 124130 + }, + { + "epoch": 0.794464, + "grad_norm": 0.30010104179382324, + "learning_rate": 1.4703573333333334e-05, + "loss": 0.0045, + "step": 124135 + }, + { + "epoch": 0.794496, + "grad_norm": 0.09754809737205505, + "learning_rate": 1.4703360000000003e-05, + "loss": 0.0169, + "step": 124140 + }, + { + "epoch": 0.794528, + "grad_norm": 0.021321076899766922, + "learning_rate": 1.4703146666666667e-05, + "loss": 0.0072, + "step": 124145 + }, + { + "epoch": 0.79456, + "grad_norm": 0.6239925026893616, + "learning_rate": 1.4702933333333333e-05, + "loss": 0.013, + "step": 124150 + }, + { + "epoch": 0.794592, + "grad_norm": 0.43522247672080994, + "learning_rate": 1.4702720000000002e-05, + "loss": 0.0087, + "step": 124155 + }, + { + "epoch": 0.794624, + "grad_norm": 0.5525873303413391, + "learning_rate": 1.4702506666666668e-05, + "loss": 0.0154, + "step": 124160 + }, + { + "epoch": 0.794656, + "grad_norm": 0.8541200160980225, + "learning_rate": 1.4702293333333336e-05, + "loss": 0.0065, + "step": 124165 + }, + { + "epoch": 0.794688, + "grad_norm": 0.800305962562561, + "learning_rate": 1.4702080000000001e-05, + "loss": 0.0066, + "step": 124170 + }, + { + "epoch": 0.79472, + "grad_norm": 0.5683483481407166, + "learning_rate": 1.4701866666666669e-05, + "loss": 0.0115, + "step": 124175 + }, + { + "epoch": 0.794752, + "grad_norm": 0.4361542761325836, + "learning_rate": 1.4701653333333335e-05, + "loss": 0.0197, + "step": 124180 + }, + { + "epoch": 0.794784, + "grad_norm": 0.3860316574573517, + "learning_rate": 1.470144e-05, + "loss": 0.0053, + "step": 124185 + }, + { + "epoch": 0.794816, + "grad_norm": 0.024466674774885178, + "learning_rate": 1.4701226666666668e-05, + "loss": 0.0082, + "step": 124190 + }, + { + "epoch": 0.794848, + "grad_norm": 0.7341418862342834, + "learning_rate": 1.4701013333333334e-05, + "loss": 0.0104, + "step": 124195 + }, + { + "epoch": 0.79488, + "grad_norm": 0.11476703733205795, + "learning_rate": 1.4700800000000002e-05, + "loss": 0.0049, + "step": 124200 + }, + { + "epoch": 0.794912, + "grad_norm": 0.7043341398239136, + "learning_rate": 1.4700586666666667e-05, + "loss": 0.0127, + "step": 124205 + }, + { + "epoch": 0.794944, + "grad_norm": 0.17598001658916473, + "learning_rate": 1.4700373333333335e-05, + "loss": 0.0098, + "step": 124210 + }, + { + "epoch": 0.794976, + "grad_norm": 0.4694983661174774, + "learning_rate": 1.4700160000000001e-05, + "loss": 0.0073, + "step": 124215 + }, + { + "epoch": 0.795008, + "grad_norm": 1.229817509651184, + "learning_rate": 1.4699946666666667e-05, + "loss": 0.0156, + "step": 124220 + }, + { + "epoch": 0.79504, + "grad_norm": 1.1884658336639404, + "learning_rate": 1.4699733333333334e-05, + "loss": 0.0086, + "step": 124225 + }, + { + "epoch": 0.795072, + "grad_norm": 0.8501747250556946, + "learning_rate": 1.469952e-05, + "loss": 0.0194, + "step": 124230 + }, + { + "epoch": 0.795104, + "grad_norm": 0.8385857343673706, + "learning_rate": 1.4699306666666668e-05, + "loss": 0.0171, + "step": 124235 + }, + { + "epoch": 0.795136, + "grad_norm": 0.29484400153160095, + "learning_rate": 1.4699093333333334e-05, + "loss": 0.0072, + "step": 124240 + }, + { + "epoch": 0.795168, + "grad_norm": 0.5583364963531494, + "learning_rate": 1.4698880000000003e-05, + "loss": 0.0035, + "step": 124245 + }, + { + "epoch": 0.7952, + "grad_norm": 0.7175498008728027, + "learning_rate": 1.4698666666666667e-05, + "loss": 0.0106, + "step": 124250 + }, + { + "epoch": 0.795232, + "grad_norm": 0.39656922221183777, + "learning_rate": 1.4698453333333333e-05, + "loss": 0.0061, + "step": 124255 + }, + { + "epoch": 0.795264, + "grad_norm": 1.0199131965637207, + "learning_rate": 1.4698240000000002e-05, + "loss": 0.0048, + "step": 124260 + }, + { + "epoch": 0.795296, + "grad_norm": 0.8662052154541016, + "learning_rate": 1.4698026666666666e-05, + "loss": 0.0061, + "step": 124265 + }, + { + "epoch": 0.795328, + "grad_norm": 0.3548067510128021, + "learning_rate": 1.4697813333333336e-05, + "loss": 0.0113, + "step": 124270 + }, + { + "epoch": 0.79536, + "grad_norm": 1.1366209983825684, + "learning_rate": 1.4697600000000001e-05, + "loss": 0.0173, + "step": 124275 + }, + { + "epoch": 0.795392, + "grad_norm": 0.7948455810546875, + "learning_rate": 1.4697386666666669e-05, + "loss": 0.0044, + "step": 124280 + }, + { + "epoch": 0.795424, + "grad_norm": 1.2217854261398315, + "learning_rate": 1.4697173333333335e-05, + "loss": 0.0068, + "step": 124285 + }, + { + "epoch": 0.795456, + "grad_norm": 0.0461021326482296, + "learning_rate": 1.469696e-05, + "loss": 0.0198, + "step": 124290 + }, + { + "epoch": 0.795488, + "grad_norm": 0.351955384016037, + "learning_rate": 1.4696746666666668e-05, + "loss": 0.0161, + "step": 124295 + }, + { + "epoch": 0.79552, + "grad_norm": 0.3167620003223419, + "learning_rate": 1.4696533333333334e-05, + "loss": 0.0164, + "step": 124300 + }, + { + "epoch": 0.795552, + "grad_norm": 1.6395080089569092, + "learning_rate": 1.4696320000000002e-05, + "loss": 0.0053, + "step": 124305 + }, + { + "epoch": 0.795584, + "grad_norm": 0.45366838574409485, + "learning_rate": 1.4696106666666667e-05, + "loss": 0.0047, + "step": 124310 + }, + { + "epoch": 0.795616, + "grad_norm": 0.6362320184707642, + "learning_rate": 1.4695893333333335e-05, + "loss": 0.0035, + "step": 124315 + }, + { + "epoch": 0.795648, + "grad_norm": 0.47342658042907715, + "learning_rate": 1.4695680000000001e-05, + "loss": 0.0051, + "step": 124320 + }, + { + "epoch": 0.79568, + "grad_norm": 0.9810709953308105, + "learning_rate": 1.4695466666666667e-05, + "loss": 0.0056, + "step": 124325 + }, + { + "epoch": 0.795712, + "grad_norm": 0.02358250506222248, + "learning_rate": 1.4695253333333334e-05, + "loss": 0.0034, + "step": 124330 + }, + { + "epoch": 0.795744, + "grad_norm": 0.053914908319711685, + "learning_rate": 1.469504e-05, + "loss": 0.0109, + "step": 124335 + }, + { + "epoch": 0.795776, + "grad_norm": 3.735558032989502, + "learning_rate": 1.4694826666666668e-05, + "loss": 0.0207, + "step": 124340 + }, + { + "epoch": 0.795808, + "grad_norm": 0.5061838030815125, + "learning_rate": 1.4694613333333334e-05, + "loss": 0.0087, + "step": 124345 + }, + { + "epoch": 0.79584, + "grad_norm": 1.168895959854126, + "learning_rate": 1.4694400000000003e-05, + "loss": 0.0074, + "step": 124350 + }, + { + "epoch": 0.795872, + "grad_norm": 1.4812861680984497, + "learning_rate": 1.4694186666666667e-05, + "loss": 0.0081, + "step": 124355 + }, + { + "epoch": 0.795904, + "grad_norm": 0.38397514820098877, + "learning_rate": 1.4693973333333336e-05, + "loss": 0.0041, + "step": 124360 + }, + { + "epoch": 0.795936, + "grad_norm": 0.3487701714038849, + "learning_rate": 1.4693760000000002e-05, + "loss": 0.0051, + "step": 124365 + }, + { + "epoch": 0.795968, + "grad_norm": 0.5442686080932617, + "learning_rate": 1.4693546666666666e-05, + "loss": 0.0148, + "step": 124370 + }, + { + "epoch": 0.796, + "grad_norm": 0.3520492911338806, + "learning_rate": 1.4693333333333336e-05, + "loss": 0.0123, + "step": 124375 + }, + { + "epoch": 0.796032, + "grad_norm": 0.1923477053642273, + "learning_rate": 1.4693120000000001e-05, + "loss": 0.0163, + "step": 124380 + }, + { + "epoch": 0.796064, + "grad_norm": 0.20141004025936127, + "learning_rate": 1.4692906666666669e-05, + "loss": 0.0229, + "step": 124385 + }, + { + "epoch": 0.796096, + "grad_norm": 0.22176973521709442, + "learning_rate": 1.4692693333333335e-05, + "loss": 0.0096, + "step": 124390 + }, + { + "epoch": 0.796128, + "grad_norm": 0.8346078395843506, + "learning_rate": 1.4692480000000002e-05, + "loss": 0.0154, + "step": 124395 + }, + { + "epoch": 0.79616, + "grad_norm": 0.9124974012374878, + "learning_rate": 1.4692266666666668e-05, + "loss": 0.0093, + "step": 124400 + }, + { + "epoch": 0.796192, + "grad_norm": 0.5387166738510132, + "learning_rate": 1.4692053333333334e-05, + "loss": 0.006, + "step": 124405 + }, + { + "epoch": 0.796224, + "grad_norm": 0.3805708587169647, + "learning_rate": 1.4691840000000002e-05, + "loss": 0.0094, + "step": 124410 + }, + { + "epoch": 0.796256, + "grad_norm": 1.0273834466934204, + "learning_rate": 1.4691626666666667e-05, + "loss": 0.0194, + "step": 124415 + }, + { + "epoch": 0.796288, + "grad_norm": 0.13609573245048523, + "learning_rate": 1.4691413333333335e-05, + "loss": 0.0249, + "step": 124420 + }, + { + "epoch": 0.79632, + "grad_norm": 0.2381649613380432, + "learning_rate": 1.4691200000000001e-05, + "loss": 0.0031, + "step": 124425 + }, + { + "epoch": 0.796352, + "grad_norm": 0.17564767599105835, + "learning_rate": 1.4690986666666668e-05, + "loss": 0.0095, + "step": 124430 + }, + { + "epoch": 0.796384, + "grad_norm": 1.098724603652954, + "learning_rate": 1.4690773333333334e-05, + "loss": 0.0165, + "step": 124435 + }, + { + "epoch": 0.796416, + "grad_norm": 0.906001627445221, + "learning_rate": 1.469056e-05, + "loss": 0.01, + "step": 124440 + }, + { + "epoch": 0.796448, + "grad_norm": 0.053124070167541504, + "learning_rate": 1.4690346666666668e-05, + "loss": 0.0083, + "step": 124445 + }, + { + "epoch": 0.79648, + "grad_norm": 0.2228912115097046, + "learning_rate": 1.4690133333333334e-05, + "loss": 0.0098, + "step": 124450 + }, + { + "epoch": 0.796512, + "grad_norm": 0.36724919080734253, + "learning_rate": 1.4689920000000001e-05, + "loss": 0.007, + "step": 124455 + }, + { + "epoch": 0.796544, + "grad_norm": 0.056415047496557236, + "learning_rate": 1.4689706666666667e-05, + "loss": 0.0038, + "step": 124460 + }, + { + "epoch": 0.796576, + "grad_norm": 0.2968062162399292, + "learning_rate": 1.4689493333333336e-05, + "loss": 0.0097, + "step": 124465 + }, + { + "epoch": 0.796608, + "grad_norm": 0.24420861899852753, + "learning_rate": 1.4689280000000002e-05, + "loss": 0.0042, + "step": 124470 + }, + { + "epoch": 0.79664, + "grad_norm": 0.12486698478460312, + "learning_rate": 1.4689066666666666e-05, + "loss": 0.0137, + "step": 124475 + }, + { + "epoch": 0.796672, + "grad_norm": 0.14161914587020874, + "learning_rate": 1.4688853333333336e-05, + "loss": 0.0017, + "step": 124480 + }, + { + "epoch": 0.796704, + "grad_norm": 1.1410655975341797, + "learning_rate": 1.4688640000000001e-05, + "loss": 0.0073, + "step": 124485 + }, + { + "epoch": 0.796736, + "grad_norm": 0.2605033218860626, + "learning_rate": 1.4688426666666669e-05, + "loss": 0.006, + "step": 124490 + }, + { + "epoch": 0.796768, + "grad_norm": 0.06549642980098724, + "learning_rate": 1.4688213333333335e-05, + "loss": 0.0161, + "step": 124495 + }, + { + "epoch": 0.7968, + "grad_norm": 0.6333795785903931, + "learning_rate": 1.4688000000000002e-05, + "loss": 0.0104, + "step": 124500 + }, + { + "epoch": 0.796832, + "grad_norm": 2.3855443000793457, + "learning_rate": 1.4687786666666668e-05, + "loss": 0.0178, + "step": 124505 + }, + { + "epoch": 0.796864, + "grad_norm": 0.06461754441261292, + "learning_rate": 1.4687573333333334e-05, + "loss": 0.0042, + "step": 124510 + }, + { + "epoch": 0.796896, + "grad_norm": 0.7696732878684998, + "learning_rate": 1.4687360000000002e-05, + "loss": 0.0182, + "step": 124515 + }, + { + "epoch": 0.796928, + "grad_norm": 0.042728669941425323, + "learning_rate": 1.4687146666666667e-05, + "loss": 0.0056, + "step": 124520 + }, + { + "epoch": 0.79696, + "grad_norm": 0.10679665952920914, + "learning_rate": 1.4686933333333335e-05, + "loss": 0.0196, + "step": 124525 + }, + { + "epoch": 0.796992, + "grad_norm": 0.15629373490810394, + "learning_rate": 1.4686720000000001e-05, + "loss": 0.0111, + "step": 124530 + }, + { + "epoch": 0.797024, + "grad_norm": 0.09319491684436798, + "learning_rate": 1.4686506666666668e-05, + "loss": 0.012, + "step": 124535 + }, + { + "epoch": 0.797056, + "grad_norm": 0.0729716345667839, + "learning_rate": 1.4686293333333334e-05, + "loss": 0.022, + "step": 124540 + }, + { + "epoch": 0.797088, + "grad_norm": 0.33047059178352356, + "learning_rate": 1.468608e-05, + "loss": 0.0064, + "step": 124545 + }, + { + "epoch": 0.79712, + "grad_norm": 0.4336208403110504, + "learning_rate": 1.4685866666666668e-05, + "loss": 0.0103, + "step": 124550 + }, + { + "epoch": 0.797152, + "grad_norm": 0.03295077383518219, + "learning_rate": 1.4685653333333334e-05, + "loss": 0.0062, + "step": 124555 + }, + { + "epoch": 0.797184, + "grad_norm": 0.02265467308461666, + "learning_rate": 1.4685440000000001e-05, + "loss": 0.0074, + "step": 124560 + }, + { + "epoch": 0.797216, + "grad_norm": 0.0657263770699501, + "learning_rate": 1.4685226666666667e-05, + "loss": 0.0038, + "step": 124565 + }, + { + "epoch": 0.797248, + "grad_norm": 0.08542271703481674, + "learning_rate": 1.4685013333333336e-05, + "loss": 0.008, + "step": 124570 + }, + { + "epoch": 0.79728, + "grad_norm": 0.3434543311595917, + "learning_rate": 1.4684800000000002e-05, + "loss": 0.0081, + "step": 124575 + }, + { + "epoch": 0.797312, + "grad_norm": 0.8049247860908508, + "learning_rate": 1.4684586666666666e-05, + "loss": 0.0142, + "step": 124580 + }, + { + "epoch": 0.797344, + "grad_norm": 0.7439376711845398, + "learning_rate": 1.4684373333333336e-05, + "loss": 0.0249, + "step": 124585 + }, + { + "epoch": 0.797376, + "grad_norm": 0.35726049542427063, + "learning_rate": 1.4684160000000001e-05, + "loss": 0.0052, + "step": 124590 + }, + { + "epoch": 0.797408, + "grad_norm": 1.3893154859542847, + "learning_rate": 1.4683946666666669e-05, + "loss": 0.0084, + "step": 124595 + }, + { + "epoch": 0.79744, + "grad_norm": 0.12727941572666168, + "learning_rate": 1.4683733333333335e-05, + "loss": 0.0019, + "step": 124600 + }, + { + "epoch": 0.797472, + "grad_norm": 0.6835653781890869, + "learning_rate": 1.4683520000000002e-05, + "loss": 0.0234, + "step": 124605 + }, + { + "epoch": 0.797504, + "grad_norm": 0.5451500415802002, + "learning_rate": 1.4683306666666668e-05, + "loss": 0.0097, + "step": 124610 + }, + { + "epoch": 0.797536, + "grad_norm": 1.1923766136169434, + "learning_rate": 1.4683093333333334e-05, + "loss": 0.0163, + "step": 124615 + }, + { + "epoch": 0.797568, + "grad_norm": 0.10545314848423004, + "learning_rate": 1.4682880000000002e-05, + "loss": 0.0078, + "step": 124620 + }, + { + "epoch": 0.7976, + "grad_norm": 0.48974302411079407, + "learning_rate": 1.4682666666666667e-05, + "loss": 0.0066, + "step": 124625 + }, + { + "epoch": 0.797632, + "grad_norm": 0.14163072407245636, + "learning_rate": 1.4682453333333335e-05, + "loss": 0.0072, + "step": 124630 + }, + { + "epoch": 0.797664, + "grad_norm": 0.04908208176493645, + "learning_rate": 1.4682240000000001e-05, + "loss": 0.0093, + "step": 124635 + }, + { + "epoch": 0.797696, + "grad_norm": 0.026322046294808388, + "learning_rate": 1.4682026666666668e-05, + "loss": 0.0033, + "step": 124640 + }, + { + "epoch": 0.797728, + "grad_norm": 0.5955837965011597, + "learning_rate": 1.4681813333333334e-05, + "loss": 0.0026, + "step": 124645 + }, + { + "epoch": 0.79776, + "grad_norm": 0.5675793290138245, + "learning_rate": 1.46816e-05, + "loss": 0.0068, + "step": 124650 + }, + { + "epoch": 0.797792, + "grad_norm": 0.5424693822860718, + "learning_rate": 1.4681386666666668e-05, + "loss": 0.0082, + "step": 124655 + }, + { + "epoch": 0.797824, + "grad_norm": 0.41768819093704224, + "learning_rate": 1.4681173333333334e-05, + "loss": 0.007, + "step": 124660 + }, + { + "epoch": 0.797856, + "grad_norm": 0.25799208879470825, + "learning_rate": 1.4680960000000001e-05, + "loss": 0.006, + "step": 124665 + }, + { + "epoch": 0.797888, + "grad_norm": 0.18448537588119507, + "learning_rate": 1.4680746666666667e-05, + "loss": 0.0217, + "step": 124670 + }, + { + "epoch": 0.79792, + "grad_norm": 0.03204461932182312, + "learning_rate": 1.4680533333333336e-05, + "loss": 0.0087, + "step": 124675 + }, + { + "epoch": 0.797952, + "grad_norm": 0.37130266427993774, + "learning_rate": 1.468032e-05, + "loss": 0.0075, + "step": 124680 + }, + { + "epoch": 0.797984, + "grad_norm": 0.15167759358882904, + "learning_rate": 1.4680106666666666e-05, + "loss": 0.0115, + "step": 124685 + }, + { + "epoch": 0.798016, + "grad_norm": 0.014931831508874893, + "learning_rate": 1.4679893333333336e-05, + "loss": 0.0023, + "step": 124690 + }, + { + "epoch": 0.798048, + "grad_norm": 0.295357882976532, + "learning_rate": 1.4679680000000001e-05, + "loss": 0.0088, + "step": 124695 + }, + { + "epoch": 0.79808, + "grad_norm": 1.0125105381011963, + "learning_rate": 1.4679466666666669e-05, + "loss": 0.0048, + "step": 124700 + }, + { + "epoch": 0.798112, + "grad_norm": 0.6792318224906921, + "learning_rate": 1.4679253333333335e-05, + "loss": 0.0168, + "step": 124705 + }, + { + "epoch": 0.798144, + "grad_norm": 0.18610915541648865, + "learning_rate": 1.4679040000000002e-05, + "loss": 0.018, + "step": 124710 + }, + { + "epoch": 0.798176, + "grad_norm": 0.6058518290519714, + "learning_rate": 1.4678826666666668e-05, + "loss": 0.0155, + "step": 124715 + }, + { + "epoch": 0.798208, + "grad_norm": 0.9997877478599548, + "learning_rate": 1.4678613333333334e-05, + "loss": 0.0115, + "step": 124720 + }, + { + "epoch": 0.79824, + "grad_norm": 1.0896822214126587, + "learning_rate": 1.4678400000000002e-05, + "loss": 0.0099, + "step": 124725 + }, + { + "epoch": 0.798272, + "grad_norm": 0.4185466170310974, + "learning_rate": 1.4678186666666667e-05, + "loss": 0.0051, + "step": 124730 + }, + { + "epoch": 0.798304, + "grad_norm": 1.1458275318145752, + "learning_rate": 1.4677973333333335e-05, + "loss": 0.0122, + "step": 124735 + }, + { + "epoch": 0.798336, + "grad_norm": 4.3374342918396, + "learning_rate": 1.4677760000000001e-05, + "loss": 0.0241, + "step": 124740 + }, + { + "epoch": 0.798368, + "grad_norm": 0.6845092177391052, + "learning_rate": 1.4677546666666668e-05, + "loss": 0.0194, + "step": 124745 + }, + { + "epoch": 0.7984, + "grad_norm": 0.04929637163877487, + "learning_rate": 1.4677333333333334e-05, + "loss": 0.0017, + "step": 124750 + }, + { + "epoch": 0.798432, + "grad_norm": 1.1229238510131836, + "learning_rate": 1.467712e-05, + "loss": 0.0157, + "step": 124755 + }, + { + "epoch": 0.798464, + "grad_norm": 0.593609094619751, + "learning_rate": 1.4676906666666668e-05, + "loss": 0.0142, + "step": 124760 + }, + { + "epoch": 0.798496, + "grad_norm": 0.46643486618995667, + "learning_rate": 1.4676693333333334e-05, + "loss": 0.0103, + "step": 124765 + }, + { + "epoch": 0.798528, + "grad_norm": 0.11435346305370331, + "learning_rate": 1.4676480000000001e-05, + "loss": 0.0071, + "step": 124770 + }, + { + "epoch": 0.79856, + "grad_norm": 0.21131989359855652, + "learning_rate": 1.4676266666666667e-05, + "loss": 0.0064, + "step": 124775 + }, + { + "epoch": 0.798592, + "grad_norm": 0.10164786130189896, + "learning_rate": 1.4676053333333336e-05, + "loss": 0.0053, + "step": 124780 + }, + { + "epoch": 0.798624, + "grad_norm": 1.0617882013320923, + "learning_rate": 1.467584e-05, + "loss": 0.0206, + "step": 124785 + }, + { + "epoch": 0.798656, + "grad_norm": 0.1580105721950531, + "learning_rate": 1.4675626666666666e-05, + "loss": 0.0033, + "step": 124790 + }, + { + "epoch": 0.798688, + "grad_norm": 0.6776530742645264, + "learning_rate": 1.4675413333333336e-05, + "loss": 0.0143, + "step": 124795 + }, + { + "epoch": 0.79872, + "grad_norm": 0.07094917446374893, + "learning_rate": 1.4675200000000001e-05, + "loss": 0.002, + "step": 124800 + }, + { + "epoch": 0.798752, + "grad_norm": 0.03517034277319908, + "learning_rate": 1.4674986666666669e-05, + "loss": 0.0036, + "step": 124805 + }, + { + "epoch": 0.798784, + "grad_norm": 0.7885113954544067, + "learning_rate": 1.4674773333333335e-05, + "loss": 0.0115, + "step": 124810 + }, + { + "epoch": 0.798816, + "grad_norm": 0.7800442576408386, + "learning_rate": 1.4674560000000002e-05, + "loss": 0.0072, + "step": 124815 + }, + { + "epoch": 0.798848, + "grad_norm": 0.49735742807388306, + "learning_rate": 1.4674346666666668e-05, + "loss": 0.0133, + "step": 124820 + }, + { + "epoch": 0.79888, + "grad_norm": 0.813998818397522, + "learning_rate": 1.4674133333333334e-05, + "loss": 0.0132, + "step": 124825 + }, + { + "epoch": 0.798912, + "grad_norm": 0.2094096839427948, + "learning_rate": 1.4673920000000002e-05, + "loss": 0.0017, + "step": 124830 + }, + { + "epoch": 0.798944, + "grad_norm": 0.3954319655895233, + "learning_rate": 1.4673706666666667e-05, + "loss": 0.015, + "step": 124835 + }, + { + "epoch": 0.798976, + "grad_norm": 0.2798059284687042, + "learning_rate": 1.4673493333333335e-05, + "loss": 0.0133, + "step": 124840 + }, + { + "epoch": 0.799008, + "grad_norm": 0.5076279044151306, + "learning_rate": 1.4673280000000001e-05, + "loss": 0.0099, + "step": 124845 + }, + { + "epoch": 0.79904, + "grad_norm": 0.26262709498405457, + "learning_rate": 1.4673066666666668e-05, + "loss": 0.014, + "step": 124850 + }, + { + "epoch": 0.799072, + "grad_norm": 0.0971444770693779, + "learning_rate": 1.4672853333333334e-05, + "loss": 0.0045, + "step": 124855 + }, + { + "epoch": 0.799104, + "grad_norm": 0.04600994288921356, + "learning_rate": 1.467264e-05, + "loss": 0.0121, + "step": 124860 + }, + { + "epoch": 0.799136, + "grad_norm": 0.7310359477996826, + "learning_rate": 1.4672426666666668e-05, + "loss": 0.0103, + "step": 124865 + }, + { + "epoch": 0.799168, + "grad_norm": 0.43035635352134705, + "learning_rate": 1.4672213333333334e-05, + "loss": 0.0176, + "step": 124870 + }, + { + "epoch": 0.7992, + "grad_norm": 0.008099333383142948, + "learning_rate": 1.4672000000000001e-05, + "loss": 0.0062, + "step": 124875 + }, + { + "epoch": 0.799232, + "grad_norm": 1.6517078876495361, + "learning_rate": 1.4671786666666667e-05, + "loss": 0.0317, + "step": 124880 + }, + { + "epoch": 0.799264, + "grad_norm": 0.26013657450675964, + "learning_rate": 1.4671573333333336e-05, + "loss": 0.0243, + "step": 124885 + }, + { + "epoch": 0.799296, + "grad_norm": 0.14960651099681854, + "learning_rate": 1.467136e-05, + "loss": 0.0019, + "step": 124890 + }, + { + "epoch": 0.799328, + "grad_norm": 0.6219557523727417, + "learning_rate": 1.4671146666666666e-05, + "loss": 0.0065, + "step": 124895 + }, + { + "epoch": 0.79936, + "grad_norm": 0.3313736915588379, + "learning_rate": 1.4670933333333336e-05, + "loss": 0.0033, + "step": 124900 + }, + { + "epoch": 0.799392, + "grad_norm": 0.1691225916147232, + "learning_rate": 1.467072e-05, + "loss": 0.03, + "step": 124905 + }, + { + "epoch": 0.799424, + "grad_norm": 0.12160061299800873, + "learning_rate": 1.4670506666666669e-05, + "loss": 0.0027, + "step": 124910 + }, + { + "epoch": 0.799456, + "grad_norm": 0.20334550738334656, + "learning_rate": 1.4670293333333335e-05, + "loss": 0.0098, + "step": 124915 + }, + { + "epoch": 0.799488, + "grad_norm": 0.8521571755409241, + "learning_rate": 1.4670080000000002e-05, + "loss": 0.0138, + "step": 124920 + }, + { + "epoch": 0.79952, + "grad_norm": 0.12160941958427429, + "learning_rate": 1.4669866666666668e-05, + "loss": 0.0053, + "step": 124925 + }, + { + "epoch": 0.799552, + "grad_norm": 0.2668980360031128, + "learning_rate": 1.4669653333333334e-05, + "loss": 0.0251, + "step": 124930 + }, + { + "epoch": 0.799584, + "grad_norm": 0.4919262230396271, + "learning_rate": 1.4669440000000002e-05, + "loss": 0.0063, + "step": 124935 + }, + { + "epoch": 0.799616, + "grad_norm": 0.46103009581565857, + "learning_rate": 1.4669226666666667e-05, + "loss": 0.0116, + "step": 124940 + }, + { + "epoch": 0.799648, + "grad_norm": 0.22430577874183655, + "learning_rate": 1.4669013333333335e-05, + "loss": 0.0107, + "step": 124945 + }, + { + "epoch": 0.79968, + "grad_norm": 0.2671356499195099, + "learning_rate": 1.4668800000000001e-05, + "loss": 0.0138, + "step": 124950 + }, + { + "epoch": 0.799712, + "grad_norm": 0.06386269629001617, + "learning_rate": 1.4668586666666668e-05, + "loss": 0.002, + "step": 124955 + }, + { + "epoch": 0.799744, + "grad_norm": 0.08143976330757141, + "learning_rate": 1.4668373333333334e-05, + "loss": 0.0056, + "step": 124960 + }, + { + "epoch": 0.799776, + "grad_norm": 0.5936406254768372, + "learning_rate": 1.466816e-05, + "loss": 0.0125, + "step": 124965 + }, + { + "epoch": 0.799808, + "grad_norm": 0.24854673445224762, + "learning_rate": 1.4667946666666668e-05, + "loss": 0.0183, + "step": 124970 + }, + { + "epoch": 0.79984, + "grad_norm": 0.3672274053096771, + "learning_rate": 1.4667733333333334e-05, + "loss": 0.0118, + "step": 124975 + }, + { + "epoch": 0.799872, + "grad_norm": 0.1724068969488144, + "learning_rate": 1.4667520000000001e-05, + "loss": 0.0144, + "step": 124980 + }, + { + "epoch": 0.799904, + "grad_norm": 0.1488867700099945, + "learning_rate": 1.4667306666666667e-05, + "loss": 0.0027, + "step": 124985 + }, + { + "epoch": 0.799936, + "grad_norm": 1.0049443244934082, + "learning_rate": 1.4667093333333335e-05, + "loss": 0.008, + "step": 124990 + }, + { + "epoch": 0.799968, + "grad_norm": 0.17516478896141052, + "learning_rate": 1.466688e-05, + "loss": 0.0045, + "step": 124995 + }, + { + "epoch": 0.8, + "grad_norm": 0.512626588344574, + "learning_rate": 1.4666666666666666e-05, + "loss": 0.0145, + "step": 125000 + }, + { + "epoch": 0.800032, + "grad_norm": 2.7053658962249756, + "learning_rate": 1.4666453333333336e-05, + "loss": 0.007, + "step": 125005 + }, + { + "epoch": 0.800064, + "grad_norm": 0.07462748140096664, + "learning_rate": 1.466624e-05, + "loss": 0.0039, + "step": 125010 + }, + { + "epoch": 0.800096, + "grad_norm": 0.5393498539924622, + "learning_rate": 1.4666026666666669e-05, + "loss": 0.0046, + "step": 125015 + }, + { + "epoch": 0.800128, + "grad_norm": 0.8452976942062378, + "learning_rate": 1.4665813333333335e-05, + "loss": 0.0072, + "step": 125020 + }, + { + "epoch": 0.80016, + "grad_norm": 0.007068864069879055, + "learning_rate": 1.4665600000000002e-05, + "loss": 0.0168, + "step": 125025 + }, + { + "epoch": 0.800192, + "grad_norm": 1.2139198780059814, + "learning_rate": 1.4665386666666668e-05, + "loss": 0.0069, + "step": 125030 + }, + { + "epoch": 0.800224, + "grad_norm": 0.0081852488219738, + "learning_rate": 1.4665173333333334e-05, + "loss": 0.0085, + "step": 125035 + }, + { + "epoch": 0.800256, + "grad_norm": 0.654568076133728, + "learning_rate": 1.4664960000000002e-05, + "loss": 0.0163, + "step": 125040 + }, + { + "epoch": 0.800288, + "grad_norm": 0.559396505355835, + "learning_rate": 1.4664746666666667e-05, + "loss": 0.009, + "step": 125045 + }, + { + "epoch": 0.80032, + "grad_norm": 0.19675350189208984, + "learning_rate": 1.4664533333333335e-05, + "loss": 0.0135, + "step": 125050 + }, + { + "epoch": 0.800352, + "grad_norm": 0.37393829226493835, + "learning_rate": 1.4664320000000001e-05, + "loss": 0.0094, + "step": 125055 + }, + { + "epoch": 0.800384, + "grad_norm": 1.055911660194397, + "learning_rate": 1.4664106666666668e-05, + "loss": 0.0061, + "step": 125060 + }, + { + "epoch": 0.800416, + "grad_norm": 0.26481732726097107, + "learning_rate": 1.4663893333333334e-05, + "loss": 0.0246, + "step": 125065 + }, + { + "epoch": 0.800448, + "grad_norm": 0.5573064088821411, + "learning_rate": 1.466368e-05, + "loss": 0.0074, + "step": 125070 + }, + { + "epoch": 0.80048, + "grad_norm": 0.3193967342376709, + "learning_rate": 1.4663466666666668e-05, + "loss": 0.0049, + "step": 125075 + }, + { + "epoch": 0.800512, + "grad_norm": 0.8048914074897766, + "learning_rate": 1.4663253333333334e-05, + "loss": 0.006, + "step": 125080 + }, + { + "epoch": 0.800544, + "grad_norm": 0.7916803956031799, + "learning_rate": 1.4663040000000001e-05, + "loss": 0.0088, + "step": 125085 + }, + { + "epoch": 0.800576, + "grad_norm": 0.6117123961448669, + "learning_rate": 1.4662826666666667e-05, + "loss": 0.0152, + "step": 125090 + }, + { + "epoch": 0.800608, + "grad_norm": 0.29085567593574524, + "learning_rate": 1.4662613333333335e-05, + "loss": 0.0118, + "step": 125095 + }, + { + "epoch": 0.80064, + "grad_norm": 0.8318355679512024, + "learning_rate": 1.46624e-05, + "loss": 0.0122, + "step": 125100 + }, + { + "epoch": 0.800672, + "grad_norm": 0.08863469958305359, + "learning_rate": 1.4662186666666666e-05, + "loss": 0.012, + "step": 125105 + }, + { + "epoch": 0.800704, + "grad_norm": 1.3467614650726318, + "learning_rate": 1.4661973333333336e-05, + "loss": 0.0065, + "step": 125110 + }, + { + "epoch": 0.800736, + "grad_norm": 0.3371219038963318, + "learning_rate": 1.466176e-05, + "loss": 0.0057, + "step": 125115 + }, + { + "epoch": 0.800768, + "grad_norm": 0.0885530337691307, + "learning_rate": 1.4661546666666669e-05, + "loss": 0.0063, + "step": 125120 + }, + { + "epoch": 0.8008, + "grad_norm": 0.09669782221317291, + "learning_rate": 1.4661333333333335e-05, + "loss": 0.0186, + "step": 125125 + }, + { + "epoch": 0.800832, + "grad_norm": 0.13792411983013153, + "learning_rate": 1.4661120000000002e-05, + "loss": 0.0084, + "step": 125130 + }, + { + "epoch": 0.800864, + "grad_norm": 0.2739979326725006, + "learning_rate": 1.4660906666666668e-05, + "loss": 0.0077, + "step": 125135 + }, + { + "epoch": 0.800896, + "grad_norm": 0.6859709620475769, + "learning_rate": 1.4660693333333334e-05, + "loss": 0.014, + "step": 125140 + }, + { + "epoch": 0.800928, + "grad_norm": 0.8098836541175842, + "learning_rate": 1.4660480000000002e-05, + "loss": 0.008, + "step": 125145 + }, + { + "epoch": 0.80096, + "grad_norm": 0.08262483030557632, + "learning_rate": 1.4660266666666667e-05, + "loss": 0.0077, + "step": 125150 + }, + { + "epoch": 0.800992, + "grad_norm": 0.14184007048606873, + "learning_rate": 1.4660053333333335e-05, + "loss": 0.0094, + "step": 125155 + }, + { + "epoch": 0.801024, + "grad_norm": 0.30628344416618347, + "learning_rate": 1.4659840000000001e-05, + "loss": 0.0053, + "step": 125160 + }, + { + "epoch": 0.801056, + "grad_norm": 0.31562983989715576, + "learning_rate": 1.4659626666666668e-05, + "loss": 0.0029, + "step": 125165 + }, + { + "epoch": 0.801088, + "grad_norm": 0.7693265676498413, + "learning_rate": 1.4659413333333334e-05, + "loss": 0.0239, + "step": 125170 + }, + { + "epoch": 0.80112, + "grad_norm": 0.5585567951202393, + "learning_rate": 1.46592e-05, + "loss": 0.0163, + "step": 125175 + }, + { + "epoch": 0.801152, + "grad_norm": 0.34851551055908203, + "learning_rate": 1.4658986666666668e-05, + "loss": 0.0026, + "step": 125180 + }, + { + "epoch": 0.801184, + "grad_norm": 0.46459534764289856, + "learning_rate": 1.4658773333333334e-05, + "loss": 0.0124, + "step": 125185 + }, + { + "epoch": 0.801216, + "grad_norm": 0.5152775645256042, + "learning_rate": 1.4658560000000001e-05, + "loss": 0.0074, + "step": 125190 + }, + { + "epoch": 0.801248, + "grad_norm": 0.2841521203517914, + "learning_rate": 1.4658346666666667e-05, + "loss": 0.017, + "step": 125195 + }, + { + "epoch": 0.80128, + "grad_norm": 0.44279149174690247, + "learning_rate": 1.4658133333333335e-05, + "loss": 0.0195, + "step": 125200 + }, + { + "epoch": 0.801312, + "grad_norm": 1.053335428237915, + "learning_rate": 1.465792e-05, + "loss": 0.0127, + "step": 125205 + }, + { + "epoch": 0.801344, + "grad_norm": 0.03260437399148941, + "learning_rate": 1.465770666666667e-05, + "loss": 0.0047, + "step": 125210 + }, + { + "epoch": 0.801376, + "grad_norm": 0.10968049615621567, + "learning_rate": 1.4657493333333334e-05, + "loss": 0.0058, + "step": 125215 + }, + { + "epoch": 0.801408, + "grad_norm": 0.5540378093719482, + "learning_rate": 1.465728e-05, + "loss": 0.0281, + "step": 125220 + }, + { + "epoch": 0.80144, + "grad_norm": 0.0493319034576416, + "learning_rate": 1.4657066666666669e-05, + "loss": 0.0041, + "step": 125225 + }, + { + "epoch": 0.801472, + "grad_norm": 2.3146395683288574, + "learning_rate": 1.4656853333333335e-05, + "loss": 0.0071, + "step": 125230 + }, + { + "epoch": 0.801504, + "grad_norm": 4.80467414855957, + "learning_rate": 1.4656640000000002e-05, + "loss": 0.0269, + "step": 125235 + }, + { + "epoch": 0.801536, + "grad_norm": 0.027467627078294754, + "learning_rate": 1.4656426666666668e-05, + "loss": 0.0121, + "step": 125240 + }, + { + "epoch": 0.801568, + "grad_norm": 0.31473013758659363, + "learning_rate": 1.4656213333333336e-05, + "loss": 0.0097, + "step": 125245 + }, + { + "epoch": 0.8016, + "grad_norm": 0.08572563529014587, + "learning_rate": 1.4656000000000002e-05, + "loss": 0.0116, + "step": 125250 + }, + { + "epoch": 0.801632, + "grad_norm": 0.01245473325252533, + "learning_rate": 1.4655786666666668e-05, + "loss": 0.0061, + "step": 125255 + }, + { + "epoch": 0.801664, + "grad_norm": 0.1219170019030571, + "learning_rate": 1.4655573333333335e-05, + "loss": 0.0075, + "step": 125260 + }, + { + "epoch": 0.801696, + "grad_norm": 0.1536017656326294, + "learning_rate": 1.4655360000000001e-05, + "loss": 0.0052, + "step": 125265 + }, + { + "epoch": 0.801728, + "grad_norm": 0.6617820858955383, + "learning_rate": 1.4655146666666668e-05, + "loss": 0.0073, + "step": 125270 + }, + { + "epoch": 0.80176, + "grad_norm": 0.056494276970624924, + "learning_rate": 1.4654933333333334e-05, + "loss": 0.01, + "step": 125275 + }, + { + "epoch": 0.801792, + "grad_norm": 0.05941106751561165, + "learning_rate": 1.4654720000000002e-05, + "loss": 0.0051, + "step": 125280 + }, + { + "epoch": 0.801824, + "grad_norm": 0.29287955164909363, + "learning_rate": 1.4654506666666668e-05, + "loss": 0.0137, + "step": 125285 + }, + { + "epoch": 0.801856, + "grad_norm": 0.10596362501382828, + "learning_rate": 1.4654293333333334e-05, + "loss": 0.008, + "step": 125290 + }, + { + "epoch": 0.801888, + "grad_norm": 0.6507917642593384, + "learning_rate": 1.4654080000000001e-05, + "loss": 0.0107, + "step": 125295 + }, + { + "epoch": 0.80192, + "grad_norm": 0.18894697725772858, + "learning_rate": 1.4653866666666667e-05, + "loss": 0.0111, + "step": 125300 + }, + { + "epoch": 0.801952, + "grad_norm": 0.7260088920593262, + "learning_rate": 1.4653653333333335e-05, + "loss": 0.0093, + "step": 125305 + }, + { + "epoch": 0.801984, + "grad_norm": 0.3153460919857025, + "learning_rate": 1.465344e-05, + "loss": 0.0236, + "step": 125310 + }, + { + "epoch": 0.802016, + "grad_norm": 1.0265730619430542, + "learning_rate": 1.465322666666667e-05, + "loss": 0.0067, + "step": 125315 + }, + { + "epoch": 0.802048, + "grad_norm": 0.34270212054252625, + "learning_rate": 1.4653013333333334e-05, + "loss": 0.0079, + "step": 125320 + }, + { + "epoch": 0.80208, + "grad_norm": 0.574104905128479, + "learning_rate": 1.46528e-05, + "loss": 0.0137, + "step": 125325 + }, + { + "epoch": 0.802112, + "grad_norm": 0.23526085913181305, + "learning_rate": 1.4652586666666669e-05, + "loss": 0.0068, + "step": 125330 + }, + { + "epoch": 0.802144, + "grad_norm": 0.3003552258014679, + "learning_rate": 1.4652373333333335e-05, + "loss": 0.0061, + "step": 125335 + }, + { + "epoch": 0.802176, + "grad_norm": 0.11656089872121811, + "learning_rate": 1.4652160000000002e-05, + "loss": 0.0083, + "step": 125340 + }, + { + "epoch": 0.802208, + "grad_norm": 0.030037350952625275, + "learning_rate": 1.4651946666666668e-05, + "loss": 0.0083, + "step": 125345 + }, + { + "epoch": 0.80224, + "grad_norm": 0.05963398888707161, + "learning_rate": 1.4651733333333336e-05, + "loss": 0.0082, + "step": 125350 + }, + { + "epoch": 0.802272, + "grad_norm": 1.0184507369995117, + "learning_rate": 1.4651520000000002e-05, + "loss": 0.0201, + "step": 125355 + }, + { + "epoch": 0.802304, + "grad_norm": 0.6733976602554321, + "learning_rate": 1.4651306666666668e-05, + "loss": 0.0157, + "step": 125360 + }, + { + "epoch": 0.802336, + "grad_norm": 0.7849221229553223, + "learning_rate": 1.4651093333333335e-05, + "loss": 0.0055, + "step": 125365 + }, + { + "epoch": 0.802368, + "grad_norm": 0.4398824870586395, + "learning_rate": 1.4650880000000001e-05, + "loss": 0.0082, + "step": 125370 + }, + { + "epoch": 0.8024, + "grad_norm": 0.08335700631141663, + "learning_rate": 1.4650666666666668e-05, + "loss": 0.0044, + "step": 125375 + }, + { + "epoch": 0.802432, + "grad_norm": 0.5648384094238281, + "learning_rate": 1.4650453333333334e-05, + "loss": 0.0091, + "step": 125380 + }, + { + "epoch": 0.802464, + "grad_norm": 0.7480499148368835, + "learning_rate": 1.4650240000000002e-05, + "loss": 0.005, + "step": 125385 + }, + { + "epoch": 0.802496, + "grad_norm": 1.2343945503234863, + "learning_rate": 1.4650026666666668e-05, + "loss": 0.0112, + "step": 125390 + }, + { + "epoch": 0.802528, + "grad_norm": 1.3901530504226685, + "learning_rate": 1.4649813333333334e-05, + "loss": 0.0071, + "step": 125395 + }, + { + "epoch": 0.80256, + "grad_norm": 0.8205937743186951, + "learning_rate": 1.4649600000000001e-05, + "loss": 0.0167, + "step": 125400 + }, + { + "epoch": 0.802592, + "grad_norm": 0.1580926477909088, + "learning_rate": 1.4649386666666667e-05, + "loss": 0.0129, + "step": 125405 + }, + { + "epoch": 0.802624, + "grad_norm": 1.628305196762085, + "learning_rate": 1.4649173333333335e-05, + "loss": 0.0273, + "step": 125410 + }, + { + "epoch": 0.802656, + "grad_norm": 0.3212743401527405, + "learning_rate": 1.464896e-05, + "loss": 0.0079, + "step": 125415 + }, + { + "epoch": 0.802688, + "grad_norm": 0.7575201392173767, + "learning_rate": 1.464874666666667e-05, + "loss": 0.0119, + "step": 125420 + }, + { + "epoch": 0.80272, + "grad_norm": 1.0290855169296265, + "learning_rate": 1.4648533333333334e-05, + "loss": 0.0098, + "step": 125425 + }, + { + "epoch": 0.802752, + "grad_norm": 0.1087140366435051, + "learning_rate": 1.464832e-05, + "loss": 0.0124, + "step": 125430 + }, + { + "epoch": 0.802784, + "grad_norm": 0.6311575174331665, + "learning_rate": 1.4648106666666669e-05, + "loss": 0.0281, + "step": 125435 + }, + { + "epoch": 0.802816, + "grad_norm": 0.3369970917701721, + "learning_rate": 1.4647893333333333e-05, + "loss": 0.0206, + "step": 125440 + }, + { + "epoch": 0.802848, + "grad_norm": 1.0357288122177124, + "learning_rate": 1.4647680000000002e-05, + "loss": 0.013, + "step": 125445 + }, + { + "epoch": 0.80288, + "grad_norm": 0.6591534614562988, + "learning_rate": 1.4647466666666668e-05, + "loss": 0.0121, + "step": 125450 + }, + { + "epoch": 0.802912, + "grad_norm": 0.21021661162376404, + "learning_rate": 1.4647253333333336e-05, + "loss": 0.0033, + "step": 125455 + }, + { + "epoch": 0.802944, + "grad_norm": 0.5166399478912354, + "learning_rate": 1.4647040000000002e-05, + "loss": 0.0044, + "step": 125460 + }, + { + "epoch": 0.802976, + "grad_norm": 0.05112697556614876, + "learning_rate": 1.4646826666666668e-05, + "loss": 0.0102, + "step": 125465 + }, + { + "epoch": 0.803008, + "grad_norm": 0.4187803864479065, + "learning_rate": 1.4646613333333335e-05, + "loss": 0.01, + "step": 125470 + }, + { + "epoch": 0.80304, + "grad_norm": 0.051382776349782944, + "learning_rate": 1.4646400000000001e-05, + "loss": 0.0045, + "step": 125475 + }, + { + "epoch": 0.803072, + "grad_norm": 0.7091941237449646, + "learning_rate": 1.4646186666666668e-05, + "loss": 0.0129, + "step": 125480 + }, + { + "epoch": 0.803104, + "grad_norm": 0.14645224809646606, + "learning_rate": 1.4645973333333334e-05, + "loss": 0.0134, + "step": 125485 + }, + { + "epoch": 0.803136, + "grad_norm": 0.6356995105743408, + "learning_rate": 1.4645760000000002e-05, + "loss": 0.0201, + "step": 125490 + }, + { + "epoch": 0.803168, + "grad_norm": 0.2648305892944336, + "learning_rate": 1.4645546666666668e-05, + "loss": 0.0178, + "step": 125495 + }, + { + "epoch": 0.8032, + "grad_norm": 1.066030502319336, + "learning_rate": 1.4645333333333334e-05, + "loss": 0.0069, + "step": 125500 + }, + { + "epoch": 0.803232, + "grad_norm": 0.23359327018260956, + "learning_rate": 1.4645120000000001e-05, + "loss": 0.0134, + "step": 125505 + }, + { + "epoch": 0.803264, + "grad_norm": 0.46264809370040894, + "learning_rate": 1.4644906666666667e-05, + "loss": 0.0084, + "step": 125510 + }, + { + "epoch": 0.803296, + "grad_norm": 0.8507815599441528, + "learning_rate": 1.4644693333333335e-05, + "loss": 0.017, + "step": 125515 + }, + { + "epoch": 0.803328, + "grad_norm": 0.7565451860427856, + "learning_rate": 1.464448e-05, + "loss": 0.007, + "step": 125520 + }, + { + "epoch": 0.80336, + "grad_norm": 0.05343392491340637, + "learning_rate": 1.464426666666667e-05, + "loss": 0.0073, + "step": 125525 + }, + { + "epoch": 0.803392, + "grad_norm": 0.5303704738616943, + "learning_rate": 1.4644053333333334e-05, + "loss": 0.0111, + "step": 125530 + }, + { + "epoch": 0.803424, + "grad_norm": 1.0486797094345093, + "learning_rate": 1.464384e-05, + "loss": 0.0084, + "step": 125535 + }, + { + "epoch": 0.803456, + "grad_norm": 0.985651433467865, + "learning_rate": 1.4643626666666669e-05, + "loss": 0.0036, + "step": 125540 + }, + { + "epoch": 0.803488, + "grad_norm": 0.6018611192703247, + "learning_rate": 1.4643413333333333e-05, + "loss": 0.0113, + "step": 125545 + }, + { + "epoch": 0.80352, + "grad_norm": 2.4563395977020264, + "learning_rate": 1.4643200000000002e-05, + "loss": 0.0181, + "step": 125550 + }, + { + "epoch": 0.803552, + "grad_norm": 0.23627689480781555, + "learning_rate": 1.4642986666666668e-05, + "loss": 0.0027, + "step": 125555 + }, + { + "epoch": 0.803584, + "grad_norm": 0.1212281733751297, + "learning_rate": 1.4642773333333336e-05, + "loss": 0.0044, + "step": 125560 + }, + { + "epoch": 0.803616, + "grad_norm": 0.7277039885520935, + "learning_rate": 1.4642560000000002e-05, + "loss": 0.0154, + "step": 125565 + }, + { + "epoch": 0.803648, + "grad_norm": 0.10477804392576218, + "learning_rate": 1.4642346666666668e-05, + "loss": 0.0047, + "step": 125570 + }, + { + "epoch": 0.80368, + "grad_norm": 0.32220566272735596, + "learning_rate": 1.4642133333333335e-05, + "loss": 0.0137, + "step": 125575 + }, + { + "epoch": 0.803712, + "grad_norm": 0.10471275448799133, + "learning_rate": 1.4641920000000001e-05, + "loss": 0.0052, + "step": 125580 + }, + { + "epoch": 0.803744, + "grad_norm": 0.04910385236144066, + "learning_rate": 1.4641706666666668e-05, + "loss": 0.0084, + "step": 125585 + }, + { + "epoch": 0.803776, + "grad_norm": 0.16833095252513885, + "learning_rate": 1.4641493333333334e-05, + "loss": 0.0051, + "step": 125590 + }, + { + "epoch": 0.803808, + "grad_norm": 0.7287998795509338, + "learning_rate": 1.4641280000000002e-05, + "loss": 0.0086, + "step": 125595 + }, + { + "epoch": 0.80384, + "grad_norm": 1.1781260967254639, + "learning_rate": 1.4641066666666668e-05, + "loss": 0.005, + "step": 125600 + }, + { + "epoch": 0.803872, + "grad_norm": 1.2041590213775635, + "learning_rate": 1.4640853333333334e-05, + "loss": 0.0072, + "step": 125605 + }, + { + "epoch": 0.803904, + "grad_norm": 0.1838068664073944, + "learning_rate": 1.4640640000000001e-05, + "loss": 0.0053, + "step": 125610 + }, + { + "epoch": 0.803936, + "grad_norm": 0.4268443286418915, + "learning_rate": 1.4640426666666667e-05, + "loss": 0.0106, + "step": 125615 + }, + { + "epoch": 0.803968, + "grad_norm": 0.059437498450279236, + "learning_rate": 1.4640213333333335e-05, + "loss": 0.0073, + "step": 125620 + }, + { + "epoch": 0.804, + "grad_norm": 0.2758597731590271, + "learning_rate": 1.464e-05, + "loss": 0.0072, + "step": 125625 + }, + { + "epoch": 0.804032, + "grad_norm": 0.09577172249555588, + "learning_rate": 1.4639786666666668e-05, + "loss": 0.0043, + "step": 125630 + }, + { + "epoch": 0.804064, + "grad_norm": 4.862517356872559, + "learning_rate": 1.4639573333333334e-05, + "loss": 0.0144, + "step": 125635 + }, + { + "epoch": 0.804096, + "grad_norm": 0.5060433149337769, + "learning_rate": 1.463936e-05, + "loss": 0.0087, + "step": 125640 + }, + { + "epoch": 0.804128, + "grad_norm": 0.5883422493934631, + "learning_rate": 1.4639146666666669e-05, + "loss": 0.0107, + "step": 125645 + }, + { + "epoch": 0.80416, + "grad_norm": 0.15583182871341705, + "learning_rate": 1.4638933333333333e-05, + "loss": 0.0093, + "step": 125650 + }, + { + "epoch": 0.804192, + "grad_norm": 0.4214547276496887, + "learning_rate": 1.4638720000000002e-05, + "loss": 0.0045, + "step": 125655 + }, + { + "epoch": 0.804224, + "grad_norm": 0.9530295133590698, + "learning_rate": 1.4638506666666668e-05, + "loss": 0.0103, + "step": 125660 + }, + { + "epoch": 0.804256, + "grad_norm": 0.30307868123054504, + "learning_rate": 1.4638293333333336e-05, + "loss": 0.0031, + "step": 125665 + }, + { + "epoch": 0.804288, + "grad_norm": 0.8729022145271301, + "learning_rate": 1.4638080000000002e-05, + "loss": 0.0173, + "step": 125670 + }, + { + "epoch": 0.80432, + "grad_norm": 0.060378074645996094, + "learning_rate": 1.4637866666666668e-05, + "loss": 0.0058, + "step": 125675 + }, + { + "epoch": 0.804352, + "grad_norm": 0.18521076440811157, + "learning_rate": 1.4637653333333335e-05, + "loss": 0.0064, + "step": 125680 + }, + { + "epoch": 0.804384, + "grad_norm": 0.08549471199512482, + "learning_rate": 1.4637440000000001e-05, + "loss": 0.0173, + "step": 125685 + }, + { + "epoch": 0.804416, + "grad_norm": 0.2383609414100647, + "learning_rate": 1.4637226666666668e-05, + "loss": 0.016, + "step": 125690 + }, + { + "epoch": 0.804448, + "grad_norm": 0.6606101393699646, + "learning_rate": 1.4637013333333334e-05, + "loss": 0.0148, + "step": 125695 + }, + { + "epoch": 0.80448, + "grad_norm": 0.3110022246837616, + "learning_rate": 1.4636800000000002e-05, + "loss": 0.0104, + "step": 125700 + }, + { + "epoch": 0.804512, + "grad_norm": 0.4451041519641876, + "learning_rate": 1.4636586666666668e-05, + "loss": 0.005, + "step": 125705 + }, + { + "epoch": 0.804544, + "grad_norm": 0.5746009349822998, + "learning_rate": 1.4636373333333334e-05, + "loss": 0.0052, + "step": 125710 + }, + { + "epoch": 0.804576, + "grad_norm": 0.054635848850011826, + "learning_rate": 1.4636160000000001e-05, + "loss": 0.0056, + "step": 125715 + }, + { + "epoch": 0.804608, + "grad_norm": 0.24096985161304474, + "learning_rate": 1.4635946666666667e-05, + "loss": 0.0135, + "step": 125720 + }, + { + "epoch": 0.80464, + "grad_norm": 0.059466201812028885, + "learning_rate": 1.4635733333333335e-05, + "loss": 0.0092, + "step": 125725 + }, + { + "epoch": 0.804672, + "grad_norm": 0.5389317870140076, + "learning_rate": 1.463552e-05, + "loss": 0.0174, + "step": 125730 + }, + { + "epoch": 0.804704, + "grad_norm": 0.16506452858448029, + "learning_rate": 1.4635306666666668e-05, + "loss": 0.0121, + "step": 125735 + }, + { + "epoch": 0.804736, + "grad_norm": 0.9915642738342285, + "learning_rate": 1.4635093333333334e-05, + "loss": 0.0097, + "step": 125740 + }, + { + "epoch": 0.804768, + "grad_norm": 0.03752894327044487, + "learning_rate": 1.463488e-05, + "loss": 0.0058, + "step": 125745 + }, + { + "epoch": 0.8048, + "grad_norm": 0.06607065349817276, + "learning_rate": 1.4634666666666669e-05, + "loss": 0.0092, + "step": 125750 + }, + { + "epoch": 0.804832, + "grad_norm": 0.2638905644416809, + "learning_rate": 1.4634453333333333e-05, + "loss": 0.0091, + "step": 125755 + }, + { + "epoch": 0.804864, + "grad_norm": 0.16218236088752747, + "learning_rate": 1.4634240000000002e-05, + "loss": 0.0028, + "step": 125760 + }, + { + "epoch": 0.804896, + "grad_norm": 0.045953284949064255, + "learning_rate": 1.4634026666666668e-05, + "loss": 0.0106, + "step": 125765 + }, + { + "epoch": 0.804928, + "grad_norm": 0.6747598052024841, + "learning_rate": 1.4633813333333336e-05, + "loss": 0.0042, + "step": 125770 + }, + { + "epoch": 0.80496, + "grad_norm": 1.1030364036560059, + "learning_rate": 1.4633600000000002e-05, + "loss": 0.0116, + "step": 125775 + }, + { + "epoch": 0.804992, + "grad_norm": 0.4681347608566284, + "learning_rate": 1.4633386666666668e-05, + "loss": 0.0082, + "step": 125780 + }, + { + "epoch": 0.805024, + "grad_norm": 0.7743037343025208, + "learning_rate": 1.4633173333333335e-05, + "loss": 0.0078, + "step": 125785 + }, + { + "epoch": 0.805056, + "grad_norm": 0.33049699664115906, + "learning_rate": 1.4632960000000001e-05, + "loss": 0.0085, + "step": 125790 + }, + { + "epoch": 0.805088, + "grad_norm": 0.23463959991931915, + "learning_rate": 1.4632746666666668e-05, + "loss": 0.0076, + "step": 125795 + }, + { + "epoch": 0.80512, + "grad_norm": 0.4697454869747162, + "learning_rate": 1.4632533333333334e-05, + "loss": 0.0074, + "step": 125800 + }, + { + "epoch": 0.805152, + "grad_norm": 0.03731554001569748, + "learning_rate": 1.4632320000000002e-05, + "loss": 0.0091, + "step": 125805 + }, + { + "epoch": 0.805184, + "grad_norm": 1.2641606330871582, + "learning_rate": 1.4632106666666668e-05, + "loss": 0.0074, + "step": 125810 + }, + { + "epoch": 0.805216, + "grad_norm": 0.03961125761270523, + "learning_rate": 1.4631893333333334e-05, + "loss": 0.0045, + "step": 125815 + }, + { + "epoch": 0.805248, + "grad_norm": 0.7158309817314148, + "learning_rate": 1.4631680000000001e-05, + "loss": 0.0102, + "step": 125820 + }, + { + "epoch": 0.80528, + "grad_norm": 0.23783142864704132, + "learning_rate": 1.4631466666666667e-05, + "loss": 0.0077, + "step": 125825 + }, + { + "epoch": 0.805312, + "grad_norm": 0.5348703265190125, + "learning_rate": 1.4631253333333335e-05, + "loss": 0.0047, + "step": 125830 + }, + { + "epoch": 0.805344, + "grad_norm": 0.512703537940979, + "learning_rate": 1.463104e-05, + "loss": 0.0086, + "step": 125835 + }, + { + "epoch": 0.805376, + "grad_norm": 0.7460846304893494, + "learning_rate": 1.4630826666666668e-05, + "loss": 0.0169, + "step": 125840 + }, + { + "epoch": 0.805408, + "grad_norm": 0.09820689260959625, + "learning_rate": 1.4630613333333334e-05, + "loss": 0.0074, + "step": 125845 + }, + { + "epoch": 0.80544, + "grad_norm": 1.4432646036148071, + "learning_rate": 1.46304e-05, + "loss": 0.0044, + "step": 125850 + }, + { + "epoch": 0.805472, + "grad_norm": 0.6646546125411987, + "learning_rate": 1.4630186666666667e-05, + "loss": 0.0066, + "step": 125855 + }, + { + "epoch": 0.805504, + "grad_norm": 0.7345500588417053, + "learning_rate": 1.4629973333333333e-05, + "loss": 0.0075, + "step": 125860 + }, + { + "epoch": 0.805536, + "grad_norm": 0.06923260539770126, + "learning_rate": 1.4629760000000002e-05, + "loss": 0.0047, + "step": 125865 + }, + { + "epoch": 0.805568, + "grad_norm": 0.12287948280572891, + "learning_rate": 1.4629546666666668e-05, + "loss": 0.0119, + "step": 125870 + }, + { + "epoch": 0.8056, + "grad_norm": 1.1964796781539917, + "learning_rate": 1.4629333333333336e-05, + "loss": 0.0049, + "step": 125875 + }, + { + "epoch": 0.805632, + "grad_norm": 1.0959746837615967, + "learning_rate": 1.4629120000000002e-05, + "loss": 0.0125, + "step": 125880 + }, + { + "epoch": 0.805664, + "grad_norm": 0.37542492151260376, + "learning_rate": 1.4628906666666668e-05, + "loss": 0.002, + "step": 125885 + }, + { + "epoch": 0.805696, + "grad_norm": 1.040946125984192, + "learning_rate": 1.4628693333333335e-05, + "loss": 0.0056, + "step": 125890 + }, + { + "epoch": 0.805728, + "grad_norm": 0.05951547995209694, + "learning_rate": 1.4628480000000001e-05, + "loss": 0.0046, + "step": 125895 + }, + { + "epoch": 0.80576, + "grad_norm": 0.23304259777069092, + "learning_rate": 1.4628266666666668e-05, + "loss": 0.0085, + "step": 125900 + }, + { + "epoch": 0.805792, + "grad_norm": 0.13709159195423126, + "learning_rate": 1.4628053333333334e-05, + "loss": 0.0069, + "step": 125905 + }, + { + "epoch": 0.805824, + "grad_norm": 1.6973809003829956, + "learning_rate": 1.4627840000000002e-05, + "loss": 0.0162, + "step": 125910 + }, + { + "epoch": 0.805856, + "grad_norm": 0.8965812921524048, + "learning_rate": 1.4627626666666668e-05, + "loss": 0.0158, + "step": 125915 + }, + { + "epoch": 0.805888, + "grad_norm": 1.6526126861572266, + "learning_rate": 1.4627413333333334e-05, + "loss": 0.0138, + "step": 125920 + }, + { + "epoch": 0.80592, + "grad_norm": 0.5462361574172974, + "learning_rate": 1.4627200000000001e-05, + "loss": 0.0059, + "step": 125925 + }, + { + "epoch": 0.805952, + "grad_norm": 0.3139679431915283, + "learning_rate": 1.4626986666666667e-05, + "loss": 0.0055, + "step": 125930 + }, + { + "epoch": 0.805984, + "grad_norm": 0.027467738837003708, + "learning_rate": 1.4626773333333335e-05, + "loss": 0.0049, + "step": 125935 + }, + { + "epoch": 0.806016, + "grad_norm": 0.07466310262680054, + "learning_rate": 1.462656e-05, + "loss": 0.0061, + "step": 125940 + }, + { + "epoch": 0.806048, + "grad_norm": 0.6799339056015015, + "learning_rate": 1.4626346666666668e-05, + "loss": 0.0072, + "step": 125945 + }, + { + "epoch": 0.80608, + "grad_norm": 0.3215000033378601, + "learning_rate": 1.4626133333333334e-05, + "loss": 0.0146, + "step": 125950 + }, + { + "epoch": 0.806112, + "grad_norm": 0.17123308777809143, + "learning_rate": 1.462592e-05, + "loss": 0.0094, + "step": 125955 + }, + { + "epoch": 0.806144, + "grad_norm": 0.8391760587692261, + "learning_rate": 1.4625706666666667e-05, + "loss": 0.0216, + "step": 125960 + }, + { + "epoch": 0.806176, + "grad_norm": 0.10796055942773819, + "learning_rate": 1.4625493333333333e-05, + "loss": 0.0151, + "step": 125965 + }, + { + "epoch": 0.806208, + "grad_norm": 0.5774492621421814, + "learning_rate": 1.4625280000000002e-05, + "loss": 0.0088, + "step": 125970 + }, + { + "epoch": 0.80624, + "grad_norm": 0.843250572681427, + "learning_rate": 1.4625066666666668e-05, + "loss": 0.0087, + "step": 125975 + }, + { + "epoch": 0.806272, + "grad_norm": 0.029048912227153778, + "learning_rate": 1.4624853333333336e-05, + "loss": 0.0084, + "step": 125980 + }, + { + "epoch": 0.806304, + "grad_norm": 0.7572299242019653, + "learning_rate": 1.4624640000000002e-05, + "loss": 0.0078, + "step": 125985 + }, + { + "epoch": 0.806336, + "grad_norm": 0.6310377717018127, + "learning_rate": 1.4624426666666668e-05, + "loss": 0.0084, + "step": 125990 + }, + { + "epoch": 0.806368, + "grad_norm": 0.4671410918235779, + "learning_rate": 1.4624213333333335e-05, + "loss": 0.0048, + "step": 125995 + }, + { + "epoch": 0.8064, + "grad_norm": 0.01938079670071602, + "learning_rate": 1.4624000000000001e-05, + "loss": 0.003, + "step": 126000 + }, + { + "epoch": 0.806432, + "grad_norm": 0.4382738769054413, + "learning_rate": 1.4623786666666668e-05, + "loss": 0.015, + "step": 126005 + }, + { + "epoch": 0.806464, + "grad_norm": 0.20212796330451965, + "learning_rate": 1.4623573333333334e-05, + "loss": 0.004, + "step": 126010 + }, + { + "epoch": 0.806496, + "grad_norm": 0.6256610751152039, + "learning_rate": 1.4623360000000002e-05, + "loss": 0.0159, + "step": 126015 + }, + { + "epoch": 0.806528, + "grad_norm": 1.1063191890716553, + "learning_rate": 1.4623146666666668e-05, + "loss": 0.01, + "step": 126020 + }, + { + "epoch": 0.80656, + "grad_norm": 1.722838282585144, + "learning_rate": 1.4622933333333334e-05, + "loss": 0.0142, + "step": 126025 + }, + { + "epoch": 0.806592, + "grad_norm": 0.34415191411972046, + "learning_rate": 1.4622720000000001e-05, + "loss": 0.0138, + "step": 126030 + }, + { + "epoch": 0.806624, + "grad_norm": 0.3358726501464844, + "learning_rate": 1.4622506666666667e-05, + "loss": 0.0071, + "step": 126035 + }, + { + "epoch": 0.806656, + "grad_norm": 0.7250128388404846, + "learning_rate": 1.4622293333333335e-05, + "loss": 0.0052, + "step": 126040 + }, + { + "epoch": 0.806688, + "grad_norm": 0.021119266748428345, + "learning_rate": 1.462208e-05, + "loss": 0.0214, + "step": 126045 + }, + { + "epoch": 0.80672, + "grad_norm": 1.7584818601608276, + "learning_rate": 1.4621866666666668e-05, + "loss": 0.0038, + "step": 126050 + }, + { + "epoch": 0.806752, + "grad_norm": 0.7806306481361389, + "learning_rate": 1.4621653333333334e-05, + "loss": 0.0137, + "step": 126055 + }, + { + "epoch": 0.806784, + "grad_norm": 0.842060923576355, + "learning_rate": 1.4621440000000003e-05, + "loss": 0.0229, + "step": 126060 + }, + { + "epoch": 0.806816, + "grad_norm": 0.9956386685371399, + "learning_rate": 1.4621226666666667e-05, + "loss": 0.0163, + "step": 126065 + }, + { + "epoch": 0.806848, + "grad_norm": 0.39239662885665894, + "learning_rate": 1.4621013333333333e-05, + "loss": 0.0053, + "step": 126070 + }, + { + "epoch": 0.80688, + "grad_norm": 2.026517152786255, + "learning_rate": 1.4620800000000002e-05, + "loss": 0.0168, + "step": 126075 + }, + { + "epoch": 0.806912, + "grad_norm": 0.6406989693641663, + "learning_rate": 1.4620586666666667e-05, + "loss": 0.0109, + "step": 126080 + }, + { + "epoch": 0.806944, + "grad_norm": 0.6362171769142151, + "learning_rate": 1.4620373333333336e-05, + "loss": 0.0155, + "step": 126085 + }, + { + "epoch": 0.806976, + "grad_norm": 0.009506810456514359, + "learning_rate": 1.4620160000000002e-05, + "loss": 0.0061, + "step": 126090 + }, + { + "epoch": 0.807008, + "grad_norm": 0.3695026636123657, + "learning_rate": 1.461994666666667e-05, + "loss": 0.016, + "step": 126095 + }, + { + "epoch": 0.80704, + "grad_norm": 0.019342930987477303, + "learning_rate": 1.4619733333333335e-05, + "loss": 0.0048, + "step": 126100 + }, + { + "epoch": 0.807072, + "grad_norm": 0.457418829202652, + "learning_rate": 1.4619520000000001e-05, + "loss": 0.0131, + "step": 126105 + }, + { + "epoch": 0.807104, + "grad_norm": 0.4142076075077057, + "learning_rate": 1.4619306666666668e-05, + "loss": 0.0122, + "step": 126110 + }, + { + "epoch": 0.807136, + "grad_norm": 0.3179439604282379, + "learning_rate": 1.4619093333333334e-05, + "loss": 0.0073, + "step": 126115 + }, + { + "epoch": 0.807168, + "grad_norm": 0.3735954165458679, + "learning_rate": 1.4618880000000002e-05, + "loss": 0.016, + "step": 126120 + }, + { + "epoch": 0.8072, + "grad_norm": 0.5674811005592346, + "learning_rate": 1.4618666666666668e-05, + "loss": 0.0029, + "step": 126125 + }, + { + "epoch": 0.807232, + "grad_norm": 0.08985349535942078, + "learning_rate": 1.4618453333333335e-05, + "loss": 0.0162, + "step": 126130 + }, + { + "epoch": 0.807264, + "grad_norm": 0.6436342000961304, + "learning_rate": 1.4618240000000001e-05, + "loss": 0.0157, + "step": 126135 + }, + { + "epoch": 0.807296, + "grad_norm": 0.6955150365829468, + "learning_rate": 1.4618026666666667e-05, + "loss": 0.0135, + "step": 126140 + }, + { + "epoch": 0.807328, + "grad_norm": 0.22400213778018951, + "learning_rate": 1.4617813333333335e-05, + "loss": 0.004, + "step": 126145 + }, + { + "epoch": 0.80736, + "grad_norm": 0.4480242133140564, + "learning_rate": 1.46176e-05, + "loss": 0.011, + "step": 126150 + }, + { + "epoch": 0.807392, + "grad_norm": 0.7327030301094055, + "learning_rate": 1.4617386666666668e-05, + "loss": 0.0105, + "step": 126155 + }, + { + "epoch": 0.807424, + "grad_norm": 0.23672626912593842, + "learning_rate": 1.4617173333333334e-05, + "loss": 0.0137, + "step": 126160 + }, + { + "epoch": 0.807456, + "grad_norm": 1.276731252670288, + "learning_rate": 1.4616960000000001e-05, + "loss": 0.011, + "step": 126165 + }, + { + "epoch": 0.807488, + "grad_norm": 0.05402921885251999, + "learning_rate": 1.4616746666666667e-05, + "loss": 0.0075, + "step": 126170 + }, + { + "epoch": 0.80752, + "grad_norm": 0.056192319840192795, + "learning_rate": 1.4616533333333333e-05, + "loss": 0.0055, + "step": 126175 + }, + { + "epoch": 0.807552, + "grad_norm": 1.0476138591766357, + "learning_rate": 1.4616320000000002e-05, + "loss": 0.0097, + "step": 126180 + }, + { + "epoch": 0.807584, + "grad_norm": 0.05514008551836014, + "learning_rate": 1.4616106666666667e-05, + "loss": 0.0067, + "step": 126185 + }, + { + "epoch": 0.807616, + "grad_norm": 0.7609996795654297, + "learning_rate": 1.4615893333333336e-05, + "loss": 0.0108, + "step": 126190 + }, + { + "epoch": 0.807648, + "grad_norm": 2.7800261974334717, + "learning_rate": 1.4615680000000002e-05, + "loss": 0.0098, + "step": 126195 + }, + { + "epoch": 0.80768, + "grad_norm": 0.4214347004890442, + "learning_rate": 1.461546666666667e-05, + "loss": 0.0137, + "step": 126200 + }, + { + "epoch": 0.807712, + "grad_norm": 0.37904080748558044, + "learning_rate": 1.4615253333333335e-05, + "loss": 0.0414, + "step": 126205 + }, + { + "epoch": 0.807744, + "grad_norm": 0.43898603320121765, + "learning_rate": 1.4615040000000001e-05, + "loss": 0.0062, + "step": 126210 + }, + { + "epoch": 0.807776, + "grad_norm": 0.40008842945098877, + "learning_rate": 1.4614826666666668e-05, + "loss": 0.0114, + "step": 126215 + }, + { + "epoch": 0.807808, + "grad_norm": 0.1315569430589676, + "learning_rate": 1.4614613333333334e-05, + "loss": 0.0179, + "step": 126220 + }, + { + "epoch": 0.80784, + "grad_norm": 0.7628100514411926, + "learning_rate": 1.4614400000000002e-05, + "loss": 0.0072, + "step": 126225 + }, + { + "epoch": 0.807872, + "grad_norm": 1.0462768077850342, + "learning_rate": 1.4614186666666668e-05, + "loss": 0.0054, + "step": 126230 + }, + { + "epoch": 0.807904, + "grad_norm": 0.2399269938468933, + "learning_rate": 1.4613973333333335e-05, + "loss": 0.0066, + "step": 126235 + }, + { + "epoch": 0.807936, + "grad_norm": 0.511237621307373, + "learning_rate": 1.4613760000000001e-05, + "loss": 0.0103, + "step": 126240 + }, + { + "epoch": 0.807968, + "grad_norm": 0.23601742088794708, + "learning_rate": 1.4613546666666667e-05, + "loss": 0.0026, + "step": 126245 + }, + { + "epoch": 0.808, + "grad_norm": 0.3328035771846771, + "learning_rate": 1.4613333333333335e-05, + "loss": 0.0096, + "step": 126250 + }, + { + "epoch": 0.808032, + "grad_norm": 1.2547551393508911, + "learning_rate": 1.461312e-05, + "loss": 0.0221, + "step": 126255 + }, + { + "epoch": 0.808064, + "grad_norm": 0.5751957297325134, + "learning_rate": 1.4612906666666668e-05, + "loss": 0.0063, + "step": 126260 + }, + { + "epoch": 0.808096, + "grad_norm": 0.23836831748485565, + "learning_rate": 1.4612693333333334e-05, + "loss": 0.0108, + "step": 126265 + }, + { + "epoch": 0.808128, + "grad_norm": 0.02194688655436039, + "learning_rate": 1.4612480000000001e-05, + "loss": 0.011, + "step": 126270 + }, + { + "epoch": 0.80816, + "grad_norm": 0.06363239139318466, + "learning_rate": 1.4612266666666667e-05, + "loss": 0.0031, + "step": 126275 + }, + { + "epoch": 0.808192, + "grad_norm": 0.12555184960365295, + "learning_rate": 1.4612053333333333e-05, + "loss": 0.0037, + "step": 126280 + }, + { + "epoch": 0.808224, + "grad_norm": 1.1177302598953247, + "learning_rate": 1.4611840000000002e-05, + "loss": 0.0152, + "step": 126285 + }, + { + "epoch": 0.808256, + "grad_norm": 0.12318578362464905, + "learning_rate": 1.4611626666666667e-05, + "loss": 0.0025, + "step": 126290 + }, + { + "epoch": 0.808288, + "grad_norm": 0.31902506947517395, + "learning_rate": 1.4611413333333336e-05, + "loss": 0.0061, + "step": 126295 + }, + { + "epoch": 0.80832, + "grad_norm": 1.3922582864761353, + "learning_rate": 1.4611200000000002e-05, + "loss": 0.0076, + "step": 126300 + }, + { + "epoch": 0.808352, + "grad_norm": 0.1682269126176834, + "learning_rate": 1.461098666666667e-05, + "loss": 0.006, + "step": 126305 + }, + { + "epoch": 0.808384, + "grad_norm": 1.2789950370788574, + "learning_rate": 1.4610773333333335e-05, + "loss": 0.0083, + "step": 126310 + }, + { + "epoch": 0.808416, + "grad_norm": 0.22298045456409454, + "learning_rate": 1.4610560000000001e-05, + "loss": 0.0097, + "step": 126315 + }, + { + "epoch": 0.808448, + "grad_norm": 0.1338140070438385, + "learning_rate": 1.4610346666666668e-05, + "loss": 0.013, + "step": 126320 + }, + { + "epoch": 0.80848, + "grad_norm": 0.012134348042309284, + "learning_rate": 1.4610133333333334e-05, + "loss": 0.0195, + "step": 126325 + }, + { + "epoch": 0.808512, + "grad_norm": 0.32212701439857483, + "learning_rate": 1.4609920000000002e-05, + "loss": 0.003, + "step": 126330 + }, + { + "epoch": 0.808544, + "grad_norm": 0.031104983761906624, + "learning_rate": 1.4609706666666668e-05, + "loss": 0.0056, + "step": 126335 + }, + { + "epoch": 0.808576, + "grad_norm": 0.021573979407548904, + "learning_rate": 1.4609493333333335e-05, + "loss": 0.0044, + "step": 126340 + }, + { + "epoch": 0.808608, + "grad_norm": 4.691467761993408, + "learning_rate": 1.4609280000000001e-05, + "loss": 0.0124, + "step": 126345 + }, + { + "epoch": 0.80864, + "grad_norm": 0.21832244098186493, + "learning_rate": 1.4609066666666667e-05, + "loss": 0.0041, + "step": 126350 + }, + { + "epoch": 0.808672, + "grad_norm": 1.3064613342285156, + "learning_rate": 1.4608853333333335e-05, + "loss": 0.0121, + "step": 126355 + }, + { + "epoch": 0.808704, + "grad_norm": 0.12558451294898987, + "learning_rate": 1.460864e-05, + "loss": 0.0076, + "step": 126360 + }, + { + "epoch": 0.808736, + "grad_norm": 0.046249743551015854, + "learning_rate": 1.4608426666666668e-05, + "loss": 0.0084, + "step": 126365 + }, + { + "epoch": 0.808768, + "grad_norm": 0.2470066100358963, + "learning_rate": 1.4608213333333334e-05, + "loss": 0.007, + "step": 126370 + }, + { + "epoch": 0.8088, + "grad_norm": 0.3661424219608307, + "learning_rate": 1.4608000000000001e-05, + "loss": 0.0116, + "step": 126375 + }, + { + "epoch": 0.808832, + "grad_norm": 0.1771783083677292, + "learning_rate": 1.4607786666666667e-05, + "loss": 0.0063, + "step": 126380 + }, + { + "epoch": 0.808864, + "grad_norm": 0.20250506699085236, + "learning_rate": 1.4607573333333333e-05, + "loss": 0.0095, + "step": 126385 + }, + { + "epoch": 0.808896, + "grad_norm": 0.4676028788089752, + "learning_rate": 1.460736e-05, + "loss": 0.0144, + "step": 126390 + }, + { + "epoch": 0.808928, + "grad_norm": 0.7701712846755981, + "learning_rate": 1.4607146666666667e-05, + "loss": 0.0062, + "step": 126395 + }, + { + "epoch": 0.80896, + "grad_norm": 0.02617044933140278, + "learning_rate": 1.4606933333333336e-05, + "loss": 0.0153, + "step": 126400 + }, + { + "epoch": 0.808992, + "grad_norm": 0.539958655834198, + "learning_rate": 1.4606720000000002e-05, + "loss": 0.0083, + "step": 126405 + }, + { + "epoch": 0.809024, + "grad_norm": 0.5271168947219849, + "learning_rate": 1.460650666666667e-05, + "loss": 0.0117, + "step": 126410 + }, + { + "epoch": 0.809056, + "grad_norm": 0.06550402194261551, + "learning_rate": 1.4606293333333335e-05, + "loss": 0.0048, + "step": 126415 + }, + { + "epoch": 0.809088, + "grad_norm": 0.2832765281200409, + "learning_rate": 1.4606080000000001e-05, + "loss": 0.0034, + "step": 126420 + }, + { + "epoch": 0.80912, + "grad_norm": 0.02646557055413723, + "learning_rate": 1.4605866666666668e-05, + "loss": 0.0047, + "step": 126425 + }, + { + "epoch": 0.809152, + "grad_norm": 0.03512519970536232, + "learning_rate": 1.4605653333333334e-05, + "loss": 0.0111, + "step": 126430 + }, + { + "epoch": 0.809184, + "grad_norm": 0.5107819437980652, + "learning_rate": 1.4605440000000002e-05, + "loss": 0.0031, + "step": 126435 + }, + { + "epoch": 0.809216, + "grad_norm": 0.32865220308303833, + "learning_rate": 1.4605226666666668e-05, + "loss": 0.0057, + "step": 126440 + }, + { + "epoch": 0.809248, + "grad_norm": 0.3196570873260498, + "learning_rate": 1.4605013333333335e-05, + "loss": 0.0063, + "step": 126445 + }, + { + "epoch": 0.80928, + "grad_norm": 0.5138408541679382, + "learning_rate": 1.4604800000000001e-05, + "loss": 0.0046, + "step": 126450 + }, + { + "epoch": 0.809312, + "grad_norm": 0.651407778263092, + "learning_rate": 1.4604586666666667e-05, + "loss": 0.0036, + "step": 126455 + }, + { + "epoch": 0.809344, + "grad_norm": 0.7877050638198853, + "learning_rate": 1.4604373333333335e-05, + "loss": 0.0127, + "step": 126460 + }, + { + "epoch": 0.809376, + "grad_norm": 0.9112586379051208, + "learning_rate": 1.460416e-05, + "loss": 0.0187, + "step": 126465 + }, + { + "epoch": 0.809408, + "grad_norm": 0.12561969459056854, + "learning_rate": 1.4603946666666668e-05, + "loss": 0.0079, + "step": 126470 + }, + { + "epoch": 0.80944, + "grad_norm": 0.03555220738053322, + "learning_rate": 1.4603733333333334e-05, + "loss": 0.0061, + "step": 126475 + }, + { + "epoch": 0.809472, + "grad_norm": 0.21043381094932556, + "learning_rate": 1.4603520000000001e-05, + "loss": 0.0046, + "step": 126480 + }, + { + "epoch": 0.809504, + "grad_norm": 0.2801303565502167, + "learning_rate": 1.4603306666666667e-05, + "loss": 0.006, + "step": 126485 + }, + { + "epoch": 0.809536, + "grad_norm": 0.018729373812675476, + "learning_rate": 1.4603093333333333e-05, + "loss": 0.0115, + "step": 126490 + }, + { + "epoch": 0.809568, + "grad_norm": 0.0638449564576149, + "learning_rate": 1.460288e-05, + "loss": 0.0036, + "step": 126495 + }, + { + "epoch": 0.8096, + "grad_norm": 0.1344885677099228, + "learning_rate": 1.4602666666666667e-05, + "loss": 0.0056, + "step": 126500 + }, + { + "epoch": 0.809632, + "grad_norm": 0.530483603477478, + "learning_rate": 1.4602453333333336e-05, + "loss": 0.0142, + "step": 126505 + }, + { + "epoch": 0.809664, + "grad_norm": 0.4325580894947052, + "learning_rate": 1.4602240000000002e-05, + "loss": 0.0111, + "step": 126510 + }, + { + "epoch": 0.809696, + "grad_norm": 0.9950090646743774, + "learning_rate": 1.460202666666667e-05, + "loss": 0.0079, + "step": 126515 + }, + { + "epoch": 0.809728, + "grad_norm": 0.37101471424102783, + "learning_rate": 1.4601813333333335e-05, + "loss": 0.0127, + "step": 126520 + }, + { + "epoch": 0.80976, + "grad_norm": 1.108170986175537, + "learning_rate": 1.4601600000000001e-05, + "loss": 0.0083, + "step": 126525 + }, + { + "epoch": 0.809792, + "grad_norm": 0.846872866153717, + "learning_rate": 1.4601386666666668e-05, + "loss": 0.0086, + "step": 126530 + }, + { + "epoch": 0.809824, + "grad_norm": 0.2734222412109375, + "learning_rate": 1.4601173333333334e-05, + "loss": 0.0267, + "step": 126535 + }, + { + "epoch": 0.809856, + "grad_norm": 0.8482702970504761, + "learning_rate": 1.4600960000000002e-05, + "loss": 0.0124, + "step": 126540 + }, + { + "epoch": 0.809888, + "grad_norm": 1.2451273202896118, + "learning_rate": 1.4600746666666668e-05, + "loss": 0.0105, + "step": 126545 + }, + { + "epoch": 0.80992, + "grad_norm": 1.344385027885437, + "learning_rate": 1.4600533333333335e-05, + "loss": 0.0145, + "step": 126550 + }, + { + "epoch": 0.809952, + "grad_norm": 0.01762373186647892, + "learning_rate": 1.4600320000000001e-05, + "loss": 0.0047, + "step": 126555 + }, + { + "epoch": 0.809984, + "grad_norm": 0.028549978509545326, + "learning_rate": 1.4600106666666667e-05, + "loss": 0.0117, + "step": 126560 + }, + { + "epoch": 0.810016, + "grad_norm": 0.019522959366440773, + "learning_rate": 1.4599893333333335e-05, + "loss": 0.0138, + "step": 126565 + }, + { + "epoch": 0.810048, + "grad_norm": 0.8849862217903137, + "learning_rate": 1.459968e-05, + "loss": 0.0055, + "step": 126570 + }, + { + "epoch": 0.81008, + "grad_norm": 0.07896582037210464, + "learning_rate": 1.4599466666666668e-05, + "loss": 0.0074, + "step": 126575 + }, + { + "epoch": 0.810112, + "grad_norm": 0.7485047578811646, + "learning_rate": 1.4599253333333334e-05, + "loss": 0.011, + "step": 126580 + }, + { + "epoch": 0.810144, + "grad_norm": 0.3127480447292328, + "learning_rate": 1.4599040000000001e-05, + "loss": 0.01, + "step": 126585 + }, + { + "epoch": 0.810176, + "grad_norm": 0.21035130321979523, + "learning_rate": 1.4598826666666667e-05, + "loss": 0.0075, + "step": 126590 + }, + { + "epoch": 0.810208, + "grad_norm": 0.5120537281036377, + "learning_rate": 1.4598613333333333e-05, + "loss": 0.0124, + "step": 126595 + }, + { + "epoch": 0.81024, + "grad_norm": 0.3060826361179352, + "learning_rate": 1.45984e-05, + "loss": 0.0128, + "step": 126600 + }, + { + "epoch": 0.810272, + "grad_norm": 0.059614215046167374, + "learning_rate": 1.4598186666666667e-05, + "loss": 0.0072, + "step": 126605 + }, + { + "epoch": 0.810304, + "grad_norm": 0.7829582691192627, + "learning_rate": 1.4597973333333336e-05, + "loss": 0.0099, + "step": 126610 + }, + { + "epoch": 0.810336, + "grad_norm": 6.236263751983643, + "learning_rate": 1.459776e-05, + "loss": 0.0398, + "step": 126615 + }, + { + "epoch": 0.810368, + "grad_norm": 0.41680601239204407, + "learning_rate": 1.459754666666667e-05, + "loss": 0.0067, + "step": 126620 + }, + { + "epoch": 0.8104, + "grad_norm": 1.4961203336715698, + "learning_rate": 1.4597333333333335e-05, + "loss": 0.0224, + "step": 126625 + }, + { + "epoch": 0.810432, + "grad_norm": 0.5071616768836975, + "learning_rate": 1.4597120000000001e-05, + "loss": 0.0111, + "step": 126630 + }, + { + "epoch": 0.810464, + "grad_norm": 0.1765049248933792, + "learning_rate": 1.4596906666666668e-05, + "loss": 0.0095, + "step": 126635 + }, + { + "epoch": 0.810496, + "grad_norm": 0.23453620076179504, + "learning_rate": 1.4596693333333334e-05, + "loss": 0.0076, + "step": 126640 + }, + { + "epoch": 0.810528, + "grad_norm": 0.09038160741329193, + "learning_rate": 1.4596480000000002e-05, + "loss": 0.0027, + "step": 126645 + }, + { + "epoch": 0.81056, + "grad_norm": 0.14577201008796692, + "learning_rate": 1.4596266666666668e-05, + "loss": 0.0072, + "step": 126650 + }, + { + "epoch": 0.810592, + "grad_norm": 0.9942508339881897, + "learning_rate": 1.4596053333333335e-05, + "loss": 0.0152, + "step": 126655 + }, + { + "epoch": 0.810624, + "grad_norm": 0.44304025173187256, + "learning_rate": 1.4595840000000001e-05, + "loss": 0.0074, + "step": 126660 + }, + { + "epoch": 0.810656, + "grad_norm": 0.19349177181720734, + "learning_rate": 1.4595626666666667e-05, + "loss": 0.0052, + "step": 126665 + }, + { + "epoch": 0.810688, + "grad_norm": 0.030011899769306183, + "learning_rate": 1.4595413333333335e-05, + "loss": 0.0221, + "step": 126670 + }, + { + "epoch": 0.81072, + "grad_norm": 0.09665533155202866, + "learning_rate": 1.45952e-05, + "loss": 0.0175, + "step": 126675 + }, + { + "epoch": 0.810752, + "grad_norm": 0.8050864934921265, + "learning_rate": 1.4594986666666668e-05, + "loss": 0.0106, + "step": 126680 + }, + { + "epoch": 0.810784, + "grad_norm": 0.07036379724740982, + "learning_rate": 1.4594773333333334e-05, + "loss": 0.0065, + "step": 126685 + }, + { + "epoch": 0.810816, + "grad_norm": 0.8410643339157104, + "learning_rate": 1.4594560000000001e-05, + "loss": 0.0082, + "step": 126690 + }, + { + "epoch": 0.810848, + "grad_norm": 0.4102947413921356, + "learning_rate": 1.4594346666666667e-05, + "loss": 0.0051, + "step": 126695 + }, + { + "epoch": 0.81088, + "grad_norm": 1.484148383140564, + "learning_rate": 1.4594133333333333e-05, + "loss": 0.0078, + "step": 126700 + }, + { + "epoch": 0.810912, + "grad_norm": 0.9381433725357056, + "learning_rate": 1.459392e-05, + "loss": 0.0094, + "step": 126705 + }, + { + "epoch": 0.810944, + "grad_norm": 0.6565793752670288, + "learning_rate": 1.4593706666666667e-05, + "loss": 0.0137, + "step": 126710 + }, + { + "epoch": 0.810976, + "grad_norm": 0.04066619649529457, + "learning_rate": 1.4593493333333336e-05, + "loss": 0.01, + "step": 126715 + }, + { + "epoch": 0.811008, + "grad_norm": 0.24798467755317688, + "learning_rate": 1.459328e-05, + "loss": 0.0031, + "step": 126720 + }, + { + "epoch": 0.81104, + "grad_norm": 0.008499452844262123, + "learning_rate": 1.459306666666667e-05, + "loss": 0.0043, + "step": 126725 + }, + { + "epoch": 0.811072, + "grad_norm": 0.30616188049316406, + "learning_rate": 1.4592853333333335e-05, + "loss": 0.0053, + "step": 126730 + }, + { + "epoch": 0.811104, + "grad_norm": 0.9927389025688171, + "learning_rate": 1.4592640000000001e-05, + "loss": 0.0077, + "step": 126735 + }, + { + "epoch": 0.811136, + "grad_norm": 1.037638783454895, + "learning_rate": 1.4592426666666669e-05, + "loss": 0.0209, + "step": 126740 + }, + { + "epoch": 0.811168, + "grad_norm": 0.21637661755084991, + "learning_rate": 1.4592213333333334e-05, + "loss": 0.0072, + "step": 126745 + }, + { + "epoch": 0.8112, + "grad_norm": 0.29729363322257996, + "learning_rate": 1.4592000000000002e-05, + "loss": 0.0135, + "step": 126750 + }, + { + "epoch": 0.811232, + "grad_norm": 0.04546218365430832, + "learning_rate": 1.4591786666666668e-05, + "loss": 0.0247, + "step": 126755 + }, + { + "epoch": 0.811264, + "grad_norm": 0.8524926900863647, + "learning_rate": 1.4591573333333335e-05, + "loss": 0.0159, + "step": 126760 + }, + { + "epoch": 0.811296, + "grad_norm": 0.22833210229873657, + "learning_rate": 1.4591360000000001e-05, + "loss": 0.0084, + "step": 126765 + }, + { + "epoch": 0.811328, + "grad_norm": 0.3819381892681122, + "learning_rate": 1.4591146666666667e-05, + "loss": 0.0185, + "step": 126770 + }, + { + "epoch": 0.81136, + "grad_norm": 0.6266754269599915, + "learning_rate": 1.4590933333333335e-05, + "loss": 0.0212, + "step": 126775 + }, + { + "epoch": 0.811392, + "grad_norm": 0.7028263211250305, + "learning_rate": 1.459072e-05, + "loss": 0.0056, + "step": 126780 + }, + { + "epoch": 0.811424, + "grad_norm": 0.4467049539089203, + "learning_rate": 1.4590506666666668e-05, + "loss": 0.006, + "step": 126785 + }, + { + "epoch": 0.811456, + "grad_norm": 0.3351327180862427, + "learning_rate": 1.4590293333333334e-05, + "loss": 0.0113, + "step": 126790 + }, + { + "epoch": 0.811488, + "grad_norm": 0.13416779041290283, + "learning_rate": 1.4590080000000001e-05, + "loss": 0.0091, + "step": 126795 + }, + { + "epoch": 0.81152, + "grad_norm": 0.6619646549224854, + "learning_rate": 1.4589866666666667e-05, + "loss": 0.0199, + "step": 126800 + }, + { + "epoch": 0.811552, + "grad_norm": 0.08420250564813614, + "learning_rate": 1.4589653333333333e-05, + "loss": 0.0173, + "step": 126805 + }, + { + "epoch": 0.811584, + "grad_norm": 0.02045358717441559, + "learning_rate": 1.458944e-05, + "loss": 0.0045, + "step": 126810 + }, + { + "epoch": 0.811616, + "grad_norm": 0.1753053516149521, + "learning_rate": 1.4589226666666667e-05, + "loss": 0.0081, + "step": 126815 + }, + { + "epoch": 0.811648, + "grad_norm": 0.9617310166358948, + "learning_rate": 1.4589013333333336e-05, + "loss": 0.0076, + "step": 126820 + }, + { + "epoch": 0.81168, + "grad_norm": 0.08479376137256622, + "learning_rate": 1.45888e-05, + "loss": 0.0067, + "step": 126825 + }, + { + "epoch": 0.811712, + "grad_norm": 0.12355305254459381, + "learning_rate": 1.458858666666667e-05, + "loss": 0.0087, + "step": 126830 + }, + { + "epoch": 0.811744, + "grad_norm": 0.254271537065506, + "learning_rate": 1.4588373333333335e-05, + "loss": 0.0042, + "step": 126835 + }, + { + "epoch": 0.811776, + "grad_norm": 0.1328977644443512, + "learning_rate": 1.458816e-05, + "loss": 0.007, + "step": 126840 + }, + { + "epoch": 0.811808, + "grad_norm": 0.5566686987876892, + "learning_rate": 1.4587946666666669e-05, + "loss": 0.0052, + "step": 126845 + }, + { + "epoch": 0.81184, + "grad_norm": 0.16571687161922455, + "learning_rate": 1.4587733333333334e-05, + "loss": 0.0016, + "step": 126850 + }, + { + "epoch": 0.811872, + "grad_norm": 0.5719074010848999, + "learning_rate": 1.4587520000000002e-05, + "loss": 0.0153, + "step": 126855 + }, + { + "epoch": 0.811904, + "grad_norm": 0.7648888230323792, + "learning_rate": 1.4587306666666668e-05, + "loss": 0.0093, + "step": 126860 + }, + { + "epoch": 0.811936, + "grad_norm": 0.35857534408569336, + "learning_rate": 1.4587093333333335e-05, + "loss": 0.0089, + "step": 126865 + }, + { + "epoch": 0.811968, + "grad_norm": 1.1713975667953491, + "learning_rate": 1.4586880000000001e-05, + "loss": 0.0153, + "step": 126870 + }, + { + "epoch": 0.812, + "grad_norm": 0.15180601179599762, + "learning_rate": 1.4586666666666667e-05, + "loss": 0.0192, + "step": 126875 + }, + { + "epoch": 0.812032, + "grad_norm": 0.6151894927024841, + "learning_rate": 1.4586453333333335e-05, + "loss": 0.0047, + "step": 126880 + }, + { + "epoch": 0.812064, + "grad_norm": 0.4530613422393799, + "learning_rate": 1.458624e-05, + "loss": 0.0039, + "step": 126885 + }, + { + "epoch": 0.812096, + "grad_norm": 0.22109678387641907, + "learning_rate": 1.4586026666666668e-05, + "loss": 0.0069, + "step": 126890 + }, + { + "epoch": 0.812128, + "grad_norm": 0.5540586113929749, + "learning_rate": 1.4585813333333334e-05, + "loss": 0.0112, + "step": 126895 + }, + { + "epoch": 0.81216, + "grad_norm": 0.79353266954422, + "learning_rate": 1.4585600000000001e-05, + "loss": 0.045, + "step": 126900 + }, + { + "epoch": 0.812192, + "grad_norm": 0.289547324180603, + "learning_rate": 1.4585386666666667e-05, + "loss": 0.0039, + "step": 126905 + }, + { + "epoch": 0.812224, + "grad_norm": 0.40689361095428467, + "learning_rate": 1.4585173333333335e-05, + "loss": 0.0116, + "step": 126910 + }, + { + "epoch": 0.812256, + "grad_norm": 1.272300124168396, + "learning_rate": 1.458496e-05, + "loss": 0.0125, + "step": 126915 + }, + { + "epoch": 0.812288, + "grad_norm": 1.610482096672058, + "learning_rate": 1.4584746666666667e-05, + "loss": 0.0077, + "step": 126920 + }, + { + "epoch": 0.81232, + "grad_norm": 0.019686387851834297, + "learning_rate": 1.4584533333333336e-05, + "loss": 0.0058, + "step": 126925 + }, + { + "epoch": 0.812352, + "grad_norm": 0.08108276128768921, + "learning_rate": 1.458432e-05, + "loss": 0.0042, + "step": 126930 + }, + { + "epoch": 0.812384, + "grad_norm": 0.603947639465332, + "learning_rate": 1.458410666666667e-05, + "loss": 0.0086, + "step": 126935 + }, + { + "epoch": 0.812416, + "grad_norm": 0.22253413498401642, + "learning_rate": 1.4583893333333335e-05, + "loss": 0.0051, + "step": 126940 + }, + { + "epoch": 0.812448, + "grad_norm": 0.1755930781364441, + "learning_rate": 1.4583680000000003e-05, + "loss": 0.0049, + "step": 126945 + }, + { + "epoch": 0.81248, + "grad_norm": 0.45313313603401184, + "learning_rate": 1.4583466666666669e-05, + "loss": 0.0042, + "step": 126950 + }, + { + "epoch": 0.812512, + "grad_norm": 0.8469712734222412, + "learning_rate": 1.4583253333333334e-05, + "loss": 0.0152, + "step": 126955 + }, + { + "epoch": 0.812544, + "grad_norm": 0.21894025802612305, + "learning_rate": 1.4583040000000002e-05, + "loss": 0.0084, + "step": 126960 + }, + { + "epoch": 0.812576, + "grad_norm": 0.4266514182090759, + "learning_rate": 1.4582826666666668e-05, + "loss": 0.0175, + "step": 126965 + }, + { + "epoch": 0.812608, + "grad_norm": 0.018672367557883263, + "learning_rate": 1.4582613333333335e-05, + "loss": 0.005, + "step": 126970 + }, + { + "epoch": 0.81264, + "grad_norm": 0.31473228335380554, + "learning_rate": 1.4582400000000001e-05, + "loss": 0.0071, + "step": 126975 + }, + { + "epoch": 0.812672, + "grad_norm": 0.7300081849098206, + "learning_rate": 1.4582186666666669e-05, + "loss": 0.0077, + "step": 126980 + }, + { + "epoch": 0.812704, + "grad_norm": 0.30032646656036377, + "learning_rate": 1.4581973333333335e-05, + "loss": 0.011, + "step": 126985 + }, + { + "epoch": 0.812736, + "grad_norm": 2.424564838409424, + "learning_rate": 1.458176e-05, + "loss": 0.0073, + "step": 126990 + }, + { + "epoch": 0.812768, + "grad_norm": 0.28220829367637634, + "learning_rate": 1.4581546666666668e-05, + "loss": 0.0035, + "step": 126995 + }, + { + "epoch": 0.8128, + "grad_norm": 0.21288539469242096, + "learning_rate": 1.4581333333333334e-05, + "loss": 0.0032, + "step": 127000 + }, + { + "epoch": 0.812832, + "grad_norm": 0.02182428538799286, + "learning_rate": 1.4581120000000001e-05, + "loss": 0.002, + "step": 127005 + }, + { + "epoch": 0.812864, + "grad_norm": 2.187403440475464, + "learning_rate": 1.4580906666666667e-05, + "loss": 0.0068, + "step": 127010 + }, + { + "epoch": 0.812896, + "grad_norm": 0.03346596658229828, + "learning_rate": 1.4580693333333335e-05, + "loss": 0.0072, + "step": 127015 + }, + { + "epoch": 0.812928, + "grad_norm": 0.2732588052749634, + "learning_rate": 1.458048e-05, + "loss": 0.0097, + "step": 127020 + }, + { + "epoch": 0.81296, + "grad_norm": 0.7466651201248169, + "learning_rate": 1.4580266666666667e-05, + "loss": 0.0114, + "step": 127025 + }, + { + "epoch": 0.812992, + "grad_norm": 0.4567743241786957, + "learning_rate": 1.4580053333333334e-05, + "loss": 0.0077, + "step": 127030 + }, + { + "epoch": 0.813024, + "grad_norm": 0.6910036206245422, + "learning_rate": 1.457984e-05, + "loss": 0.0065, + "step": 127035 + }, + { + "epoch": 0.813056, + "grad_norm": 0.25164511799812317, + "learning_rate": 1.457962666666667e-05, + "loss": 0.0205, + "step": 127040 + }, + { + "epoch": 0.813088, + "grad_norm": 0.5516397953033447, + "learning_rate": 1.4579413333333335e-05, + "loss": 0.0141, + "step": 127045 + }, + { + "epoch": 0.81312, + "grad_norm": 0.05622534453868866, + "learning_rate": 1.4579200000000003e-05, + "loss": 0.0111, + "step": 127050 + }, + { + "epoch": 0.813152, + "grad_norm": 1.012654423713684, + "learning_rate": 1.4578986666666669e-05, + "loss": 0.0152, + "step": 127055 + }, + { + "epoch": 0.813184, + "grad_norm": 0.8350849747657776, + "learning_rate": 1.4578773333333334e-05, + "loss": 0.0122, + "step": 127060 + }, + { + "epoch": 0.813216, + "grad_norm": 0.417879581451416, + "learning_rate": 1.4578560000000002e-05, + "loss": 0.0066, + "step": 127065 + }, + { + "epoch": 0.813248, + "grad_norm": 0.1344611942768097, + "learning_rate": 1.4578346666666668e-05, + "loss": 0.0112, + "step": 127070 + }, + { + "epoch": 0.81328, + "grad_norm": 0.7750362753868103, + "learning_rate": 1.4578133333333335e-05, + "loss": 0.0089, + "step": 127075 + }, + { + "epoch": 0.813312, + "grad_norm": 0.760076642036438, + "learning_rate": 1.4577920000000001e-05, + "loss": 0.01, + "step": 127080 + }, + { + "epoch": 0.813344, + "grad_norm": 0.2139277458190918, + "learning_rate": 1.4577706666666669e-05, + "loss": 0.0058, + "step": 127085 + }, + { + "epoch": 0.813376, + "grad_norm": 0.5530314445495605, + "learning_rate": 1.4577493333333335e-05, + "loss": 0.0094, + "step": 127090 + }, + { + "epoch": 0.813408, + "grad_norm": 0.2663591504096985, + "learning_rate": 1.457728e-05, + "loss": 0.014, + "step": 127095 + }, + { + "epoch": 0.81344, + "grad_norm": 0.46378907561302185, + "learning_rate": 1.4577066666666668e-05, + "loss": 0.0104, + "step": 127100 + }, + { + "epoch": 0.813472, + "grad_norm": 0.10612789541482925, + "learning_rate": 1.4576853333333334e-05, + "loss": 0.0106, + "step": 127105 + }, + { + "epoch": 0.813504, + "grad_norm": 0.47846701741218567, + "learning_rate": 1.4576640000000001e-05, + "loss": 0.0043, + "step": 127110 + }, + { + "epoch": 0.813536, + "grad_norm": 0.09015964716672897, + "learning_rate": 1.4576426666666667e-05, + "loss": 0.0132, + "step": 127115 + }, + { + "epoch": 0.813568, + "grad_norm": 0.018307620659470558, + "learning_rate": 1.4576213333333335e-05, + "loss": 0.0045, + "step": 127120 + }, + { + "epoch": 0.8136, + "grad_norm": 0.12966953217983246, + "learning_rate": 1.4576e-05, + "loss": 0.0111, + "step": 127125 + }, + { + "epoch": 0.813632, + "grad_norm": 0.151958167552948, + "learning_rate": 1.4575786666666667e-05, + "loss": 0.004, + "step": 127130 + }, + { + "epoch": 0.813664, + "grad_norm": 1.0001072883605957, + "learning_rate": 1.4575573333333334e-05, + "loss": 0.0139, + "step": 127135 + }, + { + "epoch": 0.813696, + "grad_norm": 1.1982125043869019, + "learning_rate": 1.457536e-05, + "loss": 0.0077, + "step": 127140 + }, + { + "epoch": 0.813728, + "grad_norm": 0.13908208906650543, + "learning_rate": 1.457514666666667e-05, + "loss": 0.0104, + "step": 127145 + }, + { + "epoch": 0.81376, + "grad_norm": 0.5615826845169067, + "learning_rate": 1.4574933333333335e-05, + "loss": 0.0052, + "step": 127150 + }, + { + "epoch": 0.813792, + "grad_norm": 0.14123593270778656, + "learning_rate": 1.4574720000000003e-05, + "loss": 0.0249, + "step": 127155 + }, + { + "epoch": 0.813824, + "grad_norm": 0.4514286518096924, + "learning_rate": 1.4574506666666669e-05, + "loss": 0.0035, + "step": 127160 + }, + { + "epoch": 0.813856, + "grad_norm": 0.0983712375164032, + "learning_rate": 1.4574293333333334e-05, + "loss": 0.0024, + "step": 127165 + }, + { + "epoch": 0.813888, + "grad_norm": 0.8750524520874023, + "learning_rate": 1.4574080000000002e-05, + "loss": 0.0051, + "step": 127170 + }, + { + "epoch": 0.81392, + "grad_norm": 0.9780291318893433, + "learning_rate": 1.4573866666666668e-05, + "loss": 0.0133, + "step": 127175 + }, + { + "epoch": 0.813952, + "grad_norm": 0.40096405148506165, + "learning_rate": 1.4573653333333335e-05, + "loss": 0.0095, + "step": 127180 + }, + { + "epoch": 0.813984, + "grad_norm": 0.04888540133833885, + "learning_rate": 1.4573440000000001e-05, + "loss": 0.0041, + "step": 127185 + }, + { + "epoch": 0.814016, + "grad_norm": 0.02150656096637249, + "learning_rate": 1.4573226666666669e-05, + "loss": 0.0109, + "step": 127190 + }, + { + "epoch": 0.814048, + "grad_norm": 0.46829432249069214, + "learning_rate": 1.4573013333333335e-05, + "loss": 0.0088, + "step": 127195 + }, + { + "epoch": 0.81408, + "grad_norm": 0.21787962317466736, + "learning_rate": 1.45728e-05, + "loss": 0.0108, + "step": 127200 + }, + { + "epoch": 0.814112, + "grad_norm": 0.530195951461792, + "learning_rate": 1.4572586666666668e-05, + "loss": 0.0069, + "step": 127205 + }, + { + "epoch": 0.814144, + "grad_norm": 0.8605515360832214, + "learning_rate": 1.4572373333333334e-05, + "loss": 0.0152, + "step": 127210 + }, + { + "epoch": 0.814176, + "grad_norm": 0.14125528931617737, + "learning_rate": 1.4572160000000001e-05, + "loss": 0.0024, + "step": 127215 + }, + { + "epoch": 0.814208, + "grad_norm": 0.16792653501033783, + "learning_rate": 1.4571946666666667e-05, + "loss": 0.0087, + "step": 127220 + }, + { + "epoch": 0.81424, + "grad_norm": 1.0433335304260254, + "learning_rate": 1.4571733333333335e-05, + "loss": 0.0071, + "step": 127225 + }, + { + "epoch": 0.814272, + "grad_norm": 0.6440056562423706, + "learning_rate": 1.457152e-05, + "loss": 0.0107, + "step": 127230 + }, + { + "epoch": 0.814304, + "grad_norm": 0.15479502081871033, + "learning_rate": 1.4571306666666667e-05, + "loss": 0.0143, + "step": 127235 + }, + { + "epoch": 0.814336, + "grad_norm": 0.20089773833751678, + "learning_rate": 1.4571093333333334e-05, + "loss": 0.0073, + "step": 127240 + }, + { + "epoch": 0.814368, + "grad_norm": 0.38529738783836365, + "learning_rate": 1.457088e-05, + "loss": 0.0028, + "step": 127245 + }, + { + "epoch": 0.8144, + "grad_norm": 0.37580886483192444, + "learning_rate": 1.457066666666667e-05, + "loss": 0.0034, + "step": 127250 + }, + { + "epoch": 0.814432, + "grad_norm": 0.39175713062286377, + "learning_rate": 1.4570453333333333e-05, + "loss": 0.0139, + "step": 127255 + }, + { + "epoch": 0.814464, + "grad_norm": 0.22389696538448334, + "learning_rate": 1.4570240000000003e-05, + "loss": 0.0035, + "step": 127260 + }, + { + "epoch": 0.814496, + "grad_norm": 0.4141083061695099, + "learning_rate": 1.4570026666666669e-05, + "loss": 0.0078, + "step": 127265 + }, + { + "epoch": 0.814528, + "grad_norm": 0.3483313024044037, + "learning_rate": 1.4569813333333334e-05, + "loss": 0.0055, + "step": 127270 + }, + { + "epoch": 0.81456, + "grad_norm": 0.14034011960029602, + "learning_rate": 1.4569600000000002e-05, + "loss": 0.0027, + "step": 127275 + }, + { + "epoch": 0.814592, + "grad_norm": 0.7852625250816345, + "learning_rate": 1.4569386666666668e-05, + "loss": 0.0055, + "step": 127280 + }, + { + "epoch": 0.814624, + "grad_norm": 0.13563209772109985, + "learning_rate": 1.4569173333333335e-05, + "loss": 0.0059, + "step": 127285 + }, + { + "epoch": 0.814656, + "grad_norm": 0.02781006507575512, + "learning_rate": 1.4568960000000001e-05, + "loss": 0.0075, + "step": 127290 + }, + { + "epoch": 0.814688, + "grad_norm": 1.037354826927185, + "learning_rate": 1.4568746666666669e-05, + "loss": 0.0091, + "step": 127295 + }, + { + "epoch": 0.81472, + "grad_norm": 0.5347988605499268, + "learning_rate": 1.4568533333333335e-05, + "loss": 0.0045, + "step": 127300 + }, + { + "epoch": 0.814752, + "grad_norm": 0.16532671451568604, + "learning_rate": 1.456832e-05, + "loss": 0.0051, + "step": 127305 + }, + { + "epoch": 0.814784, + "grad_norm": 0.8532076478004456, + "learning_rate": 1.4568106666666668e-05, + "loss": 0.0053, + "step": 127310 + }, + { + "epoch": 0.814816, + "grad_norm": 0.9769701957702637, + "learning_rate": 1.4567893333333334e-05, + "loss": 0.0049, + "step": 127315 + }, + { + "epoch": 0.814848, + "grad_norm": 0.058995842933654785, + "learning_rate": 1.4567680000000001e-05, + "loss": 0.0097, + "step": 127320 + }, + { + "epoch": 0.81488, + "grad_norm": 1.1364176273345947, + "learning_rate": 1.4567466666666667e-05, + "loss": 0.0056, + "step": 127325 + }, + { + "epoch": 0.814912, + "grad_norm": 0.81200110912323, + "learning_rate": 1.4567253333333335e-05, + "loss": 0.0401, + "step": 127330 + }, + { + "epoch": 0.814944, + "grad_norm": 0.48177969455718994, + "learning_rate": 1.456704e-05, + "loss": 0.0044, + "step": 127335 + }, + { + "epoch": 0.814976, + "grad_norm": 0.03428513929247856, + "learning_rate": 1.4566826666666667e-05, + "loss": 0.0042, + "step": 127340 + }, + { + "epoch": 0.815008, + "grad_norm": 1.9007906913757324, + "learning_rate": 1.4566613333333334e-05, + "loss": 0.0213, + "step": 127345 + }, + { + "epoch": 0.81504, + "grad_norm": 0.18011654913425446, + "learning_rate": 1.45664e-05, + "loss": 0.0041, + "step": 127350 + }, + { + "epoch": 0.815072, + "grad_norm": 0.352525532245636, + "learning_rate": 1.456618666666667e-05, + "loss": 0.0078, + "step": 127355 + }, + { + "epoch": 0.815104, + "grad_norm": 0.04480349272489548, + "learning_rate": 1.4565973333333333e-05, + "loss": 0.0036, + "step": 127360 + }, + { + "epoch": 0.815136, + "grad_norm": 0.0407802015542984, + "learning_rate": 1.4565760000000003e-05, + "loss": 0.0111, + "step": 127365 + }, + { + "epoch": 0.815168, + "grad_norm": 0.07786352187395096, + "learning_rate": 1.4565546666666669e-05, + "loss": 0.013, + "step": 127370 + }, + { + "epoch": 0.8152, + "grad_norm": 0.3004102110862732, + "learning_rate": 1.4565333333333334e-05, + "loss": 0.0062, + "step": 127375 + }, + { + "epoch": 0.815232, + "grad_norm": 0.8378710150718689, + "learning_rate": 1.4565120000000002e-05, + "loss": 0.0091, + "step": 127380 + }, + { + "epoch": 0.815264, + "grad_norm": 0.5207534432411194, + "learning_rate": 1.4564906666666668e-05, + "loss": 0.0129, + "step": 127385 + }, + { + "epoch": 0.815296, + "grad_norm": 0.11311491578817368, + "learning_rate": 1.4564693333333335e-05, + "loss": 0.0022, + "step": 127390 + }, + { + "epoch": 0.815328, + "grad_norm": 0.44708219170570374, + "learning_rate": 1.4564480000000001e-05, + "loss": 0.0059, + "step": 127395 + }, + { + "epoch": 0.81536, + "grad_norm": 0.10296756774187088, + "learning_rate": 1.4564266666666669e-05, + "loss": 0.0075, + "step": 127400 + }, + { + "epoch": 0.815392, + "grad_norm": 1.3344271183013916, + "learning_rate": 1.4564053333333335e-05, + "loss": 0.0108, + "step": 127405 + }, + { + "epoch": 0.815424, + "grad_norm": 0.04619693383574486, + "learning_rate": 1.456384e-05, + "loss": 0.0129, + "step": 127410 + }, + { + "epoch": 0.815456, + "grad_norm": 0.8776336908340454, + "learning_rate": 1.4563626666666668e-05, + "loss": 0.0122, + "step": 127415 + }, + { + "epoch": 0.815488, + "grad_norm": 0.12714749574661255, + "learning_rate": 1.4563413333333334e-05, + "loss": 0.0097, + "step": 127420 + }, + { + "epoch": 0.81552, + "grad_norm": 0.1329771727323532, + "learning_rate": 1.4563200000000001e-05, + "loss": 0.0079, + "step": 127425 + }, + { + "epoch": 0.815552, + "grad_norm": 0.26561543345451355, + "learning_rate": 1.4562986666666667e-05, + "loss": 0.0073, + "step": 127430 + }, + { + "epoch": 0.815584, + "grad_norm": 0.1893552839756012, + "learning_rate": 1.4562773333333335e-05, + "loss": 0.0101, + "step": 127435 + }, + { + "epoch": 0.815616, + "grad_norm": 0.689303457736969, + "learning_rate": 1.456256e-05, + "loss": 0.0068, + "step": 127440 + }, + { + "epoch": 0.815648, + "grad_norm": 0.4740522801876068, + "learning_rate": 1.4562346666666667e-05, + "loss": 0.0079, + "step": 127445 + }, + { + "epoch": 0.81568, + "grad_norm": 0.6208767294883728, + "learning_rate": 1.4562133333333334e-05, + "loss": 0.0127, + "step": 127450 + }, + { + "epoch": 0.815712, + "grad_norm": 0.1725742518901825, + "learning_rate": 1.456192e-05, + "loss": 0.0282, + "step": 127455 + }, + { + "epoch": 0.815744, + "grad_norm": 0.07091912627220154, + "learning_rate": 1.456170666666667e-05, + "loss": 0.005, + "step": 127460 + }, + { + "epoch": 0.815776, + "grad_norm": 1.2356505393981934, + "learning_rate": 1.4561493333333333e-05, + "loss": 0.0213, + "step": 127465 + }, + { + "epoch": 0.815808, + "grad_norm": 2.063722848892212, + "learning_rate": 1.4561280000000003e-05, + "loss": 0.0106, + "step": 127470 + }, + { + "epoch": 0.81584, + "grad_norm": 0.3526836335659027, + "learning_rate": 1.4561066666666669e-05, + "loss": 0.0152, + "step": 127475 + }, + { + "epoch": 0.815872, + "grad_norm": 0.13587407767772675, + "learning_rate": 1.4560853333333333e-05, + "loss": 0.0077, + "step": 127480 + }, + { + "epoch": 0.815904, + "grad_norm": 3.014402151107788, + "learning_rate": 1.4560640000000002e-05, + "loss": 0.0122, + "step": 127485 + }, + { + "epoch": 0.815936, + "grad_norm": 0.07003209739923477, + "learning_rate": 1.4560426666666668e-05, + "loss": 0.0055, + "step": 127490 + }, + { + "epoch": 0.815968, + "grad_norm": 0.26438581943511963, + "learning_rate": 1.4560213333333335e-05, + "loss": 0.0074, + "step": 127495 + }, + { + "epoch": 0.816, + "grad_norm": 0.1168242022395134, + "learning_rate": 1.4560000000000001e-05, + "loss": 0.0082, + "step": 127500 + }, + { + "epoch": 0.816032, + "grad_norm": 0.2672989070415497, + "learning_rate": 1.4559786666666669e-05, + "loss": 0.0297, + "step": 127505 + }, + { + "epoch": 0.816064, + "grad_norm": 0.1728096306324005, + "learning_rate": 1.4559573333333335e-05, + "loss": 0.0066, + "step": 127510 + }, + { + "epoch": 0.816096, + "grad_norm": 0.734194278717041, + "learning_rate": 1.455936e-05, + "loss": 0.0064, + "step": 127515 + }, + { + "epoch": 0.816128, + "grad_norm": 0.7177200317382812, + "learning_rate": 1.4559146666666668e-05, + "loss": 0.0051, + "step": 127520 + }, + { + "epoch": 0.81616, + "grad_norm": 0.19005724787712097, + "learning_rate": 1.4558933333333334e-05, + "loss": 0.0127, + "step": 127525 + }, + { + "epoch": 0.816192, + "grad_norm": 1.5487805604934692, + "learning_rate": 1.4558720000000001e-05, + "loss": 0.014, + "step": 127530 + }, + { + "epoch": 0.816224, + "grad_norm": 0.31460800766944885, + "learning_rate": 1.4558506666666667e-05, + "loss": 0.0069, + "step": 127535 + }, + { + "epoch": 0.816256, + "grad_norm": 0.025082122534513474, + "learning_rate": 1.4558293333333335e-05, + "loss": 0.0245, + "step": 127540 + }, + { + "epoch": 0.816288, + "grad_norm": 0.2298370897769928, + "learning_rate": 1.455808e-05, + "loss": 0.0071, + "step": 127545 + }, + { + "epoch": 0.81632, + "grad_norm": 0.05982910841703415, + "learning_rate": 1.4557866666666667e-05, + "loss": 0.0072, + "step": 127550 + }, + { + "epoch": 0.816352, + "grad_norm": 0.18391068279743195, + "learning_rate": 1.4557653333333334e-05, + "loss": 0.0093, + "step": 127555 + }, + { + "epoch": 0.816384, + "grad_norm": 0.022876670584082603, + "learning_rate": 1.455744e-05, + "loss": 0.0018, + "step": 127560 + }, + { + "epoch": 0.816416, + "grad_norm": 0.907263457775116, + "learning_rate": 1.4557226666666668e-05, + "loss": 0.0245, + "step": 127565 + }, + { + "epoch": 0.816448, + "grad_norm": 0.016837336122989655, + "learning_rate": 1.4557013333333333e-05, + "loss": 0.0056, + "step": 127570 + }, + { + "epoch": 0.81648, + "grad_norm": 0.26293349266052246, + "learning_rate": 1.4556800000000003e-05, + "loss": 0.0028, + "step": 127575 + }, + { + "epoch": 0.816512, + "grad_norm": 1.2616407871246338, + "learning_rate": 1.4556586666666669e-05, + "loss": 0.0112, + "step": 127580 + }, + { + "epoch": 0.816544, + "grad_norm": 0.17493952810764313, + "learning_rate": 1.4556373333333333e-05, + "loss": 0.0113, + "step": 127585 + }, + { + "epoch": 0.816576, + "grad_norm": 0.8694631457328796, + "learning_rate": 1.4556160000000002e-05, + "loss": 0.015, + "step": 127590 + }, + { + "epoch": 0.816608, + "grad_norm": 0.17560544610023499, + "learning_rate": 1.4555946666666668e-05, + "loss": 0.0015, + "step": 127595 + }, + { + "epoch": 0.81664, + "grad_norm": 0.048234131187200546, + "learning_rate": 1.4555733333333335e-05, + "loss": 0.0015, + "step": 127600 + }, + { + "epoch": 0.816672, + "grad_norm": 0.6243177652359009, + "learning_rate": 1.4555520000000001e-05, + "loss": 0.005, + "step": 127605 + }, + { + "epoch": 0.816704, + "grad_norm": 0.3652726709842682, + "learning_rate": 1.4555306666666669e-05, + "loss": 0.0371, + "step": 127610 + }, + { + "epoch": 0.816736, + "grad_norm": 0.8087153434753418, + "learning_rate": 1.4555093333333335e-05, + "loss": 0.0053, + "step": 127615 + }, + { + "epoch": 0.816768, + "grad_norm": 0.2028990387916565, + "learning_rate": 1.455488e-05, + "loss": 0.0018, + "step": 127620 + }, + { + "epoch": 0.8168, + "grad_norm": 0.5957698822021484, + "learning_rate": 1.4554666666666668e-05, + "loss": 0.0196, + "step": 127625 + }, + { + "epoch": 0.816832, + "grad_norm": 0.06223289668560028, + "learning_rate": 1.4554453333333334e-05, + "loss": 0.0018, + "step": 127630 + }, + { + "epoch": 0.816864, + "grad_norm": 0.2944093942642212, + "learning_rate": 1.4554240000000001e-05, + "loss": 0.006, + "step": 127635 + }, + { + "epoch": 0.816896, + "grad_norm": 1.0093591213226318, + "learning_rate": 1.4554026666666667e-05, + "loss": 0.0116, + "step": 127640 + }, + { + "epoch": 0.816928, + "grad_norm": 0.07308641076087952, + "learning_rate": 1.4553813333333335e-05, + "loss": 0.0026, + "step": 127645 + }, + { + "epoch": 0.81696, + "grad_norm": 0.3881007134914398, + "learning_rate": 1.45536e-05, + "loss": 0.0112, + "step": 127650 + }, + { + "epoch": 0.816992, + "grad_norm": 0.44417279958724976, + "learning_rate": 1.4553386666666667e-05, + "loss": 0.007, + "step": 127655 + }, + { + "epoch": 0.817024, + "grad_norm": 0.3935421407222748, + "learning_rate": 1.4553173333333334e-05, + "loss": 0.0055, + "step": 127660 + }, + { + "epoch": 0.817056, + "grad_norm": 0.11291801929473877, + "learning_rate": 1.455296e-05, + "loss": 0.0143, + "step": 127665 + }, + { + "epoch": 0.817088, + "grad_norm": 0.571150541305542, + "learning_rate": 1.4552746666666668e-05, + "loss": 0.0111, + "step": 127670 + }, + { + "epoch": 0.81712, + "grad_norm": 0.11838336288928986, + "learning_rate": 1.4552533333333333e-05, + "loss": 0.0061, + "step": 127675 + }, + { + "epoch": 0.817152, + "grad_norm": 0.8616675734519958, + "learning_rate": 1.4552320000000003e-05, + "loss": 0.0096, + "step": 127680 + }, + { + "epoch": 0.817184, + "grad_norm": 0.22073985636234283, + "learning_rate": 1.4552106666666669e-05, + "loss": 0.0174, + "step": 127685 + }, + { + "epoch": 0.817216, + "grad_norm": 0.1199662834405899, + "learning_rate": 1.4551893333333333e-05, + "loss": 0.0167, + "step": 127690 + }, + { + "epoch": 0.817248, + "grad_norm": 0.2608118951320648, + "learning_rate": 1.4551680000000002e-05, + "loss": 0.0057, + "step": 127695 + }, + { + "epoch": 0.81728, + "grad_norm": 0.9348782896995544, + "learning_rate": 1.4551466666666668e-05, + "loss": 0.0086, + "step": 127700 + }, + { + "epoch": 0.817312, + "grad_norm": 0.025160765275359154, + "learning_rate": 1.4551253333333335e-05, + "loss": 0.0107, + "step": 127705 + }, + { + "epoch": 0.817344, + "grad_norm": 0.45380154252052307, + "learning_rate": 1.4551040000000001e-05, + "loss": 0.0055, + "step": 127710 + }, + { + "epoch": 0.817376, + "grad_norm": 0.032560043036937714, + "learning_rate": 1.4550826666666669e-05, + "loss": 0.0142, + "step": 127715 + }, + { + "epoch": 0.817408, + "grad_norm": 2.219376564025879, + "learning_rate": 1.4550613333333335e-05, + "loss": 0.0089, + "step": 127720 + }, + { + "epoch": 0.81744, + "grad_norm": 0.1147463247179985, + "learning_rate": 1.45504e-05, + "loss": 0.0079, + "step": 127725 + }, + { + "epoch": 0.817472, + "grad_norm": 0.46913397312164307, + "learning_rate": 1.4550186666666668e-05, + "loss": 0.0043, + "step": 127730 + }, + { + "epoch": 0.817504, + "grad_norm": 0.09040238708257675, + "learning_rate": 1.4549973333333334e-05, + "loss": 0.0142, + "step": 127735 + }, + { + "epoch": 0.817536, + "grad_norm": 0.3447456359863281, + "learning_rate": 1.4549760000000001e-05, + "loss": 0.0071, + "step": 127740 + }, + { + "epoch": 0.817568, + "grad_norm": 0.023448608815670013, + "learning_rate": 1.4549546666666667e-05, + "loss": 0.0168, + "step": 127745 + }, + { + "epoch": 0.8176, + "grad_norm": 0.2963658571243286, + "learning_rate": 1.4549333333333335e-05, + "loss": 0.0171, + "step": 127750 + }, + { + "epoch": 0.817632, + "grad_norm": 0.33259809017181396, + "learning_rate": 1.454912e-05, + "loss": 0.0022, + "step": 127755 + }, + { + "epoch": 0.817664, + "grad_norm": 0.43914350867271423, + "learning_rate": 1.4548906666666668e-05, + "loss": 0.0052, + "step": 127760 + }, + { + "epoch": 0.817696, + "grad_norm": 1.069512128829956, + "learning_rate": 1.4548693333333334e-05, + "loss": 0.0306, + "step": 127765 + }, + { + "epoch": 0.817728, + "grad_norm": 1.0517923831939697, + "learning_rate": 1.454848e-05, + "loss": 0.008, + "step": 127770 + }, + { + "epoch": 0.81776, + "grad_norm": 0.26633915305137634, + "learning_rate": 1.4548266666666668e-05, + "loss": 0.0053, + "step": 127775 + }, + { + "epoch": 0.817792, + "grad_norm": 0.4402379095554352, + "learning_rate": 1.4548053333333333e-05, + "loss": 0.0029, + "step": 127780 + }, + { + "epoch": 0.817824, + "grad_norm": 0.5416240096092224, + "learning_rate": 1.4547840000000003e-05, + "loss": 0.0188, + "step": 127785 + }, + { + "epoch": 0.817856, + "grad_norm": 0.4043256640434265, + "learning_rate": 1.4547626666666667e-05, + "loss": 0.0033, + "step": 127790 + }, + { + "epoch": 0.817888, + "grad_norm": 0.14431090652942657, + "learning_rate": 1.4547413333333336e-05, + "loss": 0.005, + "step": 127795 + }, + { + "epoch": 0.81792, + "grad_norm": 0.038471803069114685, + "learning_rate": 1.4547200000000002e-05, + "loss": 0.0122, + "step": 127800 + }, + { + "epoch": 0.817952, + "grad_norm": 0.3263178765773773, + "learning_rate": 1.4546986666666668e-05, + "loss": 0.0086, + "step": 127805 + }, + { + "epoch": 0.817984, + "grad_norm": 1.3326588869094849, + "learning_rate": 1.4546773333333335e-05, + "loss": 0.0232, + "step": 127810 + }, + { + "epoch": 0.818016, + "grad_norm": 0.2047707885503769, + "learning_rate": 1.4546560000000001e-05, + "loss": 0.0069, + "step": 127815 + }, + { + "epoch": 0.818048, + "grad_norm": 1.3557555675506592, + "learning_rate": 1.4546346666666669e-05, + "loss": 0.0175, + "step": 127820 + }, + { + "epoch": 0.81808, + "grad_norm": 0.01848646067082882, + "learning_rate": 1.4546133333333335e-05, + "loss": 0.0049, + "step": 127825 + }, + { + "epoch": 0.818112, + "grad_norm": 0.1816195398569107, + "learning_rate": 1.4545920000000002e-05, + "loss": 0.0062, + "step": 127830 + }, + { + "epoch": 0.818144, + "grad_norm": 0.23797805607318878, + "learning_rate": 1.4545706666666668e-05, + "loss": 0.0101, + "step": 127835 + }, + { + "epoch": 0.818176, + "grad_norm": 0.4727700650691986, + "learning_rate": 1.4545493333333334e-05, + "loss": 0.0056, + "step": 127840 + }, + { + "epoch": 0.818208, + "grad_norm": 0.4559694230556488, + "learning_rate": 1.4545280000000001e-05, + "loss": 0.0117, + "step": 127845 + }, + { + "epoch": 0.81824, + "grad_norm": 0.08091150224208832, + "learning_rate": 1.4545066666666667e-05, + "loss": 0.0042, + "step": 127850 + }, + { + "epoch": 0.818272, + "grad_norm": 0.07600488513708115, + "learning_rate": 1.4544853333333335e-05, + "loss": 0.0062, + "step": 127855 + }, + { + "epoch": 0.818304, + "grad_norm": 0.15576672554016113, + "learning_rate": 1.454464e-05, + "loss": 0.0093, + "step": 127860 + }, + { + "epoch": 0.818336, + "grad_norm": 0.2276674062013626, + "learning_rate": 1.4544426666666668e-05, + "loss": 0.009, + "step": 127865 + }, + { + "epoch": 0.818368, + "grad_norm": 1.091233253479004, + "learning_rate": 1.4544213333333334e-05, + "loss": 0.0076, + "step": 127870 + }, + { + "epoch": 0.8184, + "grad_norm": 0.10006911307573318, + "learning_rate": 1.4544e-05, + "loss": 0.0039, + "step": 127875 + }, + { + "epoch": 0.818432, + "grad_norm": 0.31609848141670227, + "learning_rate": 1.4543786666666668e-05, + "loss": 0.0048, + "step": 127880 + }, + { + "epoch": 0.818464, + "grad_norm": 0.18419861793518066, + "learning_rate": 1.4543573333333333e-05, + "loss": 0.0029, + "step": 127885 + }, + { + "epoch": 0.818496, + "grad_norm": 0.12712888419628143, + "learning_rate": 1.4543360000000003e-05, + "loss": 0.0124, + "step": 127890 + }, + { + "epoch": 0.818528, + "grad_norm": 0.7695624828338623, + "learning_rate": 1.4543146666666667e-05, + "loss": 0.0079, + "step": 127895 + }, + { + "epoch": 0.81856, + "grad_norm": 1.0125371217727661, + "learning_rate": 1.4542933333333336e-05, + "loss": 0.0381, + "step": 127900 + }, + { + "epoch": 0.818592, + "grad_norm": 0.7080800533294678, + "learning_rate": 1.4542720000000002e-05, + "loss": 0.0057, + "step": 127905 + }, + { + "epoch": 0.818624, + "grad_norm": 0.30664703249931335, + "learning_rate": 1.4542506666666668e-05, + "loss": 0.0055, + "step": 127910 + }, + { + "epoch": 0.818656, + "grad_norm": 0.8526321649551392, + "learning_rate": 1.4542293333333335e-05, + "loss": 0.0053, + "step": 127915 + }, + { + "epoch": 0.818688, + "grad_norm": 0.4345548748970032, + "learning_rate": 1.4542080000000001e-05, + "loss": 0.0102, + "step": 127920 + }, + { + "epoch": 0.81872, + "grad_norm": 0.9634281396865845, + "learning_rate": 1.4541866666666669e-05, + "loss": 0.0062, + "step": 127925 + }, + { + "epoch": 0.818752, + "grad_norm": 0.7138141393661499, + "learning_rate": 1.4541653333333335e-05, + "loss": 0.0106, + "step": 127930 + }, + { + "epoch": 0.818784, + "grad_norm": 0.0035846910905092955, + "learning_rate": 1.4541440000000002e-05, + "loss": 0.0192, + "step": 127935 + }, + { + "epoch": 0.818816, + "grad_norm": 0.7357877492904663, + "learning_rate": 1.4541226666666668e-05, + "loss": 0.0046, + "step": 127940 + }, + { + "epoch": 0.818848, + "grad_norm": 0.5542061924934387, + "learning_rate": 1.4541013333333334e-05, + "loss": 0.0083, + "step": 127945 + }, + { + "epoch": 0.81888, + "grad_norm": 0.22254499793052673, + "learning_rate": 1.4540800000000001e-05, + "loss": 0.0082, + "step": 127950 + }, + { + "epoch": 0.818912, + "grad_norm": 0.1819150596857071, + "learning_rate": 1.4540586666666667e-05, + "loss": 0.0037, + "step": 127955 + }, + { + "epoch": 0.818944, + "grad_norm": 0.5266276001930237, + "learning_rate": 1.4540373333333335e-05, + "loss": 0.0066, + "step": 127960 + }, + { + "epoch": 0.818976, + "grad_norm": 0.631525993347168, + "learning_rate": 1.454016e-05, + "loss": 0.0368, + "step": 127965 + }, + { + "epoch": 0.819008, + "grad_norm": 0.10367990285158157, + "learning_rate": 1.4539946666666668e-05, + "loss": 0.0182, + "step": 127970 + }, + { + "epoch": 0.81904, + "grad_norm": 0.542968213558197, + "learning_rate": 1.4539733333333334e-05, + "loss": 0.0135, + "step": 127975 + }, + { + "epoch": 0.819072, + "grad_norm": 1.4247798919677734, + "learning_rate": 1.453952e-05, + "loss": 0.0159, + "step": 127980 + }, + { + "epoch": 0.819104, + "grad_norm": 0.9742323160171509, + "learning_rate": 1.4539306666666668e-05, + "loss": 0.0057, + "step": 127985 + }, + { + "epoch": 0.819136, + "grad_norm": 0.1395508497953415, + "learning_rate": 1.4539093333333333e-05, + "loss": 0.0145, + "step": 127990 + }, + { + "epoch": 0.819168, + "grad_norm": 0.28169429302215576, + "learning_rate": 1.4538880000000003e-05, + "loss": 0.0062, + "step": 127995 + }, + { + "epoch": 0.8192, + "grad_norm": 0.11343250423669815, + "learning_rate": 1.4538666666666667e-05, + "loss": 0.0147, + "step": 128000 + }, + { + "epoch": 0.819232, + "grad_norm": 0.8160817623138428, + "learning_rate": 1.4538453333333336e-05, + "loss": 0.0106, + "step": 128005 + }, + { + "epoch": 0.819264, + "grad_norm": 0.17283375561237335, + "learning_rate": 1.4538240000000002e-05, + "loss": 0.0062, + "step": 128010 + }, + { + "epoch": 0.819296, + "grad_norm": 0.772654116153717, + "learning_rate": 1.4538026666666666e-05, + "loss": 0.0089, + "step": 128015 + }, + { + "epoch": 0.819328, + "grad_norm": 0.8031115531921387, + "learning_rate": 1.4537813333333335e-05, + "loss": 0.006, + "step": 128020 + }, + { + "epoch": 0.81936, + "grad_norm": 1.1163321733474731, + "learning_rate": 1.4537600000000001e-05, + "loss": 0.0102, + "step": 128025 + }, + { + "epoch": 0.819392, + "grad_norm": 0.438819944858551, + "learning_rate": 1.4537386666666669e-05, + "loss": 0.0036, + "step": 128030 + }, + { + "epoch": 0.819424, + "grad_norm": 0.401335209608078, + "learning_rate": 1.4537173333333335e-05, + "loss": 0.0033, + "step": 128035 + }, + { + "epoch": 0.819456, + "grad_norm": 0.9559035897254944, + "learning_rate": 1.4536960000000002e-05, + "loss": 0.0229, + "step": 128040 + }, + { + "epoch": 0.819488, + "grad_norm": 0.7831094861030579, + "learning_rate": 1.4536746666666668e-05, + "loss": 0.0095, + "step": 128045 + }, + { + "epoch": 0.81952, + "grad_norm": 0.011192113161087036, + "learning_rate": 1.4536533333333334e-05, + "loss": 0.0124, + "step": 128050 + }, + { + "epoch": 0.819552, + "grad_norm": 1.6447417736053467, + "learning_rate": 1.4536320000000001e-05, + "loss": 0.0085, + "step": 128055 + }, + { + "epoch": 0.819584, + "grad_norm": 1.0519284009933472, + "learning_rate": 1.4536106666666667e-05, + "loss": 0.0069, + "step": 128060 + }, + { + "epoch": 0.819616, + "grad_norm": 0.8287560939788818, + "learning_rate": 1.4535893333333335e-05, + "loss": 0.0175, + "step": 128065 + }, + { + "epoch": 0.819648, + "grad_norm": 0.7920653223991394, + "learning_rate": 1.453568e-05, + "loss": 0.0104, + "step": 128070 + }, + { + "epoch": 0.81968, + "grad_norm": 2.0561559200286865, + "learning_rate": 1.4535466666666668e-05, + "loss": 0.0111, + "step": 128075 + }, + { + "epoch": 0.819712, + "grad_norm": 0.29349568486213684, + "learning_rate": 1.4535253333333334e-05, + "loss": 0.0073, + "step": 128080 + }, + { + "epoch": 0.819744, + "grad_norm": 0.041634462773799896, + "learning_rate": 1.453504e-05, + "loss": 0.0083, + "step": 128085 + }, + { + "epoch": 0.819776, + "grad_norm": 0.48311668634414673, + "learning_rate": 1.4534826666666668e-05, + "loss": 0.0089, + "step": 128090 + }, + { + "epoch": 0.819808, + "grad_norm": 0.11746884137392044, + "learning_rate": 1.4534613333333333e-05, + "loss": 0.0083, + "step": 128095 + }, + { + "epoch": 0.81984, + "grad_norm": 0.584000825881958, + "learning_rate": 1.4534400000000003e-05, + "loss": 0.0095, + "step": 128100 + }, + { + "epoch": 0.819872, + "grad_norm": 0.07651090621948242, + "learning_rate": 1.4534186666666667e-05, + "loss": 0.0087, + "step": 128105 + }, + { + "epoch": 0.819904, + "grad_norm": 0.08736425638198853, + "learning_rate": 1.4533973333333336e-05, + "loss": 0.0032, + "step": 128110 + }, + { + "epoch": 0.819936, + "grad_norm": 0.5911211967468262, + "learning_rate": 1.4533760000000002e-05, + "loss": 0.0224, + "step": 128115 + }, + { + "epoch": 0.819968, + "grad_norm": 0.1529654562473297, + "learning_rate": 1.4533546666666666e-05, + "loss": 0.0172, + "step": 128120 + }, + { + "epoch": 0.82, + "grad_norm": 0.05223182216286659, + "learning_rate": 1.4533333333333335e-05, + "loss": 0.0021, + "step": 128125 + }, + { + "epoch": 0.820032, + "grad_norm": 0.13171039521694183, + "learning_rate": 1.4533120000000001e-05, + "loss": 0.0126, + "step": 128130 + }, + { + "epoch": 0.820064, + "grad_norm": 0.18547378480434418, + "learning_rate": 1.4532906666666669e-05, + "loss": 0.0053, + "step": 128135 + }, + { + "epoch": 0.820096, + "grad_norm": 0.011783335357904434, + "learning_rate": 1.4532693333333335e-05, + "loss": 0.0024, + "step": 128140 + }, + { + "epoch": 0.820128, + "grad_norm": 0.9763067960739136, + "learning_rate": 1.4532480000000002e-05, + "loss": 0.0083, + "step": 128145 + }, + { + "epoch": 0.82016, + "grad_norm": 0.3610662817955017, + "learning_rate": 1.4532266666666668e-05, + "loss": 0.004, + "step": 128150 + }, + { + "epoch": 0.820192, + "grad_norm": 0.824103832244873, + "learning_rate": 1.4532053333333334e-05, + "loss": 0.0109, + "step": 128155 + }, + { + "epoch": 0.820224, + "grad_norm": 0.39782702922821045, + "learning_rate": 1.4531840000000001e-05, + "loss": 0.0103, + "step": 128160 + }, + { + "epoch": 0.820256, + "grad_norm": 0.11148855090141296, + "learning_rate": 1.4531626666666667e-05, + "loss": 0.0153, + "step": 128165 + }, + { + "epoch": 0.820288, + "grad_norm": 0.7425826787948608, + "learning_rate": 1.4531413333333335e-05, + "loss": 0.0108, + "step": 128170 + }, + { + "epoch": 0.82032, + "grad_norm": 0.06298831105232239, + "learning_rate": 1.45312e-05, + "loss": 0.0143, + "step": 128175 + }, + { + "epoch": 0.820352, + "grad_norm": 0.04975300654768944, + "learning_rate": 1.4530986666666668e-05, + "loss": 0.001, + "step": 128180 + }, + { + "epoch": 0.820384, + "grad_norm": 0.06517443060874939, + "learning_rate": 1.4530773333333334e-05, + "loss": 0.008, + "step": 128185 + }, + { + "epoch": 0.820416, + "grad_norm": 0.2663985788822174, + "learning_rate": 1.453056e-05, + "loss": 0.004, + "step": 128190 + }, + { + "epoch": 0.820448, + "grad_norm": 0.3732748031616211, + "learning_rate": 1.4530346666666668e-05, + "loss": 0.0057, + "step": 128195 + }, + { + "epoch": 0.82048, + "grad_norm": 0.17537987232208252, + "learning_rate": 1.4530133333333333e-05, + "loss": 0.0037, + "step": 128200 + }, + { + "epoch": 0.820512, + "grad_norm": 2.71582293510437, + "learning_rate": 1.4529920000000001e-05, + "loss": 0.0121, + "step": 128205 + }, + { + "epoch": 0.820544, + "grad_norm": 0.6356288194656372, + "learning_rate": 1.4529706666666667e-05, + "loss": 0.0122, + "step": 128210 + }, + { + "epoch": 0.820576, + "grad_norm": 0.0758838951587677, + "learning_rate": 1.4529493333333336e-05, + "loss": 0.0074, + "step": 128215 + }, + { + "epoch": 0.820608, + "grad_norm": 0.31510356068611145, + "learning_rate": 1.4529280000000002e-05, + "loss": 0.0125, + "step": 128220 + }, + { + "epoch": 0.82064, + "grad_norm": 1.3585926294326782, + "learning_rate": 1.4529066666666666e-05, + "loss": 0.0077, + "step": 128225 + }, + { + "epoch": 0.820672, + "grad_norm": 0.07983250170946121, + "learning_rate": 1.4528853333333335e-05, + "loss": 0.0131, + "step": 128230 + }, + { + "epoch": 0.820704, + "grad_norm": 1.1479294300079346, + "learning_rate": 1.4528640000000001e-05, + "loss": 0.0092, + "step": 128235 + }, + { + "epoch": 0.820736, + "grad_norm": 0.37880146503448486, + "learning_rate": 1.4528426666666669e-05, + "loss": 0.005, + "step": 128240 + }, + { + "epoch": 0.820768, + "grad_norm": 0.19351309537887573, + "learning_rate": 1.4528213333333335e-05, + "loss": 0.0045, + "step": 128245 + }, + { + "epoch": 0.8208, + "grad_norm": 0.8794432878494263, + "learning_rate": 1.4528000000000002e-05, + "loss": 0.0115, + "step": 128250 + }, + { + "epoch": 0.820832, + "grad_norm": 0.7057819962501526, + "learning_rate": 1.4527786666666668e-05, + "loss": 0.0084, + "step": 128255 + }, + { + "epoch": 0.820864, + "grad_norm": 0.09966838359832764, + "learning_rate": 1.4527573333333334e-05, + "loss": 0.0011, + "step": 128260 + }, + { + "epoch": 0.820896, + "grad_norm": 0.040019772946834564, + "learning_rate": 1.4527360000000001e-05, + "loss": 0.0041, + "step": 128265 + }, + { + "epoch": 0.820928, + "grad_norm": 0.3322901725769043, + "learning_rate": 1.4527146666666667e-05, + "loss": 0.0054, + "step": 128270 + }, + { + "epoch": 0.82096, + "grad_norm": 0.1242886483669281, + "learning_rate": 1.4526933333333335e-05, + "loss": 0.0204, + "step": 128275 + }, + { + "epoch": 0.820992, + "grad_norm": 0.4019871950149536, + "learning_rate": 1.452672e-05, + "loss": 0.0053, + "step": 128280 + }, + { + "epoch": 0.821024, + "grad_norm": 0.017373843118548393, + "learning_rate": 1.4526506666666668e-05, + "loss": 0.0058, + "step": 128285 + }, + { + "epoch": 0.821056, + "grad_norm": 0.4102005958557129, + "learning_rate": 1.4526293333333334e-05, + "loss": 0.0262, + "step": 128290 + }, + { + "epoch": 0.821088, + "grad_norm": 0.29134541749954224, + "learning_rate": 1.452608e-05, + "loss": 0.0014, + "step": 128295 + }, + { + "epoch": 0.82112, + "grad_norm": 0.2694091200828552, + "learning_rate": 1.4525866666666668e-05, + "loss": 0.0271, + "step": 128300 + }, + { + "epoch": 0.821152, + "grad_norm": 0.11063462495803833, + "learning_rate": 1.4525653333333333e-05, + "loss": 0.0052, + "step": 128305 + }, + { + "epoch": 0.821184, + "grad_norm": 0.351095587015152, + "learning_rate": 1.4525440000000001e-05, + "loss": 0.012, + "step": 128310 + }, + { + "epoch": 0.821216, + "grad_norm": 0.5392700433731079, + "learning_rate": 1.4525226666666667e-05, + "loss": 0.007, + "step": 128315 + }, + { + "epoch": 0.821248, + "grad_norm": 0.5478351712226868, + "learning_rate": 1.4525013333333336e-05, + "loss": 0.0033, + "step": 128320 + }, + { + "epoch": 0.82128, + "grad_norm": 0.302720308303833, + "learning_rate": 1.4524800000000002e-05, + "loss": 0.0053, + "step": 128325 + }, + { + "epoch": 0.821312, + "grad_norm": 0.022187111899256706, + "learning_rate": 1.4524586666666666e-05, + "loss": 0.0059, + "step": 128330 + }, + { + "epoch": 0.821344, + "grad_norm": 0.6006339192390442, + "learning_rate": 1.4524373333333335e-05, + "loss": 0.0067, + "step": 128335 + }, + { + "epoch": 0.821376, + "grad_norm": 0.48894551396369934, + "learning_rate": 1.4524160000000001e-05, + "loss": 0.0094, + "step": 128340 + }, + { + "epoch": 0.821408, + "grad_norm": 0.05236785486340523, + "learning_rate": 1.4523946666666669e-05, + "loss": 0.0117, + "step": 128345 + }, + { + "epoch": 0.82144, + "grad_norm": 0.5836816430091858, + "learning_rate": 1.4523733333333335e-05, + "loss": 0.0215, + "step": 128350 + }, + { + "epoch": 0.821472, + "grad_norm": 0.29713669419288635, + "learning_rate": 1.4523520000000002e-05, + "loss": 0.0121, + "step": 128355 + }, + { + "epoch": 0.821504, + "grad_norm": 0.03382353112101555, + "learning_rate": 1.4523306666666668e-05, + "loss": 0.0129, + "step": 128360 + }, + { + "epoch": 0.821536, + "grad_norm": 0.7253467440605164, + "learning_rate": 1.4523093333333334e-05, + "loss": 0.0168, + "step": 128365 + }, + { + "epoch": 0.821568, + "grad_norm": 1.38698148727417, + "learning_rate": 1.4522880000000001e-05, + "loss": 0.0266, + "step": 128370 + }, + { + "epoch": 0.8216, + "grad_norm": 0.7993153929710388, + "learning_rate": 1.4522666666666667e-05, + "loss": 0.0155, + "step": 128375 + }, + { + "epoch": 0.821632, + "grad_norm": 0.05376552417874336, + "learning_rate": 1.4522453333333335e-05, + "loss": 0.0103, + "step": 128380 + }, + { + "epoch": 0.821664, + "grad_norm": 0.29384827613830566, + "learning_rate": 1.452224e-05, + "loss": 0.019, + "step": 128385 + }, + { + "epoch": 0.821696, + "grad_norm": 0.8733400702476501, + "learning_rate": 1.4522026666666668e-05, + "loss": 0.0182, + "step": 128390 + }, + { + "epoch": 0.821728, + "grad_norm": 0.06360433995723724, + "learning_rate": 1.4521813333333334e-05, + "loss": 0.011, + "step": 128395 + }, + { + "epoch": 0.82176, + "grad_norm": 0.16500166058540344, + "learning_rate": 1.45216e-05, + "loss": 0.0063, + "step": 128400 + }, + { + "epoch": 0.821792, + "grad_norm": 1.7996383905410767, + "learning_rate": 1.4521386666666668e-05, + "loss": 0.0088, + "step": 128405 + }, + { + "epoch": 0.821824, + "grad_norm": 0.398322194814682, + "learning_rate": 1.4521173333333333e-05, + "loss": 0.0037, + "step": 128410 + }, + { + "epoch": 0.821856, + "grad_norm": 0.08767805993556976, + "learning_rate": 1.4520960000000001e-05, + "loss": 0.0028, + "step": 128415 + }, + { + "epoch": 0.821888, + "grad_norm": 0.13177849352359772, + "learning_rate": 1.4520746666666667e-05, + "loss": 0.0197, + "step": 128420 + }, + { + "epoch": 0.82192, + "grad_norm": 0.616633415222168, + "learning_rate": 1.4520533333333336e-05, + "loss": 0.0189, + "step": 128425 + }, + { + "epoch": 0.821952, + "grad_norm": 0.33987998962402344, + "learning_rate": 1.452032e-05, + "loss": 0.0059, + "step": 128430 + }, + { + "epoch": 0.821984, + "grad_norm": 0.08990146219730377, + "learning_rate": 1.4520106666666666e-05, + "loss": 0.0055, + "step": 128435 + }, + { + "epoch": 0.822016, + "grad_norm": 0.2953244149684906, + "learning_rate": 1.4519893333333335e-05, + "loss": 0.007, + "step": 128440 + }, + { + "epoch": 0.822048, + "grad_norm": 0.20444755256175995, + "learning_rate": 1.4519680000000001e-05, + "loss": 0.0045, + "step": 128445 + }, + { + "epoch": 0.82208, + "grad_norm": 0.13244213163852692, + "learning_rate": 1.4519466666666669e-05, + "loss": 0.0085, + "step": 128450 + }, + { + "epoch": 0.822112, + "grad_norm": 0.37524697184562683, + "learning_rate": 1.4519253333333335e-05, + "loss": 0.0074, + "step": 128455 + }, + { + "epoch": 0.822144, + "grad_norm": 0.7813728451728821, + "learning_rate": 1.4519040000000002e-05, + "loss": 0.0082, + "step": 128460 + }, + { + "epoch": 0.822176, + "grad_norm": 1.2226309776306152, + "learning_rate": 1.4518826666666668e-05, + "loss": 0.0091, + "step": 128465 + }, + { + "epoch": 0.822208, + "grad_norm": 0.09146063029766083, + "learning_rate": 1.4518613333333334e-05, + "loss": 0.0118, + "step": 128470 + }, + { + "epoch": 0.82224, + "grad_norm": 0.3697156012058258, + "learning_rate": 1.4518400000000001e-05, + "loss": 0.0167, + "step": 128475 + }, + { + "epoch": 0.822272, + "grad_norm": 0.09023617953062057, + "learning_rate": 1.4518186666666667e-05, + "loss": 0.0015, + "step": 128480 + }, + { + "epoch": 0.822304, + "grad_norm": 0.44663572311401367, + "learning_rate": 1.4517973333333335e-05, + "loss": 0.0071, + "step": 128485 + }, + { + "epoch": 0.822336, + "grad_norm": 0.8552303910255432, + "learning_rate": 1.451776e-05, + "loss": 0.0112, + "step": 128490 + }, + { + "epoch": 0.822368, + "grad_norm": 0.19610784947872162, + "learning_rate": 1.4517546666666668e-05, + "loss": 0.0096, + "step": 128495 + }, + { + "epoch": 0.8224, + "grad_norm": 0.18680451810359955, + "learning_rate": 1.4517333333333334e-05, + "loss": 0.0332, + "step": 128500 + }, + { + "epoch": 0.822432, + "grad_norm": 0.10968954861164093, + "learning_rate": 1.451712e-05, + "loss": 0.0065, + "step": 128505 + }, + { + "epoch": 0.822464, + "grad_norm": 0.5792463421821594, + "learning_rate": 1.4516906666666668e-05, + "loss": 0.0116, + "step": 128510 + }, + { + "epoch": 0.822496, + "grad_norm": 0.3726655840873718, + "learning_rate": 1.4516693333333333e-05, + "loss": 0.0084, + "step": 128515 + }, + { + "epoch": 0.822528, + "grad_norm": 0.5001039505004883, + "learning_rate": 1.4516480000000001e-05, + "loss": 0.0064, + "step": 128520 + }, + { + "epoch": 0.82256, + "grad_norm": 3.873408317565918, + "learning_rate": 1.4516266666666667e-05, + "loss": 0.0071, + "step": 128525 + }, + { + "epoch": 0.822592, + "grad_norm": 0.5877463221549988, + "learning_rate": 1.4516053333333336e-05, + "loss": 0.0057, + "step": 128530 + }, + { + "epoch": 0.822624, + "grad_norm": 0.05944493040442467, + "learning_rate": 1.451584e-05, + "loss": 0.0164, + "step": 128535 + }, + { + "epoch": 0.822656, + "grad_norm": 0.9877415895462036, + "learning_rate": 1.4515626666666666e-05, + "loss": 0.0118, + "step": 128540 + }, + { + "epoch": 0.822688, + "grad_norm": 0.6023485064506531, + "learning_rate": 1.4515413333333335e-05, + "loss": 0.0048, + "step": 128545 + }, + { + "epoch": 0.82272, + "grad_norm": 1.9507789611816406, + "learning_rate": 1.4515200000000001e-05, + "loss": 0.0068, + "step": 128550 + }, + { + "epoch": 0.822752, + "grad_norm": 2.2474966049194336, + "learning_rate": 1.4514986666666669e-05, + "loss": 0.0122, + "step": 128555 + }, + { + "epoch": 0.822784, + "grad_norm": 0.5165335536003113, + "learning_rate": 1.4514773333333335e-05, + "loss": 0.0148, + "step": 128560 + }, + { + "epoch": 0.822816, + "grad_norm": 0.5581135153770447, + "learning_rate": 1.4514560000000002e-05, + "loss": 0.0224, + "step": 128565 + }, + { + "epoch": 0.822848, + "grad_norm": 0.3927813768386841, + "learning_rate": 1.4514346666666668e-05, + "loss": 0.0058, + "step": 128570 + }, + { + "epoch": 0.82288, + "grad_norm": 0.1529971808195114, + "learning_rate": 1.4514133333333336e-05, + "loss": 0.0094, + "step": 128575 + }, + { + "epoch": 0.822912, + "grad_norm": 0.36611905694007874, + "learning_rate": 1.4513920000000001e-05, + "loss": 0.0089, + "step": 128580 + }, + { + "epoch": 0.822944, + "grad_norm": 0.2786061763763428, + "learning_rate": 1.4513706666666667e-05, + "loss": 0.0079, + "step": 128585 + }, + { + "epoch": 0.822976, + "grad_norm": 0.1319674402475357, + "learning_rate": 1.4513493333333335e-05, + "loss": 0.0045, + "step": 128590 + }, + { + "epoch": 0.823008, + "grad_norm": 0.5060874223709106, + "learning_rate": 1.451328e-05, + "loss": 0.0053, + "step": 128595 + }, + { + "epoch": 0.82304, + "grad_norm": 0.47954726219177246, + "learning_rate": 1.4513066666666668e-05, + "loss": 0.0028, + "step": 128600 + }, + { + "epoch": 0.823072, + "grad_norm": 0.2060464322566986, + "learning_rate": 1.4512853333333334e-05, + "loss": 0.0028, + "step": 128605 + }, + { + "epoch": 0.823104, + "grad_norm": 0.2272184044122696, + "learning_rate": 1.4512640000000002e-05, + "loss": 0.0064, + "step": 128610 + }, + { + "epoch": 0.823136, + "grad_norm": 0.00997067615389824, + "learning_rate": 1.4512426666666668e-05, + "loss": 0.008, + "step": 128615 + }, + { + "epoch": 0.823168, + "grad_norm": 10.706503868103027, + "learning_rate": 1.4512213333333333e-05, + "loss": 0.0259, + "step": 128620 + }, + { + "epoch": 0.8232, + "grad_norm": 1.8962410688400269, + "learning_rate": 1.4512000000000001e-05, + "loss": 0.0199, + "step": 128625 + }, + { + "epoch": 0.823232, + "grad_norm": 0.01660889759659767, + "learning_rate": 1.4511786666666667e-05, + "loss": 0.0025, + "step": 128630 + }, + { + "epoch": 0.823264, + "grad_norm": 0.5832164287567139, + "learning_rate": 1.4511573333333336e-05, + "loss": 0.0126, + "step": 128635 + }, + { + "epoch": 0.823296, + "grad_norm": 0.11425855755805969, + "learning_rate": 1.451136e-05, + "loss": 0.0076, + "step": 128640 + }, + { + "epoch": 0.823328, + "grad_norm": 4.238290786743164, + "learning_rate": 1.451114666666667e-05, + "loss": 0.0204, + "step": 128645 + }, + { + "epoch": 0.82336, + "grad_norm": 0.7374347448348999, + "learning_rate": 1.4510933333333335e-05, + "loss": 0.0174, + "step": 128650 + }, + { + "epoch": 0.823392, + "grad_norm": 1.328511118888855, + "learning_rate": 1.451072e-05, + "loss": 0.008, + "step": 128655 + }, + { + "epoch": 0.823424, + "grad_norm": 0.45280665159225464, + "learning_rate": 1.4510506666666669e-05, + "loss": 0.0054, + "step": 128660 + }, + { + "epoch": 0.823456, + "grad_norm": 0.18325962126255035, + "learning_rate": 1.4510293333333335e-05, + "loss": 0.0139, + "step": 128665 + }, + { + "epoch": 0.823488, + "grad_norm": 0.08829747885465622, + "learning_rate": 1.4510080000000002e-05, + "loss": 0.0129, + "step": 128670 + }, + { + "epoch": 0.82352, + "grad_norm": 0.04297002777457237, + "learning_rate": 1.4509866666666668e-05, + "loss": 0.0101, + "step": 128675 + }, + { + "epoch": 0.823552, + "grad_norm": 0.07241711765527725, + "learning_rate": 1.4509653333333336e-05, + "loss": 0.0069, + "step": 128680 + }, + { + "epoch": 0.823584, + "grad_norm": 1.2254985570907593, + "learning_rate": 1.4509440000000001e-05, + "loss": 0.0302, + "step": 128685 + }, + { + "epoch": 0.823616, + "grad_norm": 0.09552415460348129, + "learning_rate": 1.4509226666666667e-05, + "loss": 0.017, + "step": 128690 + }, + { + "epoch": 0.823648, + "grad_norm": 1.2661277055740356, + "learning_rate": 1.4509013333333335e-05, + "loss": 0.0145, + "step": 128695 + }, + { + "epoch": 0.82368, + "grad_norm": 0.16714361310005188, + "learning_rate": 1.45088e-05, + "loss": 0.0025, + "step": 128700 + }, + { + "epoch": 0.823712, + "grad_norm": 0.628738284111023, + "learning_rate": 1.4508586666666668e-05, + "loss": 0.0083, + "step": 128705 + }, + { + "epoch": 0.823744, + "grad_norm": 0.015722474083304405, + "learning_rate": 1.4508373333333334e-05, + "loss": 0.0048, + "step": 128710 + }, + { + "epoch": 0.823776, + "grad_norm": 0.3961314558982849, + "learning_rate": 1.4508160000000002e-05, + "loss": 0.005, + "step": 128715 + }, + { + "epoch": 0.823808, + "grad_norm": 0.6696963906288147, + "learning_rate": 1.4507946666666668e-05, + "loss": 0.0127, + "step": 128720 + }, + { + "epoch": 0.82384, + "grad_norm": 0.027932781726121902, + "learning_rate": 1.4507733333333333e-05, + "loss": 0.0129, + "step": 128725 + }, + { + "epoch": 0.823872, + "grad_norm": 0.32371094822883606, + "learning_rate": 1.4507520000000001e-05, + "loss": 0.0033, + "step": 128730 + }, + { + "epoch": 0.823904, + "grad_norm": 0.06806876510381699, + "learning_rate": 1.4507306666666667e-05, + "loss": 0.0064, + "step": 128735 + }, + { + "epoch": 0.823936, + "grad_norm": 0.27976807951927185, + "learning_rate": 1.4507093333333334e-05, + "loss": 0.0027, + "step": 128740 + }, + { + "epoch": 0.823968, + "grad_norm": 0.1422213464975357, + "learning_rate": 1.450688e-05, + "loss": 0.0263, + "step": 128745 + }, + { + "epoch": 0.824, + "grad_norm": 0.014150995761156082, + "learning_rate": 1.450666666666667e-05, + "loss": 0.0031, + "step": 128750 + }, + { + "epoch": 0.824032, + "grad_norm": 0.12241524457931519, + "learning_rate": 1.4506453333333335e-05, + "loss": 0.0098, + "step": 128755 + }, + { + "epoch": 0.824064, + "grad_norm": 0.07890766113996506, + "learning_rate": 1.450624e-05, + "loss": 0.013, + "step": 128760 + }, + { + "epoch": 0.824096, + "grad_norm": 1.0222886800765991, + "learning_rate": 1.4506026666666669e-05, + "loss": 0.0088, + "step": 128765 + }, + { + "epoch": 0.824128, + "grad_norm": 0.06336208432912827, + "learning_rate": 1.4505813333333335e-05, + "loss": 0.0044, + "step": 128770 + }, + { + "epoch": 0.82416, + "grad_norm": 0.7179445028305054, + "learning_rate": 1.4505600000000002e-05, + "loss": 0.0096, + "step": 128775 + }, + { + "epoch": 0.824192, + "grad_norm": 0.8643386960029602, + "learning_rate": 1.4505386666666668e-05, + "loss": 0.0069, + "step": 128780 + }, + { + "epoch": 0.824224, + "grad_norm": 0.7872907519340515, + "learning_rate": 1.4505173333333336e-05, + "loss": 0.0073, + "step": 128785 + }, + { + "epoch": 0.824256, + "grad_norm": 0.5794882774353027, + "learning_rate": 1.4504960000000001e-05, + "loss": 0.0077, + "step": 128790 + }, + { + "epoch": 0.824288, + "grad_norm": 3.570991277694702, + "learning_rate": 1.4504746666666667e-05, + "loss": 0.0082, + "step": 128795 + }, + { + "epoch": 0.82432, + "grad_norm": 5.967519760131836, + "learning_rate": 1.4504533333333335e-05, + "loss": 0.0753, + "step": 128800 + }, + { + "epoch": 0.824352, + "grad_norm": 0.4331700801849365, + "learning_rate": 1.450432e-05, + "loss": 0.0061, + "step": 128805 + }, + { + "epoch": 0.824384, + "grad_norm": 0.3132544457912445, + "learning_rate": 1.4504106666666668e-05, + "loss": 0.0064, + "step": 128810 + }, + { + "epoch": 0.824416, + "grad_norm": 1.003994345664978, + "learning_rate": 1.4503893333333334e-05, + "loss": 0.0099, + "step": 128815 + }, + { + "epoch": 0.824448, + "grad_norm": 0.20662814378738403, + "learning_rate": 1.4503680000000002e-05, + "loss": 0.0084, + "step": 128820 + }, + { + "epoch": 0.82448, + "grad_norm": 0.1031348705291748, + "learning_rate": 1.4503466666666668e-05, + "loss": 0.0014, + "step": 128825 + }, + { + "epoch": 0.824512, + "grad_norm": 1.0192594528198242, + "learning_rate": 1.4503253333333333e-05, + "loss": 0.0157, + "step": 128830 + }, + { + "epoch": 0.824544, + "grad_norm": 0.9307452440261841, + "learning_rate": 1.4503040000000001e-05, + "loss": 0.0223, + "step": 128835 + }, + { + "epoch": 0.824576, + "grad_norm": 0.05330126732587814, + "learning_rate": 1.4502826666666667e-05, + "loss": 0.0101, + "step": 128840 + }, + { + "epoch": 0.824608, + "grad_norm": 0.08845355361700058, + "learning_rate": 1.4502613333333334e-05, + "loss": 0.0092, + "step": 128845 + }, + { + "epoch": 0.82464, + "grad_norm": 0.46163618564605713, + "learning_rate": 1.45024e-05, + "loss": 0.0089, + "step": 128850 + }, + { + "epoch": 0.824672, + "grad_norm": 0.19025079905986786, + "learning_rate": 1.450218666666667e-05, + "loss": 0.0061, + "step": 128855 + }, + { + "epoch": 0.824704, + "grad_norm": 0.06385863572359085, + "learning_rate": 1.4501973333333335e-05, + "loss": 0.0041, + "step": 128860 + }, + { + "epoch": 0.824736, + "grad_norm": 0.23461902141571045, + "learning_rate": 1.450176e-05, + "loss": 0.006, + "step": 128865 + }, + { + "epoch": 0.824768, + "grad_norm": 0.6900153756141663, + "learning_rate": 1.4501546666666669e-05, + "loss": 0.0122, + "step": 128870 + }, + { + "epoch": 0.8248, + "grad_norm": 0.6656714677810669, + "learning_rate": 1.4501333333333335e-05, + "loss": 0.0152, + "step": 128875 + }, + { + "epoch": 0.824832, + "grad_norm": 0.08890626579523087, + "learning_rate": 1.4501120000000002e-05, + "loss": 0.0084, + "step": 128880 + }, + { + "epoch": 0.824864, + "grad_norm": 0.9302655458450317, + "learning_rate": 1.4500906666666668e-05, + "loss": 0.0118, + "step": 128885 + }, + { + "epoch": 0.824896, + "grad_norm": 0.165602907538414, + "learning_rate": 1.4500693333333336e-05, + "loss": 0.0058, + "step": 128890 + }, + { + "epoch": 0.824928, + "grad_norm": 0.6843909025192261, + "learning_rate": 1.4500480000000001e-05, + "loss": 0.0087, + "step": 128895 + }, + { + "epoch": 0.82496, + "grad_norm": 0.22166751325130463, + "learning_rate": 1.4500266666666667e-05, + "loss": 0.0029, + "step": 128900 + }, + { + "epoch": 0.824992, + "grad_norm": 0.1955443024635315, + "learning_rate": 1.4500053333333335e-05, + "loss": 0.006, + "step": 128905 + }, + { + "epoch": 0.825024, + "grad_norm": 1.003485083580017, + "learning_rate": 1.449984e-05, + "loss": 0.0082, + "step": 128910 + }, + { + "epoch": 0.825056, + "grad_norm": 0.46050623059272766, + "learning_rate": 1.4499626666666668e-05, + "loss": 0.0113, + "step": 128915 + }, + { + "epoch": 0.825088, + "grad_norm": 0.20426905155181885, + "learning_rate": 1.4499413333333334e-05, + "loss": 0.0048, + "step": 128920 + }, + { + "epoch": 0.82512, + "grad_norm": 0.01284902635961771, + "learning_rate": 1.4499200000000002e-05, + "loss": 0.0039, + "step": 128925 + }, + { + "epoch": 0.825152, + "grad_norm": 0.051411449909210205, + "learning_rate": 1.4498986666666668e-05, + "loss": 0.002, + "step": 128930 + }, + { + "epoch": 0.825184, + "grad_norm": 0.15956172347068787, + "learning_rate": 1.4498773333333333e-05, + "loss": 0.0086, + "step": 128935 + }, + { + "epoch": 0.825216, + "grad_norm": 0.5196348428726196, + "learning_rate": 1.4498560000000001e-05, + "loss": 0.0139, + "step": 128940 + }, + { + "epoch": 0.825248, + "grad_norm": 0.5055538415908813, + "learning_rate": 1.4498346666666667e-05, + "loss": 0.0051, + "step": 128945 + }, + { + "epoch": 0.82528, + "grad_norm": 0.24477367103099823, + "learning_rate": 1.4498133333333334e-05, + "loss": 0.0081, + "step": 128950 + }, + { + "epoch": 0.825312, + "grad_norm": 0.052242349833250046, + "learning_rate": 1.449792e-05, + "loss": 0.0039, + "step": 128955 + }, + { + "epoch": 0.825344, + "grad_norm": 0.75069659948349, + "learning_rate": 1.449770666666667e-05, + "loss": 0.0126, + "step": 128960 + }, + { + "epoch": 0.825376, + "grad_norm": 0.41077280044555664, + "learning_rate": 1.4497493333333335e-05, + "loss": 0.0028, + "step": 128965 + }, + { + "epoch": 0.825408, + "grad_norm": 1.3569365739822388, + "learning_rate": 1.449728e-05, + "loss": 0.0076, + "step": 128970 + }, + { + "epoch": 0.82544, + "grad_norm": 1.1657934188842773, + "learning_rate": 1.4497066666666669e-05, + "loss": 0.015, + "step": 128975 + }, + { + "epoch": 0.825472, + "grad_norm": 0.2051149308681488, + "learning_rate": 1.4496853333333335e-05, + "loss": 0.0038, + "step": 128980 + }, + { + "epoch": 0.825504, + "grad_norm": 0.10753167420625687, + "learning_rate": 1.4496640000000002e-05, + "loss": 0.0095, + "step": 128985 + }, + { + "epoch": 0.825536, + "grad_norm": 0.03359410911798477, + "learning_rate": 1.4496426666666668e-05, + "loss": 0.0044, + "step": 128990 + }, + { + "epoch": 0.825568, + "grad_norm": 0.5584093928337097, + "learning_rate": 1.4496213333333336e-05, + "loss": 0.0049, + "step": 128995 + }, + { + "epoch": 0.8256, + "grad_norm": 0.8454844355583191, + "learning_rate": 1.4496000000000001e-05, + "loss": 0.0127, + "step": 129000 + }, + { + "epoch": 0.825632, + "grad_norm": 0.395153284072876, + "learning_rate": 1.4495786666666667e-05, + "loss": 0.0206, + "step": 129005 + }, + { + "epoch": 0.825664, + "grad_norm": 1.1910218000411987, + "learning_rate": 1.4495573333333335e-05, + "loss": 0.0134, + "step": 129010 + }, + { + "epoch": 0.825696, + "grad_norm": 0.19232988357543945, + "learning_rate": 1.449536e-05, + "loss": 0.0272, + "step": 129015 + }, + { + "epoch": 0.825728, + "grad_norm": 0.31804654002189636, + "learning_rate": 1.4495146666666668e-05, + "loss": 0.0029, + "step": 129020 + }, + { + "epoch": 0.82576, + "grad_norm": 0.44899284839630127, + "learning_rate": 1.4494933333333334e-05, + "loss": 0.0103, + "step": 129025 + }, + { + "epoch": 0.825792, + "grad_norm": 1.2667802572250366, + "learning_rate": 1.4494720000000002e-05, + "loss": 0.0162, + "step": 129030 + }, + { + "epoch": 0.825824, + "grad_norm": 0.380149781703949, + "learning_rate": 1.4494506666666668e-05, + "loss": 0.0069, + "step": 129035 + }, + { + "epoch": 0.825856, + "grad_norm": 0.9334306120872498, + "learning_rate": 1.4494293333333333e-05, + "loss": 0.0058, + "step": 129040 + }, + { + "epoch": 0.825888, + "grad_norm": 1.2384748458862305, + "learning_rate": 1.4494080000000001e-05, + "loss": 0.0267, + "step": 129045 + }, + { + "epoch": 0.82592, + "grad_norm": 0.12125002592802048, + "learning_rate": 1.4493866666666667e-05, + "loss": 0.0052, + "step": 129050 + }, + { + "epoch": 0.825952, + "grad_norm": 0.1592257022857666, + "learning_rate": 1.4493653333333334e-05, + "loss": 0.0085, + "step": 129055 + }, + { + "epoch": 0.825984, + "grad_norm": 0.07959941029548645, + "learning_rate": 1.449344e-05, + "loss": 0.0051, + "step": 129060 + }, + { + "epoch": 0.826016, + "grad_norm": 0.7780168056488037, + "learning_rate": 1.449322666666667e-05, + "loss": 0.0307, + "step": 129065 + }, + { + "epoch": 0.826048, + "grad_norm": 0.8336989283561707, + "learning_rate": 1.4493013333333334e-05, + "loss": 0.0098, + "step": 129070 + }, + { + "epoch": 0.82608, + "grad_norm": 0.07622076570987701, + "learning_rate": 1.44928e-05, + "loss": 0.0075, + "step": 129075 + }, + { + "epoch": 0.826112, + "grad_norm": 0.3940463662147522, + "learning_rate": 1.4492586666666669e-05, + "loss": 0.0041, + "step": 129080 + }, + { + "epoch": 0.826144, + "grad_norm": 1.422376275062561, + "learning_rate": 1.4492373333333335e-05, + "loss": 0.0222, + "step": 129085 + }, + { + "epoch": 0.826176, + "grad_norm": 1.7702178955078125, + "learning_rate": 1.4492160000000002e-05, + "loss": 0.0158, + "step": 129090 + }, + { + "epoch": 0.826208, + "grad_norm": 0.033252887427806854, + "learning_rate": 1.4491946666666668e-05, + "loss": 0.005, + "step": 129095 + }, + { + "epoch": 0.82624, + "grad_norm": 0.3956618905067444, + "learning_rate": 1.4491733333333336e-05, + "loss": 0.0078, + "step": 129100 + }, + { + "epoch": 0.826272, + "grad_norm": 0.058155179023742676, + "learning_rate": 1.4491520000000001e-05, + "loss": 0.0057, + "step": 129105 + }, + { + "epoch": 0.826304, + "grad_norm": 0.4888915419578552, + "learning_rate": 1.4491306666666667e-05, + "loss": 0.006, + "step": 129110 + }, + { + "epoch": 0.826336, + "grad_norm": 1.791234016418457, + "learning_rate": 1.4491093333333335e-05, + "loss": 0.0207, + "step": 129115 + }, + { + "epoch": 0.826368, + "grad_norm": 0.1935015767812729, + "learning_rate": 1.449088e-05, + "loss": 0.0052, + "step": 129120 + }, + { + "epoch": 0.8264, + "grad_norm": 0.4872112572193146, + "learning_rate": 1.4490666666666668e-05, + "loss": 0.0091, + "step": 129125 + }, + { + "epoch": 0.826432, + "grad_norm": 0.01566004566848278, + "learning_rate": 1.4490453333333334e-05, + "loss": 0.0097, + "step": 129130 + }, + { + "epoch": 0.826464, + "grad_norm": 0.7101907134056091, + "learning_rate": 1.4490240000000002e-05, + "loss": 0.01, + "step": 129135 + }, + { + "epoch": 0.826496, + "grad_norm": 0.3629744350910187, + "learning_rate": 1.4490026666666668e-05, + "loss": 0.0235, + "step": 129140 + }, + { + "epoch": 0.826528, + "grad_norm": 1.0563035011291504, + "learning_rate": 1.4489813333333333e-05, + "loss": 0.0064, + "step": 129145 + }, + { + "epoch": 0.82656, + "grad_norm": 0.03191104158759117, + "learning_rate": 1.4489600000000001e-05, + "loss": 0.0088, + "step": 129150 + }, + { + "epoch": 0.826592, + "grad_norm": 0.5321223139762878, + "learning_rate": 1.4489386666666667e-05, + "loss": 0.0136, + "step": 129155 + }, + { + "epoch": 0.826624, + "grad_norm": 0.9618298411369324, + "learning_rate": 1.4489173333333334e-05, + "loss": 0.0095, + "step": 129160 + }, + { + "epoch": 0.826656, + "grad_norm": 0.09077798575162888, + "learning_rate": 1.448896e-05, + "loss": 0.0118, + "step": 129165 + }, + { + "epoch": 0.826688, + "grad_norm": 1.1238445043563843, + "learning_rate": 1.448874666666667e-05, + "loss": 0.0181, + "step": 129170 + }, + { + "epoch": 0.82672, + "grad_norm": 0.7307310104370117, + "learning_rate": 1.4488533333333334e-05, + "loss": 0.0089, + "step": 129175 + }, + { + "epoch": 0.826752, + "grad_norm": 0.42605724930763245, + "learning_rate": 1.448832e-05, + "loss": 0.0081, + "step": 129180 + }, + { + "epoch": 0.826784, + "grad_norm": 0.42655277252197266, + "learning_rate": 1.4488106666666669e-05, + "loss": 0.0087, + "step": 129185 + }, + { + "epoch": 0.826816, + "grad_norm": 0.7359203696250916, + "learning_rate": 1.4487893333333335e-05, + "loss": 0.0095, + "step": 129190 + }, + { + "epoch": 0.826848, + "grad_norm": 0.8038769960403442, + "learning_rate": 1.4487680000000002e-05, + "loss": 0.0075, + "step": 129195 + }, + { + "epoch": 0.82688, + "grad_norm": 1.5448558330535889, + "learning_rate": 1.4487466666666668e-05, + "loss": 0.0067, + "step": 129200 + }, + { + "epoch": 0.826912, + "grad_norm": 0.44107335805892944, + "learning_rate": 1.4487253333333336e-05, + "loss": 0.0032, + "step": 129205 + }, + { + "epoch": 0.826944, + "grad_norm": 0.5056012868881226, + "learning_rate": 1.4487040000000001e-05, + "loss": 0.0149, + "step": 129210 + }, + { + "epoch": 0.826976, + "grad_norm": 0.7541787624359131, + "learning_rate": 1.4486826666666667e-05, + "loss": 0.0275, + "step": 129215 + }, + { + "epoch": 0.827008, + "grad_norm": 1.6614199876785278, + "learning_rate": 1.4486613333333335e-05, + "loss": 0.0207, + "step": 129220 + }, + { + "epoch": 0.82704, + "grad_norm": 1.838575839996338, + "learning_rate": 1.44864e-05, + "loss": 0.0053, + "step": 129225 + }, + { + "epoch": 0.827072, + "grad_norm": 0.38871797919273376, + "learning_rate": 1.4486186666666668e-05, + "loss": 0.0063, + "step": 129230 + }, + { + "epoch": 0.827104, + "grad_norm": 0.6512476205825806, + "learning_rate": 1.4485973333333334e-05, + "loss": 0.0068, + "step": 129235 + }, + { + "epoch": 0.827136, + "grad_norm": 0.2520659863948822, + "learning_rate": 1.4485760000000002e-05, + "loss": 0.0083, + "step": 129240 + }, + { + "epoch": 0.827168, + "grad_norm": 0.1573961079120636, + "learning_rate": 1.4485546666666668e-05, + "loss": 0.0023, + "step": 129245 + }, + { + "epoch": 0.8272, + "grad_norm": 0.30357664823532104, + "learning_rate": 1.4485333333333333e-05, + "loss": 0.0054, + "step": 129250 + }, + { + "epoch": 0.827232, + "grad_norm": 0.06487125158309937, + "learning_rate": 1.4485120000000001e-05, + "loss": 0.0072, + "step": 129255 + }, + { + "epoch": 0.827264, + "grad_norm": 0.029565919190645218, + "learning_rate": 1.4484906666666667e-05, + "loss": 0.0349, + "step": 129260 + }, + { + "epoch": 0.827296, + "grad_norm": 0.2347351461648941, + "learning_rate": 1.4484693333333334e-05, + "loss": 0.0066, + "step": 129265 + }, + { + "epoch": 0.827328, + "grad_norm": 0.2767600119113922, + "learning_rate": 1.448448e-05, + "loss": 0.0121, + "step": 129270 + }, + { + "epoch": 0.82736, + "grad_norm": 0.19764529168605804, + "learning_rate": 1.448426666666667e-05, + "loss": 0.0187, + "step": 129275 + }, + { + "epoch": 0.827392, + "grad_norm": 0.6875014901161194, + "learning_rate": 1.4484053333333334e-05, + "loss": 0.0156, + "step": 129280 + }, + { + "epoch": 0.827424, + "grad_norm": 0.10888110101222992, + "learning_rate": 1.448384e-05, + "loss": 0.0046, + "step": 129285 + }, + { + "epoch": 0.827456, + "grad_norm": 0.0726645290851593, + "learning_rate": 1.4483626666666669e-05, + "loss": 0.002, + "step": 129290 + }, + { + "epoch": 0.827488, + "grad_norm": 0.02366969734430313, + "learning_rate": 1.4483413333333333e-05, + "loss": 0.0099, + "step": 129295 + }, + { + "epoch": 0.82752, + "grad_norm": 0.7665406465530396, + "learning_rate": 1.4483200000000002e-05, + "loss": 0.0057, + "step": 129300 + }, + { + "epoch": 0.827552, + "grad_norm": 0.43943285942077637, + "learning_rate": 1.4482986666666668e-05, + "loss": 0.0113, + "step": 129305 + }, + { + "epoch": 0.827584, + "grad_norm": 0.5567420125007629, + "learning_rate": 1.4482773333333336e-05, + "loss": 0.0041, + "step": 129310 + }, + { + "epoch": 0.827616, + "grad_norm": 0.5866021513938904, + "learning_rate": 1.4482560000000001e-05, + "loss": 0.0068, + "step": 129315 + }, + { + "epoch": 0.827648, + "grad_norm": 0.1652679145336151, + "learning_rate": 1.4482346666666667e-05, + "loss": 0.0032, + "step": 129320 + }, + { + "epoch": 0.82768, + "grad_norm": 0.16231206059455872, + "learning_rate": 1.4482133333333335e-05, + "loss": 0.0066, + "step": 129325 + }, + { + "epoch": 0.827712, + "grad_norm": 0.638692319393158, + "learning_rate": 1.448192e-05, + "loss": 0.0037, + "step": 129330 + }, + { + "epoch": 0.827744, + "grad_norm": 0.14962388575077057, + "learning_rate": 1.4481706666666668e-05, + "loss": 0.0131, + "step": 129335 + }, + { + "epoch": 0.827776, + "grad_norm": 0.5899540185928345, + "learning_rate": 1.4481493333333334e-05, + "loss": 0.01, + "step": 129340 + }, + { + "epoch": 0.827808, + "grad_norm": 0.5338695049285889, + "learning_rate": 1.4481280000000002e-05, + "loss": 0.0039, + "step": 129345 + }, + { + "epoch": 0.82784, + "grad_norm": 0.6100891828536987, + "learning_rate": 1.4481066666666668e-05, + "loss": 0.0045, + "step": 129350 + }, + { + "epoch": 0.827872, + "grad_norm": 0.4087477922439575, + "learning_rate": 1.4480853333333333e-05, + "loss": 0.0113, + "step": 129355 + }, + { + "epoch": 0.827904, + "grad_norm": 0.00586466770619154, + "learning_rate": 1.4480640000000001e-05, + "loss": 0.0051, + "step": 129360 + }, + { + "epoch": 0.827936, + "grad_norm": 0.9106659889221191, + "learning_rate": 1.4480426666666667e-05, + "loss": 0.0053, + "step": 129365 + }, + { + "epoch": 0.827968, + "grad_norm": 0.024997085332870483, + "learning_rate": 1.4480213333333334e-05, + "loss": 0.005, + "step": 129370 + }, + { + "epoch": 0.828, + "grad_norm": 0.2511048913002014, + "learning_rate": 1.448e-05, + "loss": 0.0047, + "step": 129375 + }, + { + "epoch": 0.828032, + "grad_norm": 0.46900755167007446, + "learning_rate": 1.4479786666666668e-05, + "loss": 0.0094, + "step": 129380 + }, + { + "epoch": 0.828064, + "grad_norm": 0.7796251177787781, + "learning_rate": 1.4479573333333334e-05, + "loss": 0.0154, + "step": 129385 + }, + { + "epoch": 0.828096, + "grad_norm": 0.043221183121204376, + "learning_rate": 1.447936e-05, + "loss": 0.006, + "step": 129390 + }, + { + "epoch": 0.828128, + "grad_norm": 0.7071965336799622, + "learning_rate": 1.4479146666666669e-05, + "loss": 0.0163, + "step": 129395 + }, + { + "epoch": 0.82816, + "grad_norm": 0.16759778559207916, + "learning_rate": 1.4478933333333333e-05, + "loss": 0.0053, + "step": 129400 + }, + { + "epoch": 0.828192, + "grad_norm": 0.18933245539665222, + "learning_rate": 1.4478720000000002e-05, + "loss": 0.0074, + "step": 129405 + }, + { + "epoch": 0.828224, + "grad_norm": 0.41224735975265503, + "learning_rate": 1.4478506666666668e-05, + "loss": 0.0061, + "step": 129410 + }, + { + "epoch": 0.828256, + "grad_norm": 0.42478135228157043, + "learning_rate": 1.4478293333333336e-05, + "loss": 0.0226, + "step": 129415 + }, + { + "epoch": 0.828288, + "grad_norm": 0.1807178556919098, + "learning_rate": 1.4478080000000001e-05, + "loss": 0.0243, + "step": 129420 + }, + { + "epoch": 0.82832, + "grad_norm": 0.05104699730873108, + "learning_rate": 1.4477866666666669e-05, + "loss": 0.0076, + "step": 129425 + }, + { + "epoch": 0.828352, + "grad_norm": 0.6790568232536316, + "learning_rate": 1.4477653333333335e-05, + "loss": 0.0191, + "step": 129430 + }, + { + "epoch": 0.828384, + "grad_norm": 0.2706807851791382, + "learning_rate": 1.447744e-05, + "loss": 0.0103, + "step": 129435 + }, + { + "epoch": 0.828416, + "grad_norm": 0.526006281375885, + "learning_rate": 1.4477226666666668e-05, + "loss": 0.0095, + "step": 129440 + }, + { + "epoch": 0.828448, + "grad_norm": 0.1780005544424057, + "learning_rate": 1.4477013333333334e-05, + "loss": 0.0052, + "step": 129445 + }, + { + "epoch": 0.82848, + "grad_norm": 1.0435762405395508, + "learning_rate": 1.4476800000000002e-05, + "loss": 0.0137, + "step": 129450 + }, + { + "epoch": 0.828512, + "grad_norm": 0.047554463148117065, + "learning_rate": 1.4476586666666668e-05, + "loss": 0.0013, + "step": 129455 + }, + { + "epoch": 0.828544, + "grad_norm": 0.7460799813270569, + "learning_rate": 1.4476373333333335e-05, + "loss": 0.0172, + "step": 129460 + }, + { + "epoch": 0.828576, + "grad_norm": 0.6748856902122498, + "learning_rate": 1.4476160000000001e-05, + "loss": 0.0126, + "step": 129465 + }, + { + "epoch": 0.828608, + "grad_norm": 0.4985000789165497, + "learning_rate": 1.4475946666666667e-05, + "loss": 0.0318, + "step": 129470 + }, + { + "epoch": 0.82864, + "grad_norm": 0.03285054862499237, + "learning_rate": 1.4475733333333334e-05, + "loss": 0.0045, + "step": 129475 + }, + { + "epoch": 0.828672, + "grad_norm": 0.02581077814102173, + "learning_rate": 1.447552e-05, + "loss": 0.0051, + "step": 129480 + }, + { + "epoch": 0.828704, + "grad_norm": 0.24672207236289978, + "learning_rate": 1.4475306666666668e-05, + "loss": 0.009, + "step": 129485 + }, + { + "epoch": 0.828736, + "grad_norm": 0.5800736546516418, + "learning_rate": 1.4475093333333334e-05, + "loss": 0.0187, + "step": 129490 + }, + { + "epoch": 0.828768, + "grad_norm": 1.5133758783340454, + "learning_rate": 1.4474880000000003e-05, + "loss": 0.0097, + "step": 129495 + }, + { + "epoch": 0.8288, + "grad_norm": 0.04919451102614403, + "learning_rate": 1.4474666666666669e-05, + "loss": 0.004, + "step": 129500 + }, + { + "epoch": 0.828832, + "grad_norm": 0.08097606897354126, + "learning_rate": 1.4474453333333333e-05, + "loss": 0.0052, + "step": 129505 + }, + { + "epoch": 0.828864, + "grad_norm": 0.8574029207229614, + "learning_rate": 1.4474240000000002e-05, + "loss": 0.0022, + "step": 129510 + }, + { + "epoch": 0.828896, + "grad_norm": 0.12235313653945923, + "learning_rate": 1.4474026666666668e-05, + "loss": 0.0036, + "step": 129515 + }, + { + "epoch": 0.828928, + "grad_norm": 0.1285088062286377, + "learning_rate": 1.4473813333333336e-05, + "loss": 0.0025, + "step": 129520 + }, + { + "epoch": 0.82896, + "grad_norm": 0.5283985137939453, + "learning_rate": 1.4473600000000001e-05, + "loss": 0.0116, + "step": 129525 + }, + { + "epoch": 0.828992, + "grad_norm": 0.5695704817771912, + "learning_rate": 1.4473386666666669e-05, + "loss": 0.0211, + "step": 129530 + }, + { + "epoch": 0.829024, + "grad_norm": 0.2813098728656769, + "learning_rate": 1.4473173333333335e-05, + "loss": 0.0077, + "step": 129535 + }, + { + "epoch": 0.829056, + "grad_norm": 1.1580208539962769, + "learning_rate": 1.447296e-05, + "loss": 0.0207, + "step": 129540 + }, + { + "epoch": 0.829088, + "grad_norm": 0.7600200176239014, + "learning_rate": 1.4472746666666668e-05, + "loss": 0.011, + "step": 129545 + }, + { + "epoch": 0.82912, + "grad_norm": 0.6072691679000854, + "learning_rate": 1.4472533333333334e-05, + "loss": 0.0042, + "step": 129550 + }, + { + "epoch": 0.829152, + "grad_norm": 0.2258751094341278, + "learning_rate": 1.4472320000000002e-05, + "loss": 0.0072, + "step": 129555 + }, + { + "epoch": 0.829184, + "grad_norm": 0.8342687487602234, + "learning_rate": 1.4472106666666668e-05, + "loss": 0.013, + "step": 129560 + }, + { + "epoch": 0.829216, + "grad_norm": 0.4371781349182129, + "learning_rate": 1.4471893333333335e-05, + "loss": 0.0023, + "step": 129565 + }, + { + "epoch": 0.829248, + "grad_norm": 0.19596067070960999, + "learning_rate": 1.4471680000000001e-05, + "loss": 0.0085, + "step": 129570 + }, + { + "epoch": 0.82928, + "grad_norm": 0.1695091873407364, + "learning_rate": 1.4471466666666667e-05, + "loss": 0.0071, + "step": 129575 + }, + { + "epoch": 0.829312, + "grad_norm": 0.6945763826370239, + "learning_rate": 1.4471253333333334e-05, + "loss": 0.0115, + "step": 129580 + }, + { + "epoch": 0.829344, + "grad_norm": 1.979562759399414, + "learning_rate": 1.447104e-05, + "loss": 0.0153, + "step": 129585 + }, + { + "epoch": 0.829376, + "grad_norm": 0.024356333538889885, + "learning_rate": 1.4470826666666668e-05, + "loss": 0.0052, + "step": 129590 + }, + { + "epoch": 0.829408, + "grad_norm": 0.03798903524875641, + "learning_rate": 1.4470613333333334e-05, + "loss": 0.0025, + "step": 129595 + }, + { + "epoch": 0.82944, + "grad_norm": 0.7495524287223816, + "learning_rate": 1.4470400000000003e-05, + "loss": 0.0071, + "step": 129600 + }, + { + "epoch": 0.829472, + "grad_norm": 0.5165796875953674, + "learning_rate": 1.4470186666666667e-05, + "loss": 0.012, + "step": 129605 + }, + { + "epoch": 0.829504, + "grad_norm": 0.2436792552471161, + "learning_rate": 1.4469973333333333e-05, + "loss": 0.0285, + "step": 129610 + }, + { + "epoch": 0.829536, + "grad_norm": 0.4144898056983948, + "learning_rate": 1.4469760000000002e-05, + "loss": 0.0066, + "step": 129615 + }, + { + "epoch": 0.829568, + "grad_norm": 0.640167236328125, + "learning_rate": 1.4469546666666668e-05, + "loss": 0.0128, + "step": 129620 + }, + { + "epoch": 0.8296, + "grad_norm": 0.28636860847473145, + "learning_rate": 1.4469333333333336e-05, + "loss": 0.0027, + "step": 129625 + }, + { + "epoch": 0.829632, + "grad_norm": 1.4209282398223877, + "learning_rate": 1.4469120000000001e-05, + "loss": 0.0182, + "step": 129630 + }, + { + "epoch": 0.829664, + "grad_norm": 0.7098771333694458, + "learning_rate": 1.4468906666666669e-05, + "loss": 0.0048, + "step": 129635 + }, + { + "epoch": 0.829696, + "grad_norm": 0.025686703622341156, + "learning_rate": 1.4468693333333335e-05, + "loss": 0.0049, + "step": 129640 + }, + { + "epoch": 0.829728, + "grad_norm": 0.2061154842376709, + "learning_rate": 1.446848e-05, + "loss": 0.0081, + "step": 129645 + }, + { + "epoch": 0.82976, + "grad_norm": 0.24542799592018127, + "learning_rate": 1.4468266666666668e-05, + "loss": 0.0073, + "step": 129650 + }, + { + "epoch": 0.829792, + "grad_norm": 0.6660131812095642, + "learning_rate": 1.4468053333333334e-05, + "loss": 0.01, + "step": 129655 + }, + { + "epoch": 0.829824, + "grad_norm": 0.5142813920974731, + "learning_rate": 1.4467840000000002e-05, + "loss": 0.0197, + "step": 129660 + }, + { + "epoch": 0.829856, + "grad_norm": 0.34769734740257263, + "learning_rate": 1.4467626666666668e-05, + "loss": 0.0085, + "step": 129665 + }, + { + "epoch": 0.829888, + "grad_norm": 0.09900899231433868, + "learning_rate": 1.4467413333333335e-05, + "loss": 0.0043, + "step": 129670 + }, + { + "epoch": 0.82992, + "grad_norm": 0.014406692236661911, + "learning_rate": 1.4467200000000001e-05, + "loss": 0.0111, + "step": 129675 + }, + { + "epoch": 0.829952, + "grad_norm": 1.3772852420806885, + "learning_rate": 1.4466986666666667e-05, + "loss": 0.0219, + "step": 129680 + }, + { + "epoch": 0.829984, + "grad_norm": 2.8105838298797607, + "learning_rate": 1.4466773333333334e-05, + "loss": 0.0167, + "step": 129685 + }, + { + "epoch": 0.830016, + "grad_norm": 0.2776966392993927, + "learning_rate": 1.446656e-05, + "loss": 0.0068, + "step": 129690 + }, + { + "epoch": 0.830048, + "grad_norm": 0.5671809911727905, + "learning_rate": 1.4466346666666668e-05, + "loss": 0.008, + "step": 129695 + }, + { + "epoch": 0.83008, + "grad_norm": 0.4595926105976105, + "learning_rate": 1.4466133333333334e-05, + "loss": 0.008, + "step": 129700 + }, + { + "epoch": 0.830112, + "grad_norm": 0.16127023100852966, + "learning_rate": 1.4465920000000003e-05, + "loss": 0.0048, + "step": 129705 + }, + { + "epoch": 0.830144, + "grad_norm": 0.045076318085193634, + "learning_rate": 1.4465706666666667e-05, + "loss": 0.0039, + "step": 129710 + }, + { + "epoch": 0.830176, + "grad_norm": 0.583460807800293, + "learning_rate": 1.4465493333333333e-05, + "loss": 0.0056, + "step": 129715 + }, + { + "epoch": 0.830208, + "grad_norm": 0.0861758291721344, + "learning_rate": 1.4465280000000002e-05, + "loss": 0.0075, + "step": 129720 + }, + { + "epoch": 0.83024, + "grad_norm": 0.21954549849033356, + "learning_rate": 1.4465066666666668e-05, + "loss": 0.0026, + "step": 129725 + }, + { + "epoch": 0.830272, + "grad_norm": 0.11529073864221573, + "learning_rate": 1.4464853333333336e-05, + "loss": 0.0205, + "step": 129730 + }, + { + "epoch": 0.830304, + "grad_norm": 0.7224681973457336, + "learning_rate": 1.4464640000000001e-05, + "loss": 0.0044, + "step": 129735 + }, + { + "epoch": 0.830336, + "grad_norm": 0.035922590643167496, + "learning_rate": 1.4464426666666669e-05, + "loss": 0.0171, + "step": 129740 + }, + { + "epoch": 0.830368, + "grad_norm": 0.5940204858779907, + "learning_rate": 1.4464213333333335e-05, + "loss": 0.0054, + "step": 129745 + }, + { + "epoch": 0.8304, + "grad_norm": 0.009356263093650341, + "learning_rate": 1.4464e-05, + "loss": 0.0099, + "step": 129750 + }, + { + "epoch": 0.830432, + "grad_norm": 0.31134170293807983, + "learning_rate": 1.4463786666666668e-05, + "loss": 0.021, + "step": 129755 + }, + { + "epoch": 0.830464, + "grad_norm": 0.6026427745819092, + "learning_rate": 1.4463573333333334e-05, + "loss": 0.015, + "step": 129760 + }, + { + "epoch": 0.830496, + "grad_norm": 0.5955929756164551, + "learning_rate": 1.4463360000000002e-05, + "loss": 0.0067, + "step": 129765 + }, + { + "epoch": 0.830528, + "grad_norm": 0.0979970172047615, + "learning_rate": 1.4463146666666668e-05, + "loss": 0.0037, + "step": 129770 + }, + { + "epoch": 0.83056, + "grad_norm": 0.33029577136039734, + "learning_rate": 1.4462933333333335e-05, + "loss": 0.0058, + "step": 129775 + }, + { + "epoch": 0.830592, + "grad_norm": 0.6887533664703369, + "learning_rate": 1.4462720000000001e-05, + "loss": 0.0103, + "step": 129780 + }, + { + "epoch": 0.830624, + "grad_norm": 0.13208116590976715, + "learning_rate": 1.4462506666666667e-05, + "loss": 0.0072, + "step": 129785 + }, + { + "epoch": 0.830656, + "grad_norm": 0.05480002984404564, + "learning_rate": 1.4462293333333334e-05, + "loss": 0.0015, + "step": 129790 + }, + { + "epoch": 0.830688, + "grad_norm": 0.2720901370048523, + "learning_rate": 1.446208e-05, + "loss": 0.0066, + "step": 129795 + }, + { + "epoch": 0.83072, + "grad_norm": 0.5056546330451965, + "learning_rate": 1.4461866666666668e-05, + "loss": 0.0064, + "step": 129800 + }, + { + "epoch": 0.830752, + "grad_norm": 0.1405760645866394, + "learning_rate": 1.4461653333333334e-05, + "loss": 0.0033, + "step": 129805 + }, + { + "epoch": 0.830784, + "grad_norm": 0.12518525123596191, + "learning_rate": 1.4461440000000003e-05, + "loss": 0.0219, + "step": 129810 + }, + { + "epoch": 0.830816, + "grad_norm": 0.1762508898973465, + "learning_rate": 1.4461226666666667e-05, + "loss": 0.0057, + "step": 129815 + }, + { + "epoch": 0.830848, + "grad_norm": 0.6386318802833557, + "learning_rate": 1.4461013333333333e-05, + "loss": 0.0109, + "step": 129820 + }, + { + "epoch": 0.83088, + "grad_norm": 1.13720703125, + "learning_rate": 1.4460800000000002e-05, + "loss": 0.0088, + "step": 129825 + }, + { + "epoch": 0.830912, + "grad_norm": 0.215505912899971, + "learning_rate": 1.4460586666666666e-05, + "loss": 0.0121, + "step": 129830 + }, + { + "epoch": 0.830944, + "grad_norm": 0.6114181280136108, + "learning_rate": 1.4460373333333336e-05, + "loss": 0.0119, + "step": 129835 + }, + { + "epoch": 0.830976, + "grad_norm": 0.11031617224216461, + "learning_rate": 1.4460160000000001e-05, + "loss": 0.0073, + "step": 129840 + }, + { + "epoch": 0.831008, + "grad_norm": 0.8493617177009583, + "learning_rate": 1.4459946666666669e-05, + "loss": 0.009, + "step": 129845 + }, + { + "epoch": 0.83104, + "grad_norm": 1.5089149475097656, + "learning_rate": 1.4459733333333335e-05, + "loss": 0.0211, + "step": 129850 + }, + { + "epoch": 0.831072, + "grad_norm": 0.2515147626399994, + "learning_rate": 1.445952e-05, + "loss": 0.0124, + "step": 129855 + }, + { + "epoch": 0.831104, + "grad_norm": 1.3019176721572876, + "learning_rate": 1.4459306666666668e-05, + "loss": 0.0105, + "step": 129860 + }, + { + "epoch": 0.831136, + "grad_norm": 0.19135917723178864, + "learning_rate": 1.4459093333333334e-05, + "loss": 0.0055, + "step": 129865 + }, + { + "epoch": 0.831168, + "grad_norm": 0.028247227892279625, + "learning_rate": 1.4458880000000002e-05, + "loss": 0.0145, + "step": 129870 + }, + { + "epoch": 0.8312, + "grad_norm": 0.12320126593112946, + "learning_rate": 1.4458666666666668e-05, + "loss": 0.0386, + "step": 129875 + }, + { + "epoch": 0.831232, + "grad_norm": 1.0876997709274292, + "learning_rate": 1.4458453333333335e-05, + "loss": 0.0227, + "step": 129880 + }, + { + "epoch": 0.831264, + "grad_norm": 0.20933981239795685, + "learning_rate": 1.4458240000000001e-05, + "loss": 0.0125, + "step": 129885 + }, + { + "epoch": 0.831296, + "grad_norm": 0.04853357747197151, + "learning_rate": 1.4458026666666667e-05, + "loss": 0.0021, + "step": 129890 + }, + { + "epoch": 0.831328, + "grad_norm": 0.8136053085327148, + "learning_rate": 1.4457813333333334e-05, + "loss": 0.0118, + "step": 129895 + }, + { + "epoch": 0.83136, + "grad_norm": 0.24171409010887146, + "learning_rate": 1.44576e-05, + "loss": 0.0127, + "step": 129900 + }, + { + "epoch": 0.831392, + "grad_norm": 0.2042260617017746, + "learning_rate": 1.4457386666666668e-05, + "loss": 0.0082, + "step": 129905 + }, + { + "epoch": 0.831424, + "grad_norm": 0.5759696960449219, + "learning_rate": 1.4457173333333334e-05, + "loss": 0.025, + "step": 129910 + }, + { + "epoch": 0.831456, + "grad_norm": 0.1730644255876541, + "learning_rate": 1.4456960000000003e-05, + "loss": 0.0058, + "step": 129915 + }, + { + "epoch": 0.831488, + "grad_norm": 0.8093000650405884, + "learning_rate": 1.4456746666666667e-05, + "loss": 0.0176, + "step": 129920 + }, + { + "epoch": 0.83152, + "grad_norm": 0.13781856000423431, + "learning_rate": 1.4456533333333333e-05, + "loss": 0.0043, + "step": 129925 + }, + { + "epoch": 0.831552, + "grad_norm": 0.6255857348442078, + "learning_rate": 1.4456320000000002e-05, + "loss": 0.0039, + "step": 129930 + }, + { + "epoch": 0.831584, + "grad_norm": 0.7025638818740845, + "learning_rate": 1.4456106666666666e-05, + "loss": 0.0158, + "step": 129935 + }, + { + "epoch": 0.831616, + "grad_norm": 0.9414548277854919, + "learning_rate": 1.4455893333333336e-05, + "loss": 0.0082, + "step": 129940 + }, + { + "epoch": 0.831648, + "grad_norm": 0.4279249310493469, + "learning_rate": 1.4455680000000001e-05, + "loss": 0.023, + "step": 129945 + }, + { + "epoch": 0.83168, + "grad_norm": 0.19457247853279114, + "learning_rate": 1.4455466666666669e-05, + "loss": 0.0102, + "step": 129950 + }, + { + "epoch": 0.831712, + "grad_norm": 0.17445054650306702, + "learning_rate": 1.4455253333333335e-05, + "loss": 0.0041, + "step": 129955 + }, + { + "epoch": 0.831744, + "grad_norm": 0.026266004890203476, + "learning_rate": 1.445504e-05, + "loss": 0.0015, + "step": 129960 + }, + { + "epoch": 0.831776, + "grad_norm": 0.035664286464452744, + "learning_rate": 1.4454826666666668e-05, + "loss": 0.0055, + "step": 129965 + }, + { + "epoch": 0.831808, + "grad_norm": 0.5520516037940979, + "learning_rate": 1.4454613333333334e-05, + "loss": 0.0073, + "step": 129970 + }, + { + "epoch": 0.83184, + "grad_norm": 0.06456597149372101, + "learning_rate": 1.4454400000000002e-05, + "loss": 0.0074, + "step": 129975 + }, + { + "epoch": 0.831872, + "grad_norm": 0.33941221237182617, + "learning_rate": 1.4454186666666668e-05, + "loss": 0.0058, + "step": 129980 + }, + { + "epoch": 0.831904, + "grad_norm": 0.27955713868141174, + "learning_rate": 1.4453973333333335e-05, + "loss": 0.0056, + "step": 129985 + }, + { + "epoch": 0.831936, + "grad_norm": 0.06825622171163559, + "learning_rate": 1.4453760000000001e-05, + "loss": 0.0056, + "step": 129990 + }, + { + "epoch": 0.831968, + "grad_norm": 0.05958301201462746, + "learning_rate": 1.4453546666666667e-05, + "loss": 0.0043, + "step": 129995 + }, + { + "epoch": 0.832, + "grad_norm": 0.645374596118927, + "learning_rate": 1.4453333333333334e-05, + "loss": 0.004, + "step": 130000 + }, + { + "epoch": 0.832032, + "grad_norm": 0.25586795806884766, + "learning_rate": 1.445312e-05, + "loss": 0.0174, + "step": 130005 + }, + { + "epoch": 0.832064, + "grad_norm": 0.691531777381897, + "learning_rate": 1.4452906666666668e-05, + "loss": 0.0194, + "step": 130010 + }, + { + "epoch": 0.832096, + "grad_norm": 0.11495760828256607, + "learning_rate": 1.4452693333333334e-05, + "loss": 0.0063, + "step": 130015 + }, + { + "epoch": 0.832128, + "grad_norm": 0.10663943737745285, + "learning_rate": 1.4452480000000001e-05, + "loss": 0.0049, + "step": 130020 + }, + { + "epoch": 0.83216, + "grad_norm": 0.3554103672504425, + "learning_rate": 1.4452266666666667e-05, + "loss": 0.0322, + "step": 130025 + }, + { + "epoch": 0.832192, + "grad_norm": 0.683818519115448, + "learning_rate": 1.4452053333333333e-05, + "loss": 0.0053, + "step": 130030 + }, + { + "epoch": 0.832224, + "grad_norm": 0.031068075448274612, + "learning_rate": 1.4451840000000002e-05, + "loss": 0.0192, + "step": 130035 + }, + { + "epoch": 0.832256, + "grad_norm": 0.21675199270248413, + "learning_rate": 1.4451626666666666e-05, + "loss": 0.005, + "step": 130040 + }, + { + "epoch": 0.832288, + "grad_norm": 0.5899878740310669, + "learning_rate": 1.4451413333333336e-05, + "loss": 0.0149, + "step": 130045 + }, + { + "epoch": 0.83232, + "grad_norm": 0.021708553656935692, + "learning_rate": 1.4451200000000002e-05, + "loss": 0.0077, + "step": 130050 + }, + { + "epoch": 0.832352, + "grad_norm": 2.5679261684417725, + "learning_rate": 1.4450986666666669e-05, + "loss": 0.0202, + "step": 130055 + }, + { + "epoch": 0.832384, + "grad_norm": 0.19086043536663055, + "learning_rate": 1.4450773333333335e-05, + "loss": 0.0093, + "step": 130060 + }, + { + "epoch": 0.832416, + "grad_norm": 0.39999037981033325, + "learning_rate": 1.445056e-05, + "loss": 0.0045, + "step": 130065 + }, + { + "epoch": 0.832448, + "grad_norm": 0.20968158543109894, + "learning_rate": 1.4450346666666668e-05, + "loss": 0.0097, + "step": 130070 + }, + { + "epoch": 0.83248, + "grad_norm": 0.18372508883476257, + "learning_rate": 1.4450133333333334e-05, + "loss": 0.0084, + "step": 130075 + }, + { + "epoch": 0.832512, + "grad_norm": 1.0793148279190063, + "learning_rate": 1.4449920000000002e-05, + "loss": 0.0076, + "step": 130080 + }, + { + "epoch": 0.832544, + "grad_norm": 0.08696242421865463, + "learning_rate": 1.4449706666666668e-05, + "loss": 0.0148, + "step": 130085 + }, + { + "epoch": 0.832576, + "grad_norm": 0.7561924457550049, + "learning_rate": 1.4449493333333335e-05, + "loss": 0.0244, + "step": 130090 + }, + { + "epoch": 0.832608, + "grad_norm": 0.07848145067691803, + "learning_rate": 1.4449280000000001e-05, + "loss": 0.0067, + "step": 130095 + }, + { + "epoch": 0.83264, + "grad_norm": 0.34693020582199097, + "learning_rate": 1.4449066666666667e-05, + "loss": 0.0184, + "step": 130100 + }, + { + "epoch": 0.832672, + "grad_norm": 0.43417033553123474, + "learning_rate": 1.4448853333333334e-05, + "loss": 0.0044, + "step": 130105 + }, + { + "epoch": 0.832704, + "grad_norm": 0.5754983425140381, + "learning_rate": 1.444864e-05, + "loss": 0.004, + "step": 130110 + }, + { + "epoch": 0.832736, + "grad_norm": 1.3901106119155884, + "learning_rate": 1.4448426666666668e-05, + "loss": 0.0069, + "step": 130115 + }, + { + "epoch": 0.832768, + "grad_norm": 0.04950442537665367, + "learning_rate": 1.4448213333333334e-05, + "loss": 0.0128, + "step": 130120 + }, + { + "epoch": 0.8328, + "grad_norm": 0.9810492992401123, + "learning_rate": 1.4448000000000001e-05, + "loss": 0.0081, + "step": 130125 + }, + { + "epoch": 0.832832, + "grad_norm": 0.1357896625995636, + "learning_rate": 1.4447786666666667e-05, + "loss": 0.0036, + "step": 130130 + }, + { + "epoch": 0.832864, + "grad_norm": 0.5693801641464233, + "learning_rate": 1.4447573333333333e-05, + "loss": 0.0162, + "step": 130135 + }, + { + "epoch": 0.832896, + "grad_norm": 0.24590958654880524, + "learning_rate": 1.4447360000000002e-05, + "loss": 0.0074, + "step": 130140 + }, + { + "epoch": 0.832928, + "grad_norm": 0.5425237417221069, + "learning_rate": 1.4447146666666666e-05, + "loss": 0.0137, + "step": 130145 + }, + { + "epoch": 0.83296, + "grad_norm": 0.06739465892314911, + "learning_rate": 1.4446933333333336e-05, + "loss": 0.0086, + "step": 130150 + }, + { + "epoch": 0.832992, + "grad_norm": 0.9003831148147583, + "learning_rate": 1.4446720000000002e-05, + "loss": 0.008, + "step": 130155 + }, + { + "epoch": 0.833024, + "grad_norm": 0.10848534107208252, + "learning_rate": 1.4446506666666669e-05, + "loss": 0.0095, + "step": 130160 + }, + { + "epoch": 0.833056, + "grad_norm": 0.8625746965408325, + "learning_rate": 1.4446293333333335e-05, + "loss": 0.0111, + "step": 130165 + }, + { + "epoch": 0.833088, + "grad_norm": 0.4677428603172302, + "learning_rate": 1.444608e-05, + "loss": 0.0056, + "step": 130170 + }, + { + "epoch": 0.83312, + "grad_norm": 0.05310540646314621, + "learning_rate": 1.4445866666666668e-05, + "loss": 0.0131, + "step": 130175 + }, + { + "epoch": 0.833152, + "grad_norm": 0.6443494558334351, + "learning_rate": 1.4445653333333334e-05, + "loss": 0.0046, + "step": 130180 + }, + { + "epoch": 0.833184, + "grad_norm": 1.2400950193405151, + "learning_rate": 1.4445440000000002e-05, + "loss": 0.0044, + "step": 130185 + }, + { + "epoch": 0.833216, + "grad_norm": 0.29562270641326904, + "learning_rate": 1.4445226666666668e-05, + "loss": 0.0031, + "step": 130190 + }, + { + "epoch": 0.833248, + "grad_norm": 0.08447439223527908, + "learning_rate": 1.4445013333333335e-05, + "loss": 0.0169, + "step": 130195 + }, + { + "epoch": 0.83328, + "grad_norm": 0.032727427780628204, + "learning_rate": 1.4444800000000001e-05, + "loss": 0.0046, + "step": 130200 + }, + { + "epoch": 0.833312, + "grad_norm": 1.9435484409332275, + "learning_rate": 1.4444586666666667e-05, + "loss": 0.02, + "step": 130205 + }, + { + "epoch": 0.833344, + "grad_norm": 0.18490757048130035, + "learning_rate": 1.4444373333333334e-05, + "loss": 0.0108, + "step": 130210 + }, + { + "epoch": 0.833376, + "grad_norm": 0.46082115173339844, + "learning_rate": 1.444416e-05, + "loss": 0.008, + "step": 130215 + }, + { + "epoch": 0.833408, + "grad_norm": 0.5497213006019592, + "learning_rate": 1.4443946666666668e-05, + "loss": 0.007, + "step": 130220 + }, + { + "epoch": 0.83344, + "grad_norm": 1.2754697799682617, + "learning_rate": 1.4443733333333334e-05, + "loss": 0.011, + "step": 130225 + }, + { + "epoch": 0.833472, + "grad_norm": 0.21367254853248596, + "learning_rate": 1.4443520000000001e-05, + "loss": 0.0067, + "step": 130230 + }, + { + "epoch": 0.833504, + "grad_norm": 0.5860791802406311, + "learning_rate": 1.4443306666666667e-05, + "loss": 0.0185, + "step": 130235 + }, + { + "epoch": 0.833536, + "grad_norm": 0.2280789166688919, + "learning_rate": 1.4443093333333333e-05, + "loss": 0.0034, + "step": 130240 + }, + { + "epoch": 0.833568, + "grad_norm": 0.026519054546952248, + "learning_rate": 1.444288e-05, + "loss": 0.0162, + "step": 130245 + }, + { + "epoch": 0.8336, + "grad_norm": 0.025134306401014328, + "learning_rate": 1.4442666666666666e-05, + "loss": 0.0056, + "step": 130250 + }, + { + "epoch": 0.833632, + "grad_norm": 0.9313122034072876, + "learning_rate": 1.4442453333333336e-05, + "loss": 0.0104, + "step": 130255 + }, + { + "epoch": 0.833664, + "grad_norm": 0.31463444232940674, + "learning_rate": 1.4442240000000002e-05, + "loss": 0.0037, + "step": 130260 + }, + { + "epoch": 0.833696, + "grad_norm": 0.08934005349874496, + "learning_rate": 1.4442026666666669e-05, + "loss": 0.0072, + "step": 130265 + }, + { + "epoch": 0.833728, + "grad_norm": 0.7536927461624146, + "learning_rate": 1.4441813333333335e-05, + "loss": 0.0121, + "step": 130270 + }, + { + "epoch": 0.83376, + "grad_norm": 0.05024595186114311, + "learning_rate": 1.4441600000000002e-05, + "loss": 0.0089, + "step": 130275 + }, + { + "epoch": 0.833792, + "grad_norm": 0.34095320105552673, + "learning_rate": 1.4441386666666668e-05, + "loss": 0.0075, + "step": 130280 + }, + { + "epoch": 0.833824, + "grad_norm": 0.8014562129974365, + "learning_rate": 1.4441173333333334e-05, + "loss": 0.0075, + "step": 130285 + }, + { + "epoch": 0.833856, + "grad_norm": 0.06035243719816208, + "learning_rate": 1.4440960000000002e-05, + "loss": 0.0182, + "step": 130290 + }, + { + "epoch": 0.833888, + "grad_norm": 0.536463737487793, + "learning_rate": 1.4440746666666668e-05, + "loss": 0.0028, + "step": 130295 + }, + { + "epoch": 0.83392, + "grad_norm": 0.18707409501075745, + "learning_rate": 1.4440533333333335e-05, + "loss": 0.0019, + "step": 130300 + }, + { + "epoch": 0.833952, + "grad_norm": 0.21063174307346344, + "learning_rate": 1.4440320000000001e-05, + "loss": 0.006, + "step": 130305 + }, + { + "epoch": 0.833984, + "grad_norm": 1.1202789545059204, + "learning_rate": 1.4440106666666669e-05, + "loss": 0.0091, + "step": 130310 + }, + { + "epoch": 0.834016, + "grad_norm": 0.235972061753273, + "learning_rate": 1.4439893333333334e-05, + "loss": 0.0084, + "step": 130315 + }, + { + "epoch": 0.834048, + "grad_norm": 0.578075110912323, + "learning_rate": 1.443968e-05, + "loss": 0.0208, + "step": 130320 + }, + { + "epoch": 0.83408, + "grad_norm": 2.184353828430176, + "learning_rate": 1.4439466666666668e-05, + "loss": 0.0146, + "step": 130325 + }, + { + "epoch": 0.834112, + "grad_norm": 0.05219122767448425, + "learning_rate": 1.4439253333333334e-05, + "loss": 0.0129, + "step": 130330 + }, + { + "epoch": 0.834144, + "grad_norm": 1.843173861503601, + "learning_rate": 1.4439040000000001e-05, + "loss": 0.0207, + "step": 130335 + }, + { + "epoch": 0.834176, + "grad_norm": 0.4194076359272003, + "learning_rate": 1.4438826666666667e-05, + "loss": 0.005, + "step": 130340 + }, + { + "epoch": 0.834208, + "grad_norm": 0.21441927552223206, + "learning_rate": 1.4438613333333336e-05, + "loss": 0.0285, + "step": 130345 + }, + { + "epoch": 0.83424, + "grad_norm": 0.06503964215517044, + "learning_rate": 1.44384e-05, + "loss": 0.0084, + "step": 130350 + }, + { + "epoch": 0.834272, + "grad_norm": 0.06416324526071548, + "learning_rate": 1.4438186666666666e-05, + "loss": 0.0091, + "step": 130355 + }, + { + "epoch": 0.834304, + "grad_norm": 0.9975314736366272, + "learning_rate": 1.4437973333333336e-05, + "loss": 0.0193, + "step": 130360 + }, + { + "epoch": 0.834336, + "grad_norm": 0.21161991357803345, + "learning_rate": 1.4437760000000002e-05, + "loss": 0.0033, + "step": 130365 + }, + { + "epoch": 0.834368, + "grad_norm": 0.6630560755729675, + "learning_rate": 1.4437546666666669e-05, + "loss": 0.0174, + "step": 130370 + }, + { + "epoch": 0.8344, + "grad_norm": 0.2763586640357971, + "learning_rate": 1.4437333333333335e-05, + "loss": 0.002, + "step": 130375 + }, + { + "epoch": 0.834432, + "grad_norm": 0.071530282497406, + "learning_rate": 1.4437120000000002e-05, + "loss": 0.0042, + "step": 130380 + }, + { + "epoch": 0.834464, + "grad_norm": 0.2180292010307312, + "learning_rate": 1.4436906666666668e-05, + "loss": 0.0165, + "step": 130385 + }, + { + "epoch": 0.834496, + "grad_norm": 0.659160315990448, + "learning_rate": 1.4436693333333334e-05, + "loss": 0.0207, + "step": 130390 + }, + { + "epoch": 0.834528, + "grad_norm": 0.06270764023065567, + "learning_rate": 1.4436480000000002e-05, + "loss": 0.0115, + "step": 130395 + }, + { + "epoch": 0.83456, + "grad_norm": 0.3963243365287781, + "learning_rate": 1.4436266666666668e-05, + "loss": 0.0081, + "step": 130400 + }, + { + "epoch": 0.834592, + "grad_norm": 0.19455377757549286, + "learning_rate": 1.4436053333333335e-05, + "loss": 0.0034, + "step": 130405 + }, + { + "epoch": 0.834624, + "grad_norm": 0.8688035011291504, + "learning_rate": 1.4435840000000001e-05, + "loss": 0.0086, + "step": 130410 + }, + { + "epoch": 0.834656, + "grad_norm": 0.023001715540885925, + "learning_rate": 1.4435626666666669e-05, + "loss": 0.0178, + "step": 130415 + }, + { + "epoch": 0.834688, + "grad_norm": 0.0774465799331665, + "learning_rate": 1.4435413333333334e-05, + "loss": 0.0102, + "step": 130420 + }, + { + "epoch": 0.83472, + "grad_norm": 0.7163970470428467, + "learning_rate": 1.44352e-05, + "loss": 0.0146, + "step": 130425 + }, + { + "epoch": 0.834752, + "grad_norm": 0.2596750259399414, + "learning_rate": 1.4434986666666668e-05, + "loss": 0.0082, + "step": 130430 + }, + { + "epoch": 0.834784, + "grad_norm": 0.23739281296730042, + "learning_rate": 1.4434773333333334e-05, + "loss": 0.0095, + "step": 130435 + }, + { + "epoch": 0.834816, + "grad_norm": 1.283177375793457, + "learning_rate": 1.4434560000000001e-05, + "loss": 0.0113, + "step": 130440 + }, + { + "epoch": 0.834848, + "grad_norm": 3.0193841457366943, + "learning_rate": 1.4434346666666667e-05, + "loss": 0.0185, + "step": 130445 + }, + { + "epoch": 0.83488, + "grad_norm": 0.029045745730400085, + "learning_rate": 1.4434133333333336e-05, + "loss": 0.0021, + "step": 130450 + }, + { + "epoch": 0.834912, + "grad_norm": 0.8222347497940063, + "learning_rate": 1.443392e-05, + "loss": 0.0122, + "step": 130455 + }, + { + "epoch": 0.834944, + "grad_norm": 0.08757465332746506, + "learning_rate": 1.4433706666666666e-05, + "loss": 0.0026, + "step": 130460 + }, + { + "epoch": 0.834976, + "grad_norm": 0.2689763307571411, + "learning_rate": 1.4433493333333336e-05, + "loss": 0.0067, + "step": 130465 + }, + { + "epoch": 0.835008, + "grad_norm": 0.7244094014167786, + "learning_rate": 1.443328e-05, + "loss": 0.0062, + "step": 130470 + }, + { + "epoch": 0.83504, + "grad_norm": 0.04689708724617958, + "learning_rate": 1.4433066666666669e-05, + "loss": 0.0098, + "step": 130475 + }, + { + "epoch": 0.835072, + "grad_norm": 0.07568267732858658, + "learning_rate": 1.4432853333333335e-05, + "loss": 0.0183, + "step": 130480 + }, + { + "epoch": 0.835104, + "grad_norm": 0.7991649508476257, + "learning_rate": 1.4432640000000002e-05, + "loss": 0.0197, + "step": 130485 + }, + { + "epoch": 0.835136, + "grad_norm": 0.9903542399406433, + "learning_rate": 1.4432426666666668e-05, + "loss": 0.0181, + "step": 130490 + }, + { + "epoch": 0.835168, + "grad_norm": 1.3108333349227905, + "learning_rate": 1.4432213333333334e-05, + "loss": 0.009, + "step": 130495 + }, + { + "epoch": 0.8352, + "grad_norm": 1.6439704895019531, + "learning_rate": 1.4432000000000002e-05, + "loss": 0.0114, + "step": 130500 + }, + { + "epoch": 0.835232, + "grad_norm": 0.14668342471122742, + "learning_rate": 1.4431786666666668e-05, + "loss": 0.005, + "step": 130505 + }, + { + "epoch": 0.835264, + "grad_norm": 0.14878010749816895, + "learning_rate": 1.4431573333333335e-05, + "loss": 0.0025, + "step": 130510 + }, + { + "epoch": 0.835296, + "grad_norm": 0.1924271434545517, + "learning_rate": 1.4431360000000001e-05, + "loss": 0.0027, + "step": 130515 + }, + { + "epoch": 0.835328, + "grad_norm": 0.025719821453094482, + "learning_rate": 1.4431146666666669e-05, + "loss": 0.0087, + "step": 130520 + }, + { + "epoch": 0.83536, + "grad_norm": 0.4580555260181427, + "learning_rate": 1.4430933333333334e-05, + "loss": 0.0062, + "step": 130525 + }, + { + "epoch": 0.835392, + "grad_norm": 0.4024737477302551, + "learning_rate": 1.443072e-05, + "loss": 0.0126, + "step": 130530 + }, + { + "epoch": 0.835424, + "grad_norm": 0.12293052673339844, + "learning_rate": 1.4430506666666668e-05, + "loss": 0.0032, + "step": 130535 + }, + { + "epoch": 0.835456, + "grad_norm": 0.04750809073448181, + "learning_rate": 1.4430293333333334e-05, + "loss": 0.0097, + "step": 130540 + }, + { + "epoch": 0.835488, + "grad_norm": 0.07222147285938263, + "learning_rate": 1.4430080000000001e-05, + "loss": 0.0053, + "step": 130545 + }, + { + "epoch": 0.83552, + "grad_norm": 0.03747396171092987, + "learning_rate": 1.4429866666666667e-05, + "loss": 0.0211, + "step": 130550 + }, + { + "epoch": 0.835552, + "grad_norm": 0.4794633984565735, + "learning_rate": 1.4429653333333335e-05, + "loss": 0.0086, + "step": 130555 + }, + { + "epoch": 0.835584, + "grad_norm": 1.012169361114502, + "learning_rate": 1.442944e-05, + "loss": 0.0052, + "step": 130560 + }, + { + "epoch": 0.835616, + "grad_norm": 0.1031869426369667, + "learning_rate": 1.4429226666666666e-05, + "loss": 0.0028, + "step": 130565 + }, + { + "epoch": 0.835648, + "grad_norm": 0.6247149705886841, + "learning_rate": 1.4429013333333336e-05, + "loss": 0.0073, + "step": 130570 + }, + { + "epoch": 0.83568, + "grad_norm": 0.028447318822145462, + "learning_rate": 1.44288e-05, + "loss": 0.0015, + "step": 130575 + }, + { + "epoch": 0.835712, + "grad_norm": 0.07761108875274658, + "learning_rate": 1.4428586666666669e-05, + "loss": 0.0044, + "step": 130580 + }, + { + "epoch": 0.835744, + "grad_norm": 0.47683897614479065, + "learning_rate": 1.4428373333333335e-05, + "loss": 0.0055, + "step": 130585 + }, + { + "epoch": 0.835776, + "grad_norm": 0.7063098549842834, + "learning_rate": 1.4428160000000002e-05, + "loss": 0.0115, + "step": 130590 + }, + { + "epoch": 0.835808, + "grad_norm": 0.6690119504928589, + "learning_rate": 1.4427946666666668e-05, + "loss": 0.0088, + "step": 130595 + }, + { + "epoch": 0.83584, + "grad_norm": 0.8799732327461243, + "learning_rate": 1.4427733333333334e-05, + "loss": 0.0116, + "step": 130600 + }, + { + "epoch": 0.835872, + "grad_norm": 0.04769520461559296, + "learning_rate": 1.4427520000000002e-05, + "loss": 0.0207, + "step": 130605 + }, + { + "epoch": 0.835904, + "grad_norm": 0.4407942295074463, + "learning_rate": 1.4427306666666668e-05, + "loss": 0.0082, + "step": 130610 + }, + { + "epoch": 0.835936, + "grad_norm": 2.135244131088257, + "learning_rate": 1.4427093333333335e-05, + "loss": 0.0093, + "step": 130615 + }, + { + "epoch": 0.835968, + "grad_norm": 0.5747213959693909, + "learning_rate": 1.4426880000000001e-05, + "loss": 0.0148, + "step": 130620 + }, + { + "epoch": 0.836, + "grad_norm": 0.39188534021377563, + "learning_rate": 1.4426666666666669e-05, + "loss": 0.0032, + "step": 130625 + }, + { + "epoch": 0.836032, + "grad_norm": 0.08846091479063034, + "learning_rate": 1.4426453333333334e-05, + "loss": 0.0165, + "step": 130630 + }, + { + "epoch": 0.836064, + "grad_norm": 1.395188808441162, + "learning_rate": 1.442624e-05, + "loss": 0.0099, + "step": 130635 + }, + { + "epoch": 0.836096, + "grad_norm": 0.11546976119279861, + "learning_rate": 1.4426026666666668e-05, + "loss": 0.0014, + "step": 130640 + }, + { + "epoch": 0.836128, + "grad_norm": 0.6185370087623596, + "learning_rate": 1.4425813333333334e-05, + "loss": 0.0035, + "step": 130645 + }, + { + "epoch": 0.83616, + "grad_norm": 0.3565240204334259, + "learning_rate": 1.4425600000000001e-05, + "loss": 0.0365, + "step": 130650 + }, + { + "epoch": 0.836192, + "grad_norm": 0.8543345332145691, + "learning_rate": 1.4425386666666667e-05, + "loss": 0.0178, + "step": 130655 + }, + { + "epoch": 0.836224, + "grad_norm": 0.28922703862190247, + "learning_rate": 1.4425173333333335e-05, + "loss": 0.0074, + "step": 130660 + }, + { + "epoch": 0.836256, + "grad_norm": 0.4415830969810486, + "learning_rate": 1.442496e-05, + "loss": 0.0097, + "step": 130665 + }, + { + "epoch": 0.836288, + "grad_norm": 0.5851250886917114, + "learning_rate": 1.4424746666666666e-05, + "loss": 0.0108, + "step": 130670 + }, + { + "epoch": 0.83632, + "grad_norm": 0.2919982671737671, + "learning_rate": 1.4424533333333336e-05, + "loss": 0.0117, + "step": 130675 + }, + { + "epoch": 0.836352, + "grad_norm": 1.1590728759765625, + "learning_rate": 1.442432e-05, + "loss": 0.0123, + "step": 130680 + }, + { + "epoch": 0.836384, + "grad_norm": 0.2870306968688965, + "learning_rate": 1.4424106666666669e-05, + "loss": 0.0025, + "step": 130685 + }, + { + "epoch": 0.836416, + "grad_norm": 0.08703742921352386, + "learning_rate": 1.4423893333333335e-05, + "loss": 0.0074, + "step": 130690 + }, + { + "epoch": 0.836448, + "grad_norm": 0.7083265781402588, + "learning_rate": 1.4423680000000002e-05, + "loss": 0.0059, + "step": 130695 + }, + { + "epoch": 0.83648, + "grad_norm": 0.04839932546019554, + "learning_rate": 1.4423466666666668e-05, + "loss": 0.0056, + "step": 130700 + }, + { + "epoch": 0.836512, + "grad_norm": 0.2880323827266693, + "learning_rate": 1.4423253333333334e-05, + "loss": 0.0042, + "step": 130705 + }, + { + "epoch": 0.836544, + "grad_norm": 1.0410339832305908, + "learning_rate": 1.4423040000000002e-05, + "loss": 0.0251, + "step": 130710 + }, + { + "epoch": 0.836576, + "grad_norm": 0.1853383183479309, + "learning_rate": 1.4422826666666668e-05, + "loss": 0.0062, + "step": 130715 + }, + { + "epoch": 0.836608, + "grad_norm": 0.25690048933029175, + "learning_rate": 1.4422613333333335e-05, + "loss": 0.0195, + "step": 130720 + }, + { + "epoch": 0.83664, + "grad_norm": 0.3728545606136322, + "learning_rate": 1.4422400000000001e-05, + "loss": 0.0185, + "step": 130725 + }, + { + "epoch": 0.836672, + "grad_norm": 0.6934120655059814, + "learning_rate": 1.4422186666666669e-05, + "loss": 0.0057, + "step": 130730 + }, + { + "epoch": 0.836704, + "grad_norm": 1.3351118564605713, + "learning_rate": 1.4421973333333334e-05, + "loss": 0.0109, + "step": 130735 + }, + { + "epoch": 0.836736, + "grad_norm": 0.07712118327617645, + "learning_rate": 1.442176e-05, + "loss": 0.0186, + "step": 130740 + }, + { + "epoch": 0.836768, + "grad_norm": 0.15537650883197784, + "learning_rate": 1.4421546666666668e-05, + "loss": 0.0121, + "step": 130745 + }, + { + "epoch": 0.8368, + "grad_norm": 1.4173429012298584, + "learning_rate": 1.4421333333333334e-05, + "loss": 0.0157, + "step": 130750 + }, + { + "epoch": 0.836832, + "grad_norm": 0.1470668613910675, + "learning_rate": 1.4421120000000001e-05, + "loss": 0.0022, + "step": 130755 + }, + { + "epoch": 0.836864, + "grad_norm": 0.13932488858699799, + "learning_rate": 1.4420906666666667e-05, + "loss": 0.0044, + "step": 130760 + }, + { + "epoch": 0.836896, + "grad_norm": 0.22112606465816498, + "learning_rate": 1.4420693333333335e-05, + "loss": 0.0029, + "step": 130765 + }, + { + "epoch": 0.836928, + "grad_norm": 0.3608270287513733, + "learning_rate": 1.442048e-05, + "loss": 0.0075, + "step": 130770 + }, + { + "epoch": 0.83696, + "grad_norm": 1.1227511167526245, + "learning_rate": 1.4420266666666666e-05, + "loss": 0.0446, + "step": 130775 + }, + { + "epoch": 0.836992, + "grad_norm": 0.697435200214386, + "learning_rate": 1.4420053333333334e-05, + "loss": 0.0095, + "step": 130780 + }, + { + "epoch": 0.837024, + "grad_norm": 0.31739407777786255, + "learning_rate": 1.441984e-05, + "loss": 0.0074, + "step": 130785 + }, + { + "epoch": 0.837056, + "grad_norm": 0.9157745242118835, + "learning_rate": 1.4419626666666669e-05, + "loss": 0.0097, + "step": 130790 + }, + { + "epoch": 0.837088, + "grad_norm": 0.5216306447982788, + "learning_rate": 1.4419413333333335e-05, + "loss": 0.0066, + "step": 130795 + }, + { + "epoch": 0.83712, + "grad_norm": 0.6308521032333374, + "learning_rate": 1.4419200000000002e-05, + "loss": 0.0159, + "step": 130800 + }, + { + "epoch": 0.837152, + "grad_norm": 0.050780680030584335, + "learning_rate": 1.4418986666666668e-05, + "loss": 0.0161, + "step": 130805 + }, + { + "epoch": 0.837184, + "grad_norm": 0.4184134006500244, + "learning_rate": 1.4418773333333334e-05, + "loss": 0.0127, + "step": 130810 + }, + { + "epoch": 0.837216, + "grad_norm": 0.5825366973876953, + "learning_rate": 1.4418560000000002e-05, + "loss": 0.0052, + "step": 130815 + }, + { + "epoch": 0.837248, + "grad_norm": 0.47881364822387695, + "learning_rate": 1.4418346666666668e-05, + "loss": 0.009, + "step": 130820 + }, + { + "epoch": 0.83728, + "grad_norm": 0.5074818134307861, + "learning_rate": 1.4418133333333335e-05, + "loss": 0.0042, + "step": 130825 + }, + { + "epoch": 0.837312, + "grad_norm": 0.9291995763778687, + "learning_rate": 1.4417920000000001e-05, + "loss": 0.0102, + "step": 130830 + }, + { + "epoch": 0.837344, + "grad_norm": 1.6329693794250488, + "learning_rate": 1.4417706666666669e-05, + "loss": 0.0108, + "step": 130835 + }, + { + "epoch": 0.837376, + "grad_norm": 0.37514281272888184, + "learning_rate": 1.4417493333333334e-05, + "loss": 0.0114, + "step": 130840 + }, + { + "epoch": 0.837408, + "grad_norm": 0.2124432772397995, + "learning_rate": 1.441728e-05, + "loss": 0.0048, + "step": 130845 + }, + { + "epoch": 0.83744, + "grad_norm": 0.04325782507658005, + "learning_rate": 1.4417066666666668e-05, + "loss": 0.0019, + "step": 130850 + }, + { + "epoch": 0.837472, + "grad_norm": 0.8919886946678162, + "learning_rate": 1.4416853333333334e-05, + "loss": 0.0046, + "step": 130855 + }, + { + "epoch": 0.837504, + "grad_norm": 0.011465035378932953, + "learning_rate": 1.4416640000000001e-05, + "loss": 0.0023, + "step": 130860 + }, + { + "epoch": 0.837536, + "grad_norm": 0.23944124579429626, + "learning_rate": 1.4416426666666667e-05, + "loss": 0.008, + "step": 130865 + }, + { + "epoch": 0.837568, + "grad_norm": 0.023407243192195892, + "learning_rate": 1.4416213333333335e-05, + "loss": 0.0079, + "step": 130870 + }, + { + "epoch": 0.8376, + "grad_norm": 0.044667236506938934, + "learning_rate": 1.4416e-05, + "loss": 0.0058, + "step": 130875 + }, + { + "epoch": 0.837632, + "grad_norm": 8.824856758117676, + "learning_rate": 1.4415786666666666e-05, + "loss": 0.0765, + "step": 130880 + }, + { + "epoch": 0.837664, + "grad_norm": 0.5665062069892883, + "learning_rate": 1.4415573333333334e-05, + "loss": 0.0052, + "step": 130885 + }, + { + "epoch": 0.837696, + "grad_norm": 0.7973577380180359, + "learning_rate": 1.441536e-05, + "loss": 0.0079, + "step": 130890 + }, + { + "epoch": 0.837728, + "grad_norm": 0.3856796324253082, + "learning_rate": 1.4415146666666669e-05, + "loss": 0.0091, + "step": 130895 + }, + { + "epoch": 0.83776, + "grad_norm": 0.5810440182685852, + "learning_rate": 1.4414933333333335e-05, + "loss": 0.0065, + "step": 130900 + }, + { + "epoch": 0.837792, + "grad_norm": 0.022180039435625076, + "learning_rate": 1.4414720000000002e-05, + "loss": 0.0067, + "step": 130905 + }, + { + "epoch": 0.837824, + "grad_norm": 1.1628751754760742, + "learning_rate": 1.4414506666666668e-05, + "loss": 0.0097, + "step": 130910 + }, + { + "epoch": 0.837856, + "grad_norm": 0.4734056890010834, + "learning_rate": 1.4414293333333334e-05, + "loss": 0.0072, + "step": 130915 + }, + { + "epoch": 0.837888, + "grad_norm": 0.5876264572143555, + "learning_rate": 1.4414080000000002e-05, + "loss": 0.0124, + "step": 130920 + }, + { + "epoch": 0.83792, + "grad_norm": 0.9355084300041199, + "learning_rate": 1.4413866666666668e-05, + "loss": 0.0098, + "step": 130925 + }, + { + "epoch": 0.837952, + "grad_norm": 0.03904488682746887, + "learning_rate": 1.4413653333333335e-05, + "loss": 0.0085, + "step": 130930 + }, + { + "epoch": 0.837984, + "grad_norm": 0.12314888834953308, + "learning_rate": 1.4413440000000001e-05, + "loss": 0.0027, + "step": 130935 + }, + { + "epoch": 0.838016, + "grad_norm": 0.4876645505428314, + "learning_rate": 1.4413226666666669e-05, + "loss": 0.0119, + "step": 130940 + }, + { + "epoch": 0.838048, + "grad_norm": 0.25982779264450073, + "learning_rate": 1.4413013333333334e-05, + "loss": 0.0033, + "step": 130945 + }, + { + "epoch": 0.83808, + "grad_norm": 0.11023715883493423, + "learning_rate": 1.44128e-05, + "loss": 0.0026, + "step": 130950 + }, + { + "epoch": 0.838112, + "grad_norm": 0.40600889921188354, + "learning_rate": 1.4412586666666668e-05, + "loss": 0.0066, + "step": 130955 + }, + { + "epoch": 0.838144, + "grad_norm": 0.4026144742965698, + "learning_rate": 1.4412373333333334e-05, + "loss": 0.0028, + "step": 130960 + }, + { + "epoch": 0.838176, + "grad_norm": 0.043769773095846176, + "learning_rate": 1.4412160000000001e-05, + "loss": 0.0284, + "step": 130965 + }, + { + "epoch": 0.838208, + "grad_norm": 0.608031690120697, + "learning_rate": 1.4411946666666667e-05, + "loss": 0.0085, + "step": 130970 + }, + { + "epoch": 0.83824, + "grad_norm": 0.49894750118255615, + "learning_rate": 1.4411733333333335e-05, + "loss": 0.008, + "step": 130975 + }, + { + "epoch": 0.838272, + "grad_norm": 0.40168821811676025, + "learning_rate": 1.441152e-05, + "loss": 0.0018, + "step": 130980 + }, + { + "epoch": 0.838304, + "grad_norm": 0.24233397841453552, + "learning_rate": 1.4411306666666666e-05, + "loss": 0.0034, + "step": 130985 + }, + { + "epoch": 0.838336, + "grad_norm": 0.3141363263130188, + "learning_rate": 1.4411093333333334e-05, + "loss": 0.004, + "step": 130990 + }, + { + "epoch": 0.838368, + "grad_norm": 0.7724571228027344, + "learning_rate": 1.441088e-05, + "loss": 0.0138, + "step": 130995 + }, + { + "epoch": 0.8384, + "grad_norm": 0.5227817296981812, + "learning_rate": 1.4410666666666669e-05, + "loss": 0.0117, + "step": 131000 + }, + { + "epoch": 0.838432, + "grad_norm": 0.7412765026092529, + "learning_rate": 1.4410453333333333e-05, + "loss": 0.0259, + "step": 131005 + }, + { + "epoch": 0.838464, + "grad_norm": 0.653802216053009, + "learning_rate": 1.4410240000000002e-05, + "loss": 0.0103, + "step": 131010 + }, + { + "epoch": 0.838496, + "grad_norm": 0.15146774053573608, + "learning_rate": 1.4410026666666668e-05, + "loss": 0.0097, + "step": 131015 + }, + { + "epoch": 0.838528, + "grad_norm": 0.554414689540863, + "learning_rate": 1.4409813333333334e-05, + "loss": 0.0082, + "step": 131020 + }, + { + "epoch": 0.83856, + "grad_norm": 0.0407257117331028, + "learning_rate": 1.4409600000000002e-05, + "loss": 0.0091, + "step": 131025 + }, + { + "epoch": 0.838592, + "grad_norm": 1.960023045539856, + "learning_rate": 1.4409386666666668e-05, + "loss": 0.0098, + "step": 131030 + }, + { + "epoch": 0.838624, + "grad_norm": 0.08979929238557816, + "learning_rate": 1.4409173333333335e-05, + "loss": 0.0053, + "step": 131035 + }, + { + "epoch": 0.838656, + "grad_norm": 0.028741007670760155, + "learning_rate": 1.4408960000000001e-05, + "loss": 0.0138, + "step": 131040 + }, + { + "epoch": 0.838688, + "grad_norm": 1.4975464344024658, + "learning_rate": 1.4408746666666669e-05, + "loss": 0.0141, + "step": 131045 + }, + { + "epoch": 0.83872, + "grad_norm": 0.4653494656085968, + "learning_rate": 1.4408533333333334e-05, + "loss": 0.0156, + "step": 131050 + }, + { + "epoch": 0.838752, + "grad_norm": 0.6328164339065552, + "learning_rate": 1.440832e-05, + "loss": 0.0056, + "step": 131055 + }, + { + "epoch": 0.838784, + "grad_norm": 0.14884719252586365, + "learning_rate": 1.4408106666666668e-05, + "loss": 0.0061, + "step": 131060 + }, + { + "epoch": 0.838816, + "grad_norm": 2.2942557334899902, + "learning_rate": 1.4407893333333334e-05, + "loss": 0.0317, + "step": 131065 + }, + { + "epoch": 0.838848, + "grad_norm": 0.46053773164749146, + "learning_rate": 1.4407680000000001e-05, + "loss": 0.0181, + "step": 131070 + }, + { + "epoch": 0.83888, + "grad_norm": 0.7165232300758362, + "learning_rate": 1.4407466666666667e-05, + "loss": 0.0133, + "step": 131075 + }, + { + "epoch": 0.838912, + "grad_norm": 0.014181197620928288, + "learning_rate": 1.4407253333333335e-05, + "loss": 0.0061, + "step": 131080 + }, + { + "epoch": 0.838944, + "grad_norm": 0.35851535201072693, + "learning_rate": 1.440704e-05, + "loss": 0.0045, + "step": 131085 + }, + { + "epoch": 0.838976, + "grad_norm": 0.779704749584198, + "learning_rate": 1.4406826666666666e-05, + "loss": 0.0114, + "step": 131090 + }, + { + "epoch": 0.839008, + "grad_norm": 0.4535047709941864, + "learning_rate": 1.4406613333333334e-05, + "loss": 0.016, + "step": 131095 + }, + { + "epoch": 0.83904, + "grad_norm": 0.8250538110733032, + "learning_rate": 1.44064e-05, + "loss": 0.017, + "step": 131100 + }, + { + "epoch": 0.839072, + "grad_norm": 0.09044628590345383, + "learning_rate": 1.4406186666666669e-05, + "loss": 0.0125, + "step": 131105 + }, + { + "epoch": 0.839104, + "grad_norm": 0.16426776349544525, + "learning_rate": 1.4405973333333333e-05, + "loss": 0.0032, + "step": 131110 + }, + { + "epoch": 0.839136, + "grad_norm": 1.5003935098648071, + "learning_rate": 1.4405760000000002e-05, + "loss": 0.0103, + "step": 131115 + }, + { + "epoch": 0.839168, + "grad_norm": 0.4693755507469177, + "learning_rate": 1.4405546666666668e-05, + "loss": 0.0071, + "step": 131120 + }, + { + "epoch": 0.8392, + "grad_norm": 0.016469648107886314, + "learning_rate": 1.4405333333333336e-05, + "loss": 0.0011, + "step": 131125 + }, + { + "epoch": 0.839232, + "grad_norm": 0.23049354553222656, + "learning_rate": 1.4405120000000002e-05, + "loss": 0.0149, + "step": 131130 + }, + { + "epoch": 0.839264, + "grad_norm": 0.7100017666816711, + "learning_rate": 1.4404906666666668e-05, + "loss": 0.0095, + "step": 131135 + }, + { + "epoch": 0.839296, + "grad_norm": 1.4933818578720093, + "learning_rate": 1.4404693333333335e-05, + "loss": 0.0074, + "step": 131140 + }, + { + "epoch": 0.839328, + "grad_norm": 0.29742908477783203, + "learning_rate": 1.4404480000000001e-05, + "loss": 0.0057, + "step": 131145 + }, + { + "epoch": 0.83936, + "grad_norm": 2.240929126739502, + "learning_rate": 1.4404266666666669e-05, + "loss": 0.0296, + "step": 131150 + }, + { + "epoch": 0.839392, + "grad_norm": 0.19680778682231903, + "learning_rate": 1.4404053333333334e-05, + "loss": 0.0201, + "step": 131155 + }, + { + "epoch": 0.839424, + "grad_norm": 0.10555541515350342, + "learning_rate": 1.4403840000000002e-05, + "loss": 0.0035, + "step": 131160 + }, + { + "epoch": 0.839456, + "grad_norm": 0.21190199255943298, + "learning_rate": 1.4403626666666668e-05, + "loss": 0.0021, + "step": 131165 + }, + { + "epoch": 0.839488, + "grad_norm": 0.3778481185436249, + "learning_rate": 1.4403413333333334e-05, + "loss": 0.0041, + "step": 131170 + }, + { + "epoch": 0.83952, + "grad_norm": 0.12446416914463043, + "learning_rate": 1.4403200000000001e-05, + "loss": 0.0018, + "step": 131175 + }, + { + "epoch": 0.839552, + "grad_norm": 0.47323358058929443, + "learning_rate": 1.4402986666666667e-05, + "loss": 0.0146, + "step": 131180 + }, + { + "epoch": 0.839584, + "grad_norm": 0.5863038897514343, + "learning_rate": 1.4402773333333335e-05, + "loss": 0.0113, + "step": 131185 + }, + { + "epoch": 0.839616, + "grad_norm": 0.09025471657514572, + "learning_rate": 1.440256e-05, + "loss": 0.0041, + "step": 131190 + }, + { + "epoch": 0.839648, + "grad_norm": 1.554044246673584, + "learning_rate": 1.4402346666666668e-05, + "loss": 0.0069, + "step": 131195 + }, + { + "epoch": 0.83968, + "grad_norm": 0.46030858159065247, + "learning_rate": 1.4402133333333334e-05, + "loss": 0.0323, + "step": 131200 + }, + { + "epoch": 0.839712, + "grad_norm": 0.09842097759246826, + "learning_rate": 1.440192e-05, + "loss": 0.0045, + "step": 131205 + }, + { + "epoch": 0.839744, + "grad_norm": 0.6694087982177734, + "learning_rate": 1.4401706666666669e-05, + "loss": 0.0057, + "step": 131210 + }, + { + "epoch": 0.839776, + "grad_norm": 0.1519286185503006, + "learning_rate": 1.4401493333333333e-05, + "loss": 0.015, + "step": 131215 + }, + { + "epoch": 0.839808, + "grad_norm": 0.6894305348396301, + "learning_rate": 1.4401280000000002e-05, + "loss": 0.0122, + "step": 131220 + }, + { + "epoch": 0.83984, + "grad_norm": 0.11638373136520386, + "learning_rate": 1.4401066666666668e-05, + "loss": 0.0074, + "step": 131225 + }, + { + "epoch": 0.839872, + "grad_norm": 0.3505604863166809, + "learning_rate": 1.4400853333333336e-05, + "loss": 0.006, + "step": 131230 + }, + { + "epoch": 0.839904, + "grad_norm": 0.9123600721359253, + "learning_rate": 1.4400640000000002e-05, + "loss": 0.0096, + "step": 131235 + }, + { + "epoch": 0.839936, + "grad_norm": 0.1925116926431656, + "learning_rate": 1.4400426666666668e-05, + "loss": 0.0039, + "step": 131240 + }, + { + "epoch": 0.839968, + "grad_norm": 0.023789310827851295, + "learning_rate": 1.4400213333333335e-05, + "loss": 0.0068, + "step": 131245 + }, + { + "epoch": 0.84, + "grad_norm": 0.23257045447826385, + "learning_rate": 1.4400000000000001e-05, + "loss": 0.0128, + "step": 131250 + }, + { + "epoch": 0.840032, + "grad_norm": 0.3022279143333435, + "learning_rate": 1.4399786666666669e-05, + "loss": 0.0088, + "step": 131255 + }, + { + "epoch": 0.840064, + "grad_norm": 2.2798452377319336, + "learning_rate": 1.4399573333333334e-05, + "loss": 0.0055, + "step": 131260 + }, + { + "epoch": 0.840096, + "grad_norm": 0.35064253211021423, + "learning_rate": 1.4399360000000002e-05, + "loss": 0.0054, + "step": 131265 + }, + { + "epoch": 0.840128, + "grad_norm": 0.9500444531440735, + "learning_rate": 1.4399146666666668e-05, + "loss": 0.0055, + "step": 131270 + }, + { + "epoch": 0.84016, + "grad_norm": 0.05878570303320885, + "learning_rate": 1.4398933333333334e-05, + "loss": 0.0089, + "step": 131275 + }, + { + "epoch": 0.840192, + "grad_norm": 0.5604005455970764, + "learning_rate": 1.4398720000000001e-05, + "loss": 0.0073, + "step": 131280 + }, + { + "epoch": 0.840224, + "grad_norm": 0.6810657978057861, + "learning_rate": 1.4398506666666667e-05, + "loss": 0.0153, + "step": 131285 + }, + { + "epoch": 0.840256, + "grad_norm": 0.30400311946868896, + "learning_rate": 1.4398293333333335e-05, + "loss": 0.0047, + "step": 131290 + }, + { + "epoch": 0.840288, + "grad_norm": 0.6325964331626892, + "learning_rate": 1.439808e-05, + "loss": 0.0079, + "step": 131295 + }, + { + "epoch": 0.84032, + "grad_norm": 0.08146024495363235, + "learning_rate": 1.4397866666666668e-05, + "loss": 0.0069, + "step": 131300 + }, + { + "epoch": 0.840352, + "grad_norm": 1.6084412336349487, + "learning_rate": 1.4397653333333334e-05, + "loss": 0.0107, + "step": 131305 + }, + { + "epoch": 0.840384, + "grad_norm": 0.7504910826683044, + "learning_rate": 1.439744e-05, + "loss": 0.0055, + "step": 131310 + }, + { + "epoch": 0.840416, + "grad_norm": 0.5765819549560547, + "learning_rate": 1.4397226666666669e-05, + "loss": 0.0085, + "step": 131315 + }, + { + "epoch": 0.840448, + "grad_norm": 0.33689650893211365, + "learning_rate": 1.4397013333333333e-05, + "loss": 0.0061, + "step": 131320 + }, + { + "epoch": 0.84048, + "grad_norm": 0.05790086090564728, + "learning_rate": 1.4396800000000002e-05, + "loss": 0.0029, + "step": 131325 + }, + { + "epoch": 0.840512, + "grad_norm": 0.357844740152359, + "learning_rate": 1.4396586666666668e-05, + "loss": 0.0174, + "step": 131330 + }, + { + "epoch": 0.840544, + "grad_norm": 0.2262534499168396, + "learning_rate": 1.4396373333333336e-05, + "loss": 0.0095, + "step": 131335 + }, + { + "epoch": 0.840576, + "grad_norm": 0.6486326456069946, + "learning_rate": 1.4396160000000002e-05, + "loss": 0.0089, + "step": 131340 + }, + { + "epoch": 0.840608, + "grad_norm": 0.7975158095359802, + "learning_rate": 1.4395946666666668e-05, + "loss": 0.0088, + "step": 131345 + }, + { + "epoch": 0.84064, + "grad_norm": 0.4960018992424011, + "learning_rate": 1.4395733333333335e-05, + "loss": 0.0062, + "step": 131350 + }, + { + "epoch": 0.840672, + "grad_norm": 0.6131857633590698, + "learning_rate": 1.4395520000000001e-05, + "loss": 0.0187, + "step": 131355 + }, + { + "epoch": 0.840704, + "grad_norm": 0.7097540497779846, + "learning_rate": 1.4395306666666669e-05, + "loss": 0.0066, + "step": 131360 + }, + { + "epoch": 0.840736, + "grad_norm": 0.3379287123680115, + "learning_rate": 1.4395093333333334e-05, + "loss": 0.0091, + "step": 131365 + }, + { + "epoch": 0.840768, + "grad_norm": 0.22487764060497284, + "learning_rate": 1.4394880000000002e-05, + "loss": 0.0094, + "step": 131370 + }, + { + "epoch": 0.8408, + "grad_norm": 0.4003490209579468, + "learning_rate": 1.4394666666666668e-05, + "loss": 0.0058, + "step": 131375 + }, + { + "epoch": 0.840832, + "grad_norm": 0.05856730043888092, + "learning_rate": 1.4394453333333334e-05, + "loss": 0.0066, + "step": 131380 + }, + { + "epoch": 0.840864, + "grad_norm": 0.3889716565608978, + "learning_rate": 1.4394240000000001e-05, + "loss": 0.0089, + "step": 131385 + }, + { + "epoch": 0.840896, + "grad_norm": 0.08284229040145874, + "learning_rate": 1.4394026666666667e-05, + "loss": 0.0028, + "step": 131390 + }, + { + "epoch": 0.840928, + "grad_norm": 0.027424678206443787, + "learning_rate": 1.4393813333333335e-05, + "loss": 0.0041, + "step": 131395 + }, + { + "epoch": 0.84096, + "grad_norm": 0.7702843546867371, + "learning_rate": 1.43936e-05, + "loss": 0.0236, + "step": 131400 + }, + { + "epoch": 0.840992, + "grad_norm": 0.24769437313079834, + "learning_rate": 1.4393386666666668e-05, + "loss": 0.0039, + "step": 131405 + }, + { + "epoch": 0.841024, + "grad_norm": 1.4516892433166504, + "learning_rate": 1.4393173333333334e-05, + "loss": 0.0176, + "step": 131410 + }, + { + "epoch": 0.841056, + "grad_norm": 0.32010018825531006, + "learning_rate": 1.439296e-05, + "loss": 0.0038, + "step": 131415 + }, + { + "epoch": 0.841088, + "grad_norm": 3.3791308403015137, + "learning_rate": 1.4392746666666667e-05, + "loss": 0.0117, + "step": 131420 + }, + { + "epoch": 0.84112, + "grad_norm": 0.14111527800559998, + "learning_rate": 1.4392533333333333e-05, + "loss": 0.0181, + "step": 131425 + }, + { + "epoch": 0.841152, + "grad_norm": 0.8532302975654602, + "learning_rate": 1.4392320000000002e-05, + "loss": 0.0036, + "step": 131430 + }, + { + "epoch": 0.841184, + "grad_norm": 0.028131410479545593, + "learning_rate": 1.4392106666666668e-05, + "loss": 0.0095, + "step": 131435 + }, + { + "epoch": 0.841216, + "grad_norm": 0.214059978723526, + "learning_rate": 1.4391893333333336e-05, + "loss": 0.0032, + "step": 131440 + }, + { + "epoch": 0.841248, + "grad_norm": 0.29023507237434387, + "learning_rate": 1.4391680000000002e-05, + "loss": 0.0039, + "step": 131445 + }, + { + "epoch": 0.84128, + "grad_norm": 0.32677051424980164, + "learning_rate": 1.4391466666666668e-05, + "loss": 0.0105, + "step": 131450 + }, + { + "epoch": 0.841312, + "grad_norm": 0.03989585116505623, + "learning_rate": 1.4391253333333335e-05, + "loss": 0.0111, + "step": 131455 + }, + { + "epoch": 0.841344, + "grad_norm": 0.28810447454452515, + "learning_rate": 1.4391040000000001e-05, + "loss": 0.002, + "step": 131460 + }, + { + "epoch": 0.841376, + "grad_norm": 0.016237644478678703, + "learning_rate": 1.4390826666666669e-05, + "loss": 0.0112, + "step": 131465 + }, + { + "epoch": 0.841408, + "grad_norm": 0.661837100982666, + "learning_rate": 1.4390613333333334e-05, + "loss": 0.0131, + "step": 131470 + }, + { + "epoch": 0.84144, + "grad_norm": 0.38663917779922485, + "learning_rate": 1.4390400000000002e-05, + "loss": 0.0052, + "step": 131475 + }, + { + "epoch": 0.841472, + "grad_norm": 0.24913841485977173, + "learning_rate": 1.4390186666666668e-05, + "loss": 0.0022, + "step": 131480 + }, + { + "epoch": 0.841504, + "grad_norm": 1.336937665939331, + "learning_rate": 1.4389973333333334e-05, + "loss": 0.0183, + "step": 131485 + }, + { + "epoch": 0.841536, + "grad_norm": 0.12134105712175369, + "learning_rate": 1.4389760000000001e-05, + "loss": 0.0081, + "step": 131490 + }, + { + "epoch": 0.841568, + "grad_norm": 1.4794068336486816, + "learning_rate": 1.4389546666666667e-05, + "loss": 0.0137, + "step": 131495 + }, + { + "epoch": 0.8416, + "grad_norm": 0.041926201432943344, + "learning_rate": 1.4389333333333335e-05, + "loss": 0.0039, + "step": 131500 + }, + { + "epoch": 0.841632, + "grad_norm": 0.7590118646621704, + "learning_rate": 1.438912e-05, + "loss": 0.0044, + "step": 131505 + }, + { + "epoch": 0.841664, + "grad_norm": 1.117120623588562, + "learning_rate": 1.4388906666666668e-05, + "loss": 0.0099, + "step": 131510 + }, + { + "epoch": 0.841696, + "grad_norm": 1.1093069314956665, + "learning_rate": 1.4388693333333334e-05, + "loss": 0.0064, + "step": 131515 + }, + { + "epoch": 0.841728, + "grad_norm": 0.26055681705474854, + "learning_rate": 1.438848e-05, + "loss": 0.0096, + "step": 131520 + }, + { + "epoch": 0.84176, + "grad_norm": 2.0443339347839355, + "learning_rate": 1.4388266666666667e-05, + "loss": 0.0614, + "step": 131525 + }, + { + "epoch": 0.841792, + "grad_norm": 0.38975268602371216, + "learning_rate": 1.4388053333333333e-05, + "loss": 0.0136, + "step": 131530 + }, + { + "epoch": 0.841824, + "grad_norm": 0.09810496121644974, + "learning_rate": 1.4387840000000003e-05, + "loss": 0.0142, + "step": 131535 + }, + { + "epoch": 0.841856, + "grad_norm": 1.1796869039535522, + "learning_rate": 1.4387626666666668e-05, + "loss": 0.0307, + "step": 131540 + }, + { + "epoch": 0.841888, + "grad_norm": 0.7963643670082092, + "learning_rate": 1.4387413333333336e-05, + "loss": 0.0157, + "step": 131545 + }, + { + "epoch": 0.84192, + "grad_norm": 0.3149542808532715, + "learning_rate": 1.4387200000000002e-05, + "loss": 0.0065, + "step": 131550 + }, + { + "epoch": 0.841952, + "grad_norm": 0.8458446264266968, + "learning_rate": 1.4386986666666668e-05, + "loss": 0.0069, + "step": 131555 + }, + { + "epoch": 0.841984, + "grad_norm": 0.4779321849346161, + "learning_rate": 1.4386773333333335e-05, + "loss": 0.007, + "step": 131560 + }, + { + "epoch": 0.842016, + "grad_norm": 0.20961938798427582, + "learning_rate": 1.4386560000000001e-05, + "loss": 0.0077, + "step": 131565 + }, + { + "epoch": 0.842048, + "grad_norm": 0.5601258277893066, + "learning_rate": 1.4386346666666669e-05, + "loss": 0.008, + "step": 131570 + }, + { + "epoch": 0.84208, + "grad_norm": 0.31456777453422546, + "learning_rate": 1.4386133333333334e-05, + "loss": 0.0027, + "step": 131575 + }, + { + "epoch": 0.842112, + "grad_norm": 0.41550055146217346, + "learning_rate": 1.4385920000000002e-05, + "loss": 0.0083, + "step": 131580 + }, + { + "epoch": 0.842144, + "grad_norm": 0.12190720438957214, + "learning_rate": 1.4385706666666668e-05, + "loss": 0.0046, + "step": 131585 + }, + { + "epoch": 0.842176, + "grad_norm": 0.4158344566822052, + "learning_rate": 1.4385493333333334e-05, + "loss": 0.01, + "step": 131590 + }, + { + "epoch": 0.842208, + "grad_norm": 0.12161193042993546, + "learning_rate": 1.4385280000000001e-05, + "loss": 0.0053, + "step": 131595 + }, + { + "epoch": 0.84224, + "grad_norm": 0.49547818303108215, + "learning_rate": 1.4385066666666667e-05, + "loss": 0.0067, + "step": 131600 + }, + { + "epoch": 0.842272, + "grad_norm": 1.046199083328247, + "learning_rate": 1.4384853333333335e-05, + "loss": 0.0129, + "step": 131605 + }, + { + "epoch": 0.842304, + "grad_norm": 0.8844560384750366, + "learning_rate": 1.438464e-05, + "loss": 0.0085, + "step": 131610 + }, + { + "epoch": 0.842336, + "grad_norm": 0.025740575045347214, + "learning_rate": 1.4384426666666668e-05, + "loss": 0.0069, + "step": 131615 + }, + { + "epoch": 0.842368, + "grad_norm": 0.32875797152519226, + "learning_rate": 1.4384213333333334e-05, + "loss": 0.0132, + "step": 131620 + }, + { + "epoch": 0.8424, + "grad_norm": 0.01780148409307003, + "learning_rate": 1.4384e-05, + "loss": 0.0075, + "step": 131625 + }, + { + "epoch": 0.842432, + "grad_norm": 1.6025104522705078, + "learning_rate": 1.4383786666666667e-05, + "loss": 0.019, + "step": 131630 + }, + { + "epoch": 0.842464, + "grad_norm": 0.9646570086479187, + "learning_rate": 1.4383573333333333e-05, + "loss": 0.012, + "step": 131635 + }, + { + "epoch": 0.842496, + "grad_norm": 0.6390527486801147, + "learning_rate": 1.4383360000000003e-05, + "loss": 0.0158, + "step": 131640 + }, + { + "epoch": 0.842528, + "grad_norm": 0.30458715558052063, + "learning_rate": 1.4383146666666667e-05, + "loss": 0.0218, + "step": 131645 + }, + { + "epoch": 0.84256, + "grad_norm": 0.6888257265090942, + "learning_rate": 1.4382933333333336e-05, + "loss": 0.0039, + "step": 131650 + }, + { + "epoch": 0.842592, + "grad_norm": 0.21225479245185852, + "learning_rate": 1.4382720000000002e-05, + "loss": 0.0127, + "step": 131655 + }, + { + "epoch": 0.842624, + "grad_norm": 0.18964986503124237, + "learning_rate": 1.4382506666666668e-05, + "loss": 0.0131, + "step": 131660 + }, + { + "epoch": 0.842656, + "grad_norm": 0.023725643754005432, + "learning_rate": 1.4382293333333335e-05, + "loss": 0.0151, + "step": 131665 + }, + { + "epoch": 0.842688, + "grad_norm": 0.1264602243900299, + "learning_rate": 1.4382080000000001e-05, + "loss": 0.0048, + "step": 131670 + }, + { + "epoch": 0.84272, + "grad_norm": 0.24065732955932617, + "learning_rate": 1.4381866666666669e-05, + "loss": 0.01, + "step": 131675 + }, + { + "epoch": 0.842752, + "grad_norm": 0.03317171707749367, + "learning_rate": 1.4381653333333334e-05, + "loss": 0.0131, + "step": 131680 + }, + { + "epoch": 0.842784, + "grad_norm": 0.3809677064418793, + "learning_rate": 1.4381440000000002e-05, + "loss": 0.0063, + "step": 131685 + }, + { + "epoch": 0.842816, + "grad_norm": 0.43003228306770325, + "learning_rate": 1.4381226666666668e-05, + "loss": 0.0096, + "step": 131690 + }, + { + "epoch": 0.842848, + "grad_norm": 0.13868269324302673, + "learning_rate": 1.4381013333333334e-05, + "loss": 0.0125, + "step": 131695 + }, + { + "epoch": 0.84288, + "grad_norm": 2.2763428688049316, + "learning_rate": 1.4380800000000001e-05, + "loss": 0.0292, + "step": 131700 + }, + { + "epoch": 0.842912, + "grad_norm": 0.4196903109550476, + "learning_rate": 1.4380586666666667e-05, + "loss": 0.015, + "step": 131705 + }, + { + "epoch": 0.842944, + "grad_norm": 0.4059584140777588, + "learning_rate": 1.4380373333333335e-05, + "loss": 0.0069, + "step": 131710 + }, + { + "epoch": 0.842976, + "grad_norm": 5.007219314575195, + "learning_rate": 1.438016e-05, + "loss": 0.0105, + "step": 131715 + }, + { + "epoch": 0.843008, + "grad_norm": 0.5684487223625183, + "learning_rate": 1.4379946666666668e-05, + "loss": 0.0082, + "step": 131720 + }, + { + "epoch": 0.84304, + "grad_norm": 0.09747567027807236, + "learning_rate": 1.4379733333333334e-05, + "loss": 0.0016, + "step": 131725 + }, + { + "epoch": 0.843072, + "grad_norm": 0.09187175333499908, + "learning_rate": 1.437952e-05, + "loss": 0.0184, + "step": 131730 + }, + { + "epoch": 0.843104, + "grad_norm": 0.046574484556913376, + "learning_rate": 1.4379306666666667e-05, + "loss": 0.0164, + "step": 131735 + }, + { + "epoch": 0.843136, + "grad_norm": 0.9727023243904114, + "learning_rate": 1.4379093333333333e-05, + "loss": 0.0141, + "step": 131740 + }, + { + "epoch": 0.843168, + "grad_norm": 0.35326045751571655, + "learning_rate": 1.4378880000000003e-05, + "loss": 0.0092, + "step": 131745 + }, + { + "epoch": 0.8432, + "grad_norm": 0.07225314527750015, + "learning_rate": 1.4378666666666667e-05, + "loss": 0.0101, + "step": 131750 + }, + { + "epoch": 0.843232, + "grad_norm": 0.37437903881073, + "learning_rate": 1.4378453333333336e-05, + "loss": 0.0052, + "step": 131755 + }, + { + "epoch": 0.843264, + "grad_norm": 0.4949735105037689, + "learning_rate": 1.4378240000000002e-05, + "loss": 0.0057, + "step": 131760 + }, + { + "epoch": 0.843296, + "grad_norm": 0.2538895308971405, + "learning_rate": 1.4378026666666668e-05, + "loss": 0.0043, + "step": 131765 + }, + { + "epoch": 0.843328, + "grad_norm": 0.9223762154579163, + "learning_rate": 1.4377813333333335e-05, + "loss": 0.0049, + "step": 131770 + }, + { + "epoch": 0.84336, + "grad_norm": 0.3510473966598511, + "learning_rate": 1.4377600000000001e-05, + "loss": 0.0216, + "step": 131775 + }, + { + "epoch": 0.843392, + "grad_norm": 0.9065407514572144, + "learning_rate": 1.4377386666666669e-05, + "loss": 0.0021, + "step": 131780 + }, + { + "epoch": 0.843424, + "grad_norm": 1.3686472177505493, + "learning_rate": 1.4377173333333334e-05, + "loss": 0.0076, + "step": 131785 + }, + { + "epoch": 0.843456, + "grad_norm": 0.4938749074935913, + "learning_rate": 1.4376960000000002e-05, + "loss": 0.0124, + "step": 131790 + }, + { + "epoch": 0.843488, + "grad_norm": 0.9978755712509155, + "learning_rate": 1.4376746666666668e-05, + "loss": 0.0073, + "step": 131795 + }, + { + "epoch": 0.84352, + "grad_norm": 1.0186972618103027, + "learning_rate": 1.4376533333333334e-05, + "loss": 0.0156, + "step": 131800 + }, + { + "epoch": 0.843552, + "grad_norm": 0.8735717535018921, + "learning_rate": 1.4376320000000001e-05, + "loss": 0.0095, + "step": 131805 + }, + { + "epoch": 0.843584, + "grad_norm": 0.18702581524848938, + "learning_rate": 1.4376106666666667e-05, + "loss": 0.0184, + "step": 131810 + }, + { + "epoch": 0.843616, + "grad_norm": 0.41457444429397583, + "learning_rate": 1.4375893333333335e-05, + "loss": 0.0206, + "step": 131815 + }, + { + "epoch": 0.843648, + "grad_norm": 1.6674723625183105, + "learning_rate": 1.437568e-05, + "loss": 0.0048, + "step": 131820 + }, + { + "epoch": 0.84368, + "grad_norm": 0.2855082154273987, + "learning_rate": 1.4375466666666668e-05, + "loss": 0.0148, + "step": 131825 + }, + { + "epoch": 0.843712, + "grad_norm": 0.18862344324588776, + "learning_rate": 1.4375253333333334e-05, + "loss": 0.0077, + "step": 131830 + }, + { + "epoch": 0.843744, + "grad_norm": 0.1221873015165329, + "learning_rate": 1.437504e-05, + "loss": 0.0242, + "step": 131835 + }, + { + "epoch": 0.843776, + "grad_norm": 0.04639413207769394, + "learning_rate": 1.4374826666666667e-05, + "loss": 0.0083, + "step": 131840 + }, + { + "epoch": 0.843808, + "grad_norm": 0.3575877547264099, + "learning_rate": 1.4374613333333333e-05, + "loss": 0.0059, + "step": 131845 + }, + { + "epoch": 0.84384, + "grad_norm": 0.5812143087387085, + "learning_rate": 1.4374400000000003e-05, + "loss": 0.0097, + "step": 131850 + }, + { + "epoch": 0.843872, + "grad_norm": 0.2414666712284088, + "learning_rate": 1.4374186666666667e-05, + "loss": 0.0076, + "step": 131855 + }, + { + "epoch": 0.843904, + "grad_norm": 0.6687980890274048, + "learning_rate": 1.4373973333333336e-05, + "loss": 0.0101, + "step": 131860 + }, + { + "epoch": 0.843936, + "grad_norm": 0.2919144928455353, + "learning_rate": 1.4373760000000002e-05, + "loss": 0.0054, + "step": 131865 + }, + { + "epoch": 0.843968, + "grad_norm": 0.33807501196861267, + "learning_rate": 1.4373546666666666e-05, + "loss": 0.0092, + "step": 131870 + }, + { + "epoch": 0.844, + "grad_norm": 0.6616730093955994, + "learning_rate": 1.4373333333333335e-05, + "loss": 0.0097, + "step": 131875 + }, + { + "epoch": 0.844032, + "grad_norm": 5.11589241027832, + "learning_rate": 1.4373120000000001e-05, + "loss": 0.0292, + "step": 131880 + }, + { + "epoch": 0.844064, + "grad_norm": 0.9696307182312012, + "learning_rate": 1.4372906666666669e-05, + "loss": 0.0092, + "step": 131885 + }, + { + "epoch": 0.844096, + "grad_norm": 0.4822032153606415, + "learning_rate": 1.4372693333333334e-05, + "loss": 0.023, + "step": 131890 + }, + { + "epoch": 0.844128, + "grad_norm": 0.7572283744812012, + "learning_rate": 1.4372480000000002e-05, + "loss": 0.0094, + "step": 131895 + }, + { + "epoch": 0.84416, + "grad_norm": 0.15138064324855804, + "learning_rate": 1.4372266666666668e-05, + "loss": 0.0028, + "step": 131900 + }, + { + "epoch": 0.844192, + "grad_norm": 0.6226561069488525, + "learning_rate": 1.4372053333333334e-05, + "loss": 0.007, + "step": 131905 + }, + { + "epoch": 0.844224, + "grad_norm": 0.4307198226451874, + "learning_rate": 1.4371840000000001e-05, + "loss": 0.0051, + "step": 131910 + }, + { + "epoch": 0.844256, + "grad_norm": 0.0554693266749382, + "learning_rate": 1.4371626666666667e-05, + "loss": 0.0084, + "step": 131915 + }, + { + "epoch": 0.844288, + "grad_norm": 0.15465472638607025, + "learning_rate": 1.4371413333333335e-05, + "loss": 0.0042, + "step": 131920 + }, + { + "epoch": 0.84432, + "grad_norm": 0.5944138169288635, + "learning_rate": 1.43712e-05, + "loss": 0.0125, + "step": 131925 + }, + { + "epoch": 0.844352, + "grad_norm": 0.48841142654418945, + "learning_rate": 1.4370986666666668e-05, + "loss": 0.0065, + "step": 131930 + }, + { + "epoch": 0.844384, + "grad_norm": 0.49874013662338257, + "learning_rate": 1.4370773333333334e-05, + "loss": 0.0117, + "step": 131935 + }, + { + "epoch": 0.844416, + "grad_norm": 0.3143395483493805, + "learning_rate": 1.437056e-05, + "loss": 0.006, + "step": 131940 + }, + { + "epoch": 0.844448, + "grad_norm": 0.2682490348815918, + "learning_rate": 1.4370346666666667e-05, + "loss": 0.0123, + "step": 131945 + }, + { + "epoch": 0.84448, + "grad_norm": 0.4054705798625946, + "learning_rate": 1.4370133333333333e-05, + "loss": 0.0248, + "step": 131950 + }, + { + "epoch": 0.844512, + "grad_norm": 1.5132081508636475, + "learning_rate": 1.436992e-05, + "loss": 0.0236, + "step": 131955 + }, + { + "epoch": 0.844544, + "grad_norm": 0.2144452929496765, + "learning_rate": 1.4369706666666667e-05, + "loss": 0.0196, + "step": 131960 + }, + { + "epoch": 0.844576, + "grad_norm": 1.1613247394561768, + "learning_rate": 1.4369493333333336e-05, + "loss": 0.0139, + "step": 131965 + }, + { + "epoch": 0.844608, + "grad_norm": 0.6011493802070618, + "learning_rate": 1.4369280000000002e-05, + "loss": 0.0037, + "step": 131970 + }, + { + "epoch": 0.84464, + "grad_norm": 0.032596006989479065, + "learning_rate": 1.436906666666667e-05, + "loss": 0.0016, + "step": 131975 + }, + { + "epoch": 0.844672, + "grad_norm": 0.8663730025291443, + "learning_rate": 1.4368853333333335e-05, + "loss": 0.0082, + "step": 131980 + }, + { + "epoch": 0.844704, + "grad_norm": 0.9317193627357483, + "learning_rate": 1.4368640000000001e-05, + "loss": 0.0109, + "step": 131985 + }, + { + "epoch": 0.844736, + "grad_norm": 0.621423065662384, + "learning_rate": 1.4368426666666669e-05, + "loss": 0.005, + "step": 131990 + }, + { + "epoch": 0.844768, + "grad_norm": 1.2036263942718506, + "learning_rate": 1.4368213333333334e-05, + "loss": 0.0111, + "step": 131995 + }, + { + "epoch": 0.8448, + "grad_norm": 0.05108362436294556, + "learning_rate": 1.4368000000000002e-05, + "loss": 0.0027, + "step": 132000 + }, + { + "epoch": 0.844832, + "grad_norm": 0.6868560910224915, + "learning_rate": 1.4367786666666668e-05, + "loss": 0.0138, + "step": 132005 + }, + { + "epoch": 0.844864, + "grad_norm": 0.08678814768791199, + "learning_rate": 1.4367573333333335e-05, + "loss": 0.0033, + "step": 132010 + }, + { + "epoch": 0.844896, + "grad_norm": 0.053649287670850754, + "learning_rate": 1.4367360000000001e-05, + "loss": 0.007, + "step": 132015 + }, + { + "epoch": 0.844928, + "grad_norm": 0.4847860038280487, + "learning_rate": 1.4367146666666667e-05, + "loss": 0.007, + "step": 132020 + }, + { + "epoch": 0.84496, + "grad_norm": 0.5642042756080627, + "learning_rate": 1.4366933333333335e-05, + "loss": 0.0056, + "step": 132025 + }, + { + "epoch": 0.844992, + "grad_norm": 0.7564411759376526, + "learning_rate": 1.436672e-05, + "loss": 0.008, + "step": 132030 + }, + { + "epoch": 0.845024, + "grad_norm": 0.5248982906341553, + "learning_rate": 1.4366506666666668e-05, + "loss": 0.0315, + "step": 132035 + }, + { + "epoch": 0.845056, + "grad_norm": 0.006909804418683052, + "learning_rate": 1.4366293333333334e-05, + "loss": 0.0087, + "step": 132040 + }, + { + "epoch": 0.845088, + "grad_norm": 0.7934631705284119, + "learning_rate": 1.4366080000000002e-05, + "loss": 0.0093, + "step": 132045 + }, + { + "epoch": 0.84512, + "grad_norm": 0.2153548300266266, + "learning_rate": 1.4365866666666667e-05, + "loss": 0.0092, + "step": 132050 + }, + { + "epoch": 0.845152, + "grad_norm": 0.265512615442276, + "learning_rate": 1.4365653333333333e-05, + "loss": 0.0127, + "step": 132055 + }, + { + "epoch": 0.845184, + "grad_norm": 0.08005206286907196, + "learning_rate": 1.436544e-05, + "loss": 0.0045, + "step": 132060 + }, + { + "epoch": 0.845216, + "grad_norm": 0.18500308692455292, + "learning_rate": 1.4365226666666667e-05, + "loss": 0.0069, + "step": 132065 + }, + { + "epoch": 0.845248, + "grad_norm": 0.2041635513305664, + "learning_rate": 1.4365013333333336e-05, + "loss": 0.0108, + "step": 132070 + }, + { + "epoch": 0.84528, + "grad_norm": 0.2342003434896469, + "learning_rate": 1.4364800000000002e-05, + "loss": 0.0016, + "step": 132075 + }, + { + "epoch": 0.845312, + "grad_norm": 0.6616451740264893, + "learning_rate": 1.436458666666667e-05, + "loss": 0.0074, + "step": 132080 + }, + { + "epoch": 0.845344, + "grad_norm": 0.8944503664970398, + "learning_rate": 1.4364373333333335e-05, + "loss": 0.0096, + "step": 132085 + }, + { + "epoch": 0.845376, + "grad_norm": 0.23778779804706573, + "learning_rate": 1.4364160000000001e-05, + "loss": 0.0112, + "step": 132090 + }, + { + "epoch": 0.845408, + "grad_norm": 0.37363719940185547, + "learning_rate": 1.4363946666666669e-05, + "loss": 0.0068, + "step": 132095 + }, + { + "epoch": 0.84544, + "grad_norm": 0.49089449644088745, + "learning_rate": 1.4363733333333334e-05, + "loss": 0.0088, + "step": 132100 + }, + { + "epoch": 0.845472, + "grad_norm": 0.07638029754161835, + "learning_rate": 1.4363520000000002e-05, + "loss": 0.0077, + "step": 132105 + }, + { + "epoch": 0.845504, + "grad_norm": 1.3194798231124878, + "learning_rate": 1.4363306666666668e-05, + "loss": 0.0129, + "step": 132110 + }, + { + "epoch": 0.845536, + "grad_norm": 0.6783415675163269, + "learning_rate": 1.4363093333333335e-05, + "loss": 0.0187, + "step": 132115 + }, + { + "epoch": 0.845568, + "grad_norm": 0.3603578805923462, + "learning_rate": 1.4362880000000001e-05, + "loss": 0.0092, + "step": 132120 + }, + { + "epoch": 0.8456, + "grad_norm": 1.0545169115066528, + "learning_rate": 1.4362666666666667e-05, + "loss": 0.0058, + "step": 132125 + }, + { + "epoch": 0.845632, + "grad_norm": 0.023550305515527725, + "learning_rate": 1.4362453333333335e-05, + "loss": 0.0056, + "step": 132130 + }, + { + "epoch": 0.845664, + "grad_norm": 0.03154539689421654, + "learning_rate": 1.436224e-05, + "loss": 0.0061, + "step": 132135 + }, + { + "epoch": 0.845696, + "grad_norm": 0.4659557640552521, + "learning_rate": 1.4362026666666668e-05, + "loss": 0.0089, + "step": 132140 + }, + { + "epoch": 0.845728, + "grad_norm": 0.010966953821480274, + "learning_rate": 1.4361813333333334e-05, + "loss": 0.003, + "step": 132145 + }, + { + "epoch": 0.84576, + "grad_norm": 0.09742112457752228, + "learning_rate": 1.4361600000000002e-05, + "loss": 0.0029, + "step": 132150 + }, + { + "epoch": 0.845792, + "grad_norm": 0.07061797380447388, + "learning_rate": 1.4361386666666667e-05, + "loss": 0.0154, + "step": 132155 + }, + { + "epoch": 0.845824, + "grad_norm": 0.37297511100769043, + "learning_rate": 1.4361173333333333e-05, + "loss": 0.0041, + "step": 132160 + }, + { + "epoch": 0.845856, + "grad_norm": 0.019803941249847412, + "learning_rate": 1.436096e-05, + "loss": 0.002, + "step": 132165 + }, + { + "epoch": 0.845888, + "grad_norm": 0.25175344944000244, + "learning_rate": 1.4360746666666667e-05, + "loss": 0.0063, + "step": 132170 + }, + { + "epoch": 0.84592, + "grad_norm": 0.37171271443367004, + "learning_rate": 1.4360533333333336e-05, + "loss": 0.0122, + "step": 132175 + }, + { + "epoch": 0.845952, + "grad_norm": 0.15321026742458344, + "learning_rate": 1.436032e-05, + "loss": 0.0027, + "step": 132180 + }, + { + "epoch": 0.845984, + "grad_norm": 1.4161962270736694, + "learning_rate": 1.436010666666667e-05, + "loss": 0.007, + "step": 132185 + }, + { + "epoch": 0.846016, + "grad_norm": 0.4712703227996826, + "learning_rate": 1.4359893333333335e-05, + "loss": 0.013, + "step": 132190 + }, + { + "epoch": 0.846048, + "grad_norm": 0.6335431337356567, + "learning_rate": 1.4359680000000001e-05, + "loss": 0.0176, + "step": 132195 + }, + { + "epoch": 0.84608, + "grad_norm": 0.380784809589386, + "learning_rate": 1.4359466666666669e-05, + "loss": 0.0078, + "step": 132200 + }, + { + "epoch": 0.846112, + "grad_norm": 0.24982452392578125, + "learning_rate": 1.4359253333333334e-05, + "loss": 0.0071, + "step": 132205 + }, + { + "epoch": 0.846144, + "grad_norm": 0.03865375369787216, + "learning_rate": 1.4359040000000002e-05, + "loss": 0.004, + "step": 132210 + }, + { + "epoch": 0.846176, + "grad_norm": 0.03174237906932831, + "learning_rate": 1.4358826666666668e-05, + "loss": 0.0229, + "step": 132215 + }, + { + "epoch": 0.846208, + "grad_norm": 0.14861896634101868, + "learning_rate": 1.4358613333333335e-05, + "loss": 0.0148, + "step": 132220 + }, + { + "epoch": 0.84624, + "grad_norm": 0.13268651068210602, + "learning_rate": 1.4358400000000001e-05, + "loss": 0.0044, + "step": 132225 + }, + { + "epoch": 0.846272, + "grad_norm": 0.37820714712142944, + "learning_rate": 1.4358186666666667e-05, + "loss": 0.0076, + "step": 132230 + }, + { + "epoch": 0.846304, + "grad_norm": 0.3920517861843109, + "learning_rate": 1.4357973333333335e-05, + "loss": 0.0061, + "step": 132235 + }, + { + "epoch": 0.846336, + "grad_norm": 0.024896016344428062, + "learning_rate": 1.435776e-05, + "loss": 0.0014, + "step": 132240 + }, + { + "epoch": 0.846368, + "grad_norm": 0.006767785642296076, + "learning_rate": 1.4357546666666668e-05, + "loss": 0.0072, + "step": 132245 + }, + { + "epoch": 0.8464, + "grad_norm": 0.6086477637290955, + "learning_rate": 1.4357333333333334e-05, + "loss": 0.0065, + "step": 132250 + }, + { + "epoch": 0.846432, + "grad_norm": 0.9457774758338928, + "learning_rate": 1.4357120000000002e-05, + "loss": 0.0198, + "step": 132255 + }, + { + "epoch": 0.846464, + "grad_norm": 1.2283496856689453, + "learning_rate": 1.4356906666666667e-05, + "loss": 0.0076, + "step": 132260 + }, + { + "epoch": 0.846496, + "grad_norm": 0.47056105732917786, + "learning_rate": 1.4356693333333333e-05, + "loss": 0.0165, + "step": 132265 + }, + { + "epoch": 0.846528, + "grad_norm": 0.4883107542991638, + "learning_rate": 1.435648e-05, + "loss": 0.011, + "step": 132270 + }, + { + "epoch": 0.84656, + "grad_norm": 1.0385075807571411, + "learning_rate": 1.4356266666666667e-05, + "loss": 0.0076, + "step": 132275 + }, + { + "epoch": 0.846592, + "grad_norm": 0.14676934480667114, + "learning_rate": 1.4356053333333336e-05, + "loss": 0.0081, + "step": 132280 + }, + { + "epoch": 0.846624, + "grad_norm": 0.14508962631225586, + "learning_rate": 1.435584e-05, + "loss": 0.0086, + "step": 132285 + }, + { + "epoch": 0.846656, + "grad_norm": 0.16094329953193665, + "learning_rate": 1.435562666666667e-05, + "loss": 0.0119, + "step": 132290 + }, + { + "epoch": 0.846688, + "grad_norm": 0.15435147285461426, + "learning_rate": 1.4355413333333335e-05, + "loss": 0.0072, + "step": 132295 + }, + { + "epoch": 0.84672, + "grad_norm": 0.04900297895073891, + "learning_rate": 1.4355200000000001e-05, + "loss": 0.0072, + "step": 132300 + }, + { + "epoch": 0.846752, + "grad_norm": 0.47972479462623596, + "learning_rate": 1.4354986666666669e-05, + "loss": 0.0056, + "step": 132305 + }, + { + "epoch": 0.846784, + "grad_norm": 0.18456822633743286, + "learning_rate": 1.4354773333333334e-05, + "loss": 0.0097, + "step": 132310 + }, + { + "epoch": 0.846816, + "grad_norm": 0.6672862768173218, + "learning_rate": 1.4354560000000002e-05, + "loss": 0.0117, + "step": 132315 + }, + { + "epoch": 0.846848, + "grad_norm": 0.41341355443000793, + "learning_rate": 1.4354346666666668e-05, + "loss": 0.0185, + "step": 132320 + }, + { + "epoch": 0.84688, + "grad_norm": 0.026227740570902824, + "learning_rate": 1.4354133333333335e-05, + "loss": 0.0098, + "step": 132325 + }, + { + "epoch": 0.846912, + "grad_norm": 0.031108234077692032, + "learning_rate": 1.4353920000000001e-05, + "loss": 0.0036, + "step": 132330 + }, + { + "epoch": 0.846944, + "grad_norm": 0.12325847893953323, + "learning_rate": 1.4353706666666667e-05, + "loss": 0.0063, + "step": 132335 + }, + { + "epoch": 0.846976, + "grad_norm": 0.5134060978889465, + "learning_rate": 1.4353493333333335e-05, + "loss": 0.0042, + "step": 132340 + }, + { + "epoch": 0.847008, + "grad_norm": 0.1353013813495636, + "learning_rate": 1.435328e-05, + "loss": 0.0063, + "step": 132345 + }, + { + "epoch": 0.84704, + "grad_norm": 0.09669026732444763, + "learning_rate": 1.4353066666666668e-05, + "loss": 0.0017, + "step": 132350 + }, + { + "epoch": 0.847072, + "grad_norm": 1.8966925144195557, + "learning_rate": 1.4352853333333334e-05, + "loss": 0.0302, + "step": 132355 + }, + { + "epoch": 0.847104, + "grad_norm": 0.0762077122926712, + "learning_rate": 1.4352640000000002e-05, + "loss": 0.0067, + "step": 132360 + }, + { + "epoch": 0.847136, + "grad_norm": 0.28304532170295715, + "learning_rate": 1.4352426666666667e-05, + "loss": 0.009, + "step": 132365 + }, + { + "epoch": 0.847168, + "grad_norm": 0.5226457118988037, + "learning_rate": 1.4352213333333333e-05, + "loss": 0.0044, + "step": 132370 + }, + { + "epoch": 0.8472, + "grad_norm": 0.8695538640022278, + "learning_rate": 1.4352e-05, + "loss": 0.0101, + "step": 132375 + }, + { + "epoch": 0.847232, + "grad_norm": 0.14096060395240784, + "learning_rate": 1.4351786666666667e-05, + "loss": 0.0078, + "step": 132380 + }, + { + "epoch": 0.847264, + "grad_norm": 0.054940808564424515, + "learning_rate": 1.4351573333333336e-05, + "loss": 0.0048, + "step": 132385 + }, + { + "epoch": 0.847296, + "grad_norm": 0.008525202050805092, + "learning_rate": 1.435136e-05, + "loss": 0.0122, + "step": 132390 + }, + { + "epoch": 0.847328, + "grad_norm": 0.5614627003669739, + "learning_rate": 1.435114666666667e-05, + "loss": 0.0131, + "step": 132395 + }, + { + "epoch": 0.84736, + "grad_norm": 0.3137384057044983, + "learning_rate": 1.4350933333333335e-05, + "loss": 0.0134, + "step": 132400 + }, + { + "epoch": 0.847392, + "grad_norm": 0.022469842806458473, + "learning_rate": 1.435072e-05, + "loss": 0.0037, + "step": 132405 + }, + { + "epoch": 0.847424, + "grad_norm": 0.41929182410240173, + "learning_rate": 1.4350506666666669e-05, + "loss": 0.0079, + "step": 132410 + }, + { + "epoch": 0.847456, + "grad_norm": 1.2454229593276978, + "learning_rate": 1.4350293333333334e-05, + "loss": 0.0153, + "step": 132415 + }, + { + "epoch": 0.847488, + "grad_norm": 0.018519358709454536, + "learning_rate": 1.4350080000000002e-05, + "loss": 0.0067, + "step": 132420 + }, + { + "epoch": 0.84752, + "grad_norm": 0.5182943344116211, + "learning_rate": 1.4349866666666668e-05, + "loss": 0.0068, + "step": 132425 + }, + { + "epoch": 0.847552, + "grad_norm": 0.8201427459716797, + "learning_rate": 1.4349653333333335e-05, + "loss": 0.0089, + "step": 132430 + }, + { + "epoch": 0.847584, + "grad_norm": 0.9789072275161743, + "learning_rate": 1.4349440000000001e-05, + "loss": 0.0186, + "step": 132435 + }, + { + "epoch": 0.847616, + "grad_norm": 0.32382434606552124, + "learning_rate": 1.4349226666666667e-05, + "loss": 0.0137, + "step": 132440 + }, + { + "epoch": 0.847648, + "grad_norm": 0.6850598454475403, + "learning_rate": 1.4349013333333335e-05, + "loss": 0.009, + "step": 132445 + }, + { + "epoch": 0.84768, + "grad_norm": 0.5539520978927612, + "learning_rate": 1.43488e-05, + "loss": 0.0096, + "step": 132450 + }, + { + "epoch": 0.847712, + "grad_norm": 0.9445446729660034, + "learning_rate": 1.4348586666666668e-05, + "loss": 0.0106, + "step": 132455 + }, + { + "epoch": 0.847744, + "grad_norm": 0.2763782739639282, + "learning_rate": 1.4348373333333334e-05, + "loss": 0.0093, + "step": 132460 + }, + { + "epoch": 0.847776, + "grad_norm": 0.16158390045166016, + "learning_rate": 1.4348160000000002e-05, + "loss": 0.0106, + "step": 132465 + }, + { + "epoch": 0.847808, + "grad_norm": 0.5254797339439392, + "learning_rate": 1.4347946666666667e-05, + "loss": 0.0047, + "step": 132470 + }, + { + "epoch": 0.84784, + "grad_norm": 0.6031953692436218, + "learning_rate": 1.4347733333333333e-05, + "loss": 0.0125, + "step": 132475 + }, + { + "epoch": 0.847872, + "grad_norm": 0.7128094434738159, + "learning_rate": 1.434752e-05, + "loss": 0.0116, + "step": 132480 + }, + { + "epoch": 0.847904, + "grad_norm": 0.8330056667327881, + "learning_rate": 1.4347306666666667e-05, + "loss": 0.0063, + "step": 132485 + }, + { + "epoch": 0.847936, + "grad_norm": 0.3572959899902344, + "learning_rate": 1.4347093333333336e-05, + "loss": 0.0058, + "step": 132490 + }, + { + "epoch": 0.847968, + "grad_norm": 0.2544207274913788, + "learning_rate": 1.434688e-05, + "loss": 0.0085, + "step": 132495 + }, + { + "epoch": 0.848, + "grad_norm": 0.050130702555179596, + "learning_rate": 1.434666666666667e-05, + "loss": 0.0072, + "step": 132500 + }, + { + "epoch": 0.848032, + "grad_norm": 0.5479156374931335, + "learning_rate": 1.4346453333333335e-05, + "loss": 0.0186, + "step": 132505 + }, + { + "epoch": 0.848064, + "grad_norm": 0.05857572704553604, + "learning_rate": 1.434624e-05, + "loss": 0.0098, + "step": 132510 + }, + { + "epoch": 0.848096, + "grad_norm": 0.005875469651073217, + "learning_rate": 1.4346026666666669e-05, + "loss": 0.0033, + "step": 132515 + }, + { + "epoch": 0.848128, + "grad_norm": 0.7892153263092041, + "learning_rate": 1.4345813333333334e-05, + "loss": 0.0149, + "step": 132520 + }, + { + "epoch": 0.84816, + "grad_norm": 0.11312083899974823, + "learning_rate": 1.4345600000000002e-05, + "loss": 0.0044, + "step": 132525 + }, + { + "epoch": 0.848192, + "grad_norm": 0.17048954963684082, + "learning_rate": 1.4345386666666668e-05, + "loss": 0.0148, + "step": 132530 + }, + { + "epoch": 0.848224, + "grad_norm": 0.31986096501350403, + "learning_rate": 1.4345173333333335e-05, + "loss": 0.0168, + "step": 132535 + }, + { + "epoch": 0.848256, + "grad_norm": 0.5914900302886963, + "learning_rate": 1.4344960000000001e-05, + "loss": 0.0124, + "step": 132540 + }, + { + "epoch": 0.848288, + "grad_norm": 0.3160015642642975, + "learning_rate": 1.4344746666666667e-05, + "loss": 0.0109, + "step": 132545 + }, + { + "epoch": 0.84832, + "grad_norm": 0.05828242748975754, + "learning_rate": 1.4344533333333335e-05, + "loss": 0.0026, + "step": 132550 + }, + { + "epoch": 0.848352, + "grad_norm": 0.5739036798477173, + "learning_rate": 1.434432e-05, + "loss": 0.0081, + "step": 132555 + }, + { + "epoch": 0.848384, + "grad_norm": 0.44244179129600525, + "learning_rate": 1.4344106666666668e-05, + "loss": 0.0169, + "step": 132560 + }, + { + "epoch": 0.848416, + "grad_norm": 0.07060785591602325, + "learning_rate": 1.4343893333333334e-05, + "loss": 0.0154, + "step": 132565 + }, + { + "epoch": 0.848448, + "grad_norm": 0.11236825585365295, + "learning_rate": 1.4343680000000002e-05, + "loss": 0.0072, + "step": 132570 + }, + { + "epoch": 0.84848, + "grad_norm": 0.1914122849702835, + "learning_rate": 1.4343466666666667e-05, + "loss": 0.0058, + "step": 132575 + }, + { + "epoch": 0.848512, + "grad_norm": 0.34204262495040894, + "learning_rate": 1.4343253333333333e-05, + "loss": 0.0083, + "step": 132580 + }, + { + "epoch": 0.848544, + "grad_norm": 0.8303885459899902, + "learning_rate": 1.434304e-05, + "loss": 0.0084, + "step": 132585 + }, + { + "epoch": 0.848576, + "grad_norm": 1.2400156259536743, + "learning_rate": 1.4342826666666667e-05, + "loss": 0.0124, + "step": 132590 + }, + { + "epoch": 0.848608, + "grad_norm": 0.024772878736257553, + "learning_rate": 1.4342613333333334e-05, + "loss": 0.0011, + "step": 132595 + }, + { + "epoch": 0.84864, + "grad_norm": 0.0372498482465744, + "learning_rate": 1.43424e-05, + "loss": 0.0066, + "step": 132600 + }, + { + "epoch": 0.848672, + "grad_norm": 0.5781903266906738, + "learning_rate": 1.434218666666667e-05, + "loss": 0.002, + "step": 132605 + }, + { + "epoch": 0.848704, + "grad_norm": 0.6840139031410217, + "learning_rate": 1.4341973333333335e-05, + "loss": 0.0058, + "step": 132610 + }, + { + "epoch": 0.848736, + "grad_norm": 0.6467200517654419, + "learning_rate": 1.434176e-05, + "loss": 0.0028, + "step": 132615 + }, + { + "epoch": 0.848768, + "grad_norm": 0.9647899866104126, + "learning_rate": 1.4341546666666669e-05, + "loss": 0.0052, + "step": 132620 + }, + { + "epoch": 0.8488, + "grad_norm": 0.2510073184967041, + "learning_rate": 1.4341333333333334e-05, + "loss": 0.0044, + "step": 132625 + }, + { + "epoch": 0.848832, + "grad_norm": 0.8437211513519287, + "learning_rate": 1.4341120000000002e-05, + "loss": 0.0068, + "step": 132630 + }, + { + "epoch": 0.848864, + "grad_norm": 0.14591467380523682, + "learning_rate": 1.4340906666666668e-05, + "loss": 0.0056, + "step": 132635 + }, + { + "epoch": 0.848896, + "grad_norm": 0.7032175064086914, + "learning_rate": 1.4340693333333335e-05, + "loss": 0.0181, + "step": 132640 + }, + { + "epoch": 0.848928, + "grad_norm": 0.9132139682769775, + "learning_rate": 1.4340480000000001e-05, + "loss": 0.0124, + "step": 132645 + }, + { + "epoch": 0.84896, + "grad_norm": 0.6288467049598694, + "learning_rate": 1.4340266666666667e-05, + "loss": 0.0085, + "step": 132650 + }, + { + "epoch": 0.848992, + "grad_norm": 0.47098055481910706, + "learning_rate": 1.4340053333333335e-05, + "loss": 0.0238, + "step": 132655 + }, + { + "epoch": 0.849024, + "grad_norm": 0.13495145738124847, + "learning_rate": 1.433984e-05, + "loss": 0.0046, + "step": 132660 + }, + { + "epoch": 0.849056, + "grad_norm": 0.375336617231369, + "learning_rate": 1.4339626666666668e-05, + "loss": 0.0065, + "step": 132665 + }, + { + "epoch": 0.849088, + "grad_norm": 0.22590121626853943, + "learning_rate": 1.4339413333333334e-05, + "loss": 0.0088, + "step": 132670 + }, + { + "epoch": 0.84912, + "grad_norm": 0.7466164231300354, + "learning_rate": 1.4339200000000002e-05, + "loss": 0.0205, + "step": 132675 + }, + { + "epoch": 0.849152, + "grad_norm": 0.15226347744464874, + "learning_rate": 1.4338986666666667e-05, + "loss": 0.0051, + "step": 132680 + }, + { + "epoch": 0.849184, + "grad_norm": 0.06297159940004349, + "learning_rate": 1.4338773333333333e-05, + "loss": 0.0023, + "step": 132685 + }, + { + "epoch": 0.849216, + "grad_norm": 0.8484452366828918, + "learning_rate": 1.433856e-05, + "loss": 0.017, + "step": 132690 + }, + { + "epoch": 0.849248, + "grad_norm": 0.34647905826568604, + "learning_rate": 1.4338346666666667e-05, + "loss": 0.0049, + "step": 132695 + }, + { + "epoch": 0.84928, + "grad_norm": 0.03426148369908333, + "learning_rate": 1.4338133333333334e-05, + "loss": 0.0251, + "step": 132700 + }, + { + "epoch": 0.849312, + "grad_norm": 0.30530595779418945, + "learning_rate": 1.433792e-05, + "loss": 0.0189, + "step": 132705 + }, + { + "epoch": 0.849344, + "grad_norm": 1.0857601165771484, + "learning_rate": 1.433770666666667e-05, + "loss": 0.0101, + "step": 132710 + }, + { + "epoch": 0.849376, + "grad_norm": 0.09332921355962753, + "learning_rate": 1.4337493333333335e-05, + "loss": 0.0051, + "step": 132715 + }, + { + "epoch": 0.849408, + "grad_norm": 0.06075717881321907, + "learning_rate": 1.433728e-05, + "loss": 0.0223, + "step": 132720 + }, + { + "epoch": 0.84944, + "grad_norm": 0.8892475962638855, + "learning_rate": 1.4337066666666669e-05, + "loss": 0.0079, + "step": 132725 + }, + { + "epoch": 0.849472, + "grad_norm": 0.8871882557868958, + "learning_rate": 1.4336853333333334e-05, + "loss": 0.0041, + "step": 132730 + }, + { + "epoch": 0.849504, + "grad_norm": 0.5939629077911377, + "learning_rate": 1.4336640000000002e-05, + "loss": 0.0082, + "step": 132735 + }, + { + "epoch": 0.849536, + "grad_norm": 0.23944276571273804, + "learning_rate": 1.4336426666666668e-05, + "loss": 0.0137, + "step": 132740 + }, + { + "epoch": 0.849568, + "grad_norm": 0.6767565608024597, + "learning_rate": 1.4336213333333335e-05, + "loss": 0.0231, + "step": 132745 + }, + { + "epoch": 0.8496, + "grad_norm": 0.23417365550994873, + "learning_rate": 1.4336000000000001e-05, + "loss": 0.0058, + "step": 132750 + }, + { + "epoch": 0.849632, + "grad_norm": 0.8188962936401367, + "learning_rate": 1.4335786666666667e-05, + "loss": 0.011, + "step": 132755 + }, + { + "epoch": 0.849664, + "grad_norm": 0.040740396827459335, + "learning_rate": 1.4335573333333335e-05, + "loss": 0.0071, + "step": 132760 + }, + { + "epoch": 0.849696, + "grad_norm": 0.4546820819377899, + "learning_rate": 1.433536e-05, + "loss": 0.0163, + "step": 132765 + }, + { + "epoch": 0.849728, + "grad_norm": 0.03706347942352295, + "learning_rate": 1.4335146666666668e-05, + "loss": 0.0015, + "step": 132770 + }, + { + "epoch": 0.84976, + "grad_norm": 0.1953059583902359, + "learning_rate": 1.4334933333333334e-05, + "loss": 0.002, + "step": 132775 + }, + { + "epoch": 0.849792, + "grad_norm": 0.2166646122932434, + "learning_rate": 1.4334720000000002e-05, + "loss": 0.0083, + "step": 132780 + }, + { + "epoch": 0.849824, + "grad_norm": 0.08953434228897095, + "learning_rate": 1.4334506666666667e-05, + "loss": 0.0063, + "step": 132785 + }, + { + "epoch": 0.849856, + "grad_norm": 0.29572662711143494, + "learning_rate": 1.4334293333333335e-05, + "loss": 0.0077, + "step": 132790 + }, + { + "epoch": 0.849888, + "grad_norm": 0.6134498715400696, + "learning_rate": 1.433408e-05, + "loss": 0.0074, + "step": 132795 + }, + { + "epoch": 0.84992, + "grad_norm": 1.5219695568084717, + "learning_rate": 1.4333866666666667e-05, + "loss": 0.0064, + "step": 132800 + }, + { + "epoch": 0.849952, + "grad_norm": 0.31005606055259705, + "learning_rate": 1.4333653333333334e-05, + "loss": 0.0047, + "step": 132805 + }, + { + "epoch": 0.849984, + "grad_norm": 0.050103604793548584, + "learning_rate": 1.433344e-05, + "loss": 0.0168, + "step": 132810 + }, + { + "epoch": 0.850016, + "grad_norm": 0.6234558820724487, + "learning_rate": 1.433322666666667e-05, + "loss": 0.0083, + "step": 132815 + }, + { + "epoch": 0.850048, + "grad_norm": 0.5061882138252258, + "learning_rate": 1.4333013333333334e-05, + "loss": 0.029, + "step": 132820 + }, + { + "epoch": 0.85008, + "grad_norm": 0.31363263726234436, + "learning_rate": 1.4332800000000003e-05, + "loss": 0.0074, + "step": 132825 + }, + { + "epoch": 0.850112, + "grad_norm": 0.2757209539413452, + "learning_rate": 1.4332586666666669e-05, + "loss": 0.0064, + "step": 132830 + }, + { + "epoch": 0.850144, + "grad_norm": 0.5936123728752136, + "learning_rate": 1.4332373333333334e-05, + "loss": 0.0101, + "step": 132835 + }, + { + "epoch": 0.850176, + "grad_norm": 0.15870454907417297, + "learning_rate": 1.4332160000000002e-05, + "loss": 0.0184, + "step": 132840 + }, + { + "epoch": 0.850208, + "grad_norm": 0.08864837139844894, + "learning_rate": 1.4331946666666668e-05, + "loss": 0.0133, + "step": 132845 + }, + { + "epoch": 0.85024, + "grad_norm": 1.6815977096557617, + "learning_rate": 1.4331733333333335e-05, + "loss": 0.0142, + "step": 132850 + }, + { + "epoch": 0.850272, + "grad_norm": 0.608098030090332, + "learning_rate": 1.4331520000000001e-05, + "loss": 0.0096, + "step": 132855 + }, + { + "epoch": 0.850304, + "grad_norm": 0.2076377123594284, + "learning_rate": 1.4331306666666669e-05, + "loss": 0.0244, + "step": 132860 + }, + { + "epoch": 0.850336, + "grad_norm": 0.06290099769830704, + "learning_rate": 1.4331093333333335e-05, + "loss": 0.0075, + "step": 132865 + }, + { + "epoch": 0.850368, + "grad_norm": 0.29554834961891174, + "learning_rate": 1.433088e-05, + "loss": 0.0031, + "step": 132870 + }, + { + "epoch": 0.8504, + "grad_norm": 0.5254376530647278, + "learning_rate": 1.4330666666666668e-05, + "loss": 0.008, + "step": 132875 + }, + { + "epoch": 0.850432, + "grad_norm": 0.13143476843833923, + "learning_rate": 1.4330453333333334e-05, + "loss": 0.0031, + "step": 132880 + }, + { + "epoch": 0.850464, + "grad_norm": 0.14599987864494324, + "learning_rate": 1.4330240000000002e-05, + "loss": 0.0087, + "step": 132885 + }, + { + "epoch": 0.850496, + "grad_norm": 0.15287941694259644, + "learning_rate": 1.4330026666666667e-05, + "loss": 0.007, + "step": 132890 + }, + { + "epoch": 0.850528, + "grad_norm": 0.7917352914810181, + "learning_rate": 1.4329813333333335e-05, + "loss": 0.0047, + "step": 132895 + }, + { + "epoch": 0.85056, + "grad_norm": 1.3298380374908447, + "learning_rate": 1.43296e-05, + "loss": 0.004, + "step": 132900 + }, + { + "epoch": 0.850592, + "grad_norm": 0.6968421339988708, + "learning_rate": 1.4329386666666667e-05, + "loss": 0.0094, + "step": 132905 + }, + { + "epoch": 0.850624, + "grad_norm": 0.017330227419734, + "learning_rate": 1.4329173333333334e-05, + "loss": 0.0052, + "step": 132910 + }, + { + "epoch": 0.850656, + "grad_norm": 5.637150287628174, + "learning_rate": 1.432896e-05, + "loss": 0.0179, + "step": 132915 + }, + { + "epoch": 0.850688, + "grad_norm": 0.07198242843151093, + "learning_rate": 1.432874666666667e-05, + "loss": 0.0057, + "step": 132920 + }, + { + "epoch": 0.85072, + "grad_norm": 0.08328184485435486, + "learning_rate": 1.4328533333333334e-05, + "loss": 0.0104, + "step": 132925 + }, + { + "epoch": 0.850752, + "grad_norm": 0.8986212611198425, + "learning_rate": 1.4328320000000003e-05, + "loss": 0.0118, + "step": 132930 + }, + { + "epoch": 0.850784, + "grad_norm": 0.42421987652778625, + "learning_rate": 1.4328106666666669e-05, + "loss": 0.0039, + "step": 132935 + }, + { + "epoch": 0.850816, + "grad_norm": 0.15909814834594727, + "learning_rate": 1.4327893333333334e-05, + "loss": 0.0274, + "step": 132940 + }, + { + "epoch": 0.850848, + "grad_norm": 0.4101383686065674, + "learning_rate": 1.4327680000000002e-05, + "loss": 0.0049, + "step": 132945 + }, + { + "epoch": 0.85088, + "grad_norm": 0.43475523591041565, + "learning_rate": 1.4327466666666668e-05, + "loss": 0.0068, + "step": 132950 + }, + { + "epoch": 0.850912, + "grad_norm": 0.040456581860780716, + "learning_rate": 1.4327253333333335e-05, + "loss": 0.0078, + "step": 132955 + }, + { + "epoch": 0.850944, + "grad_norm": 0.034890733659267426, + "learning_rate": 1.4327040000000001e-05, + "loss": 0.0048, + "step": 132960 + }, + { + "epoch": 0.850976, + "grad_norm": 1.4531874656677246, + "learning_rate": 1.4326826666666669e-05, + "loss": 0.0112, + "step": 132965 + }, + { + "epoch": 0.851008, + "grad_norm": 0.7601416110992432, + "learning_rate": 1.4326613333333335e-05, + "loss": 0.009, + "step": 132970 + }, + { + "epoch": 0.85104, + "grad_norm": 0.39156416058540344, + "learning_rate": 1.43264e-05, + "loss": 0.0095, + "step": 132975 + }, + { + "epoch": 0.851072, + "grad_norm": 0.30737435817718506, + "learning_rate": 1.4326186666666668e-05, + "loss": 0.0047, + "step": 132980 + }, + { + "epoch": 0.851104, + "grad_norm": 0.06914517283439636, + "learning_rate": 1.4325973333333334e-05, + "loss": 0.0031, + "step": 132985 + }, + { + "epoch": 0.851136, + "grad_norm": 0.3812771141529083, + "learning_rate": 1.4325760000000002e-05, + "loss": 0.0048, + "step": 132990 + }, + { + "epoch": 0.851168, + "grad_norm": 0.4982217252254486, + "learning_rate": 1.4325546666666667e-05, + "loss": 0.0019, + "step": 132995 + }, + { + "epoch": 0.8512, + "grad_norm": 0.0580001138150692, + "learning_rate": 1.4325333333333335e-05, + "loss": 0.0128, + "step": 133000 + }, + { + "epoch": 0.851232, + "grad_norm": 0.6331319808959961, + "learning_rate": 1.432512e-05, + "loss": 0.0087, + "step": 133005 + }, + { + "epoch": 0.851264, + "grad_norm": 0.16145040094852448, + "learning_rate": 1.4324906666666667e-05, + "loss": 0.0063, + "step": 133010 + }, + { + "epoch": 0.851296, + "grad_norm": 0.39660683274269104, + "learning_rate": 1.4324693333333334e-05, + "loss": 0.0059, + "step": 133015 + }, + { + "epoch": 0.851328, + "grad_norm": 1.1937663555145264, + "learning_rate": 1.432448e-05, + "loss": 0.0153, + "step": 133020 + }, + { + "epoch": 0.85136, + "grad_norm": 0.01791391149163246, + "learning_rate": 1.432426666666667e-05, + "loss": 0.0011, + "step": 133025 + }, + { + "epoch": 0.851392, + "grad_norm": 0.021237744018435478, + "learning_rate": 1.4324053333333334e-05, + "loss": 0.0079, + "step": 133030 + }, + { + "epoch": 0.851424, + "grad_norm": 0.03992614895105362, + "learning_rate": 1.4323840000000003e-05, + "loss": 0.0014, + "step": 133035 + }, + { + "epoch": 0.851456, + "grad_norm": 0.38237863779067993, + "learning_rate": 1.4323626666666669e-05, + "loss": 0.0048, + "step": 133040 + }, + { + "epoch": 0.851488, + "grad_norm": 0.020016977563500404, + "learning_rate": 1.4323413333333333e-05, + "loss": 0.0037, + "step": 133045 + }, + { + "epoch": 0.85152, + "grad_norm": 0.4765281081199646, + "learning_rate": 1.4323200000000002e-05, + "loss": 0.0114, + "step": 133050 + }, + { + "epoch": 0.851552, + "grad_norm": 0.6685178279876709, + "learning_rate": 1.4322986666666668e-05, + "loss": 0.009, + "step": 133055 + }, + { + "epoch": 0.851584, + "grad_norm": 0.5568079948425293, + "learning_rate": 1.4322773333333335e-05, + "loss": 0.0127, + "step": 133060 + }, + { + "epoch": 0.851616, + "grad_norm": 0.05950765311717987, + "learning_rate": 1.4322560000000001e-05, + "loss": 0.0034, + "step": 133065 + }, + { + "epoch": 0.851648, + "grad_norm": 0.4958338439464569, + "learning_rate": 1.4322346666666669e-05, + "loss": 0.018, + "step": 133070 + }, + { + "epoch": 0.85168, + "grad_norm": 0.6593244075775146, + "learning_rate": 1.4322133333333335e-05, + "loss": 0.0271, + "step": 133075 + }, + { + "epoch": 0.851712, + "grad_norm": 0.3927413821220398, + "learning_rate": 1.432192e-05, + "loss": 0.018, + "step": 133080 + }, + { + "epoch": 0.851744, + "grad_norm": 0.4164155423641205, + "learning_rate": 1.4321706666666668e-05, + "loss": 0.0198, + "step": 133085 + }, + { + "epoch": 0.851776, + "grad_norm": 0.018558917567133904, + "learning_rate": 1.4321493333333334e-05, + "loss": 0.0096, + "step": 133090 + }, + { + "epoch": 0.851808, + "grad_norm": 0.8853819370269775, + "learning_rate": 1.4321280000000002e-05, + "loss": 0.0122, + "step": 133095 + }, + { + "epoch": 0.85184, + "grad_norm": 0.020005332306027412, + "learning_rate": 1.4321066666666667e-05, + "loss": 0.0034, + "step": 133100 + }, + { + "epoch": 0.851872, + "grad_norm": 0.029399802908301353, + "learning_rate": 1.4320853333333335e-05, + "loss": 0.0097, + "step": 133105 + }, + { + "epoch": 0.851904, + "grad_norm": 0.029610803350806236, + "learning_rate": 1.432064e-05, + "loss": 0.0097, + "step": 133110 + }, + { + "epoch": 0.851936, + "grad_norm": 0.020566686987876892, + "learning_rate": 1.4320426666666667e-05, + "loss": 0.0058, + "step": 133115 + }, + { + "epoch": 0.851968, + "grad_norm": 0.8156113624572754, + "learning_rate": 1.4320213333333334e-05, + "loss": 0.0034, + "step": 133120 + }, + { + "epoch": 0.852, + "grad_norm": 0.1980736255645752, + "learning_rate": 1.432e-05, + "loss": 0.0028, + "step": 133125 + }, + { + "epoch": 0.852032, + "grad_norm": 0.25102388858795166, + "learning_rate": 1.4319786666666668e-05, + "loss": 0.0047, + "step": 133130 + }, + { + "epoch": 0.852064, + "grad_norm": 0.535078227519989, + "learning_rate": 1.4319573333333334e-05, + "loss": 0.007, + "step": 133135 + }, + { + "epoch": 0.852096, + "grad_norm": 0.4293353259563446, + "learning_rate": 1.4319360000000003e-05, + "loss": 0.0103, + "step": 133140 + }, + { + "epoch": 0.852128, + "grad_norm": 0.3809893727302551, + "learning_rate": 1.4319146666666669e-05, + "loss": 0.0131, + "step": 133145 + }, + { + "epoch": 0.85216, + "grad_norm": 0.1094793826341629, + "learning_rate": 1.4318933333333333e-05, + "loss": 0.0044, + "step": 133150 + }, + { + "epoch": 0.852192, + "grad_norm": 0.12374754250049591, + "learning_rate": 1.4318720000000002e-05, + "loss": 0.002, + "step": 133155 + }, + { + "epoch": 0.852224, + "grad_norm": 0.1247367337346077, + "learning_rate": 1.4318506666666668e-05, + "loss": 0.0119, + "step": 133160 + }, + { + "epoch": 0.852256, + "grad_norm": 0.10682361572980881, + "learning_rate": 1.4318293333333335e-05, + "loss": 0.0047, + "step": 133165 + }, + { + "epoch": 0.852288, + "grad_norm": 0.1345578283071518, + "learning_rate": 1.4318080000000001e-05, + "loss": 0.0038, + "step": 133170 + }, + { + "epoch": 0.85232, + "grad_norm": 6.14906120300293, + "learning_rate": 1.4317866666666669e-05, + "loss": 0.0159, + "step": 133175 + }, + { + "epoch": 0.852352, + "grad_norm": 0.0924677848815918, + "learning_rate": 1.4317653333333335e-05, + "loss": 0.012, + "step": 133180 + }, + { + "epoch": 0.852384, + "grad_norm": 0.08841230720281601, + "learning_rate": 1.431744e-05, + "loss": 0.0043, + "step": 133185 + }, + { + "epoch": 0.852416, + "grad_norm": 0.9395542740821838, + "learning_rate": 1.4317226666666668e-05, + "loss": 0.0138, + "step": 133190 + }, + { + "epoch": 0.852448, + "grad_norm": 0.0942632183432579, + "learning_rate": 1.4317013333333334e-05, + "loss": 0.0071, + "step": 133195 + }, + { + "epoch": 0.85248, + "grad_norm": 0.33739590644836426, + "learning_rate": 1.4316800000000002e-05, + "loss": 0.0094, + "step": 133200 + }, + { + "epoch": 0.852512, + "grad_norm": 0.06011785566806793, + "learning_rate": 1.4316586666666667e-05, + "loss": 0.0051, + "step": 133205 + }, + { + "epoch": 0.852544, + "grad_norm": 0.08032753318548203, + "learning_rate": 1.4316373333333335e-05, + "loss": 0.0072, + "step": 133210 + }, + { + "epoch": 0.852576, + "grad_norm": 0.4748251736164093, + "learning_rate": 1.431616e-05, + "loss": 0.004, + "step": 133215 + }, + { + "epoch": 0.852608, + "grad_norm": 0.5752564668655396, + "learning_rate": 1.4315946666666667e-05, + "loss": 0.0034, + "step": 133220 + }, + { + "epoch": 0.85264, + "grad_norm": 0.494647353887558, + "learning_rate": 1.4315733333333334e-05, + "loss": 0.0049, + "step": 133225 + }, + { + "epoch": 0.852672, + "grad_norm": 1.0392959117889404, + "learning_rate": 1.431552e-05, + "loss": 0.0089, + "step": 133230 + }, + { + "epoch": 0.852704, + "grad_norm": 0.7931508421897888, + "learning_rate": 1.4315306666666668e-05, + "loss": 0.0104, + "step": 133235 + }, + { + "epoch": 0.852736, + "grad_norm": 0.594075620174408, + "learning_rate": 1.4315093333333334e-05, + "loss": 0.0079, + "step": 133240 + }, + { + "epoch": 0.852768, + "grad_norm": 0.3065924048423767, + "learning_rate": 1.4314880000000003e-05, + "loss": 0.0031, + "step": 133245 + }, + { + "epoch": 0.8528, + "grad_norm": 0.8284479975700378, + "learning_rate": 1.4314666666666669e-05, + "loss": 0.0133, + "step": 133250 + }, + { + "epoch": 0.852832, + "grad_norm": 0.5467758774757385, + "learning_rate": 1.4314453333333333e-05, + "loss": 0.0029, + "step": 133255 + }, + { + "epoch": 0.852864, + "grad_norm": 0.45785847306251526, + "learning_rate": 1.4314240000000002e-05, + "loss": 0.0175, + "step": 133260 + }, + { + "epoch": 0.852896, + "grad_norm": 0.03055521473288536, + "learning_rate": 1.4314026666666668e-05, + "loss": 0.004, + "step": 133265 + }, + { + "epoch": 0.852928, + "grad_norm": 0.28545185923576355, + "learning_rate": 1.4313813333333335e-05, + "loss": 0.0173, + "step": 133270 + }, + { + "epoch": 0.85296, + "grad_norm": 0.9968733787536621, + "learning_rate": 1.4313600000000001e-05, + "loss": 0.009, + "step": 133275 + }, + { + "epoch": 0.852992, + "grad_norm": 0.30392393469810486, + "learning_rate": 1.4313386666666669e-05, + "loss": 0.003, + "step": 133280 + }, + { + "epoch": 0.853024, + "grad_norm": 0.14393965899944305, + "learning_rate": 1.4313173333333335e-05, + "loss": 0.0156, + "step": 133285 + }, + { + "epoch": 0.853056, + "grad_norm": 0.06756599992513657, + "learning_rate": 1.431296e-05, + "loss": 0.0039, + "step": 133290 + }, + { + "epoch": 0.853088, + "grad_norm": 0.4905710220336914, + "learning_rate": 1.4312746666666668e-05, + "loss": 0.0105, + "step": 133295 + }, + { + "epoch": 0.85312, + "grad_norm": 0.01530225295573473, + "learning_rate": 1.4312533333333334e-05, + "loss": 0.0086, + "step": 133300 + }, + { + "epoch": 0.853152, + "grad_norm": 0.36058804392814636, + "learning_rate": 1.4312320000000002e-05, + "loss": 0.0064, + "step": 133305 + }, + { + "epoch": 0.853184, + "grad_norm": 0.5901672840118408, + "learning_rate": 1.4312106666666667e-05, + "loss": 0.015, + "step": 133310 + }, + { + "epoch": 0.853216, + "grad_norm": 4.525945663452148, + "learning_rate": 1.4311893333333335e-05, + "loss": 0.0155, + "step": 133315 + }, + { + "epoch": 0.853248, + "grad_norm": 0.12343316525220871, + "learning_rate": 1.431168e-05, + "loss": 0.0051, + "step": 133320 + }, + { + "epoch": 0.85328, + "grad_norm": 0.08945050090551376, + "learning_rate": 1.4311466666666667e-05, + "loss": 0.0103, + "step": 133325 + }, + { + "epoch": 0.853312, + "grad_norm": 0.5603411197662354, + "learning_rate": 1.4311253333333334e-05, + "loss": 0.0054, + "step": 133330 + }, + { + "epoch": 0.853344, + "grad_norm": 0.4836556613445282, + "learning_rate": 1.431104e-05, + "loss": 0.0089, + "step": 133335 + }, + { + "epoch": 0.853376, + "grad_norm": 0.056579213589429855, + "learning_rate": 1.4310826666666668e-05, + "loss": 0.0081, + "step": 133340 + }, + { + "epoch": 0.853408, + "grad_norm": 0.5836249589920044, + "learning_rate": 1.4310613333333334e-05, + "loss": 0.0085, + "step": 133345 + }, + { + "epoch": 0.85344, + "grad_norm": 0.019578833132982254, + "learning_rate": 1.4310400000000003e-05, + "loss": 0.0022, + "step": 133350 + }, + { + "epoch": 0.853472, + "grad_norm": 0.2684954106807709, + "learning_rate": 1.4310186666666667e-05, + "loss": 0.0041, + "step": 133355 + }, + { + "epoch": 0.853504, + "grad_norm": 0.00514230178669095, + "learning_rate": 1.4309973333333333e-05, + "loss": 0.0054, + "step": 133360 + }, + { + "epoch": 0.853536, + "grad_norm": 0.028779536485671997, + "learning_rate": 1.4309760000000002e-05, + "loss": 0.008, + "step": 133365 + }, + { + "epoch": 0.853568, + "grad_norm": 0.505869448184967, + "learning_rate": 1.4309546666666668e-05, + "loss": 0.0049, + "step": 133370 + }, + { + "epoch": 0.8536, + "grad_norm": 1.3142696619033813, + "learning_rate": 1.4309333333333335e-05, + "loss": 0.0114, + "step": 133375 + }, + { + "epoch": 0.853632, + "grad_norm": 1.21310555934906, + "learning_rate": 1.4309120000000001e-05, + "loss": 0.03, + "step": 133380 + }, + { + "epoch": 0.853664, + "grad_norm": 0.3489466905593872, + "learning_rate": 1.4308906666666669e-05, + "loss": 0.0163, + "step": 133385 + }, + { + "epoch": 0.853696, + "grad_norm": 0.1619822084903717, + "learning_rate": 1.4308693333333335e-05, + "loss": 0.0073, + "step": 133390 + }, + { + "epoch": 0.853728, + "grad_norm": 0.17266525328159332, + "learning_rate": 1.430848e-05, + "loss": 0.0024, + "step": 133395 + }, + { + "epoch": 0.85376, + "grad_norm": 0.08215852081775665, + "learning_rate": 1.4308266666666668e-05, + "loss": 0.0051, + "step": 133400 + }, + { + "epoch": 0.853792, + "grad_norm": 0.23671691119670868, + "learning_rate": 1.4308053333333334e-05, + "loss": 0.0066, + "step": 133405 + }, + { + "epoch": 0.853824, + "grad_norm": 0.20369380712509155, + "learning_rate": 1.4307840000000002e-05, + "loss": 0.009, + "step": 133410 + }, + { + "epoch": 0.853856, + "grad_norm": 0.43156301975250244, + "learning_rate": 1.4307626666666667e-05, + "loss": 0.0059, + "step": 133415 + }, + { + "epoch": 0.853888, + "grad_norm": 0.10714387893676758, + "learning_rate": 1.4307413333333335e-05, + "loss": 0.0123, + "step": 133420 + }, + { + "epoch": 0.85392, + "grad_norm": 0.013007049448788166, + "learning_rate": 1.43072e-05, + "loss": 0.0102, + "step": 133425 + }, + { + "epoch": 0.853952, + "grad_norm": 0.22733743488788605, + "learning_rate": 1.4306986666666667e-05, + "loss": 0.0013, + "step": 133430 + }, + { + "epoch": 0.853984, + "grad_norm": 0.16854308545589447, + "learning_rate": 1.4306773333333334e-05, + "loss": 0.0102, + "step": 133435 + }, + { + "epoch": 0.854016, + "grad_norm": 0.4180472493171692, + "learning_rate": 1.430656e-05, + "loss": 0.0051, + "step": 133440 + }, + { + "epoch": 0.854048, + "grad_norm": 0.02906305156648159, + "learning_rate": 1.4306346666666668e-05, + "loss": 0.0138, + "step": 133445 + }, + { + "epoch": 0.85408, + "grad_norm": 0.6877753138542175, + "learning_rate": 1.4306133333333334e-05, + "loss": 0.0147, + "step": 133450 + }, + { + "epoch": 0.854112, + "grad_norm": 2.286562919616699, + "learning_rate": 1.4305920000000003e-05, + "loss": 0.0186, + "step": 133455 + }, + { + "epoch": 0.854144, + "grad_norm": 0.6184865236282349, + "learning_rate": 1.4305706666666667e-05, + "loss": 0.0123, + "step": 133460 + }, + { + "epoch": 0.854176, + "grad_norm": 0.026411861181259155, + "learning_rate": 1.4305493333333333e-05, + "loss": 0.0069, + "step": 133465 + }, + { + "epoch": 0.854208, + "grad_norm": 0.1407654583454132, + "learning_rate": 1.4305280000000002e-05, + "loss": 0.0038, + "step": 133470 + }, + { + "epoch": 0.85424, + "grad_norm": 0.19767878949642181, + "learning_rate": 1.4305066666666668e-05, + "loss": 0.0138, + "step": 133475 + }, + { + "epoch": 0.854272, + "grad_norm": 0.25088873505592346, + "learning_rate": 1.4304853333333335e-05, + "loss": 0.0046, + "step": 133480 + }, + { + "epoch": 0.854304, + "grad_norm": 0.86514812707901, + "learning_rate": 1.4304640000000001e-05, + "loss": 0.0142, + "step": 133485 + }, + { + "epoch": 0.854336, + "grad_norm": 0.2522124648094177, + "learning_rate": 1.4304426666666669e-05, + "loss": 0.0056, + "step": 133490 + }, + { + "epoch": 0.854368, + "grad_norm": 0.03559276461601257, + "learning_rate": 1.4304213333333335e-05, + "loss": 0.0028, + "step": 133495 + }, + { + "epoch": 0.8544, + "grad_norm": 0.6728289127349854, + "learning_rate": 1.4304e-05, + "loss": 0.0063, + "step": 133500 + }, + { + "epoch": 0.854432, + "grad_norm": 0.40382570028305054, + "learning_rate": 1.4303786666666668e-05, + "loss": 0.013, + "step": 133505 + }, + { + "epoch": 0.854464, + "grad_norm": 0.05389012396335602, + "learning_rate": 1.4303573333333334e-05, + "loss": 0.0024, + "step": 133510 + }, + { + "epoch": 0.854496, + "grad_norm": 0.6305293440818787, + "learning_rate": 1.4303360000000002e-05, + "loss": 0.0125, + "step": 133515 + }, + { + "epoch": 0.854528, + "grad_norm": 1.4099125862121582, + "learning_rate": 1.4303146666666667e-05, + "loss": 0.007, + "step": 133520 + }, + { + "epoch": 0.85456, + "grad_norm": 0.4717774987220764, + "learning_rate": 1.4302933333333335e-05, + "loss": 0.0142, + "step": 133525 + }, + { + "epoch": 0.854592, + "grad_norm": 0.19507895410060883, + "learning_rate": 1.4302720000000001e-05, + "loss": 0.0064, + "step": 133530 + }, + { + "epoch": 0.854624, + "grad_norm": 0.027105189859867096, + "learning_rate": 1.4302506666666667e-05, + "loss": 0.0075, + "step": 133535 + }, + { + "epoch": 0.854656, + "grad_norm": 0.3269406259059906, + "learning_rate": 1.4302293333333334e-05, + "loss": 0.0051, + "step": 133540 + }, + { + "epoch": 0.854688, + "grad_norm": 0.10819730162620544, + "learning_rate": 1.430208e-05, + "loss": 0.0033, + "step": 133545 + }, + { + "epoch": 0.85472, + "grad_norm": 0.4373876452445984, + "learning_rate": 1.4301866666666668e-05, + "loss": 0.0034, + "step": 133550 + }, + { + "epoch": 0.854752, + "grad_norm": 0.8082360029220581, + "learning_rate": 1.4301653333333334e-05, + "loss": 0.0148, + "step": 133555 + }, + { + "epoch": 0.854784, + "grad_norm": 0.06764793395996094, + "learning_rate": 1.4301440000000003e-05, + "loss": 0.0144, + "step": 133560 + }, + { + "epoch": 0.854816, + "grad_norm": 0.7590087652206421, + "learning_rate": 1.4301226666666667e-05, + "loss": 0.0093, + "step": 133565 + }, + { + "epoch": 0.854848, + "grad_norm": 0.21245722472667694, + "learning_rate": 1.4301013333333333e-05, + "loss": 0.0069, + "step": 133570 + }, + { + "epoch": 0.85488, + "grad_norm": 0.9817923903465271, + "learning_rate": 1.4300800000000002e-05, + "loss": 0.0046, + "step": 133575 + }, + { + "epoch": 0.854912, + "grad_norm": 0.02301095426082611, + "learning_rate": 1.4300586666666666e-05, + "loss": 0.0037, + "step": 133580 + }, + { + "epoch": 0.854944, + "grad_norm": 0.04775235801935196, + "learning_rate": 1.4300373333333335e-05, + "loss": 0.0091, + "step": 133585 + }, + { + "epoch": 0.854976, + "grad_norm": 0.30294468998908997, + "learning_rate": 1.4300160000000001e-05, + "loss": 0.0103, + "step": 133590 + }, + { + "epoch": 0.855008, + "grad_norm": 0.0498431995511055, + "learning_rate": 1.4299946666666669e-05, + "loss": 0.0065, + "step": 133595 + }, + { + "epoch": 0.85504, + "grad_norm": 0.26495060324668884, + "learning_rate": 1.4299733333333335e-05, + "loss": 0.0047, + "step": 133600 + }, + { + "epoch": 0.855072, + "grad_norm": 0.6829227805137634, + "learning_rate": 1.429952e-05, + "loss": 0.0146, + "step": 133605 + }, + { + "epoch": 0.855104, + "grad_norm": 0.47985661029815674, + "learning_rate": 1.4299306666666668e-05, + "loss": 0.0129, + "step": 133610 + }, + { + "epoch": 0.855136, + "grad_norm": 0.014057940803468227, + "learning_rate": 1.4299093333333334e-05, + "loss": 0.0036, + "step": 133615 + }, + { + "epoch": 0.855168, + "grad_norm": 0.7435231804847717, + "learning_rate": 1.4298880000000002e-05, + "loss": 0.0046, + "step": 133620 + }, + { + "epoch": 0.8552, + "grad_norm": 1.6307827234268188, + "learning_rate": 1.4298666666666667e-05, + "loss": 0.0192, + "step": 133625 + }, + { + "epoch": 0.855232, + "grad_norm": 0.03310837596654892, + "learning_rate": 1.4298453333333335e-05, + "loss": 0.0125, + "step": 133630 + }, + { + "epoch": 0.855264, + "grad_norm": 0.026308853179216385, + "learning_rate": 1.4298240000000001e-05, + "loss": 0.0089, + "step": 133635 + }, + { + "epoch": 0.855296, + "grad_norm": 1.3158034086227417, + "learning_rate": 1.4298026666666668e-05, + "loss": 0.0098, + "step": 133640 + }, + { + "epoch": 0.855328, + "grad_norm": 0.23330993950366974, + "learning_rate": 1.4297813333333334e-05, + "loss": 0.0198, + "step": 133645 + }, + { + "epoch": 0.85536, + "grad_norm": 0.36204707622528076, + "learning_rate": 1.42976e-05, + "loss": 0.0047, + "step": 133650 + }, + { + "epoch": 0.855392, + "grad_norm": 0.21998406946659088, + "learning_rate": 1.4297386666666668e-05, + "loss": 0.0082, + "step": 133655 + }, + { + "epoch": 0.855424, + "grad_norm": 0.7042844891548157, + "learning_rate": 1.4297173333333334e-05, + "loss": 0.0153, + "step": 133660 + }, + { + "epoch": 0.855456, + "grad_norm": 0.3736276626586914, + "learning_rate": 1.4296960000000003e-05, + "loss": 0.0219, + "step": 133665 + }, + { + "epoch": 0.855488, + "grad_norm": 0.6302362680435181, + "learning_rate": 1.4296746666666667e-05, + "loss": 0.0147, + "step": 133670 + }, + { + "epoch": 0.85552, + "grad_norm": 0.005154326092451811, + "learning_rate": 1.4296533333333336e-05, + "loss": 0.006, + "step": 133675 + }, + { + "epoch": 0.855552, + "grad_norm": 0.09460819512605667, + "learning_rate": 1.4296320000000002e-05, + "loss": 0.0061, + "step": 133680 + }, + { + "epoch": 0.855584, + "grad_norm": 0.07633832097053528, + "learning_rate": 1.4296106666666666e-05, + "loss": 0.0123, + "step": 133685 + }, + { + "epoch": 0.855616, + "grad_norm": 0.03582929074764252, + "learning_rate": 1.4295893333333335e-05, + "loss": 0.0111, + "step": 133690 + }, + { + "epoch": 0.855648, + "grad_norm": 0.5403112769126892, + "learning_rate": 1.4295680000000001e-05, + "loss": 0.0134, + "step": 133695 + }, + { + "epoch": 0.85568, + "grad_norm": 0.5955475568771362, + "learning_rate": 1.4295466666666669e-05, + "loss": 0.0082, + "step": 133700 + }, + { + "epoch": 0.855712, + "grad_norm": 0.1990480124950409, + "learning_rate": 1.4295253333333335e-05, + "loss": 0.0308, + "step": 133705 + }, + { + "epoch": 0.855744, + "grad_norm": 0.13767331838607788, + "learning_rate": 1.4295040000000002e-05, + "loss": 0.003, + "step": 133710 + }, + { + "epoch": 0.855776, + "grad_norm": 0.03465230017900467, + "learning_rate": 1.4294826666666668e-05, + "loss": 0.0074, + "step": 133715 + }, + { + "epoch": 0.855808, + "grad_norm": 0.0802915021777153, + "learning_rate": 1.4294613333333334e-05, + "loss": 0.0038, + "step": 133720 + }, + { + "epoch": 0.85584, + "grad_norm": 0.615789532661438, + "learning_rate": 1.4294400000000002e-05, + "loss": 0.0081, + "step": 133725 + }, + { + "epoch": 0.855872, + "grad_norm": 0.3101210296154022, + "learning_rate": 1.4294186666666667e-05, + "loss": 0.0038, + "step": 133730 + }, + { + "epoch": 0.855904, + "grad_norm": 0.07556486129760742, + "learning_rate": 1.4293973333333335e-05, + "loss": 0.0054, + "step": 133735 + }, + { + "epoch": 0.855936, + "grad_norm": 0.2601540684700012, + "learning_rate": 1.4293760000000001e-05, + "loss": 0.0051, + "step": 133740 + }, + { + "epoch": 0.855968, + "grad_norm": 0.4080641567707062, + "learning_rate": 1.4293546666666668e-05, + "loss": 0.0057, + "step": 133745 + }, + { + "epoch": 0.856, + "grad_norm": 0.3875748813152313, + "learning_rate": 1.4293333333333334e-05, + "loss": 0.0052, + "step": 133750 + }, + { + "epoch": 0.856032, + "grad_norm": 0.4050590395927429, + "learning_rate": 1.429312e-05, + "loss": 0.0063, + "step": 133755 + }, + { + "epoch": 0.856064, + "grad_norm": 0.11048853397369385, + "learning_rate": 1.4292906666666668e-05, + "loss": 0.0047, + "step": 133760 + }, + { + "epoch": 0.856096, + "grad_norm": 1.3695951700210571, + "learning_rate": 1.4292693333333334e-05, + "loss": 0.014, + "step": 133765 + }, + { + "epoch": 0.856128, + "grad_norm": 0.2821258306503296, + "learning_rate": 1.4292480000000001e-05, + "loss": 0.0055, + "step": 133770 + }, + { + "epoch": 0.85616, + "grad_norm": 0.9832087755203247, + "learning_rate": 1.4292266666666667e-05, + "loss": 0.0063, + "step": 133775 + }, + { + "epoch": 0.856192, + "grad_norm": 0.19151706993579865, + "learning_rate": 1.4292053333333336e-05, + "loss": 0.0162, + "step": 133780 + }, + { + "epoch": 0.856224, + "grad_norm": 0.19433565437793732, + "learning_rate": 1.4291840000000002e-05, + "loss": 0.0035, + "step": 133785 + }, + { + "epoch": 0.856256, + "grad_norm": 0.8087124824523926, + "learning_rate": 1.4291626666666666e-05, + "loss": 0.0097, + "step": 133790 + }, + { + "epoch": 0.856288, + "grad_norm": 0.1202717125415802, + "learning_rate": 1.4291413333333335e-05, + "loss": 0.0018, + "step": 133795 + }, + { + "epoch": 0.85632, + "grad_norm": 0.298030823469162, + "learning_rate": 1.4291200000000001e-05, + "loss": 0.0083, + "step": 133800 + }, + { + "epoch": 0.856352, + "grad_norm": 0.15194809436798096, + "learning_rate": 1.4290986666666669e-05, + "loss": 0.0047, + "step": 133805 + }, + { + "epoch": 0.856384, + "grad_norm": 0.47802889347076416, + "learning_rate": 1.4290773333333335e-05, + "loss": 0.009, + "step": 133810 + }, + { + "epoch": 0.856416, + "grad_norm": 0.700655996799469, + "learning_rate": 1.4290560000000002e-05, + "loss": 0.0285, + "step": 133815 + }, + { + "epoch": 0.856448, + "grad_norm": 0.6041823029518127, + "learning_rate": 1.4290346666666668e-05, + "loss": 0.0156, + "step": 133820 + }, + { + "epoch": 0.85648, + "grad_norm": 0.31138426065444946, + "learning_rate": 1.4290133333333334e-05, + "loss": 0.0018, + "step": 133825 + }, + { + "epoch": 0.856512, + "grad_norm": 0.5819584727287292, + "learning_rate": 1.4289920000000002e-05, + "loss": 0.0167, + "step": 133830 + }, + { + "epoch": 0.856544, + "grad_norm": 0.17532077431678772, + "learning_rate": 1.4289706666666667e-05, + "loss": 0.0062, + "step": 133835 + }, + { + "epoch": 0.856576, + "grad_norm": 1.6534734964370728, + "learning_rate": 1.4289493333333335e-05, + "loss": 0.015, + "step": 133840 + }, + { + "epoch": 0.856608, + "grad_norm": 0.03074180893599987, + "learning_rate": 1.4289280000000001e-05, + "loss": 0.0062, + "step": 133845 + }, + { + "epoch": 0.85664, + "grad_norm": 0.056214772164821625, + "learning_rate": 1.4289066666666668e-05, + "loss": 0.0044, + "step": 133850 + }, + { + "epoch": 0.856672, + "grad_norm": 0.6691051721572876, + "learning_rate": 1.4288853333333334e-05, + "loss": 0.0361, + "step": 133855 + }, + { + "epoch": 0.856704, + "grad_norm": 0.476254940032959, + "learning_rate": 1.428864e-05, + "loss": 0.0101, + "step": 133860 + }, + { + "epoch": 0.856736, + "grad_norm": 0.065642811357975, + "learning_rate": 1.4288426666666668e-05, + "loss": 0.0034, + "step": 133865 + }, + { + "epoch": 0.856768, + "grad_norm": 0.6794442534446716, + "learning_rate": 1.4288213333333334e-05, + "loss": 0.0087, + "step": 133870 + }, + { + "epoch": 0.8568, + "grad_norm": 0.028288522735238075, + "learning_rate": 1.4288000000000001e-05, + "loss": 0.0021, + "step": 133875 + }, + { + "epoch": 0.856832, + "grad_norm": 0.3276292085647583, + "learning_rate": 1.4287786666666667e-05, + "loss": 0.0163, + "step": 133880 + }, + { + "epoch": 0.856864, + "grad_norm": 2.4166297912597656, + "learning_rate": 1.4287573333333336e-05, + "loss": 0.0174, + "step": 133885 + }, + { + "epoch": 0.856896, + "grad_norm": 0.5945965647697449, + "learning_rate": 1.4287360000000002e-05, + "loss": 0.0149, + "step": 133890 + }, + { + "epoch": 0.856928, + "grad_norm": 0.7715941071510315, + "learning_rate": 1.4287146666666666e-05, + "loss": 0.0093, + "step": 133895 + }, + { + "epoch": 0.85696, + "grad_norm": 0.6678621768951416, + "learning_rate": 1.4286933333333335e-05, + "loss": 0.0123, + "step": 133900 + }, + { + "epoch": 0.856992, + "grad_norm": 0.9587148427963257, + "learning_rate": 1.4286720000000001e-05, + "loss": 0.0128, + "step": 133905 + }, + { + "epoch": 0.857024, + "grad_norm": 0.3734035789966583, + "learning_rate": 1.4286506666666669e-05, + "loss": 0.0077, + "step": 133910 + }, + { + "epoch": 0.857056, + "grad_norm": 0.8232242465019226, + "learning_rate": 1.4286293333333335e-05, + "loss": 0.0059, + "step": 133915 + }, + { + "epoch": 0.857088, + "grad_norm": 0.29860720038414, + "learning_rate": 1.4286080000000002e-05, + "loss": 0.0058, + "step": 133920 + }, + { + "epoch": 0.85712, + "grad_norm": 5.062658786773682, + "learning_rate": 1.4285866666666668e-05, + "loss": 0.0153, + "step": 133925 + }, + { + "epoch": 0.857152, + "grad_norm": 0.5117797255516052, + "learning_rate": 1.4285653333333334e-05, + "loss": 0.0195, + "step": 133930 + }, + { + "epoch": 0.857184, + "grad_norm": 0.1301952600479126, + "learning_rate": 1.4285440000000002e-05, + "loss": 0.0066, + "step": 133935 + }, + { + "epoch": 0.857216, + "grad_norm": 0.11884293705224991, + "learning_rate": 1.4285226666666667e-05, + "loss": 0.0054, + "step": 133940 + }, + { + "epoch": 0.857248, + "grad_norm": 0.4802154004573822, + "learning_rate": 1.4285013333333335e-05, + "loss": 0.0082, + "step": 133945 + }, + { + "epoch": 0.85728, + "grad_norm": 0.13009493052959442, + "learning_rate": 1.4284800000000001e-05, + "loss": 0.0046, + "step": 133950 + }, + { + "epoch": 0.857312, + "grad_norm": 0.004855727776885033, + "learning_rate": 1.4284586666666668e-05, + "loss": 0.0058, + "step": 133955 + }, + { + "epoch": 0.857344, + "grad_norm": 0.0193951278924942, + "learning_rate": 1.4284373333333334e-05, + "loss": 0.0084, + "step": 133960 + }, + { + "epoch": 0.857376, + "grad_norm": 0.2820427119731903, + "learning_rate": 1.428416e-05, + "loss": 0.0081, + "step": 133965 + }, + { + "epoch": 0.857408, + "grad_norm": 0.1145649254322052, + "learning_rate": 1.4283946666666668e-05, + "loss": 0.0131, + "step": 133970 + }, + { + "epoch": 0.85744, + "grad_norm": 0.08138293772935867, + "learning_rate": 1.4283733333333334e-05, + "loss": 0.0038, + "step": 133975 + }, + { + "epoch": 0.857472, + "grad_norm": 0.5666497945785522, + "learning_rate": 1.4283520000000001e-05, + "loss": 0.0083, + "step": 133980 + }, + { + "epoch": 0.857504, + "grad_norm": 0.20629985630512238, + "learning_rate": 1.4283306666666667e-05, + "loss": 0.0144, + "step": 133985 + }, + { + "epoch": 0.857536, + "grad_norm": 0.061918020248413086, + "learning_rate": 1.4283093333333336e-05, + "loss": 0.0086, + "step": 133990 + }, + { + "epoch": 0.857568, + "grad_norm": 0.42099273204803467, + "learning_rate": 1.428288e-05, + "loss": 0.0094, + "step": 133995 + }, + { + "epoch": 0.8576, + "grad_norm": 1.788960337638855, + "learning_rate": 1.4282666666666666e-05, + "loss": 0.0159, + "step": 134000 + }, + { + "epoch": 0.857632, + "grad_norm": 0.5676056742668152, + "learning_rate": 1.4282453333333335e-05, + "loss": 0.0049, + "step": 134005 + }, + { + "epoch": 0.857664, + "grad_norm": 0.3585183322429657, + "learning_rate": 1.4282240000000001e-05, + "loss": 0.0028, + "step": 134010 + }, + { + "epoch": 0.857696, + "grad_norm": 0.08679285645484924, + "learning_rate": 1.4282026666666669e-05, + "loss": 0.002, + "step": 134015 + }, + { + "epoch": 0.857728, + "grad_norm": 0.03115502931177616, + "learning_rate": 1.4281813333333335e-05, + "loss": 0.0025, + "step": 134020 + }, + { + "epoch": 0.85776, + "grad_norm": 0.03686143830418587, + "learning_rate": 1.4281600000000002e-05, + "loss": 0.0039, + "step": 134025 + }, + { + "epoch": 0.857792, + "grad_norm": 1.501076340675354, + "learning_rate": 1.4281386666666668e-05, + "loss": 0.0253, + "step": 134030 + }, + { + "epoch": 0.857824, + "grad_norm": 0.09058491885662079, + "learning_rate": 1.4281173333333334e-05, + "loss": 0.0014, + "step": 134035 + }, + { + "epoch": 0.857856, + "grad_norm": 0.2583497166633606, + "learning_rate": 1.4280960000000002e-05, + "loss": 0.0121, + "step": 134040 + }, + { + "epoch": 0.857888, + "grad_norm": 0.31488558650016785, + "learning_rate": 1.4280746666666667e-05, + "loss": 0.0074, + "step": 134045 + }, + { + "epoch": 0.85792, + "grad_norm": 0.11255572736263275, + "learning_rate": 1.4280533333333335e-05, + "loss": 0.0069, + "step": 134050 + }, + { + "epoch": 0.857952, + "grad_norm": 0.6109803915023804, + "learning_rate": 1.4280320000000001e-05, + "loss": 0.0183, + "step": 134055 + }, + { + "epoch": 0.857984, + "grad_norm": 0.20922522246837616, + "learning_rate": 1.4280106666666668e-05, + "loss": 0.0104, + "step": 134060 + }, + { + "epoch": 0.858016, + "grad_norm": 0.910042405128479, + "learning_rate": 1.4279893333333334e-05, + "loss": 0.007, + "step": 134065 + }, + { + "epoch": 0.858048, + "grad_norm": 0.4932071566581726, + "learning_rate": 1.427968e-05, + "loss": 0.0028, + "step": 134070 + }, + { + "epoch": 0.85808, + "grad_norm": 0.42952919006347656, + "learning_rate": 1.4279466666666668e-05, + "loss": 0.0039, + "step": 134075 + }, + { + "epoch": 0.858112, + "grad_norm": 0.25021517276763916, + "learning_rate": 1.4279253333333334e-05, + "loss": 0.0042, + "step": 134080 + }, + { + "epoch": 0.858144, + "grad_norm": 0.11921433359384537, + "learning_rate": 1.4279040000000001e-05, + "loss": 0.0651, + "step": 134085 + }, + { + "epoch": 0.858176, + "grad_norm": 0.31600576639175415, + "learning_rate": 1.4278826666666667e-05, + "loss": 0.0039, + "step": 134090 + }, + { + "epoch": 0.858208, + "grad_norm": 0.7007116079330444, + "learning_rate": 1.4278613333333336e-05, + "loss": 0.0166, + "step": 134095 + }, + { + "epoch": 0.85824, + "grad_norm": 2.4381418228149414, + "learning_rate": 1.42784e-05, + "loss": 0.0134, + "step": 134100 + }, + { + "epoch": 0.858272, + "grad_norm": 0.48882800340652466, + "learning_rate": 1.4278186666666666e-05, + "loss": 0.0204, + "step": 134105 + }, + { + "epoch": 0.858304, + "grad_norm": 0.2986692488193512, + "learning_rate": 1.4277973333333335e-05, + "loss": 0.0209, + "step": 134110 + }, + { + "epoch": 0.858336, + "grad_norm": 0.4561186730861664, + "learning_rate": 1.4277760000000001e-05, + "loss": 0.0079, + "step": 134115 + }, + { + "epoch": 0.858368, + "grad_norm": 0.47325417399406433, + "learning_rate": 1.4277546666666669e-05, + "loss": 0.0061, + "step": 134120 + }, + { + "epoch": 0.8584, + "grad_norm": 0.036055319011211395, + "learning_rate": 1.4277333333333335e-05, + "loss": 0.008, + "step": 134125 + }, + { + "epoch": 0.858432, + "grad_norm": 1.0443460941314697, + "learning_rate": 1.4277120000000002e-05, + "loss": 0.0066, + "step": 134130 + }, + { + "epoch": 0.858464, + "grad_norm": 0.06259570270776749, + "learning_rate": 1.4276906666666668e-05, + "loss": 0.0048, + "step": 134135 + }, + { + "epoch": 0.858496, + "grad_norm": 0.8140316605567932, + "learning_rate": 1.4276693333333334e-05, + "loss": 0.0077, + "step": 134140 + }, + { + "epoch": 0.858528, + "grad_norm": 0.5351359844207764, + "learning_rate": 1.4276480000000002e-05, + "loss": 0.0089, + "step": 134145 + }, + { + "epoch": 0.85856, + "grad_norm": 0.0618167370557785, + "learning_rate": 1.4276266666666667e-05, + "loss": 0.0204, + "step": 134150 + }, + { + "epoch": 0.858592, + "grad_norm": 0.06644091755151749, + "learning_rate": 1.4276053333333335e-05, + "loss": 0.0243, + "step": 134155 + }, + { + "epoch": 0.858624, + "grad_norm": 0.04516676813364029, + "learning_rate": 1.4275840000000001e-05, + "loss": 0.0036, + "step": 134160 + }, + { + "epoch": 0.858656, + "grad_norm": 0.19127604365348816, + "learning_rate": 1.4275626666666668e-05, + "loss": 0.013, + "step": 134165 + }, + { + "epoch": 0.858688, + "grad_norm": 0.8732536435127258, + "learning_rate": 1.4275413333333334e-05, + "loss": 0.0022, + "step": 134170 + }, + { + "epoch": 0.85872, + "grad_norm": 0.16704311966896057, + "learning_rate": 1.42752e-05, + "loss": 0.0017, + "step": 134175 + }, + { + "epoch": 0.858752, + "grad_norm": 0.1164170429110527, + "learning_rate": 1.4274986666666668e-05, + "loss": 0.0115, + "step": 134180 + }, + { + "epoch": 0.858784, + "grad_norm": 0.4036445617675781, + "learning_rate": 1.4274773333333334e-05, + "loss": 0.0096, + "step": 134185 + }, + { + "epoch": 0.858816, + "grad_norm": 1.2279196977615356, + "learning_rate": 1.4274560000000001e-05, + "loss": 0.0217, + "step": 134190 + }, + { + "epoch": 0.858848, + "grad_norm": 0.8145167827606201, + "learning_rate": 1.4274346666666667e-05, + "loss": 0.0075, + "step": 134195 + }, + { + "epoch": 0.85888, + "grad_norm": 1.0572357177734375, + "learning_rate": 1.4274133333333336e-05, + "loss": 0.0172, + "step": 134200 + }, + { + "epoch": 0.858912, + "grad_norm": 0.043134696781635284, + "learning_rate": 1.427392e-05, + "loss": 0.0067, + "step": 134205 + }, + { + "epoch": 0.858944, + "grad_norm": 0.4981229305267334, + "learning_rate": 1.4273706666666666e-05, + "loss": 0.0065, + "step": 134210 + }, + { + "epoch": 0.858976, + "grad_norm": 0.010746577754616737, + "learning_rate": 1.4273493333333335e-05, + "loss": 0.0092, + "step": 134215 + }, + { + "epoch": 0.859008, + "grad_norm": 0.4857317805290222, + "learning_rate": 1.427328e-05, + "loss": 0.005, + "step": 134220 + }, + { + "epoch": 0.85904, + "grad_norm": 0.21181774139404297, + "learning_rate": 1.4273066666666669e-05, + "loss": 0.0074, + "step": 134225 + }, + { + "epoch": 0.859072, + "grad_norm": 0.18474574387073517, + "learning_rate": 1.4272853333333335e-05, + "loss": 0.0108, + "step": 134230 + }, + { + "epoch": 0.859104, + "grad_norm": 0.04162711277604103, + "learning_rate": 1.4272640000000002e-05, + "loss": 0.0081, + "step": 134235 + }, + { + "epoch": 0.859136, + "grad_norm": 0.7558242082595825, + "learning_rate": 1.4272426666666668e-05, + "loss": 0.0057, + "step": 134240 + }, + { + "epoch": 0.859168, + "grad_norm": 0.7729857563972473, + "learning_rate": 1.4272213333333334e-05, + "loss": 0.0221, + "step": 134245 + }, + { + "epoch": 0.8592, + "grad_norm": 0.38948243856430054, + "learning_rate": 1.4272000000000002e-05, + "loss": 0.0077, + "step": 134250 + }, + { + "epoch": 0.859232, + "grad_norm": 0.13776738941669464, + "learning_rate": 1.4271786666666667e-05, + "loss": 0.0024, + "step": 134255 + }, + { + "epoch": 0.859264, + "grad_norm": 1.1465363502502441, + "learning_rate": 1.4271573333333335e-05, + "loss": 0.0094, + "step": 134260 + }, + { + "epoch": 0.859296, + "grad_norm": 0.8701423406600952, + "learning_rate": 1.4271360000000001e-05, + "loss": 0.0098, + "step": 134265 + }, + { + "epoch": 0.859328, + "grad_norm": 1.0526622533798218, + "learning_rate": 1.4271146666666668e-05, + "loss": 0.0247, + "step": 134270 + }, + { + "epoch": 0.85936, + "grad_norm": 0.12302154302597046, + "learning_rate": 1.4270933333333334e-05, + "loss": 0.0126, + "step": 134275 + }, + { + "epoch": 0.859392, + "grad_norm": 0.08807408809661865, + "learning_rate": 1.427072e-05, + "loss": 0.0137, + "step": 134280 + }, + { + "epoch": 0.859424, + "grad_norm": 0.8012725710868835, + "learning_rate": 1.4270506666666668e-05, + "loss": 0.0073, + "step": 134285 + }, + { + "epoch": 0.859456, + "grad_norm": 0.1647113859653473, + "learning_rate": 1.4270293333333334e-05, + "loss": 0.0032, + "step": 134290 + }, + { + "epoch": 0.859488, + "grad_norm": 0.016062678769230843, + "learning_rate": 1.4270080000000001e-05, + "loss": 0.0107, + "step": 134295 + }, + { + "epoch": 0.85952, + "grad_norm": 0.7362550497055054, + "learning_rate": 1.4269866666666667e-05, + "loss": 0.008, + "step": 134300 + }, + { + "epoch": 0.859552, + "grad_norm": 0.2500115633010864, + "learning_rate": 1.4269653333333335e-05, + "loss": 0.0065, + "step": 134305 + }, + { + "epoch": 0.859584, + "grad_norm": 0.412258505821228, + "learning_rate": 1.426944e-05, + "loss": 0.0038, + "step": 134310 + }, + { + "epoch": 0.859616, + "grad_norm": 0.3697705864906311, + "learning_rate": 1.4269226666666666e-05, + "loss": 0.0166, + "step": 134315 + }, + { + "epoch": 0.859648, + "grad_norm": 0.11295003443956375, + "learning_rate": 1.4269013333333335e-05, + "loss": 0.0037, + "step": 134320 + }, + { + "epoch": 0.85968, + "grad_norm": 1.5175414085388184, + "learning_rate": 1.42688e-05, + "loss": 0.0112, + "step": 134325 + }, + { + "epoch": 0.859712, + "grad_norm": 0.06194140389561653, + "learning_rate": 1.4268586666666669e-05, + "loss": 0.0019, + "step": 134330 + }, + { + "epoch": 0.859744, + "grad_norm": 0.01475609838962555, + "learning_rate": 1.4268373333333335e-05, + "loss": 0.004, + "step": 134335 + }, + { + "epoch": 0.859776, + "grad_norm": 0.3552778363227844, + "learning_rate": 1.4268160000000002e-05, + "loss": 0.0057, + "step": 134340 + }, + { + "epoch": 0.859808, + "grad_norm": 0.5145766139030457, + "learning_rate": 1.4267946666666668e-05, + "loss": 0.0093, + "step": 134345 + }, + { + "epoch": 0.85984, + "grad_norm": 1.053566575050354, + "learning_rate": 1.4267733333333334e-05, + "loss": 0.004, + "step": 134350 + }, + { + "epoch": 0.859872, + "grad_norm": 0.4851543605327606, + "learning_rate": 1.4267520000000002e-05, + "loss": 0.0032, + "step": 134355 + }, + { + "epoch": 0.859904, + "grad_norm": 0.31143951416015625, + "learning_rate": 1.4267306666666667e-05, + "loss": 0.0028, + "step": 134360 + }, + { + "epoch": 0.859936, + "grad_norm": 0.35598236322402954, + "learning_rate": 1.4267093333333335e-05, + "loss": 0.0068, + "step": 134365 + }, + { + "epoch": 0.859968, + "grad_norm": 0.5311588048934937, + "learning_rate": 1.4266880000000001e-05, + "loss": 0.0068, + "step": 134370 + }, + { + "epoch": 0.86, + "grad_norm": 0.13126356899738312, + "learning_rate": 1.4266666666666668e-05, + "loss": 0.0044, + "step": 134375 + }, + { + "epoch": 0.860032, + "grad_norm": 0.03576287627220154, + "learning_rate": 1.4266453333333334e-05, + "loss": 0.0047, + "step": 134380 + }, + { + "epoch": 0.860064, + "grad_norm": 0.4020002484321594, + "learning_rate": 1.426624e-05, + "loss": 0.009, + "step": 134385 + }, + { + "epoch": 0.860096, + "grad_norm": 0.6733376979827881, + "learning_rate": 1.4266026666666668e-05, + "loss": 0.0128, + "step": 134390 + }, + { + "epoch": 0.860128, + "grad_norm": 0.03752652928233147, + "learning_rate": 1.4265813333333334e-05, + "loss": 0.0127, + "step": 134395 + }, + { + "epoch": 0.86016, + "grad_norm": 0.026672493666410446, + "learning_rate": 1.4265600000000001e-05, + "loss": 0.0024, + "step": 134400 + }, + { + "epoch": 0.860192, + "grad_norm": 0.2645686864852905, + "learning_rate": 1.4265386666666667e-05, + "loss": 0.0016, + "step": 134405 + }, + { + "epoch": 0.860224, + "grad_norm": 0.7084911465644836, + "learning_rate": 1.4265173333333335e-05, + "loss": 0.0079, + "step": 134410 + }, + { + "epoch": 0.860256, + "grad_norm": 0.4221930205821991, + "learning_rate": 1.426496e-05, + "loss": 0.0136, + "step": 134415 + }, + { + "epoch": 0.860288, + "grad_norm": 0.3565121293067932, + "learning_rate": 1.4264746666666666e-05, + "loss": 0.0085, + "step": 134420 + }, + { + "epoch": 0.86032, + "grad_norm": 0.7964086532592773, + "learning_rate": 1.4264533333333335e-05, + "loss": 0.007, + "step": 134425 + }, + { + "epoch": 0.860352, + "grad_norm": 0.872313916683197, + "learning_rate": 1.426432e-05, + "loss": 0.0108, + "step": 134430 + }, + { + "epoch": 0.860384, + "grad_norm": 0.5365788340568542, + "learning_rate": 1.4264106666666669e-05, + "loss": 0.0076, + "step": 134435 + }, + { + "epoch": 0.860416, + "grad_norm": 0.5824652314186096, + "learning_rate": 1.4263893333333335e-05, + "loss": 0.0092, + "step": 134440 + }, + { + "epoch": 0.860448, + "grad_norm": 0.18907736241817474, + "learning_rate": 1.4263680000000002e-05, + "loss": 0.0052, + "step": 134445 + }, + { + "epoch": 0.86048, + "grad_norm": 0.041980501264333725, + "learning_rate": 1.4263466666666668e-05, + "loss": 0.0082, + "step": 134450 + }, + { + "epoch": 0.860512, + "grad_norm": 0.02907201275229454, + "learning_rate": 1.4263253333333334e-05, + "loss": 0.0042, + "step": 134455 + }, + { + "epoch": 0.860544, + "grad_norm": 0.425534725189209, + "learning_rate": 1.4263040000000002e-05, + "loss": 0.0124, + "step": 134460 + }, + { + "epoch": 0.860576, + "grad_norm": 1.214576244354248, + "learning_rate": 1.4262826666666667e-05, + "loss": 0.0102, + "step": 134465 + }, + { + "epoch": 0.860608, + "grad_norm": 0.11283945292234421, + "learning_rate": 1.4262613333333335e-05, + "loss": 0.0184, + "step": 134470 + }, + { + "epoch": 0.86064, + "grad_norm": 0.14771141111850739, + "learning_rate": 1.4262400000000001e-05, + "loss": 0.0088, + "step": 134475 + }, + { + "epoch": 0.860672, + "grad_norm": 1.0848302841186523, + "learning_rate": 1.4262186666666668e-05, + "loss": 0.0123, + "step": 134480 + }, + { + "epoch": 0.860704, + "grad_norm": 0.18344013392925262, + "learning_rate": 1.4261973333333334e-05, + "loss": 0.0088, + "step": 134485 + }, + { + "epoch": 0.860736, + "grad_norm": 0.5609961152076721, + "learning_rate": 1.4261760000000002e-05, + "loss": 0.0042, + "step": 134490 + }, + { + "epoch": 0.860768, + "grad_norm": 0.2513757646083832, + "learning_rate": 1.4261546666666668e-05, + "loss": 0.0093, + "step": 134495 + }, + { + "epoch": 0.8608, + "grad_norm": 0.8026115298271179, + "learning_rate": 1.4261333333333334e-05, + "loss": 0.0042, + "step": 134500 + }, + { + "epoch": 0.860832, + "grad_norm": 1.355461597442627, + "learning_rate": 1.4261120000000001e-05, + "loss": 0.0075, + "step": 134505 + }, + { + "epoch": 0.860864, + "grad_norm": 0.5756319165229797, + "learning_rate": 1.4260906666666667e-05, + "loss": 0.0054, + "step": 134510 + }, + { + "epoch": 0.860896, + "grad_norm": 0.13086260855197906, + "learning_rate": 1.4260693333333335e-05, + "loss": 0.007, + "step": 134515 + }, + { + "epoch": 0.860928, + "grad_norm": 0.6342869997024536, + "learning_rate": 1.426048e-05, + "loss": 0.0136, + "step": 134520 + }, + { + "epoch": 0.86096, + "grad_norm": 0.18212951719760895, + "learning_rate": 1.426026666666667e-05, + "loss": 0.0031, + "step": 134525 + }, + { + "epoch": 0.860992, + "grad_norm": 0.0637468472123146, + "learning_rate": 1.4260053333333334e-05, + "loss": 0.0067, + "step": 134530 + }, + { + "epoch": 0.861024, + "grad_norm": 0.029997751116752625, + "learning_rate": 1.425984e-05, + "loss": 0.0167, + "step": 134535 + }, + { + "epoch": 0.861056, + "grad_norm": 0.9059974551200867, + "learning_rate": 1.4259626666666669e-05, + "loss": 0.0033, + "step": 134540 + }, + { + "epoch": 0.861088, + "grad_norm": 0.13229969143867493, + "learning_rate": 1.4259413333333335e-05, + "loss": 0.0084, + "step": 134545 + }, + { + "epoch": 0.86112, + "grad_norm": 0.04196229949593544, + "learning_rate": 1.4259200000000002e-05, + "loss": 0.004, + "step": 134550 + }, + { + "epoch": 0.861152, + "grad_norm": 0.4694885015487671, + "learning_rate": 1.4258986666666668e-05, + "loss": 0.0096, + "step": 134555 + }, + { + "epoch": 0.861184, + "grad_norm": 3.5795040130615234, + "learning_rate": 1.4258773333333336e-05, + "loss": 0.0052, + "step": 134560 + }, + { + "epoch": 0.861216, + "grad_norm": 0.46968749165534973, + "learning_rate": 1.4258560000000002e-05, + "loss": 0.0082, + "step": 134565 + }, + { + "epoch": 0.861248, + "grad_norm": 0.05165547877550125, + "learning_rate": 1.4258346666666667e-05, + "loss": 0.0018, + "step": 134570 + }, + { + "epoch": 0.86128, + "grad_norm": 0.7204276323318481, + "learning_rate": 1.4258133333333335e-05, + "loss": 0.0097, + "step": 134575 + }, + { + "epoch": 0.861312, + "grad_norm": 0.4250681400299072, + "learning_rate": 1.4257920000000001e-05, + "loss": 0.0063, + "step": 134580 + }, + { + "epoch": 0.861344, + "grad_norm": 0.031006088480353355, + "learning_rate": 1.4257706666666668e-05, + "loss": 0.0045, + "step": 134585 + }, + { + "epoch": 0.861376, + "grad_norm": 0.13522998988628387, + "learning_rate": 1.4257493333333334e-05, + "loss": 0.0066, + "step": 134590 + }, + { + "epoch": 0.861408, + "grad_norm": 0.21094799041748047, + "learning_rate": 1.4257280000000002e-05, + "loss": 0.0055, + "step": 134595 + }, + { + "epoch": 0.86144, + "grad_norm": 0.014266039244830608, + "learning_rate": 1.4257066666666668e-05, + "loss": 0.0096, + "step": 134600 + }, + { + "epoch": 0.861472, + "grad_norm": 0.5296579003334045, + "learning_rate": 1.4256853333333334e-05, + "loss": 0.0059, + "step": 134605 + }, + { + "epoch": 0.861504, + "grad_norm": 0.6031213998794556, + "learning_rate": 1.4256640000000001e-05, + "loss": 0.0027, + "step": 134610 + }, + { + "epoch": 0.861536, + "grad_norm": 0.05396747961640358, + "learning_rate": 1.4256426666666667e-05, + "loss": 0.011, + "step": 134615 + }, + { + "epoch": 0.861568, + "grad_norm": 0.09481848776340485, + "learning_rate": 1.4256213333333335e-05, + "loss": 0.0125, + "step": 134620 + }, + { + "epoch": 0.8616, + "grad_norm": 0.07893174141645432, + "learning_rate": 1.4256e-05, + "loss": 0.0231, + "step": 134625 + }, + { + "epoch": 0.861632, + "grad_norm": 0.06015406548976898, + "learning_rate": 1.425578666666667e-05, + "loss": 0.0017, + "step": 134630 + }, + { + "epoch": 0.861664, + "grad_norm": 0.5678211450576782, + "learning_rate": 1.4255573333333334e-05, + "loss": 0.0059, + "step": 134635 + }, + { + "epoch": 0.861696, + "grad_norm": 0.6586114168167114, + "learning_rate": 1.425536e-05, + "loss": 0.0103, + "step": 134640 + }, + { + "epoch": 0.861728, + "grad_norm": 0.05745428055524826, + "learning_rate": 1.4255146666666669e-05, + "loss": 0.0103, + "step": 134645 + }, + { + "epoch": 0.86176, + "grad_norm": 0.10755956918001175, + "learning_rate": 1.4254933333333335e-05, + "loss": 0.0034, + "step": 134650 + }, + { + "epoch": 0.861792, + "grad_norm": 0.6904657483100891, + "learning_rate": 1.4254720000000002e-05, + "loss": 0.0033, + "step": 134655 + }, + { + "epoch": 0.861824, + "grad_norm": 0.339415043592453, + "learning_rate": 1.4254506666666668e-05, + "loss": 0.0092, + "step": 134660 + }, + { + "epoch": 0.861856, + "grad_norm": 0.1959732174873352, + "learning_rate": 1.4254293333333336e-05, + "loss": 0.0091, + "step": 134665 + }, + { + "epoch": 0.861888, + "grad_norm": 0.14172761142253876, + "learning_rate": 1.4254080000000002e-05, + "loss": 0.0039, + "step": 134670 + }, + { + "epoch": 0.86192, + "grad_norm": 0.11713520437479019, + "learning_rate": 1.4253866666666667e-05, + "loss": 0.0041, + "step": 134675 + }, + { + "epoch": 0.861952, + "grad_norm": 0.1899380385875702, + "learning_rate": 1.4253653333333335e-05, + "loss": 0.0039, + "step": 134680 + }, + { + "epoch": 0.861984, + "grad_norm": 0.4347863793373108, + "learning_rate": 1.4253440000000001e-05, + "loss": 0.0026, + "step": 134685 + }, + { + "epoch": 0.862016, + "grad_norm": 0.8191184997558594, + "learning_rate": 1.4253226666666668e-05, + "loss": 0.0083, + "step": 134690 + }, + { + "epoch": 0.862048, + "grad_norm": 0.023004772141575813, + "learning_rate": 1.4253013333333334e-05, + "loss": 0.0052, + "step": 134695 + }, + { + "epoch": 0.86208, + "grad_norm": 0.12550179660320282, + "learning_rate": 1.4252800000000002e-05, + "loss": 0.0036, + "step": 134700 + }, + { + "epoch": 0.862112, + "grad_norm": 0.1795053631067276, + "learning_rate": 1.4252586666666668e-05, + "loss": 0.0106, + "step": 134705 + }, + { + "epoch": 0.862144, + "grad_norm": 0.30831384658813477, + "learning_rate": 1.4252373333333334e-05, + "loss": 0.014, + "step": 134710 + }, + { + "epoch": 0.862176, + "grad_norm": 0.14029152691364288, + "learning_rate": 1.4252160000000001e-05, + "loss": 0.0089, + "step": 134715 + }, + { + "epoch": 0.862208, + "grad_norm": 0.7676585912704468, + "learning_rate": 1.4251946666666667e-05, + "loss": 0.0142, + "step": 134720 + }, + { + "epoch": 0.86224, + "grad_norm": 0.15160463750362396, + "learning_rate": 1.4251733333333335e-05, + "loss": 0.0043, + "step": 134725 + }, + { + "epoch": 0.862272, + "grad_norm": 1.1064338684082031, + "learning_rate": 1.425152e-05, + "loss": 0.0326, + "step": 134730 + }, + { + "epoch": 0.862304, + "grad_norm": 0.8024874329566956, + "learning_rate": 1.425130666666667e-05, + "loss": 0.0063, + "step": 134735 + }, + { + "epoch": 0.862336, + "grad_norm": 0.6280930638313293, + "learning_rate": 1.4251093333333334e-05, + "loss": 0.0121, + "step": 134740 + }, + { + "epoch": 0.862368, + "grad_norm": 0.050960179418325424, + "learning_rate": 1.425088e-05, + "loss": 0.0103, + "step": 134745 + }, + { + "epoch": 0.8624, + "grad_norm": 0.20967955887317657, + "learning_rate": 1.4250666666666669e-05, + "loss": 0.0204, + "step": 134750 + }, + { + "epoch": 0.862432, + "grad_norm": 0.24698592722415924, + "learning_rate": 1.4250453333333333e-05, + "loss": 0.0127, + "step": 134755 + }, + { + "epoch": 0.862464, + "grad_norm": 0.4731573164463043, + "learning_rate": 1.4250240000000002e-05, + "loss": 0.011, + "step": 134760 + }, + { + "epoch": 0.862496, + "grad_norm": 0.06342437863349915, + "learning_rate": 1.4250026666666668e-05, + "loss": 0.0061, + "step": 134765 + }, + { + "epoch": 0.862528, + "grad_norm": 1.3373031616210938, + "learning_rate": 1.4249813333333336e-05, + "loss": 0.0108, + "step": 134770 + }, + { + "epoch": 0.86256, + "grad_norm": 0.5819197297096252, + "learning_rate": 1.4249600000000002e-05, + "loss": 0.0123, + "step": 134775 + }, + { + "epoch": 0.862592, + "grad_norm": 0.0886932909488678, + "learning_rate": 1.4249386666666667e-05, + "loss": 0.0073, + "step": 134780 + }, + { + "epoch": 0.862624, + "grad_norm": 0.6155045628547668, + "learning_rate": 1.4249173333333335e-05, + "loss": 0.0087, + "step": 134785 + }, + { + "epoch": 0.862656, + "grad_norm": 0.6364724040031433, + "learning_rate": 1.4248960000000001e-05, + "loss": 0.004, + "step": 134790 + }, + { + "epoch": 0.862688, + "grad_norm": 0.7289978861808777, + "learning_rate": 1.4248746666666668e-05, + "loss": 0.0032, + "step": 134795 + }, + { + "epoch": 0.86272, + "grad_norm": 0.17734912037849426, + "learning_rate": 1.4248533333333334e-05, + "loss": 0.0114, + "step": 134800 + }, + { + "epoch": 0.862752, + "grad_norm": 0.06271833926439285, + "learning_rate": 1.4248320000000002e-05, + "loss": 0.0282, + "step": 134805 + }, + { + "epoch": 0.862784, + "grad_norm": 0.5612224340438843, + "learning_rate": 1.4248106666666668e-05, + "loss": 0.0079, + "step": 134810 + }, + { + "epoch": 0.862816, + "grad_norm": 0.06899868696928024, + "learning_rate": 1.4247893333333334e-05, + "loss": 0.0117, + "step": 134815 + }, + { + "epoch": 0.862848, + "grad_norm": 0.3775170147418976, + "learning_rate": 1.4247680000000001e-05, + "loss": 0.003, + "step": 134820 + }, + { + "epoch": 0.86288, + "grad_norm": 0.7678969502449036, + "learning_rate": 1.4247466666666667e-05, + "loss": 0.0101, + "step": 134825 + }, + { + "epoch": 0.862912, + "grad_norm": 0.054030705243349075, + "learning_rate": 1.4247253333333335e-05, + "loss": 0.0021, + "step": 134830 + }, + { + "epoch": 0.862944, + "grad_norm": 0.17362891137599945, + "learning_rate": 1.424704e-05, + "loss": 0.0027, + "step": 134835 + }, + { + "epoch": 0.862976, + "grad_norm": 0.05143667384982109, + "learning_rate": 1.424682666666667e-05, + "loss": 0.0057, + "step": 134840 + }, + { + "epoch": 0.863008, + "grad_norm": 0.15109267830848694, + "learning_rate": 1.4246613333333334e-05, + "loss": 0.012, + "step": 134845 + }, + { + "epoch": 0.86304, + "grad_norm": 1.0173801183700562, + "learning_rate": 1.42464e-05, + "loss": 0.0214, + "step": 134850 + }, + { + "epoch": 0.863072, + "grad_norm": 0.3281751275062561, + "learning_rate": 1.4246186666666669e-05, + "loss": 0.0153, + "step": 134855 + }, + { + "epoch": 0.863104, + "grad_norm": 0.07767807692289352, + "learning_rate": 1.4245973333333333e-05, + "loss": 0.011, + "step": 134860 + }, + { + "epoch": 0.863136, + "grad_norm": 1.0716660022735596, + "learning_rate": 1.4245760000000002e-05, + "loss": 0.013, + "step": 134865 + }, + { + "epoch": 0.863168, + "grad_norm": 0.21129319071769714, + "learning_rate": 1.4245546666666668e-05, + "loss": 0.0024, + "step": 134870 + }, + { + "epoch": 0.8632, + "grad_norm": 0.027036510407924652, + "learning_rate": 1.4245333333333336e-05, + "loss": 0.0047, + "step": 134875 + }, + { + "epoch": 0.863232, + "grad_norm": 0.16807305812835693, + "learning_rate": 1.4245120000000002e-05, + "loss": 0.0081, + "step": 134880 + }, + { + "epoch": 0.863264, + "grad_norm": 0.2183276116847992, + "learning_rate": 1.4244906666666667e-05, + "loss": 0.0054, + "step": 134885 + }, + { + "epoch": 0.863296, + "grad_norm": 0.10602793097496033, + "learning_rate": 1.4244693333333335e-05, + "loss": 0.0021, + "step": 134890 + }, + { + "epoch": 0.863328, + "grad_norm": 0.2371951788663864, + "learning_rate": 1.4244480000000001e-05, + "loss": 0.0033, + "step": 134895 + }, + { + "epoch": 0.86336, + "grad_norm": 0.49541112780570984, + "learning_rate": 1.4244266666666668e-05, + "loss": 0.0128, + "step": 134900 + }, + { + "epoch": 0.863392, + "grad_norm": 0.1609659492969513, + "learning_rate": 1.4244053333333334e-05, + "loss": 0.0035, + "step": 134905 + }, + { + "epoch": 0.863424, + "grad_norm": 0.8301510810852051, + "learning_rate": 1.4243840000000002e-05, + "loss": 0.0147, + "step": 134910 + }, + { + "epoch": 0.863456, + "grad_norm": 0.29299938678741455, + "learning_rate": 1.4243626666666668e-05, + "loss": 0.0031, + "step": 134915 + }, + { + "epoch": 0.863488, + "grad_norm": 0.21601323783397675, + "learning_rate": 1.4243413333333334e-05, + "loss": 0.0054, + "step": 134920 + }, + { + "epoch": 0.86352, + "grad_norm": 0.05672507733106613, + "learning_rate": 1.4243200000000001e-05, + "loss": 0.0056, + "step": 134925 + }, + { + "epoch": 0.863552, + "grad_norm": 0.31317245960235596, + "learning_rate": 1.4242986666666667e-05, + "loss": 0.0095, + "step": 134930 + }, + { + "epoch": 0.863584, + "grad_norm": 0.35774755477905273, + "learning_rate": 1.4242773333333335e-05, + "loss": 0.0096, + "step": 134935 + }, + { + "epoch": 0.863616, + "grad_norm": 0.3102417290210724, + "learning_rate": 1.424256e-05, + "loss": 0.0068, + "step": 134940 + }, + { + "epoch": 0.863648, + "grad_norm": 0.13148169219493866, + "learning_rate": 1.4242346666666668e-05, + "loss": 0.0055, + "step": 134945 + }, + { + "epoch": 0.86368, + "grad_norm": 0.1442425549030304, + "learning_rate": 1.4242133333333334e-05, + "loss": 0.0038, + "step": 134950 + }, + { + "epoch": 0.863712, + "grad_norm": 0.26788392663002014, + "learning_rate": 1.424192e-05, + "loss": 0.0068, + "step": 134955 + }, + { + "epoch": 0.863744, + "grad_norm": 0.11299526691436768, + "learning_rate": 1.4241706666666669e-05, + "loss": 0.0128, + "step": 134960 + }, + { + "epoch": 0.863776, + "grad_norm": 2.7740838527679443, + "learning_rate": 1.4241493333333333e-05, + "loss": 0.0122, + "step": 134965 + }, + { + "epoch": 0.863808, + "grad_norm": 0.8871260285377502, + "learning_rate": 1.4241280000000002e-05, + "loss": 0.0185, + "step": 134970 + }, + { + "epoch": 0.86384, + "grad_norm": 0.12411386519670486, + "learning_rate": 1.4241066666666668e-05, + "loss": 0.0047, + "step": 134975 + }, + { + "epoch": 0.863872, + "grad_norm": 1.1544972658157349, + "learning_rate": 1.4240853333333336e-05, + "loss": 0.0063, + "step": 134980 + }, + { + "epoch": 0.863904, + "grad_norm": 0.38659533858299255, + "learning_rate": 1.4240640000000002e-05, + "loss": 0.0088, + "step": 134985 + }, + { + "epoch": 0.863936, + "grad_norm": 1.4029563665390015, + "learning_rate": 1.4240426666666667e-05, + "loss": 0.0111, + "step": 134990 + }, + { + "epoch": 0.863968, + "grad_norm": 0.05400272086262703, + "learning_rate": 1.4240213333333335e-05, + "loss": 0.005, + "step": 134995 + }, + { + "epoch": 0.864, + "grad_norm": 0.07366251200437546, + "learning_rate": 1.4240000000000001e-05, + "loss": 0.0082, + "step": 135000 + }, + { + "epoch": 0.864032, + "grad_norm": 2.345752000808716, + "learning_rate": 1.4239786666666668e-05, + "loss": 0.0255, + "step": 135005 + }, + { + "epoch": 0.864064, + "grad_norm": 1.000044822692871, + "learning_rate": 1.4239573333333334e-05, + "loss": 0.0045, + "step": 135010 + }, + { + "epoch": 0.864096, + "grad_norm": 0.1500033587217331, + "learning_rate": 1.4239360000000002e-05, + "loss": 0.0089, + "step": 135015 + }, + { + "epoch": 0.864128, + "grad_norm": 0.38632437586784363, + "learning_rate": 1.4239146666666668e-05, + "loss": 0.0057, + "step": 135020 + }, + { + "epoch": 0.86416, + "grad_norm": 0.2608599066734314, + "learning_rate": 1.4238933333333334e-05, + "loss": 0.0054, + "step": 135025 + }, + { + "epoch": 0.864192, + "grad_norm": 0.016776593402028084, + "learning_rate": 1.4238720000000001e-05, + "loss": 0.0059, + "step": 135030 + }, + { + "epoch": 0.864224, + "grad_norm": 0.10342618077993393, + "learning_rate": 1.4238506666666667e-05, + "loss": 0.0045, + "step": 135035 + }, + { + "epoch": 0.864256, + "grad_norm": 0.09837034344673157, + "learning_rate": 1.4238293333333335e-05, + "loss": 0.0054, + "step": 135040 + }, + { + "epoch": 0.864288, + "grad_norm": 0.006526038516312838, + "learning_rate": 1.423808e-05, + "loss": 0.006, + "step": 135045 + }, + { + "epoch": 0.86432, + "grad_norm": 0.09662055224180222, + "learning_rate": 1.4237866666666668e-05, + "loss": 0.0055, + "step": 135050 + }, + { + "epoch": 0.864352, + "grad_norm": 0.49943459033966064, + "learning_rate": 1.4237653333333334e-05, + "loss": 0.0111, + "step": 135055 + }, + { + "epoch": 0.864384, + "grad_norm": 1.2810269594192505, + "learning_rate": 1.423744e-05, + "loss": 0.0108, + "step": 135060 + }, + { + "epoch": 0.864416, + "grad_norm": 0.19917601346969604, + "learning_rate": 1.4237226666666669e-05, + "loss": 0.0085, + "step": 135065 + }, + { + "epoch": 0.864448, + "grad_norm": 0.5950204133987427, + "learning_rate": 1.4237013333333333e-05, + "loss": 0.0252, + "step": 135070 + }, + { + "epoch": 0.86448, + "grad_norm": 1.0102488994598389, + "learning_rate": 1.4236800000000002e-05, + "loss": 0.0208, + "step": 135075 + }, + { + "epoch": 0.864512, + "grad_norm": 0.5717017650604248, + "learning_rate": 1.4236586666666668e-05, + "loss": 0.008, + "step": 135080 + }, + { + "epoch": 0.864544, + "grad_norm": 0.042501211166381836, + "learning_rate": 1.4236373333333336e-05, + "loss": 0.01, + "step": 135085 + }, + { + "epoch": 0.864576, + "grad_norm": 1.569412350654602, + "learning_rate": 1.4236160000000002e-05, + "loss": 0.013, + "step": 135090 + }, + { + "epoch": 0.864608, + "grad_norm": 0.2583214342594147, + "learning_rate": 1.4235946666666667e-05, + "loss": 0.0204, + "step": 135095 + }, + { + "epoch": 0.86464, + "grad_norm": 0.028457822278141975, + "learning_rate": 1.4235733333333335e-05, + "loss": 0.0029, + "step": 135100 + }, + { + "epoch": 0.864672, + "grad_norm": 0.11859878897666931, + "learning_rate": 1.4235520000000001e-05, + "loss": 0.0162, + "step": 135105 + }, + { + "epoch": 0.864704, + "grad_norm": 0.8691651225090027, + "learning_rate": 1.4235306666666668e-05, + "loss": 0.0067, + "step": 135110 + }, + { + "epoch": 0.864736, + "grad_norm": 1.265584111213684, + "learning_rate": 1.4235093333333334e-05, + "loss": 0.0106, + "step": 135115 + }, + { + "epoch": 0.864768, + "grad_norm": 0.47584596276283264, + "learning_rate": 1.4234880000000002e-05, + "loss": 0.0056, + "step": 135120 + }, + { + "epoch": 0.8648, + "grad_norm": 0.14138232171535492, + "learning_rate": 1.4234666666666668e-05, + "loss": 0.0082, + "step": 135125 + }, + { + "epoch": 0.864832, + "grad_norm": 1.612899899482727, + "learning_rate": 1.4234453333333334e-05, + "loss": 0.0148, + "step": 135130 + }, + { + "epoch": 0.864864, + "grad_norm": 0.5387894511222839, + "learning_rate": 1.4234240000000001e-05, + "loss": 0.0039, + "step": 135135 + }, + { + "epoch": 0.864896, + "grad_norm": 0.01522922981530428, + "learning_rate": 1.4234026666666667e-05, + "loss": 0.0182, + "step": 135140 + }, + { + "epoch": 0.864928, + "grad_norm": 0.2956939935684204, + "learning_rate": 1.4233813333333335e-05, + "loss": 0.0047, + "step": 135145 + }, + { + "epoch": 0.86496, + "grad_norm": 0.053451310843229294, + "learning_rate": 1.42336e-05, + "loss": 0.0055, + "step": 135150 + }, + { + "epoch": 0.864992, + "grad_norm": 0.05942348763346672, + "learning_rate": 1.4233386666666668e-05, + "loss": 0.0096, + "step": 135155 + }, + { + "epoch": 0.865024, + "grad_norm": 0.9843878746032715, + "learning_rate": 1.4233173333333334e-05, + "loss": 0.0136, + "step": 135160 + }, + { + "epoch": 0.865056, + "grad_norm": 0.4810889661312103, + "learning_rate": 1.423296e-05, + "loss": 0.0117, + "step": 135165 + }, + { + "epoch": 0.865088, + "grad_norm": 0.24747537076473236, + "learning_rate": 1.4232746666666667e-05, + "loss": 0.0253, + "step": 135170 + }, + { + "epoch": 0.86512, + "grad_norm": 0.2881498336791992, + "learning_rate": 1.4232533333333333e-05, + "loss": 0.0034, + "step": 135175 + }, + { + "epoch": 0.865152, + "grad_norm": 0.12325956672430038, + "learning_rate": 1.4232320000000002e-05, + "loss": 0.0084, + "step": 135180 + }, + { + "epoch": 0.865184, + "grad_norm": 0.0073728132992982864, + "learning_rate": 1.4232106666666668e-05, + "loss": 0.0059, + "step": 135185 + }, + { + "epoch": 0.865216, + "grad_norm": 0.0219731442630291, + "learning_rate": 1.4231893333333336e-05, + "loss": 0.0055, + "step": 135190 + }, + { + "epoch": 0.865248, + "grad_norm": 0.15412931144237518, + "learning_rate": 1.4231680000000002e-05, + "loss": 0.0034, + "step": 135195 + }, + { + "epoch": 0.86528, + "grad_norm": 0.7847389578819275, + "learning_rate": 1.4231466666666667e-05, + "loss": 0.0367, + "step": 135200 + }, + { + "epoch": 0.865312, + "grad_norm": 0.09888685494661331, + "learning_rate": 1.4231253333333335e-05, + "loss": 0.0079, + "step": 135205 + }, + { + "epoch": 0.865344, + "grad_norm": 0.33498305082321167, + "learning_rate": 1.4231040000000001e-05, + "loss": 0.004, + "step": 135210 + }, + { + "epoch": 0.865376, + "grad_norm": 0.05107303708791733, + "learning_rate": 1.4230826666666668e-05, + "loss": 0.0164, + "step": 135215 + }, + { + "epoch": 0.865408, + "grad_norm": 0.25478652119636536, + "learning_rate": 1.4230613333333334e-05, + "loss": 0.0138, + "step": 135220 + }, + { + "epoch": 0.86544, + "grad_norm": 0.23007340729236603, + "learning_rate": 1.4230400000000002e-05, + "loss": 0.0042, + "step": 135225 + }, + { + "epoch": 0.865472, + "grad_norm": 0.7495215535163879, + "learning_rate": 1.4230186666666668e-05, + "loss": 0.0069, + "step": 135230 + }, + { + "epoch": 0.865504, + "grad_norm": 0.5565817356109619, + "learning_rate": 1.4229973333333334e-05, + "loss": 0.004, + "step": 135235 + }, + { + "epoch": 0.865536, + "grad_norm": 0.5003604292869568, + "learning_rate": 1.4229760000000001e-05, + "loss": 0.0117, + "step": 135240 + }, + { + "epoch": 0.865568, + "grad_norm": 0.9078764915466309, + "learning_rate": 1.4229546666666667e-05, + "loss": 0.0087, + "step": 135245 + }, + { + "epoch": 0.8656, + "grad_norm": 0.8070383071899414, + "learning_rate": 1.4229333333333335e-05, + "loss": 0.0082, + "step": 135250 + }, + { + "epoch": 0.865632, + "grad_norm": 0.09791650623083115, + "learning_rate": 1.422912e-05, + "loss": 0.0128, + "step": 135255 + }, + { + "epoch": 0.865664, + "grad_norm": 0.2271202802658081, + "learning_rate": 1.4228906666666668e-05, + "loss": 0.0186, + "step": 135260 + }, + { + "epoch": 0.865696, + "grad_norm": 0.20995742082595825, + "learning_rate": 1.4228693333333334e-05, + "loss": 0.0128, + "step": 135265 + }, + { + "epoch": 0.865728, + "grad_norm": 0.1834258735179901, + "learning_rate": 1.422848e-05, + "loss": 0.0043, + "step": 135270 + }, + { + "epoch": 0.86576, + "grad_norm": 0.5171113610267639, + "learning_rate": 1.4228266666666667e-05, + "loss": 0.0101, + "step": 135275 + }, + { + "epoch": 0.865792, + "grad_norm": 0.016516946256160736, + "learning_rate": 1.4228053333333333e-05, + "loss": 0.0084, + "step": 135280 + }, + { + "epoch": 0.865824, + "grad_norm": 0.08883102238178253, + "learning_rate": 1.4227840000000002e-05, + "loss": 0.0029, + "step": 135285 + }, + { + "epoch": 0.865856, + "grad_norm": 0.4094436764717102, + "learning_rate": 1.4227626666666668e-05, + "loss": 0.0176, + "step": 135290 + }, + { + "epoch": 0.865888, + "grad_norm": 0.018173517659306526, + "learning_rate": 1.4227413333333336e-05, + "loss": 0.0026, + "step": 135295 + }, + { + "epoch": 0.86592, + "grad_norm": 0.875098705291748, + "learning_rate": 1.4227200000000002e-05, + "loss": 0.0041, + "step": 135300 + }, + { + "epoch": 0.865952, + "grad_norm": 0.12186438590288162, + "learning_rate": 1.4226986666666667e-05, + "loss": 0.0053, + "step": 135305 + }, + { + "epoch": 0.865984, + "grad_norm": 1.5424878597259521, + "learning_rate": 1.4226773333333335e-05, + "loss": 0.007, + "step": 135310 + }, + { + "epoch": 0.866016, + "grad_norm": 0.41537413001060486, + "learning_rate": 1.4226560000000001e-05, + "loss": 0.0091, + "step": 135315 + }, + { + "epoch": 0.866048, + "grad_norm": 1.3530383110046387, + "learning_rate": 1.4226346666666668e-05, + "loss": 0.0074, + "step": 135320 + }, + { + "epoch": 0.86608, + "grad_norm": 0.22140832245349884, + "learning_rate": 1.4226133333333334e-05, + "loss": 0.0265, + "step": 135325 + }, + { + "epoch": 0.866112, + "grad_norm": 0.8541419506072998, + "learning_rate": 1.4225920000000002e-05, + "loss": 0.0063, + "step": 135330 + }, + { + "epoch": 0.866144, + "grad_norm": 0.25827810168266296, + "learning_rate": 1.4225706666666668e-05, + "loss": 0.003, + "step": 135335 + }, + { + "epoch": 0.866176, + "grad_norm": 0.05695260316133499, + "learning_rate": 1.4225493333333335e-05, + "loss": 0.0062, + "step": 135340 + }, + { + "epoch": 0.866208, + "grad_norm": 0.014678084291517735, + "learning_rate": 1.4225280000000001e-05, + "loss": 0.0009, + "step": 135345 + }, + { + "epoch": 0.86624, + "grad_norm": 0.6852970123291016, + "learning_rate": 1.4225066666666667e-05, + "loss": 0.0294, + "step": 135350 + }, + { + "epoch": 0.866272, + "grad_norm": 0.5216651558876038, + "learning_rate": 1.4224853333333335e-05, + "loss": 0.0064, + "step": 135355 + }, + { + "epoch": 0.866304, + "grad_norm": 0.03790301829576492, + "learning_rate": 1.422464e-05, + "loss": 0.0058, + "step": 135360 + }, + { + "epoch": 0.866336, + "grad_norm": 2.798048496246338, + "learning_rate": 1.4224426666666668e-05, + "loss": 0.007, + "step": 135365 + }, + { + "epoch": 0.866368, + "grad_norm": 0.940211296081543, + "learning_rate": 1.4224213333333334e-05, + "loss": 0.0109, + "step": 135370 + }, + { + "epoch": 0.8664, + "grad_norm": 0.06382109969854355, + "learning_rate": 1.4224000000000003e-05, + "loss": 0.0055, + "step": 135375 + }, + { + "epoch": 0.866432, + "grad_norm": 1.1029834747314453, + "learning_rate": 1.4223786666666667e-05, + "loss": 0.0086, + "step": 135380 + }, + { + "epoch": 0.866464, + "grad_norm": 0.03512509539723396, + "learning_rate": 1.4223573333333333e-05, + "loss": 0.0066, + "step": 135385 + }, + { + "epoch": 0.866496, + "grad_norm": 0.27733704447746277, + "learning_rate": 1.4223360000000002e-05, + "loss": 0.0045, + "step": 135390 + }, + { + "epoch": 0.866528, + "grad_norm": 0.15982383489608765, + "learning_rate": 1.4223146666666667e-05, + "loss": 0.0036, + "step": 135395 + }, + { + "epoch": 0.86656, + "grad_norm": 0.606079638004303, + "learning_rate": 1.4222933333333336e-05, + "loss": 0.0135, + "step": 135400 + }, + { + "epoch": 0.866592, + "grad_norm": 0.10951462388038635, + "learning_rate": 1.4222720000000002e-05, + "loss": 0.0027, + "step": 135405 + }, + { + "epoch": 0.866624, + "grad_norm": 0.2928682267665863, + "learning_rate": 1.422250666666667e-05, + "loss": 0.0033, + "step": 135410 + }, + { + "epoch": 0.866656, + "grad_norm": 0.5748079419136047, + "learning_rate": 1.4222293333333335e-05, + "loss": 0.0026, + "step": 135415 + }, + { + "epoch": 0.866688, + "grad_norm": 0.07609594613313675, + "learning_rate": 1.4222080000000001e-05, + "loss": 0.0146, + "step": 135420 + }, + { + "epoch": 0.86672, + "grad_norm": 0.0439654141664505, + "learning_rate": 1.4221866666666668e-05, + "loss": 0.0031, + "step": 135425 + }, + { + "epoch": 0.866752, + "grad_norm": 0.5796599984169006, + "learning_rate": 1.4221653333333334e-05, + "loss": 0.019, + "step": 135430 + }, + { + "epoch": 0.866784, + "grad_norm": 0.8423104286193848, + "learning_rate": 1.4221440000000002e-05, + "loss": 0.0058, + "step": 135435 + }, + { + "epoch": 0.866816, + "grad_norm": 1.3139687776565552, + "learning_rate": 1.4221226666666668e-05, + "loss": 0.0168, + "step": 135440 + }, + { + "epoch": 0.866848, + "grad_norm": 0.06725131720304489, + "learning_rate": 1.4221013333333335e-05, + "loss": 0.0107, + "step": 135445 + }, + { + "epoch": 0.86688, + "grad_norm": 0.374016672372818, + "learning_rate": 1.4220800000000001e-05, + "loss": 0.0202, + "step": 135450 + }, + { + "epoch": 0.866912, + "grad_norm": 0.136276513338089, + "learning_rate": 1.4220586666666667e-05, + "loss": 0.0048, + "step": 135455 + }, + { + "epoch": 0.866944, + "grad_norm": 0.05325288325548172, + "learning_rate": 1.4220373333333335e-05, + "loss": 0.0057, + "step": 135460 + }, + { + "epoch": 0.866976, + "grad_norm": 0.035177793353796005, + "learning_rate": 1.422016e-05, + "loss": 0.0085, + "step": 135465 + }, + { + "epoch": 0.867008, + "grad_norm": 0.41010284423828125, + "learning_rate": 1.4219946666666668e-05, + "loss": 0.01, + "step": 135470 + }, + { + "epoch": 0.86704, + "grad_norm": 0.1992053985595703, + "learning_rate": 1.4219733333333334e-05, + "loss": 0.0053, + "step": 135475 + }, + { + "epoch": 0.867072, + "grad_norm": 0.5764915347099304, + "learning_rate": 1.4219520000000001e-05, + "loss": 0.0104, + "step": 135480 + }, + { + "epoch": 0.867104, + "grad_norm": 0.08724860846996307, + "learning_rate": 1.4219306666666667e-05, + "loss": 0.0042, + "step": 135485 + }, + { + "epoch": 0.867136, + "grad_norm": 0.028986243531107903, + "learning_rate": 1.4219093333333333e-05, + "loss": 0.0044, + "step": 135490 + }, + { + "epoch": 0.867168, + "grad_norm": 0.840814471244812, + "learning_rate": 1.4218880000000002e-05, + "loss": 0.0206, + "step": 135495 + }, + { + "epoch": 0.8672, + "grad_norm": 0.7597397565841675, + "learning_rate": 1.4218666666666667e-05, + "loss": 0.0123, + "step": 135500 + }, + { + "epoch": 0.867232, + "grad_norm": 0.2666541337966919, + "learning_rate": 1.4218453333333336e-05, + "loss": 0.0061, + "step": 135505 + }, + { + "epoch": 0.867264, + "grad_norm": 0.013080463744699955, + "learning_rate": 1.4218240000000002e-05, + "loss": 0.006, + "step": 135510 + }, + { + "epoch": 0.867296, + "grad_norm": 0.041132211685180664, + "learning_rate": 1.421802666666667e-05, + "loss": 0.0049, + "step": 135515 + }, + { + "epoch": 0.867328, + "grad_norm": 0.07416228950023651, + "learning_rate": 1.4217813333333335e-05, + "loss": 0.0038, + "step": 135520 + }, + { + "epoch": 0.86736, + "grad_norm": 0.11885198205709457, + "learning_rate": 1.4217600000000001e-05, + "loss": 0.0085, + "step": 135525 + }, + { + "epoch": 0.867392, + "grad_norm": 0.4036869406700134, + "learning_rate": 1.4217386666666668e-05, + "loss": 0.0107, + "step": 135530 + }, + { + "epoch": 0.867424, + "grad_norm": 0.9114733338356018, + "learning_rate": 1.4217173333333334e-05, + "loss": 0.0164, + "step": 135535 + }, + { + "epoch": 0.867456, + "grad_norm": 0.8072792291641235, + "learning_rate": 1.4216960000000002e-05, + "loss": 0.0069, + "step": 135540 + }, + { + "epoch": 0.867488, + "grad_norm": 0.5334638357162476, + "learning_rate": 1.4216746666666668e-05, + "loss": 0.0055, + "step": 135545 + }, + { + "epoch": 0.86752, + "grad_norm": 0.6346631646156311, + "learning_rate": 1.4216533333333335e-05, + "loss": 0.0073, + "step": 135550 + }, + { + "epoch": 0.867552, + "grad_norm": 1.5429399013519287, + "learning_rate": 1.4216320000000001e-05, + "loss": 0.0113, + "step": 135555 + }, + { + "epoch": 0.867584, + "grad_norm": 0.29581335186958313, + "learning_rate": 1.4216106666666667e-05, + "loss": 0.008, + "step": 135560 + }, + { + "epoch": 0.867616, + "grad_norm": 0.022707324475049973, + "learning_rate": 1.4215893333333335e-05, + "loss": 0.0134, + "step": 135565 + }, + { + "epoch": 0.867648, + "grad_norm": 0.4223824441432953, + "learning_rate": 1.421568e-05, + "loss": 0.004, + "step": 135570 + }, + { + "epoch": 0.86768, + "grad_norm": 0.15382780134677887, + "learning_rate": 1.4215466666666668e-05, + "loss": 0.0106, + "step": 135575 + }, + { + "epoch": 0.867712, + "grad_norm": 0.9667618274688721, + "learning_rate": 1.4215253333333334e-05, + "loss": 0.01, + "step": 135580 + }, + { + "epoch": 0.867744, + "grad_norm": 0.29752281308174133, + "learning_rate": 1.4215040000000001e-05, + "loss": 0.0054, + "step": 135585 + }, + { + "epoch": 0.867776, + "grad_norm": 0.032331060618162155, + "learning_rate": 1.4214826666666667e-05, + "loss": 0.0027, + "step": 135590 + }, + { + "epoch": 0.867808, + "grad_norm": 0.2236126959323883, + "learning_rate": 1.4214613333333333e-05, + "loss": 0.0169, + "step": 135595 + }, + { + "epoch": 0.86784, + "grad_norm": 2.3496086597442627, + "learning_rate": 1.4214400000000002e-05, + "loss": 0.0202, + "step": 135600 + }, + { + "epoch": 0.867872, + "grad_norm": 0.20674626529216766, + "learning_rate": 1.4214186666666667e-05, + "loss": 0.0146, + "step": 135605 + }, + { + "epoch": 0.867904, + "grad_norm": 0.04278075322508812, + "learning_rate": 1.4213973333333336e-05, + "loss": 0.004, + "step": 135610 + }, + { + "epoch": 0.867936, + "grad_norm": 0.19859249889850616, + "learning_rate": 1.4213760000000002e-05, + "loss": 0.0065, + "step": 135615 + }, + { + "epoch": 0.867968, + "grad_norm": 1.2089086771011353, + "learning_rate": 1.421354666666667e-05, + "loss": 0.0238, + "step": 135620 + }, + { + "epoch": 0.868, + "grad_norm": 0.032130662351846695, + "learning_rate": 1.4213333333333335e-05, + "loss": 0.0036, + "step": 135625 + }, + { + "epoch": 0.868032, + "grad_norm": 0.42372772097587585, + "learning_rate": 1.4213120000000001e-05, + "loss": 0.0107, + "step": 135630 + }, + { + "epoch": 0.868064, + "grad_norm": 1.1411552429199219, + "learning_rate": 1.4212906666666668e-05, + "loss": 0.0106, + "step": 135635 + }, + { + "epoch": 0.868096, + "grad_norm": 1.108493447303772, + "learning_rate": 1.4212693333333334e-05, + "loss": 0.0047, + "step": 135640 + }, + { + "epoch": 0.868128, + "grad_norm": 1.0280306339263916, + "learning_rate": 1.4212480000000002e-05, + "loss": 0.0092, + "step": 135645 + }, + { + "epoch": 0.86816, + "grad_norm": 0.02369004115462303, + "learning_rate": 1.4212266666666668e-05, + "loss": 0.003, + "step": 135650 + }, + { + "epoch": 0.868192, + "grad_norm": 0.07597842067480087, + "learning_rate": 1.4212053333333335e-05, + "loss": 0.0113, + "step": 135655 + }, + { + "epoch": 0.868224, + "grad_norm": 0.8250113129615784, + "learning_rate": 1.4211840000000001e-05, + "loss": 0.0108, + "step": 135660 + }, + { + "epoch": 0.868256, + "grad_norm": 0.16622747480869293, + "learning_rate": 1.4211626666666667e-05, + "loss": 0.0092, + "step": 135665 + }, + { + "epoch": 0.868288, + "grad_norm": 0.057001277804374695, + "learning_rate": 1.4211413333333335e-05, + "loss": 0.006, + "step": 135670 + }, + { + "epoch": 0.86832, + "grad_norm": 0.09592226147651672, + "learning_rate": 1.42112e-05, + "loss": 0.0144, + "step": 135675 + }, + { + "epoch": 0.868352, + "grad_norm": 0.16600577533245087, + "learning_rate": 1.4210986666666668e-05, + "loss": 0.0067, + "step": 135680 + }, + { + "epoch": 0.868384, + "grad_norm": 0.7488071322441101, + "learning_rate": 1.4210773333333334e-05, + "loss": 0.0132, + "step": 135685 + }, + { + "epoch": 0.868416, + "grad_norm": 0.05206175521016121, + "learning_rate": 1.4210560000000001e-05, + "loss": 0.0032, + "step": 135690 + }, + { + "epoch": 0.868448, + "grad_norm": 0.9394726157188416, + "learning_rate": 1.4210346666666667e-05, + "loss": 0.0054, + "step": 135695 + }, + { + "epoch": 0.86848, + "grad_norm": 0.010819720104336739, + "learning_rate": 1.4210133333333333e-05, + "loss": 0.0034, + "step": 135700 + }, + { + "epoch": 0.868512, + "grad_norm": 0.06189529597759247, + "learning_rate": 1.420992e-05, + "loss": 0.0053, + "step": 135705 + }, + { + "epoch": 0.868544, + "grad_norm": 0.16933713853359222, + "learning_rate": 1.4209706666666667e-05, + "loss": 0.0041, + "step": 135710 + }, + { + "epoch": 0.868576, + "grad_norm": 0.20937736332416534, + "learning_rate": 1.4209493333333336e-05, + "loss": 0.0112, + "step": 135715 + }, + { + "epoch": 0.868608, + "grad_norm": 0.22452759742736816, + "learning_rate": 1.4209280000000002e-05, + "loss": 0.0086, + "step": 135720 + }, + { + "epoch": 0.86864, + "grad_norm": 0.09555982798337936, + "learning_rate": 1.420906666666667e-05, + "loss": 0.0074, + "step": 135725 + }, + { + "epoch": 0.868672, + "grad_norm": 0.6417025327682495, + "learning_rate": 1.4208853333333335e-05, + "loss": 0.0125, + "step": 135730 + }, + { + "epoch": 0.868704, + "grad_norm": 0.11970806121826172, + "learning_rate": 1.4208640000000001e-05, + "loss": 0.0071, + "step": 135735 + }, + { + "epoch": 0.868736, + "grad_norm": 0.1303277164697647, + "learning_rate": 1.4208426666666668e-05, + "loss": 0.0051, + "step": 135740 + }, + { + "epoch": 0.868768, + "grad_norm": 0.7444403767585754, + "learning_rate": 1.4208213333333334e-05, + "loss": 0.0122, + "step": 135745 + }, + { + "epoch": 0.8688, + "grad_norm": 0.41340580582618713, + "learning_rate": 1.4208000000000002e-05, + "loss": 0.0082, + "step": 135750 + }, + { + "epoch": 0.868832, + "grad_norm": 0.202382430434227, + "learning_rate": 1.4207786666666668e-05, + "loss": 0.0079, + "step": 135755 + }, + { + "epoch": 0.868864, + "grad_norm": 0.03173873946070671, + "learning_rate": 1.4207573333333335e-05, + "loss": 0.0032, + "step": 135760 + }, + { + "epoch": 0.868896, + "grad_norm": 0.16158951818943024, + "learning_rate": 1.4207360000000001e-05, + "loss": 0.0043, + "step": 135765 + }, + { + "epoch": 0.868928, + "grad_norm": 0.14096175134181976, + "learning_rate": 1.4207146666666667e-05, + "loss": 0.0084, + "step": 135770 + }, + { + "epoch": 0.86896, + "grad_norm": 0.6590518355369568, + "learning_rate": 1.4206933333333335e-05, + "loss": 0.0103, + "step": 135775 + }, + { + "epoch": 0.868992, + "grad_norm": 0.051699768751859665, + "learning_rate": 1.420672e-05, + "loss": 0.0043, + "step": 135780 + }, + { + "epoch": 0.869024, + "grad_norm": 0.23980319499969482, + "learning_rate": 1.4206506666666668e-05, + "loss": 0.0226, + "step": 135785 + }, + { + "epoch": 0.869056, + "grad_norm": 0.6905961036682129, + "learning_rate": 1.4206293333333334e-05, + "loss": 0.0153, + "step": 135790 + }, + { + "epoch": 0.869088, + "grad_norm": 0.6869282722473145, + "learning_rate": 1.4206080000000001e-05, + "loss": 0.012, + "step": 135795 + }, + { + "epoch": 0.86912, + "grad_norm": 0.09202156215906143, + "learning_rate": 1.4205866666666667e-05, + "loss": 0.0137, + "step": 135800 + }, + { + "epoch": 0.869152, + "grad_norm": 0.5318737030029297, + "learning_rate": 1.4205653333333333e-05, + "loss": 0.0085, + "step": 135805 + }, + { + "epoch": 0.869184, + "grad_norm": 0.4965248703956604, + "learning_rate": 1.420544e-05, + "loss": 0.009, + "step": 135810 + }, + { + "epoch": 0.869216, + "grad_norm": 1.276534914970398, + "learning_rate": 1.4205226666666667e-05, + "loss": 0.0112, + "step": 135815 + }, + { + "epoch": 0.869248, + "grad_norm": 0.14713700115680695, + "learning_rate": 1.4205013333333336e-05, + "loss": 0.0058, + "step": 135820 + }, + { + "epoch": 0.86928, + "grad_norm": 0.7174182534217834, + "learning_rate": 1.4204800000000002e-05, + "loss": 0.0131, + "step": 135825 + }, + { + "epoch": 0.869312, + "grad_norm": 0.1750817894935608, + "learning_rate": 1.420458666666667e-05, + "loss": 0.0065, + "step": 135830 + }, + { + "epoch": 0.869344, + "grad_norm": 0.10247739404439926, + "learning_rate": 1.4204373333333335e-05, + "loss": 0.0037, + "step": 135835 + }, + { + "epoch": 0.869376, + "grad_norm": 2.6754255294799805, + "learning_rate": 1.4204160000000001e-05, + "loss": 0.0068, + "step": 135840 + }, + { + "epoch": 0.869408, + "grad_norm": 0.43403664231300354, + "learning_rate": 1.4203946666666668e-05, + "loss": 0.0072, + "step": 135845 + }, + { + "epoch": 0.86944, + "grad_norm": 0.03848733380436897, + "learning_rate": 1.4203733333333334e-05, + "loss": 0.0024, + "step": 135850 + }, + { + "epoch": 0.869472, + "grad_norm": 0.21690179407596588, + "learning_rate": 1.4203520000000002e-05, + "loss": 0.0047, + "step": 135855 + }, + { + "epoch": 0.869504, + "grad_norm": 0.7924061417579651, + "learning_rate": 1.4203306666666668e-05, + "loss": 0.0108, + "step": 135860 + }, + { + "epoch": 0.869536, + "grad_norm": 0.08834049105644226, + "learning_rate": 1.4203093333333335e-05, + "loss": 0.0083, + "step": 135865 + }, + { + "epoch": 0.869568, + "grad_norm": 0.7058357000350952, + "learning_rate": 1.4202880000000001e-05, + "loss": 0.0129, + "step": 135870 + }, + { + "epoch": 0.8696, + "grad_norm": 0.6367966532707214, + "learning_rate": 1.4202666666666667e-05, + "loss": 0.0145, + "step": 135875 + }, + { + "epoch": 0.869632, + "grad_norm": 0.2929038107395172, + "learning_rate": 1.4202453333333335e-05, + "loss": 0.0152, + "step": 135880 + }, + { + "epoch": 0.869664, + "grad_norm": 1.7573761940002441, + "learning_rate": 1.420224e-05, + "loss": 0.0122, + "step": 135885 + }, + { + "epoch": 0.869696, + "grad_norm": 0.027440564706921577, + "learning_rate": 1.4202026666666668e-05, + "loss": 0.0061, + "step": 135890 + }, + { + "epoch": 0.869728, + "grad_norm": 0.5355525016784668, + "learning_rate": 1.4201813333333334e-05, + "loss": 0.0161, + "step": 135895 + }, + { + "epoch": 0.86976, + "grad_norm": 0.6565979719161987, + "learning_rate": 1.4201600000000001e-05, + "loss": 0.0126, + "step": 135900 + }, + { + "epoch": 0.869792, + "grad_norm": 0.26529473066329956, + "learning_rate": 1.4201386666666667e-05, + "loss": 0.0042, + "step": 135905 + }, + { + "epoch": 0.869824, + "grad_norm": 0.8247976303100586, + "learning_rate": 1.4201173333333333e-05, + "loss": 0.0087, + "step": 135910 + }, + { + "epoch": 0.869856, + "grad_norm": 0.3164556324481964, + "learning_rate": 1.420096e-05, + "loss": 0.0075, + "step": 135915 + }, + { + "epoch": 0.869888, + "grad_norm": 0.3149980306625366, + "learning_rate": 1.4200746666666667e-05, + "loss": 0.0027, + "step": 135920 + }, + { + "epoch": 0.86992, + "grad_norm": 0.061811868101358414, + "learning_rate": 1.4200533333333336e-05, + "loss": 0.0043, + "step": 135925 + }, + { + "epoch": 0.869952, + "grad_norm": 0.18628589808940887, + "learning_rate": 1.420032e-05, + "loss": 0.0045, + "step": 135930 + }, + { + "epoch": 0.869984, + "grad_norm": 0.011762114241719246, + "learning_rate": 1.420010666666667e-05, + "loss": 0.0068, + "step": 135935 + }, + { + "epoch": 0.870016, + "grad_norm": 0.10424456000328064, + "learning_rate": 1.4199893333333335e-05, + "loss": 0.0093, + "step": 135940 + }, + { + "epoch": 0.870048, + "grad_norm": 0.5940605401992798, + "learning_rate": 1.4199680000000001e-05, + "loss": 0.0056, + "step": 135945 + }, + { + "epoch": 0.87008, + "grad_norm": 1.833543300628662, + "learning_rate": 1.4199466666666668e-05, + "loss": 0.022, + "step": 135950 + }, + { + "epoch": 0.870112, + "grad_norm": 0.45559582114219666, + "learning_rate": 1.4199253333333334e-05, + "loss": 0.0109, + "step": 135955 + }, + { + "epoch": 0.870144, + "grad_norm": 1.0223748683929443, + "learning_rate": 1.4199040000000002e-05, + "loss": 0.0122, + "step": 135960 + }, + { + "epoch": 0.870176, + "grad_norm": 0.020991036668419838, + "learning_rate": 1.4198826666666668e-05, + "loss": 0.0115, + "step": 135965 + }, + { + "epoch": 0.870208, + "grad_norm": 0.42474645376205444, + "learning_rate": 1.4198613333333335e-05, + "loss": 0.0073, + "step": 135970 + }, + { + "epoch": 0.87024, + "grad_norm": 0.21674984693527222, + "learning_rate": 1.4198400000000001e-05, + "loss": 0.0127, + "step": 135975 + }, + { + "epoch": 0.870272, + "grad_norm": 0.9138138294219971, + "learning_rate": 1.4198186666666667e-05, + "loss": 0.0122, + "step": 135980 + }, + { + "epoch": 0.870304, + "grad_norm": 0.19099248945713043, + "learning_rate": 1.4197973333333335e-05, + "loss": 0.0043, + "step": 135985 + }, + { + "epoch": 0.870336, + "grad_norm": 0.24192017316818237, + "learning_rate": 1.419776e-05, + "loss": 0.0043, + "step": 135990 + }, + { + "epoch": 0.870368, + "grad_norm": 0.2406979650259018, + "learning_rate": 1.4197546666666668e-05, + "loss": 0.0027, + "step": 135995 + }, + { + "epoch": 0.8704, + "grad_norm": 0.8566991686820984, + "learning_rate": 1.4197333333333334e-05, + "loss": 0.013, + "step": 136000 + }, + { + "epoch": 0.870432, + "grad_norm": 0.2805789113044739, + "learning_rate": 1.4197120000000001e-05, + "loss": 0.0039, + "step": 136005 + }, + { + "epoch": 0.870464, + "grad_norm": 0.5596160292625427, + "learning_rate": 1.4196906666666667e-05, + "loss": 0.0165, + "step": 136010 + }, + { + "epoch": 0.870496, + "grad_norm": 1.0927577018737793, + "learning_rate": 1.4196693333333333e-05, + "loss": 0.0049, + "step": 136015 + }, + { + "epoch": 0.870528, + "grad_norm": 0.6245771646499634, + "learning_rate": 1.419648e-05, + "loss": 0.0072, + "step": 136020 + }, + { + "epoch": 0.87056, + "grad_norm": 0.029385583475232124, + "learning_rate": 1.4196266666666667e-05, + "loss": 0.0107, + "step": 136025 + }, + { + "epoch": 0.870592, + "grad_norm": 0.8949150443077087, + "learning_rate": 1.4196053333333336e-05, + "loss": 0.0092, + "step": 136030 + }, + { + "epoch": 0.870624, + "grad_norm": 0.1934923678636551, + "learning_rate": 1.419584e-05, + "loss": 0.0162, + "step": 136035 + }, + { + "epoch": 0.870656, + "grad_norm": 0.9971314072608948, + "learning_rate": 1.419562666666667e-05, + "loss": 0.0144, + "step": 136040 + }, + { + "epoch": 0.870688, + "grad_norm": 0.31062325835227966, + "learning_rate": 1.4195413333333335e-05, + "loss": 0.0107, + "step": 136045 + }, + { + "epoch": 0.87072, + "grad_norm": 0.14450228214263916, + "learning_rate": 1.4195200000000001e-05, + "loss": 0.0129, + "step": 136050 + }, + { + "epoch": 0.870752, + "grad_norm": 0.3837197422981262, + "learning_rate": 1.4194986666666668e-05, + "loss": 0.0016, + "step": 136055 + }, + { + "epoch": 0.870784, + "grad_norm": 1.3877185583114624, + "learning_rate": 1.4194773333333334e-05, + "loss": 0.0089, + "step": 136060 + }, + { + "epoch": 0.870816, + "grad_norm": 1.4691287279129028, + "learning_rate": 1.4194560000000002e-05, + "loss": 0.0192, + "step": 136065 + }, + { + "epoch": 0.870848, + "grad_norm": 0.09584447741508484, + "learning_rate": 1.4194346666666668e-05, + "loss": 0.0103, + "step": 136070 + }, + { + "epoch": 0.87088, + "grad_norm": 0.058948811143636703, + "learning_rate": 1.4194133333333335e-05, + "loss": 0.0109, + "step": 136075 + }, + { + "epoch": 0.870912, + "grad_norm": 0.6634625792503357, + "learning_rate": 1.4193920000000001e-05, + "loss": 0.0124, + "step": 136080 + }, + { + "epoch": 0.870944, + "grad_norm": 0.05579671263694763, + "learning_rate": 1.4193706666666667e-05, + "loss": 0.0033, + "step": 136085 + }, + { + "epoch": 0.870976, + "grad_norm": 0.03165677562355995, + "learning_rate": 1.4193493333333335e-05, + "loss": 0.0052, + "step": 136090 + }, + { + "epoch": 0.871008, + "grad_norm": 0.016443561762571335, + "learning_rate": 1.419328e-05, + "loss": 0.0097, + "step": 136095 + }, + { + "epoch": 0.87104, + "grad_norm": 0.23119445145130157, + "learning_rate": 1.4193066666666668e-05, + "loss": 0.0102, + "step": 136100 + }, + { + "epoch": 0.871072, + "grad_norm": 0.6797348260879517, + "learning_rate": 1.4192853333333334e-05, + "loss": 0.0074, + "step": 136105 + }, + { + "epoch": 0.871104, + "grad_norm": 0.5640125870704651, + "learning_rate": 1.4192640000000001e-05, + "loss": 0.0077, + "step": 136110 + }, + { + "epoch": 0.871136, + "grad_norm": 0.8803825974464417, + "learning_rate": 1.4192426666666667e-05, + "loss": 0.0041, + "step": 136115 + }, + { + "epoch": 0.871168, + "grad_norm": 0.37580135464668274, + "learning_rate": 1.4192213333333333e-05, + "loss": 0.0063, + "step": 136120 + }, + { + "epoch": 0.8712, + "grad_norm": 1.1948524713516235, + "learning_rate": 1.4192e-05, + "loss": 0.0104, + "step": 136125 + }, + { + "epoch": 0.871232, + "grad_norm": 0.1569860577583313, + "learning_rate": 1.4191786666666667e-05, + "loss": 0.0532, + "step": 136130 + }, + { + "epoch": 0.871264, + "grad_norm": 0.2102562040090561, + "learning_rate": 1.4191573333333336e-05, + "loss": 0.0072, + "step": 136135 + }, + { + "epoch": 0.871296, + "grad_norm": 0.30226635932922363, + "learning_rate": 1.419136e-05, + "loss": 0.0042, + "step": 136140 + }, + { + "epoch": 0.871328, + "grad_norm": 0.7398006916046143, + "learning_rate": 1.419114666666667e-05, + "loss": 0.0137, + "step": 136145 + }, + { + "epoch": 0.87136, + "grad_norm": 0.33072298765182495, + "learning_rate": 1.4190933333333335e-05, + "loss": 0.0065, + "step": 136150 + }, + { + "epoch": 0.871392, + "grad_norm": 0.5753926634788513, + "learning_rate": 1.419072e-05, + "loss": 0.0081, + "step": 136155 + }, + { + "epoch": 0.871424, + "grad_norm": 0.8008105158805847, + "learning_rate": 1.4190506666666668e-05, + "loss": 0.0141, + "step": 136160 + }, + { + "epoch": 0.871456, + "grad_norm": 0.040883101522922516, + "learning_rate": 1.4190293333333334e-05, + "loss": 0.0084, + "step": 136165 + }, + { + "epoch": 0.871488, + "grad_norm": 0.019738245755434036, + "learning_rate": 1.4190080000000002e-05, + "loss": 0.0068, + "step": 136170 + }, + { + "epoch": 0.87152, + "grad_norm": 0.4429267346858978, + "learning_rate": 1.4189866666666668e-05, + "loss": 0.0067, + "step": 136175 + }, + { + "epoch": 0.871552, + "grad_norm": 0.3487088978290558, + "learning_rate": 1.4189653333333335e-05, + "loss": 0.0209, + "step": 136180 + }, + { + "epoch": 0.871584, + "grad_norm": 0.7754480242729187, + "learning_rate": 1.4189440000000001e-05, + "loss": 0.0132, + "step": 136185 + }, + { + "epoch": 0.871616, + "grad_norm": 0.13959653675556183, + "learning_rate": 1.4189226666666669e-05, + "loss": 0.0028, + "step": 136190 + }, + { + "epoch": 0.871648, + "grad_norm": 0.0874057412147522, + "learning_rate": 1.4189013333333335e-05, + "loss": 0.0148, + "step": 136195 + }, + { + "epoch": 0.87168, + "grad_norm": 1.3555903434753418, + "learning_rate": 1.41888e-05, + "loss": 0.0202, + "step": 136200 + }, + { + "epoch": 0.871712, + "grad_norm": 0.051173482090234756, + "learning_rate": 1.4188586666666668e-05, + "loss": 0.0014, + "step": 136205 + }, + { + "epoch": 0.871744, + "grad_norm": 1.4178932905197144, + "learning_rate": 1.4188373333333334e-05, + "loss": 0.0132, + "step": 136210 + }, + { + "epoch": 0.871776, + "grad_norm": 1.098956823348999, + "learning_rate": 1.4188160000000001e-05, + "loss": 0.0125, + "step": 136215 + }, + { + "epoch": 0.871808, + "grad_norm": 0.5533415079116821, + "learning_rate": 1.4187946666666667e-05, + "loss": 0.0095, + "step": 136220 + }, + { + "epoch": 0.87184, + "grad_norm": 0.07297608256340027, + "learning_rate": 1.4187733333333335e-05, + "loss": 0.0014, + "step": 136225 + }, + { + "epoch": 0.871872, + "grad_norm": 0.12303873151540756, + "learning_rate": 1.418752e-05, + "loss": 0.0115, + "step": 136230 + }, + { + "epoch": 0.871904, + "grad_norm": 0.5810551643371582, + "learning_rate": 1.4187306666666667e-05, + "loss": 0.0037, + "step": 136235 + }, + { + "epoch": 0.871936, + "grad_norm": 0.1659948080778122, + "learning_rate": 1.4187093333333336e-05, + "loss": 0.0041, + "step": 136240 + }, + { + "epoch": 0.871968, + "grad_norm": 1.3795194625854492, + "learning_rate": 1.418688e-05, + "loss": 0.0152, + "step": 136245 + }, + { + "epoch": 0.872, + "grad_norm": 0.1520923674106598, + "learning_rate": 1.418666666666667e-05, + "loss": 0.0184, + "step": 136250 + }, + { + "epoch": 0.872032, + "grad_norm": 0.08525097370147705, + "learning_rate": 1.4186453333333335e-05, + "loss": 0.0044, + "step": 136255 + }, + { + "epoch": 0.872064, + "grad_norm": 0.7719545960426331, + "learning_rate": 1.4186240000000003e-05, + "loss": 0.0196, + "step": 136260 + }, + { + "epoch": 0.872096, + "grad_norm": 0.9130055904388428, + "learning_rate": 1.4186026666666668e-05, + "loss": 0.0081, + "step": 136265 + }, + { + "epoch": 0.872128, + "grad_norm": 0.32530495524406433, + "learning_rate": 1.4185813333333334e-05, + "loss": 0.0029, + "step": 136270 + }, + { + "epoch": 0.87216, + "grad_norm": 0.9365719556808472, + "learning_rate": 1.4185600000000002e-05, + "loss": 0.0109, + "step": 136275 + }, + { + "epoch": 0.872192, + "grad_norm": 0.155080646276474, + "learning_rate": 1.4185386666666668e-05, + "loss": 0.0124, + "step": 136280 + }, + { + "epoch": 0.872224, + "grad_norm": 0.19395712018013, + "learning_rate": 1.4185173333333335e-05, + "loss": 0.006, + "step": 136285 + }, + { + "epoch": 0.872256, + "grad_norm": 0.05925232917070389, + "learning_rate": 1.4184960000000001e-05, + "loss": 0.0119, + "step": 136290 + }, + { + "epoch": 0.872288, + "grad_norm": 0.19163738191127777, + "learning_rate": 1.4184746666666669e-05, + "loss": 0.0035, + "step": 136295 + }, + { + "epoch": 0.87232, + "grad_norm": 0.021916024386882782, + "learning_rate": 1.4184533333333335e-05, + "loss": 0.0025, + "step": 136300 + }, + { + "epoch": 0.872352, + "grad_norm": 0.0482923686504364, + "learning_rate": 1.418432e-05, + "loss": 0.0016, + "step": 136305 + }, + { + "epoch": 0.872384, + "grad_norm": 0.19489271938800812, + "learning_rate": 1.4184106666666668e-05, + "loss": 0.0038, + "step": 136310 + }, + { + "epoch": 0.872416, + "grad_norm": 0.19558724761009216, + "learning_rate": 1.4183893333333334e-05, + "loss": 0.0036, + "step": 136315 + }, + { + "epoch": 0.872448, + "grad_norm": 1.2134833335876465, + "learning_rate": 1.4183680000000001e-05, + "loss": 0.0078, + "step": 136320 + }, + { + "epoch": 0.87248, + "grad_norm": 0.24596324563026428, + "learning_rate": 1.4183466666666667e-05, + "loss": 0.0085, + "step": 136325 + }, + { + "epoch": 0.872512, + "grad_norm": 0.13021454215049744, + "learning_rate": 1.4183253333333335e-05, + "loss": 0.003, + "step": 136330 + }, + { + "epoch": 0.872544, + "grad_norm": 0.37289533019065857, + "learning_rate": 1.418304e-05, + "loss": 0.0069, + "step": 136335 + }, + { + "epoch": 0.872576, + "grad_norm": 0.03471933677792549, + "learning_rate": 1.4182826666666667e-05, + "loss": 0.0092, + "step": 136340 + }, + { + "epoch": 0.872608, + "grad_norm": 0.028374262154102325, + "learning_rate": 1.4182613333333334e-05, + "loss": 0.0045, + "step": 136345 + }, + { + "epoch": 0.87264, + "grad_norm": 0.31910255551338196, + "learning_rate": 1.41824e-05, + "loss": 0.0064, + "step": 136350 + }, + { + "epoch": 0.872672, + "grad_norm": 0.23463696241378784, + "learning_rate": 1.418218666666667e-05, + "loss": 0.0077, + "step": 136355 + }, + { + "epoch": 0.872704, + "grad_norm": 1.1751281023025513, + "learning_rate": 1.4181973333333335e-05, + "loss": 0.0073, + "step": 136360 + }, + { + "epoch": 0.872736, + "grad_norm": 0.8241042494773865, + "learning_rate": 1.4181760000000003e-05, + "loss": 0.0049, + "step": 136365 + }, + { + "epoch": 0.872768, + "grad_norm": 0.028673609718680382, + "learning_rate": 1.4181546666666668e-05, + "loss": 0.0107, + "step": 136370 + }, + { + "epoch": 0.8728, + "grad_norm": 0.4423063099384308, + "learning_rate": 1.4181333333333334e-05, + "loss": 0.0065, + "step": 136375 + }, + { + "epoch": 0.872832, + "grad_norm": 0.4060613512992859, + "learning_rate": 1.4181120000000002e-05, + "loss": 0.0046, + "step": 136380 + }, + { + "epoch": 0.872864, + "grad_norm": 0.5187005400657654, + "learning_rate": 1.4180906666666668e-05, + "loss": 0.0099, + "step": 136385 + }, + { + "epoch": 0.872896, + "grad_norm": 0.4086487889289856, + "learning_rate": 1.4180693333333335e-05, + "loss": 0.0066, + "step": 136390 + }, + { + "epoch": 0.872928, + "grad_norm": 0.025904471054673195, + "learning_rate": 1.4180480000000001e-05, + "loss": 0.0034, + "step": 136395 + }, + { + "epoch": 0.87296, + "grad_norm": 0.006583000998944044, + "learning_rate": 1.4180266666666669e-05, + "loss": 0.0072, + "step": 136400 + }, + { + "epoch": 0.872992, + "grad_norm": 0.6117238998413086, + "learning_rate": 1.4180053333333335e-05, + "loss": 0.003, + "step": 136405 + }, + { + "epoch": 0.873024, + "grad_norm": 0.21977601945400238, + "learning_rate": 1.417984e-05, + "loss": 0.0043, + "step": 136410 + }, + { + "epoch": 0.873056, + "grad_norm": 0.052257686853408813, + "learning_rate": 1.4179626666666668e-05, + "loss": 0.0037, + "step": 136415 + }, + { + "epoch": 0.873088, + "grad_norm": 0.5708839297294617, + "learning_rate": 1.4179413333333334e-05, + "loss": 0.0155, + "step": 136420 + }, + { + "epoch": 0.87312, + "grad_norm": 0.10837458074092865, + "learning_rate": 1.4179200000000001e-05, + "loss": 0.0108, + "step": 136425 + }, + { + "epoch": 0.873152, + "grad_norm": 0.3169153928756714, + "learning_rate": 1.4178986666666667e-05, + "loss": 0.0106, + "step": 136430 + }, + { + "epoch": 0.873184, + "grad_norm": 0.416194349527359, + "learning_rate": 1.4178773333333335e-05, + "loss": 0.0161, + "step": 136435 + }, + { + "epoch": 0.873216, + "grad_norm": 0.3157936930656433, + "learning_rate": 1.417856e-05, + "loss": 0.01, + "step": 136440 + }, + { + "epoch": 0.873248, + "grad_norm": 0.01108612585812807, + "learning_rate": 1.4178346666666667e-05, + "loss": 0.0047, + "step": 136445 + }, + { + "epoch": 0.87328, + "grad_norm": 0.27179640531539917, + "learning_rate": 1.4178133333333334e-05, + "loss": 0.0141, + "step": 136450 + }, + { + "epoch": 0.873312, + "grad_norm": 0.04017351567745209, + "learning_rate": 1.417792e-05, + "loss": 0.0079, + "step": 136455 + }, + { + "epoch": 0.873344, + "grad_norm": 0.1908598095178604, + "learning_rate": 1.417770666666667e-05, + "loss": 0.0047, + "step": 136460 + }, + { + "epoch": 0.873376, + "grad_norm": 0.19802120327949524, + "learning_rate": 1.4177493333333335e-05, + "loss": 0.0045, + "step": 136465 + }, + { + "epoch": 0.873408, + "grad_norm": 0.45694035291671753, + "learning_rate": 1.4177280000000003e-05, + "loss": 0.0028, + "step": 136470 + }, + { + "epoch": 0.87344, + "grad_norm": 1.4933255910873413, + "learning_rate": 1.4177066666666668e-05, + "loss": 0.0143, + "step": 136475 + }, + { + "epoch": 0.873472, + "grad_norm": 0.470597505569458, + "learning_rate": 1.4176853333333334e-05, + "loss": 0.0036, + "step": 136480 + }, + { + "epoch": 0.873504, + "grad_norm": 0.06872130185365677, + "learning_rate": 1.4176640000000002e-05, + "loss": 0.0079, + "step": 136485 + }, + { + "epoch": 0.873536, + "grad_norm": 0.1429097056388855, + "learning_rate": 1.4176426666666668e-05, + "loss": 0.0095, + "step": 136490 + }, + { + "epoch": 0.873568, + "grad_norm": 0.22558246552944183, + "learning_rate": 1.4176213333333335e-05, + "loss": 0.0068, + "step": 136495 + }, + { + "epoch": 0.8736, + "grad_norm": 0.10680234432220459, + "learning_rate": 1.4176000000000001e-05, + "loss": 0.0042, + "step": 136500 + }, + { + "epoch": 0.873632, + "grad_norm": 0.49302583932876587, + "learning_rate": 1.4175786666666669e-05, + "loss": 0.004, + "step": 136505 + }, + { + "epoch": 0.873664, + "grad_norm": 0.3441677391529083, + "learning_rate": 1.4175573333333335e-05, + "loss": 0.011, + "step": 136510 + }, + { + "epoch": 0.873696, + "grad_norm": 0.34587526321411133, + "learning_rate": 1.417536e-05, + "loss": 0.0053, + "step": 136515 + }, + { + "epoch": 0.873728, + "grad_norm": 0.2516848146915436, + "learning_rate": 1.4175146666666668e-05, + "loss": 0.0029, + "step": 136520 + }, + { + "epoch": 0.87376, + "grad_norm": 0.16413816809654236, + "learning_rate": 1.4174933333333334e-05, + "loss": 0.0041, + "step": 136525 + }, + { + "epoch": 0.873792, + "grad_norm": 0.6441915035247803, + "learning_rate": 1.4174720000000001e-05, + "loss": 0.0068, + "step": 136530 + }, + { + "epoch": 0.873824, + "grad_norm": 1.8878958225250244, + "learning_rate": 1.4174506666666667e-05, + "loss": 0.0526, + "step": 136535 + }, + { + "epoch": 0.873856, + "grad_norm": 0.4908248484134674, + "learning_rate": 1.4174293333333335e-05, + "loss": 0.003, + "step": 136540 + }, + { + "epoch": 0.873888, + "grad_norm": 0.41573959589004517, + "learning_rate": 1.417408e-05, + "loss": 0.0056, + "step": 136545 + }, + { + "epoch": 0.87392, + "grad_norm": 0.7689516544342041, + "learning_rate": 1.4173866666666667e-05, + "loss": 0.0225, + "step": 136550 + }, + { + "epoch": 0.873952, + "grad_norm": 0.22038544714450836, + "learning_rate": 1.4173653333333334e-05, + "loss": 0.0107, + "step": 136555 + }, + { + "epoch": 0.873984, + "grad_norm": 0.41604363918304443, + "learning_rate": 1.417344e-05, + "loss": 0.0081, + "step": 136560 + }, + { + "epoch": 0.874016, + "grad_norm": 0.38057830929756165, + "learning_rate": 1.417322666666667e-05, + "loss": 0.0065, + "step": 136565 + }, + { + "epoch": 0.874048, + "grad_norm": 0.18142597377300262, + "learning_rate": 1.4173013333333333e-05, + "loss": 0.0063, + "step": 136570 + }, + { + "epoch": 0.87408, + "grad_norm": 3.4212372303009033, + "learning_rate": 1.4172800000000003e-05, + "loss": 0.0208, + "step": 136575 + }, + { + "epoch": 0.874112, + "grad_norm": 0.02138771116733551, + "learning_rate": 1.4172586666666668e-05, + "loss": 0.0047, + "step": 136580 + }, + { + "epoch": 0.874144, + "grad_norm": 0.03008793666958809, + "learning_rate": 1.4172373333333334e-05, + "loss": 0.002, + "step": 136585 + }, + { + "epoch": 0.874176, + "grad_norm": 0.9299227595329285, + "learning_rate": 1.4172160000000002e-05, + "loss": 0.0062, + "step": 136590 + }, + { + "epoch": 0.874208, + "grad_norm": 0.5838305950164795, + "learning_rate": 1.4171946666666668e-05, + "loss": 0.0067, + "step": 136595 + }, + { + "epoch": 0.87424, + "grad_norm": 0.0024532866664230824, + "learning_rate": 1.4171733333333335e-05, + "loss": 0.0067, + "step": 136600 + }, + { + "epoch": 0.874272, + "grad_norm": 1.4648436307907104, + "learning_rate": 1.4171520000000001e-05, + "loss": 0.0161, + "step": 136605 + }, + { + "epoch": 0.874304, + "grad_norm": 1.4236769676208496, + "learning_rate": 1.4171306666666669e-05, + "loss": 0.0141, + "step": 136610 + }, + { + "epoch": 0.874336, + "grad_norm": 0.47939765453338623, + "learning_rate": 1.4171093333333335e-05, + "loss": 0.0216, + "step": 136615 + }, + { + "epoch": 0.874368, + "grad_norm": 0.40516743063926697, + "learning_rate": 1.417088e-05, + "loss": 0.0212, + "step": 136620 + }, + { + "epoch": 0.8744, + "grad_norm": 0.3319215476512909, + "learning_rate": 1.4170666666666668e-05, + "loss": 0.0174, + "step": 136625 + }, + { + "epoch": 0.874432, + "grad_norm": 0.11482007801532745, + "learning_rate": 1.4170453333333334e-05, + "loss": 0.0111, + "step": 136630 + }, + { + "epoch": 0.874464, + "grad_norm": 0.6264771223068237, + "learning_rate": 1.4170240000000001e-05, + "loss": 0.0181, + "step": 136635 + }, + { + "epoch": 0.874496, + "grad_norm": 0.7555037140846252, + "learning_rate": 1.4170026666666667e-05, + "loss": 0.0042, + "step": 136640 + }, + { + "epoch": 0.874528, + "grad_norm": 0.7348320484161377, + "learning_rate": 1.4169813333333335e-05, + "loss": 0.007, + "step": 136645 + }, + { + "epoch": 0.87456, + "grad_norm": 0.11435466259717941, + "learning_rate": 1.41696e-05, + "loss": 0.0089, + "step": 136650 + }, + { + "epoch": 0.874592, + "grad_norm": 0.6993469595909119, + "learning_rate": 1.4169386666666667e-05, + "loss": 0.0076, + "step": 136655 + }, + { + "epoch": 0.874624, + "grad_norm": 0.10598921030759811, + "learning_rate": 1.4169173333333334e-05, + "loss": 0.0052, + "step": 136660 + }, + { + "epoch": 0.874656, + "grad_norm": 0.20295043289661407, + "learning_rate": 1.416896e-05, + "loss": 0.006, + "step": 136665 + }, + { + "epoch": 0.874688, + "grad_norm": 0.6088433861732483, + "learning_rate": 1.416874666666667e-05, + "loss": 0.0025, + "step": 136670 + }, + { + "epoch": 0.87472, + "grad_norm": 0.09831071645021439, + "learning_rate": 1.4168533333333333e-05, + "loss": 0.0034, + "step": 136675 + }, + { + "epoch": 0.874752, + "grad_norm": 0.5166862607002258, + "learning_rate": 1.4168320000000003e-05, + "loss": 0.0063, + "step": 136680 + }, + { + "epoch": 0.874784, + "grad_norm": 0.9062147736549377, + "learning_rate": 1.4168106666666668e-05, + "loss": 0.0121, + "step": 136685 + }, + { + "epoch": 0.874816, + "grad_norm": 0.4535267651081085, + "learning_rate": 1.4167893333333334e-05, + "loss": 0.0112, + "step": 136690 + }, + { + "epoch": 0.874848, + "grad_norm": 0.035243529826402664, + "learning_rate": 1.4167680000000002e-05, + "loss": 0.0109, + "step": 136695 + }, + { + "epoch": 0.87488, + "grad_norm": 0.03596468269824982, + "learning_rate": 1.4167466666666668e-05, + "loss": 0.0043, + "step": 136700 + }, + { + "epoch": 0.874912, + "grad_norm": 0.13913390040397644, + "learning_rate": 1.4167253333333335e-05, + "loss": 0.002, + "step": 136705 + }, + { + "epoch": 0.874944, + "grad_norm": 0.4415794610977173, + "learning_rate": 1.4167040000000001e-05, + "loss": 0.0381, + "step": 136710 + }, + { + "epoch": 0.874976, + "grad_norm": 0.015938738361001015, + "learning_rate": 1.4166826666666669e-05, + "loss": 0.0056, + "step": 136715 + }, + { + "epoch": 0.875008, + "grad_norm": 0.4960130751132965, + "learning_rate": 1.4166613333333335e-05, + "loss": 0.0089, + "step": 136720 + }, + { + "epoch": 0.87504, + "grad_norm": 0.45857828855514526, + "learning_rate": 1.41664e-05, + "loss": 0.0041, + "step": 136725 + }, + { + "epoch": 0.875072, + "grad_norm": 0.2363433539867401, + "learning_rate": 1.4166186666666668e-05, + "loss": 0.0098, + "step": 136730 + }, + { + "epoch": 0.875104, + "grad_norm": 0.6307287812232971, + "learning_rate": 1.4165973333333334e-05, + "loss": 0.0108, + "step": 136735 + }, + { + "epoch": 0.875136, + "grad_norm": 0.3560027778148651, + "learning_rate": 1.4165760000000001e-05, + "loss": 0.0045, + "step": 136740 + }, + { + "epoch": 0.875168, + "grad_norm": 0.2635282278060913, + "learning_rate": 1.4165546666666667e-05, + "loss": 0.0072, + "step": 136745 + }, + { + "epoch": 0.8752, + "grad_norm": 0.2399730086326599, + "learning_rate": 1.4165333333333335e-05, + "loss": 0.0131, + "step": 136750 + }, + { + "epoch": 0.875232, + "grad_norm": 0.038865819573402405, + "learning_rate": 1.416512e-05, + "loss": 0.0062, + "step": 136755 + }, + { + "epoch": 0.875264, + "grad_norm": 0.04371659457683563, + "learning_rate": 1.4164906666666667e-05, + "loss": 0.0058, + "step": 136760 + }, + { + "epoch": 0.875296, + "grad_norm": 0.5750172138214111, + "learning_rate": 1.4164693333333334e-05, + "loss": 0.0055, + "step": 136765 + }, + { + "epoch": 0.875328, + "grad_norm": 0.1501120924949646, + "learning_rate": 1.416448e-05, + "loss": 0.0016, + "step": 136770 + }, + { + "epoch": 0.87536, + "grad_norm": 0.1425834447145462, + "learning_rate": 1.416426666666667e-05, + "loss": 0.0101, + "step": 136775 + }, + { + "epoch": 0.875392, + "grad_norm": 0.579079806804657, + "learning_rate": 1.4164053333333333e-05, + "loss": 0.008, + "step": 136780 + }, + { + "epoch": 0.875424, + "grad_norm": 0.3872576057910919, + "learning_rate": 1.4163840000000003e-05, + "loss": 0.0081, + "step": 136785 + }, + { + "epoch": 0.875456, + "grad_norm": 0.7291061282157898, + "learning_rate": 1.4163626666666668e-05, + "loss": 0.0119, + "step": 136790 + }, + { + "epoch": 0.875488, + "grad_norm": 0.4715783894062042, + "learning_rate": 1.4163413333333333e-05, + "loss": 0.0093, + "step": 136795 + }, + { + "epoch": 0.87552, + "grad_norm": 0.04245011508464813, + "learning_rate": 1.4163200000000002e-05, + "loss": 0.0102, + "step": 136800 + }, + { + "epoch": 0.875552, + "grad_norm": 1.3132447004318237, + "learning_rate": 1.4162986666666668e-05, + "loss": 0.0059, + "step": 136805 + }, + { + "epoch": 0.875584, + "grad_norm": 0.04476405307650566, + "learning_rate": 1.4162773333333335e-05, + "loss": 0.0079, + "step": 136810 + }, + { + "epoch": 0.875616, + "grad_norm": 0.18632850050926208, + "learning_rate": 1.4162560000000001e-05, + "loss": 0.0028, + "step": 136815 + }, + { + "epoch": 0.875648, + "grad_norm": 0.4893247187137604, + "learning_rate": 1.4162346666666669e-05, + "loss": 0.005, + "step": 136820 + }, + { + "epoch": 0.87568, + "grad_norm": 0.28275066614151, + "learning_rate": 1.4162133333333335e-05, + "loss": 0.0062, + "step": 136825 + }, + { + "epoch": 0.875712, + "grad_norm": 1.6728821992874146, + "learning_rate": 1.416192e-05, + "loss": 0.0136, + "step": 136830 + }, + { + "epoch": 0.875744, + "grad_norm": 0.34084001183509827, + "learning_rate": 1.4161706666666668e-05, + "loss": 0.0111, + "step": 136835 + }, + { + "epoch": 0.875776, + "grad_norm": 0.9939183592796326, + "learning_rate": 1.4161493333333334e-05, + "loss": 0.016, + "step": 136840 + }, + { + "epoch": 0.875808, + "grad_norm": 0.015596391633152962, + "learning_rate": 1.4161280000000001e-05, + "loss": 0.0037, + "step": 136845 + }, + { + "epoch": 0.87584, + "grad_norm": 0.04992038011550903, + "learning_rate": 1.4161066666666667e-05, + "loss": 0.0024, + "step": 136850 + }, + { + "epoch": 0.875872, + "grad_norm": 0.0658915787935257, + "learning_rate": 1.4160853333333335e-05, + "loss": 0.0289, + "step": 136855 + }, + { + "epoch": 0.875904, + "grad_norm": 5.697136878967285, + "learning_rate": 1.416064e-05, + "loss": 0.0067, + "step": 136860 + }, + { + "epoch": 0.875936, + "grad_norm": 0.35006484389305115, + "learning_rate": 1.4160426666666667e-05, + "loss": 0.0015, + "step": 136865 + }, + { + "epoch": 0.875968, + "grad_norm": 3.6079952716827393, + "learning_rate": 1.4160213333333334e-05, + "loss": 0.0089, + "step": 136870 + }, + { + "epoch": 0.876, + "grad_norm": 0.8465691804885864, + "learning_rate": 1.416e-05, + "loss": 0.0038, + "step": 136875 + }, + { + "epoch": 0.876032, + "grad_norm": 0.14879848062992096, + "learning_rate": 1.4159786666666668e-05, + "loss": 0.0038, + "step": 136880 + }, + { + "epoch": 0.876064, + "grad_norm": 0.028881458565592766, + "learning_rate": 1.4159573333333333e-05, + "loss": 0.0085, + "step": 136885 + }, + { + "epoch": 0.876096, + "grad_norm": 0.12301254272460938, + "learning_rate": 1.4159360000000003e-05, + "loss": 0.0069, + "step": 136890 + }, + { + "epoch": 0.876128, + "grad_norm": 0.0722513198852539, + "learning_rate": 1.4159146666666668e-05, + "loss": 0.0015, + "step": 136895 + }, + { + "epoch": 0.87616, + "grad_norm": 0.8658611178398132, + "learning_rate": 1.4158933333333333e-05, + "loss": 0.0067, + "step": 136900 + }, + { + "epoch": 0.876192, + "grad_norm": 0.7351348400115967, + "learning_rate": 1.4158720000000002e-05, + "loss": 0.0071, + "step": 136905 + }, + { + "epoch": 0.876224, + "grad_norm": 5.597710609436035, + "learning_rate": 1.4158506666666668e-05, + "loss": 0.0411, + "step": 136910 + }, + { + "epoch": 0.876256, + "grad_norm": 0.11370193958282471, + "learning_rate": 1.4158293333333335e-05, + "loss": 0.0069, + "step": 136915 + }, + { + "epoch": 0.876288, + "grad_norm": 0.6727312207221985, + "learning_rate": 1.4158080000000001e-05, + "loss": 0.0134, + "step": 136920 + }, + { + "epoch": 0.87632, + "grad_norm": 0.08895892649888992, + "learning_rate": 1.4157866666666669e-05, + "loss": 0.0046, + "step": 136925 + }, + { + "epoch": 0.876352, + "grad_norm": 0.05719563364982605, + "learning_rate": 1.4157653333333335e-05, + "loss": 0.0081, + "step": 136930 + }, + { + "epoch": 0.876384, + "grad_norm": 0.06286269426345825, + "learning_rate": 1.415744e-05, + "loss": 0.0045, + "step": 136935 + }, + { + "epoch": 0.876416, + "grad_norm": 0.1394195705652237, + "learning_rate": 1.4157226666666668e-05, + "loss": 0.0038, + "step": 136940 + }, + { + "epoch": 0.876448, + "grad_norm": 0.21846574544906616, + "learning_rate": 1.4157013333333334e-05, + "loss": 0.0024, + "step": 136945 + }, + { + "epoch": 0.87648, + "grad_norm": 1.0114041566848755, + "learning_rate": 1.4156800000000001e-05, + "loss": 0.0078, + "step": 136950 + }, + { + "epoch": 0.876512, + "grad_norm": 0.17139317095279694, + "learning_rate": 1.4156586666666667e-05, + "loss": 0.0029, + "step": 136955 + }, + { + "epoch": 0.876544, + "grad_norm": 0.6967904567718506, + "learning_rate": 1.4156373333333335e-05, + "loss": 0.019, + "step": 136960 + }, + { + "epoch": 0.876576, + "grad_norm": 0.6877383589744568, + "learning_rate": 1.415616e-05, + "loss": 0.0076, + "step": 136965 + }, + { + "epoch": 0.876608, + "grad_norm": 0.19739022850990295, + "learning_rate": 1.4155946666666667e-05, + "loss": 0.0046, + "step": 136970 + }, + { + "epoch": 0.87664, + "grad_norm": 0.30279025435447693, + "learning_rate": 1.4155733333333334e-05, + "loss": 0.0151, + "step": 136975 + }, + { + "epoch": 0.876672, + "grad_norm": 1.461540937423706, + "learning_rate": 1.415552e-05, + "loss": 0.0149, + "step": 136980 + }, + { + "epoch": 0.876704, + "grad_norm": 0.10405422002077103, + "learning_rate": 1.4155306666666668e-05, + "loss": 0.0083, + "step": 136985 + }, + { + "epoch": 0.876736, + "grad_norm": 0.6804608702659607, + "learning_rate": 1.4155093333333333e-05, + "loss": 0.016, + "step": 136990 + }, + { + "epoch": 0.876768, + "grad_norm": 1.152012825012207, + "learning_rate": 1.4154880000000003e-05, + "loss": 0.0107, + "step": 136995 + }, + { + "epoch": 0.8768, + "grad_norm": 0.4441065192222595, + "learning_rate": 1.4154666666666668e-05, + "loss": 0.0106, + "step": 137000 + }, + { + "epoch": 0.876832, + "grad_norm": 0.08133412897586823, + "learning_rate": 1.4154453333333336e-05, + "loss": 0.0032, + "step": 137005 + }, + { + "epoch": 0.876864, + "grad_norm": 0.06647203117609024, + "learning_rate": 1.4154240000000002e-05, + "loss": 0.0032, + "step": 137010 + }, + { + "epoch": 0.876896, + "grad_norm": 0.16463525593280792, + "learning_rate": 1.4154026666666668e-05, + "loss": 0.0048, + "step": 137015 + }, + { + "epoch": 0.876928, + "grad_norm": 0.03888971731066704, + "learning_rate": 1.4153813333333335e-05, + "loss": 0.0083, + "step": 137020 + }, + { + "epoch": 0.87696, + "grad_norm": 0.03527893126010895, + "learning_rate": 1.4153600000000001e-05, + "loss": 0.002, + "step": 137025 + }, + { + "epoch": 0.876992, + "grad_norm": 0.43156304955482483, + "learning_rate": 1.4153386666666669e-05, + "loss": 0.0064, + "step": 137030 + }, + { + "epoch": 0.877024, + "grad_norm": 0.14218907058238983, + "learning_rate": 1.4153173333333335e-05, + "loss": 0.0031, + "step": 137035 + }, + { + "epoch": 0.877056, + "grad_norm": 0.043957892805337906, + "learning_rate": 1.4152960000000002e-05, + "loss": 0.0051, + "step": 137040 + }, + { + "epoch": 0.877088, + "grad_norm": 0.6770702004432678, + "learning_rate": 1.4152746666666668e-05, + "loss": 0.0043, + "step": 137045 + }, + { + "epoch": 0.87712, + "grad_norm": 0.06446392089128494, + "learning_rate": 1.4152533333333334e-05, + "loss": 0.0049, + "step": 137050 + }, + { + "epoch": 0.877152, + "grad_norm": 0.6272082328796387, + "learning_rate": 1.4152320000000001e-05, + "loss": 0.0082, + "step": 137055 + }, + { + "epoch": 0.877184, + "grad_norm": 0.22465336322784424, + "learning_rate": 1.4152106666666667e-05, + "loss": 0.0118, + "step": 137060 + }, + { + "epoch": 0.877216, + "grad_norm": 0.07815232127904892, + "learning_rate": 1.4151893333333335e-05, + "loss": 0.014, + "step": 137065 + }, + { + "epoch": 0.877248, + "grad_norm": 0.5293207764625549, + "learning_rate": 1.415168e-05, + "loss": 0.0037, + "step": 137070 + }, + { + "epoch": 0.87728, + "grad_norm": 0.2278733253479004, + "learning_rate": 1.4151466666666668e-05, + "loss": 0.0029, + "step": 137075 + }, + { + "epoch": 0.877312, + "grad_norm": 0.07680628448724747, + "learning_rate": 1.4151253333333334e-05, + "loss": 0.0039, + "step": 137080 + }, + { + "epoch": 0.877344, + "grad_norm": 0.0184880830347538, + "learning_rate": 1.415104e-05, + "loss": 0.0038, + "step": 137085 + }, + { + "epoch": 0.877376, + "grad_norm": 0.17181533575057983, + "learning_rate": 1.4150826666666668e-05, + "loss": 0.0039, + "step": 137090 + }, + { + "epoch": 0.877408, + "grad_norm": 1.021682858467102, + "learning_rate": 1.4150613333333333e-05, + "loss": 0.013, + "step": 137095 + }, + { + "epoch": 0.87744, + "grad_norm": 0.8776119351387024, + "learning_rate": 1.4150400000000003e-05, + "loss": 0.0086, + "step": 137100 + }, + { + "epoch": 0.877472, + "grad_norm": 0.6657366156578064, + "learning_rate": 1.4150186666666667e-05, + "loss": 0.0175, + "step": 137105 + }, + { + "epoch": 0.877504, + "grad_norm": 0.8996539115905762, + "learning_rate": 1.4149973333333336e-05, + "loss": 0.0141, + "step": 137110 + }, + { + "epoch": 0.877536, + "grad_norm": 0.26216351985931396, + "learning_rate": 1.4149760000000002e-05, + "loss": 0.0033, + "step": 137115 + }, + { + "epoch": 0.877568, + "grad_norm": 0.275781512260437, + "learning_rate": 1.4149546666666668e-05, + "loss": 0.0036, + "step": 137120 + }, + { + "epoch": 0.8776, + "grad_norm": 0.29188793897628784, + "learning_rate": 1.4149333333333335e-05, + "loss": 0.0101, + "step": 137125 + }, + { + "epoch": 0.877632, + "grad_norm": 0.053764935582876205, + "learning_rate": 1.4149120000000001e-05, + "loss": 0.0044, + "step": 137130 + }, + { + "epoch": 0.877664, + "grad_norm": 0.07402551174163818, + "learning_rate": 1.4148906666666669e-05, + "loss": 0.0071, + "step": 137135 + }, + { + "epoch": 0.877696, + "grad_norm": 1.1662636995315552, + "learning_rate": 1.4148693333333335e-05, + "loss": 0.0173, + "step": 137140 + }, + { + "epoch": 0.877728, + "grad_norm": 1.7300424575805664, + "learning_rate": 1.4148480000000002e-05, + "loss": 0.0134, + "step": 137145 + }, + { + "epoch": 0.87776, + "grad_norm": 0.36585989594459534, + "learning_rate": 1.4148266666666668e-05, + "loss": 0.0088, + "step": 137150 + }, + { + "epoch": 0.877792, + "grad_norm": 0.7995486259460449, + "learning_rate": 1.4148053333333334e-05, + "loss": 0.0151, + "step": 137155 + }, + { + "epoch": 0.877824, + "grad_norm": 0.6880020499229431, + "learning_rate": 1.4147840000000001e-05, + "loss": 0.0068, + "step": 137160 + }, + { + "epoch": 0.877856, + "grad_norm": 0.3700893521308899, + "learning_rate": 1.4147626666666667e-05, + "loss": 0.0068, + "step": 137165 + }, + { + "epoch": 0.877888, + "grad_norm": 1.0758229494094849, + "learning_rate": 1.4147413333333335e-05, + "loss": 0.014, + "step": 137170 + }, + { + "epoch": 0.87792, + "grad_norm": 0.7161966562271118, + "learning_rate": 1.41472e-05, + "loss": 0.0102, + "step": 137175 + }, + { + "epoch": 0.877952, + "grad_norm": 0.6015088558197021, + "learning_rate": 1.4146986666666668e-05, + "loss": 0.0066, + "step": 137180 + }, + { + "epoch": 0.877984, + "grad_norm": 0.024257423356175423, + "learning_rate": 1.4146773333333334e-05, + "loss": 0.0047, + "step": 137185 + }, + { + "epoch": 0.878016, + "grad_norm": 0.06013249233365059, + "learning_rate": 1.414656e-05, + "loss": 0.043, + "step": 137190 + }, + { + "epoch": 0.878048, + "grad_norm": 0.6033496856689453, + "learning_rate": 1.4146346666666668e-05, + "loss": 0.0139, + "step": 137195 + }, + { + "epoch": 0.87808, + "grad_norm": 1.2187855243682861, + "learning_rate": 1.4146133333333333e-05, + "loss": 0.0111, + "step": 137200 + }, + { + "epoch": 0.878112, + "grad_norm": 0.14909644424915314, + "learning_rate": 1.4145920000000003e-05, + "loss": 0.0141, + "step": 137205 + }, + { + "epoch": 0.878144, + "grad_norm": 0.8526590466499329, + "learning_rate": 1.4145706666666667e-05, + "loss": 0.008, + "step": 137210 + }, + { + "epoch": 0.878176, + "grad_norm": 0.26302286982536316, + "learning_rate": 1.4145493333333336e-05, + "loss": 0.0121, + "step": 137215 + }, + { + "epoch": 0.878208, + "grad_norm": 0.5933674573898315, + "learning_rate": 1.4145280000000002e-05, + "loss": 0.003, + "step": 137220 + }, + { + "epoch": 0.87824, + "grad_norm": 0.9264507293701172, + "learning_rate": 1.4145066666666668e-05, + "loss": 0.016, + "step": 137225 + }, + { + "epoch": 0.878272, + "grad_norm": 0.3285927474498749, + "learning_rate": 1.4144853333333335e-05, + "loss": 0.0086, + "step": 137230 + }, + { + "epoch": 0.878304, + "grad_norm": 0.14147567749023438, + "learning_rate": 1.4144640000000001e-05, + "loss": 0.0037, + "step": 137235 + }, + { + "epoch": 0.878336, + "grad_norm": 0.542803943157196, + "learning_rate": 1.4144426666666669e-05, + "loss": 0.0045, + "step": 137240 + }, + { + "epoch": 0.878368, + "grad_norm": 0.19005483388900757, + "learning_rate": 1.4144213333333335e-05, + "loss": 0.0062, + "step": 137245 + }, + { + "epoch": 0.8784, + "grad_norm": 0.3909550905227661, + "learning_rate": 1.4144000000000002e-05, + "loss": 0.0141, + "step": 137250 + }, + { + "epoch": 0.878432, + "grad_norm": 0.6709725856781006, + "learning_rate": 1.4143786666666668e-05, + "loss": 0.024, + "step": 137255 + }, + { + "epoch": 0.878464, + "grad_norm": 0.1849251091480255, + "learning_rate": 1.4143573333333334e-05, + "loss": 0.0043, + "step": 137260 + }, + { + "epoch": 0.878496, + "grad_norm": 0.17292779684066772, + "learning_rate": 1.4143360000000001e-05, + "loss": 0.0087, + "step": 137265 + }, + { + "epoch": 0.878528, + "grad_norm": 0.7381962537765503, + "learning_rate": 1.4143146666666667e-05, + "loss": 0.005, + "step": 137270 + }, + { + "epoch": 0.87856, + "grad_norm": 0.25592830777168274, + "learning_rate": 1.4142933333333335e-05, + "loss": 0.0038, + "step": 137275 + }, + { + "epoch": 0.878592, + "grad_norm": 0.045609746128320694, + "learning_rate": 1.414272e-05, + "loss": 0.0037, + "step": 137280 + }, + { + "epoch": 0.878624, + "grad_norm": 0.0478990264236927, + "learning_rate": 1.4142506666666668e-05, + "loss": 0.012, + "step": 137285 + }, + { + "epoch": 0.878656, + "grad_norm": 1.8384068012237549, + "learning_rate": 1.4142293333333334e-05, + "loss": 0.0143, + "step": 137290 + }, + { + "epoch": 0.878688, + "grad_norm": 0.20651735365390778, + "learning_rate": 1.414208e-05, + "loss": 0.0179, + "step": 137295 + }, + { + "epoch": 0.87872, + "grad_norm": 0.34665676951408386, + "learning_rate": 1.4141866666666668e-05, + "loss": 0.0085, + "step": 137300 + }, + { + "epoch": 0.878752, + "grad_norm": 0.8055539727210999, + "learning_rate": 1.4141653333333333e-05, + "loss": 0.0063, + "step": 137305 + }, + { + "epoch": 0.878784, + "grad_norm": 1.0140845775604248, + "learning_rate": 1.4141440000000003e-05, + "loss": 0.0077, + "step": 137310 + }, + { + "epoch": 0.878816, + "grad_norm": 0.5239374041557312, + "learning_rate": 1.4141226666666667e-05, + "loss": 0.0054, + "step": 137315 + }, + { + "epoch": 0.878848, + "grad_norm": 0.3948138654232025, + "learning_rate": 1.4141013333333336e-05, + "loss": 0.0049, + "step": 137320 + }, + { + "epoch": 0.87888, + "grad_norm": 0.03039948083460331, + "learning_rate": 1.4140800000000002e-05, + "loss": 0.0115, + "step": 137325 + }, + { + "epoch": 0.878912, + "grad_norm": 0.46123746037483215, + "learning_rate": 1.4140586666666666e-05, + "loss": 0.0042, + "step": 137330 + }, + { + "epoch": 0.878944, + "grad_norm": 0.0258139967918396, + "learning_rate": 1.4140373333333335e-05, + "loss": 0.006, + "step": 137335 + }, + { + "epoch": 0.878976, + "grad_norm": 0.27507221698760986, + "learning_rate": 1.4140160000000001e-05, + "loss": 0.0118, + "step": 137340 + }, + { + "epoch": 0.879008, + "grad_norm": 0.3680954873561859, + "learning_rate": 1.4139946666666669e-05, + "loss": 0.0171, + "step": 137345 + }, + { + "epoch": 0.87904, + "grad_norm": 1.023386001586914, + "learning_rate": 1.4139733333333335e-05, + "loss": 0.0123, + "step": 137350 + }, + { + "epoch": 0.879072, + "grad_norm": 0.8107451796531677, + "learning_rate": 1.4139520000000002e-05, + "loss": 0.0091, + "step": 137355 + }, + { + "epoch": 0.879104, + "grad_norm": 2.2115519046783447, + "learning_rate": 1.4139306666666668e-05, + "loss": 0.0165, + "step": 137360 + }, + { + "epoch": 0.879136, + "grad_norm": 0.04585372656583786, + "learning_rate": 1.4139093333333334e-05, + "loss": 0.0054, + "step": 137365 + }, + { + "epoch": 0.879168, + "grad_norm": 0.4896838665008545, + "learning_rate": 1.4138880000000001e-05, + "loss": 0.0067, + "step": 137370 + }, + { + "epoch": 0.8792, + "grad_norm": 0.8937468528747559, + "learning_rate": 1.4138666666666667e-05, + "loss": 0.0063, + "step": 137375 + }, + { + "epoch": 0.879232, + "grad_norm": 0.09879802912473679, + "learning_rate": 1.4138453333333335e-05, + "loss": 0.016, + "step": 137380 + }, + { + "epoch": 0.879264, + "grad_norm": 0.827857494354248, + "learning_rate": 1.413824e-05, + "loss": 0.0107, + "step": 137385 + }, + { + "epoch": 0.879296, + "grad_norm": 0.4155958592891693, + "learning_rate": 1.4138026666666668e-05, + "loss": 0.0043, + "step": 137390 + }, + { + "epoch": 0.879328, + "grad_norm": 0.030179468914866447, + "learning_rate": 1.4137813333333334e-05, + "loss": 0.0045, + "step": 137395 + }, + { + "epoch": 0.87936, + "grad_norm": 0.1995628923177719, + "learning_rate": 1.41376e-05, + "loss": 0.0058, + "step": 137400 + }, + { + "epoch": 0.879392, + "grad_norm": 0.092027448117733, + "learning_rate": 1.4137386666666668e-05, + "loss": 0.0041, + "step": 137405 + }, + { + "epoch": 0.879424, + "grad_norm": 0.01766621321439743, + "learning_rate": 1.4137173333333333e-05, + "loss": 0.0047, + "step": 137410 + }, + { + "epoch": 0.879456, + "grad_norm": 0.18489201366901398, + "learning_rate": 1.4136960000000003e-05, + "loss": 0.0131, + "step": 137415 + }, + { + "epoch": 0.879488, + "grad_norm": 0.18606287240982056, + "learning_rate": 1.4136746666666667e-05, + "loss": 0.0061, + "step": 137420 + }, + { + "epoch": 0.87952, + "grad_norm": 0.8748886585235596, + "learning_rate": 1.4136533333333336e-05, + "loss": 0.0097, + "step": 137425 + }, + { + "epoch": 0.879552, + "grad_norm": 0.089540995657444, + "learning_rate": 1.4136320000000002e-05, + "loss": 0.0016, + "step": 137430 + }, + { + "epoch": 0.879584, + "grad_norm": 0.12087443470954895, + "learning_rate": 1.4136106666666666e-05, + "loss": 0.0026, + "step": 137435 + }, + { + "epoch": 0.879616, + "grad_norm": 0.6167957186698914, + "learning_rate": 1.4135893333333335e-05, + "loss": 0.0088, + "step": 137440 + }, + { + "epoch": 0.879648, + "grad_norm": 0.15489909052848816, + "learning_rate": 1.4135680000000001e-05, + "loss": 0.0095, + "step": 137445 + }, + { + "epoch": 0.87968, + "grad_norm": 1.7493849992752075, + "learning_rate": 1.4135466666666669e-05, + "loss": 0.0225, + "step": 137450 + }, + { + "epoch": 0.879712, + "grad_norm": 0.1591162383556366, + "learning_rate": 1.4135253333333335e-05, + "loss": 0.0057, + "step": 137455 + }, + { + "epoch": 0.879744, + "grad_norm": 0.04271388798952103, + "learning_rate": 1.4135040000000002e-05, + "loss": 0.0156, + "step": 137460 + }, + { + "epoch": 0.879776, + "grad_norm": 0.2939682602882385, + "learning_rate": 1.4134826666666668e-05, + "loss": 0.0061, + "step": 137465 + }, + { + "epoch": 0.879808, + "grad_norm": 0.014464055188000202, + "learning_rate": 1.4134613333333334e-05, + "loss": 0.0245, + "step": 137470 + }, + { + "epoch": 0.87984, + "grad_norm": 0.2874290943145752, + "learning_rate": 1.4134400000000001e-05, + "loss": 0.0015, + "step": 137475 + }, + { + "epoch": 0.879872, + "grad_norm": 0.3054380714893341, + "learning_rate": 1.4134186666666667e-05, + "loss": 0.012, + "step": 137480 + }, + { + "epoch": 0.879904, + "grad_norm": 0.055802542716264725, + "learning_rate": 1.4133973333333335e-05, + "loss": 0.0108, + "step": 137485 + }, + { + "epoch": 0.879936, + "grad_norm": 0.2151336967945099, + "learning_rate": 1.413376e-05, + "loss": 0.0126, + "step": 137490 + }, + { + "epoch": 0.879968, + "grad_norm": 0.08094816654920578, + "learning_rate": 1.4133546666666668e-05, + "loss": 0.0322, + "step": 137495 + }, + { + "epoch": 0.88, + "grad_norm": 0.8687599301338196, + "learning_rate": 1.4133333333333334e-05, + "loss": 0.0119, + "step": 137500 + }, + { + "epoch": 0.880032, + "grad_norm": 0.3630181849002838, + "learning_rate": 1.413312e-05, + "loss": 0.0034, + "step": 137505 + }, + { + "epoch": 0.880064, + "grad_norm": 0.89314866065979, + "learning_rate": 1.4132906666666668e-05, + "loss": 0.0085, + "step": 137510 + }, + { + "epoch": 0.880096, + "grad_norm": 0.26678377389907837, + "learning_rate": 1.4132693333333333e-05, + "loss": 0.0048, + "step": 137515 + }, + { + "epoch": 0.880128, + "grad_norm": 0.02031431533396244, + "learning_rate": 1.4132480000000001e-05, + "loss": 0.0037, + "step": 137520 + }, + { + "epoch": 0.88016, + "grad_norm": 0.20373564958572388, + "learning_rate": 1.4132266666666667e-05, + "loss": 0.0016, + "step": 137525 + }, + { + "epoch": 0.880192, + "grad_norm": 2.005516290664673, + "learning_rate": 1.4132053333333336e-05, + "loss": 0.0106, + "step": 137530 + }, + { + "epoch": 0.880224, + "grad_norm": 0.07509846985340118, + "learning_rate": 1.4131840000000002e-05, + "loss": 0.0082, + "step": 137535 + }, + { + "epoch": 0.880256, + "grad_norm": 0.30219656229019165, + "learning_rate": 1.4131626666666666e-05, + "loss": 0.0017, + "step": 137540 + }, + { + "epoch": 0.880288, + "grad_norm": 0.029897913336753845, + "learning_rate": 1.4131413333333335e-05, + "loss": 0.0085, + "step": 137545 + }, + { + "epoch": 0.88032, + "grad_norm": 0.9920833110809326, + "learning_rate": 1.4131200000000001e-05, + "loss": 0.0106, + "step": 137550 + }, + { + "epoch": 0.880352, + "grad_norm": 0.021082421764731407, + "learning_rate": 1.4130986666666669e-05, + "loss": 0.0182, + "step": 137555 + }, + { + "epoch": 0.880384, + "grad_norm": 0.03213435411453247, + "learning_rate": 1.4130773333333335e-05, + "loss": 0.0114, + "step": 137560 + }, + { + "epoch": 0.880416, + "grad_norm": 0.19767463207244873, + "learning_rate": 1.4130560000000002e-05, + "loss": 0.0039, + "step": 137565 + }, + { + "epoch": 0.880448, + "grad_norm": 0.07769718766212463, + "learning_rate": 1.4130346666666668e-05, + "loss": 0.0122, + "step": 137570 + }, + { + "epoch": 0.88048, + "grad_norm": 0.15496814250946045, + "learning_rate": 1.4130133333333334e-05, + "loss": 0.0053, + "step": 137575 + }, + { + "epoch": 0.880512, + "grad_norm": 1.481798529624939, + "learning_rate": 1.4129920000000001e-05, + "loss": 0.0046, + "step": 137580 + }, + { + "epoch": 0.880544, + "grad_norm": 0.4750698506832123, + "learning_rate": 1.4129706666666667e-05, + "loss": 0.0078, + "step": 137585 + }, + { + "epoch": 0.880576, + "grad_norm": 0.7014608979225159, + "learning_rate": 1.4129493333333335e-05, + "loss": 0.0269, + "step": 137590 + }, + { + "epoch": 0.880608, + "grad_norm": 0.821219801902771, + "learning_rate": 1.412928e-05, + "loss": 0.0073, + "step": 137595 + }, + { + "epoch": 0.88064, + "grad_norm": 0.133886456489563, + "learning_rate": 1.4129066666666668e-05, + "loss": 0.011, + "step": 137600 + }, + { + "epoch": 0.880672, + "grad_norm": 0.8433400392532349, + "learning_rate": 1.4128853333333334e-05, + "loss": 0.0188, + "step": 137605 + }, + { + "epoch": 0.880704, + "grad_norm": 0.06442667543888092, + "learning_rate": 1.412864e-05, + "loss": 0.0174, + "step": 137610 + }, + { + "epoch": 0.880736, + "grad_norm": 0.15652857720851898, + "learning_rate": 1.4128426666666668e-05, + "loss": 0.0087, + "step": 137615 + }, + { + "epoch": 0.880768, + "grad_norm": 0.4896083474159241, + "learning_rate": 1.4128213333333333e-05, + "loss": 0.0089, + "step": 137620 + }, + { + "epoch": 0.8808, + "grad_norm": 1.0760166645050049, + "learning_rate": 1.4128000000000001e-05, + "loss": 0.0146, + "step": 137625 + }, + { + "epoch": 0.880832, + "grad_norm": 1.1631947755813599, + "learning_rate": 1.4127786666666667e-05, + "loss": 0.0061, + "step": 137630 + }, + { + "epoch": 0.880864, + "grad_norm": 0.6860594153404236, + "learning_rate": 1.4127573333333336e-05, + "loss": 0.0113, + "step": 137635 + }, + { + "epoch": 0.880896, + "grad_norm": 0.16492344439029694, + "learning_rate": 1.4127360000000002e-05, + "loss": 0.0029, + "step": 137640 + }, + { + "epoch": 0.880928, + "grad_norm": 0.008438179269433022, + "learning_rate": 1.4127146666666666e-05, + "loss": 0.0034, + "step": 137645 + }, + { + "epoch": 0.88096, + "grad_norm": 0.0883539617061615, + "learning_rate": 1.4126933333333335e-05, + "loss": 0.0016, + "step": 137650 + }, + { + "epoch": 0.880992, + "grad_norm": 0.5713666081428528, + "learning_rate": 1.4126720000000001e-05, + "loss": 0.0047, + "step": 137655 + }, + { + "epoch": 0.881024, + "grad_norm": 0.08638536185026169, + "learning_rate": 1.4126506666666669e-05, + "loss": 0.0061, + "step": 137660 + }, + { + "epoch": 0.881056, + "grad_norm": 0.02646552212536335, + "learning_rate": 1.4126293333333335e-05, + "loss": 0.009, + "step": 137665 + }, + { + "epoch": 0.881088, + "grad_norm": 0.5732012987136841, + "learning_rate": 1.4126080000000002e-05, + "loss": 0.0023, + "step": 137670 + }, + { + "epoch": 0.88112, + "grad_norm": 0.048574138432741165, + "learning_rate": 1.4125866666666668e-05, + "loss": 0.0095, + "step": 137675 + }, + { + "epoch": 0.881152, + "grad_norm": 0.8383035659790039, + "learning_rate": 1.4125653333333334e-05, + "loss": 0.0073, + "step": 137680 + }, + { + "epoch": 0.881184, + "grad_norm": 0.9976698160171509, + "learning_rate": 1.4125440000000001e-05, + "loss": 0.0086, + "step": 137685 + }, + { + "epoch": 0.881216, + "grad_norm": 0.3987838923931122, + "learning_rate": 1.4125226666666667e-05, + "loss": 0.003, + "step": 137690 + }, + { + "epoch": 0.881248, + "grad_norm": 1.201916217803955, + "learning_rate": 1.4125013333333335e-05, + "loss": 0.0117, + "step": 137695 + }, + { + "epoch": 0.88128, + "grad_norm": 0.6513596177101135, + "learning_rate": 1.41248e-05, + "loss": 0.0078, + "step": 137700 + }, + { + "epoch": 0.881312, + "grad_norm": 0.10594703257083893, + "learning_rate": 1.4124586666666668e-05, + "loss": 0.0054, + "step": 137705 + }, + { + "epoch": 0.881344, + "grad_norm": 0.06887974590063095, + "learning_rate": 1.4124373333333334e-05, + "loss": 0.0097, + "step": 137710 + }, + { + "epoch": 0.881376, + "grad_norm": 0.14094842970371246, + "learning_rate": 1.412416e-05, + "loss": 0.0058, + "step": 137715 + }, + { + "epoch": 0.881408, + "grad_norm": 0.09354089945554733, + "learning_rate": 1.4123946666666668e-05, + "loss": 0.0075, + "step": 137720 + }, + { + "epoch": 0.88144, + "grad_norm": 0.008243367075920105, + "learning_rate": 1.4123733333333333e-05, + "loss": 0.0021, + "step": 137725 + }, + { + "epoch": 0.881472, + "grad_norm": 0.3618675768375397, + "learning_rate": 1.4123520000000001e-05, + "loss": 0.0031, + "step": 137730 + }, + { + "epoch": 0.881504, + "grad_norm": 0.7978367209434509, + "learning_rate": 1.4123306666666667e-05, + "loss": 0.0042, + "step": 137735 + }, + { + "epoch": 0.881536, + "grad_norm": 0.463571161031723, + "learning_rate": 1.4123093333333336e-05, + "loss": 0.0082, + "step": 137740 + }, + { + "epoch": 0.881568, + "grad_norm": 0.043441176414489746, + "learning_rate": 1.412288e-05, + "loss": 0.0022, + "step": 137745 + }, + { + "epoch": 0.8816, + "grad_norm": 0.08992621302604675, + "learning_rate": 1.4122666666666666e-05, + "loss": 0.0106, + "step": 137750 + }, + { + "epoch": 0.881632, + "grad_norm": 0.23479436337947845, + "learning_rate": 1.4122453333333335e-05, + "loss": 0.0042, + "step": 137755 + }, + { + "epoch": 0.881664, + "grad_norm": 0.3740096390247345, + "learning_rate": 1.4122240000000001e-05, + "loss": 0.005, + "step": 137760 + }, + { + "epoch": 0.881696, + "grad_norm": 0.08333820104598999, + "learning_rate": 1.4122026666666669e-05, + "loss": 0.0125, + "step": 137765 + }, + { + "epoch": 0.881728, + "grad_norm": 0.9081824421882629, + "learning_rate": 1.4121813333333335e-05, + "loss": 0.0101, + "step": 137770 + }, + { + "epoch": 0.88176, + "grad_norm": 0.039974670857191086, + "learning_rate": 1.4121600000000002e-05, + "loss": 0.003, + "step": 137775 + }, + { + "epoch": 0.881792, + "grad_norm": 0.41212910413742065, + "learning_rate": 1.4121386666666668e-05, + "loss": 0.0065, + "step": 137780 + }, + { + "epoch": 0.881824, + "grad_norm": 0.1679432988166809, + "learning_rate": 1.4121173333333334e-05, + "loss": 0.0024, + "step": 137785 + }, + { + "epoch": 0.881856, + "grad_norm": 0.3045665919780731, + "learning_rate": 1.4120960000000001e-05, + "loss": 0.0023, + "step": 137790 + }, + { + "epoch": 0.881888, + "grad_norm": 0.14515145123004913, + "learning_rate": 1.4120746666666667e-05, + "loss": 0.0037, + "step": 137795 + }, + { + "epoch": 0.88192, + "grad_norm": 0.384056031703949, + "learning_rate": 1.4120533333333335e-05, + "loss": 0.0038, + "step": 137800 + }, + { + "epoch": 0.881952, + "grad_norm": 0.003463819157332182, + "learning_rate": 1.412032e-05, + "loss": 0.0136, + "step": 137805 + }, + { + "epoch": 0.881984, + "grad_norm": 0.16336803138256073, + "learning_rate": 1.4120106666666668e-05, + "loss": 0.0026, + "step": 137810 + }, + { + "epoch": 0.882016, + "grad_norm": 0.33956319093704224, + "learning_rate": 1.4119893333333334e-05, + "loss": 0.0191, + "step": 137815 + }, + { + "epoch": 0.882048, + "grad_norm": 0.07141878455877304, + "learning_rate": 1.411968e-05, + "loss": 0.006, + "step": 137820 + }, + { + "epoch": 0.88208, + "grad_norm": 1.1994071006774902, + "learning_rate": 1.4119466666666668e-05, + "loss": 0.0204, + "step": 137825 + }, + { + "epoch": 0.882112, + "grad_norm": 0.02748781256377697, + "learning_rate": 1.4119253333333333e-05, + "loss": 0.0062, + "step": 137830 + }, + { + "epoch": 0.882144, + "grad_norm": 0.04339614883065224, + "learning_rate": 1.4119040000000001e-05, + "loss": 0.0048, + "step": 137835 + }, + { + "epoch": 0.882176, + "grad_norm": 0.1297968029975891, + "learning_rate": 1.4118826666666667e-05, + "loss": 0.0044, + "step": 137840 + }, + { + "epoch": 0.882208, + "grad_norm": 0.8355498313903809, + "learning_rate": 1.4118613333333336e-05, + "loss": 0.0169, + "step": 137845 + }, + { + "epoch": 0.88224, + "grad_norm": 0.0558655709028244, + "learning_rate": 1.41184e-05, + "loss": 0.0112, + "step": 137850 + }, + { + "epoch": 0.882272, + "grad_norm": 1.349117398262024, + "learning_rate": 1.411818666666667e-05, + "loss": 0.0103, + "step": 137855 + }, + { + "epoch": 0.882304, + "grad_norm": 0.5003125071525574, + "learning_rate": 1.4117973333333335e-05, + "loss": 0.0049, + "step": 137860 + }, + { + "epoch": 0.882336, + "grad_norm": 0.07043763250112534, + "learning_rate": 1.4117760000000001e-05, + "loss": 0.0121, + "step": 137865 + }, + { + "epoch": 0.882368, + "grad_norm": 1.2944347858428955, + "learning_rate": 1.4117546666666669e-05, + "loss": 0.0171, + "step": 137870 + }, + { + "epoch": 0.8824, + "grad_norm": 0.9677774310112, + "learning_rate": 1.4117333333333335e-05, + "loss": 0.0051, + "step": 137875 + }, + { + "epoch": 0.882432, + "grad_norm": 0.025494400411844254, + "learning_rate": 1.4117120000000002e-05, + "loss": 0.0103, + "step": 137880 + }, + { + "epoch": 0.882464, + "grad_norm": 0.2835616171360016, + "learning_rate": 1.4116906666666668e-05, + "loss": 0.0034, + "step": 137885 + }, + { + "epoch": 0.882496, + "grad_norm": 0.015501297079026699, + "learning_rate": 1.4116693333333336e-05, + "loss": 0.0058, + "step": 137890 + }, + { + "epoch": 0.882528, + "grad_norm": 0.3524375259876251, + "learning_rate": 1.4116480000000001e-05, + "loss": 0.0115, + "step": 137895 + }, + { + "epoch": 0.88256, + "grad_norm": 1.7967896461486816, + "learning_rate": 1.4116266666666667e-05, + "loss": 0.0078, + "step": 137900 + }, + { + "epoch": 0.882592, + "grad_norm": 0.018603499978780746, + "learning_rate": 1.4116053333333335e-05, + "loss": 0.0048, + "step": 137905 + }, + { + "epoch": 0.882624, + "grad_norm": 0.028651203960180283, + "learning_rate": 1.411584e-05, + "loss": 0.0059, + "step": 137910 + }, + { + "epoch": 0.882656, + "grad_norm": 0.39318493008613586, + "learning_rate": 1.4115626666666668e-05, + "loss": 0.0044, + "step": 137915 + }, + { + "epoch": 0.882688, + "grad_norm": 2.6496260166168213, + "learning_rate": 1.4115413333333334e-05, + "loss": 0.0114, + "step": 137920 + }, + { + "epoch": 0.88272, + "grad_norm": 0.01373541634529829, + "learning_rate": 1.4115200000000002e-05, + "loss": 0.0083, + "step": 137925 + }, + { + "epoch": 0.882752, + "grad_norm": 0.014755352400243282, + "learning_rate": 1.4114986666666668e-05, + "loss": 0.0019, + "step": 137930 + }, + { + "epoch": 0.882784, + "grad_norm": 0.0422847643494606, + "learning_rate": 1.4114773333333333e-05, + "loss": 0.0036, + "step": 137935 + }, + { + "epoch": 0.882816, + "grad_norm": 0.16679957509040833, + "learning_rate": 1.4114560000000001e-05, + "loss": 0.0163, + "step": 137940 + }, + { + "epoch": 0.882848, + "grad_norm": 1.033210039138794, + "learning_rate": 1.4114346666666667e-05, + "loss": 0.0035, + "step": 137945 + }, + { + "epoch": 0.88288, + "grad_norm": 0.3009476959705353, + "learning_rate": 1.4114133333333336e-05, + "loss": 0.0116, + "step": 137950 + }, + { + "epoch": 0.882912, + "grad_norm": 0.4171856939792633, + "learning_rate": 1.411392e-05, + "loss": 0.0279, + "step": 137955 + }, + { + "epoch": 0.882944, + "grad_norm": 0.10109690576791763, + "learning_rate": 1.411370666666667e-05, + "loss": 0.0025, + "step": 137960 + }, + { + "epoch": 0.882976, + "grad_norm": 1.3644779920578003, + "learning_rate": 1.4113493333333335e-05, + "loss": 0.0118, + "step": 137965 + }, + { + "epoch": 0.883008, + "grad_norm": 0.9410075545310974, + "learning_rate": 1.411328e-05, + "loss": 0.0075, + "step": 137970 + }, + { + "epoch": 0.88304, + "grad_norm": 0.5127940773963928, + "learning_rate": 1.4113066666666669e-05, + "loss": 0.0159, + "step": 137975 + }, + { + "epoch": 0.883072, + "grad_norm": 0.038519907742738724, + "learning_rate": 1.4112853333333335e-05, + "loss": 0.0041, + "step": 137980 + }, + { + "epoch": 0.883104, + "grad_norm": 0.009602575562894344, + "learning_rate": 1.4112640000000002e-05, + "loss": 0.0031, + "step": 137985 + }, + { + "epoch": 0.883136, + "grad_norm": 0.05018436536192894, + "learning_rate": 1.4112426666666668e-05, + "loss": 0.0051, + "step": 137990 + }, + { + "epoch": 0.883168, + "grad_norm": 0.05675218999385834, + "learning_rate": 1.4112213333333336e-05, + "loss": 0.0092, + "step": 137995 + }, + { + "epoch": 0.8832, + "grad_norm": 0.04953618347644806, + "learning_rate": 1.4112000000000001e-05, + "loss": 0.0087, + "step": 138000 + }, + { + "epoch": 0.883232, + "grad_norm": 0.11010324209928513, + "learning_rate": 1.4111786666666667e-05, + "loss": 0.0062, + "step": 138005 + }, + { + "epoch": 0.883264, + "grad_norm": 0.3002887964248657, + "learning_rate": 1.4111573333333335e-05, + "loss": 0.0097, + "step": 138010 + }, + { + "epoch": 0.883296, + "grad_norm": 0.45380839705467224, + "learning_rate": 1.411136e-05, + "loss": 0.0065, + "step": 138015 + }, + { + "epoch": 0.883328, + "grad_norm": 0.11025084555149078, + "learning_rate": 1.4111146666666668e-05, + "loss": 0.0238, + "step": 138020 + }, + { + "epoch": 0.88336, + "grad_norm": 0.03727759048342705, + "learning_rate": 1.4110933333333334e-05, + "loss": 0.004, + "step": 138025 + }, + { + "epoch": 0.883392, + "grad_norm": 0.6754648685455322, + "learning_rate": 1.4110720000000002e-05, + "loss": 0.0091, + "step": 138030 + }, + { + "epoch": 0.883424, + "grad_norm": 0.284334272146225, + "learning_rate": 1.4110506666666668e-05, + "loss": 0.002, + "step": 138035 + }, + { + "epoch": 0.883456, + "grad_norm": 0.4249781370162964, + "learning_rate": 1.4110293333333333e-05, + "loss": 0.009, + "step": 138040 + }, + { + "epoch": 0.883488, + "grad_norm": 0.25264772772789, + "learning_rate": 1.4110080000000001e-05, + "loss": 0.0033, + "step": 138045 + }, + { + "epoch": 0.88352, + "grad_norm": 0.4942467510700226, + "learning_rate": 1.4109866666666667e-05, + "loss": 0.0063, + "step": 138050 + }, + { + "epoch": 0.883552, + "grad_norm": 0.5753315687179565, + "learning_rate": 1.4109653333333334e-05, + "loss": 0.0087, + "step": 138055 + }, + { + "epoch": 0.883584, + "grad_norm": 0.20721641182899475, + "learning_rate": 1.410944e-05, + "loss": 0.0079, + "step": 138060 + }, + { + "epoch": 0.883616, + "grad_norm": 0.6599290370941162, + "learning_rate": 1.410922666666667e-05, + "loss": 0.0025, + "step": 138065 + }, + { + "epoch": 0.883648, + "grad_norm": 0.7665332555770874, + "learning_rate": 1.4109013333333335e-05, + "loss": 0.0079, + "step": 138070 + }, + { + "epoch": 0.88368, + "grad_norm": 1.0561022758483887, + "learning_rate": 1.41088e-05, + "loss": 0.0054, + "step": 138075 + }, + { + "epoch": 0.883712, + "grad_norm": 0.7097365856170654, + "learning_rate": 1.4108586666666669e-05, + "loss": 0.0138, + "step": 138080 + }, + { + "epoch": 0.883744, + "grad_norm": 0.08995744585990906, + "learning_rate": 1.4108373333333335e-05, + "loss": 0.013, + "step": 138085 + }, + { + "epoch": 0.883776, + "grad_norm": 1.337874412536621, + "learning_rate": 1.4108160000000002e-05, + "loss": 0.0075, + "step": 138090 + }, + { + "epoch": 0.883808, + "grad_norm": 0.34550943970680237, + "learning_rate": 1.4107946666666668e-05, + "loss": 0.0076, + "step": 138095 + }, + { + "epoch": 0.88384, + "grad_norm": 0.16355177760124207, + "learning_rate": 1.4107733333333336e-05, + "loss": 0.0055, + "step": 138100 + }, + { + "epoch": 0.883872, + "grad_norm": 0.09178975969552994, + "learning_rate": 1.4107520000000001e-05, + "loss": 0.0062, + "step": 138105 + }, + { + "epoch": 0.883904, + "grad_norm": 0.513489842414856, + "learning_rate": 1.4107306666666667e-05, + "loss": 0.0102, + "step": 138110 + }, + { + "epoch": 0.883936, + "grad_norm": 0.08087203651666641, + "learning_rate": 1.4107093333333335e-05, + "loss": 0.0082, + "step": 138115 + }, + { + "epoch": 0.883968, + "grad_norm": 0.595365047454834, + "learning_rate": 1.410688e-05, + "loss": 0.0077, + "step": 138120 + }, + { + "epoch": 0.884, + "grad_norm": 0.414867103099823, + "learning_rate": 1.4106666666666668e-05, + "loss": 0.0058, + "step": 138125 + }, + { + "epoch": 0.884032, + "grad_norm": 0.25637784600257874, + "learning_rate": 1.4106453333333334e-05, + "loss": 0.0032, + "step": 138130 + }, + { + "epoch": 0.884064, + "grad_norm": 0.016998447477817535, + "learning_rate": 1.4106240000000002e-05, + "loss": 0.0079, + "step": 138135 + }, + { + "epoch": 0.884096, + "grad_norm": 0.13649390637874603, + "learning_rate": 1.4106026666666668e-05, + "loss": 0.0064, + "step": 138140 + }, + { + "epoch": 0.884128, + "grad_norm": 0.036447010934352875, + "learning_rate": 1.4105813333333333e-05, + "loss": 0.023, + "step": 138145 + }, + { + "epoch": 0.88416, + "grad_norm": 0.051006995141506195, + "learning_rate": 1.4105600000000001e-05, + "loss": 0.0101, + "step": 138150 + }, + { + "epoch": 0.884192, + "grad_norm": 0.2884286940097809, + "learning_rate": 1.4105386666666667e-05, + "loss": 0.0061, + "step": 138155 + }, + { + "epoch": 0.884224, + "grad_norm": 0.3012503683567047, + "learning_rate": 1.4105173333333334e-05, + "loss": 0.0058, + "step": 138160 + }, + { + "epoch": 0.884256, + "grad_norm": 0.30728617310523987, + "learning_rate": 1.410496e-05, + "loss": 0.0188, + "step": 138165 + }, + { + "epoch": 0.884288, + "grad_norm": 0.21827611327171326, + "learning_rate": 1.410474666666667e-05, + "loss": 0.0038, + "step": 138170 + }, + { + "epoch": 0.88432, + "grad_norm": 0.1955745667219162, + "learning_rate": 1.4104533333333335e-05, + "loss": 0.0384, + "step": 138175 + }, + { + "epoch": 0.884352, + "grad_norm": 0.7967248558998108, + "learning_rate": 1.410432e-05, + "loss": 0.0197, + "step": 138180 + }, + { + "epoch": 0.884384, + "grad_norm": 3.1711251735687256, + "learning_rate": 1.4104106666666669e-05, + "loss": 0.0159, + "step": 138185 + }, + { + "epoch": 0.884416, + "grad_norm": 0.41490820050239563, + "learning_rate": 1.4103893333333335e-05, + "loss": 0.0071, + "step": 138190 + }, + { + "epoch": 0.884448, + "grad_norm": 2.504733085632324, + "learning_rate": 1.4103680000000002e-05, + "loss": 0.0108, + "step": 138195 + }, + { + "epoch": 0.88448, + "grad_norm": 0.29651880264282227, + "learning_rate": 1.4103466666666668e-05, + "loss": 0.0042, + "step": 138200 + }, + { + "epoch": 0.884512, + "grad_norm": 0.2595923840999603, + "learning_rate": 1.4103253333333336e-05, + "loss": 0.0027, + "step": 138205 + }, + { + "epoch": 0.884544, + "grad_norm": 0.4733898639678955, + "learning_rate": 1.4103040000000001e-05, + "loss": 0.0114, + "step": 138210 + }, + { + "epoch": 0.884576, + "grad_norm": 0.9456672668457031, + "learning_rate": 1.4102826666666667e-05, + "loss": 0.0068, + "step": 138215 + }, + { + "epoch": 0.884608, + "grad_norm": 0.06196501851081848, + "learning_rate": 1.4102613333333335e-05, + "loss": 0.0052, + "step": 138220 + }, + { + "epoch": 0.88464, + "grad_norm": 0.2019774466753006, + "learning_rate": 1.41024e-05, + "loss": 0.0113, + "step": 138225 + }, + { + "epoch": 0.884672, + "grad_norm": 0.4420855641365051, + "learning_rate": 1.4102186666666668e-05, + "loss": 0.0038, + "step": 138230 + }, + { + "epoch": 0.884704, + "grad_norm": 0.13183805346488953, + "learning_rate": 1.4101973333333334e-05, + "loss": 0.0079, + "step": 138235 + }, + { + "epoch": 0.884736, + "grad_norm": 1.855686902999878, + "learning_rate": 1.4101760000000002e-05, + "loss": 0.014, + "step": 138240 + }, + { + "epoch": 0.884768, + "grad_norm": 0.1909443885087967, + "learning_rate": 1.4101546666666668e-05, + "loss": 0.0036, + "step": 138245 + }, + { + "epoch": 0.8848, + "grad_norm": 0.6782143115997314, + "learning_rate": 1.4101333333333333e-05, + "loss": 0.0062, + "step": 138250 + }, + { + "epoch": 0.884832, + "grad_norm": 0.13351160287857056, + "learning_rate": 1.4101120000000001e-05, + "loss": 0.0044, + "step": 138255 + }, + { + "epoch": 0.884864, + "grad_norm": 0.4230790138244629, + "learning_rate": 1.4100906666666667e-05, + "loss": 0.0082, + "step": 138260 + }, + { + "epoch": 0.884896, + "grad_norm": 0.019990701228380203, + "learning_rate": 1.4100693333333334e-05, + "loss": 0.0039, + "step": 138265 + }, + { + "epoch": 0.884928, + "grad_norm": 0.25289779901504517, + "learning_rate": 1.410048e-05, + "loss": 0.0118, + "step": 138270 + }, + { + "epoch": 0.88496, + "grad_norm": 0.7829012870788574, + "learning_rate": 1.410026666666667e-05, + "loss": 0.01, + "step": 138275 + }, + { + "epoch": 0.884992, + "grad_norm": 0.04586530476808548, + "learning_rate": 1.4100053333333334e-05, + "loss": 0.0072, + "step": 138280 + }, + { + "epoch": 0.885024, + "grad_norm": 0.029950015246868134, + "learning_rate": 1.409984e-05, + "loss": 0.0058, + "step": 138285 + }, + { + "epoch": 0.885056, + "grad_norm": 0.5597007274627686, + "learning_rate": 1.4099626666666669e-05, + "loss": 0.0136, + "step": 138290 + }, + { + "epoch": 0.885088, + "grad_norm": 1.1424882411956787, + "learning_rate": 1.4099413333333335e-05, + "loss": 0.0115, + "step": 138295 + }, + { + "epoch": 0.88512, + "grad_norm": 0.026854610070586205, + "learning_rate": 1.4099200000000002e-05, + "loss": 0.0058, + "step": 138300 + }, + { + "epoch": 0.885152, + "grad_norm": 1.687770962715149, + "learning_rate": 1.4098986666666668e-05, + "loss": 0.0072, + "step": 138305 + }, + { + "epoch": 0.885184, + "grad_norm": 0.4579814076423645, + "learning_rate": 1.4098773333333336e-05, + "loss": 0.0033, + "step": 138310 + }, + { + "epoch": 0.885216, + "grad_norm": 0.07171794772148132, + "learning_rate": 1.4098560000000001e-05, + "loss": 0.0029, + "step": 138315 + }, + { + "epoch": 0.885248, + "grad_norm": 0.050607629120349884, + "learning_rate": 1.4098346666666667e-05, + "loss": 0.0121, + "step": 138320 + }, + { + "epoch": 0.88528, + "grad_norm": 1.3245255947113037, + "learning_rate": 1.4098133333333335e-05, + "loss": 0.0067, + "step": 138325 + }, + { + "epoch": 0.885312, + "grad_norm": 0.1360471546649933, + "learning_rate": 1.409792e-05, + "loss": 0.012, + "step": 138330 + }, + { + "epoch": 0.885344, + "grad_norm": 0.9674650430679321, + "learning_rate": 1.4097706666666668e-05, + "loss": 0.0117, + "step": 138335 + }, + { + "epoch": 0.885376, + "grad_norm": 0.09376633167266846, + "learning_rate": 1.4097493333333334e-05, + "loss": 0.0061, + "step": 138340 + }, + { + "epoch": 0.885408, + "grad_norm": 1.6377840042114258, + "learning_rate": 1.4097280000000002e-05, + "loss": 0.0213, + "step": 138345 + }, + { + "epoch": 0.88544, + "grad_norm": 0.06761159747838974, + "learning_rate": 1.4097066666666668e-05, + "loss": 0.0117, + "step": 138350 + }, + { + "epoch": 0.885472, + "grad_norm": 1.0890730619430542, + "learning_rate": 1.4096853333333333e-05, + "loss": 0.0059, + "step": 138355 + }, + { + "epoch": 0.885504, + "grad_norm": 0.04689373821020126, + "learning_rate": 1.4096640000000001e-05, + "loss": 0.0063, + "step": 138360 + }, + { + "epoch": 0.885536, + "grad_norm": 0.42584678530693054, + "learning_rate": 1.4096426666666667e-05, + "loss": 0.0209, + "step": 138365 + }, + { + "epoch": 0.885568, + "grad_norm": 0.08186862617731094, + "learning_rate": 1.4096213333333334e-05, + "loss": 0.0105, + "step": 138370 + }, + { + "epoch": 0.8856, + "grad_norm": 0.3597356081008911, + "learning_rate": 1.4096e-05, + "loss": 0.0046, + "step": 138375 + }, + { + "epoch": 0.885632, + "grad_norm": 0.35360968112945557, + "learning_rate": 1.409578666666667e-05, + "loss": 0.0076, + "step": 138380 + }, + { + "epoch": 0.885664, + "grad_norm": 0.593446671962738, + "learning_rate": 1.4095573333333334e-05, + "loss": 0.0234, + "step": 138385 + }, + { + "epoch": 0.885696, + "grad_norm": 0.7347844243049622, + "learning_rate": 1.409536e-05, + "loss": 0.0224, + "step": 138390 + }, + { + "epoch": 0.885728, + "grad_norm": 0.5161404013633728, + "learning_rate": 1.4095146666666669e-05, + "loss": 0.0041, + "step": 138395 + }, + { + "epoch": 0.88576, + "grad_norm": 1.488645315170288, + "learning_rate": 1.4094933333333335e-05, + "loss": 0.0089, + "step": 138400 + }, + { + "epoch": 0.885792, + "grad_norm": 0.4523729383945465, + "learning_rate": 1.4094720000000002e-05, + "loss": 0.0067, + "step": 138405 + }, + { + "epoch": 0.885824, + "grad_norm": 0.20950882136821747, + "learning_rate": 1.4094506666666668e-05, + "loss": 0.0196, + "step": 138410 + }, + { + "epoch": 0.885856, + "grad_norm": 0.04164135083556175, + "learning_rate": 1.4094293333333336e-05, + "loss": 0.0044, + "step": 138415 + }, + { + "epoch": 0.885888, + "grad_norm": 0.13197319209575653, + "learning_rate": 1.4094080000000001e-05, + "loss": 0.0019, + "step": 138420 + }, + { + "epoch": 0.88592, + "grad_norm": 0.23082271218299866, + "learning_rate": 1.4093866666666667e-05, + "loss": 0.003, + "step": 138425 + }, + { + "epoch": 0.885952, + "grad_norm": 0.06220660358667374, + "learning_rate": 1.4093653333333335e-05, + "loss": 0.0066, + "step": 138430 + }, + { + "epoch": 0.885984, + "grad_norm": 0.5992324948310852, + "learning_rate": 1.409344e-05, + "loss": 0.0041, + "step": 138435 + }, + { + "epoch": 0.886016, + "grad_norm": 0.015675507485866547, + "learning_rate": 1.4093226666666668e-05, + "loss": 0.0072, + "step": 138440 + }, + { + "epoch": 0.886048, + "grad_norm": 0.02274503745138645, + "learning_rate": 1.4093013333333334e-05, + "loss": 0.0185, + "step": 138445 + }, + { + "epoch": 0.88608, + "grad_norm": 0.019464919343590736, + "learning_rate": 1.4092800000000002e-05, + "loss": 0.0044, + "step": 138450 + }, + { + "epoch": 0.886112, + "grad_norm": 0.13016816973686218, + "learning_rate": 1.4092586666666668e-05, + "loss": 0.0099, + "step": 138455 + }, + { + "epoch": 0.886144, + "grad_norm": 0.5696284770965576, + "learning_rate": 1.4092373333333333e-05, + "loss": 0.0045, + "step": 138460 + }, + { + "epoch": 0.886176, + "grad_norm": 0.8019270300865173, + "learning_rate": 1.4092160000000001e-05, + "loss": 0.0121, + "step": 138465 + }, + { + "epoch": 0.886208, + "grad_norm": 0.601510226726532, + "learning_rate": 1.4091946666666667e-05, + "loss": 0.0057, + "step": 138470 + }, + { + "epoch": 0.88624, + "grad_norm": 0.07716865837574005, + "learning_rate": 1.4091733333333334e-05, + "loss": 0.0166, + "step": 138475 + }, + { + "epoch": 0.886272, + "grad_norm": 0.3398863673210144, + "learning_rate": 1.409152e-05, + "loss": 0.0074, + "step": 138480 + }, + { + "epoch": 0.886304, + "grad_norm": 0.6758846044540405, + "learning_rate": 1.409130666666667e-05, + "loss": 0.0075, + "step": 138485 + }, + { + "epoch": 0.886336, + "grad_norm": 0.43159887194633484, + "learning_rate": 1.4091093333333334e-05, + "loss": 0.0093, + "step": 138490 + }, + { + "epoch": 0.886368, + "grad_norm": 0.9259433150291443, + "learning_rate": 1.409088e-05, + "loss": 0.0186, + "step": 138495 + }, + { + "epoch": 0.8864, + "grad_norm": 0.013066631741821766, + "learning_rate": 1.4090666666666669e-05, + "loss": 0.0018, + "step": 138500 + }, + { + "epoch": 0.886432, + "grad_norm": 0.3846502900123596, + "learning_rate": 1.4090453333333333e-05, + "loss": 0.0119, + "step": 138505 + }, + { + "epoch": 0.886464, + "grad_norm": 0.589982807636261, + "learning_rate": 1.4090240000000002e-05, + "loss": 0.0057, + "step": 138510 + }, + { + "epoch": 0.886496, + "grad_norm": 0.17973016202449799, + "learning_rate": 1.4090026666666668e-05, + "loss": 0.0078, + "step": 138515 + }, + { + "epoch": 0.886528, + "grad_norm": 0.1738581359386444, + "learning_rate": 1.4089813333333336e-05, + "loss": 0.0125, + "step": 138520 + }, + { + "epoch": 0.88656, + "grad_norm": 1.252057671546936, + "learning_rate": 1.4089600000000001e-05, + "loss": 0.0156, + "step": 138525 + }, + { + "epoch": 0.886592, + "grad_norm": 0.23478123545646667, + "learning_rate": 1.4089386666666667e-05, + "loss": 0.0038, + "step": 138530 + }, + { + "epoch": 0.886624, + "grad_norm": 0.050526008009910583, + "learning_rate": 1.4089173333333335e-05, + "loss": 0.0052, + "step": 138535 + }, + { + "epoch": 0.886656, + "grad_norm": 0.6136162281036377, + "learning_rate": 1.408896e-05, + "loss": 0.0076, + "step": 138540 + }, + { + "epoch": 0.886688, + "grad_norm": 0.10027554631233215, + "learning_rate": 1.4088746666666668e-05, + "loss": 0.0021, + "step": 138545 + }, + { + "epoch": 0.88672, + "grad_norm": 0.5704982876777649, + "learning_rate": 1.4088533333333334e-05, + "loss": 0.0182, + "step": 138550 + }, + { + "epoch": 0.886752, + "grad_norm": 0.7879216074943542, + "learning_rate": 1.4088320000000002e-05, + "loss": 0.0189, + "step": 138555 + }, + { + "epoch": 0.886784, + "grad_norm": 0.5349921584129333, + "learning_rate": 1.4088106666666668e-05, + "loss": 0.0082, + "step": 138560 + }, + { + "epoch": 0.886816, + "grad_norm": 0.09177841991186142, + "learning_rate": 1.4087893333333333e-05, + "loss": 0.0069, + "step": 138565 + }, + { + "epoch": 0.886848, + "grad_norm": 0.16020765900611877, + "learning_rate": 1.4087680000000001e-05, + "loss": 0.0042, + "step": 138570 + }, + { + "epoch": 0.88688, + "grad_norm": 0.06761663407087326, + "learning_rate": 1.4087466666666667e-05, + "loss": 0.0092, + "step": 138575 + }, + { + "epoch": 0.886912, + "grad_norm": 0.4206317067146301, + "learning_rate": 1.4087253333333334e-05, + "loss": 0.0045, + "step": 138580 + }, + { + "epoch": 0.886944, + "grad_norm": 0.23946350812911987, + "learning_rate": 1.408704e-05, + "loss": 0.0056, + "step": 138585 + }, + { + "epoch": 0.886976, + "grad_norm": 0.42612388730049133, + "learning_rate": 1.408682666666667e-05, + "loss": 0.0043, + "step": 138590 + }, + { + "epoch": 0.887008, + "grad_norm": 0.1642465442419052, + "learning_rate": 1.4086613333333334e-05, + "loss": 0.0169, + "step": 138595 + }, + { + "epoch": 0.88704, + "grad_norm": 0.3289572298526764, + "learning_rate": 1.40864e-05, + "loss": 0.0041, + "step": 138600 + }, + { + "epoch": 0.887072, + "grad_norm": 0.06075887382030487, + "learning_rate": 1.4086186666666669e-05, + "loss": 0.0038, + "step": 138605 + }, + { + "epoch": 0.887104, + "grad_norm": 1.1592847108840942, + "learning_rate": 1.4085973333333333e-05, + "loss": 0.0075, + "step": 138610 + }, + { + "epoch": 0.887136, + "grad_norm": 0.8908015489578247, + "learning_rate": 1.4085760000000002e-05, + "loss": 0.0136, + "step": 138615 + }, + { + "epoch": 0.887168, + "grad_norm": 0.2995736598968506, + "learning_rate": 1.4085546666666668e-05, + "loss": 0.023, + "step": 138620 + }, + { + "epoch": 0.8872, + "grad_norm": 0.02088535577058792, + "learning_rate": 1.4085333333333336e-05, + "loss": 0.0051, + "step": 138625 + }, + { + "epoch": 0.887232, + "grad_norm": 0.98197340965271, + "learning_rate": 1.4085120000000001e-05, + "loss": 0.0038, + "step": 138630 + }, + { + "epoch": 0.887264, + "grad_norm": 0.41788071393966675, + "learning_rate": 1.4084906666666667e-05, + "loss": 0.0063, + "step": 138635 + }, + { + "epoch": 0.887296, + "grad_norm": 0.2940891981124878, + "learning_rate": 1.4084693333333335e-05, + "loss": 0.0043, + "step": 138640 + }, + { + "epoch": 0.887328, + "grad_norm": 0.4321294128894806, + "learning_rate": 1.408448e-05, + "loss": 0.009, + "step": 138645 + }, + { + "epoch": 0.88736, + "grad_norm": 1.347177505493164, + "learning_rate": 1.4084266666666668e-05, + "loss": 0.0077, + "step": 138650 + }, + { + "epoch": 0.887392, + "grad_norm": 0.14875908195972443, + "learning_rate": 1.4084053333333334e-05, + "loss": 0.0118, + "step": 138655 + }, + { + "epoch": 0.887424, + "grad_norm": 1.1574326753616333, + "learning_rate": 1.4083840000000002e-05, + "loss": 0.0067, + "step": 138660 + }, + { + "epoch": 0.887456, + "grad_norm": 0.10770783573389053, + "learning_rate": 1.4083626666666668e-05, + "loss": 0.0045, + "step": 138665 + }, + { + "epoch": 0.887488, + "grad_norm": 0.4312921166419983, + "learning_rate": 1.4083413333333333e-05, + "loss": 0.0047, + "step": 138670 + }, + { + "epoch": 0.88752, + "grad_norm": 0.0631992444396019, + "learning_rate": 1.4083200000000001e-05, + "loss": 0.0057, + "step": 138675 + }, + { + "epoch": 0.887552, + "grad_norm": 0.5294713377952576, + "learning_rate": 1.4082986666666667e-05, + "loss": 0.0033, + "step": 138680 + }, + { + "epoch": 0.887584, + "grad_norm": 0.3917822539806366, + "learning_rate": 1.4082773333333334e-05, + "loss": 0.0056, + "step": 138685 + }, + { + "epoch": 0.887616, + "grad_norm": 1.545845866203308, + "learning_rate": 1.408256e-05, + "loss": 0.0074, + "step": 138690 + }, + { + "epoch": 0.887648, + "grad_norm": 0.1811237335205078, + "learning_rate": 1.4082346666666668e-05, + "loss": 0.004, + "step": 138695 + }, + { + "epoch": 0.88768, + "grad_norm": 0.3427703380584717, + "learning_rate": 1.4082133333333334e-05, + "loss": 0.0179, + "step": 138700 + }, + { + "epoch": 0.887712, + "grad_norm": 1.8635690212249756, + "learning_rate": 1.4081920000000003e-05, + "loss": 0.0142, + "step": 138705 + }, + { + "epoch": 0.887744, + "grad_norm": 0.41029706597328186, + "learning_rate": 1.4081706666666669e-05, + "loss": 0.0251, + "step": 138710 + }, + { + "epoch": 0.887776, + "grad_norm": 0.06612610071897507, + "learning_rate": 1.4081493333333333e-05, + "loss": 0.0124, + "step": 138715 + }, + { + "epoch": 0.887808, + "grad_norm": 0.36262980103492737, + "learning_rate": 1.4081280000000002e-05, + "loss": 0.0057, + "step": 138720 + }, + { + "epoch": 0.88784, + "grad_norm": 0.5811426639556885, + "learning_rate": 1.4081066666666668e-05, + "loss": 0.0101, + "step": 138725 + }, + { + "epoch": 0.887872, + "grad_norm": 0.03902171924710274, + "learning_rate": 1.4080853333333336e-05, + "loss": 0.0018, + "step": 138730 + }, + { + "epoch": 0.887904, + "grad_norm": 0.33376768231391907, + "learning_rate": 1.4080640000000001e-05, + "loss": 0.0078, + "step": 138735 + }, + { + "epoch": 0.887936, + "grad_norm": 0.8475632071495056, + "learning_rate": 1.4080426666666669e-05, + "loss": 0.0294, + "step": 138740 + }, + { + "epoch": 0.887968, + "grad_norm": 0.22505494952201843, + "learning_rate": 1.4080213333333335e-05, + "loss": 0.0115, + "step": 138745 + }, + { + "epoch": 0.888, + "grad_norm": 0.09387265890836716, + "learning_rate": 1.408e-05, + "loss": 0.0058, + "step": 138750 + }, + { + "epoch": 0.888032, + "grad_norm": 0.47180745005607605, + "learning_rate": 1.4079786666666668e-05, + "loss": 0.0178, + "step": 138755 + }, + { + "epoch": 0.888064, + "grad_norm": 0.02839297242462635, + "learning_rate": 1.4079573333333334e-05, + "loss": 0.0052, + "step": 138760 + }, + { + "epoch": 0.888096, + "grad_norm": 0.1995503157377243, + "learning_rate": 1.4079360000000002e-05, + "loss": 0.0068, + "step": 138765 + }, + { + "epoch": 0.888128, + "grad_norm": 0.31806880235671997, + "learning_rate": 1.4079146666666668e-05, + "loss": 0.0085, + "step": 138770 + }, + { + "epoch": 0.88816, + "grad_norm": 0.16586987674236298, + "learning_rate": 1.4078933333333335e-05, + "loss": 0.0202, + "step": 138775 + }, + { + "epoch": 0.888192, + "grad_norm": 0.7659857273101807, + "learning_rate": 1.4078720000000001e-05, + "loss": 0.0077, + "step": 138780 + }, + { + "epoch": 0.888224, + "grad_norm": 0.3317823112010956, + "learning_rate": 1.4078506666666667e-05, + "loss": 0.019, + "step": 138785 + }, + { + "epoch": 0.888256, + "grad_norm": 0.29708585143089294, + "learning_rate": 1.4078293333333334e-05, + "loss": 0.0036, + "step": 138790 + }, + { + "epoch": 0.888288, + "grad_norm": 1.4628647565841675, + "learning_rate": 1.407808e-05, + "loss": 0.016, + "step": 138795 + }, + { + "epoch": 0.88832, + "grad_norm": 0.3825424313545227, + "learning_rate": 1.4077866666666668e-05, + "loss": 0.0056, + "step": 138800 + }, + { + "epoch": 0.888352, + "grad_norm": 0.5858384370803833, + "learning_rate": 1.4077653333333334e-05, + "loss": 0.0083, + "step": 138805 + }, + { + "epoch": 0.888384, + "grad_norm": 0.8072501420974731, + "learning_rate": 1.4077440000000003e-05, + "loss": 0.0043, + "step": 138810 + }, + { + "epoch": 0.888416, + "grad_norm": 0.0686052218079567, + "learning_rate": 1.4077226666666669e-05, + "loss": 0.0065, + "step": 138815 + }, + { + "epoch": 0.888448, + "grad_norm": 0.5628150701522827, + "learning_rate": 1.4077013333333333e-05, + "loss": 0.0087, + "step": 138820 + }, + { + "epoch": 0.88848, + "grad_norm": 0.29470497369766235, + "learning_rate": 1.4076800000000002e-05, + "loss": 0.0023, + "step": 138825 + }, + { + "epoch": 0.888512, + "grad_norm": 0.013028846122324467, + "learning_rate": 1.4076586666666668e-05, + "loss": 0.0114, + "step": 138830 + }, + { + "epoch": 0.888544, + "grad_norm": 1.9047341346740723, + "learning_rate": 1.4076373333333336e-05, + "loss": 0.0089, + "step": 138835 + }, + { + "epoch": 0.888576, + "grad_norm": 0.029245367273688316, + "learning_rate": 1.4076160000000001e-05, + "loss": 0.003, + "step": 138840 + }, + { + "epoch": 0.888608, + "grad_norm": 0.024210220202803612, + "learning_rate": 1.4075946666666669e-05, + "loss": 0.0027, + "step": 138845 + }, + { + "epoch": 0.88864, + "grad_norm": 0.9317358732223511, + "learning_rate": 1.4075733333333335e-05, + "loss": 0.0039, + "step": 138850 + }, + { + "epoch": 0.888672, + "grad_norm": 2.190774440765381, + "learning_rate": 1.407552e-05, + "loss": 0.0202, + "step": 138855 + }, + { + "epoch": 0.888704, + "grad_norm": 0.4987812638282776, + "learning_rate": 1.4075306666666668e-05, + "loss": 0.0115, + "step": 138860 + }, + { + "epoch": 0.888736, + "grad_norm": 0.33603861927986145, + "learning_rate": 1.4075093333333334e-05, + "loss": 0.0097, + "step": 138865 + }, + { + "epoch": 0.888768, + "grad_norm": 1.5050359964370728, + "learning_rate": 1.4074880000000002e-05, + "loss": 0.0173, + "step": 138870 + }, + { + "epoch": 0.8888, + "grad_norm": 2.476249933242798, + "learning_rate": 1.4074666666666668e-05, + "loss": 0.0192, + "step": 138875 + }, + { + "epoch": 0.888832, + "grad_norm": 0.18037687242031097, + "learning_rate": 1.4074453333333335e-05, + "loss": 0.0117, + "step": 138880 + }, + { + "epoch": 0.888864, + "grad_norm": 0.21770711243152618, + "learning_rate": 1.4074240000000001e-05, + "loss": 0.0181, + "step": 138885 + }, + { + "epoch": 0.888896, + "grad_norm": 0.25564101338386536, + "learning_rate": 1.4074026666666667e-05, + "loss": 0.0036, + "step": 138890 + }, + { + "epoch": 0.888928, + "grad_norm": 1.3914377689361572, + "learning_rate": 1.4073813333333334e-05, + "loss": 0.0065, + "step": 138895 + }, + { + "epoch": 0.88896, + "grad_norm": 0.14527937769889832, + "learning_rate": 1.40736e-05, + "loss": 0.0017, + "step": 138900 + }, + { + "epoch": 0.888992, + "grad_norm": 0.14658597111701965, + "learning_rate": 1.4073386666666668e-05, + "loss": 0.0067, + "step": 138905 + }, + { + "epoch": 0.889024, + "grad_norm": 0.4137548506259918, + "learning_rate": 1.4073173333333334e-05, + "loss": 0.0114, + "step": 138910 + }, + { + "epoch": 0.889056, + "grad_norm": 0.44254443049430847, + "learning_rate": 1.4072960000000003e-05, + "loss": 0.005, + "step": 138915 + }, + { + "epoch": 0.889088, + "grad_norm": 0.056400030851364136, + "learning_rate": 1.4072746666666667e-05, + "loss": 0.0026, + "step": 138920 + }, + { + "epoch": 0.88912, + "grad_norm": 0.022214356809854507, + "learning_rate": 1.4072533333333333e-05, + "loss": 0.0014, + "step": 138925 + }, + { + "epoch": 0.889152, + "grad_norm": 0.6262982487678528, + "learning_rate": 1.4072320000000002e-05, + "loss": 0.0041, + "step": 138930 + }, + { + "epoch": 0.889184, + "grad_norm": 0.6844824552536011, + "learning_rate": 1.4072106666666668e-05, + "loss": 0.0112, + "step": 138935 + }, + { + "epoch": 0.889216, + "grad_norm": 0.1745700240135193, + "learning_rate": 1.4071893333333336e-05, + "loss": 0.006, + "step": 138940 + }, + { + "epoch": 0.889248, + "grad_norm": 0.41559502482414246, + "learning_rate": 1.4071680000000001e-05, + "loss": 0.0061, + "step": 138945 + }, + { + "epoch": 0.88928, + "grad_norm": 0.46549728512763977, + "learning_rate": 1.4071466666666669e-05, + "loss": 0.014, + "step": 138950 + }, + { + "epoch": 0.889312, + "grad_norm": 0.4630095958709717, + "learning_rate": 1.4071253333333335e-05, + "loss": 0.0064, + "step": 138955 + }, + { + "epoch": 0.889344, + "grad_norm": 1.6516261100769043, + "learning_rate": 1.407104e-05, + "loss": 0.0112, + "step": 138960 + }, + { + "epoch": 0.889376, + "grad_norm": 0.3519902527332306, + "learning_rate": 1.4070826666666668e-05, + "loss": 0.029, + "step": 138965 + }, + { + "epoch": 0.889408, + "grad_norm": 0.1801455020904541, + "learning_rate": 1.4070613333333334e-05, + "loss": 0.0024, + "step": 138970 + }, + { + "epoch": 0.88944, + "grad_norm": 0.026977958157658577, + "learning_rate": 1.4070400000000002e-05, + "loss": 0.0085, + "step": 138975 + }, + { + "epoch": 0.889472, + "grad_norm": 0.04718763381242752, + "learning_rate": 1.4070186666666668e-05, + "loss": 0.0032, + "step": 138980 + }, + { + "epoch": 0.889504, + "grad_norm": 0.6654866337776184, + "learning_rate": 1.4069973333333335e-05, + "loss": 0.018, + "step": 138985 + }, + { + "epoch": 0.889536, + "grad_norm": 1.1789065599441528, + "learning_rate": 1.4069760000000001e-05, + "loss": 0.0171, + "step": 138990 + }, + { + "epoch": 0.889568, + "grad_norm": 0.7823594212532043, + "learning_rate": 1.4069546666666667e-05, + "loss": 0.0029, + "step": 138995 + }, + { + "epoch": 0.8896, + "grad_norm": 0.03485477715730667, + "learning_rate": 1.4069333333333334e-05, + "loss": 0.0076, + "step": 139000 + }, + { + "epoch": 0.889632, + "grad_norm": 0.19219954311847687, + "learning_rate": 1.406912e-05, + "loss": 0.0131, + "step": 139005 + }, + { + "epoch": 0.889664, + "grad_norm": 1.917554497718811, + "learning_rate": 1.4068906666666668e-05, + "loss": 0.0129, + "step": 139010 + }, + { + "epoch": 0.889696, + "grad_norm": 0.39854559302330017, + "learning_rate": 1.4068693333333334e-05, + "loss": 0.006, + "step": 139015 + }, + { + "epoch": 0.889728, + "grad_norm": 0.5577362775802612, + "learning_rate": 1.4068480000000003e-05, + "loss": 0.0043, + "step": 139020 + }, + { + "epoch": 0.88976, + "grad_norm": 0.5611431002616882, + "learning_rate": 1.4068266666666667e-05, + "loss": 0.0107, + "step": 139025 + }, + { + "epoch": 0.889792, + "grad_norm": 0.2427949458360672, + "learning_rate": 1.4068053333333333e-05, + "loss": 0.005, + "step": 139030 + }, + { + "epoch": 0.889824, + "grad_norm": 0.012920898385345936, + "learning_rate": 1.4067840000000002e-05, + "loss": 0.0032, + "step": 139035 + }, + { + "epoch": 0.889856, + "grad_norm": 0.21770943701267242, + "learning_rate": 1.4067626666666668e-05, + "loss": 0.005, + "step": 139040 + }, + { + "epoch": 0.889888, + "grad_norm": 0.1912737637758255, + "learning_rate": 1.4067413333333336e-05, + "loss": 0.0116, + "step": 139045 + }, + { + "epoch": 0.88992, + "grad_norm": 0.09329913556575775, + "learning_rate": 1.4067200000000001e-05, + "loss": 0.0055, + "step": 139050 + }, + { + "epoch": 0.889952, + "grad_norm": 0.4358857274055481, + "learning_rate": 1.4066986666666669e-05, + "loss": 0.0105, + "step": 139055 + }, + { + "epoch": 0.889984, + "grad_norm": 0.09796170890331268, + "learning_rate": 1.4066773333333335e-05, + "loss": 0.0102, + "step": 139060 + }, + { + "epoch": 0.890016, + "grad_norm": 0.05579402297735214, + "learning_rate": 1.406656e-05, + "loss": 0.0043, + "step": 139065 + }, + { + "epoch": 0.890048, + "grad_norm": 0.12010746449232101, + "learning_rate": 1.4066346666666668e-05, + "loss": 0.0017, + "step": 139070 + }, + { + "epoch": 0.89008, + "grad_norm": 0.1266649067401886, + "learning_rate": 1.4066133333333334e-05, + "loss": 0.0042, + "step": 139075 + }, + { + "epoch": 0.890112, + "grad_norm": 2.915748119354248, + "learning_rate": 1.4065920000000002e-05, + "loss": 0.0115, + "step": 139080 + }, + { + "epoch": 0.890144, + "grad_norm": 0.02195579558610916, + "learning_rate": 1.4065706666666668e-05, + "loss": 0.0037, + "step": 139085 + }, + { + "epoch": 0.890176, + "grad_norm": 0.2972669303417206, + "learning_rate": 1.4065493333333335e-05, + "loss": 0.0032, + "step": 139090 + }, + { + "epoch": 0.890208, + "grad_norm": 0.5749179720878601, + "learning_rate": 1.4065280000000001e-05, + "loss": 0.0116, + "step": 139095 + }, + { + "epoch": 0.89024, + "grad_norm": 0.26894548535346985, + "learning_rate": 1.4065066666666667e-05, + "loss": 0.0072, + "step": 139100 + }, + { + "epoch": 0.890272, + "grad_norm": 0.700960099697113, + "learning_rate": 1.4064853333333334e-05, + "loss": 0.0138, + "step": 139105 + }, + { + "epoch": 0.890304, + "grad_norm": 0.344948410987854, + "learning_rate": 1.406464e-05, + "loss": 0.0111, + "step": 139110 + }, + { + "epoch": 0.890336, + "grad_norm": 0.028264079242944717, + "learning_rate": 1.4064426666666668e-05, + "loss": 0.0071, + "step": 139115 + }, + { + "epoch": 0.890368, + "grad_norm": 0.04722196236252785, + "learning_rate": 1.4064213333333334e-05, + "loss": 0.0089, + "step": 139120 + }, + { + "epoch": 0.8904, + "grad_norm": 0.022958163172006607, + "learning_rate": 1.4064000000000003e-05, + "loss": 0.0037, + "step": 139125 + }, + { + "epoch": 0.890432, + "grad_norm": 0.14160756766796112, + "learning_rate": 1.4063786666666667e-05, + "loss": 0.0176, + "step": 139130 + }, + { + "epoch": 0.890464, + "grad_norm": 0.3617803156375885, + "learning_rate": 1.4063573333333333e-05, + "loss": 0.0075, + "step": 139135 + }, + { + "epoch": 0.890496, + "grad_norm": 0.27135178446769714, + "learning_rate": 1.4063360000000002e-05, + "loss": 0.0065, + "step": 139140 + }, + { + "epoch": 0.890528, + "grad_norm": 0.03436019644141197, + "learning_rate": 1.4063146666666666e-05, + "loss": 0.0188, + "step": 139145 + }, + { + "epoch": 0.89056, + "grad_norm": 0.7870421409606934, + "learning_rate": 1.4062933333333336e-05, + "loss": 0.0226, + "step": 139150 + }, + { + "epoch": 0.890592, + "grad_norm": 0.7750846147537231, + "learning_rate": 1.4062720000000001e-05, + "loss": 0.008, + "step": 139155 + }, + { + "epoch": 0.890624, + "grad_norm": 0.1222112625837326, + "learning_rate": 1.4062506666666669e-05, + "loss": 0.0055, + "step": 139160 + }, + { + "epoch": 0.890656, + "grad_norm": 0.060627810657024384, + "learning_rate": 1.4062293333333335e-05, + "loss": 0.0153, + "step": 139165 + }, + { + "epoch": 0.890688, + "grad_norm": 2.0279760360717773, + "learning_rate": 1.406208e-05, + "loss": 0.0242, + "step": 139170 + }, + { + "epoch": 0.89072, + "grad_norm": 1.0551410913467407, + "learning_rate": 1.4061866666666668e-05, + "loss": 0.0252, + "step": 139175 + }, + { + "epoch": 0.890752, + "grad_norm": 0.6110187768936157, + "learning_rate": 1.4061653333333334e-05, + "loss": 0.0078, + "step": 139180 + }, + { + "epoch": 0.890784, + "grad_norm": 0.0838482603430748, + "learning_rate": 1.4061440000000002e-05, + "loss": 0.0046, + "step": 139185 + }, + { + "epoch": 0.890816, + "grad_norm": 0.20033900439739227, + "learning_rate": 1.4061226666666668e-05, + "loss": 0.0077, + "step": 139190 + }, + { + "epoch": 0.890848, + "grad_norm": 0.49372398853302, + "learning_rate": 1.4061013333333335e-05, + "loss": 0.0084, + "step": 139195 + }, + { + "epoch": 0.89088, + "grad_norm": 0.17994354665279388, + "learning_rate": 1.4060800000000001e-05, + "loss": 0.0026, + "step": 139200 + }, + { + "epoch": 0.890912, + "grad_norm": 2.326233148574829, + "learning_rate": 1.4060586666666667e-05, + "loss": 0.0121, + "step": 139205 + }, + { + "epoch": 0.890944, + "grad_norm": 0.4397696256637573, + "learning_rate": 1.4060373333333334e-05, + "loss": 0.0063, + "step": 139210 + }, + { + "epoch": 0.890976, + "grad_norm": 0.05344986915588379, + "learning_rate": 1.406016e-05, + "loss": 0.0021, + "step": 139215 + }, + { + "epoch": 0.891008, + "grad_norm": 0.10049034655094147, + "learning_rate": 1.4059946666666668e-05, + "loss": 0.0032, + "step": 139220 + }, + { + "epoch": 0.89104, + "grad_norm": 0.1910480558872223, + "learning_rate": 1.4059733333333334e-05, + "loss": 0.0084, + "step": 139225 + }, + { + "epoch": 0.891072, + "grad_norm": 0.10053490847349167, + "learning_rate": 1.4059520000000001e-05, + "loss": 0.0035, + "step": 139230 + }, + { + "epoch": 0.891104, + "grad_norm": 0.2130313217639923, + "learning_rate": 1.4059306666666667e-05, + "loss": 0.0049, + "step": 139235 + }, + { + "epoch": 0.891136, + "grad_norm": 0.1974237710237503, + "learning_rate": 1.4059093333333333e-05, + "loss": 0.0019, + "step": 139240 + }, + { + "epoch": 0.891168, + "grad_norm": 0.3913840353488922, + "learning_rate": 1.4058880000000002e-05, + "loss": 0.0246, + "step": 139245 + }, + { + "epoch": 0.8912, + "grad_norm": 0.8598051071166992, + "learning_rate": 1.4058666666666666e-05, + "loss": 0.0138, + "step": 139250 + }, + { + "epoch": 0.891232, + "grad_norm": 0.15970967710018158, + "learning_rate": 1.4058453333333336e-05, + "loss": 0.002, + "step": 139255 + }, + { + "epoch": 0.891264, + "grad_norm": 1.2044916152954102, + "learning_rate": 1.4058240000000001e-05, + "loss": 0.0136, + "step": 139260 + }, + { + "epoch": 0.891296, + "grad_norm": 1.0612678527832031, + "learning_rate": 1.4058026666666669e-05, + "loss": 0.0162, + "step": 139265 + }, + { + "epoch": 0.891328, + "grad_norm": 0.9832587838172913, + "learning_rate": 1.4057813333333335e-05, + "loss": 0.0177, + "step": 139270 + }, + { + "epoch": 0.89136, + "grad_norm": 0.351813405752182, + "learning_rate": 1.40576e-05, + "loss": 0.0075, + "step": 139275 + }, + { + "epoch": 0.891392, + "grad_norm": 0.7902281284332275, + "learning_rate": 1.4057386666666668e-05, + "loss": 0.0178, + "step": 139280 + }, + { + "epoch": 0.891424, + "grad_norm": 0.0858282744884491, + "learning_rate": 1.4057173333333334e-05, + "loss": 0.008, + "step": 139285 + }, + { + "epoch": 0.891456, + "grad_norm": 0.5183619260787964, + "learning_rate": 1.4056960000000002e-05, + "loss": 0.0046, + "step": 139290 + }, + { + "epoch": 0.891488, + "grad_norm": 0.28202199935913086, + "learning_rate": 1.4056746666666668e-05, + "loss": 0.0047, + "step": 139295 + }, + { + "epoch": 0.89152, + "grad_norm": 1.598191261291504, + "learning_rate": 1.4056533333333335e-05, + "loss": 0.017, + "step": 139300 + }, + { + "epoch": 0.891552, + "grad_norm": 0.43998080492019653, + "learning_rate": 1.4056320000000001e-05, + "loss": 0.0057, + "step": 139305 + }, + { + "epoch": 0.891584, + "grad_norm": 0.4740564227104187, + "learning_rate": 1.4056106666666667e-05, + "loss": 0.012, + "step": 139310 + }, + { + "epoch": 0.891616, + "grad_norm": 0.09459439665079117, + "learning_rate": 1.4055893333333334e-05, + "loss": 0.0069, + "step": 139315 + }, + { + "epoch": 0.891648, + "grad_norm": 0.8034422993659973, + "learning_rate": 1.405568e-05, + "loss": 0.0116, + "step": 139320 + }, + { + "epoch": 0.89168, + "grad_norm": 1.1092621088027954, + "learning_rate": 1.4055466666666668e-05, + "loss": 0.015, + "step": 139325 + }, + { + "epoch": 0.891712, + "grad_norm": 0.20393888652324677, + "learning_rate": 1.4055253333333334e-05, + "loss": 0.0093, + "step": 139330 + }, + { + "epoch": 0.891744, + "grad_norm": 0.4736000895500183, + "learning_rate": 1.4055040000000001e-05, + "loss": 0.0023, + "step": 139335 + }, + { + "epoch": 0.891776, + "grad_norm": 0.8512256145477295, + "learning_rate": 1.4054826666666667e-05, + "loss": 0.0175, + "step": 139340 + }, + { + "epoch": 0.891808, + "grad_norm": 0.8625224828720093, + "learning_rate": 1.4054613333333333e-05, + "loss": 0.0183, + "step": 139345 + }, + { + "epoch": 0.89184, + "grad_norm": 0.2818755507469177, + "learning_rate": 1.4054400000000002e-05, + "loss": 0.0044, + "step": 139350 + }, + { + "epoch": 0.891872, + "grad_norm": 0.9480933547019958, + "learning_rate": 1.4054186666666666e-05, + "loss": 0.0066, + "step": 139355 + }, + { + "epoch": 0.891904, + "grad_norm": 0.06888921558856964, + "learning_rate": 1.4053973333333336e-05, + "loss": 0.0043, + "step": 139360 + }, + { + "epoch": 0.891936, + "grad_norm": 0.027294030413031578, + "learning_rate": 1.4053760000000001e-05, + "loss": 0.0023, + "step": 139365 + }, + { + "epoch": 0.891968, + "grad_norm": 0.3951442539691925, + "learning_rate": 1.4053546666666669e-05, + "loss": 0.0143, + "step": 139370 + }, + { + "epoch": 0.892, + "grad_norm": 0.7748928666114807, + "learning_rate": 1.4053333333333335e-05, + "loss": 0.0107, + "step": 139375 + }, + { + "epoch": 0.892032, + "grad_norm": 0.02145625837147236, + "learning_rate": 1.405312e-05, + "loss": 0.005, + "step": 139380 + }, + { + "epoch": 0.892064, + "grad_norm": 0.3460596799850464, + "learning_rate": 1.4052906666666668e-05, + "loss": 0.005, + "step": 139385 + }, + { + "epoch": 0.892096, + "grad_norm": 0.03172580152750015, + "learning_rate": 1.4052693333333334e-05, + "loss": 0.0068, + "step": 139390 + }, + { + "epoch": 0.892128, + "grad_norm": 0.04758121445775032, + "learning_rate": 1.4052480000000002e-05, + "loss": 0.011, + "step": 139395 + }, + { + "epoch": 0.89216, + "grad_norm": 0.061323653906583786, + "learning_rate": 1.4052266666666668e-05, + "loss": 0.002, + "step": 139400 + }, + { + "epoch": 0.892192, + "grad_norm": 1.3719215393066406, + "learning_rate": 1.4052053333333335e-05, + "loss": 0.0058, + "step": 139405 + }, + { + "epoch": 0.892224, + "grad_norm": 0.09901835769414902, + "learning_rate": 1.4051840000000001e-05, + "loss": 0.0123, + "step": 139410 + }, + { + "epoch": 0.892256, + "grad_norm": 0.3144533038139343, + "learning_rate": 1.4051626666666667e-05, + "loss": 0.0107, + "step": 139415 + }, + { + "epoch": 0.892288, + "grad_norm": 0.851534903049469, + "learning_rate": 1.4051413333333334e-05, + "loss": 0.0188, + "step": 139420 + }, + { + "epoch": 0.89232, + "grad_norm": 0.24445389211177826, + "learning_rate": 1.40512e-05, + "loss": 0.0034, + "step": 139425 + }, + { + "epoch": 0.892352, + "grad_norm": 0.12165813893079758, + "learning_rate": 1.4050986666666668e-05, + "loss": 0.0213, + "step": 139430 + }, + { + "epoch": 0.892384, + "grad_norm": 1.3694298267364502, + "learning_rate": 1.4050773333333334e-05, + "loss": 0.0107, + "step": 139435 + }, + { + "epoch": 0.892416, + "grad_norm": 0.3169037103652954, + "learning_rate": 1.4050560000000001e-05, + "loss": 0.0084, + "step": 139440 + }, + { + "epoch": 0.892448, + "grad_norm": 0.22533048689365387, + "learning_rate": 1.4050346666666667e-05, + "loss": 0.0046, + "step": 139445 + }, + { + "epoch": 0.89248, + "grad_norm": 0.0621325708925724, + "learning_rate": 1.4050133333333333e-05, + "loss": 0.0103, + "step": 139450 + }, + { + "epoch": 0.892512, + "grad_norm": 0.8644763827323914, + "learning_rate": 1.404992e-05, + "loss": 0.0079, + "step": 139455 + }, + { + "epoch": 0.892544, + "grad_norm": 0.04025048017501831, + "learning_rate": 1.4049706666666666e-05, + "loss": 0.0026, + "step": 139460 + }, + { + "epoch": 0.892576, + "grad_norm": 0.41358426213264465, + "learning_rate": 1.4049493333333336e-05, + "loss": 0.002, + "step": 139465 + }, + { + "epoch": 0.892608, + "grad_norm": 0.5130184888839722, + "learning_rate": 1.4049280000000001e-05, + "loss": 0.0074, + "step": 139470 + }, + { + "epoch": 0.89264, + "grad_norm": 0.28104203939437866, + "learning_rate": 1.4049066666666669e-05, + "loss": 0.0079, + "step": 139475 + }, + { + "epoch": 0.892672, + "grad_norm": 0.5048074722290039, + "learning_rate": 1.4048853333333335e-05, + "loss": 0.0057, + "step": 139480 + }, + { + "epoch": 0.892704, + "grad_norm": 0.03414490446448326, + "learning_rate": 1.404864e-05, + "loss": 0.0142, + "step": 139485 + }, + { + "epoch": 0.892736, + "grad_norm": 0.3551356792449951, + "learning_rate": 1.4048426666666668e-05, + "loss": 0.0156, + "step": 139490 + }, + { + "epoch": 0.892768, + "grad_norm": 0.2215529829263687, + "learning_rate": 1.4048213333333334e-05, + "loss": 0.0118, + "step": 139495 + }, + { + "epoch": 0.8928, + "grad_norm": 0.02397770807147026, + "learning_rate": 1.4048000000000002e-05, + "loss": 0.0029, + "step": 139500 + }, + { + "epoch": 0.892832, + "grad_norm": 0.754751980304718, + "learning_rate": 1.4047786666666668e-05, + "loss": 0.01, + "step": 139505 + }, + { + "epoch": 0.892864, + "grad_norm": 0.3531104028224945, + "learning_rate": 1.4047573333333335e-05, + "loss": 0.0055, + "step": 139510 + }, + { + "epoch": 0.892896, + "grad_norm": 0.012576869688928127, + "learning_rate": 1.4047360000000001e-05, + "loss": 0.0009, + "step": 139515 + }, + { + "epoch": 0.892928, + "grad_norm": 0.5715769529342651, + "learning_rate": 1.4047146666666667e-05, + "loss": 0.0063, + "step": 139520 + }, + { + "epoch": 0.89296, + "grad_norm": 1.4405314922332764, + "learning_rate": 1.4046933333333334e-05, + "loss": 0.007, + "step": 139525 + }, + { + "epoch": 0.892992, + "grad_norm": 0.6998159885406494, + "learning_rate": 1.404672e-05, + "loss": 0.008, + "step": 139530 + }, + { + "epoch": 0.893024, + "grad_norm": 0.2476211041212082, + "learning_rate": 1.4046506666666668e-05, + "loss": 0.0033, + "step": 139535 + }, + { + "epoch": 0.893056, + "grad_norm": 0.01602882891893387, + "learning_rate": 1.4046293333333334e-05, + "loss": 0.012, + "step": 139540 + }, + { + "epoch": 0.893088, + "grad_norm": 0.21592122316360474, + "learning_rate": 1.4046080000000001e-05, + "loss": 0.003, + "step": 139545 + }, + { + "epoch": 0.89312, + "grad_norm": 0.07949556410312653, + "learning_rate": 1.4045866666666667e-05, + "loss": 0.0034, + "step": 139550 + }, + { + "epoch": 0.893152, + "grad_norm": 0.3739961087703705, + "learning_rate": 1.4045653333333336e-05, + "loss": 0.0064, + "step": 139555 + }, + { + "epoch": 0.893184, + "grad_norm": 0.18163719773292542, + "learning_rate": 1.404544e-05, + "loss": 0.0047, + "step": 139560 + }, + { + "epoch": 0.893216, + "grad_norm": 0.7721449732780457, + "learning_rate": 1.4045226666666666e-05, + "loss": 0.0258, + "step": 139565 + }, + { + "epoch": 0.893248, + "grad_norm": 0.6055457592010498, + "learning_rate": 1.4045013333333336e-05, + "loss": 0.0076, + "step": 139570 + }, + { + "epoch": 0.89328, + "grad_norm": 0.04824724793434143, + "learning_rate": 1.4044800000000001e-05, + "loss": 0.009, + "step": 139575 + }, + { + "epoch": 0.893312, + "grad_norm": 0.6353374719619751, + "learning_rate": 1.4044586666666669e-05, + "loss": 0.0092, + "step": 139580 + }, + { + "epoch": 0.893344, + "grad_norm": 0.1779412478208542, + "learning_rate": 1.4044373333333335e-05, + "loss": 0.0042, + "step": 139585 + }, + { + "epoch": 0.893376, + "grad_norm": 0.08277834951877594, + "learning_rate": 1.4044160000000002e-05, + "loss": 0.0265, + "step": 139590 + }, + { + "epoch": 0.893408, + "grad_norm": 0.15956494212150574, + "learning_rate": 1.4043946666666668e-05, + "loss": 0.0092, + "step": 139595 + }, + { + "epoch": 0.89344, + "grad_norm": 0.05210892856121063, + "learning_rate": 1.4043733333333334e-05, + "loss": 0.0055, + "step": 139600 + }, + { + "epoch": 0.893472, + "grad_norm": 0.22163976728916168, + "learning_rate": 1.4043520000000002e-05, + "loss": 0.0113, + "step": 139605 + }, + { + "epoch": 0.893504, + "grad_norm": 1.6877590417861938, + "learning_rate": 1.4043306666666668e-05, + "loss": 0.006, + "step": 139610 + }, + { + "epoch": 0.893536, + "grad_norm": 1.168860912322998, + "learning_rate": 1.4043093333333335e-05, + "loss": 0.0228, + "step": 139615 + }, + { + "epoch": 0.893568, + "grad_norm": 0.42170634865760803, + "learning_rate": 1.4042880000000001e-05, + "loss": 0.0138, + "step": 139620 + }, + { + "epoch": 0.8936, + "grad_norm": 0.6949247121810913, + "learning_rate": 1.4042666666666669e-05, + "loss": 0.008, + "step": 139625 + }, + { + "epoch": 0.893632, + "grad_norm": 0.882774829864502, + "learning_rate": 1.4042453333333334e-05, + "loss": 0.0233, + "step": 139630 + }, + { + "epoch": 0.893664, + "grad_norm": 0.9099765419960022, + "learning_rate": 1.404224e-05, + "loss": 0.0191, + "step": 139635 + }, + { + "epoch": 0.893696, + "grad_norm": 1.3751106262207031, + "learning_rate": 1.4042026666666668e-05, + "loss": 0.0097, + "step": 139640 + }, + { + "epoch": 0.893728, + "grad_norm": 0.08083293586969376, + "learning_rate": 1.4041813333333334e-05, + "loss": 0.0121, + "step": 139645 + }, + { + "epoch": 0.89376, + "grad_norm": 0.02841322124004364, + "learning_rate": 1.4041600000000001e-05, + "loss": 0.0141, + "step": 139650 + }, + { + "epoch": 0.893792, + "grad_norm": 0.5574776530265808, + "learning_rate": 1.4041386666666667e-05, + "loss": 0.0139, + "step": 139655 + }, + { + "epoch": 0.893824, + "grad_norm": 1.291864037513733, + "learning_rate": 1.4041173333333336e-05, + "loss": 0.0273, + "step": 139660 + }, + { + "epoch": 0.893856, + "grad_norm": 0.4154338538646698, + "learning_rate": 1.404096e-05, + "loss": 0.0162, + "step": 139665 + }, + { + "epoch": 0.893888, + "grad_norm": 0.022797854617238045, + "learning_rate": 1.4040746666666666e-05, + "loss": 0.0119, + "step": 139670 + }, + { + "epoch": 0.89392, + "grad_norm": 0.5793432593345642, + "learning_rate": 1.4040533333333336e-05, + "loss": 0.0071, + "step": 139675 + }, + { + "epoch": 0.893952, + "grad_norm": 0.6650503277778625, + "learning_rate": 1.404032e-05, + "loss": 0.0066, + "step": 139680 + }, + { + "epoch": 0.893984, + "grad_norm": 0.12302334606647491, + "learning_rate": 1.4040106666666669e-05, + "loss": 0.0074, + "step": 139685 + }, + { + "epoch": 0.894016, + "grad_norm": 0.4448581635951996, + "learning_rate": 1.4039893333333335e-05, + "loss": 0.0169, + "step": 139690 + }, + { + "epoch": 0.894048, + "grad_norm": 0.18491744995117188, + "learning_rate": 1.4039680000000002e-05, + "loss": 0.0025, + "step": 139695 + }, + { + "epoch": 0.89408, + "grad_norm": 0.18473385274410248, + "learning_rate": 1.4039466666666668e-05, + "loss": 0.0016, + "step": 139700 + }, + { + "epoch": 0.894112, + "grad_norm": 0.1139066070318222, + "learning_rate": 1.4039253333333334e-05, + "loss": 0.0035, + "step": 139705 + }, + { + "epoch": 0.894144, + "grad_norm": 0.9929758310317993, + "learning_rate": 1.4039040000000002e-05, + "loss": 0.0057, + "step": 139710 + }, + { + "epoch": 0.894176, + "grad_norm": 0.10508028417825699, + "learning_rate": 1.4038826666666668e-05, + "loss": 0.0055, + "step": 139715 + }, + { + "epoch": 0.894208, + "grad_norm": 0.7130600214004517, + "learning_rate": 1.4038613333333335e-05, + "loss": 0.0029, + "step": 139720 + }, + { + "epoch": 0.89424, + "grad_norm": 0.033277932554483414, + "learning_rate": 1.4038400000000001e-05, + "loss": 0.0066, + "step": 139725 + }, + { + "epoch": 0.894272, + "grad_norm": 0.24450816214084625, + "learning_rate": 1.4038186666666669e-05, + "loss": 0.0042, + "step": 139730 + }, + { + "epoch": 0.894304, + "grad_norm": 0.023986775428056717, + "learning_rate": 1.4037973333333334e-05, + "loss": 0.0022, + "step": 139735 + }, + { + "epoch": 0.894336, + "grad_norm": 0.5488578677177429, + "learning_rate": 1.403776e-05, + "loss": 0.0182, + "step": 139740 + }, + { + "epoch": 0.894368, + "grad_norm": 0.01942620426416397, + "learning_rate": 1.4037546666666668e-05, + "loss": 0.0038, + "step": 139745 + }, + { + "epoch": 0.8944, + "grad_norm": 0.5810461640357971, + "learning_rate": 1.4037333333333334e-05, + "loss": 0.0109, + "step": 139750 + }, + { + "epoch": 0.894432, + "grad_norm": 0.4116145372390747, + "learning_rate": 1.4037120000000001e-05, + "loss": 0.0043, + "step": 139755 + }, + { + "epoch": 0.894464, + "grad_norm": 0.09089121222496033, + "learning_rate": 1.4036906666666667e-05, + "loss": 0.0068, + "step": 139760 + }, + { + "epoch": 0.894496, + "grad_norm": 0.11447218060493469, + "learning_rate": 1.4036693333333336e-05, + "loss": 0.0022, + "step": 139765 + }, + { + "epoch": 0.894528, + "grad_norm": 0.02007315866649151, + "learning_rate": 1.403648e-05, + "loss": 0.0036, + "step": 139770 + }, + { + "epoch": 0.89456, + "grad_norm": 0.40913134813308716, + "learning_rate": 1.4036266666666666e-05, + "loss": 0.0036, + "step": 139775 + }, + { + "epoch": 0.894592, + "grad_norm": 0.2604762613773346, + "learning_rate": 1.4036053333333336e-05, + "loss": 0.0149, + "step": 139780 + }, + { + "epoch": 0.894624, + "grad_norm": 0.7759448289871216, + "learning_rate": 1.403584e-05, + "loss": 0.005, + "step": 139785 + }, + { + "epoch": 0.894656, + "grad_norm": 0.33698976039886475, + "learning_rate": 1.4035626666666669e-05, + "loss": 0.004, + "step": 139790 + }, + { + "epoch": 0.894688, + "grad_norm": 0.36588719487190247, + "learning_rate": 1.4035413333333335e-05, + "loss": 0.0139, + "step": 139795 + }, + { + "epoch": 0.89472, + "grad_norm": 0.12811388075351715, + "learning_rate": 1.4035200000000002e-05, + "loss": 0.0072, + "step": 139800 + }, + { + "epoch": 0.894752, + "grad_norm": 0.07467719167470932, + "learning_rate": 1.4034986666666668e-05, + "loss": 0.0141, + "step": 139805 + }, + { + "epoch": 0.894784, + "grad_norm": 1.0000765323638916, + "learning_rate": 1.4034773333333334e-05, + "loss": 0.0109, + "step": 139810 + }, + { + "epoch": 0.894816, + "grad_norm": 0.35165515542030334, + "learning_rate": 1.4034560000000002e-05, + "loss": 0.0013, + "step": 139815 + }, + { + "epoch": 0.894848, + "grad_norm": 1.9793384075164795, + "learning_rate": 1.4034346666666668e-05, + "loss": 0.0148, + "step": 139820 + }, + { + "epoch": 0.89488, + "grad_norm": 0.8012643456459045, + "learning_rate": 1.4034133333333335e-05, + "loss": 0.0058, + "step": 139825 + }, + { + "epoch": 0.894912, + "grad_norm": 1.5324232578277588, + "learning_rate": 1.4033920000000001e-05, + "loss": 0.0086, + "step": 139830 + }, + { + "epoch": 0.894944, + "grad_norm": 0.5210279822349548, + "learning_rate": 1.4033706666666669e-05, + "loss": 0.0088, + "step": 139835 + }, + { + "epoch": 0.894976, + "grad_norm": 0.04839331656694412, + "learning_rate": 1.4033493333333334e-05, + "loss": 0.0009, + "step": 139840 + }, + { + "epoch": 0.895008, + "grad_norm": 1.989855408668518, + "learning_rate": 1.403328e-05, + "loss": 0.0089, + "step": 139845 + }, + { + "epoch": 0.89504, + "grad_norm": 0.2512206733226776, + "learning_rate": 1.4033066666666668e-05, + "loss": 0.0114, + "step": 139850 + }, + { + "epoch": 0.895072, + "grad_norm": 0.3955111503601074, + "learning_rate": 1.4032853333333334e-05, + "loss": 0.0037, + "step": 139855 + }, + { + "epoch": 0.895104, + "grad_norm": 0.6838973164558411, + "learning_rate": 1.4032640000000001e-05, + "loss": 0.0217, + "step": 139860 + }, + { + "epoch": 0.895136, + "grad_norm": 1.8982089757919312, + "learning_rate": 1.4032426666666667e-05, + "loss": 0.0087, + "step": 139865 + }, + { + "epoch": 0.895168, + "grad_norm": 0.29217982292175293, + "learning_rate": 1.4032213333333335e-05, + "loss": 0.0043, + "step": 139870 + }, + { + "epoch": 0.8952, + "grad_norm": 0.40639370679855347, + "learning_rate": 1.4032e-05, + "loss": 0.0046, + "step": 139875 + }, + { + "epoch": 0.895232, + "grad_norm": 0.7414817214012146, + "learning_rate": 1.4031786666666666e-05, + "loss": 0.0065, + "step": 139880 + }, + { + "epoch": 0.895264, + "grad_norm": 0.5796363949775696, + "learning_rate": 1.4031573333333336e-05, + "loss": 0.0061, + "step": 139885 + }, + { + "epoch": 0.895296, + "grad_norm": 0.08875005692243576, + "learning_rate": 1.403136e-05, + "loss": 0.0141, + "step": 139890 + }, + { + "epoch": 0.895328, + "grad_norm": 0.08547136187553406, + "learning_rate": 1.4031146666666669e-05, + "loss": 0.0203, + "step": 139895 + }, + { + "epoch": 0.89536, + "grad_norm": 0.159928098320961, + "learning_rate": 1.4030933333333335e-05, + "loss": 0.016, + "step": 139900 + }, + { + "epoch": 0.895392, + "grad_norm": 0.5709209442138672, + "learning_rate": 1.4030720000000002e-05, + "loss": 0.0217, + "step": 139905 + }, + { + "epoch": 0.895424, + "grad_norm": 0.1570558100938797, + "learning_rate": 1.4030506666666668e-05, + "loss": 0.0062, + "step": 139910 + }, + { + "epoch": 0.895456, + "grad_norm": 0.5311475992202759, + "learning_rate": 1.4030293333333334e-05, + "loss": 0.0136, + "step": 139915 + }, + { + "epoch": 0.895488, + "grad_norm": 0.46241557598114014, + "learning_rate": 1.4030080000000002e-05, + "loss": 0.0072, + "step": 139920 + }, + { + "epoch": 0.89552, + "grad_norm": 0.3787666857242584, + "learning_rate": 1.4029866666666668e-05, + "loss": 0.0035, + "step": 139925 + }, + { + "epoch": 0.895552, + "grad_norm": 0.04747019708156586, + "learning_rate": 1.4029653333333335e-05, + "loss": 0.024, + "step": 139930 + }, + { + "epoch": 0.895584, + "grad_norm": 0.27881258726119995, + "learning_rate": 1.4029440000000001e-05, + "loss": 0.0106, + "step": 139935 + }, + { + "epoch": 0.895616, + "grad_norm": 0.9338908791542053, + "learning_rate": 1.4029226666666669e-05, + "loss": 0.0136, + "step": 139940 + }, + { + "epoch": 0.895648, + "grad_norm": 0.4639967083930969, + "learning_rate": 1.4029013333333334e-05, + "loss": 0.0053, + "step": 139945 + }, + { + "epoch": 0.89568, + "grad_norm": 0.3768559396266937, + "learning_rate": 1.40288e-05, + "loss": 0.0127, + "step": 139950 + }, + { + "epoch": 0.895712, + "grad_norm": 0.5998505353927612, + "learning_rate": 1.4028586666666668e-05, + "loss": 0.0047, + "step": 139955 + }, + { + "epoch": 0.895744, + "grad_norm": 0.18148313462734222, + "learning_rate": 1.4028373333333334e-05, + "loss": 0.006, + "step": 139960 + }, + { + "epoch": 0.895776, + "grad_norm": 0.08590129017829895, + "learning_rate": 1.4028160000000001e-05, + "loss": 0.0022, + "step": 139965 + }, + { + "epoch": 0.895808, + "grad_norm": 0.5296813249588013, + "learning_rate": 1.4027946666666667e-05, + "loss": 0.005, + "step": 139970 + }, + { + "epoch": 0.89584, + "grad_norm": 0.18307632207870483, + "learning_rate": 1.4027733333333335e-05, + "loss": 0.009, + "step": 139975 + }, + { + "epoch": 0.895872, + "grad_norm": 0.030420441180467606, + "learning_rate": 1.402752e-05, + "loss": 0.0093, + "step": 139980 + }, + { + "epoch": 0.895904, + "grad_norm": 0.359878808259964, + "learning_rate": 1.4027306666666666e-05, + "loss": 0.0125, + "step": 139985 + }, + { + "epoch": 0.895936, + "grad_norm": 0.12684214115142822, + "learning_rate": 1.4027093333333336e-05, + "loss": 0.0066, + "step": 139990 + }, + { + "epoch": 0.895968, + "grad_norm": 0.026958448812365532, + "learning_rate": 1.402688e-05, + "loss": 0.0054, + "step": 139995 + }, + { + "epoch": 0.896, + "grad_norm": 0.6443648338317871, + "learning_rate": 1.4026666666666669e-05, + "loss": 0.0066, + "step": 140000 + }, + { + "epoch": 0.896032, + "grad_norm": 0.05826914682984352, + "learning_rate": 1.4026453333333335e-05, + "loss": 0.0089, + "step": 140005 + }, + { + "epoch": 0.896064, + "grad_norm": 0.8008387684822083, + "learning_rate": 1.4026240000000002e-05, + "loss": 0.0103, + "step": 140010 + }, + { + "epoch": 0.896096, + "grad_norm": 0.12789000570774078, + "learning_rate": 1.4026026666666668e-05, + "loss": 0.0077, + "step": 140015 + }, + { + "epoch": 0.896128, + "grad_norm": 0.06892295181751251, + "learning_rate": 1.4025813333333334e-05, + "loss": 0.006, + "step": 140020 + }, + { + "epoch": 0.89616, + "grad_norm": 0.018633496016263962, + "learning_rate": 1.4025600000000002e-05, + "loss": 0.0036, + "step": 140025 + }, + { + "epoch": 0.896192, + "grad_norm": 1.7525525093078613, + "learning_rate": 1.4025386666666668e-05, + "loss": 0.0164, + "step": 140030 + }, + { + "epoch": 0.896224, + "grad_norm": 0.5565893054008484, + "learning_rate": 1.4025173333333335e-05, + "loss": 0.0092, + "step": 140035 + }, + { + "epoch": 0.896256, + "grad_norm": 0.38214829564094543, + "learning_rate": 1.4024960000000001e-05, + "loss": 0.0098, + "step": 140040 + }, + { + "epoch": 0.896288, + "grad_norm": 0.6010819673538208, + "learning_rate": 1.4024746666666669e-05, + "loss": 0.0118, + "step": 140045 + }, + { + "epoch": 0.89632, + "grad_norm": 0.19852665066719055, + "learning_rate": 1.4024533333333334e-05, + "loss": 0.0015, + "step": 140050 + }, + { + "epoch": 0.896352, + "grad_norm": 0.018013810738921165, + "learning_rate": 1.402432e-05, + "loss": 0.0081, + "step": 140055 + }, + { + "epoch": 0.896384, + "grad_norm": 0.012797011062502861, + "learning_rate": 1.4024106666666668e-05, + "loss": 0.0033, + "step": 140060 + }, + { + "epoch": 0.896416, + "grad_norm": 0.020296555012464523, + "learning_rate": 1.4023893333333334e-05, + "loss": 0.0065, + "step": 140065 + }, + { + "epoch": 0.896448, + "grad_norm": 0.2466057986021042, + "learning_rate": 1.4023680000000001e-05, + "loss": 0.0075, + "step": 140070 + }, + { + "epoch": 0.89648, + "grad_norm": 0.051720473915338516, + "learning_rate": 1.4023466666666667e-05, + "loss": 0.0133, + "step": 140075 + }, + { + "epoch": 0.896512, + "grad_norm": 0.48421981930732727, + "learning_rate": 1.4023253333333335e-05, + "loss": 0.0034, + "step": 140080 + }, + { + "epoch": 0.896544, + "grad_norm": 0.9151349663734436, + "learning_rate": 1.402304e-05, + "loss": 0.0265, + "step": 140085 + }, + { + "epoch": 0.896576, + "grad_norm": 0.0495794340968132, + "learning_rate": 1.4022826666666666e-05, + "loss": 0.0023, + "step": 140090 + }, + { + "epoch": 0.896608, + "grad_norm": 0.09402943402528763, + "learning_rate": 1.4022613333333334e-05, + "loss": 0.0046, + "step": 140095 + }, + { + "epoch": 0.89664, + "grad_norm": 0.061705391854047775, + "learning_rate": 1.40224e-05, + "loss": 0.02, + "step": 140100 + }, + { + "epoch": 0.896672, + "grad_norm": 0.0623159296810627, + "learning_rate": 1.4022186666666669e-05, + "loss": 0.007, + "step": 140105 + }, + { + "epoch": 0.896704, + "grad_norm": 0.38883113861083984, + "learning_rate": 1.4021973333333335e-05, + "loss": 0.0173, + "step": 140110 + }, + { + "epoch": 0.896736, + "grad_norm": 0.4042885899543762, + "learning_rate": 1.4021760000000002e-05, + "loss": 0.017, + "step": 140115 + }, + { + "epoch": 0.896768, + "grad_norm": 0.48368367552757263, + "learning_rate": 1.4021546666666668e-05, + "loss": 0.0098, + "step": 140120 + }, + { + "epoch": 0.8968, + "grad_norm": 0.25689953565597534, + "learning_rate": 1.4021333333333334e-05, + "loss": 0.0117, + "step": 140125 + }, + { + "epoch": 0.896832, + "grad_norm": 0.17327983677387238, + "learning_rate": 1.4021120000000002e-05, + "loss": 0.0165, + "step": 140130 + }, + { + "epoch": 0.896864, + "grad_norm": 1.206003189086914, + "learning_rate": 1.4020906666666668e-05, + "loss": 0.0141, + "step": 140135 + }, + { + "epoch": 0.896896, + "grad_norm": 0.14409668743610382, + "learning_rate": 1.4020693333333335e-05, + "loss": 0.0026, + "step": 140140 + }, + { + "epoch": 0.896928, + "grad_norm": 0.09342624247074127, + "learning_rate": 1.4020480000000001e-05, + "loss": 0.0042, + "step": 140145 + }, + { + "epoch": 0.89696, + "grad_norm": 0.4234331250190735, + "learning_rate": 1.4020266666666669e-05, + "loss": 0.0097, + "step": 140150 + }, + { + "epoch": 0.896992, + "grad_norm": 0.33779874444007874, + "learning_rate": 1.4020053333333334e-05, + "loss": 0.0119, + "step": 140155 + }, + { + "epoch": 0.897024, + "grad_norm": 0.11616893112659454, + "learning_rate": 1.401984e-05, + "loss": 0.0031, + "step": 140160 + }, + { + "epoch": 0.897056, + "grad_norm": 0.8717252612113953, + "learning_rate": 1.4019626666666668e-05, + "loss": 0.01, + "step": 140165 + }, + { + "epoch": 0.897088, + "grad_norm": 1.1534498929977417, + "learning_rate": 1.4019413333333334e-05, + "loss": 0.0041, + "step": 140170 + }, + { + "epoch": 0.89712, + "grad_norm": 0.4352506101131439, + "learning_rate": 1.4019200000000001e-05, + "loss": 0.0078, + "step": 140175 + }, + { + "epoch": 0.897152, + "grad_norm": 0.091118223965168, + "learning_rate": 1.4018986666666667e-05, + "loss": 0.0054, + "step": 140180 + }, + { + "epoch": 0.897184, + "grad_norm": 1.2697051763534546, + "learning_rate": 1.4018773333333335e-05, + "loss": 0.0145, + "step": 140185 + }, + { + "epoch": 0.897216, + "grad_norm": 0.044274404644966125, + "learning_rate": 1.401856e-05, + "loss": 0.0006, + "step": 140190 + }, + { + "epoch": 0.897248, + "grad_norm": 0.6364526748657227, + "learning_rate": 1.4018346666666666e-05, + "loss": 0.0074, + "step": 140195 + }, + { + "epoch": 0.89728, + "grad_norm": 0.284444659948349, + "learning_rate": 1.4018133333333334e-05, + "loss": 0.0192, + "step": 140200 + }, + { + "epoch": 0.897312, + "grad_norm": 0.0513233058154583, + "learning_rate": 1.401792e-05, + "loss": 0.0078, + "step": 140205 + }, + { + "epoch": 0.897344, + "grad_norm": 1.4936820268630981, + "learning_rate": 1.4017706666666669e-05, + "loss": 0.005, + "step": 140210 + }, + { + "epoch": 0.897376, + "grad_norm": 0.043295130133628845, + "learning_rate": 1.4017493333333335e-05, + "loss": 0.015, + "step": 140215 + }, + { + "epoch": 0.897408, + "grad_norm": 0.3130838871002197, + "learning_rate": 1.4017280000000002e-05, + "loss": 0.0071, + "step": 140220 + }, + { + "epoch": 0.89744, + "grad_norm": 0.6475107073783875, + "learning_rate": 1.4017066666666668e-05, + "loss": 0.0088, + "step": 140225 + }, + { + "epoch": 0.897472, + "grad_norm": 0.380299836397171, + "learning_rate": 1.4016853333333334e-05, + "loss": 0.0035, + "step": 140230 + }, + { + "epoch": 0.897504, + "grad_norm": 0.40921083092689514, + "learning_rate": 1.4016640000000002e-05, + "loss": 0.0103, + "step": 140235 + }, + { + "epoch": 0.897536, + "grad_norm": 0.4626206159591675, + "learning_rate": 1.4016426666666668e-05, + "loss": 0.0053, + "step": 140240 + }, + { + "epoch": 0.897568, + "grad_norm": 0.3237217664718628, + "learning_rate": 1.4016213333333335e-05, + "loss": 0.0027, + "step": 140245 + }, + { + "epoch": 0.8976, + "grad_norm": 0.40814703702926636, + "learning_rate": 1.4016000000000001e-05, + "loss": 0.0078, + "step": 140250 + }, + { + "epoch": 0.897632, + "grad_norm": 0.6216799020767212, + "learning_rate": 1.4015786666666669e-05, + "loss": 0.0103, + "step": 140255 + }, + { + "epoch": 0.897664, + "grad_norm": 0.12237127870321274, + "learning_rate": 1.4015573333333334e-05, + "loss": 0.0031, + "step": 140260 + }, + { + "epoch": 0.897696, + "grad_norm": 0.46503397822380066, + "learning_rate": 1.401536e-05, + "loss": 0.0071, + "step": 140265 + }, + { + "epoch": 0.897728, + "grad_norm": 0.13171136379241943, + "learning_rate": 1.4015146666666668e-05, + "loss": 0.0073, + "step": 140270 + }, + { + "epoch": 0.89776, + "grad_norm": 0.35138359665870667, + "learning_rate": 1.4014933333333334e-05, + "loss": 0.0217, + "step": 140275 + }, + { + "epoch": 0.897792, + "grad_norm": 0.11260203272104263, + "learning_rate": 1.4014720000000001e-05, + "loss": 0.0087, + "step": 140280 + }, + { + "epoch": 0.897824, + "grad_norm": 0.05820967257022858, + "learning_rate": 1.4014506666666667e-05, + "loss": 0.0383, + "step": 140285 + }, + { + "epoch": 0.897856, + "grad_norm": 0.11193511635065079, + "learning_rate": 1.4014293333333335e-05, + "loss": 0.0026, + "step": 140290 + }, + { + "epoch": 0.897888, + "grad_norm": 1.0220544338226318, + "learning_rate": 1.401408e-05, + "loss": 0.0069, + "step": 140295 + }, + { + "epoch": 0.89792, + "grad_norm": 0.6263558864593506, + "learning_rate": 1.4013866666666666e-05, + "loss": 0.0082, + "step": 140300 + }, + { + "epoch": 0.897952, + "grad_norm": 0.28784435987472534, + "learning_rate": 1.4013653333333334e-05, + "loss": 0.004, + "step": 140305 + }, + { + "epoch": 0.897984, + "grad_norm": 0.2513071596622467, + "learning_rate": 1.401344e-05, + "loss": 0.0095, + "step": 140310 + }, + { + "epoch": 0.898016, + "grad_norm": 0.1697847992181778, + "learning_rate": 1.4013226666666669e-05, + "loss": 0.006, + "step": 140315 + }, + { + "epoch": 0.898048, + "grad_norm": 0.5268862247467041, + "learning_rate": 1.4013013333333333e-05, + "loss": 0.0028, + "step": 140320 + }, + { + "epoch": 0.89808, + "grad_norm": 0.20655426383018494, + "learning_rate": 1.4012800000000002e-05, + "loss": 0.0112, + "step": 140325 + }, + { + "epoch": 0.898112, + "grad_norm": 0.08301635831594467, + "learning_rate": 1.4012586666666668e-05, + "loss": 0.0066, + "step": 140330 + }, + { + "epoch": 0.898144, + "grad_norm": 0.3278619945049286, + "learning_rate": 1.4012373333333334e-05, + "loss": 0.0118, + "step": 140335 + }, + { + "epoch": 0.898176, + "grad_norm": 0.8475936651229858, + "learning_rate": 1.4012160000000002e-05, + "loss": 0.0051, + "step": 140340 + }, + { + "epoch": 0.898208, + "grad_norm": 0.015586054883897305, + "learning_rate": 1.4011946666666668e-05, + "loss": 0.0014, + "step": 140345 + }, + { + "epoch": 0.89824, + "grad_norm": 0.22449199855327606, + "learning_rate": 1.4011733333333335e-05, + "loss": 0.0031, + "step": 140350 + }, + { + "epoch": 0.898272, + "grad_norm": 0.17630332708358765, + "learning_rate": 1.4011520000000001e-05, + "loss": 0.0038, + "step": 140355 + }, + { + "epoch": 0.898304, + "grad_norm": 0.04013138264417648, + "learning_rate": 1.4011306666666669e-05, + "loss": 0.0042, + "step": 140360 + }, + { + "epoch": 0.898336, + "grad_norm": 0.08960218727588654, + "learning_rate": 1.4011093333333334e-05, + "loss": 0.0125, + "step": 140365 + }, + { + "epoch": 0.898368, + "grad_norm": 0.12576037645339966, + "learning_rate": 1.401088e-05, + "loss": 0.0044, + "step": 140370 + }, + { + "epoch": 0.8984, + "grad_norm": 0.1577904224395752, + "learning_rate": 1.4010666666666668e-05, + "loss": 0.0072, + "step": 140375 + }, + { + "epoch": 0.898432, + "grad_norm": 0.1791556477546692, + "learning_rate": 1.4010453333333334e-05, + "loss": 0.0055, + "step": 140380 + }, + { + "epoch": 0.898464, + "grad_norm": 1.108054518699646, + "learning_rate": 1.4010240000000001e-05, + "loss": 0.0501, + "step": 140385 + }, + { + "epoch": 0.898496, + "grad_norm": 1.0518758296966553, + "learning_rate": 1.4010026666666667e-05, + "loss": 0.009, + "step": 140390 + }, + { + "epoch": 0.898528, + "grad_norm": 0.08432242274284363, + "learning_rate": 1.4009813333333335e-05, + "loss": 0.0602, + "step": 140395 + }, + { + "epoch": 0.89856, + "grad_norm": 0.5647040605545044, + "learning_rate": 1.40096e-05, + "loss": 0.0029, + "step": 140400 + }, + { + "epoch": 0.898592, + "grad_norm": 0.012619031593203545, + "learning_rate": 1.4009386666666668e-05, + "loss": 0.013, + "step": 140405 + }, + { + "epoch": 0.898624, + "grad_norm": 0.02373576909303665, + "learning_rate": 1.4009173333333334e-05, + "loss": 0.0034, + "step": 140410 + }, + { + "epoch": 0.898656, + "grad_norm": 0.1689062863588333, + "learning_rate": 1.400896e-05, + "loss": 0.0088, + "step": 140415 + }, + { + "epoch": 0.898688, + "grad_norm": 0.6476955413818359, + "learning_rate": 1.4008746666666669e-05, + "loss": 0.0109, + "step": 140420 + }, + { + "epoch": 0.89872, + "grad_norm": 0.044947732239961624, + "learning_rate": 1.4008533333333333e-05, + "loss": 0.002, + "step": 140425 + }, + { + "epoch": 0.898752, + "grad_norm": 0.9342724680900574, + "learning_rate": 1.4008320000000002e-05, + "loss": 0.0154, + "step": 140430 + }, + { + "epoch": 0.898784, + "grad_norm": 0.014860309660434723, + "learning_rate": 1.4008106666666668e-05, + "loss": 0.0183, + "step": 140435 + }, + { + "epoch": 0.898816, + "grad_norm": 0.01596568152308464, + "learning_rate": 1.4007893333333336e-05, + "loss": 0.008, + "step": 140440 + }, + { + "epoch": 0.898848, + "grad_norm": 0.9196075797080994, + "learning_rate": 1.4007680000000002e-05, + "loss": 0.0118, + "step": 140445 + }, + { + "epoch": 0.89888, + "grad_norm": 0.16020497679710388, + "learning_rate": 1.4007466666666668e-05, + "loss": 0.0219, + "step": 140450 + }, + { + "epoch": 0.898912, + "grad_norm": 0.07999671250581741, + "learning_rate": 1.4007253333333335e-05, + "loss": 0.008, + "step": 140455 + }, + { + "epoch": 0.898944, + "grad_norm": 0.5492646098136902, + "learning_rate": 1.4007040000000001e-05, + "loss": 0.0058, + "step": 140460 + }, + { + "epoch": 0.898976, + "grad_norm": 0.8291813135147095, + "learning_rate": 1.4006826666666669e-05, + "loss": 0.0063, + "step": 140465 + }, + { + "epoch": 0.899008, + "grad_norm": 0.2307458370923996, + "learning_rate": 1.4006613333333334e-05, + "loss": 0.013, + "step": 140470 + }, + { + "epoch": 0.89904, + "grad_norm": 0.17636071145534515, + "learning_rate": 1.4006400000000002e-05, + "loss": 0.0387, + "step": 140475 + }, + { + "epoch": 0.899072, + "grad_norm": 0.0656818300485611, + "learning_rate": 1.4006186666666668e-05, + "loss": 0.008, + "step": 140480 + }, + { + "epoch": 0.899104, + "grad_norm": 0.17693401873111725, + "learning_rate": 1.4005973333333334e-05, + "loss": 0.0051, + "step": 140485 + }, + { + "epoch": 0.899136, + "grad_norm": 0.10343822836875916, + "learning_rate": 1.4005760000000001e-05, + "loss": 0.0022, + "step": 140490 + }, + { + "epoch": 0.899168, + "grad_norm": 0.8399138450622559, + "learning_rate": 1.4005546666666667e-05, + "loss": 0.0218, + "step": 140495 + }, + { + "epoch": 0.8992, + "grad_norm": 0.25293076038360596, + "learning_rate": 1.4005333333333335e-05, + "loss": 0.0086, + "step": 140500 + }, + { + "epoch": 0.899232, + "grad_norm": 0.4263629913330078, + "learning_rate": 1.400512e-05, + "loss": 0.0075, + "step": 140505 + }, + { + "epoch": 0.899264, + "grad_norm": 0.3627803921699524, + "learning_rate": 1.4004906666666668e-05, + "loss": 0.0123, + "step": 140510 + }, + { + "epoch": 0.899296, + "grad_norm": 0.01834338903427124, + "learning_rate": 1.4004693333333334e-05, + "loss": 0.0102, + "step": 140515 + }, + { + "epoch": 0.899328, + "grad_norm": 0.03781544044613838, + "learning_rate": 1.400448e-05, + "loss": 0.0093, + "step": 140520 + }, + { + "epoch": 0.89936, + "grad_norm": 0.7175470590591431, + "learning_rate": 1.4004266666666669e-05, + "loss": 0.005, + "step": 140525 + }, + { + "epoch": 0.899392, + "grad_norm": 0.06623847782611847, + "learning_rate": 1.4004053333333333e-05, + "loss": 0.0026, + "step": 140530 + }, + { + "epoch": 0.899424, + "grad_norm": 0.7550336718559265, + "learning_rate": 1.4003840000000002e-05, + "loss": 0.0117, + "step": 140535 + }, + { + "epoch": 0.899456, + "grad_norm": 4.540963649749756, + "learning_rate": 1.4003626666666668e-05, + "loss": 0.0314, + "step": 140540 + }, + { + "epoch": 0.899488, + "grad_norm": 0.5576907992362976, + "learning_rate": 1.4003413333333336e-05, + "loss": 0.0063, + "step": 140545 + }, + { + "epoch": 0.89952, + "grad_norm": 0.29845601320266724, + "learning_rate": 1.4003200000000002e-05, + "loss": 0.0046, + "step": 140550 + }, + { + "epoch": 0.899552, + "grad_norm": 0.00494390306994319, + "learning_rate": 1.4002986666666668e-05, + "loss": 0.0007, + "step": 140555 + }, + { + "epoch": 0.899584, + "grad_norm": 0.4615178406238556, + "learning_rate": 1.4002773333333335e-05, + "loss": 0.0042, + "step": 140560 + }, + { + "epoch": 0.899616, + "grad_norm": 0.7264195084571838, + "learning_rate": 1.4002560000000001e-05, + "loss": 0.0048, + "step": 140565 + }, + { + "epoch": 0.899648, + "grad_norm": 1.169159173965454, + "learning_rate": 1.4002346666666669e-05, + "loss": 0.0199, + "step": 140570 + }, + { + "epoch": 0.89968, + "grad_norm": 0.10697825253009796, + "learning_rate": 1.4002133333333334e-05, + "loss": 0.002, + "step": 140575 + }, + { + "epoch": 0.899712, + "grad_norm": 0.030137334018945694, + "learning_rate": 1.4001920000000002e-05, + "loss": 0.004, + "step": 140580 + }, + { + "epoch": 0.899744, + "grad_norm": 0.17319339513778687, + "learning_rate": 1.4001706666666668e-05, + "loss": 0.0106, + "step": 140585 + }, + { + "epoch": 0.899776, + "grad_norm": 2.425611734390259, + "learning_rate": 1.4001493333333334e-05, + "loss": 0.0161, + "step": 140590 + }, + { + "epoch": 0.899808, + "grad_norm": 0.5429853796958923, + "learning_rate": 1.4001280000000001e-05, + "loss": 0.0207, + "step": 140595 + }, + { + "epoch": 0.89984, + "grad_norm": 0.27619776129722595, + "learning_rate": 1.4001066666666667e-05, + "loss": 0.0037, + "step": 140600 + }, + { + "epoch": 0.899872, + "grad_norm": 0.6251065731048584, + "learning_rate": 1.4000853333333335e-05, + "loss": 0.0057, + "step": 140605 + }, + { + "epoch": 0.899904, + "grad_norm": 0.6494214534759521, + "learning_rate": 1.400064e-05, + "loss": 0.0055, + "step": 140610 + }, + { + "epoch": 0.899936, + "grad_norm": 0.2140420526266098, + "learning_rate": 1.4000426666666668e-05, + "loss": 0.004, + "step": 140615 + }, + { + "epoch": 0.899968, + "grad_norm": 1.180774450302124, + "learning_rate": 1.4000213333333334e-05, + "loss": 0.005, + "step": 140620 + }, + { + "epoch": 0.9, + "grad_norm": 0.40501636266708374, + "learning_rate": 1.4e-05, + "loss": 0.0027, + "step": 140625 + }, + { + "epoch": 0.900032, + "grad_norm": 1.0822004079818726, + "learning_rate": 1.3999786666666667e-05, + "loss": 0.0079, + "step": 140630 + }, + { + "epoch": 0.900064, + "grad_norm": 0.025718621909618378, + "learning_rate": 1.3999573333333333e-05, + "loss": 0.022, + "step": 140635 + }, + { + "epoch": 0.900096, + "grad_norm": 0.21314600110054016, + "learning_rate": 1.3999360000000002e-05, + "loss": 0.0087, + "step": 140640 + }, + { + "epoch": 0.900128, + "grad_norm": 0.04766475781798363, + "learning_rate": 1.3999146666666668e-05, + "loss": 0.0199, + "step": 140645 + }, + { + "epoch": 0.90016, + "grad_norm": 0.07334305346012115, + "learning_rate": 1.3998933333333336e-05, + "loss": 0.0266, + "step": 140650 + }, + { + "epoch": 0.900192, + "grad_norm": 0.036522071808576584, + "learning_rate": 1.3998720000000002e-05, + "loss": 0.0152, + "step": 140655 + }, + { + "epoch": 0.900224, + "grad_norm": 0.22294478118419647, + "learning_rate": 1.3998506666666668e-05, + "loss": 0.0144, + "step": 140660 + }, + { + "epoch": 0.900256, + "grad_norm": 0.5420867204666138, + "learning_rate": 1.3998293333333335e-05, + "loss": 0.0151, + "step": 140665 + }, + { + "epoch": 0.900288, + "grad_norm": 1.3233442306518555, + "learning_rate": 1.3998080000000001e-05, + "loss": 0.0173, + "step": 140670 + }, + { + "epoch": 0.90032, + "grad_norm": 0.058273978531360626, + "learning_rate": 1.3997866666666669e-05, + "loss": 0.0056, + "step": 140675 + }, + { + "epoch": 0.900352, + "grad_norm": 0.33774855732917786, + "learning_rate": 1.3997653333333334e-05, + "loss": 0.0097, + "step": 140680 + }, + { + "epoch": 0.900384, + "grad_norm": 0.1549929827451706, + "learning_rate": 1.3997440000000002e-05, + "loss": 0.0113, + "step": 140685 + }, + { + "epoch": 0.900416, + "grad_norm": 0.5122882723808289, + "learning_rate": 1.3997226666666668e-05, + "loss": 0.0077, + "step": 140690 + }, + { + "epoch": 0.900448, + "grad_norm": 0.2311021238565445, + "learning_rate": 1.3997013333333334e-05, + "loss": 0.0124, + "step": 140695 + }, + { + "epoch": 0.90048, + "grad_norm": 0.7862827777862549, + "learning_rate": 1.3996800000000001e-05, + "loss": 0.0162, + "step": 140700 + }, + { + "epoch": 0.900512, + "grad_norm": 0.12431803345680237, + "learning_rate": 1.3996586666666667e-05, + "loss": 0.015, + "step": 140705 + }, + { + "epoch": 0.900544, + "grad_norm": 0.12712140381336212, + "learning_rate": 1.3996373333333335e-05, + "loss": 0.0013, + "step": 140710 + }, + { + "epoch": 0.900576, + "grad_norm": 1.0930300951004028, + "learning_rate": 1.399616e-05, + "loss": 0.0122, + "step": 140715 + }, + { + "epoch": 0.900608, + "grad_norm": 4.136515140533447, + "learning_rate": 1.3995946666666668e-05, + "loss": 0.0184, + "step": 140720 + }, + { + "epoch": 0.90064, + "grad_norm": 0.8222089409828186, + "learning_rate": 1.3995733333333334e-05, + "loss": 0.0052, + "step": 140725 + }, + { + "epoch": 0.900672, + "grad_norm": 0.29392915964126587, + "learning_rate": 1.399552e-05, + "loss": 0.0055, + "step": 140730 + }, + { + "epoch": 0.900704, + "grad_norm": 0.12916672229766846, + "learning_rate": 1.3995306666666667e-05, + "loss": 0.0104, + "step": 140735 + }, + { + "epoch": 0.900736, + "grad_norm": 0.16365280747413635, + "learning_rate": 1.3995093333333333e-05, + "loss": 0.0091, + "step": 140740 + }, + { + "epoch": 0.900768, + "grad_norm": 1.4851199388504028, + "learning_rate": 1.3994880000000002e-05, + "loss": 0.0086, + "step": 140745 + }, + { + "epoch": 0.9008, + "grad_norm": 1.2744208574295044, + "learning_rate": 1.3994666666666668e-05, + "loss": 0.0121, + "step": 140750 + }, + { + "epoch": 0.900832, + "grad_norm": 0.040621500462293625, + "learning_rate": 1.3994453333333336e-05, + "loss": 0.0033, + "step": 140755 + }, + { + "epoch": 0.900864, + "grad_norm": 0.3945120871067047, + "learning_rate": 1.3994240000000002e-05, + "loss": 0.0137, + "step": 140760 + }, + { + "epoch": 0.900896, + "grad_norm": 0.9711990356445312, + "learning_rate": 1.3994026666666668e-05, + "loss": 0.0122, + "step": 140765 + }, + { + "epoch": 0.900928, + "grad_norm": 0.5578625202178955, + "learning_rate": 1.3993813333333335e-05, + "loss": 0.0054, + "step": 140770 + }, + { + "epoch": 0.90096, + "grad_norm": 1.136447548866272, + "learning_rate": 1.3993600000000001e-05, + "loss": 0.0194, + "step": 140775 + }, + { + "epoch": 0.900992, + "grad_norm": 0.44949987530708313, + "learning_rate": 1.3993386666666669e-05, + "loss": 0.0046, + "step": 140780 + }, + { + "epoch": 0.901024, + "grad_norm": 0.13082702457904816, + "learning_rate": 1.3993173333333334e-05, + "loss": 0.005, + "step": 140785 + }, + { + "epoch": 0.901056, + "grad_norm": 0.12050312757492065, + "learning_rate": 1.3992960000000002e-05, + "loss": 0.0077, + "step": 140790 + }, + { + "epoch": 0.901088, + "grad_norm": 1.1102449893951416, + "learning_rate": 1.3992746666666668e-05, + "loss": 0.0056, + "step": 140795 + }, + { + "epoch": 0.90112, + "grad_norm": 0.3101518154144287, + "learning_rate": 1.3992533333333334e-05, + "loss": 0.0063, + "step": 140800 + }, + { + "epoch": 0.901152, + "grad_norm": 0.05608144402503967, + "learning_rate": 1.3992320000000001e-05, + "loss": 0.0053, + "step": 140805 + }, + { + "epoch": 0.901184, + "grad_norm": 0.779111921787262, + "learning_rate": 1.3992106666666667e-05, + "loss": 0.0192, + "step": 140810 + }, + { + "epoch": 0.901216, + "grad_norm": 3.616302728652954, + "learning_rate": 1.3991893333333335e-05, + "loss": 0.0111, + "step": 140815 + }, + { + "epoch": 0.901248, + "grad_norm": 0.26501986384391785, + "learning_rate": 1.399168e-05, + "loss": 0.0018, + "step": 140820 + }, + { + "epoch": 0.90128, + "grad_norm": 0.05565514788031578, + "learning_rate": 1.3991466666666668e-05, + "loss": 0.0059, + "step": 140825 + }, + { + "epoch": 0.901312, + "grad_norm": 0.17405354976654053, + "learning_rate": 1.3991253333333334e-05, + "loss": 0.0171, + "step": 140830 + }, + { + "epoch": 0.901344, + "grad_norm": 0.6367664933204651, + "learning_rate": 1.399104e-05, + "loss": 0.0028, + "step": 140835 + }, + { + "epoch": 0.901376, + "grad_norm": 0.0398610420525074, + "learning_rate": 1.3990826666666667e-05, + "loss": 0.0019, + "step": 140840 + }, + { + "epoch": 0.901408, + "grad_norm": 0.02826087363064289, + "learning_rate": 1.3990613333333333e-05, + "loss": 0.0035, + "step": 140845 + }, + { + "epoch": 0.90144, + "grad_norm": 0.7769323587417603, + "learning_rate": 1.3990400000000002e-05, + "loss": 0.0064, + "step": 140850 + }, + { + "epoch": 0.901472, + "grad_norm": 0.1110168918967247, + "learning_rate": 1.3990186666666668e-05, + "loss": 0.015, + "step": 140855 + }, + { + "epoch": 0.901504, + "grad_norm": 0.3754623234272003, + "learning_rate": 1.3989973333333336e-05, + "loss": 0.0029, + "step": 140860 + }, + { + "epoch": 0.901536, + "grad_norm": 0.06978226453065872, + "learning_rate": 1.3989760000000002e-05, + "loss": 0.0041, + "step": 140865 + }, + { + "epoch": 0.901568, + "grad_norm": 0.07121504098176956, + "learning_rate": 1.3989546666666668e-05, + "loss": 0.0073, + "step": 140870 + }, + { + "epoch": 0.9016, + "grad_norm": 0.950735867023468, + "learning_rate": 1.3989333333333335e-05, + "loss": 0.0084, + "step": 140875 + }, + { + "epoch": 0.901632, + "grad_norm": 0.47504281997680664, + "learning_rate": 1.3989120000000001e-05, + "loss": 0.0157, + "step": 140880 + }, + { + "epoch": 0.901664, + "grad_norm": 0.32700541615486145, + "learning_rate": 1.3988906666666669e-05, + "loss": 0.0156, + "step": 140885 + }, + { + "epoch": 0.901696, + "grad_norm": 0.05796871334314346, + "learning_rate": 1.3988693333333334e-05, + "loss": 0.0024, + "step": 140890 + }, + { + "epoch": 0.901728, + "grad_norm": 0.34560081362724304, + "learning_rate": 1.3988480000000002e-05, + "loss": 0.0034, + "step": 140895 + }, + { + "epoch": 0.90176, + "grad_norm": 0.013767951168119907, + "learning_rate": 1.3988266666666668e-05, + "loss": 0.0009, + "step": 140900 + }, + { + "epoch": 0.901792, + "grad_norm": 1.1023154258728027, + "learning_rate": 1.3988053333333334e-05, + "loss": 0.0069, + "step": 140905 + }, + { + "epoch": 0.901824, + "grad_norm": 0.04632839187979698, + "learning_rate": 1.3987840000000001e-05, + "loss": 0.0024, + "step": 140910 + }, + { + "epoch": 0.901856, + "grad_norm": 0.5906219482421875, + "learning_rate": 1.3987626666666667e-05, + "loss": 0.0123, + "step": 140915 + }, + { + "epoch": 0.901888, + "grad_norm": 0.45987096428871155, + "learning_rate": 1.3987413333333335e-05, + "loss": 0.0092, + "step": 140920 + }, + { + "epoch": 0.90192, + "grad_norm": 0.6028937697410583, + "learning_rate": 1.39872e-05, + "loss": 0.0153, + "step": 140925 + }, + { + "epoch": 0.901952, + "grad_norm": 0.809052050113678, + "learning_rate": 1.3986986666666668e-05, + "loss": 0.0051, + "step": 140930 + }, + { + "epoch": 0.901984, + "grad_norm": 0.21215848624706268, + "learning_rate": 1.3986773333333334e-05, + "loss": 0.002, + "step": 140935 + }, + { + "epoch": 0.902016, + "grad_norm": 0.37677428126335144, + "learning_rate": 1.398656e-05, + "loss": 0.0041, + "step": 140940 + }, + { + "epoch": 0.902048, + "grad_norm": 0.5896061658859253, + "learning_rate": 1.3986346666666667e-05, + "loss": 0.0143, + "step": 140945 + }, + { + "epoch": 0.90208, + "grad_norm": 0.042644672095775604, + "learning_rate": 1.3986133333333333e-05, + "loss": 0.0029, + "step": 140950 + }, + { + "epoch": 0.902112, + "grad_norm": 0.3556910753250122, + "learning_rate": 1.3985920000000002e-05, + "loss": 0.0146, + "step": 140955 + }, + { + "epoch": 0.902144, + "grad_norm": 0.31203722953796387, + "learning_rate": 1.3985706666666667e-05, + "loss": 0.005, + "step": 140960 + }, + { + "epoch": 0.902176, + "grad_norm": 0.32560256123542786, + "learning_rate": 1.3985493333333336e-05, + "loss": 0.007, + "step": 140965 + }, + { + "epoch": 0.902208, + "grad_norm": 0.016186656430363655, + "learning_rate": 1.3985280000000002e-05, + "loss": 0.0015, + "step": 140970 + }, + { + "epoch": 0.90224, + "grad_norm": 0.7253086566925049, + "learning_rate": 1.3985066666666668e-05, + "loss": 0.0125, + "step": 140975 + }, + { + "epoch": 0.902272, + "grad_norm": 0.04275353625416756, + "learning_rate": 1.3984853333333335e-05, + "loss": 0.0022, + "step": 140980 + }, + { + "epoch": 0.902304, + "grad_norm": 0.2949599623680115, + "learning_rate": 1.3984640000000001e-05, + "loss": 0.0036, + "step": 140985 + }, + { + "epoch": 0.902336, + "grad_norm": 0.5279240012168884, + "learning_rate": 1.3984426666666669e-05, + "loss": 0.01, + "step": 140990 + }, + { + "epoch": 0.902368, + "grad_norm": 1.8782145977020264, + "learning_rate": 1.3984213333333334e-05, + "loss": 0.0051, + "step": 140995 + }, + { + "epoch": 0.9024, + "grad_norm": 0.059448398649692535, + "learning_rate": 1.3984000000000002e-05, + "loss": 0.0044, + "step": 141000 + }, + { + "epoch": 0.902432, + "grad_norm": 0.13948962092399597, + "learning_rate": 1.3983786666666668e-05, + "loss": 0.0037, + "step": 141005 + }, + { + "epoch": 0.902464, + "grad_norm": 1.0774885416030884, + "learning_rate": 1.3983573333333334e-05, + "loss": 0.0194, + "step": 141010 + }, + { + "epoch": 0.902496, + "grad_norm": 0.9428374171257019, + "learning_rate": 1.3983360000000001e-05, + "loss": 0.0149, + "step": 141015 + }, + { + "epoch": 0.902528, + "grad_norm": 0.07415332645177841, + "learning_rate": 1.3983146666666667e-05, + "loss": 0.0013, + "step": 141020 + }, + { + "epoch": 0.90256, + "grad_norm": 1.007720947265625, + "learning_rate": 1.3982933333333335e-05, + "loss": 0.0077, + "step": 141025 + }, + { + "epoch": 0.902592, + "grad_norm": 0.4244020879268646, + "learning_rate": 1.398272e-05, + "loss": 0.0119, + "step": 141030 + }, + { + "epoch": 0.902624, + "grad_norm": 0.3480111062526703, + "learning_rate": 1.3982506666666668e-05, + "loss": 0.0042, + "step": 141035 + }, + { + "epoch": 0.902656, + "grad_norm": 0.33184486627578735, + "learning_rate": 1.3982293333333334e-05, + "loss": 0.0035, + "step": 141040 + }, + { + "epoch": 0.902688, + "grad_norm": 0.6794351935386658, + "learning_rate": 1.398208e-05, + "loss": 0.0189, + "step": 141045 + }, + { + "epoch": 0.90272, + "grad_norm": 0.4043492376804352, + "learning_rate": 1.3981866666666667e-05, + "loss": 0.0036, + "step": 141050 + }, + { + "epoch": 0.902752, + "grad_norm": 0.8478747010231018, + "learning_rate": 1.3981653333333333e-05, + "loss": 0.0074, + "step": 141055 + }, + { + "epoch": 0.902784, + "grad_norm": 0.2219746708869934, + "learning_rate": 1.3981440000000002e-05, + "loss": 0.004, + "step": 141060 + }, + { + "epoch": 0.902816, + "grad_norm": 0.6628127098083496, + "learning_rate": 1.3981226666666667e-05, + "loss": 0.0104, + "step": 141065 + }, + { + "epoch": 0.902848, + "grad_norm": 0.42569270730018616, + "learning_rate": 1.3981013333333336e-05, + "loss": 0.0045, + "step": 141070 + }, + { + "epoch": 0.90288, + "grad_norm": 0.4200722575187683, + "learning_rate": 1.3980800000000002e-05, + "loss": 0.018, + "step": 141075 + }, + { + "epoch": 0.902912, + "grad_norm": 0.32038378715515137, + "learning_rate": 1.3980586666666668e-05, + "loss": 0.0048, + "step": 141080 + }, + { + "epoch": 0.902944, + "grad_norm": 0.08146888762712479, + "learning_rate": 1.3980373333333335e-05, + "loss": 0.0023, + "step": 141085 + }, + { + "epoch": 0.902976, + "grad_norm": 0.09999391436576843, + "learning_rate": 1.3980160000000001e-05, + "loss": 0.0041, + "step": 141090 + }, + { + "epoch": 0.903008, + "grad_norm": 0.17071208357810974, + "learning_rate": 1.3979946666666669e-05, + "loss": 0.0082, + "step": 141095 + }, + { + "epoch": 0.90304, + "grad_norm": 0.4616940915584564, + "learning_rate": 1.3979733333333334e-05, + "loss": 0.0053, + "step": 141100 + }, + { + "epoch": 0.903072, + "grad_norm": 0.46971365809440613, + "learning_rate": 1.3979520000000002e-05, + "loss": 0.018, + "step": 141105 + }, + { + "epoch": 0.903104, + "grad_norm": 0.22510573267936707, + "learning_rate": 1.3979306666666668e-05, + "loss": 0.0055, + "step": 141110 + }, + { + "epoch": 0.903136, + "grad_norm": 0.7349393963813782, + "learning_rate": 1.3979093333333334e-05, + "loss": 0.0121, + "step": 141115 + }, + { + "epoch": 0.903168, + "grad_norm": 0.19740362465381622, + "learning_rate": 1.3978880000000001e-05, + "loss": 0.0047, + "step": 141120 + }, + { + "epoch": 0.9032, + "grad_norm": 0.044162604957818985, + "learning_rate": 1.3978666666666667e-05, + "loss": 0.0052, + "step": 141125 + }, + { + "epoch": 0.903232, + "grad_norm": 0.15944670140743256, + "learning_rate": 1.3978453333333335e-05, + "loss": 0.0112, + "step": 141130 + }, + { + "epoch": 0.903264, + "grad_norm": 0.07118594646453857, + "learning_rate": 1.397824e-05, + "loss": 0.0108, + "step": 141135 + }, + { + "epoch": 0.903296, + "grad_norm": 0.36493128538131714, + "learning_rate": 1.3978026666666668e-05, + "loss": 0.0034, + "step": 141140 + }, + { + "epoch": 0.903328, + "grad_norm": 0.033627137541770935, + "learning_rate": 1.3977813333333334e-05, + "loss": 0.0031, + "step": 141145 + }, + { + "epoch": 0.90336, + "grad_norm": 0.33526021242141724, + "learning_rate": 1.39776e-05, + "loss": 0.0098, + "step": 141150 + }, + { + "epoch": 0.903392, + "grad_norm": 2.644918203353882, + "learning_rate": 1.3977386666666667e-05, + "loss": 0.0112, + "step": 141155 + }, + { + "epoch": 0.903424, + "grad_norm": 0.7213532328605652, + "learning_rate": 1.3977173333333333e-05, + "loss": 0.0057, + "step": 141160 + }, + { + "epoch": 0.903456, + "grad_norm": 0.49462515115737915, + "learning_rate": 1.3976960000000002e-05, + "loss": 0.004, + "step": 141165 + }, + { + "epoch": 0.903488, + "grad_norm": 0.25176072120666504, + "learning_rate": 1.3976746666666667e-05, + "loss": 0.0082, + "step": 141170 + }, + { + "epoch": 0.90352, + "grad_norm": 0.17149999737739563, + "learning_rate": 1.3976533333333336e-05, + "loss": 0.0029, + "step": 141175 + }, + { + "epoch": 0.903552, + "grad_norm": 0.03088626079261303, + "learning_rate": 1.3976320000000002e-05, + "loss": 0.007, + "step": 141180 + }, + { + "epoch": 0.903584, + "grad_norm": 0.7855769991874695, + "learning_rate": 1.3976106666666666e-05, + "loss": 0.013, + "step": 141185 + }, + { + "epoch": 0.903616, + "grad_norm": 0.0872930958867073, + "learning_rate": 1.3975893333333335e-05, + "loss": 0.0049, + "step": 141190 + }, + { + "epoch": 0.903648, + "grad_norm": 1.022192358970642, + "learning_rate": 1.3975680000000001e-05, + "loss": 0.0063, + "step": 141195 + }, + { + "epoch": 0.90368, + "grad_norm": 1.1363005638122559, + "learning_rate": 1.3975466666666669e-05, + "loss": 0.0284, + "step": 141200 + }, + { + "epoch": 0.903712, + "grad_norm": 0.2273091971874237, + "learning_rate": 1.3975253333333334e-05, + "loss": 0.0148, + "step": 141205 + }, + { + "epoch": 0.903744, + "grad_norm": 0.20356309413909912, + "learning_rate": 1.3975040000000002e-05, + "loss": 0.0065, + "step": 141210 + }, + { + "epoch": 0.903776, + "grad_norm": 0.8880912065505981, + "learning_rate": 1.3974826666666668e-05, + "loss": 0.0085, + "step": 141215 + }, + { + "epoch": 0.903808, + "grad_norm": 0.17295032739639282, + "learning_rate": 1.3974613333333335e-05, + "loss": 0.0039, + "step": 141220 + }, + { + "epoch": 0.90384, + "grad_norm": 0.17945945262908936, + "learning_rate": 1.3974400000000001e-05, + "loss": 0.0033, + "step": 141225 + }, + { + "epoch": 0.903872, + "grad_norm": 1.0816023349761963, + "learning_rate": 1.3974186666666667e-05, + "loss": 0.01, + "step": 141230 + }, + { + "epoch": 0.903904, + "grad_norm": 1.4738709926605225, + "learning_rate": 1.3973973333333335e-05, + "loss": 0.0195, + "step": 141235 + }, + { + "epoch": 0.903936, + "grad_norm": 0.6202791333198547, + "learning_rate": 1.397376e-05, + "loss": 0.0171, + "step": 141240 + }, + { + "epoch": 0.903968, + "grad_norm": 0.6783064007759094, + "learning_rate": 1.3973546666666668e-05, + "loss": 0.0167, + "step": 141245 + }, + { + "epoch": 0.904, + "grad_norm": 0.4779475927352905, + "learning_rate": 1.3973333333333334e-05, + "loss": 0.0026, + "step": 141250 + }, + { + "epoch": 0.904032, + "grad_norm": 0.03848537430167198, + "learning_rate": 1.3973120000000001e-05, + "loss": 0.0057, + "step": 141255 + }, + { + "epoch": 0.904064, + "grad_norm": 0.01720716804265976, + "learning_rate": 1.3972906666666667e-05, + "loss": 0.0053, + "step": 141260 + }, + { + "epoch": 0.904096, + "grad_norm": 8.215058326721191, + "learning_rate": 1.3972693333333333e-05, + "loss": 0.0203, + "step": 141265 + }, + { + "epoch": 0.904128, + "grad_norm": 0.04202050715684891, + "learning_rate": 1.397248e-05, + "loss": 0.0061, + "step": 141270 + }, + { + "epoch": 0.90416, + "grad_norm": 0.16610288619995117, + "learning_rate": 1.3972266666666667e-05, + "loss": 0.0127, + "step": 141275 + }, + { + "epoch": 0.904192, + "grad_norm": 0.30954694747924805, + "learning_rate": 1.3972053333333336e-05, + "loss": 0.0075, + "step": 141280 + }, + { + "epoch": 0.904224, + "grad_norm": 0.4488392174243927, + "learning_rate": 1.3971840000000002e-05, + "loss": 0.0059, + "step": 141285 + }, + { + "epoch": 0.904256, + "grad_norm": 0.05394992232322693, + "learning_rate": 1.397162666666667e-05, + "loss": 0.0016, + "step": 141290 + }, + { + "epoch": 0.904288, + "grad_norm": 0.19334010779857635, + "learning_rate": 1.3971413333333335e-05, + "loss": 0.0087, + "step": 141295 + }, + { + "epoch": 0.90432, + "grad_norm": 0.2602950632572174, + "learning_rate": 1.3971200000000001e-05, + "loss": 0.0032, + "step": 141300 + }, + { + "epoch": 0.904352, + "grad_norm": 0.07968153804540634, + "learning_rate": 1.3970986666666669e-05, + "loss": 0.0058, + "step": 141305 + }, + { + "epoch": 0.904384, + "grad_norm": 0.7020655870437622, + "learning_rate": 1.3970773333333334e-05, + "loss": 0.0254, + "step": 141310 + }, + { + "epoch": 0.904416, + "grad_norm": 0.026221856474876404, + "learning_rate": 1.3970560000000002e-05, + "loss": 0.009, + "step": 141315 + }, + { + "epoch": 0.904448, + "grad_norm": 0.5321677923202515, + "learning_rate": 1.3970346666666668e-05, + "loss": 0.0117, + "step": 141320 + }, + { + "epoch": 0.90448, + "grad_norm": 0.1606271117925644, + "learning_rate": 1.3970133333333335e-05, + "loss": 0.0016, + "step": 141325 + }, + { + "epoch": 0.904512, + "grad_norm": 0.23562917113304138, + "learning_rate": 1.3969920000000001e-05, + "loss": 0.0086, + "step": 141330 + }, + { + "epoch": 0.904544, + "grad_norm": 0.365833044052124, + "learning_rate": 1.3969706666666667e-05, + "loss": 0.0153, + "step": 141335 + }, + { + "epoch": 0.904576, + "grad_norm": 0.8558310270309448, + "learning_rate": 1.3969493333333335e-05, + "loss": 0.0038, + "step": 141340 + }, + { + "epoch": 0.904608, + "grad_norm": 1.100003957748413, + "learning_rate": 1.396928e-05, + "loss": 0.0133, + "step": 141345 + }, + { + "epoch": 0.90464, + "grad_norm": 0.9296891689300537, + "learning_rate": 1.3969066666666668e-05, + "loss": 0.0085, + "step": 141350 + }, + { + "epoch": 0.904672, + "grad_norm": 0.12343395501375198, + "learning_rate": 1.3968853333333334e-05, + "loss": 0.0012, + "step": 141355 + }, + { + "epoch": 0.904704, + "grad_norm": 0.6059090495109558, + "learning_rate": 1.3968640000000001e-05, + "loss": 0.0107, + "step": 141360 + }, + { + "epoch": 0.904736, + "grad_norm": 2.436481475830078, + "learning_rate": 1.3968426666666667e-05, + "loss": 0.005, + "step": 141365 + }, + { + "epoch": 0.904768, + "grad_norm": 0.49296921491622925, + "learning_rate": 1.3968213333333333e-05, + "loss": 0.0077, + "step": 141370 + }, + { + "epoch": 0.9048, + "grad_norm": 0.11993537098169327, + "learning_rate": 1.3968e-05, + "loss": 0.0045, + "step": 141375 + }, + { + "epoch": 0.904832, + "grad_norm": 0.35476094484329224, + "learning_rate": 1.3967786666666667e-05, + "loss": 0.008, + "step": 141380 + }, + { + "epoch": 0.904864, + "grad_norm": 0.4697851836681366, + "learning_rate": 1.3967573333333336e-05, + "loss": 0.0085, + "step": 141385 + }, + { + "epoch": 0.904896, + "grad_norm": 0.20248863101005554, + "learning_rate": 1.3967360000000002e-05, + "loss": 0.0131, + "step": 141390 + }, + { + "epoch": 0.904928, + "grad_norm": 0.08238666504621506, + "learning_rate": 1.396714666666667e-05, + "loss": 0.0044, + "step": 141395 + }, + { + "epoch": 0.90496, + "grad_norm": 0.08762749284505844, + "learning_rate": 1.3966933333333335e-05, + "loss": 0.0069, + "step": 141400 + }, + { + "epoch": 0.904992, + "grad_norm": 0.23376654088497162, + "learning_rate": 1.3966720000000001e-05, + "loss": 0.0036, + "step": 141405 + }, + { + "epoch": 0.905024, + "grad_norm": 4.87705135345459, + "learning_rate": 1.3966506666666669e-05, + "loss": 0.0153, + "step": 141410 + }, + { + "epoch": 0.905056, + "grad_norm": 0.9135218858718872, + "learning_rate": 1.3966293333333334e-05, + "loss": 0.0126, + "step": 141415 + }, + { + "epoch": 0.905088, + "grad_norm": 0.03229581192135811, + "learning_rate": 1.3966080000000002e-05, + "loss": 0.0066, + "step": 141420 + }, + { + "epoch": 0.90512, + "grad_norm": 0.042164966464042664, + "learning_rate": 1.3965866666666668e-05, + "loss": 0.0095, + "step": 141425 + }, + { + "epoch": 0.905152, + "grad_norm": 0.05932355672121048, + "learning_rate": 1.3965653333333335e-05, + "loss": 0.0019, + "step": 141430 + }, + { + "epoch": 0.905184, + "grad_norm": 0.40685930848121643, + "learning_rate": 1.3965440000000001e-05, + "loss": 0.0103, + "step": 141435 + }, + { + "epoch": 0.905216, + "grad_norm": 1.490017056465149, + "learning_rate": 1.3965226666666667e-05, + "loss": 0.0065, + "step": 141440 + }, + { + "epoch": 0.905248, + "grad_norm": 0.33233776688575745, + "learning_rate": 1.3965013333333335e-05, + "loss": 0.0042, + "step": 141445 + }, + { + "epoch": 0.90528, + "grad_norm": 0.8640651106834412, + "learning_rate": 1.39648e-05, + "loss": 0.0189, + "step": 141450 + }, + { + "epoch": 0.905312, + "grad_norm": 0.1058165431022644, + "learning_rate": 1.3964586666666668e-05, + "loss": 0.0069, + "step": 141455 + }, + { + "epoch": 0.905344, + "grad_norm": 0.9941092729568481, + "learning_rate": 1.3964373333333334e-05, + "loss": 0.0052, + "step": 141460 + }, + { + "epoch": 0.905376, + "grad_norm": 0.7558656334877014, + "learning_rate": 1.3964160000000002e-05, + "loss": 0.0091, + "step": 141465 + }, + { + "epoch": 0.905408, + "grad_norm": 0.5470953583717346, + "learning_rate": 1.3963946666666667e-05, + "loss": 0.0098, + "step": 141470 + }, + { + "epoch": 0.90544, + "grad_norm": 0.07843828946352005, + "learning_rate": 1.3963733333333333e-05, + "loss": 0.0022, + "step": 141475 + }, + { + "epoch": 0.905472, + "grad_norm": 1.3875093460083008, + "learning_rate": 1.396352e-05, + "loss": 0.0101, + "step": 141480 + }, + { + "epoch": 0.905504, + "grad_norm": 0.7919285893440247, + "learning_rate": 1.3963306666666667e-05, + "loss": 0.0049, + "step": 141485 + }, + { + "epoch": 0.905536, + "grad_norm": 0.6946239471435547, + "learning_rate": 1.3963093333333336e-05, + "loss": 0.01, + "step": 141490 + }, + { + "epoch": 0.905568, + "grad_norm": 0.7420920729637146, + "learning_rate": 1.396288e-05, + "loss": 0.0065, + "step": 141495 + }, + { + "epoch": 0.9056, + "grad_norm": 0.010847133584320545, + "learning_rate": 1.396266666666667e-05, + "loss": 0.0078, + "step": 141500 + }, + { + "epoch": 0.905632, + "grad_norm": 0.916536808013916, + "learning_rate": 1.3962453333333335e-05, + "loss": 0.0044, + "step": 141505 + }, + { + "epoch": 0.905664, + "grad_norm": 0.9018713235855103, + "learning_rate": 1.3962240000000001e-05, + "loss": 0.0052, + "step": 141510 + }, + { + "epoch": 0.905696, + "grad_norm": 0.1167062520980835, + "learning_rate": 1.3962026666666669e-05, + "loss": 0.0012, + "step": 141515 + }, + { + "epoch": 0.905728, + "grad_norm": 0.18025895953178406, + "learning_rate": 1.3961813333333334e-05, + "loss": 0.0104, + "step": 141520 + }, + { + "epoch": 0.90576, + "grad_norm": 0.4300851821899414, + "learning_rate": 1.3961600000000002e-05, + "loss": 0.0087, + "step": 141525 + }, + { + "epoch": 0.905792, + "grad_norm": 0.05014945939183235, + "learning_rate": 1.3961386666666668e-05, + "loss": 0.0024, + "step": 141530 + }, + { + "epoch": 0.905824, + "grad_norm": 0.996427059173584, + "learning_rate": 1.3961173333333335e-05, + "loss": 0.0069, + "step": 141535 + }, + { + "epoch": 0.905856, + "grad_norm": 0.24933363497257233, + "learning_rate": 1.3960960000000001e-05, + "loss": 0.0083, + "step": 141540 + }, + { + "epoch": 0.905888, + "grad_norm": 0.24926471710205078, + "learning_rate": 1.3960746666666667e-05, + "loss": 0.0167, + "step": 141545 + }, + { + "epoch": 0.90592, + "grad_norm": 0.2955852150917053, + "learning_rate": 1.3960533333333335e-05, + "loss": 0.004, + "step": 141550 + }, + { + "epoch": 0.905952, + "grad_norm": 0.3899427056312561, + "learning_rate": 1.396032e-05, + "loss": 0.0039, + "step": 141555 + }, + { + "epoch": 0.905984, + "grad_norm": 0.35838782787323, + "learning_rate": 1.3960106666666668e-05, + "loss": 0.0028, + "step": 141560 + }, + { + "epoch": 0.906016, + "grad_norm": 0.18162128329277039, + "learning_rate": 1.3959893333333334e-05, + "loss": 0.0033, + "step": 141565 + }, + { + "epoch": 0.906048, + "grad_norm": 0.25988826155662537, + "learning_rate": 1.3959680000000002e-05, + "loss": 0.0064, + "step": 141570 + }, + { + "epoch": 0.90608, + "grad_norm": 0.31919923424720764, + "learning_rate": 1.3959466666666667e-05, + "loss": 0.0069, + "step": 141575 + }, + { + "epoch": 0.906112, + "grad_norm": 0.46302148699760437, + "learning_rate": 1.3959253333333333e-05, + "loss": 0.037, + "step": 141580 + }, + { + "epoch": 0.906144, + "grad_norm": 1.586796522140503, + "learning_rate": 1.395904e-05, + "loss": 0.0055, + "step": 141585 + }, + { + "epoch": 0.906176, + "grad_norm": 0.7187511920928955, + "learning_rate": 1.3958826666666667e-05, + "loss": 0.0034, + "step": 141590 + }, + { + "epoch": 0.906208, + "grad_norm": 0.36935365200042725, + "learning_rate": 1.3958613333333336e-05, + "loss": 0.004, + "step": 141595 + }, + { + "epoch": 0.90624, + "grad_norm": 0.13607896864414215, + "learning_rate": 1.39584e-05, + "loss": 0.0021, + "step": 141600 + }, + { + "epoch": 0.906272, + "grad_norm": 0.44089311361312866, + "learning_rate": 1.395818666666667e-05, + "loss": 0.0065, + "step": 141605 + }, + { + "epoch": 0.906304, + "grad_norm": 2.511828899383545, + "learning_rate": 1.3957973333333335e-05, + "loss": 0.0128, + "step": 141610 + }, + { + "epoch": 0.906336, + "grad_norm": 0.2634288966655731, + "learning_rate": 1.3957760000000001e-05, + "loss": 0.0126, + "step": 141615 + }, + { + "epoch": 0.906368, + "grad_norm": 0.4655386507511139, + "learning_rate": 1.3957546666666669e-05, + "loss": 0.0079, + "step": 141620 + }, + { + "epoch": 0.9064, + "grad_norm": 0.020727025344967842, + "learning_rate": 1.3957333333333334e-05, + "loss": 0.0026, + "step": 141625 + }, + { + "epoch": 0.906432, + "grad_norm": 0.3180132806301117, + "learning_rate": 1.3957120000000002e-05, + "loss": 0.009, + "step": 141630 + }, + { + "epoch": 0.906464, + "grad_norm": 0.03866398334503174, + "learning_rate": 1.3956906666666668e-05, + "loss": 0.0034, + "step": 141635 + }, + { + "epoch": 0.906496, + "grad_norm": 0.3068748116493225, + "learning_rate": 1.3956693333333335e-05, + "loss": 0.0079, + "step": 141640 + }, + { + "epoch": 0.906528, + "grad_norm": 0.23284490406513214, + "learning_rate": 1.3956480000000001e-05, + "loss": 0.0066, + "step": 141645 + }, + { + "epoch": 0.90656, + "grad_norm": 2.590181589126587, + "learning_rate": 1.3956266666666667e-05, + "loss": 0.0066, + "step": 141650 + }, + { + "epoch": 0.906592, + "grad_norm": 0.690311849117279, + "learning_rate": 1.3956053333333335e-05, + "loss": 0.0061, + "step": 141655 + }, + { + "epoch": 0.906624, + "grad_norm": 0.2724517583847046, + "learning_rate": 1.395584e-05, + "loss": 0.0026, + "step": 141660 + }, + { + "epoch": 0.906656, + "grad_norm": 0.23834721744060516, + "learning_rate": 1.3955626666666668e-05, + "loss": 0.0092, + "step": 141665 + }, + { + "epoch": 0.906688, + "grad_norm": 0.40090036392211914, + "learning_rate": 1.3955413333333334e-05, + "loss": 0.0211, + "step": 141670 + }, + { + "epoch": 0.90672, + "grad_norm": 0.05271460860967636, + "learning_rate": 1.3955200000000002e-05, + "loss": 0.0061, + "step": 141675 + }, + { + "epoch": 0.906752, + "grad_norm": 0.8015555739402771, + "learning_rate": 1.3954986666666667e-05, + "loss": 0.0204, + "step": 141680 + }, + { + "epoch": 0.906784, + "grad_norm": 1.7535914182662964, + "learning_rate": 1.3954773333333333e-05, + "loss": 0.0115, + "step": 141685 + }, + { + "epoch": 0.906816, + "grad_norm": 0.5714938640594482, + "learning_rate": 1.395456e-05, + "loss": 0.0068, + "step": 141690 + }, + { + "epoch": 0.906848, + "grad_norm": 0.030388660728931427, + "learning_rate": 1.3954346666666667e-05, + "loss": 0.0048, + "step": 141695 + }, + { + "epoch": 0.90688, + "grad_norm": 0.07647344470024109, + "learning_rate": 1.3954133333333336e-05, + "loss": 0.0058, + "step": 141700 + }, + { + "epoch": 0.906912, + "grad_norm": 0.08514899015426636, + "learning_rate": 1.395392e-05, + "loss": 0.0078, + "step": 141705 + }, + { + "epoch": 0.906944, + "grad_norm": 0.15260815620422363, + "learning_rate": 1.395370666666667e-05, + "loss": 0.002, + "step": 141710 + }, + { + "epoch": 0.906976, + "grad_norm": 0.23489756882190704, + "learning_rate": 1.3953493333333335e-05, + "loss": 0.0018, + "step": 141715 + }, + { + "epoch": 0.907008, + "grad_norm": 0.8390508890151978, + "learning_rate": 1.395328e-05, + "loss": 0.0161, + "step": 141720 + }, + { + "epoch": 0.90704, + "grad_norm": 0.8811073899269104, + "learning_rate": 1.3953066666666669e-05, + "loss": 0.0182, + "step": 141725 + }, + { + "epoch": 0.907072, + "grad_norm": 0.7598962187767029, + "learning_rate": 1.3952853333333334e-05, + "loss": 0.0094, + "step": 141730 + }, + { + "epoch": 0.907104, + "grad_norm": 0.08988526463508606, + "learning_rate": 1.3952640000000002e-05, + "loss": 0.0039, + "step": 141735 + }, + { + "epoch": 0.907136, + "grad_norm": 0.2198069542646408, + "learning_rate": 1.3952426666666668e-05, + "loss": 0.0061, + "step": 141740 + }, + { + "epoch": 0.907168, + "grad_norm": 0.04804990068078041, + "learning_rate": 1.3952213333333335e-05, + "loss": 0.0465, + "step": 141745 + }, + { + "epoch": 0.9072, + "grad_norm": 0.693708062171936, + "learning_rate": 1.3952000000000001e-05, + "loss": 0.0048, + "step": 141750 + }, + { + "epoch": 0.907232, + "grad_norm": 0.6707952618598938, + "learning_rate": 1.3951786666666667e-05, + "loss": 0.007, + "step": 141755 + }, + { + "epoch": 0.907264, + "grad_norm": 0.23330098390579224, + "learning_rate": 1.3951573333333335e-05, + "loss": 0.0053, + "step": 141760 + }, + { + "epoch": 0.907296, + "grad_norm": 0.18232977390289307, + "learning_rate": 1.395136e-05, + "loss": 0.004, + "step": 141765 + }, + { + "epoch": 0.907328, + "grad_norm": 0.020471524447202682, + "learning_rate": 1.3951146666666668e-05, + "loss": 0.0037, + "step": 141770 + }, + { + "epoch": 0.90736, + "grad_norm": 0.6943152546882629, + "learning_rate": 1.3950933333333334e-05, + "loss": 0.0081, + "step": 141775 + }, + { + "epoch": 0.907392, + "grad_norm": 0.7275189757347107, + "learning_rate": 1.3950720000000002e-05, + "loss": 0.0093, + "step": 141780 + }, + { + "epoch": 0.907424, + "grad_norm": 0.05471827834844589, + "learning_rate": 1.3950506666666667e-05, + "loss": 0.0057, + "step": 141785 + }, + { + "epoch": 0.907456, + "grad_norm": 0.5657676458358765, + "learning_rate": 1.3950293333333333e-05, + "loss": 0.0149, + "step": 141790 + }, + { + "epoch": 0.907488, + "grad_norm": 0.17847004532814026, + "learning_rate": 1.395008e-05, + "loss": 0.0071, + "step": 141795 + }, + { + "epoch": 0.90752, + "grad_norm": 0.3441399037837982, + "learning_rate": 1.3949866666666667e-05, + "loss": 0.0071, + "step": 141800 + }, + { + "epoch": 0.907552, + "grad_norm": 0.6437499523162842, + "learning_rate": 1.3949653333333336e-05, + "loss": 0.0074, + "step": 141805 + }, + { + "epoch": 0.907584, + "grad_norm": 0.296664834022522, + "learning_rate": 1.394944e-05, + "loss": 0.0069, + "step": 141810 + }, + { + "epoch": 0.907616, + "grad_norm": 0.002125884871929884, + "learning_rate": 1.394922666666667e-05, + "loss": 0.0008, + "step": 141815 + }, + { + "epoch": 0.907648, + "grad_norm": 0.1645706593990326, + "learning_rate": 1.3949013333333335e-05, + "loss": 0.004, + "step": 141820 + }, + { + "epoch": 0.90768, + "grad_norm": 1.2215051651000977, + "learning_rate": 1.39488e-05, + "loss": 0.0054, + "step": 141825 + }, + { + "epoch": 0.907712, + "grad_norm": 0.1980963796377182, + "learning_rate": 1.3948586666666669e-05, + "loss": 0.0056, + "step": 141830 + }, + { + "epoch": 0.907744, + "grad_norm": 0.26412156224250793, + "learning_rate": 1.3948373333333334e-05, + "loss": 0.0237, + "step": 141835 + }, + { + "epoch": 0.907776, + "grad_norm": 0.052296146750450134, + "learning_rate": 1.3948160000000002e-05, + "loss": 0.0016, + "step": 141840 + }, + { + "epoch": 0.907808, + "grad_norm": 0.6546908020973206, + "learning_rate": 1.3947946666666668e-05, + "loss": 0.0049, + "step": 141845 + }, + { + "epoch": 0.90784, + "grad_norm": 0.11772924661636353, + "learning_rate": 1.3947733333333335e-05, + "loss": 0.0056, + "step": 141850 + }, + { + "epoch": 0.907872, + "grad_norm": 0.023956233635544777, + "learning_rate": 1.3947520000000001e-05, + "loss": 0.0058, + "step": 141855 + }, + { + "epoch": 0.907904, + "grad_norm": 0.02354855090379715, + "learning_rate": 1.3947306666666667e-05, + "loss": 0.0157, + "step": 141860 + }, + { + "epoch": 0.907936, + "grad_norm": 0.7328742146492004, + "learning_rate": 1.3947093333333335e-05, + "loss": 0.0073, + "step": 141865 + }, + { + "epoch": 0.907968, + "grad_norm": 0.13734574615955353, + "learning_rate": 1.394688e-05, + "loss": 0.0199, + "step": 141870 + }, + { + "epoch": 0.908, + "grad_norm": 0.26253512501716614, + "learning_rate": 1.3946666666666668e-05, + "loss": 0.011, + "step": 141875 + }, + { + "epoch": 0.908032, + "grad_norm": 0.9738094806671143, + "learning_rate": 1.3946453333333334e-05, + "loss": 0.004, + "step": 141880 + }, + { + "epoch": 0.908064, + "grad_norm": 0.5622589588165283, + "learning_rate": 1.3946240000000002e-05, + "loss": 0.0134, + "step": 141885 + }, + { + "epoch": 0.908096, + "grad_norm": 0.038023173809051514, + "learning_rate": 1.3946026666666667e-05, + "loss": 0.0049, + "step": 141890 + }, + { + "epoch": 0.908128, + "grad_norm": 0.11454305052757263, + "learning_rate": 1.3945813333333333e-05, + "loss": 0.0031, + "step": 141895 + }, + { + "epoch": 0.90816, + "grad_norm": 3.6027183532714844, + "learning_rate": 1.39456e-05, + "loss": 0.0209, + "step": 141900 + }, + { + "epoch": 0.908192, + "grad_norm": 0.03453075885772705, + "learning_rate": 1.3945386666666667e-05, + "loss": 0.0129, + "step": 141905 + }, + { + "epoch": 0.908224, + "grad_norm": 0.12274366617202759, + "learning_rate": 1.3945173333333334e-05, + "loss": 0.0159, + "step": 141910 + }, + { + "epoch": 0.908256, + "grad_norm": 0.019599027931690216, + "learning_rate": 1.394496e-05, + "loss": 0.0032, + "step": 141915 + }, + { + "epoch": 0.908288, + "grad_norm": 0.2614206373691559, + "learning_rate": 1.394474666666667e-05, + "loss": 0.0138, + "step": 141920 + }, + { + "epoch": 0.90832, + "grad_norm": 0.15178579092025757, + "learning_rate": 1.3944533333333335e-05, + "loss": 0.0134, + "step": 141925 + }, + { + "epoch": 0.908352, + "grad_norm": 0.02178809978067875, + "learning_rate": 1.394432e-05, + "loss": 0.018, + "step": 141930 + }, + { + "epoch": 0.908384, + "grad_norm": 0.27060332894325256, + "learning_rate": 1.3944106666666669e-05, + "loss": 0.0043, + "step": 141935 + }, + { + "epoch": 0.908416, + "grad_norm": 0.03341937065124512, + "learning_rate": 1.3943893333333334e-05, + "loss": 0.0045, + "step": 141940 + }, + { + "epoch": 0.908448, + "grad_norm": 0.0266315545886755, + "learning_rate": 1.3943680000000002e-05, + "loss": 0.0013, + "step": 141945 + }, + { + "epoch": 0.90848, + "grad_norm": 1.4903768301010132, + "learning_rate": 1.3943466666666668e-05, + "loss": 0.0179, + "step": 141950 + }, + { + "epoch": 0.908512, + "grad_norm": 0.017150450497865677, + "learning_rate": 1.3943253333333335e-05, + "loss": 0.003, + "step": 141955 + }, + { + "epoch": 0.908544, + "grad_norm": 0.048391688615083694, + "learning_rate": 1.3943040000000001e-05, + "loss": 0.0133, + "step": 141960 + }, + { + "epoch": 0.908576, + "grad_norm": 0.17463430762290955, + "learning_rate": 1.3942826666666667e-05, + "loss": 0.0112, + "step": 141965 + }, + { + "epoch": 0.908608, + "grad_norm": 2.391465187072754, + "learning_rate": 1.3942613333333335e-05, + "loss": 0.012, + "step": 141970 + }, + { + "epoch": 0.90864, + "grad_norm": 0.3950074315071106, + "learning_rate": 1.39424e-05, + "loss": 0.005, + "step": 141975 + }, + { + "epoch": 0.908672, + "grad_norm": 0.010067619383335114, + "learning_rate": 1.3942186666666668e-05, + "loss": 0.0031, + "step": 141980 + }, + { + "epoch": 0.908704, + "grad_norm": 0.02784205786883831, + "learning_rate": 1.3941973333333334e-05, + "loss": 0.0021, + "step": 141985 + }, + { + "epoch": 0.908736, + "grad_norm": 0.31870850920677185, + "learning_rate": 1.3941760000000002e-05, + "loss": 0.0172, + "step": 141990 + }, + { + "epoch": 0.908768, + "grad_norm": 0.6255289912223816, + "learning_rate": 1.3941546666666667e-05, + "loss": 0.0125, + "step": 141995 + }, + { + "epoch": 0.9088, + "grad_norm": 0.08048748970031738, + "learning_rate": 1.3941333333333333e-05, + "loss": 0.0211, + "step": 142000 + }, + { + "epoch": 0.908832, + "grad_norm": 0.2939126789569855, + "learning_rate": 1.394112e-05, + "loss": 0.0041, + "step": 142005 + }, + { + "epoch": 0.908864, + "grad_norm": 0.7484157085418701, + "learning_rate": 1.3940906666666667e-05, + "loss": 0.0197, + "step": 142010 + }, + { + "epoch": 0.908896, + "grad_norm": 0.4453425407409668, + "learning_rate": 1.3940693333333334e-05, + "loss": 0.0107, + "step": 142015 + }, + { + "epoch": 0.908928, + "grad_norm": 0.45084816217422485, + "learning_rate": 1.394048e-05, + "loss": 0.0088, + "step": 142020 + }, + { + "epoch": 0.90896, + "grad_norm": 0.01904135011136532, + "learning_rate": 1.394026666666667e-05, + "loss": 0.0191, + "step": 142025 + }, + { + "epoch": 0.908992, + "grad_norm": 0.013108954764902592, + "learning_rate": 1.3940053333333335e-05, + "loss": 0.0057, + "step": 142030 + }, + { + "epoch": 0.909024, + "grad_norm": 0.39589616656303406, + "learning_rate": 1.393984e-05, + "loss": 0.0036, + "step": 142035 + }, + { + "epoch": 0.909056, + "grad_norm": 0.03274041414260864, + "learning_rate": 1.3939626666666669e-05, + "loss": 0.0084, + "step": 142040 + }, + { + "epoch": 0.909088, + "grad_norm": 0.194438174366951, + "learning_rate": 1.3939413333333334e-05, + "loss": 0.0126, + "step": 142045 + }, + { + "epoch": 0.90912, + "grad_norm": 0.014116337522864342, + "learning_rate": 1.3939200000000002e-05, + "loss": 0.0027, + "step": 142050 + }, + { + "epoch": 0.909152, + "grad_norm": 0.7429385185241699, + "learning_rate": 1.3938986666666668e-05, + "loss": 0.0044, + "step": 142055 + }, + { + "epoch": 0.909184, + "grad_norm": 0.4798490107059479, + "learning_rate": 1.3938773333333335e-05, + "loss": 0.0157, + "step": 142060 + }, + { + "epoch": 0.909216, + "grad_norm": 0.41433510184288025, + "learning_rate": 1.3938560000000001e-05, + "loss": 0.0044, + "step": 142065 + }, + { + "epoch": 0.909248, + "grad_norm": 0.10076367110013962, + "learning_rate": 1.3938346666666669e-05, + "loss": 0.014, + "step": 142070 + }, + { + "epoch": 0.90928, + "grad_norm": 0.022270571440458298, + "learning_rate": 1.3938133333333335e-05, + "loss": 0.002, + "step": 142075 + }, + { + "epoch": 0.909312, + "grad_norm": 0.49567267298698425, + "learning_rate": 1.393792e-05, + "loss": 0.0073, + "step": 142080 + }, + { + "epoch": 0.909344, + "grad_norm": 0.4081204831600189, + "learning_rate": 1.3937706666666668e-05, + "loss": 0.0111, + "step": 142085 + }, + { + "epoch": 0.909376, + "grad_norm": 0.7165018916130066, + "learning_rate": 1.3937493333333334e-05, + "loss": 0.0221, + "step": 142090 + }, + { + "epoch": 0.909408, + "grad_norm": 0.36058980226516724, + "learning_rate": 1.3937280000000002e-05, + "loss": 0.0015, + "step": 142095 + }, + { + "epoch": 0.90944, + "grad_norm": 0.10981829464435577, + "learning_rate": 1.3937066666666667e-05, + "loss": 0.0058, + "step": 142100 + }, + { + "epoch": 0.909472, + "grad_norm": 0.042553067207336426, + "learning_rate": 1.3936853333333335e-05, + "loss": 0.0037, + "step": 142105 + }, + { + "epoch": 0.909504, + "grad_norm": 0.2427739053964615, + "learning_rate": 1.393664e-05, + "loss": 0.0042, + "step": 142110 + }, + { + "epoch": 0.909536, + "grad_norm": 0.02401006408035755, + "learning_rate": 1.3936426666666667e-05, + "loss": 0.0046, + "step": 142115 + }, + { + "epoch": 0.909568, + "grad_norm": 1.1567732095718384, + "learning_rate": 1.3936213333333334e-05, + "loss": 0.0101, + "step": 142120 + }, + { + "epoch": 0.9096, + "grad_norm": 0.22641822695732117, + "learning_rate": 1.3936e-05, + "loss": 0.0062, + "step": 142125 + }, + { + "epoch": 0.909632, + "grad_norm": 0.36498263478279114, + "learning_rate": 1.393578666666667e-05, + "loss": 0.0084, + "step": 142130 + }, + { + "epoch": 0.909664, + "grad_norm": 0.6593782901763916, + "learning_rate": 1.3935573333333333e-05, + "loss": 0.0045, + "step": 142135 + }, + { + "epoch": 0.909696, + "grad_norm": 0.5851474404335022, + "learning_rate": 1.3935360000000003e-05, + "loss": 0.0079, + "step": 142140 + }, + { + "epoch": 0.909728, + "grad_norm": 0.12012410908937454, + "learning_rate": 1.3935146666666669e-05, + "loss": 0.0043, + "step": 142145 + }, + { + "epoch": 0.90976, + "grad_norm": 0.5872767567634583, + "learning_rate": 1.3934933333333334e-05, + "loss": 0.0071, + "step": 142150 + }, + { + "epoch": 0.909792, + "grad_norm": 0.5420581102371216, + "learning_rate": 1.3934720000000002e-05, + "loss": 0.0124, + "step": 142155 + }, + { + "epoch": 0.909824, + "grad_norm": 0.46138620376586914, + "learning_rate": 1.3934506666666668e-05, + "loss": 0.0042, + "step": 142160 + }, + { + "epoch": 0.909856, + "grad_norm": 0.4514087438583374, + "learning_rate": 1.3934293333333335e-05, + "loss": 0.0063, + "step": 142165 + }, + { + "epoch": 0.909888, + "grad_norm": 0.08364373445510864, + "learning_rate": 1.3934080000000001e-05, + "loss": 0.004, + "step": 142170 + }, + { + "epoch": 0.90992, + "grad_norm": 0.2571270167827606, + "learning_rate": 1.3933866666666669e-05, + "loss": 0.0053, + "step": 142175 + }, + { + "epoch": 0.909952, + "grad_norm": 0.5598190426826477, + "learning_rate": 1.3933653333333335e-05, + "loss": 0.0068, + "step": 142180 + }, + { + "epoch": 0.909984, + "grad_norm": 0.11708539724349976, + "learning_rate": 1.393344e-05, + "loss": 0.0013, + "step": 142185 + }, + { + "epoch": 0.910016, + "grad_norm": 0.32636141777038574, + "learning_rate": 1.3933226666666668e-05, + "loss": 0.0041, + "step": 142190 + }, + { + "epoch": 0.910048, + "grad_norm": 0.05087430402636528, + "learning_rate": 1.3933013333333334e-05, + "loss": 0.0039, + "step": 142195 + }, + { + "epoch": 0.91008, + "grad_norm": 0.10131725668907166, + "learning_rate": 1.3932800000000002e-05, + "loss": 0.0027, + "step": 142200 + }, + { + "epoch": 0.910112, + "grad_norm": 0.10696516931056976, + "learning_rate": 1.3932586666666667e-05, + "loss": 0.0039, + "step": 142205 + }, + { + "epoch": 0.910144, + "grad_norm": 1.0535130500793457, + "learning_rate": 1.3932373333333335e-05, + "loss": 0.0064, + "step": 142210 + }, + { + "epoch": 0.910176, + "grad_norm": 0.05490023270249367, + "learning_rate": 1.393216e-05, + "loss": 0.0042, + "step": 142215 + }, + { + "epoch": 0.910208, + "grad_norm": 0.28993481397628784, + "learning_rate": 1.3931946666666667e-05, + "loss": 0.004, + "step": 142220 + }, + { + "epoch": 0.91024, + "grad_norm": 0.5725859999656677, + "learning_rate": 1.3931733333333334e-05, + "loss": 0.0091, + "step": 142225 + }, + { + "epoch": 0.910272, + "grad_norm": 0.07907313108444214, + "learning_rate": 1.393152e-05, + "loss": 0.0082, + "step": 142230 + }, + { + "epoch": 0.910304, + "grad_norm": 0.10255427658557892, + "learning_rate": 1.393130666666667e-05, + "loss": 0.0029, + "step": 142235 + }, + { + "epoch": 0.910336, + "grad_norm": 0.02137923799455166, + "learning_rate": 1.3931093333333333e-05, + "loss": 0.0022, + "step": 142240 + }, + { + "epoch": 0.910368, + "grad_norm": 0.022881338372826576, + "learning_rate": 1.3930880000000003e-05, + "loss": 0.0027, + "step": 142245 + }, + { + "epoch": 0.9104, + "grad_norm": 0.6037153601646423, + "learning_rate": 1.3930666666666669e-05, + "loss": 0.0079, + "step": 142250 + }, + { + "epoch": 0.910432, + "grad_norm": 0.6102867722511292, + "learning_rate": 1.3930453333333334e-05, + "loss": 0.0099, + "step": 142255 + }, + { + "epoch": 0.910464, + "grad_norm": 0.23927700519561768, + "learning_rate": 1.3930240000000002e-05, + "loss": 0.0235, + "step": 142260 + }, + { + "epoch": 0.910496, + "grad_norm": 0.3464947044849396, + "learning_rate": 1.3930026666666668e-05, + "loss": 0.0078, + "step": 142265 + }, + { + "epoch": 0.910528, + "grad_norm": 0.8923895955085754, + "learning_rate": 1.3929813333333335e-05, + "loss": 0.0084, + "step": 142270 + }, + { + "epoch": 0.91056, + "grad_norm": 0.7160141468048096, + "learning_rate": 1.3929600000000001e-05, + "loss": 0.0066, + "step": 142275 + }, + { + "epoch": 0.910592, + "grad_norm": 0.8993158936500549, + "learning_rate": 1.3929386666666669e-05, + "loss": 0.0057, + "step": 142280 + }, + { + "epoch": 0.910624, + "grad_norm": 0.04622270166873932, + "learning_rate": 1.3929173333333335e-05, + "loss": 0.006, + "step": 142285 + }, + { + "epoch": 0.910656, + "grad_norm": 0.694429337978363, + "learning_rate": 1.392896e-05, + "loss": 0.0089, + "step": 142290 + }, + { + "epoch": 0.910688, + "grad_norm": 0.21339266002178192, + "learning_rate": 1.3928746666666668e-05, + "loss": 0.0034, + "step": 142295 + }, + { + "epoch": 0.91072, + "grad_norm": 0.9818716645240784, + "learning_rate": 1.3928533333333334e-05, + "loss": 0.0066, + "step": 142300 + }, + { + "epoch": 0.910752, + "grad_norm": 0.23908668756484985, + "learning_rate": 1.3928320000000002e-05, + "loss": 0.0032, + "step": 142305 + }, + { + "epoch": 0.910784, + "grad_norm": 0.4535718262195587, + "learning_rate": 1.3928106666666667e-05, + "loss": 0.0304, + "step": 142310 + }, + { + "epoch": 0.910816, + "grad_norm": 0.2349867969751358, + "learning_rate": 1.3927893333333335e-05, + "loss": 0.0031, + "step": 142315 + }, + { + "epoch": 0.910848, + "grad_norm": 1.3827687501907349, + "learning_rate": 1.392768e-05, + "loss": 0.0104, + "step": 142320 + }, + { + "epoch": 0.91088, + "grad_norm": 0.29539138078689575, + "learning_rate": 1.3927466666666667e-05, + "loss": 0.0043, + "step": 142325 + }, + { + "epoch": 0.910912, + "grad_norm": 0.03645678237080574, + "learning_rate": 1.3927253333333334e-05, + "loss": 0.0038, + "step": 142330 + }, + { + "epoch": 0.910944, + "grad_norm": 0.008237026631832123, + "learning_rate": 1.392704e-05, + "loss": 0.0104, + "step": 142335 + }, + { + "epoch": 0.910976, + "grad_norm": 0.050862520933151245, + "learning_rate": 1.392682666666667e-05, + "loss": 0.0036, + "step": 142340 + }, + { + "epoch": 0.911008, + "grad_norm": 0.02678210847079754, + "learning_rate": 1.3926613333333333e-05, + "loss": 0.0108, + "step": 142345 + }, + { + "epoch": 0.91104, + "grad_norm": 0.20331016182899475, + "learning_rate": 1.3926400000000003e-05, + "loss": 0.0022, + "step": 142350 + }, + { + "epoch": 0.911072, + "grad_norm": 0.004022832959890366, + "learning_rate": 1.3926186666666669e-05, + "loss": 0.0021, + "step": 142355 + }, + { + "epoch": 0.911104, + "grad_norm": 0.04710933193564415, + "learning_rate": 1.3925973333333333e-05, + "loss": 0.0048, + "step": 142360 + }, + { + "epoch": 0.911136, + "grad_norm": 1.972580909729004, + "learning_rate": 1.3925760000000002e-05, + "loss": 0.01, + "step": 142365 + }, + { + "epoch": 0.911168, + "grad_norm": 0.1904696673154831, + "learning_rate": 1.3925546666666668e-05, + "loss": 0.0042, + "step": 142370 + }, + { + "epoch": 0.9112, + "grad_norm": 0.10658721625804901, + "learning_rate": 1.3925333333333335e-05, + "loss": 0.0057, + "step": 142375 + }, + { + "epoch": 0.911232, + "grad_norm": 0.5881287455558777, + "learning_rate": 1.3925120000000001e-05, + "loss": 0.0101, + "step": 142380 + }, + { + "epoch": 0.911264, + "grad_norm": 0.5630591511726379, + "learning_rate": 1.3924906666666669e-05, + "loss": 0.0072, + "step": 142385 + }, + { + "epoch": 0.911296, + "grad_norm": 0.4153873026371002, + "learning_rate": 1.3924693333333335e-05, + "loss": 0.0076, + "step": 142390 + }, + { + "epoch": 0.911328, + "grad_norm": 0.034986551851034164, + "learning_rate": 1.392448e-05, + "loss": 0.0047, + "step": 142395 + }, + { + "epoch": 0.91136, + "grad_norm": 0.9547818899154663, + "learning_rate": 1.3924266666666668e-05, + "loss": 0.012, + "step": 142400 + }, + { + "epoch": 0.911392, + "grad_norm": 0.8779358863830566, + "learning_rate": 1.3924053333333334e-05, + "loss": 0.0423, + "step": 142405 + }, + { + "epoch": 0.911424, + "grad_norm": 0.7429226040840149, + "learning_rate": 1.3923840000000002e-05, + "loss": 0.0069, + "step": 142410 + }, + { + "epoch": 0.911456, + "grad_norm": 0.04258064180612564, + "learning_rate": 1.3923626666666667e-05, + "loss": 0.0107, + "step": 142415 + }, + { + "epoch": 0.911488, + "grad_norm": 0.2839897572994232, + "learning_rate": 1.3923413333333335e-05, + "loss": 0.0047, + "step": 142420 + }, + { + "epoch": 0.91152, + "grad_norm": 0.3321782946586609, + "learning_rate": 1.39232e-05, + "loss": 0.0099, + "step": 142425 + }, + { + "epoch": 0.911552, + "grad_norm": 0.04531940072774887, + "learning_rate": 1.3922986666666667e-05, + "loss": 0.0026, + "step": 142430 + }, + { + "epoch": 0.911584, + "grad_norm": 0.05044512823224068, + "learning_rate": 1.3922773333333334e-05, + "loss": 0.0226, + "step": 142435 + }, + { + "epoch": 0.911616, + "grad_norm": 0.15473206341266632, + "learning_rate": 1.392256e-05, + "loss": 0.0071, + "step": 142440 + }, + { + "epoch": 0.911648, + "grad_norm": 0.9132583141326904, + "learning_rate": 1.3922346666666668e-05, + "loss": 0.0057, + "step": 142445 + }, + { + "epoch": 0.91168, + "grad_norm": 0.018634038046002388, + "learning_rate": 1.3922133333333333e-05, + "loss": 0.0178, + "step": 142450 + }, + { + "epoch": 0.911712, + "grad_norm": 0.3483664393424988, + "learning_rate": 1.3921920000000003e-05, + "loss": 0.0113, + "step": 142455 + }, + { + "epoch": 0.911744, + "grad_norm": 0.028266852721571922, + "learning_rate": 1.3921706666666669e-05, + "loss": 0.0035, + "step": 142460 + }, + { + "epoch": 0.911776, + "grad_norm": 0.006137780379503965, + "learning_rate": 1.3921493333333333e-05, + "loss": 0.0077, + "step": 142465 + }, + { + "epoch": 0.911808, + "grad_norm": 0.4587363302707672, + "learning_rate": 1.3921280000000002e-05, + "loss": 0.0054, + "step": 142470 + }, + { + "epoch": 0.91184, + "grad_norm": 0.34120839834213257, + "learning_rate": 1.3921066666666668e-05, + "loss": 0.0039, + "step": 142475 + }, + { + "epoch": 0.911872, + "grad_norm": 0.21763209998607635, + "learning_rate": 1.3920853333333335e-05, + "loss": 0.0037, + "step": 142480 + }, + { + "epoch": 0.911904, + "grad_norm": 0.5063064694404602, + "learning_rate": 1.3920640000000001e-05, + "loss": 0.0096, + "step": 142485 + }, + { + "epoch": 0.911936, + "grad_norm": 0.035378217697143555, + "learning_rate": 1.3920426666666669e-05, + "loss": 0.0141, + "step": 142490 + }, + { + "epoch": 0.911968, + "grad_norm": 0.9344531297683716, + "learning_rate": 1.3920213333333335e-05, + "loss": 0.0037, + "step": 142495 + }, + { + "epoch": 0.912, + "grad_norm": 0.24363131821155548, + "learning_rate": 1.392e-05, + "loss": 0.0066, + "step": 142500 + }, + { + "epoch": 0.912032, + "grad_norm": 0.16562806069850922, + "learning_rate": 1.3919786666666668e-05, + "loss": 0.0088, + "step": 142505 + }, + { + "epoch": 0.912064, + "grad_norm": 0.38671624660491943, + "learning_rate": 1.3919573333333334e-05, + "loss": 0.0076, + "step": 142510 + }, + { + "epoch": 0.912096, + "grad_norm": 0.10151808708906174, + "learning_rate": 1.3919360000000002e-05, + "loss": 0.0021, + "step": 142515 + }, + { + "epoch": 0.912128, + "grad_norm": 0.2962782084941864, + "learning_rate": 1.3919146666666667e-05, + "loss": 0.0031, + "step": 142520 + }, + { + "epoch": 0.91216, + "grad_norm": 0.8722642660140991, + "learning_rate": 1.3918933333333335e-05, + "loss": 0.0034, + "step": 142525 + }, + { + "epoch": 0.912192, + "grad_norm": 0.52669358253479, + "learning_rate": 1.391872e-05, + "loss": 0.0041, + "step": 142530 + }, + { + "epoch": 0.912224, + "grad_norm": 0.7482703328132629, + "learning_rate": 1.3918506666666667e-05, + "loss": 0.0102, + "step": 142535 + }, + { + "epoch": 0.912256, + "grad_norm": 0.2948094606399536, + "learning_rate": 1.3918293333333334e-05, + "loss": 0.007, + "step": 142540 + }, + { + "epoch": 0.912288, + "grad_norm": 0.7946930527687073, + "learning_rate": 1.391808e-05, + "loss": 0.0051, + "step": 142545 + }, + { + "epoch": 0.91232, + "grad_norm": 0.04071155562996864, + "learning_rate": 1.3917866666666668e-05, + "loss": 0.0025, + "step": 142550 + }, + { + "epoch": 0.912352, + "grad_norm": 0.22212867438793182, + "learning_rate": 1.3917653333333333e-05, + "loss": 0.006, + "step": 142555 + }, + { + "epoch": 0.912384, + "grad_norm": 0.042676787823438644, + "learning_rate": 1.3917440000000003e-05, + "loss": 0.015, + "step": 142560 + }, + { + "epoch": 0.912416, + "grad_norm": 0.013935841619968414, + "learning_rate": 1.3917226666666669e-05, + "loss": 0.0093, + "step": 142565 + }, + { + "epoch": 0.912448, + "grad_norm": 1.4021692276000977, + "learning_rate": 1.3917013333333333e-05, + "loss": 0.0189, + "step": 142570 + }, + { + "epoch": 0.91248, + "grad_norm": 0.0665578842163086, + "learning_rate": 1.3916800000000002e-05, + "loss": 0.0056, + "step": 142575 + }, + { + "epoch": 0.912512, + "grad_norm": 0.08095350861549377, + "learning_rate": 1.3916586666666668e-05, + "loss": 0.0177, + "step": 142580 + }, + { + "epoch": 0.912544, + "grad_norm": 0.370979368686676, + "learning_rate": 1.3916373333333335e-05, + "loss": 0.0044, + "step": 142585 + }, + { + "epoch": 0.912576, + "grad_norm": 0.25311246514320374, + "learning_rate": 1.3916160000000001e-05, + "loss": 0.0085, + "step": 142590 + }, + { + "epoch": 0.912608, + "grad_norm": 0.05148950219154358, + "learning_rate": 1.3915946666666669e-05, + "loss": 0.0084, + "step": 142595 + }, + { + "epoch": 0.91264, + "grad_norm": 0.18243533372879028, + "learning_rate": 1.3915733333333335e-05, + "loss": 0.0029, + "step": 142600 + }, + { + "epoch": 0.912672, + "grad_norm": 1.0810598134994507, + "learning_rate": 1.391552e-05, + "loss": 0.0058, + "step": 142605 + }, + { + "epoch": 0.912704, + "grad_norm": 0.8380701541900635, + "learning_rate": 1.3915306666666668e-05, + "loss": 0.0086, + "step": 142610 + }, + { + "epoch": 0.912736, + "grad_norm": 0.17105068266391754, + "learning_rate": 1.3915093333333334e-05, + "loss": 0.0041, + "step": 142615 + }, + { + "epoch": 0.912768, + "grad_norm": 0.36810800433158875, + "learning_rate": 1.3914880000000002e-05, + "loss": 0.006, + "step": 142620 + }, + { + "epoch": 0.9128, + "grad_norm": 0.2607928216457367, + "learning_rate": 1.3914666666666667e-05, + "loss": 0.0055, + "step": 142625 + }, + { + "epoch": 0.912832, + "grad_norm": 0.06675705313682556, + "learning_rate": 1.3914453333333335e-05, + "loss": 0.001, + "step": 142630 + }, + { + "epoch": 0.912864, + "grad_norm": 0.11114407330751419, + "learning_rate": 1.391424e-05, + "loss": 0.0077, + "step": 142635 + }, + { + "epoch": 0.912896, + "grad_norm": 0.039970241487026215, + "learning_rate": 1.3914026666666667e-05, + "loss": 0.01, + "step": 142640 + }, + { + "epoch": 0.912928, + "grad_norm": 1.2184650897979736, + "learning_rate": 1.3913813333333334e-05, + "loss": 0.0061, + "step": 142645 + }, + { + "epoch": 0.91296, + "grad_norm": 1.2277812957763672, + "learning_rate": 1.39136e-05, + "loss": 0.0152, + "step": 142650 + }, + { + "epoch": 0.912992, + "grad_norm": 0.6944283843040466, + "learning_rate": 1.3913386666666668e-05, + "loss": 0.0098, + "step": 142655 + }, + { + "epoch": 0.913024, + "grad_norm": 0.3019321858882904, + "learning_rate": 1.3913173333333333e-05, + "loss": 0.0073, + "step": 142660 + }, + { + "epoch": 0.913056, + "grad_norm": 0.022462433204054832, + "learning_rate": 1.3912960000000003e-05, + "loss": 0.0068, + "step": 142665 + }, + { + "epoch": 0.913088, + "grad_norm": 0.1495729237794876, + "learning_rate": 1.3912746666666667e-05, + "loss": 0.0063, + "step": 142670 + }, + { + "epoch": 0.91312, + "grad_norm": 0.341569185256958, + "learning_rate": 1.3912533333333333e-05, + "loss": 0.0088, + "step": 142675 + }, + { + "epoch": 0.913152, + "grad_norm": 2.296430826187134, + "learning_rate": 1.3912320000000002e-05, + "loss": 0.013, + "step": 142680 + }, + { + "epoch": 0.913184, + "grad_norm": 2.0365757942199707, + "learning_rate": 1.3912106666666668e-05, + "loss": 0.0244, + "step": 142685 + }, + { + "epoch": 0.913216, + "grad_norm": 0.18570716679096222, + "learning_rate": 1.3911893333333335e-05, + "loss": 0.0041, + "step": 142690 + }, + { + "epoch": 0.913248, + "grad_norm": 0.2227683812379837, + "learning_rate": 1.3911680000000001e-05, + "loss": 0.0022, + "step": 142695 + }, + { + "epoch": 0.91328, + "grad_norm": 0.04631706699728966, + "learning_rate": 1.3911466666666669e-05, + "loss": 0.0035, + "step": 142700 + }, + { + "epoch": 0.913312, + "grad_norm": 1.0975407361984253, + "learning_rate": 1.3911253333333335e-05, + "loss": 0.0107, + "step": 142705 + }, + { + "epoch": 0.913344, + "grad_norm": 0.18639838695526123, + "learning_rate": 1.391104e-05, + "loss": 0.0013, + "step": 142710 + }, + { + "epoch": 0.913376, + "grad_norm": 0.4531519114971161, + "learning_rate": 1.3910826666666668e-05, + "loss": 0.0029, + "step": 142715 + }, + { + "epoch": 0.913408, + "grad_norm": 0.027208734303712845, + "learning_rate": 1.3910613333333334e-05, + "loss": 0.0192, + "step": 142720 + }, + { + "epoch": 0.91344, + "grad_norm": 0.03084636479616165, + "learning_rate": 1.3910400000000002e-05, + "loss": 0.0064, + "step": 142725 + }, + { + "epoch": 0.913472, + "grad_norm": 0.5687231421470642, + "learning_rate": 1.3910186666666667e-05, + "loss": 0.0093, + "step": 142730 + }, + { + "epoch": 0.913504, + "grad_norm": 0.7616671919822693, + "learning_rate": 1.3909973333333335e-05, + "loss": 0.0101, + "step": 142735 + }, + { + "epoch": 0.913536, + "grad_norm": 0.031485188752412796, + "learning_rate": 1.390976e-05, + "loss": 0.013, + "step": 142740 + }, + { + "epoch": 0.913568, + "grad_norm": 0.4655345380306244, + "learning_rate": 1.3909546666666667e-05, + "loss": 0.0049, + "step": 142745 + }, + { + "epoch": 0.9136, + "grad_norm": 0.02008161135017872, + "learning_rate": 1.3909333333333334e-05, + "loss": 0.0048, + "step": 142750 + }, + { + "epoch": 0.913632, + "grad_norm": 0.134424090385437, + "learning_rate": 1.390912e-05, + "loss": 0.0192, + "step": 142755 + }, + { + "epoch": 0.913664, + "grad_norm": 0.3653058409690857, + "learning_rate": 1.3908906666666668e-05, + "loss": 0.0047, + "step": 142760 + }, + { + "epoch": 0.913696, + "grad_norm": 0.027957044541835785, + "learning_rate": 1.3908693333333333e-05, + "loss": 0.0085, + "step": 142765 + }, + { + "epoch": 0.913728, + "grad_norm": 0.02928018569946289, + "learning_rate": 1.3908480000000003e-05, + "loss": 0.0135, + "step": 142770 + }, + { + "epoch": 0.91376, + "grad_norm": 0.9275731444358826, + "learning_rate": 1.3908266666666667e-05, + "loss": 0.0056, + "step": 142775 + }, + { + "epoch": 0.913792, + "grad_norm": 0.27991336584091187, + "learning_rate": 1.3908053333333333e-05, + "loss": 0.0028, + "step": 142780 + }, + { + "epoch": 0.913824, + "grad_norm": 0.7436559796333313, + "learning_rate": 1.3907840000000002e-05, + "loss": 0.0108, + "step": 142785 + }, + { + "epoch": 0.913856, + "grad_norm": 0.3395671546459198, + "learning_rate": 1.3907626666666668e-05, + "loss": 0.0095, + "step": 142790 + }, + { + "epoch": 0.913888, + "grad_norm": 0.05793602764606476, + "learning_rate": 1.3907413333333335e-05, + "loss": 0.0076, + "step": 142795 + }, + { + "epoch": 0.91392, + "grad_norm": 0.33915960788726807, + "learning_rate": 1.3907200000000001e-05, + "loss": 0.0093, + "step": 142800 + }, + { + "epoch": 0.913952, + "grad_norm": 0.6843014359474182, + "learning_rate": 1.3906986666666669e-05, + "loss": 0.0023, + "step": 142805 + }, + { + "epoch": 0.913984, + "grad_norm": 0.07569125294685364, + "learning_rate": 1.3906773333333335e-05, + "loss": 0.0129, + "step": 142810 + }, + { + "epoch": 0.914016, + "grad_norm": 0.3581462800502777, + "learning_rate": 1.390656e-05, + "loss": 0.0031, + "step": 142815 + }, + { + "epoch": 0.914048, + "grad_norm": 0.11098045855760574, + "learning_rate": 1.3906346666666668e-05, + "loss": 0.0133, + "step": 142820 + }, + { + "epoch": 0.91408, + "grad_norm": 0.5391042232513428, + "learning_rate": 1.3906133333333334e-05, + "loss": 0.0222, + "step": 142825 + }, + { + "epoch": 0.914112, + "grad_norm": 0.42766425013542175, + "learning_rate": 1.3905920000000002e-05, + "loss": 0.0116, + "step": 142830 + }, + { + "epoch": 0.914144, + "grad_norm": 0.1819637566804886, + "learning_rate": 1.3905706666666667e-05, + "loss": 0.0031, + "step": 142835 + }, + { + "epoch": 0.914176, + "grad_norm": 0.09738396853208542, + "learning_rate": 1.3905493333333335e-05, + "loss": 0.0045, + "step": 142840 + }, + { + "epoch": 0.914208, + "grad_norm": 0.6345202922821045, + "learning_rate": 1.390528e-05, + "loss": 0.002, + "step": 142845 + }, + { + "epoch": 0.91424, + "grad_norm": 1.1194833517074585, + "learning_rate": 1.3905066666666667e-05, + "loss": 0.023, + "step": 142850 + }, + { + "epoch": 0.914272, + "grad_norm": 0.5099963545799255, + "learning_rate": 1.3904853333333334e-05, + "loss": 0.0067, + "step": 142855 + }, + { + "epoch": 0.914304, + "grad_norm": 0.298084020614624, + "learning_rate": 1.390464e-05, + "loss": 0.0192, + "step": 142860 + }, + { + "epoch": 0.914336, + "grad_norm": 0.25007539987564087, + "learning_rate": 1.3904426666666668e-05, + "loss": 0.0024, + "step": 142865 + }, + { + "epoch": 0.914368, + "grad_norm": 0.1216779500246048, + "learning_rate": 1.3904213333333333e-05, + "loss": 0.0037, + "step": 142870 + }, + { + "epoch": 0.9144, + "grad_norm": 0.7405655384063721, + "learning_rate": 1.3904000000000003e-05, + "loss": 0.0064, + "step": 142875 + }, + { + "epoch": 0.914432, + "grad_norm": 0.0410776250064373, + "learning_rate": 1.3903786666666667e-05, + "loss": 0.0071, + "step": 142880 + }, + { + "epoch": 0.914464, + "grad_norm": 0.11510760337114334, + "learning_rate": 1.3903573333333333e-05, + "loss": 0.0055, + "step": 142885 + }, + { + "epoch": 0.914496, + "grad_norm": 0.047535113990306854, + "learning_rate": 1.3903360000000002e-05, + "loss": 0.0042, + "step": 142890 + }, + { + "epoch": 0.914528, + "grad_norm": 0.07249704748392105, + "learning_rate": 1.3903146666666666e-05, + "loss": 0.0123, + "step": 142895 + }, + { + "epoch": 0.91456, + "grad_norm": 0.5273662209510803, + "learning_rate": 1.3902933333333335e-05, + "loss": 0.0091, + "step": 142900 + }, + { + "epoch": 0.914592, + "grad_norm": 0.4305904507637024, + "learning_rate": 1.3902720000000001e-05, + "loss": 0.0031, + "step": 142905 + }, + { + "epoch": 0.914624, + "grad_norm": 0.5243990421295166, + "learning_rate": 1.3902506666666669e-05, + "loss": 0.0089, + "step": 142910 + }, + { + "epoch": 0.914656, + "grad_norm": 0.48251307010650635, + "learning_rate": 1.3902293333333335e-05, + "loss": 0.007, + "step": 142915 + }, + { + "epoch": 0.914688, + "grad_norm": 0.01873421110212803, + "learning_rate": 1.3902080000000002e-05, + "loss": 0.0061, + "step": 142920 + }, + { + "epoch": 0.91472, + "grad_norm": 0.04526922479271889, + "learning_rate": 1.3901866666666668e-05, + "loss": 0.005, + "step": 142925 + }, + { + "epoch": 0.914752, + "grad_norm": 0.4176640212535858, + "learning_rate": 1.3901653333333334e-05, + "loss": 0.007, + "step": 142930 + }, + { + "epoch": 0.914784, + "grad_norm": 0.03672998771071434, + "learning_rate": 1.3901440000000002e-05, + "loss": 0.0018, + "step": 142935 + }, + { + "epoch": 0.914816, + "grad_norm": 0.7843287587165833, + "learning_rate": 1.3901226666666667e-05, + "loss": 0.0062, + "step": 142940 + }, + { + "epoch": 0.914848, + "grad_norm": 0.19608202576637268, + "learning_rate": 1.3901013333333335e-05, + "loss": 0.0036, + "step": 142945 + }, + { + "epoch": 0.91488, + "grad_norm": 1.0790318250656128, + "learning_rate": 1.39008e-05, + "loss": 0.0105, + "step": 142950 + }, + { + "epoch": 0.914912, + "grad_norm": 0.0948924720287323, + "learning_rate": 1.3900586666666668e-05, + "loss": 0.0037, + "step": 142955 + }, + { + "epoch": 0.914944, + "grad_norm": 0.13550002872943878, + "learning_rate": 1.3900373333333334e-05, + "loss": 0.0023, + "step": 142960 + }, + { + "epoch": 0.914976, + "grad_norm": 0.26826292276382446, + "learning_rate": 1.390016e-05, + "loss": 0.0032, + "step": 142965 + }, + { + "epoch": 0.915008, + "grad_norm": 1.3536499738693237, + "learning_rate": 1.3899946666666668e-05, + "loss": 0.0116, + "step": 142970 + }, + { + "epoch": 0.91504, + "grad_norm": 0.3561108112335205, + "learning_rate": 1.3899733333333333e-05, + "loss": 0.0043, + "step": 142975 + }, + { + "epoch": 0.915072, + "grad_norm": 0.22586561739444733, + "learning_rate": 1.3899520000000003e-05, + "loss": 0.0032, + "step": 142980 + }, + { + "epoch": 0.915104, + "grad_norm": 0.07974068075418472, + "learning_rate": 1.3899306666666667e-05, + "loss": 0.014, + "step": 142985 + }, + { + "epoch": 0.915136, + "grad_norm": 0.035958778113126755, + "learning_rate": 1.3899093333333336e-05, + "loss": 0.001, + "step": 142990 + }, + { + "epoch": 0.915168, + "grad_norm": 0.4795262813568115, + "learning_rate": 1.3898880000000002e-05, + "loss": 0.0095, + "step": 142995 + }, + { + "epoch": 0.9152, + "grad_norm": 0.1029806062579155, + "learning_rate": 1.3898666666666666e-05, + "loss": 0.0045, + "step": 143000 + }, + { + "epoch": 0.915232, + "grad_norm": 0.1847432255744934, + "learning_rate": 1.3898453333333335e-05, + "loss": 0.0106, + "step": 143005 + }, + { + "epoch": 0.915264, + "grad_norm": 0.7738057374954224, + "learning_rate": 1.3898240000000001e-05, + "loss": 0.0167, + "step": 143010 + }, + { + "epoch": 0.915296, + "grad_norm": 0.056858085095882416, + "learning_rate": 1.3898026666666669e-05, + "loss": 0.004, + "step": 143015 + }, + { + "epoch": 0.915328, + "grad_norm": 0.23815780878067017, + "learning_rate": 1.3897813333333335e-05, + "loss": 0.0205, + "step": 143020 + }, + { + "epoch": 0.91536, + "grad_norm": 0.10235615074634552, + "learning_rate": 1.3897600000000002e-05, + "loss": 0.0078, + "step": 143025 + }, + { + "epoch": 0.915392, + "grad_norm": 1.1693212985992432, + "learning_rate": 1.3897386666666668e-05, + "loss": 0.0109, + "step": 143030 + }, + { + "epoch": 0.915424, + "grad_norm": 0.1327311396598816, + "learning_rate": 1.3897173333333334e-05, + "loss": 0.0049, + "step": 143035 + }, + { + "epoch": 0.915456, + "grad_norm": 0.1876463145017624, + "learning_rate": 1.3896960000000002e-05, + "loss": 0.0097, + "step": 143040 + }, + { + "epoch": 0.915488, + "grad_norm": 0.8781964182853699, + "learning_rate": 1.3896746666666667e-05, + "loss": 0.0131, + "step": 143045 + }, + { + "epoch": 0.91552, + "grad_norm": 0.13641563057899475, + "learning_rate": 1.3896533333333335e-05, + "loss": 0.0054, + "step": 143050 + }, + { + "epoch": 0.915552, + "grad_norm": 0.1082485020160675, + "learning_rate": 1.389632e-05, + "loss": 0.0025, + "step": 143055 + }, + { + "epoch": 0.915584, + "grad_norm": 0.024488503113389015, + "learning_rate": 1.3896106666666668e-05, + "loss": 0.0031, + "step": 143060 + }, + { + "epoch": 0.915616, + "grad_norm": 0.3172041177749634, + "learning_rate": 1.3895893333333334e-05, + "loss": 0.0027, + "step": 143065 + }, + { + "epoch": 0.915648, + "grad_norm": 0.04756860062479973, + "learning_rate": 1.389568e-05, + "loss": 0.0117, + "step": 143070 + }, + { + "epoch": 0.91568, + "grad_norm": 0.1446274369955063, + "learning_rate": 1.3895466666666668e-05, + "loss": 0.0033, + "step": 143075 + }, + { + "epoch": 0.915712, + "grad_norm": 0.6769329309463501, + "learning_rate": 1.3895253333333333e-05, + "loss": 0.0052, + "step": 143080 + }, + { + "epoch": 0.915744, + "grad_norm": 0.1965205818414688, + "learning_rate": 1.3895040000000001e-05, + "loss": 0.0032, + "step": 143085 + }, + { + "epoch": 0.915776, + "grad_norm": 0.025560814887285233, + "learning_rate": 1.3894826666666667e-05, + "loss": 0.0019, + "step": 143090 + }, + { + "epoch": 0.915808, + "grad_norm": 0.47673624753952026, + "learning_rate": 1.3894613333333336e-05, + "loss": 0.008, + "step": 143095 + }, + { + "epoch": 0.91584, + "grad_norm": 0.041092269122600555, + "learning_rate": 1.3894400000000002e-05, + "loss": 0.0067, + "step": 143100 + }, + { + "epoch": 0.915872, + "grad_norm": 0.44593575596809387, + "learning_rate": 1.3894186666666666e-05, + "loss": 0.0125, + "step": 143105 + }, + { + "epoch": 0.915904, + "grad_norm": 0.5476114749908447, + "learning_rate": 1.3893973333333335e-05, + "loss": 0.026, + "step": 143110 + }, + { + "epoch": 0.915936, + "grad_norm": 0.8915764093399048, + "learning_rate": 1.3893760000000001e-05, + "loss": 0.0063, + "step": 143115 + }, + { + "epoch": 0.915968, + "grad_norm": 0.03945830836892128, + "learning_rate": 1.3893546666666669e-05, + "loss": 0.0023, + "step": 143120 + }, + { + "epoch": 0.916, + "grad_norm": 0.45958176255226135, + "learning_rate": 1.3893333333333335e-05, + "loss": 0.0037, + "step": 143125 + }, + { + "epoch": 0.916032, + "grad_norm": 0.46009090542793274, + "learning_rate": 1.3893120000000002e-05, + "loss": 0.0025, + "step": 143130 + }, + { + "epoch": 0.916064, + "grad_norm": 0.13952882587909698, + "learning_rate": 1.3892906666666668e-05, + "loss": 0.0012, + "step": 143135 + }, + { + "epoch": 0.916096, + "grad_norm": 0.6218032836914062, + "learning_rate": 1.3892693333333334e-05, + "loss": 0.0174, + "step": 143140 + }, + { + "epoch": 0.916128, + "grad_norm": 0.030071154236793518, + "learning_rate": 1.3892480000000002e-05, + "loss": 0.0054, + "step": 143145 + }, + { + "epoch": 0.91616, + "grad_norm": 0.18612083792686462, + "learning_rate": 1.3892266666666667e-05, + "loss": 0.0012, + "step": 143150 + }, + { + "epoch": 0.916192, + "grad_norm": 0.07399951666593552, + "learning_rate": 1.3892053333333335e-05, + "loss": 0.0031, + "step": 143155 + }, + { + "epoch": 0.916224, + "grad_norm": 0.03700559213757515, + "learning_rate": 1.389184e-05, + "loss": 0.0044, + "step": 143160 + }, + { + "epoch": 0.916256, + "grad_norm": 0.3139495551586151, + "learning_rate": 1.3891626666666668e-05, + "loss": 0.02, + "step": 143165 + }, + { + "epoch": 0.916288, + "grad_norm": 0.2438344955444336, + "learning_rate": 1.3891413333333334e-05, + "loss": 0.0019, + "step": 143170 + }, + { + "epoch": 0.91632, + "grad_norm": 0.36925432085990906, + "learning_rate": 1.38912e-05, + "loss": 0.0088, + "step": 143175 + }, + { + "epoch": 0.916352, + "grad_norm": 0.582935094833374, + "learning_rate": 1.3890986666666668e-05, + "loss": 0.0118, + "step": 143180 + }, + { + "epoch": 0.916384, + "grad_norm": 0.055836182087659836, + "learning_rate": 1.3890773333333334e-05, + "loss": 0.0046, + "step": 143185 + }, + { + "epoch": 0.916416, + "grad_norm": 0.3572275936603546, + "learning_rate": 1.3890560000000001e-05, + "loss": 0.0042, + "step": 143190 + }, + { + "epoch": 0.916448, + "grad_norm": 1.4691842794418335, + "learning_rate": 1.3890346666666667e-05, + "loss": 0.0035, + "step": 143195 + }, + { + "epoch": 0.91648, + "grad_norm": 0.0862804502248764, + "learning_rate": 1.3890133333333336e-05, + "loss": 0.0125, + "step": 143200 + }, + { + "epoch": 0.916512, + "grad_norm": 1.066079020500183, + "learning_rate": 1.3889920000000002e-05, + "loss": 0.029, + "step": 143205 + }, + { + "epoch": 0.916544, + "grad_norm": 2.556389331817627, + "learning_rate": 1.3889706666666666e-05, + "loss": 0.013, + "step": 143210 + }, + { + "epoch": 0.916576, + "grad_norm": 0.3610774874687195, + "learning_rate": 1.3889493333333335e-05, + "loss": 0.005, + "step": 143215 + }, + { + "epoch": 0.916608, + "grad_norm": 0.8502463698387146, + "learning_rate": 1.3889280000000001e-05, + "loss": 0.0107, + "step": 143220 + }, + { + "epoch": 0.91664, + "grad_norm": 0.016423918306827545, + "learning_rate": 1.3889066666666669e-05, + "loss": 0.0051, + "step": 143225 + }, + { + "epoch": 0.916672, + "grad_norm": 0.14663904905319214, + "learning_rate": 1.3888853333333335e-05, + "loss": 0.0128, + "step": 143230 + }, + { + "epoch": 0.916704, + "grad_norm": 0.11568861454725266, + "learning_rate": 1.3888640000000002e-05, + "loss": 0.0274, + "step": 143235 + }, + { + "epoch": 0.916736, + "grad_norm": 0.07138878107070923, + "learning_rate": 1.3888426666666668e-05, + "loss": 0.0054, + "step": 143240 + }, + { + "epoch": 0.916768, + "grad_norm": 0.015827680006623268, + "learning_rate": 1.3888213333333334e-05, + "loss": 0.0014, + "step": 143245 + }, + { + "epoch": 0.9168, + "grad_norm": 0.057614244520664215, + "learning_rate": 1.3888000000000002e-05, + "loss": 0.0042, + "step": 143250 + }, + { + "epoch": 0.916832, + "grad_norm": 0.35193535685539246, + "learning_rate": 1.3887786666666667e-05, + "loss": 0.0058, + "step": 143255 + }, + { + "epoch": 0.916864, + "grad_norm": 6.351531505584717, + "learning_rate": 1.3887573333333335e-05, + "loss": 0.0124, + "step": 143260 + }, + { + "epoch": 0.916896, + "grad_norm": 1.0035737752914429, + "learning_rate": 1.388736e-05, + "loss": 0.0034, + "step": 143265 + }, + { + "epoch": 0.916928, + "grad_norm": 0.03977993503212929, + "learning_rate": 1.3887146666666668e-05, + "loss": 0.0026, + "step": 143270 + }, + { + "epoch": 0.91696, + "grad_norm": 0.0019520559580996633, + "learning_rate": 1.3886933333333334e-05, + "loss": 0.0126, + "step": 143275 + }, + { + "epoch": 0.916992, + "grad_norm": 0.2412920445203781, + "learning_rate": 1.388672e-05, + "loss": 0.0068, + "step": 143280 + }, + { + "epoch": 0.917024, + "grad_norm": 0.051250115036964417, + "learning_rate": 1.3886506666666668e-05, + "loss": 0.0022, + "step": 143285 + }, + { + "epoch": 0.917056, + "grad_norm": 0.15600913763046265, + "learning_rate": 1.3886293333333334e-05, + "loss": 0.0087, + "step": 143290 + }, + { + "epoch": 0.917088, + "grad_norm": 0.3281297981739044, + "learning_rate": 1.3886080000000001e-05, + "loss": 0.0132, + "step": 143295 + }, + { + "epoch": 0.91712, + "grad_norm": 0.14531025290489197, + "learning_rate": 1.3885866666666667e-05, + "loss": 0.0047, + "step": 143300 + }, + { + "epoch": 0.917152, + "grad_norm": 0.9143778681755066, + "learning_rate": 1.3885653333333336e-05, + "loss": 0.0098, + "step": 143305 + }, + { + "epoch": 0.917184, + "grad_norm": 0.2683905363082886, + "learning_rate": 1.388544e-05, + "loss": 0.0043, + "step": 143310 + }, + { + "epoch": 0.917216, + "grad_norm": 0.14500918984413147, + "learning_rate": 1.3885226666666666e-05, + "loss": 0.0042, + "step": 143315 + }, + { + "epoch": 0.917248, + "grad_norm": 0.1866609752178192, + "learning_rate": 1.3885013333333335e-05, + "loss": 0.0018, + "step": 143320 + }, + { + "epoch": 0.91728, + "grad_norm": 0.03611191362142563, + "learning_rate": 1.3884800000000001e-05, + "loss": 0.0026, + "step": 143325 + }, + { + "epoch": 0.917312, + "grad_norm": 0.05168861895799637, + "learning_rate": 1.3884586666666669e-05, + "loss": 0.0089, + "step": 143330 + }, + { + "epoch": 0.917344, + "grad_norm": 0.0466524101793766, + "learning_rate": 1.3884373333333335e-05, + "loss": 0.0094, + "step": 143335 + }, + { + "epoch": 0.917376, + "grad_norm": 0.012110195122659206, + "learning_rate": 1.3884160000000002e-05, + "loss": 0.0061, + "step": 143340 + }, + { + "epoch": 0.917408, + "grad_norm": 1.1506983041763306, + "learning_rate": 1.3883946666666668e-05, + "loss": 0.0112, + "step": 143345 + }, + { + "epoch": 0.91744, + "grad_norm": 0.39270779490470886, + "learning_rate": 1.3883733333333334e-05, + "loss": 0.0068, + "step": 143350 + }, + { + "epoch": 0.917472, + "grad_norm": 0.013898839242756367, + "learning_rate": 1.3883520000000002e-05, + "loss": 0.0084, + "step": 143355 + }, + { + "epoch": 0.917504, + "grad_norm": 0.0368436835706234, + "learning_rate": 1.3883306666666667e-05, + "loss": 0.0048, + "step": 143360 + }, + { + "epoch": 0.917536, + "grad_norm": 0.19060556590557098, + "learning_rate": 1.3883093333333335e-05, + "loss": 0.0026, + "step": 143365 + }, + { + "epoch": 0.917568, + "grad_norm": 0.012955239973962307, + "learning_rate": 1.388288e-05, + "loss": 0.0031, + "step": 143370 + }, + { + "epoch": 0.9176, + "grad_norm": 0.05254411697387695, + "learning_rate": 1.3882666666666668e-05, + "loss": 0.0074, + "step": 143375 + }, + { + "epoch": 0.917632, + "grad_norm": 0.38315290212631226, + "learning_rate": 1.3882453333333334e-05, + "loss": 0.0024, + "step": 143380 + }, + { + "epoch": 0.917664, + "grad_norm": 0.08609431982040405, + "learning_rate": 1.388224e-05, + "loss": 0.0074, + "step": 143385 + }, + { + "epoch": 0.917696, + "grad_norm": 0.5865787863731384, + "learning_rate": 1.3882026666666668e-05, + "loss": 0.0152, + "step": 143390 + }, + { + "epoch": 0.917728, + "grad_norm": 0.012478739023208618, + "learning_rate": 1.3881813333333334e-05, + "loss": 0.0081, + "step": 143395 + }, + { + "epoch": 0.91776, + "grad_norm": 0.09136275947093964, + "learning_rate": 1.3881600000000001e-05, + "loss": 0.0208, + "step": 143400 + }, + { + "epoch": 0.917792, + "grad_norm": 0.3222842812538147, + "learning_rate": 1.3881386666666667e-05, + "loss": 0.0042, + "step": 143405 + }, + { + "epoch": 0.917824, + "grad_norm": 0.13240285217761993, + "learning_rate": 1.3881173333333336e-05, + "loss": 0.011, + "step": 143410 + }, + { + "epoch": 0.917856, + "grad_norm": 0.354687362909317, + "learning_rate": 1.388096e-05, + "loss": 0.0031, + "step": 143415 + }, + { + "epoch": 0.917888, + "grad_norm": 0.8073728680610657, + "learning_rate": 1.3880746666666666e-05, + "loss": 0.013, + "step": 143420 + }, + { + "epoch": 0.91792, + "grad_norm": 0.040983010083436966, + "learning_rate": 1.3880533333333335e-05, + "loss": 0.0156, + "step": 143425 + }, + { + "epoch": 0.917952, + "grad_norm": 0.46662190556526184, + "learning_rate": 1.3880320000000001e-05, + "loss": 0.006, + "step": 143430 + }, + { + "epoch": 0.917984, + "grad_norm": 0.024342065677046776, + "learning_rate": 1.3880106666666669e-05, + "loss": 0.0042, + "step": 143435 + }, + { + "epoch": 0.918016, + "grad_norm": 1.3822975158691406, + "learning_rate": 1.3879893333333335e-05, + "loss": 0.0142, + "step": 143440 + }, + { + "epoch": 0.918048, + "grad_norm": 0.007156230974942446, + "learning_rate": 1.3879680000000002e-05, + "loss": 0.0049, + "step": 143445 + }, + { + "epoch": 0.91808, + "grad_norm": 0.053976837545633316, + "learning_rate": 1.3879466666666668e-05, + "loss": 0.0049, + "step": 143450 + }, + { + "epoch": 0.918112, + "grad_norm": 1.5685170888900757, + "learning_rate": 1.3879253333333334e-05, + "loss": 0.0132, + "step": 143455 + }, + { + "epoch": 0.918144, + "grad_norm": 1.2087438106536865, + "learning_rate": 1.3879040000000002e-05, + "loss": 0.0135, + "step": 143460 + }, + { + "epoch": 0.918176, + "grad_norm": 0.6316843032836914, + "learning_rate": 1.3878826666666667e-05, + "loss": 0.0137, + "step": 143465 + }, + { + "epoch": 0.918208, + "grad_norm": 0.32470181584358215, + "learning_rate": 1.3878613333333335e-05, + "loss": 0.01, + "step": 143470 + }, + { + "epoch": 0.91824, + "grad_norm": 0.5281147956848145, + "learning_rate": 1.38784e-05, + "loss": 0.0051, + "step": 143475 + }, + { + "epoch": 0.918272, + "grad_norm": 3.7095224857330322, + "learning_rate": 1.3878186666666668e-05, + "loss": 0.0107, + "step": 143480 + }, + { + "epoch": 0.918304, + "grad_norm": 2.0076770782470703, + "learning_rate": 1.3877973333333334e-05, + "loss": 0.0142, + "step": 143485 + }, + { + "epoch": 0.918336, + "grad_norm": 0.29244372248649597, + "learning_rate": 1.387776e-05, + "loss": 0.0068, + "step": 143490 + }, + { + "epoch": 0.918368, + "grad_norm": 0.06760681420564651, + "learning_rate": 1.3877546666666668e-05, + "loss": 0.0036, + "step": 143495 + }, + { + "epoch": 0.9184, + "grad_norm": 0.4758087992668152, + "learning_rate": 1.3877333333333334e-05, + "loss": 0.0122, + "step": 143500 + }, + { + "epoch": 0.918432, + "grad_norm": 0.3683687150478363, + "learning_rate": 1.3877120000000001e-05, + "loss": 0.0037, + "step": 143505 + }, + { + "epoch": 0.918464, + "grad_norm": 0.07755064219236374, + "learning_rate": 1.3876906666666667e-05, + "loss": 0.0107, + "step": 143510 + }, + { + "epoch": 0.918496, + "grad_norm": 0.37116682529449463, + "learning_rate": 1.3876693333333336e-05, + "loss": 0.0059, + "step": 143515 + }, + { + "epoch": 0.918528, + "grad_norm": 0.270330011844635, + "learning_rate": 1.387648e-05, + "loss": 0.0064, + "step": 143520 + }, + { + "epoch": 0.91856, + "grad_norm": 0.11999746412038803, + "learning_rate": 1.3876266666666666e-05, + "loss": 0.0062, + "step": 143525 + }, + { + "epoch": 0.918592, + "grad_norm": 0.8831958174705505, + "learning_rate": 1.3876053333333335e-05, + "loss": 0.0051, + "step": 143530 + }, + { + "epoch": 0.918624, + "grad_norm": 0.36846551299095154, + "learning_rate": 1.387584e-05, + "loss": 0.0126, + "step": 143535 + }, + { + "epoch": 0.918656, + "grad_norm": 0.9234510660171509, + "learning_rate": 1.3875626666666669e-05, + "loss": 0.0081, + "step": 143540 + }, + { + "epoch": 0.918688, + "grad_norm": 0.7297928333282471, + "learning_rate": 1.3875413333333335e-05, + "loss": 0.007, + "step": 143545 + }, + { + "epoch": 0.91872, + "grad_norm": 0.6808269023895264, + "learning_rate": 1.3875200000000002e-05, + "loss": 0.004, + "step": 143550 + }, + { + "epoch": 0.918752, + "grad_norm": 0.18869000673294067, + "learning_rate": 1.3874986666666668e-05, + "loss": 0.0111, + "step": 143555 + }, + { + "epoch": 0.918784, + "grad_norm": 0.02231692150235176, + "learning_rate": 1.3874773333333334e-05, + "loss": 0.004, + "step": 143560 + }, + { + "epoch": 0.918816, + "grad_norm": 0.17908822000026703, + "learning_rate": 1.3874560000000002e-05, + "loss": 0.0092, + "step": 143565 + }, + { + "epoch": 0.918848, + "grad_norm": 0.3377196192741394, + "learning_rate": 1.3874346666666667e-05, + "loss": 0.0119, + "step": 143570 + }, + { + "epoch": 0.91888, + "grad_norm": 0.8284112811088562, + "learning_rate": 1.3874133333333335e-05, + "loss": 0.035, + "step": 143575 + }, + { + "epoch": 0.918912, + "grad_norm": 0.04453837499022484, + "learning_rate": 1.387392e-05, + "loss": 0.0208, + "step": 143580 + }, + { + "epoch": 0.918944, + "grad_norm": 0.5790850520133972, + "learning_rate": 1.3873706666666668e-05, + "loss": 0.0088, + "step": 143585 + }, + { + "epoch": 0.918976, + "grad_norm": 0.9366852641105652, + "learning_rate": 1.3873493333333334e-05, + "loss": 0.0098, + "step": 143590 + }, + { + "epoch": 0.919008, + "grad_norm": 0.2527027130126953, + "learning_rate": 1.387328e-05, + "loss": 0.0091, + "step": 143595 + }, + { + "epoch": 0.91904, + "grad_norm": 0.08222190290689468, + "learning_rate": 1.3873066666666668e-05, + "loss": 0.0087, + "step": 143600 + }, + { + "epoch": 0.919072, + "grad_norm": 0.2512739896774292, + "learning_rate": 1.3872853333333334e-05, + "loss": 0.0058, + "step": 143605 + }, + { + "epoch": 0.919104, + "grad_norm": 0.030942197889089584, + "learning_rate": 1.3872640000000001e-05, + "loss": 0.0083, + "step": 143610 + }, + { + "epoch": 0.919136, + "grad_norm": 0.1285887211561203, + "learning_rate": 1.3872426666666667e-05, + "loss": 0.0031, + "step": 143615 + }, + { + "epoch": 0.919168, + "grad_norm": 0.09820998460054398, + "learning_rate": 1.3872213333333334e-05, + "loss": 0.0037, + "step": 143620 + }, + { + "epoch": 0.9192, + "grad_norm": 0.7031275033950806, + "learning_rate": 1.3872e-05, + "loss": 0.0133, + "step": 143625 + }, + { + "epoch": 0.919232, + "grad_norm": 0.1811908781528473, + "learning_rate": 1.3871786666666666e-05, + "loss": 0.0041, + "step": 143630 + }, + { + "epoch": 0.919264, + "grad_norm": 0.04727843031287193, + "learning_rate": 1.3871573333333335e-05, + "loss": 0.0008, + "step": 143635 + }, + { + "epoch": 0.919296, + "grad_norm": 0.038382336497306824, + "learning_rate": 1.387136e-05, + "loss": 0.0052, + "step": 143640 + }, + { + "epoch": 0.919328, + "grad_norm": 0.22018533945083618, + "learning_rate": 1.3871146666666669e-05, + "loss": 0.024, + "step": 143645 + }, + { + "epoch": 0.91936, + "grad_norm": 0.05329997092485428, + "learning_rate": 1.3870933333333335e-05, + "loss": 0.0017, + "step": 143650 + }, + { + "epoch": 0.919392, + "grad_norm": 0.6145834922790527, + "learning_rate": 1.3870720000000002e-05, + "loss": 0.0102, + "step": 143655 + }, + { + "epoch": 0.919424, + "grad_norm": 0.21220821142196655, + "learning_rate": 1.3870506666666668e-05, + "loss": 0.0026, + "step": 143660 + }, + { + "epoch": 0.919456, + "grad_norm": 0.03780093789100647, + "learning_rate": 1.3870293333333334e-05, + "loss": 0.0103, + "step": 143665 + }, + { + "epoch": 0.919488, + "grad_norm": 1.954464077949524, + "learning_rate": 1.3870080000000002e-05, + "loss": 0.0083, + "step": 143670 + }, + { + "epoch": 0.91952, + "grad_norm": 2.2075562477111816, + "learning_rate": 1.3869866666666667e-05, + "loss": 0.0134, + "step": 143675 + }, + { + "epoch": 0.919552, + "grad_norm": 0.4373311400413513, + "learning_rate": 1.3869653333333335e-05, + "loss": 0.0032, + "step": 143680 + }, + { + "epoch": 0.919584, + "grad_norm": 0.21385103464126587, + "learning_rate": 1.386944e-05, + "loss": 0.008, + "step": 143685 + }, + { + "epoch": 0.919616, + "grad_norm": 1.110468864440918, + "learning_rate": 1.3869226666666668e-05, + "loss": 0.0045, + "step": 143690 + }, + { + "epoch": 0.919648, + "grad_norm": 0.265661358833313, + "learning_rate": 1.3869013333333334e-05, + "loss": 0.008, + "step": 143695 + }, + { + "epoch": 0.91968, + "grad_norm": 0.13147315382957458, + "learning_rate": 1.38688e-05, + "loss": 0.0056, + "step": 143700 + }, + { + "epoch": 0.919712, + "grad_norm": 0.1187678799033165, + "learning_rate": 1.3868586666666668e-05, + "loss": 0.0238, + "step": 143705 + }, + { + "epoch": 0.919744, + "grad_norm": 0.5005305409431458, + "learning_rate": 1.3868373333333334e-05, + "loss": 0.0134, + "step": 143710 + }, + { + "epoch": 0.919776, + "grad_norm": 1.488592505455017, + "learning_rate": 1.3868160000000001e-05, + "loss": 0.0208, + "step": 143715 + }, + { + "epoch": 0.919808, + "grad_norm": 0.4713752269744873, + "learning_rate": 1.3867946666666667e-05, + "loss": 0.004, + "step": 143720 + }, + { + "epoch": 0.91984, + "grad_norm": 0.03825227916240692, + "learning_rate": 1.3867733333333334e-05, + "loss": 0.0055, + "step": 143725 + }, + { + "epoch": 0.919872, + "grad_norm": 0.5732110738754272, + "learning_rate": 1.386752e-05, + "loss": 0.0083, + "step": 143730 + }, + { + "epoch": 0.919904, + "grad_norm": 0.2521021068096161, + "learning_rate": 1.3867306666666666e-05, + "loss": 0.0033, + "step": 143735 + }, + { + "epoch": 0.919936, + "grad_norm": 0.9501919150352478, + "learning_rate": 1.3867093333333335e-05, + "loss": 0.0216, + "step": 143740 + }, + { + "epoch": 0.919968, + "grad_norm": 0.44059494137763977, + "learning_rate": 1.386688e-05, + "loss": 0.028, + "step": 143745 + }, + { + "epoch": 0.92, + "grad_norm": 0.7932068705558777, + "learning_rate": 1.3866666666666669e-05, + "loss": 0.006, + "step": 143750 + }, + { + "epoch": 0.920032, + "grad_norm": 0.09846328943967819, + "learning_rate": 1.3866453333333335e-05, + "loss": 0.0051, + "step": 143755 + }, + { + "epoch": 0.920064, + "grad_norm": 0.06149819493293762, + "learning_rate": 1.3866240000000002e-05, + "loss": 0.0077, + "step": 143760 + }, + { + "epoch": 0.920096, + "grad_norm": 0.049482058733701706, + "learning_rate": 1.3866026666666668e-05, + "loss": 0.0167, + "step": 143765 + }, + { + "epoch": 0.920128, + "grad_norm": 0.03888582065701485, + "learning_rate": 1.3865813333333336e-05, + "loss": 0.0047, + "step": 143770 + }, + { + "epoch": 0.92016, + "grad_norm": 3.7646286487579346, + "learning_rate": 1.3865600000000002e-05, + "loss": 0.0112, + "step": 143775 + }, + { + "epoch": 0.920192, + "grad_norm": 4.042616844177246, + "learning_rate": 1.3865386666666667e-05, + "loss": 0.0159, + "step": 143780 + }, + { + "epoch": 0.920224, + "grad_norm": 0.053542107343673706, + "learning_rate": 1.3865173333333335e-05, + "loss": 0.0147, + "step": 143785 + }, + { + "epoch": 0.920256, + "grad_norm": 0.17898467183113098, + "learning_rate": 1.386496e-05, + "loss": 0.0034, + "step": 143790 + }, + { + "epoch": 0.920288, + "grad_norm": 0.5720937252044678, + "learning_rate": 1.3864746666666668e-05, + "loss": 0.0054, + "step": 143795 + }, + { + "epoch": 0.92032, + "grad_norm": 0.2896832227706909, + "learning_rate": 1.3864533333333334e-05, + "loss": 0.0037, + "step": 143800 + }, + { + "epoch": 0.920352, + "grad_norm": 0.025079255923628807, + "learning_rate": 1.3864320000000002e-05, + "loss": 0.013, + "step": 143805 + }, + { + "epoch": 0.920384, + "grad_norm": 0.08325213193893433, + "learning_rate": 1.3864106666666668e-05, + "loss": 0.0117, + "step": 143810 + }, + { + "epoch": 0.920416, + "grad_norm": 0.0074237436056137085, + "learning_rate": 1.3863893333333334e-05, + "loss": 0.0098, + "step": 143815 + }, + { + "epoch": 0.920448, + "grad_norm": 0.052440255880355835, + "learning_rate": 1.3863680000000001e-05, + "loss": 0.0099, + "step": 143820 + }, + { + "epoch": 0.92048, + "grad_norm": 0.005791670177131891, + "learning_rate": 1.3863466666666667e-05, + "loss": 0.0161, + "step": 143825 + }, + { + "epoch": 0.920512, + "grad_norm": 0.13973987102508545, + "learning_rate": 1.3863253333333334e-05, + "loss": 0.009, + "step": 143830 + }, + { + "epoch": 0.920544, + "grad_norm": 0.032851070165634155, + "learning_rate": 1.386304e-05, + "loss": 0.0041, + "step": 143835 + }, + { + "epoch": 0.920576, + "grad_norm": 0.05068385973572731, + "learning_rate": 1.386282666666667e-05, + "loss": 0.0158, + "step": 143840 + }, + { + "epoch": 0.920608, + "grad_norm": 0.8963685631752014, + "learning_rate": 1.3862613333333334e-05, + "loss": 0.0298, + "step": 143845 + }, + { + "epoch": 0.92064, + "grad_norm": 0.07054807245731354, + "learning_rate": 1.38624e-05, + "loss": 0.0022, + "step": 143850 + }, + { + "epoch": 0.920672, + "grad_norm": 1.227648138999939, + "learning_rate": 1.3862186666666669e-05, + "loss": 0.0058, + "step": 143855 + }, + { + "epoch": 0.920704, + "grad_norm": 0.5175595283508301, + "learning_rate": 1.3861973333333335e-05, + "loss": 0.0122, + "step": 143860 + }, + { + "epoch": 0.920736, + "grad_norm": 0.5818659067153931, + "learning_rate": 1.3861760000000002e-05, + "loss": 0.0051, + "step": 143865 + }, + { + "epoch": 0.920768, + "grad_norm": 0.08274906873703003, + "learning_rate": 1.3861546666666668e-05, + "loss": 0.0065, + "step": 143870 + }, + { + "epoch": 0.9208, + "grad_norm": 0.9592089056968689, + "learning_rate": 1.3861333333333336e-05, + "loss": 0.008, + "step": 143875 + }, + { + "epoch": 0.920832, + "grad_norm": 0.0466315820813179, + "learning_rate": 1.3861120000000002e-05, + "loss": 0.011, + "step": 143880 + }, + { + "epoch": 0.920864, + "grad_norm": 0.13417229056358337, + "learning_rate": 1.3860906666666667e-05, + "loss": 0.0025, + "step": 143885 + }, + { + "epoch": 0.920896, + "grad_norm": 0.07053852826356888, + "learning_rate": 1.3860693333333335e-05, + "loss": 0.0136, + "step": 143890 + }, + { + "epoch": 0.920928, + "grad_norm": 0.09393154829740524, + "learning_rate": 1.386048e-05, + "loss": 0.0072, + "step": 143895 + }, + { + "epoch": 0.92096, + "grad_norm": 0.08424108475446701, + "learning_rate": 1.3860266666666668e-05, + "loss": 0.0282, + "step": 143900 + }, + { + "epoch": 0.920992, + "grad_norm": 0.27331095933914185, + "learning_rate": 1.3860053333333334e-05, + "loss": 0.0103, + "step": 143905 + }, + { + "epoch": 0.921024, + "grad_norm": 0.18827560544013977, + "learning_rate": 1.3859840000000002e-05, + "loss": 0.0022, + "step": 143910 + }, + { + "epoch": 0.921056, + "grad_norm": 0.06162569299340248, + "learning_rate": 1.3859626666666668e-05, + "loss": 0.0062, + "step": 143915 + }, + { + "epoch": 0.921088, + "grad_norm": 1.0441203117370605, + "learning_rate": 1.3859413333333334e-05, + "loss": 0.0128, + "step": 143920 + }, + { + "epoch": 0.92112, + "grad_norm": 1.2007255554199219, + "learning_rate": 1.3859200000000001e-05, + "loss": 0.0233, + "step": 143925 + }, + { + "epoch": 0.921152, + "grad_norm": 0.8509461879730225, + "learning_rate": 1.3858986666666667e-05, + "loss": 0.0089, + "step": 143930 + }, + { + "epoch": 0.921184, + "grad_norm": 0.06068214401602745, + "learning_rate": 1.3858773333333334e-05, + "loss": 0.0118, + "step": 143935 + }, + { + "epoch": 0.921216, + "grad_norm": 0.03325166925787926, + "learning_rate": 1.385856e-05, + "loss": 0.0061, + "step": 143940 + }, + { + "epoch": 0.921248, + "grad_norm": 0.31899264454841614, + "learning_rate": 1.385834666666667e-05, + "loss": 0.006, + "step": 143945 + }, + { + "epoch": 0.92128, + "grad_norm": 0.14289988577365875, + "learning_rate": 1.3858133333333334e-05, + "loss": 0.0065, + "step": 143950 + }, + { + "epoch": 0.921312, + "grad_norm": 0.6962714791297913, + "learning_rate": 1.385792e-05, + "loss": 0.0057, + "step": 143955 + }, + { + "epoch": 0.921344, + "grad_norm": 0.09110839664936066, + "learning_rate": 1.3857706666666669e-05, + "loss": 0.0058, + "step": 143960 + }, + { + "epoch": 0.921376, + "grad_norm": 0.03241833299398422, + "learning_rate": 1.3857493333333335e-05, + "loss": 0.0059, + "step": 143965 + }, + { + "epoch": 0.921408, + "grad_norm": 0.036841653287410736, + "learning_rate": 1.3857280000000002e-05, + "loss": 0.0035, + "step": 143970 + }, + { + "epoch": 0.92144, + "grad_norm": 0.004750515334308147, + "learning_rate": 1.3857066666666668e-05, + "loss": 0.0016, + "step": 143975 + }, + { + "epoch": 0.921472, + "grad_norm": 0.3934295177459717, + "learning_rate": 1.3856853333333336e-05, + "loss": 0.0413, + "step": 143980 + }, + { + "epoch": 0.921504, + "grad_norm": 0.5549782514572144, + "learning_rate": 1.3856640000000002e-05, + "loss": 0.0112, + "step": 143985 + }, + { + "epoch": 0.921536, + "grad_norm": 0.74622642993927, + "learning_rate": 1.3856426666666667e-05, + "loss": 0.0105, + "step": 143990 + }, + { + "epoch": 0.921568, + "grad_norm": 0.4491758346557617, + "learning_rate": 1.3856213333333335e-05, + "loss": 0.014, + "step": 143995 + }, + { + "epoch": 0.9216, + "grad_norm": 0.10862047970294952, + "learning_rate": 1.3856e-05, + "loss": 0.0101, + "step": 144000 + }, + { + "epoch": 0.921632, + "grad_norm": 0.38172805309295654, + "learning_rate": 1.3855786666666668e-05, + "loss": 0.0024, + "step": 144005 + }, + { + "epoch": 0.921664, + "grad_norm": 0.019832683727145195, + "learning_rate": 1.3855573333333334e-05, + "loss": 0.0023, + "step": 144010 + }, + { + "epoch": 0.921696, + "grad_norm": 0.024963965639472008, + "learning_rate": 1.3855360000000002e-05, + "loss": 0.0084, + "step": 144015 + }, + { + "epoch": 0.921728, + "grad_norm": 0.1683979034423828, + "learning_rate": 1.3855146666666668e-05, + "loss": 0.0132, + "step": 144020 + }, + { + "epoch": 0.92176, + "grad_norm": 0.10509870946407318, + "learning_rate": 1.3854933333333334e-05, + "loss": 0.0038, + "step": 144025 + }, + { + "epoch": 0.921792, + "grad_norm": 0.08170630037784576, + "learning_rate": 1.3854720000000001e-05, + "loss": 0.0091, + "step": 144030 + }, + { + "epoch": 0.921824, + "grad_norm": 0.023674404248595238, + "learning_rate": 1.3854506666666667e-05, + "loss": 0.0037, + "step": 144035 + }, + { + "epoch": 0.921856, + "grad_norm": 0.3717217445373535, + "learning_rate": 1.3854293333333334e-05, + "loss": 0.0064, + "step": 144040 + }, + { + "epoch": 0.921888, + "grad_norm": 0.028375092893838882, + "learning_rate": 1.385408e-05, + "loss": 0.0048, + "step": 144045 + }, + { + "epoch": 0.92192, + "grad_norm": 0.03403455391526222, + "learning_rate": 1.385386666666667e-05, + "loss": 0.0105, + "step": 144050 + }, + { + "epoch": 0.921952, + "grad_norm": 0.1931823492050171, + "learning_rate": 1.3853653333333334e-05, + "loss": 0.0082, + "step": 144055 + }, + { + "epoch": 0.921984, + "grad_norm": 0.10729902982711792, + "learning_rate": 1.385344e-05, + "loss": 0.0109, + "step": 144060 + }, + { + "epoch": 0.922016, + "grad_norm": 0.29521092772483826, + "learning_rate": 1.3853226666666669e-05, + "loss": 0.0207, + "step": 144065 + }, + { + "epoch": 0.922048, + "grad_norm": 0.4348078966140747, + "learning_rate": 1.3853013333333333e-05, + "loss": 0.005, + "step": 144070 + }, + { + "epoch": 0.92208, + "grad_norm": 0.035744424909353256, + "learning_rate": 1.3852800000000002e-05, + "loss": 0.003, + "step": 144075 + }, + { + "epoch": 0.922112, + "grad_norm": 0.26897358894348145, + "learning_rate": 1.3852586666666668e-05, + "loss": 0.003, + "step": 144080 + }, + { + "epoch": 0.922144, + "grad_norm": 2.574047565460205, + "learning_rate": 1.3852373333333336e-05, + "loss": 0.0039, + "step": 144085 + }, + { + "epoch": 0.922176, + "grad_norm": 0.4319411814212799, + "learning_rate": 1.3852160000000002e-05, + "loss": 0.0082, + "step": 144090 + }, + { + "epoch": 0.922208, + "grad_norm": 0.16090022027492523, + "learning_rate": 1.3851946666666667e-05, + "loss": 0.0074, + "step": 144095 + }, + { + "epoch": 0.92224, + "grad_norm": 0.4879518449306488, + "learning_rate": 1.3851733333333335e-05, + "loss": 0.0053, + "step": 144100 + }, + { + "epoch": 0.922272, + "grad_norm": 1.8439542055130005, + "learning_rate": 1.385152e-05, + "loss": 0.0194, + "step": 144105 + }, + { + "epoch": 0.922304, + "grad_norm": 0.8747196197509766, + "learning_rate": 1.3851306666666668e-05, + "loss": 0.0083, + "step": 144110 + }, + { + "epoch": 0.922336, + "grad_norm": 0.16905324161052704, + "learning_rate": 1.3851093333333334e-05, + "loss": 0.0027, + "step": 144115 + }, + { + "epoch": 0.922368, + "grad_norm": 0.2021551877260208, + "learning_rate": 1.3850880000000002e-05, + "loss": 0.002, + "step": 144120 + }, + { + "epoch": 0.9224, + "grad_norm": 0.7760021090507507, + "learning_rate": 1.3850666666666668e-05, + "loss": 0.0057, + "step": 144125 + }, + { + "epoch": 0.922432, + "grad_norm": 0.07592713087797165, + "learning_rate": 1.3850453333333334e-05, + "loss": 0.0144, + "step": 144130 + }, + { + "epoch": 0.922464, + "grad_norm": 1.336277723312378, + "learning_rate": 1.3850240000000001e-05, + "loss": 0.0166, + "step": 144135 + }, + { + "epoch": 0.922496, + "grad_norm": 0.28123050928115845, + "learning_rate": 1.3850026666666667e-05, + "loss": 0.0092, + "step": 144140 + }, + { + "epoch": 0.922528, + "grad_norm": 0.030865047127008438, + "learning_rate": 1.3849813333333334e-05, + "loss": 0.0054, + "step": 144145 + }, + { + "epoch": 0.92256, + "grad_norm": 0.049385469406843185, + "learning_rate": 1.38496e-05, + "loss": 0.0043, + "step": 144150 + }, + { + "epoch": 0.922592, + "grad_norm": 0.7774848341941833, + "learning_rate": 1.384938666666667e-05, + "loss": 0.0144, + "step": 144155 + }, + { + "epoch": 0.922624, + "grad_norm": 0.03855380043387413, + "learning_rate": 1.3849173333333334e-05, + "loss": 0.001, + "step": 144160 + }, + { + "epoch": 0.922656, + "grad_norm": 0.12248770892620087, + "learning_rate": 1.384896e-05, + "loss": 0.0035, + "step": 144165 + }, + { + "epoch": 0.922688, + "grad_norm": 0.7747875452041626, + "learning_rate": 1.3848746666666669e-05, + "loss": 0.0124, + "step": 144170 + }, + { + "epoch": 0.92272, + "grad_norm": 0.322388231754303, + "learning_rate": 1.3848533333333333e-05, + "loss": 0.0129, + "step": 144175 + }, + { + "epoch": 0.922752, + "grad_norm": 0.029060540720820427, + "learning_rate": 1.3848320000000002e-05, + "loss": 0.0037, + "step": 144180 + }, + { + "epoch": 0.922784, + "grad_norm": 0.010129504837095737, + "learning_rate": 1.3848106666666668e-05, + "loss": 0.0159, + "step": 144185 + }, + { + "epoch": 0.922816, + "grad_norm": 0.24343101680278778, + "learning_rate": 1.3847893333333336e-05, + "loss": 0.0106, + "step": 144190 + }, + { + "epoch": 0.922848, + "grad_norm": 0.37903648614883423, + "learning_rate": 1.3847680000000002e-05, + "loss": 0.0071, + "step": 144195 + }, + { + "epoch": 0.92288, + "grad_norm": 0.1257811337709427, + "learning_rate": 1.3847466666666667e-05, + "loss": 0.0025, + "step": 144200 + }, + { + "epoch": 0.922912, + "grad_norm": 0.37584635615348816, + "learning_rate": 1.3847253333333335e-05, + "loss": 0.0071, + "step": 144205 + }, + { + "epoch": 0.922944, + "grad_norm": 0.5051275491714478, + "learning_rate": 1.384704e-05, + "loss": 0.0052, + "step": 144210 + }, + { + "epoch": 0.922976, + "grad_norm": 0.7506940960884094, + "learning_rate": 1.3846826666666668e-05, + "loss": 0.0069, + "step": 144215 + }, + { + "epoch": 0.923008, + "grad_norm": 0.32384976744651794, + "learning_rate": 1.3846613333333334e-05, + "loss": 0.0026, + "step": 144220 + }, + { + "epoch": 0.92304, + "grad_norm": 0.004235903266817331, + "learning_rate": 1.3846400000000002e-05, + "loss": 0.0028, + "step": 144225 + }, + { + "epoch": 0.923072, + "grad_norm": 0.2157088667154312, + "learning_rate": 1.3846186666666668e-05, + "loss": 0.0092, + "step": 144230 + }, + { + "epoch": 0.923104, + "grad_norm": 0.05984807759523392, + "learning_rate": 1.3845973333333334e-05, + "loss": 0.004, + "step": 144235 + }, + { + "epoch": 0.923136, + "grad_norm": 0.16956070065498352, + "learning_rate": 1.3845760000000001e-05, + "loss": 0.008, + "step": 144240 + }, + { + "epoch": 0.923168, + "grad_norm": 6.13014554977417, + "learning_rate": 1.3845546666666667e-05, + "loss": 0.0103, + "step": 144245 + }, + { + "epoch": 0.9232, + "grad_norm": 0.11215086281299591, + "learning_rate": 1.3845333333333334e-05, + "loss": 0.0022, + "step": 144250 + }, + { + "epoch": 0.923232, + "grad_norm": 0.01905924081802368, + "learning_rate": 1.384512e-05, + "loss": 0.0079, + "step": 144255 + }, + { + "epoch": 0.923264, + "grad_norm": 0.8500829935073853, + "learning_rate": 1.3844906666666668e-05, + "loss": 0.006, + "step": 144260 + }, + { + "epoch": 0.923296, + "grad_norm": 0.01657661236822605, + "learning_rate": 1.3844693333333334e-05, + "loss": 0.0024, + "step": 144265 + }, + { + "epoch": 0.923328, + "grad_norm": 0.040710996836423874, + "learning_rate": 1.384448e-05, + "loss": 0.0021, + "step": 144270 + }, + { + "epoch": 0.92336, + "grad_norm": 0.3197336196899414, + "learning_rate": 1.3844266666666669e-05, + "loss": 0.0034, + "step": 144275 + }, + { + "epoch": 0.923392, + "grad_norm": 0.029908595606684685, + "learning_rate": 1.3844053333333333e-05, + "loss": 0.0026, + "step": 144280 + }, + { + "epoch": 0.923424, + "grad_norm": 0.21979109942913055, + "learning_rate": 1.3843840000000002e-05, + "loss": 0.012, + "step": 144285 + }, + { + "epoch": 0.923456, + "grad_norm": 0.07606139779090881, + "learning_rate": 1.3843626666666668e-05, + "loss": 0.0067, + "step": 144290 + }, + { + "epoch": 0.923488, + "grad_norm": 0.13124218583106995, + "learning_rate": 1.3843413333333336e-05, + "loss": 0.0033, + "step": 144295 + }, + { + "epoch": 0.92352, + "grad_norm": 0.0844862088561058, + "learning_rate": 1.3843200000000002e-05, + "loss": 0.0122, + "step": 144300 + }, + { + "epoch": 0.923552, + "grad_norm": 0.24291633069515228, + "learning_rate": 1.3842986666666667e-05, + "loss": 0.0024, + "step": 144305 + }, + { + "epoch": 0.923584, + "grad_norm": 0.1250232458114624, + "learning_rate": 1.3842773333333335e-05, + "loss": 0.0025, + "step": 144310 + }, + { + "epoch": 0.923616, + "grad_norm": 0.27001893520355225, + "learning_rate": 1.384256e-05, + "loss": 0.0031, + "step": 144315 + }, + { + "epoch": 0.923648, + "grad_norm": 0.07550498098134995, + "learning_rate": 1.3842346666666668e-05, + "loss": 0.0166, + "step": 144320 + }, + { + "epoch": 0.92368, + "grad_norm": 0.03724587708711624, + "learning_rate": 1.3842133333333334e-05, + "loss": 0.0045, + "step": 144325 + }, + { + "epoch": 0.923712, + "grad_norm": 0.12045605480670929, + "learning_rate": 1.3841920000000002e-05, + "loss": 0.0063, + "step": 144330 + }, + { + "epoch": 0.923744, + "grad_norm": 0.4457602798938751, + "learning_rate": 1.3841706666666668e-05, + "loss": 0.0036, + "step": 144335 + }, + { + "epoch": 0.923776, + "grad_norm": 0.04591817781329155, + "learning_rate": 1.3841493333333334e-05, + "loss": 0.002, + "step": 144340 + }, + { + "epoch": 0.923808, + "grad_norm": 0.0905061811208725, + "learning_rate": 1.3841280000000001e-05, + "loss": 0.0046, + "step": 144345 + }, + { + "epoch": 0.92384, + "grad_norm": 0.2055942714214325, + "learning_rate": 1.3841066666666667e-05, + "loss": 0.0102, + "step": 144350 + }, + { + "epoch": 0.923872, + "grad_norm": 0.9540548920631409, + "learning_rate": 1.3840853333333334e-05, + "loss": 0.0069, + "step": 144355 + }, + { + "epoch": 0.923904, + "grad_norm": 0.1131177768111229, + "learning_rate": 1.384064e-05, + "loss": 0.007, + "step": 144360 + }, + { + "epoch": 0.923936, + "grad_norm": 0.8097001910209656, + "learning_rate": 1.3840426666666668e-05, + "loss": 0.003, + "step": 144365 + }, + { + "epoch": 0.923968, + "grad_norm": 0.7803352475166321, + "learning_rate": 1.3840213333333334e-05, + "loss": 0.016, + "step": 144370 + }, + { + "epoch": 0.924, + "grad_norm": 0.07089134305715561, + "learning_rate": 1.384e-05, + "loss": 0.0031, + "step": 144375 + }, + { + "epoch": 0.924032, + "grad_norm": 0.6369571685791016, + "learning_rate": 1.3839786666666669e-05, + "loss": 0.0169, + "step": 144380 + }, + { + "epoch": 0.924064, + "grad_norm": 0.5269821286201477, + "learning_rate": 1.3839573333333333e-05, + "loss": 0.009, + "step": 144385 + }, + { + "epoch": 0.924096, + "grad_norm": 0.30667534470558167, + "learning_rate": 1.3839360000000002e-05, + "loss": 0.014, + "step": 144390 + }, + { + "epoch": 0.924128, + "grad_norm": 0.03842590004205704, + "learning_rate": 1.3839146666666668e-05, + "loss": 0.0182, + "step": 144395 + }, + { + "epoch": 0.92416, + "grad_norm": 0.5389511585235596, + "learning_rate": 1.3838933333333336e-05, + "loss": 0.0038, + "step": 144400 + }, + { + "epoch": 0.924192, + "grad_norm": 0.114871546626091, + "learning_rate": 1.3838720000000002e-05, + "loss": 0.0033, + "step": 144405 + }, + { + "epoch": 0.924224, + "grad_norm": 0.014542639255523682, + "learning_rate": 1.3838506666666667e-05, + "loss": 0.015, + "step": 144410 + }, + { + "epoch": 0.924256, + "grad_norm": 0.020872894674539566, + "learning_rate": 1.3838293333333335e-05, + "loss": 0.0078, + "step": 144415 + }, + { + "epoch": 0.924288, + "grad_norm": 0.2535814344882965, + "learning_rate": 1.383808e-05, + "loss": 0.0026, + "step": 144420 + }, + { + "epoch": 0.92432, + "grad_norm": 0.06840995699167252, + "learning_rate": 1.3837866666666668e-05, + "loss": 0.007, + "step": 144425 + }, + { + "epoch": 0.924352, + "grad_norm": 1.626187801361084, + "learning_rate": 1.3837653333333334e-05, + "loss": 0.0172, + "step": 144430 + }, + { + "epoch": 0.924384, + "grad_norm": 0.048759825527668, + "learning_rate": 1.3837440000000002e-05, + "loss": 0.0023, + "step": 144435 + }, + { + "epoch": 0.924416, + "grad_norm": 1.2126656770706177, + "learning_rate": 1.3837226666666668e-05, + "loss": 0.0279, + "step": 144440 + }, + { + "epoch": 0.924448, + "grad_norm": 0.005106538999825716, + "learning_rate": 1.3837013333333334e-05, + "loss": 0.0043, + "step": 144445 + }, + { + "epoch": 0.92448, + "grad_norm": 0.34607601165771484, + "learning_rate": 1.3836800000000001e-05, + "loss": 0.0086, + "step": 144450 + }, + { + "epoch": 0.924512, + "grad_norm": 0.0791461169719696, + "learning_rate": 1.3836586666666667e-05, + "loss": 0.0072, + "step": 144455 + }, + { + "epoch": 0.924544, + "grad_norm": 0.11655162274837494, + "learning_rate": 1.3836373333333334e-05, + "loss": 0.0039, + "step": 144460 + }, + { + "epoch": 0.924576, + "grad_norm": 0.24421527981758118, + "learning_rate": 1.383616e-05, + "loss": 0.0065, + "step": 144465 + }, + { + "epoch": 0.924608, + "grad_norm": 0.19274935126304626, + "learning_rate": 1.3835946666666668e-05, + "loss": 0.0048, + "step": 144470 + }, + { + "epoch": 0.92464, + "grad_norm": 1.0009899139404297, + "learning_rate": 1.3835733333333334e-05, + "loss": 0.0067, + "step": 144475 + }, + { + "epoch": 0.924672, + "grad_norm": 0.9138258099555969, + "learning_rate": 1.383552e-05, + "loss": 0.0072, + "step": 144480 + }, + { + "epoch": 0.924704, + "grad_norm": 0.6243210434913635, + "learning_rate": 1.3835306666666667e-05, + "loss": 0.0179, + "step": 144485 + }, + { + "epoch": 0.924736, + "grad_norm": 0.3533957600593567, + "learning_rate": 1.3835093333333333e-05, + "loss": 0.0045, + "step": 144490 + }, + { + "epoch": 0.924768, + "grad_norm": 2.13188099861145, + "learning_rate": 1.3834880000000002e-05, + "loss": 0.0101, + "step": 144495 + }, + { + "epoch": 0.9248, + "grad_norm": 0.5360855460166931, + "learning_rate": 1.3834666666666668e-05, + "loss": 0.0082, + "step": 144500 + }, + { + "epoch": 0.924832, + "grad_norm": 0.32499128580093384, + "learning_rate": 1.3834453333333336e-05, + "loss": 0.0066, + "step": 144505 + }, + { + "epoch": 0.924864, + "grad_norm": 0.03547096624970436, + "learning_rate": 1.3834240000000002e-05, + "loss": 0.0048, + "step": 144510 + }, + { + "epoch": 0.924896, + "grad_norm": 1.1681101322174072, + "learning_rate": 1.3834026666666667e-05, + "loss": 0.0223, + "step": 144515 + }, + { + "epoch": 0.924928, + "grad_norm": 1.7048068046569824, + "learning_rate": 1.3833813333333335e-05, + "loss": 0.0376, + "step": 144520 + }, + { + "epoch": 0.92496, + "grad_norm": 0.8644617795944214, + "learning_rate": 1.38336e-05, + "loss": 0.0105, + "step": 144525 + }, + { + "epoch": 0.924992, + "grad_norm": 0.0554230771958828, + "learning_rate": 1.3833386666666668e-05, + "loss": 0.0049, + "step": 144530 + }, + { + "epoch": 0.925024, + "grad_norm": 0.012231136672198772, + "learning_rate": 1.3833173333333334e-05, + "loss": 0.0027, + "step": 144535 + }, + { + "epoch": 0.925056, + "grad_norm": 0.07322247326374054, + "learning_rate": 1.3832960000000002e-05, + "loss": 0.0021, + "step": 144540 + }, + { + "epoch": 0.925088, + "grad_norm": 0.02254594676196575, + "learning_rate": 1.3832746666666668e-05, + "loss": 0.0093, + "step": 144545 + }, + { + "epoch": 0.92512, + "grad_norm": 0.47063279151916504, + "learning_rate": 1.3832533333333334e-05, + "loss": 0.0056, + "step": 144550 + }, + { + "epoch": 0.925152, + "grad_norm": 1.2420014142990112, + "learning_rate": 1.3832320000000001e-05, + "loss": 0.0093, + "step": 144555 + }, + { + "epoch": 0.925184, + "grad_norm": 0.03522254899144173, + "learning_rate": 1.3832106666666667e-05, + "loss": 0.0055, + "step": 144560 + }, + { + "epoch": 0.925216, + "grad_norm": 0.9596898555755615, + "learning_rate": 1.3831893333333334e-05, + "loss": 0.0091, + "step": 144565 + }, + { + "epoch": 0.925248, + "grad_norm": 0.9890238046646118, + "learning_rate": 1.383168e-05, + "loss": 0.0035, + "step": 144570 + }, + { + "epoch": 0.92528, + "grad_norm": 0.4798651337623596, + "learning_rate": 1.3831466666666668e-05, + "loss": 0.0114, + "step": 144575 + }, + { + "epoch": 0.925312, + "grad_norm": 0.5433581471443176, + "learning_rate": 1.3831253333333334e-05, + "loss": 0.0088, + "step": 144580 + }, + { + "epoch": 0.925344, + "grad_norm": 1.133762001991272, + "learning_rate": 1.383104e-05, + "loss": 0.0476, + "step": 144585 + }, + { + "epoch": 0.925376, + "grad_norm": 0.20181912183761597, + "learning_rate": 1.3830826666666667e-05, + "loss": 0.0029, + "step": 144590 + }, + { + "epoch": 0.925408, + "grad_norm": 0.27115458250045776, + "learning_rate": 1.3830613333333333e-05, + "loss": 0.0099, + "step": 144595 + }, + { + "epoch": 0.92544, + "grad_norm": 1.0141935348510742, + "learning_rate": 1.3830400000000002e-05, + "loss": 0.0189, + "step": 144600 + }, + { + "epoch": 0.925472, + "grad_norm": 0.13473111391067505, + "learning_rate": 1.3830186666666668e-05, + "loss": 0.0103, + "step": 144605 + }, + { + "epoch": 0.925504, + "grad_norm": 0.15070757269859314, + "learning_rate": 1.3829973333333336e-05, + "loss": 0.0082, + "step": 144610 + }, + { + "epoch": 0.925536, + "grad_norm": 1.952654242515564, + "learning_rate": 1.3829760000000002e-05, + "loss": 0.013, + "step": 144615 + }, + { + "epoch": 0.925568, + "grad_norm": 0.014771956950426102, + "learning_rate": 1.3829546666666669e-05, + "loss": 0.0153, + "step": 144620 + }, + { + "epoch": 0.9256, + "grad_norm": 0.10022563487291336, + "learning_rate": 1.3829333333333335e-05, + "loss": 0.0024, + "step": 144625 + }, + { + "epoch": 0.925632, + "grad_norm": 0.08223920315504074, + "learning_rate": 1.382912e-05, + "loss": 0.0017, + "step": 144630 + }, + { + "epoch": 0.925664, + "grad_norm": 0.1870812624692917, + "learning_rate": 1.3828906666666668e-05, + "loss": 0.0176, + "step": 144635 + }, + { + "epoch": 0.925696, + "grad_norm": 0.743735671043396, + "learning_rate": 1.3828693333333334e-05, + "loss": 0.0105, + "step": 144640 + }, + { + "epoch": 0.925728, + "grad_norm": 0.046908773481845856, + "learning_rate": 1.3828480000000002e-05, + "loss": 0.0063, + "step": 144645 + }, + { + "epoch": 0.92576, + "grad_norm": 0.024699175730347633, + "learning_rate": 1.3828266666666668e-05, + "loss": 0.0045, + "step": 144650 + }, + { + "epoch": 0.925792, + "grad_norm": 1.1364935636520386, + "learning_rate": 1.3828053333333335e-05, + "loss": 0.0176, + "step": 144655 + }, + { + "epoch": 0.925824, + "grad_norm": 3.3725483417510986, + "learning_rate": 1.3827840000000001e-05, + "loss": 0.0094, + "step": 144660 + }, + { + "epoch": 0.925856, + "grad_norm": 0.7391801476478577, + "learning_rate": 1.3827626666666667e-05, + "loss": 0.0051, + "step": 144665 + }, + { + "epoch": 0.925888, + "grad_norm": 0.025304261595010757, + "learning_rate": 1.3827413333333335e-05, + "loss": 0.003, + "step": 144670 + }, + { + "epoch": 0.92592, + "grad_norm": 0.6173251271247864, + "learning_rate": 1.38272e-05, + "loss": 0.0092, + "step": 144675 + }, + { + "epoch": 0.925952, + "grad_norm": 0.026894567534327507, + "learning_rate": 1.3826986666666668e-05, + "loss": 0.0021, + "step": 144680 + }, + { + "epoch": 0.925984, + "grad_norm": 0.2717214822769165, + "learning_rate": 1.3826773333333334e-05, + "loss": 0.0063, + "step": 144685 + }, + { + "epoch": 0.926016, + "grad_norm": 2.411261558532715, + "learning_rate": 1.3826560000000003e-05, + "loss": 0.012, + "step": 144690 + }, + { + "epoch": 0.926048, + "grad_norm": 0.09634946286678314, + "learning_rate": 1.3826346666666667e-05, + "loss": 0.0178, + "step": 144695 + }, + { + "epoch": 0.92608, + "grad_norm": 0.5800392031669617, + "learning_rate": 1.3826133333333333e-05, + "loss": 0.0069, + "step": 144700 + }, + { + "epoch": 0.926112, + "grad_norm": 0.1450059562921524, + "learning_rate": 1.3825920000000002e-05, + "loss": 0.0205, + "step": 144705 + }, + { + "epoch": 0.926144, + "grad_norm": 0.014622801914811134, + "learning_rate": 1.3825706666666666e-05, + "loss": 0.0327, + "step": 144710 + }, + { + "epoch": 0.926176, + "grad_norm": 0.15591572225093842, + "learning_rate": 1.3825493333333336e-05, + "loss": 0.0031, + "step": 144715 + }, + { + "epoch": 0.926208, + "grad_norm": 0.04160534590482712, + "learning_rate": 1.3825280000000002e-05, + "loss": 0.0065, + "step": 144720 + }, + { + "epoch": 0.92624, + "grad_norm": 0.2760744094848633, + "learning_rate": 1.3825066666666669e-05, + "loss": 0.0235, + "step": 144725 + }, + { + "epoch": 0.926272, + "grad_norm": 0.10413657128810883, + "learning_rate": 1.3824853333333335e-05, + "loss": 0.0056, + "step": 144730 + }, + { + "epoch": 0.926304, + "grad_norm": 0.11343155056238174, + "learning_rate": 1.382464e-05, + "loss": 0.005, + "step": 144735 + }, + { + "epoch": 0.926336, + "grad_norm": 0.024979770183563232, + "learning_rate": 1.3824426666666668e-05, + "loss": 0.0124, + "step": 144740 + }, + { + "epoch": 0.926368, + "grad_norm": 0.04301292821764946, + "learning_rate": 1.3824213333333334e-05, + "loss": 0.01, + "step": 144745 + }, + { + "epoch": 0.9264, + "grad_norm": 0.4753659963607788, + "learning_rate": 1.3824000000000002e-05, + "loss": 0.0044, + "step": 144750 + }, + { + "epoch": 0.926432, + "grad_norm": 0.24038153886795044, + "learning_rate": 1.3823786666666668e-05, + "loss": 0.0061, + "step": 144755 + }, + { + "epoch": 0.926464, + "grad_norm": 0.20031005144119263, + "learning_rate": 1.3823573333333335e-05, + "loss": 0.0025, + "step": 144760 + }, + { + "epoch": 0.926496, + "grad_norm": 0.19018152356147766, + "learning_rate": 1.3823360000000001e-05, + "loss": 0.0198, + "step": 144765 + }, + { + "epoch": 0.926528, + "grad_norm": 0.034253302961587906, + "learning_rate": 1.3823146666666667e-05, + "loss": 0.0093, + "step": 144770 + }, + { + "epoch": 0.92656, + "grad_norm": 0.5383257865905762, + "learning_rate": 1.3822933333333335e-05, + "loss": 0.0053, + "step": 144775 + }, + { + "epoch": 0.926592, + "grad_norm": 0.36852318048477173, + "learning_rate": 1.382272e-05, + "loss": 0.0168, + "step": 144780 + }, + { + "epoch": 0.926624, + "grad_norm": 1.2521045207977295, + "learning_rate": 1.3822506666666668e-05, + "loss": 0.0125, + "step": 144785 + }, + { + "epoch": 0.926656, + "grad_norm": 0.1881372034549713, + "learning_rate": 1.3822293333333334e-05, + "loss": 0.0065, + "step": 144790 + }, + { + "epoch": 0.926688, + "grad_norm": 0.2887507975101471, + "learning_rate": 1.3822080000000001e-05, + "loss": 0.0048, + "step": 144795 + }, + { + "epoch": 0.92672, + "grad_norm": 0.1104709655046463, + "learning_rate": 1.3821866666666667e-05, + "loss": 0.0047, + "step": 144800 + }, + { + "epoch": 0.926752, + "grad_norm": 0.38947486877441406, + "learning_rate": 1.3821653333333333e-05, + "loss": 0.007, + "step": 144805 + }, + { + "epoch": 0.926784, + "grad_norm": 0.9010035395622253, + "learning_rate": 1.3821440000000002e-05, + "loss": 0.0168, + "step": 144810 + }, + { + "epoch": 0.926816, + "grad_norm": 0.03557061403989792, + "learning_rate": 1.3821226666666666e-05, + "loss": 0.0106, + "step": 144815 + }, + { + "epoch": 0.926848, + "grad_norm": 0.7687280774116516, + "learning_rate": 1.3821013333333336e-05, + "loss": 0.0057, + "step": 144820 + }, + { + "epoch": 0.92688, + "grad_norm": 0.7093466520309448, + "learning_rate": 1.3820800000000002e-05, + "loss": 0.007, + "step": 144825 + }, + { + "epoch": 0.926912, + "grad_norm": 0.7611318230628967, + "learning_rate": 1.3820586666666669e-05, + "loss": 0.0055, + "step": 144830 + }, + { + "epoch": 0.926944, + "grad_norm": 0.023210814222693443, + "learning_rate": 1.3820373333333335e-05, + "loss": 0.0059, + "step": 144835 + }, + { + "epoch": 0.926976, + "grad_norm": 0.42297640442848206, + "learning_rate": 1.3820160000000001e-05, + "loss": 0.0112, + "step": 144840 + }, + { + "epoch": 0.927008, + "grad_norm": 0.4884662330150604, + "learning_rate": 1.3819946666666668e-05, + "loss": 0.0109, + "step": 144845 + }, + { + "epoch": 0.92704, + "grad_norm": 0.8039568662643433, + "learning_rate": 1.3819733333333334e-05, + "loss": 0.0113, + "step": 144850 + }, + { + "epoch": 0.927072, + "grad_norm": 0.04367474094033241, + "learning_rate": 1.3819520000000002e-05, + "loss": 0.0087, + "step": 144855 + }, + { + "epoch": 0.927104, + "grad_norm": 0.01605330780148506, + "learning_rate": 1.3819306666666668e-05, + "loss": 0.0153, + "step": 144860 + }, + { + "epoch": 0.927136, + "grad_norm": 0.4960308372974396, + "learning_rate": 1.3819093333333335e-05, + "loss": 0.0043, + "step": 144865 + }, + { + "epoch": 0.927168, + "grad_norm": 0.18647831678390503, + "learning_rate": 1.3818880000000001e-05, + "loss": 0.0024, + "step": 144870 + }, + { + "epoch": 0.9272, + "grad_norm": 0.549452543258667, + "learning_rate": 1.3818666666666667e-05, + "loss": 0.0053, + "step": 144875 + }, + { + "epoch": 0.927232, + "grad_norm": 0.12319669872522354, + "learning_rate": 1.3818453333333335e-05, + "loss": 0.0063, + "step": 144880 + }, + { + "epoch": 0.927264, + "grad_norm": 0.01522018201649189, + "learning_rate": 1.381824e-05, + "loss": 0.0098, + "step": 144885 + }, + { + "epoch": 0.927296, + "grad_norm": 0.6319931745529175, + "learning_rate": 1.3818026666666668e-05, + "loss": 0.0139, + "step": 144890 + }, + { + "epoch": 0.927328, + "grad_norm": 0.20087078213691711, + "learning_rate": 1.3817813333333334e-05, + "loss": 0.0025, + "step": 144895 + }, + { + "epoch": 0.92736, + "grad_norm": 0.4420284926891327, + "learning_rate": 1.3817600000000001e-05, + "loss": 0.0051, + "step": 144900 + }, + { + "epoch": 0.927392, + "grad_norm": 0.6229496002197266, + "learning_rate": 1.3817386666666667e-05, + "loss": 0.017, + "step": 144905 + }, + { + "epoch": 0.927424, + "grad_norm": 0.4822154641151428, + "learning_rate": 1.3817173333333333e-05, + "loss": 0.0039, + "step": 144910 + }, + { + "epoch": 0.927456, + "grad_norm": 0.4200364053249359, + "learning_rate": 1.3816960000000002e-05, + "loss": 0.0044, + "step": 144915 + }, + { + "epoch": 0.927488, + "grad_norm": 0.19414153695106506, + "learning_rate": 1.3816746666666666e-05, + "loss": 0.0088, + "step": 144920 + }, + { + "epoch": 0.92752, + "grad_norm": 0.1983819603919983, + "learning_rate": 1.3816533333333336e-05, + "loss": 0.0032, + "step": 144925 + }, + { + "epoch": 0.927552, + "grad_norm": 0.15139976143836975, + "learning_rate": 1.3816320000000002e-05, + "loss": 0.007, + "step": 144930 + }, + { + "epoch": 0.927584, + "grad_norm": 0.937463104724884, + "learning_rate": 1.3816106666666669e-05, + "loss": 0.0043, + "step": 144935 + }, + { + "epoch": 0.927616, + "grad_norm": 0.14883625507354736, + "learning_rate": 1.3815893333333335e-05, + "loss": 0.0041, + "step": 144940 + }, + { + "epoch": 0.927648, + "grad_norm": 0.3351484537124634, + "learning_rate": 1.3815680000000001e-05, + "loss": 0.0028, + "step": 144945 + }, + { + "epoch": 0.92768, + "grad_norm": 0.12757280468940735, + "learning_rate": 1.3815466666666668e-05, + "loss": 0.0055, + "step": 144950 + }, + { + "epoch": 0.927712, + "grad_norm": 0.20261546969413757, + "learning_rate": 1.3815253333333334e-05, + "loss": 0.0035, + "step": 144955 + }, + { + "epoch": 0.927744, + "grad_norm": 0.17518259584903717, + "learning_rate": 1.3815040000000002e-05, + "loss": 0.0038, + "step": 144960 + }, + { + "epoch": 0.927776, + "grad_norm": 0.020575232803821564, + "learning_rate": 1.3814826666666668e-05, + "loss": 0.0035, + "step": 144965 + }, + { + "epoch": 0.927808, + "grad_norm": 0.2673639953136444, + "learning_rate": 1.3814613333333335e-05, + "loss": 0.0078, + "step": 144970 + }, + { + "epoch": 0.92784, + "grad_norm": 0.4423786401748657, + "learning_rate": 1.3814400000000001e-05, + "loss": 0.0083, + "step": 144975 + }, + { + "epoch": 0.927872, + "grad_norm": 0.22015145421028137, + "learning_rate": 1.3814186666666667e-05, + "loss": 0.004, + "step": 144980 + }, + { + "epoch": 0.927904, + "grad_norm": 0.9917061924934387, + "learning_rate": 1.3813973333333335e-05, + "loss": 0.0055, + "step": 144985 + }, + { + "epoch": 0.927936, + "grad_norm": 0.449400931596756, + "learning_rate": 1.381376e-05, + "loss": 0.0085, + "step": 144990 + }, + { + "epoch": 0.927968, + "grad_norm": 0.0958094671368599, + "learning_rate": 1.3813546666666668e-05, + "loss": 0.007, + "step": 144995 + }, + { + "epoch": 0.928, + "grad_norm": 0.08018573373556137, + "learning_rate": 1.3813333333333334e-05, + "loss": 0.0004, + "step": 145000 + }, + { + "epoch": 0.928032, + "grad_norm": 0.9779265522956848, + "learning_rate": 1.3813120000000001e-05, + "loss": 0.0052, + "step": 145005 + }, + { + "epoch": 0.928064, + "grad_norm": 0.32017990946769714, + "learning_rate": 1.3812906666666667e-05, + "loss": 0.0049, + "step": 145010 + }, + { + "epoch": 0.928096, + "grad_norm": 0.09158110618591309, + "learning_rate": 1.3812693333333333e-05, + "loss": 0.0088, + "step": 145015 + }, + { + "epoch": 0.928128, + "grad_norm": 0.019361723214387894, + "learning_rate": 1.381248e-05, + "loss": 0.0061, + "step": 145020 + }, + { + "epoch": 0.92816, + "grad_norm": 1.3056573867797852, + "learning_rate": 1.3812266666666666e-05, + "loss": 0.0206, + "step": 145025 + }, + { + "epoch": 0.928192, + "grad_norm": 1.5115931034088135, + "learning_rate": 1.3812053333333336e-05, + "loss": 0.0266, + "step": 145030 + }, + { + "epoch": 0.928224, + "grad_norm": 0.039718203246593475, + "learning_rate": 1.3811840000000002e-05, + "loss": 0.001, + "step": 145035 + }, + { + "epoch": 0.928256, + "grad_norm": 0.34799349308013916, + "learning_rate": 1.3811626666666669e-05, + "loss": 0.0154, + "step": 145040 + }, + { + "epoch": 0.928288, + "grad_norm": 0.533315122127533, + "learning_rate": 1.3811413333333335e-05, + "loss": 0.0018, + "step": 145045 + }, + { + "epoch": 0.92832, + "grad_norm": 0.6569225788116455, + "learning_rate": 1.3811200000000001e-05, + "loss": 0.0103, + "step": 145050 + }, + { + "epoch": 0.928352, + "grad_norm": 0.3848789930343628, + "learning_rate": 1.3810986666666668e-05, + "loss": 0.0075, + "step": 145055 + }, + { + "epoch": 0.928384, + "grad_norm": 0.04374515637755394, + "learning_rate": 1.3810773333333334e-05, + "loss": 0.0013, + "step": 145060 + }, + { + "epoch": 0.928416, + "grad_norm": 0.1551690399646759, + "learning_rate": 1.3810560000000002e-05, + "loss": 0.0061, + "step": 145065 + }, + { + "epoch": 0.928448, + "grad_norm": 0.06094803661108017, + "learning_rate": 1.3810346666666668e-05, + "loss": 0.0022, + "step": 145070 + }, + { + "epoch": 0.92848, + "grad_norm": 1.6956028938293457, + "learning_rate": 1.3810133333333335e-05, + "loss": 0.0054, + "step": 145075 + }, + { + "epoch": 0.928512, + "grad_norm": 0.047240886837244034, + "learning_rate": 1.3809920000000001e-05, + "loss": 0.0061, + "step": 145080 + }, + { + "epoch": 0.928544, + "grad_norm": 0.02280448004603386, + "learning_rate": 1.3809706666666667e-05, + "loss": 0.007, + "step": 145085 + }, + { + "epoch": 0.928576, + "grad_norm": 0.9014511108398438, + "learning_rate": 1.3809493333333335e-05, + "loss": 0.0111, + "step": 145090 + }, + { + "epoch": 0.928608, + "grad_norm": 0.37847277522087097, + "learning_rate": 1.380928e-05, + "loss": 0.0092, + "step": 145095 + }, + { + "epoch": 0.92864, + "grad_norm": 0.12037377804517746, + "learning_rate": 1.3809066666666668e-05, + "loss": 0.0159, + "step": 145100 + }, + { + "epoch": 0.928672, + "grad_norm": 0.9063853025436401, + "learning_rate": 1.3808853333333334e-05, + "loss": 0.0094, + "step": 145105 + }, + { + "epoch": 0.928704, + "grad_norm": 0.2111385613679886, + "learning_rate": 1.3808640000000001e-05, + "loss": 0.0032, + "step": 145110 + }, + { + "epoch": 0.928736, + "grad_norm": 0.2440369725227356, + "learning_rate": 1.3808426666666667e-05, + "loss": 0.0072, + "step": 145115 + }, + { + "epoch": 0.928768, + "grad_norm": 0.27534058690071106, + "learning_rate": 1.3808213333333333e-05, + "loss": 0.0025, + "step": 145120 + }, + { + "epoch": 0.9288, + "grad_norm": 0.6370625495910645, + "learning_rate": 1.3808e-05, + "loss": 0.0052, + "step": 145125 + }, + { + "epoch": 0.928832, + "grad_norm": 0.19400367140769958, + "learning_rate": 1.3807786666666666e-05, + "loss": 0.0017, + "step": 145130 + }, + { + "epoch": 0.928864, + "grad_norm": 0.026507481932640076, + "learning_rate": 1.3807573333333336e-05, + "loss": 0.0027, + "step": 145135 + }, + { + "epoch": 0.928896, + "grad_norm": 0.3103501498699188, + "learning_rate": 1.3807360000000002e-05, + "loss": 0.0128, + "step": 145140 + }, + { + "epoch": 0.928928, + "grad_norm": 0.14649386703968048, + "learning_rate": 1.3807146666666669e-05, + "loss": 0.0067, + "step": 145145 + }, + { + "epoch": 0.92896, + "grad_norm": 0.03433983400464058, + "learning_rate": 1.3806933333333335e-05, + "loss": 0.005, + "step": 145150 + }, + { + "epoch": 0.928992, + "grad_norm": 0.32738903164863586, + "learning_rate": 1.3806720000000001e-05, + "loss": 0.0097, + "step": 145155 + }, + { + "epoch": 0.929024, + "grad_norm": 0.382538765668869, + "learning_rate": 1.3806506666666668e-05, + "loss": 0.0173, + "step": 145160 + }, + { + "epoch": 0.929056, + "grad_norm": 0.6314370036125183, + "learning_rate": 1.3806293333333334e-05, + "loss": 0.0092, + "step": 145165 + }, + { + "epoch": 0.929088, + "grad_norm": 0.4116639196872711, + "learning_rate": 1.3806080000000002e-05, + "loss": 0.0057, + "step": 145170 + }, + { + "epoch": 0.92912, + "grad_norm": 0.8034864068031311, + "learning_rate": 1.3805866666666668e-05, + "loss": 0.0136, + "step": 145175 + }, + { + "epoch": 0.929152, + "grad_norm": 5.446650505065918, + "learning_rate": 1.3805653333333335e-05, + "loss": 0.0211, + "step": 145180 + }, + { + "epoch": 0.929184, + "grad_norm": 0.27674606442451477, + "learning_rate": 1.3805440000000001e-05, + "loss": 0.0448, + "step": 145185 + }, + { + "epoch": 0.929216, + "grad_norm": 1.184566617012024, + "learning_rate": 1.3805226666666667e-05, + "loss": 0.0136, + "step": 145190 + }, + { + "epoch": 0.929248, + "grad_norm": 0.7391793727874756, + "learning_rate": 1.3805013333333335e-05, + "loss": 0.007, + "step": 145195 + }, + { + "epoch": 0.92928, + "grad_norm": 0.6510083079338074, + "learning_rate": 1.38048e-05, + "loss": 0.0078, + "step": 145200 + }, + { + "epoch": 0.929312, + "grad_norm": 0.9340394139289856, + "learning_rate": 1.3804586666666668e-05, + "loss": 0.0155, + "step": 145205 + }, + { + "epoch": 0.929344, + "grad_norm": 0.035118114203214645, + "learning_rate": 1.3804373333333334e-05, + "loss": 0.0028, + "step": 145210 + }, + { + "epoch": 0.929376, + "grad_norm": 2.0977516174316406, + "learning_rate": 1.3804160000000001e-05, + "loss": 0.0138, + "step": 145215 + }, + { + "epoch": 0.929408, + "grad_norm": 0.815436065196991, + "learning_rate": 1.3803946666666667e-05, + "loss": 0.0094, + "step": 145220 + }, + { + "epoch": 0.92944, + "grad_norm": 0.21256676316261292, + "learning_rate": 1.3803733333333333e-05, + "loss": 0.0051, + "step": 145225 + }, + { + "epoch": 0.929472, + "grad_norm": 0.16996273398399353, + "learning_rate": 1.380352e-05, + "loss": 0.0093, + "step": 145230 + }, + { + "epoch": 0.929504, + "grad_norm": 0.041929472237825394, + "learning_rate": 1.3803306666666666e-05, + "loss": 0.0018, + "step": 145235 + }, + { + "epoch": 0.929536, + "grad_norm": 0.13765743374824524, + "learning_rate": 1.3803093333333336e-05, + "loss": 0.007, + "step": 145240 + }, + { + "epoch": 0.929568, + "grad_norm": 0.6431325078010559, + "learning_rate": 1.380288e-05, + "loss": 0.0097, + "step": 145245 + }, + { + "epoch": 0.9296, + "grad_norm": 0.6120145320892334, + "learning_rate": 1.3802666666666669e-05, + "loss": 0.0058, + "step": 145250 + }, + { + "epoch": 0.929632, + "grad_norm": 1.0683767795562744, + "learning_rate": 1.3802453333333335e-05, + "loss": 0.0109, + "step": 145255 + }, + { + "epoch": 0.929664, + "grad_norm": 0.08636458218097687, + "learning_rate": 1.3802240000000001e-05, + "loss": 0.0047, + "step": 145260 + }, + { + "epoch": 0.929696, + "grad_norm": 0.916912317276001, + "learning_rate": 1.3802026666666668e-05, + "loss": 0.0078, + "step": 145265 + }, + { + "epoch": 0.929728, + "grad_norm": 0.3264120817184448, + "learning_rate": 1.3801813333333334e-05, + "loss": 0.0052, + "step": 145270 + }, + { + "epoch": 0.92976, + "grad_norm": 0.12829183042049408, + "learning_rate": 1.3801600000000002e-05, + "loss": 0.011, + "step": 145275 + }, + { + "epoch": 0.929792, + "grad_norm": 1.2947958707809448, + "learning_rate": 1.3801386666666668e-05, + "loss": 0.0079, + "step": 145280 + }, + { + "epoch": 0.929824, + "grad_norm": 0.01938720792531967, + "learning_rate": 1.3801173333333335e-05, + "loss": 0.0008, + "step": 145285 + }, + { + "epoch": 0.929856, + "grad_norm": 0.09784990549087524, + "learning_rate": 1.3800960000000001e-05, + "loss": 0.0288, + "step": 145290 + }, + { + "epoch": 0.929888, + "grad_norm": 0.005722983740270138, + "learning_rate": 1.3800746666666667e-05, + "loss": 0.0089, + "step": 145295 + }, + { + "epoch": 0.92992, + "grad_norm": 0.09628453105688095, + "learning_rate": 1.3800533333333335e-05, + "loss": 0.0059, + "step": 145300 + }, + { + "epoch": 0.929952, + "grad_norm": 0.08208545297384262, + "learning_rate": 1.380032e-05, + "loss": 0.0019, + "step": 145305 + }, + { + "epoch": 0.929984, + "grad_norm": 0.07726691663265228, + "learning_rate": 1.3800106666666668e-05, + "loss": 0.0021, + "step": 145310 + }, + { + "epoch": 0.930016, + "grad_norm": 0.1340736448764801, + "learning_rate": 1.3799893333333334e-05, + "loss": 0.0075, + "step": 145315 + }, + { + "epoch": 0.930048, + "grad_norm": 1.635335087776184, + "learning_rate": 1.3799680000000001e-05, + "loss": 0.0135, + "step": 145320 + }, + { + "epoch": 0.93008, + "grad_norm": 0.22978821396827698, + "learning_rate": 1.3799466666666667e-05, + "loss": 0.0013, + "step": 145325 + }, + { + "epoch": 0.930112, + "grad_norm": 0.024007825180888176, + "learning_rate": 1.3799253333333333e-05, + "loss": 0.0096, + "step": 145330 + }, + { + "epoch": 0.930144, + "grad_norm": 0.7181743383407593, + "learning_rate": 1.379904e-05, + "loss": 0.0157, + "step": 145335 + }, + { + "epoch": 0.930176, + "grad_norm": 0.5341635346412659, + "learning_rate": 1.3798826666666666e-05, + "loss": 0.0092, + "step": 145340 + }, + { + "epoch": 0.930208, + "grad_norm": 0.35349974036216736, + "learning_rate": 1.3798613333333336e-05, + "loss": 0.0073, + "step": 145345 + }, + { + "epoch": 0.93024, + "grad_norm": 0.7233914136886597, + "learning_rate": 1.37984e-05, + "loss": 0.008, + "step": 145350 + }, + { + "epoch": 0.930272, + "grad_norm": 0.12030952423810959, + "learning_rate": 1.3798186666666669e-05, + "loss": 0.0202, + "step": 145355 + }, + { + "epoch": 0.930304, + "grad_norm": 0.12518438696861267, + "learning_rate": 1.3797973333333335e-05, + "loss": 0.0033, + "step": 145360 + }, + { + "epoch": 0.930336, + "grad_norm": 0.29437172412872314, + "learning_rate": 1.3797760000000001e-05, + "loss": 0.0093, + "step": 145365 + }, + { + "epoch": 0.930368, + "grad_norm": 0.45666733384132385, + "learning_rate": 1.3797546666666668e-05, + "loss": 0.0051, + "step": 145370 + }, + { + "epoch": 0.9304, + "grad_norm": 0.3076438307762146, + "learning_rate": 1.3797333333333334e-05, + "loss": 0.0039, + "step": 145375 + }, + { + "epoch": 0.930432, + "grad_norm": 0.20152662694454193, + "learning_rate": 1.3797120000000002e-05, + "loss": 0.0025, + "step": 145380 + }, + { + "epoch": 0.930464, + "grad_norm": 0.18016654253005981, + "learning_rate": 1.3796906666666668e-05, + "loss": 0.0054, + "step": 145385 + }, + { + "epoch": 0.930496, + "grad_norm": 0.4617873728275299, + "learning_rate": 1.3796693333333335e-05, + "loss": 0.0074, + "step": 145390 + }, + { + "epoch": 0.930528, + "grad_norm": 0.05455294996500015, + "learning_rate": 1.3796480000000001e-05, + "loss": 0.0028, + "step": 145395 + }, + { + "epoch": 0.93056, + "grad_norm": 0.11794628947973251, + "learning_rate": 1.3796266666666667e-05, + "loss": 0.012, + "step": 145400 + }, + { + "epoch": 0.930592, + "grad_norm": 0.839408278465271, + "learning_rate": 1.3796053333333335e-05, + "loss": 0.0024, + "step": 145405 + }, + { + "epoch": 0.930624, + "grad_norm": 0.17426742613315582, + "learning_rate": 1.379584e-05, + "loss": 0.0049, + "step": 145410 + }, + { + "epoch": 0.930656, + "grad_norm": 0.8839102387428284, + "learning_rate": 1.3795626666666668e-05, + "loss": 0.0065, + "step": 145415 + }, + { + "epoch": 0.930688, + "grad_norm": 0.8690446615219116, + "learning_rate": 1.3795413333333334e-05, + "loss": 0.0064, + "step": 145420 + }, + { + "epoch": 0.93072, + "grad_norm": 0.07701476663351059, + "learning_rate": 1.3795200000000001e-05, + "loss": 0.0044, + "step": 145425 + }, + { + "epoch": 0.930752, + "grad_norm": 0.430878609418869, + "learning_rate": 1.3794986666666667e-05, + "loss": 0.0058, + "step": 145430 + }, + { + "epoch": 0.930784, + "grad_norm": 0.03012307919561863, + "learning_rate": 1.3794773333333335e-05, + "loss": 0.0066, + "step": 145435 + }, + { + "epoch": 0.930816, + "grad_norm": 0.3562224507331848, + "learning_rate": 1.379456e-05, + "loss": 0.0037, + "step": 145440 + }, + { + "epoch": 0.930848, + "grad_norm": 1.550034761428833, + "learning_rate": 1.3794346666666666e-05, + "loss": 0.0217, + "step": 145445 + }, + { + "epoch": 0.93088, + "grad_norm": 0.8167981505393982, + "learning_rate": 1.3794133333333336e-05, + "loss": 0.0043, + "step": 145450 + }, + { + "epoch": 0.930912, + "grad_norm": 0.503456711769104, + "learning_rate": 1.379392e-05, + "loss": 0.0055, + "step": 145455 + }, + { + "epoch": 0.930944, + "grad_norm": 0.08210199326276779, + "learning_rate": 1.3793706666666669e-05, + "loss": 0.0025, + "step": 145460 + }, + { + "epoch": 0.930976, + "grad_norm": 0.2654646337032318, + "learning_rate": 1.3793493333333335e-05, + "loss": 0.0081, + "step": 145465 + }, + { + "epoch": 0.931008, + "grad_norm": 0.30023816227912903, + "learning_rate": 1.3793280000000003e-05, + "loss": 0.026, + "step": 145470 + }, + { + "epoch": 0.93104, + "grad_norm": 0.1627369374036789, + "learning_rate": 1.3793066666666668e-05, + "loss": 0.0059, + "step": 145475 + }, + { + "epoch": 0.931072, + "grad_norm": 1.1112923622131348, + "learning_rate": 1.3792853333333334e-05, + "loss": 0.0167, + "step": 145480 + }, + { + "epoch": 0.931104, + "grad_norm": 0.02299773134291172, + "learning_rate": 1.3792640000000002e-05, + "loss": 0.0077, + "step": 145485 + }, + { + "epoch": 0.931136, + "grad_norm": 0.12402484565973282, + "learning_rate": 1.3792426666666668e-05, + "loss": 0.0024, + "step": 145490 + }, + { + "epoch": 0.931168, + "grad_norm": 0.5679294466972351, + "learning_rate": 1.3792213333333335e-05, + "loss": 0.0046, + "step": 145495 + }, + { + "epoch": 0.9312, + "grad_norm": 0.12493597716093063, + "learning_rate": 1.3792000000000001e-05, + "loss": 0.0045, + "step": 145500 + }, + { + "epoch": 0.931232, + "grad_norm": 0.010395888239145279, + "learning_rate": 1.3791786666666669e-05, + "loss": 0.0071, + "step": 145505 + }, + { + "epoch": 0.931264, + "grad_norm": 0.688983678817749, + "learning_rate": 1.3791573333333335e-05, + "loss": 0.0035, + "step": 145510 + }, + { + "epoch": 0.931296, + "grad_norm": 1.2093170881271362, + "learning_rate": 1.379136e-05, + "loss": 0.0125, + "step": 145515 + }, + { + "epoch": 0.931328, + "grad_norm": 0.5979714393615723, + "learning_rate": 1.3791146666666668e-05, + "loss": 0.0037, + "step": 145520 + }, + { + "epoch": 0.93136, + "grad_norm": 0.6710628867149353, + "learning_rate": 1.3790933333333334e-05, + "loss": 0.0103, + "step": 145525 + }, + { + "epoch": 0.931392, + "grad_norm": 0.17748230695724487, + "learning_rate": 1.3790720000000001e-05, + "loss": 0.0064, + "step": 145530 + }, + { + "epoch": 0.931424, + "grad_norm": 1.0798890590667725, + "learning_rate": 1.3790506666666667e-05, + "loss": 0.0225, + "step": 145535 + }, + { + "epoch": 0.931456, + "grad_norm": 1.1182689666748047, + "learning_rate": 1.3790293333333335e-05, + "loss": 0.012, + "step": 145540 + }, + { + "epoch": 0.931488, + "grad_norm": 0.26699355244636536, + "learning_rate": 1.379008e-05, + "loss": 0.0077, + "step": 145545 + }, + { + "epoch": 0.93152, + "grad_norm": 0.0986904576420784, + "learning_rate": 1.3789866666666666e-05, + "loss": 0.0035, + "step": 145550 + }, + { + "epoch": 0.931552, + "grad_norm": 0.7376059293746948, + "learning_rate": 1.3789653333333336e-05, + "loss": 0.0029, + "step": 145555 + }, + { + "epoch": 0.931584, + "grad_norm": 1.5561836957931519, + "learning_rate": 1.378944e-05, + "loss": 0.0101, + "step": 145560 + }, + { + "epoch": 0.931616, + "grad_norm": 0.0217987559735775, + "learning_rate": 1.3789226666666669e-05, + "loss": 0.0289, + "step": 145565 + }, + { + "epoch": 0.931648, + "grad_norm": 0.5267490744590759, + "learning_rate": 1.3789013333333335e-05, + "loss": 0.016, + "step": 145570 + }, + { + "epoch": 0.93168, + "grad_norm": 1.1454665660858154, + "learning_rate": 1.3788800000000003e-05, + "loss": 0.011, + "step": 145575 + }, + { + "epoch": 0.931712, + "grad_norm": 0.18695223331451416, + "learning_rate": 1.3788586666666668e-05, + "loss": 0.0023, + "step": 145580 + }, + { + "epoch": 0.931744, + "grad_norm": 0.05821659415960312, + "learning_rate": 1.3788373333333334e-05, + "loss": 0.0045, + "step": 145585 + }, + { + "epoch": 0.931776, + "grad_norm": 0.2734801471233368, + "learning_rate": 1.3788160000000002e-05, + "loss": 0.0053, + "step": 145590 + }, + { + "epoch": 0.931808, + "grad_norm": 0.602130651473999, + "learning_rate": 1.3787946666666668e-05, + "loss": 0.0118, + "step": 145595 + }, + { + "epoch": 0.93184, + "grad_norm": 0.6060901880264282, + "learning_rate": 1.3787733333333335e-05, + "loss": 0.0082, + "step": 145600 + }, + { + "epoch": 0.931872, + "grad_norm": 0.0699324905872345, + "learning_rate": 1.3787520000000001e-05, + "loss": 0.0023, + "step": 145605 + }, + { + "epoch": 0.931904, + "grad_norm": 1.2632523775100708, + "learning_rate": 1.3787306666666669e-05, + "loss": 0.0089, + "step": 145610 + }, + { + "epoch": 0.931936, + "grad_norm": 0.010793576017022133, + "learning_rate": 1.3787093333333335e-05, + "loss": 0.0081, + "step": 145615 + }, + { + "epoch": 0.931968, + "grad_norm": 0.2274233102798462, + "learning_rate": 1.378688e-05, + "loss": 0.0028, + "step": 145620 + }, + { + "epoch": 0.932, + "grad_norm": 0.12790995836257935, + "learning_rate": 1.3786666666666668e-05, + "loss": 0.0048, + "step": 145625 + }, + { + "epoch": 0.932032, + "grad_norm": 0.03588885813951492, + "learning_rate": 1.3786453333333334e-05, + "loss": 0.0036, + "step": 145630 + }, + { + "epoch": 0.932064, + "grad_norm": 0.20906098186969757, + "learning_rate": 1.3786240000000001e-05, + "loss": 0.0062, + "step": 145635 + }, + { + "epoch": 0.932096, + "grad_norm": 0.3895374834537506, + "learning_rate": 1.3786026666666667e-05, + "loss": 0.0128, + "step": 145640 + }, + { + "epoch": 0.932128, + "grad_norm": 1.1317728757858276, + "learning_rate": 1.3785813333333335e-05, + "loss": 0.0143, + "step": 145645 + }, + { + "epoch": 0.93216, + "grad_norm": 0.02852359227836132, + "learning_rate": 1.37856e-05, + "loss": 0.0081, + "step": 145650 + }, + { + "epoch": 0.932192, + "grad_norm": 0.26701343059539795, + "learning_rate": 1.3785386666666666e-05, + "loss": 0.007, + "step": 145655 + }, + { + "epoch": 0.932224, + "grad_norm": 0.19377301633358002, + "learning_rate": 1.3785173333333334e-05, + "loss": 0.0121, + "step": 145660 + }, + { + "epoch": 0.932256, + "grad_norm": 0.3038196265697479, + "learning_rate": 1.378496e-05, + "loss": 0.002, + "step": 145665 + }, + { + "epoch": 0.932288, + "grad_norm": 0.6913285851478577, + "learning_rate": 1.3784746666666669e-05, + "loss": 0.0162, + "step": 145670 + }, + { + "epoch": 0.93232, + "grad_norm": 0.9210237860679626, + "learning_rate": 1.3784533333333335e-05, + "loss": 0.0104, + "step": 145675 + }, + { + "epoch": 0.932352, + "grad_norm": 0.0503518283367157, + "learning_rate": 1.3784320000000003e-05, + "loss": 0.0089, + "step": 145680 + }, + { + "epoch": 0.932384, + "grad_norm": 0.17255114018917084, + "learning_rate": 1.3784106666666668e-05, + "loss": 0.0099, + "step": 145685 + }, + { + "epoch": 0.932416, + "grad_norm": 0.27890220284461975, + "learning_rate": 1.3783893333333334e-05, + "loss": 0.0033, + "step": 145690 + }, + { + "epoch": 0.932448, + "grad_norm": 0.2636457085609436, + "learning_rate": 1.3783680000000002e-05, + "loss": 0.0023, + "step": 145695 + }, + { + "epoch": 0.93248, + "grad_norm": 0.02245597168803215, + "learning_rate": 1.3783466666666668e-05, + "loss": 0.0096, + "step": 145700 + }, + { + "epoch": 0.932512, + "grad_norm": 0.2873242497444153, + "learning_rate": 1.3783253333333335e-05, + "loss": 0.0061, + "step": 145705 + }, + { + "epoch": 0.932544, + "grad_norm": 0.19687525928020477, + "learning_rate": 1.3783040000000001e-05, + "loss": 0.0078, + "step": 145710 + }, + { + "epoch": 0.932576, + "grad_norm": 0.3313886821269989, + "learning_rate": 1.3782826666666669e-05, + "loss": 0.0019, + "step": 145715 + }, + { + "epoch": 0.932608, + "grad_norm": 1.2069134712219238, + "learning_rate": 1.3782613333333335e-05, + "loss": 0.0131, + "step": 145720 + }, + { + "epoch": 0.93264, + "grad_norm": 0.04265604913234711, + "learning_rate": 1.37824e-05, + "loss": 0.0084, + "step": 145725 + }, + { + "epoch": 0.932672, + "grad_norm": 0.07066210359334946, + "learning_rate": 1.3782186666666668e-05, + "loss": 0.0048, + "step": 145730 + }, + { + "epoch": 0.932704, + "grad_norm": 0.18529200553894043, + "learning_rate": 1.3781973333333334e-05, + "loss": 0.0048, + "step": 145735 + }, + { + "epoch": 0.932736, + "grad_norm": 0.0391753651201725, + "learning_rate": 1.3781760000000001e-05, + "loss": 0.0124, + "step": 145740 + }, + { + "epoch": 0.932768, + "grad_norm": 1.569724678993225, + "learning_rate": 1.3781546666666667e-05, + "loss": 0.0061, + "step": 145745 + }, + { + "epoch": 0.9328, + "grad_norm": 0.35211312770843506, + "learning_rate": 1.3781333333333335e-05, + "loss": 0.0079, + "step": 145750 + }, + { + "epoch": 0.932832, + "grad_norm": 1.0773732662200928, + "learning_rate": 1.378112e-05, + "loss": 0.0091, + "step": 145755 + }, + { + "epoch": 0.932864, + "grad_norm": 0.051280293613672256, + "learning_rate": 1.3780906666666666e-05, + "loss": 0.0065, + "step": 145760 + }, + { + "epoch": 0.932896, + "grad_norm": 1.402152180671692, + "learning_rate": 1.3780693333333334e-05, + "loss": 0.0067, + "step": 145765 + }, + { + "epoch": 0.932928, + "grad_norm": 0.6929874420166016, + "learning_rate": 1.378048e-05, + "loss": 0.0074, + "step": 145770 + }, + { + "epoch": 0.93296, + "grad_norm": 0.09368257224559784, + "learning_rate": 1.3780266666666669e-05, + "loss": 0.0177, + "step": 145775 + }, + { + "epoch": 0.932992, + "grad_norm": 0.7050572037696838, + "learning_rate": 1.3780053333333335e-05, + "loss": 0.006, + "step": 145780 + }, + { + "epoch": 0.933024, + "grad_norm": 0.1587212085723877, + "learning_rate": 1.3779840000000003e-05, + "loss": 0.0034, + "step": 145785 + }, + { + "epoch": 0.933056, + "grad_norm": 0.04268483445048332, + "learning_rate": 1.3779626666666668e-05, + "loss": 0.0093, + "step": 145790 + }, + { + "epoch": 0.933088, + "grad_norm": 0.22021497786045074, + "learning_rate": 1.3779413333333334e-05, + "loss": 0.008, + "step": 145795 + }, + { + "epoch": 0.93312, + "grad_norm": 0.07056679576635361, + "learning_rate": 1.3779200000000002e-05, + "loss": 0.004, + "step": 145800 + }, + { + "epoch": 0.933152, + "grad_norm": 0.03816749155521393, + "learning_rate": 1.3778986666666668e-05, + "loss": 0.0022, + "step": 145805 + }, + { + "epoch": 0.933184, + "grad_norm": 0.020534412935376167, + "learning_rate": 1.3778773333333335e-05, + "loss": 0.0048, + "step": 145810 + }, + { + "epoch": 0.933216, + "grad_norm": 0.3155418336391449, + "learning_rate": 1.3778560000000001e-05, + "loss": 0.0112, + "step": 145815 + }, + { + "epoch": 0.933248, + "grad_norm": 0.023920070379972458, + "learning_rate": 1.3778346666666669e-05, + "loss": 0.0025, + "step": 145820 + }, + { + "epoch": 0.93328, + "grad_norm": 0.25287488102912903, + "learning_rate": 1.3778133333333335e-05, + "loss": 0.0025, + "step": 145825 + }, + { + "epoch": 0.933312, + "grad_norm": 0.40168359875679016, + "learning_rate": 1.377792e-05, + "loss": 0.0106, + "step": 145830 + }, + { + "epoch": 0.933344, + "grad_norm": 0.1696925014257431, + "learning_rate": 1.3777706666666668e-05, + "loss": 0.0077, + "step": 145835 + }, + { + "epoch": 0.933376, + "grad_norm": 0.030171845108270645, + "learning_rate": 1.3777493333333334e-05, + "loss": 0.0092, + "step": 145840 + }, + { + "epoch": 0.933408, + "grad_norm": 0.15592600405216217, + "learning_rate": 1.3777280000000001e-05, + "loss": 0.0054, + "step": 145845 + }, + { + "epoch": 0.93344, + "grad_norm": 1.852665662765503, + "learning_rate": 1.3777066666666667e-05, + "loss": 0.0097, + "step": 145850 + }, + { + "epoch": 0.933472, + "grad_norm": 0.043987907469272614, + "learning_rate": 1.3776853333333335e-05, + "loss": 0.0068, + "step": 145855 + }, + { + "epoch": 0.933504, + "grad_norm": 1.3296840190887451, + "learning_rate": 1.377664e-05, + "loss": 0.0089, + "step": 145860 + }, + { + "epoch": 0.933536, + "grad_norm": 0.15669788420200348, + "learning_rate": 1.3776426666666666e-05, + "loss": 0.0109, + "step": 145865 + }, + { + "epoch": 0.933568, + "grad_norm": 0.06442146748304367, + "learning_rate": 1.3776213333333334e-05, + "loss": 0.0017, + "step": 145870 + }, + { + "epoch": 0.9336, + "grad_norm": 0.004114725161343813, + "learning_rate": 1.3776e-05, + "loss": 0.0021, + "step": 145875 + }, + { + "epoch": 0.933632, + "grad_norm": 0.007489248178899288, + "learning_rate": 1.3775786666666669e-05, + "loss": 0.0089, + "step": 145880 + }, + { + "epoch": 0.933664, + "grad_norm": 0.2756739556789398, + "learning_rate": 1.3775573333333333e-05, + "loss": 0.0024, + "step": 145885 + }, + { + "epoch": 0.933696, + "grad_norm": 0.023639662191271782, + "learning_rate": 1.3775360000000003e-05, + "loss": 0.0098, + "step": 145890 + }, + { + "epoch": 0.933728, + "grad_norm": 0.0425301231443882, + "learning_rate": 1.3775146666666668e-05, + "loss": 0.0079, + "step": 145895 + }, + { + "epoch": 0.93376, + "grad_norm": 0.012757360935211182, + "learning_rate": 1.3774933333333334e-05, + "loss": 0.0046, + "step": 145900 + }, + { + "epoch": 0.933792, + "grad_norm": 0.003626702819019556, + "learning_rate": 1.3774720000000002e-05, + "loss": 0.0036, + "step": 145905 + }, + { + "epoch": 0.933824, + "grad_norm": 0.6304652690887451, + "learning_rate": 1.3774506666666668e-05, + "loss": 0.008, + "step": 145910 + }, + { + "epoch": 0.933856, + "grad_norm": 0.052271198481321335, + "learning_rate": 1.3774293333333335e-05, + "loss": 0.0015, + "step": 145915 + }, + { + "epoch": 0.933888, + "grad_norm": 0.5680095553398132, + "learning_rate": 1.3774080000000001e-05, + "loss": 0.0075, + "step": 145920 + }, + { + "epoch": 0.93392, + "grad_norm": 0.1248454749584198, + "learning_rate": 1.3773866666666669e-05, + "loss": 0.0025, + "step": 145925 + }, + { + "epoch": 0.933952, + "grad_norm": 0.2063872218132019, + "learning_rate": 1.3773653333333335e-05, + "loss": 0.0101, + "step": 145930 + }, + { + "epoch": 0.933984, + "grad_norm": 0.058103419840335846, + "learning_rate": 1.377344e-05, + "loss": 0.0041, + "step": 145935 + }, + { + "epoch": 0.934016, + "grad_norm": 0.25188782811164856, + "learning_rate": 1.3773226666666668e-05, + "loss": 0.0111, + "step": 145940 + }, + { + "epoch": 0.934048, + "grad_norm": 1.321747899055481, + "learning_rate": 1.3773013333333334e-05, + "loss": 0.0082, + "step": 145945 + }, + { + "epoch": 0.93408, + "grad_norm": 0.6566234827041626, + "learning_rate": 1.3772800000000001e-05, + "loss": 0.0095, + "step": 145950 + }, + { + "epoch": 0.934112, + "grad_norm": 0.8748319149017334, + "learning_rate": 1.3772586666666667e-05, + "loss": 0.0117, + "step": 145955 + }, + { + "epoch": 0.934144, + "grad_norm": 0.28114432096481323, + "learning_rate": 1.3772373333333335e-05, + "loss": 0.014, + "step": 145960 + }, + { + "epoch": 0.934176, + "grad_norm": 0.3415510952472687, + "learning_rate": 1.377216e-05, + "loss": 0.0037, + "step": 145965 + }, + { + "epoch": 0.934208, + "grad_norm": 0.18192823231220245, + "learning_rate": 1.3771946666666666e-05, + "loss": 0.0039, + "step": 145970 + }, + { + "epoch": 0.93424, + "grad_norm": 0.020299693569540977, + "learning_rate": 1.3771733333333334e-05, + "loss": 0.0047, + "step": 145975 + }, + { + "epoch": 0.934272, + "grad_norm": 0.22362273931503296, + "learning_rate": 1.377152e-05, + "loss": 0.0035, + "step": 145980 + }, + { + "epoch": 0.934304, + "grad_norm": 0.022627249360084534, + "learning_rate": 1.3771306666666669e-05, + "loss": 0.0012, + "step": 145985 + }, + { + "epoch": 0.934336, + "grad_norm": 0.1739245057106018, + "learning_rate": 1.3771093333333333e-05, + "loss": 0.004, + "step": 145990 + }, + { + "epoch": 0.934368, + "grad_norm": 0.2352849841117859, + "learning_rate": 1.3770880000000003e-05, + "loss": 0.002, + "step": 145995 + }, + { + "epoch": 0.9344, + "grad_norm": 0.6527121663093567, + "learning_rate": 1.3770666666666668e-05, + "loss": 0.0118, + "step": 146000 + }, + { + "epoch": 0.934432, + "grad_norm": 0.048237916082143784, + "learning_rate": 1.3770453333333334e-05, + "loss": 0.0016, + "step": 146005 + }, + { + "epoch": 0.934464, + "grad_norm": 1.0013279914855957, + "learning_rate": 1.3770240000000002e-05, + "loss": 0.0174, + "step": 146010 + }, + { + "epoch": 0.934496, + "grad_norm": 0.3362674415111542, + "learning_rate": 1.3770026666666668e-05, + "loss": 0.0025, + "step": 146015 + }, + { + "epoch": 0.934528, + "grad_norm": 0.16561518609523773, + "learning_rate": 1.3769813333333335e-05, + "loss": 0.0153, + "step": 146020 + }, + { + "epoch": 0.93456, + "grad_norm": 1.6329677104949951, + "learning_rate": 1.3769600000000001e-05, + "loss": 0.0144, + "step": 146025 + }, + { + "epoch": 0.934592, + "grad_norm": 0.3030140995979309, + "learning_rate": 1.3769386666666669e-05, + "loss": 0.0069, + "step": 146030 + }, + { + "epoch": 0.934624, + "grad_norm": 1.1022205352783203, + "learning_rate": 1.3769173333333335e-05, + "loss": 0.0068, + "step": 146035 + }, + { + "epoch": 0.934656, + "grad_norm": 0.38904669880867004, + "learning_rate": 1.376896e-05, + "loss": 0.0015, + "step": 146040 + }, + { + "epoch": 0.934688, + "grad_norm": 0.18570727109909058, + "learning_rate": 1.3768746666666668e-05, + "loss": 0.0071, + "step": 146045 + }, + { + "epoch": 0.93472, + "grad_norm": 1.0747156143188477, + "learning_rate": 1.3768533333333334e-05, + "loss": 0.0071, + "step": 146050 + }, + { + "epoch": 0.934752, + "grad_norm": 0.009913419373333454, + "learning_rate": 1.3768320000000001e-05, + "loss": 0.0143, + "step": 146055 + }, + { + "epoch": 0.934784, + "grad_norm": 0.12363115698099136, + "learning_rate": 1.3768106666666667e-05, + "loss": 0.0068, + "step": 146060 + }, + { + "epoch": 0.934816, + "grad_norm": 0.23625631630420685, + "learning_rate": 1.3767893333333335e-05, + "loss": 0.0058, + "step": 146065 + }, + { + "epoch": 0.934848, + "grad_norm": 0.14795692265033722, + "learning_rate": 1.376768e-05, + "loss": 0.007, + "step": 146070 + }, + { + "epoch": 0.93488, + "grad_norm": 0.03790559992194176, + "learning_rate": 1.3767466666666666e-05, + "loss": 0.0099, + "step": 146075 + }, + { + "epoch": 0.934912, + "grad_norm": 0.37151315808296204, + "learning_rate": 1.3767253333333334e-05, + "loss": 0.0093, + "step": 146080 + }, + { + "epoch": 0.934944, + "grad_norm": 0.4424966275691986, + "learning_rate": 1.376704e-05, + "loss": 0.0049, + "step": 146085 + }, + { + "epoch": 0.934976, + "grad_norm": 0.8162457346916199, + "learning_rate": 1.376682666666667e-05, + "loss": 0.0058, + "step": 146090 + }, + { + "epoch": 0.935008, + "grad_norm": 0.09178026765584946, + "learning_rate": 1.3766613333333333e-05, + "loss": 0.0062, + "step": 146095 + }, + { + "epoch": 0.93504, + "grad_norm": 1.0456029176712036, + "learning_rate": 1.3766400000000003e-05, + "loss": 0.0071, + "step": 146100 + }, + { + "epoch": 0.935072, + "grad_norm": 0.1012406274676323, + "learning_rate": 1.3766186666666668e-05, + "loss": 0.0106, + "step": 146105 + }, + { + "epoch": 0.935104, + "grad_norm": 1.032963514328003, + "learning_rate": 1.3765973333333333e-05, + "loss": 0.0075, + "step": 146110 + }, + { + "epoch": 0.935136, + "grad_norm": 1.5712106227874756, + "learning_rate": 1.3765760000000002e-05, + "loss": 0.0123, + "step": 146115 + }, + { + "epoch": 0.935168, + "grad_norm": 0.0792006179690361, + "learning_rate": 1.3765546666666668e-05, + "loss": 0.0038, + "step": 146120 + }, + { + "epoch": 0.9352, + "grad_norm": 0.09271815419197083, + "learning_rate": 1.3765333333333335e-05, + "loss": 0.0066, + "step": 146125 + }, + { + "epoch": 0.935232, + "grad_norm": 0.7208569645881653, + "learning_rate": 1.3765120000000001e-05, + "loss": 0.0068, + "step": 146130 + }, + { + "epoch": 0.935264, + "grad_norm": 0.47204846143722534, + "learning_rate": 1.3764906666666669e-05, + "loss": 0.0043, + "step": 146135 + }, + { + "epoch": 0.935296, + "grad_norm": 0.2774117588996887, + "learning_rate": 1.3764693333333335e-05, + "loss": 0.0064, + "step": 146140 + }, + { + "epoch": 0.935328, + "grad_norm": 0.11757051944732666, + "learning_rate": 1.376448e-05, + "loss": 0.0022, + "step": 146145 + }, + { + "epoch": 0.93536, + "grad_norm": 0.6342081427574158, + "learning_rate": 1.3764266666666668e-05, + "loss": 0.0095, + "step": 146150 + }, + { + "epoch": 0.935392, + "grad_norm": 1.8448400497436523, + "learning_rate": 1.3764053333333334e-05, + "loss": 0.0044, + "step": 146155 + }, + { + "epoch": 0.935424, + "grad_norm": 0.010051978752017021, + "learning_rate": 1.3763840000000001e-05, + "loss": 0.0129, + "step": 146160 + }, + { + "epoch": 0.935456, + "grad_norm": 1.224251627922058, + "learning_rate": 1.3763626666666667e-05, + "loss": 0.0097, + "step": 146165 + }, + { + "epoch": 0.935488, + "grad_norm": 0.8852261304855347, + "learning_rate": 1.3763413333333335e-05, + "loss": 0.0038, + "step": 146170 + }, + { + "epoch": 0.93552, + "grad_norm": 0.026486584916710854, + "learning_rate": 1.37632e-05, + "loss": 0.0059, + "step": 146175 + }, + { + "epoch": 0.935552, + "grad_norm": 0.5569707751274109, + "learning_rate": 1.3762986666666666e-05, + "loss": 0.0089, + "step": 146180 + }, + { + "epoch": 0.935584, + "grad_norm": 1.1181156635284424, + "learning_rate": 1.3762773333333334e-05, + "loss": 0.0061, + "step": 146185 + }, + { + "epoch": 0.935616, + "grad_norm": 0.12113836407661438, + "learning_rate": 1.376256e-05, + "loss": 0.0043, + "step": 146190 + }, + { + "epoch": 0.935648, + "grad_norm": 0.03438221663236618, + "learning_rate": 1.3762346666666667e-05, + "loss": 0.0019, + "step": 146195 + }, + { + "epoch": 0.93568, + "grad_norm": 0.7315927743911743, + "learning_rate": 1.3762133333333333e-05, + "loss": 0.0083, + "step": 146200 + }, + { + "epoch": 0.935712, + "grad_norm": 0.017511000856757164, + "learning_rate": 1.3761920000000003e-05, + "loss": 0.0075, + "step": 146205 + }, + { + "epoch": 0.935744, + "grad_norm": 0.05252966284751892, + "learning_rate": 1.3761706666666668e-05, + "loss": 0.0079, + "step": 146210 + }, + { + "epoch": 0.935776, + "grad_norm": 1.0448689460754395, + "learning_rate": 1.3761493333333333e-05, + "loss": 0.0093, + "step": 146215 + }, + { + "epoch": 0.935808, + "grad_norm": 0.33880743384361267, + "learning_rate": 1.3761280000000002e-05, + "loss": 0.0036, + "step": 146220 + }, + { + "epoch": 0.93584, + "grad_norm": 0.6631088852882385, + "learning_rate": 1.3761066666666668e-05, + "loss": 0.006, + "step": 146225 + }, + { + "epoch": 0.935872, + "grad_norm": 0.9934868216514587, + "learning_rate": 1.3760853333333335e-05, + "loss": 0.0133, + "step": 146230 + }, + { + "epoch": 0.935904, + "grad_norm": 0.24873028695583344, + "learning_rate": 1.3760640000000001e-05, + "loss": 0.0089, + "step": 146235 + }, + { + "epoch": 0.935936, + "grad_norm": 0.22558169066905975, + "learning_rate": 1.3760426666666669e-05, + "loss": 0.0094, + "step": 146240 + }, + { + "epoch": 0.935968, + "grad_norm": 0.4438164234161377, + "learning_rate": 1.3760213333333335e-05, + "loss": 0.0069, + "step": 146245 + }, + { + "epoch": 0.936, + "grad_norm": 0.490152508020401, + "learning_rate": 1.376e-05, + "loss": 0.0097, + "step": 146250 + }, + { + "epoch": 0.936032, + "grad_norm": 0.8097337484359741, + "learning_rate": 1.3759786666666668e-05, + "loss": 0.0077, + "step": 146255 + }, + { + "epoch": 0.936064, + "grad_norm": 0.1035035252571106, + "learning_rate": 1.3759573333333334e-05, + "loss": 0.0057, + "step": 146260 + }, + { + "epoch": 0.936096, + "grad_norm": 0.6677678227424622, + "learning_rate": 1.3759360000000001e-05, + "loss": 0.0045, + "step": 146265 + }, + { + "epoch": 0.936128, + "grad_norm": 0.2969624102115631, + "learning_rate": 1.3759146666666667e-05, + "loss": 0.0019, + "step": 146270 + }, + { + "epoch": 0.93616, + "grad_norm": 0.046508245170116425, + "learning_rate": 1.3758933333333335e-05, + "loss": 0.0022, + "step": 146275 + }, + { + "epoch": 0.936192, + "grad_norm": 0.3347897231578827, + "learning_rate": 1.375872e-05, + "loss": 0.0108, + "step": 146280 + }, + { + "epoch": 0.936224, + "grad_norm": 0.4384714663028717, + "learning_rate": 1.3758506666666668e-05, + "loss": 0.0051, + "step": 146285 + }, + { + "epoch": 0.936256, + "grad_norm": 0.06698381900787354, + "learning_rate": 1.3758293333333334e-05, + "loss": 0.0078, + "step": 146290 + }, + { + "epoch": 0.936288, + "grad_norm": 1.5126259326934814, + "learning_rate": 1.375808e-05, + "loss": 0.0202, + "step": 146295 + }, + { + "epoch": 0.93632, + "grad_norm": 0.20487190783023834, + "learning_rate": 1.3757866666666667e-05, + "loss": 0.0139, + "step": 146300 + }, + { + "epoch": 0.936352, + "grad_norm": 0.3151024878025055, + "learning_rate": 1.3757653333333333e-05, + "loss": 0.0039, + "step": 146305 + }, + { + "epoch": 0.936384, + "grad_norm": 0.06535075604915619, + "learning_rate": 1.3757440000000003e-05, + "loss": 0.0032, + "step": 146310 + }, + { + "epoch": 0.936416, + "grad_norm": 0.2589866518974304, + "learning_rate": 1.3757226666666668e-05, + "loss": 0.0072, + "step": 146315 + }, + { + "epoch": 0.936448, + "grad_norm": 0.03543154522776604, + "learning_rate": 1.3757013333333336e-05, + "loss": 0.0016, + "step": 146320 + }, + { + "epoch": 0.93648, + "grad_norm": 0.016077809035778046, + "learning_rate": 1.3756800000000002e-05, + "loss": 0.0016, + "step": 146325 + }, + { + "epoch": 0.936512, + "grad_norm": 0.5134757161140442, + "learning_rate": 1.3756586666666668e-05, + "loss": 0.0031, + "step": 146330 + }, + { + "epoch": 0.936544, + "grad_norm": 0.30663782358169556, + "learning_rate": 1.3756373333333335e-05, + "loss": 0.0025, + "step": 146335 + }, + { + "epoch": 0.936576, + "grad_norm": 0.21063821017742157, + "learning_rate": 1.3756160000000001e-05, + "loss": 0.0066, + "step": 146340 + }, + { + "epoch": 0.936608, + "grad_norm": 0.27447599172592163, + "learning_rate": 1.3755946666666669e-05, + "loss": 0.0169, + "step": 146345 + }, + { + "epoch": 0.93664, + "grad_norm": 0.057268720120191574, + "learning_rate": 1.3755733333333335e-05, + "loss": 0.0046, + "step": 146350 + }, + { + "epoch": 0.936672, + "grad_norm": 0.9860668182373047, + "learning_rate": 1.3755520000000002e-05, + "loss": 0.0135, + "step": 146355 + }, + { + "epoch": 0.936704, + "grad_norm": 0.021630341187119484, + "learning_rate": 1.3755306666666668e-05, + "loss": 0.0013, + "step": 146360 + }, + { + "epoch": 0.936736, + "grad_norm": 0.49916139245033264, + "learning_rate": 1.3755093333333334e-05, + "loss": 0.0074, + "step": 146365 + }, + { + "epoch": 0.936768, + "grad_norm": 0.12895342707633972, + "learning_rate": 1.3754880000000001e-05, + "loss": 0.0076, + "step": 146370 + }, + { + "epoch": 0.9368, + "grad_norm": 0.8516099452972412, + "learning_rate": 1.3754666666666667e-05, + "loss": 0.0046, + "step": 146375 + }, + { + "epoch": 0.936832, + "grad_norm": 0.36930808424949646, + "learning_rate": 1.3754453333333335e-05, + "loss": 0.0044, + "step": 146380 + }, + { + "epoch": 0.936864, + "grad_norm": 0.39368414878845215, + "learning_rate": 1.375424e-05, + "loss": 0.0048, + "step": 146385 + }, + { + "epoch": 0.936896, + "grad_norm": 0.44668811559677124, + "learning_rate": 1.3754026666666668e-05, + "loss": 0.0119, + "step": 146390 + }, + { + "epoch": 0.936928, + "grad_norm": 0.25919604301452637, + "learning_rate": 1.3753813333333334e-05, + "loss": 0.0092, + "step": 146395 + }, + { + "epoch": 0.93696, + "grad_norm": 0.582632839679718, + "learning_rate": 1.37536e-05, + "loss": 0.0059, + "step": 146400 + }, + { + "epoch": 0.936992, + "grad_norm": 0.5742151141166687, + "learning_rate": 1.3753386666666667e-05, + "loss": 0.0083, + "step": 146405 + }, + { + "epoch": 0.937024, + "grad_norm": 0.4254131019115448, + "learning_rate": 1.3753173333333333e-05, + "loss": 0.0101, + "step": 146410 + }, + { + "epoch": 0.937056, + "grad_norm": 0.014580211602151394, + "learning_rate": 1.3752960000000003e-05, + "loss": 0.0021, + "step": 146415 + }, + { + "epoch": 0.937088, + "grad_norm": 0.40409958362579346, + "learning_rate": 1.3752746666666667e-05, + "loss": 0.0077, + "step": 146420 + }, + { + "epoch": 0.93712, + "grad_norm": 1.8054141998291016, + "learning_rate": 1.3752533333333336e-05, + "loss": 0.0439, + "step": 146425 + }, + { + "epoch": 0.937152, + "grad_norm": 0.28744566440582275, + "learning_rate": 1.3752320000000002e-05, + "loss": 0.0117, + "step": 146430 + }, + { + "epoch": 0.937184, + "grad_norm": 0.14930664002895355, + "learning_rate": 1.3752106666666668e-05, + "loss": 0.0086, + "step": 146435 + }, + { + "epoch": 0.937216, + "grad_norm": 12.716171264648438, + "learning_rate": 1.3751893333333335e-05, + "loss": 0.0103, + "step": 146440 + }, + { + "epoch": 0.937248, + "grad_norm": 0.8926191926002502, + "learning_rate": 1.3751680000000001e-05, + "loss": 0.0117, + "step": 146445 + }, + { + "epoch": 0.93728, + "grad_norm": 0.224301278591156, + "learning_rate": 1.3751466666666669e-05, + "loss": 0.0022, + "step": 146450 + }, + { + "epoch": 0.937312, + "grad_norm": 0.8424146771430969, + "learning_rate": 1.3751253333333335e-05, + "loss": 0.0046, + "step": 146455 + }, + { + "epoch": 0.937344, + "grad_norm": 0.40751174092292786, + "learning_rate": 1.3751040000000002e-05, + "loss": 0.0194, + "step": 146460 + }, + { + "epoch": 0.937376, + "grad_norm": 0.09402301162481308, + "learning_rate": 1.3750826666666668e-05, + "loss": 0.0152, + "step": 146465 + }, + { + "epoch": 0.937408, + "grad_norm": 0.23175862431526184, + "learning_rate": 1.3750613333333334e-05, + "loss": 0.0014, + "step": 146470 + }, + { + "epoch": 0.93744, + "grad_norm": 0.06385372579097748, + "learning_rate": 1.3750400000000001e-05, + "loss": 0.0043, + "step": 146475 + }, + { + "epoch": 0.937472, + "grad_norm": 0.0965474396944046, + "learning_rate": 1.3750186666666667e-05, + "loss": 0.0064, + "step": 146480 + }, + { + "epoch": 0.937504, + "grad_norm": 0.637086808681488, + "learning_rate": 1.3749973333333335e-05, + "loss": 0.007, + "step": 146485 + }, + { + "epoch": 0.937536, + "grad_norm": 0.48105522990226746, + "learning_rate": 1.374976e-05, + "loss": 0.0048, + "step": 146490 + }, + { + "epoch": 0.937568, + "grad_norm": 1.1305254697799683, + "learning_rate": 1.3749546666666668e-05, + "loss": 0.0125, + "step": 146495 + }, + { + "epoch": 0.9376, + "grad_norm": 0.5970578193664551, + "learning_rate": 1.3749333333333334e-05, + "loss": 0.0338, + "step": 146500 + }, + { + "epoch": 0.937632, + "grad_norm": 0.9506034851074219, + "learning_rate": 1.374912e-05, + "loss": 0.0132, + "step": 146505 + }, + { + "epoch": 0.937664, + "grad_norm": 0.06358018517494202, + "learning_rate": 1.3748906666666667e-05, + "loss": 0.0076, + "step": 146510 + }, + { + "epoch": 0.937696, + "grad_norm": 0.3655749261379242, + "learning_rate": 1.3748693333333333e-05, + "loss": 0.0116, + "step": 146515 + }, + { + "epoch": 0.937728, + "grad_norm": 0.1844896376132965, + "learning_rate": 1.3748480000000003e-05, + "loss": 0.0123, + "step": 146520 + }, + { + "epoch": 0.93776, + "grad_norm": 0.08732907474040985, + "learning_rate": 1.3748266666666667e-05, + "loss": 0.0161, + "step": 146525 + }, + { + "epoch": 0.937792, + "grad_norm": 0.06619084626436234, + "learning_rate": 1.3748053333333336e-05, + "loss": 0.0126, + "step": 146530 + }, + { + "epoch": 0.937824, + "grad_norm": 0.5030338764190674, + "learning_rate": 1.3747840000000002e-05, + "loss": 0.0024, + "step": 146535 + }, + { + "epoch": 0.937856, + "grad_norm": 0.189285010099411, + "learning_rate": 1.3747626666666668e-05, + "loss": 0.0049, + "step": 146540 + }, + { + "epoch": 0.937888, + "grad_norm": 0.4261937141418457, + "learning_rate": 1.3747413333333335e-05, + "loss": 0.0053, + "step": 146545 + }, + { + "epoch": 0.93792, + "grad_norm": 0.9236268401145935, + "learning_rate": 1.3747200000000001e-05, + "loss": 0.0358, + "step": 146550 + }, + { + "epoch": 0.937952, + "grad_norm": 0.05825158953666687, + "learning_rate": 1.3746986666666669e-05, + "loss": 0.0055, + "step": 146555 + }, + { + "epoch": 0.937984, + "grad_norm": 0.7512285113334656, + "learning_rate": 1.3746773333333335e-05, + "loss": 0.0161, + "step": 146560 + }, + { + "epoch": 0.938016, + "grad_norm": 0.4935782551765442, + "learning_rate": 1.3746560000000002e-05, + "loss": 0.0026, + "step": 146565 + }, + { + "epoch": 0.938048, + "grad_norm": 0.92447829246521, + "learning_rate": 1.3746346666666668e-05, + "loss": 0.0051, + "step": 146570 + }, + { + "epoch": 0.93808, + "grad_norm": 0.09499239921569824, + "learning_rate": 1.3746133333333334e-05, + "loss": 0.0051, + "step": 146575 + }, + { + "epoch": 0.938112, + "grad_norm": 0.2880884110927582, + "learning_rate": 1.3745920000000001e-05, + "loss": 0.0055, + "step": 146580 + }, + { + "epoch": 0.938144, + "grad_norm": 0.11923272162675858, + "learning_rate": 1.3745706666666667e-05, + "loss": 0.0068, + "step": 146585 + }, + { + "epoch": 0.938176, + "grad_norm": 2.8410322666168213, + "learning_rate": 1.3745493333333335e-05, + "loss": 0.0078, + "step": 146590 + }, + { + "epoch": 0.938208, + "grad_norm": 0.0775788426399231, + "learning_rate": 1.374528e-05, + "loss": 0.006, + "step": 146595 + }, + { + "epoch": 0.93824, + "grad_norm": 0.16202852129936218, + "learning_rate": 1.3745066666666668e-05, + "loss": 0.0031, + "step": 146600 + }, + { + "epoch": 0.938272, + "grad_norm": 0.15896597504615784, + "learning_rate": 1.3744853333333334e-05, + "loss": 0.0028, + "step": 146605 + }, + { + "epoch": 0.938304, + "grad_norm": 0.11766119301319122, + "learning_rate": 1.374464e-05, + "loss": 0.0018, + "step": 146610 + }, + { + "epoch": 0.938336, + "grad_norm": 0.033120956271886826, + "learning_rate": 1.3744426666666667e-05, + "loss": 0.0089, + "step": 146615 + }, + { + "epoch": 0.938368, + "grad_norm": 0.2147894948720932, + "learning_rate": 1.3744213333333333e-05, + "loss": 0.0034, + "step": 146620 + }, + { + "epoch": 0.9384, + "grad_norm": 0.1585163027048111, + "learning_rate": 1.3744000000000003e-05, + "loss": 0.0088, + "step": 146625 + }, + { + "epoch": 0.938432, + "grad_norm": 0.6077372431755066, + "learning_rate": 1.3743786666666667e-05, + "loss": 0.0047, + "step": 146630 + }, + { + "epoch": 0.938464, + "grad_norm": 0.5985797643661499, + "learning_rate": 1.3743573333333336e-05, + "loss": 0.0095, + "step": 146635 + }, + { + "epoch": 0.938496, + "grad_norm": 0.49552613496780396, + "learning_rate": 1.3743360000000002e-05, + "loss": 0.0174, + "step": 146640 + }, + { + "epoch": 0.938528, + "grad_norm": 0.09202776104211807, + "learning_rate": 1.3743146666666666e-05, + "loss": 0.0054, + "step": 146645 + }, + { + "epoch": 0.93856, + "grad_norm": 0.2299385815858841, + "learning_rate": 1.3742933333333335e-05, + "loss": 0.0089, + "step": 146650 + }, + { + "epoch": 0.938592, + "grad_norm": 0.5586243271827698, + "learning_rate": 1.3742720000000001e-05, + "loss": 0.0203, + "step": 146655 + }, + { + "epoch": 0.938624, + "grad_norm": 0.029909275472164154, + "learning_rate": 1.3742506666666669e-05, + "loss": 0.0018, + "step": 146660 + }, + { + "epoch": 0.938656, + "grad_norm": 0.5876575708389282, + "learning_rate": 1.3742293333333335e-05, + "loss": 0.0166, + "step": 146665 + }, + { + "epoch": 0.938688, + "grad_norm": 0.5534473657608032, + "learning_rate": 1.3742080000000002e-05, + "loss": 0.0055, + "step": 146670 + }, + { + "epoch": 0.93872, + "grad_norm": 0.13869251310825348, + "learning_rate": 1.3741866666666668e-05, + "loss": 0.0077, + "step": 146675 + }, + { + "epoch": 0.938752, + "grad_norm": 0.5778006315231323, + "learning_rate": 1.3741653333333334e-05, + "loss": 0.0046, + "step": 146680 + }, + { + "epoch": 0.938784, + "grad_norm": 0.06486092507839203, + "learning_rate": 1.3741440000000001e-05, + "loss": 0.0086, + "step": 146685 + }, + { + "epoch": 0.938816, + "grad_norm": 0.09228755533695221, + "learning_rate": 1.3741226666666667e-05, + "loss": 0.0028, + "step": 146690 + }, + { + "epoch": 0.938848, + "grad_norm": 0.08387915045022964, + "learning_rate": 1.3741013333333335e-05, + "loss": 0.0039, + "step": 146695 + }, + { + "epoch": 0.93888, + "grad_norm": 0.1529557704925537, + "learning_rate": 1.37408e-05, + "loss": 0.0095, + "step": 146700 + }, + { + "epoch": 0.938912, + "grad_norm": 0.5294676423072815, + "learning_rate": 1.3740586666666668e-05, + "loss": 0.0169, + "step": 146705 + }, + { + "epoch": 0.938944, + "grad_norm": 0.023443149402737617, + "learning_rate": 1.3740373333333334e-05, + "loss": 0.0016, + "step": 146710 + }, + { + "epoch": 0.938976, + "grad_norm": 0.3184710443019867, + "learning_rate": 1.374016e-05, + "loss": 0.0047, + "step": 146715 + }, + { + "epoch": 0.939008, + "grad_norm": 4.475972652435303, + "learning_rate": 1.3739946666666667e-05, + "loss": 0.0109, + "step": 146720 + }, + { + "epoch": 0.93904, + "grad_norm": 0.03149397671222687, + "learning_rate": 1.3739733333333333e-05, + "loss": 0.0027, + "step": 146725 + }, + { + "epoch": 0.939072, + "grad_norm": 0.03531062230467796, + "learning_rate": 1.3739520000000003e-05, + "loss": 0.0096, + "step": 146730 + }, + { + "epoch": 0.939104, + "grad_norm": 0.17629893124103546, + "learning_rate": 1.3739306666666667e-05, + "loss": 0.0099, + "step": 146735 + }, + { + "epoch": 0.939136, + "grad_norm": 0.10817985981702805, + "learning_rate": 1.3739093333333336e-05, + "loss": 0.0042, + "step": 146740 + }, + { + "epoch": 0.939168, + "grad_norm": 0.23419971764087677, + "learning_rate": 1.3738880000000002e-05, + "loss": 0.0112, + "step": 146745 + }, + { + "epoch": 0.9392, + "grad_norm": 1.014061689376831, + "learning_rate": 1.3738666666666666e-05, + "loss": 0.0036, + "step": 146750 + }, + { + "epoch": 0.939232, + "grad_norm": 0.282344251871109, + "learning_rate": 1.3738453333333335e-05, + "loss": 0.0021, + "step": 146755 + }, + { + "epoch": 0.939264, + "grad_norm": 0.14422659575939178, + "learning_rate": 1.3738240000000001e-05, + "loss": 0.0021, + "step": 146760 + }, + { + "epoch": 0.939296, + "grad_norm": 0.2866388261318207, + "learning_rate": 1.3738026666666669e-05, + "loss": 0.0294, + "step": 146765 + }, + { + "epoch": 0.939328, + "grad_norm": 0.43657806515693665, + "learning_rate": 1.3737813333333335e-05, + "loss": 0.0148, + "step": 146770 + }, + { + "epoch": 0.93936, + "grad_norm": 0.503970205783844, + "learning_rate": 1.3737600000000002e-05, + "loss": 0.0024, + "step": 146775 + }, + { + "epoch": 0.939392, + "grad_norm": 0.4318282902240753, + "learning_rate": 1.3737386666666668e-05, + "loss": 0.0043, + "step": 146780 + }, + { + "epoch": 0.939424, + "grad_norm": 0.6037464737892151, + "learning_rate": 1.3737173333333334e-05, + "loss": 0.0142, + "step": 146785 + }, + { + "epoch": 0.939456, + "grad_norm": 1.786016821861267, + "learning_rate": 1.3736960000000001e-05, + "loss": 0.01, + "step": 146790 + }, + { + "epoch": 0.939488, + "grad_norm": 5.499927043914795, + "learning_rate": 1.3736746666666667e-05, + "loss": 0.0051, + "step": 146795 + }, + { + "epoch": 0.93952, + "grad_norm": 2.540895938873291, + "learning_rate": 1.3736533333333335e-05, + "loss": 0.0086, + "step": 146800 + }, + { + "epoch": 0.939552, + "grad_norm": 0.6708592176437378, + "learning_rate": 1.373632e-05, + "loss": 0.0078, + "step": 146805 + }, + { + "epoch": 0.939584, + "grad_norm": 0.19827502965927124, + "learning_rate": 1.3736106666666668e-05, + "loss": 0.0102, + "step": 146810 + }, + { + "epoch": 0.939616, + "grad_norm": 0.3921620547771454, + "learning_rate": 1.3735893333333334e-05, + "loss": 0.0049, + "step": 146815 + }, + { + "epoch": 0.939648, + "grad_norm": 0.9593501687049866, + "learning_rate": 1.373568e-05, + "loss": 0.0128, + "step": 146820 + }, + { + "epoch": 0.93968, + "grad_norm": 0.023646492511034012, + "learning_rate": 1.3735466666666667e-05, + "loss": 0.0024, + "step": 146825 + }, + { + "epoch": 0.939712, + "grad_norm": 0.018884064629673958, + "learning_rate": 1.3735253333333333e-05, + "loss": 0.0042, + "step": 146830 + }, + { + "epoch": 0.939744, + "grad_norm": 0.020853634923696518, + "learning_rate": 1.3735040000000001e-05, + "loss": 0.01, + "step": 146835 + }, + { + "epoch": 0.939776, + "grad_norm": 0.8975133895874023, + "learning_rate": 1.3734826666666667e-05, + "loss": 0.0123, + "step": 146840 + }, + { + "epoch": 0.939808, + "grad_norm": 0.25255143642425537, + "learning_rate": 1.3734613333333336e-05, + "loss": 0.0029, + "step": 146845 + }, + { + "epoch": 0.93984, + "grad_norm": 0.11919534206390381, + "learning_rate": 1.3734400000000002e-05, + "loss": 0.0039, + "step": 146850 + }, + { + "epoch": 0.939872, + "grad_norm": 5.92302942276001, + "learning_rate": 1.3734186666666666e-05, + "loss": 0.0105, + "step": 146855 + }, + { + "epoch": 0.939904, + "grad_norm": 0.10350850224494934, + "learning_rate": 1.3733973333333335e-05, + "loss": 0.003, + "step": 146860 + }, + { + "epoch": 0.939936, + "grad_norm": 0.09759417176246643, + "learning_rate": 1.3733760000000001e-05, + "loss": 0.0103, + "step": 146865 + }, + { + "epoch": 0.939968, + "grad_norm": 1.6467084884643555, + "learning_rate": 1.3733546666666669e-05, + "loss": 0.0068, + "step": 146870 + }, + { + "epoch": 0.94, + "grad_norm": 0.5308443903923035, + "learning_rate": 1.3733333333333335e-05, + "loss": 0.0029, + "step": 146875 + }, + { + "epoch": 0.940032, + "grad_norm": 0.12444513291120529, + "learning_rate": 1.3733120000000002e-05, + "loss": 0.0224, + "step": 146880 + }, + { + "epoch": 0.940064, + "grad_norm": 0.05481298640370369, + "learning_rate": 1.3732906666666668e-05, + "loss": 0.0022, + "step": 146885 + }, + { + "epoch": 0.940096, + "grad_norm": 0.6398412585258484, + "learning_rate": 1.3732693333333334e-05, + "loss": 0.0127, + "step": 146890 + }, + { + "epoch": 0.940128, + "grad_norm": 0.002513037994503975, + "learning_rate": 1.3732480000000001e-05, + "loss": 0.0031, + "step": 146895 + }, + { + "epoch": 0.94016, + "grad_norm": 0.2441917359828949, + "learning_rate": 1.3732266666666667e-05, + "loss": 0.0086, + "step": 146900 + }, + { + "epoch": 0.940192, + "grad_norm": 0.062096212059259415, + "learning_rate": 1.3732053333333335e-05, + "loss": 0.0048, + "step": 146905 + }, + { + "epoch": 0.940224, + "grad_norm": 0.38386812806129456, + "learning_rate": 1.373184e-05, + "loss": 0.009, + "step": 146910 + }, + { + "epoch": 0.940256, + "grad_norm": 0.25248363614082336, + "learning_rate": 1.3731626666666668e-05, + "loss": 0.0059, + "step": 146915 + }, + { + "epoch": 0.940288, + "grad_norm": 0.035325098782777786, + "learning_rate": 1.3731413333333334e-05, + "loss": 0.0066, + "step": 146920 + }, + { + "epoch": 0.94032, + "grad_norm": 0.626643180847168, + "learning_rate": 1.37312e-05, + "loss": 0.0069, + "step": 146925 + }, + { + "epoch": 0.940352, + "grad_norm": 1.0747238397598267, + "learning_rate": 1.3730986666666667e-05, + "loss": 0.0396, + "step": 146930 + }, + { + "epoch": 0.940384, + "grad_norm": 0.017751017585396767, + "learning_rate": 1.3730773333333333e-05, + "loss": 0.0037, + "step": 146935 + }, + { + "epoch": 0.940416, + "grad_norm": 0.14535360038280487, + "learning_rate": 1.3730560000000001e-05, + "loss": 0.0053, + "step": 146940 + }, + { + "epoch": 0.940448, + "grad_norm": 0.746268093585968, + "learning_rate": 1.3730346666666667e-05, + "loss": 0.0168, + "step": 146945 + }, + { + "epoch": 0.94048, + "grad_norm": 0.07551199942827225, + "learning_rate": 1.3730133333333336e-05, + "loss": 0.0018, + "step": 146950 + }, + { + "epoch": 0.940512, + "grad_norm": 1.9574815034866333, + "learning_rate": 1.3729920000000002e-05, + "loss": 0.0118, + "step": 146955 + }, + { + "epoch": 0.940544, + "grad_norm": 0.1195463314652443, + "learning_rate": 1.3729706666666666e-05, + "loss": 0.0083, + "step": 146960 + }, + { + "epoch": 0.940576, + "grad_norm": 0.4010641872882843, + "learning_rate": 1.3729493333333335e-05, + "loss": 0.002, + "step": 146965 + }, + { + "epoch": 0.940608, + "grad_norm": 1.1420340538024902, + "learning_rate": 1.3729280000000001e-05, + "loss": 0.0181, + "step": 146970 + }, + { + "epoch": 0.94064, + "grad_norm": 0.415208637714386, + "learning_rate": 1.3729066666666669e-05, + "loss": 0.0028, + "step": 146975 + }, + { + "epoch": 0.940672, + "grad_norm": 0.17475035786628723, + "learning_rate": 1.3728853333333335e-05, + "loss": 0.0485, + "step": 146980 + }, + { + "epoch": 0.940704, + "grad_norm": 0.7090570330619812, + "learning_rate": 1.3728640000000002e-05, + "loss": 0.0174, + "step": 146985 + }, + { + "epoch": 0.940736, + "grad_norm": 0.6374189853668213, + "learning_rate": 1.3728426666666668e-05, + "loss": 0.0041, + "step": 146990 + }, + { + "epoch": 0.940768, + "grad_norm": 0.8718357682228088, + "learning_rate": 1.3728213333333334e-05, + "loss": 0.0135, + "step": 146995 + }, + { + "epoch": 0.9408, + "grad_norm": 0.8465991616249084, + "learning_rate": 1.3728000000000001e-05, + "loss": 0.0053, + "step": 147000 + }, + { + "epoch": 0.940832, + "grad_norm": 0.41308775544166565, + "learning_rate": 1.3727786666666667e-05, + "loss": 0.0076, + "step": 147005 + }, + { + "epoch": 0.940864, + "grad_norm": 0.09260827302932739, + "learning_rate": 1.3727573333333335e-05, + "loss": 0.0034, + "step": 147010 + }, + { + "epoch": 0.940896, + "grad_norm": 1.4086357355117798, + "learning_rate": 1.372736e-05, + "loss": 0.0033, + "step": 147015 + }, + { + "epoch": 0.940928, + "grad_norm": 0.8403490781784058, + "learning_rate": 1.3727146666666668e-05, + "loss": 0.0066, + "step": 147020 + }, + { + "epoch": 0.94096, + "grad_norm": 0.09425553679466248, + "learning_rate": 1.3726933333333334e-05, + "loss": 0.0019, + "step": 147025 + }, + { + "epoch": 0.940992, + "grad_norm": 0.39999234676361084, + "learning_rate": 1.372672e-05, + "loss": 0.0066, + "step": 147030 + }, + { + "epoch": 0.941024, + "grad_norm": 0.254011332988739, + "learning_rate": 1.3726506666666667e-05, + "loss": 0.0051, + "step": 147035 + }, + { + "epoch": 0.941056, + "grad_norm": 0.10456090420484543, + "learning_rate": 1.3726293333333333e-05, + "loss": 0.0057, + "step": 147040 + }, + { + "epoch": 0.941088, + "grad_norm": 0.2612461745738983, + "learning_rate": 1.3726080000000001e-05, + "loss": 0.0043, + "step": 147045 + }, + { + "epoch": 0.94112, + "grad_norm": 0.3121528923511505, + "learning_rate": 1.3725866666666667e-05, + "loss": 0.008, + "step": 147050 + }, + { + "epoch": 0.941152, + "grad_norm": 0.21506719291210175, + "learning_rate": 1.3725653333333336e-05, + "loss": 0.0058, + "step": 147055 + }, + { + "epoch": 0.941184, + "grad_norm": 0.647132396697998, + "learning_rate": 1.372544e-05, + "loss": 0.0065, + "step": 147060 + }, + { + "epoch": 0.941216, + "grad_norm": 0.4048183858394623, + "learning_rate": 1.3725226666666666e-05, + "loss": 0.0036, + "step": 147065 + }, + { + "epoch": 0.941248, + "grad_norm": 1.2937580347061157, + "learning_rate": 1.3725013333333335e-05, + "loss": 0.0232, + "step": 147070 + }, + { + "epoch": 0.94128, + "grad_norm": 0.035657916218042374, + "learning_rate": 1.3724800000000001e-05, + "loss": 0.0011, + "step": 147075 + }, + { + "epoch": 0.941312, + "grad_norm": 0.33935898542404175, + "learning_rate": 1.3724586666666669e-05, + "loss": 0.0059, + "step": 147080 + }, + { + "epoch": 0.941344, + "grad_norm": 0.37668097019195557, + "learning_rate": 1.3724373333333335e-05, + "loss": 0.0032, + "step": 147085 + }, + { + "epoch": 0.941376, + "grad_norm": 0.2998924255371094, + "learning_rate": 1.3724160000000002e-05, + "loss": 0.0082, + "step": 147090 + }, + { + "epoch": 0.941408, + "grad_norm": 0.02304270677268505, + "learning_rate": 1.3723946666666668e-05, + "loss": 0.0126, + "step": 147095 + }, + { + "epoch": 0.94144, + "grad_norm": 0.04688132181763649, + "learning_rate": 1.3723733333333334e-05, + "loss": 0.0088, + "step": 147100 + }, + { + "epoch": 0.941472, + "grad_norm": 0.10392000526189804, + "learning_rate": 1.3723520000000001e-05, + "loss": 0.0115, + "step": 147105 + }, + { + "epoch": 0.941504, + "grad_norm": 0.015215742401778698, + "learning_rate": 1.3723306666666667e-05, + "loss": 0.0097, + "step": 147110 + }, + { + "epoch": 0.941536, + "grad_norm": 0.13167314231395721, + "learning_rate": 1.3723093333333335e-05, + "loss": 0.0067, + "step": 147115 + }, + { + "epoch": 0.941568, + "grad_norm": 0.1970333456993103, + "learning_rate": 1.372288e-05, + "loss": 0.0052, + "step": 147120 + }, + { + "epoch": 0.9416, + "grad_norm": 0.15872691571712494, + "learning_rate": 1.3722666666666668e-05, + "loss": 0.0116, + "step": 147125 + }, + { + "epoch": 0.941632, + "grad_norm": 0.594659686088562, + "learning_rate": 1.3722453333333334e-05, + "loss": 0.0036, + "step": 147130 + }, + { + "epoch": 0.941664, + "grad_norm": 0.704497754573822, + "learning_rate": 1.3722240000000002e-05, + "loss": 0.0065, + "step": 147135 + }, + { + "epoch": 0.941696, + "grad_norm": 0.08078759163618088, + "learning_rate": 1.3722026666666667e-05, + "loss": 0.0037, + "step": 147140 + }, + { + "epoch": 0.941728, + "grad_norm": 1.3796736001968384, + "learning_rate": 1.3721813333333333e-05, + "loss": 0.0607, + "step": 147145 + }, + { + "epoch": 0.94176, + "grad_norm": 0.4763336777687073, + "learning_rate": 1.3721600000000001e-05, + "loss": 0.0127, + "step": 147150 + }, + { + "epoch": 0.941792, + "grad_norm": 1.01094651222229, + "learning_rate": 1.3721386666666667e-05, + "loss": 0.0103, + "step": 147155 + }, + { + "epoch": 0.941824, + "grad_norm": 0.19299355149269104, + "learning_rate": 1.3721173333333336e-05, + "loss": 0.0066, + "step": 147160 + }, + { + "epoch": 0.941856, + "grad_norm": 0.09538620710372925, + "learning_rate": 1.372096e-05, + "loss": 0.0059, + "step": 147165 + }, + { + "epoch": 0.941888, + "grad_norm": 0.29553982615470886, + "learning_rate": 1.372074666666667e-05, + "loss": 0.0168, + "step": 147170 + }, + { + "epoch": 0.94192, + "grad_norm": 0.11265793442726135, + "learning_rate": 1.3720533333333335e-05, + "loss": 0.0088, + "step": 147175 + }, + { + "epoch": 0.941952, + "grad_norm": 0.43364858627319336, + "learning_rate": 1.3720320000000001e-05, + "loss": 0.0026, + "step": 147180 + }, + { + "epoch": 0.941984, + "grad_norm": 0.2805750370025635, + "learning_rate": 1.3720106666666669e-05, + "loss": 0.0037, + "step": 147185 + }, + { + "epoch": 0.942016, + "grad_norm": 0.015014936216175556, + "learning_rate": 1.3719893333333335e-05, + "loss": 0.0108, + "step": 147190 + }, + { + "epoch": 0.942048, + "grad_norm": 0.8039752840995789, + "learning_rate": 1.3719680000000002e-05, + "loss": 0.0124, + "step": 147195 + }, + { + "epoch": 0.94208, + "grad_norm": 0.2828432321548462, + "learning_rate": 1.3719466666666668e-05, + "loss": 0.0058, + "step": 147200 + }, + { + "epoch": 0.942112, + "grad_norm": 0.061432067304849625, + "learning_rate": 1.3719253333333336e-05, + "loss": 0.005, + "step": 147205 + }, + { + "epoch": 0.942144, + "grad_norm": 0.04561001434922218, + "learning_rate": 1.3719040000000001e-05, + "loss": 0.0103, + "step": 147210 + }, + { + "epoch": 0.942176, + "grad_norm": 0.3310038149356842, + "learning_rate": 1.3718826666666667e-05, + "loss": 0.0106, + "step": 147215 + }, + { + "epoch": 0.942208, + "grad_norm": 0.16000719368457794, + "learning_rate": 1.3718613333333335e-05, + "loss": 0.0039, + "step": 147220 + }, + { + "epoch": 0.94224, + "grad_norm": 0.1041560173034668, + "learning_rate": 1.37184e-05, + "loss": 0.0076, + "step": 147225 + }, + { + "epoch": 0.942272, + "grad_norm": 0.5632633566856384, + "learning_rate": 1.3718186666666668e-05, + "loss": 0.0188, + "step": 147230 + }, + { + "epoch": 0.942304, + "grad_norm": 0.0707162469625473, + "learning_rate": 1.3717973333333334e-05, + "loss": 0.0049, + "step": 147235 + }, + { + "epoch": 0.942336, + "grad_norm": 0.6324992179870605, + "learning_rate": 1.3717760000000002e-05, + "loss": 0.0073, + "step": 147240 + }, + { + "epoch": 0.942368, + "grad_norm": 0.29950737953186035, + "learning_rate": 1.3717546666666667e-05, + "loss": 0.007, + "step": 147245 + }, + { + "epoch": 0.9424, + "grad_norm": 0.14665530622005463, + "learning_rate": 1.3717333333333333e-05, + "loss": 0.0163, + "step": 147250 + }, + { + "epoch": 0.942432, + "grad_norm": 0.5667286515235901, + "learning_rate": 1.3717120000000001e-05, + "loss": 0.0101, + "step": 147255 + }, + { + "epoch": 0.942464, + "grad_norm": 0.9023459553718567, + "learning_rate": 1.3716906666666667e-05, + "loss": 0.0131, + "step": 147260 + }, + { + "epoch": 0.942496, + "grad_norm": 0.03321118280291557, + "learning_rate": 1.3716693333333336e-05, + "loss": 0.0029, + "step": 147265 + }, + { + "epoch": 0.942528, + "grad_norm": 0.38098612427711487, + "learning_rate": 1.371648e-05, + "loss": 0.0033, + "step": 147270 + }, + { + "epoch": 0.94256, + "grad_norm": 0.8630333542823792, + "learning_rate": 1.371626666666667e-05, + "loss": 0.0044, + "step": 147275 + }, + { + "epoch": 0.942592, + "grad_norm": 0.5980443358421326, + "learning_rate": 1.3716053333333335e-05, + "loss": 0.0028, + "step": 147280 + }, + { + "epoch": 0.942624, + "grad_norm": 0.33180421590805054, + "learning_rate": 1.371584e-05, + "loss": 0.0055, + "step": 147285 + }, + { + "epoch": 0.942656, + "grad_norm": 0.3287414610385895, + "learning_rate": 1.3715626666666669e-05, + "loss": 0.0036, + "step": 147290 + }, + { + "epoch": 0.942688, + "grad_norm": 0.38961905241012573, + "learning_rate": 1.3715413333333335e-05, + "loss": 0.0113, + "step": 147295 + }, + { + "epoch": 0.94272, + "grad_norm": 0.057946547865867615, + "learning_rate": 1.3715200000000002e-05, + "loss": 0.0027, + "step": 147300 + }, + { + "epoch": 0.942752, + "grad_norm": 0.04893405735492706, + "learning_rate": 1.3714986666666668e-05, + "loss": 0.0337, + "step": 147305 + }, + { + "epoch": 0.942784, + "grad_norm": 1.4209356307983398, + "learning_rate": 1.3714773333333336e-05, + "loss": 0.0124, + "step": 147310 + }, + { + "epoch": 0.942816, + "grad_norm": 0.07250657677650452, + "learning_rate": 1.3714560000000001e-05, + "loss": 0.0042, + "step": 147315 + }, + { + "epoch": 0.942848, + "grad_norm": 0.13730880618095398, + "learning_rate": 1.3714346666666667e-05, + "loss": 0.0056, + "step": 147320 + }, + { + "epoch": 0.94288, + "grad_norm": 0.03325921297073364, + "learning_rate": 1.3714133333333335e-05, + "loss": 0.0034, + "step": 147325 + }, + { + "epoch": 0.942912, + "grad_norm": 0.05684605985879898, + "learning_rate": 1.371392e-05, + "loss": 0.0071, + "step": 147330 + }, + { + "epoch": 0.942944, + "grad_norm": 0.3172144293785095, + "learning_rate": 1.3713706666666668e-05, + "loss": 0.004, + "step": 147335 + }, + { + "epoch": 0.942976, + "grad_norm": 0.7275435924530029, + "learning_rate": 1.3713493333333334e-05, + "loss": 0.0087, + "step": 147340 + }, + { + "epoch": 0.943008, + "grad_norm": 0.2980557978153229, + "learning_rate": 1.3713280000000002e-05, + "loss": 0.0028, + "step": 147345 + }, + { + "epoch": 0.94304, + "grad_norm": 0.7503669261932373, + "learning_rate": 1.3713066666666667e-05, + "loss": 0.014, + "step": 147350 + }, + { + "epoch": 0.943072, + "grad_norm": 3.064920425415039, + "learning_rate": 1.3712853333333333e-05, + "loss": 0.0224, + "step": 147355 + }, + { + "epoch": 0.943104, + "grad_norm": 0.07590121775865555, + "learning_rate": 1.3712640000000001e-05, + "loss": 0.0081, + "step": 147360 + }, + { + "epoch": 0.943136, + "grad_norm": 0.38298776745796204, + "learning_rate": 1.3712426666666667e-05, + "loss": 0.0055, + "step": 147365 + }, + { + "epoch": 0.943168, + "grad_norm": 0.7303077578544617, + "learning_rate": 1.3712213333333334e-05, + "loss": 0.012, + "step": 147370 + }, + { + "epoch": 0.9432, + "grad_norm": 0.3090656101703644, + "learning_rate": 1.3712e-05, + "loss": 0.0021, + "step": 147375 + }, + { + "epoch": 0.943232, + "grad_norm": 0.44821977615356445, + "learning_rate": 1.371178666666667e-05, + "loss": 0.0045, + "step": 147380 + }, + { + "epoch": 0.943264, + "grad_norm": 0.009993239305913448, + "learning_rate": 1.3711573333333335e-05, + "loss": 0.0026, + "step": 147385 + }, + { + "epoch": 0.943296, + "grad_norm": 0.501250684261322, + "learning_rate": 1.371136e-05, + "loss": 0.0129, + "step": 147390 + }, + { + "epoch": 0.943328, + "grad_norm": 0.3155571520328522, + "learning_rate": 1.3711146666666669e-05, + "loss": 0.003, + "step": 147395 + }, + { + "epoch": 0.94336, + "grad_norm": 0.3445109724998474, + "learning_rate": 1.3710933333333335e-05, + "loss": 0.011, + "step": 147400 + }, + { + "epoch": 0.943392, + "grad_norm": 0.07602891325950623, + "learning_rate": 1.3710720000000002e-05, + "loss": 0.0026, + "step": 147405 + }, + { + "epoch": 0.943424, + "grad_norm": 0.8917493224143982, + "learning_rate": 1.3710506666666668e-05, + "loss": 0.0126, + "step": 147410 + }, + { + "epoch": 0.943456, + "grad_norm": 0.08223900198936462, + "learning_rate": 1.3710293333333336e-05, + "loss": 0.0061, + "step": 147415 + }, + { + "epoch": 0.943488, + "grad_norm": 0.3740048110485077, + "learning_rate": 1.3710080000000001e-05, + "loss": 0.0043, + "step": 147420 + }, + { + "epoch": 0.94352, + "grad_norm": 0.8896008133888245, + "learning_rate": 1.3709866666666667e-05, + "loss": 0.0126, + "step": 147425 + }, + { + "epoch": 0.943552, + "grad_norm": 0.30626124143600464, + "learning_rate": 1.3709653333333335e-05, + "loss": 0.0057, + "step": 147430 + }, + { + "epoch": 0.943584, + "grad_norm": 0.6377588510513306, + "learning_rate": 1.370944e-05, + "loss": 0.0113, + "step": 147435 + }, + { + "epoch": 0.943616, + "grad_norm": 0.09733203798532486, + "learning_rate": 1.3709226666666668e-05, + "loss": 0.0063, + "step": 147440 + }, + { + "epoch": 0.943648, + "grad_norm": 0.20904698967933655, + "learning_rate": 1.3709013333333334e-05, + "loss": 0.0012, + "step": 147445 + }, + { + "epoch": 0.94368, + "grad_norm": 0.759777843952179, + "learning_rate": 1.3708800000000002e-05, + "loss": 0.0059, + "step": 147450 + }, + { + "epoch": 0.943712, + "grad_norm": 0.46000951528549194, + "learning_rate": 1.3708586666666667e-05, + "loss": 0.0075, + "step": 147455 + }, + { + "epoch": 0.943744, + "grad_norm": 0.14970213174819946, + "learning_rate": 1.3708373333333333e-05, + "loss": 0.0267, + "step": 147460 + }, + { + "epoch": 0.943776, + "grad_norm": 0.3137851357460022, + "learning_rate": 1.3708160000000001e-05, + "loss": 0.0067, + "step": 147465 + }, + { + "epoch": 0.943808, + "grad_norm": 0.39528024196624756, + "learning_rate": 1.3707946666666667e-05, + "loss": 0.0097, + "step": 147470 + }, + { + "epoch": 0.94384, + "grad_norm": 0.2670535743236542, + "learning_rate": 1.3707733333333334e-05, + "loss": 0.0033, + "step": 147475 + }, + { + "epoch": 0.943872, + "grad_norm": 0.35180655121803284, + "learning_rate": 1.370752e-05, + "loss": 0.0025, + "step": 147480 + }, + { + "epoch": 0.943904, + "grad_norm": 0.24816010892391205, + "learning_rate": 1.370730666666667e-05, + "loss": 0.0039, + "step": 147485 + }, + { + "epoch": 0.943936, + "grad_norm": 1.1536775827407837, + "learning_rate": 1.3707093333333335e-05, + "loss": 0.0165, + "step": 147490 + }, + { + "epoch": 0.943968, + "grad_norm": 0.3559096157550812, + "learning_rate": 1.370688e-05, + "loss": 0.0025, + "step": 147495 + }, + { + "epoch": 0.944, + "grad_norm": 0.5840321183204651, + "learning_rate": 1.3706666666666669e-05, + "loss": 0.0087, + "step": 147500 + }, + { + "epoch": 0.944032, + "grad_norm": 0.950691819190979, + "learning_rate": 1.3706453333333335e-05, + "loss": 0.007, + "step": 147505 + }, + { + "epoch": 0.944064, + "grad_norm": 0.707492470741272, + "learning_rate": 1.3706240000000002e-05, + "loss": 0.0239, + "step": 147510 + }, + { + "epoch": 0.944096, + "grad_norm": 0.48815324902534485, + "learning_rate": 1.3706026666666668e-05, + "loss": 0.0081, + "step": 147515 + }, + { + "epoch": 0.944128, + "grad_norm": 1.3005082607269287, + "learning_rate": 1.3705813333333336e-05, + "loss": 0.0042, + "step": 147520 + }, + { + "epoch": 0.94416, + "grad_norm": 0.13053126633167267, + "learning_rate": 1.3705600000000001e-05, + "loss": 0.0029, + "step": 147525 + }, + { + "epoch": 0.944192, + "grad_norm": 2.393881320953369, + "learning_rate": 1.3705386666666667e-05, + "loss": 0.0101, + "step": 147530 + }, + { + "epoch": 0.944224, + "grad_norm": 0.2982635498046875, + "learning_rate": 1.3705173333333335e-05, + "loss": 0.007, + "step": 147535 + }, + { + "epoch": 0.944256, + "grad_norm": 0.04885389283299446, + "learning_rate": 1.370496e-05, + "loss": 0.0027, + "step": 147540 + }, + { + "epoch": 0.944288, + "grad_norm": 0.17416302859783173, + "learning_rate": 1.3704746666666668e-05, + "loss": 0.003, + "step": 147545 + }, + { + "epoch": 0.94432, + "grad_norm": 0.22125780582427979, + "learning_rate": 1.3704533333333334e-05, + "loss": 0.0043, + "step": 147550 + }, + { + "epoch": 0.944352, + "grad_norm": 0.03326181322336197, + "learning_rate": 1.3704320000000002e-05, + "loss": 0.004, + "step": 147555 + }, + { + "epoch": 0.944384, + "grad_norm": 0.2620260715484619, + "learning_rate": 1.3704106666666667e-05, + "loss": 0.0035, + "step": 147560 + }, + { + "epoch": 0.944416, + "grad_norm": 0.5930642485618591, + "learning_rate": 1.3703893333333333e-05, + "loss": 0.0032, + "step": 147565 + }, + { + "epoch": 0.944448, + "grad_norm": 0.02232838235795498, + "learning_rate": 1.3703680000000001e-05, + "loss": 0.0064, + "step": 147570 + }, + { + "epoch": 0.94448, + "grad_norm": 0.08163189888000488, + "learning_rate": 1.3703466666666667e-05, + "loss": 0.0099, + "step": 147575 + }, + { + "epoch": 0.944512, + "grad_norm": 0.4777064919471741, + "learning_rate": 1.3703253333333334e-05, + "loss": 0.0026, + "step": 147580 + }, + { + "epoch": 0.944544, + "grad_norm": 0.1842603087425232, + "learning_rate": 1.370304e-05, + "loss": 0.0087, + "step": 147585 + }, + { + "epoch": 0.944576, + "grad_norm": 0.35700225830078125, + "learning_rate": 1.370282666666667e-05, + "loss": 0.0086, + "step": 147590 + }, + { + "epoch": 0.944608, + "grad_norm": 0.028184572234749794, + "learning_rate": 1.3702613333333334e-05, + "loss": 0.0062, + "step": 147595 + }, + { + "epoch": 0.94464, + "grad_norm": 1.258983850479126, + "learning_rate": 1.37024e-05, + "loss": 0.0074, + "step": 147600 + }, + { + "epoch": 0.944672, + "grad_norm": 0.9917111396789551, + "learning_rate": 1.3702186666666669e-05, + "loss": 0.0076, + "step": 147605 + }, + { + "epoch": 0.944704, + "grad_norm": 0.0716247484087944, + "learning_rate": 1.3701973333333335e-05, + "loss": 0.0085, + "step": 147610 + }, + { + "epoch": 0.944736, + "grad_norm": 0.7621020078659058, + "learning_rate": 1.3701760000000002e-05, + "loss": 0.0201, + "step": 147615 + }, + { + "epoch": 0.944768, + "grad_norm": 0.1219603642821312, + "learning_rate": 1.3701546666666668e-05, + "loss": 0.005, + "step": 147620 + }, + { + "epoch": 0.9448, + "grad_norm": 1.0857945680618286, + "learning_rate": 1.3701333333333336e-05, + "loss": 0.0162, + "step": 147625 + }, + { + "epoch": 0.944832, + "grad_norm": 0.7960283756256104, + "learning_rate": 1.3701120000000001e-05, + "loss": 0.0073, + "step": 147630 + }, + { + "epoch": 0.944864, + "grad_norm": 0.2698926031589508, + "learning_rate": 1.3700906666666667e-05, + "loss": 0.0117, + "step": 147635 + }, + { + "epoch": 0.944896, + "grad_norm": 0.008831159211695194, + "learning_rate": 1.3700693333333335e-05, + "loss": 0.0026, + "step": 147640 + }, + { + "epoch": 0.944928, + "grad_norm": 0.38579824566841125, + "learning_rate": 1.370048e-05, + "loss": 0.0053, + "step": 147645 + }, + { + "epoch": 0.94496, + "grad_norm": 0.6511801481246948, + "learning_rate": 1.3700266666666668e-05, + "loss": 0.0056, + "step": 147650 + }, + { + "epoch": 0.944992, + "grad_norm": 0.10298264771699905, + "learning_rate": 1.3700053333333334e-05, + "loss": 0.0014, + "step": 147655 + }, + { + "epoch": 0.945024, + "grad_norm": 1.6393848657608032, + "learning_rate": 1.3699840000000002e-05, + "loss": 0.0111, + "step": 147660 + }, + { + "epoch": 0.945056, + "grad_norm": 0.08270502090454102, + "learning_rate": 1.3699626666666667e-05, + "loss": 0.0013, + "step": 147665 + }, + { + "epoch": 0.945088, + "grad_norm": 1.119279146194458, + "learning_rate": 1.3699413333333333e-05, + "loss": 0.009, + "step": 147670 + }, + { + "epoch": 0.94512, + "grad_norm": 0.16881483793258667, + "learning_rate": 1.3699200000000001e-05, + "loss": 0.006, + "step": 147675 + }, + { + "epoch": 0.945152, + "grad_norm": 0.39147794246673584, + "learning_rate": 1.3698986666666667e-05, + "loss": 0.0048, + "step": 147680 + }, + { + "epoch": 0.945184, + "grad_norm": 0.4870927035808563, + "learning_rate": 1.3698773333333334e-05, + "loss": 0.0116, + "step": 147685 + }, + { + "epoch": 0.945216, + "grad_norm": 0.053744763135910034, + "learning_rate": 1.369856e-05, + "loss": 0.0092, + "step": 147690 + }, + { + "epoch": 0.945248, + "grad_norm": 0.18978442251682281, + "learning_rate": 1.369834666666667e-05, + "loss": 0.0045, + "step": 147695 + }, + { + "epoch": 0.94528, + "grad_norm": 0.4925791323184967, + "learning_rate": 1.3698133333333334e-05, + "loss": 0.0027, + "step": 147700 + }, + { + "epoch": 0.945312, + "grad_norm": 0.03444608300924301, + "learning_rate": 1.369792e-05, + "loss": 0.0032, + "step": 147705 + }, + { + "epoch": 0.945344, + "grad_norm": 0.6978228092193604, + "learning_rate": 1.3697706666666669e-05, + "loss": 0.0079, + "step": 147710 + }, + { + "epoch": 0.945376, + "grad_norm": 0.615831732749939, + "learning_rate": 1.3697493333333335e-05, + "loss": 0.0113, + "step": 147715 + }, + { + "epoch": 0.945408, + "grad_norm": 0.03798845782876015, + "learning_rate": 1.3697280000000002e-05, + "loss": 0.0017, + "step": 147720 + }, + { + "epoch": 0.94544, + "grad_norm": 0.18703562021255493, + "learning_rate": 1.3697066666666668e-05, + "loss": 0.0044, + "step": 147725 + }, + { + "epoch": 0.945472, + "grad_norm": 0.5840498208999634, + "learning_rate": 1.3696853333333336e-05, + "loss": 0.0037, + "step": 147730 + }, + { + "epoch": 0.945504, + "grad_norm": 0.3836285173892975, + "learning_rate": 1.3696640000000001e-05, + "loss": 0.0145, + "step": 147735 + }, + { + "epoch": 0.945536, + "grad_norm": 0.3554973602294922, + "learning_rate": 1.3696426666666667e-05, + "loss": 0.0029, + "step": 147740 + }, + { + "epoch": 0.945568, + "grad_norm": 0.11826121807098389, + "learning_rate": 1.3696213333333335e-05, + "loss": 0.0088, + "step": 147745 + }, + { + "epoch": 0.9456, + "grad_norm": 0.3911568522453308, + "learning_rate": 1.3696e-05, + "loss": 0.0057, + "step": 147750 + }, + { + "epoch": 0.945632, + "grad_norm": 1.1816868782043457, + "learning_rate": 1.3695786666666668e-05, + "loss": 0.0058, + "step": 147755 + }, + { + "epoch": 0.945664, + "grad_norm": 0.4942694306373596, + "learning_rate": 1.3695573333333334e-05, + "loss": 0.0056, + "step": 147760 + }, + { + "epoch": 0.945696, + "grad_norm": 0.3671075403690338, + "learning_rate": 1.3695360000000002e-05, + "loss": 0.0192, + "step": 147765 + }, + { + "epoch": 0.945728, + "grad_norm": 0.5912942290306091, + "learning_rate": 1.3695146666666667e-05, + "loss": 0.017, + "step": 147770 + }, + { + "epoch": 0.94576, + "grad_norm": 1.115645408630371, + "learning_rate": 1.3694933333333333e-05, + "loss": 0.0405, + "step": 147775 + }, + { + "epoch": 0.945792, + "grad_norm": 0.023670798167586327, + "learning_rate": 1.3694720000000001e-05, + "loss": 0.0137, + "step": 147780 + }, + { + "epoch": 0.945824, + "grad_norm": 0.07064305245876312, + "learning_rate": 1.3694506666666667e-05, + "loss": 0.0043, + "step": 147785 + }, + { + "epoch": 0.945856, + "grad_norm": 0.16636259853839874, + "learning_rate": 1.3694293333333334e-05, + "loss": 0.0061, + "step": 147790 + }, + { + "epoch": 0.945888, + "grad_norm": 0.12743701040744781, + "learning_rate": 1.369408e-05, + "loss": 0.008, + "step": 147795 + }, + { + "epoch": 0.94592, + "grad_norm": 0.8926894664764404, + "learning_rate": 1.369386666666667e-05, + "loss": 0.0123, + "step": 147800 + }, + { + "epoch": 0.945952, + "grad_norm": 0.5666000843048096, + "learning_rate": 1.3693653333333334e-05, + "loss": 0.0022, + "step": 147805 + }, + { + "epoch": 0.945984, + "grad_norm": 0.02489209733903408, + "learning_rate": 1.369344e-05, + "loss": 0.0029, + "step": 147810 + }, + { + "epoch": 0.946016, + "grad_norm": 0.2638261318206787, + "learning_rate": 1.3693226666666669e-05, + "loss": 0.006, + "step": 147815 + }, + { + "epoch": 0.946048, + "grad_norm": 0.4761596918106079, + "learning_rate": 1.3693013333333333e-05, + "loss": 0.006, + "step": 147820 + }, + { + "epoch": 0.94608, + "grad_norm": 0.01819939725100994, + "learning_rate": 1.3692800000000002e-05, + "loss": 0.0016, + "step": 147825 + }, + { + "epoch": 0.946112, + "grad_norm": 0.011472474783658981, + "learning_rate": 1.3692586666666668e-05, + "loss": 0.0214, + "step": 147830 + }, + { + "epoch": 0.946144, + "grad_norm": 0.4799531102180481, + "learning_rate": 1.3692373333333336e-05, + "loss": 0.007, + "step": 147835 + }, + { + "epoch": 0.946176, + "grad_norm": 0.033458564430475235, + "learning_rate": 1.3692160000000001e-05, + "loss": 0.0032, + "step": 147840 + }, + { + "epoch": 0.946208, + "grad_norm": 0.12321928143501282, + "learning_rate": 1.3691946666666667e-05, + "loss": 0.005, + "step": 147845 + }, + { + "epoch": 0.94624, + "grad_norm": 0.10117422044277191, + "learning_rate": 1.3691733333333335e-05, + "loss": 0.0068, + "step": 147850 + }, + { + "epoch": 0.946272, + "grad_norm": 0.6500709652900696, + "learning_rate": 1.369152e-05, + "loss": 0.0137, + "step": 147855 + }, + { + "epoch": 0.946304, + "grad_norm": 0.12977194786071777, + "learning_rate": 1.3691306666666668e-05, + "loss": 0.0048, + "step": 147860 + }, + { + "epoch": 0.946336, + "grad_norm": 0.008557269349694252, + "learning_rate": 1.3691093333333334e-05, + "loss": 0.0178, + "step": 147865 + }, + { + "epoch": 0.946368, + "grad_norm": 0.9364690184593201, + "learning_rate": 1.3690880000000002e-05, + "loss": 0.0068, + "step": 147870 + }, + { + "epoch": 0.9464, + "grad_norm": 0.6220208406448364, + "learning_rate": 1.3690666666666667e-05, + "loss": 0.0049, + "step": 147875 + }, + { + "epoch": 0.946432, + "grad_norm": 0.15373583137989044, + "learning_rate": 1.3690453333333333e-05, + "loss": 0.0055, + "step": 147880 + }, + { + "epoch": 0.946464, + "grad_norm": 8.547758102416992, + "learning_rate": 1.3690240000000001e-05, + "loss": 0.0123, + "step": 147885 + }, + { + "epoch": 0.946496, + "grad_norm": 0.9132785797119141, + "learning_rate": 1.3690026666666667e-05, + "loss": 0.0081, + "step": 147890 + }, + { + "epoch": 0.946528, + "grad_norm": 0.06165759265422821, + "learning_rate": 1.3689813333333334e-05, + "loss": 0.0058, + "step": 147895 + }, + { + "epoch": 0.94656, + "grad_norm": 0.15451973676681519, + "learning_rate": 1.36896e-05, + "loss": 0.0023, + "step": 147900 + }, + { + "epoch": 0.946592, + "grad_norm": 0.3093859553337097, + "learning_rate": 1.368938666666667e-05, + "loss": 0.0066, + "step": 147905 + }, + { + "epoch": 0.946624, + "grad_norm": 0.17375251650810242, + "learning_rate": 1.3689173333333334e-05, + "loss": 0.0031, + "step": 147910 + }, + { + "epoch": 0.946656, + "grad_norm": 0.1020045056939125, + "learning_rate": 1.368896e-05, + "loss": 0.001, + "step": 147915 + }, + { + "epoch": 0.946688, + "grad_norm": 0.9008814096450806, + "learning_rate": 1.3688746666666669e-05, + "loss": 0.0078, + "step": 147920 + }, + { + "epoch": 0.94672, + "grad_norm": 0.6598505973815918, + "learning_rate": 1.3688533333333333e-05, + "loss": 0.0044, + "step": 147925 + }, + { + "epoch": 0.946752, + "grad_norm": 0.029102053493261337, + "learning_rate": 1.3688320000000002e-05, + "loss": 0.0092, + "step": 147930 + }, + { + "epoch": 0.946784, + "grad_norm": 0.7154991030693054, + "learning_rate": 1.3688106666666668e-05, + "loss": 0.0119, + "step": 147935 + }, + { + "epoch": 0.946816, + "grad_norm": 0.4193727970123291, + "learning_rate": 1.3687893333333336e-05, + "loss": 0.0089, + "step": 147940 + }, + { + "epoch": 0.946848, + "grad_norm": 0.2884700894355774, + "learning_rate": 1.3687680000000001e-05, + "loss": 0.0053, + "step": 147945 + }, + { + "epoch": 0.94688, + "grad_norm": 1.3670480251312256, + "learning_rate": 1.3687466666666667e-05, + "loss": 0.0139, + "step": 147950 + }, + { + "epoch": 0.946912, + "grad_norm": 0.0735102966427803, + "learning_rate": 1.3687253333333335e-05, + "loss": 0.0063, + "step": 147955 + }, + { + "epoch": 0.946944, + "grad_norm": 0.38018399477005005, + "learning_rate": 1.368704e-05, + "loss": 0.0102, + "step": 147960 + }, + { + "epoch": 0.946976, + "grad_norm": 0.46263858675956726, + "learning_rate": 1.3686826666666668e-05, + "loss": 0.0032, + "step": 147965 + }, + { + "epoch": 0.947008, + "grad_norm": 0.11577311903238297, + "learning_rate": 1.3686613333333334e-05, + "loss": 0.0075, + "step": 147970 + }, + { + "epoch": 0.94704, + "grad_norm": 1.018187403678894, + "learning_rate": 1.3686400000000002e-05, + "loss": 0.0066, + "step": 147975 + }, + { + "epoch": 0.947072, + "grad_norm": 0.4144391119480133, + "learning_rate": 1.3686186666666668e-05, + "loss": 0.0117, + "step": 147980 + }, + { + "epoch": 0.947104, + "grad_norm": 0.2665424346923828, + "learning_rate": 1.3685973333333335e-05, + "loss": 0.0232, + "step": 147985 + }, + { + "epoch": 0.947136, + "grad_norm": 0.8907349705696106, + "learning_rate": 1.3685760000000001e-05, + "loss": 0.0034, + "step": 147990 + }, + { + "epoch": 0.947168, + "grad_norm": 0.03321807458996773, + "learning_rate": 1.3685546666666667e-05, + "loss": 0.0051, + "step": 147995 + }, + { + "epoch": 0.9472, + "grad_norm": 0.046879254281520844, + "learning_rate": 1.3685333333333334e-05, + "loss": 0.0082, + "step": 148000 + }, + { + "epoch": 0.947232, + "grad_norm": 0.1864834725856781, + "learning_rate": 1.368512e-05, + "loss": 0.0023, + "step": 148005 + }, + { + "epoch": 0.947264, + "grad_norm": 0.012771708890795708, + "learning_rate": 1.3684906666666668e-05, + "loss": 0.0051, + "step": 148010 + }, + { + "epoch": 0.947296, + "grad_norm": 0.5722106099128723, + "learning_rate": 1.3684693333333334e-05, + "loss": 0.007, + "step": 148015 + }, + { + "epoch": 0.947328, + "grad_norm": 0.006450159475207329, + "learning_rate": 1.3684480000000003e-05, + "loss": 0.0116, + "step": 148020 + }, + { + "epoch": 0.94736, + "grad_norm": 0.004359795246273279, + "learning_rate": 1.3684266666666669e-05, + "loss": 0.0052, + "step": 148025 + }, + { + "epoch": 0.947392, + "grad_norm": 0.06756310164928436, + "learning_rate": 1.3684053333333333e-05, + "loss": 0.0146, + "step": 148030 + }, + { + "epoch": 0.947424, + "grad_norm": 0.33635103702545166, + "learning_rate": 1.3683840000000002e-05, + "loss": 0.003, + "step": 148035 + }, + { + "epoch": 0.947456, + "grad_norm": 0.3743119537830353, + "learning_rate": 1.3683626666666668e-05, + "loss": 0.0088, + "step": 148040 + }, + { + "epoch": 0.947488, + "grad_norm": 0.6344026327133179, + "learning_rate": 1.3683413333333336e-05, + "loss": 0.0229, + "step": 148045 + }, + { + "epoch": 0.94752, + "grad_norm": 0.20834539830684662, + "learning_rate": 1.3683200000000001e-05, + "loss": 0.0094, + "step": 148050 + }, + { + "epoch": 0.947552, + "grad_norm": 0.06388421356678009, + "learning_rate": 1.3682986666666669e-05, + "loss": 0.0143, + "step": 148055 + }, + { + "epoch": 0.947584, + "grad_norm": 0.6965047121047974, + "learning_rate": 1.3682773333333335e-05, + "loss": 0.0061, + "step": 148060 + }, + { + "epoch": 0.947616, + "grad_norm": 0.6490389704704285, + "learning_rate": 1.368256e-05, + "loss": 0.0214, + "step": 148065 + }, + { + "epoch": 0.947648, + "grad_norm": 0.8513062000274658, + "learning_rate": 1.3682346666666668e-05, + "loss": 0.0083, + "step": 148070 + }, + { + "epoch": 0.94768, + "grad_norm": 0.06166630983352661, + "learning_rate": 1.3682133333333334e-05, + "loss": 0.0027, + "step": 148075 + }, + { + "epoch": 0.947712, + "grad_norm": 0.34085357189178467, + "learning_rate": 1.3681920000000002e-05, + "loss": 0.0063, + "step": 148080 + }, + { + "epoch": 0.947744, + "grad_norm": 0.3404221534729004, + "learning_rate": 1.3681706666666668e-05, + "loss": 0.0235, + "step": 148085 + }, + { + "epoch": 0.947776, + "grad_norm": 0.8514117002487183, + "learning_rate": 1.3681493333333335e-05, + "loss": 0.008, + "step": 148090 + }, + { + "epoch": 0.947808, + "grad_norm": 0.07183283567428589, + "learning_rate": 1.3681280000000001e-05, + "loss": 0.0099, + "step": 148095 + }, + { + "epoch": 0.94784, + "grad_norm": 0.00744250975549221, + "learning_rate": 1.3681066666666667e-05, + "loss": 0.0026, + "step": 148100 + }, + { + "epoch": 0.947872, + "grad_norm": 2.587555170059204, + "learning_rate": 1.3680853333333334e-05, + "loss": 0.0079, + "step": 148105 + }, + { + "epoch": 0.947904, + "grad_norm": 0.6046152710914612, + "learning_rate": 1.368064e-05, + "loss": 0.0259, + "step": 148110 + }, + { + "epoch": 0.947936, + "grad_norm": 0.08912087976932526, + "learning_rate": 1.3680426666666668e-05, + "loss": 0.0077, + "step": 148115 + }, + { + "epoch": 0.947968, + "grad_norm": 0.6595137119293213, + "learning_rate": 1.3680213333333334e-05, + "loss": 0.0071, + "step": 148120 + }, + { + "epoch": 0.948, + "grad_norm": 0.4278603196144104, + "learning_rate": 1.3680000000000003e-05, + "loss": 0.0108, + "step": 148125 + }, + { + "epoch": 0.948032, + "grad_norm": 0.12809844315052032, + "learning_rate": 1.3679786666666669e-05, + "loss": 0.0111, + "step": 148130 + }, + { + "epoch": 0.948064, + "grad_norm": 0.13931865990161896, + "learning_rate": 1.3679573333333333e-05, + "loss": 0.0065, + "step": 148135 + }, + { + "epoch": 0.948096, + "grad_norm": 0.6163179278373718, + "learning_rate": 1.3679360000000002e-05, + "loss": 0.0131, + "step": 148140 + }, + { + "epoch": 0.948128, + "grad_norm": 0.6273699402809143, + "learning_rate": 1.3679146666666668e-05, + "loss": 0.0056, + "step": 148145 + }, + { + "epoch": 0.94816, + "grad_norm": 0.1944177895784378, + "learning_rate": 1.3678933333333336e-05, + "loss": 0.0179, + "step": 148150 + }, + { + "epoch": 0.948192, + "grad_norm": 0.8668584823608398, + "learning_rate": 1.3678720000000001e-05, + "loss": 0.0057, + "step": 148155 + }, + { + "epoch": 0.948224, + "grad_norm": 0.08172531425952911, + "learning_rate": 1.3678506666666669e-05, + "loss": 0.0098, + "step": 148160 + }, + { + "epoch": 0.948256, + "grad_norm": 0.09839818626642227, + "learning_rate": 1.3678293333333335e-05, + "loss": 0.003, + "step": 148165 + }, + { + "epoch": 0.948288, + "grad_norm": 0.17030715942382812, + "learning_rate": 1.367808e-05, + "loss": 0.0017, + "step": 148170 + }, + { + "epoch": 0.94832, + "grad_norm": 1.0804294347763062, + "learning_rate": 1.3677866666666668e-05, + "loss": 0.0053, + "step": 148175 + }, + { + "epoch": 0.948352, + "grad_norm": 0.22571754455566406, + "learning_rate": 1.3677653333333334e-05, + "loss": 0.0164, + "step": 148180 + }, + { + "epoch": 0.948384, + "grad_norm": 0.34109678864479065, + "learning_rate": 1.3677440000000002e-05, + "loss": 0.0224, + "step": 148185 + }, + { + "epoch": 0.948416, + "grad_norm": 0.7932035326957703, + "learning_rate": 1.3677226666666668e-05, + "loss": 0.0087, + "step": 148190 + }, + { + "epoch": 0.948448, + "grad_norm": 1.01497220993042, + "learning_rate": 1.3677013333333335e-05, + "loss": 0.0932, + "step": 148195 + }, + { + "epoch": 0.94848, + "grad_norm": 0.05281199887394905, + "learning_rate": 1.3676800000000001e-05, + "loss": 0.0063, + "step": 148200 + }, + { + "epoch": 0.948512, + "grad_norm": 0.39958012104034424, + "learning_rate": 1.3676586666666667e-05, + "loss": 0.0033, + "step": 148205 + }, + { + "epoch": 0.948544, + "grad_norm": 0.27991050481796265, + "learning_rate": 1.3676373333333334e-05, + "loss": 0.0059, + "step": 148210 + }, + { + "epoch": 0.948576, + "grad_norm": 0.2106321156024933, + "learning_rate": 1.367616e-05, + "loss": 0.0048, + "step": 148215 + }, + { + "epoch": 0.948608, + "grad_norm": 0.9769648909568787, + "learning_rate": 1.3675946666666668e-05, + "loss": 0.0128, + "step": 148220 + }, + { + "epoch": 0.94864, + "grad_norm": 0.10313477367162704, + "learning_rate": 1.3675733333333334e-05, + "loss": 0.0019, + "step": 148225 + }, + { + "epoch": 0.948672, + "grad_norm": 0.07352006435394287, + "learning_rate": 1.3675520000000003e-05, + "loss": 0.0067, + "step": 148230 + }, + { + "epoch": 0.948704, + "grad_norm": 0.04615919664502144, + "learning_rate": 1.3675306666666667e-05, + "loss": 0.0038, + "step": 148235 + }, + { + "epoch": 0.948736, + "grad_norm": 0.23232492804527283, + "learning_rate": 1.3675093333333333e-05, + "loss": 0.0026, + "step": 148240 + }, + { + "epoch": 0.948768, + "grad_norm": 0.464369535446167, + "learning_rate": 1.3674880000000002e-05, + "loss": 0.0029, + "step": 148245 + }, + { + "epoch": 0.9488, + "grad_norm": 0.8064699769020081, + "learning_rate": 1.3674666666666668e-05, + "loss": 0.0054, + "step": 148250 + }, + { + "epoch": 0.948832, + "grad_norm": 0.09376823902130127, + "learning_rate": 1.3674453333333336e-05, + "loss": 0.0112, + "step": 148255 + }, + { + "epoch": 0.948864, + "grad_norm": 0.143598735332489, + "learning_rate": 1.3674240000000001e-05, + "loss": 0.0146, + "step": 148260 + }, + { + "epoch": 0.948896, + "grad_norm": 0.5345342755317688, + "learning_rate": 1.3674026666666669e-05, + "loss": 0.0036, + "step": 148265 + }, + { + "epoch": 0.948928, + "grad_norm": 0.7826845645904541, + "learning_rate": 1.3673813333333335e-05, + "loss": 0.0036, + "step": 148270 + }, + { + "epoch": 0.94896, + "grad_norm": 4.048582553863525, + "learning_rate": 1.36736e-05, + "loss": 0.0103, + "step": 148275 + }, + { + "epoch": 0.948992, + "grad_norm": 0.1837189942598343, + "learning_rate": 1.3673386666666668e-05, + "loss": 0.0057, + "step": 148280 + }, + { + "epoch": 0.949024, + "grad_norm": 0.0549270398914814, + "learning_rate": 1.3673173333333334e-05, + "loss": 0.007, + "step": 148285 + }, + { + "epoch": 0.949056, + "grad_norm": 0.09208900481462479, + "learning_rate": 1.3672960000000002e-05, + "loss": 0.0075, + "step": 148290 + }, + { + "epoch": 0.949088, + "grad_norm": 0.03960235044360161, + "learning_rate": 1.3672746666666668e-05, + "loss": 0.0041, + "step": 148295 + }, + { + "epoch": 0.94912, + "grad_norm": 0.953925609588623, + "learning_rate": 1.3672533333333335e-05, + "loss": 0.0083, + "step": 148300 + }, + { + "epoch": 0.949152, + "grad_norm": 0.22250038385391235, + "learning_rate": 1.3672320000000001e-05, + "loss": 0.0204, + "step": 148305 + }, + { + "epoch": 0.949184, + "grad_norm": 0.003969697747379541, + "learning_rate": 1.3672106666666667e-05, + "loss": 0.0018, + "step": 148310 + }, + { + "epoch": 0.949216, + "grad_norm": 8.132885932922363, + "learning_rate": 1.3671893333333334e-05, + "loss": 0.0074, + "step": 148315 + }, + { + "epoch": 0.949248, + "grad_norm": 0.0071380529552698135, + "learning_rate": 1.367168e-05, + "loss": 0.0107, + "step": 148320 + }, + { + "epoch": 0.94928, + "grad_norm": 0.6597444415092468, + "learning_rate": 1.3671466666666668e-05, + "loss": 0.0107, + "step": 148325 + }, + { + "epoch": 0.949312, + "grad_norm": 0.3595673143863678, + "learning_rate": 1.3671253333333334e-05, + "loss": 0.0114, + "step": 148330 + }, + { + "epoch": 0.949344, + "grad_norm": 0.09943880140781403, + "learning_rate": 1.3671040000000003e-05, + "loss": 0.0039, + "step": 148335 + }, + { + "epoch": 0.949376, + "grad_norm": 0.279419481754303, + "learning_rate": 1.3670826666666667e-05, + "loss": 0.0023, + "step": 148340 + }, + { + "epoch": 0.949408, + "grad_norm": 0.1234135702252388, + "learning_rate": 1.3670613333333333e-05, + "loss": 0.0104, + "step": 148345 + }, + { + "epoch": 0.94944, + "grad_norm": 1.0890804529190063, + "learning_rate": 1.3670400000000002e-05, + "loss": 0.0058, + "step": 148350 + }, + { + "epoch": 0.949472, + "grad_norm": 0.4371514320373535, + "learning_rate": 1.3670186666666668e-05, + "loss": 0.0041, + "step": 148355 + }, + { + "epoch": 0.949504, + "grad_norm": 0.31735268235206604, + "learning_rate": 1.3669973333333336e-05, + "loss": 0.0026, + "step": 148360 + }, + { + "epoch": 0.949536, + "grad_norm": 0.12132085859775543, + "learning_rate": 1.3669760000000001e-05, + "loss": 0.0043, + "step": 148365 + }, + { + "epoch": 0.949568, + "grad_norm": 2.4178626537323, + "learning_rate": 1.3669546666666669e-05, + "loss": 0.0036, + "step": 148370 + }, + { + "epoch": 0.9496, + "grad_norm": 0.3179164230823517, + "learning_rate": 1.3669333333333335e-05, + "loss": 0.0161, + "step": 148375 + }, + { + "epoch": 0.949632, + "grad_norm": 0.023030824959278107, + "learning_rate": 1.366912e-05, + "loss": 0.0071, + "step": 148380 + }, + { + "epoch": 0.949664, + "grad_norm": 0.011218600906431675, + "learning_rate": 1.3668906666666668e-05, + "loss": 0.0133, + "step": 148385 + }, + { + "epoch": 0.949696, + "grad_norm": 0.495451420545578, + "learning_rate": 1.3668693333333334e-05, + "loss": 0.0122, + "step": 148390 + }, + { + "epoch": 0.949728, + "grad_norm": 0.11402659118175507, + "learning_rate": 1.3668480000000002e-05, + "loss": 0.0038, + "step": 148395 + }, + { + "epoch": 0.94976, + "grad_norm": 0.05462685227394104, + "learning_rate": 1.3668266666666668e-05, + "loss": 0.0032, + "step": 148400 + }, + { + "epoch": 0.949792, + "grad_norm": 0.03768078610301018, + "learning_rate": 1.3668053333333335e-05, + "loss": 0.0045, + "step": 148405 + }, + { + "epoch": 0.949824, + "grad_norm": 0.1267922967672348, + "learning_rate": 1.3667840000000001e-05, + "loss": 0.013, + "step": 148410 + }, + { + "epoch": 0.949856, + "grad_norm": 0.09050816297531128, + "learning_rate": 1.3667626666666667e-05, + "loss": 0.0027, + "step": 148415 + }, + { + "epoch": 0.949888, + "grad_norm": 0.644540548324585, + "learning_rate": 1.3667413333333334e-05, + "loss": 0.0163, + "step": 148420 + }, + { + "epoch": 0.94992, + "grad_norm": 0.014670107513666153, + "learning_rate": 1.36672e-05, + "loss": 0.0061, + "step": 148425 + }, + { + "epoch": 0.949952, + "grad_norm": 0.8796675801277161, + "learning_rate": 1.3666986666666668e-05, + "loss": 0.0081, + "step": 148430 + }, + { + "epoch": 0.949984, + "grad_norm": 1.3881969451904297, + "learning_rate": 1.3666773333333334e-05, + "loss": 0.0121, + "step": 148435 + }, + { + "epoch": 0.950016, + "grad_norm": 0.3202211558818817, + "learning_rate": 1.3666560000000003e-05, + "loss": 0.0013, + "step": 148440 + }, + { + "epoch": 0.950048, + "grad_norm": 0.18170224130153656, + "learning_rate": 1.3666346666666667e-05, + "loss": 0.0085, + "step": 148445 + }, + { + "epoch": 0.95008, + "grad_norm": 0.10488211363554001, + "learning_rate": 1.3666133333333333e-05, + "loss": 0.0064, + "step": 148450 + }, + { + "epoch": 0.950112, + "grad_norm": 0.12390799075365067, + "learning_rate": 1.3665920000000002e-05, + "loss": 0.0017, + "step": 148455 + }, + { + "epoch": 0.950144, + "grad_norm": 1.26913583278656, + "learning_rate": 1.3665706666666666e-05, + "loss": 0.0091, + "step": 148460 + }, + { + "epoch": 0.950176, + "grad_norm": 0.28033992648124695, + "learning_rate": 1.3665493333333336e-05, + "loss": 0.0027, + "step": 148465 + }, + { + "epoch": 0.950208, + "grad_norm": 0.864111602306366, + "learning_rate": 1.3665280000000001e-05, + "loss": 0.011, + "step": 148470 + }, + { + "epoch": 0.95024, + "grad_norm": 0.2720099985599518, + "learning_rate": 1.3665066666666669e-05, + "loss": 0.0029, + "step": 148475 + }, + { + "epoch": 0.950272, + "grad_norm": 0.3764484226703644, + "learning_rate": 1.3664853333333335e-05, + "loss": 0.011, + "step": 148480 + }, + { + "epoch": 0.950304, + "grad_norm": 0.04432614892721176, + "learning_rate": 1.366464e-05, + "loss": 0.0089, + "step": 148485 + }, + { + "epoch": 0.950336, + "grad_norm": 0.7626140117645264, + "learning_rate": 1.3664426666666668e-05, + "loss": 0.0141, + "step": 148490 + }, + { + "epoch": 0.950368, + "grad_norm": 0.7351340651512146, + "learning_rate": 1.3664213333333334e-05, + "loss": 0.0115, + "step": 148495 + }, + { + "epoch": 0.9504, + "grad_norm": 0.9277600049972534, + "learning_rate": 1.3664000000000002e-05, + "loss": 0.0081, + "step": 148500 + }, + { + "epoch": 0.950432, + "grad_norm": 0.2290220558643341, + "learning_rate": 1.3663786666666668e-05, + "loss": 0.0089, + "step": 148505 + }, + { + "epoch": 0.950464, + "grad_norm": 0.6600479483604431, + "learning_rate": 1.3663573333333335e-05, + "loss": 0.009, + "step": 148510 + }, + { + "epoch": 0.950496, + "grad_norm": 0.08449903875589371, + "learning_rate": 1.3663360000000001e-05, + "loss": 0.0035, + "step": 148515 + }, + { + "epoch": 0.950528, + "grad_norm": 1.3219531774520874, + "learning_rate": 1.3663146666666667e-05, + "loss": 0.0152, + "step": 148520 + }, + { + "epoch": 0.95056, + "grad_norm": 0.13446743786334991, + "learning_rate": 1.3662933333333334e-05, + "loss": 0.0092, + "step": 148525 + }, + { + "epoch": 0.950592, + "grad_norm": 0.505974531173706, + "learning_rate": 1.366272e-05, + "loss": 0.0061, + "step": 148530 + }, + { + "epoch": 0.950624, + "grad_norm": 0.36729714274406433, + "learning_rate": 1.3662506666666668e-05, + "loss": 0.0125, + "step": 148535 + }, + { + "epoch": 0.950656, + "grad_norm": 0.13697588443756104, + "learning_rate": 1.3662293333333334e-05, + "loss": 0.001, + "step": 148540 + }, + { + "epoch": 0.950688, + "grad_norm": 0.1504277139902115, + "learning_rate": 1.3662080000000001e-05, + "loss": 0.0026, + "step": 148545 + }, + { + "epoch": 0.95072, + "grad_norm": 0.2766225039958954, + "learning_rate": 1.3661866666666667e-05, + "loss": 0.0176, + "step": 148550 + }, + { + "epoch": 0.950752, + "grad_norm": 0.010889311321079731, + "learning_rate": 1.3661653333333333e-05, + "loss": 0.0049, + "step": 148555 + }, + { + "epoch": 0.950784, + "grad_norm": 1.0258984565734863, + "learning_rate": 1.3661440000000002e-05, + "loss": 0.0104, + "step": 148560 + }, + { + "epoch": 0.950816, + "grad_norm": 0.4442770183086395, + "learning_rate": 1.3661226666666666e-05, + "loss": 0.0044, + "step": 148565 + }, + { + "epoch": 0.950848, + "grad_norm": 0.06939990818500519, + "learning_rate": 1.3661013333333336e-05, + "loss": 0.0025, + "step": 148570 + }, + { + "epoch": 0.95088, + "grad_norm": 0.022979730740189552, + "learning_rate": 1.3660800000000001e-05, + "loss": 0.0115, + "step": 148575 + }, + { + "epoch": 0.950912, + "grad_norm": 0.08381080627441406, + "learning_rate": 1.3660586666666669e-05, + "loss": 0.0055, + "step": 148580 + }, + { + "epoch": 0.950944, + "grad_norm": 0.41622671484947205, + "learning_rate": 1.3660373333333335e-05, + "loss": 0.0038, + "step": 148585 + }, + { + "epoch": 0.950976, + "grad_norm": 0.048480719327926636, + "learning_rate": 1.366016e-05, + "loss": 0.0025, + "step": 148590 + }, + { + "epoch": 0.951008, + "grad_norm": 0.05019637569785118, + "learning_rate": 1.3659946666666668e-05, + "loss": 0.0028, + "step": 148595 + }, + { + "epoch": 0.95104, + "grad_norm": 0.2911628484725952, + "learning_rate": 1.3659733333333334e-05, + "loss": 0.0093, + "step": 148600 + }, + { + "epoch": 0.951072, + "grad_norm": 0.225264310836792, + "learning_rate": 1.3659520000000002e-05, + "loss": 0.0055, + "step": 148605 + }, + { + "epoch": 0.951104, + "grad_norm": 0.010092422366142273, + "learning_rate": 1.3659306666666668e-05, + "loss": 0.0109, + "step": 148610 + }, + { + "epoch": 0.951136, + "grad_norm": 0.8647878766059875, + "learning_rate": 1.3659093333333335e-05, + "loss": 0.0091, + "step": 148615 + }, + { + "epoch": 0.951168, + "grad_norm": 0.33091121912002563, + "learning_rate": 1.3658880000000001e-05, + "loss": 0.0021, + "step": 148620 + }, + { + "epoch": 0.9512, + "grad_norm": 0.07002213597297668, + "learning_rate": 1.3658666666666667e-05, + "loss": 0.0063, + "step": 148625 + }, + { + "epoch": 0.951232, + "grad_norm": 0.23905475437641144, + "learning_rate": 1.3658453333333334e-05, + "loss": 0.0039, + "step": 148630 + }, + { + "epoch": 0.951264, + "grad_norm": 0.09315606951713562, + "learning_rate": 1.365824e-05, + "loss": 0.007, + "step": 148635 + }, + { + "epoch": 0.951296, + "grad_norm": 0.8531367182731628, + "learning_rate": 1.3658026666666668e-05, + "loss": 0.0052, + "step": 148640 + }, + { + "epoch": 0.951328, + "grad_norm": 0.5486242771148682, + "learning_rate": 1.3657813333333334e-05, + "loss": 0.0124, + "step": 148645 + }, + { + "epoch": 0.95136, + "grad_norm": 0.4508342742919922, + "learning_rate": 1.3657600000000001e-05, + "loss": 0.0045, + "step": 148650 + }, + { + "epoch": 0.951392, + "grad_norm": 2.055180311203003, + "learning_rate": 1.3657386666666667e-05, + "loss": 0.009, + "step": 148655 + }, + { + "epoch": 0.951424, + "grad_norm": 0.11010074615478516, + "learning_rate": 1.3657173333333333e-05, + "loss": 0.0022, + "step": 148660 + }, + { + "epoch": 0.951456, + "grad_norm": 0.07685999572277069, + "learning_rate": 1.3656960000000002e-05, + "loss": 0.0158, + "step": 148665 + }, + { + "epoch": 0.951488, + "grad_norm": 0.29086682200431824, + "learning_rate": 1.3656746666666666e-05, + "loss": 0.0128, + "step": 148670 + }, + { + "epoch": 0.95152, + "grad_norm": 0.7128047347068787, + "learning_rate": 1.3656533333333336e-05, + "loss": 0.0113, + "step": 148675 + }, + { + "epoch": 0.951552, + "grad_norm": 0.5908672213554382, + "learning_rate": 1.3656320000000001e-05, + "loss": 0.0206, + "step": 148680 + }, + { + "epoch": 0.951584, + "grad_norm": 0.30268174409866333, + "learning_rate": 1.3656106666666669e-05, + "loss": 0.014, + "step": 148685 + }, + { + "epoch": 0.951616, + "grad_norm": 0.03589434176683426, + "learning_rate": 1.3655893333333335e-05, + "loss": 0.0108, + "step": 148690 + }, + { + "epoch": 0.951648, + "grad_norm": 0.25229185819625854, + "learning_rate": 1.365568e-05, + "loss": 0.0032, + "step": 148695 + }, + { + "epoch": 0.95168, + "grad_norm": 0.6354625821113586, + "learning_rate": 1.3655466666666668e-05, + "loss": 0.0027, + "step": 148700 + }, + { + "epoch": 0.951712, + "grad_norm": 0.05708568915724754, + "learning_rate": 1.3655253333333334e-05, + "loss": 0.0018, + "step": 148705 + }, + { + "epoch": 0.951744, + "grad_norm": 0.038014210760593414, + "learning_rate": 1.3655040000000002e-05, + "loss": 0.0028, + "step": 148710 + }, + { + "epoch": 0.951776, + "grad_norm": 0.2647983431816101, + "learning_rate": 1.3654826666666668e-05, + "loss": 0.0067, + "step": 148715 + }, + { + "epoch": 0.951808, + "grad_norm": 1.0227020978927612, + "learning_rate": 1.3654613333333335e-05, + "loss": 0.008, + "step": 148720 + }, + { + "epoch": 0.95184, + "grad_norm": 0.562480628490448, + "learning_rate": 1.3654400000000001e-05, + "loss": 0.0101, + "step": 148725 + }, + { + "epoch": 0.951872, + "grad_norm": 0.4905553162097931, + "learning_rate": 1.3654186666666667e-05, + "loss": 0.0088, + "step": 148730 + }, + { + "epoch": 0.951904, + "grad_norm": 0.47436416149139404, + "learning_rate": 1.3653973333333334e-05, + "loss": 0.0067, + "step": 148735 + }, + { + "epoch": 0.951936, + "grad_norm": 0.01067067589610815, + "learning_rate": 1.365376e-05, + "loss": 0.0005, + "step": 148740 + }, + { + "epoch": 0.951968, + "grad_norm": 0.6747494339942932, + "learning_rate": 1.3653546666666668e-05, + "loss": 0.006, + "step": 148745 + }, + { + "epoch": 0.952, + "grad_norm": 0.10566329210996628, + "learning_rate": 1.3653333333333334e-05, + "loss": 0.0128, + "step": 148750 + }, + { + "epoch": 0.952032, + "grad_norm": 0.005711037665605545, + "learning_rate": 1.3653120000000001e-05, + "loss": 0.003, + "step": 148755 + }, + { + "epoch": 0.952064, + "grad_norm": 0.07136016339063644, + "learning_rate": 1.3652906666666667e-05, + "loss": 0.0169, + "step": 148760 + }, + { + "epoch": 0.952096, + "grad_norm": 0.24369226396083832, + "learning_rate": 1.3652693333333333e-05, + "loss": 0.0045, + "step": 148765 + }, + { + "epoch": 0.952128, + "grad_norm": 0.1000741571187973, + "learning_rate": 1.365248e-05, + "loss": 0.006, + "step": 148770 + }, + { + "epoch": 0.95216, + "grad_norm": 0.007394370157271624, + "learning_rate": 1.3652266666666666e-05, + "loss": 0.0012, + "step": 148775 + }, + { + "epoch": 0.952192, + "grad_norm": 0.0185244120657444, + "learning_rate": 1.3652053333333336e-05, + "loss": 0.0082, + "step": 148780 + }, + { + "epoch": 0.952224, + "grad_norm": 0.049863576889038086, + "learning_rate": 1.3651840000000001e-05, + "loss": 0.0043, + "step": 148785 + }, + { + "epoch": 0.952256, + "grad_norm": 0.8833857178688049, + "learning_rate": 1.3651626666666669e-05, + "loss": 0.0074, + "step": 148790 + }, + { + "epoch": 0.952288, + "grad_norm": 0.8345610499382019, + "learning_rate": 1.3651413333333335e-05, + "loss": 0.0171, + "step": 148795 + }, + { + "epoch": 0.95232, + "grad_norm": 0.004880865570157766, + "learning_rate": 1.36512e-05, + "loss": 0.0026, + "step": 148800 + }, + { + "epoch": 0.952352, + "grad_norm": 0.1790728121995926, + "learning_rate": 1.3650986666666668e-05, + "loss": 0.0019, + "step": 148805 + }, + { + "epoch": 0.952384, + "grad_norm": 0.055068522691726685, + "learning_rate": 1.3650773333333334e-05, + "loss": 0.0034, + "step": 148810 + }, + { + "epoch": 0.952416, + "grad_norm": 0.13096804916858673, + "learning_rate": 1.3650560000000002e-05, + "loss": 0.0141, + "step": 148815 + }, + { + "epoch": 0.952448, + "grad_norm": 0.062029480934143066, + "learning_rate": 1.3650346666666668e-05, + "loss": 0.0072, + "step": 148820 + }, + { + "epoch": 0.95248, + "grad_norm": 0.009698132053017616, + "learning_rate": 1.3650133333333335e-05, + "loss": 0.0216, + "step": 148825 + }, + { + "epoch": 0.952512, + "grad_norm": 0.07050294429063797, + "learning_rate": 1.3649920000000001e-05, + "loss": 0.0029, + "step": 148830 + }, + { + "epoch": 0.952544, + "grad_norm": 0.28475385904312134, + "learning_rate": 1.3649706666666668e-05, + "loss": 0.0106, + "step": 148835 + }, + { + "epoch": 0.952576, + "grad_norm": 0.8001531362533569, + "learning_rate": 1.3649493333333334e-05, + "loss": 0.0047, + "step": 148840 + }, + { + "epoch": 0.952608, + "grad_norm": 1.144595742225647, + "learning_rate": 1.364928e-05, + "loss": 0.0148, + "step": 148845 + }, + { + "epoch": 0.95264, + "grad_norm": 0.3296040892601013, + "learning_rate": 1.3649066666666668e-05, + "loss": 0.0092, + "step": 148850 + }, + { + "epoch": 0.952672, + "grad_norm": 0.03417346253991127, + "learning_rate": 1.3648853333333334e-05, + "loss": 0.0034, + "step": 148855 + }, + { + "epoch": 0.952704, + "grad_norm": 0.24619492888450623, + "learning_rate": 1.3648640000000001e-05, + "loss": 0.012, + "step": 148860 + }, + { + "epoch": 0.952736, + "grad_norm": 0.5210897922515869, + "learning_rate": 1.3648426666666667e-05, + "loss": 0.0096, + "step": 148865 + }, + { + "epoch": 0.952768, + "grad_norm": 0.13948321342468262, + "learning_rate": 1.3648213333333336e-05, + "loss": 0.0043, + "step": 148870 + }, + { + "epoch": 0.9528, + "grad_norm": 3.3701391220092773, + "learning_rate": 1.3648e-05, + "loss": 0.0151, + "step": 148875 + }, + { + "epoch": 0.952832, + "grad_norm": 0.026224706321954727, + "learning_rate": 1.3647786666666666e-05, + "loss": 0.0012, + "step": 148880 + }, + { + "epoch": 0.952864, + "grad_norm": 0.4693712592124939, + "learning_rate": 1.3647573333333336e-05, + "loss": 0.0021, + "step": 148885 + }, + { + "epoch": 0.952896, + "grad_norm": 0.04995933547616005, + "learning_rate": 1.3647360000000001e-05, + "loss": 0.0024, + "step": 148890 + }, + { + "epoch": 0.952928, + "grad_norm": 0.12127243727445602, + "learning_rate": 1.3647146666666669e-05, + "loss": 0.0037, + "step": 148895 + }, + { + "epoch": 0.95296, + "grad_norm": 0.254273384809494, + "learning_rate": 1.3646933333333335e-05, + "loss": 0.0097, + "step": 148900 + }, + { + "epoch": 0.952992, + "grad_norm": 0.2117745578289032, + "learning_rate": 1.3646720000000002e-05, + "loss": 0.0034, + "step": 148905 + }, + { + "epoch": 0.953024, + "grad_norm": 1.0870715379714966, + "learning_rate": 1.3646506666666668e-05, + "loss": 0.0041, + "step": 148910 + }, + { + "epoch": 0.953056, + "grad_norm": 0.5601655840873718, + "learning_rate": 1.3646293333333334e-05, + "loss": 0.0033, + "step": 148915 + }, + { + "epoch": 0.953088, + "grad_norm": 0.08229734003543854, + "learning_rate": 1.3646080000000002e-05, + "loss": 0.0016, + "step": 148920 + }, + { + "epoch": 0.95312, + "grad_norm": 0.15021103620529175, + "learning_rate": 1.3645866666666668e-05, + "loss": 0.0059, + "step": 148925 + }, + { + "epoch": 0.953152, + "grad_norm": 0.30462995171546936, + "learning_rate": 1.3645653333333335e-05, + "loss": 0.0083, + "step": 148930 + }, + { + "epoch": 0.953184, + "grad_norm": 0.7663037180900574, + "learning_rate": 1.3645440000000001e-05, + "loss": 0.0222, + "step": 148935 + }, + { + "epoch": 0.953216, + "grad_norm": 1.1060385704040527, + "learning_rate": 1.3645226666666668e-05, + "loss": 0.0118, + "step": 148940 + }, + { + "epoch": 0.953248, + "grad_norm": 0.15297181904315948, + "learning_rate": 1.3645013333333334e-05, + "loss": 0.0059, + "step": 148945 + }, + { + "epoch": 0.95328, + "grad_norm": 0.287717342376709, + "learning_rate": 1.36448e-05, + "loss": 0.0023, + "step": 148950 + }, + { + "epoch": 0.953312, + "grad_norm": 2.6320016384124756, + "learning_rate": 1.3644586666666668e-05, + "loss": 0.0161, + "step": 148955 + }, + { + "epoch": 0.953344, + "grad_norm": 0.785567045211792, + "learning_rate": 1.3644373333333334e-05, + "loss": 0.0116, + "step": 148960 + }, + { + "epoch": 0.953376, + "grad_norm": 0.4026510417461395, + "learning_rate": 1.3644160000000001e-05, + "loss": 0.0096, + "step": 148965 + }, + { + "epoch": 0.953408, + "grad_norm": 0.24955058097839355, + "learning_rate": 1.3643946666666667e-05, + "loss": 0.0045, + "step": 148970 + }, + { + "epoch": 0.95344, + "grad_norm": 0.230672687292099, + "learning_rate": 1.3643733333333336e-05, + "loss": 0.003, + "step": 148975 + }, + { + "epoch": 0.953472, + "grad_norm": 0.010770796798169613, + "learning_rate": 1.364352e-05, + "loss": 0.0249, + "step": 148980 + }, + { + "epoch": 0.953504, + "grad_norm": 0.14542771875858307, + "learning_rate": 1.3643306666666666e-05, + "loss": 0.0047, + "step": 148985 + }, + { + "epoch": 0.953536, + "grad_norm": 1.4607971906661987, + "learning_rate": 1.3643093333333336e-05, + "loss": 0.0081, + "step": 148990 + }, + { + "epoch": 0.953568, + "grad_norm": 0.05023275315761566, + "learning_rate": 1.364288e-05, + "loss": 0.0229, + "step": 148995 + }, + { + "epoch": 0.9536, + "grad_norm": 0.02602856419980526, + "learning_rate": 1.3642666666666669e-05, + "loss": 0.0018, + "step": 149000 + }, + { + "epoch": 0.953632, + "grad_norm": 1.0381875038146973, + "learning_rate": 1.3642453333333335e-05, + "loss": 0.0063, + "step": 149005 + }, + { + "epoch": 0.953664, + "grad_norm": 0.5821264386177063, + "learning_rate": 1.3642240000000002e-05, + "loss": 0.0109, + "step": 149010 + }, + { + "epoch": 0.953696, + "grad_norm": 0.1720319390296936, + "learning_rate": 1.3642026666666668e-05, + "loss": 0.0136, + "step": 149015 + }, + { + "epoch": 0.953728, + "grad_norm": 0.32273584604263306, + "learning_rate": 1.3641813333333334e-05, + "loss": 0.0077, + "step": 149020 + }, + { + "epoch": 0.95376, + "grad_norm": 0.08791086077690125, + "learning_rate": 1.3641600000000002e-05, + "loss": 0.0134, + "step": 149025 + }, + { + "epoch": 0.953792, + "grad_norm": 0.5563333630561829, + "learning_rate": 1.3641386666666668e-05, + "loss": 0.0117, + "step": 149030 + }, + { + "epoch": 0.953824, + "grad_norm": 0.17739740014076233, + "learning_rate": 1.3641173333333335e-05, + "loss": 0.0109, + "step": 149035 + }, + { + "epoch": 0.953856, + "grad_norm": 0.07628887891769409, + "learning_rate": 1.3640960000000001e-05, + "loss": 0.0085, + "step": 149040 + }, + { + "epoch": 0.953888, + "grad_norm": 0.05330552160739899, + "learning_rate": 1.3640746666666668e-05, + "loss": 0.0014, + "step": 149045 + }, + { + "epoch": 0.95392, + "grad_norm": 0.1479523628950119, + "learning_rate": 1.3640533333333334e-05, + "loss": 0.0092, + "step": 149050 + }, + { + "epoch": 0.953952, + "grad_norm": 0.20794011652469635, + "learning_rate": 1.364032e-05, + "loss": 0.007, + "step": 149055 + }, + { + "epoch": 0.953984, + "grad_norm": 0.1861601173877716, + "learning_rate": 1.3640106666666668e-05, + "loss": 0.0028, + "step": 149060 + }, + { + "epoch": 0.954016, + "grad_norm": 0.513384222984314, + "learning_rate": 1.3639893333333334e-05, + "loss": 0.006, + "step": 149065 + }, + { + "epoch": 0.954048, + "grad_norm": 1.9639679193496704, + "learning_rate": 1.3639680000000001e-05, + "loss": 0.0097, + "step": 149070 + }, + { + "epoch": 0.95408, + "grad_norm": 0.07890000194311142, + "learning_rate": 1.3639466666666667e-05, + "loss": 0.0034, + "step": 149075 + }, + { + "epoch": 0.954112, + "grad_norm": 0.024034708738327026, + "learning_rate": 1.3639253333333336e-05, + "loss": 0.0102, + "step": 149080 + }, + { + "epoch": 0.954144, + "grad_norm": 0.018558545038104057, + "learning_rate": 1.363904e-05, + "loss": 0.0147, + "step": 149085 + }, + { + "epoch": 0.954176, + "grad_norm": 0.9481870532035828, + "learning_rate": 1.3638826666666666e-05, + "loss": 0.0124, + "step": 149090 + }, + { + "epoch": 0.954208, + "grad_norm": 0.6958951354026794, + "learning_rate": 1.3638613333333336e-05, + "loss": 0.0102, + "step": 149095 + }, + { + "epoch": 0.95424, + "grad_norm": 0.15445636212825775, + "learning_rate": 1.36384e-05, + "loss": 0.0033, + "step": 149100 + }, + { + "epoch": 0.954272, + "grad_norm": 0.6817795038223267, + "learning_rate": 1.3638186666666669e-05, + "loss": 0.0089, + "step": 149105 + }, + { + "epoch": 0.954304, + "grad_norm": 0.10943632572889328, + "learning_rate": 1.3637973333333335e-05, + "loss": 0.0036, + "step": 149110 + }, + { + "epoch": 0.954336, + "grad_norm": 0.2339678257703781, + "learning_rate": 1.3637760000000002e-05, + "loss": 0.0142, + "step": 149115 + }, + { + "epoch": 0.954368, + "grad_norm": 0.83316969871521, + "learning_rate": 1.3637546666666668e-05, + "loss": 0.0043, + "step": 149120 + }, + { + "epoch": 0.9544, + "grad_norm": 0.19013063609600067, + "learning_rate": 1.3637333333333334e-05, + "loss": 0.005, + "step": 149125 + }, + { + "epoch": 0.954432, + "grad_norm": 0.1844298392534256, + "learning_rate": 1.3637120000000002e-05, + "loss": 0.003, + "step": 149130 + }, + { + "epoch": 0.954464, + "grad_norm": 0.963405966758728, + "learning_rate": 1.3636906666666668e-05, + "loss": 0.0102, + "step": 149135 + }, + { + "epoch": 0.954496, + "grad_norm": 0.5637426972389221, + "learning_rate": 1.3636693333333335e-05, + "loss": 0.0066, + "step": 149140 + }, + { + "epoch": 0.954528, + "grad_norm": 0.3801455795764923, + "learning_rate": 1.3636480000000001e-05, + "loss": 0.0334, + "step": 149145 + }, + { + "epoch": 0.95456, + "grad_norm": 0.6312322020530701, + "learning_rate": 1.3636266666666668e-05, + "loss": 0.0078, + "step": 149150 + }, + { + "epoch": 0.954592, + "grad_norm": 0.0560351200401783, + "learning_rate": 1.3636053333333334e-05, + "loss": 0.0015, + "step": 149155 + }, + { + "epoch": 0.954624, + "grad_norm": 0.010810487903654575, + "learning_rate": 1.363584e-05, + "loss": 0.0029, + "step": 149160 + }, + { + "epoch": 0.954656, + "grad_norm": 0.08571678400039673, + "learning_rate": 1.3635626666666668e-05, + "loss": 0.0019, + "step": 149165 + }, + { + "epoch": 0.954688, + "grad_norm": 0.6995975971221924, + "learning_rate": 1.3635413333333334e-05, + "loss": 0.0056, + "step": 149170 + }, + { + "epoch": 0.95472, + "grad_norm": 0.04650399461388588, + "learning_rate": 1.3635200000000001e-05, + "loss": 0.0084, + "step": 149175 + }, + { + "epoch": 0.954752, + "grad_norm": 0.19270308315753937, + "learning_rate": 1.3634986666666667e-05, + "loss": 0.0018, + "step": 149180 + }, + { + "epoch": 0.954784, + "grad_norm": 0.0850062444806099, + "learning_rate": 1.3634773333333335e-05, + "loss": 0.0013, + "step": 149185 + }, + { + "epoch": 0.954816, + "grad_norm": 0.14436106383800507, + "learning_rate": 1.363456e-05, + "loss": 0.0022, + "step": 149190 + }, + { + "epoch": 0.954848, + "grad_norm": 0.6406810283660889, + "learning_rate": 1.3634346666666666e-05, + "loss": 0.0177, + "step": 149195 + }, + { + "epoch": 0.95488, + "grad_norm": 0.3658398985862732, + "learning_rate": 1.3634133333333336e-05, + "loss": 0.0205, + "step": 149200 + }, + { + "epoch": 0.954912, + "grad_norm": 0.402057409286499, + "learning_rate": 1.363392e-05, + "loss": 0.0124, + "step": 149205 + }, + { + "epoch": 0.954944, + "grad_norm": 0.6202265620231628, + "learning_rate": 1.3633706666666669e-05, + "loss": 0.0094, + "step": 149210 + }, + { + "epoch": 0.954976, + "grad_norm": 0.2049999088048935, + "learning_rate": 1.3633493333333335e-05, + "loss": 0.0042, + "step": 149215 + }, + { + "epoch": 0.955008, + "grad_norm": 0.6774469017982483, + "learning_rate": 1.3633280000000002e-05, + "loss": 0.0133, + "step": 149220 + }, + { + "epoch": 0.95504, + "grad_norm": 0.39126455783843994, + "learning_rate": 1.3633066666666668e-05, + "loss": 0.0023, + "step": 149225 + }, + { + "epoch": 0.955072, + "grad_norm": 0.18660379946231842, + "learning_rate": 1.3632853333333334e-05, + "loss": 0.0072, + "step": 149230 + }, + { + "epoch": 0.955104, + "grad_norm": 0.12481440603733063, + "learning_rate": 1.3632640000000002e-05, + "loss": 0.0102, + "step": 149235 + }, + { + "epoch": 0.955136, + "grad_norm": 0.20480185747146606, + "learning_rate": 1.3632426666666668e-05, + "loss": 0.0077, + "step": 149240 + }, + { + "epoch": 0.955168, + "grad_norm": 0.5378400087356567, + "learning_rate": 1.3632213333333335e-05, + "loss": 0.0046, + "step": 149245 + }, + { + "epoch": 0.9552, + "grad_norm": 0.10930546373128891, + "learning_rate": 1.3632000000000001e-05, + "loss": 0.0053, + "step": 149250 + }, + { + "epoch": 0.955232, + "grad_norm": 0.27497419714927673, + "learning_rate": 1.3631786666666668e-05, + "loss": 0.0104, + "step": 149255 + }, + { + "epoch": 0.955264, + "grad_norm": 0.1913849115371704, + "learning_rate": 1.3631573333333334e-05, + "loss": 0.0102, + "step": 149260 + }, + { + "epoch": 0.955296, + "grad_norm": 0.269059956073761, + "learning_rate": 1.363136e-05, + "loss": 0.0015, + "step": 149265 + }, + { + "epoch": 0.955328, + "grad_norm": 0.01106974296271801, + "learning_rate": 1.3631146666666668e-05, + "loss": 0.0071, + "step": 149270 + }, + { + "epoch": 0.95536, + "grad_norm": 0.9442217350006104, + "learning_rate": 1.3630933333333334e-05, + "loss": 0.0074, + "step": 149275 + }, + { + "epoch": 0.955392, + "grad_norm": 0.4391607940196991, + "learning_rate": 1.3630720000000001e-05, + "loss": 0.0036, + "step": 149280 + }, + { + "epoch": 0.955424, + "grad_norm": 0.18106378614902496, + "learning_rate": 1.3630506666666667e-05, + "loss": 0.006, + "step": 149285 + }, + { + "epoch": 0.955456, + "grad_norm": 0.08596386015415192, + "learning_rate": 1.3630293333333335e-05, + "loss": 0.0018, + "step": 149290 + }, + { + "epoch": 0.955488, + "grad_norm": 0.6072423458099365, + "learning_rate": 1.363008e-05, + "loss": 0.0102, + "step": 149295 + }, + { + "epoch": 0.95552, + "grad_norm": 1.2206053733825684, + "learning_rate": 1.3629866666666666e-05, + "loss": 0.0063, + "step": 149300 + }, + { + "epoch": 0.955552, + "grad_norm": 1.0140599012374878, + "learning_rate": 1.3629653333333336e-05, + "loss": 0.0041, + "step": 149305 + }, + { + "epoch": 0.955584, + "grad_norm": 0.1029200404882431, + "learning_rate": 1.362944e-05, + "loss": 0.0028, + "step": 149310 + }, + { + "epoch": 0.955616, + "grad_norm": 0.06935467571020126, + "learning_rate": 1.3629226666666669e-05, + "loss": 0.0058, + "step": 149315 + }, + { + "epoch": 0.955648, + "grad_norm": 0.021110491827130318, + "learning_rate": 1.3629013333333335e-05, + "loss": 0.0022, + "step": 149320 + }, + { + "epoch": 0.95568, + "grad_norm": 0.007591554429382086, + "learning_rate": 1.3628800000000002e-05, + "loss": 0.0034, + "step": 149325 + }, + { + "epoch": 0.955712, + "grad_norm": 0.3614414632320404, + "learning_rate": 1.3628586666666668e-05, + "loss": 0.0115, + "step": 149330 + }, + { + "epoch": 0.955744, + "grad_norm": 2.147341251373291, + "learning_rate": 1.3628373333333334e-05, + "loss": 0.0148, + "step": 149335 + }, + { + "epoch": 0.955776, + "grad_norm": 1.4085317850112915, + "learning_rate": 1.3628160000000002e-05, + "loss": 0.0144, + "step": 149340 + }, + { + "epoch": 0.955808, + "grad_norm": 0.4200820326805115, + "learning_rate": 1.3627946666666668e-05, + "loss": 0.0032, + "step": 149345 + }, + { + "epoch": 0.95584, + "grad_norm": 0.29882729053497314, + "learning_rate": 1.3627733333333335e-05, + "loss": 0.0036, + "step": 149350 + }, + { + "epoch": 0.955872, + "grad_norm": 0.2337268888950348, + "learning_rate": 1.3627520000000001e-05, + "loss": 0.02, + "step": 149355 + }, + { + "epoch": 0.955904, + "grad_norm": 0.7161200046539307, + "learning_rate": 1.3627306666666668e-05, + "loss": 0.0126, + "step": 149360 + }, + { + "epoch": 0.955936, + "grad_norm": 5.317975997924805, + "learning_rate": 1.3627093333333334e-05, + "loss": 0.0156, + "step": 149365 + }, + { + "epoch": 0.955968, + "grad_norm": 0.3291509449481964, + "learning_rate": 1.362688e-05, + "loss": 0.0038, + "step": 149370 + }, + { + "epoch": 0.956, + "grad_norm": 0.4995662569999695, + "learning_rate": 1.3626666666666668e-05, + "loss": 0.0067, + "step": 149375 + }, + { + "epoch": 0.956032, + "grad_norm": 0.19506525993347168, + "learning_rate": 1.3626453333333334e-05, + "loss": 0.0046, + "step": 149380 + }, + { + "epoch": 0.956064, + "grad_norm": 0.47863656282424927, + "learning_rate": 1.3626240000000001e-05, + "loss": 0.0031, + "step": 149385 + }, + { + "epoch": 0.956096, + "grad_norm": 1.5081151723861694, + "learning_rate": 1.3626026666666667e-05, + "loss": 0.0042, + "step": 149390 + }, + { + "epoch": 0.956128, + "grad_norm": 1.3759493827819824, + "learning_rate": 1.3625813333333335e-05, + "loss": 0.0102, + "step": 149395 + }, + { + "epoch": 0.95616, + "grad_norm": 0.4744958281517029, + "learning_rate": 1.36256e-05, + "loss": 0.0142, + "step": 149400 + }, + { + "epoch": 0.956192, + "grad_norm": 1.3129947185516357, + "learning_rate": 1.3625386666666666e-05, + "loss": 0.0164, + "step": 149405 + }, + { + "epoch": 0.956224, + "grad_norm": 0.9938008785247803, + "learning_rate": 1.3625173333333334e-05, + "loss": 0.0048, + "step": 149410 + }, + { + "epoch": 0.956256, + "grad_norm": 0.06317900866270065, + "learning_rate": 1.362496e-05, + "loss": 0.0049, + "step": 149415 + }, + { + "epoch": 0.956288, + "grad_norm": 0.9030985832214355, + "learning_rate": 1.3624746666666669e-05, + "loss": 0.0138, + "step": 149420 + }, + { + "epoch": 0.95632, + "grad_norm": 0.07868646085262299, + "learning_rate": 1.3624533333333335e-05, + "loss": 0.0043, + "step": 149425 + }, + { + "epoch": 0.956352, + "grad_norm": 0.7403091192245483, + "learning_rate": 1.3624320000000002e-05, + "loss": 0.0087, + "step": 149430 + }, + { + "epoch": 0.956384, + "grad_norm": 1.1444255113601685, + "learning_rate": 1.3624106666666668e-05, + "loss": 0.0141, + "step": 149435 + }, + { + "epoch": 0.956416, + "grad_norm": 0.20752951502799988, + "learning_rate": 1.3623893333333334e-05, + "loss": 0.0096, + "step": 149440 + }, + { + "epoch": 0.956448, + "grad_norm": 0.5203641653060913, + "learning_rate": 1.3623680000000002e-05, + "loss": 0.0063, + "step": 149445 + }, + { + "epoch": 0.95648, + "grad_norm": 0.3336615562438965, + "learning_rate": 1.3623466666666668e-05, + "loss": 0.0052, + "step": 149450 + }, + { + "epoch": 0.956512, + "grad_norm": 0.892493724822998, + "learning_rate": 1.3623253333333335e-05, + "loss": 0.0053, + "step": 149455 + }, + { + "epoch": 0.956544, + "grad_norm": 0.8180350661277771, + "learning_rate": 1.3623040000000001e-05, + "loss": 0.0056, + "step": 149460 + }, + { + "epoch": 0.956576, + "grad_norm": 0.008807740174233913, + "learning_rate": 1.3622826666666669e-05, + "loss": 0.0029, + "step": 149465 + }, + { + "epoch": 0.956608, + "grad_norm": 0.12231098860502243, + "learning_rate": 1.3622613333333334e-05, + "loss": 0.009, + "step": 149470 + }, + { + "epoch": 0.95664, + "grad_norm": 0.6842231154441833, + "learning_rate": 1.36224e-05, + "loss": 0.012, + "step": 149475 + }, + { + "epoch": 0.956672, + "grad_norm": 0.11069880425930023, + "learning_rate": 1.3622186666666668e-05, + "loss": 0.0022, + "step": 149480 + }, + { + "epoch": 0.956704, + "grad_norm": 0.061006609350442886, + "learning_rate": 1.3621973333333334e-05, + "loss": 0.0114, + "step": 149485 + }, + { + "epoch": 0.956736, + "grad_norm": 0.5328969359397888, + "learning_rate": 1.3621760000000001e-05, + "loss": 0.0195, + "step": 149490 + }, + { + "epoch": 0.956768, + "grad_norm": 0.4151748716831207, + "learning_rate": 1.3621546666666667e-05, + "loss": 0.0073, + "step": 149495 + }, + { + "epoch": 0.9568, + "grad_norm": 0.6390140056610107, + "learning_rate": 1.3621333333333335e-05, + "loss": 0.0057, + "step": 149500 + }, + { + "epoch": 0.956832, + "grad_norm": 0.16500726342201233, + "learning_rate": 1.362112e-05, + "loss": 0.0052, + "step": 149505 + }, + { + "epoch": 0.956864, + "grad_norm": 0.44829732179641724, + "learning_rate": 1.3620906666666666e-05, + "loss": 0.0037, + "step": 149510 + }, + { + "epoch": 0.956896, + "grad_norm": 0.02438616380095482, + "learning_rate": 1.3620693333333334e-05, + "loss": 0.0032, + "step": 149515 + }, + { + "epoch": 0.956928, + "grad_norm": 0.3363882601261139, + "learning_rate": 1.362048e-05, + "loss": 0.0111, + "step": 149520 + }, + { + "epoch": 0.95696, + "grad_norm": 1.229654312133789, + "learning_rate": 1.3620266666666669e-05, + "loss": 0.0139, + "step": 149525 + }, + { + "epoch": 0.956992, + "grad_norm": 0.09474746137857437, + "learning_rate": 1.3620053333333335e-05, + "loss": 0.0014, + "step": 149530 + }, + { + "epoch": 0.957024, + "grad_norm": 0.05298149585723877, + "learning_rate": 1.3619840000000002e-05, + "loss": 0.0006, + "step": 149535 + }, + { + "epoch": 0.957056, + "grad_norm": 0.030316252261400223, + "learning_rate": 1.3619626666666668e-05, + "loss": 0.0066, + "step": 149540 + }, + { + "epoch": 0.957088, + "grad_norm": 0.16074781119823456, + "learning_rate": 1.3619413333333334e-05, + "loss": 0.0107, + "step": 149545 + }, + { + "epoch": 0.95712, + "grad_norm": 0.6188822388648987, + "learning_rate": 1.3619200000000002e-05, + "loss": 0.0192, + "step": 149550 + }, + { + "epoch": 0.957152, + "grad_norm": 0.17287209630012512, + "learning_rate": 1.3618986666666668e-05, + "loss": 0.0026, + "step": 149555 + }, + { + "epoch": 0.957184, + "grad_norm": 0.036344241350889206, + "learning_rate": 1.3618773333333335e-05, + "loss": 0.0084, + "step": 149560 + }, + { + "epoch": 0.957216, + "grad_norm": 0.7212221622467041, + "learning_rate": 1.3618560000000001e-05, + "loss": 0.0114, + "step": 149565 + }, + { + "epoch": 0.957248, + "grad_norm": 0.33931758999824524, + "learning_rate": 1.3618346666666669e-05, + "loss": 0.0051, + "step": 149570 + }, + { + "epoch": 0.95728, + "grad_norm": 0.36605262756347656, + "learning_rate": 1.3618133333333334e-05, + "loss": 0.0063, + "step": 149575 + }, + { + "epoch": 0.957312, + "grad_norm": 0.09034755825996399, + "learning_rate": 1.361792e-05, + "loss": 0.0022, + "step": 149580 + }, + { + "epoch": 0.957344, + "grad_norm": 0.167372927069664, + "learning_rate": 1.3617706666666668e-05, + "loss": 0.0059, + "step": 149585 + }, + { + "epoch": 0.957376, + "grad_norm": 0.3257198929786682, + "learning_rate": 1.3617493333333334e-05, + "loss": 0.0163, + "step": 149590 + }, + { + "epoch": 0.957408, + "grad_norm": 0.4491869807243347, + "learning_rate": 1.3617280000000001e-05, + "loss": 0.0073, + "step": 149595 + }, + { + "epoch": 0.95744, + "grad_norm": 0.32771769165992737, + "learning_rate": 1.3617066666666667e-05, + "loss": 0.0053, + "step": 149600 + }, + { + "epoch": 0.957472, + "grad_norm": 1.3254234790802002, + "learning_rate": 1.3616853333333335e-05, + "loss": 0.0103, + "step": 149605 + }, + { + "epoch": 0.957504, + "grad_norm": 0.06333310157060623, + "learning_rate": 1.361664e-05, + "loss": 0.0036, + "step": 149610 + }, + { + "epoch": 0.957536, + "grad_norm": 0.8660717010498047, + "learning_rate": 1.3616426666666666e-05, + "loss": 0.0047, + "step": 149615 + }, + { + "epoch": 0.957568, + "grad_norm": 0.1318168342113495, + "learning_rate": 1.3616213333333334e-05, + "loss": 0.0015, + "step": 149620 + }, + { + "epoch": 0.9576, + "grad_norm": 0.06794168800115585, + "learning_rate": 1.3616e-05, + "loss": 0.0063, + "step": 149625 + }, + { + "epoch": 0.957632, + "grad_norm": 0.2810335159301758, + "learning_rate": 1.3615786666666669e-05, + "loss": 0.0075, + "step": 149630 + }, + { + "epoch": 0.957664, + "grad_norm": 0.3522002398967743, + "learning_rate": 1.3615573333333333e-05, + "loss": 0.0183, + "step": 149635 + }, + { + "epoch": 0.957696, + "grad_norm": 0.05615132674574852, + "learning_rate": 1.3615360000000002e-05, + "loss": 0.0084, + "step": 149640 + }, + { + "epoch": 0.957728, + "grad_norm": 0.0907084047794342, + "learning_rate": 1.3615146666666668e-05, + "loss": 0.0042, + "step": 149645 + }, + { + "epoch": 0.95776, + "grad_norm": 0.46944430470466614, + "learning_rate": 1.3614933333333336e-05, + "loss": 0.0048, + "step": 149650 + }, + { + "epoch": 0.957792, + "grad_norm": 0.5480348467826843, + "learning_rate": 1.3614720000000002e-05, + "loss": 0.0026, + "step": 149655 + }, + { + "epoch": 0.957824, + "grad_norm": 0.09044621139764786, + "learning_rate": 1.3614506666666668e-05, + "loss": 0.0111, + "step": 149660 + }, + { + "epoch": 0.957856, + "grad_norm": 0.8337051868438721, + "learning_rate": 1.3614293333333335e-05, + "loss": 0.0056, + "step": 149665 + }, + { + "epoch": 0.957888, + "grad_norm": 0.07409074902534485, + "learning_rate": 1.3614080000000001e-05, + "loss": 0.0019, + "step": 149670 + }, + { + "epoch": 0.95792, + "grad_norm": 0.03737790137529373, + "learning_rate": 1.3613866666666669e-05, + "loss": 0.007, + "step": 149675 + }, + { + "epoch": 0.957952, + "grad_norm": 0.22585394978523254, + "learning_rate": 1.3613653333333334e-05, + "loss": 0.0036, + "step": 149680 + }, + { + "epoch": 0.957984, + "grad_norm": 0.6227251887321472, + "learning_rate": 1.3613440000000002e-05, + "loss": 0.007, + "step": 149685 + }, + { + "epoch": 0.958016, + "grad_norm": 0.10840361565351486, + "learning_rate": 1.3613226666666668e-05, + "loss": 0.0039, + "step": 149690 + }, + { + "epoch": 0.958048, + "grad_norm": 1.608411431312561, + "learning_rate": 1.3613013333333334e-05, + "loss": 0.0065, + "step": 149695 + }, + { + "epoch": 0.95808, + "grad_norm": 1.215191125869751, + "learning_rate": 1.3612800000000001e-05, + "loss": 0.0176, + "step": 149700 + }, + { + "epoch": 0.958112, + "grad_norm": 0.14791497588157654, + "learning_rate": 1.3612586666666667e-05, + "loss": 0.0052, + "step": 149705 + }, + { + "epoch": 0.958144, + "grad_norm": 0.04888015240430832, + "learning_rate": 1.3612373333333335e-05, + "loss": 0.0111, + "step": 149710 + }, + { + "epoch": 0.958176, + "grad_norm": 1.3333518505096436, + "learning_rate": 1.361216e-05, + "loss": 0.0042, + "step": 149715 + }, + { + "epoch": 0.958208, + "grad_norm": 0.03881585970520973, + "learning_rate": 1.3611946666666668e-05, + "loss": 0.0147, + "step": 149720 + }, + { + "epoch": 0.95824, + "grad_norm": 0.45182153582572937, + "learning_rate": 1.3611733333333334e-05, + "loss": 0.0114, + "step": 149725 + }, + { + "epoch": 0.958272, + "grad_norm": 0.3454837501049042, + "learning_rate": 1.361152e-05, + "loss": 0.0056, + "step": 149730 + }, + { + "epoch": 0.958304, + "grad_norm": 0.045629531145095825, + "learning_rate": 1.3611306666666669e-05, + "loss": 0.008, + "step": 149735 + }, + { + "epoch": 0.958336, + "grad_norm": 0.044843271374702454, + "learning_rate": 1.3611093333333333e-05, + "loss": 0.0065, + "step": 149740 + }, + { + "epoch": 0.958368, + "grad_norm": 0.39792120456695557, + "learning_rate": 1.3610880000000002e-05, + "loss": 0.0108, + "step": 149745 + }, + { + "epoch": 0.9584, + "grad_norm": 0.40253010392189026, + "learning_rate": 1.3610666666666668e-05, + "loss": 0.0152, + "step": 149750 + }, + { + "epoch": 0.958432, + "grad_norm": 0.046970147639513016, + "learning_rate": 1.3610453333333336e-05, + "loss": 0.0043, + "step": 149755 + }, + { + "epoch": 0.958464, + "grad_norm": 0.9811268448829651, + "learning_rate": 1.3610240000000002e-05, + "loss": 0.0059, + "step": 149760 + }, + { + "epoch": 0.958496, + "grad_norm": 0.23644007742404938, + "learning_rate": 1.3610026666666668e-05, + "loss": 0.0151, + "step": 149765 + }, + { + "epoch": 0.958528, + "grad_norm": 0.3524611294269562, + "learning_rate": 1.3609813333333335e-05, + "loss": 0.0067, + "step": 149770 + }, + { + "epoch": 0.95856, + "grad_norm": 0.8937650322914124, + "learning_rate": 1.3609600000000001e-05, + "loss": 0.0232, + "step": 149775 + }, + { + "epoch": 0.958592, + "grad_norm": 0.3056141436100006, + "learning_rate": 1.3609386666666669e-05, + "loss": 0.0029, + "step": 149780 + }, + { + "epoch": 0.958624, + "grad_norm": 0.5601763725280762, + "learning_rate": 1.3609173333333334e-05, + "loss": 0.0132, + "step": 149785 + }, + { + "epoch": 0.958656, + "grad_norm": 0.16729363799095154, + "learning_rate": 1.3608960000000002e-05, + "loss": 0.0089, + "step": 149790 + }, + { + "epoch": 0.958688, + "grad_norm": 0.03392542153596878, + "learning_rate": 1.3608746666666668e-05, + "loss": 0.0109, + "step": 149795 + }, + { + "epoch": 0.95872, + "grad_norm": 0.27519914507865906, + "learning_rate": 1.3608533333333334e-05, + "loss": 0.009, + "step": 149800 + }, + { + "epoch": 0.958752, + "grad_norm": 0.4645431935787201, + "learning_rate": 1.3608320000000001e-05, + "loss": 0.0043, + "step": 149805 + }, + { + "epoch": 0.958784, + "grad_norm": 1.359776258468628, + "learning_rate": 1.3608106666666667e-05, + "loss": 0.0101, + "step": 149810 + }, + { + "epoch": 0.958816, + "grad_norm": 0.2276293933391571, + "learning_rate": 1.3607893333333335e-05, + "loss": 0.003, + "step": 149815 + }, + { + "epoch": 0.958848, + "grad_norm": 0.03655008599162102, + "learning_rate": 1.360768e-05, + "loss": 0.0019, + "step": 149820 + }, + { + "epoch": 0.95888, + "grad_norm": 0.5894262790679932, + "learning_rate": 1.3607466666666668e-05, + "loss": 0.0141, + "step": 149825 + }, + { + "epoch": 0.958912, + "grad_norm": 0.6588048338890076, + "learning_rate": 1.3607253333333334e-05, + "loss": 0.0034, + "step": 149830 + }, + { + "epoch": 0.958944, + "grad_norm": 0.4428178071975708, + "learning_rate": 1.360704e-05, + "loss": 0.0047, + "step": 149835 + }, + { + "epoch": 0.958976, + "grad_norm": 0.11845704168081284, + "learning_rate": 1.3606826666666669e-05, + "loss": 0.0079, + "step": 149840 + }, + { + "epoch": 0.959008, + "grad_norm": 0.5286475419998169, + "learning_rate": 1.3606613333333333e-05, + "loss": 0.0117, + "step": 149845 + }, + { + "epoch": 0.95904, + "grad_norm": 1.0915271043777466, + "learning_rate": 1.3606400000000002e-05, + "loss": 0.0107, + "step": 149850 + }, + { + "epoch": 0.959072, + "grad_norm": 0.4169732332229614, + "learning_rate": 1.3606186666666668e-05, + "loss": 0.0018, + "step": 149855 + }, + { + "epoch": 0.959104, + "grad_norm": 0.45625922083854675, + "learning_rate": 1.3605973333333336e-05, + "loss": 0.0033, + "step": 149860 + }, + { + "epoch": 0.959136, + "grad_norm": 0.0494612455368042, + "learning_rate": 1.3605760000000002e-05, + "loss": 0.005, + "step": 149865 + }, + { + "epoch": 0.959168, + "grad_norm": 0.03393663093447685, + "learning_rate": 1.3605546666666668e-05, + "loss": 0.0022, + "step": 149870 + }, + { + "epoch": 0.9592, + "grad_norm": 0.09096046537160873, + "learning_rate": 1.3605333333333335e-05, + "loss": 0.004, + "step": 149875 + }, + { + "epoch": 0.959232, + "grad_norm": 0.3857514262199402, + "learning_rate": 1.3605120000000001e-05, + "loss": 0.002, + "step": 149880 + }, + { + "epoch": 0.959264, + "grad_norm": 0.10675039887428284, + "learning_rate": 1.3604906666666669e-05, + "loss": 0.0034, + "step": 149885 + }, + { + "epoch": 0.959296, + "grad_norm": 0.07715236395597458, + "learning_rate": 1.3604693333333334e-05, + "loss": 0.0109, + "step": 149890 + }, + { + "epoch": 0.959328, + "grad_norm": 0.5771945714950562, + "learning_rate": 1.3604480000000002e-05, + "loss": 0.0093, + "step": 149895 + }, + { + "epoch": 0.95936, + "grad_norm": 0.46383294463157654, + "learning_rate": 1.3604266666666668e-05, + "loss": 0.0052, + "step": 149900 + }, + { + "epoch": 0.959392, + "grad_norm": 0.3058345317840576, + "learning_rate": 1.3604053333333334e-05, + "loss": 0.0062, + "step": 149905 + }, + { + "epoch": 0.959424, + "grad_norm": 0.024275442585349083, + "learning_rate": 1.3603840000000001e-05, + "loss": 0.0085, + "step": 149910 + }, + { + "epoch": 0.959456, + "grad_norm": 0.04965128377079964, + "learning_rate": 1.3603626666666667e-05, + "loss": 0.0065, + "step": 149915 + }, + { + "epoch": 0.959488, + "grad_norm": 1.4965423345565796, + "learning_rate": 1.3603413333333335e-05, + "loss": 0.0193, + "step": 149920 + }, + { + "epoch": 0.95952, + "grad_norm": 0.13973017036914825, + "learning_rate": 1.36032e-05, + "loss": 0.0073, + "step": 149925 + }, + { + "epoch": 0.959552, + "grad_norm": 0.6386704444885254, + "learning_rate": 1.3602986666666668e-05, + "loss": 0.0037, + "step": 149930 + }, + { + "epoch": 0.959584, + "grad_norm": 0.5062592625617981, + "learning_rate": 1.3602773333333334e-05, + "loss": 0.015, + "step": 149935 + }, + { + "epoch": 0.959616, + "grad_norm": 0.043845683336257935, + "learning_rate": 1.360256e-05, + "loss": 0.0043, + "step": 149940 + }, + { + "epoch": 0.959648, + "grad_norm": 1.0212178230285645, + "learning_rate": 1.3602346666666667e-05, + "loss": 0.0048, + "step": 149945 + }, + { + "epoch": 0.95968, + "grad_norm": 0.449964702129364, + "learning_rate": 1.3602133333333333e-05, + "loss": 0.0038, + "step": 149950 + }, + { + "epoch": 0.959712, + "grad_norm": 0.3281998932361603, + "learning_rate": 1.3601920000000002e-05, + "loss": 0.0042, + "step": 149955 + }, + { + "epoch": 0.959744, + "grad_norm": 0.22805121541023254, + "learning_rate": 1.3601706666666668e-05, + "loss": 0.0052, + "step": 149960 + }, + { + "epoch": 0.959776, + "grad_norm": 0.2300453633069992, + "learning_rate": 1.3601493333333336e-05, + "loss": 0.0141, + "step": 149965 + }, + { + "epoch": 0.959808, + "grad_norm": 0.01754624769091606, + "learning_rate": 1.3601280000000002e-05, + "loss": 0.0093, + "step": 149970 + }, + { + "epoch": 0.95984, + "grad_norm": 0.9309759736061096, + "learning_rate": 1.3601066666666668e-05, + "loss": 0.0036, + "step": 149975 + }, + { + "epoch": 0.959872, + "grad_norm": 0.1664646863937378, + "learning_rate": 1.3600853333333335e-05, + "loss": 0.0054, + "step": 149980 + }, + { + "epoch": 0.959904, + "grad_norm": 0.4748885929584503, + "learning_rate": 1.3600640000000001e-05, + "loss": 0.0034, + "step": 149985 + }, + { + "epoch": 0.959936, + "grad_norm": 0.5550451874732971, + "learning_rate": 1.3600426666666669e-05, + "loss": 0.01, + "step": 149990 + }, + { + "epoch": 0.959968, + "grad_norm": 0.08689144998788834, + "learning_rate": 1.3600213333333334e-05, + "loss": 0.0012, + "step": 149995 + }, + { + "epoch": 0.96, + "grad_norm": 0.049458764493465424, + "learning_rate": 1.3600000000000002e-05, + "loss": 0.0086, + "step": 150000 + }, + { + "epoch": 0.960032, + "grad_norm": 0.05390159413218498, + "learning_rate": 1.3599786666666668e-05, + "loss": 0.0073, + "step": 150005 + }, + { + "epoch": 0.960064, + "grad_norm": 0.0961097851395607, + "learning_rate": 1.3599573333333334e-05, + "loss": 0.0067, + "step": 150010 + }, + { + "epoch": 0.960096, + "grad_norm": 0.08252940326929092, + "learning_rate": 1.3599360000000001e-05, + "loss": 0.0049, + "step": 150015 + }, + { + "epoch": 0.960128, + "grad_norm": 0.042175814509391785, + "learning_rate": 1.3599146666666667e-05, + "loss": 0.007, + "step": 150020 + }, + { + "epoch": 0.96016, + "grad_norm": 0.4599919319152832, + "learning_rate": 1.3598933333333335e-05, + "loss": 0.003, + "step": 150025 + }, + { + "epoch": 0.960192, + "grad_norm": 0.005389448255300522, + "learning_rate": 1.359872e-05, + "loss": 0.0033, + "step": 150030 + }, + { + "epoch": 0.960224, + "grad_norm": 0.01106899045407772, + "learning_rate": 1.3598506666666668e-05, + "loss": 0.0011, + "step": 150035 + }, + { + "epoch": 0.960256, + "grad_norm": 0.18548962473869324, + "learning_rate": 1.3598293333333334e-05, + "loss": 0.0017, + "step": 150040 + }, + { + "epoch": 0.960288, + "grad_norm": 0.4193933606147766, + "learning_rate": 1.359808e-05, + "loss": 0.0066, + "step": 150045 + }, + { + "epoch": 0.96032, + "grad_norm": 1.2840428352355957, + "learning_rate": 1.3597866666666667e-05, + "loss": 0.0079, + "step": 150050 + }, + { + "epoch": 0.960352, + "grad_norm": 0.35743430256843567, + "learning_rate": 1.3597653333333333e-05, + "loss": 0.0047, + "step": 150055 + }, + { + "epoch": 0.960384, + "grad_norm": 0.28358665108680725, + "learning_rate": 1.3597440000000002e-05, + "loss": 0.0073, + "step": 150060 + }, + { + "epoch": 0.960416, + "grad_norm": 0.09379012137651443, + "learning_rate": 1.3597226666666668e-05, + "loss": 0.013, + "step": 150065 + }, + { + "epoch": 0.960448, + "grad_norm": 0.39618921279907227, + "learning_rate": 1.3597013333333336e-05, + "loss": 0.0029, + "step": 150070 + }, + { + "epoch": 0.96048, + "grad_norm": 0.23611032962799072, + "learning_rate": 1.3596800000000002e-05, + "loss": 0.0103, + "step": 150075 + }, + { + "epoch": 0.960512, + "grad_norm": 0.4666849970817566, + "learning_rate": 1.3596586666666668e-05, + "loss": 0.0063, + "step": 150080 + }, + { + "epoch": 0.960544, + "grad_norm": 0.08602418750524521, + "learning_rate": 1.3596373333333335e-05, + "loss": 0.0024, + "step": 150085 + }, + { + "epoch": 0.960576, + "grad_norm": 0.8740081191062927, + "learning_rate": 1.3596160000000001e-05, + "loss": 0.0117, + "step": 150090 + }, + { + "epoch": 0.960608, + "grad_norm": 0.17566470801830292, + "learning_rate": 1.3595946666666669e-05, + "loss": 0.0488, + "step": 150095 + }, + { + "epoch": 0.96064, + "grad_norm": 1.9052754640579224, + "learning_rate": 1.3595733333333334e-05, + "loss": 0.019, + "step": 150100 + }, + { + "epoch": 0.960672, + "grad_norm": 0.4509905278682709, + "learning_rate": 1.3595520000000002e-05, + "loss": 0.004, + "step": 150105 + }, + { + "epoch": 0.960704, + "grad_norm": 0.004718647804111242, + "learning_rate": 1.3595306666666668e-05, + "loss": 0.0037, + "step": 150110 + }, + { + "epoch": 0.960736, + "grad_norm": 0.7121140360832214, + "learning_rate": 1.3595093333333334e-05, + "loss": 0.0089, + "step": 150115 + }, + { + "epoch": 0.960768, + "grad_norm": 0.480282187461853, + "learning_rate": 1.3594880000000001e-05, + "loss": 0.0038, + "step": 150120 + }, + { + "epoch": 0.9608, + "grad_norm": 0.38509106636047363, + "learning_rate": 1.3594666666666667e-05, + "loss": 0.0113, + "step": 150125 + }, + { + "epoch": 0.960832, + "grad_norm": 0.6982980370521545, + "learning_rate": 1.3594453333333335e-05, + "loss": 0.0099, + "step": 150130 + }, + { + "epoch": 0.960864, + "grad_norm": 4.244316101074219, + "learning_rate": 1.359424e-05, + "loss": 0.0163, + "step": 150135 + }, + { + "epoch": 0.960896, + "grad_norm": 1.227940559387207, + "learning_rate": 1.3594026666666668e-05, + "loss": 0.0048, + "step": 150140 + }, + { + "epoch": 0.960928, + "grad_norm": 0.053399067372083664, + "learning_rate": 1.3593813333333334e-05, + "loss": 0.0026, + "step": 150145 + }, + { + "epoch": 0.96096, + "grad_norm": 1.2670691013336182, + "learning_rate": 1.35936e-05, + "loss": 0.0072, + "step": 150150 + }, + { + "epoch": 0.960992, + "grad_norm": 0.10345683991909027, + "learning_rate": 1.3593386666666667e-05, + "loss": 0.0061, + "step": 150155 + }, + { + "epoch": 0.961024, + "grad_norm": 0.38758450746536255, + "learning_rate": 1.3593173333333333e-05, + "loss": 0.0053, + "step": 150160 + }, + { + "epoch": 0.961056, + "grad_norm": 0.7538261413574219, + "learning_rate": 1.3592960000000002e-05, + "loss": 0.0062, + "step": 150165 + }, + { + "epoch": 0.961088, + "grad_norm": 0.4462665021419525, + "learning_rate": 1.3592746666666667e-05, + "loss": 0.014, + "step": 150170 + }, + { + "epoch": 0.96112, + "grad_norm": 0.020410757511854172, + "learning_rate": 1.3592533333333336e-05, + "loss": 0.0011, + "step": 150175 + }, + { + "epoch": 0.961152, + "grad_norm": 3.042383909225464, + "learning_rate": 1.3592320000000002e-05, + "loss": 0.0047, + "step": 150180 + }, + { + "epoch": 0.961184, + "grad_norm": 0.1273956149816513, + "learning_rate": 1.3592106666666668e-05, + "loss": 0.001, + "step": 150185 + }, + { + "epoch": 0.961216, + "grad_norm": 0.6487346291542053, + "learning_rate": 1.3591893333333335e-05, + "loss": 0.0056, + "step": 150190 + }, + { + "epoch": 0.961248, + "grad_norm": 0.4101000130176544, + "learning_rate": 1.3591680000000001e-05, + "loss": 0.0063, + "step": 150195 + }, + { + "epoch": 0.96128, + "grad_norm": 0.04999895766377449, + "learning_rate": 1.3591466666666669e-05, + "loss": 0.0076, + "step": 150200 + }, + { + "epoch": 0.961312, + "grad_norm": 0.9672728776931763, + "learning_rate": 1.3591253333333334e-05, + "loss": 0.0096, + "step": 150205 + }, + { + "epoch": 0.961344, + "grad_norm": 0.08074071258306503, + "learning_rate": 1.3591040000000002e-05, + "loss": 0.0129, + "step": 150210 + }, + { + "epoch": 0.961376, + "grad_norm": 0.16503044962882996, + "learning_rate": 1.3590826666666668e-05, + "loss": 0.0037, + "step": 150215 + }, + { + "epoch": 0.961408, + "grad_norm": 0.1701430231332779, + "learning_rate": 1.3590613333333334e-05, + "loss": 0.0051, + "step": 150220 + }, + { + "epoch": 0.96144, + "grad_norm": 0.008202508091926575, + "learning_rate": 1.3590400000000001e-05, + "loss": 0.0042, + "step": 150225 + }, + { + "epoch": 0.961472, + "grad_norm": 2.487368106842041, + "learning_rate": 1.3590186666666667e-05, + "loss": 0.0133, + "step": 150230 + }, + { + "epoch": 0.961504, + "grad_norm": 0.5743405818939209, + "learning_rate": 1.3589973333333335e-05, + "loss": 0.0053, + "step": 150235 + }, + { + "epoch": 0.961536, + "grad_norm": 0.7296951413154602, + "learning_rate": 1.358976e-05, + "loss": 0.0169, + "step": 150240 + }, + { + "epoch": 0.961568, + "grad_norm": 0.15576685965061188, + "learning_rate": 1.3589546666666668e-05, + "loss": 0.0095, + "step": 150245 + }, + { + "epoch": 0.9616, + "grad_norm": 1.0539096593856812, + "learning_rate": 1.3589333333333334e-05, + "loss": 0.0133, + "step": 150250 + }, + { + "epoch": 0.961632, + "grad_norm": 0.6250768303871155, + "learning_rate": 1.358912e-05, + "loss": 0.0062, + "step": 150255 + }, + { + "epoch": 0.961664, + "grad_norm": 0.08880776911973953, + "learning_rate": 1.3588906666666667e-05, + "loss": 0.0047, + "step": 150260 + }, + { + "epoch": 0.961696, + "grad_norm": 0.6985788941383362, + "learning_rate": 1.3588693333333333e-05, + "loss": 0.0125, + "step": 150265 + }, + { + "epoch": 0.961728, + "grad_norm": 0.44316336512565613, + "learning_rate": 1.3588480000000002e-05, + "loss": 0.007, + "step": 150270 + }, + { + "epoch": 0.96176, + "grad_norm": 0.019988344982266426, + "learning_rate": 1.3588266666666667e-05, + "loss": 0.0086, + "step": 150275 + }, + { + "epoch": 0.961792, + "grad_norm": 0.6005958914756775, + "learning_rate": 1.3588053333333336e-05, + "loss": 0.0038, + "step": 150280 + }, + { + "epoch": 0.961824, + "grad_norm": 1.2319287061691284, + "learning_rate": 1.3587840000000002e-05, + "loss": 0.0103, + "step": 150285 + }, + { + "epoch": 0.961856, + "grad_norm": 0.27480512857437134, + "learning_rate": 1.3587626666666668e-05, + "loss": 0.0056, + "step": 150290 + }, + { + "epoch": 0.961888, + "grad_norm": 0.22981368005275726, + "learning_rate": 1.3587413333333335e-05, + "loss": 0.0014, + "step": 150295 + }, + { + "epoch": 0.96192, + "grad_norm": 1.317596673965454, + "learning_rate": 1.3587200000000001e-05, + "loss": 0.029, + "step": 150300 + }, + { + "epoch": 0.961952, + "grad_norm": 0.6335934996604919, + "learning_rate": 1.3586986666666669e-05, + "loss": 0.0084, + "step": 150305 + }, + { + "epoch": 0.961984, + "grad_norm": 0.7284870743751526, + "learning_rate": 1.3586773333333334e-05, + "loss": 0.0059, + "step": 150310 + }, + { + "epoch": 0.962016, + "grad_norm": 0.7156001925468445, + "learning_rate": 1.3586560000000002e-05, + "loss": 0.0463, + "step": 150315 + }, + { + "epoch": 0.962048, + "grad_norm": 0.740313708782196, + "learning_rate": 1.3586346666666668e-05, + "loss": 0.0152, + "step": 150320 + }, + { + "epoch": 0.96208, + "grad_norm": 0.4000072181224823, + "learning_rate": 1.3586133333333334e-05, + "loss": 0.0065, + "step": 150325 + }, + { + "epoch": 0.962112, + "grad_norm": 0.5068411231040955, + "learning_rate": 1.3585920000000001e-05, + "loss": 0.0024, + "step": 150330 + }, + { + "epoch": 0.962144, + "grad_norm": 0.27402547001838684, + "learning_rate": 1.3585706666666667e-05, + "loss": 0.0103, + "step": 150335 + }, + { + "epoch": 0.962176, + "grad_norm": 0.3627189099788666, + "learning_rate": 1.3585493333333335e-05, + "loss": 0.0163, + "step": 150340 + }, + { + "epoch": 0.962208, + "grad_norm": 0.31761181354522705, + "learning_rate": 1.358528e-05, + "loss": 0.0019, + "step": 150345 + }, + { + "epoch": 0.96224, + "grad_norm": 0.13744927942752838, + "learning_rate": 1.3585066666666668e-05, + "loss": 0.0141, + "step": 150350 + }, + { + "epoch": 0.962272, + "grad_norm": 0.059458810836076736, + "learning_rate": 1.3584853333333334e-05, + "loss": 0.0147, + "step": 150355 + }, + { + "epoch": 0.962304, + "grad_norm": 0.48683059215545654, + "learning_rate": 1.358464e-05, + "loss": 0.0035, + "step": 150360 + }, + { + "epoch": 0.962336, + "grad_norm": 0.04769188538193703, + "learning_rate": 1.3584426666666667e-05, + "loss": 0.0042, + "step": 150365 + }, + { + "epoch": 0.962368, + "grad_norm": 0.11640473455190659, + "learning_rate": 1.3584213333333333e-05, + "loss": 0.0053, + "step": 150370 + }, + { + "epoch": 0.9624, + "grad_norm": 0.017409689724445343, + "learning_rate": 1.3584000000000002e-05, + "loss": 0.0176, + "step": 150375 + }, + { + "epoch": 0.962432, + "grad_norm": 0.08476130664348602, + "learning_rate": 1.3583786666666667e-05, + "loss": 0.0115, + "step": 150380 + }, + { + "epoch": 0.962464, + "grad_norm": 0.015276184305548668, + "learning_rate": 1.3583573333333336e-05, + "loss": 0.0053, + "step": 150385 + }, + { + "epoch": 0.962496, + "grad_norm": 0.3719610869884491, + "learning_rate": 1.3583360000000002e-05, + "loss": 0.004, + "step": 150390 + }, + { + "epoch": 0.962528, + "grad_norm": 0.3570592701435089, + "learning_rate": 1.3583146666666666e-05, + "loss": 0.0116, + "step": 150395 + }, + { + "epoch": 0.96256, + "grad_norm": 0.17377911508083344, + "learning_rate": 1.3582933333333335e-05, + "loss": 0.0031, + "step": 150400 + }, + { + "epoch": 0.962592, + "grad_norm": 0.2096448838710785, + "learning_rate": 1.3582720000000001e-05, + "loss": 0.006, + "step": 150405 + }, + { + "epoch": 0.962624, + "grad_norm": 0.3260105550289154, + "learning_rate": 1.3582506666666669e-05, + "loss": 0.0098, + "step": 150410 + }, + { + "epoch": 0.962656, + "grad_norm": 0.5002468824386597, + "learning_rate": 1.3582293333333334e-05, + "loss": 0.012, + "step": 150415 + }, + { + "epoch": 0.962688, + "grad_norm": 0.08111966401338577, + "learning_rate": 1.3582080000000002e-05, + "loss": 0.0309, + "step": 150420 + }, + { + "epoch": 0.96272, + "grad_norm": 0.6773596405982971, + "learning_rate": 1.3581866666666668e-05, + "loss": 0.0113, + "step": 150425 + }, + { + "epoch": 0.962752, + "grad_norm": 0.34312495589256287, + "learning_rate": 1.3581653333333334e-05, + "loss": 0.0116, + "step": 150430 + }, + { + "epoch": 0.962784, + "grad_norm": 0.32866165041923523, + "learning_rate": 1.3581440000000001e-05, + "loss": 0.007, + "step": 150435 + }, + { + "epoch": 0.962816, + "grad_norm": 0.5341288447380066, + "learning_rate": 1.3581226666666667e-05, + "loss": 0.0066, + "step": 150440 + }, + { + "epoch": 0.962848, + "grad_norm": 0.03204789012670517, + "learning_rate": 1.3581013333333335e-05, + "loss": 0.0073, + "step": 150445 + }, + { + "epoch": 0.96288, + "grad_norm": 0.26996007561683655, + "learning_rate": 1.35808e-05, + "loss": 0.0031, + "step": 150450 + }, + { + "epoch": 0.962912, + "grad_norm": 0.4592914879322052, + "learning_rate": 1.3580586666666668e-05, + "loss": 0.0052, + "step": 150455 + }, + { + "epoch": 0.962944, + "grad_norm": 1.3074960708618164, + "learning_rate": 1.3580373333333334e-05, + "loss": 0.0136, + "step": 150460 + }, + { + "epoch": 0.962976, + "grad_norm": 0.04423944652080536, + "learning_rate": 1.358016e-05, + "loss": 0.0104, + "step": 150465 + }, + { + "epoch": 0.963008, + "grad_norm": 0.2153927981853485, + "learning_rate": 1.3579946666666667e-05, + "loss": 0.003, + "step": 150470 + }, + { + "epoch": 0.96304, + "grad_norm": 0.5172204375267029, + "learning_rate": 1.3579733333333333e-05, + "loss": 0.0055, + "step": 150475 + }, + { + "epoch": 0.963072, + "grad_norm": 0.15879103541374207, + "learning_rate": 1.3579520000000002e-05, + "loss": 0.0067, + "step": 150480 + }, + { + "epoch": 0.963104, + "grad_norm": 0.3552130460739136, + "learning_rate": 1.3579306666666667e-05, + "loss": 0.0063, + "step": 150485 + }, + { + "epoch": 0.963136, + "grad_norm": 0.05250251665711403, + "learning_rate": 1.3579093333333336e-05, + "loss": 0.0029, + "step": 150490 + }, + { + "epoch": 0.963168, + "grad_norm": 0.5184616446495056, + "learning_rate": 1.3578880000000002e-05, + "loss": 0.0054, + "step": 150495 + }, + { + "epoch": 0.9632, + "grad_norm": 0.36218494176864624, + "learning_rate": 1.357866666666667e-05, + "loss": 0.0085, + "step": 150500 + }, + { + "epoch": 0.963232, + "grad_norm": 0.3509754538536072, + "learning_rate": 1.3578453333333335e-05, + "loss": 0.005, + "step": 150505 + }, + { + "epoch": 0.963264, + "grad_norm": 0.07111615687608719, + "learning_rate": 1.3578240000000001e-05, + "loss": 0.0052, + "step": 150510 + }, + { + "epoch": 0.963296, + "grad_norm": 0.15175041556358337, + "learning_rate": 1.3578026666666669e-05, + "loss": 0.0245, + "step": 150515 + }, + { + "epoch": 0.963328, + "grad_norm": 0.11506103724241257, + "learning_rate": 1.3577813333333334e-05, + "loss": 0.0023, + "step": 150520 + }, + { + "epoch": 0.96336, + "grad_norm": 0.8327592611312866, + "learning_rate": 1.3577600000000002e-05, + "loss": 0.0104, + "step": 150525 + }, + { + "epoch": 0.963392, + "grad_norm": 0.39241284132003784, + "learning_rate": 1.3577386666666668e-05, + "loss": 0.0189, + "step": 150530 + }, + { + "epoch": 0.963424, + "grad_norm": 0.10706957429647446, + "learning_rate": 1.3577173333333335e-05, + "loss": 0.0067, + "step": 150535 + }, + { + "epoch": 0.963456, + "grad_norm": 0.5836966037750244, + "learning_rate": 1.3576960000000001e-05, + "loss": 0.0066, + "step": 150540 + }, + { + "epoch": 0.963488, + "grad_norm": 0.5810624361038208, + "learning_rate": 1.3576746666666667e-05, + "loss": 0.0113, + "step": 150545 + }, + { + "epoch": 0.96352, + "grad_norm": 0.15973080694675446, + "learning_rate": 1.3576533333333335e-05, + "loss": 0.0061, + "step": 150550 + }, + { + "epoch": 0.963552, + "grad_norm": 0.28292182087898254, + "learning_rate": 1.357632e-05, + "loss": 0.0115, + "step": 150555 + }, + { + "epoch": 0.963584, + "grad_norm": 1.0204981565475464, + "learning_rate": 1.3576106666666668e-05, + "loss": 0.0043, + "step": 150560 + }, + { + "epoch": 0.963616, + "grad_norm": 0.066390261054039, + "learning_rate": 1.3575893333333334e-05, + "loss": 0.0028, + "step": 150565 + }, + { + "epoch": 0.963648, + "grad_norm": 0.4062194228172302, + "learning_rate": 1.3575680000000001e-05, + "loss": 0.0037, + "step": 150570 + }, + { + "epoch": 0.96368, + "grad_norm": 0.25655239820480347, + "learning_rate": 1.3575466666666667e-05, + "loss": 0.0052, + "step": 150575 + }, + { + "epoch": 0.963712, + "grad_norm": 0.09198576211929321, + "learning_rate": 1.3575253333333333e-05, + "loss": 0.0082, + "step": 150580 + }, + { + "epoch": 0.963744, + "grad_norm": 1.0639894008636475, + "learning_rate": 1.357504e-05, + "loss": 0.0036, + "step": 150585 + }, + { + "epoch": 0.963776, + "grad_norm": 0.4126644432544708, + "learning_rate": 1.3574826666666667e-05, + "loss": 0.0099, + "step": 150590 + }, + { + "epoch": 0.963808, + "grad_norm": 1.1832867860794067, + "learning_rate": 1.3574613333333336e-05, + "loss": 0.0066, + "step": 150595 + }, + { + "epoch": 0.96384, + "grad_norm": 1.1386677026748657, + "learning_rate": 1.3574400000000002e-05, + "loss": 0.0065, + "step": 150600 + }, + { + "epoch": 0.963872, + "grad_norm": 0.5165079236030579, + "learning_rate": 1.357418666666667e-05, + "loss": 0.012, + "step": 150605 + }, + { + "epoch": 0.963904, + "grad_norm": 0.1510469913482666, + "learning_rate": 1.3573973333333335e-05, + "loss": 0.0138, + "step": 150610 + }, + { + "epoch": 0.963936, + "grad_norm": 0.027231652289628983, + "learning_rate": 1.3573760000000001e-05, + "loss": 0.0053, + "step": 150615 + }, + { + "epoch": 0.963968, + "grad_norm": 0.024699250236153603, + "learning_rate": 1.3573546666666669e-05, + "loss": 0.0011, + "step": 150620 + }, + { + "epoch": 0.964, + "grad_norm": 0.07860694825649261, + "learning_rate": 1.3573333333333334e-05, + "loss": 0.0189, + "step": 150625 + }, + { + "epoch": 0.964032, + "grad_norm": 0.23185522854328156, + "learning_rate": 1.3573120000000002e-05, + "loss": 0.0041, + "step": 150630 + }, + { + "epoch": 0.964064, + "grad_norm": 0.01998230069875717, + "learning_rate": 1.3572906666666668e-05, + "loss": 0.0041, + "step": 150635 + }, + { + "epoch": 0.964096, + "grad_norm": 0.3161490559577942, + "learning_rate": 1.3572693333333335e-05, + "loss": 0.0028, + "step": 150640 + }, + { + "epoch": 0.964128, + "grad_norm": 0.031012656167149544, + "learning_rate": 1.3572480000000001e-05, + "loss": 0.002, + "step": 150645 + }, + { + "epoch": 0.96416, + "grad_norm": 0.011895854026079178, + "learning_rate": 1.3572266666666667e-05, + "loss": 0.0018, + "step": 150650 + }, + { + "epoch": 0.964192, + "grad_norm": 1.813711404800415, + "learning_rate": 1.3572053333333335e-05, + "loss": 0.0034, + "step": 150655 + }, + { + "epoch": 0.964224, + "grad_norm": 0.20009757578372955, + "learning_rate": 1.357184e-05, + "loss": 0.0036, + "step": 150660 + }, + { + "epoch": 0.964256, + "grad_norm": 0.056280527263879776, + "learning_rate": 1.3571626666666668e-05, + "loss": 0.0107, + "step": 150665 + }, + { + "epoch": 0.964288, + "grad_norm": 0.042259663343429565, + "learning_rate": 1.3571413333333334e-05, + "loss": 0.0023, + "step": 150670 + }, + { + "epoch": 0.96432, + "grad_norm": 0.39194485545158386, + "learning_rate": 1.3571200000000001e-05, + "loss": 0.0028, + "step": 150675 + }, + { + "epoch": 0.964352, + "grad_norm": 0.07045063376426697, + "learning_rate": 1.3570986666666667e-05, + "loss": 0.007, + "step": 150680 + }, + { + "epoch": 0.964384, + "grad_norm": 0.08081617951393127, + "learning_rate": 1.3570773333333333e-05, + "loss": 0.0076, + "step": 150685 + }, + { + "epoch": 0.964416, + "grad_norm": 0.23982112109661102, + "learning_rate": 1.357056e-05, + "loss": 0.0048, + "step": 150690 + }, + { + "epoch": 0.964448, + "grad_norm": 0.12183135002851486, + "learning_rate": 1.3570346666666667e-05, + "loss": 0.0095, + "step": 150695 + }, + { + "epoch": 0.96448, + "grad_norm": 0.1794840395450592, + "learning_rate": 1.3570133333333336e-05, + "loss": 0.0113, + "step": 150700 + }, + { + "epoch": 0.964512, + "grad_norm": 1.3727973699569702, + "learning_rate": 1.3569920000000002e-05, + "loss": 0.0077, + "step": 150705 + }, + { + "epoch": 0.964544, + "grad_norm": 0.4824043810367584, + "learning_rate": 1.356970666666667e-05, + "loss": 0.0078, + "step": 150710 + }, + { + "epoch": 0.964576, + "grad_norm": 0.5594415664672852, + "learning_rate": 1.3569493333333335e-05, + "loss": 0.0042, + "step": 150715 + }, + { + "epoch": 0.964608, + "grad_norm": 0.6884874105453491, + "learning_rate": 1.3569280000000001e-05, + "loss": 0.008, + "step": 150720 + }, + { + "epoch": 0.96464, + "grad_norm": 1.465610146522522, + "learning_rate": 1.3569066666666669e-05, + "loss": 0.0061, + "step": 150725 + }, + { + "epoch": 0.964672, + "grad_norm": 0.8502295017242432, + "learning_rate": 1.3568853333333334e-05, + "loss": 0.0101, + "step": 150730 + }, + { + "epoch": 0.964704, + "grad_norm": 0.43062907457351685, + "learning_rate": 1.3568640000000002e-05, + "loss": 0.0043, + "step": 150735 + }, + { + "epoch": 0.964736, + "grad_norm": 0.47809088230133057, + "learning_rate": 1.3568426666666668e-05, + "loss": 0.0039, + "step": 150740 + }, + { + "epoch": 0.964768, + "grad_norm": 0.14629685878753662, + "learning_rate": 1.3568213333333335e-05, + "loss": 0.0044, + "step": 150745 + }, + { + "epoch": 0.9648, + "grad_norm": 0.17136985063552856, + "learning_rate": 1.3568000000000001e-05, + "loss": 0.0219, + "step": 150750 + }, + { + "epoch": 0.964832, + "grad_norm": 0.04946452006697655, + "learning_rate": 1.3567786666666667e-05, + "loss": 0.0102, + "step": 150755 + }, + { + "epoch": 0.964864, + "grad_norm": 0.11024415493011475, + "learning_rate": 1.3567573333333335e-05, + "loss": 0.0025, + "step": 150760 + }, + { + "epoch": 0.964896, + "grad_norm": 0.8018423914909363, + "learning_rate": 1.356736e-05, + "loss": 0.0049, + "step": 150765 + }, + { + "epoch": 0.964928, + "grad_norm": 0.5490462779998779, + "learning_rate": 1.3567146666666668e-05, + "loss": 0.007, + "step": 150770 + }, + { + "epoch": 0.96496, + "grad_norm": 0.47160854935646057, + "learning_rate": 1.3566933333333334e-05, + "loss": 0.0063, + "step": 150775 + }, + { + "epoch": 0.964992, + "grad_norm": 0.8408408164978027, + "learning_rate": 1.3566720000000001e-05, + "loss": 0.0109, + "step": 150780 + }, + { + "epoch": 0.965024, + "grad_norm": 0.4227454662322998, + "learning_rate": 1.3566506666666667e-05, + "loss": 0.0033, + "step": 150785 + }, + { + "epoch": 0.965056, + "grad_norm": 1.368323564529419, + "learning_rate": 1.3566293333333333e-05, + "loss": 0.0023, + "step": 150790 + }, + { + "epoch": 0.965088, + "grad_norm": 0.2717151939868927, + "learning_rate": 1.356608e-05, + "loss": 0.0058, + "step": 150795 + }, + { + "epoch": 0.96512, + "grad_norm": 0.4926704466342926, + "learning_rate": 1.3565866666666667e-05, + "loss": 0.0067, + "step": 150800 + }, + { + "epoch": 0.965152, + "grad_norm": 0.20957574248313904, + "learning_rate": 1.3565653333333336e-05, + "loss": 0.0033, + "step": 150805 + }, + { + "epoch": 0.965184, + "grad_norm": 0.3281024098396301, + "learning_rate": 1.356544e-05, + "loss": 0.0041, + "step": 150810 + }, + { + "epoch": 0.965216, + "grad_norm": 0.0807681754231453, + "learning_rate": 1.356522666666667e-05, + "loss": 0.0068, + "step": 150815 + }, + { + "epoch": 0.965248, + "grad_norm": 0.6416036486625671, + "learning_rate": 1.3565013333333335e-05, + "loss": 0.0084, + "step": 150820 + }, + { + "epoch": 0.96528, + "grad_norm": 0.8767411112785339, + "learning_rate": 1.3564800000000001e-05, + "loss": 0.004, + "step": 150825 + }, + { + "epoch": 0.965312, + "grad_norm": 1.0938705205917358, + "learning_rate": 1.3564586666666669e-05, + "loss": 0.007, + "step": 150830 + }, + { + "epoch": 0.965344, + "grad_norm": 0.006393397226929665, + "learning_rate": 1.3564373333333334e-05, + "loss": 0.0182, + "step": 150835 + }, + { + "epoch": 0.965376, + "grad_norm": 0.011967342346906662, + "learning_rate": 1.3564160000000002e-05, + "loss": 0.0104, + "step": 150840 + }, + { + "epoch": 0.965408, + "grad_norm": 0.572672426700592, + "learning_rate": 1.3563946666666668e-05, + "loss": 0.012, + "step": 150845 + }, + { + "epoch": 0.96544, + "grad_norm": 0.1691555678844452, + "learning_rate": 1.3563733333333335e-05, + "loss": 0.0106, + "step": 150850 + }, + { + "epoch": 0.965472, + "grad_norm": 0.2054523229598999, + "learning_rate": 1.3563520000000001e-05, + "loss": 0.0063, + "step": 150855 + }, + { + "epoch": 0.965504, + "grad_norm": 0.20777644217014313, + "learning_rate": 1.3563306666666667e-05, + "loss": 0.0041, + "step": 150860 + }, + { + "epoch": 0.965536, + "grad_norm": 0.33571693301200867, + "learning_rate": 1.3563093333333335e-05, + "loss": 0.0056, + "step": 150865 + }, + { + "epoch": 0.965568, + "grad_norm": 0.2523007392883301, + "learning_rate": 1.356288e-05, + "loss": 0.0167, + "step": 150870 + }, + { + "epoch": 0.9656, + "grad_norm": 0.3953470289707184, + "learning_rate": 1.3562666666666668e-05, + "loss": 0.0071, + "step": 150875 + }, + { + "epoch": 0.965632, + "grad_norm": 0.048743437975645065, + "learning_rate": 1.3562453333333334e-05, + "loss": 0.0137, + "step": 150880 + }, + { + "epoch": 0.965664, + "grad_norm": 0.10869695246219635, + "learning_rate": 1.3562240000000001e-05, + "loss": 0.003, + "step": 150885 + }, + { + "epoch": 0.965696, + "grad_norm": 0.8273941278457642, + "learning_rate": 1.3562026666666667e-05, + "loss": 0.0046, + "step": 150890 + }, + { + "epoch": 0.965728, + "grad_norm": 0.06814468652009964, + "learning_rate": 1.3561813333333333e-05, + "loss": 0.0171, + "step": 150895 + }, + { + "epoch": 0.96576, + "grad_norm": 0.13634753227233887, + "learning_rate": 1.35616e-05, + "loss": 0.0125, + "step": 150900 + }, + { + "epoch": 0.965792, + "grad_norm": 0.0172246303409338, + "learning_rate": 1.3561386666666667e-05, + "loss": 0.003, + "step": 150905 + }, + { + "epoch": 0.965824, + "grad_norm": 0.297259122133255, + "learning_rate": 1.3561173333333336e-05, + "loss": 0.0115, + "step": 150910 + }, + { + "epoch": 0.965856, + "grad_norm": 0.4091070592403412, + "learning_rate": 1.356096e-05, + "loss": 0.0044, + "step": 150915 + }, + { + "epoch": 0.965888, + "grad_norm": 0.2502705454826355, + "learning_rate": 1.356074666666667e-05, + "loss": 0.0116, + "step": 150920 + }, + { + "epoch": 0.96592, + "grad_norm": 0.10242890566587448, + "learning_rate": 1.3560533333333335e-05, + "loss": 0.0066, + "step": 150925 + }, + { + "epoch": 0.965952, + "grad_norm": 0.7346917986869812, + "learning_rate": 1.3560320000000001e-05, + "loss": 0.0089, + "step": 150930 + }, + { + "epoch": 0.965984, + "grad_norm": 0.03943461552262306, + "learning_rate": 1.3560106666666669e-05, + "loss": 0.0032, + "step": 150935 + }, + { + "epoch": 0.966016, + "grad_norm": 0.08670997619628906, + "learning_rate": 1.3559893333333334e-05, + "loss": 0.0052, + "step": 150940 + }, + { + "epoch": 0.966048, + "grad_norm": 0.24156400561332703, + "learning_rate": 1.3559680000000002e-05, + "loss": 0.0118, + "step": 150945 + }, + { + "epoch": 0.96608, + "grad_norm": 0.08396649360656738, + "learning_rate": 1.3559466666666668e-05, + "loss": 0.0007, + "step": 150950 + }, + { + "epoch": 0.966112, + "grad_norm": 0.9083136916160583, + "learning_rate": 1.3559253333333335e-05, + "loss": 0.0053, + "step": 150955 + }, + { + "epoch": 0.966144, + "grad_norm": 0.32326269149780273, + "learning_rate": 1.3559040000000001e-05, + "loss": 0.0034, + "step": 150960 + }, + { + "epoch": 0.966176, + "grad_norm": 0.3659306466579437, + "learning_rate": 1.3558826666666667e-05, + "loss": 0.015, + "step": 150965 + }, + { + "epoch": 0.966208, + "grad_norm": 0.9857606291770935, + "learning_rate": 1.3558613333333335e-05, + "loss": 0.0108, + "step": 150970 + }, + { + "epoch": 0.96624, + "grad_norm": 0.047455377876758575, + "learning_rate": 1.35584e-05, + "loss": 0.0041, + "step": 150975 + }, + { + "epoch": 0.966272, + "grad_norm": 0.1373775750398636, + "learning_rate": 1.3558186666666668e-05, + "loss": 0.0132, + "step": 150980 + }, + { + "epoch": 0.966304, + "grad_norm": 0.06450214982032776, + "learning_rate": 1.3557973333333334e-05, + "loss": 0.0069, + "step": 150985 + }, + { + "epoch": 0.966336, + "grad_norm": 0.30567383766174316, + "learning_rate": 1.3557760000000001e-05, + "loss": 0.0045, + "step": 150990 + }, + { + "epoch": 0.966368, + "grad_norm": 1.2016096115112305, + "learning_rate": 1.3557546666666667e-05, + "loss": 0.008, + "step": 150995 + }, + { + "epoch": 0.9664, + "grad_norm": 0.16936537623405457, + "learning_rate": 1.3557333333333333e-05, + "loss": 0.002, + "step": 151000 + }, + { + "epoch": 0.966432, + "grad_norm": 0.7017219066619873, + "learning_rate": 1.355712e-05, + "loss": 0.0114, + "step": 151005 + }, + { + "epoch": 0.966464, + "grad_norm": 0.009907709434628487, + "learning_rate": 1.3556906666666667e-05, + "loss": 0.003, + "step": 151010 + }, + { + "epoch": 0.966496, + "grad_norm": 0.23818302154541016, + "learning_rate": 1.3556693333333336e-05, + "loss": 0.0093, + "step": 151015 + }, + { + "epoch": 0.966528, + "grad_norm": 0.019139882177114487, + "learning_rate": 1.355648e-05, + "loss": 0.002, + "step": 151020 + }, + { + "epoch": 0.96656, + "grad_norm": 0.36229410767555237, + "learning_rate": 1.355626666666667e-05, + "loss": 0.0202, + "step": 151025 + }, + { + "epoch": 0.966592, + "grad_norm": 3.5858030319213867, + "learning_rate": 1.3556053333333335e-05, + "loss": 0.0088, + "step": 151030 + }, + { + "epoch": 0.966624, + "grad_norm": 0.13107554614543915, + "learning_rate": 1.355584e-05, + "loss": 0.0058, + "step": 151035 + }, + { + "epoch": 0.966656, + "grad_norm": 0.6704372763633728, + "learning_rate": 1.3555626666666669e-05, + "loss": 0.0339, + "step": 151040 + }, + { + "epoch": 0.966688, + "grad_norm": 0.2165716290473938, + "learning_rate": 1.3555413333333334e-05, + "loss": 0.0016, + "step": 151045 + }, + { + "epoch": 0.96672, + "grad_norm": 0.15041577816009521, + "learning_rate": 1.3555200000000002e-05, + "loss": 0.0048, + "step": 151050 + }, + { + "epoch": 0.966752, + "grad_norm": 0.5634533762931824, + "learning_rate": 1.3554986666666668e-05, + "loss": 0.008, + "step": 151055 + }, + { + "epoch": 0.966784, + "grad_norm": 0.1446935087442398, + "learning_rate": 1.3554773333333335e-05, + "loss": 0.0382, + "step": 151060 + }, + { + "epoch": 0.966816, + "grad_norm": 0.4180072546005249, + "learning_rate": 1.3554560000000001e-05, + "loss": 0.0141, + "step": 151065 + }, + { + "epoch": 0.966848, + "grad_norm": 0.6858534812927246, + "learning_rate": 1.3554346666666667e-05, + "loss": 0.0022, + "step": 151070 + }, + { + "epoch": 0.96688, + "grad_norm": 0.36090537905693054, + "learning_rate": 1.3554133333333335e-05, + "loss": 0.0096, + "step": 151075 + }, + { + "epoch": 0.966912, + "grad_norm": 0.11533263325691223, + "learning_rate": 1.355392e-05, + "loss": 0.0051, + "step": 151080 + }, + { + "epoch": 0.966944, + "grad_norm": 0.1054145023226738, + "learning_rate": 1.3553706666666668e-05, + "loss": 0.0063, + "step": 151085 + }, + { + "epoch": 0.966976, + "grad_norm": 1.1932357549667358, + "learning_rate": 1.3553493333333334e-05, + "loss": 0.0078, + "step": 151090 + }, + { + "epoch": 0.967008, + "grad_norm": 0.09030649065971375, + "learning_rate": 1.3553280000000001e-05, + "loss": 0.0107, + "step": 151095 + }, + { + "epoch": 0.96704, + "grad_norm": 0.08617840707302094, + "learning_rate": 1.3553066666666667e-05, + "loss": 0.0021, + "step": 151100 + }, + { + "epoch": 0.967072, + "grad_norm": 0.042931243777275085, + "learning_rate": 1.3552853333333333e-05, + "loss": 0.0033, + "step": 151105 + }, + { + "epoch": 0.967104, + "grad_norm": 0.08953215181827545, + "learning_rate": 1.355264e-05, + "loss": 0.0067, + "step": 151110 + }, + { + "epoch": 0.967136, + "grad_norm": 1.1251095533370972, + "learning_rate": 1.3552426666666667e-05, + "loss": 0.0093, + "step": 151115 + }, + { + "epoch": 0.967168, + "grad_norm": 0.06804513186216354, + "learning_rate": 1.3552213333333334e-05, + "loss": 0.0095, + "step": 151120 + }, + { + "epoch": 0.9672, + "grad_norm": 0.7434318661689758, + "learning_rate": 1.3552e-05, + "loss": 0.0138, + "step": 151125 + }, + { + "epoch": 0.967232, + "grad_norm": 0.24502897262573242, + "learning_rate": 1.355178666666667e-05, + "loss": 0.0031, + "step": 151130 + }, + { + "epoch": 0.967264, + "grad_norm": 0.03415356203913689, + "learning_rate": 1.3551573333333335e-05, + "loss": 0.0069, + "step": 151135 + }, + { + "epoch": 0.967296, + "grad_norm": 0.045119304209947586, + "learning_rate": 1.355136e-05, + "loss": 0.0031, + "step": 151140 + }, + { + "epoch": 0.967328, + "grad_norm": 0.0745963528752327, + "learning_rate": 1.3551146666666669e-05, + "loss": 0.0063, + "step": 151145 + }, + { + "epoch": 0.96736, + "grad_norm": 0.7538850903511047, + "learning_rate": 1.3550933333333334e-05, + "loss": 0.0063, + "step": 151150 + }, + { + "epoch": 0.967392, + "grad_norm": 2.37058424949646, + "learning_rate": 1.3550720000000002e-05, + "loss": 0.0187, + "step": 151155 + }, + { + "epoch": 0.967424, + "grad_norm": 0.3161419928073883, + "learning_rate": 1.3550506666666668e-05, + "loss": 0.002, + "step": 151160 + }, + { + "epoch": 0.967456, + "grad_norm": 0.5791620016098022, + "learning_rate": 1.3550293333333335e-05, + "loss": 0.018, + "step": 151165 + }, + { + "epoch": 0.967488, + "grad_norm": 0.07395382970571518, + "learning_rate": 1.3550080000000001e-05, + "loss": 0.0021, + "step": 151170 + }, + { + "epoch": 0.96752, + "grad_norm": 0.2195814549922943, + "learning_rate": 1.3549866666666667e-05, + "loss": 0.0227, + "step": 151175 + }, + { + "epoch": 0.967552, + "grad_norm": 0.08415578305721283, + "learning_rate": 1.3549653333333335e-05, + "loss": 0.0053, + "step": 151180 + }, + { + "epoch": 0.967584, + "grad_norm": 0.549472987651825, + "learning_rate": 1.354944e-05, + "loss": 0.0028, + "step": 151185 + }, + { + "epoch": 0.967616, + "grad_norm": 0.314852774143219, + "learning_rate": 1.3549226666666668e-05, + "loss": 0.0022, + "step": 151190 + }, + { + "epoch": 0.967648, + "grad_norm": 0.1010403037071228, + "learning_rate": 1.3549013333333334e-05, + "loss": 0.0016, + "step": 151195 + }, + { + "epoch": 0.96768, + "grad_norm": 0.2320765256881714, + "learning_rate": 1.3548800000000001e-05, + "loss": 0.0043, + "step": 151200 + }, + { + "epoch": 0.967712, + "grad_norm": 0.014955314807593822, + "learning_rate": 1.3548586666666667e-05, + "loss": 0.0022, + "step": 151205 + }, + { + "epoch": 0.967744, + "grad_norm": 0.9051156640052795, + "learning_rate": 1.3548373333333333e-05, + "loss": 0.0105, + "step": 151210 + }, + { + "epoch": 0.967776, + "grad_norm": 0.12748068571090698, + "learning_rate": 1.354816e-05, + "loss": 0.013, + "step": 151215 + }, + { + "epoch": 0.967808, + "grad_norm": 0.2698036730289459, + "learning_rate": 1.3547946666666667e-05, + "loss": 0.0147, + "step": 151220 + }, + { + "epoch": 0.96784, + "grad_norm": 0.8798859715461731, + "learning_rate": 1.3547733333333334e-05, + "loss": 0.0138, + "step": 151225 + }, + { + "epoch": 0.967872, + "grad_norm": 0.16669060289859772, + "learning_rate": 1.354752e-05, + "loss": 0.0027, + "step": 151230 + }, + { + "epoch": 0.967904, + "grad_norm": 1.1926023960113525, + "learning_rate": 1.354730666666667e-05, + "loss": 0.0033, + "step": 151235 + }, + { + "epoch": 0.967936, + "grad_norm": 0.7362229824066162, + "learning_rate": 1.3547093333333335e-05, + "loss": 0.0025, + "step": 151240 + }, + { + "epoch": 0.967968, + "grad_norm": 1.497621774673462, + "learning_rate": 1.354688e-05, + "loss": 0.0083, + "step": 151245 + }, + { + "epoch": 0.968, + "grad_norm": 0.02103581465780735, + "learning_rate": 1.3546666666666669e-05, + "loss": 0.0102, + "step": 151250 + }, + { + "epoch": 0.968032, + "grad_norm": 0.7367590665817261, + "learning_rate": 1.3546453333333334e-05, + "loss": 0.0051, + "step": 151255 + }, + { + "epoch": 0.968064, + "grad_norm": 0.824725866317749, + "learning_rate": 1.3546240000000002e-05, + "loss": 0.0068, + "step": 151260 + }, + { + "epoch": 0.968096, + "grad_norm": 0.022428520023822784, + "learning_rate": 1.3546026666666668e-05, + "loss": 0.0047, + "step": 151265 + }, + { + "epoch": 0.968128, + "grad_norm": 0.0977056547999382, + "learning_rate": 1.3545813333333335e-05, + "loss": 0.0009, + "step": 151270 + }, + { + "epoch": 0.96816, + "grad_norm": 0.42661216855049133, + "learning_rate": 1.3545600000000001e-05, + "loss": 0.0039, + "step": 151275 + }, + { + "epoch": 0.968192, + "grad_norm": 0.5829214453697205, + "learning_rate": 1.3545386666666667e-05, + "loss": 0.0146, + "step": 151280 + }, + { + "epoch": 0.968224, + "grad_norm": 0.09899581223726273, + "learning_rate": 1.3545173333333335e-05, + "loss": 0.0276, + "step": 151285 + }, + { + "epoch": 0.968256, + "grad_norm": 0.8218217492103577, + "learning_rate": 1.354496e-05, + "loss": 0.012, + "step": 151290 + }, + { + "epoch": 0.968288, + "grad_norm": 0.09820865839719772, + "learning_rate": 1.3544746666666668e-05, + "loss": 0.0043, + "step": 151295 + }, + { + "epoch": 0.96832, + "grad_norm": 2.148491382598877, + "learning_rate": 1.3544533333333334e-05, + "loss": 0.0108, + "step": 151300 + }, + { + "epoch": 0.968352, + "grad_norm": 0.21102380752563477, + "learning_rate": 1.3544320000000001e-05, + "loss": 0.0045, + "step": 151305 + }, + { + "epoch": 0.968384, + "grad_norm": 0.11966908723115921, + "learning_rate": 1.3544106666666667e-05, + "loss": 0.0036, + "step": 151310 + }, + { + "epoch": 0.968416, + "grad_norm": 0.02885293774306774, + "learning_rate": 1.3543893333333333e-05, + "loss": 0.0068, + "step": 151315 + }, + { + "epoch": 0.968448, + "grad_norm": 0.7274856567382812, + "learning_rate": 1.354368e-05, + "loss": 0.0147, + "step": 151320 + }, + { + "epoch": 0.96848, + "grad_norm": 0.2163289487361908, + "learning_rate": 1.3543466666666667e-05, + "loss": 0.0137, + "step": 151325 + }, + { + "epoch": 0.968512, + "grad_norm": 0.14983335137367249, + "learning_rate": 1.3543253333333334e-05, + "loss": 0.0035, + "step": 151330 + }, + { + "epoch": 0.968544, + "grad_norm": 0.12342441827058792, + "learning_rate": 1.354304e-05, + "loss": 0.0021, + "step": 151335 + }, + { + "epoch": 0.968576, + "grad_norm": 0.009540162049233913, + "learning_rate": 1.354282666666667e-05, + "loss": 0.0021, + "step": 151340 + }, + { + "epoch": 0.968608, + "grad_norm": 0.058927249163389206, + "learning_rate": 1.3542613333333333e-05, + "loss": 0.0067, + "step": 151345 + }, + { + "epoch": 0.96864, + "grad_norm": 0.7234389781951904, + "learning_rate": 1.3542400000000003e-05, + "loss": 0.0042, + "step": 151350 + }, + { + "epoch": 0.968672, + "grad_norm": 0.25186654925346375, + "learning_rate": 1.3542186666666669e-05, + "loss": 0.0052, + "step": 151355 + }, + { + "epoch": 0.968704, + "grad_norm": 0.02701275795698166, + "learning_rate": 1.3541973333333334e-05, + "loss": 0.0075, + "step": 151360 + }, + { + "epoch": 0.968736, + "grad_norm": 0.030163198709487915, + "learning_rate": 1.3541760000000002e-05, + "loss": 0.0066, + "step": 151365 + }, + { + "epoch": 0.968768, + "grad_norm": 0.13617347180843353, + "learning_rate": 1.3541546666666668e-05, + "loss": 0.0044, + "step": 151370 + }, + { + "epoch": 0.9688, + "grad_norm": 0.0808730274438858, + "learning_rate": 1.3541333333333335e-05, + "loss": 0.0038, + "step": 151375 + }, + { + "epoch": 0.968832, + "grad_norm": 0.19263280928134918, + "learning_rate": 1.3541120000000001e-05, + "loss": 0.0019, + "step": 151380 + }, + { + "epoch": 0.968864, + "grad_norm": 0.015237797051668167, + "learning_rate": 1.3540906666666669e-05, + "loss": 0.0065, + "step": 151385 + }, + { + "epoch": 0.968896, + "grad_norm": 0.015872756019234657, + "learning_rate": 1.3540693333333335e-05, + "loss": 0.0071, + "step": 151390 + }, + { + "epoch": 0.968928, + "grad_norm": 0.4736902415752411, + "learning_rate": 1.354048e-05, + "loss": 0.005, + "step": 151395 + }, + { + "epoch": 0.96896, + "grad_norm": 0.22962415218353271, + "learning_rate": 1.3540266666666668e-05, + "loss": 0.0022, + "step": 151400 + }, + { + "epoch": 0.968992, + "grad_norm": 0.02025500312447548, + "learning_rate": 1.3540053333333334e-05, + "loss": 0.0186, + "step": 151405 + }, + { + "epoch": 0.969024, + "grad_norm": 0.3197651505470276, + "learning_rate": 1.3539840000000001e-05, + "loss": 0.0063, + "step": 151410 + }, + { + "epoch": 0.969056, + "grad_norm": 0.21069204807281494, + "learning_rate": 1.3539626666666667e-05, + "loss": 0.0019, + "step": 151415 + }, + { + "epoch": 0.969088, + "grad_norm": 0.5133650302886963, + "learning_rate": 1.3539413333333335e-05, + "loss": 0.0283, + "step": 151420 + }, + { + "epoch": 0.96912, + "grad_norm": 0.0627942904829979, + "learning_rate": 1.35392e-05, + "loss": 0.0013, + "step": 151425 + }, + { + "epoch": 0.969152, + "grad_norm": 1.5309832096099854, + "learning_rate": 1.3538986666666667e-05, + "loss": 0.0182, + "step": 151430 + }, + { + "epoch": 0.969184, + "grad_norm": 0.06261780858039856, + "learning_rate": 1.3538773333333334e-05, + "loss": 0.0045, + "step": 151435 + }, + { + "epoch": 0.969216, + "grad_norm": 0.6632941961288452, + "learning_rate": 1.353856e-05, + "loss": 0.0138, + "step": 151440 + }, + { + "epoch": 0.969248, + "grad_norm": 0.5321240425109863, + "learning_rate": 1.353834666666667e-05, + "loss": 0.0112, + "step": 151445 + }, + { + "epoch": 0.96928, + "grad_norm": 0.053962066769599915, + "learning_rate": 1.3538133333333333e-05, + "loss": 0.0042, + "step": 151450 + }, + { + "epoch": 0.969312, + "grad_norm": 0.21284852921962738, + "learning_rate": 1.3537920000000003e-05, + "loss": 0.0066, + "step": 151455 + }, + { + "epoch": 0.969344, + "grad_norm": 0.01392052136361599, + "learning_rate": 1.3537706666666669e-05, + "loss": 0.0047, + "step": 151460 + }, + { + "epoch": 0.969376, + "grad_norm": 0.07582882046699524, + "learning_rate": 1.3537493333333334e-05, + "loss": 0.0029, + "step": 151465 + }, + { + "epoch": 0.969408, + "grad_norm": 0.16460734605789185, + "learning_rate": 1.3537280000000002e-05, + "loss": 0.0033, + "step": 151470 + }, + { + "epoch": 0.96944, + "grad_norm": 0.9971728920936584, + "learning_rate": 1.3537066666666668e-05, + "loss": 0.0047, + "step": 151475 + }, + { + "epoch": 0.969472, + "grad_norm": 0.1854373812675476, + "learning_rate": 1.3536853333333335e-05, + "loss": 0.011, + "step": 151480 + }, + { + "epoch": 0.969504, + "grad_norm": 0.20902606844902039, + "learning_rate": 1.3536640000000001e-05, + "loss": 0.0078, + "step": 151485 + }, + { + "epoch": 0.969536, + "grad_norm": 0.020482582971453667, + "learning_rate": 1.3536426666666669e-05, + "loss": 0.002, + "step": 151490 + }, + { + "epoch": 0.969568, + "grad_norm": 0.013808578252792358, + "learning_rate": 1.3536213333333335e-05, + "loss": 0.0196, + "step": 151495 + }, + { + "epoch": 0.9696, + "grad_norm": 1.3528474569320679, + "learning_rate": 1.3536e-05, + "loss": 0.0178, + "step": 151500 + }, + { + "epoch": 0.969632, + "grad_norm": 0.24290695786476135, + "learning_rate": 1.3535786666666668e-05, + "loss": 0.0029, + "step": 151505 + }, + { + "epoch": 0.969664, + "grad_norm": 1.0972471237182617, + "learning_rate": 1.3535573333333334e-05, + "loss": 0.0115, + "step": 151510 + }, + { + "epoch": 0.969696, + "grad_norm": 0.07312195003032684, + "learning_rate": 1.3535360000000001e-05, + "loss": 0.0071, + "step": 151515 + }, + { + "epoch": 0.969728, + "grad_norm": 0.009627975523471832, + "learning_rate": 1.3535146666666667e-05, + "loss": 0.0013, + "step": 151520 + }, + { + "epoch": 0.96976, + "grad_norm": 0.06677194684743881, + "learning_rate": 1.3534933333333335e-05, + "loss": 0.0025, + "step": 151525 + }, + { + "epoch": 0.969792, + "grad_norm": 1.2925162315368652, + "learning_rate": 1.353472e-05, + "loss": 0.0146, + "step": 151530 + }, + { + "epoch": 0.969824, + "grad_norm": 0.13716402649879456, + "learning_rate": 1.3534506666666667e-05, + "loss": 0.0127, + "step": 151535 + }, + { + "epoch": 0.969856, + "grad_norm": 0.4112464189529419, + "learning_rate": 1.3534293333333334e-05, + "loss": 0.01, + "step": 151540 + }, + { + "epoch": 0.969888, + "grad_norm": 0.13319118320941925, + "learning_rate": 1.353408e-05, + "loss": 0.0033, + "step": 151545 + }, + { + "epoch": 0.96992, + "grad_norm": 0.061748526990413666, + "learning_rate": 1.353386666666667e-05, + "loss": 0.0039, + "step": 151550 + }, + { + "epoch": 0.969952, + "grad_norm": 0.07768911123275757, + "learning_rate": 1.3533653333333333e-05, + "loss": 0.0086, + "step": 151555 + }, + { + "epoch": 0.969984, + "grad_norm": 0.5473384857177734, + "learning_rate": 1.3533440000000003e-05, + "loss": 0.0131, + "step": 151560 + }, + { + "epoch": 0.970016, + "grad_norm": 0.2052406668663025, + "learning_rate": 1.3533226666666669e-05, + "loss": 0.0065, + "step": 151565 + }, + { + "epoch": 0.970048, + "grad_norm": 0.34762462973594666, + "learning_rate": 1.3533013333333333e-05, + "loss": 0.0036, + "step": 151570 + }, + { + "epoch": 0.97008, + "grad_norm": 0.07264159619808197, + "learning_rate": 1.3532800000000002e-05, + "loss": 0.0051, + "step": 151575 + }, + { + "epoch": 0.970112, + "grad_norm": 0.634057879447937, + "learning_rate": 1.3532586666666668e-05, + "loss": 0.0083, + "step": 151580 + }, + { + "epoch": 0.970144, + "grad_norm": 0.31268906593322754, + "learning_rate": 1.3532373333333335e-05, + "loss": 0.0062, + "step": 151585 + }, + { + "epoch": 0.970176, + "grad_norm": 1.3270831108093262, + "learning_rate": 1.3532160000000001e-05, + "loss": 0.0034, + "step": 151590 + }, + { + "epoch": 0.970208, + "grad_norm": 0.6034096479415894, + "learning_rate": 1.3531946666666669e-05, + "loss": 0.0075, + "step": 151595 + }, + { + "epoch": 0.97024, + "grad_norm": 0.07158294320106506, + "learning_rate": 1.3531733333333335e-05, + "loss": 0.0057, + "step": 151600 + }, + { + "epoch": 0.970272, + "grad_norm": 0.4249349534511566, + "learning_rate": 1.353152e-05, + "loss": 0.0072, + "step": 151605 + }, + { + "epoch": 0.970304, + "grad_norm": 0.020200371742248535, + "learning_rate": 1.3531306666666668e-05, + "loss": 0.0047, + "step": 151610 + }, + { + "epoch": 0.970336, + "grad_norm": 0.16502393782138824, + "learning_rate": 1.3531093333333334e-05, + "loss": 0.0093, + "step": 151615 + }, + { + "epoch": 0.970368, + "grad_norm": 0.8364159464836121, + "learning_rate": 1.3530880000000001e-05, + "loss": 0.0332, + "step": 151620 + }, + { + "epoch": 0.9704, + "grad_norm": 0.07813011109828949, + "learning_rate": 1.3530666666666667e-05, + "loss": 0.0042, + "step": 151625 + }, + { + "epoch": 0.970432, + "grad_norm": 0.5146363973617554, + "learning_rate": 1.3530453333333335e-05, + "loss": 0.014, + "step": 151630 + }, + { + "epoch": 0.970464, + "grad_norm": 6.023550033569336, + "learning_rate": 1.353024e-05, + "loss": 0.0158, + "step": 151635 + }, + { + "epoch": 0.970496, + "grad_norm": 0.5591980218887329, + "learning_rate": 1.3530026666666667e-05, + "loss": 0.0032, + "step": 151640 + }, + { + "epoch": 0.970528, + "grad_norm": 0.07132372260093689, + "learning_rate": 1.3529813333333334e-05, + "loss": 0.0122, + "step": 151645 + }, + { + "epoch": 0.97056, + "grad_norm": 0.3695809841156006, + "learning_rate": 1.35296e-05, + "loss": 0.0025, + "step": 151650 + }, + { + "epoch": 0.970592, + "grad_norm": 0.776072084903717, + "learning_rate": 1.352938666666667e-05, + "loss": 0.0221, + "step": 151655 + }, + { + "epoch": 0.970624, + "grad_norm": 0.05369652062654495, + "learning_rate": 1.3529173333333333e-05, + "loss": 0.0102, + "step": 151660 + }, + { + "epoch": 0.970656, + "grad_norm": 0.2874126136302948, + "learning_rate": 1.3528960000000003e-05, + "loss": 0.0054, + "step": 151665 + }, + { + "epoch": 0.970688, + "grad_norm": 0.35205551981925964, + "learning_rate": 1.3528746666666669e-05, + "loss": 0.0073, + "step": 151670 + }, + { + "epoch": 0.97072, + "grad_norm": 0.5499811768531799, + "learning_rate": 1.3528533333333333e-05, + "loss": 0.0059, + "step": 151675 + }, + { + "epoch": 0.970752, + "grad_norm": 1.9561139345169067, + "learning_rate": 1.3528320000000002e-05, + "loss": 0.0086, + "step": 151680 + }, + { + "epoch": 0.970784, + "grad_norm": 0.3236207067966461, + "learning_rate": 1.3528106666666668e-05, + "loss": 0.0058, + "step": 151685 + }, + { + "epoch": 0.970816, + "grad_norm": 0.03318576514720917, + "learning_rate": 1.3527893333333335e-05, + "loss": 0.0124, + "step": 151690 + }, + { + "epoch": 0.970848, + "grad_norm": 0.6783948540687561, + "learning_rate": 1.3527680000000001e-05, + "loss": 0.0047, + "step": 151695 + }, + { + "epoch": 0.97088, + "grad_norm": 0.5792381763458252, + "learning_rate": 1.3527466666666669e-05, + "loss": 0.0174, + "step": 151700 + }, + { + "epoch": 0.970912, + "grad_norm": 0.229713574051857, + "learning_rate": 1.3527253333333335e-05, + "loss": 0.0029, + "step": 151705 + }, + { + "epoch": 0.970944, + "grad_norm": 0.44430842995643616, + "learning_rate": 1.352704e-05, + "loss": 0.0083, + "step": 151710 + }, + { + "epoch": 0.970976, + "grad_norm": 1.006116509437561, + "learning_rate": 1.3526826666666668e-05, + "loss": 0.0092, + "step": 151715 + }, + { + "epoch": 0.971008, + "grad_norm": 1.722673773765564, + "learning_rate": 1.3526613333333334e-05, + "loss": 0.0096, + "step": 151720 + }, + { + "epoch": 0.97104, + "grad_norm": 0.8345558047294617, + "learning_rate": 1.3526400000000001e-05, + "loss": 0.014, + "step": 151725 + }, + { + "epoch": 0.971072, + "grad_norm": 0.06349824368953705, + "learning_rate": 1.3526186666666667e-05, + "loss": 0.0018, + "step": 151730 + }, + { + "epoch": 0.971104, + "grad_norm": 0.04415338858962059, + "learning_rate": 1.3525973333333335e-05, + "loss": 0.0086, + "step": 151735 + }, + { + "epoch": 0.971136, + "grad_norm": 0.12096913903951645, + "learning_rate": 1.352576e-05, + "loss": 0.0014, + "step": 151740 + }, + { + "epoch": 0.971168, + "grad_norm": 0.31665942072868347, + "learning_rate": 1.3525546666666667e-05, + "loss": 0.0236, + "step": 151745 + }, + { + "epoch": 0.9712, + "grad_norm": 0.08464305847883224, + "learning_rate": 1.3525333333333334e-05, + "loss": 0.0106, + "step": 151750 + }, + { + "epoch": 0.971232, + "grad_norm": 0.7130124568939209, + "learning_rate": 1.352512e-05, + "loss": 0.0085, + "step": 151755 + }, + { + "epoch": 0.971264, + "grad_norm": 0.009442229755222797, + "learning_rate": 1.3524906666666668e-05, + "loss": 0.0058, + "step": 151760 + }, + { + "epoch": 0.971296, + "grad_norm": 0.1924562305212021, + "learning_rate": 1.3524693333333333e-05, + "loss": 0.0022, + "step": 151765 + }, + { + "epoch": 0.971328, + "grad_norm": 0.01256348006427288, + "learning_rate": 1.3524480000000003e-05, + "loss": 0.0064, + "step": 151770 + }, + { + "epoch": 0.97136, + "grad_norm": 0.36173015832901, + "learning_rate": 1.3524266666666669e-05, + "loss": 0.002, + "step": 151775 + }, + { + "epoch": 0.971392, + "grad_norm": 0.012440982274711132, + "learning_rate": 1.3524053333333333e-05, + "loss": 0.0031, + "step": 151780 + }, + { + "epoch": 0.971424, + "grad_norm": 0.6686867475509644, + "learning_rate": 1.3523840000000002e-05, + "loss": 0.0069, + "step": 151785 + }, + { + "epoch": 0.971456, + "grad_norm": 1.517059087753296, + "learning_rate": 1.3523626666666668e-05, + "loss": 0.0065, + "step": 151790 + }, + { + "epoch": 0.971488, + "grad_norm": 0.8197750449180603, + "learning_rate": 1.3523413333333335e-05, + "loss": 0.0095, + "step": 151795 + }, + { + "epoch": 0.97152, + "grad_norm": 0.14116506278514862, + "learning_rate": 1.3523200000000001e-05, + "loss": 0.0055, + "step": 151800 + }, + { + "epoch": 0.971552, + "grad_norm": 0.26155319809913635, + "learning_rate": 1.3522986666666669e-05, + "loss": 0.0039, + "step": 151805 + }, + { + "epoch": 0.971584, + "grad_norm": 0.2913983464241028, + "learning_rate": 1.3522773333333335e-05, + "loss": 0.0036, + "step": 151810 + }, + { + "epoch": 0.971616, + "grad_norm": 0.4051487147808075, + "learning_rate": 1.352256e-05, + "loss": 0.0077, + "step": 151815 + }, + { + "epoch": 0.971648, + "grad_norm": 0.19064682722091675, + "learning_rate": 1.3522346666666668e-05, + "loss": 0.0047, + "step": 151820 + }, + { + "epoch": 0.97168, + "grad_norm": 0.2393827587366104, + "learning_rate": 1.3522133333333334e-05, + "loss": 0.0099, + "step": 151825 + }, + { + "epoch": 0.971712, + "grad_norm": 0.25068309903144836, + "learning_rate": 1.3521920000000001e-05, + "loss": 0.0043, + "step": 151830 + }, + { + "epoch": 0.971744, + "grad_norm": 0.03957293555140495, + "learning_rate": 1.3521706666666667e-05, + "loss": 0.0043, + "step": 151835 + }, + { + "epoch": 0.971776, + "grad_norm": 0.023226406425237656, + "learning_rate": 1.3521493333333335e-05, + "loss": 0.0042, + "step": 151840 + }, + { + "epoch": 0.971808, + "grad_norm": 0.9800999760627747, + "learning_rate": 1.352128e-05, + "loss": 0.0088, + "step": 151845 + }, + { + "epoch": 0.97184, + "grad_norm": 0.03213725611567497, + "learning_rate": 1.3521066666666667e-05, + "loss": 0.0026, + "step": 151850 + }, + { + "epoch": 0.971872, + "grad_norm": 0.03971400111913681, + "learning_rate": 1.3520853333333334e-05, + "loss": 0.0099, + "step": 151855 + }, + { + "epoch": 0.971904, + "grad_norm": 0.05394751578569412, + "learning_rate": 1.352064e-05, + "loss": 0.0011, + "step": 151860 + }, + { + "epoch": 0.971936, + "grad_norm": 0.3638930022716522, + "learning_rate": 1.3520426666666668e-05, + "loss": 0.0257, + "step": 151865 + }, + { + "epoch": 0.971968, + "grad_norm": 0.8935073018074036, + "learning_rate": 1.3520213333333333e-05, + "loss": 0.0207, + "step": 151870 + }, + { + "epoch": 0.972, + "grad_norm": 0.1806298941373825, + "learning_rate": 1.3520000000000003e-05, + "loss": 0.0031, + "step": 151875 + }, + { + "epoch": 0.972032, + "grad_norm": 0.4737890064716339, + "learning_rate": 1.3519786666666669e-05, + "loss": 0.0067, + "step": 151880 + }, + { + "epoch": 0.972064, + "grad_norm": 0.04993040859699249, + "learning_rate": 1.3519573333333333e-05, + "loss": 0.0059, + "step": 151885 + }, + { + "epoch": 0.972096, + "grad_norm": 0.025315146893262863, + "learning_rate": 1.3519360000000002e-05, + "loss": 0.0036, + "step": 151890 + }, + { + "epoch": 0.972128, + "grad_norm": 0.16295389831066132, + "learning_rate": 1.3519146666666668e-05, + "loss": 0.0105, + "step": 151895 + }, + { + "epoch": 0.97216, + "grad_norm": 0.5141627788543701, + "learning_rate": 1.3518933333333335e-05, + "loss": 0.0065, + "step": 151900 + }, + { + "epoch": 0.972192, + "grad_norm": 0.5728240013122559, + "learning_rate": 1.3518720000000001e-05, + "loss": 0.0144, + "step": 151905 + }, + { + "epoch": 0.972224, + "grad_norm": 0.054901037365198135, + "learning_rate": 1.3518506666666669e-05, + "loss": 0.0105, + "step": 151910 + }, + { + "epoch": 0.972256, + "grad_norm": 0.05091593414545059, + "learning_rate": 1.3518293333333335e-05, + "loss": 0.0083, + "step": 151915 + }, + { + "epoch": 0.972288, + "grad_norm": 0.08507860451936722, + "learning_rate": 1.351808e-05, + "loss": 0.0096, + "step": 151920 + }, + { + "epoch": 0.97232, + "grad_norm": 0.05633969604969025, + "learning_rate": 1.3517866666666668e-05, + "loss": 0.0057, + "step": 151925 + }, + { + "epoch": 0.972352, + "grad_norm": 0.0093733761459589, + "learning_rate": 1.3517653333333334e-05, + "loss": 0.005, + "step": 151930 + }, + { + "epoch": 0.972384, + "grad_norm": 1.405918836593628, + "learning_rate": 1.3517440000000001e-05, + "loss": 0.0026, + "step": 151935 + }, + { + "epoch": 0.972416, + "grad_norm": 1.3312561511993408, + "learning_rate": 1.3517226666666667e-05, + "loss": 0.0075, + "step": 151940 + }, + { + "epoch": 0.972448, + "grad_norm": 0.7495962381362915, + "learning_rate": 1.3517013333333335e-05, + "loss": 0.0036, + "step": 151945 + }, + { + "epoch": 0.97248, + "grad_norm": 0.7589943408966064, + "learning_rate": 1.35168e-05, + "loss": 0.0064, + "step": 151950 + }, + { + "epoch": 0.972512, + "grad_norm": 0.29224979877471924, + "learning_rate": 1.3516586666666667e-05, + "loss": 0.0116, + "step": 151955 + }, + { + "epoch": 0.972544, + "grad_norm": 0.1418304443359375, + "learning_rate": 1.3516373333333334e-05, + "loss": 0.0071, + "step": 151960 + }, + { + "epoch": 0.972576, + "grad_norm": 0.038404680788517, + "learning_rate": 1.351616e-05, + "loss": 0.0051, + "step": 151965 + }, + { + "epoch": 0.972608, + "grad_norm": 0.8445966839790344, + "learning_rate": 1.3515946666666668e-05, + "loss": 0.0077, + "step": 151970 + }, + { + "epoch": 0.97264, + "grad_norm": 0.08956627547740936, + "learning_rate": 1.3515733333333333e-05, + "loss": 0.0045, + "step": 151975 + }, + { + "epoch": 0.972672, + "grad_norm": 0.2773587703704834, + "learning_rate": 1.3515520000000003e-05, + "loss": 0.0034, + "step": 151980 + }, + { + "epoch": 0.972704, + "grad_norm": 0.03893613442778587, + "learning_rate": 1.3515306666666667e-05, + "loss": 0.0032, + "step": 151985 + }, + { + "epoch": 0.972736, + "grad_norm": 0.5800191760063171, + "learning_rate": 1.3515093333333333e-05, + "loss": 0.0034, + "step": 151990 + }, + { + "epoch": 0.972768, + "grad_norm": 0.013261442072689533, + "learning_rate": 1.3514880000000002e-05, + "loss": 0.0051, + "step": 151995 + }, + { + "epoch": 0.9728, + "grad_norm": 0.5150423645973206, + "learning_rate": 1.3514666666666668e-05, + "loss": 0.0048, + "step": 152000 + }, + { + "epoch": 0.972832, + "grad_norm": 0.08670337498188019, + "learning_rate": 1.3514453333333335e-05, + "loss": 0.0074, + "step": 152005 + }, + { + "epoch": 0.972864, + "grad_norm": 0.05318666622042656, + "learning_rate": 1.3514240000000001e-05, + "loss": 0.0026, + "step": 152010 + }, + { + "epoch": 0.972896, + "grad_norm": 0.007525925524532795, + "learning_rate": 1.3514026666666669e-05, + "loss": 0.0052, + "step": 152015 + }, + { + "epoch": 0.972928, + "grad_norm": 0.8459885716438293, + "learning_rate": 1.3513813333333335e-05, + "loss": 0.0121, + "step": 152020 + }, + { + "epoch": 0.97296, + "grad_norm": 9.607735633850098, + "learning_rate": 1.35136e-05, + "loss": 0.0052, + "step": 152025 + }, + { + "epoch": 0.972992, + "grad_norm": 0.39410239458084106, + "learning_rate": 1.3513386666666668e-05, + "loss": 0.0125, + "step": 152030 + }, + { + "epoch": 0.973024, + "grad_norm": 0.40180978178977966, + "learning_rate": 1.3513173333333334e-05, + "loss": 0.0094, + "step": 152035 + }, + { + "epoch": 0.973056, + "grad_norm": 0.460105836391449, + "learning_rate": 1.3512960000000001e-05, + "loss": 0.0048, + "step": 152040 + }, + { + "epoch": 0.973088, + "grad_norm": 0.037838175892829895, + "learning_rate": 1.3512746666666667e-05, + "loss": 0.0064, + "step": 152045 + }, + { + "epoch": 0.97312, + "grad_norm": 0.09631191194057465, + "learning_rate": 1.3512533333333335e-05, + "loss": 0.0084, + "step": 152050 + }, + { + "epoch": 0.973152, + "grad_norm": 0.12331751734018326, + "learning_rate": 1.351232e-05, + "loss": 0.0025, + "step": 152055 + }, + { + "epoch": 0.973184, + "grad_norm": 0.9895884394645691, + "learning_rate": 1.3512106666666667e-05, + "loss": 0.009, + "step": 152060 + }, + { + "epoch": 0.973216, + "grad_norm": 0.40064358711242676, + "learning_rate": 1.3511893333333334e-05, + "loss": 0.0218, + "step": 152065 + }, + { + "epoch": 0.973248, + "grad_norm": 0.0942940041422844, + "learning_rate": 1.351168e-05, + "loss": 0.0053, + "step": 152070 + }, + { + "epoch": 0.97328, + "grad_norm": 0.47864434123039246, + "learning_rate": 1.3511466666666668e-05, + "loss": 0.0086, + "step": 152075 + }, + { + "epoch": 0.973312, + "grad_norm": 0.9490332007408142, + "learning_rate": 1.3511253333333333e-05, + "loss": 0.0065, + "step": 152080 + }, + { + "epoch": 0.973344, + "grad_norm": 0.637071967124939, + "learning_rate": 1.3511040000000003e-05, + "loss": 0.0331, + "step": 152085 + }, + { + "epoch": 0.973376, + "grad_norm": 0.4354647994041443, + "learning_rate": 1.3510826666666667e-05, + "loss": 0.0063, + "step": 152090 + }, + { + "epoch": 0.973408, + "grad_norm": 0.21553254127502441, + "learning_rate": 1.3510613333333333e-05, + "loss": 0.0056, + "step": 152095 + }, + { + "epoch": 0.97344, + "grad_norm": 0.6041520237922668, + "learning_rate": 1.3510400000000002e-05, + "loss": 0.0114, + "step": 152100 + }, + { + "epoch": 0.973472, + "grad_norm": 0.1419895738363266, + "learning_rate": 1.3510186666666668e-05, + "loss": 0.0021, + "step": 152105 + }, + { + "epoch": 0.973504, + "grad_norm": 0.5059056282043457, + "learning_rate": 1.3509973333333335e-05, + "loss": 0.0076, + "step": 152110 + }, + { + "epoch": 0.973536, + "grad_norm": 1.1275064945220947, + "learning_rate": 1.3509760000000001e-05, + "loss": 0.0055, + "step": 152115 + }, + { + "epoch": 0.973568, + "grad_norm": 0.0075758290477097034, + "learning_rate": 1.3509546666666669e-05, + "loss": 0.0167, + "step": 152120 + }, + { + "epoch": 0.9736, + "grad_norm": 0.1270565390586853, + "learning_rate": 1.3509333333333335e-05, + "loss": 0.0022, + "step": 152125 + }, + { + "epoch": 0.973632, + "grad_norm": 0.20768077671527863, + "learning_rate": 1.350912e-05, + "loss": 0.003, + "step": 152130 + }, + { + "epoch": 0.973664, + "grad_norm": 1.5769946575164795, + "learning_rate": 1.3508906666666668e-05, + "loss": 0.0036, + "step": 152135 + }, + { + "epoch": 0.973696, + "grad_norm": 0.10137790441513062, + "learning_rate": 1.3508693333333334e-05, + "loss": 0.0035, + "step": 152140 + }, + { + "epoch": 0.973728, + "grad_norm": 0.44781041145324707, + "learning_rate": 1.3508480000000001e-05, + "loss": 0.0021, + "step": 152145 + }, + { + "epoch": 0.97376, + "grad_norm": 0.09130627661943436, + "learning_rate": 1.3508266666666667e-05, + "loss": 0.0064, + "step": 152150 + }, + { + "epoch": 0.973792, + "grad_norm": 0.6323634386062622, + "learning_rate": 1.3508053333333335e-05, + "loss": 0.0041, + "step": 152155 + }, + { + "epoch": 0.973824, + "grad_norm": 0.05369170755147934, + "learning_rate": 1.350784e-05, + "loss": 0.0109, + "step": 152160 + }, + { + "epoch": 0.973856, + "grad_norm": 0.7790777087211609, + "learning_rate": 1.3507626666666667e-05, + "loss": 0.036, + "step": 152165 + }, + { + "epoch": 0.973888, + "grad_norm": 1.006978154182434, + "learning_rate": 1.3507413333333334e-05, + "loss": 0.0097, + "step": 152170 + }, + { + "epoch": 0.97392, + "grad_norm": 0.4831756353378296, + "learning_rate": 1.35072e-05, + "loss": 0.0153, + "step": 152175 + }, + { + "epoch": 0.973952, + "grad_norm": 0.7226218581199646, + "learning_rate": 1.3506986666666668e-05, + "loss": 0.0084, + "step": 152180 + }, + { + "epoch": 0.973984, + "grad_norm": 0.3238282799720764, + "learning_rate": 1.3506773333333333e-05, + "loss": 0.0034, + "step": 152185 + }, + { + "epoch": 0.974016, + "grad_norm": 0.5232800841331482, + "learning_rate": 1.3506560000000003e-05, + "loss": 0.0045, + "step": 152190 + }, + { + "epoch": 0.974048, + "grad_norm": 0.1089145615696907, + "learning_rate": 1.3506346666666667e-05, + "loss": 0.0077, + "step": 152195 + }, + { + "epoch": 0.97408, + "grad_norm": 0.3029736578464508, + "learning_rate": 1.3506133333333336e-05, + "loss": 0.0052, + "step": 152200 + }, + { + "epoch": 0.974112, + "grad_norm": 0.08249446004629135, + "learning_rate": 1.3505920000000002e-05, + "loss": 0.0098, + "step": 152205 + }, + { + "epoch": 0.974144, + "grad_norm": 0.6975668668746948, + "learning_rate": 1.3505706666666666e-05, + "loss": 0.0144, + "step": 152210 + }, + { + "epoch": 0.974176, + "grad_norm": 0.020960355177521706, + "learning_rate": 1.3505493333333335e-05, + "loss": 0.0135, + "step": 152215 + }, + { + "epoch": 0.974208, + "grad_norm": 8.419075965881348, + "learning_rate": 1.3505280000000001e-05, + "loss": 0.0076, + "step": 152220 + }, + { + "epoch": 0.97424, + "grad_norm": 0.6903166174888611, + "learning_rate": 1.3505066666666669e-05, + "loss": 0.0091, + "step": 152225 + }, + { + "epoch": 0.974272, + "grad_norm": 0.09422148764133453, + "learning_rate": 1.3504853333333335e-05, + "loss": 0.0042, + "step": 152230 + }, + { + "epoch": 0.974304, + "grad_norm": 0.09551580995321274, + "learning_rate": 1.3504640000000002e-05, + "loss": 0.0085, + "step": 152235 + }, + { + "epoch": 0.974336, + "grad_norm": 0.27306193113327026, + "learning_rate": 1.3504426666666668e-05, + "loss": 0.0024, + "step": 152240 + }, + { + "epoch": 0.974368, + "grad_norm": 0.0419415719807148, + "learning_rate": 1.3504213333333334e-05, + "loss": 0.0065, + "step": 152245 + }, + { + "epoch": 0.9744, + "grad_norm": 0.30773401260375977, + "learning_rate": 1.3504000000000001e-05, + "loss": 0.0072, + "step": 152250 + }, + { + "epoch": 0.974432, + "grad_norm": 0.35187095403671265, + "learning_rate": 1.3503786666666667e-05, + "loss": 0.0083, + "step": 152255 + }, + { + "epoch": 0.974464, + "grad_norm": 0.6704014539718628, + "learning_rate": 1.3503573333333335e-05, + "loss": 0.0085, + "step": 152260 + }, + { + "epoch": 0.974496, + "grad_norm": 0.13271605968475342, + "learning_rate": 1.350336e-05, + "loss": 0.0032, + "step": 152265 + }, + { + "epoch": 0.974528, + "grad_norm": 0.31045863032341003, + "learning_rate": 1.3503146666666668e-05, + "loss": 0.0033, + "step": 152270 + }, + { + "epoch": 0.97456, + "grad_norm": 0.38378241658210754, + "learning_rate": 1.3502933333333334e-05, + "loss": 0.0045, + "step": 152275 + }, + { + "epoch": 0.974592, + "grad_norm": 0.21550600230693817, + "learning_rate": 1.350272e-05, + "loss": 0.0097, + "step": 152280 + }, + { + "epoch": 0.974624, + "grad_norm": 0.9793159365653992, + "learning_rate": 1.3502506666666668e-05, + "loss": 0.0117, + "step": 152285 + }, + { + "epoch": 0.974656, + "grad_norm": 1.0722124576568604, + "learning_rate": 1.3502293333333333e-05, + "loss": 0.0066, + "step": 152290 + }, + { + "epoch": 0.974688, + "grad_norm": 0.08781760931015015, + "learning_rate": 1.3502080000000001e-05, + "loss": 0.0011, + "step": 152295 + }, + { + "epoch": 0.97472, + "grad_norm": 0.3190496861934662, + "learning_rate": 1.3501866666666667e-05, + "loss": 0.01, + "step": 152300 + }, + { + "epoch": 0.974752, + "grad_norm": 0.08020886778831482, + "learning_rate": 1.3501653333333336e-05, + "loss": 0.0053, + "step": 152305 + }, + { + "epoch": 0.974784, + "grad_norm": 1.2193299531936646, + "learning_rate": 1.3501440000000002e-05, + "loss": 0.0041, + "step": 152310 + }, + { + "epoch": 0.974816, + "grad_norm": 0.5293331742286682, + "learning_rate": 1.3501226666666666e-05, + "loss": 0.0241, + "step": 152315 + }, + { + "epoch": 0.974848, + "grad_norm": 0.38076794147491455, + "learning_rate": 1.3501013333333335e-05, + "loss": 0.0036, + "step": 152320 + }, + { + "epoch": 0.97488, + "grad_norm": 0.7293011546134949, + "learning_rate": 1.3500800000000001e-05, + "loss": 0.0103, + "step": 152325 + }, + { + "epoch": 0.974912, + "grad_norm": 0.9726041555404663, + "learning_rate": 1.3500586666666669e-05, + "loss": 0.013, + "step": 152330 + }, + { + "epoch": 0.974944, + "grad_norm": 0.09849520772695541, + "learning_rate": 1.3500373333333335e-05, + "loss": 0.0139, + "step": 152335 + }, + { + "epoch": 0.974976, + "grad_norm": 0.1300678700208664, + "learning_rate": 1.3500160000000002e-05, + "loss": 0.0048, + "step": 152340 + }, + { + "epoch": 0.975008, + "grad_norm": 0.06149781122803688, + "learning_rate": 1.3499946666666668e-05, + "loss": 0.0033, + "step": 152345 + }, + { + "epoch": 0.97504, + "grad_norm": 0.30253466963768005, + "learning_rate": 1.3499733333333334e-05, + "loss": 0.0127, + "step": 152350 + }, + { + "epoch": 0.975072, + "grad_norm": 0.052126653492450714, + "learning_rate": 1.3499520000000001e-05, + "loss": 0.0013, + "step": 152355 + }, + { + "epoch": 0.975104, + "grad_norm": 0.10128303617238998, + "learning_rate": 1.3499306666666667e-05, + "loss": 0.0119, + "step": 152360 + }, + { + "epoch": 0.975136, + "grad_norm": 0.059811972081661224, + "learning_rate": 1.3499093333333335e-05, + "loss": 0.0044, + "step": 152365 + }, + { + "epoch": 0.975168, + "grad_norm": 0.0839422345161438, + "learning_rate": 1.349888e-05, + "loss": 0.0034, + "step": 152370 + }, + { + "epoch": 0.9752, + "grad_norm": 0.08847682923078537, + "learning_rate": 1.3498666666666668e-05, + "loss": 0.0016, + "step": 152375 + }, + { + "epoch": 0.975232, + "grad_norm": 0.036894284188747406, + "learning_rate": 1.3498453333333334e-05, + "loss": 0.0112, + "step": 152380 + }, + { + "epoch": 0.975264, + "grad_norm": 0.05141188204288483, + "learning_rate": 1.349824e-05, + "loss": 0.0037, + "step": 152385 + }, + { + "epoch": 0.975296, + "grad_norm": 0.11531523615121841, + "learning_rate": 1.3498026666666668e-05, + "loss": 0.0034, + "step": 152390 + }, + { + "epoch": 0.975328, + "grad_norm": 0.03524604067206383, + "learning_rate": 1.3497813333333333e-05, + "loss": 0.0016, + "step": 152395 + }, + { + "epoch": 0.97536, + "grad_norm": 0.8483990430831909, + "learning_rate": 1.3497600000000001e-05, + "loss": 0.0082, + "step": 152400 + }, + { + "epoch": 0.975392, + "grad_norm": 0.7086918354034424, + "learning_rate": 1.3497386666666667e-05, + "loss": 0.0252, + "step": 152405 + }, + { + "epoch": 0.975424, + "grad_norm": 0.5768616795539856, + "learning_rate": 1.3497173333333336e-05, + "loss": 0.019, + "step": 152410 + }, + { + "epoch": 0.975456, + "grad_norm": 0.47208577394485474, + "learning_rate": 1.3496960000000002e-05, + "loss": 0.002, + "step": 152415 + }, + { + "epoch": 0.975488, + "grad_norm": 0.43717533349990845, + "learning_rate": 1.3496746666666666e-05, + "loss": 0.0073, + "step": 152420 + }, + { + "epoch": 0.97552, + "grad_norm": 0.08624826371669769, + "learning_rate": 1.3496533333333335e-05, + "loss": 0.002, + "step": 152425 + }, + { + "epoch": 0.975552, + "grad_norm": 0.11688652634620667, + "learning_rate": 1.3496320000000001e-05, + "loss": 0.0056, + "step": 152430 + }, + { + "epoch": 0.975584, + "grad_norm": 0.4430895745754242, + "learning_rate": 1.3496106666666669e-05, + "loss": 0.0055, + "step": 152435 + }, + { + "epoch": 0.975616, + "grad_norm": 1.4084553718566895, + "learning_rate": 1.3495893333333335e-05, + "loss": 0.0226, + "step": 152440 + }, + { + "epoch": 0.975648, + "grad_norm": 1.2424242496490479, + "learning_rate": 1.3495680000000002e-05, + "loss": 0.0133, + "step": 152445 + }, + { + "epoch": 0.97568, + "grad_norm": 0.38638800382614136, + "learning_rate": 1.3495466666666668e-05, + "loss": 0.0045, + "step": 152450 + }, + { + "epoch": 0.975712, + "grad_norm": 0.04599093645811081, + "learning_rate": 1.3495253333333334e-05, + "loss": 0.0175, + "step": 152455 + }, + { + "epoch": 0.975744, + "grad_norm": 0.40114739537239075, + "learning_rate": 1.3495040000000001e-05, + "loss": 0.0024, + "step": 152460 + }, + { + "epoch": 0.975776, + "grad_norm": 0.30254122614860535, + "learning_rate": 1.3494826666666667e-05, + "loss": 0.0154, + "step": 152465 + }, + { + "epoch": 0.975808, + "grad_norm": 0.6166183948516846, + "learning_rate": 1.3494613333333335e-05, + "loss": 0.0039, + "step": 152470 + }, + { + "epoch": 0.97584, + "grad_norm": 0.39581477642059326, + "learning_rate": 1.34944e-05, + "loss": 0.0057, + "step": 152475 + }, + { + "epoch": 0.975872, + "grad_norm": 0.5851195454597473, + "learning_rate": 1.3494186666666668e-05, + "loss": 0.0107, + "step": 152480 + }, + { + "epoch": 0.975904, + "grad_norm": 0.4927426874637604, + "learning_rate": 1.3493973333333334e-05, + "loss": 0.0158, + "step": 152485 + }, + { + "epoch": 0.975936, + "grad_norm": 0.22074998915195465, + "learning_rate": 1.349376e-05, + "loss": 0.0031, + "step": 152490 + }, + { + "epoch": 0.975968, + "grad_norm": 2.958509683609009, + "learning_rate": 1.3493546666666668e-05, + "loss": 0.007, + "step": 152495 + }, + { + "epoch": 0.976, + "grad_norm": 0.2126428335905075, + "learning_rate": 1.3493333333333333e-05, + "loss": 0.0051, + "step": 152500 + }, + { + "epoch": 0.976032, + "grad_norm": 0.04243435710668564, + "learning_rate": 1.3493120000000001e-05, + "loss": 0.0044, + "step": 152505 + }, + { + "epoch": 0.976064, + "grad_norm": 0.9814059138298035, + "learning_rate": 1.3492906666666667e-05, + "loss": 0.0153, + "step": 152510 + }, + { + "epoch": 0.976096, + "grad_norm": 0.056750353425741196, + "learning_rate": 1.3492693333333336e-05, + "loss": 0.005, + "step": 152515 + }, + { + "epoch": 0.976128, + "grad_norm": 0.2975156903266907, + "learning_rate": 1.3492480000000002e-05, + "loss": 0.0047, + "step": 152520 + }, + { + "epoch": 0.97616, + "grad_norm": 0.3776724338531494, + "learning_rate": 1.3492266666666666e-05, + "loss": 0.0074, + "step": 152525 + }, + { + "epoch": 0.976192, + "grad_norm": 0.3078855872154236, + "learning_rate": 1.3492053333333335e-05, + "loss": 0.0023, + "step": 152530 + }, + { + "epoch": 0.976224, + "grad_norm": 0.11015564948320389, + "learning_rate": 1.3491840000000001e-05, + "loss": 0.0048, + "step": 152535 + }, + { + "epoch": 0.976256, + "grad_norm": 0.16557449102401733, + "learning_rate": 1.3491626666666669e-05, + "loss": 0.0068, + "step": 152540 + }, + { + "epoch": 0.976288, + "grad_norm": 0.8646054267883301, + "learning_rate": 1.3491413333333335e-05, + "loss": 0.0047, + "step": 152545 + }, + { + "epoch": 0.97632, + "grad_norm": 0.19849689304828644, + "learning_rate": 1.3491200000000002e-05, + "loss": 0.0061, + "step": 152550 + }, + { + "epoch": 0.976352, + "grad_norm": 0.8388490676879883, + "learning_rate": 1.3490986666666668e-05, + "loss": 0.0068, + "step": 152555 + }, + { + "epoch": 0.976384, + "grad_norm": 0.21413493156433105, + "learning_rate": 1.3490773333333334e-05, + "loss": 0.0043, + "step": 152560 + }, + { + "epoch": 0.976416, + "grad_norm": 0.02347438409924507, + "learning_rate": 1.3490560000000001e-05, + "loss": 0.0176, + "step": 152565 + }, + { + "epoch": 0.976448, + "grad_norm": 2.3093831539154053, + "learning_rate": 1.3490346666666667e-05, + "loss": 0.0126, + "step": 152570 + }, + { + "epoch": 0.97648, + "grad_norm": 0.10730759799480438, + "learning_rate": 1.3490133333333335e-05, + "loss": 0.0021, + "step": 152575 + }, + { + "epoch": 0.976512, + "grad_norm": 1.3086293935775757, + "learning_rate": 1.348992e-05, + "loss": 0.0056, + "step": 152580 + }, + { + "epoch": 0.976544, + "grad_norm": 0.3727304935455322, + "learning_rate": 1.3489706666666668e-05, + "loss": 0.0076, + "step": 152585 + }, + { + "epoch": 0.976576, + "grad_norm": 1.0302609205245972, + "learning_rate": 1.3489493333333334e-05, + "loss": 0.0037, + "step": 152590 + }, + { + "epoch": 0.976608, + "grad_norm": 0.18718481063842773, + "learning_rate": 1.348928e-05, + "loss": 0.0047, + "step": 152595 + }, + { + "epoch": 0.97664, + "grad_norm": 0.013350882567465305, + "learning_rate": 1.3489066666666668e-05, + "loss": 0.0047, + "step": 152600 + }, + { + "epoch": 0.976672, + "grad_norm": 0.08245086669921875, + "learning_rate": 1.3488853333333333e-05, + "loss": 0.0074, + "step": 152605 + }, + { + "epoch": 0.976704, + "grad_norm": 0.5233566761016846, + "learning_rate": 1.3488640000000001e-05, + "loss": 0.0088, + "step": 152610 + }, + { + "epoch": 0.976736, + "grad_norm": 0.28509679436683655, + "learning_rate": 1.3488426666666667e-05, + "loss": 0.007, + "step": 152615 + }, + { + "epoch": 0.976768, + "grad_norm": 0.1359330117702484, + "learning_rate": 1.3488213333333336e-05, + "loss": 0.0074, + "step": 152620 + }, + { + "epoch": 0.9768, + "grad_norm": 0.20561377704143524, + "learning_rate": 1.3488e-05, + "loss": 0.0087, + "step": 152625 + }, + { + "epoch": 0.976832, + "grad_norm": 0.23789054155349731, + "learning_rate": 1.3487786666666666e-05, + "loss": 0.0021, + "step": 152630 + }, + { + "epoch": 0.976864, + "grad_norm": 0.01843511126935482, + "learning_rate": 1.3487573333333335e-05, + "loss": 0.0026, + "step": 152635 + }, + { + "epoch": 0.976896, + "grad_norm": 0.02258300594985485, + "learning_rate": 1.3487360000000001e-05, + "loss": 0.0129, + "step": 152640 + }, + { + "epoch": 0.976928, + "grad_norm": 0.005962488241493702, + "learning_rate": 1.3487146666666669e-05, + "loss": 0.004, + "step": 152645 + }, + { + "epoch": 0.97696, + "grad_norm": 0.38378480076789856, + "learning_rate": 1.3486933333333335e-05, + "loss": 0.0062, + "step": 152650 + }, + { + "epoch": 0.976992, + "grad_norm": 0.3743934631347656, + "learning_rate": 1.3486720000000002e-05, + "loss": 0.0083, + "step": 152655 + }, + { + "epoch": 0.977024, + "grad_norm": 0.42218321561813354, + "learning_rate": 1.3486506666666668e-05, + "loss": 0.0049, + "step": 152660 + }, + { + "epoch": 0.977056, + "grad_norm": 0.5612173676490784, + "learning_rate": 1.3486293333333334e-05, + "loss": 0.0176, + "step": 152665 + }, + { + "epoch": 0.977088, + "grad_norm": 0.004484990611672401, + "learning_rate": 1.3486080000000001e-05, + "loss": 0.0022, + "step": 152670 + }, + { + "epoch": 0.97712, + "grad_norm": 0.32413071393966675, + "learning_rate": 1.3485866666666667e-05, + "loss": 0.0035, + "step": 152675 + }, + { + "epoch": 0.977152, + "grad_norm": 0.1212320402264595, + "learning_rate": 1.3485653333333335e-05, + "loss": 0.0038, + "step": 152680 + }, + { + "epoch": 0.977184, + "grad_norm": 0.2805752158164978, + "learning_rate": 1.348544e-05, + "loss": 0.0038, + "step": 152685 + }, + { + "epoch": 0.977216, + "grad_norm": 0.3967587947845459, + "learning_rate": 1.3485226666666668e-05, + "loss": 0.0038, + "step": 152690 + }, + { + "epoch": 0.977248, + "grad_norm": 0.0639515221118927, + "learning_rate": 1.3485013333333334e-05, + "loss": 0.0042, + "step": 152695 + }, + { + "epoch": 0.97728, + "grad_norm": 0.21244706213474274, + "learning_rate": 1.34848e-05, + "loss": 0.0016, + "step": 152700 + }, + { + "epoch": 0.977312, + "grad_norm": 0.3142234981060028, + "learning_rate": 1.3484586666666668e-05, + "loss": 0.0072, + "step": 152705 + }, + { + "epoch": 0.977344, + "grad_norm": 0.20176343619823456, + "learning_rate": 1.3484373333333333e-05, + "loss": 0.0068, + "step": 152710 + }, + { + "epoch": 0.977376, + "grad_norm": 0.78275465965271, + "learning_rate": 1.3484160000000001e-05, + "loss": 0.0131, + "step": 152715 + }, + { + "epoch": 0.977408, + "grad_norm": 0.1099298819899559, + "learning_rate": 1.3483946666666667e-05, + "loss": 0.0113, + "step": 152720 + }, + { + "epoch": 0.97744, + "grad_norm": 0.10484364628791809, + "learning_rate": 1.3483733333333336e-05, + "loss": 0.0127, + "step": 152725 + }, + { + "epoch": 0.977472, + "grad_norm": 0.6413572430610657, + "learning_rate": 1.348352e-05, + "loss": 0.0052, + "step": 152730 + }, + { + "epoch": 0.977504, + "grad_norm": 0.29887184500694275, + "learning_rate": 1.3483306666666666e-05, + "loss": 0.0043, + "step": 152735 + }, + { + "epoch": 0.977536, + "grad_norm": 0.027494071051478386, + "learning_rate": 1.3483093333333335e-05, + "loss": 0.0011, + "step": 152740 + }, + { + "epoch": 0.977568, + "grad_norm": 0.018404407426714897, + "learning_rate": 1.3482880000000001e-05, + "loss": 0.0051, + "step": 152745 + }, + { + "epoch": 0.9776, + "grad_norm": 0.03389546275138855, + "learning_rate": 1.3482666666666669e-05, + "loss": 0.0024, + "step": 152750 + }, + { + "epoch": 0.977632, + "grad_norm": 0.07291649281978607, + "learning_rate": 1.3482453333333335e-05, + "loss": 0.0053, + "step": 152755 + }, + { + "epoch": 0.977664, + "grad_norm": 0.49619120359420776, + "learning_rate": 1.3482240000000002e-05, + "loss": 0.0096, + "step": 152760 + }, + { + "epoch": 0.977696, + "grad_norm": 0.04814448952674866, + "learning_rate": 1.3482026666666668e-05, + "loss": 0.0012, + "step": 152765 + }, + { + "epoch": 0.977728, + "grad_norm": 0.22991521656513214, + "learning_rate": 1.3481813333333334e-05, + "loss": 0.0036, + "step": 152770 + }, + { + "epoch": 0.97776, + "grad_norm": 0.08816171437501907, + "learning_rate": 1.3481600000000002e-05, + "loss": 0.0025, + "step": 152775 + }, + { + "epoch": 0.977792, + "grad_norm": 0.22866655886173248, + "learning_rate": 1.3481386666666667e-05, + "loss": 0.0033, + "step": 152780 + }, + { + "epoch": 0.977824, + "grad_norm": 0.13297399878501892, + "learning_rate": 1.3481173333333335e-05, + "loss": 0.0087, + "step": 152785 + }, + { + "epoch": 0.977856, + "grad_norm": 1.6149026155471802, + "learning_rate": 1.348096e-05, + "loss": 0.013, + "step": 152790 + }, + { + "epoch": 0.977888, + "grad_norm": 1.0112533569335938, + "learning_rate": 1.3480746666666668e-05, + "loss": 0.0053, + "step": 152795 + }, + { + "epoch": 0.97792, + "grad_norm": 0.49927669763565063, + "learning_rate": 1.3480533333333334e-05, + "loss": 0.004, + "step": 152800 + }, + { + "epoch": 0.977952, + "grad_norm": 0.2188703715801239, + "learning_rate": 1.348032e-05, + "loss": 0.0082, + "step": 152805 + }, + { + "epoch": 0.977984, + "grad_norm": 0.5843821167945862, + "learning_rate": 1.3480106666666668e-05, + "loss": 0.0068, + "step": 152810 + }, + { + "epoch": 0.978016, + "grad_norm": 0.23360271751880646, + "learning_rate": 1.3479893333333333e-05, + "loss": 0.0018, + "step": 152815 + }, + { + "epoch": 0.978048, + "grad_norm": 0.08422071486711502, + "learning_rate": 1.3479680000000001e-05, + "loss": 0.0028, + "step": 152820 + }, + { + "epoch": 0.97808, + "grad_norm": 0.02855234593153, + "learning_rate": 1.3479466666666667e-05, + "loss": 0.0034, + "step": 152825 + }, + { + "epoch": 0.978112, + "grad_norm": 0.026359643787145615, + "learning_rate": 1.3479253333333336e-05, + "loss": 0.0021, + "step": 152830 + }, + { + "epoch": 0.978144, + "grad_norm": 0.36137688159942627, + "learning_rate": 1.347904e-05, + "loss": 0.003, + "step": 152835 + }, + { + "epoch": 0.978176, + "grad_norm": 0.39370855689048767, + "learning_rate": 1.3478826666666666e-05, + "loss": 0.0033, + "step": 152840 + }, + { + "epoch": 0.978208, + "grad_norm": 0.8670246005058289, + "learning_rate": 1.3478613333333335e-05, + "loss": 0.0068, + "step": 152845 + }, + { + "epoch": 0.97824, + "grad_norm": 0.8849412798881531, + "learning_rate": 1.34784e-05, + "loss": 0.0051, + "step": 152850 + }, + { + "epoch": 0.978272, + "grad_norm": 0.7944844365119934, + "learning_rate": 1.3478186666666669e-05, + "loss": 0.016, + "step": 152855 + }, + { + "epoch": 0.978304, + "grad_norm": 0.1957785189151764, + "learning_rate": 1.3477973333333335e-05, + "loss": 0.0093, + "step": 152860 + }, + { + "epoch": 0.978336, + "grad_norm": 0.6194195747375488, + "learning_rate": 1.3477760000000002e-05, + "loss": 0.0044, + "step": 152865 + }, + { + "epoch": 0.978368, + "grad_norm": 0.1298016756772995, + "learning_rate": 1.3477546666666668e-05, + "loss": 0.0065, + "step": 152870 + }, + { + "epoch": 0.9784, + "grad_norm": 0.9830719828605652, + "learning_rate": 1.3477333333333334e-05, + "loss": 0.0062, + "step": 152875 + }, + { + "epoch": 0.978432, + "grad_norm": 0.4632112383842468, + "learning_rate": 1.3477120000000002e-05, + "loss": 0.0138, + "step": 152880 + }, + { + "epoch": 0.978464, + "grad_norm": 0.17589466273784637, + "learning_rate": 1.3476906666666667e-05, + "loss": 0.0104, + "step": 152885 + }, + { + "epoch": 0.978496, + "grad_norm": 0.043989311903715134, + "learning_rate": 1.3476693333333335e-05, + "loss": 0.0015, + "step": 152890 + }, + { + "epoch": 0.978528, + "grad_norm": 0.0891551673412323, + "learning_rate": 1.347648e-05, + "loss": 0.0019, + "step": 152895 + }, + { + "epoch": 0.97856, + "grad_norm": 0.06625722348690033, + "learning_rate": 1.3476266666666668e-05, + "loss": 0.0029, + "step": 152900 + }, + { + "epoch": 0.978592, + "grad_norm": 0.04386584833264351, + "learning_rate": 1.3476053333333334e-05, + "loss": 0.0036, + "step": 152905 + }, + { + "epoch": 0.978624, + "grad_norm": 0.06610305607318878, + "learning_rate": 1.347584e-05, + "loss": 0.0069, + "step": 152910 + }, + { + "epoch": 0.978656, + "grad_norm": 0.43681350350379944, + "learning_rate": 1.3475626666666668e-05, + "loss": 0.0127, + "step": 152915 + }, + { + "epoch": 0.978688, + "grad_norm": 0.031093435361981392, + "learning_rate": 1.3475413333333333e-05, + "loss": 0.0101, + "step": 152920 + }, + { + "epoch": 0.97872, + "grad_norm": 0.2282269448041916, + "learning_rate": 1.3475200000000001e-05, + "loss": 0.0026, + "step": 152925 + }, + { + "epoch": 0.978752, + "grad_norm": 0.0997590720653534, + "learning_rate": 1.3474986666666667e-05, + "loss": 0.0036, + "step": 152930 + }, + { + "epoch": 0.978784, + "grad_norm": 0.5293264985084534, + "learning_rate": 1.3474773333333334e-05, + "loss": 0.0222, + "step": 152935 + }, + { + "epoch": 0.978816, + "grad_norm": 1.1892540454864502, + "learning_rate": 1.347456e-05, + "loss": 0.0063, + "step": 152940 + }, + { + "epoch": 0.978848, + "grad_norm": 0.09203991293907166, + "learning_rate": 1.3474346666666666e-05, + "loss": 0.0062, + "step": 152945 + }, + { + "epoch": 0.97888, + "grad_norm": 0.1334104984998703, + "learning_rate": 1.3474133333333335e-05, + "loss": 0.0148, + "step": 152950 + }, + { + "epoch": 0.978912, + "grad_norm": 0.46971577405929565, + "learning_rate": 1.347392e-05, + "loss": 0.0018, + "step": 152955 + }, + { + "epoch": 0.978944, + "grad_norm": 1.0752570629119873, + "learning_rate": 1.3473706666666669e-05, + "loss": 0.0088, + "step": 152960 + }, + { + "epoch": 0.978976, + "grad_norm": 0.44069704413414, + "learning_rate": 1.3473493333333335e-05, + "loss": 0.0073, + "step": 152965 + }, + { + "epoch": 0.979008, + "grad_norm": 0.3802882432937622, + "learning_rate": 1.3473280000000002e-05, + "loss": 0.0038, + "step": 152970 + }, + { + "epoch": 0.97904, + "grad_norm": 0.7065030932426453, + "learning_rate": 1.3473066666666668e-05, + "loss": 0.0077, + "step": 152975 + }, + { + "epoch": 0.979072, + "grad_norm": 0.01514797005802393, + "learning_rate": 1.3472853333333334e-05, + "loss": 0.0095, + "step": 152980 + }, + { + "epoch": 0.979104, + "grad_norm": 0.1254151165485382, + "learning_rate": 1.3472640000000002e-05, + "loss": 0.0036, + "step": 152985 + }, + { + "epoch": 0.979136, + "grad_norm": 0.05274539440870285, + "learning_rate": 1.3472426666666667e-05, + "loss": 0.0465, + "step": 152990 + }, + { + "epoch": 0.979168, + "grad_norm": 0.13327504694461823, + "learning_rate": 1.3472213333333335e-05, + "loss": 0.0137, + "step": 152995 + }, + { + "epoch": 0.9792, + "grad_norm": 0.06140654906630516, + "learning_rate": 1.3472e-05, + "loss": 0.0013, + "step": 153000 + }, + { + "epoch": 0.979232, + "grad_norm": 0.5792547464370728, + "learning_rate": 1.3471786666666668e-05, + "loss": 0.0067, + "step": 153005 + }, + { + "epoch": 0.979264, + "grad_norm": 0.047453008592128754, + "learning_rate": 1.3471573333333334e-05, + "loss": 0.0103, + "step": 153010 + }, + { + "epoch": 0.979296, + "grad_norm": 0.3202425539493561, + "learning_rate": 1.347136e-05, + "loss": 0.0111, + "step": 153015 + }, + { + "epoch": 0.979328, + "grad_norm": 0.2675637900829315, + "learning_rate": 1.3471146666666668e-05, + "loss": 0.0072, + "step": 153020 + }, + { + "epoch": 0.97936, + "grad_norm": 0.12292291224002838, + "learning_rate": 1.3470933333333333e-05, + "loss": 0.0135, + "step": 153025 + }, + { + "epoch": 0.979392, + "grad_norm": 0.7207147479057312, + "learning_rate": 1.3470720000000001e-05, + "loss": 0.0074, + "step": 153030 + }, + { + "epoch": 0.979424, + "grad_norm": 0.4851343333721161, + "learning_rate": 1.3470506666666667e-05, + "loss": 0.0093, + "step": 153035 + }, + { + "epoch": 0.979456, + "grad_norm": 0.11947790533304214, + "learning_rate": 1.3470293333333334e-05, + "loss": 0.0023, + "step": 153040 + }, + { + "epoch": 0.979488, + "grad_norm": 0.005778230261057615, + "learning_rate": 1.347008e-05, + "loss": 0.0143, + "step": 153045 + }, + { + "epoch": 0.97952, + "grad_norm": 0.014239002950489521, + "learning_rate": 1.346986666666667e-05, + "loss": 0.0053, + "step": 153050 + }, + { + "epoch": 0.979552, + "grad_norm": 0.17846527695655823, + "learning_rate": 1.3469653333333335e-05, + "loss": 0.0027, + "step": 153055 + }, + { + "epoch": 0.979584, + "grad_norm": 0.2944701313972473, + "learning_rate": 1.346944e-05, + "loss": 0.0053, + "step": 153060 + }, + { + "epoch": 0.979616, + "grad_norm": 1.5706205368041992, + "learning_rate": 1.3469226666666669e-05, + "loss": 0.0037, + "step": 153065 + }, + { + "epoch": 0.979648, + "grad_norm": 0.07758286595344543, + "learning_rate": 1.3469013333333335e-05, + "loss": 0.001, + "step": 153070 + }, + { + "epoch": 0.97968, + "grad_norm": 0.3218936026096344, + "learning_rate": 1.3468800000000002e-05, + "loss": 0.0081, + "step": 153075 + }, + { + "epoch": 0.979712, + "grad_norm": 0.031822241842746735, + "learning_rate": 1.3468586666666668e-05, + "loss": 0.0112, + "step": 153080 + }, + { + "epoch": 0.979744, + "grad_norm": 0.04319792985916138, + "learning_rate": 1.3468373333333336e-05, + "loss": 0.0014, + "step": 153085 + }, + { + "epoch": 0.979776, + "grad_norm": 0.4241335391998291, + "learning_rate": 1.3468160000000002e-05, + "loss": 0.0055, + "step": 153090 + }, + { + "epoch": 0.979808, + "grad_norm": 0.1277790367603302, + "learning_rate": 1.3467946666666667e-05, + "loss": 0.0016, + "step": 153095 + }, + { + "epoch": 0.97984, + "grad_norm": 0.25063058733940125, + "learning_rate": 1.3467733333333335e-05, + "loss": 0.0069, + "step": 153100 + }, + { + "epoch": 0.979872, + "grad_norm": 0.1348092406988144, + "learning_rate": 1.346752e-05, + "loss": 0.0073, + "step": 153105 + }, + { + "epoch": 0.979904, + "grad_norm": 0.009526318870484829, + "learning_rate": 1.3467306666666668e-05, + "loss": 0.0058, + "step": 153110 + }, + { + "epoch": 0.979936, + "grad_norm": 0.08083190023899078, + "learning_rate": 1.3467093333333334e-05, + "loss": 0.0022, + "step": 153115 + }, + { + "epoch": 0.979968, + "grad_norm": 0.11355486512184143, + "learning_rate": 1.3466880000000002e-05, + "loss": 0.0057, + "step": 153120 + }, + { + "epoch": 0.98, + "grad_norm": 0.3469018340110779, + "learning_rate": 1.3466666666666668e-05, + "loss": 0.006, + "step": 153125 + }, + { + "epoch": 0.980032, + "grad_norm": 2.415351152420044, + "learning_rate": 1.3466453333333333e-05, + "loss": 0.0048, + "step": 153130 + }, + { + "epoch": 0.980064, + "grad_norm": 0.14762306213378906, + "learning_rate": 1.3466240000000001e-05, + "loss": 0.0008, + "step": 153135 + }, + { + "epoch": 0.980096, + "grad_norm": 0.3662150204181671, + "learning_rate": 1.3466026666666667e-05, + "loss": 0.0154, + "step": 153140 + }, + { + "epoch": 0.980128, + "grad_norm": 1.5656622648239136, + "learning_rate": 1.3465813333333334e-05, + "loss": 0.0066, + "step": 153145 + }, + { + "epoch": 0.98016, + "grad_norm": 0.9309815168380737, + "learning_rate": 1.34656e-05, + "loss": 0.0058, + "step": 153150 + }, + { + "epoch": 0.980192, + "grad_norm": 0.2928904592990875, + "learning_rate": 1.346538666666667e-05, + "loss": 0.0044, + "step": 153155 + }, + { + "epoch": 0.980224, + "grad_norm": 1.0037786960601807, + "learning_rate": 1.3465173333333334e-05, + "loss": 0.0174, + "step": 153160 + }, + { + "epoch": 0.980256, + "grad_norm": 0.015243874862790108, + "learning_rate": 1.346496e-05, + "loss": 0.0028, + "step": 153165 + }, + { + "epoch": 0.980288, + "grad_norm": 0.01993095874786377, + "learning_rate": 1.3464746666666669e-05, + "loss": 0.0012, + "step": 153170 + }, + { + "epoch": 0.98032, + "grad_norm": 0.9427552223205566, + "learning_rate": 1.3464533333333335e-05, + "loss": 0.008, + "step": 153175 + }, + { + "epoch": 0.980352, + "grad_norm": 0.20082977414131165, + "learning_rate": 1.3464320000000002e-05, + "loss": 0.0041, + "step": 153180 + }, + { + "epoch": 0.980384, + "grad_norm": 0.05278028920292854, + "learning_rate": 1.3464106666666668e-05, + "loss": 0.0105, + "step": 153185 + }, + { + "epoch": 0.980416, + "grad_norm": 0.16478319466114044, + "learning_rate": 1.3463893333333336e-05, + "loss": 0.0037, + "step": 153190 + }, + { + "epoch": 0.980448, + "grad_norm": 0.8279039263725281, + "learning_rate": 1.3463680000000002e-05, + "loss": 0.0086, + "step": 153195 + }, + { + "epoch": 0.98048, + "grad_norm": 0.024042246863245964, + "learning_rate": 1.3463466666666667e-05, + "loss": 0.0033, + "step": 153200 + }, + { + "epoch": 0.980512, + "grad_norm": 0.09477975964546204, + "learning_rate": 1.3463253333333335e-05, + "loss": 0.0066, + "step": 153205 + }, + { + "epoch": 0.980544, + "grad_norm": 0.013675522059202194, + "learning_rate": 1.346304e-05, + "loss": 0.0014, + "step": 153210 + }, + { + "epoch": 0.980576, + "grad_norm": 0.6597576141357422, + "learning_rate": 1.3462826666666668e-05, + "loss": 0.0077, + "step": 153215 + }, + { + "epoch": 0.980608, + "grad_norm": 0.6857824325561523, + "learning_rate": 1.3462613333333334e-05, + "loss": 0.0101, + "step": 153220 + }, + { + "epoch": 0.98064, + "grad_norm": 0.27993178367614746, + "learning_rate": 1.3462400000000002e-05, + "loss": 0.0032, + "step": 153225 + }, + { + "epoch": 0.980672, + "grad_norm": 0.48066166043281555, + "learning_rate": 1.3462186666666668e-05, + "loss": 0.0037, + "step": 153230 + }, + { + "epoch": 0.980704, + "grad_norm": 0.011479046195745468, + "learning_rate": 1.3461973333333333e-05, + "loss": 0.0044, + "step": 153235 + }, + { + "epoch": 0.980736, + "grad_norm": 0.09839794039726257, + "learning_rate": 1.3461760000000001e-05, + "loss": 0.0076, + "step": 153240 + }, + { + "epoch": 0.980768, + "grad_norm": 0.15110066533088684, + "learning_rate": 1.3461546666666667e-05, + "loss": 0.0108, + "step": 153245 + }, + { + "epoch": 0.9808, + "grad_norm": 1.5335872173309326, + "learning_rate": 1.3461333333333334e-05, + "loss": 0.0028, + "step": 153250 + }, + { + "epoch": 0.980832, + "grad_norm": 0.22446095943450928, + "learning_rate": 1.346112e-05, + "loss": 0.0022, + "step": 153255 + }, + { + "epoch": 0.980864, + "grad_norm": 0.08248547464609146, + "learning_rate": 1.346090666666667e-05, + "loss": 0.0024, + "step": 153260 + }, + { + "epoch": 0.980896, + "grad_norm": 0.6953721642494202, + "learning_rate": 1.3460693333333334e-05, + "loss": 0.0107, + "step": 153265 + }, + { + "epoch": 0.980928, + "grad_norm": 0.040644265711307526, + "learning_rate": 1.346048e-05, + "loss": 0.0013, + "step": 153270 + }, + { + "epoch": 0.98096, + "grad_norm": 0.022840021178126335, + "learning_rate": 1.3460266666666669e-05, + "loss": 0.0103, + "step": 153275 + }, + { + "epoch": 0.980992, + "grad_norm": 1.0868806838989258, + "learning_rate": 1.3460053333333335e-05, + "loss": 0.0044, + "step": 153280 + }, + { + "epoch": 0.981024, + "grad_norm": 0.431120902299881, + "learning_rate": 1.3459840000000002e-05, + "loss": 0.0042, + "step": 153285 + }, + { + "epoch": 0.981056, + "grad_norm": 1.5121906995773315, + "learning_rate": 1.3459626666666668e-05, + "loss": 0.0043, + "step": 153290 + }, + { + "epoch": 0.981088, + "grad_norm": 0.003764224238693714, + "learning_rate": 1.3459413333333336e-05, + "loss": 0.0031, + "step": 153295 + }, + { + "epoch": 0.98112, + "grad_norm": 0.26168614625930786, + "learning_rate": 1.3459200000000002e-05, + "loss": 0.0088, + "step": 153300 + }, + { + "epoch": 0.981152, + "grad_norm": 0.039873797446489334, + "learning_rate": 1.3458986666666667e-05, + "loss": 0.0021, + "step": 153305 + }, + { + "epoch": 0.981184, + "grad_norm": 0.06885070353746414, + "learning_rate": 1.3458773333333335e-05, + "loss": 0.0066, + "step": 153310 + }, + { + "epoch": 0.981216, + "grad_norm": 0.05348796024918556, + "learning_rate": 1.345856e-05, + "loss": 0.0016, + "step": 153315 + }, + { + "epoch": 0.981248, + "grad_norm": 0.23192273080348969, + "learning_rate": 1.3458346666666668e-05, + "loss": 0.011, + "step": 153320 + }, + { + "epoch": 0.98128, + "grad_norm": 0.23609425127506256, + "learning_rate": 1.3458133333333334e-05, + "loss": 0.0033, + "step": 153325 + }, + { + "epoch": 0.981312, + "grad_norm": 0.6211913228034973, + "learning_rate": 1.3457920000000002e-05, + "loss": 0.0052, + "step": 153330 + }, + { + "epoch": 0.981344, + "grad_norm": 0.039355043321847916, + "learning_rate": 1.3457706666666668e-05, + "loss": 0.002, + "step": 153335 + }, + { + "epoch": 0.981376, + "grad_norm": 0.04625288397073746, + "learning_rate": 1.3457493333333333e-05, + "loss": 0.003, + "step": 153340 + }, + { + "epoch": 0.981408, + "grad_norm": 0.7467024326324463, + "learning_rate": 1.3457280000000001e-05, + "loss": 0.0321, + "step": 153345 + }, + { + "epoch": 0.98144, + "grad_norm": 0.30183908343315125, + "learning_rate": 1.3457066666666667e-05, + "loss": 0.0033, + "step": 153350 + }, + { + "epoch": 0.981472, + "grad_norm": 0.976046621799469, + "learning_rate": 1.3456853333333334e-05, + "loss": 0.0185, + "step": 153355 + }, + { + "epoch": 0.981504, + "grad_norm": 0.006567277014255524, + "learning_rate": 1.345664e-05, + "loss": 0.0072, + "step": 153360 + }, + { + "epoch": 0.981536, + "grad_norm": 0.06362967193126678, + "learning_rate": 1.345642666666667e-05, + "loss": 0.0101, + "step": 153365 + }, + { + "epoch": 0.981568, + "grad_norm": 0.4064306616783142, + "learning_rate": 1.3456213333333334e-05, + "loss": 0.0069, + "step": 153370 + }, + { + "epoch": 0.9816, + "grad_norm": 0.0247175469994545, + "learning_rate": 1.3456e-05, + "loss": 0.0012, + "step": 153375 + }, + { + "epoch": 0.981632, + "grad_norm": 0.2675204277038574, + "learning_rate": 1.3455786666666669e-05, + "loss": 0.0078, + "step": 153380 + }, + { + "epoch": 0.981664, + "grad_norm": 0.02556547150015831, + "learning_rate": 1.3455573333333333e-05, + "loss": 0.0056, + "step": 153385 + }, + { + "epoch": 0.981696, + "grad_norm": 0.3794710636138916, + "learning_rate": 1.3455360000000002e-05, + "loss": 0.0092, + "step": 153390 + }, + { + "epoch": 0.981728, + "grad_norm": 0.8788511753082275, + "learning_rate": 1.3455146666666668e-05, + "loss": 0.012, + "step": 153395 + }, + { + "epoch": 0.98176, + "grad_norm": 0.48241278529167175, + "learning_rate": 1.3454933333333336e-05, + "loss": 0.0103, + "step": 153400 + }, + { + "epoch": 0.981792, + "grad_norm": 0.7851982116699219, + "learning_rate": 1.3454720000000002e-05, + "loss": 0.011, + "step": 153405 + }, + { + "epoch": 0.981824, + "grad_norm": 0.14920765161514282, + "learning_rate": 1.3454506666666667e-05, + "loss": 0.0075, + "step": 153410 + }, + { + "epoch": 0.981856, + "grad_norm": 0.0125663373619318, + "learning_rate": 1.3454293333333335e-05, + "loss": 0.0012, + "step": 153415 + }, + { + "epoch": 0.981888, + "grad_norm": 0.46083346009254456, + "learning_rate": 1.345408e-05, + "loss": 0.0039, + "step": 153420 + }, + { + "epoch": 0.98192, + "grad_norm": 1.4135229587554932, + "learning_rate": 1.3453866666666668e-05, + "loss": 0.0149, + "step": 153425 + }, + { + "epoch": 0.981952, + "grad_norm": 0.03540767356753349, + "learning_rate": 1.3453653333333334e-05, + "loss": 0.0018, + "step": 153430 + }, + { + "epoch": 0.981984, + "grad_norm": 0.07279767096042633, + "learning_rate": 1.3453440000000002e-05, + "loss": 0.0066, + "step": 153435 + }, + { + "epoch": 0.982016, + "grad_norm": 0.2593308091163635, + "learning_rate": 1.3453226666666668e-05, + "loss": 0.0051, + "step": 153440 + }, + { + "epoch": 0.982048, + "grad_norm": 0.2966165244579315, + "learning_rate": 1.3453013333333333e-05, + "loss": 0.0079, + "step": 153445 + }, + { + "epoch": 0.98208, + "grad_norm": 0.7321088314056396, + "learning_rate": 1.3452800000000001e-05, + "loss": 0.0048, + "step": 153450 + }, + { + "epoch": 0.982112, + "grad_norm": 0.4190201759338379, + "learning_rate": 1.3452586666666667e-05, + "loss": 0.0113, + "step": 153455 + }, + { + "epoch": 0.982144, + "grad_norm": 0.025206100195646286, + "learning_rate": 1.3452373333333334e-05, + "loss": 0.0076, + "step": 153460 + }, + { + "epoch": 0.982176, + "grad_norm": 0.01719716005027294, + "learning_rate": 1.345216e-05, + "loss": 0.0085, + "step": 153465 + }, + { + "epoch": 0.982208, + "grad_norm": 0.02326170541346073, + "learning_rate": 1.345194666666667e-05, + "loss": 0.0074, + "step": 153470 + }, + { + "epoch": 0.98224, + "grad_norm": 0.27714046835899353, + "learning_rate": 1.3451733333333334e-05, + "loss": 0.0023, + "step": 153475 + }, + { + "epoch": 0.982272, + "grad_norm": 0.15642064809799194, + "learning_rate": 1.345152e-05, + "loss": 0.0061, + "step": 153480 + }, + { + "epoch": 0.982304, + "grad_norm": 0.13578768074512482, + "learning_rate": 1.3451306666666669e-05, + "loss": 0.0083, + "step": 153485 + }, + { + "epoch": 0.982336, + "grad_norm": 0.28592053055763245, + "learning_rate": 1.3451093333333333e-05, + "loss": 0.0038, + "step": 153490 + }, + { + "epoch": 0.982368, + "grad_norm": 0.3537871241569519, + "learning_rate": 1.3450880000000002e-05, + "loss": 0.0123, + "step": 153495 + }, + { + "epoch": 0.9824, + "grad_norm": 0.38878488540649414, + "learning_rate": 1.3450666666666668e-05, + "loss": 0.0065, + "step": 153500 + }, + { + "epoch": 0.982432, + "grad_norm": 0.7136359214782715, + "learning_rate": 1.3450453333333336e-05, + "loss": 0.0105, + "step": 153505 + }, + { + "epoch": 0.982464, + "grad_norm": 0.2696559429168701, + "learning_rate": 1.3450240000000002e-05, + "loss": 0.0115, + "step": 153510 + }, + { + "epoch": 0.982496, + "grad_norm": 0.06099527329206467, + "learning_rate": 1.3450026666666667e-05, + "loss": 0.0048, + "step": 153515 + }, + { + "epoch": 0.982528, + "grad_norm": 0.04618876427412033, + "learning_rate": 1.3449813333333335e-05, + "loss": 0.0048, + "step": 153520 + }, + { + "epoch": 0.98256, + "grad_norm": 0.18338839709758759, + "learning_rate": 1.34496e-05, + "loss": 0.0018, + "step": 153525 + }, + { + "epoch": 0.982592, + "grad_norm": 0.37085795402526855, + "learning_rate": 1.3449386666666668e-05, + "loss": 0.0071, + "step": 153530 + }, + { + "epoch": 0.982624, + "grad_norm": 0.036310553550720215, + "learning_rate": 1.3449173333333334e-05, + "loss": 0.0028, + "step": 153535 + }, + { + "epoch": 0.982656, + "grad_norm": 0.029197057709097862, + "learning_rate": 1.3448960000000002e-05, + "loss": 0.001, + "step": 153540 + }, + { + "epoch": 0.982688, + "grad_norm": 0.48756900429725647, + "learning_rate": 1.3448746666666668e-05, + "loss": 0.0079, + "step": 153545 + }, + { + "epoch": 0.98272, + "grad_norm": 0.8955509662628174, + "learning_rate": 1.3448533333333333e-05, + "loss": 0.0107, + "step": 153550 + }, + { + "epoch": 0.982752, + "grad_norm": 0.24153240025043488, + "learning_rate": 1.3448320000000001e-05, + "loss": 0.0045, + "step": 153555 + }, + { + "epoch": 0.982784, + "grad_norm": 0.20624296367168427, + "learning_rate": 1.3448106666666667e-05, + "loss": 0.0017, + "step": 153560 + }, + { + "epoch": 0.982816, + "grad_norm": 0.6470127105712891, + "learning_rate": 1.3447893333333334e-05, + "loss": 0.0064, + "step": 153565 + }, + { + "epoch": 0.982848, + "grad_norm": 0.4159131646156311, + "learning_rate": 1.344768e-05, + "loss": 0.0149, + "step": 153570 + }, + { + "epoch": 0.98288, + "grad_norm": 0.6842909455299377, + "learning_rate": 1.3447466666666668e-05, + "loss": 0.0062, + "step": 153575 + }, + { + "epoch": 0.982912, + "grad_norm": 0.587617039680481, + "learning_rate": 1.3447253333333334e-05, + "loss": 0.0025, + "step": 153580 + }, + { + "epoch": 0.982944, + "grad_norm": 0.3042113780975342, + "learning_rate": 1.344704e-05, + "loss": 0.0059, + "step": 153585 + }, + { + "epoch": 0.982976, + "grad_norm": 0.10699275135993958, + "learning_rate": 1.3446826666666669e-05, + "loss": 0.0018, + "step": 153590 + }, + { + "epoch": 0.983008, + "grad_norm": 0.013627077452838421, + "learning_rate": 1.3446613333333333e-05, + "loss": 0.0063, + "step": 153595 + }, + { + "epoch": 0.98304, + "grad_norm": 0.014750882051885128, + "learning_rate": 1.3446400000000002e-05, + "loss": 0.0035, + "step": 153600 + }, + { + "epoch": 0.983072, + "grad_norm": 0.20273523032665253, + "learning_rate": 1.3446186666666668e-05, + "loss": 0.0044, + "step": 153605 + }, + { + "epoch": 0.983104, + "grad_norm": 0.40343987941741943, + "learning_rate": 1.3445973333333336e-05, + "loss": 0.0068, + "step": 153610 + }, + { + "epoch": 0.983136, + "grad_norm": 0.0920746773481369, + "learning_rate": 1.3445760000000002e-05, + "loss": 0.006, + "step": 153615 + }, + { + "epoch": 0.983168, + "grad_norm": 0.023744305595755577, + "learning_rate": 1.3445546666666667e-05, + "loss": 0.0119, + "step": 153620 + }, + { + "epoch": 0.9832, + "grad_norm": 0.24704855680465698, + "learning_rate": 1.3445333333333335e-05, + "loss": 0.0074, + "step": 153625 + }, + { + "epoch": 0.983232, + "grad_norm": 1.264738917350769, + "learning_rate": 1.344512e-05, + "loss": 0.0042, + "step": 153630 + }, + { + "epoch": 0.983264, + "grad_norm": 0.28728851675987244, + "learning_rate": 1.3444906666666668e-05, + "loss": 0.0058, + "step": 153635 + }, + { + "epoch": 0.983296, + "grad_norm": 0.06619018316268921, + "learning_rate": 1.3444693333333334e-05, + "loss": 0.0042, + "step": 153640 + }, + { + "epoch": 0.983328, + "grad_norm": 0.5149356722831726, + "learning_rate": 1.3444480000000002e-05, + "loss": 0.0052, + "step": 153645 + }, + { + "epoch": 0.98336, + "grad_norm": 0.13372258841991425, + "learning_rate": 1.3444266666666668e-05, + "loss": 0.0016, + "step": 153650 + }, + { + "epoch": 0.983392, + "grad_norm": 1.5037668943405151, + "learning_rate": 1.3444053333333333e-05, + "loss": 0.0026, + "step": 153655 + }, + { + "epoch": 0.983424, + "grad_norm": 0.06551861763000488, + "learning_rate": 1.3443840000000001e-05, + "loss": 0.0027, + "step": 153660 + }, + { + "epoch": 0.983456, + "grad_norm": 0.030907122418284416, + "learning_rate": 1.3443626666666667e-05, + "loss": 0.0134, + "step": 153665 + }, + { + "epoch": 0.983488, + "grad_norm": 0.2856343984603882, + "learning_rate": 1.3443413333333334e-05, + "loss": 0.002, + "step": 153670 + }, + { + "epoch": 0.98352, + "grad_norm": 0.30278244614601135, + "learning_rate": 1.34432e-05, + "loss": 0.0022, + "step": 153675 + }, + { + "epoch": 0.983552, + "grad_norm": 1.0714800357818604, + "learning_rate": 1.3442986666666668e-05, + "loss": 0.0102, + "step": 153680 + }, + { + "epoch": 0.983584, + "grad_norm": 0.1700480431318283, + "learning_rate": 1.3442773333333334e-05, + "loss": 0.0087, + "step": 153685 + }, + { + "epoch": 0.983616, + "grad_norm": 0.3126663267612457, + "learning_rate": 1.344256e-05, + "loss": 0.0031, + "step": 153690 + }, + { + "epoch": 0.983648, + "grad_norm": 0.589450478553772, + "learning_rate": 1.3442346666666669e-05, + "loss": 0.0037, + "step": 153695 + }, + { + "epoch": 0.98368, + "grad_norm": 0.12709496915340424, + "learning_rate": 1.3442133333333333e-05, + "loss": 0.0036, + "step": 153700 + }, + { + "epoch": 0.983712, + "grad_norm": 0.23395095765590668, + "learning_rate": 1.3441920000000002e-05, + "loss": 0.0011, + "step": 153705 + }, + { + "epoch": 0.983744, + "grad_norm": 0.06297938525676727, + "learning_rate": 1.3441706666666668e-05, + "loss": 0.0048, + "step": 153710 + }, + { + "epoch": 0.983776, + "grad_norm": 0.5502681136131287, + "learning_rate": 1.3441493333333336e-05, + "loss": 0.0028, + "step": 153715 + }, + { + "epoch": 0.983808, + "grad_norm": 0.4103732407093048, + "learning_rate": 1.3441280000000002e-05, + "loss": 0.0125, + "step": 153720 + }, + { + "epoch": 0.98384, + "grad_norm": 0.2008257508277893, + "learning_rate": 1.3441066666666667e-05, + "loss": 0.0152, + "step": 153725 + }, + { + "epoch": 0.983872, + "grad_norm": 0.13399073481559753, + "learning_rate": 1.3440853333333335e-05, + "loss": 0.0045, + "step": 153730 + }, + { + "epoch": 0.983904, + "grad_norm": 0.05623259022831917, + "learning_rate": 1.344064e-05, + "loss": 0.0059, + "step": 153735 + }, + { + "epoch": 0.983936, + "grad_norm": 0.0922398492693901, + "learning_rate": 1.3440426666666668e-05, + "loss": 0.0435, + "step": 153740 + }, + { + "epoch": 0.983968, + "grad_norm": 0.23381352424621582, + "learning_rate": 1.3440213333333334e-05, + "loss": 0.0107, + "step": 153745 + }, + { + "epoch": 0.984, + "grad_norm": 0.7333415150642395, + "learning_rate": 1.3440000000000002e-05, + "loss": 0.0044, + "step": 153750 + }, + { + "epoch": 0.984032, + "grad_norm": 0.11124201118946075, + "learning_rate": 1.3439786666666668e-05, + "loss": 0.0114, + "step": 153755 + }, + { + "epoch": 0.984064, + "grad_norm": 0.10493748635053635, + "learning_rate": 1.3439573333333333e-05, + "loss": 0.0035, + "step": 153760 + }, + { + "epoch": 0.984096, + "grad_norm": 0.19682854413986206, + "learning_rate": 1.3439360000000001e-05, + "loss": 0.0067, + "step": 153765 + }, + { + "epoch": 0.984128, + "grad_norm": 0.657232940196991, + "learning_rate": 1.3439146666666667e-05, + "loss": 0.0075, + "step": 153770 + }, + { + "epoch": 0.98416, + "grad_norm": 0.21323198080062866, + "learning_rate": 1.3438933333333334e-05, + "loss": 0.0017, + "step": 153775 + }, + { + "epoch": 0.984192, + "grad_norm": 0.1677771359682083, + "learning_rate": 1.343872e-05, + "loss": 0.0123, + "step": 153780 + }, + { + "epoch": 0.984224, + "grad_norm": 0.06276469677686691, + "learning_rate": 1.3438506666666668e-05, + "loss": 0.0073, + "step": 153785 + }, + { + "epoch": 0.984256, + "grad_norm": 0.23176394402980804, + "learning_rate": 1.3438293333333334e-05, + "loss": 0.0063, + "step": 153790 + }, + { + "epoch": 0.984288, + "grad_norm": 0.1753343939781189, + "learning_rate": 1.343808e-05, + "loss": 0.0022, + "step": 153795 + }, + { + "epoch": 0.98432, + "grad_norm": 0.4337434470653534, + "learning_rate": 1.3437866666666667e-05, + "loss": 0.0161, + "step": 153800 + }, + { + "epoch": 0.984352, + "grad_norm": 0.14318427443504333, + "learning_rate": 1.3437653333333333e-05, + "loss": 0.0135, + "step": 153805 + }, + { + "epoch": 0.984384, + "grad_norm": 0.539362370967865, + "learning_rate": 1.3437440000000002e-05, + "loss": 0.0148, + "step": 153810 + }, + { + "epoch": 0.984416, + "grad_norm": 1.0346490144729614, + "learning_rate": 1.3437226666666668e-05, + "loss": 0.0098, + "step": 153815 + }, + { + "epoch": 0.984448, + "grad_norm": 0.03607925400137901, + "learning_rate": 1.3437013333333336e-05, + "loss": 0.0051, + "step": 153820 + }, + { + "epoch": 0.98448, + "grad_norm": 0.5666225552558899, + "learning_rate": 1.3436800000000002e-05, + "loss": 0.0054, + "step": 153825 + }, + { + "epoch": 0.984512, + "grad_norm": 0.9087818264961243, + "learning_rate": 1.3436586666666667e-05, + "loss": 0.0057, + "step": 153830 + }, + { + "epoch": 0.984544, + "grad_norm": 3.241483449935913, + "learning_rate": 1.3436373333333335e-05, + "loss": 0.0056, + "step": 153835 + }, + { + "epoch": 0.984576, + "grad_norm": 0.472560852766037, + "learning_rate": 1.343616e-05, + "loss": 0.013, + "step": 153840 + }, + { + "epoch": 0.984608, + "grad_norm": 0.1421581357717514, + "learning_rate": 1.3435946666666668e-05, + "loss": 0.0051, + "step": 153845 + }, + { + "epoch": 0.98464, + "grad_norm": 0.0555165596306324, + "learning_rate": 1.3435733333333334e-05, + "loss": 0.0009, + "step": 153850 + }, + { + "epoch": 0.984672, + "grad_norm": 0.11070524156093597, + "learning_rate": 1.3435520000000002e-05, + "loss": 0.0075, + "step": 153855 + }, + { + "epoch": 0.984704, + "grad_norm": 0.031135667115449905, + "learning_rate": 1.3435306666666668e-05, + "loss": 0.0027, + "step": 153860 + }, + { + "epoch": 0.984736, + "grad_norm": 0.2109503597021103, + "learning_rate": 1.3435093333333335e-05, + "loss": 0.0111, + "step": 153865 + }, + { + "epoch": 0.984768, + "grad_norm": 0.7360527515411377, + "learning_rate": 1.3434880000000001e-05, + "loss": 0.0028, + "step": 153870 + }, + { + "epoch": 0.9848, + "grad_norm": 0.8877125978469849, + "learning_rate": 1.3434666666666667e-05, + "loss": 0.0065, + "step": 153875 + }, + { + "epoch": 0.984832, + "grad_norm": 0.2856833040714264, + "learning_rate": 1.3434453333333334e-05, + "loss": 0.0025, + "step": 153880 + }, + { + "epoch": 0.984864, + "grad_norm": 0.984895646572113, + "learning_rate": 1.343424e-05, + "loss": 0.0054, + "step": 153885 + }, + { + "epoch": 0.984896, + "grad_norm": 0.07314804196357727, + "learning_rate": 1.3434026666666668e-05, + "loss": 0.0052, + "step": 153890 + }, + { + "epoch": 0.984928, + "grad_norm": 0.050349075347185135, + "learning_rate": 1.3433813333333334e-05, + "loss": 0.0027, + "step": 153895 + }, + { + "epoch": 0.98496, + "grad_norm": 0.36780089139938354, + "learning_rate": 1.3433600000000003e-05, + "loss": 0.0126, + "step": 153900 + }, + { + "epoch": 0.984992, + "grad_norm": 0.049688927829265594, + "learning_rate": 1.3433386666666667e-05, + "loss": 0.0014, + "step": 153905 + }, + { + "epoch": 0.985024, + "grad_norm": 0.022166749462485313, + "learning_rate": 1.3433173333333333e-05, + "loss": 0.002, + "step": 153910 + }, + { + "epoch": 0.985056, + "grad_norm": 0.01324043981730938, + "learning_rate": 1.3432960000000002e-05, + "loss": 0.0105, + "step": 153915 + }, + { + "epoch": 0.985088, + "grad_norm": 0.04157432168722153, + "learning_rate": 1.3432746666666668e-05, + "loss": 0.004, + "step": 153920 + }, + { + "epoch": 0.98512, + "grad_norm": 0.2172427773475647, + "learning_rate": 1.3432533333333336e-05, + "loss": 0.0181, + "step": 153925 + }, + { + "epoch": 0.985152, + "grad_norm": 0.05504404380917549, + "learning_rate": 1.3432320000000002e-05, + "loss": 0.0124, + "step": 153930 + }, + { + "epoch": 0.985184, + "grad_norm": 0.34891828894615173, + "learning_rate": 1.3432106666666669e-05, + "loss": 0.0126, + "step": 153935 + }, + { + "epoch": 0.985216, + "grad_norm": 0.227005273103714, + "learning_rate": 1.3431893333333335e-05, + "loss": 0.0082, + "step": 153940 + }, + { + "epoch": 0.985248, + "grad_norm": 3.1909890174865723, + "learning_rate": 1.343168e-05, + "loss": 0.0073, + "step": 153945 + }, + { + "epoch": 0.98528, + "grad_norm": 0.011807896196842194, + "learning_rate": 1.3431466666666668e-05, + "loss": 0.0057, + "step": 153950 + }, + { + "epoch": 0.985312, + "grad_norm": 0.03915219381451607, + "learning_rate": 1.3431253333333334e-05, + "loss": 0.0055, + "step": 153955 + }, + { + "epoch": 0.985344, + "grad_norm": 0.4446950852870941, + "learning_rate": 1.3431040000000002e-05, + "loss": 0.0254, + "step": 153960 + }, + { + "epoch": 0.985376, + "grad_norm": 0.14230690896511078, + "learning_rate": 1.3430826666666668e-05, + "loss": 0.0029, + "step": 153965 + }, + { + "epoch": 0.985408, + "grad_norm": 0.9848844408988953, + "learning_rate": 1.3430613333333335e-05, + "loss": 0.0248, + "step": 153970 + }, + { + "epoch": 0.98544, + "grad_norm": 0.3594326674938202, + "learning_rate": 1.3430400000000001e-05, + "loss": 0.0061, + "step": 153975 + }, + { + "epoch": 0.985472, + "grad_norm": 0.1261489987373352, + "learning_rate": 1.3430186666666667e-05, + "loss": 0.008, + "step": 153980 + }, + { + "epoch": 0.985504, + "grad_norm": 0.6902799010276794, + "learning_rate": 1.3429973333333334e-05, + "loss": 0.0067, + "step": 153985 + }, + { + "epoch": 0.985536, + "grad_norm": 1.4606117010116577, + "learning_rate": 1.342976e-05, + "loss": 0.0114, + "step": 153990 + }, + { + "epoch": 0.985568, + "grad_norm": 0.23706093430519104, + "learning_rate": 1.3429546666666668e-05, + "loss": 0.001, + "step": 153995 + }, + { + "epoch": 0.9856, + "grad_norm": 0.987468421459198, + "learning_rate": 1.3429333333333334e-05, + "loss": 0.0139, + "step": 154000 + }, + { + "epoch": 0.985632, + "grad_norm": 0.2566676735877991, + "learning_rate": 1.3429120000000003e-05, + "loss": 0.0031, + "step": 154005 + }, + { + "epoch": 0.985664, + "grad_norm": 0.10675282776355743, + "learning_rate": 1.3428906666666667e-05, + "loss": 0.0112, + "step": 154010 + }, + { + "epoch": 0.985696, + "grad_norm": 0.6800462007522583, + "learning_rate": 1.3428693333333333e-05, + "loss": 0.0038, + "step": 154015 + }, + { + "epoch": 0.985728, + "grad_norm": 0.5090125203132629, + "learning_rate": 1.3428480000000002e-05, + "loss": 0.0028, + "step": 154020 + }, + { + "epoch": 0.98576, + "grad_norm": 0.4907173812389374, + "learning_rate": 1.3428266666666666e-05, + "loss": 0.0019, + "step": 154025 + }, + { + "epoch": 0.985792, + "grad_norm": 0.19888727366924286, + "learning_rate": 1.3428053333333336e-05, + "loss": 0.0054, + "step": 154030 + }, + { + "epoch": 0.985824, + "grad_norm": 0.030872145667672157, + "learning_rate": 1.3427840000000002e-05, + "loss": 0.0034, + "step": 154035 + }, + { + "epoch": 0.985856, + "grad_norm": 0.35634976625442505, + "learning_rate": 1.3427626666666669e-05, + "loss": 0.0143, + "step": 154040 + }, + { + "epoch": 0.985888, + "grad_norm": 0.69696444272995, + "learning_rate": 1.3427413333333335e-05, + "loss": 0.0065, + "step": 154045 + }, + { + "epoch": 0.98592, + "grad_norm": 0.2609162926673889, + "learning_rate": 1.34272e-05, + "loss": 0.0036, + "step": 154050 + }, + { + "epoch": 0.985952, + "grad_norm": 0.006017692852765322, + "learning_rate": 1.3426986666666668e-05, + "loss": 0.0111, + "step": 154055 + }, + { + "epoch": 0.985984, + "grad_norm": 0.22633077204227448, + "learning_rate": 1.3426773333333334e-05, + "loss": 0.0021, + "step": 154060 + }, + { + "epoch": 0.986016, + "grad_norm": 7.323727130889893, + "learning_rate": 1.3426560000000002e-05, + "loss": 0.0148, + "step": 154065 + }, + { + "epoch": 0.986048, + "grad_norm": 0.01966897025704384, + "learning_rate": 1.3426346666666668e-05, + "loss": 0.0112, + "step": 154070 + }, + { + "epoch": 0.98608, + "grad_norm": 0.24392904341220856, + "learning_rate": 1.3426133333333335e-05, + "loss": 0.006, + "step": 154075 + }, + { + "epoch": 0.986112, + "grad_norm": 1.2929705381393433, + "learning_rate": 1.3425920000000001e-05, + "loss": 0.0064, + "step": 154080 + }, + { + "epoch": 0.986144, + "grad_norm": 0.24355502426624298, + "learning_rate": 1.3425706666666667e-05, + "loss": 0.0163, + "step": 154085 + }, + { + "epoch": 0.986176, + "grad_norm": 0.4229462444782257, + "learning_rate": 1.3425493333333334e-05, + "loss": 0.0021, + "step": 154090 + }, + { + "epoch": 0.986208, + "grad_norm": 0.9850766062736511, + "learning_rate": 1.342528e-05, + "loss": 0.0224, + "step": 154095 + }, + { + "epoch": 0.98624, + "grad_norm": 0.0040817223489284515, + "learning_rate": 1.3425066666666668e-05, + "loss": 0.0017, + "step": 154100 + }, + { + "epoch": 0.986272, + "grad_norm": 0.08221197873353958, + "learning_rate": 1.3424853333333334e-05, + "loss": 0.0038, + "step": 154105 + }, + { + "epoch": 0.986304, + "grad_norm": 0.38410696387290955, + "learning_rate": 1.3424640000000001e-05, + "loss": 0.0105, + "step": 154110 + }, + { + "epoch": 0.986336, + "grad_norm": 1.5416244268417358, + "learning_rate": 1.3424426666666667e-05, + "loss": 0.0105, + "step": 154115 + }, + { + "epoch": 0.986368, + "grad_norm": 0.04507170245051384, + "learning_rate": 1.3424213333333333e-05, + "loss": 0.0046, + "step": 154120 + }, + { + "epoch": 0.9864, + "grad_norm": 0.028789663687348366, + "learning_rate": 1.3424000000000002e-05, + "loss": 0.0031, + "step": 154125 + }, + { + "epoch": 0.986432, + "grad_norm": 0.2070390284061432, + "learning_rate": 1.3423786666666666e-05, + "loss": 0.0062, + "step": 154130 + }, + { + "epoch": 0.986464, + "grad_norm": 0.06594810634851456, + "learning_rate": 1.3423573333333336e-05, + "loss": 0.0023, + "step": 154135 + }, + { + "epoch": 0.986496, + "grad_norm": 0.010326419956982136, + "learning_rate": 1.3423360000000002e-05, + "loss": 0.001, + "step": 154140 + }, + { + "epoch": 0.986528, + "grad_norm": 0.1622190773487091, + "learning_rate": 1.3423146666666669e-05, + "loss": 0.0026, + "step": 154145 + }, + { + "epoch": 0.98656, + "grad_norm": 0.04214101657271385, + "learning_rate": 1.3422933333333335e-05, + "loss": 0.0089, + "step": 154150 + }, + { + "epoch": 0.986592, + "grad_norm": 0.17123878002166748, + "learning_rate": 1.342272e-05, + "loss": 0.0036, + "step": 154155 + }, + { + "epoch": 0.986624, + "grad_norm": 0.5884913206100464, + "learning_rate": 1.3422506666666668e-05, + "loss": 0.0121, + "step": 154160 + }, + { + "epoch": 0.986656, + "grad_norm": 0.167295902967453, + "learning_rate": 1.3422293333333334e-05, + "loss": 0.0166, + "step": 154165 + }, + { + "epoch": 0.986688, + "grad_norm": 0.5399919152259827, + "learning_rate": 1.3422080000000002e-05, + "loss": 0.0074, + "step": 154170 + }, + { + "epoch": 0.98672, + "grad_norm": 0.01843987964093685, + "learning_rate": 1.3421866666666668e-05, + "loss": 0.0018, + "step": 154175 + }, + { + "epoch": 0.986752, + "grad_norm": 0.5771593451499939, + "learning_rate": 1.3421653333333335e-05, + "loss": 0.0051, + "step": 154180 + }, + { + "epoch": 0.986784, + "grad_norm": 0.30928003787994385, + "learning_rate": 1.3421440000000001e-05, + "loss": 0.0026, + "step": 154185 + }, + { + "epoch": 0.986816, + "grad_norm": 0.5886431336402893, + "learning_rate": 1.3421226666666667e-05, + "loss": 0.0134, + "step": 154190 + }, + { + "epoch": 0.986848, + "grad_norm": 0.0877063050866127, + "learning_rate": 1.3421013333333334e-05, + "loss": 0.004, + "step": 154195 + }, + { + "epoch": 0.98688, + "grad_norm": 0.7116308808326721, + "learning_rate": 1.34208e-05, + "loss": 0.0024, + "step": 154200 + }, + { + "epoch": 0.986912, + "grad_norm": 0.038719650357961655, + "learning_rate": 1.3420586666666668e-05, + "loss": 0.0027, + "step": 154205 + }, + { + "epoch": 0.986944, + "grad_norm": 0.7939155697822571, + "learning_rate": 1.3420373333333334e-05, + "loss": 0.0092, + "step": 154210 + }, + { + "epoch": 0.986976, + "grad_norm": 0.12226059287786484, + "learning_rate": 1.3420160000000001e-05, + "loss": 0.0091, + "step": 154215 + }, + { + "epoch": 0.987008, + "grad_norm": 0.012131128460168839, + "learning_rate": 1.3419946666666667e-05, + "loss": 0.002, + "step": 154220 + }, + { + "epoch": 0.98704, + "grad_norm": 1.2505428791046143, + "learning_rate": 1.3419733333333333e-05, + "loss": 0.025, + "step": 154225 + }, + { + "epoch": 0.987072, + "grad_norm": 1.9752248525619507, + "learning_rate": 1.3419520000000002e-05, + "loss": 0.0086, + "step": 154230 + }, + { + "epoch": 0.987104, + "grad_norm": 0.21555587649345398, + "learning_rate": 1.3419306666666666e-05, + "loss": 0.0042, + "step": 154235 + }, + { + "epoch": 0.987136, + "grad_norm": 0.050813864916563034, + "learning_rate": 1.3419093333333336e-05, + "loss": 0.0008, + "step": 154240 + }, + { + "epoch": 0.987168, + "grad_norm": 0.22613796591758728, + "learning_rate": 1.3418880000000002e-05, + "loss": 0.0246, + "step": 154245 + }, + { + "epoch": 0.9872, + "grad_norm": 0.29351410269737244, + "learning_rate": 1.3418666666666669e-05, + "loss": 0.0062, + "step": 154250 + }, + { + "epoch": 0.987232, + "grad_norm": 0.03260105848312378, + "learning_rate": 1.3418453333333335e-05, + "loss": 0.0189, + "step": 154255 + }, + { + "epoch": 0.987264, + "grad_norm": 0.4295247793197632, + "learning_rate": 1.341824e-05, + "loss": 0.0068, + "step": 154260 + }, + { + "epoch": 0.987296, + "grad_norm": 0.05147770792245865, + "learning_rate": 1.3418026666666668e-05, + "loss": 0.003, + "step": 154265 + }, + { + "epoch": 0.987328, + "grad_norm": 0.20297358930110931, + "learning_rate": 1.3417813333333334e-05, + "loss": 0.0035, + "step": 154270 + }, + { + "epoch": 0.98736, + "grad_norm": 0.2784433364868164, + "learning_rate": 1.3417600000000002e-05, + "loss": 0.0051, + "step": 154275 + }, + { + "epoch": 0.987392, + "grad_norm": 0.33060169219970703, + "learning_rate": 1.3417386666666668e-05, + "loss": 0.0036, + "step": 154280 + }, + { + "epoch": 0.987424, + "grad_norm": 0.5256364345550537, + "learning_rate": 1.3417173333333335e-05, + "loss": 0.005, + "step": 154285 + }, + { + "epoch": 0.987456, + "grad_norm": 0.3139292597770691, + "learning_rate": 1.3416960000000001e-05, + "loss": 0.005, + "step": 154290 + }, + { + "epoch": 0.987488, + "grad_norm": 0.5607043504714966, + "learning_rate": 1.3416746666666667e-05, + "loss": 0.0044, + "step": 154295 + }, + { + "epoch": 0.98752, + "grad_norm": 0.14998643100261688, + "learning_rate": 1.3416533333333334e-05, + "loss": 0.0032, + "step": 154300 + }, + { + "epoch": 0.987552, + "grad_norm": 0.5849564671516418, + "learning_rate": 1.341632e-05, + "loss": 0.0103, + "step": 154305 + }, + { + "epoch": 0.987584, + "grad_norm": 0.05223194509744644, + "learning_rate": 1.3416106666666668e-05, + "loss": 0.0058, + "step": 154310 + }, + { + "epoch": 0.987616, + "grad_norm": 0.02358904480934143, + "learning_rate": 1.3415893333333334e-05, + "loss": 0.0064, + "step": 154315 + }, + { + "epoch": 0.987648, + "grad_norm": 0.8364799618721008, + "learning_rate": 1.3415680000000001e-05, + "loss": 0.004, + "step": 154320 + }, + { + "epoch": 0.98768, + "grad_norm": 1.3711515665054321, + "learning_rate": 1.3415466666666667e-05, + "loss": 0.0062, + "step": 154325 + }, + { + "epoch": 0.987712, + "grad_norm": 0.2796672284603119, + "learning_rate": 1.3415253333333333e-05, + "loss": 0.0081, + "step": 154330 + }, + { + "epoch": 0.987744, + "grad_norm": 0.025144973769783974, + "learning_rate": 1.341504e-05, + "loss": 0.0022, + "step": 154335 + }, + { + "epoch": 0.987776, + "grad_norm": 0.20755939185619354, + "learning_rate": 1.3414826666666666e-05, + "loss": 0.0076, + "step": 154340 + }, + { + "epoch": 0.987808, + "grad_norm": 0.43745386600494385, + "learning_rate": 1.3414613333333336e-05, + "loss": 0.0032, + "step": 154345 + }, + { + "epoch": 0.98784, + "grad_norm": 1.028922438621521, + "learning_rate": 1.3414400000000002e-05, + "loss": 0.0067, + "step": 154350 + }, + { + "epoch": 0.987872, + "grad_norm": 0.744128942489624, + "learning_rate": 1.3414186666666669e-05, + "loss": 0.0124, + "step": 154355 + }, + { + "epoch": 0.987904, + "grad_norm": 0.021304238587617874, + "learning_rate": 1.3413973333333335e-05, + "loss": 0.002, + "step": 154360 + }, + { + "epoch": 0.987936, + "grad_norm": 0.1252015084028244, + "learning_rate": 1.341376e-05, + "loss": 0.0079, + "step": 154365 + }, + { + "epoch": 0.987968, + "grad_norm": 0.070032499730587, + "learning_rate": 1.3413546666666668e-05, + "loss": 0.0017, + "step": 154370 + }, + { + "epoch": 0.988, + "grad_norm": 0.7132371068000793, + "learning_rate": 1.3413333333333334e-05, + "loss": 0.0082, + "step": 154375 + }, + { + "epoch": 0.988032, + "grad_norm": 0.11587723344564438, + "learning_rate": 1.3413120000000002e-05, + "loss": 0.0029, + "step": 154380 + }, + { + "epoch": 0.988064, + "grad_norm": 0.4033259153366089, + "learning_rate": 1.3412906666666668e-05, + "loss": 0.0136, + "step": 154385 + }, + { + "epoch": 0.988096, + "grad_norm": 0.25724342465400696, + "learning_rate": 1.3412693333333335e-05, + "loss": 0.0107, + "step": 154390 + }, + { + "epoch": 0.988128, + "grad_norm": 0.14172375202178955, + "learning_rate": 1.3412480000000001e-05, + "loss": 0.0139, + "step": 154395 + }, + { + "epoch": 0.98816, + "grad_norm": 0.12155545502901077, + "learning_rate": 1.3412266666666667e-05, + "loss": 0.0485, + "step": 154400 + }, + { + "epoch": 0.988192, + "grad_norm": 1.3050708770751953, + "learning_rate": 1.3412053333333334e-05, + "loss": 0.0076, + "step": 154405 + }, + { + "epoch": 0.988224, + "grad_norm": 0.12126091122627258, + "learning_rate": 1.341184e-05, + "loss": 0.0218, + "step": 154410 + }, + { + "epoch": 0.988256, + "grad_norm": 0.5222474336624146, + "learning_rate": 1.3411626666666668e-05, + "loss": 0.0077, + "step": 154415 + }, + { + "epoch": 0.988288, + "grad_norm": 0.1763300597667694, + "learning_rate": 1.3411413333333334e-05, + "loss": 0.0042, + "step": 154420 + }, + { + "epoch": 0.98832, + "grad_norm": 0.6416525840759277, + "learning_rate": 1.3411200000000001e-05, + "loss": 0.0049, + "step": 154425 + }, + { + "epoch": 0.988352, + "grad_norm": 0.2627181112766266, + "learning_rate": 1.3410986666666667e-05, + "loss": 0.0052, + "step": 154430 + }, + { + "epoch": 0.988384, + "grad_norm": 0.10667144507169724, + "learning_rate": 1.3410773333333333e-05, + "loss": 0.0045, + "step": 154435 + }, + { + "epoch": 0.988416, + "grad_norm": 0.7104020118713379, + "learning_rate": 1.341056e-05, + "loss": 0.0044, + "step": 154440 + }, + { + "epoch": 0.988448, + "grad_norm": 0.3322612941265106, + "learning_rate": 1.3410346666666666e-05, + "loss": 0.0029, + "step": 154445 + }, + { + "epoch": 0.98848, + "grad_norm": 0.903359591960907, + "learning_rate": 1.3410133333333336e-05, + "loss": 0.0147, + "step": 154450 + }, + { + "epoch": 0.988512, + "grad_norm": 0.7401109337806702, + "learning_rate": 1.3409920000000002e-05, + "loss": 0.0097, + "step": 154455 + }, + { + "epoch": 0.988544, + "grad_norm": 0.020347604528069496, + "learning_rate": 1.3409706666666669e-05, + "loss": 0.0117, + "step": 154460 + }, + { + "epoch": 0.988576, + "grad_norm": 0.0637545958161354, + "learning_rate": 1.3409493333333335e-05, + "loss": 0.0111, + "step": 154465 + }, + { + "epoch": 0.988608, + "grad_norm": 1.1787676811218262, + "learning_rate": 1.340928e-05, + "loss": 0.0037, + "step": 154470 + }, + { + "epoch": 0.98864, + "grad_norm": 0.502696692943573, + "learning_rate": 1.3409066666666668e-05, + "loss": 0.0101, + "step": 154475 + }, + { + "epoch": 0.988672, + "grad_norm": 0.23688745498657227, + "learning_rate": 1.3408853333333334e-05, + "loss": 0.0036, + "step": 154480 + }, + { + "epoch": 0.988704, + "grad_norm": 0.5563425421714783, + "learning_rate": 1.3408640000000002e-05, + "loss": 0.0131, + "step": 154485 + }, + { + "epoch": 0.988736, + "grad_norm": 0.10636705905199051, + "learning_rate": 1.3408426666666668e-05, + "loss": 0.0017, + "step": 154490 + }, + { + "epoch": 0.988768, + "grad_norm": 0.5645208954811096, + "learning_rate": 1.3408213333333335e-05, + "loss": 0.008, + "step": 154495 + }, + { + "epoch": 0.9888, + "grad_norm": 0.449250727891922, + "learning_rate": 1.3408000000000001e-05, + "loss": 0.0014, + "step": 154500 + }, + { + "epoch": 0.988832, + "grad_norm": 0.2384626269340515, + "learning_rate": 1.3407786666666667e-05, + "loss": 0.002, + "step": 154505 + }, + { + "epoch": 0.988864, + "grad_norm": 0.694155752658844, + "learning_rate": 1.3407573333333334e-05, + "loss": 0.0029, + "step": 154510 + }, + { + "epoch": 0.988896, + "grad_norm": 0.9651267528533936, + "learning_rate": 1.340736e-05, + "loss": 0.0184, + "step": 154515 + }, + { + "epoch": 0.988928, + "grad_norm": 0.6085216403007507, + "learning_rate": 1.3407146666666668e-05, + "loss": 0.0028, + "step": 154520 + }, + { + "epoch": 0.98896, + "grad_norm": 0.15515147149562836, + "learning_rate": 1.3406933333333334e-05, + "loss": 0.005, + "step": 154525 + }, + { + "epoch": 0.988992, + "grad_norm": 0.16956327855587006, + "learning_rate": 1.3406720000000001e-05, + "loss": 0.0021, + "step": 154530 + }, + { + "epoch": 0.989024, + "grad_norm": 0.089919313788414, + "learning_rate": 1.3406506666666667e-05, + "loss": 0.003, + "step": 154535 + }, + { + "epoch": 0.989056, + "grad_norm": 0.36280357837677, + "learning_rate": 1.3406293333333333e-05, + "loss": 0.0096, + "step": 154540 + }, + { + "epoch": 0.989088, + "grad_norm": 0.11998370289802551, + "learning_rate": 1.340608e-05, + "loss": 0.0052, + "step": 154545 + }, + { + "epoch": 0.98912, + "grad_norm": 1.2545301914215088, + "learning_rate": 1.3405866666666666e-05, + "loss": 0.0127, + "step": 154550 + }, + { + "epoch": 0.989152, + "grad_norm": 4.891054630279541, + "learning_rate": 1.3405653333333336e-05, + "loss": 0.0041, + "step": 154555 + }, + { + "epoch": 0.989184, + "grad_norm": 0.26801782846450806, + "learning_rate": 1.340544e-05, + "loss": 0.006, + "step": 154560 + }, + { + "epoch": 0.989216, + "grad_norm": 0.06244676560163498, + "learning_rate": 1.3405226666666669e-05, + "loss": 0.0071, + "step": 154565 + }, + { + "epoch": 0.989248, + "grad_norm": 1.832198977470398, + "learning_rate": 1.3405013333333335e-05, + "loss": 0.0067, + "step": 154570 + }, + { + "epoch": 0.98928, + "grad_norm": 0.5293189287185669, + "learning_rate": 1.34048e-05, + "loss": 0.0115, + "step": 154575 + }, + { + "epoch": 0.989312, + "grad_norm": 0.16310155391693115, + "learning_rate": 1.3404586666666668e-05, + "loss": 0.0035, + "step": 154580 + }, + { + "epoch": 0.989344, + "grad_norm": 0.6820248365402222, + "learning_rate": 1.3404373333333334e-05, + "loss": 0.0062, + "step": 154585 + }, + { + "epoch": 0.989376, + "grad_norm": 0.9104037284851074, + "learning_rate": 1.3404160000000002e-05, + "loss": 0.008, + "step": 154590 + }, + { + "epoch": 0.989408, + "grad_norm": 0.28119632601737976, + "learning_rate": 1.3403946666666668e-05, + "loss": 0.0042, + "step": 154595 + }, + { + "epoch": 0.98944, + "grad_norm": 0.04531347379088402, + "learning_rate": 1.3403733333333335e-05, + "loss": 0.0032, + "step": 154600 + }, + { + "epoch": 0.989472, + "grad_norm": 0.0810442566871643, + "learning_rate": 1.3403520000000001e-05, + "loss": 0.0045, + "step": 154605 + }, + { + "epoch": 0.989504, + "grad_norm": 0.8799293041229248, + "learning_rate": 1.3403306666666667e-05, + "loss": 0.0079, + "step": 154610 + }, + { + "epoch": 0.989536, + "grad_norm": 2.003239154815674, + "learning_rate": 1.3403093333333334e-05, + "loss": 0.0126, + "step": 154615 + }, + { + "epoch": 0.989568, + "grad_norm": 0.1886254847049713, + "learning_rate": 1.340288e-05, + "loss": 0.0026, + "step": 154620 + }, + { + "epoch": 0.9896, + "grad_norm": 0.362772673368454, + "learning_rate": 1.3402666666666668e-05, + "loss": 0.0067, + "step": 154625 + }, + { + "epoch": 0.989632, + "grad_norm": 0.04953576996922493, + "learning_rate": 1.3402453333333334e-05, + "loss": 0.0012, + "step": 154630 + }, + { + "epoch": 0.989664, + "grad_norm": 0.47210580110549927, + "learning_rate": 1.3402240000000001e-05, + "loss": 0.018, + "step": 154635 + }, + { + "epoch": 0.989696, + "grad_norm": 0.08801688253879547, + "learning_rate": 1.3402026666666667e-05, + "loss": 0.0053, + "step": 154640 + }, + { + "epoch": 0.989728, + "grad_norm": 0.3290262818336487, + "learning_rate": 1.3401813333333333e-05, + "loss": 0.0022, + "step": 154645 + }, + { + "epoch": 0.98976, + "grad_norm": 0.1549433022737503, + "learning_rate": 1.34016e-05, + "loss": 0.0099, + "step": 154650 + }, + { + "epoch": 0.989792, + "grad_norm": 0.017381470650434494, + "learning_rate": 1.3401386666666666e-05, + "loss": 0.0088, + "step": 154655 + }, + { + "epoch": 0.989824, + "grad_norm": 0.21949881315231323, + "learning_rate": 1.3401173333333336e-05, + "loss": 0.0083, + "step": 154660 + }, + { + "epoch": 0.989856, + "grad_norm": 0.004967567045241594, + "learning_rate": 1.340096e-05, + "loss": 0.0028, + "step": 154665 + }, + { + "epoch": 0.989888, + "grad_norm": 0.08627733588218689, + "learning_rate": 1.3400746666666669e-05, + "loss": 0.0035, + "step": 154670 + }, + { + "epoch": 0.98992, + "grad_norm": 0.7245355844497681, + "learning_rate": 1.3400533333333335e-05, + "loss": 0.0029, + "step": 154675 + }, + { + "epoch": 0.989952, + "grad_norm": 0.02426081895828247, + "learning_rate": 1.340032e-05, + "loss": 0.0044, + "step": 154680 + }, + { + "epoch": 0.989984, + "grad_norm": 0.2885499894618988, + "learning_rate": 1.3400106666666668e-05, + "loss": 0.0061, + "step": 154685 + }, + { + "epoch": 0.990016, + "grad_norm": 1.7963014841079712, + "learning_rate": 1.3399893333333334e-05, + "loss": 0.0128, + "step": 154690 + }, + { + "epoch": 0.990048, + "grad_norm": 0.2608274519443512, + "learning_rate": 1.3399680000000002e-05, + "loss": 0.012, + "step": 154695 + }, + { + "epoch": 0.99008, + "grad_norm": 0.6215415596961975, + "learning_rate": 1.3399466666666668e-05, + "loss": 0.0084, + "step": 154700 + }, + { + "epoch": 0.990112, + "grad_norm": 0.04077969864010811, + "learning_rate": 1.3399253333333335e-05, + "loss": 0.0079, + "step": 154705 + }, + { + "epoch": 0.990144, + "grad_norm": 0.7877324819564819, + "learning_rate": 1.3399040000000001e-05, + "loss": 0.0036, + "step": 154710 + }, + { + "epoch": 0.990176, + "grad_norm": 1.9458212852478027, + "learning_rate": 1.3398826666666669e-05, + "loss": 0.0081, + "step": 154715 + }, + { + "epoch": 0.990208, + "grad_norm": 0.15701374411582947, + "learning_rate": 1.3398613333333334e-05, + "loss": 0.0043, + "step": 154720 + }, + { + "epoch": 0.99024, + "grad_norm": 0.0223582424223423, + "learning_rate": 1.33984e-05, + "loss": 0.0015, + "step": 154725 + }, + { + "epoch": 0.990272, + "grad_norm": 0.3249501883983612, + "learning_rate": 1.3398186666666668e-05, + "loss": 0.005, + "step": 154730 + }, + { + "epoch": 0.990304, + "grad_norm": 0.6277093887329102, + "learning_rate": 1.3397973333333334e-05, + "loss": 0.0089, + "step": 154735 + }, + { + "epoch": 0.990336, + "grad_norm": 0.06135391816496849, + "learning_rate": 1.3397760000000001e-05, + "loss": 0.0075, + "step": 154740 + }, + { + "epoch": 0.990368, + "grad_norm": 0.36943069100379944, + "learning_rate": 1.3397546666666667e-05, + "loss": 0.0038, + "step": 154745 + }, + { + "epoch": 0.9904, + "grad_norm": 0.09937253594398499, + "learning_rate": 1.3397333333333335e-05, + "loss": 0.006, + "step": 154750 + }, + { + "epoch": 0.990432, + "grad_norm": 2.3306949138641357, + "learning_rate": 1.339712e-05, + "loss": 0.0504, + "step": 154755 + }, + { + "epoch": 0.990464, + "grad_norm": 0.15681160986423492, + "learning_rate": 1.3396906666666666e-05, + "loss": 0.0041, + "step": 154760 + }, + { + "epoch": 0.990496, + "grad_norm": 8.469256401062012, + "learning_rate": 1.3396693333333336e-05, + "loss": 0.0097, + "step": 154765 + }, + { + "epoch": 0.990528, + "grad_norm": 0.05886680632829666, + "learning_rate": 1.339648e-05, + "loss": 0.0019, + "step": 154770 + }, + { + "epoch": 0.99056, + "grad_norm": 0.22152283787727356, + "learning_rate": 1.3396266666666669e-05, + "loss": 0.0039, + "step": 154775 + }, + { + "epoch": 0.990592, + "grad_norm": 0.38645756244659424, + "learning_rate": 1.3396053333333335e-05, + "loss": 0.0027, + "step": 154780 + }, + { + "epoch": 0.990624, + "grad_norm": 0.28048601746559143, + "learning_rate": 1.3395840000000003e-05, + "loss": 0.0121, + "step": 154785 + }, + { + "epoch": 0.990656, + "grad_norm": 0.40735509991645813, + "learning_rate": 1.3395626666666668e-05, + "loss": 0.0074, + "step": 154790 + }, + { + "epoch": 0.990688, + "grad_norm": 0.4158753752708435, + "learning_rate": 1.3395413333333334e-05, + "loss": 0.0105, + "step": 154795 + }, + { + "epoch": 0.99072, + "grad_norm": 0.10409631580114365, + "learning_rate": 1.3395200000000002e-05, + "loss": 0.0096, + "step": 154800 + }, + { + "epoch": 0.990752, + "grad_norm": 0.053675372153520584, + "learning_rate": 1.3394986666666668e-05, + "loss": 0.0009, + "step": 154805 + }, + { + "epoch": 0.990784, + "grad_norm": 0.0046024080365896225, + "learning_rate": 1.3394773333333335e-05, + "loss": 0.0055, + "step": 154810 + }, + { + "epoch": 0.990816, + "grad_norm": 0.3182588219642639, + "learning_rate": 1.3394560000000001e-05, + "loss": 0.0079, + "step": 154815 + }, + { + "epoch": 0.990848, + "grad_norm": 0.02582739293575287, + "learning_rate": 1.3394346666666669e-05, + "loss": 0.0154, + "step": 154820 + }, + { + "epoch": 0.99088, + "grad_norm": 0.02265908010303974, + "learning_rate": 1.3394133333333334e-05, + "loss": 0.0021, + "step": 154825 + }, + { + "epoch": 0.990912, + "grad_norm": 0.5693580508232117, + "learning_rate": 1.339392e-05, + "loss": 0.0067, + "step": 154830 + }, + { + "epoch": 0.990944, + "grad_norm": 0.19238241016864777, + "learning_rate": 1.3393706666666668e-05, + "loss": 0.0088, + "step": 154835 + }, + { + "epoch": 0.990976, + "grad_norm": 0.028181444853544235, + "learning_rate": 1.3393493333333334e-05, + "loss": 0.002, + "step": 154840 + }, + { + "epoch": 0.991008, + "grad_norm": 0.009237331338226795, + "learning_rate": 1.3393280000000001e-05, + "loss": 0.0014, + "step": 154845 + }, + { + "epoch": 0.99104, + "grad_norm": 0.4679984450340271, + "learning_rate": 1.3393066666666667e-05, + "loss": 0.0056, + "step": 154850 + }, + { + "epoch": 0.991072, + "grad_norm": 0.5627912878990173, + "learning_rate": 1.3392853333333335e-05, + "loss": 0.009, + "step": 154855 + }, + { + "epoch": 0.991104, + "grad_norm": 0.49104729294776917, + "learning_rate": 1.339264e-05, + "loss": 0.008, + "step": 154860 + }, + { + "epoch": 0.991136, + "grad_norm": 0.0021921510342508554, + "learning_rate": 1.3392426666666666e-05, + "loss": 0.0135, + "step": 154865 + }, + { + "epoch": 0.991168, + "grad_norm": 0.08155057579278946, + "learning_rate": 1.3392213333333336e-05, + "loss": 0.0026, + "step": 154870 + }, + { + "epoch": 0.9912, + "grad_norm": 0.16946521401405334, + "learning_rate": 1.3392e-05, + "loss": 0.0024, + "step": 154875 + }, + { + "epoch": 0.991232, + "grad_norm": 1.18461275100708, + "learning_rate": 1.3391786666666669e-05, + "loss": 0.0057, + "step": 154880 + }, + { + "epoch": 0.991264, + "grad_norm": 0.7858030200004578, + "learning_rate": 1.3391573333333335e-05, + "loss": 0.0032, + "step": 154885 + }, + { + "epoch": 0.991296, + "grad_norm": 0.010594143532216549, + "learning_rate": 1.3391360000000003e-05, + "loss": 0.0128, + "step": 154890 + }, + { + "epoch": 0.991328, + "grad_norm": 0.7073204517364502, + "learning_rate": 1.3391146666666668e-05, + "loss": 0.0105, + "step": 154895 + }, + { + "epoch": 0.99136, + "grad_norm": 0.08678894490003586, + "learning_rate": 1.3390933333333334e-05, + "loss": 0.0019, + "step": 154900 + }, + { + "epoch": 0.991392, + "grad_norm": 1.490387201309204, + "learning_rate": 1.3390720000000002e-05, + "loss": 0.0173, + "step": 154905 + }, + { + "epoch": 0.991424, + "grad_norm": 0.06732356548309326, + "learning_rate": 1.3390506666666668e-05, + "loss": 0.0067, + "step": 154910 + }, + { + "epoch": 0.991456, + "grad_norm": 0.12285725027322769, + "learning_rate": 1.3390293333333335e-05, + "loss": 0.005, + "step": 154915 + }, + { + "epoch": 0.991488, + "grad_norm": 0.12246564775705338, + "learning_rate": 1.3390080000000001e-05, + "loss": 0.0007, + "step": 154920 + }, + { + "epoch": 0.99152, + "grad_norm": 0.19521886110305786, + "learning_rate": 1.3389866666666669e-05, + "loss": 0.0235, + "step": 154925 + }, + { + "epoch": 0.991552, + "grad_norm": 0.008301730267703533, + "learning_rate": 1.3389653333333334e-05, + "loss": 0.0049, + "step": 154930 + }, + { + "epoch": 0.991584, + "grad_norm": 1.0271846055984497, + "learning_rate": 1.338944e-05, + "loss": 0.0198, + "step": 154935 + }, + { + "epoch": 0.991616, + "grad_norm": 0.647442102432251, + "learning_rate": 1.3389226666666668e-05, + "loss": 0.0059, + "step": 154940 + }, + { + "epoch": 0.991648, + "grad_norm": 0.11025238037109375, + "learning_rate": 1.3389013333333334e-05, + "loss": 0.0045, + "step": 154945 + }, + { + "epoch": 0.99168, + "grad_norm": 0.07443118840456009, + "learning_rate": 1.3388800000000001e-05, + "loss": 0.0038, + "step": 154950 + }, + { + "epoch": 0.991712, + "grad_norm": 1.186930775642395, + "learning_rate": 1.3388586666666667e-05, + "loss": 0.0065, + "step": 154955 + }, + { + "epoch": 0.991744, + "grad_norm": 0.2977484464645386, + "learning_rate": 1.3388373333333335e-05, + "loss": 0.0099, + "step": 154960 + }, + { + "epoch": 0.991776, + "grad_norm": 0.030782978981733322, + "learning_rate": 1.338816e-05, + "loss": 0.0114, + "step": 154965 + }, + { + "epoch": 0.991808, + "grad_norm": 0.024557793512940407, + "learning_rate": 1.3387946666666666e-05, + "loss": 0.0022, + "step": 154970 + }, + { + "epoch": 0.99184, + "grad_norm": 0.25832074880599976, + "learning_rate": 1.3387733333333334e-05, + "loss": 0.0039, + "step": 154975 + }, + { + "epoch": 0.991872, + "grad_norm": 0.6285883188247681, + "learning_rate": 1.338752e-05, + "loss": 0.0161, + "step": 154980 + }, + { + "epoch": 0.991904, + "grad_norm": 0.045598726719617844, + "learning_rate": 1.3387306666666669e-05, + "loss": 0.0022, + "step": 154985 + }, + { + "epoch": 0.991936, + "grad_norm": 0.07740212976932526, + "learning_rate": 1.3387093333333335e-05, + "loss": 0.0066, + "step": 154990 + }, + { + "epoch": 0.991968, + "grad_norm": 0.8464203476905823, + "learning_rate": 1.3386880000000003e-05, + "loss": 0.007, + "step": 154995 + }, + { + "epoch": 0.992, + "grad_norm": 0.508855938911438, + "learning_rate": 1.3386666666666668e-05, + "loss": 0.0036, + "step": 155000 + }, + { + "epoch": 0.992032, + "grad_norm": 0.33752551674842834, + "learning_rate": 1.3386453333333334e-05, + "loss": 0.003, + "step": 155005 + }, + { + "epoch": 0.992064, + "grad_norm": 0.32155928015708923, + "learning_rate": 1.3386240000000002e-05, + "loss": 0.0042, + "step": 155010 + }, + { + "epoch": 0.992096, + "grad_norm": 0.5614120960235596, + "learning_rate": 1.3386026666666668e-05, + "loss": 0.0076, + "step": 155015 + }, + { + "epoch": 0.992128, + "grad_norm": 0.01201679278165102, + "learning_rate": 1.3385813333333335e-05, + "loss": 0.0138, + "step": 155020 + }, + { + "epoch": 0.99216, + "grad_norm": 0.010806005448102951, + "learning_rate": 1.3385600000000001e-05, + "loss": 0.0083, + "step": 155025 + }, + { + "epoch": 0.992192, + "grad_norm": 0.24672441184520721, + "learning_rate": 1.3385386666666669e-05, + "loss": 0.0041, + "step": 155030 + }, + { + "epoch": 0.992224, + "grad_norm": 0.10566967725753784, + "learning_rate": 1.3385173333333334e-05, + "loss": 0.007, + "step": 155035 + }, + { + "epoch": 0.992256, + "grad_norm": 1.4239252805709839, + "learning_rate": 1.338496e-05, + "loss": 0.0165, + "step": 155040 + }, + { + "epoch": 0.992288, + "grad_norm": 0.18105944991111755, + "learning_rate": 1.3384746666666668e-05, + "loss": 0.0031, + "step": 155045 + }, + { + "epoch": 0.99232, + "grad_norm": 0.16820424795150757, + "learning_rate": 1.3384533333333334e-05, + "loss": 0.0043, + "step": 155050 + }, + { + "epoch": 0.992352, + "grad_norm": 0.5100034475326538, + "learning_rate": 1.3384320000000001e-05, + "loss": 0.0078, + "step": 155055 + }, + { + "epoch": 0.992384, + "grad_norm": 0.06213132292032242, + "learning_rate": 1.3384106666666667e-05, + "loss": 0.0043, + "step": 155060 + }, + { + "epoch": 0.992416, + "grad_norm": 0.24944643676280975, + "learning_rate": 1.3383893333333335e-05, + "loss": 0.013, + "step": 155065 + }, + { + "epoch": 0.992448, + "grad_norm": 0.1933109015226364, + "learning_rate": 1.338368e-05, + "loss": 0.0125, + "step": 155070 + }, + { + "epoch": 0.99248, + "grad_norm": 0.7619192600250244, + "learning_rate": 1.3383466666666666e-05, + "loss": 0.0089, + "step": 155075 + }, + { + "epoch": 0.992512, + "grad_norm": 0.18408532440662384, + "learning_rate": 1.3383253333333334e-05, + "loss": 0.0013, + "step": 155080 + }, + { + "epoch": 0.992544, + "grad_norm": 0.29426971077919006, + "learning_rate": 1.338304e-05, + "loss": 0.0099, + "step": 155085 + }, + { + "epoch": 0.992576, + "grad_norm": 0.7323501110076904, + "learning_rate": 1.3382826666666669e-05, + "loss": 0.0057, + "step": 155090 + }, + { + "epoch": 0.992608, + "grad_norm": 0.013383027166128159, + "learning_rate": 1.3382613333333335e-05, + "loss": 0.0007, + "step": 155095 + }, + { + "epoch": 0.99264, + "grad_norm": 0.7908362746238708, + "learning_rate": 1.3382400000000003e-05, + "loss": 0.0045, + "step": 155100 + }, + { + "epoch": 0.992672, + "grad_norm": 0.18509429693222046, + "learning_rate": 1.3382186666666668e-05, + "loss": 0.0395, + "step": 155105 + }, + { + "epoch": 0.992704, + "grad_norm": 0.31658560037612915, + "learning_rate": 1.3381973333333334e-05, + "loss": 0.0018, + "step": 155110 + }, + { + "epoch": 0.992736, + "grad_norm": 0.03650398179888725, + "learning_rate": 1.3381760000000002e-05, + "loss": 0.0044, + "step": 155115 + }, + { + "epoch": 0.992768, + "grad_norm": 0.03486132249236107, + "learning_rate": 1.3381546666666668e-05, + "loss": 0.0018, + "step": 155120 + }, + { + "epoch": 0.9928, + "grad_norm": 0.7764062881469727, + "learning_rate": 1.3381333333333335e-05, + "loss": 0.0178, + "step": 155125 + }, + { + "epoch": 0.992832, + "grad_norm": 0.03641098365187645, + "learning_rate": 1.3381120000000001e-05, + "loss": 0.0101, + "step": 155130 + }, + { + "epoch": 0.992864, + "grad_norm": 0.32551613450050354, + "learning_rate": 1.3380906666666669e-05, + "loss": 0.0085, + "step": 155135 + }, + { + "epoch": 0.992896, + "grad_norm": 1.3250596523284912, + "learning_rate": 1.3380693333333334e-05, + "loss": 0.009, + "step": 155140 + }, + { + "epoch": 0.992928, + "grad_norm": 0.3237953782081604, + "learning_rate": 1.338048e-05, + "loss": 0.0121, + "step": 155145 + }, + { + "epoch": 0.99296, + "grad_norm": 0.389364629983902, + "learning_rate": 1.3380266666666668e-05, + "loss": 0.0034, + "step": 155150 + }, + { + "epoch": 0.992992, + "grad_norm": 0.004577479790896177, + "learning_rate": 1.3380053333333334e-05, + "loss": 0.0077, + "step": 155155 + }, + { + "epoch": 0.993024, + "grad_norm": 0.03687973693013191, + "learning_rate": 1.3379840000000001e-05, + "loss": 0.0078, + "step": 155160 + }, + { + "epoch": 0.993056, + "grad_norm": 0.02740008570253849, + "learning_rate": 1.3379626666666667e-05, + "loss": 0.0039, + "step": 155165 + }, + { + "epoch": 0.993088, + "grad_norm": 0.609592854976654, + "learning_rate": 1.3379413333333335e-05, + "loss": 0.0162, + "step": 155170 + }, + { + "epoch": 0.99312, + "grad_norm": 0.07639220356941223, + "learning_rate": 1.33792e-05, + "loss": 0.0153, + "step": 155175 + }, + { + "epoch": 0.993152, + "grad_norm": 0.07451952993869781, + "learning_rate": 1.3378986666666666e-05, + "loss": 0.0099, + "step": 155180 + }, + { + "epoch": 0.993184, + "grad_norm": 0.06530898064374924, + "learning_rate": 1.3378773333333334e-05, + "loss": 0.0122, + "step": 155185 + }, + { + "epoch": 0.993216, + "grad_norm": 0.013082509860396385, + "learning_rate": 1.337856e-05, + "loss": 0.0028, + "step": 155190 + }, + { + "epoch": 0.993248, + "grad_norm": 0.22029487788677216, + "learning_rate": 1.3378346666666669e-05, + "loss": 0.0044, + "step": 155195 + }, + { + "epoch": 0.99328, + "grad_norm": 1.0359219312667847, + "learning_rate": 1.3378133333333333e-05, + "loss": 0.0045, + "step": 155200 + }, + { + "epoch": 0.993312, + "grad_norm": 0.17116354405879974, + "learning_rate": 1.3377920000000003e-05, + "loss": 0.0096, + "step": 155205 + }, + { + "epoch": 0.993344, + "grad_norm": 0.4434516727924347, + "learning_rate": 1.3377706666666668e-05, + "loss": 0.0047, + "step": 155210 + }, + { + "epoch": 0.993376, + "grad_norm": 0.015654129907488823, + "learning_rate": 1.3377493333333334e-05, + "loss": 0.0055, + "step": 155215 + }, + { + "epoch": 0.993408, + "grad_norm": 0.9869551658630371, + "learning_rate": 1.3377280000000002e-05, + "loss": 0.0106, + "step": 155220 + }, + { + "epoch": 0.99344, + "grad_norm": 0.02845063805580139, + "learning_rate": 1.3377066666666668e-05, + "loss": 0.0071, + "step": 155225 + }, + { + "epoch": 0.993472, + "grad_norm": 0.2828720510005951, + "learning_rate": 1.3376853333333335e-05, + "loss": 0.021, + "step": 155230 + }, + { + "epoch": 0.993504, + "grad_norm": 1.5179060697555542, + "learning_rate": 1.3376640000000001e-05, + "loss": 0.0188, + "step": 155235 + }, + { + "epoch": 0.993536, + "grad_norm": 0.5313711762428284, + "learning_rate": 1.3376426666666669e-05, + "loss": 0.0067, + "step": 155240 + }, + { + "epoch": 0.993568, + "grad_norm": 0.5197086334228516, + "learning_rate": 1.3376213333333334e-05, + "loss": 0.0036, + "step": 155245 + }, + { + "epoch": 0.9936, + "grad_norm": 0.39403489232063293, + "learning_rate": 1.3376e-05, + "loss": 0.0053, + "step": 155250 + }, + { + "epoch": 0.993632, + "grad_norm": 0.12594738602638245, + "learning_rate": 1.3375786666666668e-05, + "loss": 0.004, + "step": 155255 + }, + { + "epoch": 0.993664, + "grad_norm": 0.40712371468544006, + "learning_rate": 1.3375573333333334e-05, + "loss": 0.0162, + "step": 155260 + }, + { + "epoch": 0.993696, + "grad_norm": 0.27782776951789856, + "learning_rate": 1.3375360000000001e-05, + "loss": 0.0022, + "step": 155265 + }, + { + "epoch": 0.993728, + "grad_norm": 0.23775900900363922, + "learning_rate": 1.3375146666666667e-05, + "loss": 0.0031, + "step": 155270 + }, + { + "epoch": 0.99376, + "grad_norm": 0.03701697289943695, + "learning_rate": 1.3374933333333335e-05, + "loss": 0.0074, + "step": 155275 + }, + { + "epoch": 0.993792, + "grad_norm": 0.28755107522010803, + "learning_rate": 1.337472e-05, + "loss": 0.0037, + "step": 155280 + }, + { + "epoch": 0.993824, + "grad_norm": 0.09572175145149231, + "learning_rate": 1.3374506666666666e-05, + "loss": 0.0155, + "step": 155285 + }, + { + "epoch": 0.993856, + "grad_norm": 0.05868210271000862, + "learning_rate": 1.3374293333333334e-05, + "loss": 0.0038, + "step": 155290 + }, + { + "epoch": 0.993888, + "grad_norm": 0.21658742427825928, + "learning_rate": 1.337408e-05, + "loss": 0.0022, + "step": 155295 + }, + { + "epoch": 0.99392, + "grad_norm": 0.44282054901123047, + "learning_rate": 1.3373866666666669e-05, + "loss": 0.0029, + "step": 155300 + }, + { + "epoch": 0.993952, + "grad_norm": 0.07077416777610779, + "learning_rate": 1.3373653333333333e-05, + "loss": 0.0065, + "step": 155305 + }, + { + "epoch": 0.993984, + "grad_norm": 0.45983752608299255, + "learning_rate": 1.3373440000000003e-05, + "loss": 0.03, + "step": 155310 + }, + { + "epoch": 0.994016, + "grad_norm": 0.05347898602485657, + "learning_rate": 1.3373226666666668e-05, + "loss": 0.0043, + "step": 155315 + }, + { + "epoch": 0.994048, + "grad_norm": 0.12001919001340866, + "learning_rate": 1.3373013333333334e-05, + "loss": 0.0053, + "step": 155320 + }, + { + "epoch": 0.99408, + "grad_norm": 0.2232680767774582, + "learning_rate": 1.3372800000000002e-05, + "loss": 0.0071, + "step": 155325 + }, + { + "epoch": 0.994112, + "grad_norm": 0.3904954791069031, + "learning_rate": 1.3372586666666668e-05, + "loss": 0.0062, + "step": 155330 + }, + { + "epoch": 0.994144, + "grad_norm": 0.012584365904331207, + "learning_rate": 1.3372373333333335e-05, + "loss": 0.0087, + "step": 155335 + }, + { + "epoch": 0.994176, + "grad_norm": 0.03614567220211029, + "learning_rate": 1.3372160000000001e-05, + "loss": 0.0024, + "step": 155340 + }, + { + "epoch": 0.994208, + "grad_norm": 0.2623564898967743, + "learning_rate": 1.3371946666666669e-05, + "loss": 0.002, + "step": 155345 + }, + { + "epoch": 0.99424, + "grad_norm": 0.9203991889953613, + "learning_rate": 1.3371733333333334e-05, + "loss": 0.005, + "step": 155350 + }, + { + "epoch": 0.994272, + "grad_norm": 0.14786295592784882, + "learning_rate": 1.337152e-05, + "loss": 0.0054, + "step": 155355 + }, + { + "epoch": 0.994304, + "grad_norm": 0.40350812673568726, + "learning_rate": 1.3371306666666668e-05, + "loss": 0.0078, + "step": 155360 + }, + { + "epoch": 0.994336, + "grad_norm": 0.06311708688735962, + "learning_rate": 1.3371093333333334e-05, + "loss": 0.0112, + "step": 155365 + }, + { + "epoch": 0.994368, + "grad_norm": 0.4009876847267151, + "learning_rate": 1.3370880000000001e-05, + "loss": 0.0048, + "step": 155370 + }, + { + "epoch": 0.9944, + "grad_norm": 0.24013231694698334, + "learning_rate": 1.3370666666666667e-05, + "loss": 0.0053, + "step": 155375 + }, + { + "epoch": 0.994432, + "grad_norm": 0.010900718159973621, + "learning_rate": 1.3370453333333335e-05, + "loss": 0.0037, + "step": 155380 + }, + { + "epoch": 0.994464, + "grad_norm": 0.48985373973846436, + "learning_rate": 1.337024e-05, + "loss": 0.0034, + "step": 155385 + }, + { + "epoch": 0.994496, + "grad_norm": 0.039260100573301315, + "learning_rate": 1.3370026666666666e-05, + "loss": 0.0037, + "step": 155390 + }, + { + "epoch": 0.994528, + "grad_norm": 0.030025649815797806, + "learning_rate": 1.3369813333333334e-05, + "loss": 0.0065, + "step": 155395 + }, + { + "epoch": 0.99456, + "grad_norm": 0.11084963381290436, + "learning_rate": 1.33696e-05, + "loss": 0.0071, + "step": 155400 + }, + { + "epoch": 0.994592, + "grad_norm": 0.01192395854741335, + "learning_rate": 1.3369386666666669e-05, + "loss": 0.0019, + "step": 155405 + }, + { + "epoch": 0.994624, + "grad_norm": 0.43746837973594666, + "learning_rate": 1.3369173333333333e-05, + "loss": 0.0038, + "step": 155410 + }, + { + "epoch": 0.994656, + "grad_norm": 0.2668304741382599, + "learning_rate": 1.3368960000000003e-05, + "loss": 0.0074, + "step": 155415 + }, + { + "epoch": 0.994688, + "grad_norm": 0.5042495131492615, + "learning_rate": 1.3368746666666668e-05, + "loss": 0.0097, + "step": 155420 + }, + { + "epoch": 0.99472, + "grad_norm": 0.6845611333847046, + "learning_rate": 1.3368533333333333e-05, + "loss": 0.0079, + "step": 155425 + }, + { + "epoch": 0.994752, + "grad_norm": 0.02008317969739437, + "learning_rate": 1.3368320000000002e-05, + "loss": 0.0141, + "step": 155430 + }, + { + "epoch": 0.994784, + "grad_norm": 0.03856528550386429, + "learning_rate": 1.3368106666666668e-05, + "loss": 0.0051, + "step": 155435 + }, + { + "epoch": 0.994816, + "grad_norm": 0.08917415142059326, + "learning_rate": 1.3367893333333335e-05, + "loss": 0.057, + "step": 155440 + }, + { + "epoch": 0.994848, + "grad_norm": 0.05034321919083595, + "learning_rate": 1.3367680000000001e-05, + "loss": 0.0027, + "step": 155445 + }, + { + "epoch": 0.99488, + "grad_norm": 0.025285713374614716, + "learning_rate": 1.3367466666666669e-05, + "loss": 0.0065, + "step": 155450 + }, + { + "epoch": 0.994912, + "grad_norm": 0.23897112905979156, + "learning_rate": 1.3367253333333334e-05, + "loss": 0.0078, + "step": 155455 + }, + { + "epoch": 0.994944, + "grad_norm": 0.04376966133713722, + "learning_rate": 1.336704e-05, + "loss": 0.0017, + "step": 155460 + }, + { + "epoch": 0.994976, + "grad_norm": 0.3292768597602844, + "learning_rate": 1.3366826666666668e-05, + "loss": 0.0086, + "step": 155465 + }, + { + "epoch": 0.995008, + "grad_norm": 0.6733572483062744, + "learning_rate": 1.3366613333333334e-05, + "loss": 0.0116, + "step": 155470 + }, + { + "epoch": 0.99504, + "grad_norm": 0.23569822311401367, + "learning_rate": 1.3366400000000001e-05, + "loss": 0.0021, + "step": 155475 + }, + { + "epoch": 0.995072, + "grad_norm": 0.11921633034944534, + "learning_rate": 1.3366186666666667e-05, + "loss": 0.0018, + "step": 155480 + }, + { + "epoch": 0.995104, + "grad_norm": 0.928820788860321, + "learning_rate": 1.3365973333333335e-05, + "loss": 0.0059, + "step": 155485 + }, + { + "epoch": 0.995136, + "grad_norm": 0.42321717739105225, + "learning_rate": 1.336576e-05, + "loss": 0.0013, + "step": 155490 + }, + { + "epoch": 0.995168, + "grad_norm": 0.39862728118896484, + "learning_rate": 1.3365546666666666e-05, + "loss": 0.0032, + "step": 155495 + }, + { + "epoch": 0.9952, + "grad_norm": 0.40428197383880615, + "learning_rate": 1.3365333333333334e-05, + "loss": 0.0031, + "step": 155500 + }, + { + "epoch": 0.995232, + "grad_norm": 0.409392386674881, + "learning_rate": 1.336512e-05, + "loss": 0.0083, + "step": 155505 + }, + { + "epoch": 0.995264, + "grad_norm": 0.2354305237531662, + "learning_rate": 1.3364906666666667e-05, + "loss": 0.0096, + "step": 155510 + }, + { + "epoch": 0.995296, + "grad_norm": 0.6351041197776794, + "learning_rate": 1.3364693333333333e-05, + "loss": 0.0029, + "step": 155515 + }, + { + "epoch": 0.995328, + "grad_norm": 0.00736201461404562, + "learning_rate": 1.3364480000000003e-05, + "loss": 0.0071, + "step": 155520 + }, + { + "epoch": 0.99536, + "grad_norm": 0.5171750783920288, + "learning_rate": 1.3364266666666668e-05, + "loss": 0.0081, + "step": 155525 + }, + { + "epoch": 0.995392, + "grad_norm": 0.41535237431526184, + "learning_rate": 1.3364053333333333e-05, + "loss": 0.0046, + "step": 155530 + }, + { + "epoch": 0.995424, + "grad_norm": 0.12200066447257996, + "learning_rate": 1.3363840000000002e-05, + "loss": 0.0029, + "step": 155535 + }, + { + "epoch": 0.995456, + "grad_norm": 0.07086952775716782, + "learning_rate": 1.3363626666666668e-05, + "loss": 0.0023, + "step": 155540 + }, + { + "epoch": 0.995488, + "grad_norm": 0.570888876914978, + "learning_rate": 1.3363413333333335e-05, + "loss": 0.0033, + "step": 155545 + }, + { + "epoch": 0.99552, + "grad_norm": 0.25797125697135925, + "learning_rate": 1.3363200000000001e-05, + "loss": 0.0054, + "step": 155550 + }, + { + "epoch": 0.995552, + "grad_norm": 0.6022080779075623, + "learning_rate": 1.3362986666666669e-05, + "loss": 0.0091, + "step": 155555 + }, + { + "epoch": 0.995584, + "grad_norm": 0.1676957607269287, + "learning_rate": 1.3362773333333334e-05, + "loss": 0.0038, + "step": 155560 + }, + { + "epoch": 0.995616, + "grad_norm": 0.01605846732854843, + "learning_rate": 1.3362560000000002e-05, + "loss": 0.0156, + "step": 155565 + }, + { + "epoch": 0.995648, + "grad_norm": 0.24247530102729797, + "learning_rate": 1.3362346666666668e-05, + "loss": 0.0032, + "step": 155570 + }, + { + "epoch": 0.99568, + "grad_norm": 0.14612597227096558, + "learning_rate": 1.3362133333333334e-05, + "loss": 0.0112, + "step": 155575 + }, + { + "epoch": 0.995712, + "grad_norm": 0.7516478300094604, + "learning_rate": 1.3361920000000001e-05, + "loss": 0.0044, + "step": 155580 + }, + { + "epoch": 0.995744, + "grad_norm": 0.28512197732925415, + "learning_rate": 1.3361706666666667e-05, + "loss": 0.0099, + "step": 155585 + }, + { + "epoch": 0.995776, + "grad_norm": 0.10369440168142319, + "learning_rate": 1.3361493333333335e-05, + "loss": 0.0019, + "step": 155590 + }, + { + "epoch": 0.995808, + "grad_norm": 0.10258369147777557, + "learning_rate": 1.336128e-05, + "loss": 0.0122, + "step": 155595 + }, + { + "epoch": 0.99584, + "grad_norm": 0.23952195048332214, + "learning_rate": 1.3361066666666668e-05, + "loss": 0.0063, + "step": 155600 + }, + { + "epoch": 0.995872, + "grad_norm": 0.6327915191650391, + "learning_rate": 1.3360853333333334e-05, + "loss": 0.005, + "step": 155605 + }, + { + "epoch": 0.995904, + "grad_norm": 0.6245465874671936, + "learning_rate": 1.336064e-05, + "loss": 0.0029, + "step": 155610 + }, + { + "epoch": 0.995936, + "grad_norm": 0.7716436386108398, + "learning_rate": 1.3360426666666667e-05, + "loss": 0.0054, + "step": 155615 + }, + { + "epoch": 0.995968, + "grad_norm": 0.057686880230903625, + "learning_rate": 1.3360213333333333e-05, + "loss": 0.006, + "step": 155620 + }, + { + "epoch": 0.996, + "grad_norm": 0.3428647220134735, + "learning_rate": 1.3360000000000003e-05, + "loss": 0.0017, + "step": 155625 + }, + { + "epoch": 0.996032, + "grad_norm": 0.01589524932205677, + "learning_rate": 1.3359786666666668e-05, + "loss": 0.0071, + "step": 155630 + }, + { + "epoch": 0.996064, + "grad_norm": 3.2973718643188477, + "learning_rate": 1.3359573333333336e-05, + "loss": 0.0067, + "step": 155635 + }, + { + "epoch": 0.996096, + "grad_norm": 0.015472414903342724, + "learning_rate": 1.3359360000000002e-05, + "loss": 0.0011, + "step": 155640 + }, + { + "epoch": 0.996128, + "grad_norm": 0.10493732988834381, + "learning_rate": 1.3359146666666668e-05, + "loss": 0.0031, + "step": 155645 + }, + { + "epoch": 0.99616, + "grad_norm": 0.046869754791259766, + "learning_rate": 1.3358933333333335e-05, + "loss": 0.0013, + "step": 155650 + }, + { + "epoch": 0.996192, + "grad_norm": 0.02488429844379425, + "learning_rate": 1.3358720000000001e-05, + "loss": 0.0122, + "step": 155655 + }, + { + "epoch": 0.996224, + "grad_norm": 0.06409730762243271, + "learning_rate": 1.3358506666666669e-05, + "loss": 0.0114, + "step": 155660 + }, + { + "epoch": 0.996256, + "grad_norm": 0.027268845587968826, + "learning_rate": 1.3358293333333334e-05, + "loss": 0.0039, + "step": 155665 + }, + { + "epoch": 0.996288, + "grad_norm": 0.12271755933761597, + "learning_rate": 1.3358080000000002e-05, + "loss": 0.0025, + "step": 155670 + }, + { + "epoch": 0.99632, + "grad_norm": 0.5105658769607544, + "learning_rate": 1.3357866666666668e-05, + "loss": 0.0083, + "step": 155675 + }, + { + "epoch": 0.996352, + "grad_norm": 0.19301632046699524, + "learning_rate": 1.3357653333333334e-05, + "loss": 0.0122, + "step": 155680 + }, + { + "epoch": 0.996384, + "grad_norm": 1.390212059020996, + "learning_rate": 1.3357440000000001e-05, + "loss": 0.0131, + "step": 155685 + }, + { + "epoch": 0.996416, + "grad_norm": 0.04625660926103592, + "learning_rate": 1.3357226666666667e-05, + "loss": 0.0099, + "step": 155690 + }, + { + "epoch": 0.996448, + "grad_norm": 0.009170965291559696, + "learning_rate": 1.3357013333333335e-05, + "loss": 0.0036, + "step": 155695 + }, + { + "epoch": 0.99648, + "grad_norm": 0.028823964297771454, + "learning_rate": 1.33568e-05, + "loss": 0.0028, + "step": 155700 + }, + { + "epoch": 0.996512, + "grad_norm": 0.5421031713485718, + "learning_rate": 1.3356586666666668e-05, + "loss": 0.0053, + "step": 155705 + }, + { + "epoch": 0.996544, + "grad_norm": 0.5133746862411499, + "learning_rate": 1.3356373333333334e-05, + "loss": 0.0031, + "step": 155710 + }, + { + "epoch": 0.996576, + "grad_norm": 0.7405356764793396, + "learning_rate": 1.335616e-05, + "loss": 0.0036, + "step": 155715 + }, + { + "epoch": 0.996608, + "grad_norm": 0.3078356683254242, + "learning_rate": 1.3355946666666667e-05, + "loss": 0.0014, + "step": 155720 + }, + { + "epoch": 0.99664, + "grad_norm": 0.555167555809021, + "learning_rate": 1.3355733333333333e-05, + "loss": 0.0071, + "step": 155725 + }, + { + "epoch": 0.996672, + "grad_norm": 0.27431875467300415, + "learning_rate": 1.3355520000000003e-05, + "loss": 0.0039, + "step": 155730 + }, + { + "epoch": 0.996704, + "grad_norm": 0.4138137400150299, + "learning_rate": 1.3355306666666667e-05, + "loss": 0.0094, + "step": 155735 + }, + { + "epoch": 0.996736, + "grad_norm": 0.017028924077749252, + "learning_rate": 1.3355093333333336e-05, + "loss": 0.0027, + "step": 155740 + }, + { + "epoch": 0.996768, + "grad_norm": 0.015836110338568687, + "learning_rate": 1.3354880000000002e-05, + "loss": 0.0076, + "step": 155745 + }, + { + "epoch": 0.9968, + "grad_norm": 0.16287760436534882, + "learning_rate": 1.3354666666666668e-05, + "loss": 0.0029, + "step": 155750 + }, + { + "epoch": 0.996832, + "grad_norm": 0.12329831719398499, + "learning_rate": 1.3354453333333335e-05, + "loss": 0.0049, + "step": 155755 + }, + { + "epoch": 0.996864, + "grad_norm": 0.03641635552048683, + "learning_rate": 1.3354240000000001e-05, + "loss": 0.0074, + "step": 155760 + }, + { + "epoch": 0.996896, + "grad_norm": 0.6616204380989075, + "learning_rate": 1.3354026666666669e-05, + "loss": 0.0076, + "step": 155765 + }, + { + "epoch": 0.996928, + "grad_norm": 0.018290739506483078, + "learning_rate": 1.3353813333333334e-05, + "loss": 0.007, + "step": 155770 + }, + { + "epoch": 0.99696, + "grad_norm": 0.07859525084495544, + "learning_rate": 1.3353600000000002e-05, + "loss": 0.0167, + "step": 155775 + }, + { + "epoch": 0.996992, + "grad_norm": 0.07987143844366074, + "learning_rate": 1.3353386666666668e-05, + "loss": 0.0027, + "step": 155780 + }, + { + "epoch": 0.997024, + "grad_norm": 0.21616551280021667, + "learning_rate": 1.3353173333333334e-05, + "loss": 0.003, + "step": 155785 + }, + { + "epoch": 0.997056, + "grad_norm": 0.8175272941589355, + "learning_rate": 1.3352960000000001e-05, + "loss": 0.0064, + "step": 155790 + }, + { + "epoch": 0.997088, + "grad_norm": 0.19807864725589752, + "learning_rate": 1.3352746666666667e-05, + "loss": 0.0088, + "step": 155795 + }, + { + "epoch": 0.99712, + "grad_norm": 0.06742402166128159, + "learning_rate": 1.3352533333333335e-05, + "loss": 0.005, + "step": 155800 + }, + { + "epoch": 0.997152, + "grad_norm": 0.4721110761165619, + "learning_rate": 1.335232e-05, + "loss": 0.0058, + "step": 155805 + }, + { + "epoch": 0.997184, + "grad_norm": 0.24470143020153046, + "learning_rate": 1.3352106666666668e-05, + "loss": 0.0039, + "step": 155810 + }, + { + "epoch": 0.997216, + "grad_norm": 0.03648683428764343, + "learning_rate": 1.3351893333333334e-05, + "loss": 0.0041, + "step": 155815 + }, + { + "epoch": 0.997248, + "grad_norm": 0.11847110837697983, + "learning_rate": 1.335168e-05, + "loss": 0.0023, + "step": 155820 + }, + { + "epoch": 0.99728, + "grad_norm": 0.13085557520389557, + "learning_rate": 1.3351466666666667e-05, + "loss": 0.005, + "step": 155825 + }, + { + "epoch": 0.997312, + "grad_norm": 0.6818942427635193, + "learning_rate": 1.3351253333333333e-05, + "loss": 0.0066, + "step": 155830 + }, + { + "epoch": 0.997344, + "grad_norm": 0.6474601626396179, + "learning_rate": 1.3351040000000003e-05, + "loss": 0.0031, + "step": 155835 + }, + { + "epoch": 0.997376, + "grad_norm": 0.6970423460006714, + "learning_rate": 1.3350826666666667e-05, + "loss": 0.0072, + "step": 155840 + }, + { + "epoch": 0.997408, + "grad_norm": 0.011406520381569862, + "learning_rate": 1.3350613333333336e-05, + "loss": 0.0063, + "step": 155845 + }, + { + "epoch": 0.99744, + "grad_norm": 0.18317805230617523, + "learning_rate": 1.3350400000000002e-05, + "loss": 0.0069, + "step": 155850 + }, + { + "epoch": 0.997472, + "grad_norm": 0.11103302985429764, + "learning_rate": 1.3350186666666668e-05, + "loss": 0.0046, + "step": 155855 + }, + { + "epoch": 0.997504, + "grad_norm": 0.571842610836029, + "learning_rate": 1.3349973333333335e-05, + "loss": 0.0094, + "step": 155860 + }, + { + "epoch": 0.997536, + "grad_norm": 0.643933117389679, + "learning_rate": 1.3349760000000001e-05, + "loss": 0.0036, + "step": 155865 + }, + { + "epoch": 0.997568, + "grad_norm": 0.9504923820495605, + "learning_rate": 1.3349546666666669e-05, + "loss": 0.0062, + "step": 155870 + }, + { + "epoch": 0.9976, + "grad_norm": 0.005422459915280342, + "learning_rate": 1.3349333333333334e-05, + "loss": 0.0027, + "step": 155875 + }, + { + "epoch": 0.997632, + "grad_norm": 0.031572673469781876, + "learning_rate": 1.3349120000000002e-05, + "loss": 0.006, + "step": 155880 + }, + { + "epoch": 0.997664, + "grad_norm": 0.21501091122627258, + "learning_rate": 1.3348906666666668e-05, + "loss": 0.0078, + "step": 155885 + }, + { + "epoch": 0.997696, + "grad_norm": 0.19098567962646484, + "learning_rate": 1.3348693333333334e-05, + "loss": 0.0068, + "step": 155890 + }, + { + "epoch": 0.997728, + "grad_norm": 0.01653764769434929, + "learning_rate": 1.3348480000000001e-05, + "loss": 0.0045, + "step": 155895 + }, + { + "epoch": 0.99776, + "grad_norm": 0.4372965395450592, + "learning_rate": 1.3348266666666667e-05, + "loss": 0.0089, + "step": 155900 + }, + { + "epoch": 0.997792, + "grad_norm": 0.005570233799517155, + "learning_rate": 1.3348053333333335e-05, + "loss": 0.0011, + "step": 155905 + }, + { + "epoch": 0.997824, + "grad_norm": 0.2461099475622177, + "learning_rate": 1.334784e-05, + "loss": 0.008, + "step": 155910 + }, + { + "epoch": 0.997856, + "grad_norm": 0.06179104745388031, + "learning_rate": 1.3347626666666668e-05, + "loss": 0.003, + "step": 155915 + }, + { + "epoch": 0.997888, + "grad_norm": 0.8686163425445557, + "learning_rate": 1.3347413333333334e-05, + "loss": 0.0314, + "step": 155920 + }, + { + "epoch": 0.99792, + "grad_norm": 0.0917649045586586, + "learning_rate": 1.33472e-05, + "loss": 0.0013, + "step": 155925 + }, + { + "epoch": 0.997952, + "grad_norm": 5.359467029571533, + "learning_rate": 1.3346986666666667e-05, + "loss": 0.0287, + "step": 155930 + }, + { + "epoch": 0.997984, + "grad_norm": 0.5751910209655762, + "learning_rate": 1.3346773333333333e-05, + "loss": 0.0062, + "step": 155935 + }, + { + "epoch": 0.998016, + "grad_norm": 0.05361562967300415, + "learning_rate": 1.3346560000000003e-05, + "loss": 0.0121, + "step": 155940 + }, + { + "epoch": 0.998048, + "grad_norm": 0.1355636715888977, + "learning_rate": 1.3346346666666667e-05, + "loss": 0.0025, + "step": 155945 + }, + { + "epoch": 0.99808, + "grad_norm": 1.5947240591049194, + "learning_rate": 1.3346133333333336e-05, + "loss": 0.02, + "step": 155950 + }, + { + "epoch": 0.998112, + "grad_norm": 0.884331464767456, + "learning_rate": 1.3345920000000002e-05, + "loss": 0.0125, + "step": 155955 + }, + { + "epoch": 0.998144, + "grad_norm": 0.7757439017295837, + "learning_rate": 1.3345706666666666e-05, + "loss": 0.0046, + "step": 155960 + }, + { + "epoch": 0.998176, + "grad_norm": 0.27556532621383667, + "learning_rate": 1.3345493333333335e-05, + "loss": 0.0091, + "step": 155965 + }, + { + "epoch": 0.998208, + "grad_norm": 0.3317830264568329, + "learning_rate": 1.3345280000000001e-05, + "loss": 0.0057, + "step": 155970 + }, + { + "epoch": 0.99824, + "grad_norm": 0.1071932464838028, + "learning_rate": 1.3345066666666669e-05, + "loss": 0.0018, + "step": 155975 + }, + { + "epoch": 0.998272, + "grad_norm": 0.24412131309509277, + "learning_rate": 1.3344853333333334e-05, + "loss": 0.0083, + "step": 155980 + }, + { + "epoch": 0.998304, + "grad_norm": 0.0212171021848917, + "learning_rate": 1.3344640000000002e-05, + "loss": 0.0016, + "step": 155985 + }, + { + "epoch": 0.998336, + "grad_norm": 0.07436994463205338, + "learning_rate": 1.3344426666666668e-05, + "loss": 0.0019, + "step": 155990 + }, + { + "epoch": 0.998368, + "grad_norm": 1.1920325756072998, + "learning_rate": 1.3344213333333334e-05, + "loss": 0.0097, + "step": 155995 + }, + { + "epoch": 0.9984, + "grad_norm": 0.01727726310491562, + "learning_rate": 1.3344000000000001e-05, + "loss": 0.0034, + "step": 156000 + }, + { + "epoch": 0.998432, + "grad_norm": 0.8263623118400574, + "learning_rate": 1.3343786666666667e-05, + "loss": 0.0235, + "step": 156005 + }, + { + "epoch": 0.998464, + "grad_norm": 0.3206878900527954, + "learning_rate": 1.3343573333333335e-05, + "loss": 0.009, + "step": 156010 + }, + { + "epoch": 0.998496, + "grad_norm": 0.5203742384910583, + "learning_rate": 1.334336e-05, + "loss": 0.0103, + "step": 156015 + }, + { + "epoch": 0.998528, + "grad_norm": 0.08988812565803528, + "learning_rate": 1.3343146666666668e-05, + "loss": 0.0013, + "step": 156020 + }, + { + "epoch": 0.99856, + "grad_norm": 0.02236875705420971, + "learning_rate": 1.3342933333333334e-05, + "loss": 0.0016, + "step": 156025 + }, + { + "epoch": 0.998592, + "grad_norm": 0.3086545765399933, + "learning_rate": 1.334272e-05, + "loss": 0.0055, + "step": 156030 + }, + { + "epoch": 0.998624, + "grad_norm": 0.0974050983786583, + "learning_rate": 1.3342506666666667e-05, + "loss": 0.0059, + "step": 156035 + }, + { + "epoch": 0.998656, + "grad_norm": 0.41554883122444153, + "learning_rate": 1.3342293333333333e-05, + "loss": 0.005, + "step": 156040 + }, + { + "epoch": 0.998688, + "grad_norm": 0.03931659460067749, + "learning_rate": 1.3342080000000003e-05, + "loss": 0.0048, + "step": 156045 + }, + { + "epoch": 0.99872, + "grad_norm": 0.1679263561964035, + "learning_rate": 1.3341866666666667e-05, + "loss": 0.0028, + "step": 156050 + }, + { + "epoch": 0.998752, + "grad_norm": 0.21315006911754608, + "learning_rate": 1.3341653333333336e-05, + "loss": 0.0175, + "step": 156055 + }, + { + "epoch": 0.998784, + "grad_norm": 0.09826716035604477, + "learning_rate": 1.3341440000000002e-05, + "loss": 0.0173, + "step": 156060 + }, + { + "epoch": 0.998816, + "grad_norm": 0.2724452018737793, + "learning_rate": 1.3341226666666666e-05, + "loss": 0.0055, + "step": 156065 + }, + { + "epoch": 0.998848, + "grad_norm": 0.07910121232271194, + "learning_rate": 1.3341013333333335e-05, + "loss": 0.0026, + "step": 156070 + }, + { + "epoch": 0.99888, + "grad_norm": 0.04396329075098038, + "learning_rate": 1.3340800000000001e-05, + "loss": 0.0014, + "step": 156075 + }, + { + "epoch": 0.998912, + "grad_norm": 0.1002928614616394, + "learning_rate": 1.3340586666666669e-05, + "loss": 0.0046, + "step": 156080 + }, + { + "epoch": 0.998944, + "grad_norm": 1.222632884979248, + "learning_rate": 1.3340373333333335e-05, + "loss": 0.0036, + "step": 156085 + }, + { + "epoch": 0.998976, + "grad_norm": 0.036157477647066116, + "learning_rate": 1.3340160000000002e-05, + "loss": 0.0092, + "step": 156090 + }, + { + "epoch": 0.999008, + "grad_norm": 0.8031811714172363, + "learning_rate": 1.3339946666666668e-05, + "loss": 0.0092, + "step": 156095 + }, + { + "epoch": 0.99904, + "grad_norm": 0.043393976986408234, + "learning_rate": 1.3339733333333334e-05, + "loss": 0.0024, + "step": 156100 + }, + { + "epoch": 0.999072, + "grad_norm": 0.7858846783638, + "learning_rate": 1.3339520000000001e-05, + "loss": 0.0103, + "step": 156105 + }, + { + "epoch": 0.999104, + "grad_norm": 0.019034413620829582, + "learning_rate": 1.3339306666666667e-05, + "loss": 0.0091, + "step": 156110 + }, + { + "epoch": 0.999136, + "grad_norm": 0.41994625329971313, + "learning_rate": 1.3339093333333335e-05, + "loss": 0.0058, + "step": 156115 + }, + { + "epoch": 0.999168, + "grad_norm": 0.4622761309146881, + "learning_rate": 1.333888e-05, + "loss": 0.0045, + "step": 156120 + }, + { + "epoch": 0.9992, + "grad_norm": 1.0153316259384155, + "learning_rate": 1.3338666666666668e-05, + "loss": 0.0015, + "step": 156125 + }, + { + "epoch": 0.999232, + "grad_norm": 0.2750369608402252, + "learning_rate": 1.3338453333333334e-05, + "loss": 0.0051, + "step": 156130 + }, + { + "epoch": 0.999264, + "grad_norm": 0.12600979208946228, + "learning_rate": 1.333824e-05, + "loss": 0.0097, + "step": 156135 + }, + { + "epoch": 0.999296, + "grad_norm": 0.7299835681915283, + "learning_rate": 1.3338026666666667e-05, + "loss": 0.0099, + "step": 156140 + }, + { + "epoch": 0.999328, + "grad_norm": 0.12326177209615707, + "learning_rate": 1.3337813333333333e-05, + "loss": 0.0079, + "step": 156145 + }, + { + "epoch": 0.99936, + "grad_norm": 0.02293068915605545, + "learning_rate": 1.33376e-05, + "loss": 0.0042, + "step": 156150 + }, + { + "epoch": 0.999392, + "grad_norm": 0.34230130910873413, + "learning_rate": 1.3337386666666667e-05, + "loss": 0.0056, + "step": 156155 + }, + { + "epoch": 0.999424, + "grad_norm": 0.056017328053712845, + "learning_rate": 1.3337173333333336e-05, + "loss": 0.0087, + "step": 156160 + }, + { + "epoch": 0.999456, + "grad_norm": 0.4632035493850708, + "learning_rate": 1.3336960000000002e-05, + "loss": 0.0061, + "step": 156165 + }, + { + "epoch": 0.999488, + "grad_norm": 0.9511552453041077, + "learning_rate": 1.3336746666666666e-05, + "loss": 0.0034, + "step": 156170 + }, + { + "epoch": 0.99952, + "grad_norm": 1.0543279647827148, + "learning_rate": 1.3336533333333335e-05, + "loss": 0.0236, + "step": 156175 + }, + { + "epoch": 0.999552, + "grad_norm": 0.07129446417093277, + "learning_rate": 1.3336320000000001e-05, + "loss": 0.0062, + "step": 156180 + }, + { + "epoch": 0.999584, + "grad_norm": 0.39475658535957336, + "learning_rate": 1.3336106666666669e-05, + "loss": 0.0132, + "step": 156185 + }, + { + "epoch": 0.999616, + "grad_norm": 0.08804318308830261, + "learning_rate": 1.3335893333333335e-05, + "loss": 0.0143, + "step": 156190 + }, + { + "epoch": 0.999648, + "grad_norm": 0.810209333896637, + "learning_rate": 1.3335680000000002e-05, + "loss": 0.0158, + "step": 156195 + }, + { + "epoch": 0.99968, + "grad_norm": 0.39256879687309265, + "learning_rate": 1.3335466666666668e-05, + "loss": 0.0044, + "step": 156200 + }, + { + "epoch": 0.999712, + "grad_norm": 0.26533398032188416, + "learning_rate": 1.3335253333333334e-05, + "loss": 0.0077, + "step": 156205 + }, + { + "epoch": 0.999744, + "grad_norm": 0.13041497766971588, + "learning_rate": 1.3335040000000001e-05, + "loss": 0.0071, + "step": 156210 + }, + { + "epoch": 0.999776, + "grad_norm": 0.039190180599689484, + "learning_rate": 1.3334826666666667e-05, + "loss": 0.0089, + "step": 156215 + }, + { + "epoch": 0.999808, + "grad_norm": 2.262834072113037, + "learning_rate": 1.3334613333333335e-05, + "loss": 0.0148, + "step": 156220 + }, + { + "epoch": 0.99984, + "grad_norm": 0.3040373623371124, + "learning_rate": 1.33344e-05, + "loss": 0.0027, + "step": 156225 + }, + { + "epoch": 0.999872, + "grad_norm": 1.1331363916397095, + "learning_rate": 1.3334186666666668e-05, + "loss": 0.0092, + "step": 156230 + }, + { + "epoch": 0.999904, + "grad_norm": 0.0993557795882225, + "learning_rate": 1.3333973333333334e-05, + "loss": 0.0058, + "step": 156235 + }, + { + "epoch": 0.999936, + "grad_norm": 0.03590567782521248, + "learning_rate": 1.333376e-05, + "loss": 0.0035, + "step": 156240 + }, + { + "epoch": 0.999968, + "grad_norm": 0.18299317359924316, + "learning_rate": 1.3333546666666667e-05, + "loss": 0.0028, + "step": 156245 + }, + { + "epoch": 1.0, + "grad_norm": 1.0758793354034424, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.0034, + "step": 156250 + }, + { + "epoch": 1.0, + "eval_loss": 0.28381672501564026, + "eval_runtime": 2754.5741, + "eval_samples_per_second": 90.758, + "eval_steps_per_second": 11.345, + "step": 156250 + } + ], + "logging_steps": 5, + "max_steps": 468750, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 3.7470191616e+17, + "train_batch_size": 8, + "trial_name": null, + "trial_params": null +}