8b_improve / logging.jsonl

Training in progress, step 981

eb0629a verified about 1 month ago

36.6 kB

	{"eval_loss": 4.60694456, "eval_runtime": 129.3796, "eval_samples_per_second": 2.095, "eval_steps_per_second": 0.526, "eval_token_acc": 0.73034986, "epoch": 0, "global_step/max_steps": "0/981", "percentage": "0.00%", "elapsed_time": "2m 9s", "memory(GiB)": 22.08, "train_speed(iter/s)": 0.0}
	{"loss": 1.16878664, "grad_norm": 0.54073948, "learning_rate": 2e-06, "token_acc": 0.72249161, "epoch": 0.00306396, "global_step/max_steps": "1/981", "percentage": "0.10%", "elapsed_time": "2m 32s", "remaining_time": "1d 17h 38m 33s", "memory(GiB)": 26.53, "train_speed(iter/s)": 0.006537}
	{"loss": 1.1736784, "grad_norm": 0.58766067, "learning_rate": 2e-05, "token_acc": 0.72568921, "epoch": 0.0306396, "global_step/max_steps": "10/981", "percentage": "1.02%", "elapsed_time": "6m 7s", "remaining_time": "9h 54m 19s", "memory(GiB)": 30.81, "train_speed(iter/s)": 0.02723}
	{"loss": 1.10924559, "grad_norm": 0.30837649, "learning_rate": 4e-05, "token_acc": 0.72819331, "epoch": 0.0612792, "global_step/max_steps": "20/981", "percentage": "2.04%", "elapsed_time": "10m 2s", "remaining_time": "8h 2m 50s", "memory(GiB)": 30.83, "train_speed(iter/s)": 0.033171}
	{"loss": 1.01692772, "grad_norm": 0.32810712, "learning_rate": 6e-05, "token_acc": 0.73688205, "epoch": 0.09191881, "global_step/max_steps": "30/981", "percentage": "3.06%", "elapsed_time": "14m 3s", "remaining_time": "7h 25m 41s", "memory(GiB)": 31.14, "train_speed(iter/s)": 0.035562}
	{"loss": 0.96151266, "grad_norm": 0.22189981, "learning_rate": 8e-05, "token_acc": 0.74540555, "epoch": 0.12255841, "global_step/max_steps": "40/981", "percentage": "4.08%", "elapsed_time": "17m 59s", "remaining_time": "7h 3m 9s", "memory(GiB)": 31.14, "train_speed(iter/s)": 0.037062}
	{"loss": 0.90503769, "grad_norm": 0.22474866, "learning_rate": 0.0001, "token_acc": 0.75502077, "epoch": 0.15319801, "global_step/max_steps": "50/981", "percentage": "5.10%", "elapsed_time": "21m 54s", "remaining_time": "6h 47m 59s", "memory(GiB)": 31.14, "train_speed(iter/s)": 0.038032}
	{"eval_loss": 3.46133232, "eval_runtime": 124.4462, "eval_samples_per_second": 2.178, "eval_steps_per_second": 0.546, "eval_token_acc": 0.76084561, "epoch": 0.15319801, "global_step/max_steps": "50/981", "percentage": "5.10%", "elapsed_time": "23m 59s", "remaining_time": "7h 26m 36s", "memory(GiB)": 31.14, "train_speed(iter/s)": 0.034743}
	{"loss": 0.86499529, "grad_norm": 0.22272298, "learning_rate": 9.997e-05, "token_acc": 0.76189943, "epoch": 0.18383761, "global_step/max_steps": "60/981", "percentage": "6.12%", "elapsed_time": "27m 51s", "remaining_time": "7h 7m 37s", "memory(GiB)": 31.43, "train_speed(iter/s)": 0.035895}
	{"loss": 0.84381781, "grad_norm": 0.21312132, "learning_rate": 9.989e-05, "token_acc": 0.76550678, "epoch": 0.21447721, "global_step/max_steps": "70/981", "percentage": "7.14%", "elapsed_time": "31m 48s", "remaining_time": "6h 53m 51s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.036687}
	{"loss": 0.82052784, "grad_norm": 0.2503463, "learning_rate": 9.974e-05, "token_acc": 0.76932469, "epoch": 0.24511681, "global_step/max_steps": "80/981", "percentage": "8.15%", "elapsed_time": "35m 40s", "remaining_time": "6h 41m 50s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037369}
	{"loss": 0.8164465, "grad_norm": 0.26674172, "learning_rate": 9.955e-05, "token_acc": 0.76918452, "epoch": 0.27575642, "global_step/max_steps": "90/981", "percentage": "9.17%", "elapsed_time": "39m 33s", "remaining_time": "6h 31m 37s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037919}
	{"loss": 0.79769683, "grad_norm": 0.27703497, "learning_rate": 9.929e-05, "token_acc": 0.77386085, "epoch": 0.30639602, "global_step/max_steps": "100/981", "percentage": "10.19%", "elapsed_time": "43m 29s", "remaining_time": "6h 23m 10s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.03832}
	{"eval_loss": 3.061028, "eval_runtime": 124.5655, "eval_samples_per_second": 2.176, "eval_steps_per_second": 0.546, "eval_token_acc": 0.78014999, "epoch": 0.30639602, "global_step/max_steps": "100/981", "percentage": "10.19%", "elapsed_time": "45m 34s", "remaining_time": "6h 41m 28s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.036574}
	{"loss": 0.77646089, "grad_norm": 0.28990954, "learning_rate": 9.898e-05, "token_acc": 0.77767867, "epoch": 0.33703562, "global_step/max_steps": "110/981", "percentage": "11.21%", "elapsed_time": "49m 28s", "remaining_time": "6h 31m 49s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.03705}
	{"loss": 0.7550271, "grad_norm": 0.31104651, "learning_rate": 9.861e-05, "token_acc": 0.78237806, "epoch": 0.36767522, "global_step/max_steps": "120/981", "percentage": "12.23%", "elapsed_time": "53m 27s", "remaining_time": "6h 23m 33s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037412}
	{"loss": 0.75930972, "grad_norm": 0.30645111, "learning_rate": 9.819e-05, "token_acc": 0.78228269, "epoch": 0.39831482, "global_step/max_steps": "130/981", "percentage": "13.25%", "elapsed_time": "57m 16s", "remaining_time": "6h 14m 57s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037827}
	{"loss": 0.75675783, "grad_norm": 0.31657684, "learning_rate": 9.771e-05, "token_acc": 0.78192493, "epoch": 0.42895442, "global_step/max_steps": "140/981", "percentage": "14.27%", "elapsed_time": "1h 1m 11s", "remaining_time": "6h 7m 37s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.038128}
	{"loss": 0.76049562, "grad_norm": 0.3195236, "learning_rate": 9.718e-05, "token_acc": 0.77955383, "epoch": 0.45959403, "global_step/max_steps": "150/981", "percentage": "15.29%", "elapsed_time": "1h 5m 7s", "remaining_time": "6h 0m 44s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.038392}
	{"eval_loss": 2.91686201, "eval_runtime": 124.7839, "eval_samples_per_second": 2.172, "eval_steps_per_second": 0.545, "eval_token_acc": 0.78684429, "epoch": 0.45959403, "global_step/max_steps": "150/981", "percentage": "15.29%", "elapsed_time": "1h 7m 11s", "remaining_time": "6h 12m 16s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037204}
	{"loss": 0.74879541, "grad_norm": 0.33142075, "learning_rate": 9.659e-05, "token_acc": 0.78281909, "epoch": 0.49023363, "global_step/max_steps": "160/981", "percentage": "16.31%", "elapsed_time": "1h 11m 7s", "remaining_time": "6h 4m 57s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037492}
	{"loss": 0.75294838, "grad_norm": 0.384736, "learning_rate": 9.596e-05, "token_acc": 0.78064094, "epoch": 0.52087323, "global_step/max_steps": "170/981", "percentage": "17.33%", "elapsed_time": "1h 14m 58s", "remaining_time": "5h 57m 40s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.037791}
	{"loss": 0.73525543, "grad_norm": 0.35296121, "learning_rate": 9.527e-05, "token_acc": 0.7861065, "epoch": 0.55151283, "global_step/max_steps": "180/981", "percentage": "18.35%", "elapsed_time": "1h 18m 49s", "remaining_time": "5h 50m 46s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.038059}
	{"loss": 0.71808553, "grad_norm": 0.3456454, "learning_rate": 9.452e-05, "token_acc": 0.79099379, "epoch": 0.58215243, "global_step/max_steps": "190/981", "percentage": "19.37%", "elapsed_time": "1h 22m 40s", "remaining_time": "5h 44m 9s", "memory(GiB)": 31.44, "train_speed(iter/s)": 0.038306}
	{"loss": 0.71191416, "grad_norm": 0.35632467, "learning_rate": 9.373e-05, "token_acc": 0.79211222, "epoch": 0.61279203, "global_step/max_steps": "200/981", "percentage": "20.39%", "elapsed_time": "1h 26m 38s", "remaining_time": "5h 38m 19s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038473}
	{"eval_loss": 2.84208274, "eval_runtime": 124.6876, "eval_samples_per_second": 2.173, "eval_steps_per_second": 0.545, "eval_token_acc": 0.79054723, "epoch": 0.61279203, "global_step/max_steps": "200/981", "percentage": "20.39%", "elapsed_time": "1h 28m 43s", "remaining_time": "5h 46m 26s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.037572}
	{"loss": 0.7262732, "grad_norm": 0.3740806, "learning_rate": 9.289e-05, "token_acc": 0.78721912, "epoch": 0.64343164, "global_step/max_steps": "210/981", "percentage": "21.41%", "elapsed_time": "1h 32m 35s", "remaining_time": "5h 39m 57s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.037798}
	{"loss": 0.72338204, "grad_norm": 0.33722463, "learning_rate": 9.2e-05, "token_acc": 0.78718055, "epoch": 0.67407124, "global_step/max_steps": "220/981", "percentage": "22.43%", "elapsed_time": "1h 36m 28s", "remaining_time": "5h 33m 44s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038004}
	{"loss": 0.72606883, "grad_norm": 0.36189213, "learning_rate": 9.106e-05, "token_acc": 0.78815326, "epoch": 0.70471084, "global_step/max_steps": "230/981", "percentage": "23.45%", "elapsed_time": "1h 40m 18s", "remaining_time": "5h 27m 32s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038215}
	{"loss": 0.71037607, "grad_norm": 0.36756998, "learning_rate": 9.007e-05, "token_acc": 0.78995104, "epoch": 0.73535044, "global_step/max_steps": "240/981", "percentage": "24.46%", "elapsed_time": "1h 44m 7s", "remaining_time": "5h 21m 27s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038418}
	{"loss": 0.72603316, "grad_norm": 0.36838499, "learning_rate": 8.904e-05, "token_acc": 0.78761645, "epoch": 0.76599004, "global_step/max_steps": "250/981", "percentage": "25.48%", "elapsed_time": "1h 47m 57s", "remaining_time": "5h 15m 38s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038598}
	{"eval_loss": 2.7868228, "eval_runtime": 124.5897, "eval_samples_per_second": 2.175, "eval_steps_per_second": 0.546, "eval_token_acc": 0.79349843, "epoch": 0.76599004, "global_step/max_steps": "250/981", "percentage": "25.48%", "elapsed_time": "1h 50m 1s", "remaining_time": "5h 21m 43s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.037869}
	{"loss": 0.72512798, "grad_norm": 0.38012171, "learning_rate": 8.796e-05, "token_acc": 0.78677306, "epoch": 0.79662964, "global_step/max_steps": "260/981", "percentage": "26.50%", "elapsed_time": "1h 53m 58s", "remaining_time": "5h 16m 3s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03802}
	{"loss": 0.69867172, "grad_norm": 0.38554144, "learning_rate": 8.684e-05, "token_acc": 0.79311499, "epoch": 0.82726925, "global_step/max_steps": "270/981", "percentage": "27.52%", "elapsed_time": "1h 57m 51s", "remaining_time": "5h 10m 20s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038183}
	{"loss": 0.70378685, "grad_norm": 0.37128288, "learning_rate": 8.568e-05, "token_acc": 0.7929957, "epoch": 0.85790885, "global_step/max_steps": "280/981", "percentage": "28.54%", "elapsed_time": "2h 1m 40s", "remaining_time": "5h 4m 37s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038352}
	{"loss": 0.71453376, "grad_norm": 0.35396621, "learning_rate": 8.448e-05, "token_acc": 0.78913105, "epoch": 0.88854845, "global_step/max_steps": "290/981", "percentage": "29.56%", "elapsed_time": "2h 5m 32s", "remaining_time": "4h 59m 8s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038499}
	{"loss": 0.71328425, "grad_norm": 0.36792096, "learning_rate": 8.324e-05, "token_acc": 0.78946065, "epoch": 0.91918805, "global_step/max_steps": "300/981", "percentage": "30.58%", "elapsed_time": "2h 9m 22s", "remaining_time": "4h 53m 40s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038648}
	{"eval_loss": 2.75453639, "eval_runtime": 124.738, "eval_samples_per_second": 2.173, "eval_steps_per_second": 0.545, "eval_token_acc": 0.79511345, "epoch": 0.91918805, "global_step/max_steps": "300/981", "percentage": "30.58%", "elapsed_time": "2h 11m 27s", "remaining_time": "4h 58m 23s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038037}
	{"loss": 0.68955054, "grad_norm": 0.41605487, "learning_rate": 8.196e-05, "token_acc": 0.79590653, "epoch": 0.94982765, "global_step/max_steps": "310/981", "percentage": "31.60%", "elapsed_time": "2h 15m 17s", "remaining_time": "4h 52m 49s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03819}
	{"loss": 0.69991393, "grad_norm": 0.36106205, "learning_rate": 8.064e-05, "token_acc": 0.79308936, "epoch": 0.98046725, "global_step/max_steps": "320/981", "percentage": "32.62%", "elapsed_time": "2h 19m 13s", "remaining_time": "4h 47m 34s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038309}
	{"loss": 0.70570087, "grad_norm": 0.38646773, "learning_rate": 7.929e-05, "token_acc": 0.79073735, "epoch": 1.00919188, "global_step/max_steps": "330/981", "percentage": "33.64%", "elapsed_time": "2h 22m 55s", "remaining_time": "4h 41m 56s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038484}
	{"loss": 0.68992119, "grad_norm": 0.40024915, "learning_rate": 7.791e-05, "token_acc": 0.79449466, "epoch": 1.03983148, "global_step/max_steps": "340/981", "percentage": "34.66%", "elapsed_time": "2h 26m 50s", "remaining_time": "4h 36m 50s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038589}
	{"loss": 0.69176383, "grad_norm": 0.38548696, "learning_rate": 7.649e-05, "token_acc": 0.79557253, "epoch": 1.07047108, "global_step/max_steps": "350/981", "percentage": "35.68%", "elapsed_time": "2h 30m 43s", "remaining_time": "4h 31m 44s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.0387}
	{"eval_loss": 2.72800756, "eval_runtime": 124.9875, "eval_samples_per_second": 2.168, "eval_steps_per_second": 0.544, "eval_token_acc": 0.79629349, "epoch": 1.07047108, "global_step/max_steps": "350/981", "percentage": "35.68%", "elapsed_time": "2h 32m 48s", "remaining_time": "4h 35m 30s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038173}
	{"loss": 0.66948586, "grad_norm": 0.3826327, "learning_rate": 7.505e-05, "token_acc": 0.80002265, "epoch": 1.10111069, "global_step/max_steps": "360/981", "percentage": "36.70%", "elapsed_time": "2h 36m 41s", "remaining_time": "4h 30m 18s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038291}
	{"loss": 0.68724999, "grad_norm": 0.37699386, "learning_rate": 7.357e-05, "token_acc": 0.79484934, "epoch": 1.13175029, "global_step/max_steps": "370/981", "percentage": "37.72%", "elapsed_time": "2h 40m 35s", "remaining_time": "4h 25m 11s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038401}
	{"loss": 0.68903656, "grad_norm": 0.37034708, "learning_rate": 7.207e-05, "token_acc": 0.79446088, "epoch": 1.16238989, "global_step/max_steps": "380/981", "percentage": "38.74%", "elapsed_time": "2h 44m 32s", "remaining_time": "4h 20m 14s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03849}
	{"loss": 0.68169031, "grad_norm": 0.39794746, "learning_rate": 7.055e-05, "token_acc": 0.79603014, "epoch": 1.19302949, "global_step/max_steps": "390/981", "percentage": "39.76%", "elapsed_time": "2h 48m 30s", "remaining_time": "4h 15m 21s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038574}
	{"loss": 0.6819664, "grad_norm": 0.41798371, "learning_rate": 6.9e-05, "token_acc": 0.79543377, "epoch": 1.22366909, "global_step/max_steps": "400/981", "percentage": "40.77%", "elapsed_time": "2h 52m 29s", "remaining_time": "4h 10m 32s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03865}
	{"eval_loss": 2.7091186, "eval_runtime": 124.2484, "eval_samples_per_second": 2.181, "eval_steps_per_second": 0.547, "eval_token_acc": 0.79723038, "epoch": 1.22366909, "global_step/max_steps": "400/981", "percentage": "40.77%", "elapsed_time": "2h 54m 33s", "remaining_time": "4h 13m 33s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038191}
	{"loss": 0.67755718, "grad_norm": 0.415317, "learning_rate": 6.743e-05, "token_acc": 0.79742053, "epoch": 1.25430869, "global_step/max_steps": "410/981", "percentage": "41.79%", "elapsed_time": "2h 58m 32s", "remaining_time": "4h 8m 38s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038274}
	{"loss": 0.67770371, "grad_norm": 0.38136867, "learning_rate": 6.584e-05, "token_acc": 0.7974888, "epoch": 1.2849483, "global_step/max_steps": "420/981", "percentage": "42.81%", "elapsed_time": "3h 2m 32s", "remaining_time": "4h 3m 48s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038349}
	{"loss": 0.6695797, "grad_norm": 0.39129668, "learning_rate": 6.423e-05, "token_acc": 0.79876247, "epoch": 1.3155879, "global_step/max_steps": "430/981", "percentage": "43.83%", "elapsed_time": "3h 6m 25s", "remaining_time": "3h 58m 52s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038444}
	{"loss": 0.68096657, "grad_norm": 0.42512932, "learning_rate": 6.26e-05, "token_acc": 0.79605956, "epoch": 1.3462275, "global_step/max_steps": "440/981", "percentage": "44.85%", "elapsed_time": "3h 10m 19s", "remaining_time": "3h 54m 0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038532}
	{"loss": 0.67766423, "grad_norm": 0.38565463, "learning_rate": 6.096e-05, "token_acc": 0.79680339, "epoch": 1.3768671, "global_step/max_steps": "450/981", "percentage": "45.87%", "elapsed_time": "3h 14m 15s", "remaining_time": "3h 49m 13s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038609}
	{"eval_loss": 2.68571091, "eval_runtime": 124.7191, "eval_samples_per_second": 2.173, "eval_steps_per_second": 0.545, "eval_token_acc": 0.79848625, "epoch": 1.3768671, "global_step/max_steps": "450/981", "percentage": "45.87%", "elapsed_time": "3h 16m 20s", "remaining_time": "3h 51m 40s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.0382}
	{"loss": 0.67901173, "grad_norm": 0.39468125, "learning_rate": 5.931e-05, "token_acc": 0.79664045, "epoch": 1.4075067, "global_step/max_steps": "460/981", "percentage": "46.89%", "elapsed_time": "3h 20m 17s", "remaining_time": "3h 46m 51s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038277}
	{"loss": 0.69018073, "grad_norm": 0.47022712, "learning_rate": 5.765e-05, "token_acc": 0.79297059, "epoch": 1.4381463, "global_step/max_steps": "470/981", "percentage": "47.91%", "elapsed_time": "3h 24m 14s", "remaining_time": "3h 42m 3s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038355}
	{"loss": 0.66265864, "grad_norm": 0.43239185, "learning_rate": 5.598e-05, "token_acc": 0.80108355, "epoch": 1.46878591, "global_step/max_steps": "480/981", "percentage": "48.93%", "elapsed_time": "3h 28m 6s", "remaining_time": "3h 37m 12s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038441}
	{"loss": 0.67207289, "grad_norm": 0.39702681, "learning_rate": 5.43e-05, "token_acc": 0.79808606, "epoch": 1.49942551, "global_step/max_steps": "490/981", "percentage": "49.95%", "elapsed_time": "3h 31m 56s", "remaining_time": "3h 32m 22s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038531}
	{"loss": 0.68019748, "grad_norm": 0.55682892, "learning_rate": 5.261e-05, "token_acc": 0.79575072, "epoch": 1.53006511, "global_step/max_steps": "500/981", "percentage": "50.97%", "elapsed_time": "3h 35m 47s", "remaining_time": "3h 27m 35s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038618}
	{"eval_loss": 2.66862845, "eval_runtime": 124.7699, "eval_samples_per_second": 2.172, "eval_steps_per_second": 0.545, "eval_token_acc": 0.79923354, "epoch": 1.53006511, "global_step/max_steps": "500/981", "percentage": "50.97%", "elapsed_time": "3h 37m 51s", "remaining_time": "3h 29m 35s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03825}
	{"loss": 0.68408213, "grad_norm": 0.38572457, "learning_rate": 5.093e-05, "token_acc": 0.79441626, "epoch": 1.56070471, "global_step/max_steps": "510/981", "percentage": "51.99%", "elapsed_time": "3h 41m 43s", "remaining_time": "3h 24m 45s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038337}
	{"loss": 0.68433537, "grad_norm": 0.41219425, "learning_rate": 4.924e-05, "token_acc": 0.79433732, "epoch": 1.59134431, "global_step/max_steps": "520/981", "percentage": "53.01%", "elapsed_time": "3h 45m 42s", "remaining_time": "3h 20m 6s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038397}
	{"loss": 0.66399922, "grad_norm": 0.37705389, "learning_rate": 4.755e-05, "token_acc": 0.80079552, "epoch": 1.62198391, "global_step/max_steps": "530/981", "percentage": "54.03%", "elapsed_time": "3h 49m 35s", "remaining_time": "3h 15m 22s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038474}
	{"loss": 0.67126565, "grad_norm": 0.45150718, "learning_rate": 4.587e-05, "token_acc": 0.79797129, "epoch": 1.65262352, "global_step/max_steps": "540/981", "percentage": "55.05%", "elapsed_time": "3h 53m 29s", "remaining_time": "3h 10m 41s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038544}
	{"loss": 0.66462779, "grad_norm": 0.38564503, "learning_rate": 4.419e-05, "token_acc": 0.8000114, "epoch": 1.68326312, "global_step/max_steps": "550/981", "percentage": "56.07%", "elapsed_time": "3h 57m 21s", "remaining_time": "3h 6m 0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038618}
	{"eval_loss": 2.65649629, "eval_runtime": 125.0271, "eval_samples_per_second": 2.168, "eval_steps_per_second": 0.544, "eval_token_acc": 0.79980905, "epoch": 1.68326312, "global_step/max_steps": "550/981", "percentage": "56.07%", "elapsed_time": "3h 59m 26s", "remaining_time": "3h 7m 38s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038282}
	{"loss": 0.66296554, "grad_norm": 0.51134419, "learning_rate": 4.252e-05, "token_acc": 0.80055125, "epoch": 1.71390272, "global_step/max_steps": "560/981", "percentage": "57.08%", "elapsed_time": "4h 3m 22s", "remaining_time": "3h 2m 57s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038351}
	{"loss": 0.68264065, "grad_norm": 0.4108828, "learning_rate": 4.086e-05, "token_acc": 0.79577075, "epoch": 1.74454232, "global_step/max_steps": "570/981", "percentage": "58.10%", "elapsed_time": "4h 7m 11s", "remaining_time": "2h 58m 14s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038431}
	{"loss": 0.6657021, "grad_norm": 0.406946, "learning_rate": 3.92e-05, "token_acc": 0.79888418, "epoch": 1.77518192, "global_step/max_steps": "580/981", "percentage": "59.12%", "elapsed_time": "4h 11m 4s", "remaining_time": "2h 53m 34s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038502}
	{"loss": 0.66682577, "grad_norm": 0.3705447, "learning_rate": 3.756e-05, "token_acc": 0.79945928, "epoch": 1.80582152, "global_step/max_steps": "590/981", "percentage": "60.14%", "elapsed_time": "4h 14m 58s", "remaining_time": "2h 48m 58s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038566}
	{"loss": 0.65994606, "grad_norm": 0.44207671, "learning_rate": 3.594e-05, "token_acc": 0.80043095, "epoch": 1.83646113, "global_step/max_steps": "600/981", "percentage": "61.16%", "elapsed_time": "4h 18m 48s", "remaining_time": "2h 44m 20s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038639}
	{"eval_loss": 2.64336681, "eval_runtime": 124.6986, "eval_samples_per_second": 2.173, "eval_steps_per_second": 0.545, "eval_token_acc": 0.80055856, "epoch": 1.83646113, "global_step/max_steps": "600/981", "percentage": "61.16%", "elapsed_time": "4h 20m 52s", "remaining_time": "2h 45m 39s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038331}
	{"loss": 0.66294188, "grad_norm": 0.40871912, "learning_rate": 3.432e-05, "token_acc": 0.7991746, "epoch": 1.86710073, "global_step/max_steps": "610/981", "percentage": "62.18%", "elapsed_time": "4h 24m 49s", "remaining_time": "2h 41m 3s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038391}
	{"loss": 0.65842881, "grad_norm": 0.45405832, "learning_rate": 3.273e-05, "token_acc": 0.80157549, "epoch": 1.89774033, "global_step/max_steps": "620/981", "percentage": "63.20%", "elapsed_time": "4h 28m 39s", "remaining_time": "2h 36m 25s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038463}
	{"loss": 0.65695963, "grad_norm": 0.44354495, "learning_rate": 3.116e-05, "token_acc": 0.80204496, "epoch": 1.92837993, "global_step/max_steps": "630/981", "percentage": "64.22%", "elapsed_time": "4h 32m 31s", "remaining_time": "2h 31m 50s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038528}
	{"loss": 0.67333388, "grad_norm": 0.416486, "learning_rate": 2.961e-05, "token_acc": 0.7969862, "epoch": 1.95901953, "global_step/max_steps": "640/981", "percentage": "65.24%", "elapsed_time": "4h 36m 20s", "remaining_time": "2h 27m 14s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038599}
	{"loss": 0.66229739, "grad_norm": 0.42697459, "learning_rate": 2.808e-05, "token_acc": 0.80149833, "epoch": 1.98965913, "global_step/max_steps": "650/981", "percentage": "66.26%", "elapsed_time": "4h 40m 14s", "remaining_time": "2h 22m 42s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038656}
	{"eval_loss": 2.63191247, "eval_runtime": 125.2776, "eval_samples_per_second": 2.163, "eval_steps_per_second": 0.543, "eval_token_acc": 0.80119654, "epoch": 1.98965913, "global_step/max_steps": "650/981", "percentage": "66.26%", "elapsed_time": "4h 42m 20s", "remaining_time": "2h 23m 46s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03837}
	{"loss": 0.66338749, "grad_norm": 0.45116159, "learning_rate": 2.657e-05, "token_acc": 0.79937405, "epoch": 2.01838376, "global_step/max_steps": "660/981", "percentage": "67.28%", "elapsed_time": "4h 45m 57s", "remaining_time": "2h 19m 4s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038468}
	{"loss": 0.65701952, "grad_norm": 0.55751795, "learning_rate": 2.51e-05, "token_acc": 0.80138883, "epoch": 2.04902336, "global_step/max_steps": "670/981", "percentage": "68.30%", "elapsed_time": "4h 49m 49s", "remaining_time": "2h 14m 31s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03853}
	{"loss": 0.64134221, "grad_norm": 0.43496579, "learning_rate": 2.365e-05, "token_acc": 0.80496344, "epoch": 2.07966296, "global_step/max_steps": "680/981", "percentage": "69.32%", "elapsed_time": "4h 53m 42s", "remaining_time": "2h 10m 0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038587}
	{"loss": 0.64073253, "grad_norm": 0.44533023, "learning_rate": 2.223e-05, "token_acc": 0.80389769, "epoch": 2.11030257, "global_step/max_steps": "690/981", "percentage": "70.34%", "elapsed_time": "4h 57m 42s", "remaining_time": "2h 5m 33s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038629}
	{"loss": 0.65054336, "grad_norm": 0.44913107, "learning_rate": 2.084e-05, "token_acc": 0.80190489, "epoch": 2.14094217, "global_step/max_steps": "700/981", "percentage": "71.36%", "elapsed_time": "5h 1m 34s", "remaining_time": "2h 1m 3s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038685}
	{"eval_loss": 2.6278317, "eval_runtime": 124.7129, "eval_samples_per_second": 2.173, "eval_steps_per_second": 0.545, "eval_token_acc": 0.801375, "epoch": 2.14094217, "global_step/max_steps": "700/981", "percentage": "71.36%", "elapsed_time": "5h 3m 39s", "remaining_time": "2h 1m 53s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03842}
	{"loss": 0.65510879, "grad_norm": 0.43490148, "learning_rate": 1.949e-05, "token_acc": 0.8003093, "epoch": 2.17158177, "global_step/max_steps": "710/981", "percentage": "72.38%", "elapsed_time": "5h 7m 32s", "remaining_time": "1h 57m 23s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038477}
	{"loss": 0.65907774, "grad_norm": 0.41595805, "learning_rate": 1.817e-05, "token_acc": 0.79973161, "epoch": 2.20222137, "global_step/max_steps": "720/981", "percentage": "73.39%", "elapsed_time": "5h 11m 29s", "remaining_time": "1h 52m 54s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038524}
	{"loss": 0.65962191, "grad_norm": 0.44710431, "learning_rate": 1.689e-05, "token_acc": 0.79975513, "epoch": 2.23286097, "global_step/max_steps": "730/981", "percentage": "74.41%", "elapsed_time": "5h 15m 23s", "remaining_time": "1h 48m 26s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038576}
	{"loss": 0.64019899, "grad_norm": 0.41701478, "learning_rate": 1.564e-05, "token_acc": 0.80605202, "epoch": 2.26350057, "global_step/max_steps": "740/981", "percentage": "75.43%", "elapsed_time": "5h 19m 17s", "remaining_time": "1h 43m 59s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038628}
	{"loss": 0.65558639, "grad_norm": 0.43996394, "learning_rate": 1.444e-05, "token_acc": 0.80082284, "epoch": 2.29414018, "global_step/max_steps": "750/981", "percentage": "76.45%", "elapsed_time": "5h 23m 8s", "remaining_time": "1h 39m 31s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038682}
	{"eval_loss": 2.62271929, "eval_runtime": 124.8291, "eval_samples_per_second": 2.171, "eval_steps_per_second": 0.545, "eval_token_acc": 0.80147092, "epoch": 2.29414018, "global_step/max_steps": "750/981", "percentage": "76.45%", "elapsed_time": "5h 25m 13s", "remaining_time": "1h 40m 10s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038434}
	{"loss": 0.63936119, "grad_norm": 0.43550271, "learning_rate": 1.327e-05, "token_acc": 0.8061861, "epoch": 2.32477978, "global_step/max_steps": "760/981", "percentage": "77.47%", "elapsed_time": "5h 29m 7s", "remaining_time": "1h 35m 42s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038487}
	{"loss": 0.64495635, "grad_norm": 0.43410525, "learning_rate": 1.215e-05, "token_acc": 0.80456391, "epoch": 2.35541938, "global_step/max_steps": "770/981", "percentage": "78.49%", "elapsed_time": "5h 33m 1s", "remaining_time": "1h 31m 15s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038536}
	{"loss": 0.64904237, "grad_norm": 0.47476801, "learning_rate": 1.107e-05, "token_acc": 0.8024595, "epoch": 2.38605898, "global_step/max_steps": "780/981", "percentage": "79.51%", "elapsed_time": "5h 36m 57s", "remaining_time": "1h 26m 49s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03858}
	{"loss": 0.64537621, "grad_norm": 0.46266785, "learning_rate": 1.003e-05, "token_acc": 0.80365874, "epoch": 2.41669858, "global_step/max_steps": "790/981", "percentage": "80.53%", "elapsed_time": "5h 40m 48s", "remaining_time": "1h 22m 23s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038633}
	{"loss": 0.63888297, "grad_norm": 0.42221501, "learning_rate": 9.04e-06, "token_acc": 0.8054936, "epoch": 2.44733818, "global_step/max_steps": "800/981", "percentage": "81.55%", "elapsed_time": "5h 44m 41s", "remaining_time": "1h 17m 59s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038682}
	{"eval_loss": 2.6188395, "eval_runtime": 124.644, "eval_samples_per_second": 2.174, "eval_steps_per_second": 0.546, "eval_token_acc": 0.80191482, "epoch": 2.44733818, "global_step/max_steps": "800/981", "percentage": "81.55%", "elapsed_time": "5h 46m 46s", "remaining_time": "1h 18m 27s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03845}
	{"loss": 0.64482226, "grad_norm": 0.4081943, "learning_rate": 8.1e-06, "token_acc": 0.80442186, "epoch": 2.47797779, "global_step/max_steps": "810/981", "percentage": "82.57%", "elapsed_time": "5h 50m 41s", "remaining_time": "1h 14m 2s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038495}
	{"loss": 0.64257121, "grad_norm": 0.39510468, "learning_rate": 7.2e-06, "token_acc": 0.80444136, "epoch": 2.50861739, "global_step/max_steps": "820/981", "percentage": "83.59%", "elapsed_time": "5h 54m 33s", "remaining_time": "1h 9m 36s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038546}
	{"loss": 0.65501781, "grad_norm": 0.45020461, "learning_rate": 6.35e-06, "token_acc": 0.80161403, "epoch": 2.53925699, "global_step/max_steps": "830/981", "percentage": "84.61%", "elapsed_time": "5h 58m 25s", "remaining_time": "1h 5m 12s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038594}
	{"loss": 0.6495801, "grad_norm": 0.49507573, "learning_rate": 5.55e-06, "token_acc": 0.80197075, "epoch": 2.56989659, "global_step/max_steps": "840/981", "percentage": "85.63%", "elapsed_time": "6h 2m 19s", "remaining_time": "1h 0m 49s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038639}
	{"loss": 0.64738607, "grad_norm": 0.43891406, "learning_rate": 4.81e-06, "token_acc": 0.80427136, "epoch": 2.60053619, "global_step/max_steps": "850/981", "percentage": "86.65%", "elapsed_time": "6h 6m 20s", "remaining_time": "56m 27s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038672}
	{"eval_loss": 2.61586905, "eval_runtime": 124.3264, "eval_samples_per_second": 2.18, "eval_steps_per_second": 0.547, "eval_token_acc": 0.80201967, "epoch": 2.60053619, "global_step/max_steps": "850/981", "percentage": "86.65%", "elapsed_time": "6h 8m 24s", "remaining_time": "56m 46s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038454}
	{"loss": 0.63968625, "grad_norm": 0.43007135, "learning_rate": 4.11e-06, "token_acc": 0.80489425, "epoch": 2.63117579, "global_step/max_steps": "860/981", "percentage": "87.67%", "elapsed_time": "6h 12m 18s", "remaining_time": "52m 23s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038498}
	{"loss": 0.63850884, "grad_norm": 0.45915908, "learning_rate": 3.47e-06, "token_acc": 0.80574739, "epoch": 2.6618154, "global_step/max_steps": "870/981", "percentage": "88.69%", "elapsed_time": "6h 16m 15s", "remaining_time": "48m 0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038538}
	{"loss": 0.64804406, "grad_norm": 0.44728887, "learning_rate": 2.88e-06, "token_acc": 0.80335091, "epoch": 2.692455, "global_step/max_steps": "880/981", "percentage": "89.70%", "elapsed_time": "6h 20m 9s", "remaining_time": "43m 37s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03858}
	{"loss": 0.64023747, "grad_norm": 0.4411357, "learning_rate": 2.34e-06, "token_acc": 0.80492148, "epoch": 2.7230946, "global_step/max_steps": "890/981", "percentage": "90.72%", "elapsed_time": "6h 24m 5s", "remaining_time": "39m 16s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03862}
	{"loss": 0.65595984, "grad_norm": 0.44405082, "learning_rate": 1.86e-06, "token_acc": 0.80046947, "epoch": 2.7537342, "global_step/max_steps": "900/981", "percentage": "91.74%", "elapsed_time": "6h 27m 59s", "remaining_time": "34m 55s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03866}
	{"eval_loss": 2.61341238, "eval_runtime": 124.9163, "eval_samples_per_second": 2.169, "eval_steps_per_second": 0.544, "eval_token_acc": 0.8022985, "epoch": 2.7537342, "global_step/max_steps": "900/981", "percentage": "91.74%", "elapsed_time": "6h 30m 4s", "remaining_time": "35m 6s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038454}
	{"loss": 0.63428335, "grad_norm": 0.45036706, "learning_rate": 1.43e-06, "token_acc": 0.80696227, "epoch": 2.7843738, "global_step/max_steps": "910/981", "percentage": "92.76%", "elapsed_time": "6h 33m 58s", "remaining_time": "30m 44s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038496}
	{"loss": 0.64668331, "grad_norm": 0.40319866, "learning_rate": 1.06e-06, "token_acc": 0.80315308, "epoch": 2.8150134, "global_step/max_steps": "920/981", "percentage": "93.78%", "elapsed_time": "6h 37m 42s", "remaining_time": "26m 22s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038554}
	{"loss": 0.65769014, "grad_norm": 0.40031841, "learning_rate": 7.4e-07, "token_acc": 0.80058395, "epoch": 2.84565301, "global_step/max_steps": "930/981", "percentage": "94.80%", "elapsed_time": "6h 41m 38s", "remaining_time": "22m 1s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038592}
	{"loss": 0.63896413, "grad_norm": 0.40605664, "learning_rate": 4.8e-07, "token_acc": 0.80590886, "epoch": 2.87629261, "global_step/max_steps": "940/981", "percentage": "95.82%", "elapsed_time": "6h 45m 34s", "remaining_time": "17m 41s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038628}
	{"loss": 0.64728446, "grad_norm": 0.48287588, "learning_rate": 2.7e-07, "token_acc": 0.80227015, "epoch": 2.90693221, "global_step/max_steps": "950/981", "percentage": "96.84%", "elapsed_time": "6h 49m 31s", "remaining_time": "13m 21s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038662}
	{"eval_loss": 2.61313844, "eval_runtime": 125.0544, "eval_samples_per_second": 2.167, "eval_steps_per_second": 0.544, "eval_token_acc": 0.80230966, "epoch": 2.90693221, "global_step/max_steps": "950/981", "percentage": "96.84%", "elapsed_time": "6h 51m 36s", "remaining_time": "13m 25s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038466}
	{"loss": 0.64517288, "grad_norm": 0.44848776, "learning_rate": 1.3e-07, "token_acc": 0.80361007, "epoch": 2.93757181, "global_step/max_steps": "960/981", "percentage": "97.86%", "elapsed_time": "6h 55m 29s", "remaining_time": "9m 5s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038509}
	{"loss": 0.64295397, "grad_norm": 0.4717283, "learning_rate": 3e-08, "token_acc": 0.80482168, "epoch": 2.96821141, "global_step/max_steps": "970/981", "percentage": "98.88%", "elapsed_time": "6h 59m 23s", "remaining_time": "4m 45s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038548}
	{"loss": 0.62486019, "grad_norm": 0.41565621, "learning_rate": 0.0, "token_acc": 0.80835402, "epoch": 2.99885101, "global_step/max_steps": "980/981", "percentage": "99.90%", "elapsed_time": "7h 3m 15s", "remaining_time": "25s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.03859}
	{"eval_loss": 2.61317253, "eval_runtime": 125.0988, "eval_samples_per_second": 2.166, "eval_steps_per_second": 0.544, "eval_token_acc": 0.80227843, "epoch": 3.0, "global_step/max_steps": "981/981", "percentage": "100.00%", "elapsed_time": "7h 5m 29s", "remaining_time": "0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038426}
	{"train_runtime": 25532.9048, "train_samples_per_second": 0.614, "train_steps_per_second": 0.038, "total_flos": 4.6792415081308094e+19, "train_loss": 0.7036621, "epoch": 3.0, "global_step/max_steps": "981/981", "percentage": "100.00%", "elapsed_time": "7h 5m 30s", "remaining_time": "0s", "memory(GiB)": 32.39, "train_speed(iter/s)": 0.038424}