{ "best_metric": 0.907917320728302, "best_model_checkpoint": "./vit-base-brain-xray/checkpoint-100", "epoch": 4.0, "eval_steps": 100, "global_step": 720, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.05555555555555555, "grad_norm": 5.699078559875488, "learning_rate": 0.00019722222222222225, "loss": 1.2918, "step": 10 }, { "epoch": 0.1111111111111111, "grad_norm": 3.1500043869018555, "learning_rate": 0.00019444444444444446, "loss": 0.8867, "step": 20 }, { "epoch": 0.16666666666666666, "grad_norm": 3.1283438205718994, "learning_rate": 0.00019166666666666667, "loss": 0.5707, "step": 30 }, { "epoch": 0.2222222222222222, "grad_norm": 2.686929225921631, "learning_rate": 0.00018888888888888888, "loss": 0.3967, "step": 40 }, { "epoch": 0.2777777777777778, "grad_norm": 1.111426830291748, "learning_rate": 0.00018611111111111112, "loss": 0.3759, "step": 50 }, { "epoch": 0.3333333333333333, "grad_norm": 2.6397788524627686, "learning_rate": 0.00018333333333333334, "loss": 0.2927, "step": 60 }, { "epoch": 0.3888888888888889, "grad_norm": 0.6170921325683594, "learning_rate": 0.00018055555555555557, "loss": 0.2122, "step": 70 }, { "epoch": 0.4444444444444444, "grad_norm": 0.33072641491889954, "learning_rate": 0.00017777777777777779, "loss": 0.2795, "step": 80 }, { "epoch": 0.5, "grad_norm": 1.4631454944610596, "learning_rate": 0.000175, "loss": 0.3315, "step": 90 }, { "epoch": 0.5555555555555556, "grad_norm": 7.331964492797852, "learning_rate": 0.00017222222222222224, "loss": 0.2478, "step": 100 }, { "epoch": 0.5555555555555556, "eval_accuracy": 0.6903553299492385, "eval_loss": 0.907917320728302, "eval_runtime": 5.7847, "eval_samples_per_second": 68.111, "eval_steps_per_second": 8.644, "step": 100 }, { "epoch": 0.6111111111111112, "grad_norm": 3.3308780193328857, "learning_rate": 0.00016944444444444445, "loss": 0.4174, "step": 110 }, { "epoch": 0.6666666666666666, "grad_norm": 3.7708303928375244, "learning_rate": 0.0001666666666666667, "loss": 0.2337, "step": 120 }, { "epoch": 0.7222222222222222, "grad_norm": 0.6579460501670837, "learning_rate": 0.0001638888888888889, "loss": 0.271, "step": 130 }, { "epoch": 0.7777777777777778, "grad_norm": 2.6412248611450195, "learning_rate": 0.0001611111111111111, "loss": 0.2476, "step": 140 }, { "epoch": 0.8333333333333334, "grad_norm": 4.0377197265625, "learning_rate": 0.00015833333333333332, "loss": 0.1787, "step": 150 }, { "epoch": 0.8888888888888888, "grad_norm": 5.922617435455322, "learning_rate": 0.00015555555555555556, "loss": 0.1848, "step": 160 }, { "epoch": 0.9444444444444444, "grad_norm": 4.513651371002197, "learning_rate": 0.00015277777777777777, "loss": 0.2581, "step": 170 }, { "epoch": 1.0, "grad_norm": 0.23064616322517395, "learning_rate": 0.00015000000000000001, "loss": 0.1437, "step": 180 }, { "epoch": 1.0555555555555556, "grad_norm": 2.2603862285614014, "learning_rate": 0.00014722222222222223, "loss": 0.1052, "step": 190 }, { "epoch": 1.1111111111111112, "grad_norm": 4.710208892822266, "learning_rate": 0.00014444444444444444, "loss": 0.1499, "step": 200 }, { "epoch": 1.1111111111111112, "eval_accuracy": 0.7182741116751269, "eval_loss": 1.1542534828186035, "eval_runtime": 5.8503, "eval_samples_per_second": 67.347, "eval_steps_per_second": 8.547, "step": 200 }, { "epoch": 1.1666666666666667, "grad_norm": 0.15027037262916565, "learning_rate": 0.00014166666666666668, "loss": 0.0747, "step": 210 }, { "epoch": 1.2222222222222223, "grad_norm": 0.3188658356666565, "learning_rate": 0.0001388888888888889, "loss": 0.1555, "step": 220 }, { "epoch": 1.2777777777777777, "grad_norm": 3.695791482925415, "learning_rate": 0.00013611111111111113, "loss": 0.1876, "step": 230 }, { "epoch": 1.3333333333333333, "grad_norm": 2.009079694747925, "learning_rate": 0.00013333333333333334, "loss": 0.1054, "step": 240 }, { "epoch": 1.3888888888888888, "grad_norm": 0.07869268208742142, "learning_rate": 0.00013055555555555555, "loss": 0.0381, "step": 250 }, { "epoch": 1.4444444444444444, "grad_norm": 0.9898849725723267, "learning_rate": 0.00012777777777777776, "loss": 0.1144, "step": 260 }, { "epoch": 1.5, "grad_norm": 0.509087085723877, "learning_rate": 0.000125, "loss": 0.1002, "step": 270 }, { "epoch": 1.5555555555555556, "grad_norm": 0.08736218512058258, "learning_rate": 0.00012222222222222224, "loss": 0.1103, "step": 280 }, { "epoch": 1.6111111111111112, "grad_norm": 0.24889719486236572, "learning_rate": 0.00011944444444444445, "loss": 0.0987, "step": 290 }, { "epoch": 1.6666666666666665, "grad_norm": 2.0384163856506348, "learning_rate": 0.00011666666666666668, "loss": 0.0872, "step": 300 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.7614213197969543, "eval_loss": 1.146877646446228, "eval_runtime": 6.3643, "eval_samples_per_second": 61.908, "eval_steps_per_second": 7.856, "step": 300 }, { "epoch": 1.7222222222222223, "grad_norm": 0.47840073704719543, "learning_rate": 0.00011388888888888889, "loss": 0.0468, "step": 310 }, { "epoch": 1.7777777777777777, "grad_norm": 0.06918664276599884, "learning_rate": 0.00011111111111111112, "loss": 0.0191, "step": 320 }, { "epoch": 1.8333333333333335, "grad_norm": 0.7651189565658569, "learning_rate": 0.00010833333333333333, "loss": 0.1305, "step": 330 }, { "epoch": 1.8888888888888888, "grad_norm": 1.8910560607910156, "learning_rate": 0.00010555555555555557, "loss": 0.0355, "step": 340 }, { "epoch": 1.9444444444444444, "grad_norm": 0.07424870133399963, "learning_rate": 0.00010277777777777778, "loss": 0.0567, "step": 350 }, { "epoch": 2.0, "grad_norm": 0.05715026333928108, "learning_rate": 0.0001, "loss": 0.0991, "step": 360 }, { "epoch": 2.0555555555555554, "grad_norm": 2.061647415161133, "learning_rate": 9.722222222222223e-05, "loss": 0.0603, "step": 370 }, { "epoch": 2.111111111111111, "grad_norm": 0.04806053638458252, "learning_rate": 9.444444444444444e-05, "loss": 0.0325, "step": 380 }, { "epoch": 2.1666666666666665, "grad_norm": 0.05517473816871643, "learning_rate": 9.166666666666667e-05, "loss": 0.0301, "step": 390 }, { "epoch": 2.2222222222222223, "grad_norm": 0.8571930527687073, "learning_rate": 8.888888888888889e-05, "loss": 0.0118, "step": 400 }, { "epoch": 2.2222222222222223, "eval_accuracy": 0.7258883248730964, "eval_loss": 1.2360663414001465, "eval_runtime": 6.5101, "eval_samples_per_second": 60.522, "eval_steps_per_second": 7.68, "step": 400 }, { "epoch": 2.2777777777777777, "grad_norm": 0.040004875510931015, "learning_rate": 8.611111111111112e-05, "loss": 0.0118, "step": 410 }, { "epoch": 2.3333333333333335, "grad_norm": 7.572581768035889, "learning_rate": 8.333333333333334e-05, "loss": 0.0314, "step": 420 }, { "epoch": 2.388888888888889, "grad_norm": 0.037391383200883865, "learning_rate": 8.055555555555556e-05, "loss": 0.0088, "step": 430 }, { "epoch": 2.4444444444444446, "grad_norm": 0.034802764654159546, "learning_rate": 7.777777777777778e-05, "loss": 0.0147, "step": 440 }, { "epoch": 2.5, "grad_norm": 0.06982697546482086, "learning_rate": 7.500000000000001e-05, "loss": 0.0085, "step": 450 }, { "epoch": 2.5555555555555554, "grad_norm": 0.03507501631975174, "learning_rate": 7.222222222222222e-05, "loss": 0.0087, "step": 460 }, { "epoch": 2.611111111111111, "grad_norm": 4.626717567443848, "learning_rate": 6.944444444444444e-05, "loss": 0.0216, "step": 470 }, { "epoch": 2.6666666666666665, "grad_norm": 0.0349123477935791, "learning_rate": 6.666666666666667e-05, "loss": 0.05, "step": 480 }, { "epoch": 2.7222222222222223, "grad_norm": 0.03614797443151474, "learning_rate": 6.388888888888888e-05, "loss": 0.0085, "step": 490 }, { "epoch": 2.7777777777777777, "grad_norm": 0.06703199446201324, "learning_rate": 6.111111111111112e-05, "loss": 0.0077, "step": 500 }, { "epoch": 2.7777777777777777, "eval_accuracy": 0.766497461928934, "eval_loss": 1.2023228406906128, "eval_runtime": 5.9054, "eval_samples_per_second": 66.719, "eval_steps_per_second": 8.467, "step": 500 }, { "epoch": 2.8333333333333335, "grad_norm": 0.03837073966860771, "learning_rate": 5.833333333333334e-05, "loss": 0.007, "step": 510 }, { "epoch": 2.888888888888889, "grad_norm": 0.031188365072011948, "learning_rate": 5.555555555555556e-05, "loss": 0.0072, "step": 520 }, { "epoch": 2.9444444444444446, "grad_norm": 0.15879875421524048, "learning_rate": 5.305555555555556e-05, "loss": 0.0145, "step": 530 }, { "epoch": 3.0, "grad_norm": 0.051313698291778564, "learning_rate": 5.027777777777778e-05, "loss": 0.0067, "step": 540 }, { "epoch": 3.0555555555555554, "grad_norm": 0.027085309848189354, "learning_rate": 4.75e-05, "loss": 0.0063, "step": 550 }, { "epoch": 3.111111111111111, "grad_norm": 0.02693328447639942, "learning_rate": 4.472222222222223e-05, "loss": 0.0066, "step": 560 }, { "epoch": 3.1666666666666665, "grad_norm": 0.027860965579748154, "learning_rate": 4.194444444444445e-05, "loss": 0.006, "step": 570 }, { "epoch": 3.2222222222222223, "grad_norm": 0.025451989844441414, "learning_rate": 3.9166666666666665e-05, "loss": 0.006, "step": 580 }, { "epoch": 3.2777777777777777, "grad_norm": 0.02524595521390438, "learning_rate": 3.638888888888889e-05, "loss": 0.0059, "step": 590 }, { "epoch": 3.3333333333333335, "grad_norm": 0.02702181413769722, "learning_rate": 3.3611111111111116e-05, "loss": 0.0057, "step": 600 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.7639593908629442, "eval_loss": 1.2470098733901978, "eval_runtime": 5.9411, "eval_samples_per_second": 66.318, "eval_steps_per_second": 8.416, "step": 600 }, { "epoch": 3.388888888888889, "grad_norm": 0.027771031484007835, "learning_rate": 3.0833333333333335e-05, "loss": 0.0057, "step": 610 }, { "epoch": 3.4444444444444446, "grad_norm": 0.02504831738770008, "learning_rate": 2.8055555555555557e-05, "loss": 0.0313, "step": 620 }, { "epoch": 3.5, "grad_norm": 0.027147900313138962, "learning_rate": 2.527777777777778e-05, "loss": 0.0056, "step": 630 }, { "epoch": 3.5555555555555554, "grad_norm": 0.026741115376353264, "learning_rate": 2.25e-05, "loss": 0.0059, "step": 640 }, { "epoch": 3.611111111111111, "grad_norm": 0.05946130305528641, "learning_rate": 1.9722222222222224e-05, "loss": 0.0055, "step": 650 }, { "epoch": 3.6666666666666665, "grad_norm": 0.025428051128983498, "learning_rate": 1.6944444444444446e-05, "loss": 0.0054, "step": 660 }, { "epoch": 3.7222222222222223, "grad_norm": 0.023423248901963234, "learning_rate": 1.4166666666666668e-05, "loss": 0.0053, "step": 670 }, { "epoch": 3.7777777777777777, "grad_norm": 0.023936165496706963, "learning_rate": 1.138888888888889e-05, "loss": 0.0057, "step": 680 }, { "epoch": 3.8333333333333335, "grad_norm": 0.023328222334384918, "learning_rate": 8.611111111111112e-06, "loss": 0.0052, "step": 690 }, { "epoch": 3.888888888888889, "grad_norm": 0.025306882336735725, "learning_rate": 5.833333333333334e-06, "loss": 0.0053, "step": 700 }, { "epoch": 3.888888888888889, "eval_accuracy": 0.7766497461928934, "eval_loss": 1.209647297859192, "eval_runtime": 7.4912, "eval_samples_per_second": 52.595, "eval_steps_per_second": 6.675, "step": 700 }, { "epoch": 3.9444444444444446, "grad_norm": 0.023267222568392754, "learning_rate": 3.0555555555555556e-06, "loss": 0.0057, "step": 710 }, { "epoch": 4.0, "grad_norm": 0.03729303553700447, "learning_rate": 2.777777777777778e-07, "loss": 0.0057, "step": 720 }, { "epoch": 4.0, "step": 720, "total_flos": 8.896239873264845e+17, "train_loss": 0.12508326765770714, "train_runtime": 729.602, "train_samples_per_second": 15.735, "train_steps_per_second": 0.987 } ], "logging_steps": 10, "max_steps": 720, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 100, "total_flos": 8.896239873264845e+17, "train_batch_size": 16, "trial_name": null, "trial_params": null }