{ "best_metric": 1.0935020446777344, "best_model_checkpoint": "./vit-large-brain-xray/checkpoint-200", "epoch": 4.0, "eval_steps": 100, "global_step": 720, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.05555555555555555, "grad_norm": 1.083911657333374, "learning_rate": 0.00019722222222222225, "loss": 1.3206, "step": 10 }, { "epoch": 0.1111111111111111, "grad_norm": 1.5310566425323486, "learning_rate": 0.00019444444444444446, "loss": 0.9361, "step": 20 }, { "epoch": 0.16666666666666666, "grad_norm": 3.7486021518707275, "learning_rate": 0.00019166666666666667, "loss": 0.5999, "step": 30 }, { "epoch": 0.2222222222222222, "grad_norm": 3.448930025100708, "learning_rate": 0.00018888888888888888, "loss": 0.5138, "step": 40 }, { "epoch": 0.2777777777777778, "grad_norm": 1.6228857040405273, "learning_rate": 0.00018611111111111112, "loss": 0.4566, "step": 50 }, { "epoch": 0.3333333333333333, "grad_norm": 2.215758800506592, "learning_rate": 0.00018333333333333334, "loss": 0.4068, "step": 60 }, { "epoch": 0.3888888888888889, "grad_norm": 1.5400978326797485, "learning_rate": 0.00018055555555555557, "loss": 0.3305, "step": 70 }, { "epoch": 0.4444444444444444, "grad_norm": 1.4063529968261719, "learning_rate": 0.00017777777777777779, "loss": 0.4062, "step": 80 }, { "epoch": 0.5, "grad_norm": 0.7729310393333435, "learning_rate": 0.00017527777777777778, "loss": 0.2615, "step": 90 }, { "epoch": 0.5555555555555556, "grad_norm": 6.676679611206055, "learning_rate": 0.00017250000000000002, "loss": 0.2144, "step": 100 }, { "epoch": 0.5555555555555556, "eval_accuracy": 0.6269035532994924, "eval_loss": 1.2678815126419067, "eval_runtime": 7.3748, "eval_samples_per_second": 53.425, "eval_steps_per_second": 6.78, "step": 100 }, { "epoch": 0.6111111111111112, "grad_norm": 1.6695863008499146, "learning_rate": 0.00016972222222222223, "loss": 0.3772, "step": 110 }, { "epoch": 0.6666666666666666, "grad_norm": 0.457354336977005, "learning_rate": 0.00016694444444444447, "loss": 0.261, "step": 120 }, { "epoch": 0.7222222222222222, "grad_norm": 6.663379192352295, "learning_rate": 0.00016416666666666668, "loss": 0.2832, "step": 130 }, { "epoch": 0.7777777777777778, "grad_norm": 0.6463492512702942, "learning_rate": 0.0001613888888888889, "loss": 0.1613, "step": 140 }, { "epoch": 0.8333333333333334, "grad_norm": 5.534128189086914, "learning_rate": 0.0001586111111111111, "loss": 0.452, "step": 150 }, { "epoch": 0.8888888888888888, "grad_norm": 1.487303614616394, "learning_rate": 0.00015583333333333334, "loss": 0.3549, "step": 160 }, { "epoch": 0.9444444444444444, "grad_norm": 8.732577323913574, "learning_rate": 0.00015305555555555556, "loss": 0.26, "step": 170 }, { "epoch": 1.0, "grad_norm": 0.3070247173309326, "learning_rate": 0.0001502777777777778, "loss": 0.1787, "step": 180 }, { "epoch": 1.0555555555555556, "grad_norm": 0.15718808770179749, "learning_rate": 0.0001475, "loss": 0.156, "step": 190 }, { "epoch": 1.1111111111111112, "grad_norm": 1.4413491487503052, "learning_rate": 0.00014472222222222222, "loss": 0.1091, "step": 200 }, { "epoch": 1.1111111111111112, "eval_accuracy": 0.7081218274111675, "eval_loss": 1.0935020446777344, "eval_runtime": 6.8075, "eval_samples_per_second": 57.877, "eval_steps_per_second": 7.345, "step": 200 }, { "epoch": 1.1666666666666667, "grad_norm": 1.1086454391479492, "learning_rate": 0.00014194444444444446, "loss": 0.1243, "step": 210 }, { "epoch": 1.2222222222222223, "grad_norm": 0.09483372420072556, "learning_rate": 0.00013916666666666667, "loss": 0.1712, "step": 220 }, { "epoch": 1.2777777777777777, "grad_norm": 2.7763671875, "learning_rate": 0.0001363888888888889, "loss": 0.2156, "step": 230 }, { "epoch": 1.3333333333333333, "grad_norm": 1.6603256464004517, "learning_rate": 0.00013361111111111112, "loss": 0.1186, "step": 240 }, { "epoch": 1.3888888888888888, "grad_norm": 5.325634479522705, "learning_rate": 0.00013083333333333333, "loss": 0.1065, "step": 250 }, { "epoch": 1.4444444444444444, "grad_norm": 0.07357333600521088, "learning_rate": 0.00012805555555555555, "loss": 0.1192, "step": 260 }, { "epoch": 1.5, "grad_norm": 3.8914055824279785, "learning_rate": 0.00012527777777777778, "loss": 0.0622, "step": 270 }, { "epoch": 1.5555555555555556, "grad_norm": 0.37973469495773315, "learning_rate": 0.00012250000000000002, "loss": 0.2217, "step": 280 }, { "epoch": 1.6111111111111112, "grad_norm": 0.08939097821712494, "learning_rate": 0.00011972222222222222, "loss": 0.1868, "step": 290 }, { "epoch": 1.6666666666666665, "grad_norm": 0.29244643449783325, "learning_rate": 0.00011694444444444446, "loss": 0.1078, "step": 300 }, { "epoch": 1.6666666666666665, "eval_accuracy": 0.7588832487309645, "eval_loss": 1.1237390041351318, "eval_runtime": 6.6691, "eval_samples_per_second": 59.078, "eval_steps_per_second": 7.497, "step": 300 }, { "epoch": 1.7222222222222223, "grad_norm": 2.0514800548553467, "learning_rate": 0.00011416666666666667, "loss": 0.0995, "step": 310 }, { "epoch": 1.7777777777777777, "grad_norm": 0.3739979863166809, "learning_rate": 0.0001113888888888889, "loss": 0.0752, "step": 320 }, { "epoch": 1.8333333333333335, "grad_norm": 0.07262101769447327, "learning_rate": 0.00010861111111111111, "loss": 0.1004, "step": 330 }, { "epoch": 1.8888888888888888, "grad_norm": 1.6550071239471436, "learning_rate": 0.00010583333333333334, "loss": 0.0593, "step": 340 }, { "epoch": 1.9444444444444444, "grad_norm": 1.8396694660186768, "learning_rate": 0.00010305555555555555, "loss": 0.1425, "step": 350 }, { "epoch": 2.0, "grad_norm": 0.061273444443941116, "learning_rate": 0.00010027777777777779, "loss": 0.0944, "step": 360 }, { "epoch": 2.0555555555555554, "grad_norm": 1.0921915769577026, "learning_rate": 9.75e-05, "loss": 0.118, "step": 370 }, { "epoch": 2.111111111111111, "grad_norm": 0.16066594421863556, "learning_rate": 9.472222222222222e-05, "loss": 0.0479, "step": 380 }, { "epoch": 2.1666666666666665, "grad_norm": 0.06149543076753616, "learning_rate": 9.194444444444445e-05, "loss": 0.0161, "step": 390 }, { "epoch": 2.2222222222222223, "grad_norm": 0.10219839215278625, "learning_rate": 8.916666666666667e-05, "loss": 0.016, "step": 400 }, { "epoch": 2.2222222222222223, "eval_accuracy": 0.7563451776649747, "eval_loss": 1.235643982887268, "eval_runtime": 6.0001, "eval_samples_per_second": 65.666, "eval_steps_per_second": 8.333, "step": 400 }, { "epoch": 2.2777777777777777, "grad_norm": 0.36931440234184265, "learning_rate": 8.63888888888889e-05, "loss": 0.0674, "step": 410 }, { "epoch": 2.3333333333333335, "grad_norm": 0.05050282925367355, "learning_rate": 8.361111111111111e-05, "loss": 0.0404, "step": 420 }, { "epoch": 2.388888888888889, "grad_norm": 0.0446784570813179, "learning_rate": 8.083333333333334e-05, "loss": 0.0205, "step": 430 }, { "epoch": 2.4444444444444446, "grad_norm": 0.04102100059390068, "learning_rate": 7.805555555555556e-05, "loss": 0.0207, "step": 440 }, { "epoch": 2.5, "grad_norm": 4.75399112701416, "learning_rate": 7.527777777777777e-05, "loss": 0.0526, "step": 450 }, { "epoch": 2.5555555555555554, "grad_norm": 0.046476561576128006, "learning_rate": 7.25e-05, "loss": 0.0461, "step": 460 }, { "epoch": 2.611111111111111, "grad_norm": 5.1403632164001465, "learning_rate": 6.972222222222223e-05, "loss": 0.0424, "step": 470 }, { "epoch": 2.6666666666666665, "grad_norm": 0.04179733246564865, "learning_rate": 6.694444444444444e-05, "loss": 0.0831, "step": 480 }, { "epoch": 2.7222222222222223, "grad_norm": 0.0394105389714241, "learning_rate": 6.416666666666668e-05, "loss": 0.0102, "step": 490 }, { "epoch": 2.7777777777777777, "grad_norm": 0.039878394454717636, "learning_rate": 6.13888888888889e-05, "loss": 0.0095, "step": 500 }, { "epoch": 2.7777777777777777, "eval_accuracy": 0.7588832487309645, "eval_loss": 1.2315524816513062, "eval_runtime": 6.6635, "eval_samples_per_second": 59.128, "eval_steps_per_second": 7.504, "step": 500 }, { "epoch": 2.8333333333333335, "grad_norm": 3.2955222129821777, "learning_rate": 5.8611111111111114e-05, "loss": 0.0223, "step": 510 }, { "epoch": 2.888888888888889, "grad_norm": 0.03517436608672142, "learning_rate": 5.583333333333334e-05, "loss": 0.0083, "step": 520 }, { "epoch": 2.9444444444444446, "grad_norm": 0.03378378599882126, "learning_rate": 5.305555555555556e-05, "loss": 0.017, "step": 530 }, { "epoch": 3.0, "grad_norm": 0.029930729418992996, "learning_rate": 5.027777777777778e-05, "loss": 0.0076, "step": 540 }, { "epoch": 3.0555555555555554, "grad_norm": 0.030685801059007645, "learning_rate": 4.75e-05, "loss": 0.0082, "step": 550 }, { "epoch": 3.111111111111111, "grad_norm": 0.029904644936323166, "learning_rate": 4.472222222222223e-05, "loss": 0.0073, "step": 560 }, { "epoch": 3.1666666666666665, "grad_norm": 0.02878139540553093, "learning_rate": 4.194444444444445e-05, "loss": 0.0069, "step": 570 }, { "epoch": 3.2222222222222223, "grad_norm": 0.028465483337640762, "learning_rate": 3.9166666666666665e-05, "loss": 0.0067, "step": 580 }, { "epoch": 3.2777777777777777, "grad_norm": 0.026676874607801437, "learning_rate": 3.638888888888889e-05, "loss": 0.0067, "step": 590 }, { "epoch": 3.3333333333333335, "grad_norm": 0.028720058500766754, "learning_rate": 3.3611111111111116e-05, "loss": 0.0066, "step": 600 }, { "epoch": 3.3333333333333335, "eval_accuracy": 0.7588832487309645, "eval_loss": 1.3164998292922974, "eval_runtime": 6.9479, "eval_samples_per_second": 56.707, "eval_steps_per_second": 7.196, "step": 600 }, { "epoch": 3.388888888888889, "grad_norm": 0.030909936875104904, "learning_rate": 3.0833333333333335e-05, "loss": 0.0066, "step": 610 }, { "epoch": 3.4444444444444446, "grad_norm": 0.02741164341568947, "learning_rate": 2.8055555555555557e-05, "loss": 0.0429, "step": 620 }, { "epoch": 3.5, "grad_norm": 0.028826788067817688, "learning_rate": 2.527777777777778e-05, "loss": 0.0079, "step": 630 }, { "epoch": 3.5555555555555554, "grad_norm": 0.02735409140586853, "learning_rate": 2.25e-05, "loss": 0.0066, "step": 640 }, { "epoch": 3.611111111111111, "grad_norm": 0.10283248126506805, "learning_rate": 1.9722222222222224e-05, "loss": 0.0159, "step": 650 }, { "epoch": 3.6666666666666665, "grad_norm": 0.028924111276865005, "learning_rate": 1.6944444444444446e-05, "loss": 0.0064, "step": 660 }, { "epoch": 3.7222222222222223, "grad_norm": 0.025118501856923103, "learning_rate": 1.4166666666666668e-05, "loss": 0.0062, "step": 670 }, { "epoch": 3.7777777777777777, "grad_norm": 0.05767374858260155, "learning_rate": 1.138888888888889e-05, "loss": 0.0065, "step": 680 }, { "epoch": 3.8333333333333335, "grad_norm": 0.0323575958609581, "learning_rate": 8.611111111111112e-06, "loss": 0.0064, "step": 690 }, { "epoch": 3.888888888888889, "grad_norm": 0.026371095329523087, "learning_rate": 5.833333333333334e-06, "loss": 0.0161, "step": 700 }, { "epoch": 3.888888888888889, "eval_accuracy": 0.7614213197969543, "eval_loss": 1.341164469718933, "eval_runtime": 5.8873, "eval_samples_per_second": 66.924, "eval_steps_per_second": 8.493, "step": 700 }, { "epoch": 3.9444444444444446, "grad_norm": 0.025476330891251564, "learning_rate": 3.0555555555555556e-06, "loss": 0.0062, "step": 710 }, { "epoch": 4.0, "grad_norm": 0.041727062314748764, "learning_rate": 2.777777777777778e-07, "loss": 0.0097, "step": 720 }, { "epoch": 4.0, "step": 720, "total_flos": 3.16768696086528e+18, "train_loss": 0.15098576029348704, "train_runtime": 924.305, "train_samples_per_second": 12.42, "train_steps_per_second": 0.779 } ], "logging_steps": 10, "max_steps": 720, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 100, "total_flos": 3.16768696086528e+18, "train_batch_size": 16, "trial_name": null, "trial_params": null }