Evaluation on the test set completed on 2024_11_15.

2e3f7df verified about 1 month ago

36.8 kB

	{
	"best_metric": 0.4637599587440491,
	"best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-from-probs-large-2024_11_15-batch-size64_freeze_probs/checkpoint-7590",
	"epoch": 79.0,
	"eval_steps": 500,
	"global_step": 8690,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_explained_variance": 0.32841917872428894,
	"eval_kl_divergence": 0.10252656042575836,
	"eval_loss": 0.5005590319633484,
	"eval_mae": 0.15520869195461273,
	"eval_rmse": 0.19042611122131348,
	"eval_runtime": 60.5528,
	"eval_samples_per_second": 38.875,
	"eval_steps_per_second": 0.611,
	"learning_rate": 0.001,
	"step": 110
	},
	{
	"epoch": 2.0,
	"eval_explained_variance": 0.3932196795940399,
	"eval_kl_divergence": 0.5180067420005798,
	"eval_loss": 0.47547808289527893,
	"eval_mae": 0.12452296167612076,
	"eval_rmse": 0.16812847554683685,
	"eval_runtime": 57.4976,
	"eval_samples_per_second": 40.941,
	"eval_steps_per_second": 0.644,
	"learning_rate": 0.001,
	"step": 220
	},
	{
	"epoch": 3.0,
	"eval_explained_variance": 0.3974684476852417,
	"eval_kl_divergence": 0.6862403154373169,
	"eval_loss": 0.47452571988105774,
	"eval_mae": 0.1226513460278511,
	"eval_rmse": 0.16751675307750702,
	"eval_runtime": 57.6506,
	"eval_samples_per_second": 40.832,
	"eval_steps_per_second": 0.642,
	"learning_rate": 0.001,
	"step": 330
	},
	{
	"epoch": 4.0,
	"eval_explained_variance": 0.40236756205558777,
	"eval_kl_divergence": 0.3211989104747772,
	"eval_loss": 0.47420722246170044,
	"eval_mae": 0.1255439817905426,
	"eval_rmse": 0.16721709072589874,
	"eval_runtime": 58.0216,
	"eval_samples_per_second": 40.571,
	"eval_steps_per_second": 0.638,
	"learning_rate": 0.001,
	"step": 440
	},
	{
	"epoch": 4.545454545454545,
	"grad_norm": 0.20816726982593536,
	"learning_rate": 0.001,
	"loss": 0.5081,
	"step": 500
	},
	{
	"epoch": 5.0,
	"eval_explained_variance": 0.4118477404117584,
	"eval_kl_divergence": 0.5071600079536438,
	"eval_loss": 0.47245556116104126,
	"eval_mae": 0.12236347794532776,
	"eval_rmse": 0.16526558995246887,
	"eval_runtime": 60.9082,
	"eval_samples_per_second": 38.648,
	"eval_steps_per_second": 0.607,
	"learning_rate": 0.001,
	"step": 550
	},
	{
	"epoch": 6.0,
	"eval_explained_variance": 0.4100535213947296,
	"eval_kl_divergence": 0.6710320115089417,
	"eval_loss": 0.4725925624370575,
	"eval_mae": 0.12164705991744995,
	"eval_rmse": 0.16568797826766968,
	"eval_runtime": 60.266,
	"eval_samples_per_second": 39.06,
	"eval_steps_per_second": 0.614,
	"learning_rate": 0.001,
	"step": 660
	},
	{
	"epoch": 7.0,
	"eval_explained_variance": 0.4183339774608612,
	"eval_kl_divergence": 0.3161657452583313,
	"eval_loss": 0.4731809198856354,
	"eval_mae": 0.12548527121543884,
	"eval_rmse": 0.16550247371196747,
	"eval_runtime": 59.012,
	"eval_samples_per_second": 39.89,
	"eval_steps_per_second": 0.627,
	"learning_rate": 0.001,
	"step": 770
	},
	{
	"epoch": 8.0,
	"eval_explained_variance": 0.4233661890029907,
	"eval_kl_divergence": 0.27189013361930847,
	"eval_loss": 0.47284314036369324,
	"eval_mae": 0.12600405514240265,
	"eval_rmse": 0.16514724493026733,
	"eval_runtime": 60.8246,
	"eval_samples_per_second": 38.701,
	"eval_steps_per_second": 0.608,
	"learning_rate": 0.001,
	"step": 880
	},
	{
	"epoch": 9.0,
	"eval_explained_variance": 0.42370346188545227,
	"eval_kl_divergence": 0.6392844319343567,
	"eval_loss": 0.4707973003387451,
	"eval_mae": 0.12056442350149155,
	"eval_rmse": 0.16385647654533386,
	"eval_runtime": 57.5192,
	"eval_samples_per_second": 40.925,
	"eval_steps_per_second": 0.643,
	"learning_rate": 0.001,
	"step": 990
	},
	{
	"epoch": 9.090909090909092,
	"grad_norm": 0.15108729898929596,
	"learning_rate": 0.001,
	"loss": 0.4668,
	"step": 1000
	},
	{
	"epoch": 10.0,
	"eval_explained_variance": 0.41512250900268555,
	"eval_kl_divergence": 0.5359246134757996,
	"eval_loss": 0.4732784628868103,
	"eval_mae": 0.12296172976493835,
	"eval_rmse": 0.16544467210769653,
	"eval_runtime": 60.8049,
	"eval_samples_per_second": 38.714,
	"eval_steps_per_second": 0.609,
	"learning_rate": 0.001,
	"step": 1100
	},
	{
	"epoch": 11.0,
	"eval_explained_variance": 0.43050625920295715,
	"eval_kl_divergence": 0.24788798391819,
	"eval_loss": 0.47162503004074097,
	"eval_mae": 0.12532271444797516,
	"eval_rmse": 0.1646868884563446,
	"eval_runtime": 59.6353,
	"eval_samples_per_second": 39.473,
	"eval_steps_per_second": 0.62,
	"learning_rate": 0.001,
	"step": 1210
	},
	{
	"epoch": 12.0,
	"eval_explained_variance": 0.43575945496559143,
	"eval_kl_divergence": 0.3118789792060852,
	"eval_loss": 0.47083696722984314,
	"eval_mae": 0.12438095360994339,
	"eval_rmse": 0.16306261718273163,
	"eval_runtime": 59.6011,
	"eval_samples_per_second": 39.496,
	"eval_steps_per_second": 0.621,
	"learning_rate": 0.001,
	"step": 1320
	},
	{
	"epoch": 13.0,
	"eval_explained_variance": 0.42740270495414734,
	"eval_kl_divergence": 0.36944085359573364,
	"eval_loss": 0.47152063250541687,
	"eval_mae": 0.1230199933052063,
	"eval_rmse": 0.16350014507770538,
	"eval_runtime": 60.519,
	"eval_samples_per_second": 38.897,
	"eval_steps_per_second": 0.611,
	"learning_rate": 0.001,
	"step": 1430
	},
	{
	"epoch": 13.636363636363637,
	"grad_norm": 0.1494702696800232,
	"learning_rate": 0.001,
	"loss": 0.4641,
	"step": 1500
	},
	{
	"epoch": 14.0,
	"eval_explained_variance": 0.41340962052345276,
	"eval_kl_divergence": 0.5592221617698669,
	"eval_loss": 0.47212228178977966,
	"eval_mae": 0.12158066779375076,
	"eval_rmse": 0.16525773704051971,
	"eval_runtime": 59.2288,
	"eval_samples_per_second": 39.744,
	"eval_steps_per_second": 0.625,
	"learning_rate": 0.001,
	"step": 1540
	},
	{
	"epoch": 15.0,
	"eval_explained_variance": 0.43138065934181213,
	"eval_kl_divergence": 0.49361512064933777,
	"eval_loss": 0.47012239694595337,
	"eval_mae": 0.12126541882753372,
	"eval_rmse": 0.16284985840320587,
	"eval_runtime": 61.7909,
	"eval_samples_per_second": 38.096,
	"eval_steps_per_second": 0.599,
	"learning_rate": 0.001,
	"step": 1650
	},
	{
	"epoch": 16.0,
	"eval_explained_variance": 0.43279382586479187,
	"eval_kl_divergence": 0.2819983661174774,
	"eval_loss": 0.4718552827835083,
	"eval_mae": 0.12293669581413269,
	"eval_rmse": 0.16459016501903534,
	"eval_runtime": 59.5152,
	"eval_samples_per_second": 39.553,
	"eval_steps_per_second": 0.622,
	"learning_rate": 0.001,
	"step": 1760
	},
	{
	"epoch": 17.0,
	"eval_explained_variance": 0.43319597840309143,
	"eval_kl_divergence": 0.5294199585914612,
	"eval_loss": 0.46933484077453613,
	"eval_mae": 0.12004240602254868,
	"eval_rmse": 0.16205951571464539,
	"eval_runtime": 59.464,
	"eval_samples_per_second": 39.587,
	"eval_steps_per_second": 0.622,
	"learning_rate": 0.001,
	"step": 1870
	},
	{
	"epoch": 18.0,
	"eval_explained_variance": 0.42939844727516174,
	"eval_kl_divergence": 0.4093473255634308,
	"eval_loss": 0.4710436165332794,
	"eval_mae": 0.12161851674318314,
	"eval_rmse": 0.16353638470172882,
	"eval_runtime": 60.82,
	"eval_samples_per_second": 38.704,
	"eval_steps_per_second": 0.608,
	"learning_rate": 0.001,
	"step": 1980
	},
	{
	"epoch": 18.181818181818183,
	"grad_norm": 0.11152761429548264,
	"learning_rate": 0.001,
	"loss": 0.4618,
	"step": 2000
	},
	{
	"epoch": 19.0,
	"eval_explained_variance": 0.4387861490249634,
	"eval_kl_divergence": 0.29183313250541687,
	"eval_loss": 0.4698491394519806,
	"eval_mae": 0.12186750769615173,
	"eval_rmse": 0.16223199665546417,
	"eval_runtime": 62.7122,
	"eval_samples_per_second": 37.537,
	"eval_steps_per_second": 0.59,
	"learning_rate": 0.001,
	"step": 2090
	},
	{
	"epoch": 20.0,
	"eval_explained_variance": 0.4355180561542511,
	"eval_kl_divergence": 0.47719886898994446,
	"eval_loss": 0.4691685736179352,
	"eval_mae": 0.11899092048406601,
	"eval_rmse": 0.16173695027828217,
	"eval_runtime": 60.1867,
	"eval_samples_per_second": 39.112,
	"eval_steps_per_second": 0.615,
	"learning_rate": 0.001,
	"step": 2200
	},
	{
	"epoch": 21.0,
	"eval_explained_variance": 0.44244399666786194,
	"eval_kl_divergence": 0.4335584044456482,
	"eval_loss": 0.46830564737319946,
	"eval_mae": 0.12040043622255325,
	"eval_rmse": 0.16058459877967834,
	"eval_runtime": 59.7866,
	"eval_samples_per_second": 39.373,
	"eval_steps_per_second": 0.619,
	"learning_rate": 0.001,
	"step": 2310
	},
	{
	"epoch": 22.0,
	"eval_explained_variance": 0.4233216345310211,
	"eval_kl_divergence": 0.7962150573730469,
	"eval_loss": 0.47239789366722107,
	"eval_mae": 0.11830935627222061,
	"eval_rmse": 0.16501490771770477,
	"eval_runtime": 62.1424,
	"eval_samples_per_second": 37.881,
	"eval_steps_per_second": 0.595,
	"learning_rate": 0.001,
	"step": 2420
	},
	{
	"epoch": 22.727272727272727,
	"grad_norm": 0.10114327073097229,
	"learning_rate": 0.001,
	"loss": 0.4613,
	"step": 2500
	},
	{
	"epoch": 23.0,
	"eval_explained_variance": 0.43542811274528503,
	"eval_kl_divergence": 0.2854216396808624,
	"eval_loss": 0.47136834263801575,
	"eval_mae": 0.12230511754751205,
	"eval_rmse": 0.16408009827136993,
	"eval_runtime": 61.631,
	"eval_samples_per_second": 38.195,
	"eval_steps_per_second": 0.6,
	"learning_rate": 0.001,
	"step": 2530
	},
	{
	"epoch": 24.0,
	"eval_explained_variance": 0.42795756459236145,
	"eval_kl_divergence": 0.42056405544281006,
	"eval_loss": 0.4706868529319763,
	"eval_mae": 0.12066368013620377,
	"eval_rmse": 0.16326285898685455,
	"eval_runtime": 61.2844,
	"eval_samples_per_second": 38.411,
	"eval_steps_per_second": 0.604,
	"learning_rate": 0.001,
	"step": 2640
	},
	{
	"epoch": 25.0,
	"eval_explained_variance": 0.44159284234046936,
	"eval_kl_divergence": 0.5435640811920166,
	"eval_loss": 0.46786901354789734,
	"eval_mae": 0.11850475519895554,
	"eval_rmse": 0.16058622300624847,
	"eval_runtime": 61.9284,
	"eval_samples_per_second": 38.012,
	"eval_steps_per_second": 0.597,
	"learning_rate": 0.001,
	"step": 2750
	},
	{
	"epoch": 26.0,
	"eval_explained_variance": 0.4267805814743042,
	"eval_kl_divergence": 0.4964081943035126,
	"eval_loss": 0.47084224224090576,
	"eval_mae": 0.11923620104789734,
	"eval_rmse": 0.16337566077709198,
	"eval_runtime": 66.0163,
	"eval_samples_per_second": 35.658,
	"eval_steps_per_second": 0.56,
	"learning_rate": 0.001,
	"step": 2860
	},
	{
	"epoch": 27.0,
	"eval_explained_variance": 0.43011048436164856,
	"eval_kl_divergence": 0.6398861408233643,
	"eval_loss": 0.4695045053958893,
	"eval_mae": 0.11852020025253296,
	"eval_rmse": 0.16250041127204895,
	"eval_runtime": 60.9743,
	"eval_samples_per_second": 38.606,
	"eval_steps_per_second": 0.607,
	"learning_rate": 0.001,
	"step": 2970
	},
	{
	"epoch": 27.272727272727273,
	"grad_norm": 0.12341216951608658,
	"learning_rate": 0.001,
	"loss": 0.4607,
	"step": 3000
	},
	{
	"epoch": 28.0,
	"eval_explained_variance": 0.43241068720817566,
	"eval_kl_divergence": 0.5736985206604004,
	"eval_loss": 0.4700873792171478,
	"eval_mae": 0.11835578829050064,
	"eval_rmse": 0.16237075626850128,
	"eval_runtime": 60.2395,
	"eval_samples_per_second": 39.077,
	"eval_steps_per_second": 0.614,
	"learning_rate": 0.001,
	"step": 3080
	},
	{
	"epoch": 29.0,
	"eval_explained_variance": 0.43240413069725037,
	"eval_kl_divergence": 0.4459187090396881,
	"eval_loss": 0.4698559045791626,
	"eval_mae": 0.1200462281703949,
	"eval_rmse": 0.16241396963596344,
	"eval_runtime": 59.6241,
	"eval_samples_per_second": 39.481,
	"eval_steps_per_second": 0.621,
	"learning_rate": 0.001,
	"step": 3190
	},
	{
	"epoch": 30.0,
	"eval_explained_variance": 0.4308302402496338,
	"eval_kl_divergence": 0.27262812852859497,
	"eval_loss": 0.4722815454006195,
	"eval_mae": 0.12538868188858032,
	"eval_rmse": 0.1643446981906891,
	"eval_runtime": 60.4817,
	"eval_samples_per_second": 38.921,
	"eval_steps_per_second": 0.612,
	"learning_rate": 0.001,
	"step": 3300
	},
	{
	"epoch": 31.0,
	"eval_explained_variance": 0.431255966424942,
	"eval_kl_divergence": 0.5307573080062866,
	"eval_loss": 0.46958214044570923,
	"eval_mae": 0.11837340146303177,
	"eval_rmse": 0.16221857070922852,
	"eval_runtime": 59.6158,
	"eval_samples_per_second": 39.486,
	"eval_steps_per_second": 0.621,
	"learning_rate": 0.001,
	"step": 3410
	},
	{
	"epoch": 31.818181818181817,
	"grad_norm": 0.09215673804283142,
	"learning_rate": 0.0001,
	"loss": 0.4604,
	"step": 3500
	},
	{
	"epoch": 32.0,
	"eval_explained_variance": 0.4507780075073242,
	"eval_kl_divergence": 0.4200185239315033,
	"eval_loss": 0.46677276492118835,
	"eval_mae": 0.11745267361402512,
	"eval_rmse": 0.1592676192522049,
	"eval_runtime": 59.8038,
	"eval_samples_per_second": 39.362,
	"eval_steps_per_second": 0.619,
	"learning_rate": 0.0001,
	"step": 3520
	},
	{
	"epoch": 33.0,
	"eval_explained_variance": 0.4565463066101074,
	"eval_kl_divergence": 0.35289108753204346,
	"eval_loss": 0.46626824140548706,
	"eval_mae": 0.11769836395978928,
	"eval_rmse": 0.1586667150259018,
	"eval_runtime": 63.0473,
	"eval_samples_per_second": 37.337,
	"eval_steps_per_second": 0.587,
	"learning_rate": 0.0001,
	"step": 3630
	},
	{
	"epoch": 34.0,
	"eval_explained_variance": 0.4541673958301544,
	"eval_kl_divergence": 0.3587631583213806,
	"eval_loss": 0.46665358543395996,
	"eval_mae": 0.1181267499923706,
	"eval_rmse": 0.15922589600086212,
	"eval_runtime": 58.0806,
	"eval_samples_per_second": 40.53,
	"eval_steps_per_second": 0.637,
	"learning_rate": 0.0001,
	"step": 3740
	},
	{
	"epoch": 35.0,
	"eval_explained_variance": 0.4545403718948364,
	"eval_kl_divergence": 0.4813242256641388,
	"eval_loss": 0.46587392687797546,
	"eval_mae": 0.11597732454538345,
	"eval_rmse": 0.15844957530498505,
	"eval_runtime": 59.5027,
	"eval_samples_per_second": 39.561,
	"eval_steps_per_second": 0.622,
	"learning_rate": 0.0001,
	"step": 3850
	},
	{
	"epoch": 36.0,
	"eval_explained_variance": 0.45941615104675293,
	"eval_kl_divergence": 0.3503873348236084,
	"eval_loss": 0.46578526496887207,
	"eval_mae": 0.11725542694330215,
	"eval_rmse": 0.15814347565174103,
	"eval_runtime": 60.095,
	"eval_samples_per_second": 39.171,
	"eval_steps_per_second": 0.616,
	"learning_rate": 0.0001,
	"step": 3960
	},
	{
	"epoch": 36.36363636363637,
	"grad_norm": 0.08345460891723633,
	"learning_rate": 0.0001,
	"loss": 0.4565,
	"step": 4000
	},
	{
	"epoch": 37.0,
	"eval_explained_variance": 0.4607694149017334,
	"eval_kl_divergence": 0.39189669489860535,
	"eval_loss": 0.4654408395290375,
	"eval_mae": 0.11584330350160599,
	"eval_rmse": 0.1577824205160141,
	"eval_runtime": 58.734,
	"eval_samples_per_second": 40.079,
	"eval_steps_per_second": 0.63,
	"learning_rate": 0.0001,
	"step": 4070
	},
	{
	"epoch": 38.0,
	"eval_explained_variance": 0.45832768082618713,
	"eval_kl_divergence": 0.40583303570747375,
	"eval_loss": 0.46546319127082825,
	"eval_mae": 0.1166045293211937,
	"eval_rmse": 0.15796954929828644,
	"eval_runtime": 58.3156,
	"eval_samples_per_second": 40.367,
	"eval_steps_per_second": 0.634,
	"learning_rate": 0.0001,
	"step": 4180
	},
	{
	"epoch": 39.0,
	"eval_explained_variance": 0.45672306418418884,
	"eval_kl_divergence": 0.4117860198020935,
	"eval_loss": 0.465843141078949,
	"eval_mae": 0.11737682670354843,
	"eval_rmse": 0.15845851600170135,
	"eval_runtime": 59.8584,
	"eval_samples_per_second": 39.326,
	"eval_steps_per_second": 0.618,
	"learning_rate": 0.0001,
	"step": 4290
	},
	{
	"epoch": 40.0,
	"eval_explained_variance": 0.4607222080230713,
	"eval_kl_divergence": 0.3563988506793976,
	"eval_loss": 0.46561121940612793,
	"eval_mae": 0.11697889119386673,
	"eval_rmse": 0.15787295997142792,
	"eval_runtime": 61.3479,
	"eval_samples_per_second": 38.371,
	"eval_steps_per_second": 0.603,
	"learning_rate": 0.0001,
	"step": 4400
	},
	{
	"epoch": 40.90909090909091,
	"grad_norm": 0.08773978799581528,
	"learning_rate": 0.0001,
	"loss": 0.4552,
	"step": 4500
	},
	{
	"epoch": 41.0,
	"eval_explained_variance": 0.45979323983192444,
	"eval_kl_divergence": 0.3572520911693573,
	"eval_loss": 0.4657152593135834,
	"eval_mae": 0.11711093783378601,
	"eval_rmse": 0.15820421278476715,
	"eval_runtime": 57.6839,
	"eval_samples_per_second": 40.809,
	"eval_steps_per_second": 0.641,
	"learning_rate": 0.0001,
	"step": 4510
	},
	{
	"epoch": 42.0,
	"eval_explained_variance": 0.45867350697517395,
	"eval_kl_divergence": 0.5041557550430298,
	"eval_loss": 0.4651602804660797,
	"eval_mae": 0.11550069600343704,
	"eval_rmse": 0.15786336362361908,
	"eval_runtime": 56.8293,
	"eval_samples_per_second": 41.422,
	"eval_steps_per_second": 0.651,
	"learning_rate": 0.0001,
	"step": 4620
	},
	{
	"epoch": 43.0,
	"eval_explained_variance": 0.4612714946269989,
	"eval_kl_divergence": 0.44621211290359497,
	"eval_loss": 0.4651065468788147,
	"eval_mae": 0.11574172228574753,
	"eval_rmse": 0.15747833251953125,
	"eval_runtime": 57.1474,
	"eval_samples_per_second": 41.192,
	"eval_steps_per_second": 0.647,
	"learning_rate": 0.0001,
	"step": 4730
	},
	{
	"epoch": 44.0,
	"eval_explained_variance": 0.4603614807128906,
	"eval_kl_divergence": 0.4236082434654236,
	"eval_loss": 0.46537330746650696,
	"eval_mae": 0.11658215522766113,
	"eval_rmse": 0.15792043507099152,
	"eval_runtime": 55.8584,
	"eval_samples_per_second": 42.142,
	"eval_steps_per_second": 0.662,
	"learning_rate": 0.0001,
	"step": 4840
	},
	{
	"epoch": 45.0,
	"eval_explained_variance": 0.46250852942466736,
	"eval_kl_divergence": 0.45096999406814575,
	"eval_loss": 0.46489208936691284,
	"eval_mae": 0.11505404114723206,
	"eval_rmse": 0.15738531947135925,
	"eval_runtime": 55.5313,
	"eval_samples_per_second": 42.391,
	"eval_steps_per_second": 0.666,
	"learning_rate": 0.0001,
	"step": 4950
	},
	{
	"epoch": 45.45454545454545,
	"grad_norm": 0.08461819589138031,
	"learning_rate": 0.0001,
	"loss": 0.4538,
	"step": 5000
	},
	{
	"epoch": 46.0,
	"eval_explained_variance": 0.46191954612731934,
	"eval_kl_divergence": 0.44900697469711304,
	"eval_loss": 0.46484702825546265,
	"eval_mae": 0.11566606909036636,
	"eval_rmse": 0.15745492279529572,
	"eval_runtime": 56.8805,
	"eval_samples_per_second": 41.385,
	"eval_steps_per_second": 0.65,
	"learning_rate": 0.0001,
	"step": 5060
	},
	{
	"epoch": 47.0,
	"eval_explained_variance": 0.46148741245269775,
	"eval_kl_divergence": 0.47508490085601807,
	"eval_loss": 0.4648602306842804,
	"eval_mae": 0.11517279595136642,
	"eval_rmse": 0.1574285626411438,
	"eval_runtime": 56.4955,
	"eval_samples_per_second": 41.667,
	"eval_steps_per_second": 0.655,
	"learning_rate": 0.0001,
	"step": 5170
	},
	{
	"epoch": 48.0,
	"eval_explained_variance": 0.4631068706512451,
	"eval_kl_divergence": 0.5305130481719971,
	"eval_loss": 0.4647873342037201,
	"eval_mae": 0.11513545364141464,
	"eval_rmse": 0.15746952593326569,
	"eval_runtime": 59.054,
	"eval_samples_per_second": 39.862,
	"eval_steps_per_second": 0.627,
	"learning_rate": 0.0001,
	"step": 5280
	},
	{
	"epoch": 49.0,
	"eval_explained_variance": 0.46304425597190857,
	"eval_kl_divergence": 0.4798574149608612,
	"eval_loss": 0.4647849500179291,
	"eval_mae": 0.11539488285779953,
	"eval_rmse": 0.1573745161294937,
	"eval_runtime": 54.2646,
	"eval_samples_per_second": 43.38,
	"eval_steps_per_second": 0.682,
	"learning_rate": 0.0001,
	"step": 5390
	},
	{
	"epoch": 50.0,
	"grad_norm": 0.16299596428871155,
	"learning_rate": 0.0001,
	"loss": 0.4532,
	"step": 5500
	},
	{
	"epoch": 50.0,
	"eval_explained_variance": 0.4693569839000702,
	"eval_kl_divergence": 0.2825404107570648,
	"eval_loss": 0.46499085426330566,
	"eval_mae": 0.1172276958823204,
	"eval_rmse": 0.15717318654060364,
	"eval_runtime": 56.0282,
	"eval_samples_per_second": 42.015,
	"eval_steps_per_second": 0.66,
	"learning_rate": 0.0001,
	"step": 5500
	},
	{
	"epoch": 51.0,
	"eval_explained_variance": 0.4573368728160858,
	"eval_kl_divergence": 0.48794299364089966,
	"eval_loss": 0.465638667345047,
	"eval_mae": 0.11509021371603012,
	"eval_rmse": 0.15819959342479706,
	"eval_runtime": 52.7895,
	"eval_samples_per_second": 44.592,
	"eval_steps_per_second": 0.701,
	"learning_rate": 0.0001,
	"step": 5610
	},
	{
	"epoch": 52.0,
	"eval_explained_variance": 0.4673852026462555,
	"eval_kl_divergence": 0.41987907886505127,
	"eval_loss": 0.46429532766342163,
	"eval_mae": 0.11551753431558609,
	"eval_rmse": 0.15662376582622528,
	"eval_runtime": 54.5816,
	"eval_samples_per_second": 43.128,
	"eval_steps_per_second": 0.678,
	"learning_rate": 0.0001,
	"step": 5720
	},
	{
	"epoch": 53.0,
	"eval_explained_variance": 0.4672771692276001,
	"eval_kl_divergence": 0.3879646956920624,
	"eval_loss": 0.46441230177879333,
	"eval_mae": 0.1155916228890419,
	"eval_rmse": 0.1568875014781952,
	"eval_runtime": 53.5146,
	"eval_samples_per_second": 43.988,
	"eval_steps_per_second": 0.691,
	"learning_rate": 0.0001,
	"step": 5830
	},
	{
	"epoch": 54.0,
	"eval_explained_variance": 0.4654136002063751,
	"eval_kl_divergence": 0.42290592193603516,
	"eval_loss": 0.4646008610725403,
	"eval_mae": 0.11479470133781433,
	"eval_rmse": 0.1569375991821289,
	"eval_runtime": 53.8924,
	"eval_samples_per_second": 43.68,
	"eval_steps_per_second": 0.687,
	"learning_rate": 0.0001,
	"step": 5940
	},
	{
	"epoch": 54.54545454545455,
	"grad_norm": 0.08747697621583939,
	"learning_rate": 0.0001,
	"loss": 0.4526,
	"step": 6000
	},
	{
	"epoch": 55.0,
	"eval_explained_variance": 0.4658801555633545,
	"eval_kl_divergence": 0.40089842677116394,
	"eval_loss": 0.4644174873828888,
	"eval_mae": 0.11586496233940125,
	"eval_rmse": 0.156887486577034,
	"eval_runtime": 54.8967,
	"eval_samples_per_second": 42.881,
	"eval_steps_per_second": 0.674,
	"learning_rate": 0.0001,
	"step": 6050
	},
	{
	"epoch": 56.0,
	"eval_explained_variance": 0.46597158908843994,
	"eval_kl_divergence": 0.34050217270851135,
	"eval_loss": 0.464743047952652,
	"eval_mae": 0.11636239290237427,
	"eval_rmse": 0.15719135105609894,
	"eval_runtime": 53.8695,
	"eval_samples_per_second": 43.698,
	"eval_steps_per_second": 0.687,
	"learning_rate": 0.0001,
	"step": 6160
	},
	{
	"epoch": 57.0,
	"eval_explained_variance": 0.4660731554031372,
	"eval_kl_divergence": 0.4187561571598053,
	"eval_loss": 0.4645179808139801,
	"eval_mae": 0.11523237824440002,
	"eval_rmse": 0.1568503975868225,
	"eval_runtime": 52.6832,
	"eval_samples_per_second": 44.682,
	"eval_steps_per_second": 0.702,
	"learning_rate": 0.0001,
	"step": 6270
	},
	{
	"epoch": 58.0,
	"eval_explained_variance": 0.4659406840801239,
	"eval_kl_divergence": 0.3079023063182831,
	"eval_loss": 0.465102881193161,
	"eval_mae": 0.11637380719184875,
	"eval_rmse": 0.15757356584072113,
	"eval_runtime": 53.7708,
	"eval_samples_per_second": 43.778,
	"eval_steps_per_second": 0.688,
	"learning_rate": 0.0001,
	"step": 6380
	},
	{
	"epoch": 59.0,
	"eval_explained_variance": 0.46542713046073914,
	"eval_kl_divergence": 0.43387478590011597,
	"eval_loss": 0.4644688367843628,
	"eval_mae": 0.11504218727350235,
	"eval_rmse": 0.15699030458927155,
	"eval_runtime": 54.251,
	"eval_samples_per_second": 43.391,
	"eval_steps_per_second": 0.682,
	"learning_rate": 1e-05,
	"step": 6490
	},
	{
	"epoch": 59.09090909090909,
	"grad_norm": 0.09869211912155151,
	"learning_rate": 1e-05,
	"loss": 0.4514,
	"step": 6500
	},
	{
	"epoch": 60.0,
	"eval_explained_variance": 0.4679425060749054,
	"eval_kl_divergence": 0.38936442136764526,
	"eval_loss": 0.46417686343193054,
	"eval_mae": 0.11504556983709335,
	"eval_rmse": 0.1565857082605362,
	"eval_runtime": 53.3994,
	"eval_samples_per_second": 44.083,
	"eval_steps_per_second": 0.693,
	"learning_rate": 1e-05,
	"step": 6600
	},
	{
	"epoch": 61.0,
	"eval_explained_variance": 0.4692780673503876,
	"eval_kl_divergence": 0.4144607186317444,
	"eval_loss": 0.4639436900615692,
	"eval_mae": 0.11456633359193802,
	"eval_rmse": 0.15632741153240204,
	"eval_runtime": 53.948,
	"eval_samples_per_second": 43.635,
	"eval_steps_per_second": 0.686,
	"learning_rate": 1e-05,
	"step": 6710
	},
	{
	"epoch": 62.0,
	"eval_explained_variance": 0.46859118342399597,
	"eval_kl_divergence": 0.4063835144042969,
	"eval_loss": 0.4641311764717102,
	"eval_mae": 0.11482342332601547,
	"eval_rmse": 0.15648160874843597,
	"eval_runtime": 53.1646,
	"eval_samples_per_second": 44.278,
	"eval_steps_per_second": 0.696,
	"learning_rate": 1e-05,
	"step": 6820
	},
	{
	"epoch": 63.0,
	"eval_explained_variance": 0.4698045253753662,
	"eval_kl_divergence": 0.35424694418907166,
	"eval_loss": 0.4643491506576538,
	"eval_mae": 0.11492928117513657,
	"eval_rmse": 0.15652996301651,
	"eval_runtime": 61.9895,
	"eval_samples_per_second": 37.974,
	"eval_steps_per_second": 0.597,
	"learning_rate": 1e-05,
	"step": 6930
	},
	{
	"epoch": 63.63636363636363,
	"grad_norm": 0.12132851779460907,
	"learning_rate": 1e-05,
	"loss": 0.4511,
	"step": 7000
	},
	{
	"epoch": 64.0,
	"eval_explained_variance": 0.4702436923980713,
	"eval_kl_divergence": 0.37175947427749634,
	"eval_loss": 0.46402981877326965,
	"eval_mae": 0.11502394080162048,
	"eval_rmse": 0.1563546359539032,
	"eval_runtime": 55.6273,
	"eval_samples_per_second": 42.317,
	"eval_steps_per_second": 0.665,
	"learning_rate": 1e-05,
	"step": 7040
	},
	{
	"epoch": 65.0,
	"eval_explained_variance": 0.46799585223197937,
	"eval_kl_divergence": 0.41278746724128723,
	"eval_loss": 0.4640822410583496,
	"eval_mae": 0.11517596989870071,
	"eval_rmse": 0.1565382480621338,
	"eval_runtime": 60.037,
	"eval_samples_per_second": 39.209,
	"eval_steps_per_second": 0.616,
	"learning_rate": 1e-05,
	"step": 7150
	},
	{
	"epoch": 66.0,
	"eval_explained_variance": 0.46580052375793457,
	"eval_kl_divergence": 0.4987623989582062,
	"eval_loss": 0.46441909670829773,
	"eval_mae": 0.11446693539619446,
	"eval_rmse": 0.15703582763671875,
	"eval_runtime": 58.422,
	"eval_samples_per_second": 40.293,
	"eval_steps_per_second": 0.633,
	"learning_rate": 1e-05,
	"step": 7260
	},
	{
	"epoch": 67.0,
	"eval_explained_variance": 0.4696963131427765,
	"eval_kl_divergence": 0.41221925616264343,
	"eval_loss": 0.46383005380630493,
	"eval_mae": 0.11511614173650742,
	"eval_rmse": 0.15620578825473785,
	"eval_runtime": 57.3857,
	"eval_samples_per_second": 41.021,
	"eval_steps_per_second": 0.645,
	"learning_rate": 1e-05,
	"step": 7370
	},
	{
	"epoch": 68.0,
	"eval_explained_variance": 0.4673812687397003,
	"eval_kl_divergence": 0.4579189419746399,
	"eval_loss": 0.4639807641506195,
	"eval_mae": 0.11436697095632553,
	"eval_rmse": 0.15645776689052582,
	"eval_runtime": 58.7335,
	"eval_samples_per_second": 40.079,
	"eval_steps_per_second": 0.63,
	"learning_rate": 1e-05,
	"step": 7480
	},
	{
	"epoch": 68.18181818181819,
	"grad_norm": 0.15623362362384796,
	"learning_rate": 1e-05,
	"loss": 0.4508,
	"step": 7500
	},
	{
	"epoch": 69.0,
	"eval_explained_variance": 0.4701990783214569,
	"eval_kl_divergence": 0.4197009801864624,
	"eval_loss": 0.4637599587440491,
	"eval_mae": 0.11433341354131699,
	"eval_rmse": 0.15607893466949463,
	"eval_runtime": 56.4381,
	"eval_samples_per_second": 41.709,
	"eval_steps_per_second": 0.656,
	"learning_rate": 1e-05,
	"step": 7590
	},
	{
	"epoch": 70.0,
	"eval_explained_variance": 0.46952661871910095,
	"eval_kl_divergence": 0.4285525679588318,
	"eval_loss": 0.46392253041267395,
	"eval_mae": 0.11449825018644333,
	"eval_rmse": 0.15625734627246857,
	"eval_runtime": 59.9257,
	"eval_samples_per_second": 39.282,
	"eval_steps_per_second": 0.617,
	"learning_rate": 1e-05,
	"step": 7700
	},
	{
	"epoch": 71.0,
	"eval_explained_variance": 0.4707754850387573,
	"eval_kl_divergence": 0.3542197048664093,
	"eval_loss": 0.46406444907188416,
	"eval_mae": 0.11525753885507584,
	"eval_rmse": 0.1563321352005005,
	"eval_runtime": 56.6326,
	"eval_samples_per_second": 41.566,
	"eval_steps_per_second": 0.653,
	"learning_rate": 1e-05,
	"step": 7810
	},
	{
	"epoch": 72.0,
	"eval_explained_variance": 0.4681284427642822,
	"eval_kl_divergence": 0.42497748136520386,
	"eval_loss": 0.46417826414108276,
	"eval_mae": 0.11474020034074783,
	"eval_rmse": 0.15662290155887604,
	"eval_runtime": 56.0497,
	"eval_samples_per_second": 41.998,
	"eval_steps_per_second": 0.66,
	"learning_rate": 1e-05,
	"step": 7920
	},
	{
	"epoch": 72.72727272727273,
	"grad_norm": 0.12685681879520416,
	"learning_rate": 1e-05,
	"loss": 0.4505,
	"step": 8000
	},
	{
	"epoch": 73.0,
	"eval_explained_variance": 0.47002461552619934,
	"eval_kl_divergence": 0.43972158432006836,
	"eval_loss": 0.4637835919857025,
	"eval_mae": 0.11403892189264297,
	"eval_rmse": 0.15611138939857483,
	"eval_runtime": 55.8354,
	"eval_samples_per_second": 42.16,
	"eval_steps_per_second": 0.663,
	"learning_rate": 1e-05,
	"step": 8030
	},
	{
	"epoch": 74.0,
	"eval_explained_variance": 0.4689449369907379,
	"eval_kl_divergence": 0.443666011095047,
	"eval_loss": 0.463798850774765,
	"eval_mae": 0.1145407184958458,
	"eval_rmse": 0.15625973045825958,
	"eval_runtime": 56.7357,
	"eval_samples_per_second": 41.491,
	"eval_steps_per_second": 0.652,
	"learning_rate": 1e-05,
	"step": 8140
	},
	{
	"epoch": 75.0,
	"eval_explained_variance": 0.4704826772212982,
	"eval_kl_divergence": 0.4049000144004822,
	"eval_loss": 0.46379053592681885,
	"eval_mae": 0.11447467654943466,
	"eval_rmse": 0.15613143146038055,
	"eval_runtime": 56.7932,
	"eval_samples_per_second": 41.449,
	"eval_steps_per_second": 0.651,
	"learning_rate": 1e-05,
	"step": 8250
	},
	{
	"epoch": 76.0,
	"eval_explained_variance": 0.4674541652202606,
	"eval_kl_divergence": 0.49260592460632324,
	"eval_loss": 0.4639701247215271,
	"eval_mae": 0.11414843797683716,
	"eval_rmse": 0.15647520124912262,
	"eval_runtime": 57.4638,
	"eval_samples_per_second": 40.965,
	"eval_steps_per_second": 0.644,
	"learning_rate": 1.0000000000000002e-06,
	"step": 8360
	},
	{
	"epoch": 77.0,
	"eval_explained_variance": 0.469455748796463,
	"eval_kl_divergence": 0.44272491335868835,
	"eval_loss": 0.463869571685791,
	"eval_mae": 0.11419638991355896,
	"eval_rmse": 0.15622590482234955,
	"eval_runtime": 57.5968,
	"eval_samples_per_second": 40.87,
	"eval_steps_per_second": 0.642,
	"learning_rate": 1.0000000000000002e-06,
	"step": 8470
	},
	{
	"epoch": 77.27272727272727,
	"grad_norm": 0.11736844480037689,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4505,
	"step": 8500
	},
	{
	"epoch": 78.0,
	"eval_explained_variance": 0.4691663682460785,
	"eval_kl_divergence": 0.42925453186035156,
	"eval_loss": 0.46388140320777893,
	"eval_mae": 0.1144518032670021,
	"eval_rmse": 0.1562517285346985,
	"eval_runtime": 55.8876,
	"eval_samples_per_second": 42.12,
	"eval_steps_per_second": 0.662,
	"learning_rate": 1.0000000000000002e-06,
	"step": 8580
	},
	{
	"epoch": 79.0,
	"eval_explained_variance": 0.4699589014053345,
	"eval_kl_divergence": 0.376490980386734,
	"eval_loss": 0.46412238478660583,
	"eval_mae": 0.11472050100564957,
	"eval_rmse": 0.15639875829219818,
	"eval_runtime": 55.4743,
	"eval_samples_per_second": 42.434,
	"eval_steps_per_second": 0.667,
	"learning_rate": 1.0000000000000002e-06,
	"step": 8690
	},
	{
	"epoch": 79.0,
	"learning_rate": 1.0000000000000002e-06,
	"step": 8690,
	"total_flos": 8.188406191467658e+19,
	"train_loss": 0.4591466036709872,
	"train_runtime": 19731.8487,
	"train_samples_per_second": 53.236,
	"train_steps_per_second": 0.836
	}
	],
	"logging_steps": 500,
	"max_steps": 16500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 150,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.188406191467658e+19,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}