vgdunkey-vgdunkeybot / trainer_state.json

End of training

0f3e953 over 2 years ago

11 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"global_step": 435,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 0.00013562298850574713,
	"loss": 4.7615,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00013404597701149426,
	"loss": 3.6623,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0001324689655172414,
	"loss": 4.0255,
	"step": 15
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0001308919540229885,
	"loss": 4.4715,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00012931494252873562,
	"loss": 3.5876,
	"step": 25
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00012773793103448275,
	"loss": 2.8973,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00012616091954022987,
	"loss": 3.3497,
	"step": 35
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.000124583908045977,
	"loss": 2.6265,
	"step": 40
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00012300689655172413,
	"loss": 3.152,
	"step": 45
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00012142988505747127,
	"loss": 2.5628,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0001198528735632184,
	"loss": 1.9529,
	"step": 55
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00011827586206896552,
	"loss": 3.2591,
	"step": 60
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00011669885057471265,
	"loss": 1.6728,
	"step": 65
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00011512183908045976,
	"loss": 2.6952,
	"step": 70
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00011354482758620689,
	"loss": 2.9556,
	"step": 75
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00011196781609195402,
	"loss": 2.195,
	"step": 80
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00011039080459770115,
	"loss": 1.7066,
	"step": 85
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00010881379310344828,
	"loss": 1.5754,
	"step": 90
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0001072367816091954,
	"loss": 1.8903,
	"step": 95
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00010565977011494252,
	"loss": 2.3167,
	"step": 100
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00010408275862068965,
	"loss": 2.2342,
	"step": 105
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00010250574712643678,
	"loss": 2.1345,
	"step": 110
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0001009287356321839,
	"loss": 1.7189,
	"step": 115
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.935172413793103e-05,
	"loss": 1.1786,
	"step": 120
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.777471264367816e-05,
	"loss": 2.1098,
	"step": 125
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.619770114942529e-05,
	"loss": 2.0657,
	"step": 130
	},
	{
	"epoch": 0.31,
	"learning_rate": 9.462068965517242e-05,
	"loss": 1.5821,
	"step": 135
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.304367816091953e-05,
	"loss": 1.8502,
	"step": 140
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.146666666666666e-05,
	"loss": 1.4641,
	"step": 145
	},
	{
	"epoch": 0.34,
	"learning_rate": 8.988965517241379e-05,
	"loss": 1.4556,
	"step": 150
	},
	{
	"epoch": 0.36,
	"learning_rate": 8.831264367816092e-05,
	"loss": 0.5807,
	"step": 155
	},
	{
	"epoch": 0.37,
	"learning_rate": 8.673563218390805e-05,
	"loss": 1.8225,
	"step": 160
	},
	{
	"epoch": 0.38,
	"learning_rate": 8.515862068965518e-05,
	"loss": 0.8647,
	"step": 165
	},
	{
	"epoch": 0.39,
	"learning_rate": 8.35816091954023e-05,
	"loss": 2.1795,
	"step": 170
	},
	{
	"epoch": 0.4,
	"learning_rate": 8.200459770114943e-05,
	"loss": 0.52,
	"step": 175
	},
	{
	"epoch": 0.41,
	"learning_rate": 8.042758620689655e-05,
	"loss": 1.325,
	"step": 180
	},
	{
	"epoch": 0.43,
	"learning_rate": 7.885057471264368e-05,
	"loss": 0.8714,
	"step": 185
	},
	{
	"epoch": 0.44,
	"learning_rate": 7.72735632183908e-05,
	"loss": 1.5474,
	"step": 190
	},
	{
	"epoch": 0.45,
	"learning_rate": 7.569655172413794e-05,
	"loss": 1.579,
	"step": 195
	},
	{
	"epoch": 0.46,
	"learning_rate": 7.411954022988506e-05,
	"loss": 0.8652,
	"step": 200
	},
	{
	"epoch": 0.47,
	"learning_rate": 7.254252873563219e-05,
	"loss": 1.6002,
	"step": 205
	},
	{
	"epoch": 0.48,
	"learning_rate": 7.096551724137932e-05,
	"loss": 1.5124,
	"step": 210
	},
	{
	"epoch": 0.49,
	"learning_rate": 6.938850574712645e-05,
	"loss": 0.8354,
	"step": 215
	},
	{
	"epoch": 0.51,
	"learning_rate": 6.781149425287356e-05,
	"loss": 1.1408,
	"step": 220
	},
	{
	"epoch": 0.52,
	"learning_rate": 6.62344827586207e-05,
	"loss": 0.7256,
	"step": 225
	},
	{
	"epoch": 0.53,
	"learning_rate": 6.465747126436781e-05,
	"loss": 1.1633,
	"step": 230
	},
	{
	"epoch": 0.54,
	"learning_rate": 6.308045977011494e-05,
	"loss": 1.0975,
	"step": 235
	},
	{
	"epoch": 0.55,
	"learning_rate": 6.150344827586207e-05,
	"loss": 0.7067,
	"step": 240
	},
	{
	"epoch": 0.56,
	"learning_rate": 5.99264367816092e-05,
	"loss": 1.6993,
	"step": 245
	},
	{
	"epoch": 0.57,
	"learning_rate": 5.834942528735632e-05,
	"loss": 1.0712,
	"step": 250
	},
	{
	"epoch": 0.59,
	"learning_rate": 5.6772413793103445e-05,
	"loss": 1.6506,
	"step": 255
	},
	{
	"epoch": 0.6,
	"learning_rate": 5.519540229885057e-05,
	"loss": 1.2777,
	"step": 260
	},
	{
	"epoch": 0.61,
	"learning_rate": 5.36183908045977e-05,
	"loss": 1.5069,
	"step": 265
	},
	{
	"epoch": 0.62,
	"learning_rate": 5.2041379310344824e-05,
	"loss": 0.6828,
	"step": 270
	},
	{
	"epoch": 0.63,
	"learning_rate": 5.046436781609195e-05,
	"loss": 0.9765,
	"step": 275
	},
	{
	"epoch": 0.64,
	"learning_rate": 4.888735632183908e-05,
	"loss": 0.9234,
	"step": 280
	},
	{
	"epoch": 0.66,
	"learning_rate": 4.731034482758621e-05,
	"loss": 1.2876,
	"step": 285
	},
	{
	"epoch": 0.67,
	"learning_rate": 4.573333333333333e-05,
	"loss": 0.9512,
	"step": 290
	},
	{
	"epoch": 0.68,
	"learning_rate": 4.415632183908046e-05,
	"loss": 0.8959,
	"step": 295
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.257931034482759e-05,
	"loss": 0.8888,
	"step": 300
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.100229885057472e-05,
	"loss": 1.4088,
	"step": 305
	},
	{
	"epoch": 0.71,
	"learning_rate": 3.942528735632184e-05,
	"loss": 1.1202,
	"step": 310
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.784827586206897e-05,
	"loss": 1.1273,
	"step": 315
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.6271264367816096e-05,
	"loss": 0.3291,
	"step": 320
	},
	{
	"epoch": 0.75,
	"learning_rate": 3.4694252873563225e-05,
	"loss": 1.4211,
	"step": 325
	},
	{
	"epoch": 0.76,
	"learning_rate": 3.311724137931035e-05,
	"loss": 0.8079,
	"step": 330
	},
	{
	"epoch": 0.77,
	"learning_rate": 3.154022988505747e-05,
	"loss": 0.8223,
	"step": 335
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.99632183908046e-05,
	"loss": 1.0104,
	"step": 340
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.8386206896551722e-05,
	"loss": 0.7821,
	"step": 345
	},
	{
	"epoch": 0.8,
	"learning_rate": 2.680919540229885e-05,
	"loss": 1.0688,
	"step": 350
	},
	{
	"epoch": 0.82,
	"learning_rate": 2.5232183908045976e-05,
	"loss": 1.0253,
	"step": 355
	},
	{
	"epoch": 0.83,
	"learning_rate": 2.3655172413793105e-05,
	"loss": 0.7701,
	"step": 360
	},
	{
	"epoch": 0.84,
	"learning_rate": 2.207816091954023e-05,
	"loss": 0.4998,
	"step": 365
	},
	{
	"epoch": 0.85,
	"learning_rate": 2.050114942528736e-05,
	"loss": 0.555,
	"step": 370
	},
	{
	"epoch": 0.86,
	"learning_rate": 1.8924137931034484e-05,
	"loss": 0.7096,
	"step": 375
	},
	{
	"epoch": 0.87,
	"learning_rate": 1.7347126436781612e-05,
	"loss": 0.5239,
	"step": 380
	},
	{
	"epoch": 0.89,
	"learning_rate": 1.5770114942528734e-05,
	"loss": 0.761,
	"step": 385
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.4193103448275861e-05,
	"loss": 0.5269,
	"step": 390
	},
	{
	"epoch": 0.91,
	"learning_rate": 1.2616091954022988e-05,
	"loss": 0.5471,
	"step": 395
	},
	{
	"epoch": 0.92,
	"learning_rate": 1.1039080459770115e-05,
	"loss": 1.1833,
	"step": 400
	},
	{
	"epoch": 0.93,
	"learning_rate": 9.462068965517242e-06,
	"loss": 0.7521,
	"step": 405
	},
	{
	"epoch": 0.94,
	"learning_rate": 7.885057471264367e-06,
	"loss": 0.5307,
	"step": 410
	},
	{
	"epoch": 0.95,
	"learning_rate": 6.308045977011494e-06,
	"loss": 1.1967,
	"step": 415
	},
	{
	"epoch": 0.97,
	"learning_rate": 4.731034482758621e-06,
	"loss": 1.2001,
	"step": 420
	},
	{
	"epoch": 0.98,
	"learning_rate": 3.154022988505747e-06,
	"loss": 0.962,
	"step": 425
	},
	{
	"epoch": 0.99,
	"learning_rate": 1.5770114942528735e-06,
	"loss": 0.7309,
	"step": 430
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0,
	"loss": 0.9335,
	"step": 435
	},
	{
	"epoch": 1.0,
	"step": 435,
	"total_flos": 227324067840000.0,
	"train_loss": 1.530629653492193,
	"train_runtime": 110.6495,
	"train_samples_per_second": 3.931,
	"train_steps_per_second": 3.931
	}
	],
	"max_steps": 435,
	"num_train_epochs": 1,
	"total_flos": 227324067840000.0,
	"trial_name": null,
	"trial_params": null
	}