DocBot / trainer_state.json

Upload trainer_state.json with huggingface_hub

f319b63 verified about 2 years ago

13.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.11637073463718609,
	"global_step": 3100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 3.5545,
	"step": 25
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 3.3808,
	"step": 50
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 3.2177,
	"step": 75
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 3.14,
	"step": 100
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002,
	"loss": 3.135,
	"step": 125
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.0592,
	"step": 150
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.083,
	"step": 175
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.0834,
	"step": 200
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.1127,
	"step": 225
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 2.9984,
	"step": 250
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.0828,
	"step": 275
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 2.9751,
	"step": 300
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.0941,
	"step": 325
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 2.9631,
	"step": 350
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002,
	"loss": 3.0859,
	"step": 375
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.9828,
	"step": 400
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 3.0143,
	"step": 425
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.9813,
	"step": 450
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 3.0787,
	"step": 475
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 3.0272,
	"step": 500
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 3.0479,
	"step": 525
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.9969,
	"step": 550
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 3.0361,
	"step": 575
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.9057,
	"step": 600
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.965,
	"step": 625
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002,
	"loss": 2.9288,
	"step": 650
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.9974,
	"step": 675
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.945,
	"step": 700
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 3.045,
	"step": 725
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.9497,
	"step": 750
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 3.011,
	"step": 775
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.9471,
	"step": 800
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 3.0071,
	"step": 825
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.8933,
	"step": 850
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 3.012,
	"step": 875
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 2.922,
	"step": 900
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002,
	"loss": 3.0512,
	"step": 925
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9355,
	"step": 950
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 3.0477,
	"step": 975
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9325,
	"step": 1000
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9595,
	"step": 1025
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.8729,
	"step": 1050
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 3.0294,
	"step": 1075
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9156,
	"step": 1100
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9877,
	"step": 1125
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9953,
	"step": 1150
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002,
	"loss": 2.9605,
	"step": 1175
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.8817,
	"step": 1200
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.9458,
	"step": 1225
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.8464,
	"step": 1250
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.9767,
	"step": 1275
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.9091,
	"step": 1300
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.9615,
	"step": 1325
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.8904,
	"step": 1350
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.9142,
	"step": 1375
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.8625,
	"step": 1400
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 3.0317,
	"step": 1425
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002,
	"loss": 2.8543,
	"step": 1450
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9401,
	"step": 1475
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.8642,
	"step": 1500
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9703,
	"step": 1525
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.8528,
	"step": 1550
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9115,
	"step": 1575
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.773,
	"step": 1600
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9731,
	"step": 1625
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.8812,
	"step": 1650
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9683,
	"step": 1675
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.8224,
	"step": 1700
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002,
	"loss": 2.9658,
	"step": 1725
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.8459,
	"step": 1750
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.9334,
	"step": 1775
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.8489,
	"step": 1800
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.9709,
	"step": 1825
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.8089,
	"step": 1850
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.9309,
	"step": 1875
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.7292,
	"step": 1900
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.8867,
	"step": 1925
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.8445,
	"step": 1950
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002,
	"loss": 2.9522,
	"step": 1975
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8645,
	"step": 2000
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.9292,
	"step": 2025
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8197,
	"step": 2050
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.9131,
	"step": 2075
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.7743,
	"step": 2100
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8766,
	"step": 2125
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8322,
	"step": 2150
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8837,
	"step": 2175
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8804,
	"step": 2200
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.9015,
	"step": 2225
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002,
	"loss": 2.8675,
	"step": 2250
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8653,
	"step": 2275
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.7899,
	"step": 2300
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.9419,
	"step": 2325
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8745,
	"step": 2350
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.939,
	"step": 2375
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8301,
	"step": 2400
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.9117,
	"step": 2425
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8191,
	"step": 2450
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8762,
	"step": 2475
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8237,
	"step": 2500
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002,
	"loss": 2.8568,
	"step": 2525
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.8007,
	"step": 2550
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.917,
	"step": 2575
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.8378,
	"step": 2600
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.931,
	"step": 2625
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.7476,
	"step": 2650
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.8783,
	"step": 2675
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.7566,
	"step": 2700
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.8552,
	"step": 2725
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.762,
	"step": 2750
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002,
	"loss": 2.8504,
	"step": 2775
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.7906,
	"step": 2800
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.9305,
	"step": 2825
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.7938,
	"step": 2850
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.8926,
	"step": 2875
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.8061,
	"step": 2900
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.8761,
	"step": 2925
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.7909,
	"step": 2950
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.8898,
	"step": 2975
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.7425,
	"step": 3000
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.9364,
	"step": 3025
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002,
	"loss": 2.7867,
	"step": 3050
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 2.8904,
	"step": 3075
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 2.8158,
	"step": 3100
	}
	],
	"max_steps": 26639,
	"num_train_epochs": 1,
	"total_flos": 1.183808995344384e+16,
	"trial_name": null,
	"trial_params": null
	}