Upload folder using huggingface_hub

b9d9807 verified 3 months ago

No virus

17.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.986078886310905,
	"eval_steps": 500,
	"global_step": 107,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"grad_norm": 28.83467674255371,
	"learning_rate": 2e-05,
	"loss": 2.7878,
	"step": 1
	},
	{
	"epoch": 0.04,
	"grad_norm": 28.955718994140625,
	"learning_rate": 4e-05,
	"loss": 2.7826,
	"step": 2
	},
	{
	"epoch": 0.06,
	"grad_norm": 17.856950759887695,
	"learning_rate": 6e-05,
	"loss": 2.2388,
	"step": 3
	},
	{
	"epoch": 0.07,
	"grad_norm": 16.615158081054688,
	"learning_rate": 8e-05,
	"loss": 1.7809,
	"step": 4
	},
	{
	"epoch": 0.09,
	"grad_norm": 34.79571533203125,
	"learning_rate": 0.0001,
	"loss": 1.9714,
	"step": 5
	},
	{
	"epoch": 0.11,
	"grad_norm": 6.3113694190979,
	"learning_rate": 9.935064935064936e-05,
	"loss": 1.4032,
	"step": 6
	},
	{
	"epoch": 0.13,
	"grad_norm": 8.230330467224121,
	"learning_rate": 9.870129870129871e-05,
	"loss": 1.241,
	"step": 7
	},
	{
	"epoch": 0.15,
	"grad_norm": 17.19231605529785,
	"learning_rate": 9.805194805194806e-05,
	"loss": 1.2388,
	"step": 8
	},
	{
	"epoch": 0.17,
	"grad_norm": 6.900284767150879,
	"learning_rate": 9.74025974025974e-05,
	"loss": 1.0881,
	"step": 9
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.7498185634613037,
	"learning_rate": 9.675324675324677e-05,
	"loss": 1.0071,
	"step": 10
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.016067028045654,
	"learning_rate": 9.610389610389611e-05,
	"loss": 0.9962,
	"step": 11
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.365187883377075,
	"learning_rate": 9.545454545454546e-05,
	"loss": 0.9928,
	"step": 12
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.4348371028900146,
	"learning_rate": 9.480519480519481e-05,
	"loss": 0.9107,
	"step": 13
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.8148932456970215,
	"learning_rate": 9.415584415584417e-05,
	"loss": 0.853,
	"step": 14
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.9855575561523438,
	"learning_rate": 9.35064935064935e-05,
	"loss": 0.8598,
	"step": 15
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9960970878601074,
	"learning_rate": 9.285714285714286e-05,
	"loss": 0.8384,
	"step": 16
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.4565762281417847,
	"learning_rate": 9.220779220779221e-05,
	"loss": 0.7895,
	"step": 17
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.419858694076538,
	"learning_rate": 9.155844155844156e-05,
	"loss": 0.8162,
	"step": 18
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.3651608228683472,
	"learning_rate": 9.090909090909092e-05,
	"loss": 0.7924,
	"step": 19
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.1524626016616821,
	"learning_rate": 9.025974025974027e-05,
	"loss": 0.7484,
	"step": 20
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.9174069166183472,
	"learning_rate": 8.961038961038961e-05,
	"loss": 0.7276,
	"step": 21
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.1832919120788574,
	"learning_rate": 8.896103896103896e-05,
	"loss": 0.6658,
	"step": 22
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.3024309873580933,
	"learning_rate": 8.831168831168831e-05,
	"loss": 0.7379,
	"step": 23
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.1416062116622925,
	"learning_rate": 8.766233766233767e-05,
	"loss": 0.7202,
	"step": 24
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.2058277130126953,
	"learning_rate": 8.701298701298701e-05,
	"loss": 0.6777,
	"step": 25
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.0915583372116089,
	"learning_rate": 8.636363636363637e-05,
	"loss": 0.7063,
	"step": 26
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.0384303331375122,
	"learning_rate": 8.571428571428571e-05,
	"loss": 0.6447,
	"step": 27
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.131259560585022,
	"learning_rate": 8.506493506493507e-05,
	"loss": 0.6911,
	"step": 28
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.1505099534988403,
	"learning_rate": 8.441558441558442e-05,
	"loss": 0.6142,
	"step": 29
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.6675026416778564,
	"learning_rate": 8.376623376623377e-05,
	"loss": 0.6181,
	"step": 30
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.2021816968917847,
	"learning_rate": 8.311688311688312e-05,
	"loss": 0.6542,
	"step": 31
	},
	{
	"epoch": 0.59,
	"grad_norm": 3.363269090652466,
	"learning_rate": 8.246753246753248e-05,
	"loss": 0.5968,
	"step": 32
	},
	{
	"epoch": 0.61,
	"grad_norm": 3.8007972240448,
	"learning_rate": 8.181818181818183e-05,
	"loss": 0.5983,
	"step": 33
	},
	{
	"epoch": 0.63,
	"grad_norm": 3.570556163787842,
	"learning_rate": 8.116883116883117e-05,
	"loss": 0.6375,
	"step": 34
	},
	{
	"epoch": 0.65,
	"grad_norm": 4.428549766540527,
	"learning_rate": 8.051948051948052e-05,
	"loss": 0.6519,
	"step": 35
	},
	{
	"epoch": 0.67,
	"grad_norm": 3.7240254878997803,
	"learning_rate": 7.987012987012987e-05,
	"loss": 0.5935,
	"step": 36
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.453350782394409,
	"learning_rate": 7.922077922077923e-05,
	"loss": 0.604,
	"step": 37
	},
	{
	"epoch": 0.71,
	"grad_norm": 3.341071844100952,
	"learning_rate": 7.857142857142858e-05,
	"loss": 0.5994,
	"step": 38
	},
	{
	"epoch": 0.72,
	"grad_norm": 3.4222161769866943,
	"learning_rate": 7.792207792207793e-05,
	"loss": 0.5731,
	"step": 39
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.9063804149627686,
	"learning_rate": 7.727272727272727e-05,
	"loss": 0.5566,
	"step": 40
	},
	{
	"epoch": 0.76,
	"grad_norm": 3.170330762863159,
	"learning_rate": 7.662337662337662e-05,
	"loss": 0.5684,
	"step": 41
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.8363170623779297,
	"learning_rate": 7.597402597402598e-05,
	"loss": 0.5936,
	"step": 42
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.3944592475891113,
	"learning_rate": 7.532467532467533e-05,
	"loss": 0.5571,
	"step": 43
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.816237688064575,
	"learning_rate": 7.467532467532467e-05,
	"loss": 0.5598,
	"step": 44
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.57438325881958,
	"learning_rate": 7.402597402597404e-05,
	"loss": 0.5615,
	"step": 45
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.3164243698120117,
	"learning_rate": 7.337662337662338e-05,
	"loss": 0.5381,
	"step": 46
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.4226622581481934,
	"learning_rate": 7.272727272727273e-05,
	"loss": 0.5592,
	"step": 47
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.5568475723266602,
	"learning_rate": 7.207792207792208e-05,
	"loss": 0.5729,
	"step": 48
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.1320440769195557,
	"learning_rate": 7.142857142857143e-05,
	"loss": 0.5546,
	"step": 49
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.220273733139038,
	"learning_rate": 7.077922077922077e-05,
	"loss": 0.5587,
	"step": 50
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.8099664449691772,
	"learning_rate": 7.012987012987014e-05,
	"loss": 0.5403,
	"step": 51
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.7992054224014282,
	"learning_rate": 6.948051948051948e-05,
	"loss": 0.5374,
	"step": 52
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.5891600847244263,
	"learning_rate": 6.883116883116883e-05,
	"loss": 0.5188,
	"step": 53
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.713174819946289,
	"learning_rate": 6.818181818181818e-05,
	"loss": 0.5632,
	"step": 54
	},
	{
	"epoch": 1.02,
	"grad_norm": 1.529587984085083,
	"learning_rate": 6.753246753246754e-05,
	"loss": 0.4607,
	"step": 55
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.243905782699585,
	"learning_rate": 6.688311688311688e-05,
	"loss": 0.4807,
	"step": 56
	},
	{
	"epoch": 1.06,
	"grad_norm": 0.92779141664505,
	"learning_rate": 6.623376623376624e-05,
	"loss": 0.4515,
	"step": 57
	},
	{
	"epoch": 1.08,
	"grad_norm": 1.8945612907409668,
	"learning_rate": 6.55844155844156e-05,
	"loss": 0.4788,
	"step": 58
	},
	{
	"epoch": 1.1,
	"grad_norm": 1.6997075080871582,
	"learning_rate": 6.493506493506494e-05,
	"loss": 0.4411,
	"step": 59
	},
	{
	"epoch": 1.11,
	"grad_norm": 1.4320181608200073,
	"learning_rate": 6.428571428571429e-05,
	"loss": 0.4474,
	"step": 60
	},
	{
	"epoch": 1.13,
	"grad_norm": 1.5225821733474731,
	"learning_rate": 6.363636363636364e-05,
	"loss": 0.4578,
	"step": 61
	},
	{
	"epoch": 1.15,
	"grad_norm": 1.4867883920669556,
	"learning_rate": 6.2987012987013e-05,
	"loss": 0.4838,
	"step": 62
	},
	{
	"epoch": 1.17,
	"grad_norm": 1.3935158252716064,
	"learning_rate": 6.233766233766233e-05,
	"loss": 0.4383,
	"step": 63
	},
	{
	"epoch": 1.19,
	"grad_norm": 1.3193836212158203,
	"learning_rate": 6.16883116883117e-05,
	"loss": 0.4369,
	"step": 64
	},
	{
	"epoch": 1.21,
	"grad_norm": 1.0565460920333862,
	"learning_rate": 6.103896103896104e-05,
	"loss": 0.4618,
	"step": 65
	},
	{
	"epoch": 1.23,
	"grad_norm": 1.9069595336914062,
	"learning_rate": 6.03896103896104e-05,
	"loss": 0.4636,
	"step": 66
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.592588186264038,
	"learning_rate": 5.9740259740259744e-05,
	"loss": 0.4363,
	"step": 67
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.392088770866394,
	"learning_rate": 5.90909090909091e-05,
	"loss": 0.4573,
	"step": 68
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.4312165975570679,
	"learning_rate": 5.844155844155844e-05,
	"loss": 0.4404,
	"step": 69
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.4288945198059082,
	"learning_rate": 5.7792207792207796e-05,
	"loss": 0.4517,
	"step": 70
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.247237205505371,
	"learning_rate": 5.714285714285714e-05,
	"loss": 0.4731,
	"step": 71
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.4292420148849487,
	"learning_rate": 5.64935064935065e-05,
	"loss": 0.4561,
	"step": 72
	},
	{
	"epoch": 1.35,
	"grad_norm": 1.1647123098373413,
	"learning_rate": 5.584415584415584e-05,
	"loss": 0.4702,
	"step": 73
	},
	{
	"epoch": 1.37,
	"grad_norm": 1.6123448610305786,
	"learning_rate": 5.51948051948052e-05,
	"loss": 0.4681,
	"step": 74
	},
	{
	"epoch": 1.39,
	"grad_norm": 1.3807860612869263,
	"learning_rate": 5.4545454545454546e-05,
	"loss": 0.4217,
	"step": 75
	},
	{
	"epoch": 1.41,
	"grad_norm": 1.4928926229476929,
	"learning_rate": 5.38961038961039e-05,
	"loss": 0.4344,
	"step": 76
	},
	{
	"epoch": 1.43,
	"grad_norm": 1.3118643760681152,
	"learning_rate": 5.3246753246753245e-05,
	"loss": 0.4509,
	"step": 77
	},
	{
	"epoch": 1.45,
	"grad_norm": 1.1260207891464233,
	"learning_rate": 5.25974025974026e-05,
	"loss": 0.4423,
	"step": 78
	},
	{
	"epoch": 1.47,
	"grad_norm": 1.1223907470703125,
	"learning_rate": 5.1948051948051944e-05,
	"loss": 0.4238,
	"step": 79
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.123289704322815,
	"learning_rate": 5.1298701298701304e-05,
	"loss": 0.4415,
	"step": 80
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.8493527770042419,
	"learning_rate": 5.064935064935065e-05,
	"loss": 0.4278,
	"step": 81
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.3558621406555176,
	"learning_rate": 5e-05,
	"loss": 0.4326,
	"step": 82
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.198364496231079,
	"learning_rate": 4.9350649350649355e-05,
	"loss": 0.4504,
	"step": 83
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.318117380142212,
	"learning_rate": 4.87012987012987e-05,
	"loss": 0.4389,
	"step": 84
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.323292851448059,
	"learning_rate": 4.8051948051948054e-05,
	"loss": 0.4559,
	"step": 85
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.0558339357376099,
	"learning_rate": 4.740259740259741e-05,
	"loss": 0.4613,
	"step": 86
	},
	{
	"epoch": 1.61,
	"grad_norm": 1.0301963090896606,
	"learning_rate": 4.675324675324675e-05,
	"loss": 0.4194,
	"step": 87
	},
	{
	"epoch": 1.63,
	"grad_norm": 0.9772946834564209,
	"learning_rate": 4.6103896103896106e-05,
	"loss": 0.4278,
	"step": 88
	},
	{
	"epoch": 1.65,
	"grad_norm": 0.93486487865448,
	"learning_rate": 4.545454545454546e-05,
	"loss": 0.454,
	"step": 89
	},
	{
	"epoch": 1.67,
	"grad_norm": 1.1458832025527954,
	"learning_rate": 4.4805194805194805e-05,
	"loss": 0.4363,
	"step": 90
	},
	{
	"epoch": 1.69,
	"grad_norm": 0.9339586496353149,
	"learning_rate": 4.415584415584416e-05,
	"loss": 0.434,
	"step": 91
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.3206239938735962,
	"learning_rate": 4.3506493506493503e-05,
	"loss": 0.4431,
	"step": 92
	},
	{
	"epoch": 1.73,
	"grad_norm": 1.1199604272842407,
	"learning_rate": 4.2857142857142856e-05,
	"loss": 0.4472,
	"step": 93
	},
	{
	"epoch": 1.74,
	"grad_norm": 1.0672180652618408,
	"learning_rate": 4.220779220779221e-05,
	"loss": 0.4091,
	"step": 94
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.0920594930648804,
	"learning_rate": 4.155844155844156e-05,
	"loss": 0.417,
	"step": 95
	},
	{
	"epoch": 1.78,
	"grad_norm": 0.9002637267112732,
	"learning_rate": 4.0909090909090915e-05,
	"loss": 0.4103,
	"step": 96
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.8468071222305298,
	"learning_rate": 4.025974025974026e-05,
	"loss": 0.4167,
	"step": 97
	},
	{
	"epoch": 1.82,
	"grad_norm": 0.9398940205574036,
	"learning_rate": 3.9610389610389614e-05,
	"loss": 0.4201,
	"step": 98
	},
	{
	"epoch": 1.84,
	"grad_norm": 0.7842636108398438,
	"learning_rate": 3.8961038961038966e-05,
	"loss": 0.4064,
	"step": 99
	},
	{
	"epoch": 1.86,
	"grad_norm": 1.0805550813674927,
	"learning_rate": 3.831168831168831e-05,
	"loss": 0.4271,
	"step": 100
	},
	{
	"epoch": 1.87,
	"grad_norm": 0.8424351215362549,
	"learning_rate": 3.7662337662337665e-05,
	"loss": 0.4087,
	"step": 101
	},
	{
	"epoch": 1.89,
	"grad_norm": 1.0850481986999512,
	"learning_rate": 3.701298701298702e-05,
	"loss": 0.409,
	"step": 102
	},
	{
	"epoch": 1.91,
	"grad_norm": 0.9894604086875916,
	"learning_rate": 3.6363636363636364e-05,
	"loss": 0.4139,
	"step": 103
	},
	{
	"epoch": 1.93,
	"grad_norm": 0.97883540391922,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.4281,
	"step": 104
	},
	{
	"epoch": 1.95,
	"grad_norm": 0.9291779398918152,
	"learning_rate": 3.506493506493507e-05,
	"loss": 0.4376,
	"step": 105
	},
	{
	"epoch": 1.97,
	"grad_norm": 0.8272209167480469,
	"learning_rate": 3.4415584415584416e-05,
	"loss": 0.42,
	"step": 106
	},
	{
	"epoch": 1.99,
	"grad_norm": 0.8428053855895996,
	"learning_rate": 3.376623376623377e-05,
	"loss": 0.4131,
	"step": 107
	}
	],
	"logging_steps": 1,
	"max_steps": 159,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5,
	"total_flos": 1.6171847189151744e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}