l3kpm2-lora / checkpoint-77 /trainer_state.json

Upload folder using huggingface_hub

c351ff0 verified 3 months ago

15.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.396887159533074,
	"eval_steps": 8,
	"global_step": 77,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0311284046692607,
	"grad_norm": 0.5707955360412598,
	"learning_rate": 1e-05,
	"loss": 1.8935,
	"step": 1
	},
	{
	"epoch": 0.0311284046692607,
	"eval_loss": 1.8884226083755493,
	"eval_runtime": 34.2567,
	"eval_samples_per_second": 29.104,
	"eval_steps_per_second": 0.321,
	"step": 1
	},
	{
	"epoch": 0.0622568093385214,
	"grad_norm": 0.5781293511390686,
	"learning_rate": 2e-05,
	"loss": 1.879,
	"step": 2
	},
	{
	"epoch": 0.0933852140077821,
	"grad_norm": 0.5720934271812439,
	"learning_rate": 3e-05,
	"loss": 1.8848,
	"step": 3
	},
	{
	"epoch": 0.1245136186770428,
	"grad_norm": 0.580179750919342,
	"learning_rate": 4e-05,
	"loss": 1.8845,
	"step": 4
	},
	{
	"epoch": 0.1556420233463035,
	"grad_norm": 0.6264262795448303,
	"learning_rate": 5e-05,
	"loss": 1.8758,
	"step": 5
	},
	{
	"epoch": 0.1867704280155642,
	"grad_norm": 0.643973708152771,
	"learning_rate": 6e-05,
	"loss": 1.8309,
	"step": 6
	},
	{
	"epoch": 0.2178988326848249,
	"grad_norm": 0.6367993354797363,
	"learning_rate": 7e-05,
	"loss": 1.7743,
	"step": 7
	},
	{
	"epoch": 0.2490272373540856,
	"grad_norm": 0.5833392143249512,
	"learning_rate": 8e-05,
	"loss": 1.6965,
	"step": 8
	},
	{
	"epoch": 0.2490272373540856,
	"eval_loss": 1.5970573425292969,
	"eval_runtime": 34.32,
	"eval_samples_per_second": 29.05,
	"eval_steps_per_second": 0.321,
	"step": 8
	},
	{
	"epoch": 0.2801556420233463,
	"grad_norm": 0.5133880972862244,
	"learning_rate": 9e-05,
	"loss": 1.5915,
	"step": 9
	},
	{
	"epoch": 0.311284046692607,
	"grad_norm": 0.42409589886665344,
	"learning_rate": 0.0001,
	"loss": 1.5128,
	"step": 10
	},
	{
	"epoch": 0.3424124513618677,
	"grad_norm": 0.3264746069908142,
	"learning_rate": 0.00011000000000000002,
	"loss": 1.4567,
	"step": 11
	},
	{
	"epoch": 0.3735408560311284,
	"grad_norm": 0.2589164078235626,
	"learning_rate": 0.00012,
	"loss": 1.4249,
	"step": 12
	},
	{
	"epoch": 0.4046692607003891,
	"grad_norm": 0.3931436538696289,
	"learning_rate": 0.00013000000000000002,
	"loss": 1.4125,
	"step": 13
	},
	{
	"epoch": 0.4357976653696498,
	"grad_norm": 0.5455179810523987,
	"learning_rate": 0.00014,
	"loss": 1.4079,
	"step": 14
	},
	{
	"epoch": 0.4669260700389105,
	"grad_norm": 0.5418187379837036,
	"learning_rate": 0.00015000000000000001,
	"loss": 1.4031,
	"step": 15
	},
	{
	"epoch": 0.4980544747081712,
	"grad_norm": 0.42387455701828003,
	"learning_rate": 0.00016,
	"loss": 1.3733,
	"step": 16
	},
	{
	"epoch": 0.4980544747081712,
	"eval_loss": 1.3445571660995483,
	"eval_runtime": 34.3152,
	"eval_samples_per_second": 29.054,
	"eval_steps_per_second": 0.321,
	"step": 16
	},
	{
	"epoch": 0.5291828793774319,
	"grad_norm": 0.2986687123775482,
	"learning_rate": 0.00017,
	"loss": 1.3505,
	"step": 17
	},
	{
	"epoch": 0.5603112840466926,
	"grad_norm": 0.2099975347518921,
	"learning_rate": 0.00018,
	"loss": 1.3243,
	"step": 18
	},
	{
	"epoch": 0.5914396887159533,
	"grad_norm": 0.16759291291236877,
	"learning_rate": 0.00019,
	"loss": 1.3056,
	"step": 19
	},
	{
	"epoch": 0.622568093385214,
	"grad_norm": 0.16132138669490814,
	"learning_rate": 0.0002,
	"loss": 1.3014,
	"step": 20
	},
	{
	"epoch": 0.6536964980544747,
	"grad_norm": 0.17767557501792908,
	"learning_rate": 0.0001999145758387301,
	"loss": 1.2932,
	"step": 21
	},
	{
	"epoch": 0.6848249027237354,
	"grad_norm": 0.19573098421096802,
	"learning_rate": 0.000199658449300667,
	"loss": 1.2771,
	"step": 22
	},
	{
	"epoch": 0.7159533073929961,
	"grad_norm": 0.19915379583835602,
	"learning_rate": 0.0001992320579737045,
	"loss": 1.2762,
	"step": 23
	},
	{
	"epoch": 0.7470817120622568,
	"grad_norm": 0.17230945825576782,
	"learning_rate": 0.00019863613034027224,
	"loss": 1.2466,
	"step": 24
	},
	{
	"epoch": 0.7470817120622568,
	"eval_loss": 1.2462533712387085,
	"eval_runtime": 34.3129,
	"eval_samples_per_second": 29.056,
	"eval_steps_per_second": 0.321,
	"step": 24
	},
	{
	"epoch": 0.7782101167315175,
	"grad_norm": 0.13044685125350952,
	"learning_rate": 0.00019787168453273544,
	"loss": 1.2402,
	"step": 25
	},
	{
	"epoch": 0.8093385214007782,
	"grad_norm": 0.09282781183719635,
	"learning_rate": 0.00019694002659393305,
	"loss": 1.234,
	"step": 26
	},
	{
	"epoch": 0.8404669260700389,
	"grad_norm": 0.10575597733259201,
	"learning_rate": 0.0001958427482458253,
	"loss": 1.2214,
	"step": 27
	},
	{
	"epoch": 0.8715953307392996,
	"grad_norm": 0.14210504293441772,
	"learning_rate": 0.00019458172417006347,
	"loss": 1.2185,
	"step": 28
	},
	{
	"epoch": 0.9027237354085603,
	"grad_norm": 0.17919066548347473,
	"learning_rate": 0.0001931591088051279,
	"loss": 1.2025,
	"step": 29
	},
	{
	"epoch": 0.933852140077821,
	"grad_norm": 0.16358336806297302,
	"learning_rate": 0.00019157733266550575,
	"loss": 1.2032,
	"step": 30
	},
	{
	"epoch": 0.9649805447470817,
	"grad_norm": 0.13862887024879456,
	"learning_rate": 0.0001898390981891979,
	"loss": 1.197,
	"step": 31
	},
	{
	"epoch": 0.9961089494163424,
	"grad_norm": 0.11003394424915314,
	"learning_rate": 0.0001879473751206489,
	"loss": 1.1852,
	"step": 32
	},
	{
	"epoch": 0.9961089494163424,
	"eval_loss": 1.1821681261062622,
	"eval_runtime": 34.3117,
	"eval_samples_per_second": 29.057,
	"eval_steps_per_second": 0.321,
	"step": 32
	},
	{
	"epoch": 1.027237354085603,
	"grad_norm": 0.08200129121541977,
	"learning_rate": 0.00018590539543698854,
	"loss": 1.178,
	"step": 33
	},
	{
	"epoch": 1.0583657587548638,
	"grad_norm": 0.07455576211214066,
	"learning_rate": 0.00018371664782625287,
	"loss": 1.1725,
	"step": 34
	},
	{
	"epoch": 1.0894941634241244,
	"grad_norm": 0.08433058857917786,
	"learning_rate": 0.0001813848717270195,
	"loss": 1.1569,
	"step": 35
	},
	{
	"epoch": 1.1206225680933852,
	"grad_norm": 0.09246356040239334,
	"learning_rate": 0.00017891405093963938,
	"loss": 1.1627,
	"step": 36
	},
	{
	"epoch": 1.1517509727626458,
	"grad_norm": 0.09312273561954498,
	"learning_rate": 0.00017630840681998066,
	"loss": 1.1526,
	"step": 37
	},
	{
	"epoch": 1.1828793774319066,
	"grad_norm": 0.08373520523309708,
	"learning_rate": 0.00017357239106731317,
	"loss": 1.1456,
	"step": 38
	},
	{
	"epoch": 1.2140077821011672,
	"grad_norm": 0.07111110538244247,
	"learning_rate": 0.00017071067811865476,
	"loss": 1.1531,
	"step": 39
	},
	{
	"epoch": 1.245136186770428,
	"grad_norm": 0.06889671832323074,
	"learning_rate": 0.00016772815716257412,
	"loss": 1.1444,
	"step": 40
	},
	{
	"epoch": 1.245136186770428,
	"eval_loss": 1.1379262208938599,
	"eval_runtime": 34.3236,
	"eval_samples_per_second": 29.047,
	"eval_steps_per_second": 0.32,
	"step": 40
	},
	{
	"epoch": 1.2762645914396886,
	"grad_norm": 0.06582967936992645,
	"learning_rate": 0.00016462992378609407,
	"loss": 1.1335,
	"step": 41
	},
	{
	"epoch": 1.3073929961089494,
	"grad_norm": 0.07529184967279434,
	"learning_rate": 0.0001614212712689668,
	"loss": 1.1292,
	"step": 42
	},
	{
	"epoch": 1.3385214007782102,
	"grad_norm": 0.07816017419099808,
	"learning_rate": 0.00015810768154019385,
	"loss": 1.1293,
	"step": 43
	},
	{
	"epoch": 1.3696498054474708,
	"grad_norm": 0.08063483238220215,
	"learning_rate": 0.00015469481581224272,
	"loss": 1.1161,
	"step": 44
	},
	{
	"epoch": 1.4007782101167314,
	"grad_norm": 0.06947366893291473,
	"learning_rate": 0.00015118850490896012,
	"loss": 1.1168,
	"step": 45
	},
	{
	"epoch": 1.4319066147859922,
	"grad_norm": 0.05603436380624771,
	"learning_rate": 0.00014759473930370736,
	"loss": 1.1147,
	"step": 46
	},
	{
	"epoch": 1.463035019455253,
	"grad_norm": 0.055858004838228226,
	"learning_rate": 0.00014391965888473703,
	"loss": 1.1123,
	"step": 47
	},
	{
	"epoch": 1.4941634241245136,
	"grad_norm": 0.0600324422121048,
	"learning_rate": 0.00014016954246529696,
	"loss": 1.0986,
	"step": 48
	},
	{
	"epoch": 1.4941634241245136,
	"eval_loss": 1.1052128076553345,
	"eval_runtime": 34.2952,
	"eval_samples_per_second": 29.071,
	"eval_steps_per_second": 0.321,
	"step": 48
	},
	{
	"epoch": 1.5252918287937742,
	"grad_norm": 0.0596173070371151,
	"learning_rate": 0.00013635079705638298,
	"loss": 1.0949,
	"step": 49
	},
	{
	"epoch": 1.556420233463035,
	"grad_norm": 0.06981530040502548,
	"learning_rate": 0.00013246994692046836,
	"loss": 1.1,
	"step": 50
	},
	{
	"epoch": 1.5875486381322959,
	"grad_norm": 0.058555856347084045,
	"learning_rate": 0.00012853362242491053,
	"loss": 1.0946,
	"step": 51
	},
	{
	"epoch": 1.6186770428015564,
	"grad_norm": 0.052131447941064835,
	"learning_rate": 0.00012454854871407994,
	"loss": 1.096,
	"step": 52
	},
	{
	"epoch": 1.649805447470817,
	"grad_norm": 0.05138020217418671,
	"learning_rate": 0.00012052153421956342,
	"loss": 1.0948,
	"step": 53
	},
	{
	"epoch": 1.6809338521400778,
	"grad_norm": 0.055884215980768204,
	"learning_rate": 0.00011645945902807341,
	"loss": 1.0868,
	"step": 54
	},
	{
	"epoch": 1.7120622568093387,
	"grad_norm": 0.056635960936546326,
	"learning_rate": 0.00011236926312693479,
	"loss": 1.0782,
	"step": 55
	},
	{
	"epoch": 1.7431906614785992,
	"grad_norm": 0.05791952833533287,
	"learning_rate": 0.00010825793454723325,
	"loss": 1.0774,
	"step": 56
	},
	{
	"epoch": 1.7431906614785992,
	"eval_loss": 1.0816473960876465,
	"eval_runtime": 34.308,
	"eval_samples_per_second": 29.06,
	"eval_steps_per_second": 0.321,
	"step": 56
	},
	{
	"epoch": 1.7743190661478598,
	"grad_norm": 0.05655137449502945,
	"learning_rate": 0.00010413249742488131,
	"loss": 1.0793,
	"step": 57
	},
	{
	"epoch": 1.8054474708171206,
	"grad_norm": 0.05930772423744202,
	"learning_rate": 0.0001,
	"loss": 1.0765,
	"step": 58
	},
	{
	"epoch": 1.8365758754863815,
	"grad_norm": 0.056934159249067307,
	"learning_rate": 9.586750257511867e-05,
	"loss": 1.0825,
	"step": 59
	},
	{
	"epoch": 1.867704280155642,
	"grad_norm": 0.05056174844503403,
	"learning_rate": 9.174206545276677e-05,
	"loss": 1.074,
	"step": 60
	},
	{
	"epoch": 1.8988326848249026,
	"grad_norm": 0.05416735261678696,
	"learning_rate": 8.763073687306524e-05,
	"loss": 1.0731,
	"step": 61
	},
	{
	"epoch": 1.9299610894941635,
	"grad_norm": 0.05306009575724602,
	"learning_rate": 8.35405409719266e-05,
	"loss": 1.0646,
	"step": 62
	},
	{
	"epoch": 1.9610894941634243,
	"grad_norm": 0.054572440683841705,
	"learning_rate": 7.947846578043659e-05,
	"loss": 1.0697,
	"step": 63
	},
	{
	"epoch": 1.9922178988326849,
	"grad_norm": 0.051973506808280945,
	"learning_rate": 7.54514512859201e-05,
	"loss": 1.065,
	"step": 64
	},
	{
	"epoch": 1.9922178988326849,
	"eval_loss": 1.0657449960708618,
	"eval_runtime": 34.2892,
	"eval_samples_per_second": 29.076,
	"eval_steps_per_second": 0.321,
	"step": 64
	},
	{
	"epoch": 2.0233463035019454,
	"grad_norm": 0.048152584582567215,
	"learning_rate": 7.146637757508949e-05,
	"loss": 1.0629,
	"step": 65
	},
	{
	"epoch": 2.054474708171206,
	"grad_norm": 0.04994530603289604,
	"learning_rate": 6.753005307953167e-05,
	"loss": 1.0516,
	"step": 66
	},
	{
	"epoch": 2.085603112840467,
	"grad_norm": 0.05009295791387558,
	"learning_rate": 6.3649202943617e-05,
	"loss": 1.0526,
	"step": 67
	},
	{
	"epoch": 2.1167315175097277,
	"grad_norm": 0.05345555767416954,
	"learning_rate": 5.983045753470308e-05,
	"loss": 1.0553,
	"step": 68
	},
	{
	"epoch": 2.1478599221789882,
	"grad_norm": 0.04756650701165199,
	"learning_rate": 5.608034111526298e-05,
	"loss": 1.059,
	"step": 69
	},
	{
	"epoch": 2.178988326848249,
	"grad_norm": 0.04925397038459778,
	"learning_rate": 5.240526069629265e-05,
	"loss": 1.0508,
	"step": 70
	},
	{
	"epoch": 2.21011673151751,
	"grad_norm": 0.05096421390771866,
	"learning_rate": 4.8811495091039926e-05,
	"loss": 1.0472,
	"step": 71
	},
	{
	"epoch": 2.2412451361867705,
	"grad_norm": 0.047330863773822784,
	"learning_rate": 4.530518418775733e-05,
	"loss": 1.055,
	"step": 72
	},
	{
	"epoch": 2.2412451361867705,
	"eval_loss": 1.0550851821899414,
	"eval_runtime": 34.2738,
	"eval_samples_per_second": 29.089,
	"eval_steps_per_second": 0.321,
	"step": 72
	},
	{
	"epoch": 2.272373540856031,
	"grad_norm": 0.04690932855010033,
	"learning_rate": 4.189231845980618e-05,
	"loss": 1.0495,
	"step": 73
	},
	{
	"epoch": 2.3035019455252916,
	"grad_norm": 0.04692551866173744,
	"learning_rate": 3.857872873103322e-05,
	"loss": 1.0561,
	"step": 74
	},
	{
	"epoch": 2.3346303501945527,
	"grad_norm": 0.04910856485366821,
	"learning_rate": 3.53700762139059e-05,
	"loss": 1.0459,
	"step": 75
	},
	{
	"epoch": 2.3657587548638133,
	"grad_norm": 0.04869484528899193,
	"learning_rate": 3.227184283742591e-05,
	"loss": 1.0373,
	"step": 76
	},
	{
	"epoch": 2.396887159533074,
	"grad_norm": 0.045992154628038406,
	"learning_rate": 2.9289321881345254e-05,
	"loss": 1.0306,
	"step": 77
	}
	],
	"logging_steps": 1,
	"max_steps": 96,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 11,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.2048140774938247e+19,
	"train_batch_size": 12,
	"trial_name": null,
	"trial_params": null
	}