airoboros-7b / trainer_state.json

Upload folder using huggingface_hub

19ce73b about 1 year ago

16 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9961389961389961,
	"global_step": 129,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.285,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.2933,
	"step": 2
	},
	{
	"epoch": 0.02,
	"learning_rate": 1e-05,
	"loss": 0.2853,
	"step": 3
	},
	{
	"epoch": 0.03,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.2804,
	"step": 4
	},
	{
	"epoch": 0.04,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.2834,
	"step": 5
	},
	{
	"epoch": 0.05,
	"learning_rate": 2e-05,
	"loss": 0.2805,
	"step": 6
	},
	{
	"epoch": 0.05,
	"learning_rate": 1.9996738360808566e-05,
	"loss": 0.2805,
	"step": 7
	},
	{
	"epoch": 0.06,
	"learning_rate": 1.9986955570892302e-05,
	"loss": 0.2906,
	"step": 8
	},
	{
	"epoch": 0.07,
	"learning_rate": 1.9970658011837404e-05,
	"loss": 0.2822,
	"step": 9
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.994785631499535e-05,
	"loss": 0.2994,
	"step": 10
	},
	{
	"epoch": 0.08,
	"learning_rate": 1.9918565354547738e-05,
	"loss": 0.3013,
	"step": 11
	},
	{
	"epoch": 0.09,
	"learning_rate": 1.9882804237803487e-05,
	"loss": 0.2954,
	"step": 12
	},
	{
	"epoch": 0.1,
	"learning_rate": 1.9840596292734573e-05,
	"loss": 0.2929,
	"step": 13
	},
	{
	"epoch": 0.11,
	"learning_rate": 1.9791969052758563e-05,
	"loss": 0.2956,
	"step": 14
	},
	{
	"epoch": 0.12,
	"learning_rate": 1.9736954238777793e-05,
	"loss": 0.3002,
	"step": 15
	},
	{
	"epoch": 0.12,
	"learning_rate": 1.9675587738486935e-05,
	"loss": 0.2918,
	"step": 16
	},
	{
	"epoch": 0.13,
	"learning_rate": 1.9607909582962478e-05,
	"loss": 0.2791,
	"step": 17
	},
	{
	"epoch": 0.14,
	"learning_rate": 1.9533963920549307e-05,
	"loss": 0.2777,
	"step": 18
	},
	{
	"epoch": 0.15,
	"learning_rate": 1.9453798988061535e-05,
	"loss": 0.2885,
	"step": 19
	},
	{
	"epoch": 0.15,
	"learning_rate": 1.936746707931628e-05,
	"loss": 0.2957,
	"step": 20
	},
	{
	"epoch": 0.16,
	"learning_rate": 1.927502451102095e-05,
	"loss": 0.2913,
	"step": 21
	},
	{
	"epoch": 0.17,
	"learning_rate": 1.9176531586036282e-05,
	"loss": 0.2945,
	"step": 22
	},
	{
	"epoch": 0.18,
	"learning_rate": 1.9072052554039123e-05,
	"loss": 0.2802,
	"step": 23
	},
	{
	"epoch": 0.19,
	"learning_rate": 1.8961655569610557e-05,
	"loss": 0.2885,
	"step": 24
	},
	{
	"epoch": 0.19,
	"learning_rate": 1.8845412647776795e-05,
	"loss": 0.2888,
	"step": 25
	},
	{
	"epoch": 0.2,
	"learning_rate": 1.8723399617031754e-05,
	"loss": 0.2772,
	"step": 26
	},
	{
	"epoch": 0.21,
	"learning_rate": 1.8595696069872013e-05,
	"loss": 0.2705,
	"step": 27
	},
	{
	"epoch": 0.22,
	"learning_rate": 1.8462385310876444e-05,
	"loss": 0.2831,
	"step": 28
	},
	{
	"epoch": 0.22,
	"learning_rate": 1.8323554302364273e-05,
	"loss": 0.28,
	"step": 29
	},
	{
	"epoch": 0.23,
	"learning_rate": 1.8179293607667177e-05,
	"loss": 0.28,
	"step": 30
	},
	{
	"epoch": 0.24,
	"learning_rate": 1.8029697332052277e-05,
	"loss": 0.2819,
	"step": 31
	},
	{
	"epoch": 0.25,
	"learning_rate": 1.7874863061334658e-05,
	"loss": 0.2847,
	"step": 32
	},
	{
	"epoch": 0.25,
	"learning_rate": 1.7714891798219432e-05,
	"loss": 0.2809,
	"step": 33
	},
	{
	"epoch": 0.26,
	"learning_rate": 1.7549887896414853e-05,
	"loss": 0.2666,
	"step": 34
	},
	{
	"epoch": 0.27,
	"learning_rate": 1.7379958992559494e-05,
	"loss": 0.2837,
	"step": 35
	},
	{
	"epoch": 0.28,
	"learning_rate": 1.720521593600787e-05,
	"loss": 0.2822,
	"step": 36
	},
	{
	"epoch": 0.29,
	"learning_rate": 1.7025772716520324e-05,
	"loss": 0.2764,
	"step": 37
	},
	{
	"epoch": 0.29,
	"learning_rate": 1.6841746389904306e-05,
	"loss": 0.2795,
	"step": 38
	},
	{
	"epoch": 0.3,
	"learning_rate": 1.6653257001655652e-05,
	"loss": 0.2686,
	"step": 39
	},
	{
	"epoch": 0.31,
	"learning_rate": 1.6460427508649546e-05,
	"loss": 0.2655,
	"step": 40
	},
	{
	"epoch": 0.32,
	"learning_rate": 1.6263383698932307e-05,
	"loss": 0.2715,
	"step": 41
	},
	{
	"epoch": 0.32,
	"learning_rate": 1.6062254109666383e-05,
	"loss": 0.276,
	"step": 42
	},
	{
	"epoch": 0.33,
	"learning_rate": 1.5857169943281948e-05,
	"loss": 0.274,
	"step": 43
	},
	{
	"epoch": 0.34,
	"learning_rate": 1.5648264981889936e-05,
	"loss": 0.2831,
	"step": 44
	},
	{
	"epoch": 0.35,
	"learning_rate": 1.5435675500012212e-05,
	"loss": 0.2685,
	"step": 45
	},
	{
	"epoch": 0.36,
	"learning_rate": 1.5219540175685938e-05,
	"loss": 0.2746,
	"step": 46
	},
	{
	"epoch": 0.36,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.2624,
	"step": 47
	},
	{
	"epoch": 0.37,
	"learning_rate": 1.477719818512263e-05,
	"loss": 0.2709,
	"step": 48
	},
	{
	"epoch": 0.38,
	"learning_rate": 1.4551280070880089e-05,
	"loss": 0.2801,
	"step": 49
	},
	{
	"epoch": 0.39,
	"learning_rate": 1.432239302994747e-05,
	"loss": 0.2724,
	"step": 50
	},
	{
	"epoch": 0.39,
	"learning_rate": 1.4090686371713403e-05,
	"loss": 0.2661,
	"step": 51
	},
	{
	"epoch": 0.4,
	"learning_rate": 1.385631124488136e-05,
	"loss": 0.262,
	"step": 52
	},
	{
	"epoch": 0.41,
	"learning_rate": 1.361942053887118e-05,
	"loss": 0.2653,
	"step": 53
	},
	{
	"epoch": 0.42,
	"learning_rate": 1.3380168784085028e-05,
	"loss": 0.2618,
	"step": 54
	},
	{
	"epoch": 0.42,
	"learning_rate": 1.3138712051102908e-05,
	"loss": 0.2619,
	"step": 55
	},
	{
	"epoch": 0.43,
	"learning_rate": 1.2895207848873488e-05,
	"loss": 0.2597,
	"step": 56
	},
	{
	"epoch": 0.44,
	"learning_rate": 1.264981502196662e-05,
	"loss": 0.2592,
	"step": 57
	},
	{
	"epoch": 0.45,
	"learning_rate": 1.2402693646954607e-05,
	"loss": 0.2658,
	"step": 58
	},
	{
	"epoch": 0.46,
	"learning_rate": 1.2154004927989815e-05,
	"loss": 0.2535,
	"step": 59
	},
	{
	"epoch": 0.46,
	"learning_rate": 1.1903911091646684e-05,
	"loss": 0.2711,
	"step": 60
	},
	{
	"epoch": 0.47,
	"learning_rate": 1.165257528109685e-05,
	"loss": 0.2601,
	"step": 61
	},
	{
	"epoch": 0.48,
	"learning_rate": 1.1400161449686293e-05,
	"loss": 0.2532,
	"step": 62
	},
	{
	"epoch": 0.49,
	"learning_rate": 1.1146834253984008e-05,
	"loss": 0.2621,
	"step": 63
	},
	{
	"epoch": 0.49,
	"learning_rate": 1.0892758946371943e-05,
	"loss": 0.2612,
	"step": 64
	},
	{
	"epoch": 0.5,
	"learning_rate": 1.0638101267246283e-05,
	"loss": 0.2521,
	"step": 65
	},
	{
	"epoch": 0.51,
	"learning_rate": 1.0383027336900356e-05,
	"loss": 0.2611,
	"step": 66
	},
	{
	"epoch": 0.52,
	"learning_rate": 1.012770354715974e-05,
	"loss": 0.256,
	"step": 67
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.872296452840266e-06,
	"loss": 0.2584,
	"step": 68
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.616972663099648e-06,
	"loss": 0.2502,
	"step": 69
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.361898732753715e-06,
	"loss": 0.2384,
	"step": 70
	},
	{
	"epoch": 0.55,
	"learning_rate": 9.107241053628058e-06,
	"loss": 0.258,
	"step": 71
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.853165746015997e-06,
	"loss": 0.2536,
	"step": 72
	},
	{
	"epoch": 0.56,
	"learning_rate": 8.599838550313714e-06,
	"loss": 0.263,
	"step": 73
	},
	{
	"epoch": 0.57,
	"learning_rate": 8.347424718903152e-06,
	"loss": 0.247,
	"step": 74
	},
	{
	"epoch": 0.58,
	"learning_rate": 8.096088908353316e-06,
	"loss": 0.2523,
	"step": 75
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.845995072010188e-06,
	"loss": 0.2454,
	"step": 76
	},
	{
	"epoch": 0.59,
	"learning_rate": 7.597306353045393e-06,
	"loss": 0.2618,
	"step": 77
	},
	{
	"epoch": 0.6,
	"learning_rate": 7.350184978033386e-06,
	"loss": 0.2536,
	"step": 78
	},
	{
	"epoch": 0.61,
	"learning_rate": 7.104792151126515e-06,
	"loss": 0.2454,
	"step": 79
	},
	{
	"epoch": 0.62,
	"learning_rate": 6.861287948897091e-06,
	"loss": 0.2636,
	"step": 80
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.619831215914974e-06,
	"loss": 0.2415,
	"step": 81
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.38057946112882e-06,
	"loss": 0.2415,
	"step": 82
	},
	{
	"epoch": 0.64,
	"learning_rate": 6.1436887551186466e-06,
	"loss": 0.248,
	"step": 83
	},
	{
	"epoch": 0.65,
	"learning_rate": 5.9093136282866014e-06,
	"loss": 0.247,
	"step": 84
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.67760697005253e-06,
	"loss": 0.245,
	"step": 85
	},
	{
	"epoch": 0.66,
	"learning_rate": 5.448719929119916e-06,
	"loss": 0.2298,
	"step": 86
	},
	{
	"epoch": 0.67,
	"learning_rate": 5.22280181487737e-06,
	"loss": 0.2465,
	"step": 87
	},
	{
	"epoch": 0.68,
	"learning_rate": 5.000000000000003e-06,
	"loss": 0.2403,
	"step": 88
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.7804598243140664e-06,
	"loss": 0.242,
	"step": 89
	},
	{
	"epoch": 0.69,
	"learning_rate": 4.56432449998779e-06,
	"loss": 0.2402,
	"step": 90
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.351735018110066e-06,
	"loss": 0.2423,
	"step": 91
	},
	{
	"epoch": 0.71,
	"learning_rate": 4.142830056718052e-06,
	"loss": 0.2453,
	"step": 92
	},
	{
	"epoch": 0.72,
	"learning_rate": 3.937745890333623e-06,
	"loss": 0.2467,
	"step": 93
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.7366163010676937e-06,
	"loss": 0.2354,
	"step": 94
	},
	{
	"epoch": 0.73,
	"learning_rate": 3.5395724913504546e-06,
	"loss": 0.2497,
	"step": 95
	},
	{
	"epoch": 0.74,
	"learning_rate": 3.3467429983443477e-06,
	"loss": 0.2362,
	"step": 96
	},
	{
	"epoch": 0.75,
	"learning_rate": 3.1582536100956973e-06,
	"loss": 0.2444,
	"step": 97
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.9742272834796813e-06,
	"loss": 0.2495,
	"step": 98
	},
	{
	"epoch": 0.76,
	"learning_rate": 2.7947840639921308e-06,
	"loss": 0.2242,
	"step": 99
	},
	{
	"epoch": 0.77,
	"learning_rate": 2.620041007440508e-06,
	"loss": 0.2356,
	"step": 100
	},
	{
	"epoch": 0.78,
	"learning_rate": 2.4501121035851494e-06,
	"loss": 0.2369,
	"step": 101
	},
	{
	"epoch": 0.79,
	"learning_rate": 2.2851082017805704e-06,
	"loss": 0.2424,
	"step": 102
	},
	{
	"epoch": 0.8,
	"learning_rate": 2.1251369386653454e-06,
	"loss": 0.248,
	"step": 103
	},
	{
	"epoch": 0.8,
	"learning_rate": 1.9703026679477253e-06,
	"loss": 0.2354,
	"step": 104
	},
	{
	"epoch": 0.81,
	"learning_rate": 1.820706392332824e-06,
	"loss": 0.2518,
	"step": 105
	},
	{
	"epoch": 0.82,
	"learning_rate": 1.6764456976357279e-06,
	"loss": 0.2402,
	"step": 106
	},
	{
	"epoch": 0.83,
	"learning_rate": 1.53761468912356e-06,
	"loss": 0.2509,
	"step": 107
	},
	{
	"epoch": 0.83,
	"learning_rate": 1.4043039301279904e-06,
	"loss": 0.2446,
	"step": 108
	},
	{
	"epoch": 0.84,
	"learning_rate": 1.2766003829682504e-06,
	"loss": 0.2343,
	"step": 109
	},
	{
	"epoch": 0.85,
	"learning_rate": 1.1545873522232055e-06,
	"loss": 0.2363,
	"step": 110
	},
	{
	"epoch": 0.86,
	"learning_rate": 1.0383444303894453e-06,
	"loss": 0.2332,
	"step": 111
	},
	{
	"epoch": 0.86,
	"learning_rate": 9.279474459608806e-07,
	"loss": 0.2388,
	"step": 112
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.234684139637205e-07,
	"loss": 0.2414,
	"step": 113
	},
	{
	"epoch": 0.88,
	"learning_rate": 7.249754889790539e-07,
	"loss": 0.2407,
	"step": 114
	},
	{
	"epoch": 0.89,
	"learning_rate": 6.325329206837217e-07,
	"loss": 0.2363,
	"step": 115
	},
	{
	"epoch": 0.9,
	"learning_rate": 5.462010119384665e-07,
	"loss": 0.2463,
	"step": 116
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.660360794506946e-07,
	"loss": 0.2328,
	"step": 117
	},
	{
	"epoch": 0.91,
	"learning_rate": 3.920904170375239e-07,
	"loss": 0.2308,
	"step": 118
	},
	{
	"epoch": 0.92,
	"learning_rate": 3.2441226151306403e-07,
	"loss": 0.2474,
	"step": 119
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.6304576122221035e-07,
	"loss": 0.2353,
	"step": 120
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0803094724143879e-07,
	"loss": 0.2331,
	"step": 121
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.5940370726542864e-07,
	"loss": 0.2374,
	"step": 122
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.1719576219651585e-07,
	"loss": 0.2279,
	"step": 123
	},
	{
	"epoch": 0.96,
	"learning_rate": 8.143464545226298e-08,
	"loss": 0.2498,
	"step": 124
	},
	{
	"epoch": 0.97,
	"learning_rate": 5.214368500465305e-08,
	"loss": 0.2452,
	"step": 125
	},
	{
	"epoch": 0.97,
	"learning_rate": 2.9341988162595593e-08,
	"loss": 0.2374,
	"step": 126
	},
	{
	"epoch": 0.98,
	"learning_rate": 1.3044429107700319e-08,
	"loss": 0.2405,
	"step": 127
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.2616391914364056e-09,
	"loss": 0.246,
	"step": 128
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0,
	"loss": 0.2311,
	"step": 129
	},
	{
	"epoch": 1.0,
	"step": 129,
	"total_flos": 1.0254156470912287e+18,
	"train_loss": 0.2606376674055129,
	"train_runtime": 20090.4454,
	"train_samples_per_second": 4.947,
	"train_steps_per_second": 0.006
	}
	],
	"max_steps": 129,
	"num_train_epochs": 1,
	"total_flos": 1.0254156470912287e+18,
	"trial_name": null,
	"trial_params": null
	}