Upload folder using huggingface_hub

90bfee7 verified 3 months ago

18.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.07450407704020913,
	"eval_steps": 1024,
	"global_step": 7168,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002660859894293183,
	"grad_norm": 1.2474960088729858,
	"learning_rate": 4.416349151368202e-06,
	"loss": 10.7959,
	"step": 256
	},
	{
	"epoch": 0.005321719788586366,
	"grad_norm": 0.9909601807594299,
	"learning_rate": 8.85001731901628e-06,
	"loss": 10.0541,
	"step": 512
	},
	{
	"epoch": 0.00798257968287955,
	"grad_norm": 0.8707857728004456,
	"learning_rate": 1.3283685486664357e-05,
	"loss": 9.0128,
	"step": 768
	},
	{
	"epoch": 0.010643439577172733,
	"grad_norm": 0.8646675944328308,
	"learning_rate": 1.7717353654312436e-05,
	"loss": 8.0258,
	"step": 1024
	},
	{
	"epoch": 0.010643439577172733,
	"eval_acr_loss": 0.010622835965477861,
	"eval_across_var": 0.012448028806829825,
	"eval_bleu": 0.09796718659972453,
	"eval_ce_loss": 7.011146575212479,
	"eval_cos_loss": 0.9561333861202002,
	"eval_cov": 0.06968498229980469,
	"eval_cov_loss": 0.007897357034380548,
	"eval_glb_loss": 0.4064090773463249,
	"eval_global_kurtosis": 3.1536246612668037,
	"eval_global_mean": -0.0043766796588897705,
	"eval_global_var": 0.26236724853515625,
	"eval_krt_loss": 0.02414830235647969,
	"eval_loss": 7.440777659416199,
	"eval_mean_loss": 2.432924324580199e-05,
	"eval_mse_loss": 1.9190465211868286,
	"eval_per_loss": 0.3546135723590851,
	"eval_per_var": 0.25460052490234375,
	"eval_within_var": 0.2497538859024644,
	"eval_wth_loss": 0.42283743154257536,
	"step": 1024
	},
	{
	"epoch": 0.010643439577172733,
	"eval_acr_loss": 0.010622835965477861,
	"eval_across_var": 0.012448028806829825,
	"eval_bleu": 0.09796718659972453,
	"eval_ce_loss": 7.011146575212479,
	"eval_cos_loss": 0.9561333861202002,
	"eval_cov": 0.06968498229980469,
	"eval_cov_loss": 0.007897357034380548,
	"eval_glb_loss": 0.4064090773463249,
	"eval_global_kurtosis": 3.1536246612668037,
	"eval_global_mean": -0.0043766796588897705,
	"eval_global_var": 0.26236724853515625,
	"eval_krt_loss": 0.02414830235647969,
	"eval_loss": 7.440777659416199,
	"eval_mean_loss": 2.432924324580199e-05,
	"eval_mse_loss": 1.9190465211868286,
	"eval_per_loss": 0.3546135723590851,
	"eval_per_var": 0.25460052490234375,
	"eval_runtime": 10.2924,
	"eval_samples_per_second": 194.318,
	"eval_steps_per_second": 3.109,
	"eval_within_var": 0.2497538859024644,
	"eval_wth_loss": 0.42283743154257536,
	"step": 1024
	},
	{
	"epoch": 0.013304299471465915,
	"grad_norm": 0.8640124797821045,
	"learning_rate": 2.2151021821960514e-05,
	"loss": 7.0717,
	"step": 1280
	},
	{
	"epoch": 0.0159651593657591,
	"grad_norm": 0.7730758190155029,
	"learning_rate": 2.6584689989608592e-05,
	"loss": 6.1186,
	"step": 1536
	},
	{
	"epoch": 0.018626019260052282,
	"grad_norm": 0.6963288187980652,
	"learning_rate": 3.1018358157256674e-05,
	"loss": 5.2034,
	"step": 1792
	},
	{
	"epoch": 0.021286879154345465,
	"grad_norm": 0.5616676211357117,
	"learning_rate": 3.5452026324904745e-05,
	"loss": 4.3736,
	"step": 2048
	},
	{
	"epoch": 0.021286879154345465,
	"eval_acr_loss": 0.012247161677805707,
	"eval_across_var": 0.012088194896932691,
	"eval_bleu": 0.3414767015551533,
	"eval_ce_loss": 3.459592819213867,
	"eval_cos_loss": 0.9247305598109961,
	"eval_cov": 0.0738067626953125,
	"eval_cov_loss": 0.008805307501461357,
	"eval_glb_loss": 0.354451559484005,
	"eval_global_kurtosis": 3.0689163729548454,
	"eval_global_mean": -0.004139065742492676,
	"eval_global_var": 0.30448150634765625,
	"eval_krt_loss": 0.005096593113194103,
	"eval_loss": 3.872511200606823,
	"eval_mean_loss": 2.0987964205687604e-05,
	"eval_mse_loss": 1.9079551436007023,
	"eval_per_loss": 0.3076172471046448,
	"eval_per_var": 0.29547882080078125,
	"eval_within_var": 0.29124921560287476,
	"eval_wth_loss": 0.3706007469445467,
	"step": 2048
	},
	{
	"epoch": 0.021286879154345465,
	"eval_acr_loss": 0.012247161677805707,
	"eval_across_var": 0.012088194896932691,
	"eval_bleu": 0.3414767015551533,
	"eval_ce_loss": 3.459592819213867,
	"eval_cos_loss": 0.9247305598109961,
	"eval_cov": 0.0738067626953125,
	"eval_cov_loss": 0.008805307501461357,
	"eval_glb_loss": 0.354451559484005,
	"eval_global_kurtosis": 3.0689163729548454,
	"eval_global_mean": -0.004139065742492676,
	"eval_global_var": 0.30448150634765625,
	"eval_krt_loss": 0.005096593113194103,
	"eval_loss": 3.872511200606823,
	"eval_mean_loss": 2.0987964205687604e-05,
	"eval_mse_loss": 1.9079551436007023,
	"eval_per_loss": 0.3076172471046448,
	"eval_per_var": 0.29547882080078125,
	"eval_runtime": 9.9029,
	"eval_samples_per_second": 201.962,
	"eval_steps_per_second": 3.231,
	"eval_within_var": 0.29124921560287476,
	"eval_wth_loss": 0.3706007469445467,
	"step": 2048
	},
	{
	"epoch": 0.023947739048638648,
	"grad_norm": 0.44369781017303467,
	"learning_rate": 3.988569449255283e-05,
	"loss": 3.6681,
	"step": 2304
	},
	{
	"epoch": 0.02660859894293183,
	"grad_norm": 0.3687000274658203,
	"learning_rate": 4.43193626602009e-05,
	"loss": 3.0886,
	"step": 2560
	},
	{
	"epoch": 0.029269458837225013,
	"grad_norm": 0.3568866550922394,
	"learning_rate": 4.875303082784898e-05,
	"loss": 2.6049,
	"step": 2816
	},
	{
	"epoch": 0.0319303187315182,
	"grad_norm": 0.2986361086368561,
	"learning_rate": 4.9999520413849384e-05,
	"loss": 2.2063,
	"step": 3072
	},
	{
	"epoch": 0.0319303187315182,
	"eval_acr_loss": 0.011944463331019506,
	"eval_across_var": 0.025048962590517476,
	"eval_bleu": 0.5783938497071468,
	"eval_ce_loss": 1.5567151941359043,
	"eval_cos_loss": 0.8373732026666403,
	"eval_cov": 0.10790634155273438,
	"eval_cov_loss": 0.01786720016389154,
	"eval_glb_loss": 0.08421005308628082,
	"eval_global_kurtosis": 3.042153775691986,
	"eval_global_mean": -0.0013459473848342896,
	"eval_global_var": 0.60980224609375,
	"eval_krt_loss": 0.0020023469523948734,
	"eval_loss": 1.9125033244490623,
	"eval_mean_loss": 9.189085614202952e-06,
	"eval_mse_loss": 1.798950683325529,
	"eval_per_loss": 0.06572123290970922,
	"eval_per_var": 0.59381103515625,
	"eval_within_var": 0.5743193719536066,
	"eval_wth_loss": 0.10620259935967624,
	"step": 3072
	},
	{
	"epoch": 0.0319303187315182,
	"eval_acr_loss": 0.011944463331019506,
	"eval_across_var": 0.025048962590517476,
	"eval_bleu": 0.5783938497071468,
	"eval_ce_loss": 1.5567151941359043,
	"eval_cos_loss": 0.8373732026666403,
	"eval_cov": 0.10790634155273438,
	"eval_cov_loss": 0.01786720016389154,
	"eval_glb_loss": 0.08421005308628082,
	"eval_global_kurtosis": 3.042153775691986,
	"eval_global_mean": -0.0013459473848342896,
	"eval_global_var": 0.60980224609375,
	"eval_krt_loss": 0.0020023469523948734,
	"eval_loss": 1.9125033244490623,
	"eval_mean_loss": 9.189085614202952e-06,
	"eval_mse_loss": 1.798950683325529,
	"eval_per_loss": 0.06572123290970922,
	"eval_per_var": 0.59381103515625,
	"eval_runtime": 10.4973,
	"eval_samples_per_second": 190.525,
	"eval_steps_per_second": 3.048,
	"eval_within_var": 0.5743193719536066,
	"eval_wth_loss": 0.10620259935967624,
	"step": 3072
	},
	{
	"epoch": 0.03459117862581138,
	"grad_norm": 0.270656943321228,
	"learning_rate": 4.9997257606389056e-05,
	"loss": 1.8881,
	"step": 3328
	},
	{
	"epoch": 0.037252038520104565,
	"grad_norm": 0.24188651144504547,
	"learning_rate": 4.999313831167736e-05,
	"loss": 1.6388,
	"step": 3584
	},
	{
	"epoch": 0.03991289841439775,
	"grad_norm": 0.2294900268316269,
	"learning_rate": 4.998716283564454e-05,
	"loss": 1.4382,
	"step": 3840
	},
	{
	"epoch": 0.04257375830869093,
	"grad_norm": 0.20773501694202423,
	"learning_rate": 4.99793316220751e-05,
	"loss": 1.2713,
	"step": 4096
	},
	{
	"epoch": 0.04257375830869093,
	"eval_acr_loss": 0.011318061951897107,
	"eval_across_var": 0.037467821151949465,
	"eval_bleu": 0.7398917090811331,
	"eval_ce_loss": 0.8147697541862726,
	"eval_cos_loss": 0.739902313798666,
	"eval_cov": 0.09920120239257812,
	"eval_cov_loss": 0.015144521807087585,
	"eval_glb_loss": 0.0026292089896742254,
	"eval_global_kurtosis": 3.0431209057569504,
	"eval_global_mean": 0.0002828165888786316,
	"eval_global_var": 0.849639892578125,
	"eval_krt_loss": 0.002429395680081825,
	"eval_loss": 1.1247494276612997,
	"eval_mean_loss": 1.0841616662204956e-05,
	"eval_mse_loss": 1.6548683494329453,
	"eval_per_loss": 0.0006620931362704141,
	"eval_per_var": 0.826202392578125,
	"eval_within_var": 0.8049256391823292,
	"eval_wth_loss": 0.009282346058171242,
	"step": 4096
	},
	{
	"epoch": 0.04257375830869093,
	"eval_acr_loss": 0.011318061951897107,
	"eval_across_var": 0.037467821151949465,
	"eval_bleu": 0.7398917090811331,
	"eval_ce_loss": 0.8147697541862726,
	"eval_cos_loss": 0.739902313798666,
	"eval_cov": 0.09920120239257812,
	"eval_cov_loss": 0.015144521807087585,
	"eval_glb_loss": 0.0026292089896742254,
	"eval_global_kurtosis": 3.0431209057569504,
	"eval_global_mean": 0.0002828165888786316,
	"eval_global_var": 0.849639892578125,
	"eval_krt_loss": 0.002429395680081825,
	"eval_loss": 1.1247494276612997,
	"eval_mean_loss": 1.0841616662204956e-05,
	"eval_mse_loss": 1.6548683494329453,
	"eval_per_loss": 0.0006620931362704141,
	"eval_per_var": 0.826202392578125,
	"eval_runtime": 10.0939,
	"eval_samples_per_second": 198.14,
	"eval_steps_per_second": 3.17,
	"eval_within_var": 0.8049256391823292,
	"eval_wth_loss": 0.009282346058171242,
	"step": 4096
	},
	{
	"epoch": 0.04523461820298411,
	"grad_norm": 0.1941945105791092,
	"learning_rate": 4.996964525257477e-05,
	"loss": 1.1364,
	"step": 4352
	},
	{
	"epoch": 0.047895478097277296,
	"grad_norm": 0.17706365883350372,
	"learning_rate": 4.995810444652731e-05,
	"loss": 1.0202,
	"step": 4608
	},
	{
	"epoch": 0.05055633799157048,
	"grad_norm": 0.17764592170715332,
	"learning_rate": 4.994471006104112e-05,
	"loss": 0.9256,
	"step": 4864
	},
	{
	"epoch": 0.05321719788586366,
	"grad_norm": 0.1597519963979721,
	"learning_rate": 4.992946309088557e-05,
	"loss": 0.8433,
	"step": 5120
	},
	{
	"epoch": 0.05321719788586366,
	"eval_acr_loss": 0.010796478512929752,
	"eval_across_var": 0.0437286015949212,
	"eval_bleu": 0.8359253777154618,
	"eval_ce_loss": 0.4896330190822482,
	"eval_cos_loss": 0.6560099385678768,
	"eval_cov": 0.08585166931152344,
	"eval_cov_loss": 0.011597162316320464,
	"eval_glb_loss": 0.0,
	"eval_global_kurtosis": 3.051339641213417,
	"eval_global_mean": 0.0004043206572532654,
	"eval_global_var": 0.9364166259765625,
	"eval_krt_loss": 0.0034133701161636054,
	"eval_loss": 0.7659010197967291,
	"eval_mean_loss": 1.1450480416286268e-05,
	"eval_mse_loss": 1.5238465368747711,
	"eval_per_loss": 0.0,
	"eval_per_var": 0.9102935791015625,
	"eval_within_var": 0.8955719340592623,
	"eval_wth_loss": 0.00021194279955238926,
	"step": 5120
	},
	{
	"epoch": 0.05321719788586366,
	"eval_acr_loss": 0.010796478512929752,
	"eval_across_var": 0.0437286015949212,
	"eval_bleu": 0.8359253777154618,
	"eval_ce_loss": 0.4896330190822482,
	"eval_cos_loss": 0.6560099385678768,
	"eval_cov": 0.08585166931152344,
	"eval_cov_loss": 0.011597162316320464,
	"eval_glb_loss": 0.0,
	"eval_global_kurtosis": 3.051339641213417,
	"eval_global_mean": 0.0004043206572532654,
	"eval_global_var": 0.9364166259765625,
	"eval_krt_loss": 0.0034133701161636054,
	"eval_loss": 0.7659010197967291,
	"eval_mean_loss": 1.1450480416286268e-05,
	"eval_mse_loss": 1.5238465368747711,
	"eval_per_loss": 0.0,
	"eval_per_var": 0.9102935791015625,
	"eval_runtime": 10.0333,
	"eval_samples_per_second": 199.336,
	"eval_steps_per_second": 3.189,
	"eval_within_var": 0.8955719340592623,
	"eval_wth_loss": 0.00021194279955238926,
	"step": 5120
	},
	{
	"epoch": 0.055878057780156844,
	"grad_norm": 0.15128253400325775,
	"learning_rate": 4.991236466841708e-05,
	"loss": 0.7748,
	"step": 5376
	},
	{
	"epoch": 0.058538917674450026,
	"grad_norm": 0.15075387060642242,
	"learning_rate": 4.989341606349509e-05,
	"loss": 0.7149,
	"step": 5632
	},
	{
	"epoch": 0.06119977756874321,
	"grad_norm": 0.13722559809684753,
	"learning_rate": 4.987261868338772e-05,
	"loss": 0.6633,
	"step": 5888
	},
	{
	"epoch": 0.0638606374630364,
	"grad_norm": 0.14299507439136505,
	"learning_rate": 4.9849974072667235e-05,
	"loss": 0.6168,
	"step": 6144
	},
	{
	"epoch": 0.0638606374630364,
	"eval_acr_loss": 0.010568196172243915,
	"eval_across_var": 0.050391704426147044,
	"eval_bleu": 0.8864417334039504,
	"eval_ce_loss": 0.3192982799373567,
	"eval_cos_loss": 0.5848112031817436,
	"eval_cov": 0.08610343933105469,
	"eval_cov_loss": 0.011645367194432765,
	"eval_glb_loss": 0.0,
	"eval_global_kurtosis": 3.057781808078289,
	"eval_global_mean": 0.00010520219802856445,
	"eval_global_var": 1.05322265625,
	"eval_krt_loss": 0.00413643000592856,
	"eval_loss": 0.5672316299751401,
	"eval_mean_loss": 1.1898590268621945e-05,
	"eval_mse_loss": 1.4093649201095104,
	"eval_per_loss": 0.0,
	"eval_per_var": 1.0248565673828125,
	"eval_within_var": 1.0096650514751673,
	"eval_wth_loss": 0.0,
	"step": 6144
	},
	{
	"epoch": 0.0638606374630364,
	"eval_acr_loss": 0.010568196172243915,
	"eval_across_var": 0.050391704426147044,
	"eval_bleu": 0.8864417334039504,
	"eval_ce_loss": 0.3192982799373567,
	"eval_cos_loss": 0.5848112031817436,
	"eval_cov": 0.08610343933105469,
	"eval_cov_loss": 0.011645367194432765,
	"eval_glb_loss": 0.0,
	"eval_global_kurtosis": 3.057781808078289,
	"eval_global_mean": 0.00010520219802856445,
	"eval_global_var": 1.05322265625,
	"eval_krt_loss": 0.00413643000592856,
	"eval_loss": 0.5672316299751401,
	"eval_mean_loss": 1.1898590268621945e-05,
	"eval_mse_loss": 1.4093649201095104,
	"eval_per_loss": 0.0,
	"eval_per_var": 1.0248565673828125,
	"eval_runtime": 10.495,
	"eval_samples_per_second": 190.567,
	"eval_steps_per_second": 3.049,
	"eval_within_var": 1.0096650514751673,
	"eval_wth_loss": 0.0,
	"step": 6144
	},
	{
	"epoch": 0.06652149735732958,
	"grad_norm": 0.13175231218338013,
	"learning_rate": 4.9825483913095364e-05,
	"loss": 0.5727,
	"step": 6400
	},
	{
	"epoch": 0.06918235725162276,
	"grad_norm": 0.130602166056633,
	"learning_rate": 4.979915002349838e-05,
	"loss": 0.5411,
	"step": 6656
	},
	{
	"epoch": 0.07184321714591595,
	"grad_norm": 0.12843571603298187,
	"learning_rate": 4.977097435963204e-05,
	"loss": 0.5082,
	"step": 6912
	},
	{
	"epoch": 0.07450407704020913,
	"grad_norm": 0.1221570074558258,
	"learning_rate": 4.974095901403632e-05,
	"loss": 0.4775,
	"step": 7168
	},
	{
	"epoch": 0.07450407704020913,
	"eval_acr_loss": 0.01032613120332826,
	"eval_across_var": 0.055548187578096986,
	"eval_bleu": 0.917825685067053,
	"eval_ce_loss": 0.22222592495381832,
	"eval_cos_loss": 0.5258319452404976,
	"eval_cov": 0.0838165283203125,
	"eval_cov_loss": 0.01109178303158842,
	"eval_glb_loss": 0.0011626811420910599,
	"eval_global_kurtosis": 3.0560965314507484,
	"eval_global_mean": -0.00032412633299827576,
	"eval_global_var": 1.1317138671875,
	"eval_krt_loss": 0.003975647037577801,
	"eval_loss": 0.4466686090454459,
	"eval_mean_loss": 1.2274138283974168e-05,
	"eval_mse_loss": 1.3142655715346336,
	"eval_per_loss": 0.0,
	"eval_per_var": 1.1024169921875,
	"eval_within_var": 1.088273286819458,
	"eval_wth_loss": 4.5452433568016204e-05,
	"step": 7168
	},
	{
	"epoch": 0.07450407704020913,
	"eval_acr_loss": 0.01032613120332826,
	"eval_across_var": 0.055548187578096986,
	"eval_bleu": 0.917825685067053,
	"eval_ce_loss": 0.22222592495381832,
	"eval_cos_loss": 0.5258319452404976,
	"eval_cov": 0.0838165283203125,
	"eval_cov_loss": 0.01109178303158842,
	"eval_glb_loss": 0.0011626811420910599,
	"eval_global_kurtosis": 3.0560965314507484,
	"eval_global_mean": -0.00032412633299827576,
	"eval_global_var": 1.1317138671875,
	"eval_krt_loss": 0.003975647037577801,
	"eval_loss": 0.4466686090454459,
	"eval_mean_loss": 1.2274138283974168e-05,
	"eval_mse_loss": 1.3142655715346336,
	"eval_per_loss": 0.0,
	"eval_per_var": 1.1024169921875,
	"eval_runtime": 10.2975,
	"eval_samples_per_second": 194.222,
	"eval_steps_per_second": 3.108,
	"eval_within_var": 1.088273286819458,
	"eval_wth_loss": 4.5452433568016204e-05,
	"step": 7168
	}
	],
	"logging_steps": 256,
	"max_steps": 96210,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1024,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}