End of training

318e9f7 verified 3 months ago

No virus

35 kB

	{
	"best_metric": 0.7164179104477612,
	"best_model_checkpoint": "videomae-base-finetuned-good-gesturePhaseV5/checkpoint-490",
	"epoch": 19.036231884057973,
	"eval_steps": 500,
	"global_step": 1380,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007246376811594203,
	"grad_norm": 10.268256187438965,
	"learning_rate": 7.246376811594204e-07,
	"loss": 1.7861,
	"step": 10
	},
	{
	"epoch": 0.014492753623188406,
	"grad_norm": 9.569662094116211,
	"learning_rate": 1.4492753623188408e-06,
	"loss": 1.7539,
	"step": 20
	},
	{
	"epoch": 0.021739130434782608,
	"grad_norm": 11.259232521057129,
	"learning_rate": 2.173913043478261e-06,
	"loss": 1.7245,
	"step": 30
	},
	{
	"epoch": 0.028985507246376812,
	"grad_norm": 7.182712554931641,
	"learning_rate": 2.8985507246376816e-06,
	"loss": 1.5819,
	"step": 40
	},
	{
	"epoch": 0.036231884057971016,
	"grad_norm": 7.182448387145996,
	"learning_rate": 3.6231884057971017e-06,
	"loss": 1.4508,
	"step": 50
	},
	{
	"epoch": 0.043478260869565216,
	"grad_norm": 6.293506622314453,
	"learning_rate": 4.347826086956522e-06,
	"loss": 1.2736,
	"step": 60
	},
	{
	"epoch": 0.050724637681159424,
	"grad_norm": 6.1872944831848145,
	"learning_rate": 5.072463768115943e-06,
	"loss": 1.1475,
	"step": 70
	},
	{
	"epoch": 0.050724637681159424,
	"eval_accuracy": 0.5597014925373134,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 1.0,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.0,
	"eval_loss": 1.2558053731918335,
	"eval_runtime": 12.049,
	"eval_samples_per_second": 11.121,
	"eval_steps_per_second": 1.411,
	"step": 70
	},
	{
	"epoch": 1.0072463768115942,
	"grad_norm": 6.2471137046813965,
	"learning_rate": 5.797101449275363e-06,
	"loss": 1.1874,
	"step": 80
	},
	{
	"epoch": 1.0144927536231885,
	"grad_norm": 5.99643611907959,
	"learning_rate": 6.521739130434783e-06,
	"loss": 1.1562,
	"step": 90
	},
	{
	"epoch": 1.0217391304347827,
	"grad_norm": 5.748469829559326,
	"learning_rate": 7.246376811594203e-06,
	"loss": 1.1299,
	"step": 100
	},
	{
	"epoch": 1.0289855072463767,
	"grad_norm": 4.690842628479004,
	"learning_rate": 7.971014492753623e-06,
	"loss": 1.0645,
	"step": 110
	},
	{
	"epoch": 1.036231884057971,
	"grad_norm": 4.702245712280273,
	"learning_rate": 8.695652173913044e-06,
	"loss": 1.3726,
	"step": 120
	},
	{
	"epoch": 1.0434782608695652,
	"grad_norm": 4.664677143096924,
	"learning_rate": 9.420289855072464e-06,
	"loss": 0.9989,
	"step": 130
	},
	{
	"epoch": 1.0507246376811594,
	"grad_norm": 6.247674465179443,
	"learning_rate": 9.98389694041868e-06,
	"loss": 1.2103,
	"step": 140
	},
	{
	"epoch": 1.0507246376811594,
	"eval_accuracy": 0.5597014925373134,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 1.0,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.0,
	"eval_loss": 1.2703653573989868,
	"eval_runtime": 10.5504,
	"eval_samples_per_second": 12.701,
	"eval_steps_per_second": 1.611,
	"step": 140
	},
	{
	"epoch": 2.0072463768115942,
	"grad_norm": 6.113107681274414,
	"learning_rate": 9.903381642512077e-06,
	"loss": 0.9008,
	"step": 150
	},
	{
	"epoch": 2.0144927536231885,
	"grad_norm": 6.213434219360352,
	"learning_rate": 9.822866344605476e-06,
	"loss": 1.3296,
	"step": 160
	},
	{
	"epoch": 2.0217391304347827,
	"grad_norm": 5.969342231750488,
	"learning_rate": 9.742351046698874e-06,
	"loss": 1.2484,
	"step": 170
	},
	{
	"epoch": 2.028985507246377,
	"grad_norm": 7.0032196044921875,
	"learning_rate": 9.66183574879227e-06,
	"loss": 1.1239,
	"step": 180
	},
	{
	"epoch": 2.036231884057971,
	"grad_norm": 5.675483703613281,
	"learning_rate": 9.581320450885669e-06,
	"loss": 1.1508,
	"step": 190
	},
	{
	"epoch": 2.0434782608695654,
	"grad_norm": 5.311893939971924,
	"learning_rate": 9.500805152979067e-06,
	"loss": 1.1376,
	"step": 200
	},
	{
	"epoch": 2.050724637681159,
	"grad_norm": 6.503353118896484,
	"learning_rate": 9.420289855072464e-06,
	"loss": 0.9964,
	"step": 210
	},
	{
	"epoch": 2.050724637681159,
	"eval_accuracy": 0.5597014925373134,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 1.0,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.0,
	"eval_loss": 1.2141785621643066,
	"eval_runtime": 10.6183,
	"eval_samples_per_second": 12.62,
	"eval_steps_per_second": 1.601,
	"step": 210
	},
	{
	"epoch": 3.0072463768115942,
	"grad_norm": 4.335814476013184,
	"learning_rate": 9.339774557165862e-06,
	"loss": 1.059,
	"step": 220
	},
	{
	"epoch": 3.0144927536231885,
	"grad_norm": 6.591854095458984,
	"learning_rate": 9.25925925925926e-06,
	"loss": 1.149,
	"step": 230
	},
	{
	"epoch": 3.0217391304347827,
	"grad_norm": 6.057372570037842,
	"learning_rate": 9.178743961352658e-06,
	"loss": 0.9137,
	"step": 240
	},
	{
	"epoch": 3.028985507246377,
	"grad_norm": 18.623048782348633,
	"learning_rate": 9.098228663446056e-06,
	"loss": 1.1594,
	"step": 250
	},
	{
	"epoch": 3.036231884057971,
	"grad_norm": 8.108168601989746,
	"learning_rate": 9.017713365539453e-06,
	"loss": 1.1682,
	"step": 260
	},
	{
	"epoch": 3.0434782608695654,
	"grad_norm": 8.030190467834473,
	"learning_rate": 8.937198067632851e-06,
	"loss": 1.2166,
	"step": 270
	},
	{
	"epoch": 3.050724637681159,
	"grad_norm": 9.22143268585205,
	"learning_rate": 8.85668276972625e-06,
	"loss": 0.9975,
	"step": 280
	},
	{
	"epoch": 3.050724637681159,
	"eval_accuracy": 0.5970149253731343,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.9733333333333334,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.2692307692307692,
	"eval_loss": 1.0746699571609497,
	"eval_runtime": 10.8059,
	"eval_samples_per_second": 12.401,
	"eval_steps_per_second": 1.573,
	"step": 280
	},
	{
	"epoch": 4.007246376811594,
	"grad_norm": 9.18785285949707,
	"learning_rate": 8.776167471819646e-06,
	"loss": 1.1711,
	"step": 290
	},
	{
	"epoch": 4.0144927536231885,
	"grad_norm": 13.558119773864746,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.8541,
	"step": 300
	},
	{
	"epoch": 4.021739130434782,
	"grad_norm": 25.042736053466797,
	"learning_rate": 8.615136876006443e-06,
	"loss": 0.9376,
	"step": 310
	},
	{
	"epoch": 4.028985507246377,
	"grad_norm": 11.34363079071045,
	"learning_rate": 8.53462157809984e-06,
	"loss": 1.0186,
	"step": 320
	},
	{
	"epoch": 4.036231884057971,
	"grad_norm": 10.07709789276123,
	"learning_rate": 8.454106280193238e-06,
	"loss": 1.0577,
	"step": 330
	},
	{
	"epoch": 4.043478260869565,
	"grad_norm": 10.198676109313965,
	"learning_rate": 8.373590982286636e-06,
	"loss": 1.0924,
	"step": 340
	},
	{
	"epoch": 4.050724637681159,
	"grad_norm": 19.099363327026367,
	"learning_rate": 8.293075684380033e-06,
	"loss": 1.0538,
	"step": 350
	},
	{
	"epoch": 4.050724637681159,
	"eval_accuracy": 0.664179104477612,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.88,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8846153846153846,
	"eval_loss": 0.9621986150741577,
	"eval_runtime": 10.8298,
	"eval_samples_per_second": 12.373,
	"eval_steps_per_second": 1.57,
	"step": 350
	},
	{
	"epoch": 5.007246376811594,
	"grad_norm": 4.384646892547607,
	"learning_rate": 8.212560386473431e-06,
	"loss": 0.9923,
	"step": 360
	},
	{
	"epoch": 5.0144927536231885,
	"grad_norm": 16.15943717956543,
	"learning_rate": 8.132045088566828e-06,
	"loss": 0.937,
	"step": 370
	},
	{
	"epoch": 5.021739130434782,
	"grad_norm": 23.731212615966797,
	"learning_rate": 8.051529790660226e-06,
	"loss": 1.0034,
	"step": 380
	},
	{
	"epoch": 5.028985507246377,
	"grad_norm": 9.929147720336914,
	"learning_rate": 7.971014492753623e-06,
	"loss": 0.9414,
	"step": 390
	},
	{
	"epoch": 5.036231884057971,
	"grad_norm": 7.188724517822266,
	"learning_rate": 7.890499194847021e-06,
	"loss": 0.9633,
	"step": 400
	},
	{
	"epoch": 5.043478260869565,
	"grad_norm": 7.971716403961182,
	"learning_rate": 7.80998389694042e-06,
	"loss": 0.9313,
	"step": 410
	},
	{
	"epoch": 5.050724637681159,
	"grad_norm": 23.818294525146484,
	"learning_rate": 7.729468599033817e-06,
	"loss": 1.0321,
	"step": 420
	},
	{
	"epoch": 5.050724637681159,
	"eval_accuracy": 0.6567164179104478,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8533333333333334,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.9230769230769231,
	"eval_loss": 0.9450957775115967,
	"eval_runtime": 10.5545,
	"eval_samples_per_second": 12.696,
	"eval_steps_per_second": 1.611,
	"step": 420
	},
	{
	"epoch": 6.007246376811594,
	"grad_norm": 6.358923435211182,
	"learning_rate": 7.648953301127215e-06,
	"loss": 0.7638,
	"step": 430
	},
	{
	"epoch": 6.0144927536231885,
	"grad_norm": 7.487329483032227,
	"learning_rate": 7.568438003220613e-06,
	"loss": 0.8216,
	"step": 440
	},
	{
	"epoch": 6.021739130434782,
	"grad_norm": 8.15117359161377,
	"learning_rate": 7.48792270531401e-06,
	"loss": 1.042,
	"step": 450
	},
	{
	"epoch": 6.028985507246377,
	"grad_norm": 8.114563941955566,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 0.8528,
	"step": 460
	},
	{
	"epoch": 6.036231884057971,
	"grad_norm": 10.497995376586914,
	"learning_rate": 7.326892109500806e-06,
	"loss": 1.0731,
	"step": 470
	},
	{
	"epoch": 6.043478260869565,
	"grad_norm": 7.0596818923950195,
	"learning_rate": 7.246376811594203e-06,
	"loss": 0.89,
	"step": 480
	},
	{
	"epoch": 6.050724637681159,
	"grad_norm": 7.714406490325928,
	"learning_rate": 7.165861513687601e-06,
	"loss": 0.7822,
	"step": 490
	},
	{
	"epoch": 6.050724637681159,
	"eval_accuracy": 0.7164179104477612,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.96,
	"eval_accuracy_recovery": 0.08333333333333333,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8846153846153846,
	"eval_loss": 0.8797218203544617,
	"eval_runtime": 10.7094,
	"eval_samples_per_second": 12.512,
	"eval_steps_per_second": 1.587,
	"step": 490
	},
	{
	"epoch": 7.007246376811594,
	"grad_norm": 6.505290508270264,
	"learning_rate": 7.085346215780999e-06,
	"loss": 0.7396,
	"step": 500
	},
	{
	"epoch": 7.0144927536231885,
	"grad_norm": 7.676311492919922,
	"learning_rate": 7.004830917874397e-06,
	"loss": 1.0383,
	"step": 510
	},
	{
	"epoch": 7.021739130434782,
	"grad_norm": 8.093998908996582,
	"learning_rate": 6.924315619967794e-06,
	"loss": 0.841,
	"step": 520
	},
	{
	"epoch": 7.028985507246377,
	"grad_norm": 4.555324077606201,
	"learning_rate": 6.843800322061193e-06,
	"loss": 0.6253,
	"step": 530
	},
	{
	"epoch": 7.036231884057971,
	"grad_norm": 6.43816614151001,
	"learning_rate": 6.76328502415459e-06,
	"loss": 0.9515,
	"step": 540
	},
	{
	"epoch": 7.043478260869565,
	"grad_norm": 10.472518920898438,
	"learning_rate": 6.682769726247987e-06,
	"loss": 1.1703,
	"step": 550
	},
	{
	"epoch": 7.050724637681159,
	"grad_norm": 12.832620620727539,
	"learning_rate": 6.602254428341386e-06,
	"loss": 0.8743,
	"step": 560
	},
	{
	"epoch": 7.050724637681159,
	"eval_accuracy": 0.6791044776119403,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8533333333333334,
	"eval_accuracy_recovery": 0.08333333333333333,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.9399013519287109,
	"eval_runtime": 10.6086,
	"eval_samples_per_second": 12.631,
	"eval_steps_per_second": 1.602,
	"step": 560
	},
	{
	"epoch": 8.007246376811594,
	"grad_norm": 6.019155502319336,
	"learning_rate": 6.521739130434783e-06,
	"loss": 0.8912,
	"step": 570
	},
	{
	"epoch": 8.014492753623188,
	"grad_norm": 5.795660018920898,
	"learning_rate": 6.44122383252818e-06,
	"loss": 0.8103,
	"step": 580
	},
	{
	"epoch": 8.021739130434783,
	"grad_norm": 22.207584381103516,
	"learning_rate": 6.360708534621579e-06,
	"loss": 0.9291,
	"step": 590
	},
	{
	"epoch": 8.028985507246377,
	"grad_norm": 8.41496467590332,
	"learning_rate": 6.280193236714976e-06,
	"loss": 0.8249,
	"step": 600
	},
	{
	"epoch": 8.03623188405797,
	"grad_norm": 19.649620056152344,
	"learning_rate": 6.199677938808374e-06,
	"loss": 0.9209,
	"step": 610
	},
	{
	"epoch": 8.043478260869565,
	"grad_norm": 33.21004867553711,
	"learning_rate": 6.119162640901772e-06,
	"loss": 0.7371,
	"step": 620
	},
	{
	"epoch": 8.05072463768116,
	"grad_norm": 10.654520988464355,
	"learning_rate": 6.03864734299517e-06,
	"loss": 0.7515,
	"step": 630
	},
	{
	"epoch": 8.05072463768116,
	"eval_accuracy": 0.6791044776119403,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8666666666666667,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.928985059261322,
	"eval_runtime": 11.5822,
	"eval_samples_per_second": 11.57,
	"eval_steps_per_second": 1.468,
	"step": 630
	},
	{
	"epoch": 9.007246376811594,
	"grad_norm": 9.228910446166992,
	"learning_rate": 5.958132045088567e-06,
	"loss": 0.8266,
	"step": 640
	},
	{
	"epoch": 9.014492753623188,
	"grad_norm": 6.276782035827637,
	"learning_rate": 5.877616747181965e-06,
	"loss": 0.611,
	"step": 650
	},
	{
	"epoch": 9.021739130434783,
	"grad_norm": 27.36185646057129,
	"learning_rate": 5.797101449275363e-06,
	"loss": 0.8595,
	"step": 660
	},
	{
	"epoch": 9.028985507246377,
	"grad_norm": 13.051177024841309,
	"learning_rate": 5.716586151368761e-06,
	"loss": 1.0073,
	"step": 670
	},
	{
	"epoch": 9.03623188405797,
	"grad_norm": 12.05443000793457,
	"learning_rate": 5.6360708534621574e-06,
	"loss": 0.6386,
	"step": 680
	},
	{
	"epoch": 9.043478260869565,
	"grad_norm": 9.477375984191895,
	"learning_rate": 5.555555555555557e-06,
	"loss": 1.1109,
	"step": 690
	},
	{
	"epoch": 9.05072463768116,
	"grad_norm": 16.6785945892334,
	"learning_rate": 5.475040257648953e-06,
	"loss": 0.8525,
	"step": 700
	},
	{
	"epoch": 9.05072463768116,
	"eval_accuracy": 0.7089552238805971,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.9466666666666667,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8461538461538461,
	"eval_loss": 0.8446803092956543,
	"eval_runtime": 15.7965,
	"eval_samples_per_second": 8.483,
	"eval_steps_per_second": 1.076,
	"step": 700
	},
	{
	"epoch": 10.007246376811594,
	"grad_norm": 12.451231002807617,
	"learning_rate": 5.394524959742351e-06,
	"loss": 0.7396,
	"step": 710
	},
	{
	"epoch": 10.014492753623188,
	"grad_norm": 6.226474761962891,
	"learning_rate": 5.314009661835749e-06,
	"loss": 0.7467,
	"step": 720
	},
	{
	"epoch": 10.021739130434783,
	"grad_norm": 9.991294860839844,
	"learning_rate": 5.233494363929147e-06,
	"loss": 0.8203,
	"step": 730
	},
	{
	"epoch": 10.028985507246377,
	"grad_norm": 18.472450256347656,
	"learning_rate": 5.152979066022544e-06,
	"loss": 0.766,
	"step": 740
	},
	{
	"epoch": 10.03623188405797,
	"grad_norm": 8.452324867248535,
	"learning_rate": 5.072463768115943e-06,
	"loss": 0.8539,
	"step": 750
	},
	{
	"epoch": 10.043478260869565,
	"grad_norm": 18.313405990600586,
	"learning_rate": 4.99194847020934e-06,
	"loss": 0.7443,
	"step": 760
	},
	{
	"epoch": 10.05072463768116,
	"grad_norm": 18.442798614501953,
	"learning_rate": 4.911433172302738e-06,
	"loss": 0.7661,
	"step": 770
	},
	{
	"epoch": 10.05072463768116,
	"eval_accuracy": 0.7089552238805971,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.9066666666666666,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.9615384615384616,
	"eval_loss": 0.7856659293174744,
	"eval_runtime": 10.3807,
	"eval_samples_per_second": 12.909,
	"eval_steps_per_second": 1.638,
	"step": 770
	},
	{
	"epoch": 11.007246376811594,
	"grad_norm": 8.811756134033203,
	"learning_rate": 4.830917874396135e-06,
	"loss": 0.7784,
	"step": 780
	},
	{
	"epoch": 11.014492753623188,
	"grad_norm": 8.056985855102539,
	"learning_rate": 4.750402576489534e-06,
	"loss": 0.7112,
	"step": 790
	},
	{
	"epoch": 11.021739130434783,
	"grad_norm": 5.6117939949035645,
	"learning_rate": 4.669887278582931e-06,
	"loss": 0.6901,
	"step": 800
	},
	{
	"epoch": 11.028985507246377,
	"grad_norm": 8.331842422485352,
	"learning_rate": 4.589371980676329e-06,
	"loss": 0.5963,
	"step": 810
	},
	{
	"epoch": 11.03623188405797,
	"grad_norm": 7.48464822769165,
	"learning_rate": 4.508856682769726e-06,
	"loss": 0.9118,
	"step": 820
	},
	{
	"epoch": 11.043478260869565,
	"grad_norm": 14.966755867004395,
	"learning_rate": 4.428341384863125e-06,
	"loss": 0.8462,
	"step": 830
	},
	{
	"epoch": 11.05072463768116,
	"grad_norm": 13.086145401000977,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.8363,
	"step": 840
	},
	{
	"epoch": 11.05072463768116,
	"eval_accuracy": 0.6865671641791045,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.92,
	"eval_accuracy_recovery": 0.08333333333333333,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8461538461538461,
	"eval_loss": 0.8165404200553894,
	"eval_runtime": 10.6177,
	"eval_samples_per_second": 12.62,
	"eval_steps_per_second": 1.601,
	"step": 840
	},
	{
	"epoch": 12.007246376811594,
	"grad_norm": 13.03532886505127,
	"learning_rate": 4.26731078904992e-06,
	"loss": 0.8312,
	"step": 850
	},
	{
	"epoch": 12.014492753623188,
	"grad_norm": 10.994771957397461,
	"learning_rate": 4.186795491143318e-06,
	"loss": 0.7242,
	"step": 860
	},
	{
	"epoch": 12.021739130434783,
	"grad_norm": 37.28443908691406,
	"learning_rate": 4.106280193236716e-06,
	"loss": 0.8542,
	"step": 870
	},
	{
	"epoch": 12.028985507246377,
	"grad_norm": 15.367025375366211,
	"learning_rate": 4.025764895330113e-06,
	"loss": 0.7253,
	"step": 880
	},
	{
	"epoch": 12.03623188405797,
	"grad_norm": 18.963815689086914,
	"learning_rate": 3.945249597423511e-06,
	"loss": 0.6786,
	"step": 890
	},
	{
	"epoch": 12.043478260869565,
	"grad_norm": 6.912456512451172,
	"learning_rate": 3.864734299516908e-06,
	"loss": 0.6771,
	"step": 900
	},
	{
	"epoch": 12.05072463768116,
	"grad_norm": 11.315908432006836,
	"learning_rate": 3.7842190016103066e-06,
	"loss": 0.659,
	"step": 910
	},
	{
	"epoch": 12.05072463768116,
	"eval_accuracy": 0.7164179104477612,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.9066666666666666,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7950567007064819,
	"eval_runtime": 10.5,
	"eval_samples_per_second": 12.762,
	"eval_steps_per_second": 1.619,
	"step": 910
	},
	{
	"epoch": 13.007246376811594,
	"grad_norm": 14.643826484680176,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 0.7824,
	"step": 920
	},
	{
	"epoch": 13.014492753623188,
	"grad_norm": 10.328850746154785,
	"learning_rate": 3.6231884057971017e-06,
	"loss": 0.7485,
	"step": 930
	},
	{
	"epoch": 13.021739130434783,
	"grad_norm": 13.339781761169434,
	"learning_rate": 3.5426731078904997e-06,
	"loss": 0.6207,
	"step": 940
	},
	{
	"epoch": 13.028985507246377,
	"grad_norm": 15.779186248779297,
	"learning_rate": 3.462157809983897e-06,
	"loss": 0.7358,
	"step": 950
	},
	{
	"epoch": 13.03623188405797,
	"grad_norm": 9.903864860534668,
	"learning_rate": 3.381642512077295e-06,
	"loss": 0.7412,
	"step": 960
	},
	{
	"epoch": 13.043478260869565,
	"grad_norm": 19.546676635742188,
	"learning_rate": 3.301127214170693e-06,
	"loss": 0.6234,
	"step": 970
	},
	{
	"epoch": 13.05072463768116,
	"grad_norm": 11.30717945098877,
	"learning_rate": 3.22061191626409e-06,
	"loss": 0.6274,
	"step": 980
	},
	{
	"epoch": 13.05072463768116,
	"eval_accuracy": 0.7014925373134329,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8933333333333333,
	"eval_accuracy_recovery": 0.08333333333333333,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7753632068634033,
	"eval_runtime": 10.5138,
	"eval_samples_per_second": 12.745,
	"eval_steps_per_second": 1.617,
	"step": 980
	},
	{
	"epoch": 14.007246376811594,
	"grad_norm": 14.222391128540039,
	"learning_rate": 3.140096618357488e-06,
	"loss": 0.6564,
	"step": 990
	},
	{
	"epoch": 14.014492753623188,
	"grad_norm": 9.9340238571167,
	"learning_rate": 3.059581320450886e-06,
	"loss": 0.6258,
	"step": 1000
	},
	{
	"epoch": 14.021739130434783,
	"grad_norm": 21.6451416015625,
	"learning_rate": 2.9790660225442837e-06,
	"loss": 0.7534,
	"step": 1010
	},
	{
	"epoch": 14.028985507246377,
	"grad_norm": 5.2904462814331055,
	"learning_rate": 2.8985507246376816e-06,
	"loss": 0.6742,
	"step": 1020
	},
	{
	"epoch": 14.03623188405797,
	"grad_norm": 12.198628425598145,
	"learning_rate": 2.8180354267310787e-06,
	"loss": 0.6938,
	"step": 1030
	},
	{
	"epoch": 14.043478260869565,
	"grad_norm": 16.807910919189453,
	"learning_rate": 2.7375201288244767e-06,
	"loss": 0.6308,
	"step": 1040
	},
	{
	"epoch": 14.05072463768116,
	"grad_norm": 29.11658477783203,
	"learning_rate": 2.6570048309178746e-06,
	"loss": 0.7292,
	"step": 1050
	},
	{
	"epoch": 14.05072463768116,
	"eval_accuracy": 0.6791044776119403,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8266666666666667,
	"eval_accuracy_recovery": 0.25,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.8128386735916138,
	"eval_runtime": 10.6524,
	"eval_samples_per_second": 12.579,
	"eval_steps_per_second": 1.596,
	"step": 1050
	},
	{
	"epoch": 15.007246376811594,
	"grad_norm": 19.81916046142578,
	"learning_rate": 2.576489533011272e-06,
	"loss": 0.6481,
	"step": 1060
	},
	{
	"epoch": 15.014492753623188,
	"grad_norm": 23.879323959350586,
	"learning_rate": 2.49597423510467e-06,
	"loss": 0.6273,
	"step": 1070
	},
	{
	"epoch": 15.021739130434783,
	"grad_norm": 26.635896682739258,
	"learning_rate": 2.4154589371980677e-06,
	"loss": 0.629,
	"step": 1080
	},
	{
	"epoch": 15.028985507246377,
	"grad_norm": 15.82916259765625,
	"learning_rate": 2.3349436392914656e-06,
	"loss": 0.6142,
	"step": 1090
	},
	{
	"epoch": 15.03623188405797,
	"grad_norm": 29.63594627380371,
	"learning_rate": 2.254428341384863e-06,
	"loss": 0.6727,
	"step": 1100
	},
	{
	"epoch": 15.043478260869565,
	"grad_norm": 15.376564979553223,
	"learning_rate": 2.173913043478261e-06,
	"loss": 0.6719,
	"step": 1110
	},
	{
	"epoch": 15.05072463768116,
	"grad_norm": 19.15326499938965,
	"learning_rate": 2.093397745571659e-06,
	"loss": 0.7447,
	"step": 1120
	},
	{
	"epoch": 15.05072463768116,
	"eval_accuracy": 0.6865671641791045,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.84,
	"eval_accuracy_recovery": 0.25,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7860263586044312,
	"eval_runtime": 10.5021,
	"eval_samples_per_second": 12.759,
	"eval_steps_per_second": 1.619,
	"step": 1120
	},
	{
	"epoch": 16.007246376811594,
	"grad_norm": 12.135031700134277,
	"learning_rate": 2.0128824476650566e-06,
	"loss": 0.6189,
	"step": 1130
	},
	{
	"epoch": 16.014492753623188,
	"grad_norm": 13.124465942382812,
	"learning_rate": 1.932367149758454e-06,
	"loss": 0.5972,
	"step": 1140
	},
	{
	"epoch": 16.02173913043478,
	"grad_norm": 15.266533851623535,
	"learning_rate": 1.8518518518518519e-06,
	"loss": 0.8582,
	"step": 1150
	},
	{
	"epoch": 16.028985507246375,
	"grad_norm": 15.358236312866211,
	"learning_rate": 1.7713365539452498e-06,
	"loss": 0.5844,
	"step": 1160
	},
	{
	"epoch": 16.036231884057973,
	"grad_norm": 28.783262252807617,
	"learning_rate": 1.6908212560386476e-06,
	"loss": 0.6861,
	"step": 1170
	},
	{
	"epoch": 16.043478260869566,
	"grad_norm": 26.525894165039062,
	"learning_rate": 1.610305958132045e-06,
	"loss": 0.5341,
	"step": 1180
	},
	{
	"epoch": 16.05072463768116,
	"grad_norm": 20.598716735839844,
	"learning_rate": 1.529790660225443e-06,
	"loss": 0.5512,
	"step": 1190
	},
	{
	"epoch": 16.05072463768116,
	"eval_accuracy": 0.7014925373134329,
	"eval_accuracy_hold": 0.0625,
	"eval_accuracy_preparation": 0.8666666666666667,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7839486598968506,
	"eval_runtime": 10.6658,
	"eval_samples_per_second": 12.564,
	"eval_steps_per_second": 1.594,
	"step": 1190
	},
	{
	"epoch": 17.007246376811594,
	"grad_norm": 15.926338195800781,
	"learning_rate": 1.4492753623188408e-06,
	"loss": 0.6122,
	"step": 1200
	},
	{
	"epoch": 17.014492753623188,
	"grad_norm": 9.888009071350098,
	"learning_rate": 1.3687600644122383e-06,
	"loss": 0.6741,
	"step": 1210
	},
	{
	"epoch": 17.02173913043478,
	"grad_norm": 7.94158935546875,
	"learning_rate": 1.288244766505636e-06,
	"loss": 0.5769,
	"step": 1220
	},
	{
	"epoch": 17.028985507246375,
	"grad_norm": 12.030184745788574,
	"learning_rate": 1.2077294685990338e-06,
	"loss": 0.7706,
	"step": 1230
	},
	{
	"epoch": 17.036231884057973,
	"grad_norm": 12.405618667602539,
	"learning_rate": 1.1272141706924316e-06,
	"loss": 0.7073,
	"step": 1240
	},
	{
	"epoch": 17.043478260869566,
	"grad_norm": 18.144861221313477,
	"learning_rate": 1.0466988727858295e-06,
	"loss": 0.5714,
	"step": 1250
	},
	{
	"epoch": 17.05072463768116,
	"grad_norm": 51.77016067504883,
	"learning_rate": 9.66183574879227e-07,
	"loss": 0.3404,
	"step": 1260
	},
	{
	"epoch": 17.05072463768116,
	"eval_accuracy": 0.7014925373134329,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8533333333333334,
	"eval_accuracy_recovery": 0.3333333333333333,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.8054906725883484,
	"eval_runtime": 10.759,
	"eval_samples_per_second": 12.455,
	"eval_steps_per_second": 1.58,
	"step": 1260
	},
	{
	"epoch": 18.007246376811594,
	"grad_norm": 22.187854766845703,
	"learning_rate": 8.856682769726249e-07,
	"loss": 0.6113,
	"step": 1270
	},
	{
	"epoch": 18.014492753623188,
	"grad_norm": 16.749889373779297,
	"learning_rate": 8.051529790660226e-07,
	"loss": 0.6058,
	"step": 1280
	},
	{
	"epoch": 18.02173913043478,
	"grad_norm": 16.847583770751953,
	"learning_rate": 7.246376811594204e-07,
	"loss": 0.7215,
	"step": 1290
	},
	{
	"epoch": 18.028985507246375,
	"grad_norm": 71.80619049072266,
	"learning_rate": 6.44122383252818e-07,
	"loss": 0.483,
	"step": 1300
	},
	{
	"epoch": 18.036231884057973,
	"grad_norm": 13.316573143005371,
	"learning_rate": 5.636070853462158e-07,
	"loss": 0.585,
	"step": 1310
	},
	{
	"epoch": 18.043478260869566,
	"grad_norm": 22.565717697143555,
	"learning_rate": 4.830917874396135e-07,
	"loss": 0.5584,
	"step": 1320
	},
	{
	"epoch": 18.05072463768116,
	"grad_norm": 9.562509536743164,
	"learning_rate": 4.025764895330113e-07,
	"loss": 0.4406,
	"step": 1330
	},
	{
	"epoch": 18.05072463768116,
	"eval_accuracy": 0.6865671641791045,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.8533333333333334,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7800428867340088,
	"eval_runtime": 10.5812,
	"eval_samples_per_second": 12.664,
	"eval_steps_per_second": 1.607,
	"step": 1330
	},
	{
	"epoch": 19.007246376811594,
	"grad_norm": 14.316792488098145,
	"learning_rate": 3.22061191626409e-07,
	"loss": 0.5768,
	"step": 1340
	},
	{
	"epoch": 19.014492753623188,
	"grad_norm": 12.971110343933105,
	"learning_rate": 2.4154589371980677e-07,
	"loss": 0.5324,
	"step": 1350
	},
	{
	"epoch": 19.02173913043478,
	"grad_norm": 18.0727596282959,
	"learning_rate": 1.610305958132045e-07,
	"loss": 0.4406,
	"step": 1360
	},
	{
	"epoch": 19.028985507246375,
	"grad_norm": 20.428890228271484,
	"learning_rate": 8.051529790660226e-08,
	"loss": 0.5222,
	"step": 1370
	},
	{
	"epoch": 19.036231884057973,
	"grad_norm": 28.665119171142578,
	"learning_rate": 0.0,
	"loss": 0.6358,
	"step": 1380
	},
	{
	"epoch": 19.036231884057973,
	"eval_accuracy": 0.7014925373134329,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.88,
	"eval_accuracy_recovery": 0.16666666666666666,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 1.0,
	"eval_loss": 0.7816389203071594,
	"eval_runtime": 10.5317,
	"eval_samples_per_second": 12.724,
	"eval_steps_per_second": 1.614,
	"step": 1380
	},
	{
	"epoch": 19.036231884057973,
	"step": 1380,
	"total_flos": 1.3709569395152978e+19,
	"train_loss": 0.8566418366155762,
	"train_runtime": 2187.3823,
	"train_samples_per_second": 5.047,
	"train_steps_per_second": 0.631
	},
	{
	"epoch": 19.036231884057973,
	"eval_accuracy": 0.6870748299319728,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.922077922077922,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8571428571428571,
	"eval_loss": 0.9822249412536621,
	"eval_runtime": 13.5675,
	"eval_samples_per_second": 10.835,
	"eval_steps_per_second": 1.4,
	"step": 1380
	},
	{
	"epoch": 19.036231884057973,
	"eval_accuracy": 0.6870748299319728,
	"eval_accuracy_hold": 0.0,
	"eval_accuracy_preparation": 0.922077922077922,
	"eval_accuracy_recovery": 0.0,
	"eval_accuracy_stroke": 0.0,
	"eval_accuracy_unknown": 0.8571428571428571,
	"eval_loss": 0.9822250604629517,
	"eval_runtime": 12.2253,
	"eval_samples_per_second": 12.024,
	"eval_steps_per_second": 1.554,
	"step": 1380
	}
	],
	"logging_steps": 10,
	"max_steps": 1380,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3709569395152978e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}