t5-small-e2e-qa-full / trainer_state.json

loss 1.0

2e2b19c almost 3 years ago

No virus

19.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.7377881560726602,
	"global_step": 16000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 0.0006992397089171283,
	"loss": 0.9904,
	"step": 100
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0006984794178342565,
	"loss": 1.0331,
	"step": 200
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0006977191267513849,
	"loss": 1.0506,
	"step": 300
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0006969588356685131,
	"loss": 1.0698,
	"step": 400
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0006961985445856413,
	"loss": 1.0191,
	"step": 500
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0006954382535027696,
	"loss": 1.0418,
	"step": 600
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0006946779624198979,
	"loss": 1.1059,
	"step": 700
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0006939176713370262,
	"loss": 1.0536,
	"step": 800
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0006931573802541545,
	"loss": 1.0631,
	"step": 900
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0006923970891712827,
	"loss": 1.0861,
	"step": 1000
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0006916367980884109,
	"loss": 1.1102,
	"step": 1100
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0006908765070055393,
	"loss": 1.0543,
	"step": 1200
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0006901162159226675,
	"loss": 1.0827,
	"step": 1300
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0006893559248397958,
	"loss": 1.0794,
	"step": 1400
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0006885956337569241,
	"loss": 1.0768,
	"step": 1500
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0006878353426740524,
	"loss": 1.1544,
	"step": 1600
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0006870750515911806,
	"loss": 1.1412,
	"step": 1700
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0006863147605083089,
	"loss": 1.0918,
	"step": 1800
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0006855544694254371,
	"loss": 1.0784,
	"step": 1900
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0006847941783425654,
	"loss": 1.085,
	"step": 2000
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0006840338872596937,
	"loss": 1.1224,
	"step": 2100
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.000683273596176822,
	"loss": 1.1052,
	"step": 2200
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0006825133050939503,
	"loss": 1.0949,
	"step": 2300
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0006817530140110785,
	"loss": 1.0888,
	"step": 2400
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0006809927229282067,
	"loss": 1.0424,
	"step": 2500
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0006802324318453351,
	"loss": 1.0191,
	"step": 2600
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0006794721407624634,
	"loss": 1.1374,
	"step": 2700
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0006787118496795916,
	"loss": 1.0963,
	"step": 2800
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0006779515585967199,
	"loss": 1.1217,
	"step": 2900
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0006771912675138482,
	"loss": 1.1168,
	"step": 3000
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0006764309764309764,
	"loss": 1.0919,
	"step": 3100
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0006756706853481047,
	"loss": 1.0552,
	"step": 3200
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.000674910394265233,
	"loss": 1.1408,
	"step": 3300
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0006741501031823612,
	"loss": 1.1443,
	"step": 3400
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0006733898120994895,
	"loss": 1.137,
	"step": 3500
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0006726295210166178,
	"loss": 1.1577,
	"step": 3600
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.000671869229933746,
	"loss": 1.1505,
	"step": 3700
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0006711089388508743,
	"loss": 1.1479,
	"step": 3800
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0006703486477680026,
	"loss": 1.0887,
	"step": 3900
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0006695883566851309,
	"loss": 1.1219,
	"step": 4000
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0006688280656022592,
	"loss": 1.1188,
	"step": 4100
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0006680677745193874,
	"loss": 1.0956,
	"step": 4200
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0006673074834365157,
	"loss": 1.1544,
	"step": 4300
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0006665471923536439,
	"loss": 1.1014,
	"step": 4400
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0006657869012707722,
	"loss": 1.0761,
	"step": 4500
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0006650266101879005,
	"loss": 1.1168,
	"step": 4600
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0006642663191050288,
	"loss": 1.0792,
	"step": 4700
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.000663506028022157,
	"loss": 1.085,
	"step": 4800
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0006627457369392853,
	"loss": 1.1649,
	"step": 4900
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0006619854458564137,
	"loss": 1.1575,
	"step": 5000
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0006612251547735418,
	"loss": 1.098,
	"step": 5100
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0006604648636906701,
	"loss": 1.1442,
	"step": 5200
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0006597045726077984,
	"loss": 1.1135,
	"step": 5300
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0006589442815249267,
	"loss": 1.1428,
	"step": 5400
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.000658183990442055,
	"loss": 1.0998,
	"step": 5500
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0006574236993591833,
	"loss": 1.0847,
	"step": 5600
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0006566634082763115,
	"loss": 1.0957,
	"step": 5700
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0006559031171934397,
	"loss": 1.0979,
	"step": 5800
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.000655142826110568,
	"loss": 1.1163,
	"step": 5900
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0006543825350276963,
	"loss": 1.1216,
	"step": 6000
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0006536222439448246,
	"loss": 1.0892,
	"step": 6100
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.0006528619528619529,
	"loss": 1.1051,
	"step": 6200
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.0006521016617790811,
	"loss": 1.1076,
	"step": 6300
	},
	{
	"epoch": 0.7,
	"learning_rate": 0.0006513413706962095,
	"loss": 1.1235,
	"step": 6400
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.0006505810796133376,
	"loss": 1.0842,
	"step": 6500
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.0006498207885304659,
	"loss": 1.1257,
	"step": 6600
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0006490604974475942,
	"loss": 1.1014,
	"step": 6700
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.0006483002063647225,
	"loss": 1.0675,
	"step": 6800
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.0006475399152818508,
	"loss": 1.0937,
	"step": 6900
	},
	{
	"epoch": 0.76,
	"learning_rate": 0.0006467796241989791,
	"loss": 1.1009,
	"step": 7000
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.0006460193331161072,
	"loss": 1.0831,
	"step": 7100
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.0006452590420332355,
	"loss": 1.0571,
	"step": 7200
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0006444987509503639,
	"loss": 1.046,
	"step": 7300
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.0006437384598674921,
	"loss": 1.1214,
	"step": 7400
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.0006429781687846204,
	"loss": 1.0686,
	"step": 7500
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.0006422178777017487,
	"loss": 1.1346,
	"step": 7600
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.0006414575866188769,
	"loss": 1.16,
	"step": 7700
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.0006406972955360052,
	"loss": 1.1717,
	"step": 7800
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.0006399370044531335,
	"loss": 1.1601,
	"step": 7900
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.0006391767133702617,
	"loss": 1.1241,
	"step": 8000
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.00063841642228739,
	"loss": 1.0692,
	"step": 8100
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.0006376561312045183,
	"loss": 1.0775,
	"step": 8200
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0006368958401216466,
	"loss": 1.126,
	"step": 8300
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.0006361355490387749,
	"loss": 1.0801,
	"step": 8400
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.0006353752579559031,
	"loss": 1.1176,
	"step": 8500
	},
	{
	"epoch": 0.93,
	"learning_rate": 0.0006346149668730313,
	"loss": 1.1101,
	"step": 8600
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0006338546757901597,
	"loss": 1.0881,
	"step": 8700
	},
	{
	"epoch": 0.96,
	"learning_rate": 0.0006330943847072879,
	"loss": 1.1009,
	"step": 8800
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0006323340936244162,
	"loss": 1.1158,
	"step": 8900
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.0006315738025415445,
	"loss": 1.0991,
	"step": 9000
	},
	{
	"epoch": 0.99,
	"learning_rate": 0.0006308135114586728,
	"loss": 1.1478,
	"step": 9100
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.000630053220375801,
	"loss": 1.1408,
	"step": 9200
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.0006292929292929293,
	"loss": 1.0484,
	"step": 9300
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.0006285326382100575,
	"loss": 1.103,
	"step": 9400
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.0006277723471271858,
	"loss": 0.9948,
	"step": 9500
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.0006270120560443141,
	"loss": 1.0212,
	"step": 9600
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0006262517649614424,
	"loss": 1.1029,
	"step": 9700
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.0006254914738785707,
	"loss": 1.064,
	"step": 9800
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.0006247311827956989,
	"loss": 1.0066,
	"step": 9900
	},
	{
	"epoch": 1.09,
	"learning_rate": 0.0006239708917128271,
	"loss": 1.0117,
	"step": 10000
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.0006232106006299555,
	"loss": 1.0196,
	"step": 10100
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.0006224503095470838,
	"loss": 1.0576,
	"step": 10200
	},
	{
	"epoch": 1.12,
	"learning_rate": 0.000621690018464212,
	"loss": 1.0636,
	"step": 10300
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0006209297273813403,
	"loss": 1.0454,
	"step": 10400
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.0006201694362984685,
	"loss": 1.0798,
	"step": 10500
	},
	{
	"epoch": 1.15,
	"learning_rate": 0.0006194091452155968,
	"loss": 1.007,
	"step": 10600
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.0006186488541327251,
	"loss": 1.0612,
	"step": 10700
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.0006178885630498534,
	"loss": 1.0791,
	"step": 10800
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.0006171282719669816,
	"loss": 1.0961,
	"step": 10900
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.0006163679808841099,
	"loss": 1.0745,
	"step": 11000
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.0006156076898012382,
	"loss": 0.9832,
	"step": 11100
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.0006148473987183664,
	"loss": 1.0083,
	"step": 11200
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.0006140871076354947,
	"loss": 1.0772,
	"step": 11300
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.000613326816552623,
	"loss": 1.0673,
	"step": 11400
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.0006125665254697513,
	"loss": 1.1005,
	"step": 11500
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.0006118062343868796,
	"loss": 1.0219,
	"step": 11600
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.0006110459433040078,
	"loss": 1.0878,
	"step": 11700
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.0006102856522211361,
	"loss": 1.047,
	"step": 11800
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.0006095253611382643,
	"loss": 1.0663,
	"step": 11900
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.0006087650700553926,
	"loss": 1.0473,
	"step": 12000
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.0006080047789725209,
	"loss": 1.0146,
	"step": 12100
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.0006072444878896492,
	"loss": 1.0381,
	"step": 12200
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0006064841968067774,
	"loss": 1.0991,
	"step": 12300
	},
	{
	"epoch": 1.35,
	"learning_rate": 0.0006057239057239057,
	"loss": 1.0377,
	"step": 12400
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.0006049636146410341,
	"loss": 1.0478,
	"step": 12500
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.0006042033235581622,
	"loss": 1.0773,
	"step": 12600
	},
	{
	"epoch": 1.38,
	"learning_rate": 0.0006034430324752905,
	"loss": 1.0496,
	"step": 12700
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.0006026827413924188,
	"loss": 1.0943,
	"step": 12800
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0006019224503095471,
	"loss": 1.0303,
	"step": 12900
	},
	{
	"epoch": 1.41,
	"learning_rate": 0.0006011621592266754,
	"loss": 0.9987,
	"step": 13000
	},
	{
	"epoch": 1.42,
	"learning_rate": 0.0006004018681438037,
	"loss": 1.0489,
	"step": 13100
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0005996415770609318,
	"loss": 1.111,
	"step": 13200
	},
	{
	"epoch": 1.44,
	"learning_rate": 0.0005988812859780601,
	"loss": 1.0514,
	"step": 13300
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.0005981209948951884,
	"loss": 1.0931,
	"step": 13400
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.0005973607038123167,
	"loss": 1.0225,
	"step": 13500
	},
	{
	"epoch": 1.48,
	"learning_rate": 0.000596600412729445,
	"loss": 1.0295,
	"step": 13600
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.0005958401216465733,
	"loss": 1.1068,
	"step": 13700
	},
	{
	"epoch": 1.5,
	"learning_rate": 0.0005950798305637015,
	"loss": 1.0739,
	"step": 13800
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.0005943195394808299,
	"loss": 1.0453,
	"step": 13900
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.000593559248397958,
	"loss": 1.0392,
	"step": 14000
	},
	{
	"epoch": 1.53,
	"learning_rate": 0.0005927989573150863,
	"loss": 1.0482,
	"step": 14100
	},
	{
	"epoch": 1.54,
	"learning_rate": 0.0005920386662322146,
	"loss": 1.0337,
	"step": 14200
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.0005912783751493429,
	"loss": 1.0415,
	"step": 14300
	},
	{
	"epoch": 1.56,
	"learning_rate": 0.0005905180840664712,
	"loss": 1.0534,
	"step": 14400
	},
	{
	"epoch": 1.57,
	"learning_rate": 0.0005897577929835995,
	"loss": 1.028,
	"step": 14500
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.0005889975019007276,
	"loss": 0.9978,
	"step": 14600
	},
	{
	"epoch": 1.6,
	"learning_rate": 0.0005882372108178559,
	"loss": 1.047,
	"step": 14700
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.0005874769197349843,
	"loss": 1.0501,
	"step": 14800
	},
	{
	"epoch": 1.62,
	"learning_rate": 0.0005867166286521125,
	"loss": 1.0165,
	"step": 14900
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.0005859563375692408,
	"loss": 1.0867,
	"step": 15000
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.0005851960464863691,
	"loss": 1.0614,
	"step": 15100
	},
	{
	"epoch": 1.65,
	"learning_rate": 0.0005844357554034973,
	"loss": 1.0512,
	"step": 15200
	},
	{
	"epoch": 1.66,
	"learning_rate": 0.0005836754643206256,
	"loss": 0.9962,
	"step": 15300
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.0005829151732377539,
	"loss": 1.0325,
	"step": 15400
	},
	{
	"epoch": 1.68,
	"learning_rate": 0.0005821548821548821,
	"loss": 1.0313,
	"step": 15500
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.0005813945910720104,
	"loss": 1.0441,
	"step": 15600
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.0005806342999891387,
	"loss": 1.0705,
	"step": 15700
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.000579874008906267,
	"loss": 1.0209,
	"step": 15800
	},
	{
	"epoch": 1.73,
	"learning_rate": 0.0005791137178233953,
	"loss": 1.0627,
	"step": 15900
	},
	{
	"epoch": 1.74,
	"learning_rate": 0.0005783534267405235,
	"loss": 1.076,
	"step": 16000
	}
	],
	"max_steps": 92070,
	"num_train_epochs": 10,
	"total_flos": 3.281082781355213e+16,
	"trial_name": null,
	"trial_params": null
	}