loss 1.0

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +933 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3ae21b24a8b8e1eeda2092a48b0254e0585db51654df8189e7896ec0397fe8a
 size 1376950965

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76533d218d66acc8b5bba0f1a7679d4b368b7cef88912358d862be08181db2a
 size 1376950965

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad9c321c94e76fc470a739356439b44c7a0477066c94250742d0374be815adaa
 size 688496379

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c0886ab707b8fb20a1104edd37cdee899a2e4445bb7bafa1d7c325a933a6ad
 size 688496379

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eafa3f3ed66bf8c29fa7457680d59b7ba0a24c5690eaad3717b4a472f71ff0c9
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fd43fe4eb5e834fcfb1f491790d59c502c67ed4729f7fbbb3291ddfcd6feac4
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae2bd2d10ca13dc5ed5014535d983e344cc9060fbd0405a0174bf29d0655e6ba
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:32b51740f55e1aeef4ee3b07911236360a8c4fc355d594709c1ff07a872a7511
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05430503136115561,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -36,11 +36,941 @@
       "learning_rate": 0.0006961985445856413,
       "loss": 1.0191,
       "step": 500
     }
   ],
   "max_steps": 92070,
   "num_train_epochs": 10,
-  "total_flos": 1023392318619648.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7377881560726602,
+  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0006961985445856413,
       "loss": 1.0191,
       "step": 500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006954382535027696,
+      "loss": 1.0418,
+      "step": 600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006946779624198979,
+      "loss": 1.1059,
+      "step": 700
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006939176713370262,
+      "loss": 1.0536,
+      "step": 800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006931573802541545,
+      "loss": 1.0631,
+      "step": 900
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006923970891712827,
+      "loss": 1.0861,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006916367980884109,
+      "loss": 1.1102,
+      "step": 1100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006908765070055393,
+      "loss": 1.0543,
+      "step": 1200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006901162159226675,
+      "loss": 1.0827,
+      "step": 1300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006893559248397958,
+      "loss": 1.0794,
+      "step": 1400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006885956337569241,
+      "loss": 1.0768,
+      "step": 1500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006878353426740524,
+      "loss": 1.1544,
+      "step": 1600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006870750515911806,
+      "loss": 1.1412,
+      "step": 1700
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0006863147605083089,
+      "loss": 1.0918,
+      "step": 1800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0006855544694254371,
+      "loss": 1.0784,
+      "step": 1900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0006847941783425654,
+      "loss": 1.085,
+      "step": 2000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0006840338872596937,
+      "loss": 1.1224,
+      "step": 2100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000683273596176822,
+      "loss": 1.1052,
+      "step": 2200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0006825133050939503,
+      "loss": 1.0949,
+      "step": 2300
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0006817530140110785,
+      "loss": 1.0888,
+      "step": 2400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0006809927229282067,
+      "loss": 1.0424,
+      "step": 2500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0006802324318453351,
+      "loss": 1.0191,
+      "step": 2600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0006794721407624634,
+      "loss": 1.1374,
+      "step": 2700
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0006787118496795916,
+      "loss": 1.0963,
+      "step": 2800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0006779515585967199,
+      "loss": 1.1217,
+      "step": 2900
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0006771912675138482,
+      "loss": 1.1168,
+      "step": 3000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0006764309764309764,
+      "loss": 1.0919,
+      "step": 3100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0006756706853481047,
+      "loss": 1.0552,
+      "step": 3200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.000674910394265233,
+      "loss": 1.1408,
+      "step": 3300
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006741501031823612,
+      "loss": 1.1443,
+      "step": 3400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006733898120994895,
+      "loss": 1.137,
+      "step": 3500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0006726295210166178,
+      "loss": 1.1577,
+      "step": 3600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.000671869229933746,
+      "loss": 1.1505,
+      "step": 3700
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0006711089388508743,
+      "loss": 1.1479,
+      "step": 3800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0006703486477680026,
+      "loss": 1.0887,
+      "step": 3900
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0006695883566851309,
+      "loss": 1.1219,
+      "step": 4000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0006688280656022592,
+      "loss": 1.1188,
+      "step": 4100
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0006680677745193874,
+      "loss": 1.0956,
+      "step": 4200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0006673074834365157,
+      "loss": 1.1544,
+      "step": 4300
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0006665471923536439,
+      "loss": 1.1014,
+      "step": 4400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0006657869012707722,
+      "loss": 1.0761,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0006650266101879005,
+      "loss": 1.1168,
+      "step": 4600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0006642663191050288,
+      "loss": 1.0792,
+      "step": 4700
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.000663506028022157,
+      "loss": 1.085,
+      "step": 4800
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0006627457369392853,
+      "loss": 1.1649,
+      "step": 4900
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0006619854458564137,
+      "loss": 1.1575,
+      "step": 5000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0006612251547735418,
+      "loss": 1.098,
+      "step": 5100
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0006604648636906701,
+      "loss": 1.1442,
+      "step": 5200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0006597045726077984,
+      "loss": 1.1135,
+      "step": 5300
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0006589442815249267,
+      "loss": 1.1428,
+      "step": 5400
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000658183990442055,
+      "loss": 1.0998,
+      "step": 5500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0006574236993591833,
+      "loss": 1.0847,
+      "step": 5600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0006566634082763115,
+      "loss": 1.0957,
+      "step": 5700
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0006559031171934397,
+      "loss": 1.0979,
+      "step": 5800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.000655142826110568,
+      "loss": 1.1163,
+      "step": 5900
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0006543825350276963,
+      "loss": 1.1216,
+      "step": 6000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0006536222439448246,
+      "loss": 1.0892,
+      "step": 6100
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0006528619528619529,
+      "loss": 1.1051,
+      "step": 6200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0006521016617790811,
+      "loss": 1.1076,
+      "step": 6300
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0006513413706962095,
+      "loss": 1.1235,
+      "step": 6400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0006505810796133376,
+      "loss": 1.0842,
+      "step": 6500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0006498207885304659,
+      "loss": 1.1257,
+      "step": 6600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0006490604974475942,
+      "loss": 1.1014,
+      "step": 6700
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0006483002063647225,
+      "loss": 1.0675,
+      "step": 6800
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0006475399152818508,
+      "loss": 1.0937,
+      "step": 6900
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0006467796241989791,
+      "loss": 1.1009,
+      "step": 7000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0006460193331161072,
+      "loss": 1.0831,
+      "step": 7100
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0006452590420332355,
+      "loss": 1.0571,
+      "step": 7200
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0006444987509503639,
+      "loss": 1.046,
+      "step": 7300
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0006437384598674921,
+      "loss": 1.1214,
+      "step": 7400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0006429781687846204,
+      "loss": 1.0686,
+      "step": 7500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0006422178777017487,
+      "loss": 1.1346,
+      "step": 7600
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0006414575866188769,
+      "loss": 1.16,
+      "step": 7700
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0006406972955360052,
+      "loss": 1.1717,
+      "step": 7800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0006399370044531335,
+      "loss": 1.1601,
+      "step": 7900
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0006391767133702617,
+      "loss": 1.1241,
+      "step": 8000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00063841642228739,
+      "loss": 1.0692,
+      "step": 8100
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0006376561312045183,
+      "loss": 1.0775,
+      "step": 8200
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0006368958401216466,
+      "loss": 1.126,
+      "step": 8300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0006361355490387749,
+      "loss": 1.0801,
+      "step": 8400
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0006353752579559031,
+      "loss": 1.1176,
+      "step": 8500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0006346149668730313,
+      "loss": 1.1101,
+      "step": 8600
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0006338546757901597,
+      "loss": 1.0881,
+      "step": 8700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0006330943847072879,
+      "loss": 1.1009,
+      "step": 8800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0006323340936244162,
+      "loss": 1.1158,
+      "step": 8900
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0006315738025415445,
+      "loss": 1.0991,
+      "step": 9000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0006308135114586728,
+      "loss": 1.1478,
+      "step": 9100
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.000630053220375801,
+      "loss": 1.1408,
+      "step": 9200
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0006292929292929293,
+      "loss": 1.0484,
+      "step": 9300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0006285326382100575,
+      "loss": 1.103,
+      "step": 9400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0006277723471271858,
+      "loss": 0.9948,
+      "step": 9500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0006270120560443141,
+      "loss": 1.0212,
+      "step": 9600
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0006262517649614424,
+      "loss": 1.1029,
+      "step": 9700
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0006254914738785707,
+      "loss": 1.064,
+      "step": 9800
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0006247311827956989,
+      "loss": 1.0066,
+      "step": 9900
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0006239708917128271,
+      "loss": 1.0117,
+      "step": 10000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0006232106006299555,
+      "loss": 1.0196,
+      "step": 10100
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0006224503095470838,
+      "loss": 1.0576,
+      "step": 10200
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.000621690018464212,
+      "loss": 1.0636,
+      "step": 10300
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0006209297273813403,
+      "loss": 1.0454,
+      "step": 10400
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0006201694362984685,
+      "loss": 1.0798,
+      "step": 10500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0006194091452155968,
+      "loss": 1.007,
+      "step": 10600
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0006186488541327251,
+      "loss": 1.0612,
+      "step": 10700
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0006178885630498534,
+      "loss": 1.0791,
+      "step": 10800
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0006171282719669816,
+      "loss": 1.0961,
+      "step": 10900
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0006163679808841099,
+      "loss": 1.0745,
+      "step": 11000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0006156076898012382,
+      "loss": 0.9832,
+      "step": 11100
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0006148473987183664,
+      "loss": 1.0083,
+      "step": 11200
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0006140871076354947,
+      "loss": 1.0772,
+      "step": 11300
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.000613326816552623,
+      "loss": 1.0673,
+      "step": 11400
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0006125665254697513,
+      "loss": 1.1005,
+      "step": 11500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0006118062343868796,
+      "loss": 1.0219,
+      "step": 11600
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0006110459433040078,
+      "loss": 1.0878,
+      "step": 11700
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0006102856522211361,
+      "loss": 1.047,
+      "step": 11800
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0006095253611382643,
+      "loss": 1.0663,
+      "step": 11900
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0006087650700553926,
+      "loss": 1.0473,
+      "step": 12000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0006080047789725209,
+      "loss": 1.0146,
+      "step": 12100
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0006072444878896492,
+      "loss": 1.0381,
+      "step": 12200
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0006064841968067774,
+      "loss": 1.0991,
+      "step": 12300
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0006057239057239057,
+      "loss": 1.0377,
+      "step": 12400
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0006049636146410341,
+      "loss": 1.0478,
+      "step": 12500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0006042033235581622,
+      "loss": 1.0773,
+      "step": 12600
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0006034430324752905,
+      "loss": 1.0496,
+      "step": 12700
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0006026827413924188,
+      "loss": 1.0943,
+      "step": 12800
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0006019224503095471,
+      "loss": 1.0303,
+      "step": 12900
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0006011621592266754,
+      "loss": 0.9987,
+      "step": 13000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0006004018681438037,
+      "loss": 1.0489,
+      "step": 13100
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0005996415770609318,
+      "loss": 1.111,
+      "step": 13200
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0005988812859780601,
+      "loss": 1.0514,
+      "step": 13300
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0005981209948951884,
+      "loss": 1.0931,
+      "step": 13400
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0005973607038123167,
+      "loss": 1.0225,
+      "step": 13500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.000596600412729445,
+      "loss": 1.0295,
+      "step": 13600
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0005958401216465733,
+      "loss": 1.1068,
+      "step": 13700
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0005950798305637015,
+      "loss": 1.0739,
+      "step": 13800
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0005943195394808299,
+      "loss": 1.0453,
+      "step": 13900
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.000593559248397958,
+      "loss": 1.0392,
+      "step": 14000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0005927989573150863,
+      "loss": 1.0482,
+      "step": 14100
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0005920386662322146,
+      "loss": 1.0337,
+      "step": 14200
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0005912783751493429,
+      "loss": 1.0415,
+      "step": 14300
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0005905180840664712,
+      "loss": 1.0534,
+      "step": 14400
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0005897577929835995,
+      "loss": 1.028,
+      "step": 14500
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0005889975019007276,
+      "loss": 0.9978,
+      "step": 14600
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0005882372108178559,
+      "loss": 1.047,
+      "step": 14700
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0005874769197349843,
+      "loss": 1.0501,
+      "step": 14800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0005867166286521125,
+      "loss": 1.0165,
+      "step": 14900
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0005859563375692408,
+      "loss": 1.0867,
+      "step": 15000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0005851960464863691,
+      "loss": 1.0614,
+      "step": 15100
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0005844357554034973,
+      "loss": 1.0512,
+      "step": 15200
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0005836754643206256,
+      "loss": 0.9962,
+      "step": 15300
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0005829151732377539,
+      "loss": 1.0325,
+      "step": 15400
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0005821548821548821,
+      "loss": 1.0313,
+      "step": 15500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0005813945910720104,
+      "loss": 1.0441,
+      "step": 15600
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0005806342999891387,
+      "loss": 1.0705,
+      "step": 15700
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.000579874008906267,
+      "loss": 1.0209,
+      "step": 15800
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0005791137178233953,
+      "loss": 1.0627,
+      "step": 15900
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0005783534267405235,
+      "loss": 1.076,
+      "step": 16000
     }
   ],
   "max_steps": 92070,
   "num_train_epochs": 10,
+  "total_flos": 3.281082781355213e+16,
   "trial_name": null,
   "trial_params": null
 }