Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +1 -1
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +306 -604
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -201,4 +201,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Framework versions
-- PEFT 0.7.1.dev0


201
202	### Framework versions
203
204	+ - PEFT 0.7.2.dev0

adapter_config.json CHANGED Viewed

@@ -20,9 +20,9 @@
   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
     "dense_h_to_4h",
-    "dense",
-    "query_key_value"
   ],
   "task_type": "CAUSAL_LM"
 }

   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
+    "query_key_value",
     "dense_h_to_4h",
+    "dense"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:992756c5ccc283543d1d89ea60f4391ca412469597f2891633befd0abc714eed
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:025b987a6c2f0e2a49aace739636e198234a679f01f29c58897b741e2c23d4b4
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f8c5ed2d3914965b15a35a500e003e916f8f5e2d098b92c1ada209834d1710e
-size 268515002

 version https://git-lfs.github.com/spec/v1
+oid sha256:34508e5be2802f6dfed4957f733f6103775b009d717529d000b424cda7e44169
+size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92333cf5cbb2456ec96cf636283d0af060ef22a920c9dc90490242709ca36515
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef1ec7499f3e1ea9b54e08ff072d20d897a54306647f24e6a00737cc89bf475f
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74485e67705dc36efbfb69b1e54f842e1ff07894d01bb0e36d6d2526a318b300
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5096170d1d34df4d83b07caa0860cfb37d7b3659bf8c113929aaa3a4f71f7094
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,919 +1,621 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.983219390926041,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 2.5697,
       "step": 2
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 8.888888888888889e-05,
-      "loss": 2.5895,
       "step": 4
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 0.00013333333333333334,
-      "loss": 2.5404,
       "step": 6
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.00017777777777777779,
-      "loss": 2.5212,
       "step": 8
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.00019999417253661235,
-      "loss": 2.5517,
       "step": 10
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.00019994755690455152,
-      "loss": 2.3682,
       "step": 12
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 0.0001998543473718677,
-      "loss": 2.5259,
       "step": 14
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00019971458739130598,
-      "loss": 2.3868,
       "step": 16
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 0.0001995283421166614,
-      "loss": 2.0537,
       "step": 18
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00019929569837240564,
-      "loss": 2.1381,
       "step": 20
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 0.00019901676461321068,
-      "loss": 2.0976,
       "step": 22
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00019869167087338907,
-      "loss": 2.2247,
       "step": 24
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 0.00019832056870627417,
-      "loss": 2.0686,
       "step": 26
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00019790363111356837,
-      "loss": 2.2601,
       "step": 28
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.00019744105246469263,
-      "loss": 2.273,
       "step": 30
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00019693304840617457,
-      "loss": 2.1859,
       "step": 32
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.00019637985576111778,
-      "loss": 2.2706,
       "step": 34
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.00019578173241879872,
-      "loss": 2.3597,
       "step": 36
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00019513895721444286,
-      "loss": 2.21,
       "step": 38
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.00019445182979923654,
-      "loss": 2.2261,
       "step": 40
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 0.00019372067050063438,
-      "loss": 2.1489,
       "step": 42
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00019294582017302797,
-      "loss": 1.9741,
       "step": 44
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 0.0001921276400388451,
-      "loss": 2.0867,
       "step": 46
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.00019126651152015403,
-      "loss": 2.0778,
       "step": 48
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00019036283606085053,
-      "loss": 2.2826,
       "step": 50
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00018941703493951164,
-      "loss": 2.1793,
       "step": 52
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.00018842954907300236,
-      "loss": 2.1489,
       "step": 54
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 0.0001874008388109276,
-      "loss": 2.21,
       "step": 56
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 0.00018633138372102468,
-      "loss": 2.2462,
       "step": 58
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 0.00018522168236559695,
-      "loss": 2.2693,
       "step": 60
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 0.00018407225206909208,
-      "loss": 2.0625,
       "step": 62
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.00018288362867693414,
-      "loss": 2.1222,
       "step": 64
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 0.0001816563663057211,
-      "loss": 2.184,
       "step": 66
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.000180391037084905,
-      "loss": 2.1686,
       "step": 68
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.00017908823089007457,
-      "loss": 1.968,
       "step": 70
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.00017774855506796496,
-      "loss": 2.0057,
       "step": 72
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.0001763726341533227,
-      "loss": 2.1126,
       "step": 74
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0001749611095777581,
-      "loss": 2.0198,
       "step": 76
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 0.00017351463937072004,
-      "loss": 2.2914,
       "step": 78
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.000172033897852734,
-      "loss": 2.2551,
       "step": 80
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.0001705195753210446,
-      "loss": 2.1974,
       "step": 82
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.00016897237772781044,
-      "loss": 2.1299,
       "step": 84
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 0.00016739302635100108,
-      "loss": 2.1766,
       "step": 86
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.00016578225745814907,
-      "loss": 2.217,
       "step": 88
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 0.000164140821963114,
-      "loss": 2.2156,
       "step": 90
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 0.00016246948507601914,
-      "loss": 2.0829,
       "step": 92
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 0.0001607690259465229,
-      "loss": 1.9199,
       "step": 94
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 0.00015904023730059228,
-      "loss": 2.0483,
       "step": 96
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.000157283925070947,
-      "loss": 1.99,
       "step": 98
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 0.000155500908021347,
-      "loss": 1.791,
       "step": 100
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 0.0001536920173648984,
-      "loss": 2.1892,
       "step": 102
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 0.0001518580963765555,
-      "loss": 2.2071,
       "step": 104
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.00015000000000000001,
-      "loss": 2.1052,
       "step": 106
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.00014811859444908052,
-      "loss": 2.1146,
       "step": 108
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 0.0001462147568039977,
-      "loss": 2.215,
       "step": 110
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.00014428937460242417,
-      "loss": 2.135,
       "step": 112
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 0.00014234334542574906,
-      "loss": 2.1541,
       "step": 114
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 0.00014037757648064018,
-      "loss": 2.1113,
       "step": 116
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 0.00013839298417611963,
-      "loss": 2.1941,
       "step": 118
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 0.00013639049369634876,
-      "loss": 1.9565,
       "step": 120
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 0.00013437103856932264,
-      "loss": 2.0152,
       "step": 122
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 0.00013233556023167485,
-      "loss": 2.0077,
       "step": 124
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 0.00013028500758979506,
-      "loss": 1.846,
       "step": 126
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 0.00012822033657746478,
-      "loss": 2.0307,
       "step": 128
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 0.00012614250971021657,
-      "loss": 2.0594,
       "step": 130
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 0.00012405249563662537,
-      "loss": 2.0874,
       "step": 132
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.00012195126868674051,
-      "loss": 2.1116,
       "step": 134
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 0.000119839808417869,
-      "loss": 2.2352,
       "step": 136
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 0.0001177190991579223,
-      "loss": 2.138,
       "step": 138
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 0.00011559012954653865,
-      "loss": 2.027,
       "step": 140
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 0.00011345389207419588,
-      "loss": 2.1868,
       "step": 142
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 0.00011131138261952845,
-      "loss": 1.8327,
       "step": 144
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 0.0001091635999850655,
-      "loss": 1.9577,
       "step": 146
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 0.00010701154543160541,
-      "loss": 1.9917,
       "step": 148
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 0.00010485622221144484,
-      "loss": 2.0174,
       "step": 150
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 0.00010269863510067872,
-      "loss": 1.8088,
       "step": 152
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 0.00010053978993079045,
-      "loss": 2.1077,
       "step": 154
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 9.838069311974986e-05,
-      "loss": 2.0825,
       "step": 156
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 9.622235120283769e-05,
-      "loss": 2.1353,
       "step": 158
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 9.406577036341548e-05,
-      "loss": 2.2037,
       "step": 160
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 9.19119559638596e-05,
-      "loss": 2.1083,
       "step": 162
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 8.976191207687775e-05,
-      "loss": 2.0183,
       "step": 164
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 8.7616641017427e-05,
-      "loss": 2.1374,
       "step": 166
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 8.5477142875451e-05,
-      "loss": 2.0109,
       "step": 168
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 8.334441504965455e-05,
-      "loss": 1.9927,
       "step": 170
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 8.1219451782533e-05,
-      "loss": 1.8696,
       "step": 172
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 7.91032436968725e-05,
-      "loss": 2.0078,
       "step": 174
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 7.699677733393826e-05,
-      "loss": 2.0233,
       "step": 176
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 7.490103469356513e-05,
-      "loss": 2.1897,
       "step": 178
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 7.281699277636572e-05,
-      "loss": 2.2561,
       "step": 180
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 7.07456231282686e-05,
-      "loss": 2.0742,
       "step": 182
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 6.868789138759976e-05,
-      "loss": 2.1923,
       "step": 184
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 6.664475683491796e-05,
-      "loss": 2.2466,
       "step": 186
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 6.461717194581393e-05,
-      "loss": 1.9814,
       "step": 188
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 6.260608194688206e-05,
-      "loss": 2.141,
       "step": 190
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 6.061242437507131e-05,
-      "loss": 2.1967,
       "step": 192
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 5.863712864062089e-05,
-      "loss": 1.906,
       "step": 194
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 5.668111559378471e-05,
-      "loss": 1.8858,
       "step": 196
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 5.474529709554612e-05,
-      "loss": 1.9545,
       "step": 198
     },
-    {
-      "epoch": 1.99,
-      "learning_rate": 5.283057559252341e-05,
-      "loss": 1.9466,
-      "step": 200
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 5.0937843696263966e-05,
-      "loss": 1.9956,
-      "step": 202
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 4.9067983767123736e-05,
-      "loss": 2.1361,
-      "step": 204
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 4.722186750292511e-05,
-      "loss": 2.0693,
-      "step": 206
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 4.540035553258619e-05,
-      "loss": 2.1495,
-      "step": 208
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 4.360429701490934e-05,
-      "loss": 2.2293,
-      "step": 210
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 4.183452924271776e-05,
-      "loss": 2.1223,
-      "step": 212
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 4.009187725252309e-05,
-      "loss": 2.1263,
-      "step": 214
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 3.8377153439907266e-05,
-      "loss": 2.1873,
-      "step": 216
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 3.669115718079702e-05,
-      "loss": 2.0112,
-      "step": 218
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 3.503467445880789e-05,
-      "loss": 1.9042,
-      "step": 220
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 3.340847749883191e-05,
-      "loss": 1.9094,
-      "step": 222
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 3.1813324407038825e-05,
-      "loss": 1.9675,
-      "step": 224
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 3.0249958817459722e-05,
-      "loss": 1.8769,
-      "step": 226
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 2.8719109545317103e-05,
-      "loss": 2.1195,
-      "step": 228
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 2.722149024726307e-05,
-      "loss": 2.145,
-      "step": 230
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 2.5757799088684654e-05,
-      "loss": 2.0707,
-      "step": 232
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 2.432871841823047e-05,
-      "loss": 2.0882,
-      "step": 234
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 2.2934914449711087e-05,
-      "loss": 2.1098,
-      "step": 236
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 2.157703695152109e-05,
-      "loss": 1.9743,
-      "step": 238
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 2.025571894372794e-05,
-      "loss": 2.0888,
-      "step": 240
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 1.897157640296825e-05,
-      "loss": 2.1608,
-      "step": 242
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 1.772520797528988e-05,
-      "loss": 2.0018,
-      "step": 244
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 1.65171946970729e-05,
-      "loss": 1.8554,
-      "step": 246
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 1.534809972415998e-05,
-      "loss": 1.9581,
-      "step": 248
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 1.4218468069322578e-05,
-      "loss": 1.7347,
-      "step": 250
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 1.3128826348184887e-05,
-      "loss": 1.9621,
-      "step": 252
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 1.2079682533724379e-05,
-      "loss": 2.0392,
-      "step": 254
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 1.1071525719463095e-05,
-      "loss": 2.0806,
-      "step": 256
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 1.010482589146048e-05,
-      "loss": 1.961,
-      "step": 258
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 9.180033709213454e-06,
-      "loss": 2.1009,
-      "step": 260
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 8.297580295566575e-06,
-      "loss": 2.0751,
-      "step": 262
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 7.457877035729588e-06,
-      "loss": 2.0697,
-      "step": 264
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 6.661315385496425e-06,
-      "loss": 2.0509,
-      "step": 266
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 5.908266688755049e-06,
-      "loss": 2.0297,
-      "step": 268
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 5.199082004372957e-06,
-      "loss": 1.9283,
-      "step": 270
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 4.534091942539475e-06,
-      "loss": 1.9338,
-      "step": 272
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 3.913606510640644e-06,
-      "loss": 2.081,
-      "step": 274
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 3.3379149687388867e-06,
-      "loss": 1.7918,
-      "step": 276
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 2.8072856947248037e-06,
-      "loss": 2.1411,
-      "step": 278
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 2.3219660592038285e-06,
-      "loss": 2.07,
-      "step": 280
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 1.882182310176095e-06,
-      "loss": 2.0207,
-      "step": 282
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 1.488139467563354e-06,
-      "loss": 2.1235,
-      "step": 284
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 1.1400212276321376e-06,
-      "loss": 2.0617,
-      "step": 286
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 8.379898773574924e-07,
-      "loss": 2.1492,
-      "step": 288
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 5.821862187675775e-07,
-      "loss": 2.1032,
-      "step": 290
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 3.727295033040035e-07,
-      "loss": 2.0329,
-      "step": 292
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 2.0971737622883515e-07,
-      "loss": 1.8083,
-      "step": 294
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 9.32258311039269e-08,
-      "loss": 1.8436,
-      "step": 296
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 2.3309174364027907e-08,
-      "loss": 1.9567,
-      "step": 298
-    },
     {
       "epoch": 2.98,
-      "learning_rate": 0.0,
-      "loss": 1.9306,
-      "step": 300
     }
   ],
   "logging_steps": 2,
-  "max_steps": 300,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2.6018582893019136e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9972041006523766,
   "eval_steps": 500,
+  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 2.8134,
       "step": 2
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00011428571428571428,
+      "loss": 2.4355,
       "step": 4
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 2.0049,
       "step": 6
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.00019998688836656323,
+      "loss": 1.9945,
       "step": 8
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 0.0001998820159279591,
+      "loss": 1.7738,
       "step": 10
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.00019967238104745696,
+      "loss": 2.0186,
       "step": 12
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 0.00019935820360309777,
+      "loss": 2.0048,
       "step": 14
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.00019893981312363562,
+      "loss": 1.9983,
       "step": 16
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00019841764844290744,
+      "loss": 2.5312,
       "step": 18
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00019779225723955707,
+      "loss": 1.7662,
       "step": 20
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.00019706429546259593,
+      "loss": 1.8439,
       "step": 22
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.00019623452664340306,
+      "loss": 1.7302,
       "step": 24
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 0.0001953038210948861,
+      "loss": 1.5975,
       "step": 26
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.00019427315499864344,
+      "loss": 1.5909,
       "step": 28
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00019314360938108425,
+      "loss": 1.6737,
       "step": 30
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00019191636897958122,
+      "loss": 1.7467,
       "step": 32
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.0001905927209998447,
+      "loss": 2.2383,
       "step": 34
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00018917405376582145,
+      "loss": 1.7471,
       "step": 36
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.0001876618552635348,
+      "loss": 1.6543,
       "step": 38
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.00018605771158039253,
+      "loss": 1.7129,
       "step": 40
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00018436330524160047,
+      "loss": 1.5638,
       "step": 42
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.00018258041344542566,
+      "loss": 1.4532,
       "step": 44
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.00018071090619916093,
+      "loss": 1.8129,
       "step": 46
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.00017875674435774547,
+      "loss": 1.5569,
       "step": 48
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.00017671997756709863,
+      "loss": 2.1262,
       "step": 50
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.0001746027421143246,
+      "loss": 1.7202,
       "step": 52
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00017240725868704218,
+      "loss": 1.7062,
       "step": 54
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00017013583004418993,
+      "loss": 1.7398,
       "step": 56
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 0.00016779083860075033,
+      "loss": 1.3817,
       "step": 58
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.00016537474392892528,
+      "loss": 1.6171,
       "step": 60
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 0.00016289008017838445,
+      "loss": 1.742,
       "step": 62
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.00016033945341829248,
+      "loss": 1.3789,
       "step": 64
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 0.00015772553890390197,
+      "loss": 1.6184,
       "step": 66
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.00015505107827058036,
+      "loss": 1.9795,
       "step": 68
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.000152318876658213,
+      "loss": 2.1623,
       "step": 70
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.00014953179976899878,
+      "loss": 1.6021,
       "step": 72
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00014669277086172406,
+      "loss": 1.6685,
       "step": 74
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00014380476768566824,
+      "loss": 1.5446,
       "step": 76
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.00014087081935735564,
+      "loss": 1.416,
       "step": 78
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00013789400318343068,
+      "loss": 1.444,
       "step": 80
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00013487744143298822,
+      "loss": 1.6077,
       "step": 82
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 0.0001318242980627444,
+      "loss": 1.6088,
       "step": 84
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 0.00012873777539848283,
+      "loss": 2.1679,
       "step": 86
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 0.00012562111077625722,
+      "loss": 1.6029,
       "step": 88
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 0.00012247757314687297,
+      "loss": 1.6147,
       "step": 90
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.00011931045964720881,
+      "loss": 1.5484,
       "step": 92
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 0.00011612309214197599,
+      "loss": 1.209,
       "step": 94
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.00011291881373954065,
+      "loss": 1.4836,
       "step": 96
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 0.00010970098528546481,
+      "loss": 1.6123,
       "step": 98
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 0.00010647298183744359,
+      "loss": 1.5941,
       "step": 100
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 0.00010323818912533561,
+      "loss": 1.6742,
       "step": 102
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 0.0001,
+      "loss": 1.6694,
       "step": 104
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 9.676181087466444e-05,
+      "loss": 1.6093,
       "step": 106
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 9.352701816255643e-05,
+      "loss": 1.523,
       "step": 108
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 9.02990147145352e-05,
+      "loss": 1.3713,
       "step": 110
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 8.70811862604594e-05,
+      "loss": 1.353,
       "step": 112
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.387690785802402e-05,
+      "loss": 1.6161,
       "step": 114
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 8.068954035279121e-05,
+      "loss": 1.4482,
       "step": 116
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 7.75224268531271e-05,
+      "loss": 2.2994,
       "step": 118
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 7.437888922374276e-05,
+      "loss": 1.6135,
       "step": 120
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 7.126222460151719e-05,
+      "loss": 1.6165,
       "step": 122
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 6.817570193725564e-05,
+      "loss": 1.5075,
       "step": 124
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 6.512255856701177e-05,
+      "loss": 1.3746,
       "step": 126
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 6.210599681656933e-05,
+      "loss": 1.636,
       "step": 128
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 5.9129180642644414e-05,
+      "loss": 1.543,
       "step": 130
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 5.6195232314331766e-05,
+      "loss": 1.8575,
       "step": 132
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 5.3307229138275936e-05,
+      "loss": 1.5399,
       "step": 134
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 5.0468200231001286e-05,
+      "loss": 2.0868,
       "step": 136
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 4.768112334178699e-05,
+      "loss": 1.6908,
       "step": 138
     },
     {
+      "epoch": 2.09,
+      "learning_rate": 4.494892172941965e-05,
+      "loss": 1.6114,
       "step": 140
     },
     {
+      "epoch": 2.12,
+      "learning_rate": 4.227446109609809e-05,
+      "loss": 1.6339,
       "step": 142
     },
     {
+      "epoch": 2.15,
+      "learning_rate": 3.966054658170754e-05,
+      "loss": 1.2812,
       "step": 144
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 3.710991982161555e-05,
+      "loss": 1.2917,
       "step": 146
     },
     {
+      "epoch": 2.21,
+      "learning_rate": 3.4625256071074773e-05,
+      "loss": 1.4585,
       "step": 148
     },
     {
+      "epoch": 2.24,
+      "learning_rate": 3.2209161399249674e-05,
+      "loss": 1.2756,
       "step": 150
     },
     {
+      "epoch": 2.27,
+      "learning_rate": 2.9864169955810084e-05,
+      "loss": 2.3198,
       "step": 152
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 2.759274131295787e-05,
+      "loss": 1.5796,
       "step": 154
     },
     {
+      "epoch": 2.33,
+      "learning_rate": 2.5397257885675397e-05,
+      "loss": 1.5894,
       "step": 156
     },
     {
+      "epoch": 2.36,
+      "learning_rate": 2.3280022432901383e-05,
+      "loss": 1.5756,
       "step": 158
     },
     {
+      "epoch": 2.39,
+      "learning_rate": 2.1243255642254578e-05,
+      "loss": 1.4533,
       "step": 160
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 1.9289093800839066e-05,
+      "loss": 1.438,
       "step": 162
     },
     {
+      "epoch": 2.45,
+      "learning_rate": 1.741958655457436e-05,
+      "loss": 1.3457,
       "step": 164
     },
     {
+      "epoch": 2.48,
+      "learning_rate": 1.563669475839956e-05,
+      "loss": 1.1468,
       "step": 166
     },
     {
+      "epoch": 2.51,
+      "learning_rate": 1.3942288419607475e-05,
+      "loss": 2.2085,
       "step": 168
     },
     {
+      "epoch": 2.53,
+      "learning_rate": 1.233814473646524e-05,
+      "loss": 1.9171,
       "step": 170
     },
     {
+      "epoch": 2.56,
+      "learning_rate": 1.0825946234178574e-05,
+      "loss": 1.6193,
       "step": 172
     },
     {
+      "epoch": 2.59,
+      "learning_rate": 9.407279000155312e-06,
+      "loss": 1.47,
       "step": 174
     },
     {
+      "epoch": 2.62,
+      "learning_rate": 8.083631020418791e-06,
+      "loss": 1.4138,
       "step": 176
     },
     {
+      "epoch": 2.65,
+      "learning_rate": 6.856390618915775e-06,
+      "loss": 1.2043,
       "step": 178
     },
     {
+      "epoch": 2.68,
+      "learning_rate": 5.726845001356573e-06,
+      "loss": 1.4215,
       "step": 180
     },
     {
+      "epoch": 2.71,
+      "learning_rate": 4.6961789051139124e-06,
+      "loss": 1.0938,
       "step": 182
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 3.7654733565969826e-06,
+      "loss": 2.0156,
       "step": 184
     },
     {
+      "epoch": 2.77,
+      "learning_rate": 2.9357045374040825e-06,
+      "loss": 2.0088,
       "step": 186
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 2.2077427604429433e-06,
+      "loss": 1.5032,
       "step": 188
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 1.5823515570925763e-06,
+      "loss": 1.5842,
       "step": 190
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 1.0601868763643996e-06,
+      "loss": 1.3561,
       "step": 192
     },
     {
+      "epoch": 2.89,
+      "learning_rate": 6.41796396902239e-07,
+      "loss": 1.296,
       "step": 194
     },
     {
+      "epoch": 2.92,
+      "learning_rate": 3.2761895254306287e-07,
+      "loss": 1.3239,
       "step": 196
     },
     {
+      "epoch": 2.95,
+      "learning_rate": 1.179840720409331e-07,
+      "loss": 1.2131,
       "step": 198
     },
     {
       "epoch": 2.98,
+      "learning_rate": 1.3111633436779791e-08,
+      "loss": 1.7555,
+      "step": 200
     }
   ],
   "logging_steps": 2,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 8968581547376640.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7731c805444d2fbb17d084f1b5d36dc79f36dc5a446cc069dfd52a1fe773ed46
-size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:da948b73e000170eaf0b99f7c111db91b69784f4b483a9982043310262c9824f
+size 4728