Model save

Browse files

Files changed (7) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +4 -4
runs/Feb06_23-24-31_GCRAZGDL1601/events.out.tfevents.1738884276.GCRAZGDL1601.3098201.0 +3 -0
train_results.json +4 -4
trainer_state.json +339 -339
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "v_proj",
     "q_proj",
     "gate_proj",
     "k_proj",
-    "down_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "up_proj",
     "q_proj",
+    "v_proj",
     "gate_proj",
     "k_proj",
+    "o_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72926929efb16b9742c5b0672503bc20540d9b6cc9f61396ffadde8cc9fd5943
 size 73911112

 version https://git-lfs.github.com/spec/v1
+oid sha256:9439f84441ba4a34585d5554e5f06048fe4bc93effd918b82410f94c5bf6edc7
 size 73911112

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9991079393398751,
     "total_flos": 8.398274691072e+17,
-    "train_loss": 0.0010137432387896947,
-    "train_runtime": 24.1791,
     "train_samples": 16710,
-    "train_samples_per_second": 370.899,
-    "train_steps_per_second": 23.16
 }

 {
     "epoch": 0.9991079393398751,
     "total_flos": 8.398274691072e+17,
+    "train_loss": 0.5889353160347257,
+    "train_runtime": 8886.9999,
     "train_samples": 16710,
+    "train_samples_per_second": 1.009,
+    "train_steps_per_second": 0.063
 }

runs/Feb06_23-24-31_GCRAZGDL1601/events.out.tfevents.1738884276.GCRAZGDL1601.3098201.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63fbc7d88f143ec334dee35764121bf41e0a33f92c44c7407b43f6de224f6a2c
+size 30021

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9991079393398751,
     "total_flos": 8.398274691072e+17,
-    "train_loss": 0.0010137432387896947,
-    "train_runtime": 24.1791,
     "train_samples": 16710,
-    "train_samples_per_second": 370.899,
-    "train_steps_per_second": 23.16
 }

 {
     "epoch": 0.9991079393398751,
     "total_flos": 8.398274691072e+17,
+    "train_loss": 0.5889353160347257,
+    "train_runtime": 8886.9999,
     "train_samples": 16710,
+    "train_samples_per_second": 1.009,
+    "train_steps_per_second": 0.063
 }

trainer_state.json CHANGED Viewed

@@ -9,797 +9,797 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.008936550491510277,
-      "grad_norm": 0.04153493791818619,
       "learning_rate": 0.0002,
-      "loss": 0.7499,
       "step": 5
     },
     {
-      "epoch": 0.017873100983020553,
-      "grad_norm": 0.044111333787441254,
       "learning_rate": 0.0002,
-      "loss": 0.7161,
       "step": 10
     },
     {
-      "epoch": 0.02680965147453083,
-      "grad_norm": 0.041741564869880676,
       "learning_rate": 0.0002,
-      "loss": 0.6638,
       "step": 15
     },
     {
-      "epoch": 0.035746201966041107,
-      "grad_norm": 0.03860403597354889,
       "learning_rate": 0.0002,
-      "loss": 0.6516,
       "step": 20
     },
     {
-      "epoch": 0.044682752457551385,
-      "grad_norm": 0.03756846487522125,
       "learning_rate": 0.0002,
-      "loss": 0.6725,
       "step": 25
     },
     {
-      "epoch": 0.05361930294906166,
-      "grad_norm": 0.03411193564534187,
       "learning_rate": 0.0002,
-      "loss": 0.624,
       "step": 30
     },
     {
-      "epoch": 0.06255585344057193,
-      "grad_norm": 0.029239550232887268,
       "learning_rate": 0.0002,
-      "loss": 0.6482,
       "step": 35
     },
     {
-      "epoch": 0.07149240393208221,
-      "grad_norm": 0.026874635368585587,
       "learning_rate": 0.0002,
-      "loss": 0.631,
       "step": 40
     },
     {
-      "epoch": 0.08042895442359249,
-      "grad_norm": 0.026550836861133575,
       "learning_rate": 0.0002,
-      "loss": 0.613,
       "step": 45
     },
     {
-      "epoch": 0.08936550491510277,
-      "grad_norm": 0.025206631049513817,
       "learning_rate": 0.0002,
-      "loss": 0.6205,
       "step": 50
     },
     {
-      "epoch": 0.09830205540661305,
-      "grad_norm": 0.025149798020720482,
       "learning_rate": 0.0002,
-      "loss": 0.5954,
       "step": 55
     },
     {
-      "epoch": 0.10723860589812333,
-      "grad_norm": 0.02644510194659233,
       "learning_rate": 0.0002,
-      "loss": 0.6106,
       "step": 60
     },
     {
-      "epoch": 0.1161751563896336,
-      "grad_norm": 0.02368175983428955,
       "learning_rate": 0.0002,
-      "loss": 0.5899,
       "step": 65
     },
     {
-      "epoch": 0.12511170688114387,
-      "grad_norm": 0.025952663272619247,
       "learning_rate": 0.0002,
-      "loss": 0.5864,
       "step": 70
     },
     {
-      "epoch": 0.13404825737265416,
-      "grad_norm": 0.02527940273284912,
       "learning_rate": 0.0002,
-      "loss": 0.5888,
       "step": 75
     },
     {
-      "epoch": 0.14298480786416443,
-      "grad_norm": 0.0256633460521698,
       "learning_rate": 0.0002,
-      "loss": 0.579,
       "step": 80
     },
     {
-      "epoch": 0.15192135835567472,
-      "grad_norm": 0.023388464003801346,
       "learning_rate": 0.0002,
-      "loss": 0.5983,
       "step": 85
     },
     {
-      "epoch": 0.16085790884718498,
-      "grad_norm": 0.02358727529644966,
       "learning_rate": 0.0002,
-      "loss": 0.5993,
       "step": 90
     },
     {
-      "epoch": 0.16979445933869527,
-      "grad_norm": 0.02532259002327919,
       "learning_rate": 0.0002,
-      "loss": 0.5883,
       "step": 95
     },
     {
-      "epoch": 0.17873100983020554,
-      "grad_norm": 0.025463785976171494,
       "learning_rate": 0.0002,
-      "loss": 0.5646,
       "step": 100
     },
     {
-      "epoch": 0.1876675603217158,
-      "grad_norm": 0.02428724244236946,
       "learning_rate": 0.0002,
-      "loss": 0.5863,
       "step": 105
     },
     {
-      "epoch": 0.1966041108132261,
-      "grad_norm": 0.027085445821285248,
       "learning_rate": 0.0002,
-      "loss": 0.5887,
       "step": 110
     },
     {
-      "epoch": 0.20554066130473636,
-      "grad_norm": 0.024989286437630653,
       "learning_rate": 0.0002,
-      "loss": 0.6307,
       "step": 115
     },
     {
-      "epoch": 0.21447721179624665,
-      "grad_norm": 0.025627750903367996,
       "learning_rate": 0.0002,
-      "loss": 0.619,
       "step": 120
     },
     {
-      "epoch": 0.22341376228775692,
-      "grad_norm": 0.028242159634828568,
       "learning_rate": 0.0002,
-      "loss": 0.6093,
       "step": 125
     },
     {
-      "epoch": 0.2323503127792672,
-      "grad_norm": 0.02808305062353611,
       "learning_rate": 0.0002,
-      "loss": 0.6145,
       "step": 130
     },
     {
-      "epoch": 0.24128686327077747,
-      "grad_norm": 0.024711593985557556,
       "learning_rate": 0.0002,
-      "loss": 0.5533,
       "step": 135
     },
     {
-      "epoch": 0.25022341376228774,
-      "grad_norm": 0.026244837790727615,
       "learning_rate": 0.0002,
-      "loss": 0.5927,
       "step": 140
     },
     {
-      "epoch": 0.25915996425379806,
-      "grad_norm": 0.02702728658914566,
       "learning_rate": 0.0002,
-      "loss": 0.5809,
       "step": 145
     },
     {
-      "epoch": 0.2680965147453083,
-      "grad_norm": 0.026773197576403618,
       "learning_rate": 0.0002,
-      "loss": 0.588,
       "step": 150
     },
     {
-      "epoch": 0.2770330652368186,
-      "grad_norm": 0.026652127504348755,
       "learning_rate": 0.0002,
-      "loss": 0.6091,
       "step": 155
     },
     {
-      "epoch": 0.28596961572832885,
-      "grad_norm": 0.026826491579413414,
       "learning_rate": 0.0002,
-      "loss": 0.5746,
       "step": 160
     },
     {
-      "epoch": 0.2949061662198391,
-      "grad_norm": 0.028087735176086426,
       "learning_rate": 0.0002,
-      "loss": 0.5986,
       "step": 165
     },
     {
-      "epoch": 0.30384271671134944,
-      "grad_norm": 0.025982139632105827,
       "learning_rate": 0.0002,
-      "loss": 0.5819,
       "step": 170
     },
     {
-      "epoch": 0.3127792672028597,
-      "grad_norm": 0.02771054208278656,
       "learning_rate": 0.0002,
-      "loss": 0.5874,
       "step": 175
     },
     {
-      "epoch": 0.32171581769436997,
-      "grad_norm": 0.026281068101525307,
       "learning_rate": 0.0002,
-      "loss": 0.5955,
       "step": 180
     },
     {
-      "epoch": 0.33065236818588023,
-      "grad_norm": 0.026669517159461975,
       "learning_rate": 0.0002,
-      "loss": 0.5842,
       "step": 185
     },
     {
-      "epoch": 0.33958891867739055,
-      "grad_norm": 0.027214782312512398,
       "learning_rate": 0.0002,
-      "loss": 0.578,
       "step": 190
     },
     {
-      "epoch": 0.3485254691689008,
-      "grad_norm": 0.0279616117477417,
       "learning_rate": 0.0002,
-      "loss": 0.5993,
       "step": 195
     },
     {
-      "epoch": 0.3574620196604111,
-      "grad_norm": 0.026525571942329407,
       "learning_rate": 0.0002,
-      "loss": 0.5988,
       "step": 200
     },
     {
-      "epoch": 0.36639857015192134,
-      "grad_norm": 0.026812193915247917,
       "learning_rate": 0.0002,
-      "loss": 0.5818,
       "step": 205
     },
     {
-      "epoch": 0.3753351206434316,
-      "grad_norm": 0.02935432456433773,
       "learning_rate": 0.0002,
-      "loss": 0.5942,
       "step": 210
     },
     {
-      "epoch": 0.38427167113494193,
-      "grad_norm": 0.02752542681992054,
       "learning_rate": 0.0002,
-      "loss": 0.5781,
       "step": 215
     },
     {
-      "epoch": 0.3932082216264522,
-      "grad_norm": 0.02715650200843811,
       "learning_rate": 0.0002,
-      "loss": 0.5539,
       "step": 220
     },
     {
-      "epoch": 0.40214477211796246,
-      "grad_norm": 0.027740860357880592,
       "learning_rate": 0.0002,
-      "loss": 0.6005,
       "step": 225
     },
     {
-      "epoch": 0.4110813226094727,
-      "grad_norm": 0.02917667292058468,
       "learning_rate": 0.0002,
-      "loss": 0.5858,
       "step": 230
     },
     {
-      "epoch": 0.42001787310098304,
-      "grad_norm": 0.029291415587067604,
       "learning_rate": 0.0002,
-      "loss": 0.6052,
       "step": 235
     },
     {
-      "epoch": 0.4289544235924933,
-      "grad_norm": 0.028029408305883408,
       "learning_rate": 0.0002,
-      "loss": 0.5843,
       "step": 240
     },
     {
-      "epoch": 0.43789097408400357,
-      "grad_norm": 0.027253130450844765,
       "learning_rate": 0.0002,
-      "loss": 0.5733,
       "step": 245
     },
     {
-      "epoch": 0.44682752457551383,
-      "grad_norm": 0.030096998438239098,
       "learning_rate": 0.0002,
-      "loss": 0.5659,
       "step": 250
     },
     {
-      "epoch": 0.45576407506702415,
-      "grad_norm": 0.027552833780646324,
       "learning_rate": 0.0002,
-      "loss": 0.6113,
       "step": 255
     },
     {
-      "epoch": 0.4647006255585344,
-      "grad_norm": 0.027978690341114998,
       "learning_rate": 0.0002,
-      "loss": 0.5865,
       "step": 260
     },
     {
-      "epoch": 0.4736371760500447,
-      "grad_norm": 0.02770094946026802,
       "learning_rate": 0.0002,
-      "loss": 0.5483,
       "step": 265
     },
     {
-      "epoch": 0.48257372654155495,
-      "grad_norm": 0.029694920405745506,
       "learning_rate": 0.0002,
-      "loss": 0.5818,
       "step": 270
     },
     {
-      "epoch": 0.4915102770330652,
-      "grad_norm": 0.026892486959695816,
       "learning_rate": 0.0002,
-      "loss": 0.5943,
       "step": 275
     },
     {
-      "epoch": 0.5004468275245755,
-      "grad_norm": 0.02659418247640133,
       "learning_rate": 0.0002,
-      "loss": 0.5975,
       "step": 280
     },
     {
-      "epoch": 0.5093833780160858,
-      "grad_norm": 0.02613973245024681,
       "learning_rate": 0.0002,
-      "loss": 0.5666,
       "step": 285
     },
     {
-      "epoch": 0.5183199285075961,
-      "grad_norm": 0.028008636087179184,
       "learning_rate": 0.0002,
-      "loss": 0.5762,
       "step": 290
     },
     {
-      "epoch": 0.5272564789991063,
-      "grad_norm": 0.026727279648184776,
       "learning_rate": 0.0002,
-      "loss": 0.5652,
       "step": 295
     },
     {
-      "epoch": 0.5361930294906166,
-      "grad_norm": 0.027729446068406105,
       "learning_rate": 0.0002,
-      "loss": 0.5605,
       "step": 300
     },
     {
-      "epoch": 0.5451295799821269,
-      "grad_norm": 0.02615601010620594,
       "learning_rate": 0.0002,
-      "loss": 0.6004,
       "step": 305
     },
     {
-      "epoch": 0.5540661304736372,
-      "grad_norm": 0.02820262685418129,
       "learning_rate": 0.0002,
-      "loss": 0.5562,
       "step": 310
     },
     {
-      "epoch": 0.5630026809651475,
-      "grad_norm": 0.028281336650252342,
       "learning_rate": 0.0002,
-      "loss": 0.5782,
       "step": 315
     },
     {
-      "epoch": 0.5719392314566577,
-      "grad_norm": 0.02955157682299614,
       "learning_rate": 0.0002,
-      "loss": 0.6086,
       "step": 320
     },
     {
-      "epoch": 0.580875781948168,
-      "grad_norm": 0.02593911811709404,
       "learning_rate": 0.0002,
-      "loss": 0.5618,
       "step": 325
     },
     {
-      "epoch": 0.5898123324396782,
-      "grad_norm": 0.028371961787343025,
       "learning_rate": 0.0002,
-      "loss": 0.5747,
       "step": 330
     },
     {
-      "epoch": 0.5987488829311886,
-      "grad_norm": 0.027989625930786133,
       "learning_rate": 0.0002,
-      "loss": 0.5736,
       "step": 335
     },
     {
-      "epoch": 0.6076854334226989,
-      "grad_norm": 0.02815859578549862,
       "learning_rate": 0.0002,
-      "loss": 0.5666,
       "step": 340
     },
     {
-      "epoch": 0.6166219839142091,
-      "grad_norm": 0.02636733092367649,
       "learning_rate": 0.0002,
-      "loss": 0.5774,
       "step": 345
     },
     {
-      "epoch": 0.6255585344057194,
-      "grad_norm": 0.028307748958468437,
       "learning_rate": 0.0002,
-      "loss": 0.5783,
       "step": 350
     },
     {
-      "epoch": 0.6344950848972297,
-      "grad_norm": 0.028890695422887802,
       "learning_rate": 0.0002,
-      "loss": 0.5796,
       "step": 355
     },
     {
-      "epoch": 0.6434316353887399,
-      "grad_norm": 0.028257351368665695,
       "learning_rate": 0.0002,
-      "loss": 0.5646,
       "step": 360
     },
     {
-      "epoch": 0.6523681858802503,
-      "grad_norm": 0.02682431973516941,
       "learning_rate": 0.0002,
-      "loss": 0.5507,
       "step": 365
     },
     {
-      "epoch": 0.6613047363717605,
-      "grad_norm": 0.027308348566293716,
       "learning_rate": 0.0002,
-      "loss": 0.6145,
       "step": 370
     },
     {
-      "epoch": 0.6702412868632708,
-      "grad_norm": 0.027066020295023918,
       "learning_rate": 0.0002,
-      "loss": 0.5708,
       "step": 375
     },
     {
-      "epoch": 0.6791778373547811,
-      "grad_norm": 0.02646820992231369,
       "learning_rate": 0.0002,
-      "loss": 0.5466,
       "step": 380
     },
     {
-      "epoch": 0.6881143878462913,
-      "grad_norm": 0.026627352461218834,
       "learning_rate": 0.0002,
-      "loss": 0.5735,
       "step": 385
     },
     {
-      "epoch": 0.6970509383378016,
-      "grad_norm": 0.02751215733587742,
       "learning_rate": 0.0002,
-      "loss": 0.5708,
       "step": 390
     },
     {
-      "epoch": 0.7059874888293118,
-      "grad_norm": 0.029046354815363884,
       "learning_rate": 0.0002,
-      "loss": 0.5701,
       "step": 395
     },
     {
-      "epoch": 0.7149240393208222,
-      "grad_norm": 0.028309453278779984,
       "learning_rate": 0.0002,
-      "loss": 0.5824,
       "step": 400
     },
     {
-      "epoch": 0.7238605898123325,
-      "grad_norm": 0.027017708867788315,
       "learning_rate": 0.0002,
-      "loss": 0.5672,
       "step": 405
     },
     {
-      "epoch": 0.7327971403038427,
-      "grad_norm": 0.02751619555056095,
       "learning_rate": 0.0002,
-      "loss": 0.583,
       "step": 410
     },
     {
-      "epoch": 0.741733690795353,
-      "grad_norm": 0.029170291498303413,
       "learning_rate": 0.0002,
-      "loss": 0.5923,
       "step": 415
     },
     {
-      "epoch": 0.7506702412868632,
-      "grad_norm": 0.02801818959414959,
       "learning_rate": 0.0002,
-      "loss": 0.5912,
       "step": 420
     },
     {
-      "epoch": 0.7596067917783735,
-      "grad_norm": 0.029242202639579773,
       "learning_rate": 0.0002,
-      "loss": 0.5766,
       "step": 425
     },
     {
-      "epoch": 0.7685433422698839,
-      "grad_norm": 0.02919500134885311,
       "learning_rate": 0.0002,
-      "loss": 0.5938,
       "step": 430
     },
     {
-      "epoch": 0.7774798927613941,
-      "grad_norm": 0.028539441525936127,
       "learning_rate": 0.0002,
-      "loss": 0.5841,
       "step": 435
     },
     {
-      "epoch": 0.7864164432529044,
-      "grad_norm": 0.0284650269895792,
       "learning_rate": 0.0002,
-      "loss": 0.5939,
       "step": 440
     },
     {
-      "epoch": 0.7953529937444147,
-      "grad_norm": 0.027977267280220985,
       "learning_rate": 0.0002,
-      "loss": 0.6035,
       "step": 445
     },
     {
-      "epoch": 0.8042895442359249,
-      "grad_norm": 0.026608245447278023,
       "learning_rate": 0.0002,
-      "loss": 0.586,
       "step": 450
     },
     {
-      "epoch": 0.8132260947274352,
-      "grad_norm": 0.02660188265144825,
       "learning_rate": 0.0002,
-      "loss": 0.5757,
       "step": 455
     },
     {
-      "epoch": 0.8221626452189454,
-      "grad_norm": 0.026315640658140182,
       "learning_rate": 0.0002,
-      "loss": 0.5571,
       "step": 460
     },
     {
-      "epoch": 0.8310991957104558,
-      "grad_norm": 0.027830056846141815,
       "learning_rate": 0.0002,
-      "loss": 0.5623,
       "step": 465
     },
     {
-      "epoch": 0.8400357462019661,
-      "grad_norm": 0.027287248522043228,
       "learning_rate": 0.0002,
-      "loss": 0.5808,
       "step": 470
     },
     {
-      "epoch": 0.8489722966934763,
-      "grad_norm": 0.025539880618453026,
       "learning_rate": 0.0002,
-      "loss": 0.556,
       "step": 475
     },
     {
-      "epoch": 0.8579088471849866,
-      "grad_norm": 0.02839650772511959,
       "learning_rate": 0.0002,
-      "loss": 0.574,
       "step": 480
     },
     {
-      "epoch": 0.8668453976764968,
-      "grad_norm": 0.026629634201526642,
       "learning_rate": 0.0002,
-      "loss": 0.5902,
       "step": 485
     },
     {
-      "epoch": 0.8757819481680071,
-      "grad_norm": 0.02764849364757538,
       "learning_rate": 0.0002,
-      "loss": 0.5661,
       "step": 490
     },
     {
-      "epoch": 0.8847184986595175,
-      "grad_norm": 0.02718566171824932,
       "learning_rate": 0.0002,
-      "loss": 0.5671,
       "step": 495
     },
     {
-      "epoch": 0.8936550491510277,
-      "grad_norm": 0.031797122210264206,
       "learning_rate": 0.0002,
-      "loss": 0.5862,
       "step": 500
     },
     {
-      "epoch": 0.902591599642538,
-      "grad_norm": 0.027700966224074364,
       "learning_rate": 0.0002,
-      "loss": 0.5892,
       "step": 505
     },
     {
-      "epoch": 0.9115281501340483,
-      "grad_norm": 0.029541322961449623,
       "learning_rate": 0.0002,
-      "loss": 0.5934,
       "step": 510
     },
     {
-      "epoch": 0.9204647006255585,
-      "grad_norm": 0.027446402236819267,
       "learning_rate": 0.0002,
-      "loss": 0.5818,
       "step": 515
     },
     {
-      "epoch": 0.9294012511170688,
-      "grad_norm": 0.029558710753917694,
       "learning_rate": 0.0002,
-      "loss": 0.5659,
       "step": 520
     },
     {
-      "epoch": 0.938337801608579,
-      "grad_norm": 0.028251904994249344,
       "learning_rate": 0.0002,
-      "loss": 0.5686,
       "step": 525
     },
     {
-      "epoch": 0.9472743521000894,
-      "grad_norm": 0.027048900723457336,
       "learning_rate": 0.0002,
-      "loss": 0.6004,
       "step": 530
     },
     {
-      "epoch": 0.9562109025915997,
-      "grad_norm": 0.03018295019865036,
       "learning_rate": 0.0002,
-      "loss": 0.5914,
       "step": 535
     },
     {
-      "epoch": 0.9651474530831099,
-      "grad_norm": 0.027683330699801445,
       "learning_rate": 0.0002,
-      "loss": 0.559,
       "step": 540
     },
     {
-      "epoch": 0.9740840035746202,
-      "grad_norm": 0.027257127687335014,
       "learning_rate": 0.0002,
-      "loss": 0.5783,
       "step": 545
     },
     {
-      "epoch": 0.9830205540661304,
-      "grad_norm": 0.028040431439876556,
       "learning_rate": 0.0002,
-      "loss": 0.5754,
       "step": 550
     },
     {
-      "epoch": 0.9919571045576407,
-      "grad_norm": 0.02839042991399765,
       "learning_rate": 0.0002,
-      "loss": 0.5578,
       "step": 555
     },
     {
       "epoch": 0.9991079393398751,
-      "grad_norm": 0.06720411032438278,
       "learning_rate": 0.0002,
-      "loss": 0.5677,
       "step": 560
     },
     {
       "epoch": 0.9991079393398751,
       "step": 560,
       "total_flos": 8.398274691072e+17,
-      "train_loss": 0.0010137432387896947,
-      "train_runtime": 24.1791,
-      "train_samples_per_second": 370.899,
-      "train_steps_per_second": 23.16
     }
   ],
   "logging_steps": 5,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.008920606601248885,
+      "grad_norm": 0.04344707727432251,
       "learning_rate": 0.0002,
+      "loss": 0.7458,
       "step": 5
     },
     {
+      "epoch": 0.01784121320249777,
+      "grad_norm": 0.041871875524520874,
       "learning_rate": 0.0002,
+      "loss": 0.71,
       "step": 10
     },
     {
+      "epoch": 0.026761819803746655,
+      "grad_norm": 0.041962090879678726,
       "learning_rate": 0.0002,
+      "loss": 0.672,
       "step": 15
     },
     {
+      "epoch": 0.03568242640499554,
+      "grad_norm": 0.03574032336473465,
       "learning_rate": 0.0002,
+      "loss": 0.686,
       "step": 20
     },
     {
+      "epoch": 0.04460303300624442,
+      "grad_norm": 0.03700491040945053,
       "learning_rate": 0.0002,
+      "loss": 0.6515,
       "step": 25
     },
     {
+      "epoch": 0.05352363960749331,
+      "grad_norm": 0.029821349307894707,
       "learning_rate": 0.0002,
+      "loss": 0.6247,
       "step": 30
     },
     {
+      "epoch": 0.06244424620874219,
+      "grad_norm": 0.027489786967635155,
       "learning_rate": 0.0002,
+      "loss": 0.6248,
       "step": 35
     },
     {
+      "epoch": 0.07136485280999108,
+      "grad_norm": 0.026733923703432083,
       "learning_rate": 0.0002,
+      "loss": 0.626,
       "step": 40
     },
     {
+      "epoch": 0.08028545941123996,
+      "grad_norm": 0.024855654686689377,
       "learning_rate": 0.0002,
+      "loss": 0.6141,
       "step": 45
     },
     {
+      "epoch": 0.08920606601248884,
+      "grad_norm": 0.024668758735060692,
       "learning_rate": 0.0002,
+      "loss": 0.5882,
       "step": 50
     },
     {
+      "epoch": 0.09812667261373774,
+      "grad_norm": 0.024284500628709793,
       "learning_rate": 0.0002,
+      "loss": 0.599,
       "step": 55
     },
     {
+      "epoch": 0.10704727921498662,
+      "grad_norm": 0.026213666424155235,
       "learning_rate": 0.0002,
+      "loss": 0.6458,
       "step": 60
     },
     {
+      "epoch": 0.1159678858162355,
+      "grad_norm": 0.025072986260056496,
       "learning_rate": 0.0002,
+      "loss": 0.5974,
       "step": 65
     },
     {
+      "epoch": 0.12488849241748438,
+      "grad_norm": 0.023400137200951576,
       "learning_rate": 0.0002,
+      "loss": 0.5535,
       "step": 70
     },
     {
+      "epoch": 0.13380909901873328,
+      "grad_norm": 0.025392651557922363,
       "learning_rate": 0.0002,
+      "loss": 0.5756,
       "step": 75
     },
     {
+      "epoch": 0.14272970561998216,
+      "grad_norm": 0.023731403052806854,
       "learning_rate": 0.0002,
+      "loss": 0.5895,
       "step": 80
     },
     {
+      "epoch": 0.15165031222123104,
+      "grad_norm": 0.02360088750720024,
       "learning_rate": 0.0002,
+      "loss": 0.5869,
       "step": 85
     },
     {
+      "epoch": 0.16057091882247992,
+      "grad_norm": 0.02655966207385063,
       "learning_rate": 0.0002,
+      "loss": 0.5851,
       "step": 90
     },
     {
+      "epoch": 0.1694915254237288,
+      "grad_norm": 0.02600923739373684,
       "learning_rate": 0.0002,
+      "loss": 0.609,
       "step": 95
     },
     {
+      "epoch": 0.1784121320249777,
+      "grad_norm": 0.025682499632239342,
       "learning_rate": 0.0002,
+      "loss": 0.5885,
       "step": 100
     },
     {
+      "epoch": 0.1873327386262266,
+      "grad_norm": 0.025844326242804527,
       "learning_rate": 0.0002,
+      "loss": 0.5997,
       "step": 105
     },
     {
+      "epoch": 0.19625334522747548,
+      "grad_norm": 0.027400100603699684,
       "learning_rate": 0.0002,
+      "loss": 0.609,
       "step": 110
     },
     {
+      "epoch": 0.20517395182872436,
+      "grad_norm": 0.025671344250440598,
       "learning_rate": 0.0002,
+      "loss": 0.5678,
       "step": 115
     },
     {
+      "epoch": 0.21409455842997324,
+      "grad_norm": 0.02872069925069809,
       "learning_rate": 0.0002,
+      "loss": 0.6052,
       "step": 120
     },
     {
+      "epoch": 0.22301516503122212,
+      "grad_norm": 0.026377148926258087,
       "learning_rate": 0.0002,
+      "loss": 0.5961,
       "step": 125
     },
     {
+      "epoch": 0.231935771632471,
+      "grad_norm": 0.027191588655114174,
       "learning_rate": 0.0002,
+      "loss": 0.5903,
       "step": 130
     },
     {
+      "epoch": 0.2408563782337199,
+      "grad_norm": 0.030450984835624695,
       "learning_rate": 0.0002,
+      "loss": 0.5703,
       "step": 135
     },
     {
+      "epoch": 0.24977698483496877,
+      "grad_norm": 0.02679985947906971,
       "learning_rate": 0.0002,
+      "loss": 0.5805,
       "step": 140
     },
     {
+      "epoch": 0.2586975914362177,
+      "grad_norm": 0.02805212326347828,
       "learning_rate": 0.0002,
+      "loss": 0.5867,
       "step": 145
     },
     {
+      "epoch": 0.26761819803746656,
+      "grad_norm": 0.027465296909213066,
       "learning_rate": 0.0002,
+      "loss": 0.599,
       "step": 150
     },
     {
+      "epoch": 0.27653880463871544,
+      "grad_norm": 0.027630291879177094,
       "learning_rate": 0.0002,
+      "loss": 0.5894,
       "step": 155
     },
     {
+      "epoch": 0.2854594112399643,
+      "grad_norm": 0.027628762647509575,
       "learning_rate": 0.0002,
+      "loss": 0.5984,
       "step": 160
     },
     {
+      "epoch": 0.2943800178412132,
+      "grad_norm": 0.02642473392188549,
       "learning_rate": 0.0002,
+      "loss": 0.5966,
       "step": 165
     },
     {
+      "epoch": 0.3033006244424621,
+      "grad_norm": 0.027726992964744568,
       "learning_rate": 0.0002,
+      "loss": 0.5954,
       "step": 170
     },
     {
+      "epoch": 0.31222123104371097,
+      "grad_norm": 0.027844909578561783,
       "learning_rate": 0.0002,
+      "loss": 0.5932,
       "step": 175
     },
     {
+      "epoch": 0.32114183764495985,
+      "grad_norm": 0.024765541777014732,
       "learning_rate": 0.0002,
+      "loss": 0.5608,
       "step": 180
     },
     {
+      "epoch": 0.33006244424620873,
+      "grad_norm": 0.02770071104168892,
       "learning_rate": 0.0002,
+      "loss": 0.6121,
       "step": 185
     },
     {
+      "epoch": 0.3389830508474576,
+      "grad_norm": 0.02800634689629078,
       "learning_rate": 0.0002,
+      "loss": 0.5964,
       "step": 190
     },
     {
+      "epoch": 0.3479036574487065,
+      "grad_norm": 0.028501659631729126,
       "learning_rate": 0.0002,
+      "loss": 0.5757,
       "step": 195
     },
     {
+      "epoch": 0.3568242640499554,
+      "grad_norm": 0.026436127722263336,
       "learning_rate": 0.0002,
+      "loss": 0.5689,
       "step": 200
     },
     {
+      "epoch": 0.36574487065120426,
+      "grad_norm": 0.027517864480614662,
       "learning_rate": 0.0002,
+      "loss": 0.5999,
       "step": 205
     },
     {
+      "epoch": 0.3746654772524532,
+      "grad_norm": 0.026851925998926163,
       "learning_rate": 0.0002,
+      "loss": 0.5771,
       "step": 210
     },
     {
+      "epoch": 0.3835860838537021,
+      "grad_norm": 0.027687210589647293,
       "learning_rate": 0.0002,
+      "loss": 0.5627,
       "step": 215
     },
     {
+      "epoch": 0.39250669045495096,
+      "grad_norm": 0.030687233433127403,
       "learning_rate": 0.0002,
+      "loss": 0.6206,
       "step": 220
     },
     {
+      "epoch": 0.40142729705619984,
+      "grad_norm": 0.028457796201109886,
       "learning_rate": 0.0002,
+      "loss": 0.5753,
       "step": 225
     },
     {
+      "epoch": 0.4103479036574487,
+      "grad_norm": 0.028889574110507965,
       "learning_rate": 0.0002,
+      "loss": 0.5739,
       "step": 230
     },
     {
+      "epoch": 0.4192685102586976,
+      "grad_norm": 0.028494860976934433,
       "learning_rate": 0.0002,
+      "loss": 0.5895,
       "step": 235
     },
     {
+      "epoch": 0.4281891168599465,
+      "grad_norm": 0.028224695473909378,
       "learning_rate": 0.0002,
+      "loss": 0.6016,
       "step": 240
     },
     {
+      "epoch": 0.43710972346119537,
+      "grad_norm": 0.027433231472969055,
       "learning_rate": 0.0002,
+      "loss": 0.5759,
       "step": 245
     },
     {
+      "epoch": 0.44603033006244425,
+      "grad_norm": 0.02770438976585865,
       "learning_rate": 0.0002,
+      "loss": 0.5963,
       "step": 250
     },
     {
+      "epoch": 0.45495093666369313,
+      "grad_norm": 0.030380843207240105,
       "learning_rate": 0.0002,
+      "loss": 0.6346,
       "step": 255
     },
     {
+      "epoch": 0.463871543264942,
+      "grad_norm": 0.028422418981790543,
       "learning_rate": 0.0002,
+      "loss": 0.6088,
       "step": 260
     },
     {
+      "epoch": 0.4727921498661909,
+      "grad_norm": 0.02833402529358864,
       "learning_rate": 0.0002,
+      "loss": 0.5672,
       "step": 265
     },
     {
+      "epoch": 0.4817127564674398,
+      "grad_norm": 0.0281459279358387,
       "learning_rate": 0.0002,
+      "loss": 0.5875,
       "step": 270
     },
     {
+      "epoch": 0.49063336306868865,
+      "grad_norm": 0.02902720309793949,
       "learning_rate": 0.0002,
+      "loss": 0.578,
       "step": 275
     },
     {
+      "epoch": 0.49955396966993754,
+      "grad_norm": 0.02845628187060356,
       "learning_rate": 0.0002,
+      "loss": 0.5852,
       "step": 280
     },
     {
+      "epoch": 0.5084745762711864,
+      "grad_norm": 0.02827693149447441,
       "learning_rate": 0.0002,
+      "loss": 0.5651,
       "step": 285
     },
     {
+      "epoch": 0.5173951828724354,
+      "grad_norm": 0.026872893795371056,
       "learning_rate": 0.0002,
+      "loss": 0.5847,
       "step": 290
     },
     {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.02863125689327717,
       "learning_rate": 0.0002,
+      "loss": 0.569,
       "step": 295
     },
     {
+      "epoch": 0.5352363960749331,
+      "grad_norm": 0.02849287912249565,
       "learning_rate": 0.0002,
+      "loss": 0.5904,
       "step": 300
     },
     {
+      "epoch": 0.544157002676182,
+      "grad_norm": 0.029510285705327988,
       "learning_rate": 0.0002,
+      "loss": 0.5743,
       "step": 305
     },
     {
+      "epoch": 0.5530776092774309,
+      "grad_norm": 0.029404086992144585,
       "learning_rate": 0.0002,
+      "loss": 0.5897,
       "step": 310
     },
     {
+      "epoch": 0.5619982158786797,
+      "grad_norm": 0.028384504839777946,
       "learning_rate": 0.0002,
+      "loss": 0.5928,
       "step": 315
     },
     {
+      "epoch": 0.5709188224799286,
+      "grad_norm": 0.029003608971834183,
       "learning_rate": 0.0002,
+      "loss": 0.5758,
       "step": 320
     },
     {
+      "epoch": 0.5798394290811775,
+      "grad_norm": 0.026150822639465332,
       "learning_rate": 0.0002,
+      "loss": 0.5688,
       "step": 325
     },
     {
+      "epoch": 0.5887600356824264,
+      "grad_norm": 0.027160905301570892,
       "learning_rate": 0.0002,
+      "loss": 0.5783,
       "step": 330
     },
     {
+      "epoch": 0.5976806422836753,
+      "grad_norm": 0.026426801458001137,
       "learning_rate": 0.0002,
+      "loss": 0.5605,
       "step": 335
     },
     {
+      "epoch": 0.6066012488849242,
+      "grad_norm": 0.029923705384135246,
       "learning_rate": 0.0002,
+      "loss": 0.5901,
       "step": 340
     },
     {
+      "epoch": 0.6155218554861731,
+      "grad_norm": 0.02743326872587204,
       "learning_rate": 0.0002,
+      "loss": 0.5964,
       "step": 345
     },
     {
+      "epoch": 0.6244424620874219,
+      "grad_norm": 0.0284026637673378,
       "learning_rate": 0.0002,
+      "loss": 0.5874,
       "step": 350
     },
     {
+      "epoch": 0.6333630686886709,
+      "grad_norm": 0.030260000377893448,
       "learning_rate": 0.0002,
+      "loss": 0.5831,
       "step": 355
     },
     {
+      "epoch": 0.6422836752899197,
+      "grad_norm": 0.02586439996957779,
       "learning_rate": 0.0002,
+      "loss": 0.5541,
       "step": 360
     },
     {
+      "epoch": 0.6512042818911686,
+      "grad_norm": 0.026640642434358597,
       "learning_rate": 0.0002,
+      "loss": 0.5669,
       "step": 365
     },
     {
+      "epoch": 0.6601248884924175,
+      "grad_norm": 0.028971482068300247,
       "learning_rate": 0.0002,
+      "loss": 0.5952,
       "step": 370
     },
     {
+      "epoch": 0.6690454950936664,
+      "grad_norm": 0.027096880599856377,
       "learning_rate": 0.0002,
+      "loss": 0.5606,
       "step": 375
     },
     {
+      "epoch": 0.6779661016949152,
+      "grad_norm": 0.11753229796886444,
       "learning_rate": 0.0002,
+      "loss": 0.5667,
       "step": 380
     },
     {
+      "epoch": 0.6868867082961642,
+      "grad_norm": 0.029016384854912758,
       "learning_rate": 0.0002,
+      "loss": 0.5819,
       "step": 385
     },
     {
+      "epoch": 0.695807314897413,
+      "grad_norm": 0.03013915754854679,
       "learning_rate": 0.0002,
+      "loss": 0.5756,
       "step": 390
     },
     {
+      "epoch": 0.7047279214986619,
+      "grad_norm": 0.030191004276275635,
       "learning_rate": 0.0002,
+      "loss": 0.5714,
       "step": 395
     },
     {
+      "epoch": 0.7136485280999108,
+      "grad_norm": 0.02674183063209057,
       "learning_rate": 0.0002,
+      "loss": 0.5867,
       "step": 400
     },
     {
+      "epoch": 0.7225691347011597,
+      "grad_norm": 0.02824782207608223,
       "learning_rate": 0.0002,
+      "loss": 0.587,
       "step": 405
     },
     {
+      "epoch": 0.7314897413024085,
+      "grad_norm": 0.027175093069672585,
       "learning_rate": 0.0002,
+      "loss": 0.5883,
       "step": 410
     },
     {
+      "epoch": 0.7404103479036575,
+      "grad_norm": 0.028087187558412552,
       "learning_rate": 0.0002,
+      "loss": 0.5734,
       "step": 415
     },
     {
+      "epoch": 0.7493309545049064,
+      "grad_norm": 0.028495660051703453,
       "learning_rate": 0.0002,
+      "loss": 0.5499,
       "step": 420
     },
     {
+      "epoch": 0.7582515611061552,
+      "grad_norm": 0.029332948848605156,
       "learning_rate": 0.0002,
+      "loss": 0.6101,
       "step": 425
     },
     {
+      "epoch": 0.7671721677074042,
+      "grad_norm": 0.02667965553700924,
       "learning_rate": 0.0002,
+      "loss": 0.5652,
       "step": 430
     },
     {
+      "epoch": 0.776092774308653,
+      "grad_norm": 0.0268410611897707,
       "learning_rate": 0.0002,
+      "loss": 0.5584,
       "step": 435
     },
     {
+      "epoch": 0.7850133809099019,
+      "grad_norm": 0.027814755216240883,
       "learning_rate": 0.0002,
+      "loss": 0.5724,
       "step": 440
     },
     {
+      "epoch": 0.7939339875111507,
+      "grad_norm": 0.02988579496741295,
       "learning_rate": 0.0002,
+      "loss": 0.57,
       "step": 445
     },
     {
+      "epoch": 0.8028545941123997,
+      "grad_norm": 0.028960440307855606,
       "learning_rate": 0.0002,
+      "loss": 0.5484,
       "step": 450
     },
     {
+      "epoch": 0.8117752007136485,
+      "grad_norm": 0.028208531439304352,
       "learning_rate": 0.0002,
+      "loss": 0.5875,
       "step": 455
     },
     {
+      "epoch": 0.8206958073148974,
+      "grad_norm": 0.025945566594600677,
       "learning_rate": 0.0002,
+      "loss": 0.5696,
       "step": 460
     },
     {
+      "epoch": 0.8296164139161463,
+      "grad_norm": 0.028697073459625244,
       "learning_rate": 0.0002,
+      "loss": 0.5703,
       "step": 465
     },
     {
+      "epoch": 0.8385370205173952,
+      "grad_norm": 0.028819743543863297,
       "learning_rate": 0.0002,
+      "loss": 0.5814,
       "step": 470
     },
     {
+      "epoch": 0.847457627118644,
+      "grad_norm": 0.02928623929619789,
       "learning_rate": 0.0002,
+      "loss": 0.5738,
       "step": 475
     },
     {
+      "epoch": 0.856378233719893,
+      "grad_norm": 0.027526717633008957,
       "learning_rate": 0.0002,
+      "loss": 0.5678,
       "step": 480
     },
     {
+      "epoch": 0.8652988403211418,
+      "grad_norm": 0.02858017198741436,
       "learning_rate": 0.0002,
+      "loss": 0.5815,
       "step": 485
     },
     {
+      "epoch": 0.8742194469223907,
+      "grad_norm": 0.028315911069512367,
       "learning_rate": 0.0002,
+      "loss": 0.5928,
       "step": 490
     },
     {
+      "epoch": 0.8831400535236396,
+      "grad_norm": 0.029983386397361755,
       "learning_rate": 0.0002,
+      "loss": 0.6047,
       "step": 495
     },
     {
+      "epoch": 0.8920606601248885,
+      "grad_norm": 0.028466004878282547,
       "learning_rate": 0.0002,
+      "loss": 0.5918,
       "step": 500
     },
     {
+      "epoch": 0.9009812667261374,
+      "grad_norm": 0.02696722000837326,
       "learning_rate": 0.0002,
+      "loss": 0.5856,
       "step": 505
     },
     {
+      "epoch": 0.9099018733273863,
+      "grad_norm": 0.029618097469210625,
       "learning_rate": 0.0002,
+      "loss": 0.5617,
       "step": 510
     },
     {
+      "epoch": 0.9188224799286352,
+      "grad_norm": 0.02784411609172821,
       "learning_rate": 0.0002,
+      "loss": 0.553,
       "step": 515
     },
     {
+      "epoch": 0.927743086529884,
+      "grad_norm": 0.02615758404135704,
       "learning_rate": 0.0002,
+      "loss": 0.5555,
       "step": 520
     },
     {
+      "epoch": 0.936663693131133,
+      "grad_norm": 0.028149690479040146,
       "learning_rate": 0.0002,
+      "loss": 0.5723,
       "step": 525
     },
     {
+      "epoch": 0.9455842997323818,
+      "grad_norm": 0.026176296174526215,
       "learning_rate": 0.0002,
+      "loss": 0.5785,
       "step": 530
     },
     {
+      "epoch": 0.9545049063336307,
+      "grad_norm": 0.02792450040578842,
       "learning_rate": 0.0002,
+      "loss": 0.5871,
       "step": 535
     },
     {
+      "epoch": 0.9634255129348795,
+      "grad_norm": 0.027666164562106133,
       "learning_rate": 0.0002,
+      "loss": 0.5544,
       "step": 540
     },
     {
+      "epoch": 0.9723461195361285,
+      "grad_norm": 0.027818914502859116,
       "learning_rate": 0.0002,
+      "loss": 0.5716,
       "step": 545
     },
     {
+      "epoch": 0.9812667261373773,
+      "grad_norm": 0.028460504487156868,
       "learning_rate": 0.0002,
+      "loss": 0.5825,
       "step": 550
     },
     {
+      "epoch": 0.9901873327386262,
+      "grad_norm": 0.028340350836515427,
       "learning_rate": 0.0002,
+      "loss": 0.5593,
       "step": 555
     },
     {
       "epoch": 0.9991079393398751,
+      "grad_norm": 0.028169002383947372,
       "learning_rate": 0.0002,
+      "loss": 0.5903,
       "step": 560
     },
     {
       "epoch": 0.9991079393398751,
       "step": 560,
       "total_flos": 8.398274691072e+17,
+      "train_loss": 0.5889353160347257,
+      "train_runtime": 8886.9999,
+      "train_samples_per_second": 1.009,
+      "train_steps_per_second": 0.063
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c63a462d950c08173c57be55405c5894d5c8a097b7edc320db8d1fdaa9a37002
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:5416cc212d3f82d6c34f13b8d64adc3e4eba46d885d3a698ff2292fc017985f6
 size 5688