RikkiXu
/

zephyr-7b-sft-full

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.03106498374777325,
-    "train_runtime": 2739.2502,
     "train_samples": 6599,
-    "train_samples_per_second": 13.728,
-    "train_steps_per_second": 0.108
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.908859632783017,
+    "train_runtime": 1626.0912,
     "train_samples": 6599,
+    "train_samples_per_second": 4.625,
+    "train_steps_per_second": 0.036
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.03106498374777325,
-    "train_runtime": 2739.2502,
     "train_samples": 6599,
-    "train_samples_per_second": 13.728,
-    "train_steps_per_second": 0.108
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.908859632783017,
+    "train_runtime": 1626.0912,
     "train_samples": 6599,
+    "train_samples_per_second": 4.625,
+    "train_steps_per_second": 0.036
 }

trainer_state.json CHANGED Viewed

@@ -1,489 +1,121 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 295,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
-      "grad_norm": 4.7237044668329,
-      "learning_rate": 6.666666666666667e-07,
       "loss": 0.9545,
       "step": 1
     },
     {
       "epoch": 0.08,
-      "grad_norm": 3.1773052856369324,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.9326,
       "step": 5
     },
     {
       "epoch": 0.17,
-      "grad_norm": 3.033793297452865,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.8956,
       "step": 10
     },
     {
       "epoch": 0.25,
-      "grad_norm": 2.0855419235541013,
-      "learning_rate": 1e-05,
-      "loss": 0.8574,
       "step": 15
     },
     {
       "epoch": 0.34,
-      "grad_norm": 2.0199202255230047,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.8222,
       "step": 20
     },
     {
       "epoch": 0.42,
-      "grad_norm": 2.3471928271965106,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.8138,
       "step": 25
     },
     {
       "epoch": 0.51,
-      "grad_norm": 2.600668692972917,
-      "learning_rate": 2e-05,
-      "loss": 0.7721,
       "step": 30
     },
     {
       "epoch": 0.59,
-      "grad_norm": 2.4226542415206485,
-      "learning_rate": 1.9982437317643218e-05,
-      "loss": 0.7634,
       "step": 35
     },
     {
       "epoch": 0.68,
-      "grad_norm": 2.850819690314508,
-      "learning_rate": 1.992981096013517e-05,
-      "loss": 0.7521,
       "step": 40
     },
     {
       "epoch": 0.76,
-      "grad_norm": 2.5549789377169114,
-      "learning_rate": 1.984230577947597e-05,
-      "loss": 0.697,
       "step": 45
     },
     {
       "epoch": 0.85,
-      "grad_norm": 2.4774565913803563,
-      "learning_rate": 1.972022914080411e-05,
-      "loss": 0.6735,
       "step": 50
     },
     {
       "epoch": 0.93,
-      "grad_norm": 2.146208038921012,
-      "learning_rate": 1.9564009842765225e-05,
-      "loss": 0.6546,
       "step": 55
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.4448932409286499,
-      "eval_runtime": 334.8516,
-      "eval_samples_per_second": 22.461,
-      "eval_steps_per_second": 0.352,
       "step": 59
     },
     {
-      "epoch": 1.02,
-      "grad_norm": 3.923304638941212,
-      "learning_rate": 1.9374196611341212e-05,
-      "loss": 0.6271,
-      "step": 60
-    },
-    {
-      "epoch": 1.1,
-      "grad_norm": 3.1379021048274596,
-      "learning_rate": 1.9151456172430186e-05,
-      "loss": 0.4188,
-      "step": 65
-    },
-    {
-      "epoch": 1.19,
-      "grad_norm": 2.478413663736477,
-      "learning_rate": 1.8896570909947477e-05,
-      "loss": 0.4197,
-      "step": 70
-    },
-    {
-      "epoch": 1.27,
-      "grad_norm": 3.1965773364967114,
-      "learning_rate": 1.8610436117673557e-05,
-      "loss": 0.3996,
-      "step": 75
-    },
-    {
-      "epoch": 1.36,
-      "grad_norm": 1.8635605447479031,
-      "learning_rate": 1.829405685450202e-05,
-      "loss": 0.4087,
-      "step": 80
-    },
-    {
-      "epoch": 1.44,
-      "grad_norm": 4.049894316503265,
-      "learning_rate": 1.7948544414133534e-05,
-      "loss": 0.4113,
-      "step": 85
-    },
-    {
-      "epoch": 1.53,
-      "grad_norm": 175.82031352565957,
-      "learning_rate": 1.7575112421616203e-05,
-      "loss": 0.7264,
-      "step": 90
-    },
-    {
-      "epoch": 1.61,
-      "grad_norm": 97.72323752808755,
-      "learning_rate": 1.717507257044331e-05,
-      "loss": 0.7019,
-      "step": 95
-    },
-    {
-      "epoch": 1.69,
-      "grad_norm": 10.439473368823062,
-      "learning_rate": 1.6749830015182106e-05,
-      "loss": 0.8288,
-      "step": 100
-    },
-    {
-      "epoch": 1.78,
-      "grad_norm": 14.65204562703183,
-      "learning_rate": 1.6300878435817115e-05,
-      "loss": 0.622,
-      "step": 105
-    },
-    {
-      "epoch": 1.86,
-      "grad_norm": 4.935916944271238,
-      "learning_rate": 1.5829794791144723e-05,
-      "loss": 0.5399,
-      "step": 110
-    },
-    {
-      "epoch": 1.95,
-      "grad_norm": 3.1671885548837544,
-      "learning_rate": 1.533823377964791e-05,
-      "loss": 0.4747,
-      "step": 115
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.31807941198349,
-      "eval_runtime": 335.1235,
-      "eval_samples_per_second": 22.442,
-      "eval_steps_per_second": 0.352,
-      "step": 118
-    },
-    {
-      "epoch": 2.03,
-      "grad_norm": 2.7978128026277864,
-      "learning_rate": 1.482792202730745e-05,
-      "loss": 0.3959,
-      "step": 120
-    },
-    {
-      "epoch": 2.12,
-      "grad_norm": 2.1385098508541693,
-      "learning_rate": 1.4300652022765207e-05,
-      "loss": 0.2884,
-      "step": 125
-    },
-    {
-      "epoch": 2.2,
-      "grad_norm": 1.9703828411806736,
-      "learning_rate": 1.3758275821142382e-05,
-      "loss": 0.2745,
-      "step": 130
-    },
-    {
-      "epoch": 2.29,
-      "grad_norm": 1.870032223898805,
-      "learning_rate": 1.3202698538628376e-05,
-      "loss": 0.2539,
-      "step": 135
-    },
-    {
-      "epoch": 2.37,
-      "grad_norm": 7.255082480038806,
-      "learning_rate": 1.2635871660690677e-05,
-      "loss": 0.2588,
-      "step": 140
-    },
-    {
-      "epoch": 2.46,
-      "grad_norm": 1.7733158231347383,
-      "learning_rate": 1.2059786187410984e-05,
-      "loss": 0.2564,
-      "step": 145
-    },
-    {
-      "epoch": 2.54,
-      "grad_norm": 1.9182852956652028,
-      "learning_rate": 1.1476465640024814e-05,
-      "loss": 0.2282,
-      "step": 150
-    },
-    {
-      "epoch": 2.63,
-      "grad_norm": 1.6601552566584281,
-      "learning_rate": 1.0887958953229349e-05,
-      "loss": 0.2323,
-      "step": 155
-    },
-    {
-      "epoch": 2.71,
-      "grad_norm": 1.4919318406362796,
-      "learning_rate": 1.0296333278225599e-05,
-      "loss": 0.2354,
-      "step": 160
-    },
-    {
-      "epoch": 2.8,
-      "grad_norm": 1.5076718836100451,
-      "learning_rate": 9.703666721774403e-06,
-      "loss": 0.23,
-      "step": 165
-    },
-    {
-      "epoch": 2.88,
-      "grad_norm": 1.703882565208849,
-      "learning_rate": 9.112041046770653e-06,
-      "loss": 0.2312,
-      "step": 170
-    },
-    {
-      "epoch": 2.97,
-      "grad_norm": 1.3815318382548532,
-      "learning_rate": 8.52353435997519e-06,
-      "loss": 0.2246,
-      "step": 175
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.12802040576934814,
-      "eval_runtime": 335.0335,
-      "eval_samples_per_second": 22.449,
-      "eval_steps_per_second": 0.352,
-      "step": 177
-    },
-    {
-      "epoch": 3.05,
-      "grad_norm": 1.340084619420041,
-      "learning_rate": 7.940213812589018e-06,
-      "loss": 0.1568,
-      "step": 180
-    },
-    {
-      "epoch": 3.14,
-      "grad_norm": 1.4363530293138602,
-      "learning_rate": 7.364128339309326e-06,
-      "loss": 0.1171,
-      "step": 185
-    },
-    {
-      "epoch": 3.22,
-      "grad_norm": 7.055735555930357,
-      "learning_rate": 6.797301461371626e-06,
-      "loss": 0.129,
-      "step": 190
-    },
-    {
-      "epoch": 3.31,
-      "grad_norm": 3.3324655424159606,
-      "learning_rate": 6.241724178857621e-06,
-      "loss": 0.15,
-      "step": 195
-    },
-    {
-      "epoch": 3.39,
-      "grad_norm": 2.4413759201237917,
-      "learning_rate": 5.699347977234799e-06,
-      "loss": 0.137,
-      "step": 200
-    },
-    {
-      "epoch": 3.47,
-      "grad_norm": 1.6325745641721867,
-      "learning_rate": 5.172077972692553e-06,
-      "loss": 0.1218,
-      "step": 205
-    },
-    {
-      "epoch": 3.56,
-      "grad_norm": 1.5192997389176583,
-      "learning_rate": 4.661766220352098e-06,
-      "loss": 0.1241,
-      "step": 210
-    },
-    {
-      "epoch": 3.64,
-      "grad_norm": 1.416532576646694,
-      "learning_rate": 4.170205208855281e-06,
-      "loss": 0.1163,
-      "step": 215
-    },
-    {
-      "epoch": 3.73,
-      "grad_norm": 1.1859416249764543,
-      "learning_rate": 3.6991215641828903e-06,
-      "loss": 0.1212,
-      "step": 220
-    },
-    {
-      "epoch": 3.81,
-      "grad_norm": 1.2425425377133077,
-      "learning_rate": 3.250169984817897e-06,
-      "loss": 0.1261,
-      "step": 225
-    },
-    {
-      "epoch": 3.9,
-      "grad_norm": 1.197573551306019,
-      "learning_rate": 2.8249274295566863e-06,
-      "loss": 0.1206,
-      "step": 230
-    },
-    {
-      "epoch": 3.98,
-      "grad_norm": 1.2203991841318311,
-      "learning_rate": 2.424887578383799e-06,
-      "loss": 0.1179,
-      "step": 235
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.08678202331066132,
-      "eval_runtime": 334.8445,
-      "eval_samples_per_second": 22.461,
-      "eval_steps_per_second": 0.352,
-      "step": 236
-    },
-    {
-      "epoch": 4.07,
-      "grad_norm": 1.3225710226725387,
-      "learning_rate": 2.0514555858664663e-06,
-      "loss": 0.0919,
-      "step": 240
-    },
-    {
-      "epoch": 4.15,
-      "grad_norm": 1.2828578734194267,
-      "learning_rate": 1.7059431454979825e-06,
-      "loss": 0.0833,
-      "step": 245
-    },
-    {
-      "epoch": 4.24,
-      "grad_norm": 1.1833858250329508,
-      "learning_rate": 1.3895638823264447e-06,
-      "loss": 0.0861,
-      "step": 250
-    },
-    {
-      "epoch": 4.32,
-      "grad_norm": 0.9459675579164174,
-      "learning_rate": 1.1034290900525279e-06,
-      "loss": 0.0749,
-      "step": 255
-    },
-    {
-      "epoch": 4.41,
-      "grad_norm": 0.968509379642604,
-      "learning_rate": 8.485438275698154e-07,
-      "loss": 0.0847,
-      "step": 260
-    },
-    {
-      "epoch": 4.49,
-      "grad_norm": 1.021637819526785,
-      "learning_rate": 6.258033886587911e-07,
-      "loss": 0.0832,
-      "step": 265
-    },
-    {
-      "epoch": 4.58,
-      "grad_norm": 0.9348358669170516,
-      "learning_rate": 4.359901572347758e-07,
-      "loss": 0.0819,
-      "step": 270
-    },
-    {
-      "epoch": 4.66,
-      "grad_norm": 0.9018557213311438,
-      "learning_rate": 2.7977085919589253e-07,
-      "loss": 0.081,
-      "step": 275
-    },
-    {
-      "epoch": 4.75,
-      "grad_norm": 0.9143406331670494,
-      "learning_rate": 1.5769422052403172e-07,
-      "loss": 0.0777,
-      "step": 280
-    },
-    {
-      "epoch": 4.83,
-      "grad_norm": 0.965550232388536,
-      "learning_rate": 7.018903986483083e-08,
-      "loss": 0.0804,
-      "step": 285
-    },
-    {
-      "epoch": 4.92,
-      "grad_norm": 0.982878932025226,
-      "learning_rate": 1.7562682356786488e-08,
-      "loss": 0.0842,
-      "step": 290
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.8492670680881892,
-      "learning_rate": 0.0,
-      "loss": 0.0755,
-      "step": 295
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.07571765035390854,
-      "eval_runtime": 334.5414,
-      "eval_samples_per_second": 22.482,
-      "eval_steps_per_second": 0.353,
-      "step": 295
-    },
-    {
-      "epoch": 5.0,
-      "step": 295,
-      "total_flos": 247067993702400.0,
-      "train_loss": 0.03106498374777325,
-      "train_runtime": 2739.2502,
-      "train_samples_per_second": 13.728,
-      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 5,
-  "max_steps": 295,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 247067993702400.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 59,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
+      "grad_norm": 4.72473337945939,
+      "learning_rate": 3.3333333333333333e-06,
       "loss": 0.9545,
       "step": 1
     },
     {
       "epoch": 0.08,
+      "grad_norm": 15.606619949426117,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.9459,
       "step": 5
     },
     {
       "epoch": 0.17,
+      "grad_norm": 97.5546177933576,
+      "learning_rate": 1.972022914080411e-05,
+      "loss": 1.309,
       "step": 10
     },
     {
       "epoch": 0.25,
+      "grad_norm": 7.451729536881689,
+      "learning_rate": 1.8610436117673557e-05,
+      "loss": 1.1022,
       "step": 15
     },
     {
       "epoch": 0.34,
+      "grad_norm": 4.013413307542302,
+      "learning_rate": 1.6749830015182106e-05,
+      "loss": 0.9536,
       "step": 20
     },
     {
       "epoch": 0.42,
+      "grad_norm": 2.5281389594304153,
+      "learning_rate": 1.4300652022765207e-05,
+      "loss": 0.9122,
       "step": 25
     },
     {
       "epoch": 0.51,
+      "grad_norm": 2.4087072108196184,
+      "learning_rate": 1.1476465640024814e-05,
+      "loss": 0.8548,
       "step": 30
     },
     {
       "epoch": 0.59,
+      "grad_norm": 2.127180353057553,
+      "learning_rate": 8.52353435997519e-06,
+      "loss": 0.8386,
       "step": 35
     },
     {
       "epoch": 0.68,
+      "grad_norm": 1.9083395084428687,
+      "learning_rate": 5.699347977234799e-06,
+      "loss": 0.8324,
       "step": 40
     },
     {
       "epoch": 0.76,
+      "grad_norm": 1.7712149272954687,
+      "learning_rate": 3.250169984817897e-06,
+      "loss": 0.7792,
       "step": 45
     },
     {
       "epoch": 0.85,
+      "grad_norm": 1.6965019256204015,
+      "learning_rate": 1.3895638823264447e-06,
+      "loss": 0.77,
       "step": 50
     },
     {
       "epoch": 0.93,
+      "grad_norm": 1.6261522519462899,
+      "learning_rate": 2.7977085919589253e-07,
+      "loss": 0.7609,
       "step": 55
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7076106071472168,
+      "eval_runtime": 338.673,
+      "eval_samples_per_second": 22.207,
+      "eval_steps_per_second": 0.348,
       "step": 59
     },
     {
+      "epoch": 1.0,
+      "step": 59,
+      "total_flos": 49413598740480.0,
+      "train_loss": 0.908859632783017,
+      "train_runtime": 1626.0912,
+      "train_samples_per_second": 4.625,
+      "train_steps_per_second": 0.036
     }
   ],
   "logging_steps": 5,
+  "max_steps": 59,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 49413598740480.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null