Uploaded checkpoint-20000

Browse files

Files changed (6) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +378 -3

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55542cf68a7a56641df7a59e91b124f6d16eb72304a4aab6742a0f93a5b3d6a9
 size 4986380064

 version https://git-lfs.github.com/spec/v1
+oid sha256:52ae8fd2899cae9fbf1de2288673a19564009a6254b0b592383efcc519ad621a
 size 4986380064

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5ecbf27a334befe14f1464c73a6a77128f6598de400961bb7d5097ecfb48f69
 size 399532808

 version https://git-lfs.github.com/spec/v1
+oid sha256:fef9985c248615a2bb23a47f171d94be90d8c93afd5aa990b1587b71e71171c6
 size 399532808

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10a07aad0a46264c45185ced9dd0645d835455a11a08613ac0cc316256bf2101
 size 2699039674

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6c0438b7ed3e4c55f24fa3150fa982da8011360f12c7b707448e8db4ad3f902
 size 2699039674

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fc99115bf5f04a1f69339b55b87574e78f76c0017fb7fbc54425e463c53fe09
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:97b0f27722247239511c0d33808326948f3078297be0bebdd0214846f3609f1e
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d75cd0c4e544f7391f9754fd838738017fc0e36a7e8de482816ca502f9dc5c07
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29c7a79b53a589de48d3b7a21df9c0d024be4dea79f68869f72fdc01ae3b212a
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4375,
   "eval_steps": 100,
-  "global_step": 17500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2632,6 +2632,381 @@
       "eval_samples_per_second": 10.168,
       "eval_steps_per_second": 10.168,
       "step": 17500
     }
   ],
   "logging_steps": 100,
@@ -2639,7 +3014,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 2.7533972078592e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5,
   "eval_steps": 100,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.168,
       "eval_steps_per_second": 10.168,
       "step": 17500
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 4.079812526702881,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.6369,
+      "step": 17600
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.6634325385093689,
+      "eval_runtime": 98.3802,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 17600
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.0387985706329346,
+      "learning_rate": 2.358974358974359e-06,
+      "loss": 0.6244,
+      "step": 17700
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.658197283744812,
+      "eval_runtime": 98.3504,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 17700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 4.429220199584961,
+      "learning_rate": 2.2564102564102566e-06,
+      "loss": 0.663,
+      "step": 17800
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.663162350654602,
+      "eval_runtime": 98.3612,
+      "eval_samples_per_second": 10.167,
+      "eval_steps_per_second": 10.167,
+      "step": 17800
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 7.286205291748047,
+      "learning_rate": 2.153846153846154e-06,
+      "loss": 0.6692,
+      "step": 17900
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.6493304371833801,
+      "eval_runtime": 98.3416,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 17900
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 3.1025142669677734,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 0.6515,
+      "step": 18000
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.6505727767944336,
+      "eval_runtime": 98.3601,
+      "eval_samples_per_second": 10.167,
+      "eval_steps_per_second": 10.167,
+      "step": 18000
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 5.170887470245361,
+      "learning_rate": 1.948717948717949e-06,
+      "loss": 0.6554,
+      "step": 18100
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.640792191028595,
+      "eval_runtime": 98.3695,
+      "eval_samples_per_second": 10.166,
+      "eval_steps_per_second": 10.166,
+      "step": 18100
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 8.582660675048828,
+      "learning_rate": 1.8461538461538465e-06,
+      "loss": 0.6481,
+      "step": 18200
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.6477890014648438,
+      "eval_runtime": 98.3746,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 18200
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 7.4102301597595215,
+      "learning_rate": 1.7435897435897436e-06,
+      "loss": 0.6284,
+      "step": 18300
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.6732329726219177,
+      "eval_runtime": 98.3003,
+      "eval_samples_per_second": 10.173,
+      "eval_steps_per_second": 10.173,
+      "step": 18300
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.6458799839019775,
+      "learning_rate": 1.6410256410256412e-06,
+      "loss": 0.6546,
+      "step": 18400
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.6304293274879456,
+      "eval_runtime": 98.3207,
+      "eval_samples_per_second": 10.171,
+      "eval_steps_per_second": 10.171,
+      "step": 18400
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.8108537197113037,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.6665,
+      "step": 18500
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.634360134601593,
+      "eval_runtime": 98.3511,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 18500
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 9.306204795837402,
+      "learning_rate": 1.4358974358974359e-06,
+      "loss": 0.6559,
+      "step": 18600
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.6353975534439087,
+      "eval_runtime": 98.3306,
+      "eval_samples_per_second": 10.17,
+      "eval_steps_per_second": 10.17,
+      "step": 18600
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 4.001993656158447,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.6386,
+      "step": 18700
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.6281168460845947,
+      "eval_runtime": 98.2978,
+      "eval_samples_per_second": 10.173,
+      "eval_steps_per_second": 10.173,
+      "step": 18700
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 4.9915924072265625,
+      "learning_rate": 1.230769230769231e-06,
+      "loss": 0.6509,
+      "step": 18800
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.6473774313926697,
+      "eval_runtime": 98.3123,
+      "eval_samples_per_second": 10.172,
+      "eval_steps_per_second": 10.172,
+      "step": 18800
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 3.8955130577087402,
+      "learning_rate": 1.1282051282051283e-06,
+      "loss": 0.6272,
+      "step": 18900
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.6473217606544495,
+      "eval_runtime": 98.3521,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 18900
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 9.715432167053223,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 0.6086,
+      "step": 19000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.620388925075531,
+      "eval_runtime": 98.3358,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 19000
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.22080659866333,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.6553,
+      "step": 19100
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.6517868041992188,
+      "eval_runtime": 98.326,
+      "eval_samples_per_second": 10.17,
+      "eval_steps_per_second": 10.17,
+      "step": 19100
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 3.7308225631713867,
+      "learning_rate": 8.205128205128206e-07,
+      "loss": 0.6119,
+      "step": 19200
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.639901340007782,
+      "eval_runtime": 98.3,
+      "eval_samples_per_second": 10.173,
+      "eval_steps_per_second": 10.173,
+      "step": 19200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.890966892242432,
+      "learning_rate": 7.179487179487179e-07,
+      "loss": 0.6363,
+      "step": 19300
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.6639401912689209,
+      "eval_runtime": 98.3404,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 19300
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 6.855196952819824,
+      "learning_rate": 6.153846153846155e-07,
+      "loss": 0.6261,
+      "step": 19400
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.6473622918128967,
+      "eval_runtime": 98.3312,
+      "eval_samples_per_second": 10.17,
+      "eval_steps_per_second": 10.17,
+      "step": 19400
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 2.988701581954956,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 0.6192,
+      "step": 19500
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6319825649261475,
+      "eval_runtime": 98.277,
+      "eval_samples_per_second": 10.175,
+      "eval_steps_per_second": 10.175,
+      "step": 19500
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 3.922107696533203,
+      "learning_rate": 4.102564102564103e-07,
+      "loss": 0.6123,
+      "step": 19600
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6252996325492859,
+      "eval_runtime": 98.3425,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 19600
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 13.531473159790039,
+      "learning_rate": 3.0769230769230774e-07,
+      "loss": 0.6128,
+      "step": 19700
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6362013220787048,
+      "eval_runtime": 98.2906,
+      "eval_samples_per_second": 10.174,
+      "eval_steps_per_second": 10.174,
+      "step": 19700
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 13.287760734558105,
+      "learning_rate": 2.0512820512820514e-07,
+      "loss": 0.6321,
+      "step": 19800
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6311822533607483,
+      "eval_runtime": 98.3206,
+      "eval_samples_per_second": 10.171,
+      "eval_steps_per_second": 10.171,
+      "step": 19800
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 10.524887084960938,
+      "learning_rate": 1.0256410256410257e-07,
+      "loss": 0.6026,
+      "step": 19900
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.6232057809829712,
+      "eval_runtime": 98.3191,
+      "eval_samples_per_second": 10.171,
+      "eval_steps_per_second": 10.171,
+      "step": 19900
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 4.0852131843566895,
+      "learning_rate": 0.0,
+      "loss": 0.6322,
+      "step": 20000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.632331907749176,
+      "eval_runtime": 98.3118,
+      "eval_samples_per_second": 10.172,
+      "eval_steps_per_second": 10.172,
+      "step": 20000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 3.1467396661248e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null