Uploaded checkpoint-17500

Browse files

Files changed (6) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +378 -3

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3096a2a0a313024fcb4310adb597cca112913b2df25d9eb4dbdc2a0e36fbad89
 size 4986380064

 version https://git-lfs.github.com/spec/v1
+oid sha256:55542cf68a7a56641df7a59e91b124f6d16eb72304a4aab6742a0f93a5b3d6a9
 size 4986380064

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9074d4e047d062c990725d5973278cea97bac7a7d3f188d619178effdae752ef
 size 399532808

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ecbf27a334befe14f1464c73a6a77128f6598de400961bb7d5097ecfb48f69
 size 399532808

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03426f56d34420363c9eed69bbfc8333f73687623a6b28e4211138ae9f651527
 size 2699039674

 version https://git-lfs.github.com/spec/v1
+oid sha256:10a07aad0a46264c45185ced9dd0645d835455a11a08613ac0cc316256bf2101
 size 2699039674

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:befa7552d4a0d4f83dbfa1a7fff53b249a27c7a93b17ac8467553e6392864844
-size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fc99115bf5f04a1f69339b55b87574e78f76c0017fb7fbc54425e463c53fe09
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b94442b72559c9262bb7b2684827bc59deb41027ddc14af8d9ffecb8119b4aa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d75cd0c4e544f7391f9754fd838738017fc0e36a7e8de482816ca502f9dc5c07
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.375,
   "eval_steps": 100,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2257,6 +2257,381 @@
       "eval_samples_per_second": 10.165,
       "eval_steps_per_second": 10.165,
       "step": 15000
     }
   ],
   "logging_steps": 100,
@@ -2264,7 +2639,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 2.3600547495936e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4375,
   "eval_steps": 100,
+  "global_step": 17500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.165,
       "eval_steps_per_second": 10.165,
       "step": 15000
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 6.856844902038574,
+      "learning_rate": 5.025641025641026e-06,
+      "loss": 0.6922,
+      "step": 15100
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.6971193552017212,
+      "eval_runtime": 98.4333,
+      "eval_samples_per_second": 10.159,
+      "eval_steps_per_second": 10.159,
+      "step": 15100
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 4.937108039855957,
+      "learning_rate": 4.923076923076924e-06,
+      "loss": 0.6843,
+      "step": 15200
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.6769686937332153,
+      "eval_runtime": 98.4292,
+      "eval_samples_per_second": 10.16,
+      "eval_steps_per_second": 10.16,
+      "step": 15200
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 7.337194442749023,
+      "learning_rate": 4.820512820512821e-06,
+      "loss": 0.7265,
+      "step": 15300
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.6937099695205688,
+      "eval_runtime": 98.3534,
+      "eval_samples_per_second": 10.167,
+      "eval_steps_per_second": 10.167,
+      "step": 15300
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 6.544970512390137,
+      "learning_rate": 4.717948717948718e-06,
+      "loss": 0.6854,
+      "step": 15400
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6800307631492615,
+      "eval_runtime": 98.3657,
+      "eval_samples_per_second": 10.166,
+      "eval_steps_per_second": 10.166,
+      "step": 15400
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 4.409825801849365,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 0.7084,
+      "step": 15500
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6897458434104919,
+      "eval_runtime": 98.3938,
+      "eval_samples_per_second": 10.163,
+      "eval_steps_per_second": 10.163,
+      "step": 15500
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 4.764963150024414,
+      "learning_rate": 4.512820512820513e-06,
+      "loss": 0.6835,
+      "step": 15600
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6795360445976257,
+      "eval_runtime": 98.3753,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 15600
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 4.578685283660889,
+      "learning_rate": 4.4102564102564104e-06,
+      "loss": 0.6789,
+      "step": 15700
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6842684149742126,
+      "eval_runtime": 98.3424,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 15700
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 7.085032939910889,
+      "learning_rate": 4.307692307692308e-06,
+      "loss": 0.6473,
+      "step": 15800
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6702744364738464,
+      "eval_runtime": 98.3744,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 15800
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 9.547301292419434,
+      "learning_rate": 4.2051282051282055e-06,
+      "loss": 0.6666,
+      "step": 15900
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6775800585746765,
+      "eval_runtime": 98.3228,
+      "eval_samples_per_second": 10.171,
+      "eval_steps_per_second": 10.171,
+      "step": 15900
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.161081075668335,
+      "learning_rate": 4.102564102564103e-06,
+      "loss": 0.6968,
+      "step": 16000
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.683419942855835,
+      "eval_runtime": 98.4131,
+      "eval_samples_per_second": 10.161,
+      "eval_steps_per_second": 10.161,
+      "step": 16000
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 4.315452575683594,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.64,
+      "step": 16100
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6916409134864807,
+      "eval_runtime": 98.331,
+      "eval_samples_per_second": 10.17,
+      "eval_steps_per_second": 10.17,
+      "step": 16100
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 4.9351582527160645,
+      "learning_rate": 3.897435897435898e-06,
+      "loss": 0.6516,
+      "step": 16200
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6831104755401611,
+      "eval_runtime": 98.342,
+      "eval_samples_per_second": 10.169,
+      "eval_steps_per_second": 10.169,
+      "step": 16200
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 2.858851432800293,
+      "learning_rate": 3.794871794871795e-06,
+      "loss": 0.6626,
+      "step": 16300
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6660827398300171,
+      "eval_runtime": 98.3507,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 16300
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 10.384642601013184,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.7119,
+      "step": 16400
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6715333461761475,
+      "eval_runtime": 98.3678,
+      "eval_samples_per_second": 10.166,
+      "eval_steps_per_second": 10.166,
+      "step": 16400
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 2.9744458198547363,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.6827,
+      "step": 16500
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6574322581291199,
+      "eval_runtime": 98.3789,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 16500
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 3.588651657104492,
+      "learning_rate": 3.487179487179487e-06,
+      "loss": 0.7398,
+      "step": 16600
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6578336358070374,
+      "eval_runtime": 98.3458,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 16600
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 3.190857410430908,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.6553,
+      "step": 16700
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6542092561721802,
+      "eval_runtime": 98.3756,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 16700
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 3.513176441192627,
+      "learning_rate": 3.2820512820512823e-06,
+      "loss": 0.6531,
+      "step": 16800
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6713552474975586,
+      "eval_runtime": 98.3796,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 16800
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 5.897684574127197,
+      "learning_rate": 3.1794871794871795e-06,
+      "loss": 0.6923,
+      "step": 16900
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6415435075759888,
+      "eval_runtime": 98.3575,
+      "eval_samples_per_second": 10.167,
+      "eval_steps_per_second": 10.167,
+      "step": 16900
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 5.851967811584473,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.6582,
+      "step": 17000
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6755939722061157,
+      "eval_runtime": 98.3485,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 17000
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 3.1814448833465576,
+      "learning_rate": 2.9743589743589746e-06,
+      "loss": 0.6471,
+      "step": 17100
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.6580842733383179,
+      "eval_runtime": 98.3328,
+      "eval_samples_per_second": 10.17,
+      "eval_steps_per_second": 10.17,
+      "step": 17100
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 3.3297533988952637,
+      "learning_rate": 2.8717948717948717e-06,
+      "loss": 0.6238,
+      "step": 17200
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.6540150046348572,
+      "eval_runtime": 98.392,
+      "eval_samples_per_second": 10.163,
+      "eval_steps_per_second": 10.163,
+      "step": 17200
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 4.152995586395264,
+      "learning_rate": 2.7692307692307697e-06,
+      "loss": 0.6523,
+      "step": 17300
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.6668370366096497,
+      "eval_runtime": 98.343,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 17300
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 8.26444149017334,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6453,
+      "step": 17400
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.6706939935684204,
+      "eval_runtime": 98.3728,
+      "eval_samples_per_second": 10.165,
+      "eval_steps_per_second": 10.165,
+      "step": 17400
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 4.3345627784729,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 0.6436,
+      "step": 17500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.6370129585266113,
+      "eval_runtime": 98.3453,
+      "eval_samples_per_second": 10.168,
+      "eval_steps_per_second": 10.168,
+      "step": 17500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 2.7533972078592e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null