Uploaded checkpoint-2000

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +361 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d10c905060a8fb9799b74c25d481c34611c9de9b480817812d33857c534c228a
 size 2836579040

 version https://git-lfs.github.com/spec/v1
+oid sha256:6de7026ac70336a1e4f551d99a58a8514e4bd50583f739c7893192c7a65816a1
 size 2836579040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:977e579e2ef1ecdd4b4a2a07787051dc204b437a958f6bb3774f7b810fdf5fba
 size 5673376169

 version https://git-lfs.github.com/spec/v1
+oid sha256:134bc8892a2731bc1e2f8484e566ed4e144adf4f48185fbbdea1cfb162ccab36
 size 5673376169

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba1ab4afddc1b42e59e07ab68c21af6f77eaf33ebe920a8a196bc4d34ce85d64
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab013867373e136d27f7d01b3dabf2d49ddfdadab46a1f92a068804ac704272a
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b5ba5f4da1b25af3b36501cdb417cae3a94cdecabb4332617c829913a9d9c0a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:57607646084b17d566404fe68cd6273a1c70907c03ac525780a2134b72276444
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.075,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1081,6 +1081,364 @@
       "eval_samples_per_second": 15.353,
       "eval_steps_per_second": 15.353,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1088,7 +1446,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.420883062784e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.353,
       "eval_steps_per_second": 15.353,
       "step": 1500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.25,
+      "learning_rate": 3.5933333333333335e-07,
+      "loss": 0.9445,
+      "step": 1510
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 57.0,
+      "learning_rate": 3.5200000000000003e-07,
+      "loss": 0.9411,
+      "step": 1520
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 55.25,
+      "learning_rate": 3.446666666666667e-07,
+      "loss": 0.9502,
+      "step": 1530
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 55.5,
+      "learning_rate": 3.3733333333333334e-07,
+      "loss": 0.9696,
+      "step": 1540
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 53.25,
+      "learning_rate": 3.3e-07,
+      "loss": 0.9587,
+      "step": 1550
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 55.5,
+      "learning_rate": 3.226666666666667e-07,
+      "loss": 1.0107,
+      "step": 1560
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.75,
+      "learning_rate": 3.153333333333334e-07,
+      "loss": 0.9738,
+      "step": 1570
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 54.0,
+      "learning_rate": 3.0800000000000006e-07,
+      "loss": 0.9859,
+      "step": 1580
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 57.25,
+      "learning_rate": 3.006666666666667e-07,
+      "loss": 0.9419,
+      "step": 1590
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 54.75,
+      "learning_rate": 2.9333333333333337e-07,
+      "loss": 0.9493,
+      "step": 1600
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 54.75,
+      "learning_rate": 2.8600000000000005e-07,
+      "loss": 0.9896,
+      "step": 1610
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.0,
+      "learning_rate": 2.7866666666666673e-07,
+      "loss": 0.9342,
+      "step": 1620
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.5,
+      "learning_rate": 2.7133333333333335e-07,
+      "loss": 0.9641,
+      "step": 1630
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.25,
+      "learning_rate": 2.64e-07,
+      "loss": 0.9459,
+      "step": 1640
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 55.5,
+      "learning_rate": 2.5666666666666666e-07,
+      "loss": 0.9835,
+      "step": 1650
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 54.0,
+      "learning_rate": 2.4933333333333334e-07,
+      "loss": 0.9505,
+      "step": 1660
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 57.5,
+      "learning_rate": 2.42e-07,
+      "loss": 0.9574,
+      "step": 1670
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 52.5,
+      "learning_rate": 2.346666666666667e-07,
+      "loss": 0.9476,
+      "step": 1680
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 56.0,
+      "learning_rate": 2.2733333333333333e-07,
+      "loss": 0.9757,
+      "step": 1690
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.75,
+      "learning_rate": 2.2e-07,
+      "loss": 1.0152,
+      "step": 1700
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 55.5,
+      "learning_rate": 2.1266666666666667e-07,
+      "loss": 0.9584,
+      "step": 1710
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.25,
+      "learning_rate": 2.0533333333333335e-07,
+      "loss": 0.9793,
+      "step": 1720
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.0,
+      "learning_rate": 1.98e-07,
+      "loss": 0.9512,
+      "step": 1730
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 54.75,
+      "learning_rate": 1.9066666666666668e-07,
+      "loss": 0.9505,
+      "step": 1740
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.5,
+      "learning_rate": 1.8333333333333333e-07,
+      "loss": 0.9632,
+      "step": 1750
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 53.5,
+      "learning_rate": 1.7600000000000001e-07,
+      "loss": 0.9366,
+      "step": 1760
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.5,
+      "learning_rate": 1.6866666666666667e-07,
+      "loss": 0.9409,
+      "step": 1770
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 59.5,
+      "learning_rate": 1.6133333333333335e-07,
+      "loss": 1.0027,
+      "step": 1780
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.25,
+      "learning_rate": 1.5400000000000003e-07,
+      "loss": 0.9519,
+      "step": 1790
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.25,
+      "learning_rate": 1.4666666666666668e-07,
+      "loss": 0.9499,
+      "step": 1800
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 55.5,
+      "learning_rate": 1.3933333333333336e-07,
+      "loss": 0.9739,
+      "step": 1810
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.0,
+      "learning_rate": 1.32e-07,
+      "loss": 0.9899,
+      "step": 1820
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 61.25,
+      "learning_rate": 1.2466666666666667e-07,
+      "loss": 0.9731,
+      "step": 1830
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.0,
+      "learning_rate": 1.1733333333333335e-07,
+      "loss": 0.9449,
+      "step": 1840
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.25,
+      "learning_rate": 1.1e-07,
+      "loss": 1.0051,
+      "step": 1850
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 54.75,
+      "learning_rate": 1.0266666666666667e-07,
+      "loss": 0.9907,
+      "step": 1860
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.0,
+      "learning_rate": 9.533333333333334e-08,
+      "loss": 0.9608,
+      "step": 1870
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 57.5,
+      "learning_rate": 8.800000000000001e-08,
+      "loss": 0.9558,
+      "step": 1880
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 59.0,
+      "learning_rate": 8.066666666666667e-08,
+      "loss": 0.9928,
+      "step": 1890
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 57.25,
+      "learning_rate": 7.333333333333334e-08,
+      "loss": 0.9629,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 56.75,
+      "learning_rate": 6.6e-08,
+      "loss": 0.9358,
+      "step": 1910
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 57.25,
+      "learning_rate": 5.8666666666666676e-08,
+      "loss": 0.9602,
+      "step": 1920
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 59.25,
+      "learning_rate": 5.1333333333333336e-08,
+      "loss": 0.9639,
+      "step": 1930
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 58.5,
+      "learning_rate": 4.4000000000000004e-08,
+      "loss": 0.9643,
+      "step": 1940
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 59.25,
+      "learning_rate": 3.666666666666667e-08,
+      "loss": 0.9413,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 55.25,
+      "learning_rate": 2.9333333333333338e-08,
+      "loss": 0.9927,
+      "step": 1960
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 56.75,
+      "learning_rate": 2.2000000000000002e-08,
+      "loss": 0.987,
+      "step": 1970
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 53.75,
+      "learning_rate": 1.4666666666666669e-08,
+      "loss": 0.9517,
+      "step": 1980
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 56.25,
+      "learning_rate": 7.3333333333333345e-09,
+      "loss": 0.9575,
+      "step": 1990
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 55.75,
+      "learning_rate": 0.0,
+      "loss": 0.9746,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.9655321836471558,
+      "eval_runtime": 64.9317,
+      "eval_samples_per_second": 15.401,
+      "eval_steps_per_second": 15.401,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 3.227844083712e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null