Uploaded checkpoint-1500

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +361 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8911772aaa706974b723f2bf7d3b98b7c2ae73c0dbc7dddde6a2d848e652d94
 size 2836579040

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10c905060a8fb9799b74c25d481c34611c9de9b480817812d33857c534c228a
 size 2836579040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6570b389af75084935ca1b3962d21e1284890e5644db6f6a2f34573d9091689c
 size 5673376169

 version https://git-lfs.github.com/spec/v1
+oid sha256:977e579e2ef1ecdd4b4a2a07787051dc204b437a958f6bb3774f7b810fdf5fba
 size 5673376169

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d532e7d9583dca1ddde0e710f735c5380d765e13138b2f1a520634f9ce1c4336
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba1ab4afddc1b42e59e07ab68c21af6f77eaf33ebe920a8a196bc4d34ce85d64
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7730c869a76c8e036e0c188b1763b2a2fec511ae6277c0d9eb703a1bcc3fee9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b5ba5f4da1b25af3b36501cdb417cae3a94cdecabb4332617c829913a9d9c0a
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -723,6 +723,364 @@
       "eval_samples_per_second": 15.395,
       "eval_steps_per_second": 15.395,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -730,7 +1088,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.613922041856e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.075,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.395,
       "eval_steps_per_second": 15.395,
       "step": 1000
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 65.0,
+      "learning_rate": 7.260000000000001e-07,
+      "loss": 1.2767,
+      "step": 1010
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 63.25,
+      "learning_rate": 7.186666666666667e-07,
+      "loss": 1.2266,
+      "step": 1020
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 63.75,
+      "learning_rate": 7.113333333333333e-07,
+      "loss": 1.2458,
+      "step": 1030
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 63.0,
+      "learning_rate": 7.040000000000001e-07,
+      "loss": 1.1768,
+      "step": 1040
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 62.75,
+      "learning_rate": 6.966666666666666e-07,
+      "loss": 1.1844,
+      "step": 1050
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 62.25,
+      "learning_rate": 6.893333333333334e-07,
+      "loss": 1.186,
+      "step": 1060
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 62.75,
+      "learning_rate": 6.82e-07,
+      "loss": 1.1551,
+      "step": 1070
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 60.25,
+      "learning_rate": 6.746666666666667e-07,
+      "loss": 1.1218,
+      "step": 1080
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 61.25,
+      "learning_rate": 6.673333333333334e-07,
+      "loss": 1.0962,
+      "step": 1090
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 60.5,
+      "learning_rate": 6.6e-07,
+      "loss": 1.1204,
+      "step": 1100
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 58.25,
+      "learning_rate": 6.526666666666667e-07,
+      "loss": 1.0833,
+      "step": 1110
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 57.25,
+      "learning_rate": 6.453333333333334e-07,
+      "loss": 1.0743,
+      "step": 1120
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 60.25,
+      "learning_rate": 6.38e-07,
+      "loss": 1.0764,
+      "step": 1130
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 56.0,
+      "learning_rate": 6.306666666666668e-07,
+      "loss": 1.0315,
+      "step": 1140
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 59.25,
+      "learning_rate": 6.233333333333333e-07,
+      "loss": 1.0791,
+      "step": 1150
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 60.0,
+      "learning_rate": 6.160000000000001e-07,
+      "loss": 1.0443,
+      "step": 1160
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 60.75,
+      "learning_rate": 6.086666666666667e-07,
+      "loss": 1.0472,
+      "step": 1170
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 59.75,
+      "learning_rate": 6.013333333333334e-07,
+      "loss": 1.0422,
+      "step": 1180
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 58.5,
+      "learning_rate": 5.94e-07,
+      "loss": 1.051,
+      "step": 1190
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 57.25,
+      "learning_rate": 5.866666666666667e-07,
+      "loss": 1.0104,
+      "step": 1200
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 58.5,
+      "learning_rate": 5.793333333333333e-07,
+      "loss": 1.0429,
+      "step": 1210
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 60.25,
+      "learning_rate": 5.720000000000001e-07,
+      "loss": 1.0135,
+      "step": 1220
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 58.0,
+      "learning_rate": 5.646666666666667e-07,
+      "loss": 1.0441,
+      "step": 1230
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 57.25,
+      "learning_rate": 5.573333333333335e-07,
+      "loss": 1.0202,
+      "step": 1240
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 54.5,
+      "learning_rate": 5.5e-07,
+      "loss": 0.9915,
+      "step": 1250
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 56.75,
+      "learning_rate": 5.426666666666667e-07,
+      "loss": 1.0085,
+      "step": 1260
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 58.75,
+      "learning_rate": 5.353333333333334e-07,
+      "loss": 1.0114,
+      "step": 1270
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 56.0,
+      "learning_rate": 5.28e-07,
+      "loss": 1.0092,
+      "step": 1280
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 54.25,
+      "learning_rate": 5.206666666666666e-07,
+      "loss": 0.9634,
+      "step": 1290
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.0,
+      "learning_rate": 5.133333333333333e-07,
+      "loss": 0.9588,
+      "step": 1300
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 56.5,
+      "learning_rate": 5.06e-07,
+      "loss": 0.9885,
+      "step": 1310
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 55.75,
+      "learning_rate": 4.986666666666667e-07,
+      "loss": 1.024,
+      "step": 1320
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.5,
+      "learning_rate": 4.913333333333334e-07,
+      "loss": 0.9812,
+      "step": 1330
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 55.5,
+      "learning_rate": 4.84e-07,
+      "loss": 0.9859,
+      "step": 1340
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 57.5,
+      "learning_rate": 4.766666666666667e-07,
+      "loss": 0.9629,
+      "step": 1350
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.25,
+      "learning_rate": 4.693333333333334e-07,
+      "loss": 0.9386,
+      "step": 1360
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.75,
+      "learning_rate": 4.62e-07,
+      "loss": 1.0033,
+      "step": 1370
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 56.5,
+      "learning_rate": 4.5466666666666666e-07,
+      "loss": 0.9642,
+      "step": 1380
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 53.5,
+      "learning_rate": 4.4733333333333334e-07,
+      "loss": 0.9745,
+      "step": 1390
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.75,
+      "learning_rate": 4.4e-07,
+      "loss": 0.9625,
+      "step": 1400
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 56.25,
+      "learning_rate": 4.3266666666666665e-07,
+      "loss": 0.9617,
+      "step": 1410
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 56.5,
+      "learning_rate": 4.2533333333333333e-07,
+      "loss": 0.9724,
+      "step": 1420
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.5,
+      "learning_rate": 4.18e-07,
+      "loss": 0.9962,
+      "step": 1430
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 53.0,
+      "learning_rate": 4.106666666666667e-07,
+      "loss": 0.9469,
+      "step": 1440
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 54.75,
+      "learning_rate": 4.033333333333333e-07,
+      "loss": 0.9777,
+      "step": 1450
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 57.0,
+      "learning_rate": 3.96e-07,
+      "loss": 0.9498,
+      "step": 1460
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 57.0,
+      "learning_rate": 3.886666666666667e-07,
+      "loss": 0.9229,
+      "step": 1470
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 57.5,
+      "learning_rate": 3.8133333333333336e-07,
+      "loss": 0.9686,
+      "step": 1480
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 59.0,
+      "learning_rate": 3.7400000000000004e-07,
+      "loss": 0.9718,
+      "step": 1490
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 55.0,
+      "learning_rate": 3.6666666666666667e-07,
+      "loss": 0.9614,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.9728732705116272,
+      "eval_runtime": 65.1341,
+      "eval_samples_per_second": 15.353,
+      "eval_steps_per_second": 15.353,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2.420883062784e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null