Uploaded checkpoint-5000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +153 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae99966885dfadca210314bf64872ce443f70308df6e4727adcc50f428ab66db
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:19344674fe2ad15f50200034530413438a33bff9ccab8bfa6cf2812aa37bf12e
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2812ec63c28059aad0edb8123a9e90f5f8301e979f2372ce02fe039956e98169
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:d94e63a8e69076b7c52dde790e804072eacd8a18380eb10fffd62f19a4cfff1f
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b12fc07e36413d2b0b11012030944d448c215499606c7c88123ca1e537650ca8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1abd2f2c053411bc4be9ca11b9a9a5f9be07dc02a0721eee3132129b1fc2a3d8
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8557a40bc707e1ef7c101859ab04d1c4c6b283598d6d9dc4f6cea13cb82e641e
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2532309861361322,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,156 @@
       "eval_samples_per_second": 5.185,
       "eval_steps_per_second": 5.185,
       "step": 4000
     }
   ],
   "logging_steps": 100,
@@ -614,7 +764,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 6.4408503975936e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5665387326701654,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.185,
       "eval_steps_per_second": 5.185,
       "step": 4000
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.0578785166144371,
+      "learning_rate": 4.004444444444445e-06,
+      "loss": 0.0378,
+      "step": 4100
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.018333839252591133,
+      "eval_runtime": 192.9576,
+      "eval_samples_per_second": 5.182,
+      "eval_steps_per_second": 5.182,
+      "step": 4100
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.0014218598371371627,
+      "learning_rate": 3.5600000000000002e-06,
+      "loss": 0.0289,
+      "step": 4200
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.02419031597673893,
+      "eval_runtime": 192.6293,
+      "eval_samples_per_second": 5.191,
+      "eval_steps_per_second": 5.191,
+      "step": 4200
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.0013137555215507746,
+      "learning_rate": 3.1155555555555555e-06,
+      "loss": 0.0298,
+      "step": 4300
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.02638879045844078,
+      "eval_runtime": 192.8273,
+      "eval_samples_per_second": 5.186,
+      "eval_steps_per_second": 5.186,
+      "step": 4300
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 0.35259732604026794,
+      "learning_rate": 2.6711111111111116e-06,
+      "loss": 0.0382,
+      "step": 4400
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.01607164740562439,
+      "eval_runtime": 192.7408,
+      "eval_samples_per_second": 5.188,
+      "eval_steps_per_second": 5.188,
+      "step": 4400
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 0.0020605421159416437,
+      "learning_rate": 2.226666666666667e-06,
+      "loss": 0.0339,
+      "step": 4500
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.014907135628163815,
+      "eval_runtime": 192.8289,
+      "eval_samples_per_second": 5.186,
+      "eval_steps_per_second": 5.186,
+      "step": 4500
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.0019016048172488809,
+      "learning_rate": 1.7822222222222225e-06,
+      "loss": 0.0195,
+      "step": 4600
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.015925556421279907,
+      "eval_runtime": 192.4215,
+      "eval_samples_per_second": 5.197,
+      "eval_steps_per_second": 5.197,
+      "step": 4600
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 0.734219491481781,
+      "learning_rate": 1.337777777777778e-06,
+      "loss": 0.0328,
+      "step": 4700
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.014890914782881737,
+      "eval_runtime": 192.4767,
+      "eval_samples_per_second": 5.195,
+      "eval_steps_per_second": 5.195,
+      "step": 4700
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.157243251800537,
+      "learning_rate": 8.933333333333334e-07,
+      "loss": 0.0429,
+      "step": 4800
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.01486047450453043,
+      "eval_runtime": 191.7644,
+      "eval_samples_per_second": 5.215,
+      "eval_steps_per_second": 5.215,
+      "step": 4800
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 0.00161929486785084,
+      "learning_rate": 4.488888888888889e-07,
+      "loss": 0.0312,
+      "step": 4900
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.02127786912024021,
+      "eval_runtime": 191.9957,
+      "eval_samples_per_second": 5.208,
+      "eval_steps_per_second": 5.208,
+      "step": 4900
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.001571273198351264,
+      "learning_rate": 4.444444444444445e-09,
+      "loss": 0.0364,
+      "step": 5000
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.01901436597108841,
+      "eval_runtime": 191.5985,
+      "eval_samples_per_second": 5.219,
+      "eval_steps_per_second": 5.219,
+      "step": 5000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 8.051062996992e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null