Uploaded checkpoint-2000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +153 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:821c0ac7a30d0c43834f06feb7fd15b70ef13d1f6aeac25967123bc26b176cf0
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:529afbfd214e67f0cd6ed38c46a882f69bf7229384ab1df0ce60cb1f5e4f2965
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1df28215a0916dd28c5a5b8284ab78a1c942bf5b3cbc4f05dd051c1fd89566ed
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0cf9aa45dd205493bc09191810b39b693ad29080f038d14b0cea034dec265cb
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ca7c0296e5cbbfde7db0a0bddc642b682b5cf589c67faf9042bea2615f4d80e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6953db975b289c1d4893316fe618b5891abd5920bad079a04f9bc032f0d6a4f
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c69e416a1c1c7cfbd03505995e73f15a3c32b1cc0b0dc09a821d33b4e92286e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:78180a777fabc8bdc6e37d70a05529fbfe5bbeb093c49dd0124cc2bdeb32db78
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.31330774653403304,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,156 @@
       "eval_samples_per_second": 5.198,
       "eval_steps_per_second": 5.198,
       "step": 1000
     }
   ],
   "logging_steps": 100,
@@ -164,7 +314,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 1.6102125993984e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6266154930680661,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.198,
       "eval_steps_per_second": 5.198,
       "step": 1000
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.007412207778543234,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.0631,
+      "step": 1100
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.025782734155654907,
+      "eval_runtime": 192.5677,
+      "eval_samples_per_second": 5.193,
+      "eval_steps_per_second": 5.193,
+      "step": 1100
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.004010587465018034,
+      "learning_rate": 1.688888888888889e-05,
+      "loss": 0.0645,
+      "step": 1200
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.026380345225334167,
+      "eval_runtime": 192.1928,
+      "eval_samples_per_second": 5.203,
+      "eval_steps_per_second": 5.203,
+      "step": 1200
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.0805005207657814,
+      "learning_rate": 1.6444444444444444e-05,
+      "loss": 0.0419,
+      "step": 1300
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.027041926980018616,
+      "eval_runtime": 192.535,
+      "eval_samples_per_second": 5.194,
+      "eval_steps_per_second": 5.194,
+      "step": 1300
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.010087325237691402,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0612,
+      "step": 1400
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.018431425094604492,
+      "eval_runtime": 192.3449,
+      "eval_samples_per_second": 5.199,
+      "eval_steps_per_second": 5.199,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.6794092655181885,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.0569,
+      "step": 1500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.017885498702526093,
+      "eval_runtime": 192.6531,
+      "eval_samples_per_second": 5.191,
+      "eval_steps_per_second": 5.191,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.6970280408859253,
+      "learning_rate": 1.5111111111111112e-05,
+      "loss": 0.0546,
+      "step": 1600
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.022140460088849068,
+      "eval_runtime": 192.8968,
+      "eval_samples_per_second": 5.184,
+      "eval_steps_per_second": 5.184,
+      "step": 1600
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.013943832367658615,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.069,
+      "step": 1700
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.020227737724781036,
+      "eval_runtime": 193.1829,
+      "eval_samples_per_second": 5.176,
+      "eval_steps_per_second": 5.176,
+      "step": 1700
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.067197322845459,
+      "learning_rate": 1.4222222222222224e-05,
+      "loss": 0.0509,
+      "step": 1800
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.01612325944006443,
+      "eval_runtime": 192.6314,
+      "eval_samples_per_second": 5.191,
+      "eval_steps_per_second": 5.191,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 2.2480263710021973,
+      "learning_rate": 1.377777777777778e-05,
+      "loss": 0.0495,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.01796303130686283,
+      "eval_runtime": 192.3154,
+      "eval_samples_per_second": 5.2,
+      "eval_steps_per_second": 5.2,
+      "step": 1900
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.0029044542461633682,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0444,
+      "step": 2000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.02335376851260662,
+      "eval_runtime": 192.3608,
+      "eval_samples_per_second": 5.199,
+      "eval_steps_per_second": 5.199,
+      "step": 2000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 3.2204251987968e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null