Uploaded checkpoint-10000

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +186 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f592525aa06b9d652c3e47ce10a4feed84c673077118b3f1e7fa0765c4e8d65
 size 119975656

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfc16ef0037aef3ed045cba1571a465b80b316394b3da0e1be310de1a3e5cac8
 size 119975656

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfd488fb9ddc7976baa882b27f99572ef49e0dcce57741826a3c5a53f8c74033
 size 60477396

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c1137ecb412c88df3bca9fa139c89543a45f6bf82baf46e46717d027befb4d1
 size 60477396

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb05a287608789acf6a46ac24bd27b9ec4ab55c0546b575765875ff29cd1c432
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:719ef15f4e381b40350baace20dd00bda85c902e5a6b0fb9b3cf54bce93480aa
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140704ae7778ae2e7bd0a12096903198666696eb43c0e46a8b8a3aa47b4fb047
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bfabff5a7af861fca0d4328cbdeeac43000e633dd64effe96ee68fd4be8bd44
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1875,
   "eval_steps": 2500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -556,6 +556,189 @@
       "eval_samples_per_second": 9.428,
       "eval_steps_per_second": 9.428,
       "step": 7500
     }
   ],
   "logging_steps": 100,
@@ -563,7 +746,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
-  "total_flos": 1.2076594495488e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.25,
   "eval_steps": 2500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.428,
       "eval_steps_per_second": 9.428,
       "step": 7500
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 3.4310085773468018,
+      "learning_rate": 1.2717948717948718e-05,
+      "loss": 0.8767,
+      "step": 7600
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 2.533520460128784,
+      "learning_rate": 1.2615384615384616e-05,
+      "loss": 0.8784,
+      "step": 7700
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.673364639282227,
+      "learning_rate": 1.2512820512820514e-05,
+      "loss": 0.8504,
+      "step": 7800
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.4026598930358887,
+      "learning_rate": 1.2410256410256412e-05,
+      "loss": 0.8647,
+      "step": 7900
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 6.66796875,
+      "learning_rate": 1.230769230769231e-05,
+      "loss": 0.8634,
+      "step": 8000
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.8087568283081055,
+      "learning_rate": 1.2205128205128208e-05,
+      "loss": 0.8277,
+      "step": 8100
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 3.196040630340576,
+      "learning_rate": 1.2102564102564102e-05,
+      "loss": 0.8739,
+      "step": 8200
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.6817710399627686,
+      "learning_rate": 1.2e-05,
+      "loss": 0.8367,
+      "step": 8300
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 5.548306941986084,
+      "learning_rate": 1.1897435897435898e-05,
+      "loss": 0.8247,
+      "step": 8400
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 6.069587707519531,
+      "learning_rate": 1.1794871794871796e-05,
+      "loss": 0.8248,
+      "step": 8500
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 3.085785150527954,
+      "learning_rate": 1.1692307692307694e-05,
+      "loss": 0.8618,
+      "step": 8600
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.7855651378631592,
+      "learning_rate": 1.1589743589743592e-05,
+      "loss": 0.8601,
+      "step": 8700
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 3.378775119781494,
+      "learning_rate": 1.1487179487179487e-05,
+      "loss": 0.8712,
+      "step": 8800
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 2.7686617374420166,
+      "learning_rate": 1.1384615384615385e-05,
+      "loss": 0.852,
+      "step": 8900
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 5.424912452697754,
+      "learning_rate": 1.1282051282051283e-05,
+      "loss": 0.8796,
+      "step": 9000
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 6.806646347045898,
+      "learning_rate": 1.117948717948718e-05,
+      "loss": 0.8457,
+      "step": 9100
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 4.3275837898254395,
+      "learning_rate": 1.1076923076923079e-05,
+      "loss": 0.8346,
+      "step": 9200
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 5.901556015014648,
+      "learning_rate": 1.0974358974358977e-05,
+      "loss": 0.8489,
+      "step": 9300
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 6.287178993225098,
+      "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.8463,
+      "step": 9400
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.2666897773742676,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.8399,
+      "step": 9500
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.2565557956695557,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.8452,
+      "step": 9600
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 3.512251615524292,
+      "learning_rate": 1.0564102564102565e-05,
+      "loss": 0.8665,
+      "step": 9700
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 5.637045860290527,
+      "learning_rate": 1.0461538461538463e-05,
+      "loss": 0.829,
+      "step": 9800
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 2.9041316509246826,
+      "learning_rate": 1.0358974358974361e-05,
+      "loss": 0.8273,
+      "step": 9900
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 2.120234727859497,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.7933,
+      "step": 10000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8178455829620361,
+      "eval_runtime": 103.8104,
+      "eval_samples_per_second": 9.633,
+      "eval_steps_per_second": 9.633,
+      "step": 10000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2500,
+  "total_flos": 1.6102125993984e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null