Training in progress, step 32, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +123 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcc8412abfdd26b4fdc11436b83cc9ce406a97cc9f5426a26ceb58c2a845927f
 size 63592

 version https://git-lfs.github.com/spec/v1
+oid sha256:16a0fa8ff10e2b47c91f216fca7ae09ce7d67db73074f8e58c5084d72a1497e5
 size 63592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d07392bdc566ee30c0eb06765a5c2d248b27113aa2c3dce9bc74e22b0015d19
 size 136814

 version https://git-lfs.github.com/spec/v1
+oid sha256:68c036e462fc01b009e149797ee73941675bd15cf7f6ca35412a8358dceba4e3
 size 136814

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caa27e6740300163cb9718d2eaf886a9f832addc97756f5df0931b049feebcc5
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f435e2cf5af084ff87f38ac364aa32f5f9250d67a5fd3cb62ee9bb2e9e48da7
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dbd690c0e1bfde4a7db1bd4ec971148018ad862429cc2318689bd0d458baddc
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:2dfdc610d6111b3c5b2c5f58f7b4bc723b1377af735ffdde336defa263ece09d
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:605d23f463d574da26fdafa2a2fc396d0b00160053ea75ca175c5c8e6f2990e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a4ecc45073a35262869a0d9392090bbde50163f9775b63db54f8daf68eadbe7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.256,
   "eval_steps": 16,
-  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -135,6 +135,126 @@
       "eval_samples_per_second": 129.18,
       "eval_steps_per_second": 32.904,
       "step": 16
     }
   ],
   "logging_steps": 1,
@@ -154,7 +274,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 479157288960.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.512,
   "eval_steps": 16,
+  "global_step": 32,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 129.18,
       "eval_steps_per_second": 32.904,
       "step": 16
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 1.444272756576538,
+      "learning_rate": 0.00017,
+      "loss": 88.719,
+      "step": 17
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 1.4536869525909424,
+      "learning_rate": 0.00018,
+      "loss": 88.7756,
+      "step": 18
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 1.6990916728973389,
+      "learning_rate": 0.00019,
+      "loss": 88.719,
+      "step": 19
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.6907556056976318,
+      "learning_rate": 0.0002,
+      "loss": 88.6939,
+      "step": 20
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 1.7854983806610107,
+      "learning_rate": 0.00019972037971811802,
+      "loss": 88.6928,
+      "step": 21
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 1.7495782375335693,
+      "learning_rate": 0.00019888308262251285,
+      "loss": 88.7139,
+      "step": 22
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 1.8135170936584473,
+      "learning_rate": 0.00019749279121818235,
+      "loss": 88.6808,
+      "step": 23
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 1.9571936130523682,
+      "learning_rate": 0.0001955572805786141,
+      "loss": 88.7278,
+      "step": 24
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.9375219345092773,
+      "learning_rate": 0.00019308737486442045,
+      "loss": 88.661,
+      "step": 25
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 2.0492427349090576,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 88.6735,
+      "step": 26
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 2.057321786880493,
+      "learning_rate": 0.00018660254037844388,
+      "loss": 88.5661,
+      "step": 27
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 2.227236747741699,
+      "learning_rate": 0.0001826238774315995,
+      "loss": 88.6781,
+      "step": 28
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 2.3857967853546143,
+      "learning_rate": 0.000178183148246803,
+      "loss": 88.6794,
+      "step": 29
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.7329936027526855,
+      "learning_rate": 0.00017330518718298264,
+      "loss": 88.6323,
+      "step": 30
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 3.2216603755950928,
+      "learning_rate": 0.00016801727377709194,
+      "loss": 88.5737,
+      "step": 31
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 1.5606772899627686,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 88.6774,
+      "step": 32
+    },
+    {
+      "epoch": 0.512,
+      "eval_loss": 11.075674057006836,
+      "eval_runtime": 0.8047,
+      "eval_samples_per_second": 131.72,
+      "eval_steps_per_second": 33.551,
+      "step": 32
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 958314577920.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null