Training in progress, step 33000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d47a059c4465cb96ca8cf7f1905ca26df8afde99f0c2208111a3832ed682273e
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a1f3a37b9195f9fe5315c1a417cc9c4c1837b6b4960ab692b3988674668e641
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:789a7c970269f3838d005c341e4869fd88818ad8ae5141deea1681f158455f61
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:3523599b620af8d4d35f82aaf704dae1a9541799dcba2ac70510840b2a4877a5
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01682574d44e97467301d5779733da7210577aa9e9ec38e6d369a4e1bb9c71a7
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b004e01986e4ffc28df93cce958d9d9b3e3c05bd2e39ed3961cf317990155cfc
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e10cec93434f8ec9066e53d88256d0df13c4dfad53975c2a473bada794e39de4
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0849d6e61493156c95f17fe6b7e25f79c73daada8cac211ebd8c78fd56fdbe07
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe23086b61822081f0f874226d60c752bbd88420dba9100921fe74a8fe8db57f
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:99769539adfb817adf246fb69dd78f4ed98ef4d44e4b95e77847af02938c82df
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16e4c0e7d997f50c97bce12877fd963ff1e035235b3d794e37197e971fb5ab23
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ba7f7caed94fa0fdab770ae562d792042367a76a376e41d1e68e45e9207a740
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.4998077070994538,
   "eval_steps": 250,
-  "global_step": 32500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5598,6 +5598,92 @@
       "eval_samples_per_second": 57.674,
       "eval_steps_per_second": 14.418,
       "step": 32500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.5382662872086765,
   "eval_steps": 250,
+  "global_step": 33000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.674,
       "eval_steps_per_second": 14.418,
       "step": 32500
+    },
+    {
+      "epoch": 2.503653565110376,
+      "grad_norm": 0.867513120174408,
+      "learning_rate": 3.359738202218009e-05,
+      "loss": 0.994,
+      "step": 32550
+    },
+    {
+      "epoch": 2.507499423121298,
+      "grad_norm": 1.7425885200500488,
+      "learning_rate": 3.3337662000363615e-05,
+      "loss": 1.0068,
+      "step": 32600
+    },
+    {
+      "epoch": 2.5113452811322206,
+      "grad_norm": 0.9053608775138855,
+      "learning_rate": 3.307794197854713e-05,
+      "loss": 0.9704,
+      "step": 32650
+    },
+    {
+      "epoch": 2.515191139143143,
+      "grad_norm": 1.0533051490783691,
+      "learning_rate": 3.281822195673064e-05,
+      "loss": 0.9506,
+      "step": 32700
+    },
+    {
+      "epoch": 2.519036997154065,
+      "grad_norm": 1.2495230436325073,
+      "learning_rate": 3.255850193491417e-05,
+      "loss": 0.9936,
+      "step": 32750
+    },
+    {
+      "epoch": 2.519036997154065,
+      "eval_loss": 0.9990929961204529,
+      "eval_runtime": 17.239,
+      "eval_samples_per_second": 58.008,
+      "eval_steps_per_second": 14.502,
+      "step": 32750
+    },
+    {
+      "epoch": 2.5228828551649873,
+      "grad_norm": 0.8339760303497314,
+      "learning_rate": 3.229878191309768e-05,
+      "loss": 1.0008,
+      "step": 32800
+    },
+    {
+      "epoch": 2.5267287131759097,
+      "grad_norm": 1.2839399576187134,
+      "learning_rate": 3.20390618912812e-05,
+      "loss": 1.0109,
+      "step": 32850
+    },
+    {
+      "epoch": 2.5305745711868317,
+      "grad_norm": 1.2146100997924805,
+      "learning_rate": 3.177934186946472e-05,
+      "loss": 0.9834,
+      "step": 32900
+    },
+    {
+      "epoch": 2.534420429197754,
+      "grad_norm": 0.7952923774719238,
+      "learning_rate": 3.151962184764823e-05,
+      "loss": 1.0013,
+      "step": 32950
+    },
+    {
+      "epoch": 2.5382662872086765,
+      "grad_norm": 1.67001211643219,
+      "learning_rate": 3.125990182583176e-05,
+      "loss": 0.9797,
+      "step": 33000
+    },
+    {
+      "epoch": 2.5382662872086765,
+      "eval_loss": 1.001037359237671,
+      "eval_runtime": 17.347,
+      "eval_samples_per_second": 57.647,
+      "eval_steps_per_second": 14.412,
+      "step": 33000
     }
   ],
   "logging_steps": 50,