Training in progress, step 22500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d7b8f572c134e72c7026e2e9ad914d2679628dec1b66f03f49c50f611744778
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fc3712b1e057a16f372207b456fdeffd0c4bccabecebba6df60fbbd6e85f587
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70ce7eba6d133886c57e789ae1ced0054a79c486c5c2f9581bd59cf429b1f437
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8c31ca9ad2774f0cf15399d81f8dcf836e50e2ce585665a25f067e60f94bcf7
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d3bd2c73ee827d2b8927a44cbea930a6ab308656fbc61ae1272b12f9654d264
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3d3278645373912f898a8fff510e120f19840077b176c8f23069af8f87b472e
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:625da12a62ce1ec712e7ea0b4fc06eed36ff20b9634198d1bc6029989e807f8d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0edeec917b285b0e88139f206de61b3e301e9b677aa51d87d86f36aba6dd8e7e
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8788cf54002af30b32604c9f2a6a5a9fa6c726ebc719ce2f7ca555b2dcfdfac8
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c79688ba387f89ea391b599b05911ed6d3d3bf9d86de9e8c20288888353c0b1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:854a60bf19d6e0989bdf3b974086f8fa81da02ef244adb541905035064ca56fc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:605e1a7f916ea8b232a9d9961b8fcd6fb54050ae6ec5fb93bccd0252261b9e7d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 21750,
-  "best_metric": 1.4662117958068848,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
-  "epoch": 1.6921775248057842,
   "eval_steps": 250,
-  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3792,6 +3792,92 @@
       "eval_samples_per_second": 56.27,
       "eval_steps_per_second": 14.067,
       "step": 22000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 22250,
+  "best_metric": 1.4596961736679077,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-21000",
+  "epoch": 1.7306361049150065,
   "eval_steps": 250,
+  "global_step": 22500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.27,
       "eval_steps_per_second": 14.067,
       "step": 22000
+    },
+    {
+      "epoch": 1.6960233828167064,
+      "grad_norm": 0.8225556015968323,
+      "learning_rate": 8.81230034023323e-05,
+      "loss": 1.4372,
+      "step": 22050
+    },
+    {
+      "epoch": 1.6998692408276286,
+      "grad_norm": 1.495335578918457,
+      "learning_rate": 8.78632833805158e-05,
+      "loss": 1.4231,
+      "step": 22100
+    },
+    {
+      "epoch": 1.703715098838551,
+      "grad_norm": 1.6913652420043945,
+      "learning_rate": 8.760356335869933e-05,
+      "loss": 1.4859,
+      "step": 22150
+    },
+    {
+      "epoch": 1.707560956849473,
+      "grad_norm": 1.9825598001480103,
+      "learning_rate": 8.734384333688285e-05,
+      "loss": 1.4354,
+      "step": 22200
+    },
+    {
+      "epoch": 1.7114068148603954,
+      "grad_norm": 2.212759017944336,
+      "learning_rate": 8.708412331506635e-05,
+      "loss": 1.3861,
+      "step": 22250
+    },
+    {
+      "epoch": 1.7114068148603954,
+      "eval_loss": 1.4596961736679077,
+      "eval_runtime": 17.8176,
+      "eval_samples_per_second": 56.124,
+      "eval_steps_per_second": 14.031,
+      "step": 22250
+    },
+    {
+      "epoch": 1.7152526728713176,
+      "grad_norm": 1.4325975179672241,
+      "learning_rate": 8.682440329324988e-05,
+      "loss": 1.4805,
+      "step": 22300
+    },
+    {
+      "epoch": 1.7190985308822397,
+      "grad_norm": 1.9796292781829834,
+      "learning_rate": 8.65646832714334e-05,
+      "loss": 1.3836,
+      "step": 22350
+    },
+    {
+      "epoch": 1.7229443888931621,
+      "grad_norm": 1.6221562623977661,
+      "learning_rate": 8.630496324961692e-05,
+      "loss": 1.4176,
+      "step": 22400
+    },
+    {
+      "epoch": 1.7267902469040843,
+      "grad_norm": 1.1431959867477417,
+      "learning_rate": 8.604524322780043e-05,
+      "loss": 1.4553,
+      "step": 22450
+    },
+    {
+      "epoch": 1.7306361049150065,
+      "grad_norm": 1.1562083959579468,
+      "learning_rate": 8.578552320598396e-05,
+      "loss": 1.4489,
+      "step": 22500
+    },
+    {
+      "epoch": 1.7306361049150065,
+      "eval_loss": 1.464021921157837,
+      "eval_runtime": 17.8166,
+      "eval_samples_per_second": 56.127,
+      "eval_steps_per_second": 14.032,
+      "step": 22500
     }
   ],
   "logging_steps": 50,