Training in progress, step 30500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:069e8aec2bc91b01e99f7b79f39b1217a37ea88d9f6f4132f8acee4f393c01b1
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:99d93c7c60c932d10ad33d1552af0aac71474f293137a45805a4a2ce763ee9d3
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05de4cdebfe1224dfd9ad2f7aac9780ebf9102b682b1460f83379a4262dee74b
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:35dbfc13847779b0a35938e8b0f588714c0a9135f44df01b3743c87ca265465a
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:585e32212caa9f4214a347406425426d068333176e31042b8c5c439f5b429d00
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6542d07369db36fde40d38be458a1a754a1635e655b17a3c1ef863154ef95d8
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65c2f44365d34d95613ad949972f890d6a6afc2c6e9d4d4d8c47a473b1c2b039
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d84d85985e40eaca2f8aecd8e39909983ecc43ecb61e48fd72ba84ffc8de605b
+size 14180

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:195e35eaf32578f671662018e8b669b6388d8b5ac81f855c1c95157d655e6122
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:425d397e4698665694b259ae6a1b829b317ed54337dd9e06f3cd56fd2ec805f8
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8616cef5b8dab506166471a2c46c7770aee1e224f56ecc6b4d1b9b5b17b94e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:840262f69bbf64219997ced1350b5b0f0a6ada0892f4ec21d8f526e52fcbb247
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
-  "epoch": 2.307514806553342,
   "eval_steps": 250,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5168,6 +5168,92 @@
       "eval_samples_per_second": 57.971,
       "eval_steps_per_second": 14.493,
       "step": 30000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 30000,
   "best_metric": 0.9945911169052124,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-30000",
+  "epoch": 2.3459733866625645,
   "eval_steps": 250,
+  "global_step": 30500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.971,
       "eval_steps_per_second": 14.493,
       "step": 30000
+    },
+    {
+      "epoch": 2.311360664564264,
+      "grad_norm": 1.3450604677200317,
+      "learning_rate": 4.657818871256786e-05,
+      "loss": 0.973,
+      "step": 30050
+    },
+    {
+      "epoch": 2.3152065225751866,
+      "grad_norm": 1.1462957859039307,
+      "learning_rate": 4.631846869075137e-05,
+      "loss": 0.9789,
+      "step": 30100
+    },
+    {
+      "epoch": 2.3190523805861085,
+      "grad_norm": 1.0691301822662354,
+      "learning_rate": 4.605874866893489e-05,
+      "loss": 0.9937,
+      "step": 30150
+    },
+    {
+      "epoch": 2.322898238597031,
+      "grad_norm": 1.527723789215088,
+      "learning_rate": 4.579902864711841e-05,
+      "loss": 0.9276,
+      "step": 30200
+    },
+    {
+      "epoch": 2.3267440966079533,
+      "grad_norm": 0.7396986484527588,
+      "learning_rate": 4.553930862530192e-05,
+      "loss": 0.9648,
+      "step": 30250
+    },
+    {
+      "epoch": 2.3267440966079533,
+      "eval_loss": 1.0029717683792114,
+      "eval_runtime": 17.2662,
+      "eval_samples_per_second": 57.917,
+      "eval_steps_per_second": 14.479,
+      "step": 30250
+    },
+    {
+      "epoch": 2.3305899546188753,
+      "grad_norm": 0.9694539308547974,
+      "learning_rate": 4.527958860348545e-05,
+      "loss": 0.9378,
+      "step": 30300
+    },
+    {
+      "epoch": 2.3344358126297977,
+      "grad_norm": 1.161028504371643,
+      "learning_rate": 4.501986858166896e-05,
+      "loss": 0.9807,
+      "step": 30350
+    },
+    {
+      "epoch": 2.33828167064072,
+      "grad_norm": 1.6975845098495483,
+      "learning_rate": 4.476014855985248e-05,
+      "loss": 0.9809,
+      "step": 30400
+    },
+    {
+      "epoch": 2.342127528651642,
+      "grad_norm": 1.3228962421417236,
+      "learning_rate": 4.4500428538036e-05,
+      "loss": 1.0339,
+      "step": 30450
+    },
+    {
+      "epoch": 2.3459733866625645,
+      "grad_norm": 1.0168397426605225,
+      "learning_rate": 4.424070851621952e-05,
+      "loss": 0.9544,
+      "step": 30500
+    },
+    {
+      "epoch": 2.3459733866625645,
+      "eval_loss": 1.002646565437317,
+      "eval_runtime": 17.3363,
+      "eval_samples_per_second": 57.682,
+      "eval_steps_per_second": 14.421,
+      "step": 30500
     }
   ],
   "logging_steps": 50,