Training in progress, step 34500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183bead4ca9a0d8a9ad0402f8298de3e2bfdf1c6bc3c98f0a8a4be0ee1e31d4d
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:53c2dc91061b5eda8052d1184b1536e107f67954828f13fc73c5f566d9eec7e7
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b47889f113a05e0ff3862fe30181a9dc731902d20018b65b9702f60ad52946b
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd069bd3f52dbe1e9e9aa12f2a80d00bcd8aecaa208ac2ee4066c63760aef004
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e318b97ed9819790ac140e0dd6c53dca0b92f84a57cf1dedca58f5c9fdf217c4
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f6e144665188da17e67d918c6abe6a3a0b2a9a0712038ae5ff60cbb2015b996
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a8f7000d6d396338bd8027a37093a36e3ad9a9fa3dd5e939b7cf2fd1b06a270
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2aa00c75821a3bd67f749b822eac4f44391e9055a1d2f4b3c96ab88dfd278a9
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d185966dc7e40240f30d39f221c00702b5a813416a3b53099b3469fe07e391c8
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fe927b439a1a453ba57ba9d3a3e3ce57ef03a538257a3403279d996da7cbd98
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2206e3ea9caa91bbe357a176c4a03573c2b47177cf241fe9772382f8b2e0ca8f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b632fa657d89cf9d024b864a979b41e9d4484feec7658b4550443a85b8f54ac3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
-  "epoch": 2.615183447427121,
   "eval_steps": 250,
-  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5856,6 +5856,92 @@
       "eval_samples_per_second": 57.993,
       "eval_steps_per_second": 14.498,
       "step": 34000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 34000,
   "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.6536420275363435,
   "eval_steps": 250,
+  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.993,
       "eval_steps_per_second": 14.498,
       "step": 34000
+    },
+    {
+      "epoch": 2.619029305438043,
+      "grad_norm": 0.5307362079620361,
+      "learning_rate": 2.580578136768564e-05,
+      "loss": 1.0031,
+      "step": 34050
+    },
+    {
+      "epoch": 2.6228751634489655,
+      "grad_norm": 1.1112557649612427,
+      "learning_rate": 2.5546061345869156e-05,
+      "loss": 0.9928,
+      "step": 34100
+    },
+    {
+      "epoch": 2.626721021459888,
+      "grad_norm": 0.646759569644928,
+      "learning_rate": 2.5286341324052672e-05,
+      "loss": 1.0173,
+      "step": 34150
+    },
+    {
+      "epoch": 2.63056687947081,
+      "grad_norm": 1.0114878416061401,
+      "learning_rate": 2.502662130223619e-05,
+      "loss": 0.9765,
+      "step": 34200
+    },
+    {
+      "epoch": 2.6344127374817323,
+      "grad_norm": 0.8782021403312683,
+      "learning_rate": 2.4766901280419708e-05,
+      "loss": 0.9926,
+      "step": 34250
+    },
+    {
+      "epoch": 2.6344127374817323,
+      "eval_loss": 0.9932020306587219,
+      "eval_runtime": 17.1921,
+      "eval_samples_per_second": 58.166,
+      "eval_steps_per_second": 14.542,
+      "step": 34250
+    },
+    {
+      "epoch": 2.6382585954926543,
+      "grad_norm": 1.0792268514633179,
+      "learning_rate": 2.4507181258603227e-05,
+      "loss": 1.0541,
+      "step": 34300
+    },
+    {
+      "epoch": 2.6421044535035767,
+      "grad_norm": 0.9647793173789978,
+      "learning_rate": 2.4247461236786744e-05,
+      "loss": 0.9779,
+      "step": 34350
+    },
+    {
+      "epoch": 2.6459503115144987,
+      "grad_norm": 1.0052498579025269,
+      "learning_rate": 2.3987741214970263e-05,
+      "loss": 0.9798,
+      "step": 34400
+    },
+    {
+      "epoch": 2.649796169525421,
+      "grad_norm": 0.8122023344039917,
+      "learning_rate": 2.3728021193153783e-05,
+      "loss": 1.0205,
+      "step": 34450
+    },
+    {
+      "epoch": 2.6536420275363435,
+      "grad_norm": 1.452087163925171,
+      "learning_rate": 2.3468301171337302e-05,
+      "loss": 0.9745,
+      "step": 34500
+    },
+    {
+      "epoch": 2.6536420275363435,
+      "eval_loss": 0.9959968328475952,
+      "eval_runtime": 17.2025,
+      "eval_samples_per_second": 58.131,
+      "eval_steps_per_second": 14.533,
+      "step": 34500
     }
   ],
   "logging_steps": 50,