Training in progress, step 9500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:242d478bdcce64189f3b58031019151e1a18c1af95ac728b5a747bf09e32e7a9
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:a07c7b37309bd7fd0af854709b7f4fd8d23fc489f1f01e3ce9ee9cd1dd8fe07a
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aac51b2ab82ac87e0ebdf687ae863be82703b3f31a5c8357ea90e2e967391af
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:688f8190afce8ca65b8c35bcd1fdf6b4a9f824fa48e42d0160028e0b49e4b918
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:743ddc3d3453dab54079df809921a1396d6ae9822548c4cca99b22b4380fa013
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d91d17eb9f0aaaaca3ce7b6032cf0974efb84898d63756427a7c28dca8b82f6
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b68f148982346537acf196edf0aa44542990dee8efc3893aa00dae2ca2e993b5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c4598e219bb7f2bb5d2c34aa1d6d86aefb320efdbbe18af0ce36833a2da16e9
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fec606e444ea63edc032c8bc6a79a748b3d50629f93eb3c42816c2d5bd5ac94
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b53ce89a0a15b867485840cbf9ec970e5c24e7fed0de2f98955bcfdb979c079
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a408e7faa4c20c8bb6b17b32448bbaa3e8be76b1ace53db10640cd020e42083
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab5873d20a0c6d3d1a6dc5b11f7165499055143d4f4ba4693d6c6ee7d261e65c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 8500,
-  "best_metric": 4.409055709838867,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-8500",
-  "epoch": 0.6922544419660026,
   "eval_steps": 250,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1556,6 +1556,92 @@
       "eval_samples_per_second": 54.011,
       "eval_steps_per_second": 13.503,
       "step": 9000
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 9500,
+  "best_metric": 4.357193470001221,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-9500",
+  "epoch": 0.7307130220752249,
   "eval_steps": 250,
+  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.011,
       "eval_steps_per_second": 13.503,
       "step": 9000
+    },
+    {
+      "epoch": 0.6961002999769248,
+      "grad_norm": 7.213745594024658,
+      "learning_rate": 0.0001556398202737449,
+      "loss": 4.323,
+      "step": 9050
+    },
+    {
+      "epoch": 0.6999461579878471,
+      "grad_norm": 3.2426984310150146,
+      "learning_rate": 0.00015538010025192842,
+      "loss": 4.3922,
+      "step": 9100
+    },
+    {
+      "epoch": 0.7037920159987693,
+      "grad_norm": 3.256950855255127,
+      "learning_rate": 0.00015512038023011196,
+      "loss": 4.2602,
+      "step": 9150
+    },
+    {
+      "epoch": 0.7076378740096916,
+      "grad_norm": 6.132264614105225,
+      "learning_rate": 0.00015486066020829547,
+      "loss": 4.3734,
+      "step": 9200
+    },
+    {
+      "epoch": 0.7114837320206138,
+      "grad_norm": 3.921595573425293,
+      "learning_rate": 0.00015460094018647898,
+      "loss": 4.4776,
+      "step": 9250
+    },
+    {
+      "epoch": 0.7114837320206138,
+      "eval_loss": 4.3921356201171875,
+      "eval_runtime": 18.5511,
+      "eval_samples_per_second": 53.905,
+      "eval_steps_per_second": 13.476,
+      "step": 9250
+    },
+    {
+      "epoch": 0.7153295900315361,
+      "grad_norm": 5.416064739227295,
+      "learning_rate": 0.0001543412201646625,
+      "loss": 4.5659,
+      "step": 9300
+    },
+    {
+      "epoch": 0.7191754480424583,
+      "grad_norm": 4.542217254638672,
+      "learning_rate": 0.000154081500142846,
+      "loss": 4.2557,
+      "step": 9350
+    },
+    {
+      "epoch": 0.7230213060533806,
+      "grad_norm": 3.7075681686401367,
+      "learning_rate": 0.00015382178012102955,
+      "loss": 4.453,
+      "step": 9400
+    },
+    {
+      "epoch": 0.7268671640643027,
+      "grad_norm": 4.457496166229248,
+      "learning_rate": 0.00015356206009921306,
+      "loss": 4.3861,
+      "step": 9450
+    },
+    {
+      "epoch": 0.7307130220752249,
+      "grad_norm": 1.7784981727600098,
+      "learning_rate": 0.00015330234007739657,
+      "loss": 4.3258,
+      "step": 9500
+    },
+    {
+      "epoch": 0.7307130220752249,
+      "eval_loss": 4.357193470001221,
+      "eval_runtime": 18.6372,
+      "eval_samples_per_second": 53.656,
+      "eval_steps_per_second": 13.414,
+      "step": 9500
     }
   ],
   "logging_steps": 50,