Training in progress, step 5120, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +221 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f5491bfc3ab32d01880f5d008fba55dfc118903175684ff29a2babb2d5cc1f8
+size 3246333568

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dc24603b7e5ff9eab535c3fcf74ce46671e2d4d45e0979d04581e66387412d2
+size 6220672307

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc1239486b7f83e4a2231cde24a50b503b22ee79d6ee232760274da141c18674
+size 14503

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc144d341e4558a072df309cc0e1632fff46fd0c7d5d5c6acf4278b66a64424b
+size 623

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,221 @@

+{
+  "best_metric": 8750.201171875,
+  "best_model_checkpoint": "mgh6/TCS_Pairing_VAE/checkpoint-5120",
+  "epoch": 0.37828901798165815,
+  "eval_steps": 512,
+  "global_step": 5120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.810846756317423e-05,
+      "loss": 13895.6543,
+      "step": 256
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.621693512634847e-05,
+      "loss": 12089.9502,
+      "step": 512
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 10878.3818359375,
+      "eval_runtime": 52.2741,
+      "eval_samples_per_second": 65.004,
+      "eval_steps_per_second": 65.004,
+      "step": 512
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.43254026895227e-05,
+      "loss": 11585.8203,
+      "step": 768
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.243387025269692e-05,
+      "loss": 11148.8809,
+      "step": 1024
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 10289.9677734375,
+      "eval_runtime": 52.2836,
+      "eval_samples_per_second": 64.992,
+      "eval_steps_per_second": 64.992,
+      "step": 1024
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.054233781587114e-05,
+      "loss": 10962.8799,
+      "step": 1280
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 8.865080537904538e-05,
+      "loss": 10798.7051,
+      "step": 1536
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 9891.8466796875,
+      "eval_runtime": 52.2253,
+      "eval_samples_per_second": 65.064,
+      "eval_steps_per_second": 65.064,
+      "step": 1536
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 8.67592729422196e-05,
+      "loss": 10776.9941,
+      "step": 1792
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 8.486774050539382e-05,
+      "loss": 10478.6211,
+      "step": 2048
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 9580.3623046875,
+      "eval_runtime": 54.3989,
+      "eval_samples_per_second": 62.465,
+      "eval_steps_per_second": 62.465,
+      "step": 2048
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 8.297620806856804e-05,
+      "loss": 10421.6865,
+      "step": 2304
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 8.108467563174228e-05,
+      "loss": 10349.1133,
+      "step": 2560
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 9357.197265625,
+      "eval_runtime": 52.1384,
+      "eval_samples_per_second": 65.173,
+      "eval_steps_per_second": 65.173,
+      "step": 2560
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 7.919314319491651e-05,
+      "loss": 10320.9795,
+      "step": 2816
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 7.730161075809073e-05,
+      "loss": 10056.0762,
+      "step": 3072
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 9196.8330078125,
+      "eval_runtime": 55.9285,
+      "eval_samples_per_second": 60.756,
+      "eval_steps_per_second": 60.756,
+      "step": 3072
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 7.541007832126497e-05,
+      "loss": 10047.7236,
+      "step": 3328
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.35185458844392e-05,
+      "loss": 9825.2148,
+      "step": 3584
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 9047.8759765625,
+      "eval_runtime": 54.3128,
+      "eval_samples_per_second": 62.564,
+      "eval_steps_per_second": 62.564,
+      "step": 3584
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 7.162701344761342e-05,
+      "loss": 9779.3662,
+      "step": 3840
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 6.973548101078765e-05,
+      "loss": 9906.9102,
+      "step": 4096
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 8961.9609375,
+      "eval_runtime": 53.0164,
+      "eval_samples_per_second": 64.093,
+      "eval_steps_per_second": 64.093,
+      "step": 4096
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 6.784394857396189e-05,
+      "loss": 9788.2617,
+      "step": 4352
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 6.595241613713611e-05,
+      "loss": 9622.2656,
+      "step": 4608
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 8833.9521484375,
+      "eval_runtime": 74.0629,
+      "eval_samples_per_second": 45.88,
+      "eval_steps_per_second": 45.88,
+      "step": 4608
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.406088370031034e-05,
+      "loss": 9643.9951,
+      "step": 4864
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.216935126348456e-05,
+      "loss": 9615.2891,
+      "step": 5120
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 8750.201171875,
+      "eval_runtime": 52.5556,
+      "eval_samples_per_second": 64.655,
+      "eval_steps_per_second": 64.655,
+      "step": 5120
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 13534,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2560,
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91dfd5ef6e8fea36f691c6bed4ab7bc1d693cedb64e8b1f740803a2800d3a433
+size 4271