Training in progress, step 2560, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +34 -434
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dbedb6813ab23efa8584bec7923fe721f4b44150baafc9f003c1e9ccbc8959f
 size 4725595416

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a79993ca3bb2e40d715e49b6365049f27102e49dd8b3a9ce020c6ea5a9f9fe9
 size 4725595416

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd523d00ffb4a32186d8de998c8ceb1d14a4584b486840374344962c5a4e3c1b
 size 9179193343

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bf2691edb5f20acb6de9eb1f6120c2449bed48ca00eecc968c5be167084b7bb
 size 9179193343

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:576c6ec28ef06a8796c16ea2ad20bd582e9c62a6072012fb887d3d0c157f117d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c349c1691bbeda5a6b16abd459bd4b17c698c1ae8b87b93b48229ee14acd38e
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69cbe7499b854b9136e048ff63938c0702f50fa9e8e898bdab2b2964aefa4363
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:28472ecbb49d175fddb5467d2d36c375ce76e352a7c4d1642d73ecb32735946a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 12849.525390625,
-  "best_model_checkpoint": "mgh6/TCS_Pairing_VAE/checkpoint-12800",
-  "epoch": 0.9457225449541454,
   "eval_steps": 512,
-  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,502 +11,102 @@
     {
       "epoch": 0.02,
       "learning_rate": 9.962169351263485e-05,
-      "loss": 113604.8047,
       "step": 256
     },
     {
       "epoch": 0.04,
       "learning_rate": 9.92433870252697e-05,
-      "loss": 117025.2031,
       "step": 512
     },
     {
       "epoch": 0.04,
-      "eval_loss": 94748.9375,
-      "eval_runtime": 59.5739,
-      "eval_samples_per_second": 57.038,
-      "eval_steps_per_second": 57.038,
       "step": 512
     },
     {
       "epoch": 0.06,
       "learning_rate": 9.886508053790455e-05,
-      "loss": 107788.5469,
       "step": 768
     },
     {
       "epoch": 0.08,
       "learning_rate": 9.848677405053938e-05,
-      "loss": 95214.5781,
       "step": 1024
     },
     {
       "epoch": 0.08,
-      "eval_loss": 72482.0,
-      "eval_runtime": 59.6084,
-      "eval_samples_per_second": 57.005,
-      "eval_steps_per_second": 57.005,
       "step": 1024
     },
     {
       "epoch": 0.09,
       "learning_rate": 9.810846756317423e-05,
-      "loss": 76292.5156,
       "step": 1280
     },
     {
       "epoch": 0.11,
       "learning_rate": 9.773016107580908e-05,
-      "loss": 61333.8164,
       "step": 1536
     },
     {
       "epoch": 0.11,
-      "eval_loss": 46481.89453125,
-      "eval_runtime": 59.7574,
-      "eval_samples_per_second": 56.863,
-      "eval_steps_per_second": 56.863,
       "step": 1536
     },
     {
       "epoch": 0.13,
       "learning_rate": 9.735185458844393e-05,
-      "loss": 47487.7461,
       "step": 1792
     },
     {
       "epoch": 0.15,
       "learning_rate": 9.697354810107877e-05,
-      "loss": 35592.2891,
       "step": 2048
     },
     {
       "epoch": 0.15,
-      "eval_loss": 26872.33203125,
-      "eval_runtime": 59.5627,
-      "eval_samples_per_second": 57.049,
-      "eval_steps_per_second": 57.049,
       "step": 2048
     },
     {
       "epoch": 0.17,
       "learning_rate": 9.659524161371362e-05,
-      "loss": 27868.3906,
       "step": 2304
     },
     {
       "epoch": 0.19,
       "learning_rate": 9.621693512634847e-05,
-      "loss": 22961.3906,
       "step": 2560
     },
     {
       "epoch": 0.19,
-      "eval_loss": 18575.595703125,
-      "eval_runtime": 86.8108,
-      "eval_samples_per_second": 39.143,
-      "eval_steps_per_second": 39.143,
       "step": 2560
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 9.58386286389833e-05,
-      "loss": 20474.4043,
-      "step": 2816
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 9.546032215161815e-05,
-      "loss": 18948.6875,
-      "step": 3072
-    },
-    {
-      "epoch": 0.23,
-      "eval_loss": 16196.150390625,
-      "eval_runtime": 62.7371,
-      "eval_samples_per_second": 54.163,
-      "eval_steps_per_second": 54.163,
-      "step": 3072
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 9.5082015664253e-05,
-      "loss": 17958.9785,
-      "step": 3328
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 9.470370917688785e-05,
-      "loss": 17018.3223,
-      "step": 3584
-    },
-    {
-      "epoch": 0.26,
-      "eval_loss": 15006.568359375,
-      "eval_runtime": 59.6957,
-      "eval_samples_per_second": 56.922,
-      "eval_steps_per_second": 56.922,
-      "step": 3584
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 9.43254026895227e-05,
-      "loss": 16859.2793,
-      "step": 3840
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 9.394709620215754e-05,
-      "loss": 16723.5449,
-      "step": 4096
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 14789.91796875,
-      "eval_runtime": 59.5641,
-      "eval_samples_per_second": 57.048,
-      "eval_steps_per_second": 57.048,
-      "step": 4096
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 9.356878971479238e-05,
-      "loss": 16488.6934,
-      "step": 4352
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 9.319048322742722e-05,
-      "loss": 16159.4502,
-      "step": 4608
-    },
-    {
-      "epoch": 0.34,
-      "eval_loss": 14223.150390625,
-      "eval_runtime": 60.4382,
-      "eval_samples_per_second": 56.223,
-      "eval_steps_per_second": 56.223,
-      "step": 4608
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 9.281217674006207e-05,
-      "loss": 16155.2217,
-      "step": 4864
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 9.243387025269692e-05,
-      "loss": 16132.4766,
-      "step": 5120
-    },
-    {
-      "epoch": 0.38,
-      "eval_loss": 14493.603515625,
-      "eval_runtime": 61.3546,
-      "eval_samples_per_second": 55.383,
-      "eval_steps_per_second": 55.383,
-      "step": 5120
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 9.205556376533177e-05,
-      "loss": 16020.0381,
-      "step": 5376
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 9.167725727796661e-05,
-      "loss": 15904.9912,
-      "step": 5632
-    },
-    {
-      "epoch": 0.42,
-      "eval_loss": 14683.6728515625,
-      "eval_runtime": 62.3009,
-      "eval_samples_per_second": 54.542,
-      "eval_steps_per_second": 54.542,
-      "step": 5632
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 9.129895079060146e-05,
-      "loss": 15820.0801,
-      "step": 5888
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 9.09206443032363e-05,
-      "loss": 15531.0293,
-      "step": 6144
-    },
-    {
-      "epoch": 0.45,
-      "eval_loss": 14102.1162109375,
-      "eval_runtime": 59.6921,
-      "eval_samples_per_second": 56.925,
-      "eval_steps_per_second": 56.925,
-      "step": 6144
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 9.054233781587114e-05,
-      "loss": 15656.3779,
-      "step": 6400
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 9.016403132850599e-05,
-      "loss": 15575.4033,
-      "step": 6656
-    },
-    {
-      "epoch": 0.49,
-      "eval_loss": 13737.095703125,
-      "eval_runtime": 49.6762,
-      "eval_samples_per_second": 68.403,
-      "eval_steps_per_second": 68.403,
-      "step": 6656
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 8.978572484114084e-05,
-      "loss": 15500.876,
-      "step": 6912
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 8.940741835377569e-05,
-      "loss": 15452.5596,
-      "step": 7168
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 14052.9873046875,
-      "eval_runtime": 49.0398,
-      "eval_samples_per_second": 69.291,
-      "eval_steps_per_second": 69.291,
-      "step": 7168
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 8.902911186641053e-05,
-      "loss": 15443.3691,
-      "step": 7424
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 8.865080537904538e-05,
-      "loss": 15420.5,
-      "step": 7680
-    },
-    {
-      "epoch": 0.57,
-      "eval_loss": 13470.451171875,
-      "eval_runtime": 48.9981,
-      "eval_samples_per_second": 69.35,
-      "eval_steps_per_second": 69.35,
-      "step": 7680
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 8.827249889168022e-05,
-      "loss": 15402.9678,
-      "step": 7936
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 8.789419240431506e-05,
-      "loss": 15077.2871,
-      "step": 8192
-    },
-    {
-      "epoch": 0.61,
-      "eval_loss": 13587.75,
-      "eval_runtime": 50.6149,
-      "eval_samples_per_second": 67.134,
-      "eval_steps_per_second": 67.134,
-      "step": 8192
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 8.751588591694991e-05,
-      "loss": 14985.3994,
-      "step": 8448
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 8.713757942958476e-05,
-      "loss": 15089.6094,
-      "step": 8704
-    },
-    {
-      "epoch": 0.64,
-      "eval_loss": 13345.4736328125,
-      "eval_runtime": 49.1305,
-      "eval_samples_per_second": 69.163,
-      "eval_steps_per_second": 69.163,
-      "step": 8704
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 8.67592729422196e-05,
-      "loss": 15185.1504,
-      "step": 8960
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 8.638096645485444e-05,
-      "loss": 15208.8115,
-      "step": 9216
-    },
-    {
-      "epoch": 0.68,
-      "eval_loss": 13608.46875,
-      "eval_runtime": 49.1786,
-      "eval_samples_per_second": 69.095,
-      "eval_steps_per_second": 69.095,
-      "step": 9216
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 8.600265996748929e-05,
-      "loss": 15028.958,
-      "step": 9472
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 8.562435348012414e-05,
-      "loss": 14966.6143,
-      "step": 9728
-    },
-    {
-      "epoch": 0.72,
-      "eval_loss": 12910.7265625,
-      "eval_runtime": 57.0213,
-      "eval_samples_per_second": 59.592,
-      "eval_steps_per_second": 59.592,
-      "step": 9728
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 8.524604699275897e-05,
-      "loss": 14777.6895,
-      "step": 9984
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 8.486774050539382e-05,
-      "loss": 14924.749,
-      "step": 10240
-    },
-    {
-      "epoch": 0.76,
-      "eval_loss": 13132.9765625,
-      "eval_runtime": 49.0092,
-      "eval_samples_per_second": 69.334,
-      "eval_steps_per_second": 69.334,
-      "step": 10240
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 8.448943401802867e-05,
-      "loss": 14694.0498,
-      "step": 10496
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 8.411112753066351e-05,
-      "loss": 14639.1904,
-      "step": 10752
-    },
-    {
-      "epoch": 0.79,
-      "eval_loss": 13389.201171875,
-      "eval_runtime": 53.5263,
-      "eval_samples_per_second": 63.483,
-      "eval_steps_per_second": 63.483,
-      "step": 10752
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 8.373282104329836e-05,
-      "loss": 14814.9424,
-      "step": 11008
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 8.335451455593321e-05,
-      "loss": 14682.3984,
-      "step": 11264
-    },
-    {
-      "epoch": 0.83,
-      "eval_loss": 13232.8876953125,
-      "eval_runtime": 48.9422,
-      "eval_samples_per_second": 69.429,
-      "eval_steps_per_second": 69.429,
-      "step": 11264
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 8.297620806856804e-05,
-      "loss": 14631.1221,
-      "step": 11520
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 8.259790158120289e-05,
-      "loss": 14661.7021,
-      "step": 11776
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 13184.365234375,
-      "eval_runtime": 49.4282,
-      "eval_samples_per_second": 68.746,
-      "eval_steps_per_second": 68.746,
-      "step": 11776
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 8.221959509383774e-05,
-      "loss": 14565.9648,
-      "step": 12032
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 8.184128860647259e-05,
-      "loss": 14608.0898,
-      "step": 12288
-    },
-    {
-      "epoch": 0.91,
-      "eval_loss": 13070.6923828125,
-      "eval_runtime": 49.197,
-      "eval_samples_per_second": 69.069,
-      "eval_steps_per_second": 69.069,
-      "step": 12288
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 8.146298211910744e-05,
-      "loss": 14447.6699,
-      "step": 12544
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 8.108467563174228e-05,
-      "loss": 14423.6045,
-      "step": 12800
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 12849.525390625,
-      "eval_runtime": 48.9783,
-      "eval_samples_per_second": 69.378,
-      "eval_steps_per_second": 69.378,
-      "step": 12800
     }
   ],
   "logging_steps": 256,

 {
+  "best_metric": 19020.044921875,
+  "best_model_checkpoint": "mgh6/TCS_Pairing_VAE/checkpoint-2560",
+  "epoch": 0.18914450899082907,
   "eval_steps": 512,
+  "global_step": 2560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.02,
       "learning_rate": 9.962169351263485e-05,
+      "loss": 122076.6875,
       "step": 256
     },
     {
       "epoch": 0.04,
       "learning_rate": 9.92433870252697e-05,
+      "loss": 75620.8047,
       "step": 512
     },
     {
       "epoch": 0.04,
+      "eval_loss": 67218.640625,
+      "eval_runtime": 49.08,
+      "eval_samples_per_second": 69.234,
+      "eval_steps_per_second": 69.234,
       "step": 512
     },
     {
       "epoch": 0.06,
       "learning_rate": 9.886508053790455e-05,
+      "loss": 71143.4766,
       "step": 768
     },
     {
       "epoch": 0.08,
       "learning_rate": 9.848677405053938e-05,
+      "loss": 65495.2617,
       "step": 1024
     },
     {
       "epoch": 0.08,
+      "eval_loss": 55127.15234375,
+      "eval_runtime": 57.5577,
+      "eval_samples_per_second": 59.036,
+      "eval_steps_per_second": 59.036,
       "step": 1024
     },
     {
       "epoch": 0.09,
       "learning_rate": 9.810846756317423e-05,
+      "loss": 57857.6445,
       "step": 1280
     },
     {
       "epoch": 0.11,
       "learning_rate": 9.773016107580908e-05,
+      "loss": 49931.2188,
       "step": 1536
     },
     {
       "epoch": 0.11,
+      "eval_loss": 44795.0859375,
+      "eval_runtime": 62.2532,
+      "eval_samples_per_second": 54.584,
+      "eval_steps_per_second": 54.584,
       "step": 1536
     },
     {
       "epoch": 0.13,
       "learning_rate": 9.735185458844393e-05,
+      "loss": 42072.0,
       "step": 1792
     },
     {
       "epoch": 0.15,
       "learning_rate": 9.697354810107877e-05,
+      "loss": 35028.5938,
       "step": 2048
     },
     {
       "epoch": 0.15,
+      "eval_loss": 29700.298828125,
+      "eval_runtime": 72.4329,
+      "eval_samples_per_second": 46.912,
+      "eval_steps_per_second": 46.912,
       "step": 2048
     },
     {
       "epoch": 0.17,
       "learning_rate": 9.659524161371362e-05,
+      "loss": 27458.9082,
       "step": 2304
     },
     {
       "epoch": 0.19,
       "learning_rate": 9.621693512634847e-05,
+      "loss": 21147.1016,
       "step": 2560
     },
     {
       "epoch": 0.19,
+      "eval_loss": 19020.044921875,
+      "eval_runtime": 49.0881,
+      "eval_samples_per_second": 69.222,
+      "eval_steps_per_second": 69.222,
       "step": 2560
     }
   ],
   "logging_steps": 256,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47b5973a9577dbe4f48cf65528543a6ba412189a705c054d41e38b4fabea494a
 size 4271

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb40828a1d4ffeac31865af000ab0d03e5851c44943c5a9b31dbbf1ac5027a97
 size 4271