Training in progress, step 9000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +194 -3
pytorch_model.bin +1 -1
runs/May31_16-24-16_71176b7c2bb4/events.out.tfevents.1685551038.71176b7c2bb4.5217.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4144fbcdc5d4f3fafbf6afc510ff856f789e4829a4858bcd16d4d390e9e5f2d
 size 2023671531

 version https://git-lfs.github.com/spec/v1
+oid sha256:68eb91b9bf98a03eaaadcb8bd0b58614a7003d8477069f541ff537e0ec0bc34b
 size 2023671531

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e042bccb9e210670a39bb71562238d3440188919639fe843a2f55fef029e0ed
 size 1014236857

 version https://git-lfs.github.com/spec/v1
+oid sha256:43a9f23b83b30496ac553a4c926b305dc1444595fad21ac2439436b871476ca3
 size 1014236857

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7436c395c71fe4a126e1e8460c76c5d99ba4173ae247ae8f8b8372d61aabdb5
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a515c4e1bc2c8452db42ea9dca43bd2d9ef7f8fe92b3a49a30af214963f24ac
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ace18575c64fb9061a4bdb4187294f04e31e9a65a2e4da680ca78aeef9f963e2
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2fc1f775554587532b2ba4f009351aacf9c868152217b1b6eb9954f3a42aa4b
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.1928721174004195,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -399,11 +399,202 @@
       "eval_samples_per_second": 2.827,
       "eval_steps_per_second": 0.354,
       "step": 6000
     }
   ],
   "max_steps": 11448,
   "num_train_epochs": 8,
-  "total_flos": 3958825611574680.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.289308176100629,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.827,
       "eval_steps_per_second": 0.354,
       "step": 6000
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 2.9883772910147524e-05,
+      "loss": 1.5864,
+      "step": 6100
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 2.9324988824318283e-05,
+      "loss": 1.5608,
+      "step": 6200
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.876620473848905e-05,
+      "loss": 1.5144,
+      "step": 6300
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 2.8207420652659816e-05,
+      "loss": 1.4582,
+      "step": 6400
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 2.7648636566830576e-05,
+      "loss": 1.4793,
+      "step": 6500
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 2.7089852481001342e-05,
+      "loss": 1.472,
+      "step": 6600
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 2.653106839517211e-05,
+      "loss": 1.4424,
+      "step": 6700
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 2.597228430934287e-05,
+      "loss": 1.3779,
+      "step": 6800
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 2.5413500223513638e-05,
+      "loss": 1.3611,
+      "step": 6900
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 2.48547161376844e-05,
+      "loss": 1.3311,
+      "step": 7000
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 2.4295932051855164e-05,
+      "loss": 1.3164,
+      "step": 7100
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 2.373714796602593e-05,
+      "loss": 1.2119,
+      "step": 7200
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 2.3178363880196693e-05,
+      "loss": 1.1122,
+      "step": 7300
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 2.2619579794367456e-05,
+      "loss": 1.1198,
+      "step": 7400
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 2.206079570853822e-05,
+      "loss": 1.0416,
+      "step": 7500
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 2.1502011622708985e-05,
+      "loss": 1.1042,
+      "step": 7600
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 2.0943227536879752e-05,
+      "loss": 1.0715,
+      "step": 7700
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 2.0384443451050515e-05,
+      "loss": 1.0815,
+      "step": 7800
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 1.982565936522128e-05,
+      "loss": 1.0445,
+      "step": 7900
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 1.9266875279392044e-05,
+      "loss": 1.0512,
+      "step": 8000
+    },
+    {
+      "epoch": 5.59,
+      "eval_bleu": 71.1272,
+      "eval_em": 0.0241,
+      "eval_gen_len": 46.0672,
+      "eval_loss": 1.2382431030273438,
+      "eval_runtime": 358.1089,
+      "eval_samples_per_second": 3.365,
+      "eval_steps_per_second": 0.422,
+      "step": 8000
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.8708091193562807e-05,
+      "loss": 1.0201,
+      "step": 8100
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 1.8149307107733573e-05,
+      "loss": 1.0377,
+      "step": 8200
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 1.7590523021904336e-05,
+      "loss": 0.986,
+      "step": 8300
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 1.70317389360751e-05,
+      "loss": 1.0244,
+      "step": 8400
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 1.6472954850245866e-05,
+      "loss": 0.9654,
+      "step": 8500
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 1.5914170764416632e-05,
+      "loss": 0.9454,
+      "step": 8600
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 1.5355386678587395e-05,
+      "loss": 0.8179,
+      "step": 8700
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 1.479660259275816e-05,
+      "loss": 0.8433,
+      "step": 8800
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 1.4237818506928924e-05,
+      "loss": 0.8235,
+      "step": 8900
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 1.3679034421099687e-05,
+      "loss": 0.832,
+      "step": 9000
     }
   ],
   "max_steps": 11448,
   "num_train_epochs": 8,
+  "total_flos": 5913945388013520.0,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e042bccb9e210670a39bb71562238d3440188919639fe843a2f55fef029e0ed
 size 1014236857

 version https://git-lfs.github.com/spec/v1
+oid sha256:43a9f23b83b30496ac553a4c926b305dc1444595fad21ac2439436b871476ca3
 size 1014236857

runs/May31_16-24-16_71176b7c2bb4/events.out.tfevents.1685551038.71176b7c2bb4.5217.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfb70b57b2babcef0706723afa3bd21e04e88364a0d1cc6d98d2b82193854754
-size 10573

 version https://git-lfs.github.com/spec/v1
+oid sha256:9aaf6bccdfb83457b4668835611bb29989514e5d51caead87baa97fe237bc968
+size 15699