Training in progress, step 20000

Browse files

Files changed (10) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +339 -3
last-checkpoint/training_args.bin +2 -2
pytorch_model.bin +1 -1
runs/May23_11-27-41_4b659dec4dc1/1684841942.6076107/events.out.tfevents.1684841942.4b659dec4dc1.6139.1 +3 -0
runs/May23_11-27-41_4b659dec4dc1/events.out.tfevents.1684841942.4b659dec4dc1.6139.0 +3 -0
training_args.bin +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e88223f691161e3ffd4564e693f314c328a9dda83c6b6102570c77aacceb5b7
 size 1987250795

 version https://git-lfs.github.com/spec/v1
+oid sha256:27f4d0eddea1b38fe1b064b634ee31b71591cebd4a1e1ea45cc654a255e6f2a6
 size 1987250795

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9b0c8d9009664c4300b90d08bc7562ffcb54fad5cddd58a67988a9614811c9
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a0d0aa4eebf05151380698116acb15efc7e866ed933da42068ae8c22cfa382e
 size 996026489

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4859bbb7f1b84791b7031a22e16d3ec69d1279cc060d7fd0e413b65e6970cdf9
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:46c405f6c1e391e2b416a111eb36de129465177d85a3f632dda3a1eb030336c8
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:779622c08e70491b7a953485f3890d1c81acb5e7c732a61a899ff0473fd0cfdf
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e8f70b4a42839623f23a2d7f6f16070a0bb7a8546d17d8052ec84cfde1f2b48
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.224066390041494,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -990,11 +990,347 @@
       "learning_rate": 2.1064814814814816e-05,
       "loss": 0.5798,
       "step": 15000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
-  "total_flos": 4374137384877888.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.298755186721992,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.1064814814814816e-05,
       "loss": 0.5798,
       "step": 15000
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.5939,
+      "step": 15100
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 2.0601851851851853e-05,
+      "loss": 0.6095,
+      "step": 15200
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.6163,
+      "step": 15300
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 2.013888888888889e-05,
+      "loss": 0.5634,
+      "step": 15400
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.5909,
+      "step": 15500
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 0.5408,
+      "step": 15600
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.5435,
+      "step": 15700
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 1.9212962962962962e-05,
+      "loss": 0.5753,
+      "step": 15800
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.5491,
+      "step": 15900
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.5868,
+      "step": 16000
+    },
+    {
+      "epoch": 6.64,
+      "eval_bleu": 71.6124,
+      "eval_em": 0.02,
+      "eval_gen_len": 47.52,
+      "eval_loss": 0.9307076930999756,
+      "eval_rm": 0.9556,
+      "eval_runtime": 330.299,
+      "eval_samples_per_second": 0.151,
+      "eval_steps_per_second": 0.021,
+      "step": 16000
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.5088,
+      "step": 16100
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 1.8287037037037038e-05,
+      "loss": 0.6068,
+      "step": 16200
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.5327,
+      "step": 16300
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.7824074074074075e-05,
+      "loss": 0.5759,
+      "step": 16400
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.5849,
+      "step": 16500
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.5648,
+      "step": 16600
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.5632,
+      "step": 16700
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 1.6898148148148148e-05,
+      "loss": 0.5093,
+      "step": 16800
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.5295,
+      "step": 16900
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 1.6435185185185187e-05,
+      "loss": 0.433,
+      "step": 17000
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.4289,
+      "step": 17100
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 1.597222222222222e-05,
+      "loss": 0.4619,
+      "step": 17200
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.458,
+      "step": 17300
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 1.550925925925926e-05,
+      "loss": 0.4155,
+      "step": 17400
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.4391,
+      "step": 17500
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 0.4264,
+      "step": 17600
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.418,
+      "step": 17700
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 0.4285,
+      "step": 17800
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.4466,
+      "step": 17900
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 1.412037037037037e-05,
+      "loss": 0.4499,
+      "step": 18000
+    },
+    {
+      "epoch": 7.47,
+      "eval_bleu": 77.237,
+      "eval_em": 0.06,
+      "eval_gen_len": 46.0,
+      "eval_loss": 0.8866045475006104,
+      "eval_rm": 0.9574,
+      "eval_runtime": 280.5418,
+      "eval_samples_per_second": 0.178,
+      "eval_steps_per_second": 0.025,
+      "step": 18000
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.4415,
+      "step": 18100
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 1.3657407407407408e-05,
+      "loss": 0.4209,
+      "step": 18200
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.4357,
+      "step": 18300
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 1.3194444444444446e-05,
+      "loss": 0.437,
+      "step": 18400
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.4319,
+      "step": 18500
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 0.4578,
+      "step": 18600
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 1.25e-05,
+      "loss": 0.4244,
+      "step": 18700
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 1.2268518518518519e-05,
+      "loss": 0.4046,
+      "step": 18800
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.411,
+      "step": 18900
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.1805555555555555e-05,
+      "loss": 0.4219,
+      "step": 19000
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.3956,
+      "step": 19100
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 1.1342592592592593e-05,
+      "loss": 0.4333,
+      "step": 19200
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.4141,
+      "step": 19300
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.087962962962963e-05,
+      "loss": 0.3199,
+      "step": 19400
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.3236,
+      "step": 19500
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.3405,
+      "step": 19600
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.3411,
+      "step": 19700
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 9.953703703703704e-06,
+      "loss": 0.3166,
+      "step": 19800
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.3463,
+      "step": 19900
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 9.490740740740741e-06,
+      "loss": 0.3515,
+      "step": 20000
+    },
+    {
+      "epoch": 8.3,
+      "eval_bleu": 77.5798,
+      "eval_em": 0.08,
+      "eval_gen_len": 47.5,
+      "eval_loss": 0.9069581627845764,
+      "eval_rm": 0.9574,
+      "eval_runtime": 312.8421,
+      "eval_samples_per_second": 0.16,
+      "eval_steps_per_second": 0.022,
+      "step": 20000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
+  "total_flos": 5827422495665664.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1b9f4030acc1b98cd8fc39d52688ca9a4f11fa176fbaa30e9b52baf417f88e0
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:f39883603e0f5d5f423c83fa5b774cffc6fd43f8970ddb1f1665c98b8cf652f9
+size 4219

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9b0c8d9009664c4300b90d08bc7562ffcb54fad5cddd58a67988a9614811c9
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a0d0aa4eebf05151380698116acb15efc7e866ed933da42068ae8c22cfa382e
 size 996026489

runs/May23_11-27-41_4b659dec4dc1/1684841942.6076107/events.out.tfevents.1684841942.4b659dec4dc1.6139.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:552ac6b3d8683237063758cc1cf667f0e68175fbe9bb74e25dc0cdc033aa36e5
+size 6342

runs/May23_11-27-41_4b659dec4dc1/events.out.tfevents.1684841942.4b659dec4dc1.6139.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46bed9901348db72ec0ddf87172765591157e7e6f99f5dd9c06ca85bd762ce33
+size 17952

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1b9f4030acc1b98cd8fc39d52688ca9a4f11fa176fbaa30e9b52baf417f88e0
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:f39883603e0f5d5f423c83fa5b774cffc6fd43f8970ddb1f1665c98b8cf652f9
+size 4219