Training in progress, step 15000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +327 -3
pytorch_model.bin +1 -1
runs/May23_09-05-35_dca52c8e2827/events.out.tfevents.1684832750.dca52c8e2827.29730.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62b9e0c6cb076e90d989fceca45a6f04ff44219f1d244b7aa0253efb4df6f91d
 size 1987250795

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e88223f691161e3ffd4564e693f314c328a9dda83c6b6102570c77aacceb5b7
 size 1987250795

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98c4a4b485878383c35f3ddf1b6b6d3df97d84af3cfe747974b0ccdb1ceddd6b
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9b0c8d9009664c4300b90d08bc7562ffcb54fad5cddd58a67988a9614811c9
 size 996026489

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40d1365c3f6a8ff89daca7ecc77aad972e19d826a31739e1520b525b82b87480
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:4859bbb7f1b84791b7031a22e16d3ec69d1279cc060d7fd0e413b65e6970cdf9
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e271050f83a2cc06d190381bb7b858ec954f8745b3e89afccdd097156cff852
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:779622c08e70491b7a953485f3890d1c81acb5e7c732a61a899ff0473fd0cfdf
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.149377593360996,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -666,11 +666,335 @@
       "eval_samples_per_second": 1.052,
       "eval_steps_per_second": 0.147,
       "step": 10000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
-  "total_flos": 2904681923357184.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.224066390041494,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.052,
       "eval_steps_per_second": 0.147,
       "step": 10000
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 1.1396,
+      "step": 10100
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 3.217592592592593e-05,
+      "loss": 1.1749,
+      "step": 10200
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 1.1098,
+      "step": 10300
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 3.171296296296297e-05,
+      "loss": 1.0741,
+      "step": 10400
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 1.1388,
+      "step": 10500
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 3.125e-05,
+      "loss": 1.0168,
+      "step": 10600
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 1.0862,
+      "step": 10700
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 3.0787037037037034e-05,
+      "loss": 1.0689,
+      "step": 10800
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 1.0804,
+      "step": 10900
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 3.0324074074074077e-05,
+      "loss": 1.0312,
+      "step": 11000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 1.0184,
+      "step": 11100
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 2.9861111111111113e-05,
+      "loss": 0.992,
+      "step": 11200
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 1.0191,
+      "step": 11300
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 2.9398148148148146e-05,
+      "loss": 1.0842,
+      "step": 11400
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.0508,
+      "step": 11500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 0.9815,
+      "step": 11600
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.9645,
+      "step": 11700
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 2.8472222222222223e-05,
+      "loss": 0.9826,
+      "step": 11800
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 2.824074074074074e-05,
+      "loss": 1.0036,
+      "step": 11900
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 2.8009259259259263e-05,
+      "loss": 0.9994,
+      "step": 12000
+    },
+    {
+      "epoch": 4.98,
+      "eval_bleu": 68.0869,
+      "eval_em": 0.02,
+      "eval_gen_len": 47.76,
+      "eval_loss": 1.0576136112213135,
+      "eval_rm": 0.8889,
+      "eval_runtime": 48.2259,
+      "eval_samples_per_second": 1.037,
+      "eval_steps_per_second": 0.145,
+      "step": 12000
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.8445,
+      "step": 12100
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 2.75462962962963e-05,
+      "loss": 0.833,
+      "step": 12200
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 2.7314814814814816e-05,
+      "loss": 0.8034,
+      "step": 12300
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 0.8154,
+      "step": 12400
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 2.6851851851851855e-05,
+      "loss": 0.8026,
+      "step": 12500
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 0.8147,
+      "step": 12600
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.8466,
+      "step": 12700
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 2.615740740740741e-05,
+      "loss": 0.7881,
+      "step": 12800
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.7856,
+      "step": 12900
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 2.5694444444444445e-05,
+      "loss": 0.8058,
+      "step": 13000
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.7704,
+      "step": 13100
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 2.5231481481481485e-05,
+      "loss": 0.7572,
+      "step": 13200
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 2.5e-05,
+      "loss": 0.7757,
+      "step": 13300
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 2.4768518518518518e-05,
+      "loss": 0.7598,
+      "step": 13400
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 2.4537037037037038e-05,
+      "loss": 0.7268,
+      "step": 13500
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.7455,
+      "step": 13600
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.7525,
+      "step": 13700
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 2.3842592592592594e-05,
+      "loss": 0.7205,
+      "step": 13800
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 2.361111111111111e-05,
+      "loss": 0.7741,
+      "step": 13900
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 2.337962962962963e-05,
+      "loss": 0.7275,
+      "step": 14000
+    },
+    {
+      "epoch": 5.81,
+      "eval_bleu": 74.1032,
+      "eval_em": 0.02,
+      "eval_gen_len": 46.52,
+      "eval_loss": 0.952226996421814,
+      "eval_rm": 0.9556,
+      "eval_runtime": 45.6891,
+      "eval_samples_per_second": 1.094,
+      "eval_steps_per_second": 0.153,
+      "step": 14000
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.7429,
+      "step": 14100
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 0.7032,
+      "step": 14200
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 2.2685185185185187e-05,
+      "loss": 0.749,
+      "step": 14300
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 2.2453703703703703e-05,
+      "loss": 0.7122,
+      "step": 14400
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.6559,
+      "step": 14500
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 0.5757,
+      "step": 14600
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.5756,
+      "step": 14700
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 2.152777777777778e-05,
+      "loss": 0.5777,
+      "step": 14800
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 2.1296296296296296e-05,
+      "loss": 0.5904,
+      "step": 14900
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 2.1064814814814816e-05,
+      "loss": 0.5798,
+      "step": 15000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
+  "total_flos": 4374137384877888.0,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98c4a4b485878383c35f3ddf1b6b6d3df97d84af3cfe747974b0ccdb1ceddd6b
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9b0c8d9009664c4300b90d08bc7562ffcb54fad5cddd58a67988a9614811c9
 size 996026489

runs/May23_09-05-35_dca52c8e2827/events.out.tfevents.1684832750.dca52c8e2827.29730.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90f5524e866aea4ce07ef1d143c8d4d838adfafa3318f85e0e75b3258204b4e2
-size 26552

 version https://git-lfs.github.com/spec/v1
+oid sha256:6530118d38d0e4689416570db5f5431f217aa7f1e59a0e5e60315427d4623079
+size 35326