Training in progress, step 20000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +339 -3
pytorch_model.bin +1 -1
runs/May23_15-22-34_9fa8c32f042d/events.out.tfevents.1684855595.9fa8c32f042d.2702.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77974be2f7de212cbabb9208722e3aed56b5b26f32a9ad48edffe1ae63135c5a
 size 1987250795

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2a4efaf1d7df688b67a8bcaee1b86e9920cc072ccc38b7a35781e7605583a05
 size 1987250795

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:424b76689f2144159866149b5173ff834369dbda461a284c8fbf7bb2fb39c63e
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac2a8552b10fda2ec260bc4ef57b30166ae633d04a1ea53f8a7688111bbf9a8
 size 996026489

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f49c88840fcd3e7484a250d20473a621a4a6be7f193bb562a06eafd55eb4439
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3b262c5f81955dcb07adc7c487ce014a6181d07adcbde8bbbe4f137c99fced
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:779622c08e70491b7a953485f3890d1c81acb5e7c732a61a899ff0473fd0cfdf
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e8f70b4a42839623f23a2d7f6f16070a0bb7a8546d17d8052ec84cfde1f2b48
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.224066390041494,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -990,11 +990,347 @@
       "learning_rate": 2.1064814814814816e-05,
       "loss": 0.5598,
       "step": 15000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
-  "total_flos": 4202340588086976.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.298755186721992,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.1064814814814816e-05,
       "loss": 0.5598,
       "step": 15000
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.5746,
+      "step": 15100
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 2.0601851851851853e-05,
+      "loss": 0.5545,
+      "step": 15200
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.5896,
+      "step": 15300
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 2.013888888888889e-05,
+      "loss": 0.5367,
+      "step": 15400
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.5577,
+      "step": 15500
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 0.5199,
+      "step": 15600
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.5139,
+      "step": 15700
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 1.9212962962962962e-05,
+      "loss": 0.5623,
+      "step": 15800
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.5468,
+      "step": 15900
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.5446,
+      "step": 16000
+    },
+    {
+      "epoch": 6.64,
+      "eval_bleu": 75.9224,
+      "eval_em": 0.06,
+      "eval_gen_len": 47.34,
+      "eval_loss": 0.9507510662078857,
+      "eval_rm": 0.14,
+      "eval_runtime": 42.686,
+      "eval_samples_per_second": 1.171,
+      "eval_steps_per_second": 0.164,
+      "step": 16000
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.5024,
+      "step": 16100
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 1.8287037037037038e-05,
+      "loss": 0.585,
+      "step": 16200
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.5118,
+      "step": 16300
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.7824074074074075e-05,
+      "loss": 0.5362,
+      "step": 16400
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.5509,
+      "step": 16500
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.5336,
+      "step": 16600
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.5307,
+      "step": 16700
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 1.6898148148148148e-05,
+      "loss": 0.5012,
+      "step": 16800
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.5114,
+      "step": 16900
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 1.6435185185185187e-05,
+      "loss": 0.4098,
+      "step": 17000
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.3945,
+      "step": 17100
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 1.597222222222222e-05,
+      "loss": 0.4309,
+      "step": 17200
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.446,
+      "step": 17300
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 1.550925925925926e-05,
+      "loss": 0.3874,
+      "step": 17400
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.4103,
+      "step": 17500
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 0.4097,
+      "step": 17600
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.3853,
+      "step": 17700
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 0.3967,
+      "step": 17800
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.4024,
+      "step": 17900
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 1.412037037037037e-05,
+      "loss": 0.4362,
+      "step": 18000
+    },
+    {
+      "epoch": 7.47,
+      "eval_bleu": 77.2209,
+      "eval_em": 0.1,
+      "eval_gen_len": 44.36,
+      "eval_loss": 0.8897470235824585,
+      "eval_rm": 0.22,
+      "eval_runtime": 38.4221,
+      "eval_samples_per_second": 1.301,
+      "eval_steps_per_second": 0.182,
+      "step": 18000
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.4094,
+      "step": 18100
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 1.3657407407407408e-05,
+      "loss": 0.4048,
+      "step": 18200
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.4047,
+      "step": 18300
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 1.3194444444444446e-05,
+      "loss": 0.4203,
+      "step": 18400
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.4176,
+      "step": 18500
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 0.4351,
+      "step": 18600
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 1.25e-05,
+      "loss": 0.3931,
+      "step": 18700
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 1.2268518518518519e-05,
+      "loss": 0.3883,
+      "step": 18800
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.3879,
+      "step": 18900
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.1805555555555555e-05,
+      "loss": 0.3854,
+      "step": 19000
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.3694,
+      "step": 19100
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 1.1342592592592593e-05,
+      "loss": 0.4217,
+      "step": 19200
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3859,
+      "step": 19300
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 1.087962962962963e-05,
+      "loss": 0.2946,
+      "step": 19400
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.2993,
+      "step": 19500
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.3085,
+      "step": 19600
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.3064,
+      "step": 19700
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 9.953703703703704e-06,
+      "loss": 0.2933,
+      "step": 19800
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.3256,
+      "step": 19900
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 9.490740740740741e-06,
+      "loss": 0.3231,
+      "step": 20000
+    },
+    {
+      "epoch": 8.3,
+      "eval_bleu": 78.5526,
+      "eval_em": 0.16,
+      "eval_gen_len": 46.66,
+      "eval_loss": 0.923231840133667,
+      "eval_rm": 0.26,
+      "eval_runtime": 38.1607,
+      "eval_samples_per_second": 1.31,
+      "eval_steps_per_second": 0.183,
+      "step": 20000
     }
   ],
   "max_steps": 24100,
   "num_train_epochs": 10,
+  "total_flos": 5595722553109824.0,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:424b76689f2144159866149b5173ff834369dbda461a284c8fbf7bb2fb39c63e
 size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac2a8552b10fda2ec260bc4ef57b30166ae633d04a1ea53f8a7688111bbf9a8
 size 996026489

runs/May23_15-22-34_9fa8c32f042d/events.out.tfevents.1684855595.9fa8c32f042d.2702.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94f6fffc24ea17e68f3d4f5e198e1b2c8ea8005ae01df56b4238a9b453c896c5
-size 35326

 version https://git-lfs.github.com/spec/v1
+oid sha256:11eaca0cd6ded2e6a60b26453da92cdba53b13c25024fd83859555acf5cc1f31
+size 44691