Upload 14 files

Browse files

Files changed (6) hide show

optimizer.pt +3 -0
pytorch_model-00001-of-00002.bin +1 -1
pytorch_model-00002-of-00002.bin +1 -1
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +3 -220

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80e8cff92b64c2ad4b9132ff437ea1379034d64691dc5452e09f1c4a7d18eb7f
+size 10772000

pytorch_model-00001-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:158449422dcb4cb5c95cfa81f690cf9df3e35c9c8c7a7224cf78104faaa9f695
 size 9970100058

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f1aef1ddb237ffa7996e90c50681fe1d8ee82dd86aafa7bbc0cd650180a879b
 size 9970100058

pytorch_model-00002-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:517ae94594dc8958077419959257e136f3e7cb73d326b2ba66bd758e5f80030e
 size 1429345899

 version https://git-lfs.github.com/spec/v1
+oid sha256:99d7b7660e48a5b315907df18f543fa6ede285b3212371296679cdc6e63c26ca
 size 1429345899

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868963bd1d2ded8c6528bf632d66e3b7e9f089d8390bb29d8da29f99476f303b
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:981ba4355835688ed2f12d5a98faa3fea37265615078aad1b3c66eecf5f6afc2
+size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 2.237640380859375,
   "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen_bp_only_30/checkpoint-14",
-  "epoch": 14.608695652173914,
   "eval_steps": 500,
-  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -624,230 +624,13 @@
       "eval_samples_per_second": 0.231,
       "eval_steps_per_second": 0.029,
       "step": 158
-    },
-    {
-      "epoch": 11.13,
-      "learning_rate": 0.0005,
-      "loss": 0.0548,
-      "step": 160
-    },
-    {
-      "epoch": 11.27,
-      "learning_rate": 0.0005,
-      "loss": 0.0477,
-      "step": 162
-    },
-    {
-      "epoch": 11.41,
-      "learning_rate": 0.0005,
-      "loss": 0.052,
-      "step": 164
-    },
-    {
-      "epoch": 11.55,
-      "learning_rate": 0.0005,
-      "loss": 0.053,
-      "step": 166
-    },
-    {
-      "epoch": 11.69,
-      "learning_rate": 0.0005,
-      "loss": 0.0525,
-      "step": 168
-    },
-    {
-      "epoch": 11.83,
-      "learning_rate": 0.0005,
-      "loss": 0.0555,
-      "step": 170
-    },
-    {
-      "epoch": 11.97,
-      "learning_rate": 0.0005,
-      "loss": 0.0557,
-      "step": 172
-    },
-    {
-      "epoch": 11.97,
-      "eval_gen_len": 270.9674556213018,
-      "eval_loss": 3.3825831413269043,
-      "eval_rouge1": 42.3089,
-      "eval_rouge2": 18.2735,
-      "eval_rougeL": 29.0356,
-      "eval_rougeLsum": 40.4154,
-      "eval_runtime": 1704.6973,
-      "eval_samples_per_second": 0.198,
-      "eval_steps_per_second": 0.025,
-      "step": 172
-    },
-    {
-      "epoch": 12.1,
-      "learning_rate": 0.0005,
-      "loss": 0.0513,
-      "step": 174
-    },
-    {
-      "epoch": 12.24,
-      "learning_rate": 0.0005,
-      "loss": 0.0419,
-      "step": 176
-    },
-    {
-      "epoch": 12.38,
-      "learning_rate": 0.0005,
-      "loss": 0.0525,
-      "step": 178
-    },
-    {
-      "epoch": 12.52,
-      "learning_rate": 0.0005,
-      "loss": 0.0535,
-      "step": 180
-    },
-    {
-      "epoch": 12.66,
-      "learning_rate": 0.0005,
-      "loss": 0.0611,
-      "step": 182
-    },
-    {
-      "epoch": 12.8,
-      "learning_rate": 0.0005,
-      "loss": 0.0444,
-      "step": 184
-    },
-    {
-      "epoch": 12.94,
-      "learning_rate": 0.0005,
-      "loss": 0.0542,
-      "step": 186
-    },
-    {
-      "epoch": 12.94,
-      "eval_gen_len": 186.73076923076923,
-      "eval_loss": 3.4408490657806396,
-      "eval_rouge1": 40.7691,
-      "eval_rouge2": 16.529,
-      "eval_rougeL": 28.3999,
-      "eval_rougeLsum": 38.9723,
-      "eval_runtime": 1525.6668,
-      "eval_samples_per_second": 0.222,
-      "eval_steps_per_second": 0.028,
-      "step": 186
-    },
-    {
-      "epoch": 13.08,
-      "learning_rate": 0.0005,
-      "loss": 0.0602,
-      "step": 188
-    },
-    {
-      "epoch": 13.22,
-      "learning_rate": 0.0005,
-      "loss": 0.0438,
-      "step": 190
-    },
-    {
-      "epoch": 13.36,
-      "learning_rate": 0.0005,
-      "loss": 0.0503,
-      "step": 192
-    },
-    {
-      "epoch": 13.5,
-      "learning_rate": 0.0005,
-      "loss": 0.046,
-      "step": 194
-    },
-    {
-      "epoch": 13.63,
-      "learning_rate": 0.0005,
-      "loss": 0.0368,
-      "step": 196
-    },
-    {
-      "epoch": 13.77,
-      "learning_rate": 0.0005,
-      "loss": 0.0572,
-      "step": 198
-    },
-    {
-      "epoch": 13.91,
-      "learning_rate": 0.0005,
-      "loss": 0.0596,
-      "step": 200
-    },
-    {
-      "epoch": 13.98,
-      "eval_gen_len": 398.4704142011834,
-      "eval_loss": 3.525272846221924,
-      "eval_rouge1": 37.0037,
-      "eval_rouge2": 15.9098,
-      "eval_rougeL": 25.2808,
-      "eval_rougeLsum": 35.3868,
-      "eval_runtime": 1778.3289,
-      "eval_samples_per_second": 0.19,
-      "eval_steps_per_second": 0.024,
-      "step": 201
-    },
-    {
-      "epoch": 14.05,
-      "learning_rate": 0.0005,
-      "loss": 0.0434,
-      "step": 202
-    },
-    {
-      "epoch": 14.19,
-      "learning_rate": 0.0005,
-      "loss": 0.0453,
-      "step": 204
-    },
-    {
-      "epoch": 14.33,
-      "learning_rate": 0.0005,
-      "loss": 0.0453,
-      "step": 206
-    },
-    {
-      "epoch": 14.47,
-      "learning_rate": 0.0005,
-      "loss": 0.0586,
-      "step": 208
-    },
-    {
-      "epoch": 14.61,
-      "learning_rate": 0.0005,
-      "loss": 0.0385,
-      "step": 210
-    },
-    {
-      "epoch": 14.61,
-      "eval_gen_len": 499.31065088757396,
-      "eval_loss": 3.498972177505493,
-      "eval_rouge1": 32.5815,
-      "eval_rouge2": 14.2951,
-      "eval_rougeL": 22.4501,
-      "eval_rougeLsum": 31.2928,
-      "eval_runtime": 1779.9602,
-      "eval_samples_per_second": 0.19,
-      "eval_steps_per_second": 0.024,
-      "step": 210
-    },
-    {
-      "epoch": 14.61,
-      "step": 210,
-      "total_flos": 3.6715371967648973e+18,
-      "train_loss": 0.13047422234501158,
-      "train_runtime": 78176.4332,
-      "train_samples_per_second": 0.705,
-      "train_steps_per_second": 0.003
     }
   ],
   "logging_steps": 2,
   "max_steps": 210,
   "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 3.6715371967648973e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 2.237640380859375,
   "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen_bp_only_30/checkpoint-14",
+  "epoch": 10.991304347826087,
   "eval_steps": 500,
+  "global_step": 158,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.231,
       "eval_steps_per_second": 0.029,
       "step": 158
     }
   ],
   "logging_steps": 2,
   "max_steps": 210,
   "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 2.764359930466935e+18,
   "trial_name": null,
   "trial_params": null
 }