Training in progress, step 3500

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
pytorch_model.bin +1 -1
runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920384.2f481ea0b382.229.4 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8fab46afba02b9664ca3eb5d4fc9d6f6e2f8b5882d6ad6a6f5bda047e6e1fbd
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dee4476ab05abceb3ef157f762adb7b7ff2d24c295242ef85bdc7aa9baf339c
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347082fb15486e1ce22829a5a9a17790976d005235f55b77b736bf422a4e49ef
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c224c2d13e7b12f967f2ff294e904f86dfd319b281de69e29b4ca2a309522ccf
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b47b76e58d40ed6257704d7bde822b19860484ca61d1450fb6ff42df326b971d
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ace5200ce81b04d30bdcefc552d51b2d31acee8aa24f561db0693af839dd1d4
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e2936137cf5142f34c072a19508ea41ce0d6a55cae7261f6c7cb486aa65afbe
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cb02ae445517d5b6d8cceafc80181af9dac20207d12d240d963ba9d73872898
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.927135988164221,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2166,11 +2166,371 @@
       "eval_samples_per_second": 0.213,
       "eval_steps_per_second": 0.213,
       "step": 3000
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
-  "total_flos": 7.297038322401485e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.915300209591912,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.213,
       "eval_steps_per_second": 0.213,
       "step": 3000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 7.705677867902664e-05,
+      "loss": 0.0824,
+      "step": 3010
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 7.560834298957127e-05,
+      "loss": 0.1048,
+      "step": 3020
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 7.415990730011588e-05,
+      "loss": 0.1295,
+      "step": 3030
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 7.271147161066048e-05,
+      "loss": 0.1296,
+      "step": 3040
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 7.12630359212051e-05,
+      "loss": 0.1146,
+      "step": 3050
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 6.981460023174971e-05,
+      "loss": 0.1158,
+      "step": 3060
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 6.836616454229433e-05,
+      "loss": 0.094,
+      "step": 3070
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 6.691772885283893e-05,
+      "loss": 0.1141,
+      "step": 3080
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 6.546929316338354e-05,
+      "loss": 0.1025,
+      "step": 3090
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 6.402085747392817e-05,
+      "loss": 0.1474,
+      "step": 3100
+    },
+    {
+      "epoch": 6.13,
+      "eval_loss": 0.9422538876533508,
+      "eval_rouge1": 0.20069541569541566,
+      "eval_rouge2": 0.10303030303030303,
+      "eval_rougeL": 0.19625097125097124,
+      "eval_rougeLsum": 0.19848096348096347,
+      "eval_runtime": 94.7246,
+      "eval_samples_per_second": 0.211,
+      "eval_steps_per_second": 0.211,
+      "step": 3100
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 6.257242178447277e-05,
+      "loss": 0.09,
+      "step": 3110
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 6.112398609501739e-05,
+      "loss": 0.1235,
+      "step": 3120
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 5.9675550405561996e-05,
+      "loss": 0.0733,
+      "step": 3130
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 5.822711471610661e-05,
+      "loss": 0.1035,
+      "step": 3140
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 5.6778679026651216e-05,
+      "loss": 0.1027,
+      "step": 3150
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 5.533024333719583e-05,
+      "loss": 0.0863,
+      "step": 3160
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 5.388180764774044e-05,
+      "loss": 0.095,
+      "step": 3170
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 5.243337195828506e-05,
+      "loss": 0.1103,
+      "step": 3180
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 5.098493626882966e-05,
+      "loss": 0.1325,
+      "step": 3190
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 4.953650057937428e-05,
+      "loss": 0.1052,
+      "step": 3200
+    },
+    {
+      "epoch": 6.32,
+      "eval_loss": 0.9328528642654419,
+      "eval_rouge1": 0.2023076923076923,
+      "eval_rouge2": 0.1102272727272727,
+      "eval_rougeL": 0.19999999999999998,
+      "eval_rougeLsum": 0.2,
+      "eval_runtime": 92.8302,
+      "eval_samples_per_second": 0.215,
+      "eval_steps_per_second": 0.215,
+      "step": 3200
+    },
+    {
+      "epoch": 6.34,
+      "learning_rate": 4.808806488991889e-05,
+      "loss": 0.1293,
+      "step": 3210
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 4.6639629200463506e-05,
+      "loss": 0.1301,
+      "step": 3220
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 4.519119351100811e-05,
+      "loss": 0.0873,
+      "step": 3230
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 4.3742757821552725e-05,
+      "loss": 0.1017,
+      "step": 3240
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 4.2294322132097335e-05,
+      "loss": 0.0846,
+      "step": 3250
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 4.084588644264195e-05,
+      "loss": 0.0898,
+      "step": 3260
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 3.9397450753186555e-05,
+      "loss": 0.1494,
+      "step": 3270
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 3.794901506373117e-05,
+      "loss": 0.0742,
+      "step": 3280
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 3.650057937427578e-05,
+      "loss": 0.0793,
+      "step": 3290
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 3.50521436848204e-05,
+      "loss": 0.1203,
+      "step": 3300
+    },
+    {
+      "epoch": 6.52,
+      "eval_loss": 0.9380243420600891,
+      "eval_rouge1": 0.2023076923076923,
+      "eval_rouge2": 0.1102272727272727,
+      "eval_rougeL": 0.19999999999999998,
+      "eval_rougeLsum": 0.2,
+      "eval_runtime": 94.5066,
+      "eval_samples_per_second": 0.212,
+      "eval_steps_per_second": 0.212,
+      "step": 3300
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 3.360370799536501e-05,
+      "loss": 0.1257,
+      "step": 3310
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 3.215527230590962e-05,
+      "loss": 0.1177,
+      "step": 3320
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 3.070683661645423e-05,
+      "loss": 0.1359,
+      "step": 3330
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 2.9258400926998842e-05,
+      "loss": 0.1303,
+      "step": 3340
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 2.7809965237543452e-05,
+      "loss": 0.0968,
+      "step": 3350
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 2.6361529548088065e-05,
+      "loss": 0.1061,
+      "step": 3360
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 2.4913093858632675e-05,
+      "loss": 0.1307,
+      "step": 3370
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 2.346465816917729e-05,
+      "loss": 0.0981,
+      "step": 3380
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 2.20162224797219e-05,
+      "loss": 0.0901,
+      "step": 3390
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 2.0567786790266515e-05,
+      "loss": 0.1125,
+      "step": 3400
+    },
+    {
+      "epoch": 6.72,
+      "eval_loss": 0.9421626925468445,
+      "eval_rouge1": 0.18958041958041955,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.18615384615384614,
+      "eval_rougeLsum": 0.19,
+      "eval_runtime": 96.4239,
+      "eval_samples_per_second": 0.207,
+      "eval_steps_per_second": 0.207,
+      "step": 3400
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 1.9119351100811125e-05,
+      "loss": 0.0823,
+      "step": 3410
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 1.767091541135574e-05,
+      "loss": 0.1016,
+      "step": 3420
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 1.6222479721900348e-05,
+      "loss": 0.1172,
+      "step": 3430
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.477404403244496e-05,
+      "loss": 0.0959,
+      "step": 3440
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.3325608342989572e-05,
+      "loss": 0.1534,
+      "step": 3450
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 1.1877172653534183e-05,
+      "loss": 0.125,
+      "step": 3460
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 1.0428736964078795e-05,
+      "loss": 0.1221,
+      "step": 3470
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 8.980301274623406e-06,
+      "loss": 0.1391,
+      "step": 3480
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 7.531865585168019e-06,
+      "loss": 0.0986,
+      "step": 3490
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 6.083429895712631e-06,
+      "loss": 0.1323,
+      "step": 3500
+    },
+    {
+      "epoch": 6.92,
+      "eval_loss": 0.9433181881904602,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.18615384615384617,
+      "eval_rougeLsum": 0.19,
+      "eval_runtime": 94.6833,
+      "eval_samples_per_second": 0.211,
+      "eval_steps_per_second": 0.211,
+      "step": 3500
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
+  "total_flos": 8.516307584906035e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347082fb15486e1ce22829a5a9a17790976d005235f55b77b736bf422a4e49ef
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c224c2d13e7b12f967f2ff294e904f86dfd319b281de69e29b4ca2a309522ccf
 size 2329702453

runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920384.2f481ea0b382.229.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fdd1cd3228b9e1861b5bb9722e297776fac3573f23a401d1935533fabc65f3f
-size 14426

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6b509b0a8c5d255f18347ea36ef5ec5e33b87ce49dd65c62b7d4e64b70e8b5a
+size 24646