Training in progress, step 5000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
pytorch_model.bin +1 -1
runs/Feb11_14-00-34_74e5e7b42358/events.out.tfevents.1676124921.74e5e7b42358.292.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:979fae33b211827802e243d4b2113809f0f0cecb9b7c1d248e072e2b037b2cb0
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:35d81815d2717de634f2a36953a7237bebc0aed6d6f05bf4b444356bcd0bbcf5
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19f4336db612efb7d62e5471628f98da8a89b2945716dfd11cbdd02c45bd395f
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c87f4fb413b45320b3f6b962097316ca8762605322043e16b3d8b94d7c09674a
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4c4dc079a6baea2794599f0f64419cf3494f7a5dbc363ce3a63466ab6608372
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0d39dfe3569fd98eb88e2a2c2eaaf8e508e20a76576f7fbb2655866ff3eba6b
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eea54d69309341d06e47639645523531f831191f588becdb9503cc4509f35e8f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:6982685cb2f1f3ac97aedb27d2a37d776ee4b9327cce88693a07d917b95ae056
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.891628652447293,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3246,11 +3246,371 @@
       "eval_samples_per_second": 0.238,
       "eval_steps_per_second": 0.238,
       "step": 4500
     }
   ],
   "max_steps": 5060,
   "num_train_epochs": 10,
-  "total_flos": 1.0952350126776115e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.879792873874985,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.238,
       "eval_steps_per_second": 0.238,
       "step": 4500
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 5.533199195171026e-05,
+      "loss": 0.1363,
+      "step": 4510
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 5.4325955734406444e-05,
+      "loss": 0.0738,
+      "step": 4520
+    },
+    {
+      "epoch": 8.95,
+      "learning_rate": 5.331991951710262e-05,
+      "loss": 0.0649,
+      "step": 4530
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 5.2313883299798795e-05,
+      "loss": 0.0971,
+      "step": 4540
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 5.130784708249498e-05,
+      "loss": 0.0688,
+      "step": 4550
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 5.030181086519115e-05,
+      "loss": 0.0837,
+      "step": 4560
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 4.929577464788732e-05,
+      "loss": 0.0891,
+      "step": 4570
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 4.82897384305835e-05,
+      "loss": 0.0744,
+      "step": 4580
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 4.728370221327968e-05,
+      "loss": 0.0906,
+      "step": 4590
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 4.6277665995975854e-05,
+      "loss": 0.1102,
+      "step": 4600
+    },
+    {
+      "epoch": 9.09,
+      "eval_loss": 0.9806769490242004,
+      "eval_rouge1": 0.12615384615384617,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.12615384615384617,
+      "eval_runtime": 88.592,
+      "eval_samples_per_second": 0.226,
+      "eval_steps_per_second": 0.226,
+      "step": 4600
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 4.527162977867203e-05,
+      "loss": 0.072,
+      "step": 4610
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 4.426559356136821e-05,
+      "loss": 0.0729,
+      "step": 4620
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 4.325955734406439e-05,
+      "loss": 0.0884,
+      "step": 4630
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 4.225352112676056e-05,
+      "loss": 0.0782,
+      "step": 4640
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 4.124748490945674e-05,
+      "loss": 0.0879,
+      "step": 4650
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 4.024144869215292e-05,
+      "loss": 0.1,
+      "step": 4660
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 3.9235412474849096e-05,
+      "loss": 0.0867,
+      "step": 4670
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 3.822937625754527e-05,
+      "loss": 0.0881,
+      "step": 4680
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 3.7223340040241454e-05,
+      "loss": 0.0903,
+      "step": 4690
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 3.621730382293763e-05,
+      "loss": 0.0942,
+      "step": 4700
+    },
+    {
+      "epoch": 9.29,
+      "eval_loss": 0.9865831136703491,
+      "eval_rouge1": 0.13999999999999999,
+      "eval_rouge2": 0.09772727272727272,
+      "eval_rougeL": 0.14615384615384613,
+      "eval_rougeLsum": 0.13999999999999999,
+      "eval_runtime": 86.651,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 4700
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 3.5211267605633805e-05,
+      "loss": 0.1079,
+      "step": 4710
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 3.420523138832998e-05,
+      "loss": 0.0807,
+      "step": 4720
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 3.319919517102616e-05,
+      "loss": 0.105,
+      "step": 4730
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 3.219315895372234e-05,
+      "loss": 0.095,
+      "step": 4740
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 3.118712273641851e-05,
+      "loss": 0.0965,
+      "step": 4750
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 3.018108651911469e-05,
+      "loss": 0.1001,
+      "step": 4760
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 2.9175050301810868e-05,
+      "loss": 0.0782,
+      "step": 4770
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 2.8169014084507043e-05,
+      "loss": 0.115,
+      "step": 4780
+    },
+    {
+      "epoch": 9.47,
+      "learning_rate": 2.7162977867203222e-05,
+      "loss": 0.071,
+      "step": 4790
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 2.6156941649899397e-05,
+      "loss": 0.129,
+      "step": 4800
+    },
+    {
+      "epoch": 9.49,
+      "eval_loss": 0.9853466153144836,
+      "eval_rouge1": 0.12837606837606838,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.1294871794871795,
+      "eval_runtime": 86.6444,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 4800
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 2.5150905432595576e-05,
+      "loss": 0.1285,
+      "step": 4810
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 2.414486921529175e-05,
+      "loss": 0.0747,
+      "step": 4820
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 2.3138832997987927e-05,
+      "loss": 0.0702,
+      "step": 4830
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 2.2132796780684106e-05,
+      "loss": 0.1029,
+      "step": 4840
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 2.112676056338028e-05,
+      "loss": 0.102,
+      "step": 4850
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 2.012072434607646e-05,
+      "loss": 0.0909,
+      "step": 4860
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.9114688128772636e-05,
+      "loss": 0.0849,
+      "step": 4870
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.8108651911468815e-05,
+      "loss": 0.1216,
+      "step": 4880
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 1.710261569416499e-05,
+      "loss": 0.1016,
+      "step": 4890
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 1.609657947686117e-05,
+      "loss": 0.0949,
+      "step": 4900
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.9819391965866089,
+      "eval_rouge1": 0.1911111111111111,
+      "eval_rouge2": 0.09772727272727272,
+      "eval_rougeL": 0.19615384615384612,
+      "eval_rougeLsum": 0.1923076923076923,
+      "eval_runtime": 87.241,
+      "eval_samples_per_second": 0.229,
+      "eval_steps_per_second": 0.229,
+      "step": 4900
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 1.5090543259557344e-05,
+      "loss": 0.0692,
+      "step": 4910
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 1.4084507042253522e-05,
+      "loss": 0.0653,
+      "step": 4920
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 1.3078470824949699e-05,
+      "loss": 0.0797,
+      "step": 4930
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 1.2072434607645874e-05,
+      "loss": 0.0905,
+      "step": 4940
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 1.1066398390342053e-05,
+      "loss": 0.0868,
+      "step": 4950
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 1.006036217303823e-05,
+      "loss": 0.0964,
+      "step": 4960
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 9.054325955734407e-06,
+      "loss": 0.0913,
+      "step": 4970
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 8.048289738430584e-06,
+      "loss": 0.0708,
+      "step": 4980
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 7.042253521126761e-06,
+      "loss": 0.1102,
+      "step": 4990
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 6.036217303822937e-06,
+      "loss": 0.0852,
+      "step": 5000
+    },
+    {
+      "epoch": 9.88,
+      "eval_loss": 0.9852367639541626,
+      "eval_rouge1": 0.12615384615384617,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.13615384615384613,
+      "eval_rougeLsum": 0.12615384615384617,
+      "eval_runtime": 87.473,
+      "eval_samples_per_second": 0.229,
+      "eval_steps_per_second": 0.229,
+      "step": 5000
     }
   ],
   "max_steps": 5060,
   "num_train_epochs": 10,
+  "total_flos": 1.2175308798022656e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19f4336db612efb7d62e5471628f98da8a89b2945716dfd11cbdd02c45bd395f
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c87f4fb413b45320b3f6b962097316ca8762605322043e16b3d8b94d7c09674a
 size 2329702453

runs/Feb11_14-00-34_74e5e7b42358/events.out.tfevents.1676124921.74e5e7b42358.292.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e58a04a0e477b9d2ba2e1e319284b1a33bbd6d6814f990542656072fb5f45d84
-size 14428

 version https://git-lfs.github.com/spec/v1
+oid sha256:23fbf43aa6b57ea727d191f2793201bb108b3520d3fbf7a5842b8ba63cc79714
+size 24648