Training in progress, step 1000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
runs/Feb08_05-23-30_74bc69b4becb/1675839811.8360035/events.out.tfevents.1675839811.74bc69b4becb.290.7 +3 -0
runs/Feb08_05-23-30_74bc69b4becb/events.out.tfevents.1675836783.74bc69b4becb.290.4 +2 -2
runs/Feb08_05-23-30_74bc69b4becb/events.out.tfevents.1675839811.74bc69b4becb.290.6 +3 -0
runs/Feb08_07-03-50_74bc69b4becb/1675839843.9712958/events.out.tfevents.1675839843.74bc69b4becb.290.9 +3 -0
runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 +3 -0
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c36d72b05089e24fbdb20f58edda2d589f745b59929423cb750fe3542e13898
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e6d34c98f3791a3faa787960bb3a83c840754af10c0771225b4641fc4876571
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e65a378301a7811cf0ef09053f95a65dcc2ca531c1d476902b59315ede5aeab0
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:f05ed8aadfcb52667b608ea047bd58bd244bcded7029940cddd4dbb9db150031
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c62b4adb9e39700227a9dfe709b9be3404fb7da10290b22d1a55586d48740a30
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d2ff9b22bc08f364a63197a3c58a1819f82aa700f010edb44f336a90cc9fb87
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee5d8512ea69f36ac3d76c8a2d1063766890ab26719024996676d7b75548920c
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a7ec99b1bee8f2349cfd0142e944266b1486c4d9544af390e2e3f4a57486848
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9863148810257675,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -366,11 +366,371 @@
       "eval_samples_per_second": 0.237,
       "eval_steps_per_second": 0.237,
       "step": 500
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
-  "total_flos": 1.2123850515499008e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9744791024534583,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.237,
       "eval_steps_per_second": 0.237,
       "step": 500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00043916570104287375,
+      "loss": 0.279,
+      "step": 510
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00043771726535341834,
+      "loss": 0.272,
+      "step": 520
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00043626882966396293,
+      "loss": 0.2272,
+      "step": 530
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0004348203939745076,
+      "loss": 0.2495,
+      "step": 540
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00043337195828505216,
+      "loss": 0.1965,
+      "step": 550
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00043192352259559675,
+      "loss": 0.2364,
+      "step": 560
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0004304750869061414,
+      "loss": 0.2478,
+      "step": 570
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.000429026651216686,
+      "loss": 0.2046,
+      "step": 580
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0004275782155272306,
+      "loss": 0.2661,
+      "step": 590
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0004261297798377752,
+      "loss": 0.2041,
+      "step": 600
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.9551488757133484,
+      "eval_rouge1": 0.09038461538461538,
+      "eval_rouge2": 0.05051948051948052,
+      "eval_rougeL": 0.09679487179487178,
+      "eval_rougeLsum": 0.09871794871794871,
+      "eval_runtime": 89.0139,
+      "eval_samples_per_second": 0.225,
+      "eval_steps_per_second": 0.225,
+      "step": 600
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0004246813441483198,
+      "loss": 0.2816,
+      "step": 610
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0004232329084588644,
+      "loss": 0.1904,
+      "step": 620
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00042178447276940904,
+      "loss": 0.21,
+      "step": 630
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0004203360370799537,
+      "loss": 0.1662,
+      "step": 640
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0004188876013904983,
+      "loss": 0.3052,
+      "step": 650
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0004174391657010429,
+      "loss": 0.1744,
+      "step": 660
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0004159907300115875,
+      "loss": 0.288,
+      "step": 670
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004145422943221321,
+      "loss": 0.2303,
+      "step": 680
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00041309385863267674,
+      "loss": 0.2866,
+      "step": 690
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00041164542294322133,
+      "loss": 0.238,
+      "step": 700
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.9423090219497681,
+      "eval_rouge1": 0.1,
+      "eval_rouge2": 0.07291666666666667,
+      "eval_rougeL": 0.1,
+      "eval_rougeLsum": 0.10333333333333335,
+      "eval_runtime": 88.0456,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.227,
+      "step": 700
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0004101969872537659,
+      "loss": 0.2342,
+      "step": 710
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00040874855156431057,
+      "loss": 0.2716,
+      "step": 720
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00040730011587485516,
+      "loss": 0.2453,
+      "step": 730
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00040585168018539974,
+      "loss": 0.2313,
+      "step": 740
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0004044032444959444,
+      "loss": 0.2306,
+      "step": 750
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.000402954808806489,
+      "loss": 0.1773,
+      "step": 760
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00040150637311703357,
+      "loss": 0.1957,
+      "step": 770
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0004000579374275782,
+      "loss": 0.2758,
+      "step": 780
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0003986095017381228,
+      "loss": 0.2649,
+      "step": 790
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0003971610660486675,
+      "loss": 0.275,
+      "step": 800
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.9273136258125305,
+      "eval_rouge1": 0.14666666666666667,
+      "eval_rouge2": 0.10977272727272727,
+      "eval_rougeL": 0.15038461538461537,
+      "eval_rougeLsum": 0.15153846153846154,
+      "eval_runtime": 87.8017,
+      "eval_samples_per_second": 0.228,
+      "eval_steps_per_second": 0.228,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0003957126303592121,
+      "loss": 0.2102,
+      "step": 810
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0003942641946697567,
+      "loss": 0.2146,
+      "step": 820
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0003928157589803013,
+      "loss": 0.1918,
+      "step": 830
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0003913673232908459,
+      "loss": 0.2512,
+      "step": 840
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0003899188876013905,
+      "loss": 0.2499,
+      "step": 850
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00038847045191193515,
+      "loss": 0.228,
+      "step": 860
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00038702201622247974,
+      "loss": 0.2507,
+      "step": 870
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0003855735805330243,
+      "loss": 0.1735,
+      "step": 880
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00038412514484356897,
+      "loss": 0.2752,
+      "step": 890
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00038267670915411356,
+      "loss": 0.2379,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.9023244976997375,
+      "eval_rouge1": 0.1,
+      "eval_rouge2": 0.08333333333333333,
+      "eval_rougeL": 0.1,
+      "eval_rougeLsum": 0.1,
+      "eval_runtime": 80.7798,
+      "eval_samples_per_second": 0.248,
+      "eval_steps_per_second": 0.248,
+      "step": 900
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00038122827346465815,
+      "loss": 0.1993,
+      "step": 910
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0003797798377752028,
+      "loss": 0.2058,
+      "step": 920
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0003783314020857474,
+      "loss": 0.2675,
+      "step": 930
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00037688296639629197,
+      "loss": 0.1928,
+      "step": 940
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0003754345307068366,
+      "loss": 0.1903,
+      "step": 950
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00037398609501738126,
+      "loss": 0.1967,
+      "step": 960
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00037253765932792585,
+      "loss": 0.2044,
+      "step": 970
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0003710892236384705,
+      "loss": 0.2027,
+      "step": 980
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0003696407879490151,
+      "loss": 0.25,
+      "step": 990
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00036819235225955967,
+      "loss": 0.2896,
+      "step": 1000
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.9184179306030273,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.18893939393939393,
+      "eval_rougeLsum": 0.19848484848484846,
+      "eval_runtime": 81.9559,
+      "eval_samples_per_second": 0.244,
+      "eval_steps_per_second": 0.244,
+      "step": 1000
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
+  "total_flos": 2.429607036460032e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02a84220d3a59b7a986ddfb062b9ea9e9a45a0ff5e854f1a86b7727559daa3d2
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:660f1225e692fbbda687422d3532879d3c116f23c4ac0ae767265d9fdf03511c
 size 3643

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e65a378301a7811cf0ef09053f95a65dcc2ca531c1d476902b59315ede5aeab0
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:f05ed8aadfcb52667b608ea047bd58bd244bcded7029940cddd4dbb9db150031
 size 2329702453

runs/Feb08_05-23-30_74bc69b4becb/1675839811.8360035/events.out.tfevents.1675839811.74bc69b4becb.290.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68b19e19e49a5585b95a1cf2ea41121eed756dbef1dea86815786e8e86ad97ca
+size 5952

runs/Feb08_05-23-30_74bc69b4becb/events.out.tfevents.1675836783.74bc69b4becb.290.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a4dba25a0bde9038c15a6af7ee58649a984a45ecfc3765c4e05acf774193a45
-size 10366

 version https://git-lfs.github.com/spec/v1
+oid sha256:af8ff3619c5e7959921946e1c8f07ab19f490618fe1eadf1ad8ab63dae6cadde
+size 10523

runs/Feb08_05-23-30_74bc69b4becb/events.out.tfevents.1675839811.74bc69b4becb.290.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44e57fd7a05f538e83f65e0f7f6d3626b5c64c0e3f74a9f494de3d08115edafc
+size 4234

runs/Feb08_07-03-50_74bc69b4becb/1675839843.9712958/events.out.tfevents.1675839843.74bc69b4becb.290.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee98b68b79f929f357d2c12a4a37be65cdda2e91c16f092582b4b1f874266e74
+size 5952

runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07efd7031be8ab155496121fd04b911227f322b0793e4124f1b3bfb2e678b8b4
+size 14454

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02a84220d3a59b7a986ddfb062b9ea9e9a45a0ff5e854f1a86b7727559daa3d2
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:660f1225e692fbbda687422d3532879d3c116f23c4ac0ae767265d9fdf03511c
 size 3643