Training in progress, step 3000

Browse files

Files changed (14) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
runs/Feb09_05-15-33_2f481ea0b382/1675919822.3009498/events.out.tfevents.1675919822.2f481ea0b382.229.1 +3 -0
runs/Feb09_05-15-33_2f481ea0b382/events.out.tfevents.1675919822.2f481ea0b382.229.0 +3 -0
runs/Feb09_05-19-49_2f481ea0b382/1675920014.2635813/events.out.tfevents.1675920014.2f481ea0b382.229.3 +3 -0
runs/Feb09_05-19-49_2f481ea0b382/1675920384.8822913/events.out.tfevents.1675920384.2f481ea0b382.229.5 +3 -0
runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920014.2f481ea0b382.229.2 +3 -0
runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920384.2f481ea0b382.229.4 +3 -0
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a87f571870fa37676e444ee2cf3bd121da8e220650bf64cae7ecf7bbabd18107
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8fab46afba02b9664ca3eb5d4fc9d6f6e2f8b5882d6ad6a6f5bda047e6e1fbd
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b7789172be0d19cba7bec5cd3fe0c5aeec80db54570b699519c070ba33b3242
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:347082fb15486e1ce22829a5a9a17790976d005235f55b77b736bf422a4e49ef
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbce431f221c35d0ff3900cc40d8e1493a46d07dce6b643999346c309d391f2d
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:b47b76e58d40ed6257704d7bde822b19860484ca61d1450fb6ff42df326b971d
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99522a772e64a907efd3e369e7b361594aee824f92725e631b466fa7e08bc79a
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e2936137cf5142f34c072a19508ea41ce0d6a55cae7261f6c7cb486aa65afbe
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.938971766736531,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,11 +1806,371 @@
       "eval_samples_per_second": 0.241,
       "eval_steps_per_second": 0.241,
       "step": 2500
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
-  "total_flos": 6.078797148279398e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.927135988164221,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.241,
       "eval_steps_per_second": 0.241,
       "step": 2500
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.00014947856315179606,
+      "loss": 0.1688,
+      "step": 2510
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 0.00014803012746234068,
+      "loss": 0.1385,
+      "step": 2520
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0001465816917728853,
+      "loss": 0.1592,
+      "step": 2530
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 0.0001451332560834299,
+      "loss": 0.1014,
+      "step": 2540
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.0001436848203939745,
+      "loss": 0.0796,
+      "step": 2550
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 0.00014223638470451912,
+      "loss": 0.0981,
+      "step": 2560
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 0.00014078794901506374,
+      "loss": 0.093,
+      "step": 2570
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 0.00013933951332560835,
+      "loss": 0.1599,
+      "step": 2580
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.00013789107763615297,
+      "loss": 0.1223,
+      "step": 2590
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.00013644264194669756,
+      "loss": 0.1,
+      "step": 2600
+    },
+    {
+      "epoch": 5.14,
+      "eval_loss": 0.9408878087997437,
+      "eval_rouge1": 0.12507936507936507,
+      "eval_rouge2": 0.08333333333333333,
+      "eval_rougeL": 0.12396825396825398,
+      "eval_rougeLsum": 0.13111111111111112,
+      "eval_runtime": 96.2103,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 2600
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 0.00013499420625724218,
+      "loss": 0.1284,
+      "step": 2610
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 0.0001335457705677868,
+      "loss": 0.1523,
+      "step": 2620
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.00013209733487833138,
+      "loss": 0.1051,
+      "step": 2630
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.00013064889918887603,
+      "loss": 0.1216,
+      "step": 2640
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 0.00012920046349942064,
+      "loss": 0.1219,
+      "step": 2650
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 0.00012775202780996523,
+      "loss": 0.1482,
+      "step": 2660
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 0.00012630359212050985,
+      "loss": 0.1076,
+      "step": 2670
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 0.00012485515643105447,
+      "loss": 0.121,
+      "step": 2680
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.00012340672074159908,
+      "loss": 0.1448,
+      "step": 2690
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 0.0001219582850521437,
+      "loss": 0.1683,
+      "step": 2700
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.9422550201416016,
+      "eval_rouge1": 0.13818181818181818,
+      "eval_rouge2": 0.0951010101010101,
+      "eval_rougeL": 0.13713286713286715,
+      "eval_rougeLsum": 0.14174825174825176,
+      "eval_runtime": 96.365,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 2700
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.0001205098493626883,
+      "loss": 0.103,
+      "step": 2710
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 0.0001190614136732329,
+      "loss": 0.1434,
+      "step": 2720
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 0.00011761297798377752,
+      "loss": 0.1419,
+      "step": 2730
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 0.00011616454229432214,
+      "loss": 0.1145,
+      "step": 2740
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.00011471610660486674,
+      "loss": 0.1302,
+      "step": 2750
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 0.00011326767091541136,
+      "loss": 0.0718,
+      "step": 2760
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 0.00011181923522595596,
+      "loss": 0.1166,
+      "step": 2770
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0001103707995365006,
+      "loss": 0.1265,
+      "step": 2780
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0001089223638470452,
+      "loss": 0.0972,
+      "step": 2790
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.0001074739281575898,
+      "loss": 0.1395,
+      "step": 2800
+    },
+    {
+      "epoch": 5.53,
+      "eval_loss": 0.9336325526237488,
+      "eval_rouge1": 0.16115384615384615,
+      "eval_rouge2": 0.12329545454545454,
+      "eval_rougeL": 0.15999999999999998,
+      "eval_rougeLsum": 0.16307692307692306,
+      "eval_runtime": 93.5346,
+      "eval_samples_per_second": 0.214,
+      "eval_steps_per_second": 0.214,
+      "step": 2800
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.00010602549246813442,
+      "loss": 0.0808,
+      "step": 2810
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.00010457705677867903,
+      "loss": 0.1205,
+      "step": 2820
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 0.00010312862108922364,
+      "loss": 0.119,
+      "step": 2830
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 0.00010168018539976825,
+      "loss": 0.1357,
+      "step": 2840
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 0.00010023174971031286,
+      "loss": 0.1144,
+      "step": 2850
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 9.878331402085749e-05,
+      "loss": 0.138,
+      "step": 2860
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 9.733487833140209e-05,
+      "loss": 0.0998,
+      "step": 2870
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 9.588644264194669e-05,
+      "loss": 0.1437,
+      "step": 2880
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 9.443800695249131e-05,
+      "loss": 0.1053,
+      "step": 2890
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 9.298957126303593e-05,
+      "loss": 0.1067,
+      "step": 2900
+    },
+    {
+      "epoch": 5.73,
+      "eval_loss": 0.9290033578872681,
+      "eval_rouge1": 0.2234265734265734,
+      "eval_rouge2": 0.13156565656565655,
+      "eval_rougeL": 0.21744755244755246,
+      "eval_rougeLsum": 0.2169230769230769,
+      "eval_runtime": 91.8958,
+      "eval_samples_per_second": 0.218,
+      "eval_steps_per_second": 0.218,
+      "step": 2900
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 9.154113557358054e-05,
+      "loss": 0.1225,
+      "step": 2910
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 9.009269988412515e-05,
+      "loss": 0.0867,
+      "step": 2920
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 8.864426419466975e-05,
+      "loss": 0.1325,
+      "step": 2930
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.719582850521438e-05,
+      "loss": 0.118,
+      "step": 2940
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 8.574739281575898e-05,
+      "loss": 0.112,
+      "step": 2950
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 8.429895712630359e-05,
+      "loss": 0.1326,
+      "step": 2960
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 8.28505214368482e-05,
+      "loss": 0.1506,
+      "step": 2970
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 8.140208574739282e-05,
+      "loss": 0.1499,
+      "step": 2980
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 7.995365005793744e-05,
+      "loss": 0.1092,
+      "step": 2990
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 7.850521436848204e-05,
+      "loss": 0.1104,
+      "step": 3000
+    },
+    {
+      "epoch": 5.93,
+      "eval_loss": 0.9244877696037292,
+      "eval_rouge1": 0.2,
+      "eval_rouge2": 0.1,
+      "eval_rougeL": 0.19153846153846155,
+      "eval_rougeLsum": 0.19153846153846155,
+      "eval_runtime": 93.7022,
+      "eval_samples_per_second": 0.213,
+      "eval_steps_per_second": 0.213,
+      "step": 3000
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
+  "total_flos": 7.297038322401485e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660f1225e692fbbda687422d3532879d3c116f23c4ac0ae767265d9fdf03511c
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:c84070d0e82c96b5d90688a9eaac039d70060ac2fb04ad15294fe621d1085031
 size 3643

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e4b616d5ea5f92c203d471e43b622d1302d66f27b9105c5655030fdf5c7e986
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:347082fb15486e1ce22829a5a9a17790976d005235f55b77b736bf422a4e49ef
 size 2329702453

runs/Feb09_05-15-33_2f481ea0b382/1675919822.3009498/events.out.tfevents.1675919822.2f481ea0b382.229.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2158c55d9c18b09babe3afd3628b7b9db9948dd64adc03d98aaeaf3fdedb19cc
+size 5963

runs/Feb09_05-15-33_2f481ea0b382/events.out.tfevents.1675919822.2f481ea0b382.229.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39ea82e021df455d0b872a29b4241fd128157b9e12cd0e02049765435e647026
+size 4373

runs/Feb09_05-19-49_2f481ea0b382/1675920014.2635813/events.out.tfevents.1675920014.2f481ea0b382.229.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9885aa1ad8d035a7245932173d30a177b54c4bea111ff4b8f24a0a39bb518372
+size 5952

runs/Feb09_05-19-49_2f481ea0b382/1675920384.8822913/events.out.tfevents.1675920384.2f481ea0b382.229.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3cd46406fd5fcf0df98c5506929a6c5fdac00b065adf380344345fde71eb856
+size 5952

runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920014.2f481ea0b382.229.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0666918e3bf6e4588614adc4681a6884f490b1b1ffe5fc3e674bc8d620aca324
+size 4991

runs/Feb09_05-19-49_2f481ea0b382/events.out.tfevents.1675920384.2f481ea0b382.229.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fdd1cd3228b9e1861b5bb9722e297776fac3573f23a401d1935533fabc65f3f
+size 14426

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660f1225e692fbbda687422d3532879d3c116f23c4ac0ae767265d9fdf03511c
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:c84070d0e82c96b5d90688a9eaac039d70060ac2fb04ad15294fe621d1085031
 size 3643