Training in progress, step 4000

Browse files

Files changed (10) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +365 -5
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
runs/Feb09_10-25-55_5414a9461c91/1675939283.9214077/events.out.tfevents.1675939283.5414a9461c91.351.1 +3 -0
runs/Feb09_10-25-55_5414a9461c91/events.out.tfevents.1675939283.5414a9461c91.351.0 +3 -0
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dee4476ab05abceb3ef157f762adb7b7ff2d24c295242ef85bdc7aa9baf339c
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:38535e6c225fedc50533b886bfd54b9a622c67e22d7200e25392219b114ec183
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c224c2d13e7b12f967f2ff294e904f86dfd319b281de69e29b4ca2a309522ccf
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e39e01e5f4c4c5c56c4c737e55174fa27102738a2a31ad9abaea988d95c5076
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ace5200ce81b04d30bdcefc552d51b2d31acee8aa24f561db0693af839dd1d4
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:68a848aa7b2c67556e67ae63d728ec54a37d250974833764149f6f889e5db0d3
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cb02ae445517d5b6d8cceafc80181af9dac20207d12d240d963ba9d73872898
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:768c536c5cefd4a4a3a1c722218d4a55287b59d738fd22efac7a8db1091c7245
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.915300209591912,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2526,11 +2526,371 @@
       "eval_samples_per_second": 0.211,
       "eval_steps_per_second": 0.211,
       "step": 3500
     }
   ],
-  "max_steps": 3542,
-  "num_train_epochs": 7,
-  "total_flos": 8.516307584906035e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.903464431019603,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.211,
       "eval_steps_per_second": 0.211,
       "step": 3500
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.00015593561368209256,
+      "loss": 0.1147,
+      "step": 3510
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 0.00015492957746478874,
+      "loss": 0.0879,
+      "step": 3520
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 0.0001539235412474849,
+      "loss": 0.095,
+      "step": 3530
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.00015291750503018109,
+      "loss": 0.1277,
+      "step": 3540
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 0.00015191146881287726,
+      "loss": 0.1332,
+      "step": 3550
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 0.00015090543259557344,
+      "loss": 0.1055,
+      "step": 3560
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 0.00014989939637826964,
+      "loss": 0.1114,
+      "step": 3570
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 0.00014889336016096582,
+      "loss": 0.0983,
+      "step": 3580
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 0.00014788732394366196,
+      "loss": 0.0823,
+      "step": 3590
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 0.00014688128772635814,
+      "loss": 0.0949,
+      "step": 3600
+    },
+    {
+      "epoch": 7.11,
+      "eval_loss": 0.9529324769973755,
+      "eval_rouge1": 0.1603205128205128,
+      "eval_rouge2": 0.09454545454545453,
+      "eval_rougeL": 0.16115384615384615,
+      "eval_rougeLsum": 0.15993589743589742,
+      "eval_runtime": 96.2453,
+      "eval_samples_per_second": 0.208,
+      "eval_steps_per_second": 0.208,
+      "step": 3600
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 0.00014587525150905434,
+      "loss": 0.0698,
+      "step": 3610
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.00014486921529175052,
+      "loss": 0.0694,
+      "step": 3620
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 0.0001438631790744467,
+      "loss": 0.1078,
+      "step": 3630
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.00014285714285714284,
+      "loss": 0.1292,
+      "step": 3640
+    },
+    {
+      "epoch": 7.21,
+      "learning_rate": 0.00014185110663983904,
+      "loss": 0.1175,
+      "step": 3650
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.00014084507042253522,
+      "loss": 0.1168,
+      "step": 3660
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 0.0001398390342052314,
+      "loss": 0.0948,
+      "step": 3670
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.00013883299798792757,
+      "loss": 0.1314,
+      "step": 3680
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 0.00013782696177062375,
+      "loss": 0.1068,
+      "step": 3690
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.00013682092555331992,
+      "loss": 0.1059,
+      "step": 3700
+    },
+    {
+      "epoch": 7.31,
+      "eval_loss": 0.9520353078842163,
+      "eval_rouge1": 0.13832167832167833,
+      "eval_rouge2": 0.0977272727272727,
+      "eval_rougeL": 0.14185314685314687,
+      "eval_rougeLsum": 0.13999999999999999,
+      "eval_runtime": 91.3536,
+      "eval_samples_per_second": 0.219,
+      "eval_steps_per_second": 0.219,
+      "step": 3700
+    },
+    {
+      "epoch": 7.33,
+      "learning_rate": 0.0001358148893360161,
+      "loss": 0.0945,
+      "step": 3710
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.00013480885311871227,
+      "loss": 0.1298,
+      "step": 3720
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.00013380281690140845,
+      "loss": 0.0972,
+      "step": 3730
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 0.00013279678068410465,
+      "loss": 0.1007,
+      "step": 3740
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.0001317907444668008,
+      "loss": 0.1194,
+      "step": 3750
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.00013078470824949697,
+      "loss": 0.1416,
+      "step": 3760
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 0.00012977867203219315,
+      "loss": 0.1112,
+      "step": 3770
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.00012877263581488935,
+      "loss": 0.1232,
+      "step": 3780
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 0.00012776659959758553,
+      "loss": 0.1053,
+      "step": 3790
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 0.0001267605633802817,
+      "loss": 0.1482,
+      "step": 3800
+    },
+    {
+      "epoch": 7.51,
+      "eval_loss": 0.9513714909553528,
+      "eval_rouge1": 0.21115384615384616,
+      "eval_rouge2": 0.12045454545454545,
+      "eval_rougeL": 0.20999999999999996,
+      "eval_rougeLsum": 0.20730769230769228,
+      "eval_runtime": 90.7686,
+      "eval_samples_per_second": 0.22,
+      "eval_steps_per_second": 0.22,
+      "step": 3800
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 0.00012575452716297785,
+      "loss": 0.1281,
+      "step": 3810
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 0.00012474849094567405,
+      "loss": 0.1547,
+      "step": 3820
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 0.00012374245472837023,
+      "loss": 0.1283,
+      "step": 3830
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 0.0001227364185110664,
+      "loss": 0.174,
+      "step": 3840
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 0.00012173038229376258,
+      "loss": 0.0827,
+      "step": 3850
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.00012072434607645876,
+      "loss": 0.1174,
+      "step": 3860
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.00011971830985915493,
+      "loss": 0.0914,
+      "step": 3870
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.0001187122736418511,
+      "loss": 0.1205,
+      "step": 3880
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 0.00011770623742454728,
+      "loss": 0.0821,
+      "step": 3890
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 0.00011670020120724347,
+      "loss": 0.1268,
+      "step": 3900
+    },
+    {
+      "epoch": 7.71,
+      "eval_loss": 0.938602089881897,
+      "eval_rouge1": 0.20384615384615384,
+      "eval_rouge2": 0.10909090909090909,
+      "eval_rougeL": 0.20153846153846153,
+      "eval_rougeLsum": 0.20076923076923076,
+      "eval_runtime": 89.8217,
+      "eval_samples_per_second": 0.223,
+      "eval_steps_per_second": 0.223,
+      "step": 3900
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 0.00011569416498993963,
+      "loss": 0.0964,
+      "step": 3910
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 0.00011468812877263582,
+      "loss": 0.0878,
+      "step": 3920
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.00011368209255533198,
+      "loss": 0.1205,
+      "step": 3930
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 0.00011267605633802817,
+      "loss": 0.0916,
+      "step": 3940
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.00011167002012072435,
+      "loss": 0.1021,
+      "step": 3950
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 0.00011066398390342052,
+      "loss": 0.0843,
+      "step": 3960
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 0.0001096579476861167,
+      "loss": 0.0947,
+      "step": 3970
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.00010865191146881289,
+      "loss": 0.0884,
+      "step": 3980
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.00010764587525150905,
+      "loss": 0.0943,
+      "step": 3990
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.00010663983903420524,
+      "loss": 0.089,
+      "step": 4000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.9426229596138,
+      "eval_rouge1": 0.15076923076923077,
+      "eval_rouge2": 0.1181818181818182,
+      "eval_rougeL": 0.15615384615384614,
+      "eval_rougeLsum": 0.15384615384615383,
+      "eval_runtime": 90.9011,
+      "eval_samples_per_second": 0.22,
+      "eval_steps_per_second": 0.22,
+      "step": 4000
     }
   ],
+  "max_steps": 5060,
+  "num_train_epochs": 10,
+  "total_flos": 9.733899587958374e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c84070d0e82c96b5d90688a9eaac039d70060ac2fb04ad15294fe621d1085031
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8324d78149c1825be11050b4984c3538e3690b1c3af5db03801adad7507acb0
 size 3643

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c224c2d13e7b12f967f2ff294e904f86dfd319b281de69e29b4ca2a309522ccf
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e39e01e5f4c4c5c56c4c737e55174fa27102738a2a31ad9abaea988d95c5076
 size 2329702453

runs/Feb09_10-25-55_5414a9461c91/1675939283.9214077/events.out.tfevents.1675939283.5414a9461c91.351.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c113a55f8f1f9d07188df5c0217fc427fb6d5bf3a04d4e7139f2c86df2580992
+size 5952

runs/Feb09_10-25-55_5414a9461c91/events.out.tfevents.1675939283.5414a9461c91.351.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acba4368ad5958bff2596e2a94cae81829d5acfc5d99f8d2a2e424dbf9a5ebb8
+size 14428

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c84070d0e82c96b5d90688a9eaac039d70060ac2fb04ad15294fe621d1085031
 size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8324d78149c1825be11050b4984c3538e3690b1c3af5db03801adad7507acb0
 size 3643