Training in progress, step 2000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
pytorch_model.bin +1 -1
runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67681c79cd214ed9a8ee42c881c73d19f1c39d67a78279d301dd38994ad30568
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3a3e48a26a2d622517197ff24d94300acf16b986c0e194767a2c3e5fb70890
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d3b0d701f16fe2a1ac911c75f337bfda79fe2f7f898cd1baabb210413c7dba
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e4b616d5ea5f92c203d471e43b622d1302d66f27b9105c5655030fdf5c7e986
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f08b7042b3265d650ddd09433dd030c04a52d87e147dd0a8cbaf2372dce6fce
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e491699f12f10fb03cc72b55406e2697d49735bc8f126f7938c3aea820b10f54
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c08a9482e48e6ef3973131ed0b8d44170a3c271bf2d7cf6a402ee43fb89e77ae
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:705762f34c23f694831c26f3540c14aaf4399a434031642b13285a5bcfd2e85c
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.962643323881149,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1086,11 +1086,371 @@
       "eval_samples_per_second": 0.23,
       "eval_steps_per_second": 0.23,
       "step": 1500
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
-  "total_flos": 3.644099786288333e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.95080754530884,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.23,
       "eval_steps_per_second": 0.23,
       "step": 1500
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0002943221320973349,
+      "loss": 0.1245,
+      "step": 1510
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00029287369640787947,
+      "loss": 0.1917,
+      "step": 1520
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 0.0002914252607184241,
+      "loss": 0.205,
+      "step": 1530
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.0002899768250289687,
+      "loss": 0.1493,
+      "step": 1540
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.0002885283893395133,
+      "loss": 0.1596,
+      "step": 1550
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.00028707995365005794,
+      "loss": 0.1689,
+      "step": 1560
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 0.0002856315179606025,
+      "loss": 0.1371,
+      "step": 1570
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0002841830822711471,
+      "loss": 0.1676,
+      "step": 1580
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.0002827346465816918,
+      "loss": 0.1441,
+      "step": 1590
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.0002812862108922364,
+      "loss": 0.1436,
+      "step": 1600
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 0.8872199058532715,
+      "eval_rouge1": 0.16825396825396824,
+      "eval_rouge2": 0.05833333333333333,
+      "eval_rougeL": 0.1650793650793651,
+      "eval_rougeLsum": 0.17285714285714288,
+      "eval_runtime": 83.5131,
+      "eval_samples_per_second": 0.239,
+      "eval_steps_per_second": 0.239,
+      "step": 1600
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 0.000279837775202781,
+      "loss": 0.2173,
+      "step": 1610
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.00027838933951332564,
+      "loss": 0.1457,
+      "step": 1620
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0002769409038238702,
+      "loss": 0.1503,
+      "step": 1630
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 0.00027549246813441487,
+      "loss": 0.1371,
+      "step": 1640
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.00027404403244495946,
+      "loss": 0.1331,
+      "step": 1650
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.00027259559675550405,
+      "loss": 0.2068,
+      "step": 1660
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0002711471610660487,
+      "loss": 0.2001,
+      "step": 1670
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.0002696987253765933,
+      "loss": 0.177,
+      "step": 1680
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.00026825028968713787,
+      "loss": 0.1772,
+      "step": 1690
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.0002668018539976825,
+      "loss": 0.138,
+      "step": 1700
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.8929020762443542,
+      "eval_rouge1": 0.22999999999999998,
+      "eval_rouge2": 0.12491883116883117,
+      "eval_rougeL": 0.22615384615384615,
+      "eval_rougeLsum": 0.23115384615384618,
+      "eval_runtime": 86.6494,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.231,
+      "step": 1700
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 0.0002653534183082271,
+      "loss": 0.164,
+      "step": 1710
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0002639049826187717,
+      "loss": 0.1249,
+      "step": 1720
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 0.00026245654692931634,
+      "loss": 0.1356,
+      "step": 1730
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.000261008111239861,
+      "loss": 0.1374,
+      "step": 1740
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.00025955967555040557,
+      "loss": 0.2013,
+      "step": 1750
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.0002581112398609502,
+      "loss": 0.1337,
+      "step": 1760
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.0002566628041714948,
+      "loss": 0.1226,
+      "step": 1770
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.0002552143684820394,
+      "loss": 0.1166,
+      "step": 1780
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.00025376593279258404,
+      "loss": 0.2308,
+      "step": 1790
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 0.00025231749710312863,
+      "loss": 0.1265,
+      "step": 1800
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.9203845858573914,
+      "eval_rouge1": 0.17454545454545453,
+      "eval_rouge2": 0.07291666666666667,
+      "eval_rougeL": 0.16999999999999998,
+      "eval_rougeLsum": 0.17727272727272728,
+      "eval_runtime": 87.9704,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.227,
+      "step": 1800
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0002508690614136732,
+      "loss": 0.1526,
+      "step": 1810
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.00024942062572421786,
+      "loss": 0.2201,
+      "step": 1820
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.00024797219003476245,
+      "loss": 0.1271,
+      "step": 1830
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.0002465237543453071,
+      "loss": 0.1749,
+      "step": 1840
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.0002450753186558517,
+      "loss": 0.133,
+      "step": 1850
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.0002436268829663963,
+      "loss": 0.2259,
+      "step": 1860
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00024217844727694092,
+      "loss": 0.1549,
+      "step": 1870
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.00024073001158748554,
+      "loss": 0.1173,
+      "step": 1880
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.00023928157589803013,
+      "loss": 0.1337,
+      "step": 1890
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.00023783314020857474,
+      "loss": 0.1828,
+      "step": 1900
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 0.9094276428222656,
+      "eval_rouge1": 0.18,
+      "eval_rouge2": 0.14886363636363636,
+      "eval_rougeL": 0.18,
+      "eval_rougeLsum": 0.18615384615384614,
+      "eval_runtime": 84.5106,
+      "eval_samples_per_second": 0.237,
+      "eval_steps_per_second": 0.237,
+      "step": 1900
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.00023638470451911936,
+      "loss": 0.1821,
+      "step": 1910
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 0.00023493626882966395,
+      "loss": 0.1257,
+      "step": 1920
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00023348783314020857,
+      "loss": 0.172,
+      "step": 1930
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0002320393974507532,
+      "loss": 0.1833,
+      "step": 1940
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 0.0002305909617612978,
+      "loss": 0.1334,
+      "step": 1950
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 0.00022914252607184242,
+      "loss": 0.1736,
+      "step": 1960
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 0.00022769409038238703,
+      "loss": 0.1163,
+      "step": 1970
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 0.00022624565469293165,
+      "loss": 0.1844,
+      "step": 1980
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.00022479721900347624,
+      "loss": 0.1358,
+      "step": 1990
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.00022334878331402086,
+      "loss": 0.1447,
+      "step": 2000
+    },
+    {
+      "epoch": 3.95,
+      "eval_loss": 0.89415442943573,
+      "eval_rouge1": 0.19,
+      "eval_rouge2": 0.09886363636363635,
+      "eval_rougeL": 0.18615384615384617,
+      "eval_rougeLsum": 0.19615384615384615,
+      "eval_runtime": 84.0506,
+      "eval_samples_per_second": 0.238,
+      "eval_steps_per_second": 0.238,
+      "step": 2000
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
+  "total_flos": 4.862361100638413e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d3b0d701f16fe2a1ac911c75f337bfda79fe2f7f898cd1baabb210413c7dba
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e4b616d5ea5f92c203d471e43b622d1302d66f27b9105c5655030fdf5c7e986
 size 2329702453

runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8194d28430976b9d808ff3690e18217a68d80fd2f3d19f3bcfe785482800df6
-size 24674

 version https://git-lfs.github.com/spec/v1
+oid sha256:89707d0ed5076499409b04d8894868bee0b330defbf8965e5c00268b2a46dfb4
+size 34894