Training in progress, step 1500

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -3
pytorch_model.bin +1 -1
runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e6d34c98f3791a3faa787960bb3a83c840754af10c0771225b4641fc4876571
 size 4115013

 version https://git-lfs.github.com/spec/v1
+oid sha256:67681c79cd214ed9a8ee42c881c73d19f1c39d67a78279d301dd38994ad30568
 size 4115013

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f05ed8aadfcb52667b608ea047bd58bd244bcded7029940cddd4dbb9db150031
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1d3b0d701f16fe2a1ac911c75f337bfda79fe2f7f898cd1baabb210413c7dba
 size 2329702453

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d2ff9b22bc08f364a63197a3c58a1819f82aa700f010edb44f336a90cc9fb87
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f08b7042b3265d650ddd09433dd030c04a52d87e147dd0a8cbaf2372dce6fce
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a7ec99b1bee8f2349cfd0142e944266b1486c4d9544af390e2e3f4a57486848
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:c08a9482e48e6ef3973131ed0b8d44170a3c271bf2d7cf6a402ee43fb89e77ae
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9744791024534583,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -726,11 +726,371 @@
       "eval_samples_per_second": 0.244,
       "eval_steps_per_second": 0.244,
       "step": 1000
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
-  "total_flos": 2.429607036460032e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.962643323881149,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.244,
       "eval_steps_per_second": 0.244,
       "step": 1000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0003667439165701043,
+      "loss": 0.1462,
+      "step": 1010
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0003652954808806489,
+      "loss": 0.1944,
+      "step": 1020
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0003638470451911935,
+      "loss": 0.2296,
+      "step": 1030
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00036239860950173814,
+      "loss": 0.2446,
+      "step": 1040
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00036095017381228273,
+      "loss": 0.1448,
+      "step": 1050
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0003595017381228273,
+      "loss": 0.1507,
+      "step": 1060
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.00035805330243337196,
+      "loss": 0.1636,
+      "step": 1070
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00035660486674391655,
+      "loss": 0.1909,
+      "step": 1080
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0003551564310544612,
+      "loss": 0.1895,
+      "step": 1090
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0003537079953650058,
+      "loss": 0.2663,
+      "step": 1100
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.9002671241760254,
+      "eval_rouge1": 0.07948717948717948,
+      "eval_rouge2": 0.06779220779220778,
+      "eval_rougeL": 0.08782051282051281,
+      "eval_rougeLsum": 0.08333333333333333,
+      "eval_runtime": 84.9078,
+      "eval_samples_per_second": 0.236,
+      "eval_steps_per_second": 0.236,
+      "step": 1100
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0003522595596755504,
+      "loss": 0.1672,
+      "step": 1110
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.00035081112398609507,
+      "loss": 0.1909,
+      "step": 1120
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00034936268829663966,
+      "loss": 0.1675,
+      "step": 1130
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.00034791425260718425,
+      "loss": 0.2636,
+      "step": 1140
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0003464658169177289,
+      "loss": 0.2119,
+      "step": 1150
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0003450173812282735,
+      "loss": 0.2114,
+      "step": 1160
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0003435689455388181,
+      "loss": 0.1456,
+      "step": 1170
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0003421205098493627,
+      "loss": 0.1993,
+      "step": 1180
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0003406720741599073,
+      "loss": 0.1467,
+      "step": 1190
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0003392236384704519,
+      "loss": 0.237,
+      "step": 1200
+    },
+    {
+      "epoch": 2.37,
+      "eval_loss": 0.9139176607131958,
+      "eval_rouge1": 0.19904761904761903,
+      "eval_rouge2": 0.10285714285714284,
+      "eval_rougeL": 0.19511904761904764,
+      "eval_rougeLsum": 0.20619047619047615,
+      "eval_runtime": 85.9903,
+      "eval_samples_per_second": 0.233,
+      "eval_steps_per_second": 0.233,
+      "step": 1200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00033777520278099654,
+      "loss": 0.1996,
+      "step": 1210
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00033632676709154113,
+      "loss": 0.1725,
+      "step": 1220
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0003348783314020857,
+      "loss": 0.2089,
+      "step": 1230
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00033342989571263036,
+      "loss": 0.183,
+      "step": 1240
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00033198146002317495,
+      "loss": 0.1631,
+      "step": 1250
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00033053302433371954,
+      "loss": 0.1889,
+      "step": 1260
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00032908458864426424,
+      "loss": 0.172,
+      "step": 1270
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00032763615295480883,
+      "loss": 0.1236,
+      "step": 1280
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0003261877172653534,
+      "loss": 0.1682,
+      "step": 1290
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00032473928157589806,
+      "loss": 0.2019,
+      "step": 1300
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.920964241027832,
+      "eval_rouge1": 0.11282051282051282,
+      "eval_rouge2": 0.03636363636363636,
+      "eval_rougeL": 0.1128205128205128,
+      "eval_rougeLsum": 0.11607142857142858,
+      "eval_runtime": 82.9262,
+      "eval_samples_per_second": 0.241,
+      "eval_steps_per_second": 0.241,
+      "step": 1300
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00032329084588644265,
+      "loss": 0.1681,
+      "step": 1310
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00032184241019698724,
+      "loss": 0.2372,
+      "step": 1320
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0003203939745075319,
+      "loss": 0.1343,
+      "step": 1330
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0003189455388180765,
+      "loss": 0.2125,
+      "step": 1340
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0003174971031286211,
+      "loss": 0.2217,
+      "step": 1350
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0003160486674391657,
+      "loss": 0.1542,
+      "step": 1360
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0003146002317497103,
+      "loss": 0.171,
+      "step": 1370
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00031315179606025494,
+      "loss": 0.1808,
+      "step": 1380
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.00031170336037079953,
+      "loss": 0.1423,
+      "step": 1390
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0003102549246813441,
+      "loss": 0.1794,
+      "step": 1400
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.9037507772445679,
+      "eval_rouge1": 0.11666666666666667,
+      "eval_rouge2": 0.08636363636363635,
+      "eval_rougeL": 0.11833333333333333,
+      "eval_rougeLsum": 0.12064102564102563,
+      "eval_runtime": 84.5851,
+      "eval_samples_per_second": 0.236,
+      "eval_steps_per_second": 0.236,
+      "step": 1400
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00030880648899188877,
+      "loss": 0.2313,
+      "step": 1410
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00030735805330243336,
+      "loss": 0.1548,
+      "step": 1420
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.000305909617612978,
+      "loss": 0.2318,
+      "step": 1430
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00030446118192352264,
+      "loss": 0.1959,
+      "step": 1440
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00030301274623406723,
+      "loss": 0.1438,
+      "step": 1450
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0003015643105446118,
+      "loss": 0.1953,
+      "step": 1460
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00030011587485515647,
+      "loss": 0.1542,
+      "step": 1470
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00029866743916570106,
+      "loss": 0.1693,
+      "step": 1480
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00029721900347624565,
+      "loss": 0.1836,
+      "step": 1490
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0002957705677867903,
+      "loss": 0.1847,
+      "step": 1500
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.8892697095870972,
+      "eval_rouge1": 0.14335664335664336,
+      "eval_rouge2": 0.13131313131313133,
+      "eval_rougeL": 0.14375624375624377,
+      "eval_rougeLsum": 0.14725274725274726,
+      "eval_runtime": 86.985,
+      "eval_samples_per_second": 0.23,
+      "eval_steps_per_second": 0.23,
+      "step": 1500
     }
   ],
   "max_steps": 3542,
   "num_train_epochs": 7,
+  "total_flos": 3.644099786288333e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f05ed8aadfcb52667b608ea047bd58bd244bcded7029940cddd4dbb9db150031
 size 2329702453

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1d3b0d701f16fe2a1ac911c75f337bfda79fe2f7f898cd1baabb210413c7dba
 size 2329702453

runs/Feb08_07-03-50_74bc69b4becb/events.out.tfevents.1675839843.74bc69b4becb.290.8 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07efd7031be8ab155496121fd04b911227f322b0793e4124f1b3bfb2e678b8b4
-size 14454

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8194d28430976b9d808ff3690e18217a68d80fd2f3d19f3bcfe785482800df6
+size 24674