Training in progress, epoch 3, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +30 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +264 -3

last-checkpoint/README.md CHANGED Viewed

@@ -909,6 +909,36 @@ You can finetune this model on your own dataset.
 | 1.8915 | 5300 | 2.0528        | -                      | -                     | -              |
 | 1.9293 | 5406 | 2.4979        | -                      | -                     | -              |
 | 1.9672 | 5512 | 2.6698        | -                      | -                     | -              |
 ### Framework Versions

 | 1.8915 | 5300 | 2.0528        | -                      | -                     | -              |
 | 1.9293 | 5406 | 2.4979        | -                      | -                     | -              |
 | 1.9672 | 5512 | 2.6698        | -                      | -                     | -              |
+| 2.0050 | 5618 | 3.2147        | -                      | -                     | -              |
+| 2.0428 | 5724 | 2.4885        | -                      | -                     | -              |
+| 2.0807 | 5830 | 2.5061        | -                      | -                     | -              |
+| 2.1010 | 5887 | -             | 1.4211                 | 2.3481                | 1.8698         |
+| 2.1185 | 5936 | 2.285         | -                      | -                     | -              |
+| 2.1563 | 6042 | 2.6148        | -                      | -                     | -              |
+| 2.1941 | 6148 | 2.4811        | -                      | -                     | -              |
+| 2.2320 | 6254 | 2.0681        | -                      | -                     | -              |
+| 2.2698 | 6360 | 2.4426        | -                      | -                     | -              |
+| 2.3076 | 6466 | 2.5273        | -                      | -                     | -              |
+| 2.3455 | 6572 | 2.1097        | -                      | -                     | -              |
+| 2.3833 | 6678 | 2.8945        | -                      | -                     | -              |
+| 2.4011 | 6728 | -             | 1.3394                 | 2.6094                | 1.8919         |
+| 2.4211 | 6784 | 2.2264        | -                      | -                     | -              |
+| 2.4590 | 6890 | 2.5986        | -                      | -                     | -              |
+| 2.4968 | 6996 | 2.3359        | -                      | -                     | -              |
+| 2.5346 | 7102 | 1.857         | -                      | -                     | -              |
+| 2.5724 | 7208 | 2.0381        | -                      | -                     | -              |
+| 2.6103 | 7314 | 2.0267        | -                      | -                     | -              |
+| 2.6481 | 7420 | 2.0914        | -                      | -                     | -              |
+| 2.6859 | 7526 | 1.9207        | -                      | -                     | -              |
+| 2.7013 | 7569 | -             | 1.2556                 | 2.2631                | 1.7135         |
+| 2.7238 | 7632 | 2.034         | -                      | -                     | -              |
+| 2.7616 | 7738 | 2.2729        | -                      | -                     | -              |
+| 2.7994 | 7844 | 1.936         | -                      | -                     | -              |
+| 2.8373 | 7950 | 2.1102        | -                      | -                     | -              |
+| 2.8751 | 8056 | 1.6607        | -                      | -                     | -              |
+| 2.9129 | 8162 | 1.9579        | -                      | -                     | -              |
+| 2.9507 | 8268 | 2.4587        | -                      | -                     | -              |
+| 2.9886 | 8374 | 2.78          | -                      | -                     | -              |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edcfac60467b256c4c8f68601cc6c5ae38d750345174166da1d889b872dbcd64
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cebfb9a7e7e64a849e1dc8b049ade66359af20bc5e5427afbd57e05b40900
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:711f813160ab0e9cd3dbca675a0ac617410914b0dd060a6859db1aaf61b2404c
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:f34180c7a5cfade436f788a1c7db68ba2b2b8f1b0ab5e9c255945f7eb66fc4b5
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fbc34d5d7c6517bafd202f5246c2c4b0fe06364263d4bb83bef5ecdb3fa3a13
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bb4a8ca87963bbe30445f59452f5ad16501c0976db609eeadd04b352fae8489
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79e2948f16fd3b5f540a15bf56e60f3e359bb2424054d6c5347e0b39494d3f7d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2a7cf6f0bbd2aeaecb5ee82eab7e9d52a1b4ca5b1640948aa8f69d7015a851c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 841,
-  "global_step": 5604,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -515,6 +515,267 @@
       "learning_rate": 6.3209786741211076e-06,
       "loss": 2.6698,
       "step": 5512
     }
   ],
   "logging_steps": 106,
@@ -529,7 +790,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 841,
+  "global_step": 8406,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.3209786741211076e-06,
       "loss": 2.6698,
       "step": 5512
+    },
+    {
+      "epoch": 2.0049964311206283,
+      "grad_norm": 25.162227630615234,
+      "learning_rate": 4.89963760685911e-06,
+      "loss": 3.2147,
+      "step": 5618
+    },
+    {
+      "epoch": 2.0428265524625266,
+      "grad_norm": 5.108881950378418,
+      "learning_rate": 3.60612086314475e-06,
+      "loss": 2.4885,
+      "step": 5724
+    },
+    {
+      "epoch": 2.0806566738044254,
+      "grad_norm": 18.789485931396484,
+      "learning_rate": 2.4728463164579917e-06,
+      "loss": 2.5061,
+      "step": 5830
+    },
+    {
+      "epoch": 2.1009992862241256,
+      "eval_nli-pairs_loss": 1.8698406219482422,
+      "eval_nli-pairs_runtime": 6.3174,
+      "eval_nli-pairs_samples_per_second": 118.72,
+      "eval_nli-pairs_steps_per_second": 6.648,
+      "step": 5887
+    },
+    {
+      "epoch": 2.1009992862241256,
+      "eval_scitail-pairs-pos_loss": 1.4210681915283203,
+      "eval_scitail-pairs-pos_runtime": 7.5787,
+      "eval_scitail-pairs-pos_samples_per_second": 98.961,
+      "eval_scitail-pairs-pos_steps_per_second": 5.542,
+      "step": 5887
+    },
+    {
+      "epoch": 2.1009992862241256,
+      "eval_qnli-contrastive_loss": 2.348076105117798,
+      "eval_qnli-contrastive_runtime": 2.4643,
+      "eval_qnli-contrastive_samples_per_second": 304.346,
+      "eval_qnli-contrastive_steps_per_second": 17.043,
+      "step": 5887
+    },
+    {
+      "epoch": 2.118486795146324,
+      "grad_norm": 24.064834594726562,
+      "learning_rate": 1.5282158804586934e-06,
+      "loss": 2.285,
+      "step": 5936
+    },
+    {
+      "epoch": 2.1563169164882225,
+      "grad_norm": 17.475284576416016,
+      "learning_rate": 7.95903705565364e-07,
+      "loss": 2.6148,
+      "step": 6042
+    },
+    {
+      "epoch": 2.1941470378301213,
+      "grad_norm": 30.337942123413086,
+      "learning_rate": 2.942628618475518e-07,
+      "loss": 2.4811,
+      "step": 6148
+    },
+    {
+      "epoch": 2.23197715917202,
+      "grad_norm": 39.4644775390625,
+      "learning_rate": 3.586537783372812e-08,
+      "loss": 2.0681,
+      "step": 6254
+    },
+    {
+      "epoch": 2.2698072805139184,
+      "grad_norm": 23.357696533203125,
+      "learning_rate": 1.9972812837304454e-05,
+      "loss": 2.4426,
+      "step": 6360
+    },
+    {
+      "epoch": 2.3076374018558172,
+      "grad_norm": 45.85642623901367,
+      "learning_rate": 1.973498424932629e-05,
+      "loss": 2.5273,
+      "step": 6466
+    },
+    {
+      "epoch": 2.345467523197716,
+      "grad_norm": 5.410664081573486,
+      "learning_rate": 1.925208877931819e-05,
+      "loss": 2.1097,
+      "step": 6572
+    },
+    {
+      "epoch": 2.3832976445396143,
+      "grad_norm": 69.4088134765625,
+      "learning_rate": 1.8537319199499876e-05,
+      "loss": 2.8945,
+      "step": 6678
+    },
+    {
+      "epoch": 2.401142041399001,
+      "eval_nli-pairs_loss": 1.8918577432632446,
+      "eval_nli-pairs_runtime": 6.2206,
+      "eval_nli-pairs_samples_per_second": 120.567,
+      "eval_nli-pairs_steps_per_second": 6.752,
+      "step": 6728
+    },
+    {
+      "epoch": 2.401142041399001,
+      "eval_scitail-pairs-pos_loss": 1.3393586874008179,
+      "eval_scitail-pairs-pos_runtime": 7.6528,
+      "eval_scitail-pairs-pos_samples_per_second": 98.003,
+      "eval_scitail-pairs-pos_steps_per_second": 5.488,
+      "step": 6728
+    },
+    {
+      "epoch": 2.401142041399001,
+      "eval_qnli-contrastive_loss": 2.6094088554382324,
+      "eval_qnli-contrastive_runtime": 2.479,
+      "eval_qnli-contrastive_samples_per_second": 302.543,
+      "eval_qnli-contrastive_steps_per_second": 16.942,
+      "step": 6728
+    },
+    {
+      "epoch": 2.421127765881513,
+      "grad_norm": 16.983625411987305,
+      "learning_rate": 1.760858893072075e-05,
+      "loss": 2.2264,
+      "step": 6784
+    },
+    {
+      "epoch": 2.458957887223412,
+      "grad_norm": 32.24399948120117,
+      "learning_rate": 1.6489173636397294e-05,
+      "loss": 2.5986,
+      "step": 6890
+    },
+    {
+      "epoch": 2.4967880085653107,
+      "grad_norm": 27.440216064453125,
+      "learning_rate": 1.5207127892211873e-05,
+      "loss": 2.3359,
+      "step": 6996
+    },
+    {
+      "epoch": 2.534618129907209,
+      "grad_norm": 5.935887813568115,
+      "learning_rate": 1.3794582087610502e-05,
+      "loss": 1.857,
+      "step": 7102
+    },
+    {
+      "epoch": 2.572448251249108,
+      "grad_norm": 11.255595207214355,
+      "learning_rate": 1.228693718002246e-05,
+      "loss": 2.0381,
+      "step": 7208
+    },
+    {
+      "epoch": 2.6102783725910066,
+      "grad_norm": 20.442119598388672,
+      "learning_rate": 1.072197748271959e-05,
+      "loss": 2.0267,
+      "step": 7314
+    },
+    {
+      "epoch": 2.648108493932905,
+      "grad_norm": 16.118242263793945,
+      "learning_rate": 9.138923721459728e-06,
+      "loss": 2.0914,
+      "step": 7420
+    },
+    {
+      "epoch": 2.6859386152748037,
+      "grad_norm": 4.989729881286621,
+      "learning_rate": 7.577450092030369e-06,
+      "loss": 1.9207,
+      "step": 7526
+    },
+    {
+      "epoch": 2.7012847965738755,
+      "eval_nli-pairs_loss": 1.7135257720947266,
+      "eval_nli-pairs_runtime": 6.2852,
+      "eval_nli-pairs_samples_per_second": 119.329,
+      "eval_nli-pairs_steps_per_second": 6.682,
+      "step": 7569
+    },
+    {
+      "epoch": 2.7012847965738755,
+      "eval_scitail-pairs-pos_loss": 1.2556273937225342,
+      "eval_scitail-pairs-pos_runtime": 7.7379,
+      "eval_scitail-pairs-pos_samples_per_second": 96.926,
+      "eval_scitail-pairs-pos_steps_per_second": 5.428,
+      "step": 7569
+    },
+    {
+      "epoch": 2.7012847965738755,
+      "eval_qnli-contrastive_loss": 2.2631449699401855,
+      "eval_qnli-contrastive_runtime": 2.4746,
+      "eval_qnli-contrastive_samples_per_second": 303.074,
+      "eval_qnli-contrastive_steps_per_second": 16.972,
+      "step": 7569
+    },
+    {
+      "epoch": 2.7237687366167025,
+      "grad_norm": 18.30848503112793,
+      "learning_rate": 6.076689953011623e-06,
+      "loss": 2.034,
+      "step": 7632
+    },
+    {
+      "epoch": 2.7615988579586013,
+      "grad_norm": 6.111113548278809,
+      "learning_rate": 4.674255072899656e-06,
+      "loss": 2.2729,
+      "step": 7738
+    },
+    {
+      "epoch": 2.7994289793004996,
+      "grad_norm": 24.842626571655273,
+      "learning_rate": 3.405293011034734e-06,
+      "loss": 1.936,
+      "step": 7844
+    },
+    {
+      "epoch": 2.8372591006423984,
+      "grad_norm": 35.68688201904297,
+      "learning_rate": 2.30160625607605e-06,
+      "loss": 2.1102,
+      "step": 7950
+    },
+    {
+      "epoch": 2.8750892219842967,
+      "grad_norm": 2.0094401836395264,
+      "learning_rate": 1.3908551980089656e-06,
+      "loss": 1.6607,
+      "step": 8056
+    },
+    {
+      "epoch": 2.9129193433261955,
+      "grad_norm": 27.046804428100586,
+      "learning_rate": 6.958649086507996e-07,
+      "loss": 1.9579,
+      "step": 8162
+    },
+    {
+      "epoch": 2.9507494646680943,
+      "grad_norm": 5.009235858917236,
+      "learning_rate": 2.340531039914673e-07,
+      "loss": 2.4587,
+      "step": 8268
+    },
+    {
+      "epoch": 2.988579586009993,
+      "grad_norm": 19.040987014770508,
+      "learning_rate": 1.69936246694824e-08,
+      "loss": 2.78,
+      "step": 8374
     }
   ],
   "logging_steps": 106,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }