Training in progress, step 90000

Browse files

Files changed (14) hide show

{checkpoint-50000 → checkpoint-90000}/config.json +0 -0
{checkpoint-50000 → checkpoint-90000}/merges.txt +0 -0
{checkpoint-50000 → checkpoint-90000}/optimizer.pt +2 -2
{checkpoint-50000 → checkpoint-90000}/pytorch_model.bin +1 -1
{checkpoint-50000 → checkpoint-90000}/rng_state.pth +1 -1
{checkpoint-50000 → checkpoint-90000}/scheduler.pt +1 -1
{checkpoint-50000 → checkpoint-90000}/special_tokens_map.json +0 -0
{checkpoint-50000 → checkpoint-90000}/tokenizer.json +0 -0
{checkpoint-50000 → checkpoint-90000}/tokenizer_config.json +0 -0
{checkpoint-50000 → checkpoint-90000}/trainer_state.json +483 -3
{checkpoint-50000 → checkpoint-90000}/training_args.bin +0 -0
{checkpoint-50000 → checkpoint-90000}/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 +2 -2

{checkpoint-50000 → checkpoint-90000}/config.json RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/merges.txt RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:908821cef5352b00b28f8e368989e1aa6391a35b97cceb9eb8fdd907dfe5ea88
-size 997697925

 version https://git-lfs.github.com/spec/v1
+oid sha256:64c719eaa9ca2379efb4e3c24f9f901cf14804ea6b0b4a23391b66e710fa83c5
+size 997698309

{checkpoint-50000 → checkpoint-90000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d876b998eae889b4c6dc08a2f721f75ba2d327e2b21e2ddeb1a43e6104ca15e
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
 size 498859189

{checkpoint-50000 → checkpoint-90000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ffd02bebc39af724b8fb6befe1654a6c1b91239ea53cd4d1473f8fdd2768697
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:34014dc39a1054881640b502d61c5b936e42f7e1bf15d187f800e62396151699
 size 14575

{checkpoint-50000 → checkpoint-90000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31486c3647b16f95384c3db62df4509eaa32b9cf885d3587ca94a012da63335d
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:d54e2ef33fb59c5cf92110395c9ca996bb6a1c9ab801d4edb264466f1a274cbf
 size 627

{checkpoint-50000 → checkpoint-90000}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/tokenizer.json RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.8357624196834355,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -606,11 +606,491 @@
       "learning_rate": 1.6666666666666667e-05,
       "loss": 1.3696,
       "step": 50000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
-  "total_flos": 6.581521403759808e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.104372355430183,
+  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.6666666666666667e-05,
       "loss": 1.3696,
       "step": 50000
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 1.65e-05,
+      "loss": 1.376,
+      "step": 50500
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 1.633333333333333e-05,
+      "loss": 1.3733,
+      "step": 51000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 1.6166666666666665e-05,
+      "loss": 1.3717,
+      "step": 51500
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 1.6e-05,
+      "loss": 1.3463,
+      "step": 52000
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 1.5833333333333333e-05,
+      "loss": 1.3553,
+      "step": 52500
+    },
+    {
+      "epoch": 8.31,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 1.3568,
+      "step": 53000
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.55e-05,
+      "loss": 1.3556,
+      "step": 53500
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 1.533333333333333e-05,
+      "loss": 1.3572,
+      "step": 54000
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 1.5166666666666667e-05,
+      "loss": 1.3572,
+      "step": 54500
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.5e-05,
+      "loss": 1.3641,
+      "step": 55000
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 1.4833333333333334e-05,
+      "loss": 1.3648,
+      "step": 55500
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 1.3579,
+      "step": 56000
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 1.45e-05,
+      "loss": 1.3595,
+      "step": 56500
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 1.3608,
+      "step": 57000
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 1.4166666666666666e-05,
+      "loss": 1.3583,
+      "step": 57500
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 1.4e-05,
+      "loss": 1.356,
+      "step": 58000
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 1.3833333333333335e-05,
+      "loss": 1.34,
+      "step": 58500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 1.342,
+      "step": 59000
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 1.3387,
+      "step": 59500
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.3407,
+      "step": 60000
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 1.3166666666666667e-05,
+      "loss": 1.3546,
+      "step": 60500
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.3491,
+      "step": 61000
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 1.3289,
+      "step": 61500
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 1.3337,
+      "step": 62000
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 1.25e-05,
+      "loss": 1.3365,
+      "step": 62500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 1.2333333333333333e-05,
+      "loss": 1.3341,
+      "step": 63000
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 1.2166666666666667e-05,
+      "loss": 1.3331,
+      "step": 63500
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 1.2e-05,
+      "loss": 1.3269,
+      "step": 64000
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 1.1833333333333332e-05,
+      "loss": 1.3187,
+      "step": 64500
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 1.3097,
+      "step": 65000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 1.3254,
+      "step": 65500
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 1.3278,
+      "step": 66000
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 1.3211,
+      "step": 66500
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 1.1e-05,
+      "loss": 1.3023,
+      "step": 67000
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 1.3267,
+      "step": 67500
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 1.3097,
+      "step": 68000
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 1.05e-05,
+      "loss": 1.3281,
+      "step": 68500
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 1.2921,
+      "step": 69000
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 1.3229,
+      "step": 69500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.3256,
+      "step": 70000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 1.3062,
+      "step": 70500
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 1.3046,
+      "step": 71000
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 9.5e-06,
+      "loss": 1.3141,
+      "step": 71500
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 1.3074,
+      "step": 72000
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 9.166666666666668e-06,
+      "loss": 1.3035,
+      "step": 72500
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 9e-06,
+      "loss": 1.3046,
+      "step": 73000
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 1.3022,
+      "step": 73500
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 1.2966,
+      "step": 74000
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 8.5e-06,
+      "loss": 1.3036,
+      "step": 74500
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.3002,
+      "step": 75000
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 8.166666666666666e-06,
+      "loss": 1.2929,
+      "step": 75500
+    },
+    {
+      "epoch": 11.91,
+      "learning_rate": 8e-06,
+      "loss": 1.3014,
+      "step": 76000
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 1.2936,
+      "step": 76500
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 7.666666666666666e-06,
+      "loss": 1.2997,
+      "step": 77000
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 7.5e-06,
+      "loss": 1.2926,
+      "step": 77500
+    },
+    {
+      "epoch": 12.22,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 1.2908,
+      "step": 78000
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 1.2759,
+      "step": 78500
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 7e-06,
+      "loss": 1.2848,
+      "step": 79000
+    },
+    {
+      "epoch": 12.46,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 1.2909,
+      "step": 79500
+    },
+    {
+      "epoch": 12.54,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.2815,
+      "step": 80000
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 1.289,
+      "step": 80500
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 1.2931,
+      "step": 81000
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 6.166666666666666e-06,
+      "loss": 1.2921,
+      "step": 81500
+    },
+    {
+      "epoch": 12.85,
+      "learning_rate": 6e-06,
+      "loss": 1.2915,
+      "step": 82000
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 1.2972,
+      "step": 82500
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 1.2701,
+      "step": 83000
+    },
+    {
+      "epoch": 13.09,
+      "learning_rate": 5.5e-06,
+      "loss": 1.27,
+      "step": 83500
+    },
+    {
+      "epoch": 13.16,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 1.269,
+      "step": 84000
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 1.2811,
+      "step": 84500
+    },
+    {
+      "epoch": 13.32,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 1.2761,
+      "step": 85000
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 1.2985,
+      "step": 85500
+    },
+    {
+      "epoch": 13.48,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 1.2904,
+      "step": 86000
+    },
+    {
+      "epoch": 13.56,
+      "learning_rate": 4.5e-06,
+      "loss": 1.2771,
+      "step": 86500
+    },
+    {
+      "epoch": 13.63,
+      "learning_rate": 4.333333333333333e-06,
+      "loss": 1.2753,
+      "step": 87000
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.2745,
+      "step": 87500
+    },
+    {
+      "epoch": 13.79,
+      "learning_rate": 4e-06,
+      "loss": 1.2733,
+      "step": 88000
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 3.833333333333333e-06,
+      "loss": 1.2638,
+      "step": 88500
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 1.2754,
+      "step": 89000
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 3.5e-06,
+      "loss": 1.2772,
+      "step": 89500
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.2713,
+      "step": 90000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
+  "total_flos": 1.1846715491039616e+17,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-50000 → checkpoint-90000}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-50000 → checkpoint-90000}/vocab.json RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7c98330e481b95da880b339027287e76827798e4940e0fb3d1e34e75da5bcd0
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
 size 498859189

runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c73b5baa310c4497da15c105899ddcc813074071771328a8c1bf0fd36dc782e3
-size 29587

 version https://git-lfs.github.com/spec/v1
+oid sha256:42cdb80164c8b7d7c349f89cc2959a7aca1b96ad4dce7fcbd9f09a5b7a7f7a68
+size 32787