Training in progress, step 80000

Browse files

Files changed (14) hide show

{checkpoint-40000 → checkpoint-80000}/config.json +0 -0
{checkpoint-40000 → checkpoint-80000}/merges.txt +0 -0
{checkpoint-40000 → checkpoint-80000}/optimizer.pt +2 -2
{checkpoint-40000 → checkpoint-80000}/pytorch_model.bin +1 -1
{checkpoint-40000 → checkpoint-80000}/rng_state.pth +1 -1
{checkpoint-40000 → checkpoint-80000}/scheduler.pt +1 -1
{checkpoint-40000 → checkpoint-80000}/special_tokens_map.json +0 -0
{checkpoint-40000 → checkpoint-80000}/tokenizer.json +0 -0
{checkpoint-40000 → checkpoint-80000}/tokenizer_config.json +0 -0
{checkpoint-40000 → checkpoint-80000}/trainer_state.json +483 -3
{checkpoint-40000 → checkpoint-80000}/training_args.bin +0 -0
{checkpoint-40000 → checkpoint-80000}/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 +2 -2

{checkpoint-40000 → checkpoint-80000}/config.json RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/merges.txt RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e796ac6c323199cd5163a34bc8b80cc73e645c2421f6ef443d839084866fbe4e
-size 997697925

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e32d26c09d39bfde892fa43fb9ea84c57c7965e8e8e12e7201cc024ba6b3b22
+size 997698309

{checkpoint-40000 → checkpoint-80000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c0aa6ab3145dcd42a6a93bd8614be69b0f0703975ff5a9d93ecf135c141c5f
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7c98330e481b95da880b339027287e76827798e4940e0fb3d1e34e75da5bcd0
 size 498859189

{checkpoint-40000 → checkpoint-80000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1098196c026db06b9c17620bcc74daab3f4bdee609eea7c17ba6d97a7ab62638
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:a51a00bd7113d3eb42e3cf02cf7f462ea91c17dbde736c91ef974e024ef637ae
 size 14575

{checkpoint-40000 → checkpoint-80000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9f3ee406e258192bf4456f0d36520d894482722f9981d32de77c87732bb0e51
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:253dd825470b9019e08563b0d6613d29ade7ba21688a949b3ba25c97e09b9de2
 size 627

{checkpoint-40000 → checkpoint-80000}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/tokenizer.json RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.268609935746748,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -486,11 +486,491 @@
       "learning_rate": 1.9999999999999998e-05,
       "loss": 1.406,
       "step": 40000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
-  "total_flos": 5.265210541371264e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.537219871493496,
+  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.9999999999999998e-05,
       "loss": 1.406,
       "step": 40000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 1.9833333333333332e-05,
+      "loss": 1.4219,
+      "step": 40500
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 1.4185,
+      "step": 41000
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 1.95e-05,
+      "loss": 1.3882,
+      "step": 41500
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 1.4047,
+      "step": 42000
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 1.9166666666666667e-05,
+      "loss": 1.4155,
+      "step": 42500
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 1.9e-05,
+      "loss": 1.396,
+      "step": 43000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.8833333333333335e-05,
+      "loss": 1.4016,
+      "step": 43500
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 1.3975,
+      "step": 44000
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 1.8500000000000002e-05,
+      "loss": 1.3904,
+      "step": 44500
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 1.8333333333333336e-05,
+      "loss": 1.382,
+      "step": 45000
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 1.8166666666666667e-05,
+      "loss": 1.3876,
+      "step": 45500
+    },
+    {
+      "epoch": 7.21,
+      "learning_rate": 1.8e-05,
+      "loss": 1.3915,
+      "step": 46000
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 1.7833333333333334e-05,
+      "loss": 1.3985,
+      "step": 46500
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 1.3913,
+      "step": 47000
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 1.3887,
+      "step": 47500
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 1.7333333333333332e-05,
+      "loss": 1.3785,
+      "step": 48000
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 1.7166666666666666e-05,
+      "loss": 1.3788,
+      "step": 48500
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 1.7e-05,
+      "loss": 1.3923,
+      "step": 49000
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 1.6833333333333334e-05,
+      "loss": 1.3796,
+      "step": 49500
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.3696,
+      "step": 50000
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 1.65e-05,
+      "loss": 1.376,
+      "step": 50500
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 1.633333333333333e-05,
+      "loss": 1.3733,
+      "step": 51000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 1.6166666666666665e-05,
+      "loss": 1.3717,
+      "step": 51500
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 1.6e-05,
+      "loss": 1.3463,
+      "step": 52000
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 1.5833333333333333e-05,
+      "loss": 1.3553,
+      "step": 52500
+    },
+    {
+      "epoch": 8.31,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 1.3568,
+      "step": 53000
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 1.55e-05,
+      "loss": 1.3556,
+      "step": 53500
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 1.533333333333333e-05,
+      "loss": 1.3572,
+      "step": 54000
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 1.5166666666666667e-05,
+      "loss": 1.3572,
+      "step": 54500
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 1.5e-05,
+      "loss": 1.3641,
+      "step": 55000
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 1.4833333333333334e-05,
+      "loss": 1.3648,
+      "step": 55500
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 1.3579,
+      "step": 56000
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 1.45e-05,
+      "loss": 1.3595,
+      "step": 56500
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 1.3608,
+      "step": 57000
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 1.4166666666666666e-05,
+      "loss": 1.3583,
+      "step": 57500
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 1.4e-05,
+      "loss": 1.356,
+      "step": 58000
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 1.3833333333333335e-05,
+      "loss": 1.34,
+      "step": 58500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 1.342,
+      "step": 59000
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 1.3387,
+      "step": 59500
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.3407,
+      "step": 60000
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 1.3166666666666667e-05,
+      "loss": 1.3546,
+      "step": 60500
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.3491,
+      "step": 61000
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 1.3289,
+      "step": 61500
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 1.3337,
+      "step": 62000
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 1.25e-05,
+      "loss": 1.3365,
+      "step": 62500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 1.2333333333333333e-05,
+      "loss": 1.3341,
+      "step": 63000
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 1.2166666666666667e-05,
+      "loss": 1.3331,
+      "step": 63500
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 1.2e-05,
+      "loss": 1.3269,
+      "step": 64000
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 1.1833333333333332e-05,
+      "loss": 1.3187,
+      "step": 64500
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 1.3097,
+      "step": 65000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 1.3254,
+      "step": 65500
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 1.3278,
+      "step": 66000
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 1.3211,
+      "step": 66500
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 1.1e-05,
+      "loss": 1.3023,
+      "step": 67000
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 1.3267,
+      "step": 67500
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 1.3097,
+      "step": 68000
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 1.05e-05,
+      "loss": 1.3281,
+      "step": 68500
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 1.2921,
+      "step": 69000
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 1.3229,
+      "step": 69500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.3256,
+      "step": 70000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 1.3062,
+      "step": 70500
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 1.3046,
+      "step": 71000
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 9.5e-06,
+      "loss": 1.3141,
+      "step": 71500
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 1.3074,
+      "step": 72000
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 9.166666666666668e-06,
+      "loss": 1.3035,
+      "step": 72500
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 9e-06,
+      "loss": 1.3046,
+      "step": 73000
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 1.3022,
+      "step": 73500
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 1.2966,
+      "step": 74000
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 8.5e-06,
+      "loss": 1.3036,
+      "step": 74500
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.3002,
+      "step": 75000
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 8.166666666666666e-06,
+      "loss": 1.2929,
+      "step": 75500
+    },
+    {
+      "epoch": 11.91,
+      "learning_rate": 8e-06,
+      "loss": 1.3014,
+      "step": 76000
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 1.2936,
+      "step": 76500
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 7.666666666666666e-06,
+      "loss": 1.2997,
+      "step": 77000
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 7.5e-06,
+      "loss": 1.2926,
+      "step": 77500
+    },
+    {
+      "epoch": 12.22,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 1.2908,
+      "step": 78000
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 1.2759,
+      "step": 78500
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 7e-06,
+      "loss": 1.2848,
+      "step": 79000
+    },
+    {
+      "epoch": 12.46,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 1.2909,
+      "step": 79500
+    },
+    {
+      "epoch": 12.54,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.2815,
+      "step": 80000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
+  "total_flos": 1.0530421082742528e+17,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-40000 → checkpoint-80000}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-40000 → checkpoint-80000}/vocab.json RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c17bd3a9e4bf3986042eee47de15f675c60d2d3b68c7ca46f69a855e352b261c
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7c98330e481b95da880b339027287e76827798e4940e0fb3d1e34e75da5bcd0
 size 498859189

runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:078628c6daffd51146534843e7ebd6d1a6eb86279e040b468c85acc16c776d93
-size 26387

 version https://git-lfs.github.com/spec/v1
+oid sha256:c73b5baa310c4497da15c105899ddcc813074071771328a8c1bf0fd36dc782e3
+size 29587