Training in progress, step 100000

Browse files

Files changed (14) hide show

{checkpoint-60000 → checkpoint-100000}/config.json +0 -0
{checkpoint-60000 → checkpoint-100000}/merges.txt +0 -0
{checkpoint-60000 → checkpoint-100000}/optimizer.pt +2 -2
{checkpoint-60000 → checkpoint-100000}/pytorch_model.bin +1 -1
{checkpoint-60000 → checkpoint-100000}/rng_state.pth +1 -1
{checkpoint-60000 → checkpoint-100000}/scheduler.pt +1 -1
{checkpoint-60000 → checkpoint-100000}/special_tokens_map.json +0 -0
{checkpoint-60000 → checkpoint-100000}/tokenizer.json +0 -0
{checkpoint-60000 → checkpoint-100000}/tokenizer_config.json +0 -0
{checkpoint-60000 → checkpoint-100000}/trainer_state.json +483 -3
{checkpoint-60000 → checkpoint-100000}/training_args.bin +0 -0
{checkpoint-60000 → checkpoint-100000}/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 +2 -2

{checkpoint-60000 → checkpoint-100000}/config.json RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/merges.txt RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfdff9ef53311641d4b835f27dacbd9f68fa7fddde3435adb8101429cef8e2ca
-size 997697925

 version https://git-lfs.github.com/spec/v1
+oid sha256:71a3d2021e0759e7241c625202af977ee75fea6c2777685a650cf5e17d7ff3e3
+size 997698309

{checkpoint-60000 → checkpoint-100000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1235fb7aba2a90081421eae43c9e96ceb69b33c08cec08e07d0693844d0a2020
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9da0e94e7a3aa086040aa47e1306586969404192b842b82e9b9248d87e70932
 size 498859189

{checkpoint-60000 → checkpoint-100000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a113755aee985df5f89afcc35c94576ec9471ed55e9f5d4595ce2778b93cfd24
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:f53a33fcead657271499fdccd34222cd292a2bd3ea33fb2eaa71c88ece9080a5
 size 14575

{checkpoint-60000 → checkpoint-100000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e574cdc37828a4470fde5f669e3e53cfa29746b7ec8e06361f83c1674e22cfe4
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae0f46fa4d1f708fa969d5b604b2b0bf0d2a24ddbdbe8f1e52169406922f5935
 size 627

{checkpoint-60000 → checkpoint-100000}/special_tokens_map.json RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/tokenizer.json RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/tokenizer_config.json RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.402914903620122,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -726,11 +726,491 @@
       "learning_rate": 1.3333333333333333e-05,
       "loss": 1.3407,
       "step": 60000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
-  "total_flos": 7.897815812056896e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 15.671524839366871,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.3333333333333333e-05,
       "loss": 1.3407,
       "step": 60000
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 1.3166666666666667e-05,
+      "loss": 1.3546,
+      "step": 60500
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.3491,
+      "step": 61000
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.2833333333333333e-05,
+      "loss": 1.3289,
+      "step": 61500
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 1.3337,
+      "step": 62000
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 1.25e-05,
+      "loss": 1.3365,
+      "step": 62500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 1.2333333333333333e-05,
+      "loss": 1.3341,
+      "step": 63000
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 1.2166666666666667e-05,
+      "loss": 1.3331,
+      "step": 63500
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 1.2e-05,
+      "loss": 1.3269,
+      "step": 64000
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 1.1833333333333332e-05,
+      "loss": 1.3187,
+      "step": 64500
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 1.3097,
+      "step": 65000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 1.3254,
+      "step": 65500
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 1.3278,
+      "step": 66000
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 1.1166666666666668e-05,
+      "loss": 1.3211,
+      "step": 66500
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 1.1e-05,
+      "loss": 1.3023,
+      "step": 67000
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 1.3267,
+      "step": 67500
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 1.3097,
+      "step": 68000
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 1.05e-05,
+      "loss": 1.3281,
+      "step": 68500
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 1.2921,
+      "step": 69000
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.0166666666666667e-05,
+      "loss": 1.3229,
+      "step": 69500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.3256,
+      "step": 70000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 1.3062,
+      "step": 70500
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 1.3046,
+      "step": 71000
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 9.5e-06,
+      "loss": 1.3141,
+      "step": 71500
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 1.3074,
+      "step": 72000
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 9.166666666666668e-06,
+      "loss": 1.3035,
+      "step": 72500
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 9e-06,
+      "loss": 1.3046,
+      "step": 73000
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 1.3022,
+      "step": 73500
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 1.2966,
+      "step": 74000
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 8.5e-06,
+      "loss": 1.3036,
+      "step": 74500
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.3002,
+      "step": 75000
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 8.166666666666666e-06,
+      "loss": 1.2929,
+      "step": 75500
+    },
+    {
+      "epoch": 11.91,
+      "learning_rate": 8e-06,
+      "loss": 1.3014,
+      "step": 76000
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 1.2936,
+      "step": 76500
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 7.666666666666666e-06,
+      "loss": 1.2997,
+      "step": 77000
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 7.5e-06,
+      "loss": 1.2926,
+      "step": 77500
+    },
+    {
+      "epoch": 12.22,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 1.2908,
+      "step": 78000
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 1.2759,
+      "step": 78500
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 7e-06,
+      "loss": 1.2848,
+      "step": 79000
+    },
+    {
+      "epoch": 12.46,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 1.2909,
+      "step": 79500
+    },
+    {
+      "epoch": 12.54,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.2815,
+      "step": 80000
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 1.289,
+      "step": 80500
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 1.2931,
+      "step": 81000
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 6.166666666666666e-06,
+      "loss": 1.2921,
+      "step": 81500
+    },
+    {
+      "epoch": 12.85,
+      "learning_rate": 6e-06,
+      "loss": 1.2915,
+      "step": 82000
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 1.2972,
+      "step": 82500
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 1.2701,
+      "step": 83000
+    },
+    {
+      "epoch": 13.09,
+      "learning_rate": 5.5e-06,
+      "loss": 1.27,
+      "step": 83500
+    },
+    {
+      "epoch": 13.16,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 1.269,
+      "step": 84000
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 5.166666666666667e-06,
+      "loss": 1.2811,
+      "step": 84500
+    },
+    {
+      "epoch": 13.32,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 1.2761,
+      "step": 85000
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 1.2985,
+      "step": 85500
+    },
+    {
+      "epoch": 13.48,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 1.2904,
+      "step": 86000
+    },
+    {
+      "epoch": 13.56,
+      "learning_rate": 4.5e-06,
+      "loss": 1.2771,
+      "step": 86500
+    },
+    {
+      "epoch": 13.63,
+      "learning_rate": 4.333333333333333e-06,
+      "loss": 1.2753,
+      "step": 87000
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.2745,
+      "step": 87500
+    },
+    {
+      "epoch": 13.79,
+      "learning_rate": 4e-06,
+      "loss": 1.2733,
+      "step": 88000
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 3.833333333333333e-06,
+      "loss": 1.2638,
+      "step": 88500
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 1.2754,
+      "step": 89000
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 3.5e-06,
+      "loss": 1.2772,
+      "step": 89500
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.2713,
+      "step": 90000
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 3.1666666666666667e-06,
+      "loss": 1.2659,
+      "step": 90500
+    },
+    {
+      "epoch": 14.26,
+      "learning_rate": 3e-06,
+      "loss": 1.2637,
+      "step": 91000
+    },
+    {
+      "epoch": 14.34,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 1.2634,
+      "step": 91500
+    },
+    {
+      "epoch": 14.42,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 1.2546,
+      "step": 92000
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 2.4999999999999998e-06,
+      "loss": 1.2774,
+      "step": 92500
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 1.2697,
+      "step": 93000
+    },
+    {
+      "epoch": 14.65,
+      "learning_rate": 2.1666666666666665e-06,
+      "loss": 1.2634,
+      "step": 93500
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 2e-06,
+      "loss": 1.2556,
+      "step": 94000
+    },
+    {
+      "epoch": 14.81,
+      "learning_rate": 1.8333333333333333e-06,
+      "loss": 1.2702,
+      "step": 94500
+    },
+    {
+      "epoch": 14.89,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 1.2583,
+      "step": 95000
+    },
+    {
+      "epoch": 14.97,
+      "learning_rate": 1.5e-06,
+      "loss": 1.2736,
+      "step": 95500
+    },
+    {
+      "epoch": 15.04,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 1.2582,
+      "step": 96000
+    },
+    {
+      "epoch": 15.12,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 1.2404,
+      "step": 96500
+    },
+    {
+      "epoch": 15.2,
+      "learning_rate": 1e-06,
+      "loss": 1.2672,
+      "step": 97000
+    },
+    {
+      "epoch": 15.28,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 1.2545,
+      "step": 97500
+    },
+    {
+      "epoch": 15.36,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 1.2667,
+      "step": 98000
+    },
+    {
+      "epoch": 15.44,
+      "learning_rate": 5e-07,
+      "loss": 1.2499,
+      "step": 98500
+    },
+    {
+      "epoch": 15.51,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 1.263,
+      "step": 99000
+    },
+    {
+      "epoch": 15.59,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 1.2481,
+      "step": 99500
+    },
+    {
+      "epoch": 15.67,
+      "learning_rate": 0.0,
+      "loss": 1.2524,
+      "step": 100000
     }
   ],
   "max_steps": 100000,
   "num_train_epochs": 16,
+  "total_flos": 1.316302635342816e+17,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-60000 → checkpoint-100000}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-60000 → checkpoint-100000}/vocab.json RENAMED Viewed

File without changes

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd99962af5a9ec8b4b730fc7f5413133bd79d42b20342bdde6c3ca0390cef4bf
 size 498859189

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9da0e94e7a3aa086040aa47e1306586969404192b842b82e9b9248d87e70932
 size 498859189

runs/Aug04_06-18-14_af18d8dae9aa/events.out.tfevents.1691129928.af18d8dae9aa.608.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42cdb80164c8b7d7c349f89cc2959a7aca1b96ad4dce7fcbd9f09a5b7a7f7a68
-size 32787

 version https://git-lfs.github.com/spec/v1
+oid sha256:2018f06f3ccffdc876aa2cc11134f804401b383605e4ea9526e5478cff13a52a
+size 35987