Training in progress, step 12800

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5d52832157d0f5b80b6a377d00b6a204e38b38fba5786f88358c0819d171ee4
-size 6318359

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c8c311bed380f6c5231042dd3172757e53d32d3926ff696064a6f7e652b2260
+size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7c7e586c98c80af7b8b14023b28831609a0aa6b2bd8e695f6d4f000731d7e55
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:01755e0768402bffb76f967e33df76e23d5b263c52bad4b9110c9a221b45c611
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff7dc9aba89d2b981ce2c9aa897aebeb0dab9301700e5fac047b6fa6ef1a780f
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c6f9685929a5db844ce472a185dad9d0c6482918c842f5a9b7670626b6da045
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841a158b0d212253f125ebf1f87bda4797e00292f1d39571b4724f0ab5ed90ad
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a63c18679f872f561021a84d9bfcd3fad0c807bcef87d1a807b9818f9895c1f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1,
-  "global_step": 6400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -399,11 +399,404 @@
       "eval_samples_per_second": 43.51,
       "eval_steps_per_second": 2.719,
       "step": 6400
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 3.38491764375552e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
+  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 43.51,
       "eval_steps_per_second": 2.719,
       "step": 6400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.359,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.1564,
+      "step": 6600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.1469,
+      "step": 6700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.1211,
+      "step": 6800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0988,
+      "step": 6900
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0913,
+      "step": 7000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0833,
+      "step": 7100
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0939,
+      "step": 7200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.4426,
+      "step": 7300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.3,
+      "step": 7400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.1645,
+      "step": 7500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.108,
+      "step": 7600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0965,
+      "step": 7700
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0708,
+      "step": 7800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0746,
+      "step": 7900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0687,
+      "step": 8000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0715,
+      "step": 8100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0598,
+      "step": 8200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.053,
+      "step": 8300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0404,
+      "step": 8400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0718,
+      "step": 8500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0426,
+      "step": 8600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.032,
+      "step": 8700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0338,
+      "step": 8800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0468,
+      "step": 8900
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0502,
+      "step": 9000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0691,
+      "step": 9100
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0611,
+      "step": 9200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0346,
+      "step": 9300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0438,
+      "step": 9400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0291,
+      "step": 9500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0502,
+      "step": 9600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.05,
+      "step": 9700
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0522,
+      "step": 9800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0441,
+      "step": 9900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0455,
+      "step": 10000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0476,
+      "step": 10100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.03,
+      "step": 10200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0411,
+      "step": 10300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0654,
+      "step": 10400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0569,
+      "step": 10500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0407,
+      "step": 10600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0456,
+      "step": 10700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0497,
+      "step": 10800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0309,
+      "step": 10900
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0575,
+      "step": 11000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0367,
+      "step": 11100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0366,
+      "step": 11200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0422,
+      "step": 11300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0385,
+      "step": 11400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0415,
+      "step": 11500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0335,
+      "step": 11600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0523,
+      "step": 11700
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0565,
+      "step": 11800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0442,
+      "step": 11900
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0478,
+      "step": 12000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0319,
+      "step": 12100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0463,
+      "step": 12200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0549,
+      "step": 12300
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0676,
+      "step": 12400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0362,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0437,
+      "step": 12600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0502,
+      "step": 12700
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.046,
+      "step": 12800
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.032781328733133316,
+      "eval_loss": 8.042789459228516,
+      "eval_runtime": 7220.6269,
+      "eval_samples_per_second": 45.406,
+      "eval_steps_per_second": 2.838,
+      "step": 12800
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 6.76983528751104e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7c7e586c98c80af7b8b14023b28831609a0aa6b2bd8e695f6d4f000731d7e55
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:01755e0768402bffb76f967e33df76e23d5b263c52bad4b9110c9a221b45c611
 size 372832803