Training in progress, step 19200

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c8c311bed380f6c5231042dd3172757e53d32d3926ff696064a6f7e652b2260
 size 745634697

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d041fc9e6d55c4a7915f0599d0972686813610cfd5a2d83bd76580f7087c5ca
 size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01755e0768402bffb76f967e33df76e23d5b263c52bad4b9110c9a221b45c611
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7a084a9b3d69be038d1f70310127204c769b6f31132335d3c43f2359a442b86
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c6f9685929a5db844ce472a185dad9d0c6482918c842f5a9b7670626b6da045
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac85050f1de5a3da93b15d68ec19d08f9c128973d47940d52332ce7a8a430098
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a63c18679f872f561021a84d9bfcd3fad0c807bcef87d1a807b9818f9895c1f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:12a6154fa53f0286557ec7a9b6bf6b9f5b2fb01f4345510fa7b96c5e44005857
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2,
-  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -792,11 +792,404 @@
       "eval_samples_per_second": 45.406,
       "eval_steps_per_second": 2.838,
       "step": 12800
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 6.76983528751104e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3,
+  "global_step": 19200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.406,
       "eval_steps_per_second": 2.838,
       "step": 12800
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0474,
+      "step": 12900
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.054,
+      "step": 13000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0506,
+      "step": 13100
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0485,
+      "step": 13200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0485,
+      "step": 13300
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0515,
+      "step": 13400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0295,
+      "step": 13500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0456,
+      "step": 13600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0278,
+      "step": 13700
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0358,
+      "step": 13800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0513,
+      "step": 13900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0443,
+      "step": 14000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0657,
+      "step": 14100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0381,
+      "step": 14200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.047,
+      "step": 14300
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0441,
+      "step": 14400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0293,
+      "step": 14500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0308,
+      "step": 14600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0353,
+      "step": 14700
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0098,
+      "step": 14800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0422,
+      "step": 14900
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0427,
+      "step": 15000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0323,
+      "step": 15100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.035,
+      "step": 15200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0574,
+      "step": 15300
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0365,
+      "step": 15400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0341,
+      "step": 15500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0484,
+      "step": 15600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0409,
+      "step": 15700
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0363,
+      "step": 15800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0415,
+      "step": 15900
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.043,
+      "step": 16000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0307,
+      "step": 16100
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0179,
+      "step": 16200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0279,
+      "step": 16300
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0552,
+      "step": 16400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0437,
+      "step": 16500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0356,
+      "step": 16600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0427,
+      "step": 16700
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0472,
+      "step": 16800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.043,
+      "step": 16900
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0567,
+      "step": 17000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0474,
+      "step": 17100
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0295,
+      "step": 17200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0364,
+      "step": 17300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0474,
+      "step": 17400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0282,
+      "step": 17500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0525,
+      "step": 17600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0464,
+      "step": 17700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0516,
+      "step": 17800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0322,
+      "step": 17900
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0376,
+      "step": 18000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0235,
+      "step": 18100
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0316,
+      "step": 18200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0319,
+      "step": 18300
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0393,
+      "step": 18400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0248,
+      "step": 18500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0463,
+      "step": 18600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.024,
+      "step": 18700
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0062,
+      "step": 18800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 8.0302,
+      "step": 18900
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 8.054,
+      "step": 19000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 8.0448,
+      "step": 19100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 8.0465,
+      "step": 19200
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.03331597495163198,
+      "eval_loss": 8.039088249206543,
+      "eval_runtime": 7133.5004,
+      "eval_samples_per_second": 45.96,
+      "eval_steps_per_second": 2.873,
+      "step": 19200
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.015475293126656e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01755e0768402bffb76f967e33df76e23d5b263c52bad4b9110c9a221b45c611
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7a084a9b3d69be038d1f70310127204c769b6f31132335d3c43f2359a442b86
 size 372832803