Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +403 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6efd0944d3d8e93526a7d42677046f68dceb25c5d54a4154f27e3b3d5f2710b
 size 410636248

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee4e2d84e38cb73fc215ea160b72d8c65fb8ef814b9ce18e21001c4fceb2971e
 size 410636248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3acc7a1c93cddadaff8c85e17129d69e68eeeb2c1d34c27bee1a7891be700262
 size 821393658

 version https://git-lfs.github.com/spec/v1
+oid sha256:db5189682206216f1eb6c749f032237c2b81ba6a5a04045dadba360a7ff157fd
 size 821393658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a348450b4301ff77668e6e7031dfdf4901888d4300593c1bec37e44424f879c2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:70171b5cf4c5d65f8d1801780619a5ef6eaa49858f51f2d188c1b4ae2878778d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e98b9b6a2ef31cc34f2869daae0c056a45fbf12e7ae930da879a4172e2bd47dc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0db746135b039e0910ffb0031dacdf1ae5245ec4309f44b2f467d1af6778d5b2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.20959021151065826,
   "best_model_checkpoint": "./results/checkpoint-640",
-  "epoch": 3.076923076923077,
   "eval_steps": 20,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -807,6 +807,406 @@
       "eval_samples_per_second": 34.023,
       "eval_steps_per_second": 8.619,
       "step": 1000
     }
   ],
   "logging_steps": 20,
@@ -826,7 +1226,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 916853639059440.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.20959021151065826,
   "best_model_checkpoint": "./results/checkpoint-640",
+  "epoch": 4.615384615384615,
   "eval_steps": 20,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 34.023,
       "eval_steps_per_second": 8.619,
       "step": 1000
+    },
+    {
+      "epoch": 3.1384615384615384,
+      "grad_norm": 0.00659064669162035,
+      "learning_rate": 7.446153846153846e-06,
+      "loss": 0.0003,
+      "step": 1020
+    },
+    {
+      "epoch": 3.1384615384615384,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_loss": 0.49057698249816895,
+      "eval_runtime": 4.386,
+      "eval_samples_per_second": 34.2,
+      "eval_steps_per_second": 8.664,
+      "step": 1020
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.043470922857522964,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.0003,
+      "step": 1040
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_loss": 0.48904499411582947,
+      "eval_runtime": 4.5644,
+      "eval_samples_per_second": 32.863,
+      "eval_steps_per_second": 8.325,
+      "step": 1040
+    },
+    {
+      "epoch": 3.2615384615384615,
+      "grad_norm": 0.005845973733812571,
+      "learning_rate": 6.953846153846154e-06,
+      "loss": 0.0642,
+      "step": 1060
+    },
+    {
+      "epoch": 3.2615384615384615,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.34622737765312195,
+      "eval_runtime": 4.642,
+      "eval_samples_per_second": 32.313,
+      "eval_steps_per_second": 8.186,
+      "step": 1060
+    },
+    {
+      "epoch": 3.3230769230769233,
+      "grad_norm": 0.015024982392787933,
+      "learning_rate": 6.707692307692308e-06,
+      "loss": 0.0003,
+      "step": 1080
+    },
+    {
+      "epoch": 3.3230769230769233,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.3094027638435364,
+      "eval_runtime": 4.5041,
+      "eval_samples_per_second": 33.303,
+      "eval_steps_per_second": 8.437,
+      "step": 1080
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 0.004358809906989336,
+      "learning_rate": 6.461538461538463e-06,
+      "loss": 0.0003,
+      "step": 1100
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "eval_accuracy": 0.94,
+      "eval_loss": 0.32816219329833984,
+      "eval_runtime": 4.3854,
+      "eval_samples_per_second": 34.204,
+      "eval_steps_per_second": 8.665,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4461538461538463,
+      "grad_norm": 0.003102461341768503,
+      "learning_rate": 6.215384615384615e-06,
+      "loss": 0.1037,
+      "step": 1120
+    },
+    {
+      "epoch": 3.4461538461538463,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.38093501329421997,
+      "eval_runtime": 4.3086,
+      "eval_samples_per_second": 34.814,
+      "eval_steps_per_second": 8.82,
+      "step": 1120
+    },
+    {
+      "epoch": 3.5076923076923077,
+      "grad_norm": 1.403334379196167,
+      "learning_rate": 5.9692307692307695e-06,
+      "loss": 0.0006,
+      "step": 1140
+    },
+    {
+      "epoch": 3.5076923076923077,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.44484424591064453,
+      "eval_runtime": 4.3328,
+      "eval_samples_per_second": 34.62,
+      "eval_steps_per_second": 8.77,
+      "step": 1140
+    },
+    {
+      "epoch": 3.569230769230769,
+      "grad_norm": 0.0068647353909909725,
+      "learning_rate": 5.723076923076923e-06,
+      "loss": 0.0942,
+      "step": 1160
+    },
+    {
+      "epoch": 3.569230769230769,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.6030946969985962,
+      "eval_runtime": 4.4045,
+      "eval_samples_per_second": 34.056,
+      "eval_steps_per_second": 8.627,
+      "step": 1160
+    },
+    {
+      "epoch": 3.6307692307692307,
+      "grad_norm": 0.00668348977342248,
+      "learning_rate": 5.476923076923077e-06,
+      "loss": 0.0003,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6307692307692307,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.4964194595813751,
+      "eval_runtime": 4.4815,
+      "eval_samples_per_second": 33.471,
+      "eval_steps_per_second": 8.479,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 0.009669807739555836,
+      "learning_rate": 5.230769230769232e-06,
+      "loss": 0.0007,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.5268967151641846,
+      "eval_runtime": 4.5142,
+      "eval_samples_per_second": 33.228,
+      "eval_steps_per_second": 8.418,
+      "step": 1200
+    },
+    {
+      "epoch": 3.753846153846154,
+      "grad_norm": 0.00334552931599319,
+      "learning_rate": 4.984615384615385e-06,
+      "loss": 0.0887,
+      "step": 1220
+    },
+    {
+      "epoch": 3.753846153846154,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.49135467410087585,
+      "eval_runtime": 4.4888,
+      "eval_samples_per_second": 33.417,
+      "eval_steps_per_second": 8.466,
+      "step": 1220
+    },
+    {
+      "epoch": 3.815384615384615,
+      "grad_norm": 0.005591992288827896,
+      "learning_rate": 4.738461538461539e-06,
+      "loss": 0.0003,
+      "step": 1240
+    },
+    {
+      "epoch": 3.815384615384615,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.395882248878479,
+      "eval_runtime": 4.4355,
+      "eval_samples_per_second": 33.818,
+      "eval_steps_per_second": 8.567,
+      "step": 1240
+    },
+    {
+      "epoch": 3.876923076923077,
+      "grad_norm": 0.02592817321419716,
+      "learning_rate": 4.492307692307693e-06,
+      "loss": 0.0008,
+      "step": 1260
+    },
+    {
+      "epoch": 3.876923076923077,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.42400792241096497,
+      "eval_runtime": 4.4143,
+      "eval_samples_per_second": 33.98,
+      "eval_steps_per_second": 8.608,
+      "step": 1260
+    },
+    {
+      "epoch": 3.9384615384615387,
+      "grad_norm": 0.0067848521284759045,
+      "learning_rate": 4.246153846153846e-06,
+      "loss": 0.0003,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9384615384615387,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.43341755867004395,
+      "eval_runtime": 4.3946,
+      "eval_samples_per_second": 34.133,
+      "eval_steps_per_second": 8.647,
+      "step": 1280
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.004882505163550377,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0003,
+      "step": 1300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.42421114444732666,
+      "eval_runtime": 4.4076,
+      "eval_samples_per_second": 34.032,
+      "eval_steps_per_second": 8.621,
+      "step": 1300
+    },
+    {
+      "epoch": 4.061538461538461,
+      "grad_norm": 0.006306629162281752,
+      "learning_rate": 3.753846153846154e-06,
+      "loss": 0.0002,
+      "step": 1320
+    },
+    {
+      "epoch": 4.061538461538461,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.42182713747024536,
+      "eval_runtime": 4.4367,
+      "eval_samples_per_second": 33.809,
+      "eval_steps_per_second": 8.565,
+      "step": 1320
+    },
+    {
+      "epoch": 4.123076923076923,
+      "grad_norm": 0.10213489085435867,
+      "learning_rate": 3.507692307692308e-06,
+      "loss": 0.0003,
+      "step": 1340
+    },
+    {
+      "epoch": 4.123076923076923,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.41865241527557373,
+      "eval_runtime": 4.4189,
+      "eval_samples_per_second": 33.945,
+      "eval_steps_per_second": 8.599,
+      "step": 1340
+    },
+    {
+      "epoch": 4.184615384615385,
+      "grad_norm": 0.007508518174290657,
+      "learning_rate": 3.2615384615384615e-06,
+      "loss": 0.0002,
+      "step": 1360
+    },
+    {
+      "epoch": 4.184615384615385,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.41028958559036255,
+      "eval_runtime": 4.491,
+      "eval_samples_per_second": 33.4,
+      "eval_steps_per_second": 8.461,
+      "step": 1360
+    },
+    {
+      "epoch": 4.246153846153846,
+      "grad_norm": 0.004084484186023474,
+      "learning_rate": 3.0153846153846154e-06,
+      "loss": 0.0002,
+      "step": 1380
+    },
+    {
+      "epoch": 4.246153846153846,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.4090527892112732,
+      "eval_runtime": 4.4734,
+      "eval_samples_per_second": 33.532,
+      "eval_steps_per_second": 8.495,
+      "step": 1380
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 0.00797939207404852,
+      "learning_rate": 2.7692307692307697e-06,
+      "loss": 0.0002,
+      "step": 1400
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.4111497402191162,
+      "eval_runtime": 4.4612,
+      "eval_samples_per_second": 33.624,
+      "eval_steps_per_second": 8.518,
+      "step": 1400
+    },
+    {
+      "epoch": 4.36923076923077,
+      "grad_norm": 0.0033812555484473705,
+      "learning_rate": 2.523076923076923e-06,
+      "loss": 0.0003,
+      "step": 1420
+    },
+    {
+      "epoch": 4.36923076923077,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.40916740894317627,
+      "eval_runtime": 4.4676,
+      "eval_samples_per_second": 33.575,
+      "eval_steps_per_second": 8.506,
+      "step": 1420
+    },
+    {
+      "epoch": 4.430769230769231,
+      "grad_norm": 0.005078181624412537,
+      "learning_rate": 2.276923076923077e-06,
+      "loss": 0.0003,
+      "step": 1440
+    },
+    {
+      "epoch": 4.430769230769231,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.3990814685821533,
+      "eval_runtime": 4.4277,
+      "eval_samples_per_second": 33.877,
+      "eval_steps_per_second": 8.582,
+      "step": 1440
+    },
+    {
+      "epoch": 4.492307692307692,
+      "grad_norm": 0.003911417443305254,
+      "learning_rate": 2.030769230769231e-06,
+      "loss": 0.0002,
+      "step": 1460
+    },
+    {
+      "epoch": 4.492307692307692,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.39907512068748474,
+      "eval_runtime": 4.4194,
+      "eval_samples_per_second": 33.941,
+      "eval_steps_per_second": 8.598,
+      "step": 1460
+    },
+    {
+      "epoch": 4.553846153846154,
+      "grad_norm": 0.005002380348742008,
+      "learning_rate": 1.7846153846153846e-06,
+      "loss": 0.0002,
+      "step": 1480
+    },
+    {
+      "epoch": 4.553846153846154,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.39858585596084595,
+      "eval_runtime": 4.4069,
+      "eval_samples_per_second": 34.037,
+      "eval_steps_per_second": 8.623,
+      "step": 1480
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.005623374599963427,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.0004,
+      "step": 1500
+    },
+    {
+      "epoch": 4.615384615384615,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.4055434763431549,
+      "eval_runtime": 4.4211,
+      "eval_samples_per_second": 33.928,
+      "eval_steps_per_second": 8.595,
+      "step": 1500
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 1380510818592000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null