Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:151c18481c0c21e62724a832f1068444a8a45769016f76181dd59e90c0a94318
 size 156926880

 version https://git-lfs.github.com/spec/v1
+oid sha256:c23ecfdaa0a3eba9965716bac2017962198d21f8191fdd4eb08417907ef2a6fb
 size 156926880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:436d871bbaa077d22e6ff94a263dabfa48f84e603ae3c45b41d4d161d45edf44
 size 313998650

 version https://git-lfs.github.com/spec/v1
+oid sha256:e01166188acec499165a3e4cac0c192028eeb10d6b74af75139c4e31da21410b
 size 313998650

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f626bd1418942f59d714a92696f0a14d683419a5791fd0cfc70d71476ae2116
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:df7e5e54e28c2ceedfc7ae6045d608c8ad4853449c00b118f443d8bdea501f46
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86902189ee90d41ff69c42cb8f5c60a081bba545d6754d914823e35ec0f3a43e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8438aa97129094cc4883fee9705d680d655c2a6ca0571fa1fbe44c7bfb092306
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce92dc1de428f1ad8b1bd74ef21624eaa8e4dd05f15a0489214ffc2b8eb69cc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:56df6166fd118dcf90038143d85adf0f7e4d80bca4b6cd96c45ad995a37a73e9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95c2cf0e22dbb9ad638e7e759a92209ced4d5166aa65477536fe7f0537618fc1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4db6a93d2cee16ffa1a2a0696f25a5a3e2a82bef462e215ebd2653e9ca9b83f
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8879023307436182,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 33.859,
       "eval_steps_per_second": 8.803,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -212,12 +395,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.94731890081792e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7758046614872365,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.859,
       "eval_steps_per_second": 8.803,
       "step": 25
+    },
+    {
+      "epoch": 0.9234184239733629,
+      "grad_norm": 2.222177743911743,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.6803,
+      "step": 26
+    },
+    {
+      "epoch": 0.9589345172031076,
+      "grad_norm": 2.106823444366455,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 1.7212,
+      "step": 27
+    },
+    {
+      "epoch": 0.9944506104328524,
+      "grad_norm": 2.1512210369110107,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 1.7802,
+      "step": 28
+    },
+    {
+      "epoch": 1.029966703662597,
+      "grad_norm": 4.948949337005615,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 2.9527,
+      "step": 29
+    },
+    {
+      "epoch": 1.065482796892342,
+      "grad_norm": 1.8342108726501465,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 1.637,
+      "step": 30
+    },
+    {
+      "epoch": 1.1009988901220866,
+      "grad_norm": 1.786393165588379,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 1.6031,
+      "step": 31
+    },
+    {
+      "epoch": 1.1365149833518313,
+      "grad_norm": 1.9454339742660522,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 1.3323,
+      "step": 32
+    },
+    {
+      "epoch": 1.172031076581576,
+      "grad_norm": 2.2301857471466064,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 1.5233,
+      "step": 33
+    },
+    {
+      "epoch": 1.2075471698113207,
+      "grad_norm": 2.044020891189575,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 1.5415,
+      "step": 34
+    },
+    {
+      "epoch": 1.2430632630410654,
+      "grad_norm": 2.0642783641815186,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 1.4577,
+      "step": 35
+    },
+    {
+      "epoch": 1.2785793562708103,
+      "grad_norm": 2.05415415763855,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 1.434,
+      "step": 36
+    },
+    {
+      "epoch": 1.314095449500555,
+      "grad_norm": 2.0152251720428467,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 1.4434,
+      "step": 37
+    },
+    {
+      "epoch": 1.3496115427302997,
+      "grad_norm": 2.1848814487457275,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 1.5678,
+      "step": 38
+    },
+    {
+      "epoch": 1.3851276359600444,
+      "grad_norm": 2.1174445152282715,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 1.5425,
+      "step": 39
+    },
+    {
+      "epoch": 1.420643729189789,
+      "grad_norm": 2.277348518371582,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 1.3887,
+      "step": 40
+    },
+    {
+      "epoch": 1.4561598224195338,
+      "grad_norm": 2.1913950443267822,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 1.4529,
+      "step": 41
+    },
+    {
+      "epoch": 1.4916759156492785,
+      "grad_norm": 2.30416202545166,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 1.4513,
+      "step": 42
+    },
+    {
+      "epoch": 1.5271920088790232,
+      "grad_norm": 2.0522561073303223,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 1.3965,
+      "step": 43
+    },
+    {
+      "epoch": 1.5627081021087679,
+      "grad_norm": 2.1286027431488037,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 1.5099,
+      "step": 44
+    },
+    {
+      "epoch": 1.5982241953385128,
+      "grad_norm": 2.026170253753662,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 1.4889,
+      "step": 45
+    },
+    {
+      "epoch": 1.6337402885682575,
+      "grad_norm": 2.003553628921509,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 1.415,
+      "step": 46
+    },
+    {
+      "epoch": 1.6692563817980022,
+      "grad_norm": 2.1225321292877197,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 1.3807,
+      "step": 47
+    },
+    {
+      "epoch": 1.704772475027747,
+      "grad_norm": 2.1674954891204834,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 1.3571,
+      "step": 48
+    },
+    {
+      "epoch": 1.7402885682574918,
+      "grad_norm": 2.1650798320770264,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 1.5067,
+      "step": 49
+    },
+    {
+      "epoch": 1.7758046614872365,
+      "grad_norm": 2.0062143802642822,
+      "learning_rate": 1e-05,
+      "loss": 1.3259,
+      "step": 50
+    },
+    {
+      "epoch": 1.7758046614872365,
+      "eval_loss": 1.8066482543945312,
+      "eval_runtime": 1.4758,
+      "eval_samples_per_second": 33.88,
+      "eval_steps_per_second": 8.809,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.589463780163584e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null