Training in progress, step 2226

Browse files

Files changed (7) hide show

model.safetensors +1 -1
run-1/checkpoint-2226/model.safetensors +1 -1
run-1/checkpoint-2226/optimizer.pt +1 -1
run-1/checkpoint-2226/trainer_state.json +76 -55
run-1/checkpoint-2226/training_args.bin +1 -1
runs/Nov27_11-17-59_dd9f37d8f6cd/events.out.tfevents.1732707419.dd9f37d8f6cd.692.2 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:983ee01fd4a13d5b53525ad13e56f7ba0c9935604ee872f9db3a1c44b97fc8bb
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bca72d2dc92e78fa7483fdc3c99254ad247da91be97621b7f3ec3ff082e8e56
 size 268290900

run-1/checkpoint-2226/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d82d1662482298b0235cc9e0a73a2edbadda394622ccfe4ebed5350e5ab731c0
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bca72d2dc92e78fa7483fdc3c99254ad247da91be97621b7f3ec3ff082e8e56
 size 268290900

run-1/checkpoint-2226/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a62141f53b06718507014cf92f0cfae562e7df1c30dcc5b57c2793fd757c932
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc77bf18a7d7c1e219546b5c50e37a24ad4013822dd9b310b06c18f3179a6301
 size 536643898

run-1/checkpoint-2226/trainer_state.json CHANGED Viewed

@@ -8,94 +8,115 @@
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6364516129032258,
-      "eval_loss": 0.2942647337913513,
-      "eval_runtime": 5.7495,
-      "eval_samples_per_second": 539.181,
-      "eval_steps_per_second": 11.305,
       "step": 318
     },
     {
-      "epoch": 1.5723270440251573,
-      "grad_norm": 0.6808456778526306,
-      "learning_rate": 1.550763701707098e-05,
-      "loss": 0.4631,
-      "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.837741935483871,
-      "eval_loss": 0.12298235297203064,
-      "eval_runtime": 5.982,
-      "eval_samples_per_second": 518.218,
-      "eval_steps_per_second": 10.866,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.886774193548387,
-      "eval_loss": 0.07365494966506958,
-      "eval_runtime": 5.4854,
-      "eval_samples_per_second": 565.141,
-      "eval_steps_per_second": 11.85,
       "step": 954
     },
     {
-      "epoch": 3.1446540880503147,
-      "grad_norm": 0.7211179137229919,
-      "learning_rate": 1.101527403414196e-05,
-      "loss": 0.144,
-      "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.05463062971830368,
-      "eval_runtime": 5.5595,
-      "eval_samples_per_second": 557.599,
-      "eval_steps_per_second": 11.692,
       "step": 1272
     },
     {
-      "epoch": 4.716981132075472,
-      "grad_norm": 0.4047314524650574,
-      "learning_rate": 6.522911051212939e-06,
-      "loss": 0.0842,
-      "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 0.044852741062641144,
-      "eval_runtime": 5.832,
-      "eval_samples_per_second": 531.549,
-      "eval_steps_per_second": 11.145,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9193548387096774,
-      "eval_loss": 0.04065420478582382,
-      "eval_runtime": 5.4964,
-      "eval_samples_per_second": 564.004,
-      "eval_steps_per_second": 11.826,
       "step": 1908
     },
     {
-      "epoch": 6.289308176100629,
-      "grad_norm": 0.3561893105506897,
-      "learning_rate": 2.0305480682839176e-06,
-      "loss": 0.0669,
-      "step": 2000
     }
   ],
-  "logging_steps": 500,
   "max_steps": 2226,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -108,12 +129,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 520991326672152.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.27523519283703446,
     "num_train_epochs": 7,
-    "temperature": 3
   }
 }

   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": 0.7022855281829834,
+      "learning_rate": 1.7151841868823e-05,
+      "loss": 0.4035,
+      "step": 317
+    },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.59,
+      "eval_loss": 0.2041669636964798,
+      "eval_runtime": 5.3525,
+      "eval_samples_per_second": 579.169,
+      "eval_steps_per_second": 12.144,
       "step": 318
     },
     {
+      "epoch": 1.9937106918238994,
+      "grad_norm": 0.4554065763950348,
+      "learning_rate": 1.4303683737646003e-05,
+      "loss": 0.1712,
+      "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8219354838709677,
+      "eval_loss": 0.10027384757995605,
+      "eval_runtime": 5.4479,
+      "eval_samples_per_second": 569.027,
+      "eval_steps_per_second": 11.931,
       "step": 636
     },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": 0.49464017152786255,
+      "learning_rate": 1.1455525606469004e-05,
+      "loss": 0.1083,
+      "step": 951
+    },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8780645161290322,
+      "eval_loss": 0.06833519041538239,
+      "eval_runtime": 5.4064,
+      "eval_samples_per_second": 573.399,
+      "eval_steps_per_second": 12.023,
       "step": 954
     },
     {
+      "epoch": 3.9874213836477987,
+      "grad_norm": 0.3309425115585327,
+      "learning_rate": 8.607367475292004e-06,
+      "loss": 0.0827,
+      "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8935483870967742,
+      "eval_loss": 0.053802672773599625,
+      "eval_runtime": 5.4522,
+      "eval_samples_per_second": 568.582,
+      "eval_steps_per_second": 11.922,
       "step": 1272
     },
     {
+      "epoch": 4.984276729559748,
+      "grad_norm": 0.2727065682411194,
+      "learning_rate": 5.759209344115006e-06,
+      "loss": 0.0698,
+      "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9025806451612903,
+      "eval_loss": 0.04560532420873642,
+      "eval_runtime": 5.4111,
+      "eval_samples_per_second": 572.892,
+      "eval_steps_per_second": 12.012,
       "step": 1590
     },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": 0.33385205268859863,
+      "learning_rate": 2.911051212938006e-06,
+      "loss": 0.063,
+      "step": 1902
+    },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9070967741935484,
+      "eval_loss": 0.04146786779165268,
+      "eval_runtime": 5.4202,
+      "eval_samples_per_second": 571.939,
+      "eval_steps_per_second": 11.992,
       "step": 1908
     },
     {
+      "epoch": 6.977987421383648,
+      "grad_norm": 0.2678754925727844,
+      "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0595,
+      "step": 2219
     }
   ],
+  "logging_steps": 317,
   "max_steps": 2226,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
+  "save_steps": 1000000000.0,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 578219881979544.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.04281472072400683,
     "num_train_epochs": 7,
+    "temperature": 10
   }
 }

run-1/checkpoint-2226/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c50be35dabf57488910ecef52dcf0c3f00eb115989d551ba66b159364e8ee11
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cec54d629ea3a2934e8f55ca9c467045baab73f61f5602fb0f2ef26a668bb7
 size 5368

runs/Nov27_11-17-59_dd9f37d8f6cd/events.out.tfevents.1732707419.dd9f37d8f6cd.692.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69bebb5a2f4d39178a286c1c4cb9da32fc80a628cb5ec041d17d7bcfad08f90b
+size 16661

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f276566b7a36317209ad1b0771b8b02f07cd65c76cc8c09aee24982f6ccda11
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cec54d629ea3a2934e8f55ca9c467045baab73f61f5602fb0f2ef26a668bb7
 size 5368