Chhabi commited on Aug 28, 2024

Commit

548bff0

verified ·

1 Parent(s): 25d7c1a

Training in progress, step 2000

Browse files

Files changed (17) hide show

model.safetensors +1 -1
run-4/checkpoint-1000/model.safetensors +1 -1
run-4/checkpoint-1000/optimizer.pt +1 -1
run-4/checkpoint-1000/scheduler.pt +1 -1
run-4/checkpoint-1000/trainer_state.json +26 -26
run-4/checkpoint-1000/training_args.bin +1 -1
run-4/checkpoint-1500/model.safetensors +1 -1
run-4/checkpoint-1500/optimizer.pt +1 -1
run-4/checkpoint-1500/scheduler.pt +1 -1
run-4/checkpoint-1500/trainer_state.json +34 -34
run-4/checkpoint-1500/training_args.bin +1 -1
run-4/checkpoint-2000/model.safetensors +1 -1
run-4/checkpoint-2000/optimizer.pt +1 -1
run-4/checkpoint-2000/scheduler.pt +1 -1
run-4/checkpoint-2000/trainer_state.json +47 -47
run-4/checkpoint-2000/training_args.bin +1 -1
runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724812598.61274092231a.346.4 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33620587b37c196969d3f412f74ef041dcfeee8258db5933dc3c4540e70b1e43
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed55eb11a186a1c7dabd0cbef9219723149ae2bbdf0865338e8cfd2698758e51
 size 268290900

run-4/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab3467fe7b706783d195082717277e7993176e96abb7f168a29914f5a59ec505
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:2265efdbd127f32817bf80110d8d6f541a55048b2e22b7e0e6227a688a9ef047
 size 268290900

run-4/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:055188a1969f89bad7cabd4dce4c1ace96fe3963fb776164fed4776bce4fdc97
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4557295dc599e62a6393fbd116ab5c4958396bbe86258e055f7094ff579a4f6
 size 536643898

run-4/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c794bc4c67ef18245dd516031ce405ab557e4d551d225d8dd1e1abc0f2be8e33
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a4307cca951ef6d42c7f184774e8b1259c78b2bf130b8443ec0b62f6dbf689
 size 1064

run-4/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,50 +10,50 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5838709677419355,
-      "eval_loss": 0.19346614181995392,
-      "eval_runtime": 5.4448,
-      "eval_samples_per_second": 569.354,
-      "eval_steps_per_second": 11.938,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5179193019866943,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3125,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.09356740862131119,
-      "eval_runtime": 5.7422,
-      "eval_samples_per_second": 539.859,
-      "eval_steps_per_second": 11.32,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8790322580645161,
-      "eval_loss": 0.06245172396302223,
-      "eval_runtime": 5.6885,
-      "eval_samples_per_second": 544.959,
-      "eval_steps_per_second": 11.427,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4341842532157898,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1085,
       "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -71,8 +71,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.022235028872426232,
-    "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5887096774193549,
+      "eval_loss": 0.19886387884616852,
+      "eval_runtime": 5.4179,
+      "eval_samples_per_second": 572.175,
+      "eval_steps_per_second": 11.997,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5294517874717712,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3203,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8193548387096774,
+      "eval_loss": 0.09618715196847916,
+      "eval_runtime": 6.0744,
+      "eval_samples_per_second": 510.34,
+      "eval_steps_per_second": 10.701,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8783870967741936,
+      "eval_loss": 0.06421981006860733,
+      "eval_runtime": 5.5189,
+      "eval_samples_per_second": 561.707,
+      "eval_steps_per_second": 11.778,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.44660821557044983,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1116,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.2686953507184725,
+    "num_train_epochs": 9,
+    "temperature": 11
   }
 }

run-4/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:159fa738a88fc0ad0d6dbfae73a0ed7e5769cb4f609b3dbe951019107ed7a999
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:4996ee5340c8bdd4a572091ea0810dedaca2cbdaef100327b73cd59a04d73183
 size 5176

run-4/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c313cf90f0e7f0a25dfd0bf64eb41cc2563845ba6d331a31ed44d49159fc7c9
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:f09ba02af072f6dab1b31924b201f644e12e95c27ead4dc9623741e011906d93
 size 268290900

run-4/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be2390063b46b13d828888e0acf5f02cff5dfeffab4fbdfe0392d47534ec64eb
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:875d936002e9ba81a59c4d5636d51888d66a375fc0c698deb36655a1e91c1333
 size 536643898

run-4/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71453465aad25f4c5a0a948496c64b1f74df850abda497954afe3695c00756ee
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:693ec081eb0fa0af7d13e289edb194450dd19fdada23346e2af4292ea228535f
 size 1064

run-4/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,66 +10,66 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5838709677419355,
-      "eval_loss": 0.19346614181995392,
-      "eval_runtime": 5.4448,
-      "eval_samples_per_second": 569.354,
-      "eval_steps_per_second": 11.938,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5179193019866943,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3125,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.09356740862131119,
-      "eval_runtime": 5.7422,
-      "eval_samples_per_second": 539.859,
-      "eval_steps_per_second": 11.32,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8790322580645161,
-      "eval_loss": 0.06245172396302223,
-      "eval_runtime": 5.6885,
-      "eval_samples_per_second": 544.959,
-      "eval_steps_per_second": 11.427,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4341842532157898,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1085,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.048103515058755875,
-      "eval_runtime": 5.5558,
-      "eval_samples_per_second": 557.971,
-      "eval_steps_per_second": 11.699,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.29487845301628113,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.069,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -87,8 +87,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.022235028872426232,
-    "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5887096774193549,
+      "eval_loss": 0.19886387884616852,
+      "eval_runtime": 5.4179,
+      "eval_samples_per_second": 572.175,
+      "eval_steps_per_second": 11.997,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5294517874717712,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3203,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8193548387096774,
+      "eval_loss": 0.09618715196847916,
+      "eval_runtime": 6.0744,
+      "eval_samples_per_second": 510.34,
+      "eval_steps_per_second": 10.701,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8783870967741936,
+      "eval_loss": 0.06421981006860733,
+      "eval_runtime": 5.5189,
+      "eval_samples_per_second": 561.707,
+      "eval_steps_per_second": 11.778,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.44660821557044983,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1116,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8996774193548387,
+      "eval_loss": 0.04962550476193428,
+      "eval_runtime": 5.5318,
+      "eval_samples_per_second": 560.394,
+      "eval_steps_per_second": 11.75,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3033629357814789,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.0713,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.2686953507184725,
+    "num_train_epochs": 9,
+    "temperature": 11
   }
 }

run-4/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:159fa738a88fc0ad0d6dbfae73a0ed7e5769cb4f609b3dbe951019107ed7a999
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:4996ee5340c8bdd4a572091ea0810dedaca2cbdaef100327b73cd59a04d73183
 size 5176

run-4/checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d3a72e6f3052a969150c15331855655e3cc37adb5c7b717c294c90779ee2451
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed55eb11a186a1c7dabd0cbef9219723149ae2bbdf0865338e8cfd2698758e51
 size 268290900

run-4/checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:270ebab16da48210033fb5c268c0c452cefef9bec7254070e1ce9c77bbac3b96
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:8956025203d7e5690f41e8fdbcf1e9305247e6216d8b75dd834116ccd35de15b
 size 536643898

run-4/checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43d45918bfeb622ba899798234ec7646c7a90dd3f5771db086f5b7dee1d5a530
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67d1a8a9215f18c672cf798b531337b9e0636922d8c4373e76080f8fec19ceb2
 size 1064

run-4/checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -10,91 +10,91 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5838709677419355,
-      "eval_loss": 0.19346614181995392,
-      "eval_runtime": 5.4448,
-      "eval_samples_per_second": 569.354,
-      "eval_steps_per_second": 11.938,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5179193019866943,
-      "learning_rate": 1.685534591194969e-05,
-      "loss": 0.3125,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.09356740862131119,
-      "eval_runtime": 5.7422,
-      "eval_samples_per_second": 539.859,
-      "eval_steps_per_second": 11.32,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8790322580645161,
-      "eval_loss": 0.06245172396302223,
-      "eval_runtime": 5.6885,
-      "eval_samples_per_second": 544.959,
-      "eval_steps_per_second": 11.427,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.4341842532157898,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.1085,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.048103515058755875,
-      "eval_runtime": 5.5558,
-      "eval_samples_per_second": 557.971,
-      "eval_steps_per_second": 11.699,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.29487845301628113,
-      "learning_rate": 1.0566037735849058e-05,
-      "loss": 0.069,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9093548387096774,
-      "eval_loss": 0.03922608867287636,
-      "eval_runtime": 5.6358,
-      "eval_samples_per_second": 550.056,
-      "eval_steps_per_second": 11.533,
       "step": 1590
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.912258064516129,
-      "eval_loss": 0.03417789563536644,
-      "eval_runtime": 5.7261,
-      "eval_samples_per_second": 541.383,
-      "eval_steps_per_second": 11.352,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 0.2546312212944031,
-      "learning_rate": 7.421383647798742e-06,
-      "loss": 0.0537,
       "step": 2000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -112,8 +112,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.022235028872426232,
-    "num_train_epochs": 10,
-    "temperature": 14
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5887096774193549,
+      "eval_loss": 0.19886387884616852,
+      "eval_runtime": 5.4179,
+      "eval_samples_per_second": 572.175,
+      "eval_steps_per_second": 11.997,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5294517874717712,
+      "learning_rate": 1.650593990216632e-05,
+      "loss": 0.3203,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8193548387096774,
+      "eval_loss": 0.09618715196847916,
+      "eval_runtime": 6.0744,
+      "eval_samples_per_second": 510.34,
+      "eval_steps_per_second": 10.701,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8783870967741936,
+      "eval_loss": 0.06421981006860733,
+      "eval_runtime": 5.5189,
+      "eval_samples_per_second": 561.707,
+      "eval_steps_per_second": 11.778,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.44660821557044983,
+      "learning_rate": 1.3011879804332637e-05,
+      "loss": 0.1116,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8996774193548387,
+      "eval_loss": 0.04962550476193428,
+      "eval_runtime": 5.5318,
+      "eval_samples_per_second": 560.394,
+      "eval_steps_per_second": 11.75,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.3033629357814789,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.0713,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9080645161290323,
+      "eval_loss": 0.040737707167863846,
+      "eval_runtime": 6.4166,
+      "eval_samples_per_second": 483.123,
+      "eval_steps_per_second": 10.13,
       "step": 1590
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9116129032258065,
+      "eval_loss": 0.0357489213347435,
+      "eval_runtime": 5.4265,
+      "eval_samples_per_second": 571.272,
+      "eval_steps_per_second": 11.978,
       "step": 1908
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 0.26608094573020935,
+      "learning_rate": 6.02375960866527e-06,
+      "loss": 0.0561,
       "step": 2000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2862,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.2686953507184725,
+    "num_train_epochs": 9,
+    "temperature": 11
   }
 }

run-4/checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:159fa738a88fc0ad0d6dbfae73a0ed7e5769cb4f609b3dbe951019107ed7a999
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:4996ee5340c8bdd4a572091ea0810dedaca2cbdaef100327b73cd59a04d73183
 size 5176

runs/Aug28_01-37-39_61274092231a/events.out.tfevents.1724812598.61274092231a.346.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fc69ec5828ffcb996db73355af2135774dc2135de0e3a39b609cad2ecbe4226
-size 14088

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b78fcab685d3c2748339f02519e14b08720050aeacd1cd18bd306c1db98649
+size 16690