Training in progress, step 3180

Browse files

Files changed (14) hide show

model.safetensors +1 -1
run-10/checkpoint-3180/config.json +1 -1
run-10/checkpoint-3180/model.safetensors +1 -1
run-10/checkpoint-3180/optimizer.pt +1 -1
run-10/checkpoint-3180/rng_state.pth +1 -1
run-10/checkpoint-3180/tokenizer.json +6 -1
run-10/checkpoint-3180/tokenizer_config.json +1 -0
run-10/checkpoint-3180/trainer_state.json +67 -67
run-10/checkpoint-3180/training_args.bin +2 -2
runs/Dec19_21-14-18_P920/events.out.tfevents.1734620860.P920.569418.10 +3 -0
runs/Dec19_21-14-18_P920/events.out.tfevents.1734620876.P920.569418.11 +3 -0
runs/Dec19_21-14-18_P920/events.out.tfevents.1734620892.P920.569418.12 +3 -0
runs/Dec19_21-14-18_P920/events.out.tfevents.1734621020.P920.569418.13 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb8f3ef1750e0d98d316a1efa8bc4e3f0f406d24298284705700051086054410
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c11c8d8fd5dab07dc0da9a774d4ac9892b28391145c860a4321a6d78b2468e5
 size 268290900

run-10/checkpoint-3180/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.46.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-10/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62cce617d3ef7392e27e1cde8293e31311afd010709036d9b4a537e663900c1
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c11c8d8fd5dab07dc0da9a774d4ac9892b28391145c860a4321a6d78b2468e5
 size 268290900

run-10/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e6613a1e044f4a2530068329d4f97f4e0e4fd2b6291b67717ff98bde1977684
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf56a6a19086ea10089ac80d4b475b67fd4477ea849dc7ec47b9c3add6cf41d2
 size 536643898

run-10/checkpoint-3180/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcab77a6433e3835a1262321a52af97636d69a8c0c7216b9d6088e880f2c5950
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4929abc25ddcb4d4986245c01bee45e03155019fd32282d1467b43fbdcdaed02
 size 14244

run-10/checkpoint-3180/tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

run-10/checkpoint-3180/tokenizer_config.json CHANGED Viewed

@@ -44,6 +44,7 @@
   "clean_up_tokenization_spaces": false,
   "cls_token": "[CLS]",
   "do_lower_case": true,
   "mask_token": "[MASK]",
   "model_max_length": 512,
   "pad_token": "[PAD]",

   "clean_up_tokenization_spaces": false,
   "cls_token": "[CLS]",
   "do_lower_case": true,
+  "extra_special_tokens": {},
   "mask_token": "[MASK]",
   "model_max_length": 512,
   "pad_token": "[PAD]",

run-10/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 5.211723804473877,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 6.0788,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7067741935483871,
-      "eval_loss": 4.211826324462891,
-      "eval_runtime": 1.7417,
-      "eval_samples_per_second": 1779.886,
-      "eval_steps_per_second": 37.32,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 5.270339488983154,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 3.1783,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8548387096774194,
-      "eval_loss": 1.911292314529419,
-      "eval_runtime": 1.8073,
-      "eval_samples_per_second": 1715.276,
-      "eval_steps_per_second": 35.965,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 5.103645324707031,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 1.5075,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9087096774193548,
-      "eval_loss": 1.0654947757720947,
-      "eval_runtime": 1.8019,
-      "eval_samples_per_second": 1720.413,
-      "eval_steps_per_second": 36.073,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 3.8782594203948975,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.8843,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9332258064516129,
-      "eval_loss": 0.8456443548202515,
-      "eval_runtime": 1.7851,
-      "eval_samples_per_second": 1736.633,
-      "eval_steps_per_second": 36.413,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 3.119723081588745,
       "learning_rate": 1.0031446540880504e-05,
-      "loss": 0.6849,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9380645161290323,
-      "eval_loss": 0.7831763625144958,
-      "eval_runtime": 1.79,
-      "eval_samples_per_second": 1731.853,
-      "eval_steps_per_second": 36.313,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 3.575148582458496,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.606,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9425806451612904,
-      "eval_loss": 0.756099283695221,
-      "eval_runtime": 1.7871,
-      "eval_samples_per_second": 1734.629,
-      "eval_steps_per_second": 36.371,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 1.812427043914795,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.5681,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9451612903225807,
-      "eval_loss": 0.7347410321235657,
-      "eval_runtime": 1.8217,
-      "eval_samples_per_second": 1701.678,
-      "eval_steps_per_second": 35.68,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 1.113770842552185,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.5453,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9438709677419355,
-      "eval_loss": 0.722730278968811,
-      "eval_runtime": 1.78,
-      "eval_samples_per_second": 1741.528,
-      "eval_steps_per_second": 36.516,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 1.670234203338623,
       "learning_rate": 2.056603773584906e-06,
-      "loss": 0.5339,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9451612903225807,
-      "eval_loss": 0.7155605554580688,
-      "eval_runtime": 2.8971,
-      "eval_samples_per_second": 1070.04,
-      "eval_steps_per_second": 22.436,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 1.3198106288909912,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.527,
       "step": 3170
     }
   ],
@@ -177,11 +177,11 @@
       "attributes": {}
     }
   },
-  "total_flos": 825254092458012.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7585301269848748,
     "num_train_epochs": 10,
     "temperature": 2
   }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.9062672853469849,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.8042,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6709677419354839,
+      "eval_loss": 0.4064599573612213,
+      "eval_runtime": 1.4275,
+      "eval_samples_per_second": 2171.572,
+      "eval_steps_per_second": 45.533,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7205497026443481,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.3038,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.847741935483871,
+      "eval_loss": 0.1362968385219574,
+      "eval_runtime": 1.6105,
+      "eval_samples_per_second": 1924.868,
+      "eval_steps_per_second": 40.36,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.5987477898597717,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1395,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8990322580645161,
+      "eval_loss": 0.07024983316659927,
+      "eval_runtime": 1.6105,
+      "eval_samples_per_second": 1924.879,
+      "eval_steps_per_second": 40.36,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5540674924850464,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0891,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9187096774193548,
+      "eval_loss": 0.04933710768818855,
+      "eval_runtime": 1.7991,
+      "eval_samples_per_second": 1723.062,
+      "eval_steps_per_second": 36.129,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.42864474654197693,
       "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9241935483870968,
+      "eval_loss": 0.04158218950033188,
+      "eval_runtime": 1.6087,
+      "eval_samples_per_second": 1927.079,
+      "eval_steps_per_second": 40.406,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.4545074999332428,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0595,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.03682653605937958,
+      "eval_runtime": 1.4287,
+      "eval_samples_per_second": 2169.74,
+      "eval_steps_per_second": 45.495,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.34796932339668274,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.0538,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9316129032258065,
+      "eval_loss": 0.03404370695352554,
+      "eval_runtime": 1.6077,
+      "eval_samples_per_second": 1928.227,
+      "eval_steps_per_second": 40.431,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.3150351941585541,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0503,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03234480321407318,
+      "eval_runtime": 1.4217,
+      "eval_samples_per_second": 2180.525,
+      "eval_steps_per_second": 45.721,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.3166097104549408,
       "learning_rate": 2.056603773584906e-06,
+      "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03134315088391304,
+      "eval_runtime": 1.6077,
+      "eval_samples_per_second": 1928.261,
+      "eval_steps_per_second": 40.431,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.27577438950538635,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0467,
       "step": 3170
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 827333546055996.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5781383032678951,
     "num_train_epochs": 10,
     "temperature": 2
   }

run-10/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52566a7e2a9c0923379d21e1e4678dbd4f2446278a294303e974618c420bee9d
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:d588f08c0e85333fa2a4adcf5ec378e9adea9df69c799ff80677ef0f82a3e48a
+size 5368

runs/Dec19_21-14-18_P920/events.out.tfevents.1734620860.P920.569418.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53e8286ae7fd2d7d49533bc21faf063612e88f5d5db1b4c569e29cd322af0de1
+size 13112

runs/Dec19_21-14-18_P920/events.out.tfevents.1734620876.P920.569418.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2003ed3a7203587773fa26219118f66feee45aec4a80133ee8ff087d4bc203c1
+size 13112

runs/Dec19_21-14-18_P920/events.out.tfevents.1734620892.P920.569418.12 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e353bfd5d9a194a02499cb18c0d613bb09a670c9debab6ca11943308cfc25d1
+size 16851

runs/Dec19_21-14-18_P920/events.out.tfevents.1734621020.P920.569418.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b67e843693a427c8a315e5d4fbe126c26199121e78eeb5e3f33435925c93df00
+size 18273

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0930905b16dd112713ff5acf08547615523dbc764cddc9f9a86706b6e50655cb
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d588f08c0e85333fa2a4adcf5ec378e9adea9df69c799ff80677ef0f82a3e48a
 size 5368