Training in progress, step 1500

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-2/checkpoint-1500/config.json +1 -1
run-2/checkpoint-1500/model.safetensors +1 -1
run-2/checkpoint-1500/optimizer.pt +2 -2
run-2/checkpoint-1500/rng_state.pth +2 -2
run-2/checkpoint-1500/scheduler.pt +1 -1
run-2/checkpoint-1500/tokenizer.json +6 -1
run-2/checkpoint-1500/trainer_state.json +37 -37
run-2/checkpoint-1500/training_args.bin +2 -2
runs/May19_17-29-07_notePC-Aya/events.out.tfevents.1716166304.notePC-Aya.19556.3 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:890f2b5c6b334c01518b708c745617f7e1f6ca198ef1e61d2b107056d3a623fe
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea13dd79b7d221b92eff6f24a9d9fe21ed9b9fa745d29bfb237fab5a2b9fdda6
 size 268290900

run-2/checkpoint-1500/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.40.1",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
   "vocab_size": 30522
 }

run-2/checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93982c596a316534ec6049dc4326fd8bb8c68519f3bd73a807df5fbac8ae6656
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea13dd79b7d221b92eff6f24a9d9fe21ed9b9fa745d29bfb237fab5a2b9fdda6
 size 268290900

run-2/checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fde47893799b8f3f4f56489a4110ea1da0e51e3702f9cc3187ffeb0bf02f547
-size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:db64de92c26b834267871c2947871dfd8ad5586a3facf3d7fa53a3c213f1beb2
+size 536641018

run-2/checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b83ca61bd7724275023e64cd7d92d8b465e3385fc718bbe5532f6035ab566e96
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:790f927e864dc602a6dd0fb8c8c71f1ae010ed9ea0a5c6ab40e2bf06a86ac736
+size 13990

run-2/checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd6ed9c4966f04e48f7e49950e7ebd650efdad29179dc7040c5fcd1878b86b2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2d0d96760a1cdcbc417a57dd4ff944b6ece136ebbdfecf57b1e511053d5ab0b
 size 1064

run-2/checkpoint-1500/tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

run-2/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,73 +10,73 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5770967741935484,
-      "eval_loss": 0.21370309591293335,
-      "eval_runtime": 16.8593,
-      "eval_samples_per_second": 183.874,
-      "eval_steps_per_second": 23.014,
       "step": 318
     },
     {
-      "epoch": 1.5723270440251573,
-      "grad_norm": 0.547938346862793,
-      "learning_rate": 1.371069182389937e-05,
-      "loss": 0.3338,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8070967741935484,
-      "eval_loss": 0.10994400829076767,
-      "eval_runtime": 17.5313,
-      "eval_samples_per_second": 176.827,
-      "eval_steps_per_second": 22.132,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8664516129032258,
-      "eval_loss": 0.07803630828857422,
-      "eval_runtime": 17.0312,
-      "eval_samples_per_second": 182.019,
-      "eval_steps_per_second": 22.782,
       "step": 954
     },
     {
-      "epoch": 3.1446540880503147,
-      "grad_norm": 0.510848343372345,
-      "learning_rate": 7.421383647798742e-06,
-      "loss": 0.1268,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8819354838709678,
-      "eval_loss": 0.06529980897903442,
-      "eval_runtime": 17.6931,
-      "eval_samples_per_second": 175.21,
-      "eval_steps_per_second": 21.929,
       "step": 1272
     },
     {
-      "epoch": 4.716981132075472,
-      "grad_norm": 0.4325341582298279,
-      "learning_rate": 1.1320754716981133e-06,
-      "loss": 0.0905,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1590,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 391368939443328.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9912258247523545,
-    "num_train_epochs": 5,
-    "temperature": 9
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5670967741935484,
+      "eval_loss": 0.2081591933965683,
+      "eval_runtime": 156.9924,
+      "eval_samples_per_second": 19.746,
+      "eval_steps_per_second": 2.471,
       "step": 318
     },
     {
+      "epoch": 1.57,
+      "grad_norm": 0.5434728860855103,
+      "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.3265,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8138709677419355,
+      "eval_loss": 0.10343673080205917,
+      "eval_runtime": 157.419,
+      "eval_samples_per_second": 19.693,
+      "eval_steps_per_second": 2.465,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8751612903225806,
+      "eval_loss": 0.072260282933712,
+      "eval_runtime": 163.8821,
+      "eval_samples_per_second": 18.916,
+      "eval_steps_per_second": 2.368,
       "step": 954
     },
     {
+      "epoch": 3.14,
+      "grad_norm": 0.5225204229354858,
+      "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1197,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8935483870967742,
+      "eval_loss": 0.057823408395051956,
+      "eval_runtime": 165.2908,
+      "eval_samples_per_second": 18.755,
+      "eval_steps_per_second": 2.347,
       "step": 1272
     },
     {
+      "epoch": 4.72,
+      "grad_norm": 0.3549090027809143,
+      "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0814,
       "step": 1500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1908,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "total_flos": 391368939443328.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.3214650528165388,
+    "num_train_epochs": 6,
+    "temperature": 10
   }
 }

run-2/checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a22dbca109cab4f81784b30eb06d09e06f3687ff1178732329b8bef5dda3767
-size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd374451ee63716cdb38ad75eccd0c0ed5c4dd252067384d270fc60f9e7e9434
+size 4984

runs/May19_17-29-07_notePC-Aya/events.out.tfevents.1716166304.notePC-Aya.19556.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1075fcdb1e50119975c97ca9cda0e5da276bd0b512b591a48aa0c83703812b79
-size 13524

 version https://git-lfs.github.com/spec/v1
+oid sha256:b32fbcb91cfb3bbf0a2247afe9c84e281a055eeb87aa8be94095e2f4015c1dad
+size 14058