Training in progress, step 3180

Browse files

Files changed (15) hide show

model.safetensors +1 -1
run-0/checkpoint-4770/model.safetensors +1 -1
run-0/checkpoint-4770/optimizer.pt +1 -1
run-0/checkpoint-4770/rng_state.pth +1 -1
run-0/checkpoint-4770/scheduler.pt +1 -1
run-0/checkpoint-4770/trainer_state.json +121 -123
run-0/checkpoint-4770/training_args.bin +1 -1
run-1/checkpoint-3180/model.safetensors +1 -1
run-1/checkpoint-3180/optimizer.pt +1 -1
run-1/checkpoint-3180/scheduler.pt +1 -1
run-1/checkpoint-3180/trainer_state.json +79 -79
run-1/checkpoint-3180/training_args.bin +1 -1
runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729430716.87443764e281.307.0 +3 -0
runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729431620.87443764e281.307.1 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f616f630746d04c9175206b323f3efc1fba028a9d9ae24628f0eb46c4b4f6d09
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:3af5b47ba404b3ef2f87defb7e11fd5376d55cadf07c6b8c59e1c82fd72748ba
 size 268290900

run-0/checkpoint-4770/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65e5543a4e295e69fdfb44843883da15cfd3b9bf17821bac59341fd39ee8bde7
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc29d6af29939b29f91bdbace98d3cdc3a61f370227ddd284844628979bfd7c2
 size 268290900

run-0/checkpoint-4770/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9b6945fd2fa9e8dbe19a9f55c88b893d51903ad9dfef37fcbdf9ed901342acf
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:1df0e8342d5f260a38e69245d8f2ffc780a567abe7bc1be4281fa5a82d7b9111
 size 536643898

run-0/checkpoint-4770/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8801c763f9120e5f53ce15acda99946f2cd7188301cb6528dceee25f4d1655
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8840c149b61925bd5e83fa32c5310aec7035d57589d5f1f11c8325abd3ac0bf
 size 14244

run-0/checkpoint-4770/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7cafc595af315fbc075588bd6ada31386ccf077c11a4eaa4be1c5fa21a079e9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d06c54e3d86a082332e59d2e96766e07aa99bd4ff2d81ee9db09bd2d10dd61b
 size 1064

run-0/checkpoint-4770/trainer_state.json CHANGED Viewed

@@ -10,233 +10,233 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.8087115287780762,
-      "learning_rate": 1.916642112888053e-05,
-      "loss": 0.6426,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4332258064516129,
-      "eval_loss": 0.3768153786659241,
-      "eval_runtime": 2.7098,
-      "eval_samples_per_second": 1144.007,
-      "eval_steps_per_second": 23.987,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.5955724120140076,
-      "learning_rate": 2.817448208700141e-05,
-      "loss": 0.2402,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8554838709677419,
-      "eval_loss": 0.09723836928606033,
-      "eval_runtime": 2.6882,
-      "eval_samples_per_second": 1153.187,
-      "eval_steps_per_second": 24.18,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.3765904903411865,
-      "learning_rate": 2.6015074248128236e-05,
-      "loss": 0.0949,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9080645161290323,
-      "eval_loss": 0.04660297930240631,
-      "eval_runtime": 2.6607,
-      "eval_samples_per_second": 1165.117,
-      "eval_steps_per_second": 24.43,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.26715776324272156,
-      "learning_rate": 2.385566640925506e-05,
-      "loss": 0.0599,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9283870967741935,
-      "eval_loss": 0.03252074867486954,
-      "eval_runtime": 2.6662,
-      "eval_samples_per_second": 1162.716,
-      "eval_steps_per_second": 24.38,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.20171727240085602,
-      "learning_rate": 2.1696258570381886e-05,
-      "loss": 0.0462,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9309677419354838,
-      "eval_loss": 0.026936793699860573,
-      "eval_runtime": 2.6975,
-      "eval_samples_per_second": 1149.215,
-      "eval_steps_per_second": 24.096,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.21952152252197266,
-      "learning_rate": 1.9536850731508715e-05,
-      "loss": 0.0395,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9345161290322581,
-      "eval_loss": 0.023858336731791496,
-      "eval_runtime": 2.6565,
-      "eval_samples_per_second": 1166.971,
-      "eval_steps_per_second": 24.469,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.30627548694610596,
-      "learning_rate": 1.737744289263554e-05,
-      "loss": 0.0356,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.022071754559874535,
-      "eval_runtime": 2.6587,
-      "eval_samples_per_second": 1165.985,
-      "eval_steps_per_second": 24.448,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.16566617786884308,
-      "learning_rate": 1.5218035053762365e-05,
-      "loss": 0.0328,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9370967741935484,
-      "eval_loss": 0.021090181544423103,
-      "eval_runtime": 2.6745,
-      "eval_samples_per_second": 1159.074,
-      "eval_steps_per_second": 24.303,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.16504672169685364,
-      "learning_rate": 1.3058627214889192e-05,
-      "loss": 0.0308,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9348387096774193,
-      "eval_loss": 0.019647156819701195,
-      "eval_runtime": 2.6634,
-      "eval_samples_per_second": 1163.916,
-      "eval_steps_per_second": 24.405,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.1753920316696167,
-      "learning_rate": 1.0899219376016019e-05,
-      "loss": 0.0293,
       "step": 3170
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9367741935483871,
-      "eval_loss": 0.019323358312249184,
-      "eval_runtime": 2.6766,
-      "eval_samples_per_second": 1158.172,
-      "eval_steps_per_second": 24.284,
       "step": 3180
     },
     {
       "epoch": 10.965408805031446,
-      "grad_norm": 0.16472382843494415,
-      "learning_rate": 8.739811537142844e-06,
-      "loss": 0.028,
       "step": 3487
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9338709677419355,
-      "eval_loss": 0.019101083278656006,
-      "eval_runtime": 2.6594,
-      "eval_samples_per_second": 1165.659,
-      "eval_steps_per_second": 24.441,
       "step": 3498
     },
     {
       "epoch": 11.962264150943396,
-      "grad_norm": 0.1276603639125824,
-      "learning_rate": 6.580403698269671e-06,
-      "loss": 0.0271,
       "step": 3804
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9341935483870968,
-      "eval_loss": 0.018606653437018394,
-      "eval_runtime": 2.6418,
-      "eval_samples_per_second": 1173.436,
-      "eval_steps_per_second": 24.604,
       "step": 3816
     },
     {
       "epoch": 12.959119496855346,
-      "grad_norm": 0.13854487240314484,
-      "learning_rate": 4.420995859396498e-06,
-      "loss": 0.0264,
       "step": 4121
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9358064516129032,
-      "eval_loss": 0.018243877217173576,
-      "eval_runtime": 2.6544,
-      "eval_samples_per_second": 1167.882,
-      "eval_steps_per_second": 24.488,
       "step": 4134
     },
     {
       "epoch": 13.955974842767295,
-      "grad_norm": 0.1205814927816391,
-      "learning_rate": 2.2615880205233243e-06,
-      "loss": 0.0259,
       "step": 4438
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.9361290322580645,
-      "eval_loss": 0.01793498359620571,
-      "eval_runtime": 2.6531,
-      "eval_samples_per_second": 1168.457,
-      "eval_steps_per_second": 24.5,
       "step": 4452
     },
     {
       "epoch": 14.952830188679245,
-      "grad_norm": 0.13082493841648102,
-      "learning_rate": 1.0218018165015018e-07,
-      "loss": 0.0256,
       "step": 4755
     }
   ],
@@ -257,17 +257,15 @@
       "attributes": {}
     }
   },
-  "total_flos": 1259981299661700.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.41037073052052975,
-    "fp16": false,
-    "learning_rate": 2.920309591561292e-05,
-    "lr_scheduler": "cosine",
     "num_train_epochs": 15,
-    "temperature": 4,
-    "warmup_steps": 483,
-    "weight_decay": 0.1243517366819557
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.8092947006225586,
+      "learning_rate": 0.0004835195985179114,
+      "loss": 0.2576,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7422580645161291,
+      "eval_loss": 0.11835014075040817,
+      "eval_runtime": 5.4376,
+      "eval_samples_per_second": 570.107,
+      "eval_steps_per_second": 11.954,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.4659373164176941,
+      "learning_rate": 0.0004678272940120885,
+      "loss": 0.0912,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8132258064516129,
+      "eval_loss": 0.08229727298021317,
+      "eval_runtime": 5.3212,
+      "eval_samples_per_second": 582.581,
+      "eval_steps_per_second": 12.215,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.39092108607292175,
+      "learning_rate": 0.0004424318300788979,
+      "loss": 0.058,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.853225806451613,
+      "eval_loss": 0.07101583480834961,
+      "eval_runtime": 5.4193,
+      "eval_samples_per_second": 572.031,
+      "eval_steps_per_second": 11.994,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.18997839093208313,
+      "learning_rate": 0.00040843616613818045,
+      "loss": 0.0468,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8619354838709677,
+      "eval_loss": 0.061981625854969025,
+      "eval_runtime": 5.4233,
+      "eval_samples_per_second": 571.613,
+      "eval_steps_per_second": 11.985,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.57562655210495,
+      "learning_rate": 0.00036731677995288685,
+      "loss": 0.0404,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_loss": 0.05836557596921921,
+      "eval_runtime": 5.4115,
+      "eval_samples_per_second": 572.852,
+      "eval_steps_per_second": 12.011,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.656391978263855,
+      "learning_rate": 0.0003208595421986017,
+      "loss": 0.0363,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8767741935483871,
+      "eval_loss": 0.057680290192365646,
+      "eval_runtime": 5.4159,
+      "eval_samples_per_second": 572.384,
+      "eval_steps_per_second": 12.002,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.21630945801734924,
+      "learning_rate": 0.00027108215367951916,
+      "loss": 0.0284,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.05861014127731323,
+      "eval_runtime": 5.4131,
+      "eval_samples_per_second": 572.683,
+      "eval_steps_per_second": 12.008,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.07545796036720276,
+      "learning_rate": 0.00022014651384770874,
+      "loss": 0.0245,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9048387096774193,
+      "eval_loss": 0.04624096304178238,
+      "eval_runtime": 5.409,
+      "eval_samples_per_second": 573.114,
+      "eval_steps_per_second": 12.017,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.08013833314180374,
+      "learning_rate": 0.000170264826579655,
+      "loss": 0.0209,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9106451612903226,
+      "eval_loss": 0.042855095118284225,
+      "eval_runtime": 5.3995,
+      "eval_samples_per_second": 574.13,
+      "eval_steps_per_second": 12.038,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.14883077144622803,
+      "learning_rate": 0.00012360352116346234,
+      "loss": 0.0192,
       "step": 3170
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9132258064516129,
+      "eval_loss": 0.04050453379750252,
+      "eval_runtime": 5.3574,
+      "eval_samples_per_second": 578.637,
+      "eval_steps_per_second": 12.133,
       "step": 3180
     },
     {
       "epoch": 10.965408805031446,
+      "grad_norm": 0.19123013317584991,
+      "learning_rate": 8.218916133847685e-05,
+      "loss": 0.0179,
       "step": 3487
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9125806451612903,
+      "eval_loss": 0.04078555479645729,
+      "eval_runtime": 5.4382,
+      "eval_samples_per_second": 570.045,
+      "eval_steps_per_second": 11.953,
       "step": 3498
     },
     {
       "epoch": 11.962264150943396,
+      "grad_norm": 0.04665813222527504,
+      "learning_rate": 4.782042888526468e-05,
+      "loss": 0.0168,
       "step": 3804
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9141935483870968,
+      "eval_loss": 0.039393454790115356,
+      "eval_runtime": 5.4122,
+      "eval_samples_per_second": 572.776,
+      "eval_steps_per_second": 12.01,
       "step": 3816
     },
     {
       "epoch": 12.959119496855346,
+      "grad_norm": 0.05185122787952423,
+      "learning_rate": 2.1990004437934068e-05,
+      "loss": 0.016,
       "step": 4121
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.9141935483870968,
+      "eval_loss": 0.038763027638196945,
+      "eval_runtime": 5.3902,
+      "eval_samples_per_second": 575.122,
+      "eval_steps_per_second": 12.059,
       "step": 4134
     },
     {
       "epoch": 13.955974842767295,
+      "grad_norm": 0.04909258708357811,
+      "learning_rate": 5.819738341004267e-06,
+      "loss": 0.0156,
       "step": 4438
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.912258064516129,
+      "eval_loss": 0.03870353475213051,
+      "eval_runtime": 5.403,
+      "eval_samples_per_second": 573.76,
+      "eval_steps_per_second": 12.03,
       "step": 4452
     },
     {
       "epoch": 14.952830188679245,
+      "grad_norm": 0.04776826128363609,
+      "learning_rate": 1.1927168377902104e-08,
+      "loss": 0.0153,
       "step": 4755
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1236646073993904.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.6530130862589958,
+    "learning_rate": 0.0004888272055421989,
+    "lr_scheduler_type": "cosine",
     "num_train_epochs": 15,
+    "temperature": 12.988061249662817,
+    "weight_decay": 0.12001185240531148
   }
 }

run-0/checkpoint-4770/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98549b52b22df474fbbc0748be6e1194cec163ce38b8fb481e05fa237fc1202a
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcb2de51440170a957f85acebd5913a80a242d1ed0e9f3a20c96e7877c9cde03
 size 5240

run-1/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea7db98346b2c0cd208ac3ebdf7072aba54c51a3fc69db5503e7b871d7dedfce
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:3af5b47ba404b3ef2f87defb7e11fd5376d55cadf07c6b8c59e1c82fd72748ba
 size 268290900

run-1/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6cd76751c4db51ae15207a0b853b539e0e6d654f068b2b256c7097dbc214512
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:405119682f9239707233567dd5d9a60d32a1ea6f44d37d2a5571862ca57d2ead
 size 536643898

run-1/checkpoint-3180/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1c7efb9327cc6cac3837eb529885b0c020016a0b54b94de8e8090f5dcf4e6f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9817e48018a891540f49bc64fd6d77915ab61cfea36550e9faed889a7f70bc14
 size 1064

run-1/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.6745762825012207,
-      "learning_rate": 2.7360787331269834e-05,
-      "loss": 0.357,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7412903225806452,
-      "eval_loss": 0.14044521749019623,
-      "eval_runtime": 5.4763,
-      "eval_samples_per_second": 566.072,
-      "eval_steps_per_second": 11.869,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.4204491376876831,
-      "learning_rate": 2.433131838819874e-05,
-      "loss": 0.1207,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8770967741935484,
-      "eval_loss": 0.06287968158721924,
-      "eval_runtime": 5.5283,
-      "eval_samples_per_second": 560.754,
-      "eval_steps_per_second": 11.758,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.4077504873275757,
-      "learning_rate": 2.130184944512765e-05,
-      "loss": 0.0718,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9116129032258065,
-      "eval_loss": 0.04054585471749306,
-      "eval_runtime": 5.4053,
-      "eval_samples_per_second": 573.506,
-      "eval_steps_per_second": 12.025,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.2433169037103653,
-      "learning_rate": 1.8272380502056557e-05,
-      "loss": 0.0534,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9274193548387096,
-      "eval_loss": 0.03159501776099205,
-      "eval_runtime": 5.4668,
-      "eval_samples_per_second": 567.056,
-      "eval_steps_per_second": 11.89,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.21281147003173828,
-      "learning_rate": 1.5242911558985466e-05,
-      "loss": 0.0442,
       "step": 1585
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9309677419354838,
-      "eval_loss": 0.02665688283741474,
-      "eval_runtime": 5.5204,
-      "eval_samples_per_second": 561.552,
-      "eval_steps_per_second": 11.774,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.23512092232704163,
-      "learning_rate": 1.2213442615914374e-05,
-      "loss": 0.0389,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9329032258064516,
-      "eval_loss": 0.024243181571364403,
-      "eval_runtime": 5.4419,
-      "eval_samples_per_second": 569.649,
-      "eval_steps_per_second": 11.944,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.2756204605102539,
-      "learning_rate": 9.18397367284328e-06,
-      "loss": 0.0356,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9361290322580645,
-      "eval_loss": 0.02270686812698841,
-      "eval_runtime": 5.4205,
-      "eval_samples_per_second": 571.9,
-      "eval_steps_per_second": 11.991,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.1520700752735138,
-      "learning_rate": 6.154504729772188e-06,
-      "loss": 0.0336,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.021294621750712395,
-      "eval_runtime": 5.4685,
-      "eval_samples_per_second": 566.883,
-      "eval_steps_per_second": 11.886,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.2087375968694687,
-      "learning_rate": 3.1250357867010953e-06,
-      "loss": 0.0322,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.020687058568000793,
-      "eval_runtime": 5.4663,
-      "eval_samples_per_second": 567.112,
-      "eval_steps_per_second": 11.891,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.14469225704669952,
-      "learning_rate": 9.556684363000292e-08,
-      "loss": 0.0314,
       "step": 3170
     }
   ],
@@ -181,11 +181,11 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.0478722237588074,
-    "learning_rate": 3.0390256274340926e-05,
-    "lr_scheduler_type": "linear",
     "num_train_epochs": 10,
-    "temperature": 7.533742821161418,
-    "weight_decay": 0.25236012891933407
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.316487580537796,
+      "learning_rate": 0.0003250399324920357,
+      "loss": 0.2047,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.867741935483871,
+      "eval_loss": 0.06543365120887756,
+      "eval_runtime": 5.3433,
+      "eval_samples_per_second": 580.166,
+      "eval_steps_per_second": 12.165,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.5043902397155762,
+      "learning_rate": 0.00030152270079867525,
+      "loss": 0.0555,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9038709677419355,
+      "eval_loss": 0.05041499063372612,
+      "eval_runtime": 5.404,
+      "eval_samples_per_second": 573.648,
+      "eval_steps_per_second": 12.028,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.3954188823699951,
+      "learning_rate": 0.0002648777146860182,
+      "loss": 0.038,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9180645161290323,
+      "eval_loss": 0.04048455134034157,
+      "eval_runtime": 5.3969,
+      "eval_samples_per_second": 574.404,
+      "eval_steps_per_second": 12.044,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5388094186782837,
+      "learning_rate": 0.00021866970042254042,
+      "loss": 0.029,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9296774193548387,
+      "eval_loss": 0.03541301190853119,
+      "eval_runtime": 5.4403,
+      "eval_samples_per_second": 569.818,
+      "eval_steps_per_second": 11.948,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.07852072268724442,
+      "learning_rate": 0.00016739365008581398,
+      "loss": 0.0235,
       "step": 1585
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.9309677419354838,
+      "eval_loss": 0.03130786865949631,
+      "eval_runtime": 5.3733,
+      "eval_samples_per_second": 576.931,
+      "eval_steps_per_second": 12.097,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.08189109712839127,
+      "learning_rate": 0.0001160375607518124,
+      "loss": 0.0202,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9364516129032258,
+      "eval_loss": 0.02977406606078148,
+      "eval_runtime": 5.37,
+      "eval_samples_per_second": 577.282,
+      "eval_steps_per_second": 12.104,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.07439889013767242,
+      "learning_rate": 6.959721547615756e-05,
+      "loss": 0.0181,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.94,
+      "eval_loss": 0.02745823562145233,
+      "eval_runtime": 5.4422,
+      "eval_samples_per_second": 569.621,
+      "eval_steps_per_second": 11.944,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.06082445755600929,
+      "learning_rate": 3.25902068760846e-05,
+      "loss": 0.0164,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9409677419354838,
+      "eval_loss": 0.0263341274112463,
+      "eval_runtime": 5.4487,
+      "eval_samples_per_second": 568.945,
+      "eval_steps_per_second": 11.929,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.060345038771629333,
+      "learning_rate": 8.616477799677371e-06,
+      "loss": 0.0157,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9403225806451613,
+      "eval_loss": 0.025894558057188988,
+      "eval_runtime": 5.3968,
+      "eval_samples_per_second": 574.416,
+      "eval_steps_per_second": 12.044,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.05505794286727905,
+      "learning_rate": 8.128511055690263e-09,
+      "loss": 0.0154,
       "step": 3170
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7646743801285832,
+    "learning_rate": 0.00033314171634682974,
+    "lr_scheduler_type": "cosine",
     "num_train_epochs": 10,
+    "temperature": 5.485237170675724,
+    "weight_decay": 0.1816702846280333
   }
 }

run-1/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bea033762087a013bcaa4855bf7aa0df6974842e0d16f839e7b485dbf4ad1b90
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8997ba64c78b786621c16831c31cf39c03bf94132fb6b567c38b51563d00871
 size 5240

runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729430716.87443764e281.307.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb6900bdfa3d451111dd92904bbb5c6458b693a6f5700b92ca4667aa36b2e01d
+size 20862

runs/Oct20_13-24-54_87443764e281/events.out.tfevents.1729431620.87443764e281.307.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65101625d9bfcf5ad22ec451c8698810ccd3415b2f61a9476a74da5e9eded3f3
+size 18155

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c744f9b5cd82a802cdd7073267f096e67cf946c7be55e97ab845307ca43ebf7
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8997ba64c78b786621c16831c31cf39c03bf94132fb6b567c38b51563d00871
 size 5240