🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +9 -9
eval_results.json +5 -5
runs/Mar23_01-10-51_3ec072334407/events.out.tfevents.1711156669.3ec072334407.4424.3 +3 -0
train_results.json +4 -4
trainer_state.json +158 -158

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - renovation
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: renovation
       type: renovation
       config: default
       split: validation
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.6986301369863014
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-base-beans-demo-v5
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the renovation dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0644
-- Accuracy: 0.6986
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - renovation
       name: Image Classification
       type: image-classification
     dataset:
+      name: beans
       type: renovation
       config: default
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.634703196347032
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # vit-base-beans-demo-v5
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the beans dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9295
+- Accuracy: 0.6347
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.6575342465753424,
-    "eval_loss": 0.7924718260765076,
-    "eval_runtime": 8.3551,
-    "eval_samples_per_second": 26.211,
-    "eval_steps_per_second": 3.351,
     "total_flos": 6.10974224738132e+17,
-    "train_loss": 0.575864625193419,
-    "train_runtime": 402.9871,
-    "train_samples_per_second": 19.564,
-    "train_steps_per_second": 1.231
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.634703196347032,
+    "eval_loss": 0.929534375667572,
+    "eval_runtime": 8.1809,
+    "eval_samples_per_second": 26.77,
+    "eval_steps_per_second": 3.423,
     "total_flos": 6.10974224738132e+17,
+    "train_loss": 0.25425288126233125,
+    "train_runtime": 387.3536,
+    "train_samples_per_second": 20.353,
+    "train_steps_per_second": 1.28
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.6575342465753424,
-    "eval_loss": 0.7924718260765076,
-    "eval_runtime": 8.3551,
-    "eval_samples_per_second": 26.211,
-    "eval_steps_per_second": 3.351
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.634703196347032,
+    "eval_loss": 0.929534375667572,
+    "eval_runtime": 8.1809,
+    "eval_samples_per_second": 26.77,
+    "eval_steps_per_second": 3.423
 }

runs/Mar23_01-10-51_3ec072334407/events.out.tfevents.1711156669.3ec072334407.4424.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96afcb793b77d2098984a2dd0f40df476315a1abd58cc3e95b750d11c3ec1f2e
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 6.10974224738132e+17,
-    "train_loss": 0.575864625193419,
-    "train_runtime": 402.9871,
-    "train_samples_per_second": 19.564,
-    "train_steps_per_second": 1.231
 }

 {
     "epoch": 4.0,
     "total_flos": 6.10974224738132e+17,
+    "train_loss": 0.25425288126233125,
+    "train_runtime": 387.3536,
+    "train_samples_per_second": 20.353,
+    "train_steps_per_second": 1.28
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.7924718260765076,
-  "best_model_checkpoint": "./vit-base-beans-demo-v5/checkpoint-200",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 496,
@@ -10,391 +10,391 @@
   "log_history": [
     {
       "epoch": 0.08,
-      "grad_norm": 2.0731146335601807,
       "learning_rate": 0.00019596774193548388,
-      "loss": 1.5546,
       "step": 10
     },
     {
       "epoch": 0.16,
-      "grad_norm": 1.9955084323883057,
       "learning_rate": 0.00019193548387096775,
-      "loss": 1.3431,
       "step": 20
     },
     {
       "epoch": 0.24,
-      "grad_norm": 1.4386166334152222,
       "learning_rate": 0.00018790322580645164,
-      "loss": 1.1702,
       "step": 30
     },
     {
       "epoch": 0.32,
-      "grad_norm": 2.1243135929107666,
       "learning_rate": 0.00018387096774193548,
-      "loss": 1.1703,
       "step": 40
     },
     {
       "epoch": 0.4,
-      "grad_norm": 1.4760087728500366,
       "learning_rate": 0.00017983870967741935,
-      "loss": 1.0635,
       "step": 50
     },
     {
       "epoch": 0.48,
-      "grad_norm": 1.3573176860809326,
       "learning_rate": 0.00017580645161290325,
-      "loss": 1.0524,
       "step": 60
     },
     {
       "epoch": 0.56,
-      "grad_norm": 3.1192474365234375,
       "learning_rate": 0.00017177419354838711,
-      "loss": 1.0872,
       "step": 70
     },
     {
       "epoch": 0.65,
-      "grad_norm": 2.4728469848632812,
       "learning_rate": 0.00016774193548387098,
-      "loss": 0.87,
       "step": 80
     },
     {
       "epoch": 0.73,
-      "grad_norm": 3.819819688796997,
       "learning_rate": 0.00016370967741935485,
-      "loss": 1.2173,
       "step": 90
     },
     {
       "epoch": 0.81,
-      "grad_norm": 1.585181713104248,
       "learning_rate": 0.00015967741935483872,
-      "loss": 1.1711,
       "step": 100
     },
     {
       "epoch": 0.81,
-      "eval_accuracy": 0.5981735159817352,
-      "eval_loss": 1.0254943370819092,
-      "eval_runtime": 7.7395,
-      "eval_samples_per_second": 28.296,
-      "eval_steps_per_second": 3.618,
       "step": 100
     },
     {
       "epoch": 0.89,
-      "grad_norm": 1.5606015920639038,
       "learning_rate": 0.0001556451612903226,
-      "loss": 0.9609,
       "step": 110
     },
     {
       "epoch": 0.97,
-      "grad_norm": 2.0005290508270264,
       "learning_rate": 0.00015161290322580646,
-      "loss": 0.8673,
       "step": 120
     },
     {
       "epoch": 1.05,
-      "grad_norm": 1.7934025526046753,
       "learning_rate": 0.00014758064516129032,
-      "loss": 0.7807,
       "step": 130
     },
     {
       "epoch": 1.13,
-      "grad_norm": 2.0995261669158936,
       "learning_rate": 0.00014354838709677422,
-      "loss": 0.7211,
       "step": 140
     },
     {
       "epoch": 1.21,
-      "grad_norm": 1.2384763956069946,
-      "learning_rate": 0.0001395161290322581,
-      "loss": 0.8051,
       "step": 150
     },
     {
       "epoch": 1.29,
-      "grad_norm": 3.001422643661499,
-      "learning_rate": 0.00013548387096774193,
-      "loss": 0.9052,
       "step": 160
     },
     {
       "epoch": 1.37,
-      "grad_norm": 1.8868207931518555,
-      "learning_rate": 0.0001314516129032258,
-      "loss": 0.7217,
       "step": 170
     },
     {
       "epoch": 1.45,
-      "grad_norm": 1.7666105031967163,
-      "learning_rate": 0.0001274193548387097,
-      "loss": 0.728,
       "step": 180
     },
     {
       "epoch": 1.53,
-      "grad_norm": 2.378178358078003,
-      "learning_rate": 0.00012338709677419356,
-      "loss": 0.7242,
       "step": 190
     },
     {
       "epoch": 1.61,
-      "grad_norm": 2.4882402420043945,
-      "learning_rate": 0.00011935483870967743,
-      "loss": 0.7083,
       "step": 200
     },
     {
       "epoch": 1.61,
       "eval_accuracy": 0.6575342465753424,
-      "eval_loss": 0.7924718260765076,
-      "eval_runtime": 7.9712,
-      "eval_samples_per_second": 27.474,
-      "eval_steps_per_second": 3.513,
       "step": 200
     },
     {
       "epoch": 1.69,
-      "grad_norm": 3.762314796447754,
-      "learning_rate": 0.00011532258064516131,
-      "loss": 0.6794,
       "step": 210
     },
     {
       "epoch": 1.77,
-      "grad_norm": 1.8527878522872925,
-      "learning_rate": 0.00011129032258064515,
-      "loss": 0.5424,
       "step": 220
     },
     {
       "epoch": 1.85,
-      "grad_norm": 2.1447601318359375,
-      "learning_rate": 0.00010725806451612903,
-      "loss": 0.7186,
       "step": 230
     },
     {
       "epoch": 1.94,
-      "grad_norm": 2.2273943424224854,
-      "learning_rate": 0.0001032258064516129,
-      "loss": 0.7786,
       "step": 240
     },
     {
       "epoch": 2.02,
-      "grad_norm": 1.1381219625473022,
-      "learning_rate": 9.919354838709678e-05,
-      "loss": 0.5616,
       "step": 250
     },
     {
       "epoch": 2.1,
-      "grad_norm": 1.41716730594635,
-      "learning_rate": 9.516129032258065e-05,
-      "loss": 0.3615,
       "step": 260
     },
     {
       "epoch": 2.18,
-      "grad_norm": 1.193400263786316,
-      "learning_rate": 9.112903225806452e-05,
-      "loss": 0.3589,
       "step": 270
     },
     {
       "epoch": 2.26,
-      "grad_norm": 1.1476421356201172,
-      "learning_rate": 8.709677419354839e-05,
-      "loss": 0.302,
       "step": 280
     },
     {
       "epoch": 2.34,
-      "grad_norm": 2.02689790725708,
-      "learning_rate": 8.306451612903227e-05,
-      "loss": 0.4161,
       "step": 290
     },
     {
       "epoch": 2.42,
-      "grad_norm": 1.2040166854858398,
-      "learning_rate": 7.903225806451613e-05,
-      "loss": 0.2479,
       "step": 300
     },
     {
       "epoch": 2.42,
-      "eval_accuracy": 0.6940639269406392,
-      "eval_loss": 0.871184766292572,
-      "eval_runtime": 7.1874,
-      "eval_samples_per_second": 30.47,
-      "eval_steps_per_second": 3.896,
       "step": 300
     },
     {
       "epoch": 2.5,
-      "grad_norm": 4.465162754058838,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 0.2949,
       "step": 310
     },
     {
       "epoch": 2.58,
-      "grad_norm": 2.3733272552490234,
-      "learning_rate": 7.096774193548388e-05,
-      "loss": 0.2599,
       "step": 320
     },
     {
       "epoch": 2.66,
-      "grad_norm": 3.527358293533325,
-      "learning_rate": 6.693548387096774e-05,
-      "loss": 0.4337,
       "step": 330
     },
     {
       "epoch": 2.74,
-      "grad_norm": 2.8637776374816895,
-      "learning_rate": 6.290322580645161e-05,
-      "loss": 0.3137,
       "step": 340
     },
     {
       "epoch": 2.82,
-      "grad_norm": 4.198659896850586,
-      "learning_rate": 5.887096774193549e-05,
-      "loss": 0.3192,
       "step": 350
     },
     {
       "epoch": 2.9,
-      "grad_norm": 4.358771324157715,
-      "learning_rate": 5.4838709677419355e-05,
-      "loss": 0.3796,
       "step": 360
     },
     {
       "epoch": 2.98,
-      "grad_norm": 3.1412558555603027,
-      "learning_rate": 5.080645161290323e-05,
-      "loss": 0.2622,
       "step": 370
     },
     {
       "epoch": 3.06,
-      "grad_norm": 1.4319863319396973,
-      "learning_rate": 4.67741935483871e-05,
-      "loss": 0.2016,
       "step": 380
     },
     {
       "epoch": 3.15,
-      "grad_norm": 0.5633509755134583,
-      "learning_rate": 4.2741935483870973e-05,
-      "loss": 0.1276,
       "step": 390
     },
     {
       "epoch": 3.23,
-      "grad_norm": 0.31856054067611694,
-      "learning_rate": 3.870967741935484e-05,
-      "loss": 0.127,
       "step": 400
     },
     {
       "epoch": 3.23,
-      "eval_accuracy": 0.6940639269406392,
-      "eval_loss": 0.8440136313438416,
-      "eval_runtime": 7.6031,
-      "eval_samples_per_second": 28.804,
-      "eval_steps_per_second": 3.683,
       "step": 400
     },
     {
       "epoch": 3.31,
-      "grad_norm": 0.2085038274526596,
-      "learning_rate": 3.467741935483872e-05,
-      "loss": 0.1289,
       "step": 410
     },
     {
       "epoch": 3.39,
-      "grad_norm": 2.471668004989624,
-      "learning_rate": 3.0645161290322585e-05,
-      "loss": 0.1495,
       "step": 420
     },
     {
       "epoch": 3.47,
-      "grad_norm": 1.026688575744629,
-      "learning_rate": 2.661290322580645e-05,
-      "loss": 0.1389,
       "step": 430
     },
     {
       "epoch": 3.55,
-      "grad_norm": 4.408120155334473,
-      "learning_rate": 2.258064516129032e-05,
-      "loss": 0.1799,
       "step": 440
     },
     {
       "epoch": 3.63,
-      "grad_norm": 1.7386049032211304,
-      "learning_rate": 1.8548387096774193e-05,
-      "loss": 0.0727,
       "step": 450
     },
     {
       "epoch": 3.71,
-      "grad_norm": 0.9766908884048462,
-      "learning_rate": 1.4516129032258066e-05,
-      "loss": 0.1062,
       "step": 460
     },
     {
       "epoch": 3.79,
-      "grad_norm": 0.2413896918296814,
-      "learning_rate": 1.0483870967741936e-05,
-      "loss": 0.1303,
       "step": 470
     },
     {
       "epoch": 3.87,
-      "grad_norm": 1.249718427658081,
-      "learning_rate": 6.451612903225806e-06,
-      "loss": 0.1025,
       "step": 480
     },
     {
       "epoch": 3.95,
-      "grad_norm": 3.0604677200317383,
-      "learning_rate": 2.4193548387096776e-06,
-      "loss": 0.1515,
       "step": 490
     },
     {
       "epoch": 4.0,
       "step": 496,
       "total_flos": 6.10974224738132e+17,
-      "train_loss": 0.575864625193419,
-      "train_runtime": 402.9871,
-      "train_samples_per_second": 19.564,
-      "train_steps_per_second": 1.231
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.929534375667572,
+  "best_model_checkpoint": "./vit-base-beans-demo-v5/checkpoint-100",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 496,
   "log_history": [
     {
       "epoch": 0.08,
+      "grad_norm": 1.9071108102798462,
       "learning_rate": 0.00019596774193548388,
+      "loss": 0.7806,
       "step": 10
     },
     {
       "epoch": 0.16,
+      "grad_norm": 2.2380499839782715,
       "learning_rate": 0.00019193548387096775,
+      "loss": 0.7214,
       "step": 20
     },
     {
       "epoch": 0.24,
+      "grad_norm": 1.4890930652618408,
       "learning_rate": 0.00018790322580645164,
+      "loss": 0.6215,
       "step": 30
     },
     {
       "epoch": 0.32,
+      "grad_norm": 3.2323720455169678,
       "learning_rate": 0.00018387096774193548,
+      "loss": 0.6378,
       "step": 40
     },
     {
       "epoch": 0.4,
+      "grad_norm": 2.838930606842041,
       "learning_rate": 0.00017983870967741935,
+      "loss": 0.7502,
       "step": 50
     },
     {
       "epoch": 0.48,
+      "grad_norm": 3.2034356594085693,
       "learning_rate": 0.00017580645161290325,
+      "loss": 0.5904,
       "step": 60
     },
     {
       "epoch": 0.56,
+      "grad_norm": 3.1891825199127197,
       "learning_rate": 0.00017177419354838711,
+      "loss": 0.5718,
       "step": 70
     },
     {
       "epoch": 0.65,
+      "grad_norm": 2.0921356678009033,
       "learning_rate": 0.00016774193548387098,
+      "loss": 0.3783,
       "step": 80
     },
     {
       "epoch": 0.73,
+      "grad_norm": 2.864804983139038,
       "learning_rate": 0.00016370967741935485,
+      "loss": 0.6002,
       "step": 90
     },
     {
       "epoch": 0.81,
+      "grad_norm": 3.1752126216888428,
       "learning_rate": 0.00015967741935483872,
+      "loss": 0.6438,
       "step": 100
     },
     {
       "epoch": 0.81,
+      "eval_accuracy": 0.634703196347032,
+      "eval_loss": 0.929534375667572,
+      "eval_runtime": 7.2962,
+      "eval_samples_per_second": 30.016,
+      "eval_steps_per_second": 3.838,
       "step": 100
     },
     {
       "epoch": 0.89,
+      "grad_norm": 2.728193521499634,
       "learning_rate": 0.0001556451612903226,
+      "loss": 0.5441,
       "step": 110
     },
     {
       "epoch": 0.97,
+      "grad_norm": 2.140393018722534,
       "learning_rate": 0.00015161290322580646,
+      "loss": 0.4403,
       "step": 120
     },
     {
       "epoch": 1.05,
+      "grad_norm": 0.6765386462211609,
       "learning_rate": 0.00014758064516129032,
+      "loss": 0.3251,
       "step": 130
     },
     {
       "epoch": 1.13,
+      "grad_norm": 0.9497590661048889,
       "learning_rate": 0.00014354838709677422,
+      "loss": 0.2046,
       "step": 140
     },
     {
       "epoch": 1.21,
+      "grad_norm": 4.010074615478516,
+      "learning_rate": 0.00013991935483870967,
+      "loss": 0.3276,
       "step": 150
     },
     {
       "epoch": 1.29,
+      "grad_norm": 3.7631189823150635,
+      "learning_rate": 0.00013588709677419357,
+      "loss": 0.2937,
       "step": 160
     },
     {
       "epoch": 1.37,
+      "grad_norm": 0.5803029537200928,
+      "learning_rate": 0.00013185483870967743,
+      "loss": 0.1906,
       "step": 170
     },
     {
       "epoch": 1.45,
+      "grad_norm": 5.088043212890625,
+      "learning_rate": 0.0001278225806451613,
+      "loss": 0.2207,
       "step": 180
     },
     {
       "epoch": 1.53,
+      "grad_norm": 2.3816022872924805,
+      "learning_rate": 0.00012379032258064514,
+      "loss": 0.1919,
       "step": 190
     },
     {
       "epoch": 1.61,
+      "grad_norm": 5.558553218841553,
+      "learning_rate": 0.00011975806451612903,
+      "loss": 0.3105,
       "step": 200
     },
     {
       "epoch": 1.61,
       "eval_accuracy": 0.6575342465753424,
+      "eval_loss": 0.9350173473358154,
+      "eval_runtime": 7.7793,
+      "eval_samples_per_second": 28.152,
+      "eval_steps_per_second": 3.599,
       "step": 200
     },
     {
       "epoch": 1.69,
+      "grad_norm": 3.439823865890503,
+      "learning_rate": 0.00011572580645161291,
+      "loss": 0.3714,
       "step": 210
     },
     {
       "epoch": 1.77,
+      "grad_norm": 2.6023850440979004,
+      "learning_rate": 0.00011169354838709678,
+      "loss": 0.2869,
       "step": 220
     },
     {
       "epoch": 1.85,
+      "grad_norm": 3.2238519191741943,
+      "learning_rate": 0.00010766129032258066,
+      "loss": 0.4462,
       "step": 230
     },
     {
       "epoch": 1.94,
+      "grad_norm": 1.0531260967254639,
+      "learning_rate": 0.00010362903225806453,
+      "loss": 0.3634,
       "step": 240
     },
     {
       "epoch": 2.02,
+      "grad_norm": 0.5729889869689941,
+      "learning_rate": 9.95967741935484e-05,
+      "loss": 0.2624,
       "step": 250
     },
     {
       "epoch": 2.1,
+      "grad_norm": 0.1924820989370346,
+      "learning_rate": 9.556451612903226e-05,
+      "loss": 0.0999,
       "step": 260
     },
     {
       "epoch": 2.18,
+      "grad_norm": 0.39775505661964417,
+      "learning_rate": 9.153225806451613e-05,
+      "loss": 0.0938,
       "step": 270
     },
     {
       "epoch": 2.26,
+      "grad_norm": 0.22179947793483734,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1017,
       "step": 280
     },
     {
       "epoch": 2.34,
+      "grad_norm": 1.6249357461929321,
+      "learning_rate": 8.346774193548388e-05,
+      "loss": 0.1745,
       "step": 290
     },
     {
       "epoch": 2.42,
+      "grad_norm": 0.34801536798477173,
+      "learning_rate": 7.943548387096774e-05,
+      "loss": 0.0634,
       "step": 300
     },
     {
       "epoch": 2.42,
+      "eval_accuracy": 0.6894977168949772,
+      "eval_loss": 1.0781886577606201,
+      "eval_runtime": 7.6715,
+      "eval_samples_per_second": 28.547,
+      "eval_steps_per_second": 3.65,
       "step": 300
     },
     {
       "epoch": 2.5,
+      "grad_norm": 2.6541597843170166,
+      "learning_rate": 7.540322580645162e-05,
+      "loss": 0.0772,
       "step": 310
     },
     {
       "epoch": 2.58,
+      "grad_norm": 0.1635380983352661,
+      "learning_rate": 7.137096774193549e-05,
+      "loss": 0.1042,
       "step": 320
     },
     {
       "epoch": 2.66,
+      "grad_norm": 1.126976490020752,
+      "learning_rate": 6.733870967741935e-05,
+      "loss": 0.1643,
       "step": 330
     },
     {
       "epoch": 2.74,
+      "grad_norm": 0.2140628844499588,
+      "learning_rate": 6.330645161290322e-05,
+      "loss": 0.0479,
       "step": 340
     },
     {
       "epoch": 2.82,
+      "grad_norm": 0.14856065809726715,
+      "learning_rate": 5.9274193548387104e-05,
+      "loss": 0.0606,
       "step": 350
     },
     {
       "epoch": 2.9,
+      "grad_norm": 1.9021470546722412,
+      "learning_rate": 5.5241935483870966e-05,
+      "loss": 0.0576,
       "step": 360
     },
     {
       "epoch": 2.98,
+      "grad_norm": 0.488421767950058,
+      "learning_rate": 5.120967741935484e-05,
+      "loss": 0.1573,
       "step": 370
     },
     {
       "epoch": 3.06,
+      "grad_norm": 0.27475953102111816,
+      "learning_rate": 4.7177419354838716e-05,
+      "loss": 0.0264,
       "step": 380
     },
     {
       "epoch": 3.15,
+      "grad_norm": 0.08814023435115814,
+      "learning_rate": 4.3145161290322584e-05,
+      "loss": 0.0197,
       "step": 390
     },
     {
       "epoch": 3.23,
+      "grad_norm": 0.10707065463066101,
+      "learning_rate": 3.911290322580645e-05,
+      "loss": 0.0257,
       "step": 400
     },
     {
       "epoch": 3.23,
+      "eval_accuracy": 0.6986301369863014,
+      "eval_loss": 1.06435227394104,
+      "eval_runtime": 7.0971,
+      "eval_samples_per_second": 30.858,
+      "eval_steps_per_second": 3.945,
       "step": 400
     },
     {
       "epoch": 3.31,
+      "grad_norm": 0.06996390968561172,
+      "learning_rate": 3.508064516129033e-05,
+      "loss": 0.0192,
       "step": 410
     },
     {
       "epoch": 3.39,
+      "grad_norm": 1.358115315437317,
+      "learning_rate": 3.1048387096774195e-05,
+      "loss": 0.0431,
       "step": 420
     },
     {
       "epoch": 3.47,
+      "grad_norm": 0.4962191581726074,
+      "learning_rate": 2.7016129032258064e-05,
+      "loss": 0.0573,
       "step": 430
     },
     {
       "epoch": 3.55,
+      "grad_norm": 0.08283121138811111,
+      "learning_rate": 2.2983870967741935e-05,
+      "loss": 0.0216,
       "step": 440
     },
     {
       "epoch": 3.63,
+      "grad_norm": 0.06285007297992706,
+      "learning_rate": 1.8951612903225807e-05,
+      "loss": 0.0169,
       "step": 450
     },
     {
       "epoch": 3.71,
+      "grad_norm": 0.10198648273944855,
+      "learning_rate": 1.4919354838709679e-05,
+      "loss": 0.0188,
       "step": 460
     },
     {
       "epoch": 3.79,
+      "grad_norm": 1.5539321899414062,
+      "learning_rate": 1.0887096774193549e-05,
+      "loss": 0.0227,
       "step": 470
     },
     {
       "epoch": 3.87,
+      "grad_norm": 0.06271003931760788,
+      "learning_rate": 6.854838709677419e-06,
+      "loss": 0.0212,
       "step": 480
     },
     {
       "epoch": 3.95,
+      "grad_norm": 0.1244824230670929,
+      "learning_rate": 2.82258064516129e-06,
+      "loss": 0.0183,
       "step": 490
     },
     {
       "epoch": 4.0,
       "step": 496,
       "total_flos": 6.10974224738132e+17,
+      "train_loss": 0.25425288126233125,
+      "train_runtime": 387.3536,
+      "train_samples_per_second": 20.353,
+      "train_steps_per_second": 1.28
     }
   ],
   "logging_steps": 10,