🍻 cheers

Browse files

Files changed (9) hide show

README.md +8 -8
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/May30_16-40-21_ia2/events.out.tfevents.1717123221.ia2.93874.0 +3 -0
runs/May30_16-40-21_ia2/events.out.tfevents.1717123496.ia2.93874.1 +3 -0
train_results.json +4 -4
trainer_state.json +142 -142
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9965156794425087
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the PI dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0211
-- Accuracy: 0.9965
 ## Model description
@@ -66,11 +66,11 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
-| 0.1376        | 0.6944 | 100  | 0.1688          | 0.9615   |
-| 0.118         | 1.3889 | 200  | 0.0646          | 0.9965   |
-| 0.0577        | 2.0833 | 300  | 0.0477          | 0.9965   |
-| 0.0173        | 2.7778 | 400  | 0.0411          | 0.9965   |
-| 0.0144        | 3.4722 | 500  | 0.0388          | 0.9965   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 1.0
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the PI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0163
+- Accuracy: 1.0
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.1419        | 0.6944 | 100  | 0.1322          | 0.9860   |
+| 0.0526        | 1.3889 | 200  | 0.0472          | 0.9965   |
+| 0.0287        | 2.0833 | 300  | 0.0333          | 0.9965   |
+| 0.0193        | 2.7778 | 400  | 0.0171          | 1.0      |
+| 0.0159        | 3.4722 | 500  | 0.0146          | 1.0      |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.9965156794425087,
-    "eval_loss": 0.02105898968875408,
-    "eval_runtime": 7.2778,
-    "eval_samples_per_second": 39.435,
-    "eval_steps_per_second": 4.947,
     "total_flos": 7.098775204818125e+17,
-    "train_loss": 0.13178436623679268,
-    "train_runtime": 254.2759,
-    "train_samples_per_second": 36.024,
-    "train_steps_per_second": 2.265
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.01626792922616005,
+    "eval_runtime": 6.0393,
+    "eval_samples_per_second": 47.522,
+    "eval_steps_per_second": 5.961,
     "total_flos": 7.098775204818125e+17,
+    "train_loss": 0.1334557549821006,
+    "train_runtime": 266.3685,
+    "train_samples_per_second": 34.388,
+    "train_steps_per_second": 2.162
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.9965156794425087,
-    "eval_loss": 0.02105898968875408,
-    "eval_runtime": 7.2778,
-    "eval_samples_per_second": 39.435,
-    "eval_steps_per_second": 4.947
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.01626792922616005,
+    "eval_runtime": 6.0393,
+    "eval_samples_per_second": 47.522,
+    "eval_steps_per_second": 5.961
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e517decb2caf413d13e46c6746c4b91dff56a68f150fe15187be009e8b85f377
 size 343248584

 version https://git-lfs.github.com/spec/v1
+oid sha256:25e7ef1dafcb7c057ec0e7b0bb6600646c533c67db2aac2757edb1a9aaecb07b
 size 343248584

runs/May30_16-40-21_ia2/events.out.tfevents.1717123221.ia2.93874.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a637a0242c755cbab3a463304ee960d690a2dcf4d4712ea4d7efe3cfe931352
+size 19130

runs/May30_16-40-21_ia2/events.out.tfevents.1717123496.ia2.93874.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f2b388dd1d8be59f2b8fec6f03116eb9bccfb1058cfd466d45b3784eb69f2b1
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 7.098775204818125e+17,
-    "train_loss": 0.13178436623679268,
-    "train_runtime": 254.2759,
-    "train_samples_per_second": 36.024,
-    "train_steps_per_second": 2.265
 }

 {
     "epoch": 4.0,
     "total_flos": 7.098775204818125e+17,
+    "train_loss": 0.1334557549821006,
+    "train_runtime": 266.3685,
+    "train_samples_per_second": 34.388,
+    "train_steps_per_second": 2.162
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.03876994550228119,
   "best_model_checkpoint": "./vit-base-beans-demo-v5/checkpoint-500",
   "epoch": 4.0,
   "eval_steps": 100,
@@ -10,456 +10,456 @@
   "log_history": [
     {
       "epoch": 0.06944444444444445,
-      "grad_norm": 2.4600603580474854,
       "learning_rate": 0.00019652777777777778,
-      "loss": 1.8393,
       "step": 10
     },
     {
       "epoch": 0.1388888888888889,
-      "grad_norm": 1.4042320251464844,
       "learning_rate": 0.00019305555555555558,
-      "loss": 0.9721,
       "step": 20
     },
     {
       "epoch": 0.20833333333333334,
-      "grad_norm": 1.235952377319336,
       "learning_rate": 0.00018958333333333332,
-      "loss": 0.5816,
       "step": 30
     },
     {
       "epoch": 0.2777777777777778,
-      "grad_norm": 1.2638784646987915,
       "learning_rate": 0.00018611111111111112,
-      "loss": 0.4838,
       "step": 40
     },
     {
       "epoch": 0.3472222222222222,
-      "grad_norm": 0.9704089164733887,
       "learning_rate": 0.0001826388888888889,
-      "loss": 0.3212,
       "step": 50
     },
     {
       "epoch": 0.4166666666666667,
-      "grad_norm": 0.7244225144386292,
       "learning_rate": 0.0001791666666666667,
-      "loss": 0.2843,
       "step": 60
     },
     {
       "epoch": 0.4861111111111111,
-      "grad_norm": 0.7570533752441406,
       "learning_rate": 0.00017569444444444444,
-      "loss": 0.2432,
       "step": 70
     },
     {
       "epoch": 0.5555555555555556,
-      "grad_norm": 0.41577884554862976,
       "learning_rate": 0.00017222222222222224,
-      "loss": 0.1928,
       "step": 80
     },
     {
       "epoch": 0.625,
-      "grad_norm": 1.37990403175354,
       "learning_rate": 0.00016875,
-      "loss": 0.1359,
       "step": 90
     },
     {
       "epoch": 0.6944444444444444,
-      "grad_norm": 0.6095549464225769,
       "learning_rate": 0.00016527777777777778,
-      "loss": 0.1376,
       "step": 100
     },
     {
       "epoch": 0.6944444444444444,
-      "eval_accuracy": 0.9615384615384616,
-      "eval_loss": 0.1687990128993988,
-      "eval_runtime": 7.6613,
-      "eval_samples_per_second": 37.33,
-      "eval_steps_per_second": 4.699,
       "step": 100
     },
     {
       "epoch": 0.7638888888888888,
-      "grad_norm": 0.6277338862419128,
       "learning_rate": 0.00016180555555555555,
-      "loss": 0.2551,
       "step": 110
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 0.41842982172966003,
       "learning_rate": 0.00015833333333333332,
-      "loss": 0.1389,
       "step": 120
     },
     {
       "epoch": 0.9027777777777778,
-      "grad_norm": 0.2750444710254669,
       "learning_rate": 0.00015486111111111112,
-      "loss": 0.1288,
       "step": 130
     },
     {
       "epoch": 0.9722222222222222,
-      "grad_norm": 0.9007502794265747,
       "learning_rate": 0.0001513888888888889,
-      "loss": 0.1599,
       "step": 140
     },
     {
       "epoch": 1.0416666666666667,
-      "grad_norm": 1.015663743019104,
       "learning_rate": 0.0001479166666666667,
-      "loss": 0.0792,
       "step": 150
     },
     {
       "epoch": 1.1111111111111112,
-      "grad_norm": 0.24419890344142914,
       "learning_rate": 0.00014444444444444444,
-      "loss": 0.0615,
       "step": 160
     },
     {
       "epoch": 1.1805555555555556,
-      "grad_norm": 0.1380215436220169,
       "learning_rate": 0.00014097222222222224,
-      "loss": 0.1063,
       "step": 170
     },
     {
       "epoch": 1.25,
-      "grad_norm": 0.13301153481006622,
       "learning_rate": 0.0001375,
-      "loss": 0.0677,
       "step": 180
     },
     {
       "epoch": 1.3194444444444444,
-      "grad_norm": 0.2744269371032715,
       "learning_rate": 0.00013402777777777778,
-      "loss": 0.0968,
       "step": 190
     },
     {
       "epoch": 1.3888888888888888,
-      "grad_norm": 0.5383425354957581,
       "learning_rate": 0.00013055555555555555,
-      "loss": 0.118,
       "step": 200
     },
     {
       "epoch": 1.3888888888888888,
       "eval_accuracy": 0.9965034965034965,
-      "eval_loss": 0.06459621340036392,
-      "eval_runtime": 7.5081,
-      "eval_samples_per_second": 38.092,
-      "eval_steps_per_second": 4.795,
       "step": 200
     },
     {
       "epoch": 1.4583333333333333,
-      "grad_norm": 0.37974077463150024,
       "learning_rate": 0.00012708333333333332,
-      "loss": 0.0472,
       "step": 210
     },
     {
       "epoch": 1.5277777777777777,
-      "grad_norm": 0.20153988897800446,
       "learning_rate": 0.00012361111111111112,
-      "loss": 0.085,
       "step": 220
     },
     {
       "epoch": 1.5972222222222223,
-      "grad_norm": 0.7164504528045654,
       "learning_rate": 0.0001201388888888889,
-      "loss": 0.076,
       "step": 230
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 1.181801199913025,
       "learning_rate": 0.00011666666666666668,
-      "loss": 0.0585,
       "step": 240
     },
     {
       "epoch": 1.7361111111111112,
-      "grad_norm": 2.0799129009246826,
       "learning_rate": 0.00011319444444444445,
-      "loss": 0.0579,
       "step": 250
     },
     {
       "epoch": 1.8055555555555556,
-      "grad_norm": 0.0939866229891777,
       "learning_rate": 0.00010972222222222224,
-      "loss": 0.0465,
       "step": 260
     },
     {
       "epoch": 1.875,
-      "grad_norm": 1.2291529178619385,
       "learning_rate": 0.00010625000000000001,
-      "loss": 0.0465,
       "step": 270
     },
     {
       "epoch": 1.9444444444444444,
-      "grad_norm": 0.07826738804578781,
       "learning_rate": 0.00010277777777777778,
-      "loss": 0.0897,
       "step": 280
     },
     {
       "epoch": 2.013888888888889,
-      "grad_norm": 0.06389256566762924,
       "learning_rate": 9.930555555555556e-05,
-      "loss": 0.0315,
       "step": 290
     },
     {
       "epoch": 2.0833333333333335,
-      "grad_norm": 0.13038600981235504,
       "learning_rate": 9.583333333333334e-05,
-      "loss": 0.0577,
       "step": 300
     },
     {
       "epoch": 2.0833333333333335,
       "eval_accuracy": 0.9965034965034965,
-      "eval_loss": 0.047682277858257294,
-      "eval_runtime": 7.6351,
-      "eval_samples_per_second": 37.458,
-      "eval_steps_per_second": 4.715,
       "step": 300
     },
     {
       "epoch": 2.1527777777777777,
-      "grad_norm": 0.05548238009214401,
       "learning_rate": 9.236111111111112e-05,
-      "loss": 0.0229,
       "step": 310
     },
     {
       "epoch": 2.2222222222222223,
-      "grad_norm": 0.07223138958215714,
       "learning_rate": 8.888888888888889e-05,
-      "loss": 0.0271,
       "step": 320
     },
     {
       "epoch": 2.2916666666666665,
-      "grad_norm": 0.06333193182945251,
       "learning_rate": 8.541666666666666e-05,
-      "loss": 0.0649,
       "step": 330
     },
     {
       "epoch": 2.361111111111111,
-      "grad_norm": 0.060907524079084396,
       "learning_rate": 8.194444444444445e-05,
-      "loss": 0.0232,
       "step": 340
     },
     {
       "epoch": 2.4305555555555554,
-      "grad_norm": 0.08943555504083633,
       "learning_rate": 7.847222222222222e-05,
-      "loss": 0.041,
       "step": 350
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.06695462018251419,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.0195,
       "step": 360
     },
     {
       "epoch": 2.5694444444444446,
-      "grad_norm": 0.06015591695904732,
       "learning_rate": 7.152777777777778e-05,
-      "loss": 0.0279,
       "step": 370
     },
     {
       "epoch": 2.638888888888889,
-      "grad_norm": 0.05706523358821869,
       "learning_rate": 6.805555555555556e-05,
-      "loss": 0.0186,
       "step": 380
     },
     {
       "epoch": 2.7083333333333335,
-      "grad_norm": 0.051387298852205276,
       "learning_rate": 6.458333333333334e-05,
-      "loss": 0.0182,
       "step": 390
     },
     {
       "epoch": 2.7777777777777777,
-      "grad_norm": 0.04624871164560318,
       "learning_rate": 6.111111111111112e-05,
-      "loss": 0.0173,
       "step": 400
     },
     {
       "epoch": 2.7777777777777777,
-      "eval_accuracy": 0.9965034965034965,
-      "eval_loss": 0.041082631796598434,
-      "eval_runtime": 7.6437,
-      "eval_samples_per_second": 37.416,
-      "eval_steps_per_second": 4.71,
       "step": 400
     },
     {
       "epoch": 2.8472222222222223,
-      "grad_norm": 0.07278066873550415,
       "learning_rate": 5.7638888888888886e-05,
-      "loss": 0.0198,
       "step": 410
     },
     {
       "epoch": 2.9166666666666665,
-      "grad_norm": 0.05480903014540672,
       "learning_rate": 5.4166666666666664e-05,
-      "loss": 0.0145,
       "step": 420
     },
     {
       "epoch": 2.986111111111111,
-      "grad_norm": 0.10500375926494598,
       "learning_rate": 5.069444444444444e-05,
-      "loss": 0.0198,
       "step": 430
     },
     {
       "epoch": 3.0555555555555554,
-      "grad_norm": 0.07025091350078583,
       "learning_rate": 4.722222222222222e-05,
-      "loss": 0.0177,
       "step": 440
     },
     {
       "epoch": 3.125,
-      "grad_norm": 0.037873681634664536,
       "learning_rate": 4.375e-05,
-      "loss": 0.0163,
       "step": 450
     },
     {
       "epoch": 3.1944444444444446,
-      "grad_norm": 0.04840339347720146,
       "learning_rate": 4.027777777777778e-05,
-      "loss": 0.0421,
       "step": 460
     },
     {
       "epoch": 3.263888888888889,
-      "grad_norm": 0.09473514556884766,
       "learning_rate": 3.6805555555555556e-05,
-      "loss": 0.0174,
       "step": 470
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 0.04430153965950012,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0165,
       "step": 480
     },
     {
       "epoch": 3.4027777777777777,
-      "grad_norm": 0.050676412880420685,
       "learning_rate": 2.9861111111111113e-05,
-      "loss": 0.0147,
       "step": 490
     },
     {
       "epoch": 3.4722222222222223,
-      "grad_norm": 0.05777062475681305,
       "learning_rate": 2.6388888888888892e-05,
-      "loss": 0.0144,
       "step": 500
     },
     {
       "epoch": 3.4722222222222223,
-      "eval_accuracy": 0.9965034965034965,
-      "eval_loss": 0.03876994550228119,
-      "eval_runtime": 7.7209,
-      "eval_samples_per_second": 37.042,
-      "eval_steps_per_second": 4.663,
       "step": 500
     },
     {
       "epoch": 3.5416666666666665,
-      "grad_norm": 0.04551997408270836,
       "learning_rate": 2.2916666666666667e-05,
-      "loss": 0.0159,
       "step": 510
     },
     {
       "epoch": 3.611111111111111,
-      "grad_norm": 0.05445903539657593,
       "learning_rate": 1.9444444444444445e-05,
-      "loss": 0.0159,
       "step": 520
     },
     {
       "epoch": 3.6805555555555554,
-      "grad_norm": 0.052642665803432465,
       "learning_rate": 1.597222222222222e-05,
-      "loss": 0.0137,
       "step": 530
     },
     {
       "epoch": 3.75,
-      "grad_norm": 0.04246990755200386,
       "learning_rate": 1.25e-05,
-      "loss": 0.0139,
       "step": 540
     },
     {
       "epoch": 3.8194444444444446,
-      "grad_norm": 0.04415015131235123,
       "learning_rate": 9.027777777777777e-06,
-      "loss": 0.014,
       "step": 550
     },
     {
       "epoch": 3.888888888888889,
-      "grad_norm": 0.04256778210401535,
       "learning_rate": 5.555555555555556e-06,
-      "loss": 0.0162,
       "step": 560
     },
     {
       "epoch": 3.9583333333333335,
-      "grad_norm": 0.03654972463846207,
       "learning_rate": 2.0833333333333334e-06,
-      "loss": 0.0195,
       "step": 570
     },
     {
       "epoch": 4.0,
       "step": 576,
       "total_flos": 7.098775204818125e+17,
-      "train_loss": 0.13178436623679268,
-      "train_runtime": 254.2759,
-      "train_samples_per_second": 36.024,
-      "train_steps_per_second": 2.265
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.014612678438425064,
   "best_model_checkpoint": "./vit-base-beans-demo-v5/checkpoint-500",
   "epoch": 4.0,
   "eval_steps": 100,
   "log_history": [
     {
       "epoch": 0.06944444444444445,
+      "grad_norm": 2.0405874252319336,
       "learning_rate": 0.00019652777777777778,
+      "loss": 1.7698,
       "step": 10
     },
     {
       "epoch": 0.1388888888888889,
+      "grad_norm": 1.2669320106506348,
       "learning_rate": 0.00019305555555555558,
+      "loss": 1.0136,
       "step": 20
     },
     {
       "epoch": 0.20833333333333334,
+      "grad_norm": 1.6517207622528076,
       "learning_rate": 0.00018958333333333332,
+      "loss": 0.7142,
       "step": 30
     },
     {
       "epoch": 0.2777777777777778,
+      "grad_norm": 0.7249768972396851,
       "learning_rate": 0.00018611111111111112,
+      "loss": 0.4679,
       "step": 40
     },
     {
       "epoch": 0.3472222222222222,
+      "grad_norm": 0.5943067669868469,
       "learning_rate": 0.0001826388888888889,
+      "loss": 0.3948,
       "step": 50
     },
     {
       "epoch": 0.4166666666666667,
+      "grad_norm": 0.9009707570075989,
       "learning_rate": 0.0001791666666666667,
+      "loss": 0.317,
       "step": 60
     },
     {
       "epoch": 0.4861111111111111,
+      "grad_norm": 1.397679090499878,
       "learning_rate": 0.00017569444444444444,
+      "loss": 0.2526,
       "step": 70
     },
     {
       "epoch": 0.5555555555555556,
+      "grad_norm": 1.8709288835525513,
       "learning_rate": 0.00017222222222222224,
+      "loss": 0.2158,
       "step": 80
     },
     {
       "epoch": 0.625,
+      "grad_norm": 0.3396364748477936,
       "learning_rate": 0.00016875,
+      "loss": 0.2228,
       "step": 90
     },
     {
       "epoch": 0.6944444444444444,
+      "grad_norm": 0.353262722492218,
       "learning_rate": 0.00016527777777777778,
+      "loss": 0.1419,
       "step": 100
     },
     {
       "epoch": 0.6944444444444444,
+      "eval_accuracy": 0.986013986013986,
+      "eval_loss": 0.13223490118980408,
+      "eval_runtime": 6.1512,
+      "eval_samples_per_second": 46.495,
+      "eval_steps_per_second": 5.853,
       "step": 100
     },
     {
       "epoch": 0.7638888888888888,
+      "grad_norm": 0.37546998262405396,
       "learning_rate": 0.00016180555555555555,
+      "loss": 0.1119,
       "step": 110
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 1.4613902568817139,
       "learning_rate": 0.00015833333333333332,
+      "loss": 0.0872,
       "step": 120
     },
     {
       "epoch": 0.9027777777777778,
+      "grad_norm": 0.17305296659469604,
       "learning_rate": 0.00015486111111111112,
+      "loss": 0.1225,
       "step": 130
     },
     {
       "epoch": 0.9722222222222222,
+      "grad_norm": 0.18374797701835632,
       "learning_rate": 0.0001513888888888889,
+      "loss": 0.1351,
       "step": 140
     },
     {
       "epoch": 1.0416666666666667,
+      "grad_norm": 0.2266128659248352,
       "learning_rate": 0.0001479166666666667,
+      "loss": 0.1025,
       "step": 150
     },
     {
       "epoch": 1.1111111111111112,
+      "grad_norm": 0.1951243281364441,
       "learning_rate": 0.00014444444444444444,
+      "loss": 0.0921,
       "step": 160
     },
     {
       "epoch": 1.1805555555555556,
+      "grad_norm": 0.19858784973621368,
       "learning_rate": 0.00014097222222222224,
+      "loss": 0.0537,
       "step": 170
     },
     {
       "epoch": 1.25,
+      "grad_norm": 0.117152139544487,
       "learning_rate": 0.0001375,
+      "loss": 0.055,
       "step": 180
     },
     {
       "epoch": 1.3194444444444444,
+      "grad_norm": 0.18452736735343933,
       "learning_rate": 0.00013402777777777778,
+      "loss": 0.0715,
       "step": 190
     },
     {
       "epoch": 1.3888888888888888,
+      "grad_norm": 0.13170742988586426,
       "learning_rate": 0.00013055555555555555,
+      "loss": 0.0526,
       "step": 200
     },
     {
       "epoch": 1.3888888888888888,
       "eval_accuracy": 0.9965034965034965,
+      "eval_loss": 0.04715408757328987,
+      "eval_runtime": 6.5794,
+      "eval_samples_per_second": 43.469,
+      "eval_steps_per_second": 5.472,
       "step": 200
     },
     {
       "epoch": 1.4583333333333333,
+      "grad_norm": 0.106211818754673,
       "learning_rate": 0.00012708333333333332,
+      "loss": 0.0561,
       "step": 210
     },
     {
       "epoch": 1.5277777777777777,
+      "grad_norm": 0.1062452420592308,
       "learning_rate": 0.00012361111111111112,
+      "loss": 0.0566,
       "step": 220
     },
     {
       "epoch": 1.5972222222222223,
+      "grad_norm": 0.09227359294891357,
       "learning_rate": 0.0001201388888888889,
+      "loss": 0.0698,
       "step": 230
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 2.1839842796325684,
       "learning_rate": 0.00011666666666666668,
+      "loss": 0.1027,
       "step": 240
     },
     {
       "epoch": 1.7361111111111112,
+      "grad_norm": 0.15255217254161835,
       "learning_rate": 0.00011319444444444445,
+      "loss": 0.0741,
       "step": 250
     },
     {
       "epoch": 1.8055555555555556,
+      "grad_norm": 0.10733500868082047,
       "learning_rate": 0.00010972222222222224,
+      "loss": 0.063,
       "step": 260
     },
     {
       "epoch": 1.875,
+      "grad_norm": 0.11536989361047745,
       "learning_rate": 0.00010625000000000001,
+      "loss": 0.1102,
       "step": 270
     },
     {
       "epoch": 1.9444444444444444,
+      "grad_norm": 0.7595508098602295,
       "learning_rate": 0.00010277777777777778,
+      "loss": 0.116,
       "step": 280
     },
     {
       "epoch": 2.013888888888889,
+      "grad_norm": 0.12373895198106766,
       "learning_rate": 9.930555555555556e-05,
+      "loss": 0.0294,
       "step": 290
     },
     {
       "epoch": 2.0833333333333335,
+      "grad_norm": 0.07644740492105484,
       "learning_rate": 9.583333333333334e-05,
+      "loss": 0.0287,
       "step": 300
     },
     {
       "epoch": 2.0833333333333335,
       "eval_accuracy": 0.9965034965034965,
+      "eval_loss": 0.03332991525530815,
+      "eval_runtime": 6.13,
+      "eval_samples_per_second": 46.656,
+      "eval_steps_per_second": 5.873,
       "step": 300
     },
     {
       "epoch": 2.1527777777777777,
+      "grad_norm": 1.7519818544387817,
       "learning_rate": 9.236111111111112e-05,
+      "loss": 0.0402,
       "step": 310
     },
     {
       "epoch": 2.2222222222222223,
+      "grad_norm": 0.12671758234500885,
       "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0577,
       "step": 320
     },
     {
       "epoch": 2.2916666666666665,
+      "grad_norm": 0.09852252155542374,
       "learning_rate": 8.541666666666666e-05,
+      "loss": 0.0385,
       "step": 330
     },
     {
       "epoch": 2.361111111111111,
+      "grad_norm": 0.05540580302476883,
       "learning_rate": 8.194444444444445e-05,
+      "loss": 0.0233,
       "step": 340
     },
     {
       "epoch": 2.4305555555555554,
+      "grad_norm": 0.05724372714757919,
       "learning_rate": 7.847222222222222e-05,
+      "loss": 0.0267,
       "step": 350
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.07258418947458267,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0191,
       "step": 360
     },
     {
       "epoch": 2.5694444444444446,
+      "grad_norm": 0.05877342075109482,
       "learning_rate": 7.152777777777778e-05,
+      "loss": 0.0192,
       "step": 370
     },
     {
       "epoch": 2.638888888888889,
+      "grad_norm": 0.043198488652706146,
       "learning_rate": 6.805555555555556e-05,
+      "loss": 0.0184,
       "step": 380
     },
     {
       "epoch": 2.7083333333333335,
+      "grad_norm": 0.046876076608896255,
       "learning_rate": 6.458333333333334e-05,
+      "loss": 0.0191,
       "step": 390
     },
     {
       "epoch": 2.7777777777777777,
+      "grad_norm": 0.04983428493142128,
       "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0193,
       "step": 400
     },
     {
       "epoch": 2.7777777777777777,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.017095286399126053,
+      "eval_runtime": 6.1467,
+      "eval_samples_per_second": 46.529,
+      "eval_steps_per_second": 5.857,
       "step": 400
     },
     {
       "epoch": 2.8472222222222223,
+      "grad_norm": 0.04487299174070358,
       "learning_rate": 5.7638888888888886e-05,
+      "loss": 0.0154,
       "step": 410
     },
     {
       "epoch": 2.9166666666666665,
+      "grad_norm": 1.038284420967102,
       "learning_rate": 5.4166666666666664e-05,
+      "loss": 0.0349,
       "step": 420
     },
     {
       "epoch": 2.986111111111111,
+      "grad_norm": 0.11502628773450851,
       "learning_rate": 5.069444444444444e-05,
+      "loss": 0.0173,
       "step": 430
     },
     {
       "epoch": 3.0555555555555554,
+      "grad_norm": 0.035400502383708954,
       "learning_rate": 4.722222222222222e-05,
+      "loss": 0.0196,
       "step": 440
     },
     {
       "epoch": 3.125,
+      "grad_norm": 0.0871260017156601,
       "learning_rate": 4.375e-05,
+      "loss": 0.0166,
       "step": 450
     },
     {
       "epoch": 3.1944444444444446,
+      "grad_norm": 0.04127372056245804,
       "learning_rate": 4.027777777777778e-05,
+      "loss": 0.0165,
       "step": 460
     },
     {
       "epoch": 3.263888888888889,
+      "grad_norm": 0.052194446325302124,
       "learning_rate": 3.6805555555555556e-05,
+      "loss": 0.0152,
       "step": 470
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 0.03505709767341614,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.017,
       "step": 480
     },
     {
       "epoch": 3.4027777777777777,
+      "grad_norm": 1.9557160139083862,
       "learning_rate": 2.9861111111111113e-05,
+      "loss": 0.0212,
       "step": 490
     },
     {
       "epoch": 3.4722222222222223,
+      "grad_norm": 0.07078896462917328,
       "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.0159,
       "step": 500
     },
     {
       "epoch": 3.4722222222222223,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.014612678438425064,
+      "eval_runtime": 6.2641,
+      "eval_samples_per_second": 45.657,
+      "eval_steps_per_second": 5.747,
       "step": 500
     },
     {
       "epoch": 3.5416666666666665,
+      "grad_norm": 0.059709690511226654,
       "learning_rate": 2.2916666666666667e-05,
+      "loss": 0.0152,
       "step": 510
     },
     {
       "epoch": 3.611111111111111,
+      "grad_norm": 0.06177211552858353,
       "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.0136,
       "step": 520
     },
     {
       "epoch": 3.6805555555555554,
+      "grad_norm": 0.046218082308769226,
       "learning_rate": 1.597222222222222e-05,
+      "loss": 0.0161,
       "step": 530
     },
     {
       "epoch": 3.75,
+      "grad_norm": 0.05951802432537079,
       "learning_rate": 1.25e-05,
+      "loss": 0.0158,
       "step": 540
     },
     {
       "epoch": 3.8194444444444446,
+      "grad_norm": 0.061069753021001816,
       "learning_rate": 9.027777777777777e-06,
+      "loss": 0.0147,
       "step": 550
     },
     {
       "epoch": 3.888888888888889,
+      "grad_norm": 0.045132625848054886,
       "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0152,
       "step": 560
     },
     {
       "epoch": 3.9583333333333335,
+      "grad_norm": 0.03909270092844963,
       "learning_rate": 2.0833333333333334e-06,
+      "loss": 0.0143,
       "step": 570
     },
     {
       "epoch": 4.0,
       "step": 576,
       "total_flos": 7.098775204818125e+17,
+      "train_loss": 0.1334557549821006,
+      "train_runtime": 266.3685,
+      "train_samples_per_second": 34.388,
+      "train_steps_per_second": 2.162
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb0b6ab12ff66995bf660537e63794c2f7c4ad7d1087a9aa430fdb74c6992ac1
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:70951343515a6f5272fbb3d9afb07fb0eff128b81ea9947118f155158311c704
 size 5112