initial commit

Browse files

Files changed (11) hide show

README.md +10 -10
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/May01_18-09-22_e5fd9b370bfd/events.out.tfevents.1714586963.e5fd9b370bfd.8190.2 +3 -0
runs/May01_18-27-41_e5fd9b370bfd/events.out.tfevents.1714588064.e5fd9b370bfd.8190.3 +3 -0
runs/May01_18-28-50_e5fd9b370bfd/events.out.tfevents.1714588131.e5fd9b370bfd.17713.0 +3 -0
runs/May01_18-28-50_e5fd9b370bfd/events.out.tfevents.1714589250.e5fd9b370bfd.17713.1 +3 -0
train_results.json +4 -4
trainer_state.json +247 -247
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7081218274111675
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-large-patch32-224-in21k](https://huggingface.co/google/vit-large-patch32-224-in21k) on the sartajbhuvaji/Brain-Tumor-Classification dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0935
-- Accuracy: 0.7081
 ## Model description
@@ -66,13 +66,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
-| 0.2144        | 0.5556 | 100  | 1.2679          | 0.6269   |
-| 0.1091        | 1.1111 | 200  | 1.0935          | 0.7081   |
-| 0.1078        | 1.6667 | 300  | 1.1237          | 0.7589   |
-| 0.016         | 2.2222 | 400  | 1.2356          | 0.7563   |
-| 0.0095        | 2.7778 | 500  | 1.2316          | 0.7589   |
-| 0.0066        | 3.3333 | 600  | 1.3165          | 0.7589   |
-| 0.0161        | 3.8889 | 700  | 1.3412          | 0.7614   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7741116751269036
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-large-patch32-224-in21k](https://huggingface.co/google/vit-large-patch32-224-in21k) on the sartajbhuvaji/Brain-Tumor-Classification dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9050
+- Accuracy: 0.7741
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.352         | 0.5556 | 100  | 1.2267          | 0.6294   |
+| 0.1612        | 1.1111 | 200  | 1.0895          | 0.7538   |
+| 0.0473        | 1.6667 | 300  | 0.9050          | 0.7741   |
+| 0.0525        | 2.2222 | 400  | 1.0663          | 0.7690   |
+| 0.0123        | 2.7778 | 500  | 1.2450          | 0.7462   |
+| 0.0066        | 3.3333 | 600  | 1.1283          | 0.7817   |
+| 0.0126        | 3.8889 | 700  | 1.1717          | 0.7843   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.7081218274111675,
-    "eval_loss": 1.0935020446777344,
-    "eval_runtime": 7.0813,
-    "eval_samples_per_second": 55.64,
-    "eval_steps_per_second": 7.061,
     "total_flos": 3.16768696086528e+18,
-    "train_loss": 0.15098576029348704,
-    "train_runtime": 924.305,
-    "train_samples_per_second": 12.42,
-    "train_steps_per_second": 0.779
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.7741116751269036,
+    "eval_loss": 0.9049533605575562,
+    "eval_runtime": 6.5562,
+    "eval_samples_per_second": 60.096,
+    "eval_steps_per_second": 7.626,
     "total_flos": 3.16768696086528e+18,
+    "train_loss": 0.16034429804939362,
+    "train_runtime": 1070.1524,
+    "train_samples_per_second": 10.727,
+    "train_steps_per_second": 0.673
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.7081218274111675,
-    "eval_loss": 1.0935020446777344,
-    "eval_runtime": 7.0813,
-    "eval_samples_per_second": 55.64,
-    "eval_steps_per_second": 7.061
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.7741116751269036,
+    "eval_loss": 0.9049533605575562,
+    "eval_runtime": 6.5562,
+    "eval_samples_per_second": 60.096,
+    "eval_steps_per_second": 7.626
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f20682313c689880b290f25df7f7285c02008199174ac41de0f2eff2748cc23
 size 1222104568

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fe26c731c183216b927e1ce0b6f662aab1cefb27ec9b8a9be42fd07a7c6eb23
 size 1222104568

runs/May01_18-09-22_e5fd9b370bfd/events.out.tfevents.1714586963.e5fd9b370bfd.8190.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbf87b52d8a80ef0a15dba296f126c9dd2b3831e3da9ca245e22305477f7356a
+size 4810

runs/May01_18-27-41_e5fd9b370bfd/events.out.tfevents.1714588064.e5fd9b370bfd.8190.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6aa0d6375f444aca8fb66acfe45a77dfcb2aad5239e72af858e31655f0d83a5a
+size 8280

runs/May01_18-28-50_e5fd9b370bfd/events.out.tfevents.1714588131.e5fd9b370bfd.17713.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86a630185358ab232804b9446b10a6182b03da53b403c346476bfdef71c754d8
+size 22564

runs/May01_18-28-50_e5fd9b370bfd/events.out.tfevents.1714589250.e5fd9b370bfd.17713.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73d9f02977269441d4a3178c448d5e1fc91fa22705f7b1199e2403267f68ab98
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 3.16768696086528e+18,
-    "train_loss": 0.15098576029348704,
-    "train_runtime": 924.305,
-    "train_samples_per_second": 12.42,
-    "train_steps_per_second": 0.779
 }

 {
     "epoch": 4.0,
     "total_flos": 3.16768696086528e+18,
+    "train_loss": 0.16034429804939362,
+    "train_runtime": 1070.1524,
+    "train_samples_per_second": 10.727,
+    "train_steps_per_second": 0.673
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 1.0935020446777344,
-  "best_model_checkpoint": "./vit-large-brain-xray/checkpoint-200",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 720,
@@ -10,579 +10,579 @@
   "log_history": [
     {
       "epoch": 0.05555555555555555,
-      "grad_norm": 1.083911657333374,
       "learning_rate": 0.00019722222222222225,
-      "loss": 1.3206,
       "step": 10
     },
     {
       "epoch": 0.1111111111111111,
-      "grad_norm": 1.5310566425323486,
       "learning_rate": 0.00019444444444444446,
-      "loss": 0.9361,
       "step": 20
     },
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 3.7486021518707275,
       "learning_rate": 0.00019166666666666667,
-      "loss": 0.5999,
       "step": 30
     },
     {
       "epoch": 0.2222222222222222,
-      "grad_norm": 3.448930025100708,
       "learning_rate": 0.00018888888888888888,
-      "loss": 0.5138,
       "step": 40
     },
     {
       "epoch": 0.2777777777777778,
-      "grad_norm": 1.6228857040405273,
       "learning_rate": 0.00018611111111111112,
-      "loss": 0.4566,
       "step": 50
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 2.215758800506592,
       "learning_rate": 0.00018333333333333334,
-      "loss": 0.4068,
       "step": 60
     },
     {
       "epoch": 0.3888888888888889,
-      "grad_norm": 1.5400978326797485,
       "learning_rate": 0.00018055555555555557,
-      "loss": 0.3305,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
-      "grad_norm": 1.4063529968261719,
       "learning_rate": 0.00017777777777777779,
-      "loss": 0.4062,
       "step": 80
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.7729310393333435,
-      "learning_rate": 0.00017527777777777778,
-      "loss": 0.2615,
       "step": 90
     },
     {
       "epoch": 0.5555555555555556,
-      "grad_norm": 6.676679611206055,
-      "learning_rate": 0.00017250000000000002,
-      "loss": 0.2144,
       "step": 100
     },
     {
       "epoch": 0.5555555555555556,
-      "eval_accuracy": 0.6269035532994924,
-      "eval_loss": 1.2678815126419067,
-      "eval_runtime": 7.3748,
-      "eval_samples_per_second": 53.425,
-      "eval_steps_per_second": 6.78,
       "step": 100
     },
     {
       "epoch": 0.6111111111111112,
-      "grad_norm": 1.6695863008499146,
-      "learning_rate": 0.00016972222222222223,
-      "loss": 0.3772,
       "step": 110
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.457354336977005,
-      "learning_rate": 0.00016694444444444447,
-      "loss": 0.261,
       "step": 120
     },
     {
       "epoch": 0.7222222222222222,
-      "grad_norm": 6.663379192352295,
-      "learning_rate": 0.00016416666666666668,
-      "loss": 0.2832,
       "step": 130
     },
     {
       "epoch": 0.7777777777777778,
-      "grad_norm": 0.6463492512702942,
-      "learning_rate": 0.0001613888888888889,
-      "loss": 0.1613,
       "step": 140
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 5.534128189086914,
-      "learning_rate": 0.0001586111111111111,
-      "loss": 0.452,
       "step": 150
     },
     {
       "epoch": 0.8888888888888888,
-      "grad_norm": 1.487303614616394,
-      "learning_rate": 0.00015583333333333334,
-      "loss": 0.3549,
       "step": 160
     },
     {
       "epoch": 0.9444444444444444,
-      "grad_norm": 8.732577323913574,
-      "learning_rate": 0.00015305555555555556,
-      "loss": 0.26,
       "step": 170
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.3070247173309326,
-      "learning_rate": 0.0001502777777777778,
-      "loss": 0.1787,
       "step": 180
     },
     {
       "epoch": 1.0555555555555556,
-      "grad_norm": 0.15718808770179749,
-      "learning_rate": 0.0001475,
-      "loss": 0.156,
       "step": 190
     },
     {
       "epoch": 1.1111111111111112,
-      "grad_norm": 1.4413491487503052,
-      "learning_rate": 0.00014472222222222222,
-      "loss": 0.1091,
       "step": 200
     },
     {
       "epoch": 1.1111111111111112,
-      "eval_accuracy": 0.7081218274111675,
-      "eval_loss": 1.0935020446777344,
-      "eval_runtime": 6.8075,
-      "eval_samples_per_second": 57.877,
-      "eval_steps_per_second": 7.345,
       "step": 200
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 1.1086454391479492,
-      "learning_rate": 0.00014194444444444446,
-      "loss": 0.1243,
       "step": 210
     },
     {
       "epoch": 1.2222222222222223,
-      "grad_norm": 0.09483372420072556,
-      "learning_rate": 0.00013916666666666667,
-      "loss": 0.1712,
       "step": 220
     },
     {
       "epoch": 1.2777777777777777,
-      "grad_norm": 2.7763671875,
-      "learning_rate": 0.0001363888888888889,
-      "loss": 0.2156,
       "step": 230
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 1.6603256464004517,
-      "learning_rate": 0.00013361111111111112,
-      "loss": 0.1186,
       "step": 240
     },
     {
       "epoch": 1.3888888888888888,
-      "grad_norm": 5.325634479522705,
-      "learning_rate": 0.00013083333333333333,
-      "loss": 0.1065,
       "step": 250
     },
     {
       "epoch": 1.4444444444444444,
-      "grad_norm": 0.07357333600521088,
-      "learning_rate": 0.00012805555555555555,
-      "loss": 0.1192,
       "step": 260
     },
     {
       "epoch": 1.5,
-      "grad_norm": 3.8914055824279785,
-      "learning_rate": 0.00012527777777777778,
-      "loss": 0.0622,
       "step": 270
     },
     {
       "epoch": 1.5555555555555556,
-      "grad_norm": 0.37973469495773315,
-      "learning_rate": 0.00012250000000000002,
-      "loss": 0.2217,
       "step": 280
     },
     {
       "epoch": 1.6111111111111112,
-      "grad_norm": 0.08939097821712494,
-      "learning_rate": 0.00011972222222222222,
-      "loss": 0.1868,
       "step": 290
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 0.29244643449783325,
-      "learning_rate": 0.00011694444444444446,
-      "loss": 0.1078,
       "step": 300
     },
     {
       "epoch": 1.6666666666666665,
-      "eval_accuracy": 0.7588832487309645,
-      "eval_loss": 1.1237390041351318,
-      "eval_runtime": 6.6691,
-      "eval_samples_per_second": 59.078,
-      "eval_steps_per_second": 7.497,
       "step": 300
     },
     {
       "epoch": 1.7222222222222223,
-      "grad_norm": 2.0514800548553467,
-      "learning_rate": 0.00011416666666666667,
-      "loss": 0.0995,
       "step": 310
     },
     {
       "epoch": 1.7777777777777777,
-      "grad_norm": 0.3739979863166809,
-      "learning_rate": 0.0001113888888888889,
-      "loss": 0.0752,
       "step": 320
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 0.07262101769447327,
-      "learning_rate": 0.00010861111111111111,
-      "loss": 0.1004,
       "step": 330
     },
     {
       "epoch": 1.8888888888888888,
-      "grad_norm": 1.6550071239471436,
-      "learning_rate": 0.00010583333333333334,
-      "loss": 0.0593,
       "step": 340
     },
     {
       "epoch": 1.9444444444444444,
-      "grad_norm": 1.8396694660186768,
-      "learning_rate": 0.00010305555555555555,
-      "loss": 0.1425,
       "step": 350
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.061273444443941116,
-      "learning_rate": 0.00010027777777777779,
-      "loss": 0.0944,
       "step": 360
     },
     {
       "epoch": 2.0555555555555554,
-      "grad_norm": 1.0921915769577026,
-      "learning_rate": 9.75e-05,
-      "loss": 0.118,
       "step": 370
     },
     {
       "epoch": 2.111111111111111,
-      "grad_norm": 0.16066594421863556,
-      "learning_rate": 9.472222222222222e-05,
-      "loss": 0.0479,
       "step": 380
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 0.06149543076753616,
-      "learning_rate": 9.194444444444445e-05,
-      "loss": 0.0161,
       "step": 390
     },
     {
       "epoch": 2.2222222222222223,
-      "grad_norm": 0.10219839215278625,
-      "learning_rate": 8.916666666666667e-05,
-      "loss": 0.016,
       "step": 400
     },
     {
       "epoch": 2.2222222222222223,
-      "eval_accuracy": 0.7563451776649747,
-      "eval_loss": 1.235643982887268,
-      "eval_runtime": 6.0001,
-      "eval_samples_per_second": 65.666,
-      "eval_steps_per_second": 8.333,
       "step": 400
     },
     {
       "epoch": 2.2777777777777777,
-      "grad_norm": 0.36931440234184265,
-      "learning_rate": 8.63888888888889e-05,
-      "loss": 0.0674,
       "step": 410
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 0.05050282925367355,
-      "learning_rate": 8.361111111111111e-05,
-      "loss": 0.0404,
       "step": 420
     },
     {
       "epoch": 2.388888888888889,
-      "grad_norm": 0.0446784570813179,
-      "learning_rate": 8.083333333333334e-05,
-      "loss": 0.0205,
       "step": 430
     },
     {
       "epoch": 2.4444444444444446,
-      "grad_norm": 0.04102100059390068,
-      "learning_rate": 7.805555555555556e-05,
-      "loss": 0.0207,
       "step": 440
     },
     {
       "epoch": 2.5,
-      "grad_norm": 4.75399112701416,
-      "learning_rate": 7.527777777777777e-05,
-      "loss": 0.0526,
       "step": 450
     },
     {
       "epoch": 2.5555555555555554,
-      "grad_norm": 0.046476561576128006,
-      "learning_rate": 7.25e-05,
-      "loss": 0.0461,
       "step": 460
     },
     {
       "epoch": 2.611111111111111,
-      "grad_norm": 5.1403632164001465,
-      "learning_rate": 6.972222222222223e-05,
-      "loss": 0.0424,
       "step": 470
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 0.04179733246564865,
-      "learning_rate": 6.694444444444444e-05,
-      "loss": 0.0831,
       "step": 480
     },
     {
       "epoch": 2.7222222222222223,
-      "grad_norm": 0.0394105389714241,
-      "learning_rate": 6.416666666666668e-05,
-      "loss": 0.0102,
       "step": 490
     },
     {
       "epoch": 2.7777777777777777,
-      "grad_norm": 0.039878394454717636,
-      "learning_rate": 6.13888888888889e-05,
-      "loss": 0.0095,
       "step": 500
     },
     {
       "epoch": 2.7777777777777777,
-      "eval_accuracy": 0.7588832487309645,
-      "eval_loss": 1.2315524816513062,
-      "eval_runtime": 6.6635,
-      "eval_samples_per_second": 59.128,
-      "eval_steps_per_second": 7.504,
       "step": 500
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 3.2955222129821777,
-      "learning_rate": 5.8611111111111114e-05,
-      "loss": 0.0223,
       "step": 510
     },
     {
       "epoch": 2.888888888888889,
-      "grad_norm": 0.03517436608672142,
-      "learning_rate": 5.583333333333334e-05,
-      "loss": 0.0083,
       "step": 520
     },
     {
       "epoch": 2.9444444444444446,
-      "grad_norm": 0.03378378599882126,
-      "learning_rate": 5.305555555555556e-05,
-      "loss": 0.017,
       "step": 530
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.029930729418992996,
-      "learning_rate": 5.027777777777778e-05,
-      "loss": 0.0076,
       "step": 540
     },
     {
       "epoch": 3.0555555555555554,
-      "grad_norm": 0.030685801059007645,
-      "learning_rate": 4.75e-05,
-      "loss": 0.0082,
       "step": 550
     },
     {
       "epoch": 3.111111111111111,
-      "grad_norm": 0.029904644936323166,
-      "learning_rate": 4.472222222222223e-05,
-      "loss": 0.0073,
       "step": 560
     },
     {
       "epoch": 3.1666666666666665,
-      "grad_norm": 0.02878139540553093,
-      "learning_rate": 4.194444444444445e-05,
-      "loss": 0.0069,
       "step": 570
     },
     {
       "epoch": 3.2222222222222223,
-      "grad_norm": 0.028465483337640762,
-      "learning_rate": 3.9166666666666665e-05,
-      "loss": 0.0067,
       "step": 580
     },
     {
       "epoch": 3.2777777777777777,
-      "grad_norm": 0.026676874607801437,
-      "learning_rate": 3.638888888888889e-05,
-      "loss": 0.0067,
       "step": 590
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 0.028720058500766754,
-      "learning_rate": 3.3611111111111116e-05,
       "loss": 0.0066,
       "step": 600
     },
     {
       "epoch": 3.3333333333333335,
-      "eval_accuracy": 0.7588832487309645,
-      "eval_loss": 1.3164998292922974,
-      "eval_runtime": 6.9479,
-      "eval_samples_per_second": 56.707,
-      "eval_steps_per_second": 7.196,
       "step": 600
     },
     {
       "epoch": 3.388888888888889,
-      "grad_norm": 0.030909936875104904,
-      "learning_rate": 3.0833333333333335e-05,
-      "loss": 0.0066,
       "step": 610
     },
     {
       "epoch": 3.4444444444444446,
-      "grad_norm": 0.02741164341568947,
-      "learning_rate": 2.8055555555555557e-05,
-      "loss": 0.0429,
       "step": 620
     },
     {
       "epoch": 3.5,
-      "grad_norm": 0.028826788067817688,
-      "learning_rate": 2.527777777777778e-05,
-      "loss": 0.0079,
       "step": 630
     },
     {
       "epoch": 3.5555555555555554,
-      "grad_norm": 0.02735409140586853,
-      "learning_rate": 2.25e-05,
-      "loss": 0.0066,
       "step": 640
     },
     {
       "epoch": 3.611111111111111,
-      "grad_norm": 0.10283248126506805,
-      "learning_rate": 1.9722222222222224e-05,
-      "loss": 0.0159,
       "step": 650
     },
     {
       "epoch": 3.6666666666666665,
-      "grad_norm": 0.028924111276865005,
-      "learning_rate": 1.6944444444444446e-05,
-      "loss": 0.0064,
       "step": 660
     },
     {
       "epoch": 3.7222222222222223,
-      "grad_norm": 0.025118501856923103,
-      "learning_rate": 1.4166666666666668e-05,
       "loss": 0.0062,
       "step": 670
     },
     {
       "epoch": 3.7777777777777777,
-      "grad_norm": 0.05767374858260155,
-      "learning_rate": 1.138888888888889e-05,
-      "loss": 0.0065,
       "step": 680
     },
     {
       "epoch": 3.8333333333333335,
-      "grad_norm": 0.0323575958609581,
-      "learning_rate": 8.611111111111112e-06,
-      "loss": 0.0064,
       "step": 690
     },
     {
       "epoch": 3.888888888888889,
-      "grad_norm": 0.026371095329523087,
-      "learning_rate": 5.833333333333334e-06,
-      "loss": 0.0161,
       "step": 700
     },
     {
       "epoch": 3.888888888888889,
-      "eval_accuracy": 0.7614213197969543,
-      "eval_loss": 1.341164469718933,
-      "eval_runtime": 5.8873,
-      "eval_samples_per_second": 66.924,
-      "eval_steps_per_second": 8.493,
       "step": 700
     },
     {
       "epoch": 3.9444444444444446,
-      "grad_norm": 0.025476330891251564,
-      "learning_rate": 3.0555555555555556e-06,
-      "loss": 0.0062,
       "step": 710
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.041727062314748764,
-      "learning_rate": 2.777777777777778e-07,
-      "loss": 0.0097,
       "step": 720
     },
     {
       "epoch": 4.0,
       "step": 720,
       "total_flos": 3.16768696086528e+18,
-      "train_loss": 0.15098576029348704,
-      "train_runtime": 924.305,
-      "train_samples_per_second": 12.42,
-      "train_steps_per_second": 0.779
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.9049533605575562,
+  "best_model_checkpoint": "./vit-large-brain-xray/checkpoint-300",
   "epoch": 4.0,
   "eval_steps": 100,
   "global_step": 720,
   "log_history": [
     {
       "epoch": 0.05555555555555555,
+      "grad_norm": 0.6702606678009033,
       "learning_rate": 0.00019722222222222225,
+      "loss": 1.3662,
       "step": 10
     },
     {
       "epoch": 0.1111111111111111,
+      "grad_norm": 1.5160739421844482,
       "learning_rate": 0.00019444444444444446,
+      "loss": 1.2341,
       "step": 20
     },
     {
       "epoch": 0.16666666666666666,
+      "grad_norm": 3.668222665786743,
       "learning_rate": 0.00019166666666666667,
+      "loss": 0.9384,
       "step": 30
     },
     {
       "epoch": 0.2222222222222222,
+      "grad_norm": 2.245746612548828,
       "learning_rate": 0.00018888888888888888,
+      "loss": 0.6538,
       "step": 40
     },
     {
       "epoch": 0.2777777777777778,
+      "grad_norm": 2.4727349281311035,
       "learning_rate": 0.00018611111111111112,
+      "loss": 0.4997,
       "step": 50
     },
     {
       "epoch": 0.3333333333333333,
+      "grad_norm": 3.7319023609161377,
       "learning_rate": 0.00018333333333333334,
+      "loss": 0.3898,
       "step": 60
     },
     {
       "epoch": 0.3888888888888889,
+      "grad_norm": 0.6027088165283203,
       "learning_rate": 0.00018055555555555557,
+      "loss": 0.3304,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
+      "grad_norm": 0.37244492769241333,
       "learning_rate": 0.00017777777777777779,
+      "loss": 0.2543,
       "step": 80
     },
     {
       "epoch": 0.5,
+      "grad_norm": 1.6335736513137817,
+      "learning_rate": 0.000175,
+      "loss": 0.3538,
       "step": 90
     },
     {
       "epoch": 0.5555555555555556,
+      "grad_norm": 1.6272715330123901,
+      "learning_rate": 0.00017222222222222224,
+      "loss": 0.352,
       "step": 100
     },
     {
       "epoch": 0.5555555555555556,
+      "eval_accuracy": 0.6294416243654822,
+      "eval_loss": 1.2266901731491089,
+      "eval_runtime": 8.2003,
+      "eval_samples_per_second": 48.047,
+      "eval_steps_per_second": 6.097,
       "step": 100
     },
     {
       "epoch": 0.6111111111111112,
+      "grad_norm": 1.5688170194625854,
+      "learning_rate": 0.00016944444444444445,
+      "loss": 0.3773,
       "step": 110
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.8265367150306702,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.226,
       "step": 120
     },
     {
       "epoch": 0.7222222222222222,
+      "grad_norm": 2.6476309299468994,
+      "learning_rate": 0.0001638888888888889,
+      "loss": 0.3515,
       "step": 130
     },
     {
       "epoch": 0.7777777777777778,
+      "grad_norm": 0.8978700637817383,
+      "learning_rate": 0.0001611111111111111,
+      "loss": 0.2367,
       "step": 140
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 1.1820647716522217,
+      "learning_rate": 0.00015833333333333332,
+      "loss": 0.3112,
       "step": 150
     },
     {
       "epoch": 0.8888888888888888,
+      "grad_norm": 2.701751708984375,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.2741,
       "step": 160
     },
     {
       "epoch": 0.9444444444444444,
+      "grad_norm": 1.249694585800171,
+      "learning_rate": 0.00015277777777777777,
+      "loss": 0.2529,
       "step": 170
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.23323917388916016,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.2239,
       "step": 180
     },
     {
       "epoch": 1.0555555555555556,
+      "grad_norm": 0.4952305853366852,
+      "learning_rate": 0.00014722222222222223,
+      "loss": 0.1749,
       "step": 190
     },
     {
       "epoch": 1.1111111111111112,
+      "grad_norm": 0.2073395550251007,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.1612,
       "step": 200
     },
     {
       "epoch": 1.1111111111111112,
+      "eval_accuracy": 0.7538071065989848,
+      "eval_loss": 1.0894657373428345,
+      "eval_runtime": 7.609,
+      "eval_samples_per_second": 51.781,
+      "eval_steps_per_second": 6.571,
       "step": 200
     },
     {
       "epoch": 1.1666666666666667,
+      "grad_norm": 0.16568297147750854,
+      "learning_rate": 0.00014166666666666668,
+      "loss": 0.0718,
       "step": 210
     },
     {
       "epoch": 1.2222222222222223,
+      "grad_norm": 0.0984596461057663,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.1395,
       "step": 220
     },
     {
       "epoch": 1.2777777777777777,
+      "grad_norm": 0.6732985973358154,
+      "learning_rate": 0.00013611111111111113,
+      "loss": 0.1421,
       "step": 230
     },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 2.5877740383148193,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.1118,
       "step": 240
     },
     {
       "epoch": 1.3888888888888888,
+      "grad_norm": 3.4756956100463867,
+      "learning_rate": 0.00013055555555555555,
+      "loss": 0.1562,
       "step": 250
     },
     {
       "epoch": 1.4444444444444444,
+      "grad_norm": 0.09811172634363174,
+      "learning_rate": 0.00012777777777777776,
+      "loss": 0.1463,
       "step": 260
     },
     {
       "epoch": 1.5,
+      "grad_norm": 3.1999194622039795,
+      "learning_rate": 0.000125,
+      "loss": 0.1179,
       "step": 270
     },
     {
       "epoch": 1.5555555555555556,
+      "grad_norm": 0.45012134313583374,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.0929,
       "step": 280
     },
     {
       "epoch": 1.6111111111111112,
+      "grad_norm": 1.862654209136963,
+      "learning_rate": 0.00011944444444444445,
+      "loss": 0.186,
       "step": 290
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 1.39608895778656,
+      "learning_rate": 0.00011666666666666668,
+      "loss": 0.0473,
       "step": 300
     },
     {
       "epoch": 1.6666666666666665,
+      "eval_accuracy": 0.7741116751269036,
+      "eval_loss": 0.9049533605575562,
+      "eval_runtime": 6.1753,
+      "eval_samples_per_second": 63.803,
+      "eval_steps_per_second": 8.097,
       "step": 300
     },
     {
       "epoch": 1.7222222222222223,
+      "grad_norm": 0.0962180569767952,
+      "learning_rate": 0.00011388888888888889,
+      "loss": 0.0858,
       "step": 310
     },
     {
       "epoch": 1.7777777777777777,
+      "grad_norm": 0.08585009723901749,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.0519,
       "step": 320
     },
     {
       "epoch": 1.8333333333333335,
+      "grad_norm": 0.06303343176841736,
+      "learning_rate": 0.00010833333333333333,
+      "loss": 0.0221,
       "step": 330
     },
     {
       "epoch": 1.8888888888888888,
+      "grad_norm": 5.68204402923584,
+      "learning_rate": 0.00010555555555555557,
+      "loss": 0.0589,
       "step": 340
     },
     {
       "epoch": 1.9444444444444444,
+      "grad_norm": 5.385427474975586,
+      "learning_rate": 0.00010277777777777778,
+      "loss": 0.1881,
       "step": 350
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.201244831085205,
+      "learning_rate": 0.0001,
+      "loss": 0.0758,
       "step": 360
     },
     {
       "epoch": 2.0555555555555554,
+      "grad_norm": 1.2587229013442993,
+      "learning_rate": 9.722222222222223e-05,
+      "loss": 0.0461,
       "step": 370
     },
     {
       "epoch": 2.111111111111111,
+      "grad_norm": 0.07729563117027283,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0155,
       "step": 380
     },
     {
       "epoch": 2.1666666666666665,
+      "grad_norm": 5.077848434448242,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.0724,
       "step": 390
     },
     {
       "epoch": 2.2222222222222223,
+      "grad_norm": 0.05171338841319084,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0525,
       "step": 400
     },
     {
       "epoch": 2.2222222222222223,
+      "eval_accuracy": 0.7690355329949239,
+      "eval_loss": 1.0663037300109863,
+      "eval_runtime": 6.6314,
+      "eval_samples_per_second": 59.415,
+      "eval_steps_per_second": 7.54,
       "step": 400
     },
     {
       "epoch": 2.2777777777777777,
+      "grad_norm": 0.056168586015701294,
+      "learning_rate": 8.611111111111112e-05,
+      "loss": 0.1214,
       "step": 410
     },
     {
       "epoch": 2.3333333333333335,
+      "grad_norm": 0.2696777582168579,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.0148,
       "step": 420
     },
     {
       "epoch": 2.388888888888889,
+      "grad_norm": 0.045138537883758545,
+      "learning_rate": 8.055555555555556e-05,
+      "loss": 0.0175,
       "step": 430
     },
     {
       "epoch": 2.4444444444444446,
+      "grad_norm": 0.03756405785679817,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0264,
       "step": 440
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.17634020745754242,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0101,
       "step": 450
     },
     {
       "epoch": 2.5555555555555554,
+      "grad_norm": 0.037890926003456116,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.0484,
       "step": 460
     },
     {
       "epoch": 2.611111111111111,
+      "grad_norm": 4.751524448394775,
+      "learning_rate": 6.944444444444444e-05,
+      "loss": 0.0525,
       "step": 470
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 0.15853020548820496,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0719,
       "step": 480
     },
     {
       "epoch": 2.7222222222222223,
+      "grad_norm": 0.039081115275621414,
+      "learning_rate": 6.388888888888888e-05,
+      "loss": 0.0085,
       "step": 490
     },
     {
       "epoch": 2.7777777777777777,
+      "grad_norm": 0.4480770230293274,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0123,
       "step": 500
     },
     {
       "epoch": 2.7777777777777777,
+      "eval_accuracy": 0.7461928934010152,
+      "eval_loss": 1.2449774742126465,
+      "eval_runtime": 5.9167,
+      "eval_samples_per_second": 66.591,
+      "eval_steps_per_second": 8.451,
       "step": 500
     },
     {
       "epoch": 2.8333333333333335,
+      "grad_norm": 7.5741801261901855,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 0.0278,
       "step": 510
     },
     {
       "epoch": 2.888888888888889,
+      "grad_norm": 0.1201184019446373,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0091,
       "step": 520
     },
     {
       "epoch": 2.9444444444444446,
+      "grad_norm": 0.032710809260606766,
+      "learning_rate": 5.2777777777777784e-05,
+      "loss": 0.0077,
       "step": 530
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.03236711025238037,
+      "learning_rate": 5e-05,
+      "loss": 0.0557,
       "step": 540
     },
     {
       "epoch": 3.0555555555555554,
+      "grad_norm": 0.034722838550806046,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.0191,
       "step": 550
     },
     {
       "epoch": 3.111111111111111,
+      "grad_norm": 4.018179416656494,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0176,
       "step": 560
     },
     {
       "epoch": 3.1666666666666665,
+      "grad_norm": 0.5732712745666504,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.0087,
       "step": 570
     },
     {
       "epoch": 3.2222222222222223,
+      "grad_norm": 0.027404414489865303,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0079,
       "step": 580
     },
     {
       "epoch": 3.2777777777777777,
+      "grad_norm": 0.02965979278087616,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.0068,
       "step": 590
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 0.026871565729379654,
+      "learning_rate": 3.3333333333333335e-05,
       "loss": 0.0066,
       "step": 600
     },
     {
       "epoch": 3.3333333333333335,
+      "eval_accuracy": 0.7817258883248731,
+      "eval_loss": 1.1282514333724976,
+      "eval_runtime": 6.7045,
+      "eval_samples_per_second": 58.767,
+      "eval_steps_per_second": 7.458,
       "step": 600
     },
     {
       "epoch": 3.388888888888889,
+      "grad_norm": 0.03278065472841263,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.0086,
       "step": 610
     },
     {
       "epoch": 3.4444444444444446,
+      "grad_norm": 0.07111264020204544,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0295,
       "step": 620
     },
     {
       "epoch": 3.5,
+      "grad_norm": 0.028257286176085472,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0065,
       "step": 630
     },
     {
       "epoch": 3.5555555555555554,
+      "grad_norm": 0.02719848044216633,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0418,
       "step": 640
     },
     {
       "epoch": 3.611111111111111,
+      "grad_norm": 0.026137089356780052,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.0073,
       "step": 650
     },
     {
       "epoch": 3.6666666666666665,
+      "grad_norm": 0.030431417748332024,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0101,
       "step": 660
     },
     {
       "epoch": 3.7222222222222223,
+      "grad_norm": 0.025364473462104797,
+      "learning_rate": 1.388888888888889e-05,
       "loss": 0.0062,
       "step": 670
     },
     {
       "epoch": 3.7777777777777777,
+      "grad_norm": 0.02630157209932804,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0076,
       "step": 680
     },
     {
       "epoch": 3.8333333333333335,
+      "grad_norm": 0.025917503982782364,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0062,
       "step": 690
     },
     {
       "epoch": 3.888888888888889,
+      "grad_norm": 6.676637649536133,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0126,
       "step": 700
     },
     {
       "epoch": 3.888888888888889,
+      "eval_accuracy": 0.7842639593908629,
+      "eval_loss": 1.1716859340667725,
+      "eval_runtime": 6.745,
+      "eval_samples_per_second": 58.414,
+      "eval_steps_per_second": 7.413,
       "step": 700
     },
     {
       "epoch": 3.9444444444444446,
+      "grad_norm": 0.025717712938785553,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.008,
       "step": 710
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.07326529920101166,
+      "learning_rate": 0.0,
+      "loss": 0.0065,
       "step": 720
     },
     {
       "epoch": 4.0,
       "step": 720,
       "total_flos": 3.16768696086528e+18,
+      "train_loss": 0.16034429804939362,
+      "train_runtime": 1070.1524,
+      "train_samples_per_second": 10.727,
+      "train_steps_per_second": 0.673
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e70ceac62f8179510d4ddd273ceca649f5752a19a00c2cbb59c7f9eabae6d13
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:fce6746ccd146e07105259c2e2e4af9d52f0db85b3fc814d35a71a4f602c62a9
 size 4984