dhritic99/model99123

Browse files

Files changed (7) hide show

README.md +10 -10
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +269 -269
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2613
-- Accuracy: 0.9508
 ## Model description
@@ -37,7 +37,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 3e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
@@ -53,13 +53,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch   | Step | Validation Loss | Accuracy |
 |:-------------:|:-------:|:----:|:---------------:|:--------:|
-| 0.4758        | 7.8125  | 500  | 0.5695          | 0.7939   |
-| 0.1137        | 15.625  | 1000 | 0.4398          | 0.8711   |
-| 0.0466        | 23.4375 | 1500 | 0.4086          | 0.9023   |
-| 0.0086        | 31.25   | 2000 | 0.2433          | 0.9463   |
-| 0.0034        | 39.0625 | 2500 | 0.1636          | 0.9688   |
-| 0.002         | 46.875  | 3000 | 0.1739          | 0.9707   |
-| 0.0014        | 54.6875 | 3500 | 0.1818          | 0.9707   |
 ### Framework versions

 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3419
+- Accuracy: 0.9406
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 | Training Loss | Epoch   | Step | Validation Loss | Accuracy |
 |:-------------:|:-------:|:----:|:---------------:|:--------:|
+| 0.0048        | 7.8125  | 500  | 0.2337          | 0.9473   |
+| 0.0012        | 15.625  | 1000 | 0.1950          | 0.9531   |
+| 0.0007        | 23.4375 | 1500 | 0.1927          | 0.9580   |
+| 0.0004        | 31.25   | 2000 | 0.1970          | 0.9629   |
+| 0.0003        | 39.0625 | 2500 | 0.2040          | 0.9629   |
+| 0.0002        | 46.875  | 3000 | 0.2114          | 0.9629   |
+| 0.0002        | 54.6875 | 3500 | 0.2171          | 0.9648   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 60.0,
-    "eval_accuracy": 0.95078125,
-    "eval_loss": 0.26134949922561646,
-    "eval_runtime": 6.7187,
-    "eval_samples_per_second": 190.513,
-    "eval_steps_per_second": 23.814,
     "total_flos": 1.904477274611122e+19,
-    "train_loss": 0.14902369955088943,
-    "train_runtime": 2785.8591,
-    "train_samples_per_second": 88.217,
-    "train_steps_per_second": 1.378
 }

 {
     "epoch": 60.0,
+    "eval_accuracy": 0.940625,
+    "eval_loss": 0.3418883681297302,
+    "eval_runtime": 6.7246,
+    "eval_samples_per_second": 190.345,
+    "eval_steps_per_second": 23.793,
     "total_flos": 1.904477274611122e+19,
+    "train_loss": 0.0010260362852325974,
+    "train_runtime": 2806.5312,
+    "train_samples_per_second": 87.567,
+    "train_steps_per_second": 1.368
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 60.0,
-    "eval_accuracy": 0.95078125,
-    "eval_loss": 0.26134949922561646,
-    "eval_runtime": 6.7187,
-    "eval_samples_per_second": 190.513,
-    "eval_steps_per_second": 23.814
 }

 {
     "epoch": 60.0,
+    "eval_accuracy": 0.940625,
+    "eval_loss": 0.3418883681297302,
+    "eval_runtime": 6.7246,
+    "eval_samples_per_second": 190.345,
+    "eval_steps_per_second": 23.793
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3158ce4921cc7de61a99fa5043ead77c62382fbae720ec9b3a76b25a7120d00c
 size 343230128

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd9f5e271ad1d8119de83579c28db38d081d9cf64bf984cb94bcef6fec2881b1
 size 343230128

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 60.0,
     "total_flos": 1.904477274611122e+19,
-    "train_loss": 0.14902369955088943,
-    "train_runtime": 2785.8591,
-    "train_samples_per_second": 88.217,
-    "train_steps_per_second": 1.378
 }

 {
     "epoch": 60.0,
     "total_flos": 1.904477274611122e+19,
+    "train_loss": 0.0010260362852325974,
+    "train_runtime": 2806.5312,
+    "train_samples_per_second": 87.567,
+    "train_steps_per_second": 1.368
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.16363227367401123,
-  "best_model_checkpoint": "./vit-base-brain-tumor-detection3/checkpoint-2500",
   "epoch": 60.0,
   "eval_steps": 500,
   "global_step": 3840,
@@ -10,607 +10,607 @@
   "log_history": [
     {
       "epoch": 0.78125,
-      "grad_norm": 1.8165547847747803,
-      "learning_rate": 1.5e-06,
-      "loss": 1.3842,
       "step": 50
     },
     {
       "epoch": 1.5625,
-      "grad_norm": 1.1670353412628174,
-      "learning_rate": 3e-06,
-      "loss": 1.2128,
       "step": 100
     },
     {
       "epoch": 2.34375,
-      "grad_norm": 1.4207779169082642,
-      "learning_rate": 4.5e-06,
-      "loss": 1.0365,
       "step": 150
     },
     {
       "epoch": 3.125,
-      "grad_norm": 3.359316825866699,
-      "learning_rate": 6e-06,
-      "loss": 0.9528,
       "step": 200
     },
     {
       "epoch": 3.90625,
-      "grad_norm": 1.4744346141815186,
-      "learning_rate": 7.5e-06,
-      "loss": 0.8693,
       "step": 250
     },
     {
       "epoch": 4.6875,
-      "grad_norm": 2.3251893520355225,
-      "learning_rate": 9e-06,
-      "loss": 0.8014,
       "step": 300
     },
     {
       "epoch": 5.46875,
-      "grad_norm": 3.080569267272949,
-      "learning_rate": 1.05e-05,
-      "loss": 0.7156,
       "step": 350
     },
     {
       "epoch": 6.25,
-      "grad_norm": 2.417529582977295,
-      "learning_rate": 1.2e-05,
-      "loss": 0.6215,
       "step": 400
     },
     {
       "epoch": 7.03125,
-      "grad_norm": 2.6332898139953613,
-      "learning_rate": 1.3500000000000001e-05,
-      "loss": 0.5781,
       "step": 450
     },
     {
       "epoch": 7.8125,
-      "grad_norm": 4.613404750823975,
-      "learning_rate": 1.5e-05,
-      "loss": 0.4758,
       "step": 500
     },
     {
       "epoch": 7.8125,
-      "eval_accuracy": 0.7939453125,
-      "eval_loss": 0.5694867372512817,
-      "eval_runtime": 6.0709,
-      "eval_samples_per_second": 168.674,
-      "eval_steps_per_second": 21.084,
       "step": 500
     },
     {
       "epoch": 8.59375,
-      "grad_norm": 3.2593910694122314,
-      "learning_rate": 1.65e-05,
-      "loss": 0.3951,
       "step": 550
     },
     {
       "epoch": 9.375,
-      "grad_norm": 4.835229396820068,
-      "learning_rate": 1.8e-05,
-      "loss": 0.278,
       "step": 600
     },
     {
       "epoch": 10.15625,
-      "grad_norm": 2.339912176132202,
-      "learning_rate": 1.95e-05,
-      "loss": 0.2564,
       "step": 650
     },
     {
       "epoch": 10.9375,
-      "grad_norm": 1.6154627799987793,
-      "learning_rate": 2.1e-05,
-      "loss": 0.2094,
       "step": 700
     },
     {
       "epoch": 11.71875,
-      "grad_norm": 3.8827977180480957,
-      "learning_rate": 2.25e-05,
-      "loss": 0.1495,
       "step": 750
     },
     {
       "epoch": 12.5,
-      "grad_norm": 6.941565036773682,
-      "learning_rate": 2.4e-05,
-      "loss": 0.1284,
       "step": 800
     },
     {
       "epoch": 13.28125,
-      "grad_norm": 2.415818691253662,
-      "learning_rate": 2.55e-05,
-      "loss": 0.1136,
       "step": 850
     },
     {
       "epoch": 14.0625,
-      "grad_norm": 1.2879343032836914,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 0.0863,
       "step": 900
     },
     {
       "epoch": 14.84375,
-      "grad_norm": 14.791470527648926,
-      "learning_rate": 2.8499999999999998e-05,
-      "loss": 0.1258,
       "step": 950
     },
     {
       "epoch": 15.625,
-      "grad_norm": 13.995768547058105,
-      "learning_rate": 3e-05,
-      "loss": 0.1137,
       "step": 1000
     },
     {
       "epoch": 15.625,
-      "eval_accuracy": 0.87109375,
-      "eval_loss": 0.43984174728393555,
-      "eval_runtime": 5.4017,
-      "eval_samples_per_second": 189.569,
-      "eval_steps_per_second": 23.696,
       "step": 1000
     },
     {
       "epoch": 16.40625,
-      "grad_norm": 24.01154327392578,
-      "learning_rate": 2.989554317548747e-05,
-      "loss": 0.0756,
       "step": 1050
     },
     {
       "epoch": 17.1875,
-      "grad_norm": 0.24175554513931274,
-      "learning_rate": 2.979108635097493e-05,
-      "loss": 0.0933,
       "step": 1100
     },
     {
       "epoch": 17.96875,
-      "grad_norm": 0.25062623620033264,
-      "learning_rate": 2.96866295264624e-05,
-      "loss": 0.0676,
       "step": 1150
     },
     {
       "epoch": 18.75,
-      "grad_norm": 0.775455892086029,
-      "learning_rate": 2.958217270194986e-05,
-      "loss": 0.081,
       "step": 1200
     },
     {
       "epoch": 19.53125,
-      "grad_norm": 0.12767118215560913,
-      "learning_rate": 2.947771587743733e-05,
-      "loss": 0.0756,
       "step": 1250
     },
     {
       "epoch": 20.3125,
-      "grad_norm": 0.17824232578277588,
-      "learning_rate": 2.937325905292479e-05,
-      "loss": 0.0571,
       "step": 1300
     },
     {
       "epoch": 21.09375,
-      "grad_norm": 0.1250143200159073,
-      "learning_rate": 2.926880222841226e-05,
-      "loss": 0.0462,
       "step": 1350
     },
     {
       "epoch": 21.875,
-      "grad_norm": 1.6465438604354858,
-      "learning_rate": 2.916434540389972e-05,
-      "loss": 0.0346,
       "step": 1400
     },
     {
       "epoch": 22.65625,
-      "grad_norm": 9.335956573486328,
-      "learning_rate": 2.905988857938719e-05,
-      "loss": 0.046,
       "step": 1450
     },
     {
       "epoch": 23.4375,
-      "grad_norm": 0.20395609736442566,
-      "learning_rate": 2.895543175487465e-05,
-      "loss": 0.0466,
       "step": 1500
     },
     {
       "epoch": 23.4375,
-      "eval_accuracy": 0.90234375,
-      "eval_loss": 0.4086352288722992,
-      "eval_runtime": 5.3678,
-      "eval_samples_per_second": 190.768,
-      "eval_steps_per_second": 23.846,
       "step": 1500
     },
     {
       "epoch": 24.21875,
-      "grad_norm": 0.06884710490703583,
-      "learning_rate": 2.885097493036212e-05,
-      "loss": 0.044,
       "step": 1550
     },
     {
       "epoch": 25.0,
-      "grad_norm": 0.2089349329471588,
-      "learning_rate": 2.8746518105849583e-05,
-      "loss": 0.0382,
       "step": 1600
     },
     {
       "epoch": 25.78125,
-      "grad_norm": 0.09039656072854996,
-      "learning_rate": 2.8642061281337048e-05,
-      "loss": 0.0279,
       "step": 1650
     },
     {
       "epoch": 26.5625,
-      "grad_norm": 0.05787573382258415,
-      "learning_rate": 2.8537604456824513e-05,
-      "loss": 0.0257,
       "step": 1700
     },
     {
       "epoch": 27.34375,
-      "grad_norm": 0.04917814955115318,
-      "learning_rate": 2.8433147632311978e-05,
-      "loss": 0.0229,
       "step": 1750
     },
     {
       "epoch": 28.125,
-      "grad_norm": 0.06560017913579941,
-      "learning_rate": 2.8328690807799443e-05,
-      "loss": 0.0191,
       "step": 1800
     },
     {
       "epoch": 28.90625,
-      "grad_norm": 0.03920649737119675,
-      "learning_rate": 2.8224233983286908e-05,
-      "loss": 0.0114,
       "step": 1850
     },
     {
       "epoch": 29.6875,
-      "grad_norm": 0.9064533114433289,
-      "learning_rate": 2.8119777158774373e-05,
-      "loss": 0.0165,
       "step": 1900
     },
     {
       "epoch": 30.46875,
-      "grad_norm": 0.03491423651576042,
-      "learning_rate": 2.8015320334261838e-05,
-      "loss": 0.0078,
       "step": 1950
     },
     {
       "epoch": 31.25,
-      "grad_norm": 0.029768764972686768,
-      "learning_rate": 2.7910863509749306e-05,
-      "loss": 0.0086,
       "step": 2000
     },
     {
       "epoch": 31.25,
-      "eval_accuracy": 0.9462890625,
-      "eval_loss": 0.2432650774717331,
-      "eval_runtime": 5.6297,
-      "eval_samples_per_second": 181.891,
-      "eval_steps_per_second": 22.736,
       "step": 2000
     },
     {
       "epoch": 32.03125,
-      "grad_norm": 0.02953988127410412,
-      "learning_rate": 2.780640668523677e-05,
-      "loss": 0.0062,
       "step": 2050
     },
     {
       "epoch": 32.8125,
-      "grad_norm": 0.025788016617298126,
-      "learning_rate": 2.7701949860724236e-05,
-      "loss": 0.0057,
       "step": 2100
     },
     {
       "epoch": 33.59375,
-      "grad_norm": 0.03053743578493595,
-      "learning_rate": 2.75974930362117e-05,
-      "loss": 0.0053,
       "step": 2150
     },
     {
       "epoch": 34.375,
-      "grad_norm": 0.021916454657912254,
-      "learning_rate": 2.7493036211699166e-05,
-      "loss": 0.0049,
       "step": 2200
     },
     {
       "epoch": 35.15625,
-      "grad_norm": 0.021212272346019745,
-      "learning_rate": 2.738857938718663e-05,
-      "loss": 0.0045,
       "step": 2250
     },
     {
       "epoch": 35.9375,
-      "grad_norm": 0.020344305783510208,
-      "learning_rate": 2.7284122562674096e-05,
-      "loss": 0.0043,
       "step": 2300
     },
     {
       "epoch": 36.71875,
-      "grad_norm": 0.018891936168074608,
-      "learning_rate": 2.717966573816156e-05,
-      "loss": 0.004,
       "step": 2350
     },
     {
       "epoch": 37.5,
-      "grad_norm": 0.017234979197382927,
-      "learning_rate": 2.7075208913649025e-05,
-      "loss": 0.0038,
       "step": 2400
     },
     {
       "epoch": 38.28125,
-      "grad_norm": 0.016466792672872543,
-      "learning_rate": 2.697075208913649e-05,
-      "loss": 0.0035,
       "step": 2450
     },
     {
       "epoch": 39.0625,
-      "grad_norm": 0.017314311116933823,
-      "learning_rate": 2.6866295264623955e-05,
-      "loss": 0.0034,
       "step": 2500
     },
     {
       "epoch": 39.0625,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.16363227367401123,
-      "eval_runtime": 6.1162,
-      "eval_samples_per_second": 167.424,
-      "eval_steps_per_second": 20.928,
       "step": 2500
     },
     {
       "epoch": 39.84375,
-      "grad_norm": 0.01642526686191559,
-      "learning_rate": 2.676183844011142e-05,
-      "loss": 0.0032,
       "step": 2550
     },
     {
       "epoch": 40.625,
-      "grad_norm": 0.013880325481295586,
-      "learning_rate": 2.665738161559889e-05,
-      "loss": 0.003,
       "step": 2600
     },
     {
       "epoch": 41.40625,
-      "grad_norm": 0.01303493045270443,
-      "learning_rate": 2.655292479108635e-05,
-      "loss": 0.0028,
       "step": 2650
     },
     {
       "epoch": 42.1875,
-      "grad_norm": 0.013205628842115402,
-      "learning_rate": 2.644846796657382e-05,
-      "loss": 0.0027,
       "step": 2700
     },
     {
       "epoch": 42.96875,
-      "grad_norm": 0.011895690113306046,
-      "learning_rate": 2.634401114206128e-05,
-      "loss": 0.0026,
       "step": 2750
     },
     {
       "epoch": 43.75,
-      "grad_norm": 0.011271192692220211,
-      "learning_rate": 2.6239554317548748e-05,
-      "loss": 0.0024,
       "step": 2800
     },
     {
       "epoch": 44.53125,
-      "grad_norm": 0.011179978027939796,
-      "learning_rate": 2.613509749303621e-05,
-      "loss": 0.0024,
       "step": 2850
     },
     {
       "epoch": 45.3125,
-      "grad_norm": 0.010614069178700447,
-      "learning_rate": 2.6030640668523678e-05,
-      "loss": 0.0022,
       "step": 2900
     },
     {
       "epoch": 46.09375,
-      "grad_norm": 0.009998313151299953,
-      "learning_rate": 2.5926183844011143e-05,
-      "loss": 0.0021,
       "step": 2950
     },
     {
       "epoch": 46.875,
-      "grad_norm": 0.009446458891034126,
-      "learning_rate": 2.5821727019498608e-05,
-      "loss": 0.002,
       "step": 3000
     },
     {
       "epoch": 46.875,
-      "eval_accuracy": 0.970703125,
-      "eval_loss": 0.17385585606098175,
-      "eval_runtime": 5.8806,
-      "eval_samples_per_second": 174.131,
-      "eval_steps_per_second": 21.766,
       "step": 3000
     },
     {
       "epoch": 47.65625,
-      "grad_norm": 0.009701834060251713,
-      "learning_rate": 2.5717270194986073e-05,
-      "loss": 0.002,
       "step": 3050
     },
     {
       "epoch": 48.4375,
-      "grad_norm": 0.009180723689496517,
-      "learning_rate": 2.5612813370473538e-05,
-      "loss": 0.0019,
       "step": 3100
     },
     {
       "epoch": 49.21875,
-      "grad_norm": 0.008364294655621052,
-      "learning_rate": 2.5508356545961006e-05,
-      "loss": 0.0018,
       "step": 3150
     },
     {
       "epoch": 50.0,
-      "grad_norm": 0.008195644244551659,
-      "learning_rate": 2.5403899721448468e-05,
-      "loss": 0.0017,
       "step": 3200
     },
     {
       "epoch": 50.78125,
-      "grad_norm": 0.008112799376249313,
-      "learning_rate": 2.5299442896935936e-05,
-      "loss": 0.0016,
       "step": 3250
     },
     {
       "epoch": 51.5625,
-      "grad_norm": 0.007568549830466509,
-      "learning_rate": 2.5194986072423398e-05,
-      "loss": 0.0016,
       "step": 3300
     },
     {
       "epoch": 52.34375,
-      "grad_norm": 0.007013232912868261,
-      "learning_rate": 2.5090529247910866e-05,
-      "loss": 0.0015,
       "step": 3350
     },
     {
       "epoch": 53.125,
-      "grad_norm": 0.006883300840854645,
-      "learning_rate": 2.4986072423398327e-05,
-      "loss": 0.0014,
       "step": 3400
     },
     {
       "epoch": 53.90625,
-      "grad_norm": 0.006791520398110151,
-      "learning_rate": 2.4881615598885796e-05,
-      "loss": 0.0014,
       "step": 3450
     },
     {
       "epoch": 54.6875,
-      "grad_norm": 0.008187716826796532,
-      "learning_rate": 2.4777158774373257e-05,
-      "loss": 0.0014,
       "step": 3500
     },
     {
       "epoch": 54.6875,
-      "eval_accuracy": 0.970703125,
-      "eval_loss": 0.1817573606967926,
-      "eval_runtime": 5.8237,
-      "eval_samples_per_second": 175.833,
-      "eval_steps_per_second": 21.979,
       "step": 3500
     },
     {
       "epoch": 55.46875,
-      "grad_norm": 0.0065140994265675545,
-      "learning_rate": 2.4672701949860726e-05,
-      "loss": 0.0013,
       "step": 3550
     },
     {
       "epoch": 56.25,
-      "grad_norm": 0.007060408126562834,
-      "learning_rate": 2.456824512534819e-05,
-      "loss": 0.0012,
       "step": 3600
     },
     {
       "epoch": 57.03125,
-      "grad_norm": 0.0056546530686318874,
-      "learning_rate": 2.4463788300835655e-05,
-      "loss": 0.0012,
       "step": 3650
     },
     {
       "epoch": 57.8125,
-      "grad_norm": 0.006707963068038225,
-      "learning_rate": 2.435933147632312e-05,
-      "loss": 0.0012,
       "step": 3700
     },
     {
       "epoch": 58.59375,
-      "grad_norm": 0.006301193963736296,
-      "learning_rate": 2.4254874651810585e-05,
-      "loss": 0.0011,
       "step": 3750
     },
     {
       "epoch": 59.375,
-      "grad_norm": 0.005066621117293835,
-      "learning_rate": 2.415041782729805e-05,
-      "loss": 0.0011,
       "step": 3800
     },
     {
       "epoch": 60.0,
       "step": 3840,
       "total_flos": 1.904477274611122e+19,
-      "train_loss": 0.14902369955088943,
-      "train_runtime": 2785.8591,
-      "train_samples_per_second": 88.217,
-      "train_steps_per_second": 1.378
     }
   ],
   "logging_steps": 50,

 {
+  "best_metric": 0.1927209496498108,
+  "best_model_checkpoint": "./vit-base-brain-tumor-detection3/checkpoint-1500",
   "epoch": 60.0,
   "eval_steps": 500,
   "global_step": 3840,
   "log_history": [
     {
       "epoch": 0.78125,
+      "grad_norm": 0.014016176573932171,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.0028,
       "step": 50
     },
     {
       "epoch": 1.5625,
+      "grad_norm": 0.013060510158538818,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0028,
       "step": 100
     },
     {
       "epoch": 2.34375,
+      "grad_norm": 0.013337934389710426,
+      "learning_rate": 1.5e-06,
+      "loss": 0.0028,
       "step": 150
     },
     {
       "epoch": 3.125,
+      "grad_norm": 0.013658256269991398,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0027,
       "step": 200
     },
     {
       "epoch": 3.90625,
+      "grad_norm": 0.012454299256205559,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0026,
       "step": 250
     },
     {
       "epoch": 4.6875,
+      "grad_norm": 0.013191607780754566,
+      "learning_rate": 3e-06,
+      "loss": 0.0026,
       "step": 300
     },
     {
       "epoch": 5.46875,
+      "grad_norm": 0.0118486937135458,
+      "learning_rate": 3.5e-06,
+      "loss": 0.0025,
       "step": 350
     },
     {
       "epoch": 6.25,
+      "grad_norm": 0.0345335379242897,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0024,
       "step": 400
     },
     {
       "epoch": 7.03125,
+      "grad_norm": 0.013763554394245148,
+      "learning_rate": 4.5e-06,
+      "loss": 0.0137,
       "step": 450
     },
     {
       "epoch": 7.8125,
+      "grad_norm": 0.014735482633113861,
+      "learning_rate": 5e-06,
+      "loss": 0.0048,
       "step": 500
     },
     {
       "epoch": 7.8125,
+      "eval_accuracy": 0.947265625,
+      "eval_loss": 0.2336536943912506,
+      "eval_runtime": 5.8997,
+      "eval_samples_per_second": 173.569,
+      "eval_steps_per_second": 21.696,
       "step": 500
     },
     {
       "epoch": 8.59375,
+      "grad_norm": 0.013056355528533459,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.0022,
       "step": 550
     },
     {
       "epoch": 9.375,
+      "grad_norm": 0.009187333285808563,
+      "learning_rate": 6e-06,
+      "loss": 0.0021,
       "step": 600
     },
     {
       "epoch": 10.15625,
+      "grad_norm": 0.0087556978687644,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.0019,
       "step": 650
     },
     {
       "epoch": 10.9375,
+      "grad_norm": 0.008410913869738579,
+      "learning_rate": 7e-06,
+      "loss": 0.0018,
       "step": 700
     },
     {
       "epoch": 11.71875,
+      "grad_norm": 0.008203917182981968,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0017,
       "step": 750
     },
     {
       "epoch": 12.5,
+      "grad_norm": 0.007246215827763081,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0016,
       "step": 800
     },
     {
       "epoch": 13.28125,
+      "grad_norm": 0.006727874744683504,
+      "learning_rate": 8.5e-06,
+      "loss": 0.0015,
       "step": 850
     },
     {
       "epoch": 14.0625,
+      "grad_norm": 0.007697463966906071,
+      "learning_rate": 9e-06,
+      "loss": 0.0014,
       "step": 900
     },
     {
       "epoch": 14.84375,
+      "grad_norm": 0.005949131678789854,
+      "learning_rate": 9.5e-06,
+      "loss": 0.0013,
       "step": 950
     },
     {
       "epoch": 15.625,
+      "grad_norm": 0.0054717655293643475,
+      "learning_rate": 1e-05,
+      "loss": 0.0012,
       "step": 1000
     },
     {
       "epoch": 15.625,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.19501826167106628,
+      "eval_runtime": 5.9147,
+      "eval_samples_per_second": 173.128,
+      "eval_steps_per_second": 21.641,
       "step": 1000
     },
     {
       "epoch": 16.40625,
+      "grad_norm": 0.005219893530011177,
+      "learning_rate": 9.965181058495823e-06,
+      "loss": 0.0011,
       "step": 1050
     },
     {
       "epoch": 17.1875,
+      "grad_norm": 0.004757468122988939,
+      "learning_rate": 9.930362116991644e-06,
+      "loss": 0.0011,
       "step": 1100
     },
     {
       "epoch": 17.96875,
+      "grad_norm": 0.004971610382199287,
+      "learning_rate": 9.895543175487466e-06,
+      "loss": 0.001,
       "step": 1150
     },
     {
       "epoch": 18.75,
+      "grad_norm": 0.0046828743070364,
+      "learning_rate": 9.860724233983288e-06,
+      "loss": 0.0009,
       "step": 1200
     },
     {
       "epoch": 19.53125,
+      "grad_norm": 0.004280711989849806,
+      "learning_rate": 9.82590529247911e-06,
+      "loss": 0.0009,
       "step": 1250
     },
     {
       "epoch": 20.3125,
+      "grad_norm": 0.004425444174557924,
+      "learning_rate": 9.79108635097493e-06,
+      "loss": 0.0008,
       "step": 1300
     },
     {
       "epoch": 21.09375,
+      "grad_norm": 0.0037732652854174376,
+      "learning_rate": 9.756267409470753e-06,
+      "loss": 0.0008,
       "step": 1350
     },
     {
       "epoch": 21.875,
+      "grad_norm": 0.0033754699397832155,
+      "learning_rate": 9.721448467966575e-06,
+      "loss": 0.0007,
       "step": 1400
     },
     {
       "epoch": 22.65625,
+      "grad_norm": 0.003637350630015135,
+      "learning_rate": 9.686629526462397e-06,
+      "loss": 0.0007,
       "step": 1450
     },
     {
       "epoch": 23.4375,
+      "grad_norm": 0.003412399208173156,
+      "learning_rate": 9.651810584958218e-06,
+      "loss": 0.0007,
       "step": 1500
     },
     {
       "epoch": 23.4375,
+      "eval_accuracy": 0.9580078125,
+      "eval_loss": 0.1927209496498108,
+      "eval_runtime": 5.2401,
+      "eval_samples_per_second": 195.416,
+      "eval_steps_per_second": 24.427,
       "step": 1500
     },
     {
       "epoch": 24.21875,
+      "grad_norm": 0.002839893801137805,
+      "learning_rate": 9.61699164345404e-06,
+      "loss": 0.0006,
       "step": 1550
     },
     {
       "epoch": 25.0,
+      "grad_norm": 0.0031008291989564896,
+      "learning_rate": 9.58217270194986e-06,
+      "loss": 0.0006,
       "step": 1600
     },
     {
       "epoch": 25.78125,
+      "grad_norm": 0.002541514113545418,
+      "learning_rate": 9.547353760445683e-06,
+      "loss": 0.0006,
       "step": 1650
     },
     {
       "epoch": 26.5625,
+      "grad_norm": 0.0025104843080043793,
+      "learning_rate": 9.512534818941505e-06,
+      "loss": 0.0005,
       "step": 1700
     },
     {
       "epoch": 27.34375,
+      "grad_norm": 0.0023143806029111147,
+      "learning_rate": 9.477715877437327e-06,
+      "loss": 0.0005,
       "step": 1750
     },
     {
       "epoch": 28.125,
+      "grad_norm": 0.0023780674673616886,
+      "learning_rate": 9.442896935933148e-06,
+      "loss": 0.0005,
       "step": 1800
     },
     {
       "epoch": 28.90625,
+      "grad_norm": 0.002274406375363469,
+      "learning_rate": 9.40807799442897e-06,
+      "loss": 0.0005,
       "step": 1850
     },
     {
       "epoch": 29.6875,
+      "grad_norm": 0.002076026052236557,
+      "learning_rate": 9.373259052924792e-06,
+      "loss": 0.0005,
       "step": 1900
     },
     {
       "epoch": 30.46875,
+      "grad_norm": 0.0024436817038804293,
+      "learning_rate": 9.338440111420614e-06,
+      "loss": 0.0004,
       "step": 1950
     },
     {
       "epoch": 31.25,
+      "grad_norm": 0.0018446892499923706,
+      "learning_rate": 9.303621169916436e-06,
+      "loss": 0.0004,
       "step": 2000
     },
     {
       "epoch": 31.25,
+      "eval_accuracy": 0.962890625,
+      "eval_loss": 0.1969820261001587,
+      "eval_runtime": 5.2387,
+      "eval_samples_per_second": 195.469,
+      "eval_steps_per_second": 24.434,
       "step": 2000
     },
     {
       "epoch": 32.03125,
+      "grad_norm": 0.0020159403793513775,
+      "learning_rate": 9.268802228412257e-06,
+      "loss": 0.0004,
       "step": 2050
     },
     {
       "epoch": 32.8125,
+      "grad_norm": 0.0019202978583052754,
+      "learning_rate": 9.23398328690808e-06,
+      "loss": 0.0004,
       "step": 2100
     },
     {
       "epoch": 33.59375,
+      "grad_norm": 0.0030681404750794172,
+      "learning_rate": 9.1991643454039e-06,
+      "loss": 0.0004,
       "step": 2150
     },
     {
       "epoch": 34.375,
+      "grad_norm": 0.0016341815935447812,
+      "learning_rate": 9.164345403899722e-06,
+      "loss": 0.0004,
       "step": 2200
     },
     {
       "epoch": 35.15625,
+      "grad_norm": 0.0016691142227500677,
+      "learning_rate": 9.129526462395544e-06,
+      "loss": 0.0003,
       "step": 2250
     },
     {
       "epoch": 35.9375,
+      "grad_norm": 0.0017921621911227703,
+      "learning_rate": 9.094707520891366e-06,
+      "loss": 0.0003,
       "step": 2300
     },
     {
       "epoch": 36.71875,
+      "grad_norm": 0.00160547427367419,
+      "learning_rate": 9.059888579387187e-06,
+      "loss": 0.0003,
       "step": 2350
     },
     {
       "epoch": 37.5,
+      "grad_norm": 0.0014217059360817075,
+      "learning_rate": 9.025069637883009e-06,
+      "loss": 0.0003,
       "step": 2400
     },
     {
       "epoch": 38.28125,
+      "grad_norm": 0.001448018359951675,
+      "learning_rate": 8.990250696378831e-06,
+      "loss": 0.0003,
       "step": 2450
     },
     {
       "epoch": 39.0625,
+      "grad_norm": 0.0017675248673185706,
+      "learning_rate": 8.955431754874653e-06,
+      "loss": 0.0003,
       "step": 2500
     },
     {
       "epoch": 39.0625,
+      "eval_accuracy": 0.962890625,
+      "eval_loss": 0.20403626561164856,
+      "eval_runtime": 5.1962,
+      "eval_samples_per_second": 197.067,
+      "eval_steps_per_second": 24.633,
       "step": 2500
     },
     {
       "epoch": 39.84375,
+      "grad_norm": 0.0017623680178076029,
+      "learning_rate": 8.920612813370474e-06,
+      "loss": 0.0003,
       "step": 2550
     },
     {
       "epoch": 40.625,
+      "grad_norm": 0.0011810092255473137,
+      "learning_rate": 8.885793871866296e-06,
+      "loss": 0.0003,
       "step": 2600
     },
     {
       "epoch": 41.40625,
+      "grad_norm": 0.001152553828433156,
+      "learning_rate": 8.850974930362117e-06,
+      "loss": 0.0003,
       "step": 2650
     },
     {
       "epoch": 42.1875,
+      "grad_norm": 0.0012170104309916496,
+      "learning_rate": 8.816155988857939e-06,
+      "loss": 0.0003,
       "step": 2700
     },
     {
       "epoch": 42.96875,
+      "grad_norm": 0.0010642099659889936,
+      "learning_rate": 8.781337047353761e-06,
+      "loss": 0.0002,
       "step": 2750
     },
     {
       "epoch": 43.75,
+      "grad_norm": 0.0010462955106049776,
+      "learning_rate": 8.746518105849583e-06,
+      "loss": 0.0002,
       "step": 2800
     },
     {
       "epoch": 44.53125,
+      "grad_norm": 0.0010893407743424177,
+      "learning_rate": 8.711699164345404e-06,
+      "loss": 0.0002,
       "step": 2850
     },
     {
       "epoch": 45.3125,
+      "grad_norm": 0.0010920371860265732,
+      "learning_rate": 8.676880222841226e-06,
+      "loss": 0.0002,
       "step": 2900
     },
     {
       "epoch": 46.09375,
+      "grad_norm": 0.0010040885536000133,
+      "learning_rate": 8.642061281337048e-06,
+      "loss": 0.0002,
       "step": 2950
     },
     {
       "epoch": 46.875,
+      "grad_norm": 0.0009422469302080572,
+      "learning_rate": 8.60724233983287e-06,
+      "loss": 0.0002,
       "step": 3000
     },
     {
       "epoch": 46.875,
+      "eval_accuracy": 0.962890625,
+      "eval_loss": 0.21138769388198853,
+      "eval_runtime": 5.8076,
+      "eval_samples_per_second": 176.32,
+      "eval_steps_per_second": 22.04,
       "step": 3000
     },
     {
       "epoch": 47.65625,
+      "grad_norm": 0.0011073002824559808,
+      "learning_rate": 8.572423398328693e-06,
+      "loss": 0.0002,
       "step": 3050
     },
     {
       "epoch": 48.4375,
+      "grad_norm": 0.000991741195321083,
+      "learning_rate": 8.537604456824513e-06,
+      "loss": 0.0002,
       "step": 3100
     },
     {
       "epoch": 49.21875,
+      "grad_norm": 0.0008712337585166097,
+      "learning_rate": 8.502785515320335e-06,
+      "loss": 0.0002,
       "step": 3150
     },
     {
       "epoch": 50.0,
+      "grad_norm": 0.0008826220873743296,
+      "learning_rate": 8.467966573816156e-06,
+      "loss": 0.0002,
       "step": 3200
     },
     {
       "epoch": 50.78125,
+      "grad_norm": 0.0009179635089822114,
+      "learning_rate": 8.433147632311978e-06,
+      "loss": 0.0002,
       "step": 3250
     },
     {
       "epoch": 51.5625,
+      "grad_norm": 0.0008320676279254258,
+      "learning_rate": 8.3983286908078e-06,
+      "loss": 0.0002,
       "step": 3300
     },
     {
       "epoch": 52.34375,
+      "grad_norm": 0.0007437244057655334,
+      "learning_rate": 8.363509749303623e-06,
+      "loss": 0.0002,
       "step": 3350
     },
     {
       "epoch": 53.125,
+      "grad_norm": 0.0007439731853082776,
+      "learning_rate": 8.328690807799443e-06,
+      "loss": 0.0002,
       "step": 3400
     },
     {
       "epoch": 53.90625,
+      "grad_norm": 0.0007023093639872968,
+      "learning_rate": 8.293871866295265e-06,
+      "loss": 0.0002,
       "step": 3450
     },
     {
       "epoch": 54.6875,
+      "grad_norm": 0.0011785700917243958,
+      "learning_rate": 8.259052924791087e-06,
+      "loss": 0.0002,
       "step": 3500
     },
     {
       "epoch": 54.6875,
+      "eval_accuracy": 0.96484375,
+      "eval_loss": 0.217063769698143,
+      "eval_runtime": 5.3451,
+      "eval_samples_per_second": 191.577,
+      "eval_steps_per_second": 23.947,
       "step": 3500
     },
     {
       "epoch": 55.46875,
+      "grad_norm": 0.0007988162687979639,
+      "learning_rate": 8.22423398328691e-06,
+      "loss": 0.0001,
       "step": 3550
     },
     {
       "epoch": 56.25,
+      "grad_norm": 0.0009737128275446594,
+      "learning_rate": 8.18941504178273e-06,
+      "loss": 0.0001,
       "step": 3600
     },
     {
       "epoch": 57.03125,
+      "grad_norm": 0.0006344786379486322,
+      "learning_rate": 8.154596100278552e-06,
+      "loss": 0.0001,
       "step": 3650
     },
     {
       "epoch": 57.8125,
+      "grad_norm": 0.0009238629718311131,
+      "learning_rate": 8.119777158774373e-06,
+      "loss": 0.0001,
       "step": 3700
     },
     {
       "epoch": 58.59375,
+      "grad_norm": 0.000863746739923954,
+      "learning_rate": 8.084958217270195e-06,
+      "loss": 0.0001,
       "step": 3750
     },
     {
       "epoch": 59.375,
+      "grad_norm": 0.0005797584308311343,
+      "learning_rate": 8.050139275766017e-06,
+      "loss": 0.0001,
       "step": 3800
     },
     {
       "epoch": 60.0,
       "step": 3840,
       "total_flos": 1.904477274611122e+19,
+      "train_loss": 0.0010260362852325974,
+      "train_runtime": 2806.5312,
+      "train_samples_per_second": 87.567,
+      "train_steps_per_second": 1.368
     }
   ],
   "logging_steps": 50,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84173542b25ab0ff865d0db2a4e5d9b4838d6312ff6d86d248cd2347a190daf4
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c6bd5896a6c68059187803c69a823434e3456afd1c4beb716bf45d591574b6c
 size 5112