End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +13 -0
eval_results.json +8 -0
runs/Apr19_02-50-17_60db23225263/events.out.tfevents.1713496757.60db23225263.1082.1 +3 -0
train_results.json +8 -0
trainer_state.json +540 -0

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3051
-- Accuracy: 0.5
 ## Model description

 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0383
+- Accuracy: 0.55
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 37.94,
+    "eval_accuracy": 0.55,
+    "eval_loss": 1.038263201713562,
+    "eval_runtime": 1.6547,
+    "eval_samples_per_second": 36.261,
+    "eval_steps_per_second": 1.209,
+    "total_flos": 2.864620236542755e+18,
+    "train_loss": 1.2294491975485873,
+    "train_runtime": 1673.337,
+    "train_samples_per_second": 24.447,
+    "train_steps_per_second": 0.176
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 37.94,
+    "eval_accuracy": 0.55,
+    "eval_loss": 1.038263201713562,
+    "eval_runtime": 1.6547,
+    "eval_samples_per_second": 36.261,
+    "eval_steps_per_second": 1.209
+}

runs/Apr19_02-50-17_60db23225263/events.out.tfevents.1713496757.60db23225263.1082.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f49c9268f15def82a88e229e2875132dea0da0c578d6908987c663f3641d128f
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 37.94,
+    "total_flos": 2.864620236542755e+18,
+    "train_loss": 1.2294491975485873,
+    "train_runtime": 1673.337,
+    "train_samples_per_second": 24.447,
+    "train_steps_per_second": 0.176
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,540 @@

+{
+  "best_metric": 0.55,
+  "best_model_checkpoint": "vit-base-patch16-224-dmae-va-U5-42D/checkpoint-15",
+  "epoch": 37.935483870967744,
+  "eval_steps": 500,
+  "global_step": 294,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9,
+      "eval_accuracy": 0.5166666666666667,
+      "eval_loss": 1.0970458984375,
+      "eval_runtime": 1.6221,
+      "eval_samples_per_second": 36.99,
+      "eval_steps_per_second": 1.233,
+      "step": 7
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 5.820129871368408,
+      "learning_rate": 0.0012000000000000001,
+      "loss": 1.3527,
+      "step": 12
+    },
+    {
+      "epoch": 1.94,
+      "eval_accuracy": 0.55,
+      "eval_loss": 1.038263201713562,
+      "eval_runtime": 1.563,
+      "eval_samples_per_second": 38.388,
+      "eval_steps_per_second": 1.28,
+      "step": 15
+    },
+    {
+      "epoch": 2.97,
+      "eval_accuracy": 0.4166666666666667,
+      "eval_loss": 1.235134243965149,
+      "eval_runtime": 2.1089,
+      "eval_samples_per_second": 28.451,
+      "eval_steps_per_second": 0.948,
+      "step": 23
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 5.020723819732666,
+      "learning_rate": 0.0024000000000000002,
+      "loss": 1.3013,
+      "step": 24
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.3333333333333333,
+      "eval_loss": 1.3025089502334595,
+      "eval_runtime": 1.6082,
+      "eval_samples_per_second": 37.309,
+      "eval_steps_per_second": 1.244,
+      "step": 31
+    },
+    {
+      "epoch": 4.65,
+      "grad_norm": 2.038219451904297,
+      "learning_rate": 0.002931818181818182,
+      "loss": 1.3706,
+      "step": 36
+    },
+    {
+      "epoch": 4.9,
+      "eval_accuracy": 0.21666666666666667,
+      "eval_loss": 1.3800110816955566,
+      "eval_runtime": 1.5927,
+      "eval_samples_per_second": 37.671,
+      "eval_steps_per_second": 1.256,
+      "step": 38
+    },
+    {
+      "epoch": 5.94,
+      "eval_accuracy": 0.18333333333333332,
+      "eval_loss": 1.4608864784240723,
+      "eval_runtime": 1.5994,
+      "eval_samples_per_second": 37.515,
+      "eval_steps_per_second": 1.25,
+      "step": 46
+    },
+    {
+      "epoch": 6.19,
+      "grad_norm": 1.954506754875183,
+      "learning_rate": 0.0027954545454545454,
+      "loss": 1.4415,
+      "step": 48
+    },
+    {
+      "epoch": 6.97,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.3718478679656982,
+      "eval_runtime": 1.569,
+      "eval_samples_per_second": 38.242,
+      "eval_steps_per_second": 1.275,
+      "step": 54
+    },
+    {
+      "epoch": 7.74,
+      "grad_norm": 1.276404619216919,
+      "learning_rate": 0.002659090909090909,
+      "loss": 1.3602,
+      "step": 60
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.31666666666666665,
+      "eval_loss": 1.3172897100448608,
+      "eval_runtime": 1.564,
+      "eval_samples_per_second": 38.363,
+      "eval_steps_per_second": 1.279,
+      "step": 62
+    },
+    {
+      "epoch": 8.9,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.2827069759368896,
+      "eval_runtime": 1.5647,
+      "eval_samples_per_second": 38.345,
+      "eval_steps_per_second": 1.278,
+      "step": 69
+    },
+    {
+      "epoch": 9.29,
+      "grad_norm": 1.0918904542922974,
+      "learning_rate": 0.002522727272727273,
+      "loss": 1.3079,
+      "step": 72
+    },
+    {
+      "epoch": 9.94,
+      "eval_accuracy": 0.31666666666666665,
+      "eval_loss": 1.3166981935501099,
+      "eval_runtime": 1.6067,
+      "eval_samples_per_second": 37.343,
+      "eval_steps_per_second": 1.245,
+      "step": 77
+    },
+    {
+      "epoch": 10.84,
+      "grad_norm": 1.5578159093856812,
+      "learning_rate": 0.002386363636363636,
+      "loss": 1.3247,
+      "step": 84
+    },
+    {
+      "epoch": 10.97,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.257886528968811,
+      "eval_runtime": 1.5535,
+      "eval_samples_per_second": 38.623,
+      "eval_steps_per_second": 1.287,
+      "step": 85
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.2,
+      "eval_loss": 1.3202433586120605,
+      "eval_runtime": 2.2419,
+      "eval_samples_per_second": 26.762,
+      "eval_steps_per_second": 0.892,
+      "step": 93
+    },
+    {
+      "epoch": 12.39,
+      "grad_norm": 0.5343012809753418,
+      "learning_rate": 0.0022500000000000003,
+      "loss": 1.3102,
+      "step": 96
+    },
+    {
+      "epoch": 12.9,
+      "eval_accuracy": 0.45,
+      "eval_loss": 1.2353752851486206,
+      "eval_runtime": 1.5721,
+      "eval_samples_per_second": 38.166,
+      "eval_steps_per_second": 1.272,
+      "step": 100
+    },
+    {
+      "epoch": 13.94,
+      "grad_norm": 1.3499153852462769,
+      "learning_rate": 0.002113636363636364,
+      "loss": 1.2807,
+      "step": 108
+    },
+    {
+      "epoch": 13.94,
+      "eval_accuracy": 0.25,
+      "eval_loss": 1.3610022068023682,
+      "eval_runtime": 1.9584,
+      "eval_samples_per_second": 30.638,
+      "eval_steps_per_second": 1.021,
+      "step": 108
+    },
+    {
+      "epoch": 14.97,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.2803313732147217,
+      "eval_runtime": 1.596,
+      "eval_samples_per_second": 37.594,
+      "eval_steps_per_second": 1.253,
+      "step": 116
+    },
+    {
+      "epoch": 15.48,
+      "grad_norm": 1.6496480703353882,
+      "learning_rate": 0.0019772727272727273,
+      "loss": 1.2774,
+      "step": 120
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.21666666666666667,
+      "eval_loss": 1.3338415622711182,
+      "eval_runtime": 1.5818,
+      "eval_samples_per_second": 37.931,
+      "eval_steps_per_second": 1.264,
+      "step": 124
+    },
+    {
+      "epoch": 16.9,
+      "eval_accuracy": 0.35,
+      "eval_loss": 1.2548964023590088,
+      "eval_runtime": 1.5648,
+      "eval_samples_per_second": 38.344,
+      "eval_steps_per_second": 1.278,
+      "step": 131
+    },
+    {
+      "epoch": 17.03,
+      "grad_norm": 0.824222207069397,
+      "learning_rate": 0.001840909090909091,
+      "loss": 1.2596,
+      "step": 132
+    },
+    {
+      "epoch": 17.94,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 1.2692508697509766,
+      "eval_runtime": 1.6871,
+      "eval_samples_per_second": 35.564,
+      "eval_steps_per_second": 1.185,
+      "step": 139
+    },
+    {
+      "epoch": 18.58,
+      "grad_norm": 0.44431018829345703,
+      "learning_rate": 0.0017045454545454547,
+      "loss": 1.2413,
+      "step": 144
+    },
+    {
+      "epoch": 18.97,
+      "eval_accuracy": 0.21666666666666667,
+      "eval_loss": 1.3005454540252686,
+      "eval_runtime": 2.5177,
+      "eval_samples_per_second": 23.831,
+      "eval_steps_per_second": 0.794,
+      "step": 147
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.229854941368103,
+      "eval_runtime": 1.7681,
+      "eval_samples_per_second": 33.934,
+      "eval_steps_per_second": 1.131,
+      "step": 155
+    },
+    {
+      "epoch": 20.13,
+      "grad_norm": 1.6288515329360962,
+      "learning_rate": 0.0015681818181818182,
+      "loss": 1.262,
+      "step": 156
+    },
+    {
+      "epoch": 20.9,
+      "eval_accuracy": 0.26666666666666666,
+      "eval_loss": 1.3453844785690308,
+      "eval_runtime": 1.5884,
+      "eval_samples_per_second": 37.774,
+      "eval_steps_per_second": 1.259,
+      "step": 162
+    },
+    {
+      "epoch": 21.68,
+      "grad_norm": 1.0566848516464233,
+      "learning_rate": 0.0014318181818181819,
+      "loss": 1.2261,
+      "step": 168
+    },
+    {
+      "epoch": 21.94,
+      "eval_accuracy": 0.31666666666666665,
+      "eval_loss": 1.2818458080291748,
+      "eval_runtime": 1.5729,
+      "eval_samples_per_second": 38.146,
+      "eval_steps_per_second": 1.272,
+      "step": 170
+    },
+    {
+      "epoch": 22.97,
+      "eval_accuracy": 0.43333333333333335,
+      "eval_loss": 1.249794840812683,
+      "eval_runtime": 1.5575,
+      "eval_samples_per_second": 38.524,
+      "eval_steps_per_second": 1.284,
+      "step": 178
+    },
+    {
+      "epoch": 23.23,
+      "grad_norm": 1.7413015365600586,
+      "learning_rate": 0.0012954545454545456,
+      "loss": 1.2405,
+      "step": 180
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.31666666666666665,
+      "eval_loss": 1.3376109600067139,
+      "eval_runtime": 1.6036,
+      "eval_samples_per_second": 37.415,
+      "eval_steps_per_second": 1.247,
+      "step": 186
+    },
+    {
+      "epoch": 24.77,
+      "grad_norm": 0.5584876537322998,
+      "learning_rate": 0.001159090909090909,
+      "loss": 1.2245,
+      "step": 192
+    },
+    {
+      "epoch": 24.9,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 1.2595055103302002,
+      "eval_runtime": 1.5658,
+      "eval_samples_per_second": 38.32,
+      "eval_steps_per_second": 1.277,
+      "step": 193
+    },
+    {
+      "epoch": 25.94,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.331896424293518,
+      "eval_runtime": 2.0295,
+      "eval_samples_per_second": 29.564,
+      "eval_steps_per_second": 0.985,
+      "step": 201
+    },
+    {
+      "epoch": 26.32,
+      "grad_norm": 0.9537753462791443,
+      "learning_rate": 0.0010227272727272726,
+      "loss": 1.2034,
+      "step": 204
+    },
+    {
+      "epoch": 26.97,
+      "eval_accuracy": 0.38333333333333336,
+      "eval_loss": 1.25283944606781,
+      "eval_runtime": 1.5793,
+      "eval_samples_per_second": 37.992,
+      "eval_steps_per_second": 1.266,
+      "step": 209
+    },
+    {
+      "epoch": 27.87,
+      "grad_norm": 1.7752221822738647,
+      "learning_rate": 0.0008863636363636364,
+      "loss": 1.1818,
+      "step": 216
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 1.3656209707260132,
+      "eval_runtime": 1.5691,
+      "eval_samples_per_second": 38.237,
+      "eval_steps_per_second": 1.275,
+      "step": 217
+    },
+    {
+      "epoch": 28.9,
+      "eval_accuracy": 0.38333333333333336,
+      "eval_loss": 1.2500847578048706,
+      "eval_runtime": 1.5809,
+      "eval_samples_per_second": 37.953,
+      "eval_steps_per_second": 1.265,
+      "step": 224
+    },
+    {
+      "epoch": 29.42,
+      "grad_norm": 1.1072659492492676,
+      "learning_rate": 0.00075,
+      "loss": 1.1479,
+      "step": 228
+    },
+    {
+      "epoch": 29.94,
+      "eval_accuracy": 0.3,
+      "eval_loss": 1.324063777923584,
+      "eval_runtime": 1.5986,
+      "eval_samples_per_second": 37.533,
+      "eval_steps_per_second": 1.251,
+      "step": 232
+    },
+    {
+      "epoch": 30.97,
+      "grad_norm": 0.8141500353813171,
+      "learning_rate": 0.0006136363636363637,
+      "loss": 1.1193,
+      "step": 240
+    },
+    {
+      "epoch": 30.97,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 1.380292534828186,
+      "eval_runtime": 1.6105,
+      "eval_samples_per_second": 37.256,
+      "eval_steps_per_second": 1.242,
+      "step": 240
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.4166666666666667,
+      "eval_loss": 1.2294162511825562,
+      "eval_runtime": 1.603,
+      "eval_samples_per_second": 37.429,
+      "eval_steps_per_second": 1.248,
+      "step": 248
+    },
+    {
+      "epoch": 32.52,
+      "grad_norm": 0.7440662384033203,
+      "learning_rate": 0.0004772727272727273,
+      "loss": 1.1071,
+      "step": 252
+    },
+    {
+      "epoch": 32.9,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.4134150743484497,
+      "eval_runtime": 1.5689,
+      "eval_samples_per_second": 38.243,
+      "eval_steps_per_second": 1.275,
+      "step": 255
+    },
+    {
+      "epoch": 33.94,
+      "eval_accuracy": 0.36666666666666664,
+      "eval_loss": 1.4123319387435913,
+      "eval_runtime": 1.5844,
+      "eval_samples_per_second": 37.869,
+      "eval_steps_per_second": 1.262,
+      "step": 263
+    },
+    {
+      "epoch": 34.06,
+      "grad_norm": 1.0041050910949707,
+      "learning_rate": 0.0003409090909090909,
+      "loss": 1.0429,
+      "step": 264
+    },
+    {
+      "epoch": 34.97,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.2183587551116943,
+      "eval_runtime": 1.607,
+      "eval_samples_per_second": 37.336,
+      "eval_steps_per_second": 1.245,
+      "step": 271
+    },
+    {
+      "epoch": 35.61,
+      "grad_norm": 1.336283564567566,
+      "learning_rate": 0.00020454545454545454,
+      "loss": 1.0528,
+      "step": 276
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.45,
+      "eval_loss": 1.3099627494812012,
+      "eval_runtime": 2.0818,
+      "eval_samples_per_second": 28.821,
+      "eval_steps_per_second": 0.961,
+      "step": 279
+    },
+    {
+      "epoch": 36.9,
+      "eval_accuracy": 0.38333333333333336,
+      "eval_loss": 1.3248744010925293,
+      "eval_runtime": 1.5674,
+      "eval_samples_per_second": 38.28,
+      "eval_steps_per_second": 1.276,
+      "step": 286
+    },
+    {
+      "epoch": 37.16,
+      "grad_norm": 1.36141836643219,
+      "learning_rate": 6.818181818181818e-05,
+      "loss": 1.0055,
+      "step": 288
+    },
+    {
+      "epoch": 37.94,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.3050577640533447,
+      "eval_runtime": 1.5996,
+      "eval_samples_per_second": 37.51,
+      "eval_steps_per_second": 1.25,
+      "step": 294
+    },
+    {
+      "epoch": 37.94,
+      "step": 294,
+      "total_flos": 2.864620236542755e+18,
+      "train_loss": 1.2294491975485873,
+      "train_runtime": 1673.337,
+      "train_samples_per_second": 24.447,
+      "train_steps_per_second": 0.176
+    }
+  ],
+  "logging_steps": 12,
+  "max_steps": 294,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 42,
+  "save_steps": 500,
+  "total_flos": 2.864620236542755e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}