Training in progress, step 14500, checkpoint

Browse files

Files changed (7) hide show

checkpoint-14500/config.json +31 -0
checkpoint-14500/model.safetensors +3 -0
checkpoint-14500/optimizer.pt +3 -0
checkpoint-14500/rng_state.pth +3 -0
checkpoint-14500/scheduler.pt +3 -0
checkpoint-14500/trainer_state.json +468 -0
checkpoint-14500/training_args.bin +3 -0

checkpoint-14500/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "openai/clip-vit-large-patch14-336",
+  "architectures": [
+    "CLIPModel"
+  ],
+  "initializer_factor": 1.0,
+  "logit_scale_init_value": 2.6592,
+  "model_type": "clip",
+  "projection_dim": 768,
+  "text_config": {
+    "dropout": 0.0,
+    "hidden_size": 768,
+    "intermediate_size": 3072,
+    "model_type": "clip_text_model",
+    "num_attention_heads": 12,
+    "projection_dim": 768
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.0.dev0",
+  "vision_config": {
+    "dropout": 0.0,
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768
+  }
+}

checkpoint-14500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c35a5f3f124e7919ef8c7a1de1b107f5e73ff0bd4229883b88c499421142a372
+size 1711848436

checkpoint-14500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a738147ae0691ba22be58017199e44418f3cbaf071123bb914274687c745933d
+size 3424043887

checkpoint-14500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48472cd9b18a7015cc65e39abf51ba2863d4d4291be21afb626d309680ef0875
+size 14503

checkpoint-14500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b813ca94dda94b3d4ea78de0d7929047e86d3b25cbaf2aab0b763206d69c7f40
+size 623

checkpoint-14500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,468 @@

+{
+  "best_metric": 1.26187002658844,
+  "best_model_checkpoint": "./output/clip-finetuned-csu-p14-336-e4l18-l/checkpoint-14500",
+  "epoch": 1.5465017064846416,
+  "eval_steps": 500,
+  "global_step": 14500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05332764505119454,
+      "grad_norm": 186.70851135253906,
+      "learning_rate": 9.866680887372013e-09,
+      "loss": 0.4804,
+      "step": 500
+    },
+    {
+      "epoch": 0.05332764505119454,
+      "eval_loss": 1.4967491626739502,
+      "eval_runtime": 60.9128,
+      "eval_samples_per_second": 16.204,
+      "eval_steps_per_second": 2.036,
+      "step": 500
+    },
+    {
+      "epoch": 0.10665529010238908,
+      "grad_norm": 86.50623321533203,
+      "learning_rate": 9.733361774744027e-09,
+      "loss": 0.4928,
+      "step": 1000
+    },
+    {
+      "epoch": 0.10665529010238908,
+      "eval_loss": 1.482089877128601,
+      "eval_runtime": 62.7665,
+      "eval_samples_per_second": 15.725,
+      "eval_steps_per_second": 1.976,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1599829351535836,
+      "grad_norm": 603.98974609375,
+      "learning_rate": 9.600042662116041e-09,
+      "loss": 0.4325,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1599829351535836,
+      "eval_loss": 1.4686362743377686,
+      "eval_runtime": 61.6915,
+      "eval_samples_per_second": 15.999,
+      "eval_steps_per_second": 2.01,
+      "step": 1500
+    },
+    {
+      "epoch": 0.21331058020477817,
+      "grad_norm": 13.387365341186523,
+      "learning_rate": 9.466723549488055e-09,
+      "loss": 0.3964,
+      "step": 2000
+    },
+    {
+      "epoch": 0.21331058020477817,
+      "eval_loss": 1.4561632871627808,
+      "eval_runtime": 61.8331,
+      "eval_samples_per_second": 15.962,
+      "eval_steps_per_second": 2.005,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2666382252559727,
+      "grad_norm": 322.0577392578125,
+      "learning_rate": 9.333404436860068e-09,
+      "loss": 0.4294,
+      "step": 2500
+    },
+    {
+      "epoch": 0.2666382252559727,
+      "eval_loss": 1.445016622543335,
+      "eval_runtime": 63.1527,
+      "eval_samples_per_second": 15.629,
+      "eval_steps_per_second": 1.963,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3199658703071672,
+      "grad_norm": 0.010774992406368256,
+      "learning_rate": 9.200085324232083e-09,
+      "loss": 0.3954,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3199658703071672,
+      "eval_loss": 1.4342260360717773,
+      "eval_runtime": 63.3562,
+      "eval_samples_per_second": 15.579,
+      "eval_steps_per_second": 1.957,
+      "step": 3000
+    },
+    {
+      "epoch": 0.37329351535836175,
+      "grad_norm": 42.48988723754883,
+      "learning_rate": 9.066766211604096e-09,
+      "loss": 0.4116,
+      "step": 3500
+    },
+    {
+      "epoch": 0.37329351535836175,
+      "eval_loss": 1.4254305362701416,
+      "eval_runtime": 63.1723,
+      "eval_samples_per_second": 15.624,
+      "eval_steps_per_second": 1.963,
+      "step": 3500
+    },
+    {
+      "epoch": 0.42662116040955633,
+      "grad_norm": 6.53631067276001,
+      "learning_rate": 8.933447098976109e-09,
+      "loss": 0.3366,
+      "step": 4000
+    },
+    {
+      "epoch": 0.42662116040955633,
+      "eval_loss": 1.4154412746429443,
+      "eval_runtime": 63.1863,
+      "eval_samples_per_second": 15.62,
+      "eval_steps_per_second": 1.962,
+      "step": 4000
+    },
+    {
+      "epoch": 0.47994880546075086,
+      "grad_norm": 219.85145568847656,
+      "learning_rate": 8.800127986348124e-09,
+      "loss": 0.3941,
+      "step": 4500
+    },
+    {
+      "epoch": 0.47994880546075086,
+      "eval_loss": 1.406192421913147,
+      "eval_runtime": 63.3732,
+      "eval_samples_per_second": 15.574,
+      "eval_steps_per_second": 1.957,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5332764505119454,
+      "grad_norm": 0.5011767148971558,
+      "learning_rate": 8.666808873720137e-09,
+      "loss": 0.4351,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5332764505119454,
+      "eval_loss": 1.3958221673965454,
+      "eval_runtime": 61.9375,
+      "eval_samples_per_second": 15.935,
+      "eval_steps_per_second": 2.002,
+      "step": 5000
+    },
+    {
+      "epoch": 0.58660409556314,
+      "grad_norm": 1.465696096420288,
+      "learning_rate": 8.53348976109215e-09,
+      "loss": 0.4269,
+      "step": 5500
+    },
+    {
+      "epoch": 0.58660409556314,
+      "eval_loss": 1.3861993551254272,
+      "eval_runtime": 62.145,
+      "eval_samples_per_second": 15.882,
+      "eval_steps_per_second": 1.995,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6399317406143344,
+      "grad_norm": 514.3063354492188,
+      "learning_rate": 8.400170648464164e-09,
+      "loss": 0.3764,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6399317406143344,
+      "eval_loss": 1.377150058746338,
+      "eval_runtime": 63.2598,
+      "eval_samples_per_second": 15.602,
+      "eval_steps_per_second": 1.96,
+      "step": 6000
+    },
+    {
+      "epoch": 0.693259385665529,
+      "grad_norm": 267.90301513671875,
+      "learning_rate": 8.266851535836177e-09,
+      "loss": 0.3354,
+      "step": 6500
+    },
+    {
+      "epoch": 0.693259385665529,
+      "eval_loss": 1.3687273263931274,
+      "eval_runtime": 61.8197,
+      "eval_samples_per_second": 15.966,
+      "eval_steps_per_second": 2.006,
+      "step": 6500
+    },
+    {
+      "epoch": 0.7465870307167235,
+      "grad_norm": 0.4357345700263977,
+      "learning_rate": 8.133532423208192e-09,
+      "loss": 0.3666,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7465870307167235,
+      "eval_loss": 1.360427975654602,
+      "eval_runtime": 61.8202,
+      "eval_samples_per_second": 15.966,
+      "eval_steps_per_second": 2.006,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7999146757679181,
+      "grad_norm": 151.71505737304688,
+      "learning_rate": 8.000213310580205e-09,
+      "loss": 0.3991,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7999146757679181,
+      "eval_loss": 1.351379156112671,
+      "eval_runtime": 62.9768,
+      "eval_samples_per_second": 15.672,
+      "eval_steps_per_second": 1.969,
+      "step": 7500
+    },
+    {
+      "epoch": 0.8532423208191127,
+      "grad_norm": 467.88653564453125,
+      "learning_rate": 7.86689419795222e-09,
+      "loss": 0.4028,
+      "step": 8000
+    },
+    {
+      "epoch": 0.8532423208191127,
+      "eval_loss": 1.3436161279678345,
+      "eval_runtime": 62.1794,
+      "eval_samples_per_second": 15.873,
+      "eval_steps_per_second": 1.994,
+      "step": 8000
+    },
+    {
+      "epoch": 0.9065699658703071,
+      "grad_norm": 186.75767517089844,
+      "learning_rate": 7.733575085324233e-09,
+      "loss": 0.3412,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9065699658703071,
+      "eval_loss": 1.3365025520324707,
+      "eval_runtime": 62.3614,
+      "eval_samples_per_second": 15.827,
+      "eval_steps_per_second": 1.988,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9598976109215017,
+      "grad_norm": 62.3108024597168,
+      "learning_rate": 7.600255972696246e-09,
+      "loss": 0.3685,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9598976109215017,
+      "eval_loss": 1.3287090063095093,
+      "eval_runtime": 63.3854,
+      "eval_samples_per_second": 15.571,
+      "eval_steps_per_second": 1.956,
+      "step": 9000
+    },
+    {
+      "epoch": 1.0132252559726962,
+      "grad_norm": 537.1036987304688,
+      "learning_rate": 7.46693686006826e-09,
+      "loss": 0.3502,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0132252559726962,
+      "eval_loss": 1.3230267763137817,
+      "eval_runtime": 61.9741,
+      "eval_samples_per_second": 15.926,
+      "eval_steps_per_second": 2.001,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0665529010238908,
+      "grad_norm": 433.3678283691406,
+      "learning_rate": 7.333617747440273e-09,
+      "loss": 0.3423,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0665529010238908,
+      "eval_loss": 1.3153482675552368,
+      "eval_runtime": 63.108,
+      "eval_samples_per_second": 15.64,
+      "eval_steps_per_second": 1.965,
+      "step": 10000
+    },
+    {
+      "epoch": 1.1198805460750854,
+      "grad_norm": 16.9348087310791,
+      "learning_rate": 7.2002986348122865e-09,
+      "loss": 0.3562,
+      "step": 10500
+    },
+    {
+      "epoch": 1.1198805460750854,
+      "eval_loss": 1.307684063911438,
+      "eval_runtime": 62.1177,
+      "eval_samples_per_second": 15.889,
+      "eval_steps_per_second": 1.996,
+      "step": 10500
+    },
+    {
+      "epoch": 1.17320819112628,
+      "grad_norm": 333.85516357421875,
+      "learning_rate": 7.0669795221843005e-09,
+      "loss": 0.34,
+      "step": 11000
+    },
+    {
+      "epoch": 1.17320819112628,
+      "eval_loss": 1.3010845184326172,
+      "eval_runtime": 63.2514,
+      "eval_samples_per_second": 15.604,
+      "eval_steps_per_second": 1.96,
+      "step": 11000
+    },
+    {
+      "epoch": 1.2265358361774745,
+      "grad_norm": 0.8008983731269836,
+      "learning_rate": 6.933660409556314e-09,
+      "loss": 0.3681,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2265358361774745,
+      "eval_loss": 1.2945556640625,
+      "eval_runtime": 62.1026,
+      "eval_samples_per_second": 15.893,
+      "eval_steps_per_second": 1.997,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2798634812286689,
+      "grad_norm": 61.41884994506836,
+      "learning_rate": 6.800341296928328e-09,
+      "loss": 0.304,
+      "step": 12000
+    },
+    {
+      "epoch": 1.2798634812286689,
+      "eval_loss": 1.2891267538070679,
+      "eval_runtime": 63.0412,
+      "eval_samples_per_second": 15.656,
+      "eval_steps_per_second": 1.967,
+      "step": 12000
+    },
+    {
+      "epoch": 1.3331911262798635,
+      "grad_norm": 0.1409968137741089,
+      "learning_rate": 6.667022184300341e-09,
+      "loss": 0.3365,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3331911262798635,
+      "eval_loss": 1.2835596799850464,
+      "eval_runtime": 62.1735,
+      "eval_samples_per_second": 15.875,
+      "eval_steps_per_second": 1.994,
+      "step": 12500
+    },
+    {
+      "epoch": 1.386518771331058,
+      "grad_norm": 12.641498565673828,
+      "learning_rate": 6.533703071672356e-09,
+      "loss": 0.323,
+      "step": 13000
+    },
+    {
+      "epoch": 1.386518771331058,
+      "eval_loss": 1.2784309387207031,
+      "eval_runtime": 63.1295,
+      "eval_samples_per_second": 15.635,
+      "eval_steps_per_second": 1.964,
+      "step": 13000
+    },
+    {
+      "epoch": 1.4398464163822526,
+      "grad_norm": 44.88418960571289,
+      "learning_rate": 6.400383959044369e-09,
+      "loss": 0.3823,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4398464163822526,
+      "eval_loss": 1.2729544639587402,
+      "eval_runtime": 62.2234,
+      "eval_samples_per_second": 15.862,
+      "eval_steps_per_second": 1.993,
+      "step": 13500
+    },
+    {
+      "epoch": 1.493174061433447,
+      "grad_norm": 331.7489013671875,
+      "learning_rate": 6.267064846416382e-09,
+      "loss": 0.2957,
+      "step": 14000
+    },
+    {
+      "epoch": 1.493174061433447,
+      "eval_loss": 1.267383098602295,
+      "eval_runtime": 63.223,
+      "eval_samples_per_second": 15.611,
+      "eval_steps_per_second": 1.961,
+      "step": 14000
+    },
+    {
+      "epoch": 1.5465017064846416,
+      "grad_norm": 144.97119140625,
+      "learning_rate": 6.133745733788396e-09,
+      "loss": 0.3459,
+      "step": 14500
+    },
+    {
+      "epoch": 1.5465017064846416,
+      "eval_loss": 1.26187002658844,
+      "eval_runtime": 62.0237,
+      "eval_samples_per_second": 15.913,
+      "eval_steps_per_second": 1.999,
+      "step": 14500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 37504,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5217215609972520.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-14500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf62d80c5182e7768a9c6f2a2a23a186cdc24c25dbb6c6b5e997201f7ab22576
+size 4847