Training in progress, step 141

Browse files

Files changed (9) hide show

model.safetensors +1 -1
run-184wpa75/checkpoint-141/config.json +22 -0
run-184wpa75/checkpoint-141/model.safetensors +3 -0
run-184wpa75/checkpoint-141/optimizer.pt +3 -0
run-184wpa75/checkpoint-141/rng_state.pth +3 -0
run-184wpa75/checkpoint-141/scheduler.pt +3 -0
run-184wpa75/checkpoint-141/trainer_state.json +745 -0
run-184wpa75/checkpoint-141/training_args.bin +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:953d2a47e129f038cfc3fa14cfe8b8a15e6c896e6eb73cac2575d92591de414c
 size 605156676

 version https://git-lfs.github.com/spec/v1
+oid sha256:04d4c56c3c01ab6d32b9236ca3a5acaa749a3826d60565b3c5b9f0332f9afeec
 size 605156676

run-184wpa75/checkpoint-141/config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "_name_or_path": "openai/clip-vit-base-patch32",
+  "architectures": [
+    "CLIPModel"
+  ],
+  "initializer_factor": 1.0,
+  "logit_scale_init_value": 2.6592,
+  "model_type": "clip",
+  "projection_dim": 512,
+  "text_config": {
+    "bos_token_id": 0,
+    "dropout": 0.0,
+    "eos_token_id": 2,
+    "model_type": "clip_text_model"
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.0.dev0",
+  "vision_config": {
+    "dropout": 0.0,
+    "model_type": "clip_vision_model"
+  }
+}

run-184wpa75/checkpoint-141/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04d4c56c3c01ab6d32b9236ca3a5acaa749a3826d60565b3c5b9f0332f9afeec
+size 605156676

run-184wpa75/checkpoint-141/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3cc96b5a320c1fd197287169bd1be9d3b418529ebc8506e7f419e461cebb462
+size 1210551612

run-184wpa75/checkpoint-141/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62c07c8744379eb786eff44fab8c913f61ee58d12b31db96d56a74fd477c3546
+size 14244

run-184wpa75/checkpoint-141/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1f4dd96eacb7f4f4b3c0ba62c558639e5d3a7894d93b758d5caa5ce931437db
+size 1064

run-184wpa75/checkpoint-141/trainer_state.json ADDED Viewed

	@@ -0,0 +1,745 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 3,
+  "global_step": 141,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06382978723404255,
+      "grad_norm": 124.2018814086914,
+      "learning_rate": 1.7535331119707044e-06,
+      "loss": 2.0572,
+      "step": 3
+    },
+    {
+      "epoch": 0.06382978723404255,
+      "eval_loss": 1.1827610731124878,
+      "eval_runtime": 42.1751,
+      "eval_samples_per_second": 7.113,
+      "eval_steps_per_second": 0.237,
+      "step": 3
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "grad_norm": 109.8505630493164,
+      "learning_rate": 1.7154128269278633e-06,
+      "loss": 1.5529,
+      "step": 6
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "eval_loss": 1.1501864194869995,
+      "eval_runtime": 42.0993,
+      "eval_samples_per_second": 7.126,
+      "eval_steps_per_second": 0.238,
+      "step": 6
+    },
+    {
+      "epoch": 0.19148936170212766,
+      "grad_norm": 117.63591003417969,
+      "learning_rate": 1.6772925418850217e-06,
+      "loss": 1.5783,
+      "step": 9
+    },
+    {
+      "epoch": 0.19148936170212766,
+      "eval_loss": 1.130500078201294,
+      "eval_runtime": 42.0198,
+      "eval_samples_per_second": 7.139,
+      "eval_steps_per_second": 0.238,
+      "step": 9
+    },
+    {
+      "epoch": 0.2553191489361702,
+      "grad_norm": 110.67401123046875,
+      "learning_rate": 1.6391722568421804e-06,
+      "loss": 1.4716,
+      "step": 12
+    },
+    {
+      "epoch": 0.2553191489361702,
+      "eval_loss": 1.1154961585998535,
+      "eval_runtime": 42.0124,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 0.238,
+      "step": 12
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "grad_norm": 129.9371337890625,
+      "learning_rate": 1.6010519717993388e-06,
+      "loss": 1.6606,
+      "step": 15
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "eval_loss": 1.1018186807632446,
+      "eval_runtime": 42.3751,
+      "eval_samples_per_second": 7.08,
+      "eval_steps_per_second": 0.236,
+      "step": 15
+    },
+    {
+      "epoch": 0.3829787234042553,
+      "grad_norm": 103.87210083007812,
+      "learning_rate": 1.5629316867564977e-06,
+      "loss": 1.3736,
+      "step": 18
+    },
+    {
+      "epoch": 0.3829787234042553,
+      "eval_loss": 1.083717703819275,
+      "eval_runtime": 42.0711,
+      "eval_samples_per_second": 7.131,
+      "eval_steps_per_second": 0.238,
+      "step": 18
+    },
+    {
+      "epoch": 0.44680851063829785,
+      "grad_norm": 119.74482727050781,
+      "learning_rate": 1.5248114017136561e-06,
+      "loss": 1.2778,
+      "step": 21
+    },
+    {
+      "epoch": 0.44680851063829785,
+      "eval_loss": 1.0646926164627075,
+      "eval_runtime": 42.0526,
+      "eval_samples_per_second": 7.134,
+      "eval_steps_per_second": 0.238,
+      "step": 21
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "grad_norm": 108.95063781738281,
+      "learning_rate": 1.4866911166708146e-06,
+      "loss": 1.4869,
+      "step": 24
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "eval_loss": 1.0487884283065796,
+      "eval_runtime": 42.9144,
+      "eval_samples_per_second": 6.991,
+      "eval_steps_per_second": 0.233,
+      "step": 24
+    },
+    {
+      "epoch": 0.574468085106383,
+      "grad_norm": 110.69485473632812,
+      "learning_rate": 1.4485708316279732e-06,
+      "loss": 1.6438,
+      "step": 27
+    },
+    {
+      "epoch": 0.574468085106383,
+      "eval_loss": 1.0327484607696533,
+      "eval_runtime": 41.917,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 0.239,
+      "step": 27
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 91.98067474365234,
+      "learning_rate": 1.410450546585132e-06,
+      "loss": 1.3951,
+      "step": 30
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "eval_loss": 1.0159586668014526,
+      "eval_runtime": 42.0413,
+      "eval_samples_per_second": 7.136,
+      "eval_steps_per_second": 0.238,
+      "step": 30
+    },
+    {
+      "epoch": 0.7021276595744681,
+      "grad_norm": 111.0337905883789,
+      "learning_rate": 1.3723302615422906e-06,
+      "loss": 1.5411,
+      "step": 33
+    },
+    {
+      "epoch": 0.7021276595744681,
+      "eval_loss": 1.001741886138916,
+      "eval_runtime": 41.9262,
+      "eval_samples_per_second": 7.155,
+      "eval_steps_per_second": 0.239,
+      "step": 33
+    },
+    {
+      "epoch": 0.7659574468085106,
+      "grad_norm": 112.82505798339844,
+      "learning_rate": 1.334209976499449e-06,
+      "loss": 1.74,
+      "step": 36
+    },
+    {
+      "epoch": 0.7659574468085106,
+      "eval_loss": 0.9873589873313904,
+      "eval_runtime": 42.0672,
+      "eval_samples_per_second": 7.131,
+      "eval_steps_per_second": 0.238,
+      "step": 36
+    },
+    {
+      "epoch": 0.8297872340425532,
+      "grad_norm": 83.90038299560547,
+      "learning_rate": 1.2960896914566079e-06,
+      "loss": 1.4283,
+      "step": 39
+    },
+    {
+      "epoch": 0.8297872340425532,
+      "eval_loss": 0.9728468656539917,
+      "eval_runtime": 41.8103,
+      "eval_samples_per_second": 7.175,
+      "eval_steps_per_second": 0.239,
+      "step": 39
+    },
+    {
+      "epoch": 0.8936170212765957,
+      "grad_norm": 91.89237976074219,
+      "learning_rate": 1.2579694064137663e-06,
+      "loss": 1.3633,
+      "step": 42
+    },
+    {
+      "epoch": 0.8936170212765957,
+      "eval_loss": 0.9623961448669434,
+      "eval_runtime": 42.2595,
+      "eval_samples_per_second": 7.099,
+      "eval_steps_per_second": 0.237,
+      "step": 42
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "grad_norm": 90.68299102783203,
+      "learning_rate": 1.2198491213709248e-06,
+      "loss": 1.2657,
+      "step": 45
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "eval_loss": 0.952121376991272,
+      "eval_runtime": 41.6349,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.24,
+      "step": 45
+    },
+    {
+      "epoch": 1.0212765957446808,
+      "grad_norm": 70.0789566040039,
+      "learning_rate": 1.1817288363280834e-06,
+      "loss": 1.196,
+      "step": 48
+    },
+    {
+      "epoch": 1.0212765957446808,
+      "eval_loss": 0.9464216232299805,
+      "eval_runtime": 41.8409,
+      "eval_samples_per_second": 7.17,
+      "eval_steps_per_second": 0.239,
+      "step": 48
+    },
+    {
+      "epoch": 1.0851063829787233,
+      "grad_norm": 61.23744583129883,
+      "learning_rate": 1.143608551285242e-06,
+      "loss": 0.9878,
+      "step": 51
+    },
+    {
+      "epoch": 1.0851063829787233,
+      "eval_loss": 0.9431673288345337,
+      "eval_runtime": 42.0097,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 0.238,
+      "step": 51
+    },
+    {
+      "epoch": 1.148936170212766,
+      "grad_norm": 59.997928619384766,
+      "learning_rate": 1.1054882662424008e-06,
+      "loss": 0.7991,
+      "step": 54
+    },
+    {
+      "epoch": 1.148936170212766,
+      "eval_loss": 0.9397490620613098,
+      "eval_runtime": 41.8731,
+      "eval_samples_per_second": 7.165,
+      "eval_steps_per_second": 0.239,
+      "step": 54
+    },
+    {
+      "epoch": 1.2127659574468086,
+      "grad_norm": 80.98068237304688,
+      "learning_rate": 1.0673679811995592e-06,
+      "loss": 1.0433,
+      "step": 57
+    },
+    {
+      "epoch": 1.2127659574468086,
+      "eval_loss": 0.9363391995429993,
+      "eval_runtime": 41.8553,
+      "eval_samples_per_second": 7.168,
+      "eval_steps_per_second": 0.239,
+      "step": 57
+    },
+    {
+      "epoch": 1.2765957446808511,
+      "grad_norm": 53.78008270263672,
+      "learning_rate": 1.0292476961567179e-06,
+      "loss": 0.9017,
+      "step": 60
+    },
+    {
+      "epoch": 1.2765957446808511,
+      "eval_loss": 0.9328905344009399,
+      "eval_runtime": 41.7958,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.239,
+      "step": 60
+    },
+    {
+      "epoch": 1.3404255319148937,
+      "grad_norm": 57.83103561401367,
+      "learning_rate": 9.911274111138765e-07,
+      "loss": 0.753,
+      "step": 63
+    },
+    {
+      "epoch": 1.3404255319148937,
+      "eval_loss": 0.9299778342247009,
+      "eval_runtime": 41.3729,
+      "eval_samples_per_second": 7.251,
+      "eval_steps_per_second": 0.242,
+      "step": 63
+    },
+    {
+      "epoch": 1.4042553191489362,
+      "grad_norm": 80.8346939086914,
+      "learning_rate": 9.530071260710351e-07,
+      "loss": 0.9156,
+      "step": 66
+    },
+    {
+      "epoch": 1.4042553191489362,
+      "eval_loss": 0.9271450042724609,
+      "eval_runtime": 41.7615,
+      "eval_samples_per_second": 7.184,
+      "eval_steps_per_second": 0.239,
+      "step": 66
+    },
+    {
+      "epoch": 1.4680851063829787,
+      "grad_norm": 78.29472351074219,
+      "learning_rate": 9.148868410281936e-07,
+      "loss": 1.0504,
+      "step": 69
+    },
+    {
+      "epoch": 1.4680851063829787,
+      "eval_loss": 0.924504816532135,
+      "eval_runtime": 41.9192,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 0.239,
+      "step": 69
+    },
+    {
+      "epoch": 1.5319148936170213,
+      "grad_norm": 75.98001861572266,
+      "learning_rate": 8.767665559853522e-07,
+      "loss": 0.9346,
+      "step": 72
+    },
+    {
+      "epoch": 1.5319148936170213,
+      "eval_loss": 0.9228535890579224,
+      "eval_runtime": 41.7969,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.239,
+      "step": 72
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "grad_norm": 78.4749526977539,
+      "learning_rate": 8.386462709425108e-07,
+      "loss": 1.1295,
+      "step": 75
+    },
+    {
+      "epoch": 1.5957446808510638,
+      "eval_loss": 0.9230568408966064,
+      "eval_runtime": 42.2362,
+      "eval_samples_per_second": 7.103,
+      "eval_steps_per_second": 0.237,
+      "step": 75
+    },
+    {
+      "epoch": 1.6595744680851063,
+      "grad_norm": 65.8353042602539,
+      "learning_rate": 8.005259858996694e-07,
+      "loss": 0.963,
+      "step": 78
+    },
+    {
+      "epoch": 1.6595744680851063,
+      "eval_loss": 0.924599826335907,
+      "eval_runtime": 41.9388,
+      "eval_samples_per_second": 7.153,
+      "eval_steps_per_second": 0.238,
+      "step": 78
+    },
+    {
+      "epoch": 1.7234042553191489,
+      "grad_norm": 72.70856475830078,
+      "learning_rate": 7.624057008568281e-07,
+      "loss": 0.8543,
+      "step": 81
+    },
+    {
+      "epoch": 1.7234042553191489,
+      "eval_loss": 0.923474907875061,
+      "eval_runtime": 41.6413,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.24,
+      "step": 81
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "grad_norm": 70.00830841064453,
+      "learning_rate": 7.242854158139866e-07,
+      "loss": 0.9477,
+      "step": 84
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "eval_loss": 0.9217000603675842,
+      "eval_runtime": 41.966,
+      "eval_samples_per_second": 7.149,
+      "eval_steps_per_second": 0.238,
+      "step": 84
+    },
+    {
+      "epoch": 1.851063829787234,
+      "grad_norm": 76.33753967285156,
+      "learning_rate": 6.861651307711453e-07,
+      "loss": 0.9561,
+      "step": 87
+    },
+    {
+      "epoch": 1.851063829787234,
+      "eval_loss": 0.9191946387290955,
+      "eval_runtime": 41.7464,
+      "eval_samples_per_second": 7.186,
+      "eval_steps_per_second": 0.24,
+      "step": 87
+    },
+    {
+      "epoch": 1.9148936170212765,
+      "grad_norm": 63.938438415527344,
+      "learning_rate": 6.480448457283039e-07,
+      "loss": 0.8467,
+      "step": 90
+    },
+    {
+      "epoch": 1.9148936170212765,
+      "eval_loss": 0.9160861372947693,
+      "eval_runtime": 41.9406,
+      "eval_samples_per_second": 7.153,
+      "eval_steps_per_second": 0.238,
+      "step": 90
+    },
+    {
+      "epoch": 1.978723404255319,
+      "grad_norm": 61.140655517578125,
+      "learning_rate": 6.099245606854624e-07,
+      "loss": 0.8885,
+      "step": 93
+    },
+    {
+      "epoch": 1.978723404255319,
+      "eval_loss": 0.9124653339385986,
+      "eval_runtime": 41.7914,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.239,
+      "step": 93
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "grad_norm": 85.63921356201172,
+      "learning_rate": 5.71804275642621e-07,
+      "loss": 0.9725,
+      "step": 96
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "eval_loss": 0.9095070362091064,
+      "eval_runtime": 41.9334,
+      "eval_samples_per_second": 7.154,
+      "eval_steps_per_second": 0.238,
+      "step": 96
+    },
+    {
+      "epoch": 2.106382978723404,
+      "grad_norm": 54.41471481323242,
+      "learning_rate": 5.336839905997796e-07,
+      "loss": 0.7766,
+      "step": 99
+    },
+    {
+      "epoch": 2.106382978723404,
+      "eval_loss": 0.907377302646637,
+      "eval_runtime": 41.435,
+      "eval_samples_per_second": 7.24,
+      "eval_steps_per_second": 0.241,
+      "step": 99
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "grad_norm": 52.50923538208008,
+      "learning_rate": 4.955637055569383e-07,
+      "loss": 0.6056,
+      "step": 102
+    },
+    {
+      "epoch": 2.1702127659574466,
+      "eval_loss": 0.9063958525657654,
+      "eval_runtime": 41.6535,
+      "eval_samples_per_second": 7.202,
+      "eval_steps_per_second": 0.24,
+      "step": 102
+    },
+    {
+      "epoch": 2.2340425531914896,
+      "grad_norm": 63.870147705078125,
+      "learning_rate": 4.574434205140968e-07,
+      "loss": 0.8563,
+      "step": 105
+    },
+    {
+      "epoch": 2.2340425531914896,
+      "eval_loss": 0.9054309129714966,
+      "eval_runtime": 41.9328,
+      "eval_samples_per_second": 7.154,
+      "eval_steps_per_second": 0.238,
+      "step": 105
+    },
+    {
+      "epoch": 2.297872340425532,
+      "grad_norm": 65.58064270019531,
+      "learning_rate": 4.193231354712554e-07,
+      "loss": 0.771,
+      "step": 108
+    },
+    {
+      "epoch": 2.297872340425532,
+      "eval_loss": 0.9045255780220032,
+      "eval_runtime": 56.878,
+      "eval_samples_per_second": 5.274,
+      "eval_steps_per_second": 0.176,
+      "step": 108
+    },
+    {
+      "epoch": 2.3617021276595747,
+      "grad_norm": 63.23652267456055,
+      "learning_rate": 3.8120285042841403e-07,
+      "loss": 0.6356,
+      "step": 111
+    },
+    {
+      "epoch": 2.3617021276595747,
+      "eval_loss": 0.903464674949646,
+      "eval_runtime": 41.9474,
+      "eval_samples_per_second": 7.152,
+      "eval_steps_per_second": 0.238,
+      "step": 111
+    },
+    {
+      "epoch": 2.425531914893617,
+      "grad_norm": 63.44293212890625,
+      "learning_rate": 3.4308256538557264e-07,
+      "loss": 0.6873,
+      "step": 114
+    },
+    {
+      "epoch": 2.425531914893617,
+      "eval_loss": 0.9008406400680542,
+      "eval_runtime": 41.7413,
+      "eval_samples_per_second": 7.187,
+      "eval_steps_per_second": 0.24,
+      "step": 114
+    },
+    {
+      "epoch": 2.4893617021276597,
+      "grad_norm": 60.9724006652832,
+      "learning_rate": 3.049622803427312e-07,
+      "loss": 0.6176,
+      "step": 117
+    },
+    {
+      "epoch": 2.4893617021276597,
+      "eval_loss": 0.8992650508880615,
+      "eval_runtime": 41.7101,
+      "eval_samples_per_second": 7.193,
+      "eval_steps_per_second": 0.24,
+      "step": 117
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 60.65531539916992,
+      "learning_rate": 2.668419952998898e-07,
+      "loss": 0.7712,
+      "step": 120
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "eval_loss": 0.8983069062232971,
+      "eval_runtime": 41.827,
+      "eval_samples_per_second": 7.172,
+      "eval_steps_per_second": 0.239,
+      "step": 120
+    },
+    {
+      "epoch": 2.617021276595745,
+      "grad_norm": 82.39974212646484,
+      "learning_rate": 2.287217102570484e-07,
+      "loss": 0.8291,
+      "step": 123
+    },
+    {
+      "epoch": 2.617021276595745,
+      "eval_loss": 0.8979833722114563,
+      "eval_runtime": 41.6086,
+      "eval_samples_per_second": 7.21,
+      "eval_steps_per_second": 0.24,
+      "step": 123
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "grad_norm": 58.00943374633789,
+      "learning_rate": 1.9060142521420702e-07,
+      "loss": 0.533,
+      "step": 126
+    },
+    {
+      "epoch": 2.6808510638297873,
+      "eval_loss": 0.897891640663147,
+      "eval_runtime": 41.8583,
+      "eval_samples_per_second": 7.167,
+      "eval_steps_per_second": 0.239,
+      "step": 126
+    },
+    {
+      "epoch": 2.74468085106383,
+      "grad_norm": 68.8989028930664,
+      "learning_rate": 1.524811401713656e-07,
+      "loss": 0.5847,
+      "step": 129
+    },
+    {
+      "epoch": 2.74468085106383,
+      "eval_loss": 0.8978605270385742,
+      "eval_runtime": 41.8662,
+      "eval_samples_per_second": 7.166,
+      "eval_steps_per_second": 0.239,
+      "step": 129
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "grad_norm": 57.711631774902344,
+      "learning_rate": 1.143608551285242e-07,
+      "loss": 0.6585,
+      "step": 132
+    },
+    {
+      "epoch": 2.8085106382978724,
+      "eval_loss": 0.8978198170661926,
+      "eval_runtime": 41.8753,
+      "eval_samples_per_second": 7.164,
+      "eval_steps_per_second": 0.239,
+      "step": 132
+    },
+    {
+      "epoch": 2.872340425531915,
+      "grad_norm": 56.875953674316406,
+      "learning_rate": 7.62405700856828e-08,
+      "loss": 0.6097,
+      "step": 135
+    },
+    {
+      "epoch": 2.872340425531915,
+      "eval_loss": 0.8977547287940979,
+      "eval_runtime": 41.72,
+      "eval_samples_per_second": 7.191,
+      "eval_steps_per_second": 0.24,
+      "step": 135
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "grad_norm": 51.8187141418457,
+      "learning_rate": 3.81202850428414e-08,
+      "loss": 0.7598,
+      "step": 138
+    },
+    {
+      "epoch": 2.9361702127659575,
+      "eval_loss": 0.8975772261619568,
+      "eval_runtime": 41.8536,
+      "eval_samples_per_second": 7.168,
+      "eval_steps_per_second": 0.239,
+      "step": 138
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 77.23634338378906,
+      "learning_rate": 0.0,
+      "loss": 0.6749,
+      "step": 141
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.8975304961204529,
+      "eval_runtime": 24.2871,
+      "eval_samples_per_second": 12.352,
+      "eval_steps_per_second": 0.412,
+      "step": 141
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 141,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 530773856439750.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "_wandb": {},
+    "assignments": {},
+    "decay": 0.01,
+    "learning_rate": 1.791653397013546e-06,
+    "metric": "eval/loss",
+    "per_device_train_batch_size": 64
+  }
+}

run-184wpa75/checkpoint-141/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12f53ae926fcf51f8fe6702a1a01fbe955cf0435dc5c5228f5dc3f0a507d214d
+size 5112

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29aee2a71a1aa3886315b9d3f5f8c00151e191143b415b0176733d90bd738ed0
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:12f53ae926fcf51f8fe6702a1a01fbe955cf0435dc5c5228f5dc3f0a507d214d
 size 5112