Training in progress, epoch 42, checkpoint

Browse files

Files changed (17) hide show

checkpoint-10500/README.md +9 -0
checkpoint-10500/adapter_config.json +25 -0
checkpoint-10500/adapter_model.safetensors +3 -0
checkpoint-10500/added_tokens.json +5 -0
checkpoint-10500/merges.txt +0 -0
checkpoint-10500/optimizer.pt +3 -0
checkpoint-10500/rng_state_0.pth +3 -0
checkpoint-10500/rng_state_1.pth +3 -0
checkpoint-10500/rng_state_2.pth +3 -0
checkpoint-10500/rng_state_3.pth +3 -0
checkpoint-10500/scheduler.pt +3 -0
checkpoint-10500/special_tokens_map.json +14 -0
checkpoint-10500/tokenizer.json +0 -0
checkpoint-10500/tokenizer_config.json +43 -0
checkpoint-10500/trainer_state.json +1398 -0
checkpoint-10500/training_args.bin +3 -0
checkpoint-10500/vocab.json +0 -0

checkpoint-10500/README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.5.0

checkpoint-10500/adapter_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen1.5-4B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "down_proj",
+    "gate_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-10500/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c10aa1877742d3be21f263af49c1d0bf0553ae192e3059f740078cdba98aa9e6
+size 112130416

checkpoint-10500/added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

checkpoint-10500/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c07e065d922c905e190f5a237415b05c3c68454143198828099e116f0be276e3
+size 224537202

checkpoint-10500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5715fc1a6575f5c638f52fdfa3195daa63b4ec0215714338164d7e84661ba15
+size 15024

checkpoint-10500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b975830a9dea2f1202f67dbf7bced3ed095ed1b85296f63360dba60205d4a9f
+size 15024

checkpoint-10500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fbef669d7302a3af615231097e9644308c65ecd4f94f6e4de610189ddd8a2b4
+size 15024

checkpoint-10500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:208134424c7766261ecc81f739be907e626b90946015eb441312eebccc264278
+size 15024

checkpoint-10500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adb9d2cbde21739a059e55c6fb13e7b786256c3941d97df542e195fae4018679
+size 1064

checkpoint-10500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>"
+}

checkpoint-10500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-10500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1398 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 42.0,
+  "eval_steps": 500,
+  "global_step": 10500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.5479037761688232,
+      "learning_rate": 0.0005,
+      "loss": 2.3029,
+      "step": 100
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.5442906618118286,
+      "learning_rate": 0.0005,
+      "loss": 2.2398,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5162539682539683,
+      "eval_loss": 2.3236427307128906,
+      "eval_runtime": 5.266,
+      "eval_samples_per_second": 94.949,
+      "eval_steps_per_second": 11.964,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 17.6,
+      "eval_f1": 26.59450937950939,
+      "step": 250
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.6918729543685913,
+      "learning_rate": 0.0005,
+      "loss": 2.0245,
+      "step": 300
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.7950774431228638,
+      "learning_rate": 0.0005,
+      "loss": 1.8286,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.6913579106330872,
+      "learning_rate": 0.0005,
+      "loss": 1.8301,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5124126984126984,
+      "eval_loss": 2.4219954013824463,
+      "eval_runtime": 5.2763,
+      "eval_samples_per_second": 94.763,
+      "eval_steps_per_second": 11.94,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 17.0,
+      "eval_f1": 24.808081363081367,
+      "step": 500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.9923084378242493,
+      "learning_rate": 0.0005,
+      "loss": 1.3144,
+      "step": 600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 1.0025588274002075,
+      "learning_rate": 0.0005,
+      "loss": 1.3626,
+      "step": 700
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5061904761904762,
+      "eval_loss": 2.6152632236480713,
+      "eval_runtime": 5.2745,
+      "eval_samples_per_second": 94.795,
+      "eval_steps_per_second": 11.944,
+      "step": 750
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 16.0,
+      "eval_f1": 24.234217449217454,
+      "step": 750
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.0352345705032349,
+      "learning_rate": 0.0005,
+      "loss": 1.1681,
+      "step": 800
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.1078394651412964,
+      "learning_rate": 0.0005,
+      "loss": 0.9584,
+      "step": 900
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.14862060546875,
+      "learning_rate": 0.0005,
+      "loss": 1.0112,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.49974603174603177,
+      "eval_loss": 2.834880828857422,
+      "eval_runtime": 5.1472,
+      "eval_samples_per_second": 97.141,
+      "eval_steps_per_second": 12.24,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 13.6,
+      "eval_f1": 20.6380957930958,
+      "step": 1000
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.2231959104537964,
+      "learning_rate": 0.0005,
+      "loss": 0.6614,
+      "step": 1100
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.1669212579727173,
+      "learning_rate": 0.0005,
+      "loss": 0.7198,
+      "step": 1200
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4963174603174603,
+      "eval_loss": 3.075563907623291,
+      "eval_runtime": 5.1584,
+      "eval_samples_per_second": 96.929,
+      "eval_steps_per_second": 12.213,
+      "step": 1250
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 20.88632090132091,
+      "step": 1250
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.9650686979293823,
+      "learning_rate": 0.0005,
+      "loss": 0.6299,
+      "step": 1300
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.9634979963302612,
+      "learning_rate": 0.0005,
+      "loss": 0.5491,
+      "step": 1400
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.0452007055282593,
+      "learning_rate": 0.0005,
+      "loss": 0.589,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.49434920634920637,
+      "eval_loss": 3.2339136600494385,
+      "eval_runtime": 5.1512,
+      "eval_samples_per_second": 97.064,
+      "eval_steps_per_second": 12.23,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 15.0,
+      "eval_f1": 21.66983199806731,
+      "step": 1500
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 1.0834842920303345,
+      "learning_rate": 0.0005,
+      "loss": 0.4679,
+      "step": 1600
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.9649925231933594,
+      "learning_rate": 0.0005,
+      "loss": 0.4969,
+      "step": 1700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4934920634920635,
+      "eval_loss": 3.34251070022583,
+      "eval_runtime": 5.2951,
+      "eval_samples_per_second": 94.426,
+      "eval_steps_per_second": 11.898,
+      "step": 1750
+    },
+    {
+      "epoch": 7.0,
+      "eval_exact_match": 13.8,
+      "eval_f1": 20.9043167943168,
+      "step": 1750
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.8583429455757141,
+      "learning_rate": 0.0005,
+      "loss": 0.4737,
+      "step": 1800
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.9595094919204712,
+      "learning_rate": 0.0005,
+      "loss": 0.4544,
+      "step": 1900
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.9260773062705994,
+      "learning_rate": 0.0005,
+      "loss": 0.4786,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.49244444444444446,
+      "eval_loss": 3.4198057651519775,
+      "eval_runtime": 5.8813,
+      "eval_samples_per_second": 85.015,
+      "eval_steps_per_second": 10.712,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_exact_match": 13.4,
+      "eval_f1": 20.923260628260632,
+      "step": 2000
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.045862078666687,
+      "learning_rate": 0.0005,
+      "loss": 0.4114,
+      "step": 2100
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.7850492000579834,
+      "learning_rate": 0.0005,
+      "loss": 0.4399,
+      "step": 2200
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.49114285714285716,
+      "eval_loss": 3.4694714546203613,
+      "eval_runtime": 5.945,
+      "eval_samples_per_second": 84.104,
+      "eval_steps_per_second": 10.597,
+      "step": 2250
+    },
+    {
+      "epoch": 9.0,
+      "eval_exact_match": 13.0,
+      "eval_f1": 20.096701018279973,
+      "step": 2250
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.8059192895889282,
+      "learning_rate": 0.0005,
+      "loss": 0.4299,
+      "step": 2300
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.9573262333869934,
+      "learning_rate": 0.0005,
+      "loss": 0.4169,
+      "step": 2400
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.1837812662124634,
+      "learning_rate": 0.0005,
+      "loss": 0.4481,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.49133333333333334,
+      "eval_loss": 3.5352694988250732,
+      "eval_runtime": 5.1504,
+      "eval_samples_per_second": 97.08,
+      "eval_steps_per_second": 12.232,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 20.9187062937063,
+      "step": 2500
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 1.1431084871292114,
+      "learning_rate": 0.0005,
+      "loss": 0.3986,
+      "step": 2600
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 1.0149098634719849,
+      "learning_rate": 0.0005,
+      "loss": 0.4166,
+      "step": 2700
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4893968253968254,
+      "eval_loss": 3.493849992752075,
+      "eval_runtime": 5.9644,
+      "eval_samples_per_second": 83.831,
+      "eval_steps_per_second": 10.563,
+      "step": 2750
+    },
+    {
+      "epoch": 11.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 21.90111555111556,
+      "step": 2750
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.666008710861206,
+      "learning_rate": 0.0005,
+      "loss": 0.4154,
+      "step": 2800
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 0.8676968812942505,
+      "learning_rate": 0.0005,
+      "loss": 0.4081,
+      "step": 2900
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.8371489644050598,
+      "learning_rate": 0.0005,
+      "loss": 0.429,
+      "step": 3000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.49057142857142855,
+      "eval_loss": 3.544997453689575,
+      "eval_runtime": 5.1712,
+      "eval_samples_per_second": 96.689,
+      "eval_steps_per_second": 12.183,
+      "step": 3000
+    },
+    {
+      "epoch": 12.0,
+      "eval_exact_match": 13.0,
+      "eval_f1": 20.847710622710633,
+      "step": 3000
+    },
+    {
+      "epoch": 12.4,
+      "grad_norm": 0.8826413750648499,
+      "learning_rate": 0.0005,
+      "loss": 0.3877,
+      "step": 3100
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.9569880962371826,
+      "learning_rate": 0.0005,
+      "loss": 0.4193,
+      "step": 3200
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4881587301587302,
+      "eval_loss": 3.5636065006256104,
+      "eval_runtime": 5.3238,
+      "eval_samples_per_second": 93.917,
+      "eval_steps_per_second": 11.834,
+      "step": 3250
+    },
+    {
+      "epoch": 13.0,
+      "eval_exact_match": 12.4,
+      "eval_f1": 19.792212787212797,
+      "step": 3250
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 0.8115692734718323,
+      "learning_rate": 0.0005,
+      "loss": 0.408,
+      "step": 3300
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 0.9201633334159851,
+      "learning_rate": 0.0005,
+      "loss": 0.3962,
+      "step": 3400
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.0557641983032227,
+      "learning_rate": 0.0005,
+      "loss": 0.4276,
+      "step": 3500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.48895238095238097,
+      "eval_loss": 3.5625526905059814,
+      "eval_runtime": 5.8685,
+      "eval_samples_per_second": 85.201,
+      "eval_steps_per_second": 10.735,
+      "step": 3500
+    },
+    {
+      "epoch": 14.0,
+      "eval_exact_match": 13.4,
+      "eval_f1": 20.559842934842944,
+      "step": 3500
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.7237015962600708,
+      "learning_rate": 0.0005,
+      "loss": 0.3888,
+      "step": 3600
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 0.8207970857620239,
+      "learning_rate": 0.0005,
+      "loss": 0.4071,
+      "step": 3700
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4883174603174603,
+      "eval_loss": 3.630866765975952,
+      "eval_runtime": 5.6988,
+      "eval_samples_per_second": 87.738,
+      "eval_steps_per_second": 11.055,
+      "step": 3750
+    },
+    {
+      "epoch": 15.0,
+      "eval_exact_match": 12.8,
+      "eval_f1": 19.927898212898214,
+      "step": 3750
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 0.9946625232696533,
+      "learning_rate": 0.0005,
+      "loss": 0.3983,
+      "step": 3800
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 1.109531283378601,
+      "learning_rate": 0.0005,
+      "loss": 0.3938,
+      "step": 3900
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.8117135167121887,
+      "learning_rate": 0.0005,
+      "loss": 0.421,
+      "step": 4000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.48904761904761906,
+      "eval_loss": 3.58181095123291,
+      "eval_runtime": 5.1769,
+      "eval_samples_per_second": 96.582,
+      "eval_steps_per_second": 12.169,
+      "step": 4000
+    },
+    {
+      "epoch": 16.0,
+      "eval_exact_match": 13.2,
+      "eval_f1": 19.838007156242455,
+      "step": 4000
+    },
+    {
+      "epoch": 16.4,
+      "grad_norm": 0.8689247369766235,
+      "learning_rate": 0.0005,
+      "loss": 0.3803,
+      "step": 4100
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 0.8414099812507629,
+      "learning_rate": 0.0005,
+      "loss": 0.4065,
+      "step": 4200
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.4869206349206349,
+      "eval_loss": 3.6166887283325195,
+      "eval_runtime": 5.8573,
+      "eval_samples_per_second": 85.364,
+      "eval_steps_per_second": 10.756,
+      "step": 4250
+    },
+    {
+      "epoch": 17.0,
+      "eval_exact_match": 13.6,
+      "eval_f1": 21.07906926406927,
+      "step": 4250
+    },
+    {
+      "epoch": 17.2,
+      "grad_norm": 0.8533599972724915,
+      "learning_rate": 0.0005,
+      "loss": 0.402,
+      "step": 4300
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 1.02438485622406,
+      "learning_rate": 0.0005,
+      "loss": 0.3916,
+      "step": 4400
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 1.0211039781570435,
+      "learning_rate": 0.0005,
+      "loss": 0.4188,
+      "step": 4500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.48568253968253966,
+      "eval_loss": 3.692577600479126,
+      "eval_runtime": 5.1508,
+      "eval_samples_per_second": 97.071,
+      "eval_steps_per_second": 12.231,
+      "step": 4500
+    },
+    {
+      "epoch": 18.0,
+      "eval_exact_match": 12.0,
+      "eval_f1": 19.268169053169053,
+      "step": 4500
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 0.692489743232727,
+      "learning_rate": 0.0005,
+      "loss": 0.381,
+      "step": 4600
+    },
+    {
+      "epoch": 18.8,
+      "grad_norm": 1.098289966583252,
+      "learning_rate": 0.0005,
+      "loss": 0.3994,
+      "step": 4700
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.48625396825396827,
+      "eval_loss": 3.653291940689087,
+      "eval_runtime": 5.3607,
+      "eval_samples_per_second": 93.271,
+      "eval_steps_per_second": 11.752,
+      "step": 4750
+    },
+    {
+      "epoch": 19.0,
+      "eval_exact_match": 12.6,
+      "eval_f1": 19.967438672438682,
+      "step": 4750
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.7502797842025757,
+      "learning_rate": 0.0005,
+      "loss": 0.3931,
+      "step": 4800
+    },
+    {
+      "epoch": 19.6,
+      "grad_norm": 1.0003832578659058,
+      "learning_rate": 0.0005,
+      "loss": 0.3889,
+      "step": 4900
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.9703432321548462,
+      "learning_rate": 0.0005,
+      "loss": 0.4103,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.48644444444444446,
+      "eval_loss": 3.689058542251587,
+      "eval_runtime": 5.3154,
+      "eval_samples_per_second": 94.066,
+      "eval_steps_per_second": 11.852,
+      "step": 5000
+    },
+    {
+      "epoch": 20.0,
+      "eval_exact_match": 13.2,
+      "eval_f1": 20.261983016983024,
+      "step": 5000
+    },
+    {
+      "epoch": 20.4,
+      "grad_norm": 0.8916403651237488,
+      "learning_rate": 0.0005,
+      "loss": 0.373,
+      "step": 5100
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 0.8316965103149414,
+      "learning_rate": 0.0005,
+      "loss": 0.397,
+      "step": 5200
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.48507936507936505,
+      "eval_loss": 3.6972897052764893,
+      "eval_runtime": 5.2392,
+      "eval_samples_per_second": 95.434,
+      "eval_steps_per_second": 12.025,
+      "step": 5250
+    },
+    {
+      "epoch": 21.0,
+      "eval_exact_match": 13.6,
+      "eval_f1": 20.467407592407604,
+      "step": 5250
+    },
+    {
+      "epoch": 21.2,
+      "grad_norm": 0.6775929927825928,
+      "learning_rate": 0.0005,
+      "loss": 0.389,
+      "step": 5300
+    },
+    {
+      "epoch": 21.6,
+      "grad_norm": 0.9392185211181641,
+      "learning_rate": 0.0005,
+      "loss": 0.3838,
+      "step": 5400
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 0.7476337552070618,
+      "learning_rate": 0.0005,
+      "loss": 0.4118,
+      "step": 5500
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.4859047619047619,
+      "eval_loss": 3.7213613986968994,
+      "eval_runtime": 5.4332,
+      "eval_samples_per_second": 92.027,
+      "eval_steps_per_second": 11.595,
+      "step": 5500
+    },
+    {
+      "epoch": 22.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 21.604624819624828,
+      "step": 5500
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 0.8096778392791748,
+      "learning_rate": 0.0005,
+      "loss": 0.3739,
+      "step": 5600
+    },
+    {
+      "epoch": 22.8,
+      "grad_norm": 0.882375180721283,
+      "learning_rate": 0.0005,
+      "loss": 0.3944,
+      "step": 5700
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.48514285714285715,
+      "eval_loss": 3.7193007469177246,
+      "eval_runtime": 5.1774,
+      "eval_samples_per_second": 96.574,
+      "eval_steps_per_second": 12.168,
+      "step": 5750
+    },
+    {
+      "epoch": 23.0,
+      "eval_exact_match": 14.2,
+      "eval_f1": 20.586290942287846,
+      "step": 5750
+    },
+    {
+      "epoch": 23.2,
+      "grad_norm": 0.7671297192573547,
+      "learning_rate": 0.0005,
+      "loss": 0.3844,
+      "step": 5800
+    },
+    {
+      "epoch": 23.6,
+      "grad_norm": 0.6806452870368958,
+      "learning_rate": 0.0005,
+      "loss": 0.3801,
+      "step": 5900
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.9788285493850708,
+      "learning_rate": 0.0005,
+      "loss": 0.4036,
+      "step": 6000
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.48453968253968255,
+      "eval_loss": 3.756743907928467,
+      "eval_runtime": 5.3317,
+      "eval_samples_per_second": 93.778,
+      "eval_steps_per_second": 11.816,
+      "step": 6000
+    },
+    {
+      "epoch": 24.0,
+      "eval_exact_match": 13.0,
+      "eval_f1": 20.329698242933542,
+      "step": 6000
+    },
+    {
+      "epoch": 24.4,
+      "grad_norm": 0.964042067527771,
+      "learning_rate": 0.0005,
+      "loss": 0.3682,
+      "step": 6100
+    },
+    {
+      "epoch": 24.8,
+      "grad_norm": 0.7888486981391907,
+      "learning_rate": 0.0005,
+      "loss": 0.3939,
+      "step": 6200
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.4840634920634921,
+      "eval_loss": 3.7891385555267334,
+      "eval_runtime": 5.6106,
+      "eval_samples_per_second": 89.117,
+      "eval_steps_per_second": 11.229,
+      "step": 6250
+    },
+    {
+      "epoch": 25.0,
+      "eval_exact_match": 12.6,
+      "eval_f1": 19.69095659242718,
+      "step": 6250
+    },
+    {
+      "epoch": 25.2,
+      "grad_norm": 0.6044737100601196,
+      "learning_rate": 0.0005,
+      "loss": 0.3825,
+      "step": 6300
+    },
+    {
+      "epoch": 25.6,
+      "grad_norm": 0.7787346243858337,
+      "learning_rate": 0.0005,
+      "loss": 0.3788,
+      "step": 6400
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 1.076758623123169,
+      "learning_rate": 0.0005,
+      "loss": 0.401,
+      "step": 6500
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.4827936507936508,
+      "eval_loss": 3.7671151161193848,
+      "eval_runtime": 5.5024,
+      "eval_samples_per_second": 90.869,
+      "eval_steps_per_second": 11.449,
+      "step": 6500
+    },
+    {
+      "epoch": 26.0,
+      "eval_exact_match": 13.8,
+      "eval_f1": 20.179704347939637,
+      "step": 6500
+    },
+    {
+      "epoch": 26.4,
+      "grad_norm": 0.6967647075653076,
+      "learning_rate": 0.0005,
+      "loss": 0.3655,
+      "step": 6600
+    },
+    {
+      "epoch": 26.8,
+      "grad_norm": 0.8000121116638184,
+      "learning_rate": 0.0005,
+      "loss": 0.3871,
+      "step": 6700
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.4834603174603175,
+      "eval_loss": 3.783790111541748,
+      "eval_runtime": 5.4864,
+      "eval_samples_per_second": 91.134,
+      "eval_steps_per_second": 11.483,
+      "step": 6750
+    },
+    {
+      "epoch": 27.0,
+      "eval_exact_match": 13.8,
+      "eval_f1": 20.906587301587308,
+      "step": 6750
+    },
+    {
+      "epoch": 27.2,
+      "grad_norm": 0.7237639427185059,
+      "learning_rate": 0.0005,
+      "loss": 0.3844,
+      "step": 6800
+    },
+    {
+      "epoch": 27.6,
+      "grad_norm": 0.8594484925270081,
+      "learning_rate": 0.0005,
+      "loss": 0.3789,
+      "step": 6900
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 0.9502065777778625,
+      "learning_rate": 0.0005,
+      "loss": 0.4005,
+      "step": 7000
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.48314285714285715,
+      "eval_loss": 3.8041446208953857,
+      "eval_runtime": 5.5728,
+      "eval_samples_per_second": 89.721,
+      "eval_steps_per_second": 11.305,
+      "step": 7000
+    },
+    {
+      "epoch": 28.0,
+      "eval_exact_match": 11.8,
+      "eval_f1": 19.040579518520694,
+      "step": 7000
+    },
+    {
+      "epoch": 28.4,
+      "grad_norm": 0.6732666492462158,
+      "learning_rate": 0.0005,
+      "loss": 0.3716,
+      "step": 7100
+    },
+    {
+      "epoch": 28.8,
+      "grad_norm": 1.0644075870513916,
+      "learning_rate": 0.0005,
+      "loss": 0.3854,
+      "step": 7200
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.48298412698412696,
+      "eval_loss": 3.860269069671631,
+      "eval_runtime": 5.4184,
+      "eval_samples_per_second": 92.278,
+      "eval_steps_per_second": 11.627,
+      "step": 7250
+    },
+    {
+      "epoch": 29.0,
+      "eval_exact_match": 13.2,
+      "eval_f1": 20.254610389610388,
+      "step": 7250
+    },
+    {
+      "epoch": 29.2,
+      "grad_norm": 0.7752814292907715,
+      "learning_rate": 0.0005,
+      "loss": 0.3778,
+      "step": 7300
+    },
+    {
+      "epoch": 29.6,
+      "grad_norm": 1.0244282484054565,
+      "learning_rate": 0.0005,
+      "loss": 0.3747,
+      "step": 7400
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.8350189328193665,
+      "learning_rate": 0.0005,
+      "loss": 0.3942,
+      "step": 7500
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.48123809523809524,
+      "eval_loss": 3.8247478008270264,
+      "eval_runtime": 5.9809,
+      "eval_samples_per_second": 83.599,
+      "eval_steps_per_second": 10.533,
+      "step": 7500
+    },
+    {
+      "epoch": 30.0,
+      "eval_exact_match": 12.2,
+      "eval_f1": 19.892261627261625,
+      "step": 7500
+    },
+    {
+      "epoch": 30.4,
+      "grad_norm": 0.7081766724586487,
+      "learning_rate": 0.0005,
+      "loss": 0.3599,
+      "step": 7600
+    },
+    {
+      "epoch": 30.8,
+      "grad_norm": 0.8704819083213806,
+      "learning_rate": 0.0005,
+      "loss": 0.3837,
+      "step": 7700
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.48149206349206347,
+      "eval_loss": 3.8496508598327637,
+      "eval_runtime": 5.1689,
+      "eval_samples_per_second": 96.733,
+      "eval_steps_per_second": 12.188,
+      "step": 7750
+    },
+    {
+      "epoch": 31.0,
+      "eval_exact_match": 11.6,
+      "eval_f1": 18.579704184704187,
+      "step": 7750
+    },
+    {
+      "epoch": 31.2,
+      "grad_norm": 0.9046170115470886,
+      "learning_rate": 0.0005,
+      "loss": 0.3845,
+      "step": 7800
+    },
+    {
+      "epoch": 31.6,
+      "grad_norm": 0.8757615685462952,
+      "learning_rate": 0.0005,
+      "loss": 0.378,
+      "step": 7900
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.9979965090751648,
+      "learning_rate": 0.0005,
+      "loss": 0.3896,
+      "step": 8000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.4836190476190476,
+      "eval_loss": 3.870502471923828,
+      "eval_runtime": 5.4758,
+      "eval_samples_per_second": 91.31,
+      "eval_steps_per_second": 11.505,
+      "step": 8000
+    },
+    {
+      "epoch": 32.0,
+      "eval_exact_match": 13.2,
+      "eval_f1": 19.941825396825404,
+      "step": 8000
+    },
+    {
+      "epoch": 32.4,
+      "grad_norm": 0.8767104744911194,
+      "learning_rate": 0.0005,
+      "loss": 0.358,
+      "step": 8100
+    },
+    {
+      "epoch": 32.8,
+      "grad_norm": 0.7482908368110657,
+      "learning_rate": 0.0005,
+      "loss": 0.3817,
+      "step": 8200
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.4818095238095238,
+      "eval_loss": 3.8642616271972656,
+      "eval_runtime": 5.1588,
+      "eval_samples_per_second": 96.922,
+      "eval_steps_per_second": 12.212,
+      "step": 8250
+    },
+    {
+      "epoch": 33.0,
+      "eval_exact_match": 13.6,
+      "eval_f1": 20.228078033078035,
+      "step": 8250
+    },
+    {
+      "epoch": 33.2,
+      "grad_norm": 0.738953709602356,
+      "learning_rate": 0.0005,
+      "loss": 0.3753,
+      "step": 8300
+    },
+    {
+      "epoch": 33.6,
+      "grad_norm": 0.80599045753479,
+      "learning_rate": 0.0005,
+      "loss": 0.37,
+      "step": 8400
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 1.0467863082885742,
+      "learning_rate": 0.0005,
+      "loss": 0.3928,
+      "step": 8500
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.4806666666666667,
+      "eval_loss": 3.9377706050872803,
+      "eval_runtime": 5.4713,
+      "eval_samples_per_second": 91.386,
+      "eval_steps_per_second": 11.515,
+      "step": 8500
+    },
+    {
+      "epoch": 34.0,
+      "eval_exact_match": 13.0,
+      "eval_f1": 20.646601731601738,
+      "step": 8500
+    },
+    {
+      "epoch": 34.4,
+      "grad_norm": 0.7660771608352661,
+      "learning_rate": 0.0005,
+      "loss": 0.3615,
+      "step": 8600
+    },
+    {
+      "epoch": 34.8,
+      "grad_norm": 0.9810505509376526,
+      "learning_rate": 0.0005,
+      "loss": 0.3839,
+      "step": 8700
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.48095238095238096,
+      "eval_loss": 3.95415997505188,
+      "eval_runtime": 5.2713,
+      "eval_samples_per_second": 94.854,
+      "eval_steps_per_second": 11.952,
+      "step": 8750
+    },
+    {
+      "epoch": 35.0,
+      "eval_exact_match": 12.8,
+      "eval_f1": 19.906587301587308,
+      "step": 8750
+    },
+    {
+      "epoch": 35.2,
+      "grad_norm": 0.8827441930770874,
+      "learning_rate": 0.0005,
+      "loss": 0.377,
+      "step": 8800
+    },
+    {
+      "epoch": 35.6,
+      "grad_norm": 0.8283040523529053,
+      "learning_rate": 0.0005,
+      "loss": 0.3727,
+      "step": 8900
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.9295199513435364,
+      "learning_rate": 0.0005,
+      "loss": 0.3942,
+      "step": 9000
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.4806031746031746,
+      "eval_loss": 3.9250476360321045,
+      "eval_runtime": 5.2946,
+      "eval_samples_per_second": 94.436,
+      "eval_steps_per_second": 11.899,
+      "step": 9000
+    },
+    {
+      "epoch": 36.0,
+      "eval_exact_match": 12.4,
+      "eval_f1": 19.917929292929298,
+      "step": 9000
+    },
+    {
+      "epoch": 36.4,
+      "grad_norm": 0.7359641194343567,
+      "learning_rate": 0.0005,
+      "loss": 0.3621,
+      "step": 9100
+    },
+    {
+      "epoch": 36.8,
+      "grad_norm": 0.8008917570114136,
+      "learning_rate": 0.0005,
+      "loss": 0.381,
+      "step": 9200
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.4791746031746032,
+      "eval_loss": 3.921963930130005,
+      "eval_runtime": 5.3326,
+      "eval_samples_per_second": 93.762,
+      "eval_steps_per_second": 11.814,
+      "step": 9250
+    },
+    {
+      "epoch": 37.0,
+      "eval_exact_match": 12.0,
+      "eval_f1": 18.638997113997128,
+      "step": 9250
+    },
+    {
+      "epoch": 37.2,
+      "grad_norm": 0.7444690465927124,
+      "learning_rate": 0.0005,
+      "loss": 0.3771,
+      "step": 9300
+    },
+    {
+      "epoch": 37.6,
+      "grad_norm": 0.7617835998535156,
+      "learning_rate": 0.0005,
+      "loss": 0.3739,
+      "step": 9400
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 0.8619845509529114,
+      "learning_rate": 0.0005,
+      "loss": 0.3918,
+      "step": 9500
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.4780952380952381,
+      "eval_loss": 3.9583866596221924,
+      "eval_runtime": 5.169,
+      "eval_samples_per_second": 96.73,
+      "eval_steps_per_second": 12.188,
+      "step": 9500
+    },
+    {
+      "epoch": 38.0,
+      "eval_exact_match": 12.4,
+      "eval_f1": 20.53709235209236,
+      "step": 9500
+    },
+    {
+      "epoch": 38.4,
+      "grad_norm": 0.7432407140731812,
+      "learning_rate": 0.0005,
+      "loss": 0.3646,
+      "step": 9600
+    },
+    {
+      "epoch": 38.8,
+      "grad_norm": 0.9143626093864441,
+      "learning_rate": 0.0005,
+      "loss": 0.3787,
+      "step": 9700
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.47758730158730156,
+      "eval_loss": 3.9241392612457275,
+      "eval_runtime": 5.8692,
+      "eval_samples_per_second": 85.19,
+      "eval_steps_per_second": 10.734,
+      "step": 9750
+    },
+    {
+      "epoch": 39.0,
+      "eval_exact_match": 12.6,
+      "eval_f1": 20.360458985458987,
+      "step": 9750
+    },
+    {
+      "epoch": 39.2,
+      "grad_norm": 0.5365042090415955,
+      "learning_rate": 0.0005,
+      "loss": 0.375,
+      "step": 9800
+    },
+    {
+      "epoch": 39.6,
+      "grad_norm": 0.6992344856262207,
+      "learning_rate": 0.0005,
+      "loss": 0.3696,
+      "step": 9900
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.9610856175422668,
+      "learning_rate": 0.0005,
+      "loss": 0.3897,
+      "step": 10000
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.47733333333333333,
+      "eval_loss": 3.9434309005737305,
+      "eval_runtime": 5.8615,
+      "eval_samples_per_second": 85.302,
+      "eval_steps_per_second": 10.748,
+      "step": 10000
+    },
+    {
+      "epoch": 40.0,
+      "eval_exact_match": 12.0,
+      "eval_f1": 18.266425796425803,
+      "step": 10000
+    },
+    {
+      "epoch": 40.4,
+      "grad_norm": 0.822077214717865,
+      "learning_rate": 0.0005,
+      "loss": 0.3561,
+      "step": 10100
+    },
+    {
+      "epoch": 40.8,
+      "grad_norm": 0.9024446606636047,
+      "learning_rate": 0.0005,
+      "loss": 0.3786,
+      "step": 10200
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.47933333333333333,
+      "eval_loss": 3.9410653114318848,
+      "eval_runtime": 5.3296,
+      "eval_samples_per_second": 93.816,
+      "eval_steps_per_second": 11.821,
+      "step": 10250
+    },
+    {
+      "epoch": 41.0,
+      "eval_exact_match": 11.4,
+      "eval_f1": 18.911030636030635,
+      "step": 10250
+    },
+    {
+      "epoch": 41.2,
+      "grad_norm": 0.9134598970413208,
+      "learning_rate": 0.0005,
+      "loss": 0.3703,
+      "step": 10300
+    },
+    {
+      "epoch": 41.6,
+      "grad_norm": 0.7853434085845947,
+      "learning_rate": 0.0005,
+      "loss": 0.3691,
+      "step": 10400
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 0.829653799533844,
+      "learning_rate": 0.0005,
+      "loss": 0.3864,
+      "step": 10500
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.4766031746031746,
+      "eval_loss": 3.9932987689971924,
+      "eval_runtime": 6.0241,
+      "eval_samples_per_second": 83.0,
+      "eval_steps_per_second": 10.458,
+      "step": 10500
+    },
+    {
+      "epoch": 42.0,
+      "eval_exact_match": 12.6,
+      "eval_f1": 19.408923462158764,
+      "step": 10500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 12500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.212023897826263e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-10500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b62f42960cf4fd93abfb3be317e2e8ef04964ff17a18b3862335bf3c3ff7041
+size 5304

checkpoint-10500/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff