DylanJHJ commited on 14 days ago

Commit

4201aa8

1 Parent(s): a7598b1

upload new models

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +30 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/config.json +45 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/model.safetensors +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_0.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_1.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_2.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_3.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/scheduler.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/trainer_state.json +0 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/training_args.bin +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/config.json +45 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/model.safetensors +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/optimizer.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_0.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_1.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_2.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_3.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/scheduler.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/trainer_state.json +2109 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/training_args.bin +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/config.json +45 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/model.safetensors +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_0.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_1.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_2.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_3.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/scheduler.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/trainer_state.json +0 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/training_args.bin +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/config.json +45 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/model.safetensors +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/optimizer.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_0.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_1.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_2.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_3.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/scheduler.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/trainer_state.json +0 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/training_args.bin +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/config.json +45 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/model.safetensors +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/optimizer.pt +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_0.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_1.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_2.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_3.pth +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/runs/Nov24_20-04-23_nid005058/events.out.tfevents.1764007677.nid005058.100797.0 +3 -0
modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/runs/Nov24_21-15-32_nid005065/events.out.tfevents.1764011958.nid005065.96324.0 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,33 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-7500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-7500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-2500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-2500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-10000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/checkpoint-5000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-7500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-7500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-2500/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-2500/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-10000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/checkpoint-5000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_low.neg_zero.b64_n512.1e-4.512/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-pos_high.neg_zero.b64_n512.1e-4.512/optimizer.pt filter=lfs diff=lfs merge=lfs -text

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b3f482e56a92f0760e27f700de46d09e3a07b0a89d3ef90808d0d6b22512827
+size 298041696

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdd7dd2e666a3126c4ed005d62b97fc63ca51fad19f7d480fb83d6eac7bfbbd0
+size 596170443

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc940a8d556e924e63165a153482b7202c426188f75c20c24e12d424fd66480
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ffdae51287c04c7c26dda1477c56be872f0a72d6ef4c91eed718fc9815f5cd0
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a259d84200d732d2a50300986ac2bfeae195d6cd6b8a5965f25beb1168967c93
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be124d0a4382f6650d248da735663a65eb35d7e6648a020fa3373d621111b9f4
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d02be6d8bda4ea9c67040ed89f878acdc986bd4df3fbc60440a9d3eacca02d63
+size 1465

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2454495470a309f29bcb6e17995a0f5eba177149759169fad892e69436e76b71
+size 6161

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88926b3be5727f9d0cc432ab2c00dfc3cab66da501336e8c8a7e08188cc0de25
+size 298041696

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:780374ad1143b7bbe5b73f25a7260aa5063a103a1169b688b4285124dcb04dcc
+size 596170443

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc5f93e31a0565f25cdab8cb64ac40f6b2487598bdeee72c8799d758f746e3e8
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:316c6cb0557f77c216cfe2e924b163f13368a82f990227cc5ed4e8a4722b4bbe
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e070935bf8d6873a426186e0eead069e83b7e9ae6f369169b1ddaff6a6b56807
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46f0239de5c990a1b529ec7282211423e89ed96a66ad587b7c704ffcb7ed7446
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a752d3f24f72817376cd37ffda577fd802575961fb476ede3db67c3cc89113bf
+size 1465

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2109 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9623233908948194,
+  "eval_steps": 100,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007849293563579277,
+      "grad_norm": 14.5625,
+      "learning_rate": 9e-07,
+      "loss": 5.5652,
+      "step": 10
+    },
+    {
+      "epoch": 0.015698587127158554,
+      "grad_norm": 19.375,
+      "learning_rate": 1.9e-06,
+      "loss": 5.5182,
+      "step": 20
+    },
+    {
+      "epoch": 0.023547880690737835,
+      "grad_norm": 24.125,
+      "learning_rate": 2.9e-06,
+      "loss": 5.5611,
+      "step": 30
+    },
+    {
+      "epoch": 0.03139717425431711,
+      "grad_norm": 28.875,
+      "learning_rate": 3.9e-06,
+      "loss": 5.5963,
+      "step": 40
+    },
+    {
+      "epoch": 0.03924646781789639,
+      "grad_norm": 12.6875,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 5.5814,
+      "step": 50
+    },
+    {
+      "epoch": 0.04709576138147567,
+      "grad_norm": 22.625,
+      "learning_rate": 5.9e-06,
+      "loss": 5.5784,
+      "step": 60
+    },
+    {
+      "epoch": 0.054945054945054944,
+      "grad_norm": 25.375,
+      "learning_rate": 6.900000000000001e-06,
+      "loss": 5.5543,
+      "step": 70
+    },
+    {
+      "epoch": 0.06279434850863422,
+      "grad_norm": 18.625,
+      "learning_rate": 7.9e-06,
+      "loss": 5.4877,
+      "step": 80
+    },
+    {
+      "epoch": 0.0706436420722135,
+      "grad_norm": 20.875,
+      "learning_rate": 8.9e-06,
+      "loss": 5.4914,
+      "step": 90
+    },
+    {
+      "epoch": 0.07849293563579278,
+      "grad_norm": 22.625,
+      "learning_rate": 9.900000000000002e-06,
+      "loss": 5.4106,
+      "step": 100
+    },
+    {
+      "epoch": 0.07849293563579278,
+      "eval/acc": 6.976744174957275,
+      "step": 100
+    },
+    {
+      "epoch": 0.07849293563579278,
+      "eval_loss": 4.994912147521973,
+      "eval_runtime": 2.5896,
+      "eval_samples_per_second": 16.605,
+      "eval_steps_per_second": 0.386,
+      "step": 100
+    },
+    {
+      "epoch": 0.08634222919937205,
+      "grad_norm": 20.375,
+      "learning_rate": 1.09e-05,
+      "loss": 5.4131,
+      "step": 110
+    },
+    {
+      "epoch": 0.09419152276295134,
+      "grad_norm": 21.5,
+      "learning_rate": 1.19e-05,
+      "loss": 5.2636,
+      "step": 120
+    },
+    {
+      "epoch": 0.10204081632653061,
+      "grad_norm": 23.125,
+      "learning_rate": 1.29e-05,
+      "loss": 5.1837,
+      "step": 130
+    },
+    {
+      "epoch": 0.10989010989010989,
+      "grad_norm": 21.875,
+      "learning_rate": 1.3900000000000002e-05,
+      "loss": 5.0497,
+      "step": 140
+    },
+    {
+      "epoch": 0.11773940345368916,
+      "grad_norm": 22.75,
+      "learning_rate": 1.49e-05,
+      "loss": 4.8203,
+      "step": 150
+    },
+    {
+      "epoch": 0.12558869701726844,
+      "grad_norm": 22.875,
+      "learning_rate": 1.59e-05,
+      "loss": 4.6055,
+      "step": 160
+    },
+    {
+      "epoch": 0.13343799058084774,
+      "grad_norm": 27.25,
+      "learning_rate": 1.69e-05,
+      "loss": 4.2194,
+      "step": 170
+    },
+    {
+      "epoch": 0.141287284144427,
+      "grad_norm": 26.375,
+      "learning_rate": 1.79e-05,
+      "loss": 3.8358,
+      "step": 180
+    },
+    {
+      "epoch": 0.14913657770800628,
+      "grad_norm": 23.0,
+      "learning_rate": 1.8900000000000002e-05,
+      "loss": 3.4295,
+      "step": 190
+    },
+    {
+      "epoch": 0.15698587127158556,
+      "grad_norm": 70.5,
+      "learning_rate": 1.9900000000000003e-05,
+      "loss": 2.9421,
+      "step": 200
+    },
+    {
+      "epoch": 0.15698587127158556,
+      "eval/acc": 9.302325248718262,
+      "step": 200
+    },
+    {
+      "epoch": 0.15698587127158556,
+      "eval_loss": 3.6951303482055664,
+      "eval_runtime": 0.3137,
+      "eval_samples_per_second": 137.067,
+      "eval_steps_per_second": 3.188,
+      "step": 200
+    },
+    {
+      "epoch": 0.16483516483516483,
+      "grad_norm": 21.625,
+      "learning_rate": 2.09e-05,
+      "loss": 2.8127,
+      "step": 210
+    },
+    {
+      "epoch": 0.1726844583987441,
+      "grad_norm": 23.875,
+      "learning_rate": 2.19e-05,
+      "loss": 2.5715,
+      "step": 220
+    },
+    {
+      "epoch": 0.18053375196232338,
+      "grad_norm": 36.0,
+      "learning_rate": 2.29e-05,
+      "loss": 2.5288,
+      "step": 230
+    },
+    {
+      "epoch": 0.18838304552590268,
+      "grad_norm": 21.375,
+      "learning_rate": 2.39e-05,
+      "loss": 2.3737,
+      "step": 240
+    },
+    {
+      "epoch": 0.19623233908948196,
+      "grad_norm": 22.75,
+      "learning_rate": 2.4900000000000002e-05,
+      "loss": 2.175,
+      "step": 250
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 18.875,
+      "learning_rate": 2.5900000000000003e-05,
+      "loss": 2.2027,
+      "step": 260
+    },
+    {
+      "epoch": 0.2119309262166405,
+      "grad_norm": 20.375,
+      "learning_rate": 2.6900000000000003e-05,
+      "loss": 2.0856,
+      "step": 270
+    },
+    {
+      "epoch": 0.21978021978021978,
+      "grad_norm": 23.75,
+      "learning_rate": 2.7900000000000004e-05,
+      "loss": 2.0838,
+      "step": 280
+    },
+    {
+      "epoch": 0.22762951334379905,
+      "grad_norm": 24.75,
+      "learning_rate": 2.8899999999999998e-05,
+      "loss": 1.967,
+      "step": 290
+    },
+    {
+      "epoch": 0.23547880690737832,
+      "grad_norm": 26.375,
+      "learning_rate": 2.9900000000000002e-05,
+      "loss": 1.9612,
+      "step": 300
+    },
+    {
+      "epoch": 0.23547880690737832,
+      "eval/acc": 20.930233001708984,
+      "step": 300
+    },
+    {
+      "epoch": 0.23547880690737832,
+      "eval_loss": 3.1246371269226074,
+      "eval_runtime": 0.2117,
+      "eval_samples_per_second": 203.149,
+      "eval_steps_per_second": 4.724,
+      "step": 300
+    },
+    {
+      "epoch": 0.24332810047095763,
+      "grad_norm": 57.75,
+      "learning_rate": 3.09e-05,
+      "loss": 1.8319,
+      "step": 310
+    },
+    {
+      "epoch": 0.25117739403453687,
+      "grad_norm": 34.0,
+      "learning_rate": 3.19e-05,
+      "loss": 1.9554,
+      "step": 320
+    },
+    {
+      "epoch": 0.25902668759811615,
+      "grad_norm": 36.0,
+      "learning_rate": 3.29e-05,
+      "loss": 1.8817,
+      "step": 330
+    },
+    {
+      "epoch": 0.2668759811616955,
+      "grad_norm": 21.5,
+      "learning_rate": 3.3900000000000004e-05,
+      "loss": 1.8154,
+      "step": 340
+    },
+    {
+      "epoch": 0.27472527472527475,
+      "grad_norm": 12.625,
+      "learning_rate": 3.49e-05,
+      "loss": 1.6854,
+      "step": 350
+    },
+    {
+      "epoch": 0.282574568288854,
+      "grad_norm": 23.125,
+      "learning_rate": 3.59e-05,
+      "loss": 1.6752,
+      "step": 360
+    },
+    {
+      "epoch": 0.2904238618524333,
+      "grad_norm": 16.375,
+      "learning_rate": 3.69e-05,
+      "loss": 1.6606,
+      "step": 370
+    },
+    {
+      "epoch": 0.29827315541601257,
+      "grad_norm": 22.5,
+      "learning_rate": 3.79e-05,
+      "loss": 1.6078,
+      "step": 380
+    },
+    {
+      "epoch": 0.30612244897959184,
+      "grad_norm": 16.625,
+      "learning_rate": 3.8900000000000004e-05,
+      "loss": 1.6903,
+      "step": 390
+    },
+    {
+      "epoch": 0.3139717425431711,
+      "grad_norm": 16.0,
+      "learning_rate": 3.99e-05,
+      "loss": 1.5474,
+      "step": 400
+    },
+    {
+      "epoch": 0.3139717425431711,
+      "eval/acc": 30.23255729675293,
+      "step": 400
+    },
+    {
+      "epoch": 0.3139717425431711,
+      "eval_loss": 2.844658136367798,
+      "eval_runtime": 0.2112,
+      "eval_samples_per_second": 203.56,
+      "eval_steps_per_second": 4.734,
+      "step": 400
+    },
+    {
+      "epoch": 0.3218210361067504,
+      "grad_norm": 20.0,
+      "learning_rate": 4.09e-05,
+      "loss": 1.5915,
+      "step": 410
+    },
+    {
+      "epoch": 0.32967032967032966,
+      "grad_norm": 21.25,
+      "learning_rate": 4.19e-05,
+      "loss": 1.6112,
+      "step": 420
+    },
+    {
+      "epoch": 0.33751962323390894,
+      "grad_norm": 14.6875,
+      "learning_rate": 4.29e-05,
+      "loss": 1.5068,
+      "step": 430
+    },
+    {
+      "epoch": 0.3453689167974882,
+      "grad_norm": 19.25,
+      "learning_rate": 4.39e-05,
+      "loss": 1.4728,
+      "step": 440
+    },
+    {
+      "epoch": 0.3532182103610675,
+      "grad_norm": 16.75,
+      "learning_rate": 4.49e-05,
+      "loss": 1.3553,
+      "step": 450
+    },
+    {
+      "epoch": 0.36106750392464676,
+      "grad_norm": 13.0625,
+      "learning_rate": 4.5900000000000004e-05,
+      "loss": 1.4696,
+      "step": 460
+    },
+    {
+      "epoch": 0.36891679748822603,
+      "grad_norm": 18.875,
+      "learning_rate": 4.69e-05,
+      "loss": 1.4953,
+      "step": 470
+    },
+    {
+      "epoch": 0.37676609105180536,
+      "grad_norm": 14.3125,
+      "learning_rate": 4.79e-05,
+      "loss": 1.3238,
+      "step": 480
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 83.0,
+      "learning_rate": 4.89e-05,
+      "loss": 1.5413,
+      "step": 490
+    },
+    {
+      "epoch": 0.3924646781789639,
+      "grad_norm": 13.1875,
+      "learning_rate": 4.99e-05,
+      "loss": 1.359,
+      "step": 500
+    },
+    {
+      "epoch": 0.3924646781789639,
+      "eval/acc": 32.55813980102539,
+      "step": 500
+    },
+    {
+      "epoch": 0.3924646781789639,
+      "eval_loss": 2.6606061458587646,
+      "eval_runtime": 0.2618,
+      "eval_samples_per_second": 164.247,
+      "eval_steps_per_second": 3.82,
+      "step": 500
+    },
+    {
+      "epoch": 0.4003139717425432,
+      "grad_norm": 27.125,
+      "learning_rate": 5.0900000000000004e-05,
+      "loss": 1.3117,
+      "step": 510
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 13.5,
+      "learning_rate": 5.19e-05,
+      "loss": 1.4346,
+      "step": 520
+    },
+    {
+      "epoch": 0.41601255886970173,
+      "grad_norm": 15.25,
+      "learning_rate": 5.2900000000000005e-05,
+      "loss": 1.3777,
+      "step": 530
+    },
+    {
+      "epoch": 0.423861852433281,
+      "grad_norm": 16.75,
+      "learning_rate": 5.390000000000001e-05,
+      "loss": 1.4117,
+      "step": 540
+    },
+    {
+      "epoch": 0.4317111459968603,
+      "grad_norm": 10.5625,
+      "learning_rate": 5.4900000000000006e-05,
+      "loss": 1.2607,
+      "step": 550
+    },
+    {
+      "epoch": 0.43956043956043955,
+      "grad_norm": 19.125,
+      "learning_rate": 5.590000000000001e-05,
+      "loss": 1.3393,
+      "step": 560
+    },
+    {
+      "epoch": 0.4474097331240188,
+      "grad_norm": 15.25,
+      "learning_rate": 5.69e-05,
+      "loss": 1.3033,
+      "step": 570
+    },
+    {
+      "epoch": 0.4552590266875981,
+      "grad_norm": 16.5,
+      "learning_rate": 5.79e-05,
+      "loss": 1.343,
+      "step": 580
+    },
+    {
+      "epoch": 0.4631083202511774,
+      "grad_norm": 10.75,
+      "learning_rate": 5.89e-05,
+      "loss": 1.368,
+      "step": 590
+    },
+    {
+      "epoch": 0.47095761381475665,
+      "grad_norm": 14.125,
+      "learning_rate": 5.99e-05,
+      "loss": 1.2961,
+      "step": 600
+    },
+    {
+      "epoch": 0.47095761381475665,
+      "eval/acc": 32.55813980102539,
+      "step": 600
+    },
+    {
+      "epoch": 0.47095761381475665,
+      "eval_loss": 2.6568233966827393,
+      "eval_runtime": 0.404,
+      "eval_samples_per_second": 106.439,
+      "eval_steps_per_second": 2.475,
+      "step": 600
+    },
+    {
+      "epoch": 0.478806907378336,
+      "grad_norm": 11.9375,
+      "learning_rate": 6.09e-05,
+      "loss": 1.2873,
+      "step": 610
+    },
+    {
+      "epoch": 0.48665620094191525,
+      "grad_norm": 11.0625,
+      "learning_rate": 6.19e-05,
+      "loss": 1.2009,
+      "step": 620
+    },
+    {
+      "epoch": 0.4945054945054945,
+      "grad_norm": 11.1875,
+      "learning_rate": 6.29e-05,
+      "loss": 1.2291,
+      "step": 630
+    },
+    {
+      "epoch": 0.5023547880690737,
+      "grad_norm": 13.75,
+      "learning_rate": 6.390000000000001e-05,
+      "loss": 1.2247,
+      "step": 640
+    },
+    {
+      "epoch": 0.5102040816326531,
+      "grad_norm": 25.25,
+      "learning_rate": 6.49e-05,
+      "loss": 1.3554,
+      "step": 650
+    },
+    {
+      "epoch": 0.5180533751962323,
+      "grad_norm": 12.6875,
+      "learning_rate": 6.59e-05,
+      "loss": 1.1111,
+      "step": 660
+    },
+    {
+      "epoch": 0.5259026687598116,
+      "grad_norm": 11.875,
+      "learning_rate": 6.690000000000001e-05,
+      "loss": 1.2274,
+      "step": 670
+    },
+    {
+      "epoch": 0.533751962323391,
+      "grad_norm": 13.0625,
+      "learning_rate": 6.790000000000001e-05,
+      "loss": 1.2189,
+      "step": 680
+    },
+    {
+      "epoch": 0.5416012558869702,
+      "grad_norm": 11.5625,
+      "learning_rate": 6.89e-05,
+      "loss": 1.2304,
+      "step": 690
+    },
+    {
+      "epoch": 0.5494505494505495,
+      "grad_norm": 13.3125,
+      "learning_rate": 6.99e-05,
+      "loss": 1.2443,
+      "step": 700
+    },
+    {
+      "epoch": 0.5494505494505495,
+      "eval/acc": 37.20930099487305,
+      "step": 700
+    },
+    {
+      "epoch": 0.5494505494505495,
+      "eval_loss": 2.6640543937683105,
+      "eval_runtime": 0.3416,
+      "eval_samples_per_second": 125.888,
+      "eval_steps_per_second": 2.928,
+      "step": 700
+    },
+    {
+      "epoch": 0.5572998430141287,
+      "grad_norm": 9.4375,
+      "learning_rate": 7.09e-05,
+      "loss": 1.1122,
+      "step": 710
+    },
+    {
+      "epoch": 0.565149136577708,
+      "grad_norm": 10.3125,
+      "learning_rate": 7.19e-05,
+      "loss": 1.0981,
+      "step": 720
+    },
+    {
+      "epoch": 0.5729984301412873,
+      "grad_norm": 15.5,
+      "learning_rate": 7.29e-05,
+      "loss": 1.2359,
+      "step": 730
+    },
+    {
+      "epoch": 0.5808477237048666,
+      "grad_norm": 21.375,
+      "learning_rate": 7.390000000000001e-05,
+      "loss": 1.0989,
+      "step": 740
+    },
+    {
+      "epoch": 0.5886970172684458,
+      "grad_norm": 13.25,
+      "learning_rate": 7.49e-05,
+      "loss": 1.2595,
+      "step": 750
+    },
+    {
+      "epoch": 0.5965463108320251,
+      "grad_norm": 10.375,
+      "learning_rate": 7.59e-05,
+      "loss": 1.2028,
+      "step": 760
+    },
+    {
+      "epoch": 0.6043956043956044,
+      "grad_norm": 12.1875,
+      "learning_rate": 7.69e-05,
+      "loss": 1.1712,
+      "step": 770
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 10.3125,
+      "learning_rate": 7.790000000000001e-05,
+      "loss": 1.0643,
+      "step": 780
+    },
+    {
+      "epoch": 0.6200941915227629,
+      "grad_norm": 11.8125,
+      "learning_rate": 7.890000000000001e-05,
+      "loss": 1.2406,
+      "step": 790
+    },
+    {
+      "epoch": 0.6279434850863422,
+      "grad_norm": 12.0,
+      "learning_rate": 7.99e-05,
+      "loss": 1.13,
+      "step": 800
+    },
+    {
+      "epoch": 0.6279434850863422,
+      "eval/acc": 37.20930099487305,
+      "step": 800
+    },
+    {
+      "epoch": 0.6279434850863422,
+      "eval_loss": 2.728229284286499,
+      "eval_runtime": 0.3718,
+      "eval_samples_per_second": 115.661,
+      "eval_steps_per_second": 2.69,
+      "step": 800
+    },
+    {
+      "epoch": 0.6357927786499215,
+      "grad_norm": 10.125,
+      "learning_rate": 8.090000000000001e-05,
+      "loss": 1.1834,
+      "step": 810
+    },
+    {
+      "epoch": 0.6436420722135008,
+      "grad_norm": 11.0625,
+      "learning_rate": 8.19e-05,
+      "loss": 1.1268,
+      "step": 820
+    },
+    {
+      "epoch": 0.6514913657770801,
+      "grad_norm": 12.375,
+      "learning_rate": 8.29e-05,
+      "loss": 1.0937,
+      "step": 830
+    },
+    {
+      "epoch": 0.6593406593406593,
+      "grad_norm": 11.0,
+      "learning_rate": 8.39e-05,
+      "loss": 1.1011,
+      "step": 840
+    },
+    {
+      "epoch": 0.6671899529042387,
+      "grad_norm": 10.8125,
+      "learning_rate": 8.49e-05,
+      "loss": 1.1089,
+      "step": 850
+    },
+    {
+      "epoch": 0.6750392464678179,
+      "grad_norm": 10.25,
+      "learning_rate": 8.59e-05,
+      "loss": 1.1998,
+      "step": 860
+    },
+    {
+      "epoch": 0.6828885400313972,
+      "grad_norm": 11.4375,
+      "learning_rate": 8.69e-05,
+      "loss": 1.1822,
+      "step": 870
+    },
+    {
+      "epoch": 0.6907378335949764,
+      "grad_norm": 9.6875,
+      "learning_rate": 8.790000000000001e-05,
+      "loss": 1.1285,
+      "step": 880
+    },
+    {
+      "epoch": 0.6985871271585558,
+      "grad_norm": 8.3125,
+      "learning_rate": 8.89e-05,
+      "loss": 1.1014,
+      "step": 890
+    },
+    {
+      "epoch": 0.706436420722135,
+      "grad_norm": 10.5625,
+      "learning_rate": 8.99e-05,
+      "loss": 1.0286,
+      "step": 900
+    },
+    {
+      "epoch": 0.706436420722135,
+      "eval/acc": 34.88372039794922,
+      "step": 900
+    },
+    {
+      "epoch": 0.706436420722135,
+      "eval_loss": 2.7974932193756104,
+      "eval_runtime": 0.2829,
+      "eval_samples_per_second": 151.994,
+      "eval_steps_per_second": 3.535,
+      "step": 900
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 9.4375,
+      "learning_rate": 9.090000000000001e-05,
+      "loss": 1.1923,
+      "step": 910
+    },
+    {
+      "epoch": 0.7221350078492935,
+      "grad_norm": 10.6875,
+      "learning_rate": 9.190000000000001e-05,
+      "loss": 1.1552,
+      "step": 920
+    },
+    {
+      "epoch": 0.7299843014128728,
+      "grad_norm": 13.0,
+      "learning_rate": 9.290000000000001e-05,
+      "loss": 1.0113,
+      "step": 930
+    },
+    {
+      "epoch": 0.7378335949764521,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.39e-05,
+      "loss": 1.0184,
+      "step": 940
+    },
+    {
+      "epoch": 0.7456828885400314,
+      "grad_norm": 9.5,
+      "learning_rate": 9.49e-05,
+      "loss": 0.979,
+      "step": 950
+    },
+    {
+      "epoch": 0.7535321821036107,
+      "grad_norm": 9.875,
+      "learning_rate": 9.59e-05,
+      "loss": 1.0887,
+      "step": 960
+    },
+    {
+      "epoch": 0.7613814756671899,
+      "grad_norm": 7.71875,
+      "learning_rate": 9.69e-05,
+      "loss": 0.9731,
+      "step": 970
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 9.9375,
+      "learning_rate": 9.790000000000001e-05,
+      "loss": 1.0766,
+      "step": 980
+    },
+    {
+      "epoch": 0.7770800627943485,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.89e-05,
+      "loss": 1.1194,
+      "step": 990
+    },
+    {
+      "epoch": 0.7849293563579278,
+      "grad_norm": 9.0625,
+      "learning_rate": 9.99e-05,
+      "loss": 1.0378,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7849293563579278,
+      "eval/acc": 41.86046600341797,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7849293563579278,
+      "eval_loss": 2.767014741897583,
+      "eval_runtime": 0.3044,
+      "eval_samples_per_second": 141.238,
+      "eval_steps_per_second": 3.285,
+      "step": 1000
+    },
+    {
+      "epoch": 0.792778649921507,
+      "grad_norm": 10.4375,
+      "learning_rate": 9.99e-05,
+      "loss": 0.9659,
+      "step": 1010
+    },
+    {
+      "epoch": 0.8006279434850864,
+      "grad_norm": 11.6875,
+      "learning_rate": 9.97888888888889e-05,
+      "loss": 1.1504,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8084772370486656,
+      "grad_norm": 8.9375,
+      "learning_rate": 9.967777777777779e-05,
+      "loss": 1.0709,
+      "step": 1030
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.956666666666667e-05,
+      "loss": 1.0391,
+      "step": 1040
+    },
+    {
+      "epoch": 0.8241758241758241,
+      "grad_norm": 13.0625,
+      "learning_rate": 9.945555555555555e-05,
+      "loss": 1.0668,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8320251177394035,
+      "grad_norm": 11.625,
+      "learning_rate": 9.934444444444445e-05,
+      "loss": 1.1143,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8398744113029827,
+      "grad_norm": 9.125,
+      "learning_rate": 9.923333333333334e-05,
+      "loss": 1.1035,
+      "step": 1070
+    },
+    {
+      "epoch": 0.847723704866562,
+      "grad_norm": 10.25,
+      "learning_rate": 9.912222222222222e-05,
+      "loss": 1.0149,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8555729984301413,
+      "grad_norm": 8.5,
+      "learning_rate": 9.901111111111112e-05,
+      "loss": 0.9739,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8634222919937206,
+      "grad_norm": 9.6875,
+      "learning_rate": 9.89e-05,
+      "loss": 1.1187,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8634222919937206,
+      "eval/acc": 41.86046600341797,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8634222919937206,
+      "eval_loss": 2.7894911766052246,
+      "eval_runtime": 0.3266,
+      "eval_samples_per_second": 131.676,
+      "eval_steps_per_second": 3.062,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8712715855572999,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.87888888888889e-05,
+      "loss": 1.0221,
+      "step": 1110
+    },
+    {
+      "epoch": 0.8791208791208791,
+      "grad_norm": 11.8125,
+      "learning_rate": 9.867777777777777e-05,
+      "loss": 1.1126,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8869701726844584,
+      "grad_norm": 10.625,
+      "learning_rate": 9.856666666666667e-05,
+      "loss": 0.916,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8948194662480377,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.845555555555556e-05,
+      "loss": 0.9863,
+      "step": 1140
+    },
+    {
+      "epoch": 0.902668759811617,
+      "grad_norm": 9.3125,
+      "learning_rate": 9.834444444444446e-05,
+      "loss": 0.937,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9105180533751962,
+      "grad_norm": 12.75,
+      "learning_rate": 9.823333333333333e-05,
+      "loss": 0.9732,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "grad_norm": 8.375,
+      "learning_rate": 9.812222222222223e-05,
+      "loss": 0.9896,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9262166405023547,
+      "grad_norm": 9.125,
+      "learning_rate": 9.801111111111112e-05,
+      "loss": 1.0532,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9340659340659341,
+      "grad_norm": 6.78125,
+      "learning_rate": 9.790000000000001e-05,
+      "loss": 1.0416,
+      "step": 1190
+    },
+    {
+      "epoch": 0.9419152276295133,
+      "grad_norm": 10.5,
+      "learning_rate": 9.778888888888889e-05,
+      "loss": 0.966,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9419152276295133,
+      "eval/acc": 39.53488540649414,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9419152276295133,
+      "eval_loss": 2.8899922370910645,
+      "eval_runtime": 0.2904,
+      "eval_samples_per_second": 148.091,
+      "eval_steps_per_second": 3.444,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9497645211930926,
+      "grad_norm": 8.125,
+      "learning_rate": 9.767777777777778e-05,
+      "loss": 0.9864,
+      "step": 1210
+    },
+    {
+      "epoch": 0.957613814756672,
+      "grad_norm": 6.75,
+      "learning_rate": 9.756666666666668e-05,
+      "loss": 0.8145,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9654631083202512,
+      "grad_norm": 9.125,
+      "learning_rate": 9.745555555555556e-05,
+      "loss": 0.9478,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9733124018838305,
+      "grad_norm": 8.0,
+      "learning_rate": 9.734444444444444e-05,
+      "loss": 1.026,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9811616954474097,
+      "grad_norm": 8.0,
+      "learning_rate": 9.723333333333334e-05,
+      "loss": 0.9368,
+      "step": 1250
+    },
+    {
+      "epoch": 0.989010989010989,
+      "grad_norm": 9.6875,
+      "learning_rate": 9.712222222222223e-05,
+      "loss": 0.9058,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9968602825745683,
+      "grad_norm": 10.1875,
+      "learning_rate": 9.701111111111111e-05,
+      "loss": 0.7951,
+      "step": 1270
+    },
+    {
+      "epoch": 1.0047095761381475,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.69e-05,
+      "loss": 0.9533,
+      "step": 1280
+    },
+    {
+      "epoch": 1.012558869701727,
+      "grad_norm": 10.5,
+      "learning_rate": 9.67888888888889e-05,
+      "loss": 0.9711,
+      "step": 1290
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "grad_norm": 7.53125,
+      "learning_rate": 9.667777777777778e-05,
+      "loss": 0.9631,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "eval/acc": 39.53488540649414,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "eval_loss": 2.9734435081481934,
+      "eval_runtime": 0.5345,
+      "eval_samples_per_second": 80.449,
+      "eval_steps_per_second": 1.871,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0282574568288854,
+      "grad_norm": 8.75,
+      "learning_rate": 9.656666666666668e-05,
+      "loss": 0.8875,
+      "step": 1310
+    },
+    {
+      "epoch": 1.0361067503924646,
+      "grad_norm": 9.125,
+      "learning_rate": 9.645555555555556e-05,
+      "loss": 0.9751,
+      "step": 1320
+    },
+    {
+      "epoch": 1.043956043956044,
+      "grad_norm": 10.6875,
+      "learning_rate": 9.634444444444445e-05,
+      "loss": 0.8454,
+      "step": 1330
+    },
+    {
+      "epoch": 1.0518053375196232,
+      "grad_norm": 8.125,
+      "learning_rate": 9.623333333333335e-05,
+      "loss": 0.9487,
+      "step": 1340
+    },
+    {
+      "epoch": 1.0596546310832025,
+      "grad_norm": 9.1875,
+      "learning_rate": 9.612222222222223e-05,
+      "loss": 0.9746,
+      "step": 1350
+    },
+    {
+      "epoch": 1.0675039246467817,
+      "grad_norm": 11.1875,
+      "learning_rate": 9.601111111111112e-05,
+      "loss": 1.0248,
+      "step": 1360
+    },
+    {
+      "epoch": 1.0753532182103611,
+      "grad_norm": 8.0625,
+      "learning_rate": 9.59e-05,
+      "loss": 0.9127,
+      "step": 1370
+    },
+    {
+      "epoch": 1.0832025117739403,
+      "grad_norm": 9.6875,
+      "learning_rate": 9.57888888888889e-05,
+      "loss": 0.8629,
+      "step": 1380
+    },
+    {
+      "epoch": 1.0910518053375196,
+      "grad_norm": 8.25,
+      "learning_rate": 9.567777777777778e-05,
+      "loss": 1.0042,
+      "step": 1390
+    },
+    {
+      "epoch": 1.098901098901099,
+      "grad_norm": 15.0625,
+      "learning_rate": 9.556666666666667e-05,
+      "loss": 0.9498,
+      "step": 1400
+    },
+    {
+      "epoch": 1.098901098901099,
+      "eval/acc": 37.20930099487305,
+      "step": 1400
+    },
+    {
+      "epoch": 1.098901098901099,
+      "eval_loss": 2.8393633365631104,
+      "eval_runtime": 0.219,
+      "eval_samples_per_second": 196.342,
+      "eval_steps_per_second": 4.566,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1067503924646782,
+      "grad_norm": 10.0,
+      "learning_rate": 9.545555555555557e-05,
+      "loss": 0.9662,
+      "step": 1410
+    },
+    {
+      "epoch": 1.1145996860282574,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.534444444444445e-05,
+      "loss": 0.9162,
+      "step": 1420
+    },
+    {
+      "epoch": 1.1224489795918366,
+      "grad_norm": 22.625,
+      "learning_rate": 9.523333333333334e-05,
+      "loss": 0.8393,
+      "step": 1430
+    },
+    {
+      "epoch": 1.130298273155416,
+      "grad_norm": 9.3125,
+      "learning_rate": 9.512222222222222e-05,
+      "loss": 1.0153,
+      "step": 1440
+    },
+    {
+      "epoch": 1.1381475667189953,
+      "grad_norm": 8.125,
+      "learning_rate": 9.501111111111112e-05,
+      "loss": 0.9047,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1459968602825745,
+      "grad_norm": 9.3125,
+      "learning_rate": 9.49e-05,
+      "loss": 0.9004,
+      "step": 1460
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.478888888888889e-05,
+      "loss": 0.8594,
+      "step": 1470
+    },
+    {
+      "epoch": 1.1616954474097332,
+      "grad_norm": 9.625,
+      "learning_rate": 9.467777777777779e-05,
+      "loss": 0.8658,
+      "step": 1480
+    },
+    {
+      "epoch": 1.1695447409733124,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.456666666666667e-05,
+      "loss": 0.8745,
+      "step": 1490
+    },
+    {
+      "epoch": 1.1773940345368916,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.445555555555557e-05,
+      "loss": 1.0006,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1773940345368916,
+      "eval/acc": 44.1860466003418,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1773940345368916,
+      "eval_loss": 2.9012134075164795,
+      "eval_runtime": 0.2192,
+      "eval_samples_per_second": 196.184,
+      "eval_steps_per_second": 4.562,
+      "step": 1500
+    },
+    {
+      "epoch": 1.185243328100471,
+      "grad_norm": 19.0,
+      "learning_rate": 9.434444444444444e-05,
+      "loss": 0.8713,
+      "step": 1510
+    },
+    {
+      "epoch": 1.1930926216640503,
+      "grad_norm": 9.1875,
+      "learning_rate": 9.423333333333334e-05,
+      "loss": 0.9389,
+      "step": 1520
+    },
+    {
+      "epoch": 1.2009419152276295,
+      "grad_norm": 8.0,
+      "learning_rate": 9.412222222222222e-05,
+      "loss": 0.8891,
+      "step": 1530
+    },
+    {
+      "epoch": 1.2087912087912087,
+      "grad_norm": 7.6875,
+      "learning_rate": 9.401111111111112e-05,
+      "loss": 0.9247,
+      "step": 1540
+    },
+    {
+      "epoch": 1.2166405023547882,
+      "grad_norm": 7.5,
+      "learning_rate": 9.39e-05,
+      "loss": 0.8403,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 9.75,
+      "learning_rate": 9.378888888888889e-05,
+      "loss": 0.8867,
+      "step": 1560
+    },
+    {
+      "epoch": 1.2323390894819466,
+      "grad_norm": 8.25,
+      "learning_rate": 9.367777777777779e-05,
+      "loss": 0.7689,
+      "step": 1570
+    },
+    {
+      "epoch": 1.2401883830455258,
+      "grad_norm": 10.625,
+      "learning_rate": 9.356666666666667e-05,
+      "loss": 0.9114,
+      "step": 1580
+    },
+    {
+      "epoch": 1.2480376766091053,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.345555555555556e-05,
+      "loss": 0.8881,
+      "step": 1590
+    },
+    {
+      "epoch": 1.2558869701726845,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.334444444444444e-05,
+      "loss": 0.8306,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2558869701726845,
+      "eval/acc": 37.20930099487305,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2558869701726845,
+      "eval_loss": 2.8547093868255615,
+      "eval_runtime": 0.2186,
+      "eval_samples_per_second": 196.73,
+      "eval_steps_per_second": 4.575,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2637362637362637,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.323333333333334e-05,
+      "loss": 0.9893,
+      "step": 1610
+    },
+    {
+      "epoch": 1.2715855572998431,
+      "grad_norm": 8.625,
+      "learning_rate": 9.312222222222223e-05,
+      "loss": 0.7748,
+      "step": 1620
+    },
+    {
+      "epoch": 1.2794348508634223,
+      "grad_norm": 8.5,
+      "learning_rate": 9.301111111111111e-05,
+      "loss": 0.8694,
+      "step": 1630
+    },
+    {
+      "epoch": 1.2872841444270016,
+      "grad_norm": 8.25,
+      "learning_rate": 9.290000000000001e-05,
+      "loss": 0.8646,
+      "step": 1640
+    },
+    {
+      "epoch": 1.2951334379905808,
+      "grad_norm": 9.375,
+      "learning_rate": 9.278888888888889e-05,
+      "loss": 0.9928,
+      "step": 1650
+    },
+    {
+      "epoch": 1.30298273155416,
+      "grad_norm": 7.75,
+      "learning_rate": 9.267777777777779e-05,
+      "loss": 0.9459,
+      "step": 1660
+    },
+    {
+      "epoch": 1.3108320251177394,
+      "grad_norm": 7.28125,
+      "learning_rate": 9.256666666666666e-05,
+      "loss": 0.8749,
+      "step": 1670
+    },
+    {
+      "epoch": 1.3186813186813187,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.245555555555556e-05,
+      "loss": 0.8305,
+      "step": 1680
+    },
+    {
+      "epoch": 1.3265306122448979,
+      "grad_norm": 7.375,
+      "learning_rate": 9.234444444444445e-05,
+      "loss": 0.8988,
+      "step": 1690
+    },
+    {
+      "epoch": 1.3343799058084773,
+      "grad_norm": 19.25,
+      "learning_rate": 9.223333333333334e-05,
+      "loss": 0.9189,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3343799058084773,
+      "eval/acc": 39.53488540649414,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3343799058084773,
+      "eval_loss": 3.0657997131347656,
+      "eval_runtime": 0.2145,
+      "eval_samples_per_second": 200.507,
+      "eval_steps_per_second": 4.663,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3422291993720565,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.212222222222223e-05,
+      "loss": 0.9392,
+      "step": 1710
+    },
+    {
+      "epoch": 1.3500784929356358,
+      "grad_norm": 9.0,
+      "learning_rate": 9.201111111111111e-05,
+      "loss": 0.8656,
+      "step": 1720
+    },
+    {
+      "epoch": 1.3579277864992152,
+      "grad_norm": 11.1875,
+      "learning_rate": 9.190000000000001e-05,
+      "loss": 1.0284,
+      "step": 1730
+    },
+    {
+      "epoch": 1.3657770800627944,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.17888888888889e-05,
+      "loss": 0.9395,
+      "step": 1740
+    },
+    {
+      "epoch": 1.3736263736263736,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.167777777777778e-05,
+      "loss": 0.9269,
+      "step": 1750
+    },
+    {
+      "epoch": 1.3814756671899528,
+      "grad_norm": 9.0,
+      "learning_rate": 9.156666666666667e-05,
+      "loss": 0.8266,
+      "step": 1760
+    },
+    {
+      "epoch": 1.389324960753532,
+      "grad_norm": 7.46875,
+      "learning_rate": 9.145555555555556e-05,
+      "loss": 0.9045,
+      "step": 1770
+    },
+    {
+      "epoch": 1.3971742543171115,
+      "grad_norm": 7.25,
+      "learning_rate": 9.134444444444445e-05,
+      "loss": 0.9582,
+      "step": 1780
+    },
+    {
+      "epoch": 1.4050235478806907,
+      "grad_norm": 9.125,
+      "learning_rate": 9.123333333333333e-05,
+      "loss": 0.9247,
+      "step": 1790
+    },
+    {
+      "epoch": 1.41287284144427,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.112222222222223e-05,
+      "loss": 0.8248,
+      "step": 1800
+    },
+    {
+      "epoch": 1.41287284144427,
+      "eval/acc": 41.86046600341797,
+      "step": 1800
+    },
+    {
+      "epoch": 1.41287284144427,
+      "eval_loss": 2.8882296085357666,
+      "eval_runtime": 0.2216,
+      "eval_samples_per_second": 194.018,
+      "eval_steps_per_second": 4.512,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4207221350078494,
+      "grad_norm": 11.3125,
+      "learning_rate": 9.101111111111112e-05,
+      "loss": 0.9036,
+      "step": 1810
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 9.5,
+      "learning_rate": 9.090000000000001e-05,
+      "loss": 0.8777,
+      "step": 1820
+    },
+    {
+      "epoch": 1.4364207221350078,
+      "grad_norm": 10.1875,
+      "learning_rate": 9.078888888888889e-05,
+      "loss": 0.9264,
+      "step": 1830
+    },
+    {
+      "epoch": 1.4442700156985873,
+      "grad_norm": 8.125,
+      "learning_rate": 9.067777777777778e-05,
+      "loss": 0.9161,
+      "step": 1840
+    },
+    {
+      "epoch": 1.4521193092621665,
+      "grad_norm": 11.5,
+      "learning_rate": 9.056666666666667e-05,
+      "loss": 0.8825,
+      "step": 1850
+    },
+    {
+      "epoch": 1.4599686028257457,
+      "grad_norm": 26.75,
+      "learning_rate": 9.045555555555557e-05,
+      "loss": 0.8311,
+      "step": 1860
+    },
+    {
+      "epoch": 1.467817896389325,
+      "grad_norm": 7.5,
+      "learning_rate": 9.034444444444445e-05,
+      "loss": 0.8656,
+      "step": 1870
+    },
+    {
+      "epoch": 1.4756671899529041,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.023333333333334e-05,
+      "loss": 0.864,
+      "step": 1880
+    },
+    {
+      "epoch": 1.4835164835164836,
+      "grad_norm": 7.625,
+      "learning_rate": 9.012222222222223e-05,
+      "loss": 0.8694,
+      "step": 1890
+    },
+    {
+      "epoch": 1.4913657770800628,
+      "grad_norm": 8.0,
+      "learning_rate": 9.001111111111112e-05,
+      "loss": 0.7875,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4913657770800628,
+      "eval/acc": 39.53488540649414,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4913657770800628,
+      "eval_loss": 3.0755343437194824,
+      "eval_runtime": 0.2187,
+      "eval_samples_per_second": 196.594,
+      "eval_steps_per_second": 4.572,
+      "step": 1900
+    },
+    {
+      "epoch": 1.499215070643642,
+      "grad_norm": 7.875,
+      "learning_rate": 8.99e-05,
+      "loss": 0.7767,
+      "step": 1910
+    },
+    {
+      "epoch": 1.5070643642072215,
+      "grad_norm": 10.75,
+      "learning_rate": 8.978888888888889e-05,
+      "loss": 0.8953,
+      "step": 1920
+    },
+    {
+      "epoch": 1.5149136577708007,
+      "grad_norm": 8.4375,
+      "learning_rate": 8.967777777777779e-05,
+      "loss": 0.8418,
+      "step": 1930
+    },
+    {
+      "epoch": 1.5227629513343799,
+      "grad_norm": 9.3125,
+      "learning_rate": 8.956666666666667e-05,
+      "loss": 0.8164,
+      "step": 1940
+    },
+    {
+      "epoch": 1.5306122448979593,
+      "grad_norm": 8.75,
+      "learning_rate": 8.945555555555556e-05,
+      "loss": 0.9608,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 9.1875,
+      "learning_rate": 8.934444444444445e-05,
+      "loss": 0.8257,
+      "step": 1960
+    },
+    {
+      "epoch": 1.5463108320251178,
+      "grad_norm": 9.875,
+      "learning_rate": 8.923333333333334e-05,
+      "loss": 0.8572,
+      "step": 1970
+    },
+    {
+      "epoch": 1.554160125588697,
+      "grad_norm": 10.0,
+      "learning_rate": 8.912222222222222e-05,
+      "loss": 0.9113,
+      "step": 1980
+    },
+    {
+      "epoch": 1.5620094191522762,
+      "grad_norm": 10.4375,
+      "learning_rate": 8.901111111111111e-05,
+      "loss": 0.8231,
+      "step": 1990
+    },
+    {
+      "epoch": 1.5698587127158556,
+      "grad_norm": 9.625,
+      "learning_rate": 8.89e-05,
+      "loss": 0.8652,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5698587127158556,
+      "eval/acc": 39.53488540649414,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5698587127158556,
+      "eval_loss": 3.079681634902954,
+      "eval_runtime": 0.2117,
+      "eval_samples_per_second": 203.1,
+      "eval_steps_per_second": 4.723,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5777080062794349,
+      "grad_norm": 8.0,
+      "learning_rate": 8.878888888888889e-05,
+      "loss": 0.8634,
+      "step": 2010
+    },
+    {
+      "epoch": 1.585557299843014,
+      "grad_norm": 8.375,
+      "learning_rate": 8.867777777777778e-05,
+      "loss": 0.7417,
+      "step": 2020
+    },
+    {
+      "epoch": 1.5934065934065935,
+      "grad_norm": 7.25,
+      "learning_rate": 8.856666666666667e-05,
+      "loss": 0.8733,
+      "step": 2030
+    },
+    {
+      "epoch": 1.6012558869701727,
+      "grad_norm": 17.0,
+      "learning_rate": 8.845555555555556e-05,
+      "loss": 0.9108,
+      "step": 2040
+    },
+    {
+      "epoch": 1.609105180533752,
+      "grad_norm": 9.1875,
+      "learning_rate": 8.834444444444446e-05,
+      "loss": 0.9048,
+      "step": 2050
+    },
+    {
+      "epoch": 1.6169544740973314,
+      "grad_norm": 10.25,
+      "learning_rate": 8.823333333333334e-05,
+      "loss": 0.8439,
+      "step": 2060
+    },
+    {
+      "epoch": 1.6248037676609104,
+      "grad_norm": 7.96875,
+      "learning_rate": 8.812222222222223e-05,
+      "loss": 0.9284,
+      "step": 2070
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 8.9375,
+      "learning_rate": 8.801111111111111e-05,
+      "loss": 0.7554,
+      "step": 2080
+    },
+    {
+      "epoch": 1.640502354788069,
+      "grad_norm": 8.875,
+      "learning_rate": 8.790000000000001e-05,
+      "loss": 0.8366,
+      "step": 2090
+    },
+    {
+      "epoch": 1.6483516483516483,
+      "grad_norm": 8.4375,
+      "learning_rate": 8.77888888888889e-05,
+      "loss": 0.8505,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6483516483516483,
+      "eval/acc": 37.20930099487305,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6483516483516483,
+      "eval_loss": 3.081848382949829,
+      "eval_runtime": 0.2147,
+      "eval_samples_per_second": 200.235,
+      "eval_steps_per_second": 4.657,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6562009419152277,
+      "grad_norm": 7.375,
+      "learning_rate": 8.767777777777778e-05,
+      "loss": 0.877,
+      "step": 2110
+    },
+    {
+      "epoch": 1.664050235478807,
+      "grad_norm": 9.0625,
+      "learning_rate": 8.756666666666668e-05,
+      "loss": 0.8486,
+      "step": 2120
+    },
+    {
+      "epoch": 1.6718995290423861,
+      "grad_norm": 8.5625,
+      "learning_rate": 8.745555555555556e-05,
+      "loss": 0.8049,
+      "step": 2130
+    },
+    {
+      "epoch": 1.6797488226059656,
+      "grad_norm": 8.9375,
+      "learning_rate": 8.734444444444445e-05,
+      "loss": 0.8756,
+      "step": 2140
+    },
+    {
+      "epoch": 1.6875981161695446,
+      "grad_norm": 8.75,
+      "learning_rate": 8.723333333333333e-05,
+      "loss": 0.9626,
+      "step": 2150
+    },
+    {
+      "epoch": 1.695447409733124,
+      "grad_norm": 11.3125,
+      "learning_rate": 8.712222222222223e-05,
+      "loss": 0.8075,
+      "step": 2160
+    },
+    {
+      "epoch": 1.7032967032967035,
+      "grad_norm": 8.625,
+      "learning_rate": 8.701111111111111e-05,
+      "loss": 0.9573,
+      "step": 2170
+    },
+    {
+      "epoch": 1.7111459968602825,
+      "grad_norm": 8.4375,
+      "learning_rate": 8.69e-05,
+      "loss": 0.9247,
+      "step": 2180
+    },
+    {
+      "epoch": 1.718995290423862,
+      "grad_norm": 13.0625,
+      "learning_rate": 8.67888888888889e-05,
+      "loss": 0.8318,
+      "step": 2190
+    },
+    {
+      "epoch": 1.7268445839874411,
+      "grad_norm": 7.8125,
+      "learning_rate": 8.667777777777778e-05,
+      "loss": 0.809,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7268445839874411,
+      "eval/acc": 41.86046600341797,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7268445839874411,
+      "eval_loss": 3.0244550704956055,
+      "eval_runtime": 0.2186,
+      "eval_samples_per_second": 196.676,
+      "eval_steps_per_second": 4.574,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7346938775510203,
+      "grad_norm": 10.0,
+      "learning_rate": 8.656666666666668e-05,
+      "loss": 0.7782,
+      "step": 2210
+    },
+    {
+      "epoch": 1.7425431711145998,
+      "grad_norm": 8.875,
+      "learning_rate": 8.645555555555555e-05,
+      "loss": 0.8701,
+      "step": 2220
+    },
+    {
+      "epoch": 1.750392464678179,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.634444444444445e-05,
+      "loss": 0.8183,
+      "step": 2230
+    },
+    {
+      "epoch": 1.7582417582417582,
+      "grad_norm": 8.3125,
+      "learning_rate": 8.623333333333333e-05,
+      "loss": 0.8181,
+      "step": 2240
+    },
+    {
+      "epoch": 1.7660910518053377,
+      "grad_norm": 10.75,
+      "learning_rate": 8.612222222222223e-05,
+      "loss": 0.9131,
+      "step": 2250
+    },
+    {
+      "epoch": 1.7739403453689166,
+      "grad_norm": 8.9375,
+      "learning_rate": 8.601111111111112e-05,
+      "loss": 0.7837,
+      "step": 2260
+    },
+    {
+      "epoch": 1.781789638932496,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.59e-05,
+      "loss": 0.8072,
+      "step": 2270
+    },
+    {
+      "epoch": 1.7896389324960753,
+      "grad_norm": 7.03125,
+      "learning_rate": 8.57888888888889e-05,
+      "loss": 0.795,
+      "step": 2280
+    },
+    {
+      "epoch": 1.7974882260596545,
+      "grad_norm": 9.9375,
+      "learning_rate": 8.567777777777778e-05,
+      "loss": 0.8375,
+      "step": 2290
+    },
+    {
+      "epoch": 1.805337519623234,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.556666666666667e-05,
+      "loss": 0.8399,
+      "step": 2300
+    },
+    {
+      "epoch": 1.805337519623234,
+      "eval/acc": 44.1860466003418,
+      "step": 2300
+    },
+    {
+      "epoch": 1.805337519623234,
+      "eval_loss": 3.090736150741577,
+      "eval_runtime": 0.2194,
+      "eval_samples_per_second": 196.026,
+      "eval_steps_per_second": 4.559,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8131868131868132,
+      "grad_norm": 8.6875,
+      "learning_rate": 8.545555555555555e-05,
+      "loss": 0.8665,
+      "step": 2310
+    },
+    {
+      "epoch": 1.8210361067503924,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.534444444444445e-05,
+      "loss": 0.8312,
+      "step": 2320
+    },
+    {
+      "epoch": 1.8288854003139718,
+      "grad_norm": 9.0,
+      "learning_rate": 8.523333333333334e-05,
+      "loss": 0.8399,
+      "step": 2330
+    },
+    {
+      "epoch": 1.836734693877551,
+      "grad_norm": 8.1875,
+      "learning_rate": 8.512222222222222e-05,
+      "loss": 0.8437,
+      "step": 2340
+    },
+    {
+      "epoch": 1.8445839874411303,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.501111111111112e-05,
+      "loss": 0.827,
+      "step": 2350
+    },
+    {
+      "epoch": 1.8524332810047097,
+      "grad_norm": 7.34375,
+      "learning_rate": 8.49e-05,
+      "loss": 0.9034,
+      "step": 2360
+    },
+    {
+      "epoch": 1.8602825745682887,
+      "grad_norm": 9.125,
+      "learning_rate": 8.47888888888889e-05,
+      "loss": 0.8115,
+      "step": 2370
+    },
+    {
+      "epoch": 1.8681318681318682,
+      "grad_norm": 8.8125,
+      "learning_rate": 8.467777777777777e-05,
+      "loss": 0.8576,
+      "step": 2380
+    },
+    {
+      "epoch": 1.8759811616954474,
+      "grad_norm": 7.84375,
+      "learning_rate": 8.456666666666667e-05,
+      "loss": 0.8483,
+      "step": 2390
+    },
+    {
+      "epoch": 1.8838304552590266,
+      "grad_norm": 9.5625,
+      "learning_rate": 8.445555555555556e-05,
+      "loss": 0.8962,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8838304552590266,
+      "eval/acc": 39.53488540649414,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8838304552590266,
+      "eval_loss": 3.0378940105438232,
+      "eval_runtime": 0.22,
+      "eval_samples_per_second": 195.434,
+      "eval_steps_per_second": 4.545,
+      "step": 2400
+    },
+    {
+      "epoch": 1.891679748822606,
+      "grad_norm": 8.1875,
+      "learning_rate": 8.434444444444445e-05,
+      "loss": 0.8201,
+      "step": 2410
+    },
+    {
+      "epoch": 1.8995290423861853,
+      "grad_norm": 8.5,
+      "learning_rate": 8.423333333333334e-05,
+      "loss": 0.916,
+      "step": 2420
+    },
+    {
+      "epoch": 1.9073783359497645,
+      "grad_norm": 8.875,
+      "learning_rate": 8.412222222222222e-05,
+      "loss": 0.8291,
+      "step": 2430
+    },
+    {
+      "epoch": 1.915227629513344,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.401111111111112e-05,
+      "loss": 0.7994,
+      "step": 2440
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 8.25,
+      "learning_rate": 8.39e-05,
+      "loss": 0.8999,
+      "step": 2450
+    },
+    {
+      "epoch": 1.9309262166405023,
+      "grad_norm": 13.4375,
+      "learning_rate": 8.378888888888889e-05,
+      "loss": 0.8204,
+      "step": 2460
+    },
+    {
+      "epoch": 1.9387755102040818,
+      "grad_norm": 8.375,
+      "learning_rate": 8.367777777777778e-05,
+      "loss": 0.8134,
+      "step": 2470
+    },
+    {
+      "epoch": 1.9466248037676608,
+      "grad_norm": 7.5625,
+      "learning_rate": 8.356666666666667e-05,
+      "loss": 0.9049,
+      "step": 2480
+    },
+    {
+      "epoch": 1.9544740973312402,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.345555555555556e-05,
+      "loss": 0.8928,
+      "step": 2490
+    },
+    {
+      "epoch": 1.9623233908948194,
+      "grad_norm": 7.4375,
+      "learning_rate": 8.334444444444444e-05,
+      "loss": 0.7481,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9623233908948194,
+      "eval/acc": 39.53488540649414,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9623233908948194,
+      "eval_loss": 3.135998010635376,
+      "eval_runtime": 0.2215,
+      "eval_samples_per_second": 194.129,
+      "eval_steps_per_second": 4.515,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 2500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2454495470a309f29bcb6e17995a0f5eba177149759169fad892e69436e76b71
+size 6161

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26ddea10d1b592b763ee59b05f1558c3cb2f0493c1b214f3c80feb714b66c3b1
+size 298041696

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:068adc19df70de3d48c90e1a4bfee35d3260dcecdfab93d036098987af28c762
+size 596170443

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64751d1d30fc9a480b1be244c72d89dafe386df6d39c23a516d08b98b09ff2c0
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:149750d3cca95f5471b4108e74133b194d6009aabcc2f5743105bb4ba54b7286
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9255605ac0cd8dc1535cca4054fc8282329b95c9bfaff1e3919675dd400a0ffa
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1f5b0c4aedc1f943d8e8dc35c31e252031f0c094d6b8b7261007582209d296f
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:506f6e39bd983d811639cf9d5aea75be4643e6c5adeffc1e40a2ab6e23817ea8
+size 1465

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2454495470a309f29bcb6e17995a0f5eba177149759169fad892e69436e76b71
+size 6161

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4c81558929d61f7e09725cdd0299c7c9a60354e8e937058fa212bd0fed0d5dc
+size 298041696

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1aff66ee140ada517137e3deb00c2322cd5f3c5c26e947f38a24227e394683ac
+size 596170443

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:180df0cb70bfe71e6d4e777e06e1f3a992afd71fd81bbb3480d69c4f8bcb971e
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:880b4c0d69347fd79eaf2ff1f60a002f13749950f1d35674d8f35c6f0008bb13
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eb085b8d3eca6f4b5f8570a40562b8a87e2ffb9bc7b2144c9c9908c02824936
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16536734c942728ee2a0224fb01135653667a8c553d71c229b81bb213fd261bd
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:773947218d8d7737c8670043d737e80a30fe17375af8e46749692f7803f2df3b
+size 1465

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/checkpoint-7500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2454495470a309f29bcb6e17995a0f5eba177149759169fad892e69436e76b71
+size 6161

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b3f482e56a92f0760e27f700de46d09e3a07b0a89d3ef90808d0d6b22512827
+size 298041696

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdd7dd2e666a3126c4ed005d62b97fc63ca51fad19f7d480fb83d6eac7bfbbd0
+size 596170443

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc940a8d556e924e63165a153482b7202c426188f75c20c24e12d424fd66480
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ffdae51287c04c7c26dda1477c56be872f0a72d6ef4c91eed718fc9815f5cd0
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a259d84200d732d2a50300986ac2bfeae195d6cd6b8a5965f25beb1168967c93
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be124d0a4382f6650d248da735663a65eb35d7e6648a020fa3373d621111b9f4
+size 15429

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/runs/Nov24_20-04-23_nid005058/events.out.tfevents.1764007677.nid005058.100797.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:685c58b52b45168b2f278121562de91b8c14cb29067edbcdc8e998dd759b05c4
+size 42534

modernbert-crux-researchy-pos_half.neg_zero.b64_n512.1e-4.512/runs/Nov24_21-15-32_nid005065/events.out.tfevents.1764011958.nid005065.96324.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:430144a74d8370489a195a9bddb6b721b9fff60644d4de8530fde0607d268ab9
+size 254613