akkky02 commited on Mar 16

Commit

94eb8cd

•

1 Parent(s): 7e15240

Upload folder using huggingface_hub

Browse files

Files changed (38) hide show

microsoft/phi_2_ledgar/README.md +93 -0
microsoft/phi_2_ledgar/added_tokens.json +40 -0
microsoft/phi_2_ledgar/all_results.json +23 -0
microsoft/phi_2_ledgar/checkpoint-2800/added_tokens.json +40 -0
microsoft/phi_2_ledgar/checkpoint-2800/config.json +241 -0
microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/mp_rank_00_model_states.pt +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/latest +1 -0
microsoft/phi_2_ledgar/checkpoint-2800/merges.txt +0 -0
microsoft/phi_2_ledgar/checkpoint-2800/model-00001-of-00002.safetensors +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/model-00002-of-00002.safetensors +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/model.safetensors.index.json +459 -0
microsoft/phi_2_ledgar/checkpoint-2800/rng_state_0.pth +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/rng_state_1.pth +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/scheduler.pt +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/special_tokens_map.json +24 -0
microsoft/phi_2_ledgar/checkpoint-2800/tokenizer.json +0 -0
microsoft/phi_2_ledgar/checkpoint-2800/tokenizer_config.json +324 -0
microsoft/phi_2_ledgar/checkpoint-2800/trainer_state.json +1113 -0
microsoft/phi_2_ledgar/checkpoint-2800/training_args.bin +3 -0
microsoft/phi_2_ledgar/checkpoint-2800/vocab.json +0 -0
microsoft/phi_2_ledgar/checkpoint-2800/zero_to_fp32.py +604 -0
microsoft/phi_2_ledgar/config.json +241 -0
microsoft/phi_2_ledgar/eval_results.json +11 -0
microsoft/phi_2_ledgar/merges.txt +0 -0
microsoft/phi_2_ledgar/model-00001-of-00002.safetensors +3 -0
microsoft/phi_2_ledgar/model-00002-of-00002.safetensors +3 -0
microsoft/phi_2_ledgar/model.safetensors.index.json +459 -0
microsoft/phi_2_ledgar/run.log +4 -0
microsoft/phi_2_ledgar/special_tokens_map.json +24 -0
microsoft/phi_2_ledgar/test_results.json +10 -0
microsoft/phi_2_ledgar/tokenizer.json +0 -0
microsoft/phi_2_ledgar/tokenizer_config.json +324 -0
microsoft/phi_2_ledgar/train_results.json +8 -0
microsoft/phi_2_ledgar/trainer_state.json +1122 -0
microsoft/phi_2_ledgar/training_args.bin +3 -0
microsoft/phi_2_ledgar/vocab.json +0 -0

microsoft/phi_2_ledgar/README.md ADDED Viewed

	@@ -0,0 +1,93 @@

+---
+license: mit
+base_model: microsoft/phi-2
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: phi_2_ledgar
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi_2_ledgar
+This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6120
+- Accuracy: 0.826
+- F1 Macro: 0.7355
+- F1 Micro: 0.826
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 Macro | F1 Micro |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|
+| 3.6034        | 0.11  | 100  | 3.2114          | 0.337    | 0.1236   | 0.337    |
+| 2.2678        | 0.21  | 200  | 1.9837          | 0.5623   | 0.3331   | 0.5623   |
+| 1.4927        | 0.32  | 300  | 1.3369          | 0.6712   | 0.4884   | 0.6712   |
+| 1.1518        | 0.43  | 400  | 1.0526          | 0.7243   | 0.5613   | 0.7243   |
+| 1.1041        | 0.53  | 500  | 0.9305          | 0.7521   | 0.6206   | 0.7521   |
+| 1.0144        | 0.64  | 600  | 0.9068          | 0.7574   | 0.6294   | 0.7574   |
+| 0.9892        | 0.75  | 700  | 0.8712          | 0.7669   | 0.6430   | 0.7669   |
+| 0.9972        | 0.85  | 800  | 0.8591          | 0.7675   | 0.6369   | 0.7675   |
+| 0.8439        | 0.96  | 900  | 0.7895          | 0.7848   | 0.6835   | 0.7848   |
+| 0.7409        | 1.07  | 1000 | 0.7614          | 0.7944   | 0.6809   | 0.7944   |
+| 0.7627        | 1.17  | 1100 | 0.7539          | 0.7946   | 0.6810   | 0.7946   |
+| 0.8065        | 1.28  | 1200 | 0.7289          | 0.8008   | 0.6945   | 0.8008   |
+| 0.7359        | 1.39  | 1300 | 0.7254          | 0.8034   | 0.6976   | 0.8034   |
+| 0.6525        | 1.49  | 1400 | 0.7073          | 0.8065   | 0.7050   | 0.8065   |
+| 0.7359        | 1.6   | 1500 | 0.7206          | 0.8033   | 0.6949   | 0.8033   |
+| 0.7291        | 1.71  | 1600 | 0.6924          | 0.8089   | 0.7066   | 0.8089   |
+| 0.7072        | 1.81  | 1700 | 0.6764          | 0.8102   | 0.7070   | 0.8102   |
+| 0.6688        | 1.92  | 1800 | 0.6546          | 0.814    | 0.7128   | 0.814    |
+| 0.6253        | 2.03  | 1900 | 0.6506          | 0.8158   | 0.7059   | 0.8158   |
+| 0.6044        | 2.13  | 2000 | 0.6603          | 0.8155   | 0.7165   | 0.8155   |
+| 0.6414        | 2.24  | 2100 | 0.6435          | 0.8138   | 0.7185   | 0.8138   |
+| 0.6115        | 2.35  | 2200 | 0.6368          | 0.8216   | 0.7280   | 0.8216   |
+| 0.6331        | 2.45  | 2300 | 0.6273          | 0.8208   | 0.7251   | 0.8208   |
+| 0.608         | 2.56  | 2400 | 0.6252          | 0.8232   | 0.7286   | 0.8232   |
+| 0.5879        | 2.67  | 2500 | 0.6172          | 0.8241   | 0.7308   | 0.8241   |
+| 0.6056        | 2.77  | 2600 | 0.6157          | 0.8257   | 0.7346   | 0.8257   |
+| 0.5711        | 2.88  | 2700 | 0.6129          | 0.8253   | 0.7341   | 0.8253   |
+| 0.5802        | 2.99  | 2800 | 0.6120          | 0.826    | 0.7355   | 0.826    |
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

microsoft/phi_2_ledgar/added_tokens.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "\t\t": 50294,
+  "\t\t\t": 50293,
+  "\t\t\t\t": 50292,
+  "\t\t\t\t\t": 50291,
+  "\t\t\t\t\t\t": 50290,
+  "\t\t\t\t\t\t\t": 50289,
+  "\t\t\t\t\t\t\t\t": 50288,
+  "\t\t\t\t\t\t\t\t\t": 50287,
+  "  ": 50286,
+  "   ": 50285,
+  "    ": 50284,
+  "     ": 50283,
+  "      ": 50282,
+  "       ": 50281,
+  "        ": 50280,
+  "         ": 50279,
+  "          ": 50278,
+  "           ": 50277,
+  "            ": 50276,
+  "             ": 50275,
+  "              ": 50274,
+  "               ": 50273,
+  "                ": 50272,
+  "                 ": 50271,
+  "                  ": 50270,
+  "                   ": 50269,
+  "                    ": 50268,
+  "                     ": 50267,
+  "                      ": 50266,
+  "                       ": 50265,
+  "                        ": 50264,
+  "                         ": 50263,
+  "                          ": 50262,
+  "                           ": 50261,
+  "                            ": 50260,
+  "                             ": 50259,
+  "                              ": 50258,
+  "                               ": 50257
+}

microsoft/phi_2_ledgar/all_results.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.826,
+    "eval_f1_macro": 0.7355084015446216,
+    "eval_f1_micro": 0.826,
+    "eval_loss": 0.6120218634605408,
+    "eval_runtime": 46.3584,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 215.711,
+    "eval_steps_per_second": 3.387,
+    "test_accuracy": 0.8311,
+    "test_f1_macro": 0.7306467958794756,
+    "test_f1_micro": 0.8311,
+    "test_loss": 0.6224531531333923,
+    "test_runtime": 47.3558,
+    "test_samples_per_second": 211.168,
+    "test_steps_per_second": 3.315,
+    "train_loss": 0.9835220694796108,
+    "train_runtime": 6489.4436,
+    "train_samples": 60000,
+    "train_samples_per_second": 27.737,
+    "train_steps_per_second": 0.434
+}

microsoft/phi_2_ledgar/checkpoint-2800/added_tokens.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "\t\t": 50294,
+  "\t\t\t": 50293,
+  "\t\t\t\t": 50292,
+  "\t\t\t\t\t": 50291,
+  "\t\t\t\t\t\t": 50290,
+  "\t\t\t\t\t\t\t": 50289,
+  "\t\t\t\t\t\t\t\t": 50288,
+  "\t\t\t\t\t\t\t\t\t": 50287,
+  "  ": 50286,
+  "   ": 50285,
+  "    ": 50284,
+  "     ": 50283,
+  "      ": 50282,
+  "       ": 50281,
+  "        ": 50280,
+  "         ": 50279,
+  "          ": 50278,
+  "           ": 50277,
+  "            ": 50276,
+  "             ": 50275,
+  "              ": 50274,
+  "               ": 50273,
+  "                ": 50272,
+  "                 ": 50271,
+  "                  ": 50270,
+  "                   ": 50269,
+  "                    ": 50268,
+  "                     ": 50267,
+  "                      ": 50266,
+  "                       ": 50265,
+  "                        ": 50264,
+  "                         ": 50263,
+  "                          ": 50262,
+  "                           ": 50261,
+  "                            ": 50260,
+  "                             ": 50259,
+  "                              ": 50258,
+  "                               ": 50257
+}

microsoft/phi_2_ledgar/checkpoint-2800/config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "_name_or_path": "microsoft/phi-2",
+  "architectures": [
+    "PhiForSequenceClassification"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/phi-2--configuration_phi.PhiConfig",
+    "AutoModelForCausalLM": "microsoft/phi-2--modeling_phi.PhiForCausalLM"
+  },
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 50256,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu_new",
+  "hidden_size": 2560,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "23",
+    "17": "24",
+    "18": "25",
+    "19": "26",
+    "20": "27",
+    "21": "28",
+    "22": "29",
+    "23": "3",
+    "24": "30",
+    "25": "31",
+    "26": "32",
+    "27": "33",
+    "28": "34",
+    "29": "35",
+    "30": "36",
+    "31": "37",
+    "32": "38",
+    "33": "39",
+    "34": "4",
+    "35": "40",
+    "36": "41",
+    "37": "42",
+    "38": "43",
+    "39": "44",
+    "40": "45",
+    "41": "46",
+    "42": "47",
+    "43": "48",
+    "44": "49",
+    "45": "5",
+    "46": "50",
+    "47": "51",
+    "48": "52",
+    "49": "53",
+    "50": "54",
+    "51": "55",
+    "52": "56",
+    "53": "57",
+    "54": "58",
+    "55": "59",
+    "56": "6",
+    "57": "60",
+    "58": "61",
+    "59": "62",
+    "60": "63",
+    "61": "64",
+    "62": "65",
+    "63": "66",
+    "64": "67",
+    "65": "68",
+    "66": "69",
+    "67": "7",
+    "68": "70",
+    "69": "71",
+    "70": "72",
+    "71": "73",
+    "72": "74",
+    "73": "75",
+    "74": "76",
+    "75": "77",
+    "76": "78",
+    "77": "79",
+    "78": "8",
+    "79": "80",
+    "80": "81",
+    "81": "82",
+    "82": "83",
+    "83": "84",
+    "84": "85",
+    "85": "86",
+    "86": "87",
+    "87": "88",
+    "88": "89",
+    "89": "9",
+    "90": "90",
+    "91": "91",
+    "92": "92",
+    "93": "93",
+    "94": "94",
+    "95": "95",
+    "96": "96",
+    "97": "97",
+    "98": "98",
+    "99": "99"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 10240,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "23": 16,
+    "24": 17,
+    "25": 18,
+    "26": 19,
+    "27": 20,
+    "28": 21,
+    "29": 22,
+    "3": 23,
+    "30": 24,
+    "31": 25,
+    "32": 26,
+    "33": 27,
+    "34": 28,
+    "35": 29,
+    "36": 30,
+    "37": 31,
+    "38": 32,
+    "39": 33,
+    "4": 34,
+    "40": 35,
+    "41": 36,
+    "42": 37,
+    "43": 38,
+    "44": 39,
+    "45": 40,
+    "46": 41,
+    "47": 42,
+    "48": 43,
+    "49": 44,
+    "5": 45,
+    "50": 46,
+    "51": 47,
+    "52": 48,
+    "53": 49,
+    "54": 50,
+    "55": 51,
+    "56": 52,
+    "57": 53,
+    "58": 54,
+    "59": 55,
+    "6": 56,
+    "60": 57,
+    "61": 58,
+    "62": 59,
+    "63": 60,
+    "64": 61,
+    "65": 62,
+    "66": 63,
+    "67": 64,
+    "68": 65,
+    "69": 66,
+    "7": 67,
+    "70": 68,
+    "71": 69,
+    "72": 70,
+    "73": 71,
+    "74": 72,
+    "75": 73,
+    "76": 74,
+    "77": 75,
+    "78": 76,
+    "79": 77,
+    "8": 78,
+    "80": 79,
+    "81": 80,
+    "82": 81,
+    "83": 82,
+    "84": 83,
+    "85": 84,
+    "86": 85,
+    "87": 86,
+    "88": 87,
+    "89": 88,
+    "9": 89,
+    "90": 90,
+    "91": 91,
+    "92": 92,
+    "93": 93,
+    "94": 94,
+    "95": 95,
+    "96": 96,
+    "97": 97,
+    "98": 98,
+    "99": 99
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "phi",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 50256,
+  "partial_rotary_factor": 0.4,
+  "problem_type": "single_label_classification",
+  "qk_layernorm": false,
+  "resid_pdrop": 0.1,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.39.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50295
+}

microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09041f5d10231956df543f7b49d4426f62b6e4f4e443867206fa003f398404a5
+size 15879020748

microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:904baf68664932779da8ff3ff90ac0e29fd6299dca4b22ef421b8c1d2a60c3ef
+size 15879021324

microsoft/phi_2_ledgar/checkpoint-2800/global_step2800/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60d10f029e96c6ed4a858f8826674205a2454765a8922b6909b8f58db0e2203a
+size 5293114680

microsoft/phi_2_ledgar/checkpoint-2800/latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step2800

microsoft/phi_2_ledgar/checkpoint-2800/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

microsoft/phi_2_ledgar/checkpoint-2800/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae73b51441793d522ad559358cf9079e99146b65973000a15160116545e8f7b4
+size 4990951248

microsoft/phi_2_ledgar/checkpoint-2800/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a147716a17a72dea3519e435ba913dfbe27494f393627a3ba1562fd349409a81
+size 302098480

microsoft/phi_2_ledgar/checkpoint-2800/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,459 @@

+{
+  "metadata": {
+    "total_size": 5292999680
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.final_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.final_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "score.weight": "model-00002-of-00002.safetensors"
+  }
+}

microsoft/phi_2_ledgar/checkpoint-2800/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1849dec8c5d9b97301988e37b73406a43a2c26c6e58dd6744998c9b5fd349995
+size 14512

microsoft/phi_2_ledgar/checkpoint-2800/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a15657df1db23ea9022753849d573d625454a71daf2e7671466f27d94ecbffa5
+size 14512

microsoft/phi_2_ledgar/checkpoint-2800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a12edfee260015fb8a9dfdd91c719ef6c8fac469ab557f6eb6345dc6d21f36c
+size 1064

microsoft/phi_2_ledgar/checkpoint-2800/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

microsoft/phi_2_ledgar/checkpoint-2800/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

microsoft/phi_2_ledgar/checkpoint-2800/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,324 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50257": {
+      "content": "                               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "                         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50280": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50281": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50282": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50283": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50284": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50285": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50286": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50287": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50288": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50289": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50290": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50291": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50292": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50293": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50294": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "CodeGenTokenizer",
+  "unk_token": "<|endoftext|>"
+}

microsoft/phi_2_ledgar/checkpoint-2800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1113 @@

+{
+  "best_metric": 0.6120218634605408,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/microsoft/phi_2_ledgar/checkpoint-2800",
+  "epoch": 2.9850746268656714,
+  "eval_steps": 100,
+  "global_step": 2800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 278.5504455566406,
+      "learning_rate": 4.9555792466240235e-06,
+      "loss": 4.8556,
+      "step": 25
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 332.1685485839844,
+      "learning_rate": 4.911158493248046e-06,
+      "loss": 4.2381,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 238.07369995117188,
+      "learning_rate": 4.866737739872069e-06,
+      "loss": 4.0038,
+      "step": 75
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 152.84237670898438,
+      "learning_rate": 4.822316986496091e-06,
+      "loss": 3.6034,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.337,
+      "eval_f1_macro": 0.12358690595802334,
+      "eval_f1_micro": 0.337,
+      "eval_loss": 3.211400032043457,
+      "eval_runtime": 47.3513,
+      "eval_samples_per_second": 211.188,
+      "eval_steps_per_second": 3.316,
+      "step": 100
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 143.5316619873047,
+      "learning_rate": 4.777896233120114e-06,
+      "loss": 3.1831,
+      "step": 125
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 152.6884765625,
+      "learning_rate": 4.733475479744136e-06,
+      "loss": 2.9609,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 116.26598358154297,
+      "learning_rate": 4.6890547263681595e-06,
+      "loss": 2.4773,
+      "step": 175
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 102.64595031738281,
+      "learning_rate": 4.644633972992183e-06,
+      "loss": 2.2678,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.5623,
+      "eval_f1_macro": 0.3331251034728065,
+      "eval_f1_micro": 0.5623,
+      "eval_loss": 1.9837249517440796,
+      "eval_runtime": 47.4491,
+      "eval_samples_per_second": 210.752,
+      "eval_steps_per_second": 3.309,
+      "step": 200
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 107.59564208984375,
+      "learning_rate": 4.600213219616206e-06,
+      "loss": 2.0387,
+      "step": 225
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 129.82203674316406,
+      "learning_rate": 4.555792466240228e-06,
+      "loss": 1.7772,
+      "step": 250
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 106.58737182617188,
+      "learning_rate": 4.51137171286425e-06,
+      "loss": 1.5959,
+      "step": 275
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 219.3987274169922,
+      "learning_rate": 4.466950959488273e-06,
+      "loss": 1.4927,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.6712,
+      "eval_f1_macro": 0.48839865479998884,
+      "eval_f1_micro": 0.6712,
+      "eval_loss": 1.3369125127792358,
+      "eval_runtime": 47.4603,
+      "eval_samples_per_second": 210.702,
+      "eval_steps_per_second": 3.308,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 62.788822174072266,
+      "learning_rate": 4.422530206112296e-06,
+      "loss": 1.4203,
+      "step": 325
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 63.6900634765625,
+      "learning_rate": 4.378109452736319e-06,
+      "loss": 1.2841,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 75.33383178710938,
+      "learning_rate": 4.333688699360342e-06,
+      "loss": 1.1642,
+      "step": 375
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 89.42117309570312,
+      "learning_rate": 4.289267945984365e-06,
+      "loss": 1.1518,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "eval_accuracy": 0.7243,
+      "eval_f1_macro": 0.5613056174383468,
+      "eval_f1_micro": 0.7243,
+      "eval_loss": 1.052606225013733,
+      "eval_runtime": 47.3838,
+      "eval_samples_per_second": 211.043,
+      "eval_steps_per_second": 3.313,
+      "step": 400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 74.13993072509766,
+      "learning_rate": 4.244847192608387e-06,
+      "loss": 1.135,
+      "step": 425
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 80.19258117675781,
+      "learning_rate": 4.200426439232409e-06,
+      "loss": 1.176,
+      "step": 450
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 70.83063507080078,
+      "learning_rate": 4.156005685856432e-06,
+      "loss": 1.1386,
+      "step": 475
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 109.83588409423828,
+      "learning_rate": 4.1115849324804554e-06,
+      "loss": 1.1041,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.7521,
+      "eval_f1_macro": 0.6206030644902993,
+      "eval_f1_micro": 0.7521,
+      "eval_loss": 0.9304812550544739,
+      "eval_runtime": 47.4284,
+      "eval_samples_per_second": 210.844,
+      "eval_steps_per_second": 3.31,
+      "step": 500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 51.40995788574219,
+      "learning_rate": 4.067164179104478e-06,
+      "loss": 0.9872,
+      "step": 525
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 75.6723861694336,
+      "learning_rate": 4.022743425728501e-06,
+      "loss": 0.9832,
+      "step": 550
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 86.0229721069336,
+      "learning_rate": 3.978322672352524e-06,
+      "loss": 0.9485,
+      "step": 575
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 113.96233367919922,
+      "learning_rate": 3.933901918976546e-06,
+      "loss": 1.0144,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.7574,
+      "eval_f1_macro": 0.6294250374822845,
+      "eval_f1_micro": 0.7574,
+      "eval_loss": 0.9067593812942505,
+      "eval_runtime": 47.4873,
+      "eval_samples_per_second": 210.583,
+      "eval_steps_per_second": 3.306,
+      "step": 600
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 77.80159759521484,
+      "learning_rate": 3.889481165600569e-06,
+      "loss": 1.0435,
+      "step": 625
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 77.97108459472656,
+      "learning_rate": 3.8450604122245914e-06,
+      "loss": 0.9593,
+      "step": 650
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 68.20707702636719,
+      "learning_rate": 3.8006396588486145e-06,
+      "loss": 0.9818,
+      "step": 675
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 103.11054229736328,
+      "learning_rate": 3.756218905472637e-06,
+      "loss": 0.9892,
+      "step": 700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.7669,
+      "eval_f1_macro": 0.642987522646621,
+      "eval_f1_micro": 0.7669,
+      "eval_loss": 0.8712124824523926,
+      "eval_runtime": 47.4988,
+      "eval_samples_per_second": 210.531,
+      "eval_steps_per_second": 3.305,
+      "step": 700
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 88.3270263671875,
+      "learning_rate": 3.71179815209666e-06,
+      "loss": 0.8937,
+      "step": 725
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 67.907958984375,
+      "learning_rate": 3.667377398720683e-06,
+      "loss": 0.9788,
+      "step": 750
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 68.60499572753906,
+      "learning_rate": 3.622956645344705e-06,
+      "loss": 0.9459,
+      "step": 775
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 71.7964859008789,
+      "learning_rate": 3.578535891968728e-06,
+      "loss": 0.9972,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.7675,
+      "eval_f1_macro": 0.6369038817239384,
+      "eval_f1_micro": 0.7675,
+      "eval_loss": 0.8591374754905701,
+      "eval_runtime": 47.4288,
+      "eval_samples_per_second": 210.842,
+      "eval_steps_per_second": 3.31,
+      "step": 800
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 99.17341613769531,
+      "learning_rate": 3.534115138592751e-06,
+      "loss": 0.9663,
+      "step": 825
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 198.6553955078125,
+      "learning_rate": 3.4896943852167736e-06,
+      "loss": 0.8617,
+      "step": 850
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 82.58099365234375,
+      "learning_rate": 3.4452736318407963e-06,
+      "loss": 0.8735,
+      "step": 875
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 63.692623138427734,
+      "learning_rate": 3.4008528784648194e-06,
+      "loss": 0.8439,
+      "step": 900
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7848,
+      "eval_f1_macro": 0.6834829058415216,
+      "eval_f1_micro": 0.7848,
+      "eval_loss": 0.7894874811172485,
+      "eval_runtime": 47.4489,
+      "eval_samples_per_second": 210.753,
+      "eval_steps_per_second": 3.309,
+      "step": 900
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 78.88030242919922,
+      "learning_rate": 3.3564321250888416e-06,
+      "loss": 0.8582,
+      "step": 925
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 45.49142837524414,
+      "learning_rate": 3.3120113717128643e-06,
+      "loss": 0.8621,
+      "step": 950
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 37.98048400878906,
+      "learning_rate": 3.2675906183368874e-06,
+      "loss": 0.8396,
+      "step": 975
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 37.72966384887695,
+      "learning_rate": 3.22316986496091e-06,
+      "loss": 0.7409,
+      "step": 1000
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.7944,
+      "eval_f1_macro": 0.6808979493082343,
+      "eval_f1_micro": 0.7944,
+      "eval_loss": 0.7614499926567078,
+      "eval_runtime": 47.4823,
+      "eval_samples_per_second": 210.605,
+      "eval_steps_per_second": 3.306,
+      "step": 1000
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 57.926578521728516,
+      "learning_rate": 3.1787491115849327e-06,
+      "loss": 0.7475,
+      "step": 1025
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 86.9485855102539,
+      "learning_rate": 3.1343283582089558e-06,
+      "loss": 0.7197,
+      "step": 1050
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 54.83045959472656,
+      "learning_rate": 3.0899076048329785e-06,
+      "loss": 0.8314,
+      "step": 1075
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 68.1777114868164,
+      "learning_rate": 3.0454868514570007e-06,
+      "loss": 0.7627,
+      "step": 1100
+    },
+    {
+      "epoch": 1.17,
+      "eval_accuracy": 0.7946,
+      "eval_f1_macro": 0.6809735037021439,
+      "eval_f1_micro": 0.7946,
+      "eval_loss": 0.7538655996322632,
+      "eval_runtime": 47.4181,
+      "eval_samples_per_second": 210.89,
+      "eval_steps_per_second": 3.311,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 31.217445373535156,
+      "learning_rate": 3.0010660980810234e-06,
+      "loss": 0.7501,
+      "step": 1125
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 38.76744842529297,
+      "learning_rate": 2.9566453447050464e-06,
+      "loss": 0.6884,
+      "step": 1150
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 50.481388092041016,
+      "learning_rate": 2.912224591329069e-06,
+      "loss": 0.6911,
+      "step": 1175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 54.91836929321289,
+      "learning_rate": 2.867803837953092e-06,
+      "loss": 0.8065,
+      "step": 1200
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.8008,
+      "eval_f1_macro": 0.6945223141031294,
+      "eval_f1_micro": 0.8008,
+      "eval_loss": 0.7289281487464905,
+      "eval_runtime": 47.4458,
+      "eval_samples_per_second": 210.767,
+      "eval_steps_per_second": 3.309,
+      "step": 1200
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 72.01395416259766,
+      "learning_rate": 2.823383084577115e-06,
+      "loss": 0.8075,
+      "step": 1225
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 83.60379791259766,
+      "learning_rate": 2.7789623312011375e-06,
+      "loss": 0.8068,
+      "step": 1250
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 51.42044448852539,
+      "learning_rate": 2.7345415778251598e-06,
+      "loss": 0.7549,
+      "step": 1275
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 44.68650436401367,
+      "learning_rate": 2.690120824449183e-06,
+      "loss": 0.7359,
+      "step": 1300
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8034,
+      "eval_f1_macro": 0.6975565105528009,
+      "eval_f1_micro": 0.8034,
+      "eval_loss": 0.7253593802452087,
+      "eval_runtime": 47.5217,
+      "eval_samples_per_second": 210.43,
+      "eval_steps_per_second": 3.304,
+      "step": 1300
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 56.39244842529297,
+      "learning_rate": 2.6457000710732055e-06,
+      "loss": 0.7201,
+      "step": 1325
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 70.84113311767578,
+      "learning_rate": 2.601279317697228e-06,
+      "loss": 0.7346,
+      "step": 1350
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 69.2415542602539,
+      "learning_rate": 2.5568585643212513e-06,
+      "loss": 0.6693,
+      "step": 1375
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 50.06897735595703,
+      "learning_rate": 2.512437810945274e-06,
+      "loss": 0.6525,
+      "step": 1400
+    },
+    {
+      "epoch": 1.49,
+      "eval_accuracy": 0.8065,
+      "eval_f1_macro": 0.7050317065636842,
+      "eval_f1_micro": 0.8065,
+      "eval_loss": 0.7072968482971191,
+      "eval_runtime": 47.4893,
+      "eval_samples_per_second": 210.574,
+      "eval_steps_per_second": 3.306,
+      "step": 1400
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 45.797054290771484,
+      "learning_rate": 2.4680170575692966e-06,
+      "loss": 0.7271,
+      "step": 1425
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 46.304473876953125,
+      "learning_rate": 2.4235963041933193e-06,
+      "loss": 0.8033,
+      "step": 1450
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 80.502685546875,
+      "learning_rate": 2.379175550817342e-06,
+      "loss": 0.7464,
+      "step": 1475
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 89.19364166259766,
+      "learning_rate": 2.3347547974413646e-06,
+      "loss": 0.7359,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8033,
+      "eval_f1_macro": 0.6948589139841357,
+      "eval_f1_micro": 0.8033,
+      "eval_loss": 0.720634400844574,
+      "eval_runtime": 47.454,
+      "eval_samples_per_second": 210.73,
+      "eval_steps_per_second": 3.308,
+      "step": 1500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 36.966548919677734,
+      "learning_rate": 2.2903340440653877e-06,
+      "loss": 0.697,
+      "step": 1525
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 37.08382797241211,
+      "learning_rate": 2.24591329068941e-06,
+      "loss": 0.6736,
+      "step": 1550
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 37.009403228759766,
+      "learning_rate": 2.201492537313433e-06,
+      "loss": 0.6441,
+      "step": 1575
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 29.34271240234375,
+      "learning_rate": 2.1570717839374557e-06,
+      "loss": 0.7291,
+      "step": 1600
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.8089,
+      "eval_f1_macro": 0.7065968196696667,
+      "eval_f1_micro": 0.8089,
+      "eval_loss": 0.6923750042915344,
+      "eval_runtime": 47.4715,
+      "eval_samples_per_second": 210.653,
+      "eval_steps_per_second": 3.307,
+      "step": 1600
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 43.28564453125,
+      "learning_rate": 2.112651030561479e-06,
+      "loss": 0.7153,
+      "step": 1625
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 27.64020347595215,
+      "learning_rate": 2.068230277185501e-06,
+      "loss": 0.6721,
+      "step": 1650
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 46.75600051879883,
+      "learning_rate": 2.023809523809524e-06,
+      "loss": 0.6566,
+      "step": 1675
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 34.07355499267578,
+      "learning_rate": 1.979388770433547e-06,
+      "loss": 0.7072,
+      "step": 1700
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 0.8102,
+      "eval_f1_macro": 0.7070176051219198,
+      "eval_f1_micro": 0.8102,
+      "eval_loss": 0.6763781309127808,
+      "eval_runtime": 47.526,
+      "eval_samples_per_second": 210.411,
+      "eval_steps_per_second": 3.303,
+      "step": 1700
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 43.36367416381836,
+      "learning_rate": 1.9349680170575695e-06,
+      "loss": 0.7289,
+      "step": 1725
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 34.61235046386719,
+      "learning_rate": 1.8905472636815921e-06,
+      "loss": 0.6787,
+      "step": 1750
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 44.31460952758789,
+      "learning_rate": 1.846126510305615e-06,
+      "loss": 0.7188,
+      "step": 1775
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 53.3677864074707,
+      "learning_rate": 1.8017057569296375e-06,
+      "loss": 0.6688,
+      "step": 1800
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.814,
+      "eval_f1_macro": 0.7128286594201773,
+      "eval_f1_micro": 0.814,
+      "eval_loss": 0.6546062231063843,
+      "eval_runtime": 47.5163,
+      "eval_samples_per_second": 210.454,
+      "eval_steps_per_second": 3.304,
+      "step": 1800
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 37.4492073059082,
+      "learning_rate": 1.7572850035536603e-06,
+      "loss": 0.7817,
+      "step": 1825
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 41.068538665771484,
+      "learning_rate": 1.7128642501776832e-06,
+      "loss": 0.7044,
+      "step": 1850
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 67.96875762939453,
+      "learning_rate": 1.668443496801706e-06,
+      "loss": 0.5948,
+      "step": 1875
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 51.58526611328125,
+      "learning_rate": 1.6240227434257286e-06,
+      "loss": 0.6253,
+      "step": 1900
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 0.8158,
+      "eval_f1_macro": 0.7058775462036815,
+      "eval_f1_micro": 0.8158,
+      "eval_loss": 0.6505562663078308,
+      "eval_runtime": 47.3282,
+      "eval_samples_per_second": 211.29,
+      "eval_steps_per_second": 3.317,
+      "step": 1900
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 45.662109375,
+      "learning_rate": 1.5796019900497514e-06,
+      "loss": 0.645,
+      "step": 1925
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 66.76183319091797,
+      "learning_rate": 1.5351812366737743e-06,
+      "loss": 0.6412,
+      "step": 1950
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 56.84629440307617,
+      "learning_rate": 1.4907604832977968e-06,
+      "loss": 0.6511,
+      "step": 1975
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 53.2021484375,
+      "learning_rate": 1.4463397299218196e-06,
+      "loss": 0.6044,
+      "step": 2000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8155,
+      "eval_f1_macro": 0.716530877903978,
+      "eval_f1_micro": 0.8155,
+      "eval_loss": 0.6602968573570251,
+      "eval_runtime": 47.473,
+      "eval_samples_per_second": 210.646,
+      "eval_steps_per_second": 3.307,
+      "step": 2000
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 71.7922134399414,
+      "learning_rate": 1.4019189765458423e-06,
+      "loss": 0.6381,
+      "step": 2025
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 32.50026321411133,
+      "learning_rate": 1.357498223169865e-06,
+      "loss": 0.6622,
+      "step": 2050
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 50.483219146728516,
+      "learning_rate": 1.3130774697938879e-06,
+      "loss": 0.6165,
+      "step": 2075
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 40.9278450012207,
+      "learning_rate": 1.2686567164179105e-06,
+      "loss": 0.6414,
+      "step": 2100
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8138,
+      "eval_f1_macro": 0.7185019905510756,
+      "eval_f1_micro": 0.8138,
+      "eval_loss": 0.6434906125068665,
+      "eval_runtime": 47.5169,
+      "eval_samples_per_second": 210.452,
+      "eval_steps_per_second": 3.304,
+      "step": 2100
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 40.769439697265625,
+      "learning_rate": 1.2242359630419332e-06,
+      "loss": 0.619,
+      "step": 2125
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 23.210596084594727,
+      "learning_rate": 1.179815209665956e-06,
+      "loss": 0.6168,
+      "step": 2150
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 43.848052978515625,
+      "learning_rate": 1.1353944562899787e-06,
+      "loss": 0.5244,
+      "step": 2175
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 40.81973648071289,
+      "learning_rate": 1.0909737029140014e-06,
+      "loss": 0.6115,
+      "step": 2200
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.8216,
+      "eval_f1_macro": 0.727953382739938,
+      "eval_f1_micro": 0.8216,
+      "eval_loss": 0.63681560754776,
+      "eval_runtime": 47.4723,
+      "eval_samples_per_second": 210.649,
+      "eval_steps_per_second": 3.307,
+      "step": 2200
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 28.034944534301758,
+      "learning_rate": 1.0465529495380243e-06,
+      "loss": 0.5613,
+      "step": 2225
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 68.5925521850586,
+      "learning_rate": 1.002132196162047e-06,
+      "loss": 0.5987,
+      "step": 2250
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 30.3986759185791,
+      "learning_rate": 9.577114427860696e-07,
+      "loss": 0.6119,
+      "step": 2275
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 38.481117248535156,
+      "learning_rate": 9.132906894100925e-07,
+      "loss": 0.6331,
+      "step": 2300
+    },
+    {
+      "epoch": 2.45,
+      "eval_accuracy": 0.8208,
+      "eval_f1_macro": 0.7251441527998863,
+      "eval_f1_micro": 0.8208,
+      "eval_loss": 0.6273249983787537,
+      "eval_runtime": 47.475,
+      "eval_samples_per_second": 210.637,
+      "eval_steps_per_second": 3.307,
+      "step": 2300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 52.91291427612305,
+      "learning_rate": 8.688699360341152e-07,
+      "loss": 0.6261,
+      "step": 2325
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 43.07246398925781,
+      "learning_rate": 8.24449182658138e-07,
+      "loss": 0.6191,
+      "step": 2350
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 40.49489974975586,
+      "learning_rate": 7.800284292821607e-07,
+      "loss": 0.5856,
+      "step": 2375
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 30.555904388427734,
+      "learning_rate": 7.356076759061834e-07,
+      "loss": 0.608,
+      "step": 2400
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8232,
+      "eval_f1_macro": 0.7285501243647127,
+      "eval_f1_micro": 0.8232,
+      "eval_loss": 0.6251906156539917,
+      "eval_runtime": 47.5564,
+      "eval_samples_per_second": 210.277,
+      "eval_steps_per_second": 3.301,
+      "step": 2400
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 175.31057739257812,
+      "learning_rate": 6.911869225302062e-07,
+      "loss": 0.6802,
+      "step": 2425
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 30.15215301513672,
+      "learning_rate": 6.467661691542289e-07,
+      "loss": 0.6307,
+      "step": 2450
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 34.21811294555664,
+      "learning_rate": 6.023454157782517e-07,
+      "loss": 0.6029,
+      "step": 2475
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 56.559364318847656,
+      "learning_rate": 5.579246624022743e-07,
+      "loss": 0.5879,
+      "step": 2500
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.8241,
+      "eval_f1_macro": 0.7307624039691639,
+      "eval_f1_micro": 0.8241,
+      "eval_loss": 0.6171656250953674,
+      "eval_runtime": 47.4737,
+      "eval_samples_per_second": 210.643,
+      "eval_steps_per_second": 3.307,
+      "step": 2500
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 43.20689392089844,
+      "learning_rate": 5.135039090262971e-07,
+      "loss": 0.5858,
+      "step": 2525
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 46.331817626953125,
+      "learning_rate": 4.690831556503199e-07,
+      "loss": 0.5959,
+      "step": 2550
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 36.399810791015625,
+      "learning_rate": 4.2466240227434256e-07,
+      "loss": 0.6069,
+      "step": 2575
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 79.88939666748047,
+      "learning_rate": 3.8024164889836533e-07,
+      "loss": 0.6056,
+      "step": 2600
+    },
+    {
+      "epoch": 2.77,
+      "eval_accuracy": 0.8257,
+      "eval_f1_macro": 0.7346364945364393,
+      "eval_f1_micro": 0.8257,
+      "eval_loss": 0.6157156229019165,
+      "eval_runtime": 47.4846,
+      "eval_samples_per_second": 210.595,
+      "eval_steps_per_second": 3.306,
+      "step": 2600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 49.164161682128906,
+      "learning_rate": 3.358208955223881e-07,
+      "loss": 0.5675,
+      "step": 2625
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 46.98076248168945,
+      "learning_rate": 2.914001421464108e-07,
+      "loss": 0.6607,
+      "step": 2650
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 23.488380432128906,
+      "learning_rate": 2.4697938877043354e-07,
+      "loss": 0.5866,
+      "step": 2675
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 31.710861206054688,
+      "learning_rate": 2.0255863539445632e-07,
+      "loss": 0.5711,
+      "step": 2700
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8253,
+      "eval_f1_macro": 0.7341228101010588,
+      "eval_f1_micro": 0.8253,
+      "eval_loss": 0.6129437685012817,
+      "eval_runtime": 47.5391,
+      "eval_samples_per_second": 210.353,
+      "eval_steps_per_second": 3.303,
+      "step": 2700
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 33.91932678222656,
+      "learning_rate": 1.5813788201847903e-07,
+      "loss": 0.5565,
+      "step": 2725
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 35.29643630981445,
+      "learning_rate": 1.1371712864250178e-07,
+      "loss": 0.5793,
+      "step": 2750
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 33.85700988769531,
+      "learning_rate": 6.929637526652453e-08,
+      "loss": 0.5425,
+      "step": 2775
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 40.65436935424805,
+      "learning_rate": 2.4875621890547265e-08,
+      "loss": 0.5802,
+      "step": 2800
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.826,
+      "eval_f1_macro": 0.7355084015446216,
+      "eval_f1_micro": 0.826,
+      "eval_loss": 0.6120218634605408,
+      "eval_runtime": 47.528,
+      "eval_samples_per_second": 210.402,
+      "eval_steps_per_second": 3.303,
+      "step": 2800
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2814,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 3.4650610733154304e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

microsoft/phi_2_ledgar/checkpoint-2800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9726a6f1cd618b1c6756600627232628ca181750693975f1aa65486662e1136c
+size 5944

microsoft/phi_2_ledgar/checkpoint-2800/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

microsoft/phi_2_ledgar/checkpoint-2800/zero_to_fp32.py ADDED Viewed

	@@ -0,0 +1,604 @@

+#!/usr/bin/env python
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+# DeepSpeed Team
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example: python zero_to_fp32.py . pytorch_model.bin
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+from collections import OrderedDict
+from dataclasses import dataclass
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+debug = 0
+# load to cpu
+device = torch.device('cpu')
+def atoi(text):
+    return int(text) if text.isdigit() else text
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+    return file
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+    return ckpt_files
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device)
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+        ds_version = state_dict.get(DS_VERSION, None)
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+    return zero_model_states
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in files:
+        state_dict = torch.load(f, map_location=device)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+    if not ZERO_STAGE in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+    if type(world_size) is list:
+        world_size = max(world_size)
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+    if zero_stage <= 2:
+        fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    elif zero_stage == 3:
+        # if there is more than one param group, there will be multiple flattened tensors - one
+        # flattened tensor per group - for simplicity merge them into a single tensor
+        #
+        # XXX: could make the script more memory efficient for when there are multiple groups - it
+        # will require matching the sub-lists of param_shapes for each param group flattened tensor
+        fp32_flat_groups = [
+            torch.cat(state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key], 0) for i in range(len(state_dicts))
+        ]
+    return zero_stage, world_size, fp32_flat_groups
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+    model_files = get_model_state_files(ds_checkpoint_dir)
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        state_dict[name] = frozen_param_fragments[name]
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = fp32_flat_groups[0].numel() * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    for name, shape in param_shapes.items():
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+        # XXX: memory usage doubles here
+        state_dict[name] = torch.cat(
+            tuple(fp32_flat_groups[i].narrow(0, offset, partitioned_numel) for i in range(world_size)),
+            0).narrow(0, 0, unpartitioned_numel).view(shape)
+        offset += partitioned_numel
+    offset *= world_size
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    Returns:
+        - pytorch ``state_dict``
+    Note: this approach may not work if your application doesn't have sufficient free CPU memory and
+    you may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag, exclude_frozen_parameters)
+    print(f"Saving fp32 state dict to {output_file}")
+    torch.save(state_dict, output_file)
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+    Returns:
+        - ``model`: modified model
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    """
+    logger.info(f"Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+    logger.info(f"Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+    return model
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument(
+        "output_file",
+        type=str,
+        help="path to the pytorch fp32 state_dict output file (e.g. path/checkpoint-12/pytorch_model.bin)")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+    debug = args.debug
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_file,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)

microsoft/phi_2_ledgar/config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "_name_or_path": "microsoft/phi-2",
+  "architectures": [
+    "PhiForSequenceClassification"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/phi-2--configuration_phi.PhiConfig",
+    "AutoModelForCausalLM": "microsoft/phi-2--modeling_phi.PhiForCausalLM"
+  },
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 50256,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu_new",
+  "hidden_size": 2560,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "23",
+    "17": "24",
+    "18": "25",
+    "19": "26",
+    "20": "27",
+    "21": "28",
+    "22": "29",
+    "23": "3",
+    "24": "30",
+    "25": "31",
+    "26": "32",
+    "27": "33",
+    "28": "34",
+    "29": "35",
+    "30": "36",
+    "31": "37",
+    "32": "38",
+    "33": "39",
+    "34": "4",
+    "35": "40",
+    "36": "41",
+    "37": "42",
+    "38": "43",
+    "39": "44",
+    "40": "45",
+    "41": "46",
+    "42": "47",
+    "43": "48",
+    "44": "49",
+    "45": "5",
+    "46": "50",
+    "47": "51",
+    "48": "52",
+    "49": "53",
+    "50": "54",
+    "51": "55",
+    "52": "56",
+    "53": "57",
+    "54": "58",
+    "55": "59",
+    "56": "6",
+    "57": "60",
+    "58": "61",
+    "59": "62",
+    "60": "63",
+    "61": "64",
+    "62": "65",
+    "63": "66",
+    "64": "67",
+    "65": "68",
+    "66": "69",
+    "67": "7",
+    "68": "70",
+    "69": "71",
+    "70": "72",
+    "71": "73",
+    "72": "74",
+    "73": "75",
+    "74": "76",
+    "75": "77",
+    "76": "78",
+    "77": "79",
+    "78": "8",
+    "79": "80",
+    "80": "81",
+    "81": "82",
+    "82": "83",
+    "83": "84",
+    "84": "85",
+    "85": "86",
+    "86": "87",
+    "87": "88",
+    "88": "89",
+    "89": "9",
+    "90": "90",
+    "91": "91",
+    "92": "92",
+    "93": "93",
+    "94": "94",
+    "95": "95",
+    "96": "96",
+    "97": "97",
+    "98": "98",
+    "99": "99"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 10240,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "23": 16,
+    "24": 17,
+    "25": 18,
+    "26": 19,
+    "27": 20,
+    "28": 21,
+    "29": 22,
+    "3": 23,
+    "30": 24,
+    "31": 25,
+    "32": 26,
+    "33": 27,
+    "34": 28,
+    "35": 29,
+    "36": 30,
+    "37": 31,
+    "38": 32,
+    "39": 33,
+    "4": 34,
+    "40": 35,
+    "41": 36,
+    "42": 37,
+    "43": 38,
+    "44": 39,
+    "45": 40,
+    "46": 41,
+    "47": 42,
+    "48": 43,
+    "49": 44,
+    "5": 45,
+    "50": 46,
+    "51": 47,
+    "52": 48,
+    "53": 49,
+    "54": 50,
+    "55": 51,
+    "56": 52,
+    "57": 53,
+    "58": 54,
+    "59": 55,
+    "6": 56,
+    "60": 57,
+    "61": 58,
+    "62": 59,
+    "63": 60,
+    "64": 61,
+    "65": 62,
+    "66": 63,
+    "67": 64,
+    "68": 65,
+    "69": 66,
+    "7": 67,
+    "70": 68,
+    "71": 69,
+    "72": 70,
+    "73": 71,
+    "74": 72,
+    "75": 73,
+    "76": 74,
+    "77": 75,
+    "78": 76,
+    "79": 77,
+    "8": 78,
+    "80": 79,
+    "81": 80,
+    "82": 81,
+    "83": 82,
+    "84": 83,
+    "85": 84,
+    "86": 85,
+    "87": 86,
+    "88": 87,
+    "89": 88,
+    "9": 89,
+    "90": 90,
+    "91": 91,
+    "92": 92,
+    "93": 93,
+    "94": 94,
+    "95": 95,
+    "96": 96,
+    "97": 97,
+    "98": 98,
+    "99": 99
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "phi",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 50256,
+  "partial_rotary_factor": 0.4,
+  "problem_type": "single_label_classification",
+  "qk_layernorm": false,
+  "resid_pdrop": 0.1,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.39.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50295
+}

microsoft/phi_2_ledgar/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.826,
+    "eval_f1_macro": 0.7355084015446216,
+    "eval_f1_micro": 0.826,
+    "eval_loss": 0.6120218634605408,
+    "eval_runtime": 46.3584,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 215.711,
+    "eval_steps_per_second": 3.387
+}

microsoft/phi_2_ledgar/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

microsoft/phi_2_ledgar/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae73b51441793d522ad559358cf9079e99146b65973000a15160116545e8f7b4
+size 4990951248

microsoft/phi_2_ledgar/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a147716a17a72dea3519e435ba913dfbe27494f393627a3ba1562fd349409a81
+size 302098480

microsoft/phi_2_ledgar/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,459 @@

+{
+  "metadata": {
+    "total_size": 5292999680
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.final_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.final_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "score.weight": "model-00002-of-00002.safetensors"
+  }
+}

microsoft/phi_2_ledgar/run.log ADDED Viewed

	@@ -0,0 +1,4 @@

+03/15/2024 22:38:52 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 22:38:52 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 22:39:04 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.
+03/15/2024 22:39:04 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.

microsoft/phi_2_ledgar/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

microsoft/phi_2_ledgar/test_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "test_accuracy": 0.8311,
+    "test_f1_macro": 0.7306467958794756,
+    "test_f1_micro": 0.8311,
+    "test_loss": 0.6224531531333923,
+    "test_runtime": 47.3558,
+    "test_samples_per_second": 211.168,
+    "test_steps_per_second": 3.315
+}

microsoft/phi_2_ledgar/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

microsoft/phi_2_ledgar/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,324 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50257": {
+      "content": "                               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "                         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50280": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50281": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50282": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50283": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50284": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50285": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50286": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50287": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50288": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50289": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50290": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50291": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50292": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50293": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50294": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "CodeGenTokenizer",
+  "unk_token": "<|endoftext|>"
+}

microsoft/phi_2_ledgar/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.9835220694796108,
+    "train_runtime": 6489.4436,
+    "train_samples": 60000,
+    "train_samples_per_second": 27.737,
+    "train_steps_per_second": 0.434
+}

microsoft/phi_2_ledgar/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1122 @@

+{
+  "best_metric": 0.6120218634605408,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/microsoft/phi_2_ledgar/checkpoint-2800",
+  "epoch": 3.0,
+  "eval_steps": 100,
+  "global_step": 2814,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 278.5504455566406,
+      "learning_rate": 4.9555792466240235e-06,
+      "loss": 4.8556,
+      "step": 25
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 332.1685485839844,
+      "learning_rate": 4.911158493248046e-06,
+      "loss": 4.2381,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 238.07369995117188,
+      "learning_rate": 4.866737739872069e-06,
+      "loss": 4.0038,
+      "step": 75
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 152.84237670898438,
+      "learning_rate": 4.822316986496091e-06,
+      "loss": 3.6034,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.337,
+      "eval_f1_macro": 0.12358690595802334,
+      "eval_f1_micro": 0.337,
+      "eval_loss": 3.211400032043457,
+      "eval_runtime": 47.3513,
+      "eval_samples_per_second": 211.188,
+      "eval_steps_per_second": 3.316,
+      "step": 100
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 143.5316619873047,
+      "learning_rate": 4.777896233120114e-06,
+      "loss": 3.1831,
+      "step": 125
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 152.6884765625,
+      "learning_rate": 4.733475479744136e-06,
+      "loss": 2.9609,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 116.26598358154297,
+      "learning_rate": 4.6890547263681595e-06,
+      "loss": 2.4773,
+      "step": 175
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 102.64595031738281,
+      "learning_rate": 4.644633972992183e-06,
+      "loss": 2.2678,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.5623,
+      "eval_f1_macro": 0.3331251034728065,
+      "eval_f1_micro": 0.5623,
+      "eval_loss": 1.9837249517440796,
+      "eval_runtime": 47.4491,
+      "eval_samples_per_second": 210.752,
+      "eval_steps_per_second": 3.309,
+      "step": 200
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 107.59564208984375,
+      "learning_rate": 4.600213219616206e-06,
+      "loss": 2.0387,
+      "step": 225
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 129.82203674316406,
+      "learning_rate": 4.555792466240228e-06,
+      "loss": 1.7772,
+      "step": 250
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 106.58737182617188,
+      "learning_rate": 4.51137171286425e-06,
+      "loss": 1.5959,
+      "step": 275
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 219.3987274169922,
+      "learning_rate": 4.466950959488273e-06,
+      "loss": 1.4927,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.6712,
+      "eval_f1_macro": 0.48839865479998884,
+      "eval_f1_micro": 0.6712,
+      "eval_loss": 1.3369125127792358,
+      "eval_runtime": 47.4603,
+      "eval_samples_per_second": 210.702,
+      "eval_steps_per_second": 3.308,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 62.788822174072266,
+      "learning_rate": 4.422530206112296e-06,
+      "loss": 1.4203,
+      "step": 325
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 63.6900634765625,
+      "learning_rate": 4.378109452736319e-06,
+      "loss": 1.2841,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 75.33383178710938,
+      "learning_rate": 4.333688699360342e-06,
+      "loss": 1.1642,
+      "step": 375
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 89.42117309570312,
+      "learning_rate": 4.289267945984365e-06,
+      "loss": 1.1518,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "eval_accuracy": 0.7243,
+      "eval_f1_macro": 0.5613056174383468,
+      "eval_f1_micro": 0.7243,
+      "eval_loss": 1.052606225013733,
+      "eval_runtime": 47.3838,
+      "eval_samples_per_second": 211.043,
+      "eval_steps_per_second": 3.313,
+      "step": 400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 74.13993072509766,
+      "learning_rate": 4.244847192608387e-06,
+      "loss": 1.135,
+      "step": 425
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 80.19258117675781,
+      "learning_rate": 4.200426439232409e-06,
+      "loss": 1.176,
+      "step": 450
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 70.83063507080078,
+      "learning_rate": 4.156005685856432e-06,
+      "loss": 1.1386,
+      "step": 475
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 109.83588409423828,
+      "learning_rate": 4.1115849324804554e-06,
+      "loss": 1.1041,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.7521,
+      "eval_f1_macro": 0.6206030644902993,
+      "eval_f1_micro": 0.7521,
+      "eval_loss": 0.9304812550544739,
+      "eval_runtime": 47.4284,
+      "eval_samples_per_second": 210.844,
+      "eval_steps_per_second": 3.31,
+      "step": 500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 51.40995788574219,
+      "learning_rate": 4.067164179104478e-06,
+      "loss": 0.9872,
+      "step": 525
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 75.6723861694336,
+      "learning_rate": 4.022743425728501e-06,
+      "loss": 0.9832,
+      "step": 550
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 86.0229721069336,
+      "learning_rate": 3.978322672352524e-06,
+      "loss": 0.9485,
+      "step": 575
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 113.96233367919922,
+      "learning_rate": 3.933901918976546e-06,
+      "loss": 1.0144,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.7574,
+      "eval_f1_macro": 0.6294250374822845,
+      "eval_f1_micro": 0.7574,
+      "eval_loss": 0.9067593812942505,
+      "eval_runtime": 47.4873,
+      "eval_samples_per_second": 210.583,
+      "eval_steps_per_second": 3.306,
+      "step": 600
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 77.80159759521484,
+      "learning_rate": 3.889481165600569e-06,
+      "loss": 1.0435,
+      "step": 625
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 77.97108459472656,
+      "learning_rate": 3.8450604122245914e-06,
+      "loss": 0.9593,
+      "step": 650
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 68.20707702636719,
+      "learning_rate": 3.8006396588486145e-06,
+      "loss": 0.9818,
+      "step": 675
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 103.11054229736328,
+      "learning_rate": 3.756218905472637e-06,
+      "loss": 0.9892,
+      "step": 700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.7669,
+      "eval_f1_macro": 0.642987522646621,
+      "eval_f1_micro": 0.7669,
+      "eval_loss": 0.8712124824523926,
+      "eval_runtime": 47.4988,
+      "eval_samples_per_second": 210.531,
+      "eval_steps_per_second": 3.305,
+      "step": 700
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 88.3270263671875,
+      "learning_rate": 3.71179815209666e-06,
+      "loss": 0.8937,
+      "step": 725
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 67.907958984375,
+      "learning_rate": 3.667377398720683e-06,
+      "loss": 0.9788,
+      "step": 750
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 68.60499572753906,
+      "learning_rate": 3.622956645344705e-06,
+      "loss": 0.9459,
+      "step": 775
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 71.7964859008789,
+      "learning_rate": 3.578535891968728e-06,
+      "loss": 0.9972,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.7675,
+      "eval_f1_macro": 0.6369038817239384,
+      "eval_f1_micro": 0.7675,
+      "eval_loss": 0.8591374754905701,
+      "eval_runtime": 47.4288,
+      "eval_samples_per_second": 210.842,
+      "eval_steps_per_second": 3.31,
+      "step": 800
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 99.17341613769531,
+      "learning_rate": 3.534115138592751e-06,
+      "loss": 0.9663,
+      "step": 825
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 198.6553955078125,
+      "learning_rate": 3.4896943852167736e-06,
+      "loss": 0.8617,
+      "step": 850
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 82.58099365234375,
+      "learning_rate": 3.4452736318407963e-06,
+      "loss": 0.8735,
+      "step": 875
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 63.692623138427734,
+      "learning_rate": 3.4008528784648194e-06,
+      "loss": 0.8439,
+      "step": 900
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7848,
+      "eval_f1_macro": 0.6834829058415216,
+      "eval_f1_micro": 0.7848,
+      "eval_loss": 0.7894874811172485,
+      "eval_runtime": 47.4489,
+      "eval_samples_per_second": 210.753,
+      "eval_steps_per_second": 3.309,
+      "step": 900
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 78.88030242919922,
+      "learning_rate": 3.3564321250888416e-06,
+      "loss": 0.8582,
+      "step": 925
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 45.49142837524414,
+      "learning_rate": 3.3120113717128643e-06,
+      "loss": 0.8621,
+      "step": 950
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 37.98048400878906,
+      "learning_rate": 3.2675906183368874e-06,
+      "loss": 0.8396,
+      "step": 975
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 37.72966384887695,
+      "learning_rate": 3.22316986496091e-06,
+      "loss": 0.7409,
+      "step": 1000
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.7944,
+      "eval_f1_macro": 0.6808979493082343,
+      "eval_f1_micro": 0.7944,
+      "eval_loss": 0.7614499926567078,
+      "eval_runtime": 47.4823,
+      "eval_samples_per_second": 210.605,
+      "eval_steps_per_second": 3.306,
+      "step": 1000
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 57.926578521728516,
+      "learning_rate": 3.1787491115849327e-06,
+      "loss": 0.7475,
+      "step": 1025
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 86.9485855102539,
+      "learning_rate": 3.1343283582089558e-06,
+      "loss": 0.7197,
+      "step": 1050
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 54.83045959472656,
+      "learning_rate": 3.0899076048329785e-06,
+      "loss": 0.8314,
+      "step": 1075
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 68.1777114868164,
+      "learning_rate": 3.0454868514570007e-06,
+      "loss": 0.7627,
+      "step": 1100
+    },
+    {
+      "epoch": 1.17,
+      "eval_accuracy": 0.7946,
+      "eval_f1_macro": 0.6809735037021439,
+      "eval_f1_micro": 0.7946,
+      "eval_loss": 0.7538655996322632,
+      "eval_runtime": 47.4181,
+      "eval_samples_per_second": 210.89,
+      "eval_steps_per_second": 3.311,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 31.217445373535156,
+      "learning_rate": 3.0010660980810234e-06,
+      "loss": 0.7501,
+      "step": 1125
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 38.76744842529297,
+      "learning_rate": 2.9566453447050464e-06,
+      "loss": 0.6884,
+      "step": 1150
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 50.481388092041016,
+      "learning_rate": 2.912224591329069e-06,
+      "loss": 0.6911,
+      "step": 1175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 54.91836929321289,
+      "learning_rate": 2.867803837953092e-06,
+      "loss": 0.8065,
+      "step": 1200
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.8008,
+      "eval_f1_macro": 0.6945223141031294,
+      "eval_f1_micro": 0.8008,
+      "eval_loss": 0.7289281487464905,
+      "eval_runtime": 47.4458,
+      "eval_samples_per_second": 210.767,
+      "eval_steps_per_second": 3.309,
+      "step": 1200
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 72.01395416259766,
+      "learning_rate": 2.823383084577115e-06,
+      "loss": 0.8075,
+      "step": 1225
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 83.60379791259766,
+      "learning_rate": 2.7789623312011375e-06,
+      "loss": 0.8068,
+      "step": 1250
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 51.42044448852539,
+      "learning_rate": 2.7345415778251598e-06,
+      "loss": 0.7549,
+      "step": 1275
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 44.68650436401367,
+      "learning_rate": 2.690120824449183e-06,
+      "loss": 0.7359,
+      "step": 1300
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8034,
+      "eval_f1_macro": 0.6975565105528009,
+      "eval_f1_micro": 0.8034,
+      "eval_loss": 0.7253593802452087,
+      "eval_runtime": 47.5217,
+      "eval_samples_per_second": 210.43,
+      "eval_steps_per_second": 3.304,
+      "step": 1300
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 56.39244842529297,
+      "learning_rate": 2.6457000710732055e-06,
+      "loss": 0.7201,
+      "step": 1325
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 70.84113311767578,
+      "learning_rate": 2.601279317697228e-06,
+      "loss": 0.7346,
+      "step": 1350
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 69.2415542602539,
+      "learning_rate": 2.5568585643212513e-06,
+      "loss": 0.6693,
+      "step": 1375
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 50.06897735595703,
+      "learning_rate": 2.512437810945274e-06,
+      "loss": 0.6525,
+      "step": 1400
+    },
+    {
+      "epoch": 1.49,
+      "eval_accuracy": 0.8065,
+      "eval_f1_macro": 0.7050317065636842,
+      "eval_f1_micro": 0.8065,
+      "eval_loss": 0.7072968482971191,
+      "eval_runtime": 47.4893,
+      "eval_samples_per_second": 210.574,
+      "eval_steps_per_second": 3.306,
+      "step": 1400
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 45.797054290771484,
+      "learning_rate": 2.4680170575692966e-06,
+      "loss": 0.7271,
+      "step": 1425
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 46.304473876953125,
+      "learning_rate": 2.4235963041933193e-06,
+      "loss": 0.8033,
+      "step": 1450
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 80.502685546875,
+      "learning_rate": 2.379175550817342e-06,
+      "loss": 0.7464,
+      "step": 1475
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 89.19364166259766,
+      "learning_rate": 2.3347547974413646e-06,
+      "loss": 0.7359,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8033,
+      "eval_f1_macro": 0.6948589139841357,
+      "eval_f1_micro": 0.8033,
+      "eval_loss": 0.720634400844574,
+      "eval_runtime": 47.454,
+      "eval_samples_per_second": 210.73,
+      "eval_steps_per_second": 3.308,
+      "step": 1500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 36.966548919677734,
+      "learning_rate": 2.2903340440653877e-06,
+      "loss": 0.697,
+      "step": 1525
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 37.08382797241211,
+      "learning_rate": 2.24591329068941e-06,
+      "loss": 0.6736,
+      "step": 1550
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 37.009403228759766,
+      "learning_rate": 2.201492537313433e-06,
+      "loss": 0.6441,
+      "step": 1575
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 29.34271240234375,
+      "learning_rate": 2.1570717839374557e-06,
+      "loss": 0.7291,
+      "step": 1600
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.8089,
+      "eval_f1_macro": 0.7065968196696667,
+      "eval_f1_micro": 0.8089,
+      "eval_loss": 0.6923750042915344,
+      "eval_runtime": 47.4715,
+      "eval_samples_per_second": 210.653,
+      "eval_steps_per_second": 3.307,
+      "step": 1600
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 43.28564453125,
+      "learning_rate": 2.112651030561479e-06,
+      "loss": 0.7153,
+      "step": 1625
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 27.64020347595215,
+      "learning_rate": 2.068230277185501e-06,
+      "loss": 0.6721,
+      "step": 1650
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 46.75600051879883,
+      "learning_rate": 2.023809523809524e-06,
+      "loss": 0.6566,
+      "step": 1675
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 34.07355499267578,
+      "learning_rate": 1.979388770433547e-06,
+      "loss": 0.7072,
+      "step": 1700
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 0.8102,
+      "eval_f1_macro": 0.7070176051219198,
+      "eval_f1_micro": 0.8102,
+      "eval_loss": 0.6763781309127808,
+      "eval_runtime": 47.526,
+      "eval_samples_per_second": 210.411,
+      "eval_steps_per_second": 3.303,
+      "step": 1700
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 43.36367416381836,
+      "learning_rate": 1.9349680170575695e-06,
+      "loss": 0.7289,
+      "step": 1725
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 34.61235046386719,
+      "learning_rate": 1.8905472636815921e-06,
+      "loss": 0.6787,
+      "step": 1750
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 44.31460952758789,
+      "learning_rate": 1.846126510305615e-06,
+      "loss": 0.7188,
+      "step": 1775
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 53.3677864074707,
+      "learning_rate": 1.8017057569296375e-06,
+      "loss": 0.6688,
+      "step": 1800
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.814,
+      "eval_f1_macro": 0.7128286594201773,
+      "eval_f1_micro": 0.814,
+      "eval_loss": 0.6546062231063843,
+      "eval_runtime": 47.5163,
+      "eval_samples_per_second": 210.454,
+      "eval_steps_per_second": 3.304,
+      "step": 1800
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 37.4492073059082,
+      "learning_rate": 1.7572850035536603e-06,
+      "loss": 0.7817,
+      "step": 1825
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 41.068538665771484,
+      "learning_rate": 1.7128642501776832e-06,
+      "loss": 0.7044,
+      "step": 1850
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 67.96875762939453,
+      "learning_rate": 1.668443496801706e-06,
+      "loss": 0.5948,
+      "step": 1875
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 51.58526611328125,
+      "learning_rate": 1.6240227434257286e-06,
+      "loss": 0.6253,
+      "step": 1900
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 0.8158,
+      "eval_f1_macro": 0.7058775462036815,
+      "eval_f1_micro": 0.8158,
+      "eval_loss": 0.6505562663078308,
+      "eval_runtime": 47.3282,
+      "eval_samples_per_second": 211.29,
+      "eval_steps_per_second": 3.317,
+      "step": 1900
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 45.662109375,
+      "learning_rate": 1.5796019900497514e-06,
+      "loss": 0.645,
+      "step": 1925
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 66.76183319091797,
+      "learning_rate": 1.5351812366737743e-06,
+      "loss": 0.6412,
+      "step": 1950
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 56.84629440307617,
+      "learning_rate": 1.4907604832977968e-06,
+      "loss": 0.6511,
+      "step": 1975
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 53.2021484375,
+      "learning_rate": 1.4463397299218196e-06,
+      "loss": 0.6044,
+      "step": 2000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8155,
+      "eval_f1_macro": 0.716530877903978,
+      "eval_f1_micro": 0.8155,
+      "eval_loss": 0.6602968573570251,
+      "eval_runtime": 47.473,
+      "eval_samples_per_second": 210.646,
+      "eval_steps_per_second": 3.307,
+      "step": 2000
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 71.7922134399414,
+      "learning_rate": 1.4019189765458423e-06,
+      "loss": 0.6381,
+      "step": 2025
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 32.50026321411133,
+      "learning_rate": 1.357498223169865e-06,
+      "loss": 0.6622,
+      "step": 2050
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 50.483219146728516,
+      "learning_rate": 1.3130774697938879e-06,
+      "loss": 0.6165,
+      "step": 2075
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 40.9278450012207,
+      "learning_rate": 1.2686567164179105e-06,
+      "loss": 0.6414,
+      "step": 2100
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8138,
+      "eval_f1_macro": 0.7185019905510756,
+      "eval_f1_micro": 0.8138,
+      "eval_loss": 0.6434906125068665,
+      "eval_runtime": 47.5169,
+      "eval_samples_per_second": 210.452,
+      "eval_steps_per_second": 3.304,
+      "step": 2100
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 40.769439697265625,
+      "learning_rate": 1.2242359630419332e-06,
+      "loss": 0.619,
+      "step": 2125
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 23.210596084594727,
+      "learning_rate": 1.179815209665956e-06,
+      "loss": 0.6168,
+      "step": 2150
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 43.848052978515625,
+      "learning_rate": 1.1353944562899787e-06,
+      "loss": 0.5244,
+      "step": 2175
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 40.81973648071289,
+      "learning_rate": 1.0909737029140014e-06,
+      "loss": 0.6115,
+      "step": 2200
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.8216,
+      "eval_f1_macro": 0.727953382739938,
+      "eval_f1_micro": 0.8216,
+      "eval_loss": 0.63681560754776,
+      "eval_runtime": 47.4723,
+      "eval_samples_per_second": 210.649,
+      "eval_steps_per_second": 3.307,
+      "step": 2200
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 28.034944534301758,
+      "learning_rate": 1.0465529495380243e-06,
+      "loss": 0.5613,
+      "step": 2225
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 68.5925521850586,
+      "learning_rate": 1.002132196162047e-06,
+      "loss": 0.5987,
+      "step": 2250
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 30.3986759185791,
+      "learning_rate": 9.577114427860696e-07,
+      "loss": 0.6119,
+      "step": 2275
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 38.481117248535156,
+      "learning_rate": 9.132906894100925e-07,
+      "loss": 0.6331,
+      "step": 2300
+    },
+    {
+      "epoch": 2.45,
+      "eval_accuracy": 0.8208,
+      "eval_f1_macro": 0.7251441527998863,
+      "eval_f1_micro": 0.8208,
+      "eval_loss": 0.6273249983787537,
+      "eval_runtime": 47.475,
+      "eval_samples_per_second": 210.637,
+      "eval_steps_per_second": 3.307,
+      "step": 2300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 52.91291427612305,
+      "learning_rate": 8.688699360341152e-07,
+      "loss": 0.6261,
+      "step": 2325
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 43.07246398925781,
+      "learning_rate": 8.24449182658138e-07,
+      "loss": 0.6191,
+      "step": 2350
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 40.49489974975586,
+      "learning_rate": 7.800284292821607e-07,
+      "loss": 0.5856,
+      "step": 2375
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 30.555904388427734,
+      "learning_rate": 7.356076759061834e-07,
+      "loss": 0.608,
+      "step": 2400
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8232,
+      "eval_f1_macro": 0.7285501243647127,
+      "eval_f1_micro": 0.8232,
+      "eval_loss": 0.6251906156539917,
+      "eval_runtime": 47.5564,
+      "eval_samples_per_second": 210.277,
+      "eval_steps_per_second": 3.301,
+      "step": 2400
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 175.31057739257812,
+      "learning_rate": 6.911869225302062e-07,
+      "loss": 0.6802,
+      "step": 2425
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 30.15215301513672,
+      "learning_rate": 6.467661691542289e-07,
+      "loss": 0.6307,
+      "step": 2450
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 34.21811294555664,
+      "learning_rate": 6.023454157782517e-07,
+      "loss": 0.6029,
+      "step": 2475
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 56.559364318847656,
+      "learning_rate": 5.579246624022743e-07,
+      "loss": 0.5879,
+      "step": 2500
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.8241,
+      "eval_f1_macro": 0.7307624039691639,
+      "eval_f1_micro": 0.8241,
+      "eval_loss": 0.6171656250953674,
+      "eval_runtime": 47.4737,
+      "eval_samples_per_second": 210.643,
+      "eval_steps_per_second": 3.307,
+      "step": 2500
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 43.20689392089844,
+      "learning_rate": 5.135039090262971e-07,
+      "loss": 0.5858,
+      "step": 2525
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 46.331817626953125,
+      "learning_rate": 4.690831556503199e-07,
+      "loss": 0.5959,
+      "step": 2550
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 36.399810791015625,
+      "learning_rate": 4.2466240227434256e-07,
+      "loss": 0.6069,
+      "step": 2575
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 79.88939666748047,
+      "learning_rate": 3.8024164889836533e-07,
+      "loss": 0.6056,
+      "step": 2600
+    },
+    {
+      "epoch": 2.77,
+      "eval_accuracy": 0.8257,
+      "eval_f1_macro": 0.7346364945364393,
+      "eval_f1_micro": 0.8257,
+      "eval_loss": 0.6157156229019165,
+      "eval_runtime": 47.4846,
+      "eval_samples_per_second": 210.595,
+      "eval_steps_per_second": 3.306,
+      "step": 2600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 49.164161682128906,
+      "learning_rate": 3.358208955223881e-07,
+      "loss": 0.5675,
+      "step": 2625
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 46.98076248168945,
+      "learning_rate": 2.914001421464108e-07,
+      "loss": 0.6607,
+      "step": 2650
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 23.488380432128906,
+      "learning_rate": 2.4697938877043354e-07,
+      "loss": 0.5866,
+      "step": 2675
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 31.710861206054688,
+      "learning_rate": 2.0255863539445632e-07,
+      "loss": 0.5711,
+      "step": 2700
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8253,
+      "eval_f1_macro": 0.7341228101010588,
+      "eval_f1_micro": 0.8253,
+      "eval_loss": 0.6129437685012817,
+      "eval_runtime": 47.5391,
+      "eval_samples_per_second": 210.353,
+      "eval_steps_per_second": 3.303,
+      "step": 2700
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 33.91932678222656,
+      "learning_rate": 1.5813788201847903e-07,
+      "loss": 0.5565,
+      "step": 2725
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 35.29643630981445,
+      "learning_rate": 1.1371712864250178e-07,
+      "loss": 0.5793,
+      "step": 2750
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 33.85700988769531,
+      "learning_rate": 6.929637526652453e-08,
+      "loss": 0.5425,
+      "step": 2775
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 40.65436935424805,
+      "learning_rate": 2.4875621890547265e-08,
+      "loss": 0.5802,
+      "step": 2800
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.826,
+      "eval_f1_macro": 0.7355084015446216,
+      "eval_f1_micro": 0.826,
+      "eval_loss": 0.6120218634605408,
+      "eval_runtime": 47.528,
+      "eval_samples_per_second": 210.402,
+      "eval_steps_per_second": 3.303,
+      "step": 2800
+    },
+    {
+      "epoch": 3.0,
+      "step": 2814,
+      "total_flos": 3.482386379487314e+17,
+      "train_loss": 0.9835220694796108,
+      "train_runtime": 6489.4436,
+      "train_samples_per_second": 27.737,
+      "train_steps_per_second": 0.434
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2814,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 3.482386379487314e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

microsoft/phi_2_ledgar/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9726a6f1cd618b1c6756600627232628ca181750693975f1aa65486662e1136c
+size 5944

microsoft/phi_2_ledgar/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff