jonabur commited on Nov 8, 2023

Commit

2955bc8

1 Parent(s): c275bda

update to safetensors

Files changed (21) hide show

config.json +1 -1
generation_config.json +1 -1
pytorch_model-00001-of-00007.bin → model-00001-of-00014.safetensors +2 -2
pytorch_model-00002-of-00007.bin → model-00002-of-00014.safetensors +2 -2
pytorch_model-00003-of-00007.bin → model-00003-of-00014.safetensors +2 -2
pytorch_model-00004-of-00007.bin → model-00004-of-00014.safetensors +2 -2
model-00005-of-00014.safetensors +3 -0
model-00006-of-00014.safetensors +3 -0
model-00007-of-00014.safetensors +3 -0
model-00008-of-00014.safetensors +3 -0
model-00009-of-00014.safetensors +3 -0
model-00010-of-00014.safetensors +3 -0
model-00011-of-00014.safetensors +3 -0
model-00012-of-00014.safetensors +3 -0
model-00013-of-00014.safetensors +3 -0
model-00014-of-00014.safetensors +3 -0
model.safetensors.index.json +660 -0
pytorch_model-00005-of-00007.bin +0 -3
pytorch_model-00006-of-00007.bin +0 -3
pytorch_model-00007-of-00007.bin +0 -3
pytorch_model.bin.index.json +0 -661

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "pretraining_tp": 2,
   "slow_but_exact": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.33.0",
   "use_cache": true,
   "vocab_size": 128000
 }

   "pretraining_tp": 2,
   "slow_but_exact": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.35.0",
   "use_cache": true,
   "vocab_size": 128000
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 3,
-  "transformers_version": "4.33.0"
 }

   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 3,
+  "transformers_version": "4.35.0"
 }

pytorch_model-00001-of-00007.bin → model-00001-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea7b34c5d10905d088adee170496022e19356119b8c061244f0ca8dd6a346f7e
-size 9646093541

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a428a9a9062246860b2917ceab30f73f3a5c1153eb197bfe9a30c5ebddc60c1
+size 4712820784

pytorch_model-00002-of-00007.bin → model-00002-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41c165ec9533b91e3c937c13a36764c88ee138e20305620bafc54c7b3e1337d5
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c6401e37e5a485c026dfae1e244f80bf2081e4a6d0fc8343603d9c614118a08
+size 4933252680

pytorch_model-00003-of-00007.bin → model-00003-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9934f122609e847c516043b957242335f51550aa744b6de847eaac5d1bfc3fa6
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c648796fb63476f607ae4e398d83396a5cc35eb6c4f0ab30640aa9b22c0581c
+size 4933252648

pytorch_model-00004-of-00007.bin → model-00004-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01c530bf84ff6cb393969a7a43a711532233c46845c940cfef4fabaf505a5662
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:8de0fe06a8de40918fcaad9887b3adac3405e03777083d9618345b0f663789d8
+size 4933252728

model-00005-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37619b4a4e4b2b71af9de8c6bcb86aeacb4b40461f60bdd6b226d89f2a4a4ea3
+size 4933252728

model-00006-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9879dde82f1c270a740ba0befda8628f884e71145bf1f395e7d7c9179fd35035
+size 4933252728

model-00007-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02371b39cf036f6a3f0880f12807b4e8a7d8a87205cd0b68ff9426ce899d4013
+size 4933252728

model-00008-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2e78b8ac923df9e6a784991a676011888826b64a13bda771a3c55645ba543fb
+size 4933252728

model-00009-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ddd8d5149d814c1cc04d6932443de48d30f9ed1c5de5cecda39dae70e097cb1
+size 4933252728

model-00010-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54320c19889e7fd54d1cea7b401cf70aab945a28781e22cdb9e1a9a6f4c72604
+size 4933252728

model-00011-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e2f8f33b7412faf1307f2c8b326a486a7f90a4a2d7ff380d9df2180dcac84c5
+size 4933252728

model-00012-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:951f9e97999518b9ef53258385bf7fabbddd72523e986caa3e0410e2c2e43be2
+size 4933252728

model-00013-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a0cae7c5c2ac94aaf579b69da4b9d4f3d1529a60b166b917e4b56b00f709471
+size 4933252728

model-00014-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af197ef3a06056365e5d5bfe51c2ac4737185d513ece4b123e58f9f1b383a20f
+size 4522124144

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,660 @@

+{
+  "metadata": {
+    "total_size": 68433899520
+  },
+  "weight_map": {
+    "transformer.h.0.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.ln_f.bias": "model-00014-of-00014.safetensors",
+    "transformer.ln_f.weight": "model-00014-of-00014.safetensors",
+    "transformer.word_embeddings.weight": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.weight": "model-00001-of-00014.safetensors"
+  }
+}

pytorch_model-00005-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3b403b4d68f9c8ae70a8ea4f79da29b9d3d356473e60c3c42883bef8d0624e28
-size 9866528411

pytorch_model-00006-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:48a1fa998cfe7ea43ae6723ab19558ea923e23f60ed6e49619f9919728ed53f3
-size 9866528411

pytorch_model-00007-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:be5400fd439c68606aa90d1b658c22314a0f72abad38e197d397a99f2ee444fe
-size 9455398375

pytorch_model.bin.index.json DELETED Viewed

@@ -1,661 +0,0 @@
-{
-  "metadata": {
-    "total_size": 68433899520
-  },
-  "weight_map": {
-    "lm_head.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.10.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.15.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.2.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.20.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.23.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.3.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.30.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.31.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.39.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.4.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.40.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.47.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.5.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.50.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.6.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.7.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.ln_f.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.ln_f.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.word_embeddings.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.word_embeddings_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.word_embeddings_layernorm.weight": "pytorch_model-00001-of-00007.bin"
-  }
-}