jonabur commited on Nov 7, 2023

Commit

6dfe712

•

1 Parent(s): c275bda

Add 100B checkpoint

Browse files

Files changed (21) hide show

config.json +1 -1
generation_config.json +1 -1
pytorch_model-00001-of-00007.bin → model-00001-of-00014.safetensors +2 -2
pytorch_model-00002-of-00007.bin → model-00002-of-00014.safetensors +2 -2
pytorch_model-00003-of-00007.bin → model-00003-of-00014.safetensors +2 -2
pytorch_model-00004-of-00007.bin → model-00004-of-00014.safetensors +2 -2
model-00005-of-00014.safetensors +3 -0
model-00006-of-00014.safetensors +3 -0
model-00007-of-00014.safetensors +3 -0
model-00008-of-00014.safetensors +3 -0
model-00009-of-00014.safetensors +3 -0
model-00010-of-00014.safetensors +3 -0
model-00011-of-00014.safetensors +3 -0
model-00012-of-00014.safetensors +3 -0
model-00013-of-00014.safetensors +3 -0
model-00014-of-00014.safetensors +3 -0
model.safetensors.index.json +660 -0
pytorch_model-00005-of-00007.bin +0 -3
pytorch_model-00006-of-00007.bin +0 -3
pytorch_model-00007-of-00007.bin +0 -3
pytorch_model.bin.index.json +0 -661

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "pretraining_tp": 2,
   "slow_but_exact": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.33.0",
   "use_cache": true,
   "vocab_size": 128000
 }

   "pretraining_tp": 2,
   "slow_but_exact": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.35.0",
   "use_cache": true,
   "vocab_size": 128000
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 3,
-  "transformers_version": "4.33.0"
 }

   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 3,
+  "transformers_version": "4.35.0"
 }

pytorch_model-00001-of-00007.bin → model-00001-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea7b34c5d10905d088adee170496022e19356119b8c061244f0ca8dd6a346f7e
-size 9646093541

 version https://git-lfs.github.com/spec/v1
+oid sha256:411a9e4de4499985f94fa4296562d49c67fee1320bc2924295cee643c567591c
+size 4712820784

pytorch_model-00002-of-00007.bin → model-00002-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41c165ec9533b91e3c937c13a36764c88ee138e20305620bafc54c7b3e1337d5
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e6180355526ca09c09030acd16beadfa4a65b502e2d9e23c7dadb1796587a2d
+size 4933252680

pytorch_model-00003-of-00007.bin → model-00003-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9934f122609e847c516043b957242335f51550aa744b6de847eaac5d1bfc3fa6
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:92ea8f930a9b71479dac4e16f2121f9cdc1bb90a4f874f21a0ce13208320f2ba
+size 4933252648

pytorch_model-00004-of-00007.bin → model-00004-of-00014.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01c530bf84ff6cb393969a7a43a711532233c46845c940cfef4fabaf505a5662
-size 9866528411

 version https://git-lfs.github.com/spec/v1
+oid sha256:f166a6026572d208c0b9e6dcfe2df377d188efa649f999c6cb0bc5cc75fab28f
+size 4933252728

model-00005-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6fd7ebbec00b10c807c5899d83cceebcc49f3ec9d68c999d9a6818f522c0d25
+size 4933252728

model-00006-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f998e71dc9bc0bb80b0f47116c9669114f9ab23c20372c14ca7993b4199cbef0
+size 4933252728

model-00007-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8abac2b4936cf38f2144fda3473ef689a2c3260dff9703470a3f644c30b1fe9
+size 4933252728

model-00008-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a833c48991f1ea61d3c2a5a8824bba1ab4e7f87b08344c55fecaf8e1029de78
+size 4933252728

model-00009-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f8c6a77cc34365c8edee0ca7c9620a6a62be5a8b1a8deb5e1d41906de96bd7c
+size 4933252728

model-00010-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2398de8a0a6f7e6d55a2c5f741649dd02d377d7c097d6d09a6306f30d4435b45
+size 4933252728

model-00011-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:893235eb12a5bc827bc021b75194b286076c44993efde009253098e00daecc9d
+size 4933252728

model-00012-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:498a83580ef0a6c53415746351c07ad1b343068d7706bae8e3ebb8a465520442
+size 4933252728

model-00013-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:137a1a1a0913aebb628df336ed2190ff2c1cbb5b8e33e5f615ac4c678142e60a
+size 4933252728

model-00014-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29dceea7faaa930ea90786e8e078cbaf2fa2e9dfa99e21fa76b47bb38f4192f9
+size 4522124144

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,660 @@

+{
+  "metadata": {
+    "total_size": 68433899520
+  },
+  "weight_map": {
+    "transformer.h.0.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.0.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_4h_to_h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.mlp.dense_h_to_4h.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.1.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.10.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.10.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.11.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.12.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_4h_to_h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.mlp.dense_h_to_4h.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.13.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.input_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.14.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.post_attention_layernorm.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.dense.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.bias": "model-00004-of-00014.safetensors",
+    "transformer.h.14.self_attention.query_key_value.weight": "model-00004-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.15.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.16.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_4h_to_h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.mlp.dense_h_to_4h.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.17.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.input_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.18.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.post_attention_layernorm.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.dense.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.bias": "model-00005-of-00014.safetensors",
+    "transformer.h.18.self_attention.query_key_value.weight": "model-00005-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.19.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.input_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.2.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.post_attention_layernorm.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.dense.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.bias": "model-00001-of-00014.safetensors",
+    "transformer.h.2.self_attention.query_key_value.weight": "model-00001-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.20.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_4h_to_h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.mlp.dense_h_to_4h.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.21.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.input_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.22.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.post_attention_layernorm.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.dense.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.bias": "model-00006-of-00014.safetensors",
+    "transformer.h.22.self_attention.query_key_value.weight": "model-00006-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.23.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.24.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_4h_to_h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.mlp.dense_h_to_4h.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.25.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.input_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.26.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.post_attention_layernorm.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.dense.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.bias": "model-00007-of-00014.safetensors",
+    "transformer.h.26.self_attention.query_key_value.weight": "model-00007-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.27.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.28.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_4h_to_h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.mlp.dense_h_to_4h.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.29.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.3.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.input_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.30.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.post_attention_layernorm.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.dense.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.bias": "model-00008-of-00014.safetensors",
+    "transformer.h.30.self_attention.query_key_value.weight": "model-00008-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.31.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.32.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_4h_to_h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.mlp.dense_h_to_4h.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.33.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.input_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.34.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.post_attention_layernorm.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.dense.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.bias": "model-00009-of-00014.safetensors",
+    "transformer.h.34.self_attention.query_key_value.weight": "model-00009-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.35.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.36.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_4h_to_h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.mlp.dense_h_to_4h.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.37.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.input_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.38.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.post_attention_layernorm.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.dense.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.bias": "model-00010-of-00014.safetensors",
+    "transformer.h.38.self_attention.query_key_value.weight": "model-00010-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.39.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.4.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.40.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_4h_to_h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.mlp.dense_h_to_4h.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.41.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.input_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.42.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.post_attention_layernorm.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.dense.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.bias": "model-00011-of-00014.safetensors",
+    "transformer.h.42.self_attention.query_key_value.weight": "model-00011-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.43.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.44.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_4h_to_h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.mlp.dense_h_to_4h.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.45.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.input_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.46.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.post_attention_layernorm.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.dense.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.bias": "model-00012-of-00014.safetensors",
+    "transformer.h.46.self_attention.query_key_value.weight": "model-00012-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.47.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.48.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_4h_to_h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.mlp.dense_h_to_4h.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.49.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_4h_to_h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.mlp.dense_h_to_4h.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.5.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.input_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.50.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.post_attention_layernorm.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.dense.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.bias": "model-00013-of-00014.safetensors",
+    "transformer.h.50.self_attention.query_key_value.weight": "model-00013-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.51.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.52.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.input_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_4h_to_h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.mlp.dense_h_to_4h.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.post_attention_layernorm.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.dense.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.bias": "model-00014-of-00014.safetensors",
+    "transformer.h.53.self_attention.query_key_value.weight": "model-00014-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.input_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.6.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.post_attention_layernorm.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.dense.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.bias": "model-00002-of-00014.safetensors",
+    "transformer.h.6.self_attention.query_key_value.weight": "model-00002-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.7.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.8.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.input_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_4h_to_h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.mlp.dense_h_to_4h.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.post_attention_layernorm.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.dense.weight": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.bias": "model-00003-of-00014.safetensors",
+    "transformer.h.9.self_attention.query_key_value.weight": "model-00003-of-00014.safetensors",
+    "transformer.ln_f.bias": "model-00014-of-00014.safetensors",
+    "transformer.ln_f.weight": "model-00014-of-00014.safetensors",
+    "transformer.word_embeddings.weight": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.bias": "model-00001-of-00014.safetensors",
+    "transformer.word_embeddings_layernorm.weight": "model-00001-of-00014.safetensors"
+  }
+}

pytorch_model-00005-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3b403b4d68f9c8ae70a8ea4f79da29b9d3d356473e60c3c42883bef8d0624e28
-size 9866528411

pytorch_model-00006-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:48a1fa998cfe7ea43ae6723ab19558ea923e23f60ed6e49619f9919728ed53f3
-size 9866528411

pytorch_model-00007-of-00007.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:be5400fd439c68606aa90d1b658c22314a0f72abad38e197d397a99f2ee444fe
-size 9455398375

pytorch_model.bin.index.json DELETED Viewed

@@ -1,661 +0,0 @@
-{
-  "metadata": {
-    "total_size": 68433899520
-  },
-  "weight_map": {
-    "lm_head.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.0.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.1.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.10.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.10.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.11.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.12.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.13.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.14.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.14.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.15.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.15.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.16.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.17.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.18.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.19.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.2.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.2.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.20.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.20.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.21.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.input_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.input_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.22.post_attention_layernorm.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.dense.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.dense.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.query_key_value.bias": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.22.self_attention.query_key_value.weight": "pytorch_model-00003-of-00007.bin",
-    "transformer.h.23.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.23.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.24.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.25.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.26.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.27.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.28.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.29.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.3.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.3.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.30.input_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.input_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.30.post_attention_layernorm.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.post_attention_layernorm.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.dense.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.dense.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.query_key_value.bias": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.30.self_attention.query_key_value.weight": "pytorch_model-00004-of-00007.bin",
-    "transformer.h.31.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.31.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.32.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.33.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.34.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.35.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.36.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.37.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.input_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.input_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.38.post_attention_layernorm.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.post_attention_layernorm.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.dense.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.dense.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.query_key_value.bias": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.38.self_attention.query_key_value.weight": "pytorch_model-00005-of-00007.bin",
-    "transformer.h.39.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.39.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.4.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.4.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.40.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.40.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.41.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.42.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.43.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.44.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.45.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.input_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.input_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.46.post_attention_layernorm.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.post_attention_layernorm.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.dense.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.dense.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.query_key_value.bias": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.46.self_attention.query_key_value.weight": "pytorch_model-00006-of-00007.bin",
-    "transformer.h.47.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.47.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.48.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.49.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.5.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.5.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.50.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.50.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.51.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.52.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.input_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.input_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.post_attention_layernorm.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.post_attention_layernorm.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.dense.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.dense.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.query_key_value.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.53.self_attention.query_key_value.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.h.6.input_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.input_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.6.post_attention_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.dense.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.dense.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.query_key_value.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.6.self_attention.query_key_value.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.h.7.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.7.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.8.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.input_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.input_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.post_attention_layernorm.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.dense.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.dense.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.query_key_value.bias": "pytorch_model-00002-of-00007.bin",
-    "transformer.h.9.self_attention.query_key_value.weight": "pytorch_model-00002-of-00007.bin",
-    "transformer.ln_f.bias": "pytorch_model-00007-of-00007.bin",
-    "transformer.ln_f.weight": "pytorch_model-00007-of-00007.bin",
-    "transformer.word_embeddings.weight": "pytorch_model-00001-of-00007.bin",
-    "transformer.word_embeddings_layernorm.bias": "pytorch_model-00001-of-00007.bin",
-    "transformer.word_embeddings_layernorm.weight": "pytorch_model-00001-of-00007.bin"
-  }
-}