Tongjilibo
/

bert4torch_config

Model card Files Files and versions Community

Tongjilibo commited on Feb 18

Commit

36f7606

•

1 Parent(s): e0ea324

添加配置文件

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

BELLE-LLaMA-7B-2M-enc/bert4torch_config.json +13 -0
Baichuan-13B-Base/bert4torch_config.json +21 -0
Baichuan-13B-Chat/bert4torch_config.json +21 -0
Baichuan-7B/bert4torch_config.json +20 -0
Baichuan2-13B-Base/bert4torch_config.json +21 -0
Baichuan2-13B-Chat/bert4torch_config.json +21 -0
Baichuan2-7B-Base/bert4torch_config.json +21 -0
Baichuan2-7B-Chat/bert4torch_config.json +21 -0
ChatYuan-large-v1/bert4torch_config.json +17 -0
Llama-2-13b-chat-hf/bert4torch_config.json +19 -0
Llama-2-13b-hf/bert4torch_config.json +19 -0
Llama-2-7b-chat-hf/bert4torch_config.json +13 -0
Llama-2-7b-hf/bert4torch_config.json +13 -0
PromptCLUE/bert4torch_config.json +17 -0
Qwen-1_8B-Chat/bert4torch_config.json +31 -0
Qwen-1_8B/bert4torch_config.json +31 -0
Qwen-7B-Chat/bert4torch_config.json +31 -0
Qwen-7B/bert4torch_config.json +31 -0
Yi-6B-200K/bert4torch_config.json +315 -0
Yi-6B/bert4torch_config.json +315 -0
Ziya-LLaMA-13B-v1.1/bert4torch_config.json +20 -0
Ziya-LLaMA-13B-v1/bert4torch_config.json +20 -0
bart-base-chinese/bert4torch_config.json +14 -0
bert-base-multilingual-cased/bert4torch_config.json +25 -0
bge-large-en-v1.5/bert4torch_config.json +412 -0
bge-large-zh-v1.5/bert4torch_config.json +415 -0
bloom-560m/bert4torch_config.json +27 -0
bloomz-560m/bert4torch_config.json +27 -0
chatglm-6b-int4/bert4torch_config.json +25 -0
chatglm-6b-int8/bert4torch_config.json +25 -0
chatglm-6b/bert4torch_config.json +22 -0
chatglm2-6b-32k/bert4torch_config.json +22 -0
chatglm2-6b-int4/bert4torch_config.json +24 -0
chatglm2-6b/bert4torch_config.json +21 -0
chatglm3-6b-32k/bert4torch_config.json +22 -0
chatglm3-6b/bert4torch_config.json +21 -0
chinese-bert-wwm-ext/bert4torch_config.json +26 -0
chinese-macbert-base/bert4torch_config.json +26 -0
chinese-macbert-large/bert4torch_config.json +26 -0
chinese-roberta-wwm-ext-base/bert4torch_config.json +28 -0
chinese-roberta-wwm-ext-large/bert4torch_config.json +28 -0
chinese-xlnet-base/bert4torch_config.json +29 -0
chinese_alpaca_plus_7b/bert4torch_config.json +13 -0
chinese_llama_plus_7b/bert4torch_config.json +13 -0
deepseek-moe-16b-base/bert4torch_config.json +35 -0
deepseek-moe-16b-chat/bert4torch_config.json +35 -0
falcon-7b-instruct/bert4torch_config.json +27 -0
falcon-7b/bert4torch_config.json +27 -0
falcon-rw-1b/bert4torch_config.json +24 -0
gpt2-chinese-cluecorpussmall/bert4torch_config.json +14 -0

BELLE-LLaMA-7B-2M-enc/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "model": "llama",
+    "hidden_size": 4096,
+    "intermediate_size": 11008,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "layer_norm_eps": 1e-06,
+    "hidden_act": "silu",
+    "vocab_size": 32000,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown"
+}

Baichuan-13B-Base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 13696,
+    "model_max_length": 4096,
+    "num_attention_heads": 40,
+    "num_hidden_layers": 40,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 64000,
+    "segment_vocab_size": 0,
+    "rope_rank": "updown",
+    "p_bias": "alibi",
+    "skip_init": true
+    }

Baichuan-13B-Chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 13696,
+    "model_max_length": 4096,
+    "num_attention_heads": 40,
+    "num_hidden_layers": 40,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 64000,
+    "segment_vocab_size": 0,
+    "rope_rank": "updown",
+    "p_bias": "alibi",
+    "skip_init": true
+    }

Baichuan-7B/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 11008,
+    "max_position_embeddings": 4096,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "float32",
+    "vocab_size": 64000,
+    "segment_vocab_size": 0,
+    "rope_rank": "updown",
+    "skip_init": true
+    }

Baichuan2-13B-Base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 13696,
+    "model_max_length": 4096,
+    "num_attention_heads": 40,
+    "num_hidden_layers": 40,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 125696,
+    "segment_vocab_size": 0,
+    "p_bias": "alibi",
+    "skip_init": true,
+    "norm_head": true
+    }

Baichuan2-13B-Chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 13696,
+    "model_max_length": 4096,
+    "num_attention_heads": 40,
+    "num_hidden_layers": 40,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 125696,
+    "segment_vocab_size": 0,
+    "p_bias": "alibi",
+    "skip_init": true,
+    "norm_head": true
+    }

Baichuan2-7B-Base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 11008,
+    "max_position_embeddings": 4096,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 125696,
+    "segment_vocab_size": 0,
+    "rope_rank": "updown",
+    "skip_init": true,
+    "norm_head": true
+    }

Baichuan2-7B-Chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 11008,
+    "max_position_embeddings": 4096,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "pad_token_id": 0,
+    "layer_norm_eps": 1e-06,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 125696,
+    "segment_vocab_size": 0,
+    "rope_rank": "updown",
+    "skip_init": true,
+    "norm_head": true
+    }

ChatYuan-large-v1/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "model": "mt5.1.1",
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 1024,
+    "intermediate_size": 2816,
+    "num_attention_heads": 16,
+    "attention_head_size": 64,
+    "num_hidden_layers": 24,
+    "vocab_size": 32128,
+    "relative_attention_num_buckets": 32,
+    "attention_scale":  false,
+    "is_dropout": true,
+    "max_position_embeddings": 768,
+    "segment_vocab_size": 0,
+    "logit_scale": false
+  }

Llama-2-13b-chat-hf/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+	"model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "pad_token_id": 0,
+	"hidden_size": 5120,
+    "intermediate_size": 13824,
+	"num_attention_heads": 40,
+	"num_hidden_layers": 40,
+	"initializer_range": 0.02,
+	"hidden_act": "silu",
+	"vocab_size": 32000,
+	"segment_vocab_size": 0,
+	"skip_init": true,
+	"layer_norm_eps": 1e-5,
+	"rope_rank": "updown",
+    "tie_word_embeddings": false,
+	"torch_dtype": "float16"
+    }

Llama-2-13b-hf/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+	"model": "llama",
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "pad_token_id": 0,
+	"hidden_size": 5120,
+    "intermediate_size": 13824,
+	"num_attention_heads": 40,
+	"num_hidden_layers": 40,
+	"initializer_range": 0.02,
+	"hidden_act": "silu",
+	"vocab_size": 32000,
+	"segment_vocab_size": 0,
+	"skip_init": true,
+	"layer_norm_eps": 1e-5,
+	"rope_rank": "updown",
+    "tie_word_embeddings": false,
+	"torch_dtype": "float16"
+    }

Llama-2-7b-chat-hf/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "model": "llama",
+    "hidden_size": 4096,
+    "intermediate_size": 11008,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "hidden_act": "silu",
+    "vocab_size": 32000,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "layer_norm_eps": 1e-6,
+    "rope_rank": "updown"
+}

Llama-2-7b-hf/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "model": "llama",
+    "hidden_size": 4096,
+    "intermediate_size": 11008,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "hidden_act": "silu",
+    "vocab_size": 32000,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "layer_norm_eps": 1e-5,
+    "rope_rank": "updown"
+}

PromptCLUE/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "model": "mt5.1.1",
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "intermediate_size": 2048,
+    "num_attention_heads": 12,
+    "attention_head_size": 64,
+    "num_hidden_layers": 12,
+    "vocab_size": 32128,
+    "relative_attention_num_buckets": 32,
+    "attention_scale":  false,
+    "is_dropout": true,
+    "max_position_embeddings": 768,
+    "segment_vocab_size": 0,
+    "logit_scale": false
+  }

Qwen-1_8B-Chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "model": "qwen",
+    "hidden_act": "silu",
+    "bias_dropout_fusion": true,
+    "bos_token_id": 151643,
+    "embd_pdrop": 0.1,
+    "eos_token_id": 151643,
+    "intermediate_size": 11008,
+    "initializer_range": 0.02,
+    "kv_channels": 128,
+    "layer_norm_eps": 1e-06,
+    "hidden_size": 2048,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "n_positions": 6144,
+    "resid_pdrop": 0.1,
+    "rotary_emb_base": 10000,
+    "rotary_pct": 1.0,
+    "scale_attn_weights": true,
+    "seq_length": 8192,
+    "tie_word_embeddings": false,
+    "use_cache": true,
+    "use_flash_attn": true,
+    "vocab_size": 151936,
+    "use_dynamic_ntk": true,
+    "use_logn_attn": true,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "max_position": 8192
+}

Qwen-1_8B/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "model": "qwen",
+    "hidden_act": "silu",
+    "bias_dropout_fusion": true,
+    "bos_token_id": 151643,
+    "embd_pdrop": 0.1,
+    "eos_token_id": 151643,
+    "intermediate_size": 11008,
+    "initializer_range": 0.02,
+    "kv_channels": 128,
+    "layer_norm_eps": 1e-06,
+    "hidden_size": 2048,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "n_positions": 6144,
+    "resid_pdrop": 0.1,
+    "rotary_emb_base": 10000,
+    "rotary_pct": 1.0,
+    "scale_attn_weights": true,
+    "seq_length": 8192,
+    "tie_word_embeddings": false,
+    "use_cache": true,
+    "use_flash_attn": true,
+    "vocab_size": 151936,
+    "use_dynamic_ntk": true,
+    "use_logn_attn": true,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "max_position": 8192
+}

Qwen-7B-Chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "model": "qwen",
+    "hidden_act": "silu",
+    "bias_dropout_fusion": true,
+    "bos_token_id": 151643,
+    "embd_pdrop": 0.1,
+    "eos_token_id": 151643,
+    "intermediate_size": 22016,
+    "initializer_range": 0.02,
+    "kv_channels": 128,
+    "layer_norm_eps": 1e-05,
+    "hidden_size": 4096,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "n_positions": 6144,
+    "resid_pdrop": 0.1,
+    "rotary_emb_base": 10000,
+    "rotary_pct": 1.0,
+    "scale_attn_weights": true,
+    "seq_length": 2048,
+    "tie_word_embeddings": false,
+    "use_cache": true,
+    "flash_attention": "flash_attn_2",
+    "vocab_size": 151936,
+    "use_dynamic_ntk": true,
+    "use_logn_attn": true,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "max_position": 2048
+}

Qwen-7B/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+    "model": "qwen",
+    "hidden_act": "silu",
+    "bias_dropout_fusion": true,
+    "bos_token_id": 151643,
+    "embd_pdrop": 0.1,
+    "eos_token_id": 151643,
+    "intermediate_size": 22016,
+    "initializer_range": 0.02,
+    "kv_channels": 128,
+    "layer_norm_eps": 1e-05,
+    "hidden_size": 4096,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "n_positions": 6144,
+    "resid_pdrop": 0.1,
+    "rotary_emb_base": 10000,
+    "rotary_pct": 1.0,
+    "scale_attn_weights": true,
+    "seq_length": 2048,
+    "tie_word_embeddings": false,
+    "use_cache": true,
+    "flash_attention": "flash_attn_2",
+    "vocab_size": 151936,
+    "use_dynamic_ntk": true,
+    "use_logn_attn": true,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "max_position": 2048
+}

Yi-6B-200K/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,315 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "multi_query_group_num": 4,
+  "pad_token_id": 0,
+  "layer_norm_eps": 1e-05,
+  "rope_theta": 5000000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "vocab_size": 64000,
+  "skip_init": true,
+  "rope_rank": "updown",
+  "segment_vocab_size": 0,
+  "mapping": {
+	"embeddings.word_embeddings.weight": "model.embed_tokens.weight",
+	"LayerNormFinal.weight": "model.norm.weight",
+	"lm_head.weight": "lm_head.weight",
+	"decoderLayer.0.multiHeadAttention.q.weight": "model.layers.0.self_attn.q_proj.weight",
+	"decoderLayer.0.multiHeadAttention.k.weight": "model.layers.0.self_attn.k_proj.weight",
+	"decoderLayer.0.multiHeadAttention.v.weight": "model.layers.0.self_attn.v_proj.weight",
+	"decoderLayer.0.multiHeadAttention.o.weight": "model.layers.0.self_attn.o_proj.weight",
+	"decoderLayer.0.attnLayerNorm.weight": "model.layers.0.ln1.weight",
+	"decoderLayer.0.feedForward.intermediateDense.weight": "model.layers.0.mlp.gate_proj.weight",
+	"decoderLayer.0.feedForward.outputDense.weight": "model.layers.0.mlp.down_proj.weight",
+	"decoderLayer.0.ffnLayerNorm.weight": "model.layers.0.ln2.weight",
+	"decoderLayer.0.feedForward.intermediateDense2.weight": "model.layers.0.mlp.up_proj.weight",
+	"decoderLayer.1.multiHeadAttention.q.weight": "model.layers.1.self_attn.q_proj.weight",
+	"decoderLayer.1.multiHeadAttention.k.weight": "model.layers.1.self_attn.k_proj.weight",
+	"decoderLayer.1.multiHeadAttention.v.weight": "model.layers.1.self_attn.v_proj.weight",
+	"decoderLayer.1.multiHeadAttention.o.weight": "model.layers.1.self_attn.o_proj.weight",
+	"decoderLayer.1.attnLayerNorm.weight": "model.layers.1.ln1.weight",
+	"decoderLayer.1.feedForward.intermediateDense.weight": "model.layers.1.mlp.gate_proj.weight",
+	"decoderLayer.1.feedForward.outputDense.weight": "model.layers.1.mlp.down_proj.weight",
+	"decoderLayer.1.ffnLayerNorm.weight": "model.layers.1.ln2.weight",
+	"decoderLayer.1.feedForward.intermediateDense2.weight": "model.layers.1.mlp.up_proj.weight",
+	"decoderLayer.2.multiHeadAttention.q.weight": "model.layers.2.self_attn.q_proj.weight",
+	"decoderLayer.2.multiHeadAttention.k.weight": "model.layers.2.self_attn.k_proj.weight",
+	"decoderLayer.2.multiHeadAttention.v.weight": "model.layers.2.self_attn.v_proj.weight",
+	"decoderLayer.2.multiHeadAttention.o.weight": "model.layers.2.self_attn.o_proj.weight",
+	"decoderLayer.2.attnLayerNorm.weight": "model.layers.2.ln1.weight",
+	"decoderLayer.2.feedForward.intermediateDense.weight": "model.layers.2.mlp.gate_proj.weight",
+	"decoderLayer.2.feedForward.outputDense.weight": "model.layers.2.mlp.down_proj.weight",
+	"decoderLayer.2.ffnLayerNorm.weight": "model.layers.2.ln2.weight",
+	"decoderLayer.2.feedForward.intermediateDense2.weight": "model.layers.2.mlp.up_proj.weight",
+	"decoderLayer.3.multiHeadAttention.q.weight": "model.layers.3.self_attn.q_proj.weight",
+	"decoderLayer.3.multiHeadAttention.k.weight": "model.layers.3.self_attn.k_proj.weight",
+	"decoderLayer.3.multiHeadAttention.v.weight": "model.layers.3.self_attn.v_proj.weight",
+	"decoderLayer.3.multiHeadAttention.o.weight": "model.layers.3.self_attn.o_proj.weight",
+	"decoderLayer.3.attnLayerNorm.weight": "model.layers.3.ln1.weight",
+	"decoderLayer.3.feedForward.intermediateDense.weight": "model.layers.3.mlp.gate_proj.weight",
+	"decoderLayer.3.feedForward.outputDense.weight": "model.layers.3.mlp.down_proj.weight",
+	"decoderLayer.3.ffnLayerNorm.weight": "model.layers.3.ln2.weight",
+	"decoderLayer.3.feedForward.intermediateDense2.weight": "model.layers.3.mlp.up_proj.weight",
+	"decoderLayer.4.multiHeadAttention.q.weight": "model.layers.4.self_attn.q_proj.weight",
+	"decoderLayer.4.multiHeadAttention.k.weight": "model.layers.4.self_attn.k_proj.weight",
+	"decoderLayer.4.multiHeadAttention.v.weight": "model.layers.4.self_attn.v_proj.weight",
+	"decoderLayer.4.multiHeadAttention.o.weight": "model.layers.4.self_attn.o_proj.weight",
+	"decoderLayer.4.attnLayerNorm.weight": "model.layers.4.ln1.weight",
+	"decoderLayer.4.feedForward.intermediateDense.weight": "model.layers.4.mlp.gate_proj.weight",
+	"decoderLayer.4.feedForward.outputDense.weight": "model.layers.4.mlp.down_proj.weight",
+	"decoderLayer.4.ffnLayerNorm.weight": "model.layers.4.ln2.weight",
+	"decoderLayer.4.feedForward.intermediateDense2.weight": "model.layers.4.mlp.up_proj.weight",
+	"decoderLayer.5.multiHeadAttention.q.weight": "model.layers.5.self_attn.q_proj.weight",
+	"decoderLayer.5.multiHeadAttention.k.weight": "model.layers.5.self_attn.k_proj.weight",
+	"decoderLayer.5.multiHeadAttention.v.weight": "model.layers.5.self_attn.v_proj.weight",
+	"decoderLayer.5.multiHeadAttention.o.weight": "model.layers.5.self_attn.o_proj.weight",
+	"decoderLayer.5.attnLayerNorm.weight": "model.layers.5.ln1.weight",
+	"decoderLayer.5.feedForward.intermediateDense.weight": "model.layers.5.mlp.gate_proj.weight",
+	"decoderLayer.5.feedForward.outputDense.weight": "model.layers.5.mlp.down_proj.weight",
+	"decoderLayer.5.ffnLayerNorm.weight": "model.layers.5.ln2.weight",
+	"decoderLayer.5.feedForward.intermediateDense2.weight": "model.layers.5.mlp.up_proj.weight",
+	"decoderLayer.6.multiHeadAttention.q.weight": "model.layers.6.self_attn.q_proj.weight",
+	"decoderLayer.6.multiHeadAttention.k.weight": "model.layers.6.self_attn.k_proj.weight",
+	"decoderLayer.6.multiHeadAttention.v.weight": "model.layers.6.self_attn.v_proj.weight",
+	"decoderLayer.6.multiHeadAttention.o.weight": "model.layers.6.self_attn.o_proj.weight",
+	"decoderLayer.6.attnLayerNorm.weight": "model.layers.6.ln1.weight",
+	"decoderLayer.6.feedForward.intermediateDense.weight": "model.layers.6.mlp.gate_proj.weight",
+	"decoderLayer.6.feedForward.outputDense.weight": "model.layers.6.mlp.down_proj.weight",
+	"decoderLayer.6.ffnLayerNorm.weight": "model.layers.6.ln2.weight",
+	"decoderLayer.6.feedForward.intermediateDense2.weight": "model.layers.6.mlp.up_proj.weight",
+	"decoderLayer.7.multiHeadAttention.q.weight": "model.layers.7.self_attn.q_proj.weight",
+	"decoderLayer.7.multiHeadAttention.k.weight": "model.layers.7.self_attn.k_proj.weight",
+	"decoderLayer.7.multiHeadAttention.v.weight": "model.layers.7.self_attn.v_proj.weight",
+	"decoderLayer.7.multiHeadAttention.o.weight": "model.layers.7.self_attn.o_proj.weight",
+	"decoderLayer.7.attnLayerNorm.weight": "model.layers.7.ln1.weight",
+	"decoderLayer.7.feedForward.intermediateDense.weight": "model.layers.7.mlp.gate_proj.weight",
+	"decoderLayer.7.feedForward.outputDense.weight": "model.layers.7.mlp.down_proj.weight",
+	"decoderLayer.7.ffnLayerNorm.weight": "model.layers.7.ln2.weight",
+	"decoderLayer.7.feedForward.intermediateDense2.weight": "model.layers.7.mlp.up_proj.weight",
+	"decoderLayer.8.multiHeadAttention.q.weight": "model.layers.8.self_attn.q_proj.weight",
+	"decoderLayer.8.multiHeadAttention.k.weight": "model.layers.8.self_attn.k_proj.weight",
+	"decoderLayer.8.multiHeadAttention.v.weight": "model.layers.8.self_attn.v_proj.weight",
+	"decoderLayer.8.multiHeadAttention.o.weight": "model.layers.8.self_attn.o_proj.weight",
+	"decoderLayer.8.attnLayerNorm.weight": "model.layers.8.ln1.weight",
+	"decoderLayer.8.feedForward.intermediateDense.weight": "model.layers.8.mlp.gate_proj.weight",
+	"decoderLayer.8.feedForward.outputDense.weight": "model.layers.8.mlp.down_proj.weight",
+	"decoderLayer.8.ffnLayerNorm.weight": "model.layers.8.ln2.weight",
+	"decoderLayer.8.feedForward.intermediateDense2.weight": "model.layers.8.mlp.up_proj.weight",
+	"decoderLayer.9.multiHeadAttention.q.weight": "model.layers.9.self_attn.q_proj.weight",
+	"decoderLayer.9.multiHeadAttention.k.weight": "model.layers.9.self_attn.k_proj.weight",
+	"decoderLayer.9.multiHeadAttention.v.weight": "model.layers.9.self_attn.v_proj.weight",
+	"decoderLayer.9.multiHeadAttention.o.weight": "model.layers.9.self_attn.o_proj.weight",
+	"decoderLayer.9.attnLayerNorm.weight": "model.layers.9.ln1.weight",
+	"decoderLayer.9.feedForward.intermediateDense.weight": "model.layers.9.mlp.gate_proj.weight",
+	"decoderLayer.9.feedForward.outputDense.weight": "model.layers.9.mlp.down_proj.weight",
+	"decoderLayer.9.ffnLayerNorm.weight": "model.layers.9.ln2.weight",
+	"decoderLayer.9.feedForward.intermediateDense2.weight": "model.layers.9.mlp.up_proj.weight",
+	"decoderLayer.10.multiHeadAttention.q.weight": "model.layers.10.self_attn.q_proj.weight",
+	"decoderLayer.10.multiHeadAttention.k.weight": "model.layers.10.self_attn.k_proj.weight",
+	"decoderLayer.10.multiHeadAttention.v.weight": "model.layers.10.self_attn.v_proj.weight",
+	"decoderLayer.10.multiHeadAttention.o.weight": "model.layers.10.self_attn.o_proj.weight",
+	"decoderLayer.10.attnLayerNorm.weight": "model.layers.10.ln1.weight",
+	"decoderLayer.10.feedForward.intermediateDense.weight": "model.layers.10.mlp.gate_proj.weight",
+	"decoderLayer.10.feedForward.outputDense.weight": "model.layers.10.mlp.down_proj.weight",
+	"decoderLayer.10.ffnLayerNorm.weight": "model.layers.10.ln2.weight",
+	"decoderLayer.10.feedForward.intermediateDense2.weight": "model.layers.10.mlp.up_proj.weight",
+	"decoderLayer.11.multiHeadAttention.q.weight": "model.layers.11.self_attn.q_proj.weight",
+	"decoderLayer.11.multiHeadAttention.k.weight": "model.layers.11.self_attn.k_proj.weight",
+	"decoderLayer.11.multiHeadAttention.v.weight": "model.layers.11.self_attn.v_proj.weight",
+	"decoderLayer.11.multiHeadAttention.o.weight": "model.layers.11.self_attn.o_proj.weight",
+	"decoderLayer.11.attnLayerNorm.weight": "model.layers.11.ln1.weight",
+	"decoderLayer.11.feedForward.intermediateDense.weight": "model.layers.11.mlp.gate_proj.weight",
+	"decoderLayer.11.feedForward.outputDense.weight": "model.layers.11.mlp.down_proj.weight",
+	"decoderLayer.11.ffnLayerNorm.weight": "model.layers.11.ln2.weight",
+	"decoderLayer.11.feedForward.intermediateDense2.weight": "model.layers.11.mlp.up_proj.weight",
+	"decoderLayer.12.multiHeadAttention.q.weight": "model.layers.12.self_attn.q_proj.weight",
+	"decoderLayer.12.multiHeadAttention.k.weight": "model.layers.12.self_attn.k_proj.weight",
+	"decoderLayer.12.multiHeadAttention.v.weight": "model.layers.12.self_attn.v_proj.weight",
+	"decoderLayer.12.multiHeadAttention.o.weight": "model.layers.12.self_attn.o_proj.weight",
+	"decoderLayer.12.attnLayerNorm.weight": "model.layers.12.ln1.weight",
+	"decoderLayer.12.feedForward.intermediateDense.weight": "model.layers.12.mlp.gate_proj.weight",
+	"decoderLayer.12.feedForward.outputDense.weight": "model.layers.12.mlp.down_proj.weight",
+	"decoderLayer.12.ffnLayerNorm.weight": "model.layers.12.ln2.weight",
+	"decoderLayer.12.feedForward.intermediateDense2.weight": "model.layers.12.mlp.up_proj.weight",
+	"decoderLayer.13.multiHeadAttention.q.weight": "model.layers.13.self_attn.q_proj.weight",
+	"decoderLayer.13.multiHeadAttention.k.weight": "model.layers.13.self_attn.k_proj.weight",
+	"decoderLayer.13.multiHeadAttention.v.weight": "model.layers.13.self_attn.v_proj.weight",
+	"decoderLayer.13.multiHeadAttention.o.weight": "model.layers.13.self_attn.o_proj.weight",
+	"decoderLayer.13.attnLayerNorm.weight": "model.layers.13.ln1.weight",
+	"decoderLayer.13.feedForward.intermediateDense.weight": "model.layers.13.mlp.gate_proj.weight",
+	"decoderLayer.13.feedForward.outputDense.weight": "model.layers.13.mlp.down_proj.weight",
+	"decoderLayer.13.ffnLayerNorm.weight": "model.layers.13.ln2.weight",
+	"decoderLayer.13.feedForward.intermediateDense2.weight": "model.layers.13.mlp.up_proj.weight",
+	"decoderLayer.14.multiHeadAttention.q.weight": "model.layers.14.self_attn.q_proj.weight",
+	"decoderLayer.14.multiHeadAttention.k.weight": "model.layers.14.self_attn.k_proj.weight",
+	"decoderLayer.14.multiHeadAttention.v.weight": "model.layers.14.self_attn.v_proj.weight",
+	"decoderLayer.14.multiHeadAttention.o.weight": "model.layers.14.self_attn.o_proj.weight",
+	"decoderLayer.14.attnLayerNorm.weight": "model.layers.14.ln1.weight",
+	"decoderLayer.14.feedForward.intermediateDense.weight": "model.layers.14.mlp.gate_proj.weight",
+	"decoderLayer.14.feedForward.outputDense.weight": "model.layers.14.mlp.down_proj.weight",
+	"decoderLayer.14.ffnLayerNorm.weight": "model.layers.14.ln2.weight",
+	"decoderLayer.14.feedForward.intermediateDense2.weight": "model.layers.14.mlp.up_proj.weight",
+	"decoderLayer.15.multiHeadAttention.q.weight": "model.layers.15.self_attn.q_proj.weight",
+	"decoderLayer.15.multiHeadAttention.k.weight": "model.layers.15.self_attn.k_proj.weight",
+	"decoderLayer.15.multiHeadAttention.v.weight": "model.layers.15.self_attn.v_proj.weight",
+	"decoderLayer.15.multiHeadAttention.o.weight": "model.layers.15.self_attn.o_proj.weight",
+	"decoderLayer.15.attnLayerNorm.weight": "model.layers.15.ln1.weight",
+	"decoderLayer.15.feedForward.intermediateDense.weight": "model.layers.15.mlp.gate_proj.weight",
+	"decoderLayer.15.feedForward.outputDense.weight": "model.layers.15.mlp.down_proj.weight",
+	"decoderLayer.15.ffnLayerNorm.weight": "model.layers.15.ln2.weight",
+	"decoderLayer.15.feedForward.intermediateDense2.weight": "model.layers.15.mlp.up_proj.weight",
+	"decoderLayer.16.multiHeadAttention.q.weight": "model.layers.16.self_attn.q_proj.weight",
+	"decoderLayer.16.multiHeadAttention.k.weight": "model.layers.16.self_attn.k_proj.weight",
+	"decoderLayer.16.multiHeadAttention.v.weight": "model.layers.16.self_attn.v_proj.weight",
+	"decoderLayer.16.multiHeadAttention.o.weight": "model.layers.16.self_attn.o_proj.weight",
+	"decoderLayer.16.attnLayerNorm.weight": "model.layers.16.ln1.weight",
+	"decoderLayer.16.feedForward.intermediateDense.weight": "model.layers.16.mlp.gate_proj.weight",
+	"decoderLayer.16.feedForward.outputDense.weight": "model.layers.16.mlp.down_proj.weight",
+	"decoderLayer.16.ffnLayerNorm.weight": "model.layers.16.ln2.weight",
+	"decoderLayer.16.feedForward.intermediateDense2.weight": "model.layers.16.mlp.up_proj.weight",
+	"decoderLayer.17.multiHeadAttention.q.weight": "model.layers.17.self_attn.q_proj.weight",
+	"decoderLayer.17.multiHeadAttention.k.weight": "model.layers.17.self_attn.k_proj.weight",
+	"decoderLayer.17.multiHeadAttention.v.weight": "model.layers.17.self_attn.v_proj.weight",
+	"decoderLayer.17.multiHeadAttention.o.weight": "model.layers.17.self_attn.o_proj.weight",
+	"decoderLayer.17.attnLayerNorm.weight": "model.layers.17.ln1.weight",
+	"decoderLayer.17.feedForward.intermediateDense.weight": "model.layers.17.mlp.gate_proj.weight",
+	"decoderLayer.17.feedForward.outputDense.weight": "model.layers.17.mlp.down_proj.weight",
+	"decoderLayer.17.ffnLayerNorm.weight": "model.layers.17.ln2.weight",
+	"decoderLayer.17.feedForward.intermediateDense2.weight": "model.layers.17.mlp.up_proj.weight",
+	"decoderLayer.18.multiHeadAttention.q.weight": "model.layers.18.self_attn.q_proj.weight",
+	"decoderLayer.18.multiHeadAttention.k.weight": "model.layers.18.self_attn.k_proj.weight",
+	"decoderLayer.18.multiHeadAttention.v.weight": "model.layers.18.self_attn.v_proj.weight",
+	"decoderLayer.18.multiHeadAttention.o.weight": "model.layers.18.self_attn.o_proj.weight",
+	"decoderLayer.18.attnLayerNorm.weight": "model.layers.18.ln1.weight",
+	"decoderLayer.18.feedForward.intermediateDense.weight": "model.layers.18.mlp.gate_proj.weight",
+	"decoderLayer.18.feedForward.outputDense.weight": "model.layers.18.mlp.down_proj.weight",
+	"decoderLayer.18.ffnLayerNorm.weight": "model.layers.18.ln2.weight",
+	"decoderLayer.18.feedForward.intermediateDense2.weight": "model.layers.18.mlp.up_proj.weight",
+	"decoderLayer.19.multiHeadAttention.q.weight": "model.layers.19.self_attn.q_proj.weight",
+	"decoderLayer.19.multiHeadAttention.k.weight": "model.layers.19.self_attn.k_proj.weight",
+	"decoderLayer.19.multiHeadAttention.v.weight": "model.layers.19.self_attn.v_proj.weight",
+	"decoderLayer.19.multiHeadAttention.o.weight": "model.layers.19.self_attn.o_proj.weight",
+	"decoderLayer.19.attnLayerNorm.weight": "model.layers.19.ln1.weight",
+	"decoderLayer.19.feedForward.intermediateDense.weight": "model.layers.19.mlp.gate_proj.weight",
+	"decoderLayer.19.feedForward.outputDense.weight": "model.layers.19.mlp.down_proj.weight",
+	"decoderLayer.19.ffnLayerNorm.weight": "model.layers.19.ln2.weight",
+	"decoderLayer.19.feedForward.intermediateDense2.weight": "model.layers.19.mlp.up_proj.weight",
+	"decoderLayer.20.multiHeadAttention.q.weight": "model.layers.20.self_attn.q_proj.weight",
+	"decoderLayer.20.multiHeadAttention.k.weight": "model.layers.20.self_attn.k_proj.weight",
+	"decoderLayer.20.multiHeadAttention.v.weight": "model.layers.20.self_attn.v_proj.weight",
+	"decoderLayer.20.multiHeadAttention.o.weight": "model.layers.20.self_attn.o_proj.weight",
+	"decoderLayer.20.attnLayerNorm.weight": "model.layers.20.ln1.weight",
+	"decoderLayer.20.feedForward.intermediateDense.weight": "model.layers.20.mlp.gate_proj.weight",
+	"decoderLayer.20.feedForward.outputDense.weight": "model.layers.20.mlp.down_proj.weight",
+	"decoderLayer.20.ffnLayerNorm.weight": "model.layers.20.ln2.weight",
+	"decoderLayer.20.feedForward.intermediateDense2.weight": "model.layers.20.mlp.up_proj.weight",
+	"decoderLayer.21.multiHeadAttention.q.weight": "model.layers.21.self_attn.q_proj.weight",
+	"decoderLayer.21.multiHeadAttention.k.weight": "model.layers.21.self_attn.k_proj.weight",
+	"decoderLayer.21.multiHeadAttention.v.weight": "model.layers.21.self_attn.v_proj.weight",
+	"decoderLayer.21.multiHeadAttention.o.weight": "model.layers.21.self_attn.o_proj.weight",
+	"decoderLayer.21.attnLayerNorm.weight": "model.layers.21.ln1.weight",
+	"decoderLayer.21.feedForward.intermediateDense.weight": "model.layers.21.mlp.gate_proj.weight",
+	"decoderLayer.21.feedForward.outputDense.weight": "model.layers.21.mlp.down_proj.weight",
+	"decoderLayer.21.ffnLayerNorm.weight": "model.layers.21.ln2.weight",
+	"decoderLayer.21.feedForward.intermediateDense2.weight": "model.layers.21.mlp.up_proj.weight",
+	"decoderLayer.22.multiHeadAttention.q.weight": "model.layers.22.self_attn.q_proj.weight",
+	"decoderLayer.22.multiHeadAttention.k.weight": "model.layers.22.self_attn.k_proj.weight",
+	"decoderLayer.22.multiHeadAttention.v.weight": "model.layers.22.self_attn.v_proj.weight",
+	"decoderLayer.22.multiHeadAttention.o.weight": "model.layers.22.self_attn.o_proj.weight",
+	"decoderLayer.22.attnLayerNorm.weight": "model.layers.22.ln1.weight",
+	"decoderLayer.22.feedForward.intermediateDense.weight": "model.layers.22.mlp.gate_proj.weight",
+	"decoderLayer.22.feedForward.outputDense.weight": "model.layers.22.mlp.down_proj.weight",
+	"decoderLayer.22.ffnLayerNorm.weight": "model.layers.22.ln2.weight",
+	"decoderLayer.22.feedForward.intermediateDense2.weight": "model.layers.22.mlp.up_proj.weight",
+	"decoderLayer.23.multiHeadAttention.q.weight": "model.layers.23.self_attn.q_proj.weight",
+	"decoderLayer.23.multiHeadAttention.k.weight": "model.layers.23.self_attn.k_proj.weight",
+	"decoderLayer.23.multiHeadAttention.v.weight": "model.layers.23.self_attn.v_proj.weight",
+	"decoderLayer.23.multiHeadAttention.o.weight": "model.layers.23.self_attn.o_proj.weight",
+	"decoderLayer.23.attnLayerNorm.weight": "model.layers.23.ln1.weight",
+	"decoderLayer.23.feedForward.intermediateDense.weight": "model.layers.23.mlp.gate_proj.weight",
+	"decoderLayer.23.feedForward.outputDense.weight": "model.layers.23.mlp.down_proj.weight",
+	"decoderLayer.23.ffnLayerNorm.weight": "model.layers.23.ln2.weight",
+	"decoderLayer.23.feedForward.intermediateDense2.weight": "model.layers.23.mlp.up_proj.weight",
+	"decoderLayer.24.multiHeadAttention.q.weight": "model.layers.24.self_attn.q_proj.weight",
+	"decoderLayer.24.multiHeadAttention.k.weight": "model.layers.24.self_attn.k_proj.weight",
+	"decoderLayer.24.multiHeadAttention.v.weight": "model.layers.24.self_attn.v_proj.weight",
+	"decoderLayer.24.multiHeadAttention.o.weight": "model.layers.24.self_attn.o_proj.weight",
+	"decoderLayer.24.attnLayerNorm.weight": "model.layers.24.ln1.weight",
+	"decoderLayer.24.feedForward.intermediateDense.weight": "model.layers.24.mlp.gate_proj.weight",
+	"decoderLayer.24.feedForward.outputDense.weight": "model.layers.24.mlp.down_proj.weight",
+	"decoderLayer.24.ffnLayerNorm.weight": "model.layers.24.ln2.weight",
+	"decoderLayer.24.feedForward.intermediateDense2.weight": "model.layers.24.mlp.up_proj.weight",
+	"decoderLayer.25.multiHeadAttention.q.weight": "model.layers.25.self_attn.q_proj.weight",
+	"decoderLayer.25.multiHeadAttention.k.weight": "model.layers.25.self_attn.k_proj.weight",
+	"decoderLayer.25.multiHeadAttention.v.weight": "model.layers.25.self_attn.v_proj.weight",
+	"decoderLayer.25.multiHeadAttention.o.weight": "model.layers.25.self_attn.o_proj.weight",
+	"decoderLayer.25.attnLayerNorm.weight": "model.layers.25.ln1.weight",
+	"decoderLayer.25.feedForward.intermediateDense.weight": "model.layers.25.mlp.gate_proj.weight",
+	"decoderLayer.25.feedForward.outputDense.weight": "model.layers.25.mlp.down_proj.weight",
+	"decoderLayer.25.ffnLayerNorm.weight": "model.layers.25.ln2.weight",
+	"decoderLayer.25.feedForward.intermediateDense2.weight": "model.layers.25.mlp.up_proj.weight",
+	"decoderLayer.26.multiHeadAttention.q.weight": "model.layers.26.self_attn.q_proj.weight",
+	"decoderLayer.26.multiHeadAttention.k.weight": "model.layers.26.self_attn.k_proj.weight",
+	"decoderLayer.26.multiHeadAttention.v.weight": "model.layers.26.self_attn.v_proj.weight",
+	"decoderLayer.26.multiHeadAttention.o.weight": "model.layers.26.self_attn.o_proj.weight",
+	"decoderLayer.26.attnLayerNorm.weight": "model.layers.26.ln1.weight",
+	"decoderLayer.26.feedForward.intermediateDense.weight": "model.layers.26.mlp.gate_proj.weight",
+	"decoderLayer.26.feedForward.outputDense.weight": "model.layers.26.mlp.down_proj.weight",
+	"decoderLayer.26.ffnLayerNorm.weight": "model.layers.26.ln2.weight",
+	"decoderLayer.26.feedForward.intermediateDense2.weight": "model.layers.26.mlp.up_proj.weight",
+	"decoderLayer.27.multiHeadAttention.q.weight": "model.layers.27.self_attn.q_proj.weight",
+	"decoderLayer.27.multiHeadAttention.k.weight": "model.layers.27.self_attn.k_proj.weight",
+	"decoderLayer.27.multiHeadAttention.v.weight": "model.layers.27.self_attn.v_proj.weight",
+	"decoderLayer.27.multiHeadAttention.o.weight": "model.layers.27.self_attn.o_proj.weight",
+	"decoderLayer.27.attnLayerNorm.weight": "model.layers.27.ln1.weight",
+	"decoderLayer.27.feedForward.intermediateDense.weight": "model.layers.27.mlp.gate_proj.weight",
+	"decoderLayer.27.feedForward.outputDense.weight": "model.layers.27.mlp.down_proj.weight",
+	"decoderLayer.27.ffnLayerNorm.weight": "model.layers.27.ln2.weight",
+	"decoderLayer.27.feedForward.intermediateDense2.weight": "model.layers.27.mlp.up_proj.weight",
+	"decoderLayer.28.multiHeadAttention.q.weight": "model.layers.28.self_attn.q_proj.weight",
+	"decoderLayer.28.multiHeadAttention.k.weight": "model.layers.28.self_attn.k_proj.weight",
+	"decoderLayer.28.multiHeadAttention.v.weight": "model.layers.28.self_attn.v_proj.weight",
+	"decoderLayer.28.multiHeadAttention.o.weight": "model.layers.28.self_attn.o_proj.weight",
+	"decoderLayer.28.attnLayerNorm.weight": "model.layers.28.ln1.weight",
+	"decoderLayer.28.feedForward.intermediateDense.weight": "model.layers.28.mlp.gate_proj.weight",
+	"decoderLayer.28.feedForward.outputDense.weight": "model.layers.28.mlp.down_proj.weight",
+	"decoderLayer.28.ffnLayerNorm.weight": "model.layers.28.ln2.weight",
+	"decoderLayer.28.feedForward.intermediateDense2.weight": "model.layers.28.mlp.up_proj.weight",
+	"decoderLayer.29.multiHeadAttention.q.weight": "model.layers.29.self_attn.q_proj.weight",
+	"decoderLayer.29.multiHeadAttention.k.weight": "model.layers.29.self_attn.k_proj.weight",
+	"decoderLayer.29.multiHeadAttention.v.weight": "model.layers.29.self_attn.v_proj.weight",
+	"decoderLayer.29.multiHeadAttention.o.weight": "model.layers.29.self_attn.o_proj.weight",
+	"decoderLayer.29.attnLayerNorm.weight": "model.layers.29.ln1.weight",
+	"decoderLayer.29.feedForward.intermediateDense.weight": "model.layers.29.mlp.gate_proj.weight",
+	"decoderLayer.29.feedForward.outputDense.weight": "model.layers.29.mlp.down_proj.weight",
+	"decoderLayer.29.ffnLayerNorm.weight": "model.layers.29.ln2.weight",
+	"decoderLayer.29.feedForward.intermediateDense2.weight": "model.layers.29.mlp.up_proj.weight",
+	"decoderLayer.30.multiHeadAttention.q.weight": "model.layers.30.self_attn.q_proj.weight",
+	"decoderLayer.30.multiHeadAttention.k.weight": "model.layers.30.self_attn.k_proj.weight",
+	"decoderLayer.30.multiHeadAttention.v.weight": "model.layers.30.self_attn.v_proj.weight",
+	"decoderLayer.30.multiHeadAttention.o.weight": "model.layers.30.self_attn.o_proj.weight",
+	"decoderLayer.30.attnLayerNorm.weight": "model.layers.30.ln1.weight",
+	"decoderLayer.30.feedForward.intermediateDense.weight": "model.layers.30.mlp.gate_proj.weight",
+	"decoderLayer.30.feedForward.outputDense.weight": "model.layers.30.mlp.down_proj.weight",
+	"decoderLayer.30.ffnLayerNorm.weight": "model.layers.30.ln2.weight",
+	"decoderLayer.30.feedForward.intermediateDense2.weight": "model.layers.30.mlp.up_proj.weight",
+	"decoderLayer.31.multiHeadAttention.q.weight": "model.layers.31.self_attn.q_proj.weight",
+	"decoderLayer.31.multiHeadAttention.k.weight": "model.layers.31.self_attn.k_proj.weight",
+	"decoderLayer.31.multiHeadAttention.v.weight": "model.layers.31.self_attn.v_proj.weight",
+	"decoderLayer.31.multiHeadAttention.o.weight": "model.layers.31.self_attn.o_proj.weight",
+	"decoderLayer.31.attnLayerNorm.weight": "model.layers.31.ln1.weight",
+	"decoderLayer.31.feedForward.intermediateDense.weight": "model.layers.31.mlp.gate_proj.weight",
+	"decoderLayer.31.feedForward.outputDense.weight": "model.layers.31.mlp.down_proj.weight",
+	"decoderLayer.31.ffnLayerNorm.weight": "model.layers.31.ln2.weight",
+	"decoderLayer.31.feedForward.intermediateDense2.weight": "model.layers.31.mlp.up_proj.weight"
+  }
+}

Yi-6B/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,315 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "multi_query_group_num": 4,
+  "pad_token_id": 0,
+  "layer_norm_eps": 1e-05,
+  "rope_theta": 5000000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "vocab_size": 64000,
+  "skip_init": true,
+  "rope_rank": "updown",
+  "segment_vocab_size": 0,
+  "mapping": {
+	"embeddings.word_embeddings.weight": "model.embed_tokens.weight",
+	"LayerNormFinal.weight": "model.norm.weight",
+	"lm_head.weight": "lm_head.weight",
+	"decoderLayer.0.multiHeadAttention.q.weight": "model.layers.0.self_attn.q_proj.weight",
+	"decoderLayer.0.multiHeadAttention.k.weight": "model.layers.0.self_attn.k_proj.weight",
+	"decoderLayer.0.multiHeadAttention.v.weight": "model.layers.0.self_attn.v_proj.weight",
+	"decoderLayer.0.multiHeadAttention.o.weight": "model.layers.0.self_attn.o_proj.weight",
+	"decoderLayer.0.attnLayerNorm.weight": "model.layers.0.ln1.weight",
+	"decoderLayer.0.feedForward.intermediateDense.weight": "model.layers.0.mlp.gate_proj.weight",
+	"decoderLayer.0.feedForward.outputDense.weight": "model.layers.0.mlp.down_proj.weight",
+	"decoderLayer.0.ffnLayerNorm.weight": "model.layers.0.ln2.weight",
+	"decoderLayer.0.feedForward.intermediateDense2.weight": "model.layers.0.mlp.up_proj.weight",
+	"decoderLayer.1.multiHeadAttention.q.weight": "model.layers.1.self_attn.q_proj.weight",
+	"decoderLayer.1.multiHeadAttention.k.weight": "model.layers.1.self_attn.k_proj.weight",
+	"decoderLayer.1.multiHeadAttention.v.weight": "model.layers.1.self_attn.v_proj.weight",
+	"decoderLayer.1.multiHeadAttention.o.weight": "model.layers.1.self_attn.o_proj.weight",
+	"decoderLayer.1.attnLayerNorm.weight": "model.layers.1.ln1.weight",
+	"decoderLayer.1.feedForward.intermediateDense.weight": "model.layers.1.mlp.gate_proj.weight",
+	"decoderLayer.1.feedForward.outputDense.weight": "model.layers.1.mlp.down_proj.weight",
+	"decoderLayer.1.ffnLayerNorm.weight": "model.layers.1.ln2.weight",
+	"decoderLayer.1.feedForward.intermediateDense2.weight": "model.layers.1.mlp.up_proj.weight",
+	"decoderLayer.2.multiHeadAttention.q.weight": "model.layers.2.self_attn.q_proj.weight",
+	"decoderLayer.2.multiHeadAttention.k.weight": "model.layers.2.self_attn.k_proj.weight",
+	"decoderLayer.2.multiHeadAttention.v.weight": "model.layers.2.self_attn.v_proj.weight",
+	"decoderLayer.2.multiHeadAttention.o.weight": "model.layers.2.self_attn.o_proj.weight",
+	"decoderLayer.2.attnLayerNorm.weight": "model.layers.2.ln1.weight",
+	"decoderLayer.2.feedForward.intermediateDense.weight": "model.layers.2.mlp.gate_proj.weight",
+	"decoderLayer.2.feedForward.outputDense.weight": "model.layers.2.mlp.down_proj.weight",
+	"decoderLayer.2.ffnLayerNorm.weight": "model.layers.2.ln2.weight",
+	"decoderLayer.2.feedForward.intermediateDense2.weight": "model.layers.2.mlp.up_proj.weight",
+	"decoderLayer.3.multiHeadAttention.q.weight": "model.layers.3.self_attn.q_proj.weight",
+	"decoderLayer.3.multiHeadAttention.k.weight": "model.layers.3.self_attn.k_proj.weight",
+	"decoderLayer.3.multiHeadAttention.v.weight": "model.layers.3.self_attn.v_proj.weight",
+	"decoderLayer.3.multiHeadAttention.o.weight": "model.layers.3.self_attn.o_proj.weight",
+	"decoderLayer.3.attnLayerNorm.weight": "model.layers.3.ln1.weight",
+	"decoderLayer.3.feedForward.intermediateDense.weight": "model.layers.3.mlp.gate_proj.weight",
+	"decoderLayer.3.feedForward.outputDense.weight": "model.layers.3.mlp.down_proj.weight",
+	"decoderLayer.3.ffnLayerNorm.weight": "model.layers.3.ln2.weight",
+	"decoderLayer.3.feedForward.intermediateDense2.weight": "model.layers.3.mlp.up_proj.weight",
+	"decoderLayer.4.multiHeadAttention.q.weight": "model.layers.4.self_attn.q_proj.weight",
+	"decoderLayer.4.multiHeadAttention.k.weight": "model.layers.4.self_attn.k_proj.weight",
+	"decoderLayer.4.multiHeadAttention.v.weight": "model.layers.4.self_attn.v_proj.weight",
+	"decoderLayer.4.multiHeadAttention.o.weight": "model.layers.4.self_attn.o_proj.weight",
+	"decoderLayer.4.attnLayerNorm.weight": "model.layers.4.ln1.weight",
+	"decoderLayer.4.feedForward.intermediateDense.weight": "model.layers.4.mlp.gate_proj.weight",
+	"decoderLayer.4.feedForward.outputDense.weight": "model.layers.4.mlp.down_proj.weight",
+	"decoderLayer.4.ffnLayerNorm.weight": "model.layers.4.ln2.weight",
+	"decoderLayer.4.feedForward.intermediateDense2.weight": "model.layers.4.mlp.up_proj.weight",
+	"decoderLayer.5.multiHeadAttention.q.weight": "model.layers.5.self_attn.q_proj.weight",
+	"decoderLayer.5.multiHeadAttention.k.weight": "model.layers.5.self_attn.k_proj.weight",
+	"decoderLayer.5.multiHeadAttention.v.weight": "model.layers.5.self_attn.v_proj.weight",
+	"decoderLayer.5.multiHeadAttention.o.weight": "model.layers.5.self_attn.o_proj.weight",
+	"decoderLayer.5.attnLayerNorm.weight": "model.layers.5.ln1.weight",
+	"decoderLayer.5.feedForward.intermediateDense.weight": "model.layers.5.mlp.gate_proj.weight",
+	"decoderLayer.5.feedForward.outputDense.weight": "model.layers.5.mlp.down_proj.weight",
+	"decoderLayer.5.ffnLayerNorm.weight": "model.layers.5.ln2.weight",
+	"decoderLayer.5.feedForward.intermediateDense2.weight": "model.layers.5.mlp.up_proj.weight",
+	"decoderLayer.6.multiHeadAttention.q.weight": "model.layers.6.self_attn.q_proj.weight",
+	"decoderLayer.6.multiHeadAttention.k.weight": "model.layers.6.self_attn.k_proj.weight",
+	"decoderLayer.6.multiHeadAttention.v.weight": "model.layers.6.self_attn.v_proj.weight",
+	"decoderLayer.6.multiHeadAttention.o.weight": "model.layers.6.self_attn.o_proj.weight",
+	"decoderLayer.6.attnLayerNorm.weight": "model.layers.6.ln1.weight",
+	"decoderLayer.6.feedForward.intermediateDense.weight": "model.layers.6.mlp.gate_proj.weight",
+	"decoderLayer.6.feedForward.outputDense.weight": "model.layers.6.mlp.down_proj.weight",
+	"decoderLayer.6.ffnLayerNorm.weight": "model.layers.6.ln2.weight",
+	"decoderLayer.6.feedForward.intermediateDense2.weight": "model.layers.6.mlp.up_proj.weight",
+	"decoderLayer.7.multiHeadAttention.q.weight": "model.layers.7.self_attn.q_proj.weight",
+	"decoderLayer.7.multiHeadAttention.k.weight": "model.layers.7.self_attn.k_proj.weight",
+	"decoderLayer.7.multiHeadAttention.v.weight": "model.layers.7.self_attn.v_proj.weight",
+	"decoderLayer.7.multiHeadAttention.o.weight": "model.layers.7.self_attn.o_proj.weight",
+	"decoderLayer.7.attnLayerNorm.weight": "model.layers.7.ln1.weight",
+	"decoderLayer.7.feedForward.intermediateDense.weight": "model.layers.7.mlp.gate_proj.weight",
+	"decoderLayer.7.feedForward.outputDense.weight": "model.layers.7.mlp.down_proj.weight",
+	"decoderLayer.7.ffnLayerNorm.weight": "model.layers.7.ln2.weight",
+	"decoderLayer.7.feedForward.intermediateDense2.weight": "model.layers.7.mlp.up_proj.weight",
+	"decoderLayer.8.multiHeadAttention.q.weight": "model.layers.8.self_attn.q_proj.weight",
+	"decoderLayer.8.multiHeadAttention.k.weight": "model.layers.8.self_attn.k_proj.weight",
+	"decoderLayer.8.multiHeadAttention.v.weight": "model.layers.8.self_attn.v_proj.weight",
+	"decoderLayer.8.multiHeadAttention.o.weight": "model.layers.8.self_attn.o_proj.weight",
+	"decoderLayer.8.attnLayerNorm.weight": "model.layers.8.ln1.weight",
+	"decoderLayer.8.feedForward.intermediateDense.weight": "model.layers.8.mlp.gate_proj.weight",
+	"decoderLayer.8.feedForward.outputDense.weight": "model.layers.8.mlp.down_proj.weight",
+	"decoderLayer.8.ffnLayerNorm.weight": "model.layers.8.ln2.weight",
+	"decoderLayer.8.feedForward.intermediateDense2.weight": "model.layers.8.mlp.up_proj.weight",
+	"decoderLayer.9.multiHeadAttention.q.weight": "model.layers.9.self_attn.q_proj.weight",
+	"decoderLayer.9.multiHeadAttention.k.weight": "model.layers.9.self_attn.k_proj.weight",
+	"decoderLayer.9.multiHeadAttention.v.weight": "model.layers.9.self_attn.v_proj.weight",
+	"decoderLayer.9.multiHeadAttention.o.weight": "model.layers.9.self_attn.o_proj.weight",
+	"decoderLayer.9.attnLayerNorm.weight": "model.layers.9.ln1.weight",
+	"decoderLayer.9.feedForward.intermediateDense.weight": "model.layers.9.mlp.gate_proj.weight",
+	"decoderLayer.9.feedForward.outputDense.weight": "model.layers.9.mlp.down_proj.weight",
+	"decoderLayer.9.ffnLayerNorm.weight": "model.layers.9.ln2.weight",
+	"decoderLayer.9.feedForward.intermediateDense2.weight": "model.layers.9.mlp.up_proj.weight",
+	"decoderLayer.10.multiHeadAttention.q.weight": "model.layers.10.self_attn.q_proj.weight",
+	"decoderLayer.10.multiHeadAttention.k.weight": "model.layers.10.self_attn.k_proj.weight",
+	"decoderLayer.10.multiHeadAttention.v.weight": "model.layers.10.self_attn.v_proj.weight",
+	"decoderLayer.10.multiHeadAttention.o.weight": "model.layers.10.self_attn.o_proj.weight",
+	"decoderLayer.10.attnLayerNorm.weight": "model.layers.10.ln1.weight",
+	"decoderLayer.10.feedForward.intermediateDense.weight": "model.layers.10.mlp.gate_proj.weight",
+	"decoderLayer.10.feedForward.outputDense.weight": "model.layers.10.mlp.down_proj.weight",
+	"decoderLayer.10.ffnLayerNorm.weight": "model.layers.10.ln2.weight",
+	"decoderLayer.10.feedForward.intermediateDense2.weight": "model.layers.10.mlp.up_proj.weight",
+	"decoderLayer.11.multiHeadAttention.q.weight": "model.layers.11.self_attn.q_proj.weight",
+	"decoderLayer.11.multiHeadAttention.k.weight": "model.layers.11.self_attn.k_proj.weight",
+	"decoderLayer.11.multiHeadAttention.v.weight": "model.layers.11.self_attn.v_proj.weight",
+	"decoderLayer.11.multiHeadAttention.o.weight": "model.layers.11.self_attn.o_proj.weight",
+	"decoderLayer.11.attnLayerNorm.weight": "model.layers.11.ln1.weight",
+	"decoderLayer.11.feedForward.intermediateDense.weight": "model.layers.11.mlp.gate_proj.weight",
+	"decoderLayer.11.feedForward.outputDense.weight": "model.layers.11.mlp.down_proj.weight",
+	"decoderLayer.11.ffnLayerNorm.weight": "model.layers.11.ln2.weight",
+	"decoderLayer.11.feedForward.intermediateDense2.weight": "model.layers.11.mlp.up_proj.weight",
+	"decoderLayer.12.multiHeadAttention.q.weight": "model.layers.12.self_attn.q_proj.weight",
+	"decoderLayer.12.multiHeadAttention.k.weight": "model.layers.12.self_attn.k_proj.weight",
+	"decoderLayer.12.multiHeadAttention.v.weight": "model.layers.12.self_attn.v_proj.weight",
+	"decoderLayer.12.multiHeadAttention.o.weight": "model.layers.12.self_attn.o_proj.weight",
+	"decoderLayer.12.attnLayerNorm.weight": "model.layers.12.ln1.weight",
+	"decoderLayer.12.feedForward.intermediateDense.weight": "model.layers.12.mlp.gate_proj.weight",
+	"decoderLayer.12.feedForward.outputDense.weight": "model.layers.12.mlp.down_proj.weight",
+	"decoderLayer.12.ffnLayerNorm.weight": "model.layers.12.ln2.weight",
+	"decoderLayer.12.feedForward.intermediateDense2.weight": "model.layers.12.mlp.up_proj.weight",
+	"decoderLayer.13.multiHeadAttention.q.weight": "model.layers.13.self_attn.q_proj.weight",
+	"decoderLayer.13.multiHeadAttention.k.weight": "model.layers.13.self_attn.k_proj.weight",
+	"decoderLayer.13.multiHeadAttention.v.weight": "model.layers.13.self_attn.v_proj.weight",
+	"decoderLayer.13.multiHeadAttention.o.weight": "model.layers.13.self_attn.o_proj.weight",
+	"decoderLayer.13.attnLayerNorm.weight": "model.layers.13.ln1.weight",
+	"decoderLayer.13.feedForward.intermediateDense.weight": "model.layers.13.mlp.gate_proj.weight",
+	"decoderLayer.13.feedForward.outputDense.weight": "model.layers.13.mlp.down_proj.weight",
+	"decoderLayer.13.ffnLayerNorm.weight": "model.layers.13.ln2.weight",
+	"decoderLayer.13.feedForward.intermediateDense2.weight": "model.layers.13.mlp.up_proj.weight",
+	"decoderLayer.14.multiHeadAttention.q.weight": "model.layers.14.self_attn.q_proj.weight",
+	"decoderLayer.14.multiHeadAttention.k.weight": "model.layers.14.self_attn.k_proj.weight",
+	"decoderLayer.14.multiHeadAttention.v.weight": "model.layers.14.self_attn.v_proj.weight",
+	"decoderLayer.14.multiHeadAttention.o.weight": "model.layers.14.self_attn.o_proj.weight",
+	"decoderLayer.14.attnLayerNorm.weight": "model.layers.14.ln1.weight",
+	"decoderLayer.14.feedForward.intermediateDense.weight": "model.layers.14.mlp.gate_proj.weight",
+	"decoderLayer.14.feedForward.outputDense.weight": "model.layers.14.mlp.down_proj.weight",
+	"decoderLayer.14.ffnLayerNorm.weight": "model.layers.14.ln2.weight",
+	"decoderLayer.14.feedForward.intermediateDense2.weight": "model.layers.14.mlp.up_proj.weight",
+	"decoderLayer.15.multiHeadAttention.q.weight": "model.layers.15.self_attn.q_proj.weight",
+	"decoderLayer.15.multiHeadAttention.k.weight": "model.layers.15.self_attn.k_proj.weight",
+	"decoderLayer.15.multiHeadAttention.v.weight": "model.layers.15.self_attn.v_proj.weight",
+	"decoderLayer.15.multiHeadAttention.o.weight": "model.layers.15.self_attn.o_proj.weight",
+	"decoderLayer.15.attnLayerNorm.weight": "model.layers.15.ln1.weight",
+	"decoderLayer.15.feedForward.intermediateDense.weight": "model.layers.15.mlp.gate_proj.weight",
+	"decoderLayer.15.feedForward.outputDense.weight": "model.layers.15.mlp.down_proj.weight",
+	"decoderLayer.15.ffnLayerNorm.weight": "model.layers.15.ln2.weight",
+	"decoderLayer.15.feedForward.intermediateDense2.weight": "model.layers.15.mlp.up_proj.weight",
+	"decoderLayer.16.multiHeadAttention.q.weight": "model.layers.16.self_attn.q_proj.weight",
+	"decoderLayer.16.multiHeadAttention.k.weight": "model.layers.16.self_attn.k_proj.weight",
+	"decoderLayer.16.multiHeadAttention.v.weight": "model.layers.16.self_attn.v_proj.weight",
+	"decoderLayer.16.multiHeadAttention.o.weight": "model.layers.16.self_attn.o_proj.weight",
+	"decoderLayer.16.attnLayerNorm.weight": "model.layers.16.ln1.weight",
+	"decoderLayer.16.feedForward.intermediateDense.weight": "model.layers.16.mlp.gate_proj.weight",
+	"decoderLayer.16.feedForward.outputDense.weight": "model.layers.16.mlp.down_proj.weight",
+	"decoderLayer.16.ffnLayerNorm.weight": "model.layers.16.ln2.weight",
+	"decoderLayer.16.feedForward.intermediateDense2.weight": "model.layers.16.mlp.up_proj.weight",
+	"decoderLayer.17.multiHeadAttention.q.weight": "model.layers.17.self_attn.q_proj.weight",
+	"decoderLayer.17.multiHeadAttention.k.weight": "model.layers.17.self_attn.k_proj.weight",
+	"decoderLayer.17.multiHeadAttention.v.weight": "model.layers.17.self_attn.v_proj.weight",
+	"decoderLayer.17.multiHeadAttention.o.weight": "model.layers.17.self_attn.o_proj.weight",
+	"decoderLayer.17.attnLayerNorm.weight": "model.layers.17.ln1.weight",
+	"decoderLayer.17.feedForward.intermediateDense.weight": "model.layers.17.mlp.gate_proj.weight",
+	"decoderLayer.17.feedForward.outputDense.weight": "model.layers.17.mlp.down_proj.weight",
+	"decoderLayer.17.ffnLayerNorm.weight": "model.layers.17.ln2.weight",
+	"decoderLayer.17.feedForward.intermediateDense2.weight": "model.layers.17.mlp.up_proj.weight",
+	"decoderLayer.18.multiHeadAttention.q.weight": "model.layers.18.self_attn.q_proj.weight",
+	"decoderLayer.18.multiHeadAttention.k.weight": "model.layers.18.self_attn.k_proj.weight",
+	"decoderLayer.18.multiHeadAttention.v.weight": "model.layers.18.self_attn.v_proj.weight",
+	"decoderLayer.18.multiHeadAttention.o.weight": "model.layers.18.self_attn.o_proj.weight",
+	"decoderLayer.18.attnLayerNorm.weight": "model.layers.18.ln1.weight",
+	"decoderLayer.18.feedForward.intermediateDense.weight": "model.layers.18.mlp.gate_proj.weight",
+	"decoderLayer.18.feedForward.outputDense.weight": "model.layers.18.mlp.down_proj.weight",
+	"decoderLayer.18.ffnLayerNorm.weight": "model.layers.18.ln2.weight",
+	"decoderLayer.18.feedForward.intermediateDense2.weight": "model.layers.18.mlp.up_proj.weight",
+	"decoderLayer.19.multiHeadAttention.q.weight": "model.layers.19.self_attn.q_proj.weight",
+	"decoderLayer.19.multiHeadAttention.k.weight": "model.layers.19.self_attn.k_proj.weight",
+	"decoderLayer.19.multiHeadAttention.v.weight": "model.layers.19.self_attn.v_proj.weight",
+	"decoderLayer.19.multiHeadAttention.o.weight": "model.layers.19.self_attn.o_proj.weight",
+	"decoderLayer.19.attnLayerNorm.weight": "model.layers.19.ln1.weight",
+	"decoderLayer.19.feedForward.intermediateDense.weight": "model.layers.19.mlp.gate_proj.weight",
+	"decoderLayer.19.feedForward.outputDense.weight": "model.layers.19.mlp.down_proj.weight",
+	"decoderLayer.19.ffnLayerNorm.weight": "model.layers.19.ln2.weight",
+	"decoderLayer.19.feedForward.intermediateDense2.weight": "model.layers.19.mlp.up_proj.weight",
+	"decoderLayer.20.multiHeadAttention.q.weight": "model.layers.20.self_attn.q_proj.weight",
+	"decoderLayer.20.multiHeadAttention.k.weight": "model.layers.20.self_attn.k_proj.weight",
+	"decoderLayer.20.multiHeadAttention.v.weight": "model.layers.20.self_attn.v_proj.weight",
+	"decoderLayer.20.multiHeadAttention.o.weight": "model.layers.20.self_attn.o_proj.weight",
+	"decoderLayer.20.attnLayerNorm.weight": "model.layers.20.ln1.weight",
+	"decoderLayer.20.feedForward.intermediateDense.weight": "model.layers.20.mlp.gate_proj.weight",
+	"decoderLayer.20.feedForward.outputDense.weight": "model.layers.20.mlp.down_proj.weight",
+	"decoderLayer.20.ffnLayerNorm.weight": "model.layers.20.ln2.weight",
+	"decoderLayer.20.feedForward.intermediateDense2.weight": "model.layers.20.mlp.up_proj.weight",
+	"decoderLayer.21.multiHeadAttention.q.weight": "model.layers.21.self_attn.q_proj.weight",
+	"decoderLayer.21.multiHeadAttention.k.weight": "model.layers.21.self_attn.k_proj.weight",
+	"decoderLayer.21.multiHeadAttention.v.weight": "model.layers.21.self_attn.v_proj.weight",
+	"decoderLayer.21.multiHeadAttention.o.weight": "model.layers.21.self_attn.o_proj.weight",
+	"decoderLayer.21.attnLayerNorm.weight": "model.layers.21.ln1.weight",
+	"decoderLayer.21.feedForward.intermediateDense.weight": "model.layers.21.mlp.gate_proj.weight",
+	"decoderLayer.21.feedForward.outputDense.weight": "model.layers.21.mlp.down_proj.weight",
+	"decoderLayer.21.ffnLayerNorm.weight": "model.layers.21.ln2.weight",
+	"decoderLayer.21.feedForward.intermediateDense2.weight": "model.layers.21.mlp.up_proj.weight",
+	"decoderLayer.22.multiHeadAttention.q.weight": "model.layers.22.self_attn.q_proj.weight",
+	"decoderLayer.22.multiHeadAttention.k.weight": "model.layers.22.self_attn.k_proj.weight",
+	"decoderLayer.22.multiHeadAttention.v.weight": "model.layers.22.self_attn.v_proj.weight",
+	"decoderLayer.22.multiHeadAttention.o.weight": "model.layers.22.self_attn.o_proj.weight",
+	"decoderLayer.22.attnLayerNorm.weight": "model.layers.22.ln1.weight",
+	"decoderLayer.22.feedForward.intermediateDense.weight": "model.layers.22.mlp.gate_proj.weight",
+	"decoderLayer.22.feedForward.outputDense.weight": "model.layers.22.mlp.down_proj.weight",
+	"decoderLayer.22.ffnLayerNorm.weight": "model.layers.22.ln2.weight",
+	"decoderLayer.22.feedForward.intermediateDense2.weight": "model.layers.22.mlp.up_proj.weight",
+	"decoderLayer.23.multiHeadAttention.q.weight": "model.layers.23.self_attn.q_proj.weight",
+	"decoderLayer.23.multiHeadAttention.k.weight": "model.layers.23.self_attn.k_proj.weight",
+	"decoderLayer.23.multiHeadAttention.v.weight": "model.layers.23.self_attn.v_proj.weight",
+	"decoderLayer.23.multiHeadAttention.o.weight": "model.layers.23.self_attn.o_proj.weight",
+	"decoderLayer.23.attnLayerNorm.weight": "model.layers.23.ln1.weight",
+	"decoderLayer.23.feedForward.intermediateDense.weight": "model.layers.23.mlp.gate_proj.weight",
+	"decoderLayer.23.feedForward.outputDense.weight": "model.layers.23.mlp.down_proj.weight",
+	"decoderLayer.23.ffnLayerNorm.weight": "model.layers.23.ln2.weight",
+	"decoderLayer.23.feedForward.intermediateDense2.weight": "model.layers.23.mlp.up_proj.weight",
+	"decoderLayer.24.multiHeadAttention.q.weight": "model.layers.24.self_attn.q_proj.weight",
+	"decoderLayer.24.multiHeadAttention.k.weight": "model.layers.24.self_attn.k_proj.weight",
+	"decoderLayer.24.multiHeadAttention.v.weight": "model.layers.24.self_attn.v_proj.weight",
+	"decoderLayer.24.multiHeadAttention.o.weight": "model.layers.24.self_attn.o_proj.weight",
+	"decoderLayer.24.attnLayerNorm.weight": "model.layers.24.ln1.weight",
+	"decoderLayer.24.feedForward.intermediateDense.weight": "model.layers.24.mlp.gate_proj.weight",
+	"decoderLayer.24.feedForward.outputDense.weight": "model.layers.24.mlp.down_proj.weight",
+	"decoderLayer.24.ffnLayerNorm.weight": "model.layers.24.ln2.weight",
+	"decoderLayer.24.feedForward.intermediateDense2.weight": "model.layers.24.mlp.up_proj.weight",
+	"decoderLayer.25.multiHeadAttention.q.weight": "model.layers.25.self_attn.q_proj.weight",
+	"decoderLayer.25.multiHeadAttention.k.weight": "model.layers.25.self_attn.k_proj.weight",
+	"decoderLayer.25.multiHeadAttention.v.weight": "model.layers.25.self_attn.v_proj.weight",
+	"decoderLayer.25.multiHeadAttention.o.weight": "model.layers.25.self_attn.o_proj.weight",
+	"decoderLayer.25.attnLayerNorm.weight": "model.layers.25.ln1.weight",
+	"decoderLayer.25.feedForward.intermediateDense.weight": "model.layers.25.mlp.gate_proj.weight",
+	"decoderLayer.25.feedForward.outputDense.weight": "model.layers.25.mlp.down_proj.weight",
+	"decoderLayer.25.ffnLayerNorm.weight": "model.layers.25.ln2.weight",
+	"decoderLayer.25.feedForward.intermediateDense2.weight": "model.layers.25.mlp.up_proj.weight",
+	"decoderLayer.26.multiHeadAttention.q.weight": "model.layers.26.self_attn.q_proj.weight",
+	"decoderLayer.26.multiHeadAttention.k.weight": "model.layers.26.self_attn.k_proj.weight",
+	"decoderLayer.26.multiHeadAttention.v.weight": "model.layers.26.self_attn.v_proj.weight",
+	"decoderLayer.26.multiHeadAttention.o.weight": "model.layers.26.self_attn.o_proj.weight",
+	"decoderLayer.26.attnLayerNorm.weight": "model.layers.26.ln1.weight",
+	"decoderLayer.26.feedForward.intermediateDense.weight": "model.layers.26.mlp.gate_proj.weight",
+	"decoderLayer.26.feedForward.outputDense.weight": "model.layers.26.mlp.down_proj.weight",
+	"decoderLayer.26.ffnLayerNorm.weight": "model.layers.26.ln2.weight",
+	"decoderLayer.26.feedForward.intermediateDense2.weight": "model.layers.26.mlp.up_proj.weight",
+	"decoderLayer.27.multiHeadAttention.q.weight": "model.layers.27.self_attn.q_proj.weight",
+	"decoderLayer.27.multiHeadAttention.k.weight": "model.layers.27.self_attn.k_proj.weight",
+	"decoderLayer.27.multiHeadAttention.v.weight": "model.layers.27.self_attn.v_proj.weight",
+	"decoderLayer.27.multiHeadAttention.o.weight": "model.layers.27.self_attn.o_proj.weight",
+	"decoderLayer.27.attnLayerNorm.weight": "model.layers.27.ln1.weight",
+	"decoderLayer.27.feedForward.intermediateDense.weight": "model.layers.27.mlp.gate_proj.weight",
+	"decoderLayer.27.feedForward.outputDense.weight": "model.layers.27.mlp.down_proj.weight",
+	"decoderLayer.27.ffnLayerNorm.weight": "model.layers.27.ln2.weight",
+	"decoderLayer.27.feedForward.intermediateDense2.weight": "model.layers.27.mlp.up_proj.weight",
+	"decoderLayer.28.multiHeadAttention.q.weight": "model.layers.28.self_attn.q_proj.weight",
+	"decoderLayer.28.multiHeadAttention.k.weight": "model.layers.28.self_attn.k_proj.weight",
+	"decoderLayer.28.multiHeadAttention.v.weight": "model.layers.28.self_attn.v_proj.weight",
+	"decoderLayer.28.multiHeadAttention.o.weight": "model.layers.28.self_attn.o_proj.weight",
+	"decoderLayer.28.attnLayerNorm.weight": "model.layers.28.ln1.weight",
+	"decoderLayer.28.feedForward.intermediateDense.weight": "model.layers.28.mlp.gate_proj.weight",
+	"decoderLayer.28.feedForward.outputDense.weight": "model.layers.28.mlp.down_proj.weight",
+	"decoderLayer.28.ffnLayerNorm.weight": "model.layers.28.ln2.weight",
+	"decoderLayer.28.feedForward.intermediateDense2.weight": "model.layers.28.mlp.up_proj.weight",
+	"decoderLayer.29.multiHeadAttention.q.weight": "model.layers.29.self_attn.q_proj.weight",
+	"decoderLayer.29.multiHeadAttention.k.weight": "model.layers.29.self_attn.k_proj.weight",
+	"decoderLayer.29.multiHeadAttention.v.weight": "model.layers.29.self_attn.v_proj.weight",
+	"decoderLayer.29.multiHeadAttention.o.weight": "model.layers.29.self_attn.o_proj.weight",
+	"decoderLayer.29.attnLayerNorm.weight": "model.layers.29.ln1.weight",
+	"decoderLayer.29.feedForward.intermediateDense.weight": "model.layers.29.mlp.gate_proj.weight",
+	"decoderLayer.29.feedForward.outputDense.weight": "model.layers.29.mlp.down_proj.weight",
+	"decoderLayer.29.ffnLayerNorm.weight": "model.layers.29.ln2.weight",
+	"decoderLayer.29.feedForward.intermediateDense2.weight": "model.layers.29.mlp.up_proj.weight",
+	"decoderLayer.30.multiHeadAttention.q.weight": "model.layers.30.self_attn.q_proj.weight",
+	"decoderLayer.30.multiHeadAttention.k.weight": "model.layers.30.self_attn.k_proj.weight",
+	"decoderLayer.30.multiHeadAttention.v.weight": "model.layers.30.self_attn.v_proj.weight",
+	"decoderLayer.30.multiHeadAttention.o.weight": "model.layers.30.self_attn.o_proj.weight",
+	"decoderLayer.30.attnLayerNorm.weight": "model.layers.30.ln1.weight",
+	"decoderLayer.30.feedForward.intermediateDense.weight": "model.layers.30.mlp.gate_proj.weight",
+	"decoderLayer.30.feedForward.outputDense.weight": "model.layers.30.mlp.down_proj.weight",
+	"decoderLayer.30.ffnLayerNorm.weight": "model.layers.30.ln2.weight",
+	"decoderLayer.30.feedForward.intermediateDense2.weight": "model.layers.30.mlp.up_proj.weight",
+	"decoderLayer.31.multiHeadAttention.q.weight": "model.layers.31.self_attn.q_proj.weight",
+	"decoderLayer.31.multiHeadAttention.k.weight": "model.layers.31.self_attn.k_proj.weight",
+	"decoderLayer.31.multiHeadAttention.v.weight": "model.layers.31.self_attn.v_proj.weight",
+	"decoderLayer.31.multiHeadAttention.o.weight": "model.layers.31.self_attn.o_proj.weight",
+	"decoderLayer.31.attnLayerNorm.weight": "model.layers.31.ln1.weight",
+	"decoderLayer.31.feedForward.intermediateDense.weight": "model.layers.31.mlp.gate_proj.weight",
+	"decoderLayer.31.feedForward.outputDense.weight": "model.layers.31.mlp.down_proj.weight",
+	"decoderLayer.31.ffnLayerNorm.weight": "model.layers.31.ln2.weight",
+	"decoderLayer.31.feedForward.intermediateDense2.weight": "model.layers.31.mlp.up_proj.weight"
+  }
+}

Ziya-LLaMA-13B-v1.1/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+"model": "llama",
+"bos_token_id": 1,
+"eos_token_id": 2,
+"hidden_act": "silu",
+"hidden_size": 5120,
+"initializer_range": 0.02,
+"intermediate_size": 13824,
+"max_position_embeddings": 2048,
+"num_attention_heads": 40,
+"num_hidden_layers": 40,
+"pad_token_id": 0,
+"layer_norm_eps": 1e-06,
+"tie_word_embeddings": false,
+"use_cache": true,
+"vocab_size": 39424,
+"segment_vocab_size": 0,
+"skip_init": true,
+"rope_rank": "updown"
+}

Ziya-LLaMA-13B-v1/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+"model": "llama",
+"bos_token_id": 1,
+"eos_token_id": 2,
+"hidden_act": "silu",
+"hidden_size": 5120,
+"initializer_range": 0.02,
+"intermediate_size": 13824,
+"max_position_embeddings": 2048,
+"num_attention_heads": 40,
+"num_hidden_layers": 40,
+"pad_token_id": 0,
+"layer_norm_eps": 1e-06,
+"tie_word_embeddings": false,
+"use_cache": true,
+"vocab_size": 39424,
+"segment_vocab_size": 0,
+"skip_init": true,
+"rope_rank": "updown"
+}

bart-base-chinese/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "model": "bart",
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "max_position_embeddings": 1024,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 6,
+    "type_vocab_size": 0,
+    "vocab_size": 51271
+  }

bert-base-multilingual-cased/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 119547
+}

bge-large-en-v1.5/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,412 @@

+{
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "type_vocab_size": 2,
+  "vocab_size": 30522,
+  "with_pool": true,
+  "pool_strategy": "cls",
+  "mapping": {
+      "embeddings.word_embeddings.weight": "embeddings.word_embeddings.weight",
+      "embeddings.position_embeddings.weight": "embeddings.position_embeddings.weight",
+      "embeddings.segment_embeddings.weight": "embeddings.token_type_embeddings.weight",
+      "embeddings.layerNorm.weight": "embeddings.LayerNorm.weight",
+      "embeddings.layerNorm.bias": "embeddings.LayerNorm.bias",
+      "pooler.weight": "pooler.dense.weight",
+      "pooler.bias": "pooler.dense.bias",
+      "encoderLayer.0.multiHeadAttention.q.weight": "encoder.layer.0.attention.self.query.weight",
+      "encoderLayer.0.multiHeadAttention.q.bias": "encoder.layer.0.attention.self.query.bias",
+      "encoderLayer.0.multiHeadAttention.k.weight": "encoder.layer.0.attention.self.key.weight",
+      "encoderLayer.0.multiHeadAttention.k.bias": "encoder.layer.0.attention.self.key.bias",
+      "encoderLayer.0.multiHeadAttention.v.weight": "encoder.layer.0.attention.self.value.weight",
+      "encoderLayer.0.multiHeadAttention.v.bias": "encoder.layer.0.attention.self.value.bias",
+      "encoderLayer.0.multiHeadAttention.o.weight": "encoder.layer.0.attention.output.dense.weight",
+      "encoderLayer.0.multiHeadAttention.o.bias": "encoder.layer.0.attention.output.dense.bias",
+      "encoderLayer.0.attnLayerNorm.weight": "encoder.layer.0.attention.output.LayerNorm.weight",
+      "encoderLayer.0.attnLayerNorm.bias": "encoder.layer.0.attention.output.LayerNorm.bias",
+      "encoderLayer.0.feedForward.intermediateDense.weight": "encoder.layer.0.intermediate.dense.weight",
+      "encoderLayer.0.feedForward.intermediateDense.bias": "encoder.layer.0.intermediate.dense.bias",
+      "encoderLayer.0.feedForward.outputDense.weight": "encoder.layer.0.output.dense.weight",
+      "encoderLayer.0.feedForward.outputDense.bias": "encoder.layer.0.output.dense.bias",
+      "encoderLayer.0.ffnLayerNorm.weight": "encoder.layer.0.output.LayerNorm.weight",
+      "encoderLayer.0.ffnLayerNorm.bias": "encoder.layer.0.output.LayerNorm.bias",
+      "encoderLayer.1.multiHeadAttention.q.weight": "encoder.layer.1.attention.self.query.weight",
+      "encoderLayer.1.multiHeadAttention.q.bias": "encoder.layer.1.attention.self.query.bias",
+      "encoderLayer.1.multiHeadAttention.k.weight": "encoder.layer.1.attention.self.key.weight",
+      "encoderLayer.1.multiHeadAttention.k.bias": "encoder.layer.1.attention.self.key.bias",
+      "encoderLayer.1.multiHeadAttention.v.weight": "encoder.layer.1.attention.self.value.weight",
+      "encoderLayer.1.multiHeadAttention.v.bias": "encoder.layer.1.attention.self.value.bias",
+      "encoderLayer.1.multiHeadAttention.o.weight": "encoder.layer.1.attention.output.dense.weight",
+      "encoderLayer.1.multiHeadAttention.o.bias": "encoder.layer.1.attention.output.dense.bias",
+      "encoderLayer.1.attnLayerNorm.weight": "encoder.layer.1.attention.output.LayerNorm.weight",
+      "encoderLayer.1.attnLayerNorm.bias": "encoder.layer.1.attention.output.LayerNorm.bias",
+      "encoderLayer.1.feedForward.intermediateDense.weight": "encoder.layer.1.intermediate.dense.weight",
+      "encoderLayer.1.feedForward.intermediateDense.bias": "encoder.layer.1.intermediate.dense.bias",
+      "encoderLayer.1.feedForward.outputDense.weight": "encoder.layer.1.output.dense.weight",
+      "encoderLayer.1.feedForward.outputDense.bias": "encoder.layer.1.output.dense.bias",
+      "encoderLayer.1.ffnLayerNorm.weight": "encoder.layer.1.output.LayerNorm.weight",
+      "encoderLayer.1.ffnLayerNorm.bias": "encoder.layer.1.output.LayerNorm.bias",
+      "encoderLayer.2.multiHeadAttention.q.weight": "encoder.layer.2.attention.self.query.weight",
+      "encoderLayer.2.multiHeadAttention.q.bias": "encoder.layer.2.attention.self.query.bias",
+      "encoderLayer.2.multiHeadAttention.k.weight": "encoder.layer.2.attention.self.key.weight",
+      "encoderLayer.2.multiHeadAttention.k.bias": "encoder.layer.2.attention.self.key.bias",
+      "encoderLayer.2.multiHeadAttention.v.weight": "encoder.layer.2.attention.self.value.weight",
+      "encoderLayer.2.multiHeadAttention.v.bias": "encoder.layer.2.attention.self.value.bias",
+      "encoderLayer.2.multiHeadAttention.o.weight": "encoder.layer.2.attention.output.dense.weight",
+      "encoderLayer.2.multiHeadAttention.o.bias": "encoder.layer.2.attention.output.dense.bias",
+      "encoderLayer.2.attnLayerNorm.weight": "encoder.layer.2.attention.output.LayerNorm.weight",
+      "encoderLayer.2.attnLayerNorm.bias": "encoder.layer.2.attention.output.LayerNorm.bias",
+      "encoderLayer.2.feedForward.intermediateDense.weight": "encoder.layer.2.intermediate.dense.weight",
+      "encoderLayer.2.feedForward.intermediateDense.bias": "encoder.layer.2.intermediate.dense.bias",
+      "encoderLayer.2.feedForward.outputDense.weight": "encoder.layer.2.output.dense.weight",
+      "encoderLayer.2.feedForward.outputDense.bias": "encoder.layer.2.output.dense.bias",
+      "encoderLayer.2.ffnLayerNorm.weight": "encoder.layer.2.output.LayerNorm.weight",
+      "encoderLayer.2.ffnLayerNorm.bias": "encoder.layer.2.output.LayerNorm.bias",
+      "encoderLayer.3.multiHeadAttention.q.weight": "encoder.layer.3.attention.self.query.weight",
+      "encoderLayer.3.multiHeadAttention.q.bias": "encoder.layer.3.attention.self.query.bias",
+      "encoderLayer.3.multiHeadAttention.k.weight": "encoder.layer.3.attention.self.key.weight",
+      "encoderLayer.3.multiHeadAttention.k.bias": "encoder.layer.3.attention.self.key.bias",
+      "encoderLayer.3.multiHeadAttention.v.weight": "encoder.layer.3.attention.self.value.weight",
+      "encoderLayer.3.multiHeadAttention.v.bias": "encoder.layer.3.attention.self.value.bias",
+      "encoderLayer.3.multiHeadAttention.o.weight": "encoder.layer.3.attention.output.dense.weight",
+      "encoderLayer.3.multiHeadAttention.o.bias": "encoder.layer.3.attention.output.dense.bias",
+      "encoderLayer.3.attnLayerNorm.weight": "encoder.layer.3.attention.output.LayerNorm.weight",
+      "encoderLayer.3.attnLayerNorm.bias": "encoder.layer.3.attention.output.LayerNorm.bias",
+      "encoderLayer.3.feedForward.intermediateDense.weight": "encoder.layer.3.intermediate.dense.weight",
+      "encoderLayer.3.feedForward.intermediateDense.bias": "encoder.layer.3.intermediate.dense.bias",
+      "encoderLayer.3.feedForward.outputDense.weight": "encoder.layer.3.output.dense.weight",
+      "encoderLayer.3.feedForward.outputDense.bias": "encoder.layer.3.output.dense.bias",
+      "encoderLayer.3.ffnLayerNorm.weight": "encoder.layer.3.output.LayerNorm.weight",
+      "encoderLayer.3.ffnLayerNorm.bias": "encoder.layer.3.output.LayerNorm.bias",
+      "encoderLayer.4.multiHeadAttention.q.weight": "encoder.layer.4.attention.self.query.weight",
+      "encoderLayer.4.multiHeadAttention.q.bias": "encoder.layer.4.attention.self.query.bias",
+      "encoderLayer.4.multiHeadAttention.k.weight": "encoder.layer.4.attention.self.key.weight",
+      "encoderLayer.4.multiHeadAttention.k.bias": "encoder.layer.4.attention.self.key.bias",
+      "encoderLayer.4.multiHeadAttention.v.weight": "encoder.layer.4.attention.self.value.weight",
+      "encoderLayer.4.multiHeadAttention.v.bias": "encoder.layer.4.attention.self.value.bias",
+      "encoderLayer.4.multiHeadAttention.o.weight": "encoder.layer.4.attention.output.dense.weight",
+      "encoderLayer.4.multiHeadAttention.o.bias": "encoder.layer.4.attention.output.dense.bias",
+      "encoderLayer.4.attnLayerNorm.weight": "encoder.layer.4.attention.output.LayerNorm.weight",
+      "encoderLayer.4.attnLayerNorm.bias": "encoder.layer.4.attention.output.LayerNorm.bias",
+      "encoderLayer.4.feedForward.intermediateDense.weight": "encoder.layer.4.intermediate.dense.weight",
+      "encoderLayer.4.feedForward.intermediateDense.bias": "encoder.layer.4.intermediate.dense.bias",
+      "encoderLayer.4.feedForward.outputDense.weight": "encoder.layer.4.output.dense.weight",
+      "encoderLayer.4.feedForward.outputDense.bias": "encoder.layer.4.output.dense.bias",
+      "encoderLayer.4.ffnLayerNorm.weight": "encoder.layer.4.output.LayerNorm.weight",
+      "encoderLayer.4.ffnLayerNorm.bias": "encoder.layer.4.output.LayerNorm.bias",
+      "encoderLayer.5.multiHeadAttention.q.weight": "encoder.layer.5.attention.self.query.weight",
+      "encoderLayer.5.multiHeadAttention.q.bias": "encoder.layer.5.attention.self.query.bias",
+      "encoderLayer.5.multiHeadAttention.k.weight": "encoder.layer.5.attention.self.key.weight",
+      "encoderLayer.5.multiHeadAttention.k.bias": "encoder.layer.5.attention.self.key.bias",
+      "encoderLayer.5.multiHeadAttention.v.weight": "encoder.layer.5.attention.self.value.weight",
+      "encoderLayer.5.multiHeadAttention.v.bias": "encoder.layer.5.attention.self.value.bias",
+      "encoderLayer.5.multiHeadAttention.o.weight": "encoder.layer.5.attention.output.dense.weight",
+      "encoderLayer.5.multiHeadAttention.o.bias": "encoder.layer.5.attention.output.dense.bias",
+      "encoderLayer.5.attnLayerNorm.weight": "encoder.layer.5.attention.output.LayerNorm.weight",
+      "encoderLayer.5.attnLayerNorm.bias": "encoder.layer.5.attention.output.LayerNorm.bias",
+      "encoderLayer.5.feedForward.intermediateDense.weight": "encoder.layer.5.intermediate.dense.weight",
+      "encoderLayer.5.feedForward.intermediateDense.bias": "encoder.layer.5.intermediate.dense.bias",
+      "encoderLayer.5.feedForward.outputDense.weight": "encoder.layer.5.output.dense.weight",
+      "encoderLayer.5.feedForward.outputDense.bias": "encoder.layer.5.output.dense.bias",
+      "encoderLayer.5.ffnLayerNorm.weight": "encoder.layer.5.output.LayerNorm.weight",
+      "encoderLayer.5.ffnLayerNorm.bias": "encoder.layer.5.output.LayerNorm.bias",
+      "encoderLayer.6.multiHeadAttention.q.weight": "encoder.layer.6.attention.self.query.weight",
+      "encoderLayer.6.multiHeadAttention.q.bias": "encoder.layer.6.attention.self.query.bias",
+      "encoderLayer.6.multiHeadAttention.k.weight": "encoder.layer.6.attention.self.key.weight",
+      "encoderLayer.6.multiHeadAttention.k.bias": "encoder.layer.6.attention.self.key.bias",
+      "encoderLayer.6.multiHeadAttention.v.weight": "encoder.layer.6.attention.self.value.weight",
+      "encoderLayer.6.multiHeadAttention.v.bias": "encoder.layer.6.attention.self.value.bias",
+      "encoderLayer.6.multiHeadAttention.o.weight": "encoder.layer.6.attention.output.dense.weight",
+      "encoderLayer.6.multiHeadAttention.o.bias": "encoder.layer.6.attention.output.dense.bias",
+      "encoderLayer.6.attnLayerNorm.weight": "encoder.layer.6.attention.output.LayerNorm.weight",
+      "encoderLayer.6.attnLayerNorm.bias": "encoder.layer.6.attention.output.LayerNorm.bias",
+      "encoderLayer.6.feedForward.intermediateDense.weight": "encoder.layer.6.intermediate.dense.weight",
+      "encoderLayer.6.feedForward.intermediateDense.bias": "encoder.layer.6.intermediate.dense.bias",
+      "encoderLayer.6.feedForward.outputDense.weight": "encoder.layer.6.output.dense.weight",
+      "encoderLayer.6.feedForward.outputDense.bias": "encoder.layer.6.output.dense.bias",
+      "encoderLayer.6.ffnLayerNorm.weight": "encoder.layer.6.output.LayerNorm.weight",
+      "encoderLayer.6.ffnLayerNorm.bias": "encoder.layer.6.output.LayerNorm.bias",
+      "encoderLayer.7.multiHeadAttention.q.weight": "encoder.layer.7.attention.self.query.weight",
+      "encoderLayer.7.multiHeadAttention.q.bias": "encoder.layer.7.attention.self.query.bias",
+      "encoderLayer.7.multiHeadAttention.k.weight": "encoder.layer.7.attention.self.key.weight",
+      "encoderLayer.7.multiHeadAttention.k.bias": "encoder.layer.7.attention.self.key.bias",
+      "encoderLayer.7.multiHeadAttention.v.weight": "encoder.layer.7.attention.self.value.weight",
+      "encoderLayer.7.multiHeadAttention.v.bias": "encoder.layer.7.attention.self.value.bias",
+      "encoderLayer.7.multiHeadAttention.o.weight": "encoder.layer.7.attention.output.dense.weight",
+      "encoderLayer.7.multiHeadAttention.o.bias": "encoder.layer.7.attention.output.dense.bias",
+      "encoderLayer.7.attnLayerNorm.weight": "encoder.layer.7.attention.output.LayerNorm.weight",
+      "encoderLayer.7.attnLayerNorm.bias": "encoder.layer.7.attention.output.LayerNorm.bias",
+      "encoderLayer.7.feedForward.intermediateDense.weight": "encoder.layer.7.intermediate.dense.weight",
+      "encoderLayer.7.feedForward.intermediateDense.bias": "encoder.layer.7.intermediate.dense.bias",
+      "encoderLayer.7.feedForward.outputDense.weight": "encoder.layer.7.output.dense.weight",
+      "encoderLayer.7.feedForward.outputDense.bias": "encoder.layer.7.output.dense.bias",
+      "encoderLayer.7.ffnLayerNorm.weight": "encoder.layer.7.output.LayerNorm.weight",
+      "encoderLayer.7.ffnLayerNorm.bias": "encoder.layer.7.output.LayerNorm.bias",
+      "encoderLayer.8.multiHeadAttention.q.weight": "encoder.layer.8.attention.self.query.weight",
+      "encoderLayer.8.multiHeadAttention.q.bias": "encoder.layer.8.attention.self.query.bias",
+      "encoderLayer.8.multiHeadAttention.k.weight": "encoder.layer.8.attention.self.key.weight",
+      "encoderLayer.8.multiHeadAttention.k.bias": "encoder.layer.8.attention.self.key.bias",
+      "encoderLayer.8.multiHeadAttention.v.weight": "encoder.layer.8.attention.self.value.weight",
+      "encoderLayer.8.multiHeadAttention.v.bias": "encoder.layer.8.attention.self.value.bias",
+      "encoderLayer.8.multiHeadAttention.o.weight": "encoder.layer.8.attention.output.dense.weight",
+      "encoderLayer.8.multiHeadAttention.o.bias": "encoder.layer.8.attention.output.dense.bias",
+      "encoderLayer.8.attnLayerNorm.weight": "encoder.layer.8.attention.output.LayerNorm.weight",
+      "encoderLayer.8.attnLayerNorm.bias": "encoder.layer.8.attention.output.LayerNorm.bias",
+      "encoderLayer.8.feedForward.intermediateDense.weight": "encoder.layer.8.intermediate.dense.weight",
+      "encoderLayer.8.feedForward.intermediateDense.bias": "encoder.layer.8.intermediate.dense.bias",
+      "encoderLayer.8.feedForward.outputDense.weight": "encoder.layer.8.output.dense.weight",
+      "encoderLayer.8.feedForward.outputDense.bias": "encoder.layer.8.output.dense.bias",
+      "encoderLayer.8.ffnLayerNorm.weight": "encoder.layer.8.output.LayerNorm.weight",
+      "encoderLayer.8.ffnLayerNorm.bias": "encoder.layer.8.output.LayerNorm.bias",
+      "encoderLayer.9.multiHeadAttention.q.weight": "encoder.layer.9.attention.self.query.weight",
+      "encoderLayer.9.multiHeadAttention.q.bias": "encoder.layer.9.attention.self.query.bias",
+      "encoderLayer.9.multiHeadAttention.k.weight": "encoder.layer.9.attention.self.key.weight",
+      "encoderLayer.9.multiHeadAttention.k.bias": "encoder.layer.9.attention.self.key.bias",
+      "encoderLayer.9.multiHeadAttention.v.weight": "encoder.layer.9.attention.self.value.weight",
+      "encoderLayer.9.multiHeadAttention.v.bias": "encoder.layer.9.attention.self.value.bias",
+      "encoderLayer.9.multiHeadAttention.o.weight": "encoder.layer.9.attention.output.dense.weight",
+      "encoderLayer.9.multiHeadAttention.o.bias": "encoder.layer.9.attention.output.dense.bias",
+      "encoderLayer.9.attnLayerNorm.weight": "encoder.layer.9.attention.output.LayerNorm.weight",
+      "encoderLayer.9.attnLayerNorm.bias": "encoder.layer.9.attention.output.LayerNorm.bias",
+      "encoderLayer.9.feedForward.intermediateDense.weight": "encoder.layer.9.intermediate.dense.weight",
+      "encoderLayer.9.feedForward.intermediateDense.bias": "encoder.layer.9.intermediate.dense.bias",
+      "encoderLayer.9.feedForward.outputDense.weight": "encoder.layer.9.output.dense.weight",
+      "encoderLayer.9.feedForward.outputDense.bias": "encoder.layer.9.output.dense.bias",
+      "encoderLayer.9.ffnLayerNorm.weight": "encoder.layer.9.output.LayerNorm.weight",
+      "encoderLayer.9.ffnLayerNorm.bias": "encoder.layer.9.output.LayerNorm.bias",
+      "encoderLayer.10.multiHeadAttention.q.weight": "encoder.layer.10.attention.self.query.weight",
+      "encoderLayer.10.multiHeadAttention.q.bias": "encoder.layer.10.attention.self.query.bias",
+      "encoderLayer.10.multiHeadAttention.k.weight": "encoder.layer.10.attention.self.key.weight",
+      "encoderLayer.10.multiHeadAttention.k.bias": "encoder.layer.10.attention.self.key.bias",
+      "encoderLayer.10.multiHeadAttention.v.weight": "encoder.layer.10.attention.self.value.weight",
+      "encoderLayer.10.multiHeadAttention.v.bias": "encoder.layer.10.attention.self.value.bias",
+      "encoderLayer.10.multiHeadAttention.o.weight": "encoder.layer.10.attention.output.dense.weight",
+      "encoderLayer.10.multiHeadAttention.o.bias": "encoder.layer.10.attention.output.dense.bias",
+      "encoderLayer.10.attnLayerNorm.weight": "encoder.layer.10.attention.output.LayerNorm.weight",
+      "encoderLayer.10.attnLayerNorm.bias": "encoder.layer.10.attention.output.LayerNorm.bias",
+      "encoderLayer.10.feedForward.intermediateDense.weight": "encoder.layer.10.intermediate.dense.weight",
+      "encoderLayer.10.feedForward.intermediateDense.bias": "encoder.layer.10.intermediate.dense.bias",
+      "encoderLayer.10.feedForward.outputDense.weight": "encoder.layer.10.output.dense.weight",
+      "encoderLayer.10.feedForward.outputDense.bias": "encoder.layer.10.output.dense.bias",
+      "encoderLayer.10.ffnLayerNorm.weight": "encoder.layer.10.output.LayerNorm.weight",
+      "encoderLayer.10.ffnLayerNorm.bias": "encoder.layer.10.output.LayerNorm.bias",
+      "encoderLayer.11.multiHeadAttention.q.weight": "encoder.layer.11.attention.self.query.weight",
+      "encoderLayer.11.multiHeadAttention.q.bias": "encoder.layer.11.attention.self.query.bias",
+      "encoderLayer.11.multiHeadAttention.k.weight": "encoder.layer.11.attention.self.key.weight",
+      "encoderLayer.11.multiHeadAttention.k.bias": "encoder.layer.11.attention.self.key.bias",
+      "encoderLayer.11.multiHeadAttention.v.weight": "encoder.layer.11.attention.self.value.weight",
+      "encoderLayer.11.multiHeadAttention.v.bias": "encoder.layer.11.attention.self.value.bias",
+      "encoderLayer.11.multiHeadAttention.o.weight": "encoder.layer.11.attention.output.dense.weight",
+      "encoderLayer.11.multiHeadAttention.o.bias": "encoder.layer.11.attention.output.dense.bias",
+      "encoderLayer.11.attnLayerNorm.weight": "encoder.layer.11.attention.output.LayerNorm.weight",
+      "encoderLayer.11.attnLayerNorm.bias": "encoder.layer.11.attention.output.LayerNorm.bias",
+      "encoderLayer.11.feedForward.intermediateDense.weight": "encoder.layer.11.intermediate.dense.weight",
+      "encoderLayer.11.feedForward.intermediateDense.bias": "encoder.layer.11.intermediate.dense.bias",
+      "encoderLayer.11.feedForward.outputDense.weight": "encoder.layer.11.output.dense.weight",
+      "encoderLayer.11.feedForward.outputDense.bias": "encoder.layer.11.output.dense.bias",
+      "encoderLayer.11.ffnLayerNorm.weight": "encoder.layer.11.output.LayerNorm.weight",
+      "encoderLayer.11.ffnLayerNorm.bias": "encoder.layer.11.output.LayerNorm.bias",
+	    "encoderLayer.12.multiHeadAttention.q.weight": "encoder.layer.12.attention.self.query.weight",
+      "encoderLayer.12.multiHeadAttention.q.bias": "encoder.layer.12.attention.self.query.bias",
+      "encoderLayer.12.multiHeadAttention.k.weight": "encoder.layer.12.attention.self.key.weight",
+      "encoderLayer.12.multiHeadAttention.k.bias": "encoder.layer.12.attention.self.key.bias",
+      "encoderLayer.12.multiHeadAttention.v.weight": "encoder.layer.12.attention.self.value.weight",
+      "encoderLayer.12.multiHeadAttention.v.bias": "encoder.layer.12.attention.self.value.bias",
+      "encoderLayer.12.multiHeadAttention.o.weight": "encoder.layer.12.attention.output.dense.weight",
+      "encoderLayer.12.multiHeadAttention.o.bias": "encoder.layer.12.attention.output.dense.bias",
+      "encoderLayer.12.attnLayerNorm.weight": "encoder.layer.12.attention.output.LayerNorm.weight",
+      "encoderLayer.12.attnLayerNorm.bias": "encoder.layer.12.attention.output.LayerNorm.bias",
+      "encoderLayer.12.feedForward.intermediateDense.weight": "encoder.layer.12.intermediate.dense.weight",
+      "encoderLayer.12.feedForward.intermediateDense.bias": "encoder.layer.12.intermediate.dense.bias",
+      "encoderLayer.12.feedForward.outputDense.weight": "encoder.layer.12.output.dense.weight",
+      "encoderLayer.12.feedForward.outputDense.bias": "encoder.layer.12.output.dense.bias",
+      "encoderLayer.12.ffnLayerNorm.weight": "encoder.layer.12.output.LayerNorm.weight",
+      "encoderLayer.12.ffnLayerNorm.bias": "encoder.layer.12.output.LayerNorm.bias",
+      "encoderLayer.13.multiHeadAttention.q.weight": "encoder.layer.13.attention.self.query.weight",
+      "encoderLayer.13.multiHeadAttention.q.bias": "encoder.layer.13.attention.self.query.bias",
+      "encoderLayer.13.multiHeadAttention.k.weight": "encoder.layer.13.attention.self.key.weight",
+      "encoderLayer.13.multiHeadAttention.k.bias": "encoder.layer.13.attention.self.key.bias",
+      "encoderLayer.13.multiHeadAttention.v.weight": "encoder.layer.13.attention.self.value.weight",
+      "encoderLayer.13.multiHeadAttention.v.bias": "encoder.layer.13.attention.self.value.bias",
+      "encoderLayer.13.multiHeadAttention.o.weight": "encoder.layer.13.attention.output.dense.weight",
+      "encoderLayer.13.multiHeadAttention.o.bias": "encoder.layer.13.attention.output.dense.bias",
+      "encoderLayer.13.attnLayerNorm.weight": "encoder.layer.13.attention.output.LayerNorm.weight",
+      "encoderLayer.13.attnLayerNorm.bias": "encoder.layer.13.attention.output.LayerNorm.bias",
+      "encoderLayer.13.feedForward.intermediateDense.weight": "encoder.layer.13.intermediate.dense.weight",
+      "encoderLayer.13.feedForward.intermediateDense.bias": "encoder.layer.13.intermediate.dense.bias",
+      "encoderLayer.13.feedForward.outputDense.weight": "encoder.layer.13.output.dense.weight",
+      "encoderLayer.13.feedForward.outputDense.bias": "encoder.layer.13.output.dense.bias",
+      "encoderLayer.13.ffnLayerNorm.weight": "encoder.layer.13.output.LayerNorm.weight",
+      "encoderLayer.13.ffnLayerNorm.bias": "encoder.layer.13.output.LayerNorm.bias",
+      "encoderLayer.14.multiHeadAttention.q.weight": "encoder.layer.14.attention.self.query.weight",
+      "encoderLayer.14.multiHeadAttention.q.bias": "encoder.layer.14.attention.self.query.bias",
+      "encoderLayer.14.multiHeadAttention.k.weight": "encoder.layer.14.attention.self.key.weight",
+      "encoderLayer.14.multiHeadAttention.k.bias": "encoder.layer.14.attention.self.key.bias",
+      "encoderLayer.14.multiHeadAttention.v.weight": "encoder.layer.14.attention.self.value.weight",
+      "encoderLayer.14.multiHeadAttention.v.bias": "encoder.layer.14.attention.self.value.bias",
+      "encoderLayer.14.multiHeadAttention.o.weight": "encoder.layer.14.attention.output.dense.weight",
+      "encoderLayer.14.multiHeadAttention.o.bias": "encoder.layer.14.attention.output.dense.bias",
+      "encoderLayer.14.attnLayerNorm.weight": "encoder.layer.14.attention.output.LayerNorm.weight",
+      "encoderLayer.14.attnLayerNorm.bias": "encoder.layer.14.attention.output.LayerNorm.bias",
+      "encoderLayer.14.feedForward.intermediateDense.weight": "encoder.layer.14.intermediate.dense.weight",
+      "encoderLayer.14.feedForward.intermediateDense.bias": "encoder.layer.14.intermediate.dense.bias",
+      "encoderLayer.14.feedForward.outputDense.weight": "encoder.layer.14.output.dense.weight",
+      "encoderLayer.14.feedForward.outputDense.bias": "encoder.layer.14.output.dense.bias",
+      "encoderLayer.14.ffnLayerNorm.weight": "encoder.layer.14.output.LayerNorm.weight",
+      "encoderLayer.14.ffnLayerNorm.bias": "encoder.layer.14.output.LayerNorm.bias",
+	    "encoderLayer.15.multiHeadAttention.q.weight": "encoder.layer.15.attention.self.query.weight",
+      "encoderLayer.15.multiHeadAttention.q.bias": "encoder.layer.15.attention.self.query.bias",
+      "encoderLayer.15.multiHeadAttention.k.weight": "encoder.layer.15.attention.self.key.weight",
+      "encoderLayer.15.multiHeadAttention.k.bias": "encoder.layer.15.attention.self.key.bias",
+      "encoderLayer.15.multiHeadAttention.v.weight": "encoder.layer.15.attention.self.value.weight",
+      "encoderLayer.15.multiHeadAttention.v.bias": "encoder.layer.15.attention.self.value.bias",
+      "encoderLayer.15.multiHeadAttention.o.weight": "encoder.layer.15.attention.output.dense.weight",
+      "encoderLayer.15.multiHeadAttention.o.bias": "encoder.layer.15.attention.output.dense.bias",
+      "encoderLayer.15.attnLayerNorm.weight": "encoder.layer.15.attention.output.LayerNorm.weight",
+      "encoderLayer.15.attnLayerNorm.bias": "encoder.layer.15.attention.output.LayerNorm.bias",
+      "encoderLayer.15.feedForward.intermediateDense.weight": "encoder.layer.15.intermediate.dense.weight",
+      "encoderLayer.15.feedForward.intermediateDense.bias": "encoder.layer.15.intermediate.dense.bias",
+      "encoderLayer.15.feedForward.outputDense.weight": "encoder.layer.15.output.dense.weight",
+      "encoderLayer.15.feedForward.outputDense.bias": "encoder.layer.15.output.dense.bias",
+      "encoderLayer.15.ffnLayerNorm.weight": "encoder.layer.15.output.LayerNorm.weight",
+      "encoderLayer.15.ffnLayerNorm.bias": "encoder.layer.15.output.LayerNorm.bias",
+      "encoderLayer.16.multiHeadAttention.q.weight": "encoder.layer.16.attention.self.query.weight",
+      "encoderLayer.16.multiHeadAttention.q.bias": "encoder.layer.16.attention.self.query.bias",
+      "encoderLayer.16.multiHeadAttention.k.weight": "encoder.layer.16.attention.self.key.weight",
+      "encoderLayer.16.multiHeadAttention.k.bias": "encoder.layer.16.attention.self.key.bias",
+      "encoderLayer.16.multiHeadAttention.v.weight": "encoder.layer.16.attention.self.value.weight",
+      "encoderLayer.16.multiHeadAttention.v.bias": "encoder.layer.16.attention.self.value.bias",
+      "encoderLayer.16.multiHeadAttention.o.weight": "encoder.layer.16.attention.output.dense.weight",
+      "encoderLayer.16.multiHeadAttention.o.bias": "encoder.layer.16.attention.output.dense.bias",
+      "encoderLayer.16.attnLayerNorm.weight": "encoder.layer.16.attention.output.LayerNorm.weight",
+      "encoderLayer.16.attnLayerNorm.bias": "encoder.layer.16.attention.output.LayerNorm.bias",
+      "encoderLayer.16.feedForward.intermediateDense.weight": "encoder.layer.16.intermediate.dense.weight",
+      "encoderLayer.16.feedForward.intermediateDense.bias": "encoder.layer.16.intermediate.dense.bias",
+      "encoderLayer.16.feedForward.outputDense.weight": "encoder.layer.16.output.dense.weight",
+      "encoderLayer.16.feedForward.outputDense.bias": "encoder.layer.16.output.dense.bias",
+      "encoderLayer.16.ffnLayerNorm.weight": "encoder.layer.16.output.LayerNorm.weight",
+      "encoderLayer.16.ffnLayerNorm.bias": "encoder.layer.16.output.LayerNorm.bias",
+      "encoderLayer.17.multiHeadAttention.q.weight": "encoder.layer.17.attention.self.query.weight",
+      "encoderLayer.17.multiHeadAttention.q.bias": "encoder.layer.17.attention.self.query.bias",
+      "encoderLayer.17.multiHeadAttention.k.weight": "encoder.layer.17.attention.self.key.weight",
+      "encoderLayer.17.multiHeadAttention.k.bias": "encoder.layer.17.attention.self.key.bias",
+      "encoderLayer.17.multiHeadAttention.v.weight": "encoder.layer.17.attention.self.value.weight",
+      "encoderLayer.17.multiHeadAttention.v.bias": "encoder.layer.17.attention.self.value.bias",
+      "encoderLayer.17.multiHeadAttention.o.weight": "encoder.layer.17.attention.output.dense.weight",
+      "encoderLayer.17.multiHeadAttention.o.bias": "encoder.layer.17.attention.output.dense.bias",
+      "encoderLayer.17.attnLayerNorm.weight": "encoder.layer.17.attention.output.LayerNorm.weight",
+      "encoderLayer.17.attnLayerNorm.bias": "encoder.layer.17.attention.output.LayerNorm.bias",
+      "encoderLayer.17.feedForward.intermediateDense.weight": "encoder.layer.17.intermediate.dense.weight",
+      "encoderLayer.17.feedForward.intermediateDense.bias": "encoder.layer.17.intermediate.dense.bias",
+      "encoderLayer.17.feedForward.outputDense.weight": "encoder.layer.17.output.dense.weight",
+      "encoderLayer.17.feedForward.outputDense.bias": "encoder.layer.17.output.dense.bias",
+      "encoderLayer.17.ffnLayerNorm.weight": "encoder.layer.17.output.LayerNorm.weight",
+      "encoderLayer.17.ffnLayerNorm.bias": "encoder.layer.17.output.LayerNorm.bias",
+      "encoderLayer.18.multiHeadAttention.q.weight": "encoder.layer.18.attention.self.query.weight",
+      "encoderLayer.18.multiHeadAttention.q.bias": "encoder.layer.18.attention.self.query.bias",
+      "encoderLayer.18.multiHeadAttention.k.weight": "encoder.layer.18.attention.self.key.weight",
+      "encoderLayer.18.multiHeadAttention.k.bias": "encoder.layer.18.attention.self.key.bias",
+      "encoderLayer.18.multiHeadAttention.v.weight": "encoder.layer.18.attention.self.value.weight",
+      "encoderLayer.18.multiHeadAttention.v.bias": "encoder.layer.18.attention.self.value.bias",
+      "encoderLayer.18.multiHeadAttention.o.weight": "encoder.layer.18.attention.output.dense.weight",
+      "encoderLayer.18.multiHeadAttention.o.bias": "encoder.layer.18.attention.output.dense.bias",
+      "encoderLayer.18.attnLayerNorm.weight": "encoder.layer.18.attention.output.LayerNorm.weight",
+      "encoderLayer.18.attnLayerNorm.bias": "encoder.layer.18.attention.output.LayerNorm.bias",
+      "encoderLayer.18.feedForward.intermediateDense.weight": "encoder.layer.18.intermediate.dense.weight",
+      "encoderLayer.18.feedForward.intermediateDense.bias": "encoder.layer.18.intermediate.dense.bias",
+      "encoderLayer.18.feedForward.outputDense.weight": "encoder.layer.18.output.dense.weight",
+      "encoderLayer.18.feedForward.outputDense.bias": "encoder.layer.18.output.dense.bias",
+      "encoderLayer.18.ffnLayerNorm.weight": "encoder.layer.18.output.LayerNorm.weight",
+      "encoderLayer.18.ffnLayerNorm.bias": "encoder.layer.18.output.LayerNorm.bias",
+      "encoderLayer.19.multiHeadAttention.q.weight": "encoder.layer.19.attention.self.query.weight",
+      "encoderLayer.19.multiHeadAttention.q.bias": "encoder.layer.19.attention.self.query.bias",
+      "encoderLayer.19.multiHeadAttention.k.weight": "encoder.layer.19.attention.self.key.weight",
+      "encoderLayer.19.multiHeadAttention.k.bias": "encoder.layer.19.attention.self.key.bias",
+      "encoderLayer.19.multiHeadAttention.v.weight": "encoder.layer.19.attention.self.value.weight",
+      "encoderLayer.19.multiHeadAttention.v.bias": "encoder.layer.19.attention.self.value.bias",
+      "encoderLayer.19.multiHeadAttention.o.weight": "encoder.layer.19.attention.output.dense.weight",
+      "encoderLayer.19.multiHeadAttention.o.bias": "encoder.layer.19.attention.output.dense.bias",
+      "encoderLayer.19.attnLayerNorm.weight": "encoder.layer.19.attention.output.LayerNorm.weight",
+      "encoderLayer.19.attnLayerNorm.bias": "encoder.layer.19.attention.output.LayerNorm.bias",
+      "encoderLayer.19.feedForward.intermediateDense.weight": "encoder.layer.19.intermediate.dense.weight",
+      "encoderLayer.19.feedForward.intermediateDense.bias": "encoder.layer.19.intermediate.dense.bias",
+      "encoderLayer.19.feedForward.outputDense.weight": "encoder.layer.19.output.dense.weight",
+      "encoderLayer.19.feedForward.outputDense.bias": "encoder.layer.19.output.dense.bias",
+      "encoderLayer.19.ffnLayerNorm.weight": "encoder.layer.19.output.LayerNorm.weight",
+      "encoderLayer.19.ffnLayerNorm.bias": "encoder.layer.19.output.LayerNorm.bias",
+      "encoderLayer.20.multiHeadAttention.q.weight": "encoder.layer.20.attention.self.query.weight",
+      "encoderLayer.20.multiHeadAttention.q.bias": "encoder.layer.20.attention.self.query.bias",
+      "encoderLayer.20.multiHeadAttention.k.weight": "encoder.layer.20.attention.self.key.weight",
+      "encoderLayer.20.multiHeadAttention.k.bias": "encoder.layer.20.attention.self.key.bias",
+      "encoderLayer.20.multiHeadAttention.v.weight": "encoder.layer.20.attention.self.value.weight",
+      "encoderLayer.20.multiHeadAttention.v.bias": "encoder.layer.20.attention.self.value.bias",
+      "encoderLayer.20.multiHeadAttention.o.weight": "encoder.layer.20.attention.output.dense.weight",
+      "encoderLayer.20.multiHeadAttention.o.bias": "encoder.layer.20.attention.output.dense.bias",
+      "encoderLayer.20.attnLayerNorm.weight": "encoder.layer.20.attention.output.LayerNorm.weight",
+      "encoderLayer.20.attnLayerNorm.bias": "encoder.layer.20.attention.output.LayerNorm.bias",
+      "encoderLayer.20.feedForward.intermediateDense.weight": "encoder.layer.20.intermediate.dense.weight",
+      "encoderLayer.20.feedForward.intermediateDense.bias": "encoder.layer.20.intermediate.dense.bias",
+      "encoderLayer.20.feedForward.outputDense.weight": "encoder.layer.20.output.dense.weight",
+      "encoderLayer.20.feedForward.outputDense.bias": "encoder.layer.20.output.dense.bias",
+      "encoderLayer.20.ffnLayerNorm.weight": "encoder.layer.20.output.LayerNorm.weight",
+      "encoderLayer.20.ffnLayerNorm.bias": "encoder.layer.20.output.LayerNorm.bias",
+      "encoderLayer.21.multiHeadAttention.q.weight": "encoder.layer.21.attention.self.query.weight",
+      "encoderLayer.21.multiHeadAttention.q.bias": "encoder.layer.21.attention.self.query.bias",
+      "encoderLayer.21.multiHeadAttention.k.weight": "encoder.layer.21.attention.self.key.weight",
+      "encoderLayer.21.multiHeadAttention.k.bias": "encoder.layer.21.attention.self.key.bias",
+      "encoderLayer.21.multiHeadAttention.v.weight": "encoder.layer.21.attention.self.value.weight",
+      "encoderLayer.21.multiHeadAttention.v.bias": "encoder.layer.21.attention.self.value.bias",
+      "encoderLayer.21.multiHeadAttention.o.weight": "encoder.layer.21.attention.output.dense.weight",
+      "encoderLayer.21.multiHeadAttention.o.bias": "encoder.layer.21.attention.output.dense.bias",
+      "encoderLayer.21.attnLayerNorm.weight": "encoder.layer.21.attention.output.LayerNorm.weight",
+      "encoderLayer.21.attnLayerNorm.bias": "encoder.layer.21.attention.output.LayerNorm.bias",
+      "encoderLayer.21.feedForward.intermediateDense.weight": "encoder.layer.21.intermediate.dense.weight",
+      "encoderLayer.21.feedForward.intermediateDense.bias": "encoder.layer.21.intermediate.dense.bias",
+      "encoderLayer.21.feedForward.outputDense.weight": "encoder.layer.21.output.dense.weight",
+      "encoderLayer.21.feedForward.outputDense.bias": "encoder.layer.21.output.dense.bias",
+      "encoderLayer.21.ffnLayerNorm.weight": "encoder.layer.21.output.LayerNorm.weight",
+      "encoderLayer.21.ffnLayerNorm.bias": "encoder.layer.21.output.LayerNorm.bias",
+      "encoderLayer.22.multiHeadAttention.q.weight": "encoder.layer.22.attention.self.query.weight",
+      "encoderLayer.22.multiHeadAttention.q.bias": "encoder.layer.22.attention.self.query.bias",
+      "encoderLayer.22.multiHeadAttention.k.weight": "encoder.layer.22.attention.self.key.weight",
+      "encoderLayer.22.multiHeadAttention.k.bias": "encoder.layer.22.attention.self.key.bias",
+      "encoderLayer.22.multiHeadAttention.v.weight": "encoder.layer.22.attention.self.value.weight",
+      "encoderLayer.22.multiHeadAttention.v.bias": "encoder.layer.22.attention.self.value.bias",
+      "encoderLayer.22.multiHeadAttention.o.weight": "encoder.layer.22.attention.output.dense.weight",
+      "encoderLayer.22.multiHeadAttention.o.bias": "encoder.layer.22.attention.output.dense.bias",
+      "encoderLayer.22.attnLayerNorm.weight": "encoder.layer.22.attention.output.LayerNorm.weight",
+      "encoderLayer.22.attnLayerNorm.bias": "encoder.layer.22.attention.output.LayerNorm.bias",
+      "encoderLayer.22.feedForward.intermediateDense.weight": "encoder.layer.22.intermediate.dense.weight",
+      "encoderLayer.22.feedForward.intermediateDense.bias": "encoder.layer.22.intermediate.dense.bias",
+      "encoderLayer.22.feedForward.outputDense.weight": "encoder.layer.22.output.dense.weight",
+      "encoderLayer.22.feedForward.outputDense.bias": "encoder.layer.22.output.dense.bias",
+      "encoderLayer.22.ffnLayerNorm.weight": "encoder.layer.22.output.LayerNorm.weight",
+      "encoderLayer.22.ffnLayerNorm.bias": "encoder.layer.22.output.LayerNorm.bias",
+      "encoderLayer.23.multiHeadAttention.q.weight": "encoder.layer.23.attention.self.query.weight",
+      "encoderLayer.23.multiHeadAttention.q.bias": "encoder.layer.23.attention.self.query.bias",
+      "encoderLayer.23.multiHeadAttention.k.weight": "encoder.layer.23.attention.self.key.weight",
+      "encoderLayer.23.multiHeadAttention.k.bias": "encoder.layer.23.attention.self.key.bias",
+      "encoderLayer.23.multiHeadAttention.v.weight": "encoder.layer.23.attention.self.value.weight",
+      "encoderLayer.23.multiHeadAttention.v.bias": "encoder.layer.23.attention.self.value.bias",
+      "encoderLayer.23.multiHeadAttention.o.weight": "encoder.layer.23.attention.output.dense.weight",
+      "encoderLayer.23.multiHeadAttention.o.bias": "encoder.layer.23.attention.output.dense.bias",
+      "encoderLayer.23.attnLayerNorm.weight": "encoder.layer.23.attention.output.LayerNorm.weight",
+      "encoderLayer.23.attnLayerNorm.bias": "encoder.layer.23.attention.output.LayerNorm.bias",
+      "encoderLayer.23.feedForward.intermediateDense.weight": "encoder.layer.23.intermediate.dense.weight",
+      "encoderLayer.23.feedForward.intermediateDense.bias": "encoder.layer.23.intermediate.dense.bias",
+      "encoderLayer.23.feedForward.outputDense.weight": "encoder.layer.23.output.dense.weight",
+      "encoderLayer.23.feedForward.outputDense.bias": "encoder.layer.23.output.dense.bias",
+      "encoderLayer.23.ffnLayerNorm.weight": "encoder.layer.23.output.LayerNorm.weight",
+      "encoderLayer.23.ffnLayerNorm.bias": "encoder.layer.23.output.LayerNorm.bias"
+  }
+}

bge-large-zh-v1.5/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,415 @@

+{
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "type_vocab_size": 2,
+  "vocab_size": 21128,
+  "with_pool": true,
+  "pool_strategy": "cls",
+  "norm_mode": "torch_buildin",
+  "mapping": {
+      "embeddings.word_embeddings.weight": "embeddings.word_embeddings.weight",
+      "embeddings.position_embeddings.weight": "embeddings.position_embeddings.weight",
+      "embeddings.segment_embeddings.weight": "embeddings.token_type_embeddings.weight",
+      "embeddings.layerNorm.weight": "embeddings.LayerNorm.weight",
+      "embeddings.layerNorm.bias": "embeddings.LayerNorm.bias",
+      "pooler.weight": "pooler.dense.weight",
+      "pooler.bias": "pooler.dense.bias",
+      "encoderLayer.0.multiHeadAttention.q.weight": "encoder.layer.0.attention.self.query.weight",
+      "encoderLayer.0.multiHeadAttention.q.bias": "encoder.layer.0.attention.self.query.bias",
+      "encoderLayer.0.multiHeadAttention.k.weight": "encoder.layer.0.attention.self.key.weight",
+      "encoderLayer.0.multiHeadAttention.k.bias": "encoder.layer.0.attention.self.key.bias",
+      "encoderLayer.0.multiHeadAttention.v.weight": "encoder.layer.0.attention.self.value.weight",
+      "encoderLayer.0.multiHeadAttention.v.bias": "encoder.layer.0.attention.self.value.bias",
+      "encoderLayer.0.multiHeadAttention.o.weight": "encoder.layer.0.attention.output.dense.weight",
+      "encoderLayer.0.multiHeadAttention.o.bias": "encoder.layer.0.attention.output.dense.bias",
+      "encoderLayer.0.attnLayerNorm.weight": "encoder.layer.0.attention.output.LayerNorm.weight",
+      "encoderLayer.0.attnLayerNorm.bias": "encoder.layer.0.attention.output.LayerNorm.bias",
+      "encoderLayer.0.feedForward.intermediateDense.weight": "encoder.layer.0.intermediate.dense.weight",
+      "encoderLayer.0.feedForward.intermediateDense.bias": "encoder.layer.0.intermediate.dense.bias",
+      "encoderLayer.0.feedForward.outputDense.weight": "encoder.layer.0.output.dense.weight",
+      "encoderLayer.0.feedForward.outputDense.bias": "encoder.layer.0.output.dense.bias",
+      "encoderLayer.0.ffnLayerNorm.weight": "encoder.layer.0.output.LayerNorm.weight",
+      "encoderLayer.0.ffnLayerNorm.bias": "encoder.layer.0.output.LayerNorm.bias",
+      "encoderLayer.1.multiHeadAttention.q.weight": "encoder.layer.1.attention.self.query.weight",
+      "encoderLayer.1.multiHeadAttention.q.bias": "encoder.layer.1.attention.self.query.bias",
+      "encoderLayer.1.multiHeadAttention.k.weight": "encoder.layer.1.attention.self.key.weight",
+      "encoderLayer.1.multiHeadAttention.k.bias": "encoder.layer.1.attention.self.key.bias",
+      "encoderLayer.1.multiHeadAttention.v.weight": "encoder.layer.1.attention.self.value.weight",
+      "encoderLayer.1.multiHeadAttention.v.bias": "encoder.layer.1.attention.self.value.bias",
+      "encoderLayer.1.multiHeadAttention.o.weight": "encoder.layer.1.attention.output.dense.weight",
+      "encoderLayer.1.multiHeadAttention.o.bias": "encoder.layer.1.attention.output.dense.bias",
+      "encoderLayer.1.attnLayerNorm.weight": "encoder.layer.1.attention.output.LayerNorm.weight",
+      "encoderLayer.1.attnLayerNorm.bias": "encoder.layer.1.attention.output.LayerNorm.bias",
+      "encoderLayer.1.feedForward.intermediateDense.weight": "encoder.layer.1.intermediate.dense.weight",
+      "encoderLayer.1.feedForward.intermediateDense.bias": "encoder.layer.1.intermediate.dense.bias",
+      "encoderLayer.1.feedForward.outputDense.weight": "encoder.layer.1.output.dense.weight",
+      "encoderLayer.1.feedForward.outputDense.bias": "encoder.layer.1.output.dense.bias",
+      "encoderLayer.1.ffnLayerNorm.weight": "encoder.layer.1.output.LayerNorm.weight",
+      "encoderLayer.1.ffnLayerNorm.bias": "encoder.layer.1.output.LayerNorm.bias",
+      "encoderLayer.2.multiHeadAttention.q.weight": "encoder.layer.2.attention.self.query.weight",
+      "encoderLayer.2.multiHeadAttention.q.bias": "encoder.layer.2.attention.self.query.bias",
+      "encoderLayer.2.multiHeadAttention.k.weight": "encoder.layer.2.attention.self.key.weight",
+      "encoderLayer.2.multiHeadAttention.k.bias": "encoder.layer.2.attention.self.key.bias",
+      "encoderLayer.2.multiHeadAttention.v.weight": "encoder.layer.2.attention.self.value.weight",
+      "encoderLayer.2.multiHeadAttention.v.bias": "encoder.layer.2.attention.self.value.bias",
+      "encoderLayer.2.multiHeadAttention.o.weight": "encoder.layer.2.attention.output.dense.weight",
+      "encoderLayer.2.multiHeadAttention.o.bias": "encoder.layer.2.attention.output.dense.bias",
+      "encoderLayer.2.attnLayerNorm.weight": "encoder.layer.2.attention.output.LayerNorm.weight",
+      "encoderLayer.2.attnLayerNorm.bias": "encoder.layer.2.attention.output.LayerNorm.bias",
+      "encoderLayer.2.feedForward.intermediateDense.weight": "encoder.layer.2.intermediate.dense.weight",
+      "encoderLayer.2.feedForward.intermediateDense.bias": "encoder.layer.2.intermediate.dense.bias",
+      "encoderLayer.2.feedForward.outputDense.weight": "encoder.layer.2.output.dense.weight",
+      "encoderLayer.2.feedForward.outputDense.bias": "encoder.layer.2.output.dense.bias",
+      "encoderLayer.2.ffnLayerNorm.weight": "encoder.layer.2.output.LayerNorm.weight",
+      "encoderLayer.2.ffnLayerNorm.bias": "encoder.layer.2.output.LayerNorm.bias",
+      "encoderLayer.3.multiHeadAttention.q.weight": "encoder.layer.3.attention.self.query.weight",
+      "encoderLayer.3.multiHeadAttention.q.bias": "encoder.layer.3.attention.self.query.bias",
+      "encoderLayer.3.multiHeadAttention.k.weight": "encoder.layer.3.attention.self.key.weight",
+      "encoderLayer.3.multiHeadAttention.k.bias": "encoder.layer.3.attention.self.key.bias",
+      "encoderLayer.3.multiHeadAttention.v.weight": "encoder.layer.3.attention.self.value.weight",
+      "encoderLayer.3.multiHeadAttention.v.bias": "encoder.layer.3.attention.self.value.bias",
+      "encoderLayer.3.multiHeadAttention.o.weight": "encoder.layer.3.attention.output.dense.weight",
+      "encoderLayer.3.multiHeadAttention.o.bias": "encoder.layer.3.attention.output.dense.bias",
+      "encoderLayer.3.attnLayerNorm.weight": "encoder.layer.3.attention.output.LayerNorm.weight",
+      "encoderLayer.3.attnLayerNorm.bias": "encoder.layer.3.attention.output.LayerNorm.bias",
+      "encoderLayer.3.feedForward.intermediateDense.weight": "encoder.layer.3.intermediate.dense.weight",
+      "encoderLayer.3.feedForward.intermediateDense.bias": "encoder.layer.3.intermediate.dense.bias",
+      "encoderLayer.3.feedForward.outputDense.weight": "encoder.layer.3.output.dense.weight",
+      "encoderLayer.3.feedForward.outputDense.bias": "encoder.layer.3.output.dense.bias",
+      "encoderLayer.3.ffnLayerNorm.weight": "encoder.layer.3.output.LayerNorm.weight",
+      "encoderLayer.3.ffnLayerNorm.bias": "encoder.layer.3.output.LayerNorm.bias",
+      "encoderLayer.4.multiHeadAttention.q.weight": "encoder.layer.4.attention.self.query.weight",
+      "encoderLayer.4.multiHeadAttention.q.bias": "encoder.layer.4.attention.self.query.bias",
+      "encoderLayer.4.multiHeadAttention.k.weight": "encoder.layer.4.attention.self.key.weight",
+      "encoderLayer.4.multiHeadAttention.k.bias": "encoder.layer.4.attention.self.key.bias",
+      "encoderLayer.4.multiHeadAttention.v.weight": "encoder.layer.4.attention.self.value.weight",
+      "encoderLayer.4.multiHeadAttention.v.bias": "encoder.layer.4.attention.self.value.bias",
+      "encoderLayer.4.multiHeadAttention.o.weight": "encoder.layer.4.attention.output.dense.weight",
+      "encoderLayer.4.multiHeadAttention.o.bias": "encoder.layer.4.attention.output.dense.bias",
+      "encoderLayer.4.attnLayerNorm.weight": "encoder.layer.4.attention.output.LayerNorm.weight",
+      "encoderLayer.4.attnLayerNorm.bias": "encoder.layer.4.attention.output.LayerNorm.bias",
+      "encoderLayer.4.feedForward.intermediateDense.weight": "encoder.layer.4.intermediate.dense.weight",
+      "encoderLayer.4.feedForward.intermediateDense.bias": "encoder.layer.4.intermediate.dense.bias",
+      "encoderLayer.4.feedForward.outputDense.weight": "encoder.layer.4.output.dense.weight",
+      "encoderLayer.4.feedForward.outputDense.bias": "encoder.layer.4.output.dense.bias",
+      "encoderLayer.4.ffnLayerNorm.weight": "encoder.layer.4.output.LayerNorm.weight",
+      "encoderLayer.4.ffnLayerNorm.bias": "encoder.layer.4.output.LayerNorm.bias",
+      "encoderLayer.5.multiHeadAttention.q.weight": "encoder.layer.5.attention.self.query.weight",
+      "encoderLayer.5.multiHeadAttention.q.bias": "encoder.layer.5.attention.self.query.bias",
+      "encoderLayer.5.multiHeadAttention.k.weight": "encoder.layer.5.attention.self.key.weight",
+      "encoderLayer.5.multiHeadAttention.k.bias": "encoder.layer.5.attention.self.key.bias",
+      "encoderLayer.5.multiHeadAttention.v.weight": "encoder.layer.5.attention.self.value.weight",
+      "encoderLayer.5.multiHeadAttention.v.bias": "encoder.layer.5.attention.self.value.bias",
+      "encoderLayer.5.multiHeadAttention.o.weight": "encoder.layer.5.attention.output.dense.weight",
+      "encoderLayer.5.multiHeadAttention.o.bias": "encoder.layer.5.attention.output.dense.bias",
+      "encoderLayer.5.attnLayerNorm.weight": "encoder.layer.5.attention.output.LayerNorm.weight",
+      "encoderLayer.5.attnLayerNorm.bias": "encoder.layer.5.attention.output.LayerNorm.bias",
+      "encoderLayer.5.feedForward.intermediateDense.weight": "encoder.layer.5.intermediate.dense.weight",
+      "encoderLayer.5.feedForward.intermediateDense.bias": "encoder.layer.5.intermediate.dense.bias",
+      "encoderLayer.5.feedForward.outputDense.weight": "encoder.layer.5.output.dense.weight",
+      "encoderLayer.5.feedForward.outputDense.bias": "encoder.layer.5.output.dense.bias",
+      "encoderLayer.5.ffnLayerNorm.weight": "encoder.layer.5.output.LayerNorm.weight",
+      "encoderLayer.5.ffnLayerNorm.bias": "encoder.layer.5.output.LayerNorm.bias",
+      "encoderLayer.6.multiHeadAttention.q.weight": "encoder.layer.6.attention.self.query.weight",
+      "encoderLayer.6.multiHeadAttention.q.bias": "encoder.layer.6.attention.self.query.bias",
+      "encoderLayer.6.multiHeadAttention.k.weight": "encoder.layer.6.attention.self.key.weight",
+      "encoderLayer.6.multiHeadAttention.k.bias": "encoder.layer.6.attention.self.key.bias",
+      "encoderLayer.6.multiHeadAttention.v.weight": "encoder.layer.6.attention.self.value.weight",
+      "encoderLayer.6.multiHeadAttention.v.bias": "encoder.layer.6.attention.self.value.bias",
+      "encoderLayer.6.multiHeadAttention.o.weight": "encoder.layer.6.attention.output.dense.weight",
+      "encoderLayer.6.multiHeadAttention.o.bias": "encoder.layer.6.attention.output.dense.bias",
+      "encoderLayer.6.attnLayerNorm.weight": "encoder.layer.6.attention.output.LayerNorm.weight",
+      "encoderLayer.6.attnLayerNorm.bias": "encoder.layer.6.attention.output.LayerNorm.bias",
+      "encoderLayer.6.feedForward.intermediateDense.weight": "encoder.layer.6.intermediate.dense.weight",
+      "encoderLayer.6.feedForward.intermediateDense.bias": "encoder.layer.6.intermediate.dense.bias",
+      "encoderLayer.6.feedForward.outputDense.weight": "encoder.layer.6.output.dense.weight",
+      "encoderLayer.6.feedForward.outputDense.bias": "encoder.layer.6.output.dense.bias",
+      "encoderLayer.6.ffnLayerNorm.weight": "encoder.layer.6.output.LayerNorm.weight",
+      "encoderLayer.6.ffnLayerNorm.bias": "encoder.layer.6.output.LayerNorm.bias",
+      "encoderLayer.7.multiHeadAttention.q.weight": "encoder.layer.7.attention.self.query.weight",
+      "encoderLayer.7.multiHeadAttention.q.bias": "encoder.layer.7.attention.self.query.bias",
+      "encoderLayer.7.multiHeadAttention.k.weight": "encoder.layer.7.attention.self.key.weight",
+      "encoderLayer.7.multiHeadAttention.k.bias": "encoder.layer.7.attention.self.key.bias",
+      "encoderLayer.7.multiHeadAttention.v.weight": "encoder.layer.7.attention.self.value.weight",
+      "encoderLayer.7.multiHeadAttention.v.bias": "encoder.layer.7.attention.self.value.bias",
+      "encoderLayer.7.multiHeadAttention.o.weight": "encoder.layer.7.attention.output.dense.weight",
+      "encoderLayer.7.multiHeadAttention.o.bias": "encoder.layer.7.attention.output.dense.bias",
+      "encoderLayer.7.attnLayerNorm.weight": "encoder.layer.7.attention.output.LayerNorm.weight",
+      "encoderLayer.7.attnLayerNorm.bias": "encoder.layer.7.attention.output.LayerNorm.bias",
+      "encoderLayer.7.feedForward.intermediateDense.weight": "encoder.layer.7.intermediate.dense.weight",
+      "encoderLayer.7.feedForward.intermediateDense.bias": "encoder.layer.7.intermediate.dense.bias",
+      "encoderLayer.7.feedForward.outputDense.weight": "encoder.layer.7.output.dense.weight",
+      "encoderLayer.7.feedForward.outputDense.bias": "encoder.layer.7.output.dense.bias",
+      "encoderLayer.7.ffnLayerNorm.weight": "encoder.layer.7.output.LayerNorm.weight",
+      "encoderLayer.7.ffnLayerNorm.bias": "encoder.layer.7.output.LayerNorm.bias",
+      "encoderLayer.8.multiHeadAttention.q.weight": "encoder.layer.8.attention.self.query.weight",
+      "encoderLayer.8.multiHeadAttention.q.bias": "encoder.layer.8.attention.self.query.bias",
+      "encoderLayer.8.multiHeadAttention.k.weight": "encoder.layer.8.attention.self.key.weight",
+      "encoderLayer.8.multiHeadAttention.k.bias": "encoder.layer.8.attention.self.key.bias",
+      "encoderLayer.8.multiHeadAttention.v.weight": "encoder.layer.8.attention.self.value.weight",
+      "encoderLayer.8.multiHeadAttention.v.bias": "encoder.layer.8.attention.self.value.bias",
+      "encoderLayer.8.multiHeadAttention.o.weight": "encoder.layer.8.attention.output.dense.weight",
+      "encoderLayer.8.multiHeadAttention.o.bias": "encoder.layer.8.attention.output.dense.bias",
+      "encoderLayer.8.attnLayerNorm.weight": "encoder.layer.8.attention.output.LayerNorm.weight",
+      "encoderLayer.8.attnLayerNorm.bias": "encoder.layer.8.attention.output.LayerNorm.bias",
+      "encoderLayer.8.feedForward.intermediateDense.weight": "encoder.layer.8.intermediate.dense.weight",
+      "encoderLayer.8.feedForward.intermediateDense.bias": "encoder.layer.8.intermediate.dense.bias",
+      "encoderLayer.8.feedForward.outputDense.weight": "encoder.layer.8.output.dense.weight",
+      "encoderLayer.8.feedForward.outputDense.bias": "encoder.layer.8.output.dense.bias",
+      "encoderLayer.8.ffnLayerNorm.weight": "encoder.layer.8.output.LayerNorm.weight",
+      "encoderLayer.8.ffnLayerNorm.bias": "encoder.layer.8.output.LayerNorm.bias",
+      "encoderLayer.9.multiHeadAttention.q.weight": "encoder.layer.9.attention.self.query.weight",
+      "encoderLayer.9.multiHeadAttention.q.bias": "encoder.layer.9.attention.self.query.bias",
+      "encoderLayer.9.multiHeadAttention.k.weight": "encoder.layer.9.attention.self.key.weight",
+      "encoderLayer.9.multiHeadAttention.k.bias": "encoder.layer.9.attention.self.key.bias",
+      "encoderLayer.9.multiHeadAttention.v.weight": "encoder.layer.9.attention.self.value.weight",
+      "encoderLayer.9.multiHeadAttention.v.bias": "encoder.layer.9.attention.self.value.bias",
+      "encoderLayer.9.multiHeadAttention.o.weight": "encoder.layer.9.attention.output.dense.weight",
+      "encoderLayer.9.multiHeadAttention.o.bias": "encoder.layer.9.attention.output.dense.bias",
+      "encoderLayer.9.attnLayerNorm.weight": "encoder.layer.9.attention.output.LayerNorm.weight",
+      "encoderLayer.9.attnLayerNorm.bias": "encoder.layer.9.attention.output.LayerNorm.bias",
+      "encoderLayer.9.feedForward.intermediateDense.weight": "encoder.layer.9.intermediate.dense.weight",
+      "encoderLayer.9.feedForward.intermediateDense.bias": "encoder.layer.9.intermediate.dense.bias",
+      "encoderLayer.9.feedForward.outputDense.weight": "encoder.layer.9.output.dense.weight",
+      "encoderLayer.9.feedForward.outputDense.bias": "encoder.layer.9.output.dense.bias",
+      "encoderLayer.9.ffnLayerNorm.weight": "encoder.layer.9.output.LayerNorm.weight",
+      "encoderLayer.9.ffnLayerNorm.bias": "encoder.layer.9.output.LayerNorm.bias",
+      "encoderLayer.10.multiHeadAttention.q.weight": "encoder.layer.10.attention.self.query.weight",
+      "encoderLayer.10.multiHeadAttention.q.bias": "encoder.layer.10.attention.self.query.bias",
+      "encoderLayer.10.multiHeadAttention.k.weight": "encoder.layer.10.attention.self.key.weight",
+      "encoderLayer.10.multiHeadAttention.k.bias": "encoder.layer.10.attention.self.key.bias",
+      "encoderLayer.10.multiHeadAttention.v.weight": "encoder.layer.10.attention.self.value.weight",
+      "encoderLayer.10.multiHeadAttention.v.bias": "encoder.layer.10.attention.self.value.bias",
+      "encoderLayer.10.multiHeadAttention.o.weight": "encoder.layer.10.attention.output.dense.weight",
+      "encoderLayer.10.multiHeadAttention.o.bias": "encoder.layer.10.attention.output.dense.bias",
+      "encoderLayer.10.attnLayerNorm.weight": "encoder.layer.10.attention.output.LayerNorm.weight",
+      "encoderLayer.10.attnLayerNorm.bias": "encoder.layer.10.attention.output.LayerNorm.bias",
+      "encoderLayer.10.feedForward.intermediateDense.weight": "encoder.layer.10.intermediate.dense.weight",
+      "encoderLayer.10.feedForward.intermediateDense.bias": "encoder.layer.10.intermediate.dense.bias",
+      "encoderLayer.10.feedForward.outputDense.weight": "encoder.layer.10.output.dense.weight",
+      "encoderLayer.10.feedForward.outputDense.bias": "encoder.layer.10.output.dense.bias",
+      "encoderLayer.10.ffnLayerNorm.weight": "encoder.layer.10.output.LayerNorm.weight",
+      "encoderLayer.10.ffnLayerNorm.bias": "encoder.layer.10.output.LayerNorm.bias",
+      "encoderLayer.11.multiHeadAttention.q.weight": "encoder.layer.11.attention.self.query.weight",
+      "encoderLayer.11.multiHeadAttention.q.bias": "encoder.layer.11.attention.self.query.bias",
+      "encoderLayer.11.multiHeadAttention.k.weight": "encoder.layer.11.attention.self.key.weight",
+      "encoderLayer.11.multiHeadAttention.k.bias": "encoder.layer.11.attention.self.key.bias",
+      "encoderLayer.11.multiHeadAttention.v.weight": "encoder.layer.11.attention.self.value.weight",
+      "encoderLayer.11.multiHeadAttention.v.bias": "encoder.layer.11.attention.self.value.bias",
+      "encoderLayer.11.multiHeadAttention.o.weight": "encoder.layer.11.attention.output.dense.weight",
+      "encoderLayer.11.multiHeadAttention.o.bias": "encoder.layer.11.attention.output.dense.bias",
+      "encoderLayer.11.attnLayerNorm.weight": "encoder.layer.11.attention.output.LayerNorm.weight",
+      "encoderLayer.11.attnLayerNorm.bias": "encoder.layer.11.attention.output.LayerNorm.bias",
+      "encoderLayer.11.feedForward.intermediateDense.weight": "encoder.layer.11.intermediate.dense.weight",
+      "encoderLayer.11.feedForward.intermediateDense.bias": "encoder.layer.11.intermediate.dense.bias",
+      "encoderLayer.11.feedForward.outputDense.weight": "encoder.layer.11.output.dense.weight",
+      "encoderLayer.11.feedForward.outputDense.bias": "encoder.layer.11.output.dense.bias",
+      "encoderLayer.11.ffnLayerNorm.weight": "encoder.layer.11.output.LayerNorm.weight",
+      "encoderLayer.11.ffnLayerNorm.bias": "encoder.layer.11.output.LayerNorm.bias",
+	    "encoderLayer.12.multiHeadAttention.q.weight": "encoder.layer.12.attention.self.query.weight",
+      "encoderLayer.12.multiHeadAttention.q.bias": "encoder.layer.12.attention.self.query.bias",
+      "encoderLayer.12.multiHeadAttention.k.weight": "encoder.layer.12.attention.self.key.weight",
+      "encoderLayer.12.multiHeadAttention.k.bias": "encoder.layer.12.attention.self.key.bias",
+      "encoderLayer.12.multiHeadAttention.v.weight": "encoder.layer.12.attention.self.value.weight",
+      "encoderLayer.12.multiHeadAttention.v.bias": "encoder.layer.12.attention.self.value.bias",
+      "encoderLayer.12.multiHeadAttention.o.weight": "encoder.layer.12.attention.output.dense.weight",
+      "encoderLayer.12.multiHeadAttention.o.bias": "encoder.layer.12.attention.output.dense.bias",
+      "encoderLayer.12.attnLayerNorm.weight": "encoder.layer.12.attention.output.LayerNorm.weight",
+      "encoderLayer.12.attnLayerNorm.bias": "encoder.layer.12.attention.output.LayerNorm.bias",
+      "encoderLayer.12.feedForward.intermediateDense.weight": "encoder.layer.12.intermediate.dense.weight",
+      "encoderLayer.12.feedForward.intermediateDense.bias": "encoder.layer.12.intermediate.dense.bias",
+      "encoderLayer.12.feedForward.outputDense.weight": "encoder.layer.12.output.dense.weight",
+      "encoderLayer.12.feedForward.outputDense.bias": "encoder.layer.12.output.dense.bias",
+      "encoderLayer.12.ffnLayerNorm.weight": "encoder.layer.12.output.LayerNorm.weight",
+      "encoderLayer.12.ffnLayerNorm.bias": "encoder.layer.12.output.LayerNorm.bias",
+      "encoderLayer.13.multiHeadAttention.q.weight": "encoder.layer.13.attention.self.query.weight",
+      "encoderLayer.13.multiHeadAttention.q.bias": "encoder.layer.13.attention.self.query.bias",
+      "encoderLayer.13.multiHeadAttention.k.weight": "encoder.layer.13.attention.self.key.weight",
+      "encoderLayer.13.multiHeadAttention.k.bias": "encoder.layer.13.attention.self.key.bias",
+      "encoderLayer.13.multiHeadAttention.v.weight": "encoder.layer.13.attention.self.value.weight",
+      "encoderLayer.13.multiHeadAttention.v.bias": "encoder.layer.13.attention.self.value.bias",
+      "encoderLayer.13.multiHeadAttention.o.weight": "encoder.layer.13.attention.output.dense.weight",
+      "encoderLayer.13.multiHeadAttention.o.bias": "encoder.layer.13.attention.output.dense.bias",
+      "encoderLayer.13.attnLayerNorm.weight": "encoder.layer.13.attention.output.LayerNorm.weight",
+      "encoderLayer.13.attnLayerNorm.bias": "encoder.layer.13.attention.output.LayerNorm.bias",
+      "encoderLayer.13.feedForward.intermediateDense.weight": "encoder.layer.13.intermediate.dense.weight",
+      "encoderLayer.13.feedForward.intermediateDense.bias": "encoder.layer.13.intermediate.dense.bias",
+      "encoderLayer.13.feedForward.outputDense.weight": "encoder.layer.13.output.dense.weight",
+      "encoderLayer.13.feedForward.outputDense.bias": "encoder.layer.13.output.dense.bias",
+      "encoderLayer.13.ffnLayerNorm.weight": "encoder.layer.13.output.LayerNorm.weight",
+      "encoderLayer.13.ffnLayerNorm.bias": "encoder.layer.13.output.LayerNorm.bias",
+      "encoderLayer.14.multiHeadAttention.q.weight": "encoder.layer.14.attention.self.query.weight",
+      "encoderLayer.14.multiHeadAttention.q.bias": "encoder.layer.14.attention.self.query.bias",
+      "encoderLayer.14.multiHeadAttention.k.weight": "encoder.layer.14.attention.self.key.weight",
+      "encoderLayer.14.multiHeadAttention.k.bias": "encoder.layer.14.attention.self.key.bias",
+      "encoderLayer.14.multiHeadAttention.v.weight": "encoder.layer.14.attention.self.value.weight",
+      "encoderLayer.14.multiHeadAttention.v.bias": "encoder.layer.14.attention.self.value.bias",
+      "encoderLayer.14.multiHeadAttention.o.weight": "encoder.layer.14.attention.output.dense.weight",
+      "encoderLayer.14.multiHeadAttention.o.bias": "encoder.layer.14.attention.output.dense.bias",
+      "encoderLayer.14.attnLayerNorm.weight": "encoder.layer.14.attention.output.LayerNorm.weight",
+      "encoderLayer.14.attnLayerNorm.bias": "encoder.layer.14.attention.output.LayerNorm.bias",
+      "encoderLayer.14.feedForward.intermediateDense.weight": "encoder.layer.14.intermediate.dense.weight",
+      "encoderLayer.14.feedForward.intermediateDense.bias": "encoder.layer.14.intermediate.dense.bias",
+      "encoderLayer.14.feedForward.outputDense.weight": "encoder.layer.14.output.dense.weight",
+      "encoderLayer.14.feedForward.outputDense.bias": "encoder.layer.14.output.dense.bias",
+      "encoderLayer.14.ffnLayerNorm.weight": "encoder.layer.14.output.LayerNorm.weight",
+      "encoderLayer.14.ffnLayerNorm.bias": "encoder.layer.14.output.LayerNorm.bias",
+	    "encoderLayer.15.multiHeadAttention.q.weight": "encoder.layer.15.attention.self.query.weight",
+      "encoderLayer.15.multiHeadAttention.q.bias": "encoder.layer.15.attention.self.query.bias",
+      "encoderLayer.15.multiHeadAttention.k.weight": "encoder.layer.15.attention.self.key.weight",
+      "encoderLayer.15.multiHeadAttention.k.bias": "encoder.layer.15.attention.self.key.bias",
+      "encoderLayer.15.multiHeadAttention.v.weight": "encoder.layer.15.attention.self.value.weight",
+      "encoderLayer.15.multiHeadAttention.v.bias": "encoder.layer.15.attention.self.value.bias",
+      "encoderLayer.15.multiHeadAttention.o.weight": "encoder.layer.15.attention.output.dense.weight",
+      "encoderLayer.15.multiHeadAttention.o.bias": "encoder.layer.15.attention.output.dense.bias",
+      "encoderLayer.15.attnLayerNorm.weight": "encoder.layer.15.attention.output.LayerNorm.weight",
+      "encoderLayer.15.attnLayerNorm.bias": "encoder.layer.15.attention.output.LayerNorm.bias",
+      "encoderLayer.15.feedForward.intermediateDense.weight": "encoder.layer.15.intermediate.dense.weight",
+      "encoderLayer.15.feedForward.intermediateDense.bias": "encoder.layer.15.intermediate.dense.bias",
+      "encoderLayer.15.feedForward.outputDense.weight": "encoder.layer.15.output.dense.weight",
+      "encoderLayer.15.feedForward.outputDense.bias": "encoder.layer.15.output.dense.bias",
+      "encoderLayer.15.ffnLayerNorm.weight": "encoder.layer.15.output.LayerNorm.weight",
+      "encoderLayer.15.ffnLayerNorm.bias": "encoder.layer.15.output.LayerNorm.bias",
+      "encoderLayer.16.multiHeadAttention.q.weight": "encoder.layer.16.attention.self.query.weight",
+      "encoderLayer.16.multiHeadAttention.q.bias": "encoder.layer.16.attention.self.query.bias",
+      "encoderLayer.16.multiHeadAttention.k.weight": "encoder.layer.16.attention.self.key.weight",
+      "encoderLayer.16.multiHeadAttention.k.bias": "encoder.layer.16.attention.self.key.bias",
+      "encoderLayer.16.multiHeadAttention.v.weight": "encoder.layer.16.attention.self.value.weight",
+      "encoderLayer.16.multiHeadAttention.v.bias": "encoder.layer.16.attention.self.value.bias",
+      "encoderLayer.16.multiHeadAttention.o.weight": "encoder.layer.16.attention.output.dense.weight",
+      "encoderLayer.16.multiHeadAttention.o.bias": "encoder.layer.16.attention.output.dense.bias",
+      "encoderLayer.16.attnLayerNorm.weight": "encoder.layer.16.attention.output.LayerNorm.weight",
+      "encoderLayer.16.attnLayerNorm.bias": "encoder.layer.16.attention.output.LayerNorm.bias",
+      "encoderLayer.16.feedForward.intermediateDense.weight": "encoder.layer.16.intermediate.dense.weight",
+      "encoderLayer.16.feedForward.intermediateDense.bias": "encoder.layer.16.intermediate.dense.bias",
+      "encoderLayer.16.feedForward.outputDense.weight": "encoder.layer.16.output.dense.weight",
+      "encoderLayer.16.feedForward.outputDense.bias": "encoder.layer.16.output.dense.bias",
+      "encoderLayer.16.ffnLayerNorm.weight": "encoder.layer.16.output.LayerNorm.weight",
+      "encoderLayer.16.ffnLayerNorm.bias": "encoder.layer.16.output.LayerNorm.bias",
+      "encoderLayer.17.multiHeadAttention.q.weight": "encoder.layer.17.attention.self.query.weight",
+      "encoderLayer.17.multiHeadAttention.q.bias": "encoder.layer.17.attention.self.query.bias",
+      "encoderLayer.17.multiHeadAttention.k.weight": "encoder.layer.17.attention.self.key.weight",
+      "encoderLayer.17.multiHeadAttention.k.bias": "encoder.layer.17.attention.self.key.bias",
+      "encoderLayer.17.multiHeadAttention.v.weight": "encoder.layer.17.attention.self.value.weight",
+      "encoderLayer.17.multiHeadAttention.v.bias": "encoder.layer.17.attention.self.value.bias",
+      "encoderLayer.17.multiHeadAttention.o.weight": "encoder.layer.17.attention.output.dense.weight",
+      "encoderLayer.17.multiHeadAttention.o.bias": "encoder.layer.17.attention.output.dense.bias",
+      "encoderLayer.17.attnLayerNorm.weight": "encoder.layer.17.attention.output.LayerNorm.weight",
+      "encoderLayer.17.attnLayerNorm.bias": "encoder.layer.17.attention.output.LayerNorm.bias",
+      "encoderLayer.17.feedForward.intermediateDense.weight": "encoder.layer.17.intermediate.dense.weight",
+      "encoderLayer.17.feedForward.intermediateDense.bias": "encoder.layer.17.intermediate.dense.bias",
+      "encoderLayer.17.feedForward.outputDense.weight": "encoder.layer.17.output.dense.weight",
+      "encoderLayer.17.feedForward.outputDense.bias": "encoder.layer.17.output.dense.bias",
+      "encoderLayer.17.ffnLayerNorm.weight": "encoder.layer.17.output.LayerNorm.weight",
+      "encoderLayer.17.ffnLayerNorm.bias": "encoder.layer.17.output.LayerNorm.bias",
+      "encoderLayer.18.multiHeadAttention.q.weight": "encoder.layer.18.attention.self.query.weight",
+      "encoderLayer.18.multiHeadAttention.q.bias": "encoder.layer.18.attention.self.query.bias",
+      "encoderLayer.18.multiHeadAttention.k.weight": "encoder.layer.18.attention.self.key.weight",
+      "encoderLayer.18.multiHeadAttention.k.bias": "encoder.layer.18.attention.self.key.bias",
+      "encoderLayer.18.multiHeadAttention.v.weight": "encoder.layer.18.attention.self.value.weight",
+      "encoderLayer.18.multiHeadAttention.v.bias": "encoder.layer.18.attention.self.value.bias",
+      "encoderLayer.18.multiHeadAttention.o.weight": "encoder.layer.18.attention.output.dense.weight",
+      "encoderLayer.18.multiHeadAttention.o.bias": "encoder.layer.18.attention.output.dense.bias",
+      "encoderLayer.18.attnLayerNorm.weight": "encoder.layer.18.attention.output.LayerNorm.weight",
+      "encoderLayer.18.attnLayerNorm.bias": "encoder.layer.18.attention.output.LayerNorm.bias",
+      "encoderLayer.18.feedForward.intermediateDense.weight": "encoder.layer.18.intermediate.dense.weight",
+      "encoderLayer.18.feedForward.intermediateDense.bias": "encoder.layer.18.intermediate.dense.bias",
+      "encoderLayer.18.feedForward.outputDense.weight": "encoder.layer.18.output.dense.weight",
+      "encoderLayer.18.feedForward.outputDense.bias": "encoder.layer.18.output.dense.bias",
+      "encoderLayer.18.ffnLayerNorm.weight": "encoder.layer.18.output.LayerNorm.weight",
+      "encoderLayer.18.ffnLayerNorm.bias": "encoder.layer.18.output.LayerNorm.bias",
+      "encoderLayer.19.multiHeadAttention.q.weight": "encoder.layer.19.attention.self.query.weight",
+      "encoderLayer.19.multiHeadAttention.q.bias": "encoder.layer.19.attention.self.query.bias",
+      "encoderLayer.19.multiHeadAttention.k.weight": "encoder.layer.19.attention.self.key.weight",
+      "encoderLayer.19.multiHeadAttention.k.bias": "encoder.layer.19.attention.self.key.bias",
+      "encoderLayer.19.multiHeadAttention.v.weight": "encoder.layer.19.attention.self.value.weight",
+      "encoderLayer.19.multiHeadAttention.v.bias": "encoder.layer.19.attention.self.value.bias",
+      "encoderLayer.19.multiHeadAttention.o.weight": "encoder.layer.19.attention.output.dense.weight",
+      "encoderLayer.19.multiHeadAttention.o.bias": "encoder.layer.19.attention.output.dense.bias",
+      "encoderLayer.19.attnLayerNorm.weight": "encoder.layer.19.attention.output.LayerNorm.weight",
+      "encoderLayer.19.attnLayerNorm.bias": "encoder.layer.19.attention.output.LayerNorm.bias",
+      "encoderLayer.19.feedForward.intermediateDense.weight": "encoder.layer.19.intermediate.dense.weight",
+      "encoderLayer.19.feedForward.intermediateDense.bias": "encoder.layer.19.intermediate.dense.bias",
+      "encoderLayer.19.feedForward.outputDense.weight": "encoder.layer.19.output.dense.weight",
+      "encoderLayer.19.feedForward.outputDense.bias": "encoder.layer.19.output.dense.bias",
+      "encoderLayer.19.ffnLayerNorm.weight": "encoder.layer.19.output.LayerNorm.weight",
+      "encoderLayer.19.ffnLayerNorm.bias": "encoder.layer.19.output.LayerNorm.bias",
+      "encoderLayer.20.multiHeadAttention.q.weight": "encoder.layer.20.attention.self.query.weight",
+      "encoderLayer.20.multiHeadAttention.q.bias": "encoder.layer.20.attention.self.query.bias",
+      "encoderLayer.20.multiHeadAttention.k.weight": "encoder.layer.20.attention.self.key.weight",
+      "encoderLayer.20.multiHeadAttention.k.bias": "encoder.layer.20.attention.self.key.bias",
+      "encoderLayer.20.multiHeadAttention.v.weight": "encoder.layer.20.attention.self.value.weight",
+      "encoderLayer.20.multiHeadAttention.v.bias": "encoder.layer.20.attention.self.value.bias",
+      "encoderLayer.20.multiHeadAttention.o.weight": "encoder.layer.20.attention.output.dense.weight",
+      "encoderLayer.20.multiHeadAttention.o.bias": "encoder.layer.20.attention.output.dense.bias",
+      "encoderLayer.20.attnLayerNorm.weight": "encoder.layer.20.attention.output.LayerNorm.weight",
+      "encoderLayer.20.attnLayerNorm.bias": "encoder.layer.20.attention.output.LayerNorm.bias",
+      "encoderLayer.20.feedForward.intermediateDense.weight": "encoder.layer.20.intermediate.dense.weight",
+      "encoderLayer.20.feedForward.intermediateDense.bias": "encoder.layer.20.intermediate.dense.bias",
+      "encoderLayer.20.feedForward.outputDense.weight": "encoder.layer.20.output.dense.weight",
+      "encoderLayer.20.feedForward.outputDense.bias": "encoder.layer.20.output.dense.bias",
+      "encoderLayer.20.ffnLayerNorm.weight": "encoder.layer.20.output.LayerNorm.weight",
+      "encoderLayer.20.ffnLayerNorm.bias": "encoder.layer.20.output.LayerNorm.bias",
+      "encoderLayer.21.multiHeadAttention.q.weight": "encoder.layer.21.attention.self.query.weight",
+      "encoderLayer.21.multiHeadAttention.q.bias": "encoder.layer.21.attention.self.query.bias",
+      "encoderLayer.21.multiHeadAttention.k.weight": "encoder.layer.21.attention.self.key.weight",
+      "encoderLayer.21.multiHeadAttention.k.bias": "encoder.layer.21.attention.self.key.bias",
+      "encoderLayer.21.multiHeadAttention.v.weight": "encoder.layer.21.attention.self.value.weight",
+      "encoderLayer.21.multiHeadAttention.v.bias": "encoder.layer.21.attention.self.value.bias",
+      "encoderLayer.21.multiHeadAttention.o.weight": "encoder.layer.21.attention.output.dense.weight",
+      "encoderLayer.21.multiHeadAttention.o.bias": "encoder.layer.21.attention.output.dense.bias",
+      "encoderLayer.21.attnLayerNorm.weight": "encoder.layer.21.attention.output.LayerNorm.weight",
+      "encoderLayer.21.attnLayerNorm.bias": "encoder.layer.21.attention.output.LayerNorm.bias",
+      "encoderLayer.21.feedForward.intermediateDense.weight": "encoder.layer.21.intermediate.dense.weight",
+      "encoderLayer.21.feedForward.intermediateDense.bias": "encoder.layer.21.intermediate.dense.bias",
+      "encoderLayer.21.feedForward.outputDense.weight": "encoder.layer.21.output.dense.weight",
+      "encoderLayer.21.feedForward.outputDense.bias": "encoder.layer.21.output.dense.bias",
+      "encoderLayer.21.ffnLayerNorm.weight": "encoder.layer.21.output.LayerNorm.weight",
+      "encoderLayer.21.ffnLayerNorm.bias": "encoder.layer.21.output.LayerNorm.bias",
+      "encoderLayer.22.multiHeadAttention.q.weight": "encoder.layer.22.attention.self.query.weight",
+      "encoderLayer.22.multiHeadAttention.q.bias": "encoder.layer.22.attention.self.query.bias",
+      "encoderLayer.22.multiHeadAttention.k.weight": "encoder.layer.22.attention.self.key.weight",
+      "encoderLayer.22.multiHeadAttention.k.bias": "encoder.layer.22.attention.self.key.bias",
+      "encoderLayer.22.multiHeadAttention.v.weight": "encoder.layer.22.attention.self.value.weight",
+      "encoderLayer.22.multiHeadAttention.v.bias": "encoder.layer.22.attention.self.value.bias",
+      "encoderLayer.22.multiHeadAttention.o.weight": "encoder.layer.22.attention.output.dense.weight",
+      "encoderLayer.22.multiHeadAttention.o.bias": "encoder.layer.22.attention.output.dense.bias",
+      "encoderLayer.22.attnLayerNorm.weight": "encoder.layer.22.attention.output.LayerNorm.weight",
+      "encoderLayer.22.attnLayerNorm.bias": "encoder.layer.22.attention.output.LayerNorm.bias",
+      "encoderLayer.22.feedForward.intermediateDense.weight": "encoder.layer.22.intermediate.dense.weight",
+      "encoderLayer.22.feedForward.intermediateDense.bias": "encoder.layer.22.intermediate.dense.bias",
+      "encoderLayer.22.feedForward.outputDense.weight": "encoder.layer.22.output.dense.weight",
+      "encoderLayer.22.feedForward.outputDense.bias": "encoder.layer.22.output.dense.bias",
+      "encoderLayer.22.ffnLayerNorm.weight": "encoder.layer.22.output.LayerNorm.weight",
+      "encoderLayer.22.ffnLayerNorm.bias": "encoder.layer.22.output.LayerNorm.bias",
+      "encoderLayer.23.multiHeadAttention.q.weight": "encoder.layer.23.attention.self.query.weight",
+      "encoderLayer.23.multiHeadAttention.q.bias": "encoder.layer.23.attention.self.query.bias",
+      "encoderLayer.23.multiHeadAttention.k.weight": "encoder.layer.23.attention.self.key.weight",
+      "encoderLayer.23.multiHeadAttention.k.bias": "encoder.layer.23.attention.self.key.bias",
+      "encoderLayer.23.multiHeadAttention.v.weight": "encoder.layer.23.attention.self.value.weight",
+      "encoderLayer.23.multiHeadAttention.v.bias": "encoder.layer.23.attention.self.value.bias",
+      "encoderLayer.23.multiHeadAttention.o.weight": "encoder.layer.23.attention.output.dense.weight",
+      "encoderLayer.23.multiHeadAttention.o.bias": "encoder.layer.23.attention.output.dense.bias",
+      "encoderLayer.23.attnLayerNorm.weight": "encoder.layer.23.attention.output.LayerNorm.weight",
+      "encoderLayer.23.attnLayerNorm.bias": "encoder.layer.23.attention.output.LayerNorm.bias",
+      "encoderLayer.23.feedForward.intermediateDense.weight": "encoder.layer.23.intermediate.dense.weight",
+      "encoderLayer.23.feedForward.intermediateDense.bias": "encoder.layer.23.intermediate.dense.bias",
+      "encoderLayer.23.feedForward.outputDense.weight": "encoder.layer.23.output.dense.weight",
+      "encoderLayer.23.feedForward.outputDense.bias": "encoder.layer.23.output.dense.bias",
+      "encoderLayer.23.ffnLayerNorm.weight": "encoder.layer.23.output.LayerNorm.weight",
+      "encoderLayer.23.ffnLayerNorm.bias": "encoder.layer.23.output.LayerNorm.bias"
+  }
+}

bloom-560m/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+    "apply_residual_connection_post_layernorm": false,
+    "attention_dropout": 0.0,
+    "attention_softmax_in_fp32": true,
+    "bias_dropout_fusion": true,
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "pad_token_id": 3,
+    "unk_token_id": 0,
+    "hidden_dropout": 0.0,
+    "hidden_act": "gelu_fast",
+    "initializer_range": 0.02,
+    "layer_norm_eps": 1e-05,
+    "hidden_size": 1024,
+    "intermediate_size": 4096,
+    "num_hidden_layers": 24,
+    "num_attention_heads": 16,
+    "offset_alibi": 100,
+    "pretraining_tp": 1,
+    "skip_bias_add": true,
+    "skip_bias_add_qkv": false,
+    "vocab_size": 250880,
+    "segment_vocab_size": 0,
+    "pre_layernorm": true,
+    "tie_emb_prj_weight": true,
+    "model": "bloom"
+  }

bloomz-560m/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+    "apply_residual_connection_post_layernorm": false,
+    "attention_dropout": 0.0,
+    "attention_softmax_in_fp32": true,
+    "bias_dropout_fusion": true,
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "pad_token_id": 3,
+    "unk_token_id": 0,
+    "hidden_dropout": 0.0,
+    "hidden_act": "gelu_fast",
+    "initializer_range": 0.02,
+    "layer_norm_eps": 1e-05,
+    "hidden_size": 1024,
+    "intermediate_size": 4096,
+    "num_hidden_layers": 24,
+    "num_attention_heads": 16,
+    "offset_alibi": 100,
+    "pretraining_tp": 1,
+    "skip_bias_add": true,
+    "skip_bias_add_qkv": false,
+    "vocab_size": 250880,
+    "segment_vocab_size": 0,
+    "pre_layernorm": true,
+    "tie_emb_prj_weight": true,
+    "model": "bloom"
+  }

chatglm-6b-int4/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+    "model": "glm",
+    "hidden_act": "gelu_new",
+    "bos_token_id": 130004,
+    "eos_token_id": 130005,
+    "mask_token_id": 130000,
+    "gmask_token_id": 130001,
+    "pad_token_id": 3,
+    "hidden_size": 4096,
+    "intermediate_size": 16384,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 2048,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "position_encoding_2d": true,
+    "torch_dtype": "float16",
+    "vocab_size": 130528,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "tie_emb_prj_weight": false,
+    "quantization_bit": 4,
+    "quantization_method": "cpm_kernels",
+    "target_modules": ["q", "k", "v", "o", "intermediateDense", "outputDense"]
+}

chatglm-6b-int8/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+    "model": "glm",
+    "hidden_act": "gelu_new",
+    "bos_token_id": 130004,
+    "eos_token_id": 130005,
+    "mask_token_id": 130000,
+    "gmask_token_id": 130001,
+    "pad_token_id": 3,
+    "hidden_size": 4096,
+    "intermediate_size": 16384,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 2048,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "position_encoding_2d": true,
+    "torch_dtype": "float16",
+    "vocab_size": 130528,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "quantization_bit": 8,
+    "quantization_method": "cpm_kernels",
+    "target_modules": ["q", "k", "v", "o", "intermediateDense", "outputDense"],
+    "tie_emb_prj_weight": false
+    }

chatglm-6b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "model": "glm",
+    "hidden_act": "gelu_new",
+    "bos_token_id": 130004,
+    "eos_token_id": 130005,
+    "mask_token_id": 130000,
+    "gmask_token_id": 130001,
+    "pad_token_id": 3,
+    "hidden_size": 4096,
+    "intermediate_size": 16384,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 2048,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "position_encoding_2d": true,
+    "torch_dtype": "float16",
+    "vocab_size": 130528,
+    "segment_vocab_size": 0,
+    "skip_init": true,
+    "rope_rank": "updown",
+    "tie_emb_prj_weight": false
+}

chatglm2-6b-32k/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "model": "glm2",
+  "hidden_act": "swiglu",
+  "hidden_size": 4096,
+  "intermediate_size": 13696,
+  "layer_norm_eps": 1e-05,
+  "max_sequence_length": 32768,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 28,
+  "vocab_size": 65024,
+  "segment_vocab_size": 0,
+  "multi_query_group_num": 2,
+  "skip_init": true,
+  "tie_emb_prj_weight": false,
+  "eos_token_id": 2,
+  "pad_token_id": 2,
+  "rmsnorm": true,
+  "rope_rank": "adjacent",
+  "rope_ratio": 16,
+  "position_encoding_2d": true,
+  "flash_attention": true
+}

chatglm2-6b-int4/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+    "model": "glm2",
+    "hidden_act": "swiglu",
+    "hidden_size": 4096,
+    "intermediate_size": 13696,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 32768,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "vocab_size": 65024,
+    "segment_vocab_size": 0,
+    "multi_query_group_num": 2,
+    "skip_init": true,
+    "tie_emb_prj_weight": false,
+    "eos_token_id": 2,
+    "pad_token_id": 2,
+    "rmsnorm": true,
+    "rope_rank": "adjacent",
+    "position_encoding_2d": true,
+    "flash_attention": true,
+    "quantization_bit": 4,
+    "quantization_method": "cpm_kernels",
+    "target_modules": ["q", "k", "v", "o", "intermediateDense", "outputDense"]
+    }

chatglm2-6b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "glm2",
+    "hidden_act": "swiglu",
+    "hidden_size": 4096,
+    "intermediate_size": 13696,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 32768,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "vocab_size": 65024,
+    "segment_vocab_size": 0,
+    "multi_query_group_num": 2,
+    "skip_init": true,
+    "tie_emb_prj_weight": false,
+    "eos_token_id": 2,
+    "pad_token_id": 2,
+    "rmsnorm": true,
+    "rope_rank": "adjacent",
+    "position_encoding_2d": true,
+    "flash_attention": true
+    }

chatglm3-6b-32k/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "model": "glm2",
+  "hidden_act": "swiglu",
+  "hidden_size": 4096,
+  "intermediate_size": 13696,
+  "layer_norm_eps": 1e-05,
+  "max_sequence_length": 32768,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 28,
+  "vocab_size": 65024,
+  "segment_vocab_size": 0,
+  "multi_query_group_num": 2,
+  "skip_init": true,
+  "tie_emb_prj_weight": false,
+  "eos_token_id": 2,
+  "pad_token_id": 2,
+  "rmsnorm": true,
+  "rope_rank": "adjacent",
+  "ntk_alpha": 44.24632364389211,
+  "position_encoding_2d": true,
+  "flash_attention": true
+}

chatglm3-6b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "model": "glm2",
+    "hidden_act": "swiglu",
+    "hidden_size": 4096,
+    "intermediate_size": 13696,
+    "layer_norm_eps": 1e-05,
+    "max_sequence_length": 32768,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 28,
+    "vocab_size": 65024,
+    "segment_vocab_size": 0,
+    "multi_query_group_num": 2,
+    "skip_init": true,
+    "tie_emb_prj_weight": false,
+    "eos_token_id": 2,
+    "pad_token_id": 0,
+    "rmsnorm": true,
+    "rope_rank": "adjacent",
+    "position_encoding_2d": true,
+    "flash_attention": true
+}

chinese-bert-wwm-ext/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 21128
+}

chinese-macbert-base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 21128
+}

chinese-macbert-large/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 21128
+}

chinese-roberta-wwm-ext-base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "directionality": "bidi",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 21128
+}

chinese-roberta-wwm-ext-large/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "directionality": "bidi",
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "type_vocab_size": 2,
+  "vocab_size": 21128
+}

chinese-xlnet-base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "model": "xlnet",
+    "attn_type": "bi",
+    "bi_data": false,
+    "bos_token_id": 1,
+    "clamp_len": -1,
+    "intermediate_size": 3072,
+    "hidden_size": 768,
+    "hidden_dropout_prob": 0.1,
+    "end_n_top": 5,
+    "eos_token_id": 2,
+    "hidden_act": "relu",
+    "initializer_range": 0.02,
+    "layer_norm_eps": 1e-12,
+    "mem_len": null,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "output_past": true,
+    "pad_token_id": 5,
+    "reuse_len": null,
+    "same_length": false,
+    "start_n_top": 5,
+    "summary_activation": "tanh",
+    "summary_last_hidden_dropout_prob": 0.1,
+    "summary_type": "last",
+    "summary_use_proj": true,
+    "untie_r": true,
+    "vocab_size": 32000
+  }

chinese_alpaca_plus_7b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+	"model": "llama",
+	"hidden_size": 4096,
+	"intermediate_size": 11008,
+	"num_attention_heads": 32,
+	"num_hidden_layers": 32,
+	"layer_norm_eps": 1e-06,
+	"hidden_act": "silu",
+	"vocab_size": 49954,
+	"segment_vocab_size": 0,
+	"skip_init": true,
+	"rope_rank": "updown"
+}

chinese_llama_plus_7b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+	"model": "llama",
+	"hidden_size": 4096,
+	"intermediate_size": 11008,
+	"num_attention_heads": 32,
+	"num_hidden_layers": 32,
+	"layer_norm_eps": 1e-06,
+	"hidden_act": "silu",
+	"vocab_size": 49953,
+	"segment_vocab_size": 0,
+	"skip_init": true,
+	"rope_rank": "updown"
+}

deepseek-moe-16b-base/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "aux_loss_alpha": 0.001,
+  "bos_token_id": 100000,
+  "eos_token_id": 100001,
+  "first_k_dense_replace": 1,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 10944,
+  "max_position_embeddings": 4096,
+  "model": "deepseek",
+  "moe_intermediate_size": 1408,
+  "moe_layer_freq": 1,
+  "n_routed_experts": 64,
+  "n_shared_experts": 2,
+  "norm_topk_prob": false,
+  "num_attention_heads": 16,
+  "num_experts_per_tok": 6,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "scoring_func": "softmax",
+  "seq_aux": true,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "vocab_size": 102400,
+  "skip_init": true,
+  "segment_vocab_size": 0,
+  "rope_rank": "updown"
+}

deepseek-moe-16b-chat/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "aux_loss_alpha": 0.001,
+  "bos_token_id": 100000,
+  "eos_token_id": 100001,
+  "first_k_dense_replace": 1,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 10944,
+  "max_position_embeddings": 4096,
+  "model": "deepseek",
+  "moe_intermediate_size": 1408,
+  "moe_layer_freq": 1,
+  "n_routed_experts": 64,
+  "n_shared_experts": 2,
+  "norm_topk_prob": false,
+  "num_attention_heads": 16,
+  "num_experts_per_tok": 6,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "scoring_func": "softmax",
+  "seq_aux": true,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "vocab_size": 102400,
+  "skip_init": true,
+  "segment_vocab_size": 0,
+  "rope_rank": "updown"
+}

falcon-7b-instruct/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+	"model": "falcon",
+	"type_vocab_size": 0,
+    "p_bias": "rotary",
+    "rope_rank": "updown",
+    "apply_residual_post_layernorm": false,
+    "attention_dropout": 0.0,
+    "bias": false,
+    "bos_token_id": 11,
+    "eos_token_id": 11,
+    "hidden_dropout": 0.0,
+    "hidden_size": 4544,
+    "initializer_range": 0.02,
+	"intermediate_size": 8192,
+    "hidden_act": "gelu",
+    "layer_norm_eps": 1e-05,
+    "multi_query": true,
+    "num_attention_heads": 71,
+    "num_hidden_layers": 32,
+    "parallel_attn": true,
+    "torch_dtype": "bfloat16",
+    "multi_query_group_num": 1,
+    "vocab_size": 65024,
+	"skip_init": true,
+    "norm_mode": "torch_buildin",
+	"flash_attention": "sdpa"
+}

falcon-7b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+	"model": "falcon",
+	"type_vocab_size": 0,
+    "p_bias": "rotary",
+    "rope_rank": "updown",
+    "apply_residual_post_layernorm": false,
+    "attention_dropout": 0.0,
+    "bias": false,
+    "bos_token_id": 11,
+    "eos_token_id": 11,
+    "hidden_dropout": 0.0,
+    "hidden_size": 4544,
+    "initializer_range": 0.02,
+	"intermediate_size": 8192,
+    "hidden_act": "gelu",
+    "layer_norm_eps": 1e-05,
+    "multi_query": true,
+    "num_attention_heads": 71,
+    "num_hidden_layers": 32,
+    "parallel_attn": true,
+    "torch_dtype": "bfloat16",
+    "multi_query_group_num": 1,
+    "vocab_size": 65024,
+	"skip_init": true,
+    "norm_mode": "torch_buildin",
+	"flash_attention": "sdpa"
+}

falcon-rw-1b/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+    "model": "falcon",
+    "type_vocab_size": 0,
+    "p_bias": "alibi",
+    "apply_residual_post_layernorm": false,
+    "attention_dropout": 0.0,
+    "bias": true,
+    "bos_token_id": 1,
+    "eos_token_id": 2,
+    "hidden_dropout": 0.0,
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 8192,
+    "hidden_act": "gelu",
+    "layer_norm_eps": 1e-05,
+    "multi_query": false,
+    "num_attention_heads": 32,
+    "num_hidden_layers": 24,
+    "parallel_attn": false,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 50304,
+    "skip_init": true,
+    "norm_mode": "torch_buildin"
+    }

gpt2-chinese-cluecorpussmall/bert4torch_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "model": "gpt2",
+    "segment_vocab_size": 0,
+    "vocab_size": 21128,
+    "hidden_size": 768,
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "initializer_range": 0.014142135623731,
+    "intermediate_size": 3072,
+    "max_position_embeddings": 1024,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12
+  }