EleutherAI
/

pythia-12b

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 23843140808
   },
   "weight_map": {
     "embed_out.weight": "pytorch_model-00003-of-00003.bin",
@@ -106,27 +106,27 @@
     "gpt_neox.layers.14.attention.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.input_layernorm.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.post_attention_layernorm.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
-    "gpt_neox.layers.15.attention.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.dense.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.dense.weight": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.attention.masked_bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.query_key_value.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.query_key_value.weight": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.input_layernorm.bias": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.post_attention_layernorm.bias": "pytorch_model-00002-of-00003.bin",
-    "gpt_neox.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.16.attention.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.16.attention.dense.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.16.attention.dense.weight": "pytorch_model-00002-of-00003.bin",
@@ -378,8 +378,8 @@
     "gpt_neox.layers.30.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00003.bin",
     "gpt_neox.layers.30.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00003.bin",
-    "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00003.bin",
-    "gpt_neox.layers.30.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00003.bin",
     "gpt_neox.layers.30.post_attention_layernorm.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.31.attention.bias": "pytorch_model-00003-of-00003.bin",

 {
   "metadata": {
+    "total_size": 23711020232.0
   },
   "weight_map": {
     "embed_out.weight": "pytorch_model-00003-of-00003.bin",
     "gpt_neox.layers.14.attention.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.input_layernorm.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.post_attention_layernorm.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.15.attention.bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.15.attention.dense.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.dense.weight": "pytorch_model-00002-of-00003.bin",
+    "gpt_neox.layers.15.attention.masked_bias": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.15.attention.query_key_value.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.attention.query_key_value.weight": "pytorch_model-00002-of-00003.bin",
+    "gpt_neox.layers.15.attention.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.15.input_layernorm.bias": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.15.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00003.bin",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "pytorch_model-00001-of-00003.bin",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
     "gpt_neox.layers.16.attention.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.16.attention.dense.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.16.attention.dense.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00003.bin",
     "gpt_neox.layers.30.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00003.bin",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00003.bin",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.post_attention_layernorm.bias": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.30.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
     "gpt_neox.layers.31.attention.bias": "pytorch_model-00003-of-00003.bin",