Upload 7 files

Browse files

Files changed (6) hide show

config.json +2 -2
pytorch_model.bin.index.json +1 -226
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0
training_args.bin +3 -0

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "Dampish/StellarX-4B-V1",
   "architectures": [
     "GPTNeoXForCausalLM"
   ],
@@ -14,7 +14,7 @@
   "max_position_embeddings": 2048,
   "model_type": "gpt_neox",
   "num_attention_heads": 32,
-  "num_hidden_layers": 47,
   "rotary_emb_base": 10000,
   "rotary_pct": 1.0,
   "tie_word_embeddings": false,

 {
+  "_name_or_path": "Dampish/stellar7CHPT",
   "architectures": [
     "GPTNeoXForCausalLM"
   ],
   "max_position_embeddings": 2048,
   "model_type": "gpt_neox",
   "num_attention_heads": 32,
+  "num_hidden_layers": 32,
   "rotary_emb_base": 10000,
   "rotary_pct": 1.0,
   "tie_word_embeddings": false,

pytorch_model.bin.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 15848695324.0
   },
   "weight_map": {
     "embed_out.weight": "pytorch_model-00002-of-00002.bin",
@@ -397,126 +397,6 @@
     "gpt_neox.layers.31.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.31.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.31.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.32.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.33.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.34.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.35.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.36.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.37.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.38.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.39.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.4.attention.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.attention.dense.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.attention.dense.weight": "pytorch_model-00001-of-00002.bin",
@@ -532,111 +412,6 @@
     "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
-    "gpt_neox.layers.40.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.40.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.41.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.42.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.43.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.44.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.45.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.dense.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.dense.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.masked_bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
-    "gpt_neox.layers.46.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.5.attention.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.5.attention.dense.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.5.attention.dense.weight": "pytorch_model-00001-of-00002.bin",

 {
   "metadata": {
+    "total_size": 11120239744.0
   },
   "weight_map": {
     "embed_out.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.31.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.31.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.31.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
     "gpt_neox.layers.4.attention.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.attention.dense.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.attention.dense.weight": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.5.attention.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.5.attention.dense.bias": "pytorch_model-00001-of-00002.bin",
     "gpt_neox.layers.5.attention.dense.weight": "pytorch_model-00001-of-00002.bin",

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7f5b60fb2e763a22cc0eb206f3b00f7f9f904fed78253adb0c5535ab00f74d3
+size 3899