Upload PhiForCausalLM

Browse files

Files changed (5) hide show

config.json +2 -2
generation_config.json +6 -2
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +57 -57

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "microsoft/phi-1_5",
   "architectures": [
     "PhiForCausalLM"
   ],
@@ -33,5 +33,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
-  "vocab_size": 70980
 }

 {
+  "_name_or_path": "voidful/phi-1_5_base",
   "architectures": [
     "PhiForCausalLM"
   ],
   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
+  "vocab_size": 169000
 }

generation_config.json CHANGED Viewed

@@ -1,5 +1,9 @@
 {
   "_from_model_config": true,
-  "transformers_version": "4.39.1",
-  "eos_token_id": [70976, 50256, 70977]
 }

 {
   "_from_model_config": true,
+  "eos_token_id": [
+    70976,
+    50256,
+    70977
+  ],
+  "transformers_version": "4.39.1"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd2bb7a9913c03e0f6ed2fc4cc1fc1f619aafc3d6ed14ee2caaca695a6894ead
-size 4945535680

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb71e37302519ddd910cfc9cf2c9299c811582179a060474b1c943dbc650df56
+size 4942842592

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88962970cf7be23aceefae5ad9e4ecd214785bfe07f955c0db5b4c56d3a8123b
-size 1051739176

 version https://git-lfs.github.com/spec/v1
+oid sha256:54aeec3d5146a62a9b21542e2d5b300531e0b11d94b0679ad40f4ee309861c13
+size 2660784152

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 5997237520
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
@@ -134,12 +134,12 @@
     "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
@@ -148,34 +148,34 @@
     "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
@@ -190,34 +190,34 @@
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 7603589280
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.fc1.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",