Upload PhiForCausalLM

Browse files

Files changed (4) hide show

config.json +1 -1
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +55 -55

config.json CHANGED Viewed

@@ -33,5 +33,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
-  "vocab_size": 169000
 }

   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
+  "vocab_size": 80980
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb71e37302519ddd910cfc9cf2c9299c811582179a060474b1c943dbc650df56
-size 4942842592

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a4e5a557a334966f1dcb31fd3ed7f07668c2c4a2b47087492f8d1ca6bb23485
+size 4960313864

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54aeec3d5146a62a9b21542e2d5b300531e0b11d94b0679ad40f4ee309861c13
-size 2660784152

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef82279c47ded7134bef495a0b6bb4295b60886c85d619a8f968119e37e4fc0f
+size 1200841024

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 7603589280
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
@@ -134,12 +134,12 @@
     "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.17.mlp.fc2.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
@@ -148,34 +148,34 @@
     "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
@@ -190,34 +190,34 @@
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc1.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc1.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 6161117520
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc1.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc1.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.dense.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",