Upload KawnIdefics3ForConditionalGeneration

Browse files

Files changed (6) hide show

config.json +40 -34
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +9 -20

config.json CHANGED Viewed

@@ -1,72 +1,76 @@
 {
-  "_name_or_path": "kawn_idefics3_siglib14_384",
   "architectures": [
     "KawnIdefics3ForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
     [
-      384,
-      384
     ],
     [
-      384,
-      768
     ],
     [
-      384,
-      1152
     ],
     [
-      384,
-      1536
     ],
     [
-      1536,
-      384
     ],
     [
-      1152,
-      384
     ],
     [
-      768,
-      384
     ],
     [
-      768,
-      768
     ],
     [
-      768,
-      1152
     ],
     [
-      768,
-      1536
     ],
     [
-      1536,
-      768
     ],
     [
-      1152,
-      768
     ],
     [
-      1152,
-      1536
     ],
     [
-      1536,
-      1152
     ],
     [
-      1152,
-      1152
     ]
   ],
-  "image_seq_length": 182,
   "image_token_id": 255030,
   "model_type": "kawn_idefics3",
   "scale_factor": 2,
@@ -91,12 +95,14 @@
   "vision_config": {
     "_attn_implementation_autoset": true,
     "hidden_size": 1152,
-    "image_size": 384,
     "intermediate_size": 4304,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 27,
-    "patch_size": 14
   },
   "vision_feature_layer": null
 }

 {
+  "_name_or_path": "kawn_cohere_8b_idefics3_siglib14_384",
   "architectures": [
     "KawnIdefics3ForConditionalGeneration"
   ],
   "ignore_index": -100,
   "image_grid_pinpoints": [
     [
+      364,
+      364
     ],
     [
+      364,
+      728
     ],
     [
+      364,
+      1092
     ],
     [
+      1092,
+      364
     ],
     [
+      728,
+      364
     ],
     [
+      728,
+      728
     ],
     [
+      728,
+      1092
     ],
     [
+      1092,
+      728
     ],
     [
+      1092,
+      1092
     ],
     [
+      364,
+      1456
     ],
     [
+      1456,
+      364
     ],
     [
+      728,
+      1456
     ],
     [
+      1456,
+      728
     ],
     [
+      1456,
+      1092
     ],
     [
+      1092,
+      1456
+    ],
+    [
+      1456,
+      1456
     ]
   ],
+  "image_seq_length": 169,
   "image_token_id": 255030,
   "model_type": "kawn_idefics3",
   "scale_factor": 2,
   "vision_config": {
     "_attn_implementation_autoset": true,
     "hidden_size": 1152,
+    "image_size": 364,
+    "initializer_range": 0.02,
     "intermediate_size": 4304,
     "model_type": "siglip_vision_model",
     "num_attention_heads": 16,
     "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
   },
   "vision_feature_layer": null
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0c9722d9f094d49ad31944bba5a2383242fee5b9b9741c2891a4529f8acca6c
-size 4899859744

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3667ce67891748a4c70bda73a78180f350af45928edb155e09a8a170f42dd4a
+size 4986700208

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97cf0aef1b8174cae19553842b741363d9eecc0f7f2e37abea0c77e4be55744f
-size 4915826024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9ba99cd16ad5fe805e4f2df166fd37701fa7ea041a43854e6995db50c23d21e
+size 4999720960

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:551626b15d743994c043f9b863282ea0219ec76c808c9e371fdc7423e3e838ba
-size 4999721000

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f49966c2aa4946b0e08c029ef5228663d6468cbdd6550376856294a32842acf
+size 4915826080

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90005b2f3c8d53562dedb2bec66e9173e028c3ba911fa477b04736a2762f8a91
-size 2134954816

 version https://git-lfs.github.com/spec/v1
+oid sha256:beeb85936900fcf16af24c88c3eea1d9686ab50561922c949097a08d48891049
+size 2017514168

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 16950265984
   },
   "weight_map": {
     "connector.proj.weight": "model-00004-of-00004.safetensors",
@@ -61,8 +61,8 @@
     "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.15.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.15.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
@@ -73,10 +73,10 @@
     "language_model.model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
@@ -167,7 +167,7 @@
     "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
@@ -216,7 +216,7 @@
     "language_model.model.layers.4.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.4.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.4.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
@@ -697,17 +697,6 @@
     "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.attention.in_proj_bias": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.attention.in_proj_weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.attention.out_proj.bias": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.attention.out_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.layernorm.bias": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.layernorm.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.mlp.fc1.bias": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.mlp.fc1.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.mlp.fc2.bias": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.mlp.fc2.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.vision_model.head.probe": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors"
   }

 {
   "metadata": {
+    "total_size": 16919667168
   },
   "weight_map": {
     "connector.proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.4.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.4.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
     "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors"
   }