visheratin
/

MC-LLaVA-3b

Inference Endpoints

Model card Files Files and versions Community

visheratin commited on Jan 13

Commit

0953ba5

•

1 Parent(s): 800746d

Update new model

Files changed (1) hide show

modeling_llava.py +2 -7

modeling_llava.py CHANGED Viewed

@@ -35,8 +35,8 @@ class LlavaMultiModalProjector(nn.Module):
         )
         self.act = nn.GELU()
         self.linear_2 = nn.Linear(
-            config.text_config.n_embd * config.projector_tokens_num,
-            config.text_config.n_embd * config.projector_tokens_num,
             bias=True,
         )
         self.projector_tokens_num = config.projector_tokens_num
@@ -45,11 +45,6 @@ class LlavaMultiModalProjector(nn.Module):
         hidden_states = self.linear_1(image_features)
         hidden_states = self.act(hidden_states)
         hidden_states = self.linear_2(hidden_states)
-        hidden_states = hidden_states.reshape(
-            hidden_states.shape[0],
-            self.projector_tokens_num,
-            int(hidden_states.shape[1] / self.projector_tokens_num),
-        )
         return hidden_states

         )
         self.act = nn.GELU()
         self.linear_2 = nn.Linear(
+            config.text_config.n_embd * 5,
+            config.text_config.n_embd,
             bias=True,
         )
         self.projector_tokens_num = config.projector_tokens_num
         hidden_states = self.linear_1(image_features)
         hidden_states = self.act(hidden_states)
         hidden_states = self.linear_2(hidden_states)
         return hidden_states