openbmb
/

MiniCPM-Llama3-V-2_5-int4

Visual Question Answering

feature-extraction

4-bit precision

Model card Files Files and versions Community

finalf0 commited on May 23

Commit

eddde17

•

1 Parent(s): 91abf6f

Fix inference code

Files changed (1) hide show

modeling_minicpmv.py +6 -5

modeling_minicpmv.py CHANGED Viewed

@@ -5,7 +5,6 @@ import torch
 import torchvision
 from copy import deepcopy
 from PIL import Image
-from timm.data import IMAGENET_INCEPTION_MEAN, IMAGENET_INCEPTION_STD
 from torchvision import transforms
 from transformers import LlamaTokenizer, LlamaPreTrainedModel, LlamaForCausalLM, AutoModel, PreTrainedTokenizerFast
 from transformers.models.idefics2.modeling_idefics2 import Idefics2VisionTransformer
@@ -13,6 +12,8 @@ from transformers.models.idefics2.modeling_idefics2 import Idefics2VisionTransfo
 from .configuration_minicpm import MiniCPMVConfig
 from .resampler import Resampler
 class MiniCPMVPreTrainedModel(LlamaPreTrainedModel):
     config_class = MiniCPMVConfig
@@ -352,6 +353,8 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
         if image is not None and isinstance(copy_msgs[0]['content'], str):
             copy_msgs[0]['content'] = [image, copy_msgs[0]['content']]
         for i, msg in enumerate(copy_msgs):
             role = msg["role"]
             content = msg["content"]
@@ -361,8 +364,6 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             if isinstance(content, str):
                 content = [content]
-            images = []
-            tgt_sizes = []
             cur_msgs = []
             for c in content:
                 if isinstance(c, Image.Image):
@@ -387,10 +388,10 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
                 elif isinstance(c, str):
                     cur_msgs.append(c)
-            if tgt_sizes:
-                tgt_sizes = torch.vstack(tgt_sizes)
             msg['content'] = '\n'.join(cur_msgs)
         input_ids = tokenizer.apply_chat_template(copy_msgs, tokenize=True, add_generation_prompt=False)

 import torchvision
 from copy import deepcopy
 from PIL import Image
 from torchvision import transforms
 from transformers import LlamaTokenizer, LlamaPreTrainedModel, LlamaForCausalLM, AutoModel, PreTrainedTokenizerFast
 from transformers.models.idefics2.modeling_idefics2 import Idefics2VisionTransformer
 from .configuration_minicpm import MiniCPMVConfig
 from .resampler import Resampler
+IMAGENET_INCEPTION_MEAN = (0.5, 0.5, 0.5) # timm.data.IMAGENET_INCEPTION_MEAN
+IMAGENET_INCEPTION_STD = (0.5, 0.5, 0.5)  # timm.data.IMAGENET_INCEPTION_STD
 class MiniCPMVPreTrainedModel(LlamaPreTrainedModel):
     config_class = MiniCPMVConfig
         if image is not None and isinstance(copy_msgs[0]['content'], str):
             copy_msgs[0]['content'] = [image, copy_msgs[0]['content']]
+        images = []
+        tgt_sizes = []
         for i, msg in enumerate(copy_msgs):
             role = msg["role"]
             content = msg["content"]
             if isinstance(content, str):
                 content = [content]
             cur_msgs = []
             for c in content:
                 if isinstance(c, Image.Image):
                 elif isinstance(c, str):
                     cur_msgs.append(c)
             msg['content'] = '\n'.join(cur_msgs)
+        if tgt_sizes:
+            tgt_sizes = torch.vstack(tgt_sizes)
         input_ids = tokenizer.apply_chat_template(copy_msgs, tokenize=True, add_generation_prompt=False)