apoorvkh
/

blip2-flan-t5-xxl-endpoint

Inference Endpoints

Model card Files Files and versions Community

apoorvkh commited on Jun 18, 2023

Commit

ca66b5c

•

1 Parent(s): 2126f25

device map fix

Files changed (1) hide show

handler.py +14 -4

handler.py CHANGED Viewed

@@ -1,6 +1,9 @@
 from typing import Dict, Any
 import torch
-from transformers import Blip2ForConditionalGeneration, Blip2Processor
 from PIL import Image
 from io import BytesIO
 import base64
@@ -10,8 +13,15 @@ import torch.nn.functional as F
 class EndpointHandler():
     def __init__(self, path=""):
         self.processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
         self.model = Blip2ForConditionalGeneration.from_pretrained(
-            "Salesforce/blip2-flan-t5-xxl", device_map="auto",
             torch_dtype=torch.float16
             # load_in_8bit=True,
         )
@@ -28,7 +38,7 @@ class EndpointHandler():
             temperature: float = inputs['temperature']
             inputs = self.processor(images=image, text=input_text, return_tensors="pt").to(
-                0, self.model.dtype
             )
             output = self.model.generate(
                 **inputs, max_new_tokens=max_new_tokens, temperature=temperature
@@ -47,7 +57,7 @@ class EndpointHandler():
             inputs = self.processor(
                 images=image, text=(prompt + continuation), return_tensors="pt"
-            ).to(0, self.model.dtype)
             inputs["labels"] = inputs["input_ids"]
             input_ids = inputs["input_ids"][0]
             tokens = [self.processor.decode([t]) for t in input_ids]

 from typing import Dict, Any
 import torch
+from transformers import Blip2Processor, Blip2Config, Blip2ForConditionalGeneration
+from accelerate import init_empty_weights, infer_auto_device_map
 from PIL import Image
 from io import BytesIO
 import base64
 class EndpointHandler():
     def __init__(self, path=""):
         self.processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xxl")
+        config = Blip2Config.from_pretrained("Salesforce/blip2-flan-t5-xxl")
+        with init_empty_weights():
+            model = Blip2ForConditionalGeneration(config)
+            device_map = infer_auto_device_map(model, no_split_module_classes=["T5Block"])
+        device_map['language_model.lm_head'] = device_map["language_model.encoder.embed_tokens"]
         self.model = Blip2ForConditionalGeneration.from_pretrained(
+            "Salesforce/blip2-flan-t5-xxl", device_map=device_map,
             torch_dtype=torch.float16
             # load_in_8bit=True,
         )
             temperature: float = inputs['temperature']
             inputs = self.processor(images=image, text=input_text, return_tensors="pt").to(
+                self.model.device, self.model.dtype
             )
             output = self.model.generate(
                 **inputs, max_new_tokens=max_new_tokens, temperature=temperature
             inputs = self.processor(
                 images=image, text=(prompt + continuation), return_tensors="pt"
+            ).to(self.model.device, self.model.dtype)
             inputs["labels"] = inputs["input_ids"]
             input_ids = inputs["input_ids"][0]
             tokens = [self.processor.decode([t]) for t in input_ids]