vl-7b-4bit

Runtime error

minhdang commited on Mar 21

Commit

5834081

•

1 Parent(s): 8c2b2a9

Update inference.py

Files changed (1) hide show

inference.py CHANGED Viewed

@@ -34,15 +34,18 @@ from deepseek_vl.models import MultiModalityCausalLM, VLChatProcessor
 from deepseek_vl.utils.conversation import Conversation
 from transformers import BitsAndBytesConfig
 def load_model(model_path):
     vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
     tokenizer = vl_chat_processor.tokenizer
     vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
-        model_path, trust_remote_code=True, load_in_8bit=True,low_cpu_mem_usage=True,device_map="auto"
     )
-    vl_gpt = vl_gpt.eval()
     return tokenizer, vl_gpt, vl_chat_processor

 from deepseek_vl.utils.conversation import Conversation
 from transformers import BitsAndBytesConfig
+from transformers import QuantoConfig
+quanto_config = QuantoConfig(weights="int8")
 def load_model(model_path):
     vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
     tokenizer = vl_chat_processor.tokenizer
     vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
+        model_path, trust_remote_code=True, quantization_config = quanto_config,low_cpu_mem_usage=True
     )
+    vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()
     return tokenizer, vl_gpt, vl_chat_processor