vl-7b-4bit

Runtime error

minhdang commited on Mar 21, 2024

Commit

f226eec

•

1 Parent(s): efa875e

Update inference.py

Files changed (1) hide show

inference.py CHANGED Viewed

@@ -36,13 +36,15 @@ from deepseek_vl.utils.conversation import Conversation
 from transformers import BitsAndBytesConfig
 from transformers import QuantoConfig
-quanto_config = QuantoConfig(weights="int4")
 def load_model(model_path):
     vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
     tokenizer = vl_chat_processor.tokenizer
     vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
-        model_path, trust_remote_code=True, quantization_config = quanto_config,low_cpu_mem_usage=True
     )
     vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

 from transformers import BitsAndBytesConfig
 from transformers import QuantoConfig
+# quanto_config = QuantoConfig(weights="int4")
 def load_model(model_path):
     vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
     tokenizer = vl_chat_processor.tokenizer
     vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
+        model_path, trust_remote_code=True,
+        # quantization_config = quanto_config,
+        low_cpu_mem_usage=True
     )
     vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()