TheBloke
/

StableBeluga2-70B-GPTQ

@@ -122,6 +122,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
 model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
         model_basename=model_basename,
         use_safetensors=True,
         trust_remote_code=False,
         device="cuda:0",

 model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
         model_basename=model_basename,
+        inject_fused_attention=False, # Required for TheBloke/FreeWilly2-GPTQ model at this time.
         use_safetensors=True,
         trust_remote_code=False,
         device="cuda:0",