ORLM

Running on Zero

tangzhy commited on Jul 25

Commit

b447e6f

•

1 Parent(s): 2f72adf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,12 +27,12 @@ MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-quantization_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_compute_dtype=torch.bfloat16,
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_quant_type= "nf4")
-# quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 model_id = "CardinalOperations/ORLM-LLaMA-3-8B"
 tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)

 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+# quantization_config = BitsAndBytesConfig(
+#     load_in_4bit=True,
+#     bnb_4bit_compute_dtype=torch.bfloat16,
+#     bnb_4bit_use_double_quant=True,
+#     bnb_4bit_quant_type= "nf4")
+quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 model_id = "CardinalOperations/ORLM-LLaMA-3-8B"
 tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)