rhaymison
/

cuscuz-7b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

rhaymison commited on Mar 26

Commit

53cfc34

•

1 Parent(s): 2c78e40

Update README.md

Files changed (1) hide show

README.md +13 -0

README.md CHANGED Viewed

@@ -128,6 +128,19 @@ _ = model.generate(**inputs, streamer=streamer, max_new_tokens=200, temperature=
 ### Inferences in 4bits
 ```python
 runtimeFlag = "cuda:0"
 inputs = tokenizer([f"""<s>Você é um assistente especializado no Nordeste Do Brasil.

 ### Inferences in 4bits
+```python
+nf4_config = BitsAndBytesConfig(
+   load_in_4bit=True,
+   bnb_4bit_quant_type="nf4",
+   bnb_4bit_use_double_quant=True,
+   bnb_4bit_compute_dtype=torch.bfloat16
+)
+model = AutoModelForCausalLM.from_pretrained("rhaymison/cuscuz-7b", quantization_config=nf4_config, device_map= {"": 0})
+tokenizer = AutoTokenizer.from_pretrained("rhaymison/cuscuz-7b")
+```
 ```python
 runtimeFlag = "cuda:0"
 inputs = tokenizer([f"""<s>Você é um assistente especializado no Nordeste Do Brasil.