rockerBOO
/

stablelm-tuned-alpha-3b-8bit

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

Model card Files Files and versions Community

rockerBOO commited on May 28, 2023

Commit

61e0623

·

1 Parent(s): 56bbd74

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ datasets:
 # StableLM-Tuned-Alpha 3B 8Bit
-3B model converted to int8 by rockerBOO. May require `bitsandbytes` dependency and using `load_in_8bit=True`.
 ## Model Description
@@ -29,9 +29,9 @@ Get started chatting with `StableLM-Tuned-Alpha` by using the following code sni
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList
-tokenizer = AutoTokenizer.from_pretrained("StabilityAI/stablelm-tuned-alpha-7b")
-model = AutoModelForCausalLM.from_pretrained("StabilityAI/stablelm-tuned-alpha-7b")
-model.half().cuda()
 class StopOnTokens(StoppingCriteria):
     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:

 # StableLM-Tuned-Alpha 3B 8Bit
+3B model converted to int8 by rockerBOO. May require `bitsandbytes` dependency. Tested on a 2080 8GB.
 ## Model Description
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList
+tokenizer = AutoTokenizer.from_pretrained("StabilityAI/stablelm-tuned-alpha-3b")
+model = AutoModelForCausalLM.from_pretrained("rockerBOO/stablelm-tuned-alpha-3b-8bit")
+model.cuda()
 class StopOnTokens(StoppingCriteria):
     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool: