mobiuslabsgmbh
/

Llama-2-7b-chat-hf_4bitnogs_hqq

Text Generation

Model card Files Files and versions Community

mobicham commited on Aug 16

Commit

2608dc1

•

1 Parent(s): f894411

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -63,7 +63,7 @@ prepare_for_inference(model, backend="marlin", allow_merge=True) #use float16
 #Generate
 from hqq.utils.generation_hf import HFGenerator
 gen = HFGenerator(model, tokenizer, max_new_tokens=1000, do_sample=True, compile="partial")
 gen.generate("Write an essay about large language models", print_tokens=True)

 #Generate
 from hqq.utils.generation_hf import HFGenerator
+#For longer context, make sure to allocate enough cache via the cache_size= parameter
 gen = HFGenerator(model, tokenizer, max_new_tokens=1000, do_sample=True, compile="partial")
 gen.generate("Write an essay about large language models", print_tokens=True)