mobiuslabsgmbh
/

Llama-2-7b-chat-hf_4bitnogs_hqq

Text Generation

Model card Files Files and versions Community

mobicham commited on Apr 23

Commit

f894411

•

1 Parent(s): fa27400

Update README.md

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -64,8 +64,10 @@ prepare_for_inference(model, backend="marlin", allow_merge=True) #use float16
 #Generate
 from hqq.utils.generation_hf import HFGenerator
-gen = HFGenerator(model, tokenizer, do_sample=True, compile_args=None) #skips compilation: slower, but works properly
-#gen = HFGenerator(model, tokenizer, do_sample=True) #compiled: much faster, but there's a bug with HF's StaticCache
-out = gen.generate("Write an essay about large language models.", max_new_tokens=1000, print_tokens=True)
 ```

 #Generate
 from hqq.utils.generation_hf import HFGenerator
+gen = HFGenerator(model, tokenizer, max_new_tokens=1000, do_sample=True, compile="partial")
+gen.generate("Write an essay about large language models", print_tokens=True)
+gen.generate("Tell me a funny joke!", print_tokens=True)
+gen.generate("How to make a yummy chocolate cake?", print_tokens=True)
 ```