Intel
/

neural-chat-7b-v3-1

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

lvkaokao commited on Feb 20, 2024

Commit

56bb9e3

·

verified ·

1 Parent(s): 2c7e06a

Update README.md

Files changed (1) hide show

README.md +3 -1

README.md CHANGED Viewed

@@ -202,7 +202,9 @@ outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)
 ```python
 from transformers import AutoTokenizer, TextStreamer
 from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig
-model_name = "Intel/neural-chat-7b-v3-1"
 config = WeightOnlyQuantConfig(compute_dtype="bf16", weight_dtype="int4")
 prompt = "Once upon a time, there existed a little girl,"

 ```python
 from transformers import AutoTokenizer, TextStreamer
 from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig
+model_name = "Intel/neural-chat-7b-v3-1"
+# for int8, should set weight_dtype="int8"
 config = WeightOnlyQuantConfig(compute_dtype="bf16", weight_dtype="int4")
 prompt = "Once upon a time, there existed a little girl,"