stuser2023
/

Llama2-7b-finetuned

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

Model card Files Files and versions Metrics Training metrics Community

stuser2023 commited on Apr 20

Commit

673a1b8

•

1 Parent(s): c4883b1

Update README.md

Files changed (1) hide show

README.md +7 -9

README.md CHANGED Viewed

@@ -37,22 +37,20 @@ lora_r = 8
 ```python
 import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM
-from peft import PeftModel,PeftConfig
-finetune_model_path="stuser2023/Llama2-7b-finetuned"
-config = PeftConfig.from_pretrained(finetune_model_path)
 model = AutoModelForCausalLM.from_pretrained(
-    config.base_model_name_or_path,
-    load_in_8bit=True,
     device_map={'': 0},  # 設定使用的設備，此處指定為 GPU 0
     trust_remote_code=True,
 )
 model.config.use_cache = False
-model = PeftModel.from_pretrained(model, finetune_model_path, device_map={"": 0})
-model =model.eval()
 ```
 **3.進行推論(文字生成)**

 ```python
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+model_name = "stuser2023/Llama2-7b-finetuned"
+quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    quantization_config=quantization_config,
     device_map={'': 0},  # 設定使用的設備，此處指定為 GPU 0
     trust_remote_code=True,
 )
 model.config.use_cache = False
+model=model.eval() #把Dropout功能關掉
 ```
 **3.進行推論(文字生成)**