jeremyarancio
/

llm-tolkien

Inference Endpoints

Model card Files Files and versions Community

jeremyarancio commited on Jun 2, 2023

Commit

7bf309f

•

1 Parent(s): f85d258

Update handler

Files changed (1) hide show

handler.py +5 -3

handler.py CHANGED Viewed

@@ -3,10 +3,12 @@ import logging
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftConfig, PeftModel
 LOGGER = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
 class EndpointHandler():
@@ -29,13 +31,13 @@ class EndpointHandler():
         if prompt is None:
             raise ValueError("Missing prompt.")
         # Preprocess
-        inputs = self.tokenizer(prompt, return_tensors="pt")
         # Forward
         LOGGER.info(f"Start generation.")
         if parameters is not None:
-            output = self.model.generate(**inputs, **parameters)
         else:
-            output = self.model.generate(**inputs)
         # Postprocess
         prediction = self.tokenizer.decode(output[0])
         LOGGER.info(f"Generated text: {prediction}")

 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftConfig, PeftModel
+import torch.cuda
 LOGGER = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
+device = "cuda" if torch.cuda.is_available() else "cpu"
 class EndpointHandler():
         if prompt is None:
             raise ValueError("Missing prompt.")
         # Preprocess
+        input_ids = self.tokenizer(prompt, return_tensors="pt").input_ids.to(device)
         # Forward
         LOGGER.info(f"Start generation.")
         if parameters is not None:
+            output = self.model.generate(input_ids=input_ids, **parameters)
         else:
+            output = self.model.generate(input_ids=input_ids)
         # Postprocess
         prediction = self.tokenizer.decode(output[0])
         LOGGER.info(f"Generated text: {prediction}")