humane-intelligence
/

gemma2-9b-cpt-sealionv3-instruct-endpoint

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

binaryaaron commited on Nov 2, 2024

Commit

2e3949d

·

unverified ·

1 Parent(s): dfa140e

update handler for inputs and parameters

Files changed (1) hide show

handler.py +13 -8

handler.py CHANGED Viewed

@@ -2,21 +2,26 @@ from typing import Dict, List, Any
 import transformers
 import torch
-MAX_TOKENS=8192
 class EndpointHandler(object):
     def __init__(self, path=''):
         self.pipeline: transformers.Pipeline = transformers.pipeline(
             "text-generation",
             model="humane-intelligence/gemma2-9b-cpt-sealionv3-instruct-endpoint",
-            model_kwargs={"torch_dtype": torch.bfloat16, "low_cpu_mem_usage": True, },
             device_map="auto",
         )
-    def __call__(self, text_inputs: Any) -> List[List[Dict[str, float]]]:
-        outputs = self.pipeline(
-            text_inputs,
-            max_new_tokens=MAX_TOKENS,
-        )
-        print(outputs[0]["generated_text"][-1])
         return outputs

 import transformers
 import torch
+MAX_TOKENS=1024
 class EndpointHandler(object):
     def __init__(self, path=''):
         self.pipeline: transformers.Pipeline = transformers.pipeline(
             "text-generation",
             model="humane-intelligence/gemma2-9b-cpt-sealionv3-instruct-endpoint",
+            model_kwargs={"torch_dtype": torch.bfloat16 },
             device_map="auto",
         )
+    def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
+        inputs = data.pop("inputs")
+        if parameters:= data.pop("parameters", None):
+            outputs = self.pipeline(
+                inputs,
+                **parameters
+            )
+        else:
+            outputs = self.pipeline(inputs, max_new_tokens=MAX_TOKENS)
         return outputs