TangrisJones
/

vicuna-13b-GPTQ-4bit-128g

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

TangrisJones commited on May 15, 2023

Commit

5f6dd19

•

1 Parent(s): 05f197e

Upload 2 files

Files changed (2) hide show

handler.py +34 -0
requirements.txt +2 -0

handler.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from typing import Dict, List, Any
+class EndpointHandler:
+    # def __init__(self, path="decapoda-research/llama-65b-hf"):
+    def __init__(self, path="anon8231489123/vicuna-13b-GPTQ-4bit-128g"):
+        self.tokenizer = AutoTokenizer.from_pretrained(path)
+        self.model = AutoModelForCausalLM.from_pretrained(path)
+    def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
+        input_text = data["inputs"]
+        kwargs = data.get("kwargs", {})
+        # Tokenize input text
+        input_tokens = self.tokenizer.encode(input_text, return_tensors="pt")
+        # Generate output tokens
+        with torch.no_grad():
+            output_tokens = self.model.generate(input_tokens, **kwargs)
+        # Decode output tokens
+        output_text = self.tokenizer.decode(output_tokens[0])
+        return [{"output": output_text}]
+# Example usage
+if __name__ == "__main__":
+    handler = EndpointHandler()
+    input_data = {"inputs": "Once upon a time in a small village, "}
+    output_data = handler(input_data)
+    print(output_data)

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ transformers==4.29.1
2	+ tokenizers==0.13.3