File size: 1,460 Bytes

88e1248
dc32044
c8b5fa1
 
 
 
 
dc32044
88e1248
dc32044
 
c8b5fa1
 
 
39ec5b7
c8b5fa1
 
 
 
88e1248
c8b5fa1
dc32044
 
c8b5fa1
dc32044
c8b5fa1
88e1248
dc32044
 
88e1248
dc32044
6dec8ee
dc32044
88e1248
dc32044
88e1248
dc32044
88e1248
dc32044
6dec8ee

from typing import Dict, Any
import logging

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftConfig, PeftModel


LOGGER = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)


class EndpointHandler():
    def __init__(self, path=""):
        config = PeftConfig.from_pretrained(path)
        model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, load_in_8bit=True, device_map='auto')
        self.tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)
        # Load the Lora model
        self.model = PeftModel.from_pretrained(model, path)

    def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
        """
        Args:
            data (Dict): The payload with the text prompt and generation parameters.
        """
        LOGGER.info(f"Received data: {data}")
        # Get inputs
        prompt = data.pop("prompt", data)
        parameters = data.pop("parameters", None)
        # Preprocess
        input = self.tokenizer(prompt, return_tensors="pt")
        # Forward
        LOGGER.info(f"Start generation.")
        if parameters is not None:
            output = self.model.generate(**input, **parameters)
        else:
            output = self.model.generate(**input)
        # Postprocess
        prediction = self.tokenizer.decode(output[0])
        LOGGER.info(f"Generated text: {prediction}")
        return {"generated_text": prediction}