eunyuOffice
/

simcse_chat

Model card Files Files and versions

simcse_chat / handler.py

eunyuOffice's picture

Upload handler.py with huggingface_hub

db9b4f9 verified 11 months ago

history blame contribute delete

3.14 kB

	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from peft import PeftModel

	def EndpointHandler(path=""):
	"""
	Inference Endpoints에서 사용할 핸들러 함수
	"""
	class Handler:
	def __init__(self, path=""):
	self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	self.base_model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
	self.adapter_path = path or "./tinyllama-qa-news"

	# ✅ 모델 로딩 (GPU)
	base_model = AutoModelForCausalLM.from_pretrained(
	self.base_model_id,
	torch_dtype=torch.float16
	)
	self.model = PeftModel.from_pretrained(base_model, self.adapter_path)
	self.model.to(self.device)
	self.model.eval()

	self.tokenizer = AutoTokenizer.from_pretrained(self.base_model_id)
	self.tokenizer.pad_token = self.tokenizer.eos_token
	self.tokenizer.padding_side = "right"

	def generate_response(self, user_input: str):
	messages = [
	{
	"role": "system",
	"content": "당신은 공감적이고 이해심 깊은 감정 상담 챗봇입니다. 사용자의 감정과 생각을 이해하고 공감하며, 적절한 조언을 제공합니다."
	},
	{"role": "user", "content": user_input}
	]

	prompt = self.tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True,
	return_tensors=None
	)

	inputs = self.tokenizer(prompt, return_tensors="pt", padding=True)
	inputs = {k: v.to(self.device) for k, v in inputs.items()}

	with torch.no_grad():
	outputs = self.model.generate(
	**inputs,
	max_new_tokens=256,
	temperature=0.8,
	top_p=0.95,
	do_sample=True,
	pad_token_id=self.tokenizer.eos_token_id,
	repetition_penalty=1.1,
	length_penalty=1.0,
	num_return_sequences=1,
	num_beams=1,
	early_stopping=False
	)

	decoded = self.tokenizer.decode(outputs[0], skip_special_tokens=True)

	if "<\|assistant\|>" in decoded:
	response = decoded.split("<\|assistant\|>")[-1].strip()
	else:
	response = decoded.split(prompt)[-1].strip()

	if not response:
	response = "감정을 이해해 주셔서 감사합니다. 더 이야기하고 싶으신 게 있으신가요?"

	return response

	def __call__(self, data):
	if not data or "inputs" not in data:
	return {"error": "입력 데이터가 없습니다."}

	user_input = data["inputs"]
	response = self.generate_response(user_input)
	return {"response": response}

	return Handler(path)