Spaces:

Trigger82
/

Work

Sleeping

Work / app.py

Update app.py

5a31152 verified about 1 month ago

1.27 kB

	from transformers import AutoModelForCausalLM, AutoTokenizer
	from fastapi import FastAPI

	# Model ID on Hugging Face
	MODEL_ID = "rasyosef/Phi-1_5-Instruct-v0.1"

	# Load tokenizer and model from local cache (pre-downloaded in Docker build)
	tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
	model = AutoModelForCausalLM.from_pretrained(MODEL_ID)

	app = FastAPI()

	@app.get("/")
	def root():
	return {
	"message": "✅ Trigger82 AI API is running!",
	"usage": "Use /chat?query=Your+question to get a response."
	}

	@app.get("/chat")
	def chat(query: str):
	"""
	GET /chat?query=Your+question
	Returns JSON: {"answer": "...model’s reply..."}
	"""
	# Build the instruction‐style prompt expected by Phi‐1.5 Instruct
	prompt = (
	"<\|im_start\|>system\nYou are a helpful assistant.<\|im_end\|>"
	"<\|im_start\|>user\n" + query + "<\|im_end\|>"
	"<\|im_start\|>assistant\n"
	)
	inputs = tokenizer(prompt, return_tensors="pt")
	outputs = model.generate(**inputs, max_new_tokens=200)
	# Only decode newly generated tokens (skip the “prompt” tokens)
	response = tokenizer.decode(
	outputs[0][inputs.input_ids.shape[-1]:],
	skip_special_tokens=True
	)
	return {"answer": response.strip()}