Spaces:

vykanand
/

llama7bserver

Runtime error

llama7bserver / app.py

Update port to 8080 for Hugging Face Spaces

1650421 about 1 month ago

1.29 kB

	from fastapi import FastAPI
	from pydantic import BaseModel
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
	import torch

	app = FastAPI()

	# Load model and tokenizer once on startup
	tokenizer = AutoTokenizer.from_pretrained("Salesforce/codet5p-220m")
	model = AutoModelForSeq2SeqLM.from_pretrained("Salesforce/codet5p-220m")
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model = model.to(device)

	class GenerationRequest(BaseModel):
	prompt: str
	max_length: int = 2048
	num_beams: int = 3
	early_stopping: bool = True
	no_repeat_ngram_size: int = 3

	@app.post("/generate")
	async def generate_text(request: GenerationRequest):
	inputs = tokenizer(request.prompt, return_tensors="pt").to(device)
	outputs = model.generate(
	**inputs,
	max_length=request.max_length,
	num_beams=request.num_beams,
	early_stopping=request.early_stopping,
	no_repeat_ngram_size=request.no_repeat_ngram_size,
	eos_token_id=tokenizer.eos_token_id,
	pad_token_id=tokenizer.pad_token_id,
	)
	output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
	return {"generated_text": output_text}

	if __name__ == "__main__":
	import uvicorn
	uvicorn.run(app, host="0.0.0.0", port=8080)