Spaces:
Sleeping
Sleeping
File size: 3,611 Bytes
f0f212a f1dc31f f0f212a f1dc31f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 |
import wget
import os
import asyncio
from fastapi import FastAPI
from pydantic import BaseModel
import executorch
import uvicorn
# Definir los parámetros de la solicitud utilizando Pydantic
class Request(BaseModel):
# Valores por defecto para las rutas de los archivos
model_path: str = "Llama-3.2-1B-Instruct-SpinQuant_INT4_EO8.pte"
tokenizer_path: str = "tokenizer.model"
# Valores por defecto para la temperatura y longitud de secuencia
prompt: str
temperature: float = 0.7
seq_len: int = 256
# Crear una instancia de FastAPI
app = FastAPI()
# Cargar el modelo y el tokenizer globalmente para evitar recargarlo en cada solicitud
model = None
tokenizer = None
# Función para descargar el modelo y el tokenizer en la misma carpeta del código (ahora es asíncrona)
async def download_files(model_url: str, tokenizer_url: str, model_path: str, tokenizer_path: str):
# Verificar si el archivo ya existe, si no, descargarlo
if not os.path.exists(model_path):
print(f"Descargando el modelo desde: {model_url}")
# Usamos wget de manera asíncrona
await asyncio.to_thread(wget.download, model_url, model_path)
if not os.path.exists(tokenizer_path):
print(f"Descargando el tokenizer desde: {tokenizer_url}")
# Usamos wget de manera asíncrona
await asyncio.to_thread(wget.download, tokenizer_url, tokenizer_path)
# Cargar el modelo y el tokenizer (se hace una vez al inicio) (ahora es asíncrona)
async def load_model(request: Request):
global model, tokenizer
# Si ya están cargados, no cargamos de nuevo
if model is not None and tokenizer is not None:
print("Modelo y tokenizer ya están cargados en la memoria.")
return
# URLs de los archivos a descargar
model_url = "https://huggingface.co/executorch-community/Llama-3.2-1B-Instruct-SpinQuant_INT4_EO8-ET/resolve/main/Llama-3.2-1B-Instruct-SpinQuant_INT4_EO8.pte"
tokenizer_url = "https://huggingface.co/executorch-community/Llama-3.2-1B-Instruct-SpinQuant_INT4_EO8-ET/resolve/main/tokenizer.model"
# Obtener la ruta del directorio actual
current_dir = os.path.dirname(os.path.realpath(__file__))
# Definir las rutas locales donde se guardarán los archivos
local_model_path = os.path.join(current_dir, request.model_path)
local_tokenizer_path = os.path.join(current_dir, request.tokenizer_path)
# Descargar los archivos si no existen (se hace de forma asíncrona)
await download_files(model_url, tokenizer_url, local_model_path, local_tokenizer_path)
# Cargar el modelo y tokenizer descargados
print("Cargando el modelo y tokenizer en memoria...")
model = executorch.load_model(local_model_path)
tokenizer = executorch.load_tokenizer(local_tokenizer_path)
# Configurar el modelo con los parámetros recibidos
model.set_temperature(request.temperature)
model.set_max_length(request.seq_len)
print("Modelo y tokenizer cargados en memoria.")
# Ruta para generar texto (ahora es asíncrona)
@app.post("/generate/")
async def generate_text(request: Request):
# Cargar el modelo si no ha sido cargado
if model is None or tokenizer is None:
await load_model(request) # Esperamos la carga del modelo de forma asíncrona
# Generar el texto con el prompt recibido
output = model.generate(request.prompt)
# Devolver el texto generado
return {"generated_text": output}
# Código para ejecutar uvicorn desde el archivo Python
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8000)
|