Spaces:

Chadsglm
/

deepseek-task-manager

Runtime error

Chadsglm commited on Jan 28

Commit

00751ca

verified ·

1 Parent(s): e16aaac

Upload 6 files

Files changed (6) hide show

Dockerfile ADDED Viewed

+# Use a lightweight Python image
+FROM python:3.9
+# Set the working directory
+WORKDIR /app
+# Copy all files
+COPY . .
+# Install dependencies
+RUN pip install -r requirements.txt
+# Expose port 7860 for Hugging Face
+EXPOSE 7860
+# Run the FastAPI server
+CMD ["uvicorn", "api.app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,10 +1,11 @@
----
-title: Deepseek Task Manager
-emoji: 👀
-colorFrom: gray
-colorTo: red
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# DeepSeek Task Manager - Hugging Face Spaces
+🚀 This Space runs **DeepSeek AI** using **FastAPI**.
+## API Endpoints
+- `GET /` → Check if the server is running.
+- `POST /generate/` → Generate a task response.
+## Usage Example
+```bash
+curl -X POST "https://your-space-name.hf.space/generate/" -H "Content-Type: application/json" -d '{"task": "Create subtasks for project planning"}'

app.py ADDED Viewed

+from fastapi import FastAPI
+import uvicorn
+from models.model_loader import generate_response
+app = FastAPI()
+@app.get("/")
+def home():
+    return {"message": "DeepSeek AI is running on Hugging Face!"}
+@app.post("/generate/")
+def generate_task(task: str):
+    response = generate_response(task)
+    return {"response": response}
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=7860)

model_loader.py ADDED Viewed

+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+MODEL_NAME = "deepseek-ai/deepseek-llm-67b-chat"
+def load_model():
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    model = AutoModelForCausalLM.from_pretrained(
+        MODEL_NAME, torch_dtype=torch.float16, device_map="auto"
+    )
+    return tokenizer, model
+tokenizer, model = load_model()
+def generate_response(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+    outputs = model.generate(**inputs, max_length=500)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)

requirements.txt ADDED Viewed

+torch
+transformers
+fastapi
+uvicorn
+accelerate

run_colab.sh ADDED Viewed

+#!/bin/bash
+echo "Installing dependencies..."
+pip install -r requirements.txt
+echo "Starting FastAPI server..."
+uvicorn api.app:app --host 0.0.0.0 --port=8000 &
+sleep 5
+echo "Exposing API with Ngrok..."
+ngrok authtoken YOUR_NGROK_AUTH_TOKEN
+ngrok http 8000