Spaces:

DucThuanTran
/

AthenaAI

Runtime error

App Files Files Community

DucThuanTran commited on Sep 3

Commit

c4baf13

verified ·

1 Parent(s): 65841d7

Update main.py

Browse files

Files changed (1) hide show

main.py +86 -269

main.py CHANGED Viewed

@@ -1,310 +1,127 @@
-# main.py
 # ===============================================================
-# 1. IMPORT THƯ VIỆN
 # ===============================================================
 import os
 import torch
 import gc
 import re
-import io
 import logging
-from datetime import datetime, timedelta
-from collections import defaultdict
-from itertools import chain
-import random
-# Thư viện AI & Machine Learning
-import transformers
 from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSequenceClassification
 from datasets import load_dataset
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
-from sentence_transformers import SentenceTransformer
-from sklearn.feature_extraction.text import TfidfVectorizer
-import numpy as np
-# Thư viện API
-from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel
-import uvicorn
 # Set up logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-# Ngăn chặn warning không cần thiết từ tokenizer
-transformers.logging.set_verbosity_error()
-# ===============================================================
-# 2. KHỞI TẠO CÁC MODEL (PHẦN NẶNG NHẤT)
-# ===============================================================
-logger.info("Bắt đầu quá trình tải model...")
-# Kiểm tra xem có GPU không
-is_gpu_available = torch.cuda.is_available()
-device = "cuda" if is_gpu_available else "cpu"
-logger.info(f"Thiết bị được sử dụng: {device}")
-# Model kiểm duyệt nội dung (chạy trên CPU để tiết kiệm VRAM)
-logger.info("Đang tải model kiểm duyệt (moderation)...")
-moderation_tokenizer = AutoTokenizer.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
-moderation_model = AutoModelForSequenceClassification.from_pretrained(
-    "facebook/roberta-hate-speech-dynabench-r4-target"
-).to("cpu")
-# Model Llama 2 chính
-logger.info("Đang tải model Llama-2-7b-chat-hf...")
-model_id = "meta-llama/Llama-2-7b-chat-hf"
-hf_token = os.environ.get("HF_TOKEN") # Lấy token từ Secret của Hugging Face Space
-if not hf_token:
-    logger.warning("HF_TOKEN không được tìm thấy. Có thể không tải được Llama-2.")
-tokenizer = AutoTokenizer.from_pretrained(model_id, token=hf_token)
-tokenizer.pad_token = tokenizer.eos_token
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    token=hf_token,
-    device_map="auto",
-    torch_dtype=torch.float16
-)
-# Pipeline phân tích cảm xúc
-logger.info("Đang tải model phân tích cảm xúc (sentiment)...")
-sentiment_analyzer = pipeline(
-    "sentiment-analysis",
-    model="cardiffnlp/twitter-roberta-base-sentiment-latest",
-    tokenizer="cardiffnlp/twitter-roberta-base-sentiment-latest",
-    device=0 if is_gpu_available else -1
-)
-# Pipeline phân tích cảm xúc chi tiết (emotion)
-logger.info("Đang tải model phân tích cảm xúc chi tiết (emotion)...")
-emotion_analyzer = pipeline(
-    "text-classification",
-    model="bhadresh-savani/distilbert-base-uncased-emotion",
-    top_k=None,
-    device=0 if is_gpu_available else -1
-)
-logger.info("Tất cả model đã được tải thành công!")
 # ===============================================================
-# 3. CÁC HÀM XỬ LÝ VÀ LOGIC CỐT LÕI (giữ nguyên từ code của bạn)
 # ===============================================================
-# --- Các hằng số và patterns ---
-CRISIS_PATTERNS = [
-    r"\bi (want to|need to|am going to|will) (die|kill myself|end it all)\b",
-    r"\bi'm going to (kill myself|end my life)\b",
-    r"\bplanning to end my life\b",
-]
-CONCERN_PATTERNS = [
-    r"\bi've been feeling (really )?(depressed|suicidal)\b",
-    r"\bi feel (hopeless|trapped|worthless)\b",
-    r"\bno one (cares|would miss me)\b",
-]
-MENTAL_HEALTH_RESOURCES = {
-    'crisis': ["National Suicide Prevention Lifeline (US): 988", "Crisis Text Line: Text HOME to 741741"],
-    'concern': ["SAMHSA Helpline (US): 1-800-662-HELP (4357)", "7 Cups (free online therapy): https://www.7cups.com"],
-    'general': ["Psychology Today Therapist Finder: https://www.psychologytoday.com"]
-}
-# --- Các hàm an toàn ---
-def moderate_text(text):
-    inputs = moderation_tokenizer(text, return_tensors="pt", truncation=True, max_length=512).to(moderation_model.device)
-    with torch.no_grad():
-        outputs = moderation_model(**inputs)
-    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
-    harmful_score = probs[0, 1].item()
-    return {'is_harmful': harmful_score > 0.7, 'score': harmful_score}
-def sanitize_input(text):
-    text = re.sub(r'<[^>]+>', '', text)
-    return text.strip()[:1000]
-def enhanced_crisis_detection(text):
-    text_lower = text.lower()
-    if any(re.search(pattern, text_lower) for pattern in CRISIS_PATTERNS): return "crisis"
-    if any(re.search(pattern, text_lower) for pattern in CONCERN_PATTERNS): return "concern"
-    return False
-# --- Các hàm phân tích ---
-def combined_sentiment_analysis(text):
-    urgency = enhanced_crisis_detection(text)
-    if urgency: return urgency, 1.0, [("crisis_detected", 1.0)]
-    try:
-        sentiment_result = sentiment_analyzer(text)[0]
-        sentiment = sentiment_result['label'].lower()
-        sent_score = sentiment_result['score']
-        emotion_results = emotion_analyzer(text)[0]
-        emotions = sorted(emotion_results, key=lambda x: x['score'], reverse=True)[:3]
-        emotions = [(emo['label'], emo['score']) for emo in emotions]
-        return sentiment, sent_score, emotions
-    except Exception as e:
-        logger.error(f"Lỗi phân tích cảm xúc: {e}")
-        return "neutral", 0.5, [("unknown", 0.0)]
-# --- Hệ thống Retrieval-Augmented Generation (RAG) ---
-def load_and_process_datasets(limit_per_dataset=200): # Giảm số lượng để tải nhanh hơn
-    # ... (Giữ nguyên logic hàm load_and_process_datasets của bạn) ...
-    # Vì hàm này khá dài, bạn có thể copy-paste lại từ code gốc của mình vào đây
-    # Hoặc để đơn giản hóa cho việc test, bạn có thể thay thế bằng dữ liệu giả
-    logger.info("Đang tải và xử lý datasets cho RAG...")
-    datasets = []
-    try:
-        empathetic = load_dataset("Estwld/empathetic_dialogues_llm", split=f"train[:{limit_per_dataset}]")
-        processed_empathetic = [f"Emotion: {ex['emotion']}. Situation: {ex['situation']}. Response: {ex['conversations'][0]['content']}" for ex in empathetic if ex['conversations']]
-        datasets.extend(processed_empathetic)
-    except Exception as e:
-        logger.warning(f"Không thể tải dataset Empathetic: {e}")
-    try:
-        mental_health = load_dataset("Amod/mental_health_counseling_conversations", split=f"train[:{limit_per_dataset}]")
-        processed_mental_health = [f"Context: {ex['Context']}. Response: {ex['Response']}" for ex in mental_health]
-        datasets.extend(processed_mental_health)
-    except Exception as e:
-        logger.warning(f"Không thể tải dataset Mental Health: {e}")
-    logger.info(f"Tổng số tài liệu RAG đã tải: {len(datasets)}")
-    return datasets
-documents = load_and_process_datasets()
-if documents:
-    vector_store = FAISS.from_texts(documents, HuggingFaceEmbeddings(model_name='all-MiniLM-L6-v2'))
-    retriever = vector_store.as_retriever(search_kwargs={'k': 2})
-else:
-    retriever = None
-    logger.warning("Không có tài liệu nào cho RAG, retriever sẽ bị vô hiệu hóa.")
-# --- Pipeline chính của Llama 2 ---
-pipe = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer,
-    do_sample=True,
-    temperature=0.7,
-    top_p=0.9,
-    max_new_tokens=512
-)
-# --- Quản lý hội thoại ---
-class ConversationManager:
-    def __init__(self):
-        self.history = []
-        self.is_first_message = True
-        self.rate_limits = defaultdict(list)
-    def add_message(self, role, content): self.history.append({"role": role, "content": content})
-    def get_conversation_text(self): return "\n".join([f"{m['role']}: {m['content']}" for m in self.history])
-    def check_rate_limit(self, user_id="default"):
-        now = datetime.now()
-        recent = [req for req in self.rate_limits[user_id] if req > now - timedelta(minutes=1)]
-        if len(recent) >= 15: return False, "Rate limit exceeded"
-        self.rate_limits[user_id].append(now)
-        return True, ""
-    def reset(self):
-        self.history = []; self.is_first_message = True
-        return "Conversation reset"
-conversation_manager = ConversationManager()
-# --- Hàm tạo prompt và sinh response ---
-def format_prompt_with_context(user_input, conv_history, retrieved_contexts):
-    context_text = ""
-    if retrieved_contexts:
-        context_text = "Dưới đây là một vài ví dụ để tham khảo:\n" + "\n".join(
-            [f"Ví dụ {i+1}: {ctx.page_content}" for i, ctx in enumerate(retrieved_contexts)]
-        )
-    prompt = f"""<s>[INST] <<SYS>>
-Bạn là Athena, một trợ lý AI trị liệu tâm lý giàu lòng cảm thông bằng tiếng Việt. Hãy luôn duy trì một thái độ ấm áp, thấu hiểu và không phán xét. Sử dụng các kỹ thuật lắng nghe tích cực và phản hồi một cách sâu sắc.
-{context_text}
-Lịch sử hội thoại trước:
-{conv_history}
-<</SYS>>
-Người dùng: {user_input} [/INST] Athena: """
-    return prompt
-def generate_safe_response(user_input):
-    sanitized_input = sanitize_input(user_input)
-    if moderate_text(sanitized_input)['is_harmful']:
-        return "Tôi xin lỗi, tôi không thể xử lý nội dung có hại. Chúng ta hãy nói về điều gì đó tích cực hơn nhé."
-    urgency_level = enhanced_crisis_detection(sanitized_input)
-    retrieved_contexts = retriever.get_relevant_documents(sanitized_input) if retriever else []
-    conv_history = conversation_manager.get_conversation_text()
-    formatted_prompt = format_prompt_with_context(sanitized_input, conv_history, retrieved_contexts)
-    output = pipe(formatted_prompt, num_return_sequences=1)
-    response = output[0]['generated_text'].split("[/INST] Athena: ")[-1].strip()
-    if moderate_text(response)['is_harmful']:
-        return "Tôi xin lỗi, tôi không thể đưa ra phản hồi phù hợp lúc này. Bạn có muốn thảo luận về chủ đề khác không?"
-    if urgency_level:
-        resources = "\n".join(MENTAL_HEALTH_RESOURCES.get(urgency_level, []))
-        response += f"\n\n🚨 Tôi nhận thấy bạn đang gặp khó khăn. Các nguồn lực sau đây có thể giúp ích:\n{resources}"
-    return response
 # ===============================================================
-# 4. ĐỊNH NGHĨA API VỚI FASTAPI
 # ===============================================================
-app = FastAPI(title="Athena AI Therapist API", description="API cho trợ lý trị liệu tâm lý Athena")
 class PredictRequest(BaseModel):
-    user_id: str = "default-user"
     user_input: str
 @app.get("/", tags=["Health Check"])
 def health_check():
-    """Kiểm tra xem API có đang hoạt động không."""
-    return {"status": "Athena is awake and listening..."}
 @app.post("/predict", tags=["Core Logic"])
 async def predict(request: PredictRequest):
     """
-    Nhận input từ người dùng và trả về phản hồi của Athena.
     """
-    try:
-        rate_ok, rate_msg = conversation_manager.check_rate_limit(request.user_id)
-        if not rate_ok:
-            raise HTTPException(status_code=429, detail=rate_msg)
-        if not request.user_input or not request.user_input.strip():
-            raise HTTPException(status_code=400, detail="User input không được để trống.")
-        response_text = generate_safe_response(request.user_input)
-        sentiment, score, emotions = combined_sentiment_analysis(request.user_input)
-        emo_list = [{"label": e[0], "score": round(e[1], 4)} for e in emotions]
-        conversation_manager.add_message("user", request.user_input)
-        conversation_manager.add_message("assistant", response_text)
-        return {
-            "response": response_text,
-            "sentiment_analysis": {
-                "sentiment": sentiment,
-                "score": round(score, 4),
-                "emotions": emo_list
-            }
-        }
     except Exception as e:
         logger.error(f"Lỗi tại endpoint /predict: {str(e)}")
-        raise HTTPException(status_code=500, detail="Đã xảy ra lỗi máy chủ nội bộ.")
-@app.post("/reset", tags=["Utility"])
-async def reset():
-    """Reset lại lịch sử hội thoại."""
-    message = conversation_manager.reset()
-    return {"status": "success", "message": message}
-# Dòng này để chạy local test, không cần thiết cho Hugging Face Space
-# if __name__ == "__main__":
-#     uvicorn.run(app, host="0.0.0.0", port=8000)

+# main.py (đã sửa đổi với Lazy Loading)
 # ===============================================================
+# 1. IMPORT THƯ VIỆN & CÁC HẰNG SỐ (KHÔNG TẢI MODEL Ở ĐÂY)
 # ===============================================================
 import os
 import torch
 import gc
 import re
 import logging
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel
+import uvicorn
+# ... (Thêm lại các import khác của bạn ở đây: transformers, datasets, langchain, etc.)
 from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSequenceClassification
 from datasets import load_dataset
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
+# ... và các import còn lại
 # Set up logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+# Tạo một "kho chứa" toàn cục để lưu các model sau khi được tải
+# Ban đầu nó sẽ trống
+model_cache = {}
 # ===============================================================
+# 2. TẠO MỘT HÀM ĐỂ TẢI TẤT CẢ MODEL VÀ RAG
 # ===============================================================
+def load_all_models():
+    """
+    Hàm này sẽ tải tất cả các model và thiết lập RAG.
+    Nó chỉ thực sự chạy một lần duy nhất khi có request đầu tiên.
+    """
+    # Kiểm tra xem model đã được tải chưa để tránh tải lại
+    if "is_loaded" in model_cache:
+        logger.info("Models đã được tải, bỏ qua.")
+        return
+    logger.info("Lần đầu khởi chạy, bắt đầu quá trình tải model (có thể mất vài phút)...")
+    is_gpu_available = torch.cuda.is_available()
+    device = "cuda" if is_gpu_available else "cpu"
+    logger.info(f"Thiết bị được sử dụng: {device}")
+    # Tải tất cả các model và lưu vào cache
+    logger.info("Đang tải model kiểm duyệt (moderation)...")
+    model_cache["moderation_tokenizer"] = AutoTokenizer.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
+    model_cache["moderation_model"] = AutoModelForSequenceClassification.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target").to("cpu")
+    logger.info("Đang tải model Llama-2-7b-chat-hf...")
+    hf_token = os.environ.get("HF_TOKEN")
+    model_id = "meta-llama/Llama-2-7b-chat-hf"
+    tokenizer = AutoTokenizer.from_pretrained(model_id, token=hf_token)
+    model = AutoModelForCausalLM.from_pretrained(model_id, token=hf_token, device_map="auto", torch_dtype=torch.float16)
+    model_cache["llama_pipe"] = pipeline("text-generation", model=model, tokenizer=tokenizer, do_sample=True, temperature=0.7, top_p=0.9, max_new_tokens=512)
+    logger.info("Đang tải model phân tích cảm xúc (sentiment)...")
+    model_cache["sentiment_analyzer"] = pipeline("sentiment-analysis", model="cardiffnlp/twitter-roberta-base-sentiment-latest", device=0 if is_gpu_available else -1)
+    logger.info("Đang tải model phân tích cảm xúc chi tiết (emotion)...")
+    model_cache["emotion_analyzer"] = pipeline("text-classification", model="bhadresh-savani/distilbert-base-uncased-emotion", top_k=None, device=0 if is_gpu_available else -1)
+    # Tải và xử lý RAG
+    # LƯU Ý: Bạn cần copy lại hàm load_and_process_datasets và các hàm helper khác
+    # (sanitize_input, combined_sentiment_analysis, etc.) vào file này.
+    # Để ví dụ ngắn gọn, mình sẽ giả định chúng đã tồn tại.
+    # documents = load_and_process_datasets() # Hàm này của bạn
+    # if documents:
+    #     vector_store = FAISS.from_texts(documents, HuggingFaceEmbeddings(model_name='all-MiniLM-L6-v2'))
+    #     model_cache["retriever"] = vector_store.as_retriever(search_kwargs={'k': 2})
+    # else:
+    #     model_cache["retriever"] = None
+    logger.info("Tất cả model đã được tải và thiết lập thành công!")
+    model_cache["is_loaded"] = True
 # ===============================================================
+# 3. ĐỊNH NGHĨA APP VÀ ENDPOINT
+# Server sẽ khởi động ngay lập tức vì không có gì nặng ở đây.
 # ===============================================================
+app = FastAPI(title="Athena AI Therapist API")
 class PredictRequest(BaseModel):
     user_input: str
+@app.on_event("startup")
+def startup_event():
+    """Sự kiện này chỉ chạy 1 lần khi server bắt đầu."""
+    logger.info("Server FastAPI đã khởi động. Sẵn sàng nhận yêu cầu.")
+    logger.info("Các model sẽ được tải 'lười biếng' khi có yêu cầu /predict đầu tiên.")
 @app.get("/", tags=["Health Check"])
 def health_check():
+    """Endpoint siêu nhẹ để Hugging Face kiểm tra sức khỏe."""
+    return {"status": "healthy", "models_loaded": model_cache.get("is_loaded", False)}
 @app.post("/predict", tags=["Core Logic"])
 async def predict(request: PredictRequest):
     """
+    Endpoint chính. Nó sẽ kích hoạt việc tải model nếu đây là lần chạy đầu tiên.
     """
+    # Bước quan trọng: Gọi hàm tải model.
+    # Nếu model đã được tải, nó sẽ bỏ qua ngay lập tức.
+    # Nếu chưa, nó sẽ chặn và tải ở đây.
+    load_all_models()
+    try:
+        # Bây giờ, sử dụng các model từ cache
+        # response_text = generate_safe_response(request.user_input, model_cache)
+        # Lưu ý: bạn sẽ cần sửa lại hàm generate_safe_response và các hàm khác
+        # để chúng nhận `model_cache` làm tham số thay vì dùng biến toàn cục.
+        # ---- VÍ DỤ TẠM THỜI ĐỂ TEST ----
+        prompt = f"User: {request.user_input}\nAthena:"
+        llama_pipe = model_cache["llama_pipe"]
+        result = llama_pipe(prompt)
+        response_text = result[0]['generated_text']
+        # --------------------------------
+        return {"response": response_text}
     except Exception as e:
         logger.error(f"Lỗi tại endpoint /predict: {str(e)}")
+        raise HTTPException(status_code=500, detail="Đã xảy ra lỗi máy chủ nội bộ.")