Spaces:

Maslan34
/

gaih-chatbot-backend

Sleeping

App Files Files Community

Maslan34 commited on Oct 22

Commit

210743a

1 Parent(s): 532c3be

Add application file

Browse files

Files changed (3) hide show

Dockerfile +19 -0
app.py +163 -0
requirements.txt +139 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,19 @@

+# Hugging Face Docker Spaces için FastAPI yapılandırması
+FROM python:3.10-slim
+RUN useradd -m -u 1000 user
+USER user
+ENV PATH="/home/user/.local/bin:$PATH"
+WORKDIR /app
+COPY --chown=user requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY --chown=user . .
+# Hugging Face Spaces için zorunlu port
+ENV PORT=7860
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,163 @@

+import os
+import logging
+import json
+from typing import List, Dict
+from fastapi import FastAPI, Request, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from contextlib import asynccontextmanager
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.documents import Document
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_google_genai import ChatGoogleGenerativeAI
+from dotenv import load_dotenv
+load_dotenv()
+logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
+logger = logging.getLogger(__name__)
+GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
+# =========================================================
+# GEMINI RAG CHATBOT
+# =========================================================
+class GeminiRAGChatbotCPU:
+    def __init__(self, model_variant="gemini-2.0-flash-lite"):
+        self.model_variant = model_variant
+        self.device = "cpu"
+        self.vectordb = None
+        self.rag_chain = None
+        self.llm = None
+        self.embeddings = None
+        self.retriever = None
+    def gemini_yukle(self):
+        self.llm = ChatGoogleGenerativeAI(
+            model=self.model_variant,
+            google_api_key=GEMINI_API_KEY,
+            temperature=0.2,
+            max_output_tokens=200,
+        )
+        return self.llm
+    def embedding_yukle(self):
+        model = "emrecan/bert-base-turkish-cased-mean-nli-stsb-tr"
+        self.embeddings = HuggingFaceEmbeddings(
+            model_name=model,
+            model_kwargs={'device': self.device},
+            encode_kwargs={'normalize_embeddings': True}
+        )
+        return self.embeddings
+    def dokumanlari_yukle(self, klasor_yolu: str):
+        if not os.path.exists(klasor_yolu):
+            os.makedirs(klasor_yolu)
+            return []
+        documents = []
+        for root, _, files in os.walk(klasor_yolu):
+            for f in files:
+                path = os.path.join(root, f)
+                if f.endswith(".txt"):
+                    with open(path, "r", encoding="utf-8") as t:
+                        text = t.read()
+                        documents.append(Document(page_content=text, metadata={"source": f}))
+        return documents
+    def metni_parcala(self, documents: List):
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=450,
+            chunk_overlap=50,
+            length_function=len,
+            separators=["\n\n", "\n", ".", "!", "?", ";", ":", " ", ""]
+        )
+        return text_splitter.split_documents(documents)
+    def vektor_db_olustur(self, chunks: List, db_yolu):
+        if os.path.exists(db_yolu):
+            import shutil
+            shutil.rmtree(db_yolu)
+        self.vectordb = Chroma.from_documents(chunks, self.embeddings, persist_directory=db_yolu)
+        return self.vectordb
+    def format_docs(self, docs):
+        return "\n\n".join(doc.page_content for doc in docs)
+    def chatbot_olustur(self, k=5):
+        self.retriever = self.vectordb.as_retriever(search_type="similarity", search_kwargs={"k": k})
+        template = """Sen Gemini, Türkçe konuşan bir süpermarket asistanısın.
+Bağlam:
+{context}
+Soru: {question}
+Kurallar:
+- Sadece bağlamdaki bilgilerle cevap ver
+- Kısa ve net ol
+- Bilgi yoksa "Bu konuda bilgim yok" de
+Cevap:"""
+        prompt = ChatPromptTemplate.from_template(template)
+        self.rag_chain = (
+            {"context": self.retriever | self.format_docs, "question": RunnablePassthrough()}
+            | prompt
+            | self.llm
+            | StrOutputParser()
+        )
+        return self.rag_chain
+    def soru_sor(self, soru: str):
+        cevap = self.rag_chain.invoke(soru)
+        return {"cevap": cevap.strip()}
+    def setup(self, init=True, db_yolu="./chroma_db", dokuman_klasoru="./documents", k=5):
+        self.embedding_yukle()
+        self.gemini_yukle()
+        if init:
+            docs = self.dokumanlari_yukle(dokuman_klasoru)
+            chunks = self.metni_parcala(docs)
+            self.vektor_db_olustur(chunks, db_yolu)
+        self.chatbot_olustur(k)
+# =========================================================
+# FASTAPI APP
+# =========================================================
+gemini = None
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global gemini
+    gemini = GeminiRAGChatbotCPU()
+    gemini.setup(init=True)
+    yield
+app = FastAPI(lifespan=lifespan, title="Gemini Chatbot API")
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+@app.get("/")
+async def root():
+    return {"status": "ok"}
+@app.post("/api/chat")
+async def chat(request: Request):
+    data = await request.json()
+    soru = data.get("message", "")
+    if not soru:
+        raise HTTPException(status_code=400, detail="Message required")
+    return gemini.soru_sor(soru)

requirements.txt ADDED Viewed

	@@ -0,0 +1,139 @@

+# ============================================================
+# KURULUM TALİMATLARI
+# ============================================================
+# TEMEL KURULUM:
+# pip install -r requirements.txt
+# GPU DESTEĞİ İÇİN (NVIDIA CUDA):
+# 1. Önce bu dosyayı düzenleyin ve torch satırlarını silin
+# 2. Sonra GPU versiyonunu kurun:
+# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
+#pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
+# 3. Son olarak diğer paketleri kurun:
+#    pip install -r requirements.txt
+# HAFIF KURULUM (Sadece temel özellikler):
+# pip install langchain langchain-community transformers torch chromadb sentence-transformers
+# NOT: İlk çalıştırmada modeller (~5-15GB) indirilecektir
+# NOT: bitsandbytes paketi sadece CUDA ile çalışır (Windows'ta sorun çıkarabilir)
+# Opsiyonal Paketler Yorum Satıları İle Kapatılmıştır.
+# ==========================================
+# KUMRU RAG CHATBOT - TÜM BAĞIMLILIKLAR
+# ==========================================
+# ============ TEMEL PAKETLER ============
+# LangChain Framework (Güncel versiyon)
+langchain>=0.1.0
+langchain-community>=0.0.38
+langchain-core>=0.1.0
+langchain-text-splitters>=0.0.1
+# LangChain Entegrasyonları
+langchain-huggingface>=0.0.1  # Hugging Face modelleri için
+# ============ AI/ML ÇEKIRDEK ============
+# PyTorch (CPU versiyonu - GPU için aşağıdaki notlara bakın)
+#torch>=2.6.0
+torchvision>=0.15.0
+torchaudio>=2.0.0
+# Transformers & Model Yönetimi
+transformers>=4.35.0
+accelerate>=0.25.0
+sentencepiece>=0.1.99
+protobuf>=3.20.0
+# Quantization (Opsiyonel - Model boyutunu küçültmek için)
+#bitsandbytes>=0.41.0  # CUDA gerektirir
+#optimum>=1.16.0 # Opsiyonel Optimizasyon Yapılcaksa gereklidir. Aksi Takdirde Çakışmaya Neden Oluyor.
+# ============ EMBEDDING & VEKTÖR DB ============
+# Vektör Veritabanı
+chromadb>=0.4.0
+#Bu paket çakışmaya neden olabilir
+#faiss-cpu>=1.7.4  # Alternatif vektör DB (GPU için faiss-gpu kullanın)
+# Embedding Modelleri
+sentence-transformers>=2.2.0
+InstructorEmbedding>=1.0.0  # Instructor embeddings için
+# ============ DÖKÜMAN İŞLEME ============
+# Metin Dosyaları
+unstructured>=0.10.0
+#python-magic-bin>=0.4.14  # Windows için
+# PDF İşleme
+pypdf>=3.17.0
+pdfplumber>=0.10.0
+PyMuPDF>=1.23.0  # fitz
+pdfminer.six>=20221105
+# Office Dökümanları
+python-docx>=1.1.0  # Word
+openpyxl>=3.1.0  # Excel
+python-pptx>=0.6.23  # PowerPoint
+# Markdown & HTML
+markdown>=3.5.0
+beautifulsoup4>=4.12.0
+lxml>=4.9.0
+# ============ YARDIMCI ARAÇLAR ============
+# İlerleme Çubukları & Loglama
+tqdm>=4.66.0
+python-dotenv>=1.0.0  # .env dosyaları için
+loguru>=0.7.0
+# Tokenization & Metin İşleme
+tiktoken>=0.5.0
+nltk>=3.8.1
+regex>=2023.0.0
+# Veri İşleme
+numpy>=1.24.0
+pandas>=2.0.0
+# Flask/FastAPI (API için)
+flask>=3.0.0
+fastapi>=0.104.0
+uvicorn>=0.24.0
+pydantic>=2.0.0
+# ============ API İSTEKLERİ ============
+requests>=2.31.0
+# ============ ÖZELLEŞTİRME & GELİŞMİŞ ============
+# Fine-tuning için
+peft>=0.7.0  # Parameter Efficient Fine-Tuning
+datasets>=2.15.0
+evaluate>=0.4.0
+# Prompt Engineering
+langchain-experimental>=0.0.40
+# RAG İyileştirme
+rank-bm25>=0.2.2  # BM25 ranking
+sentence-splitter>=1.4
+semantic-text-splitter>=0.1.0
+# Google Gemini için gerekli
+langchain-google-genai>=3.0.0
+httpx>=0.28.1
+# Chroma DB için Gerekli Paketler
+backoff>=2.2.1
+# ============ TEST & DEV (Opsiyonel) ============
+#pytest>=7.4.0