Spaces:

halimbahae
/

EDA-INPT-Workshop

Runtime error

App Files Files Community

halimbahae commited on Nov 28, 2024

Commit

3e4b883

verified ·

1 Parent(s): cac8163

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -50

app.py CHANGED Viewed

@@ -1,73 +1,68 @@
-import pandas as pd
-from sentence_transformers import SentenceTransformer
-import faiss
 import numpy as np
 from transformers import pipeline
 import gradio as gr
-import os
-# 1. Charger et Prétraiter les données
-def preprocess_data(file_path):
-    # Charger les données à partir du fichier Excel
     data = pd.read_excel(file_path)
-    data = data[['Product_name', 'price']].head(500)  # Limiter à 500 premières lignes
-    data['combined'] = data.apply(
         lambda row: f"Product: {row['Product_name']} | Price: {row['price']}", axis=1
     )
     return data
-# 2. Générer les Embeddings
-def generate_embeddings(data, model_name="all-MiniLM-L6-v2"):
-    model = SentenceTransformer(model_name)
-    embeddings = model.encode(data['combined'].tolist())
-    return embeddings, model
-# 3. Créer l'index FAISS
-def create_faiss_index(embeddings):
-    dimension = embeddings.shape[1]
-    index = faiss.IndexFlatL2(dimension)
-    index.add(embeddings)
-    return index
-# 4. Rechercher dans FAISS
-def query_faiss_index(query, model, index, data, top_k=5):
-    query_embedding = model.encode([query])
     distances, indices = index.search(query_embedding, top_k)
     results = [data['combined'].iloc[idx] for idx in indices[0]]
     return results
-# 5. Pipeline pour le modèle Zypher
-def generate_answer_from_pipeline(query, context, pipeline_model):
-    prompt = f"Given the following context, answer the question:\n\nContext: {context}\n\nQuestion: {query}\nAnswer:"
-    response = pipeline_model(prompt, max_length=500, num_return_sequences=1)
     return response[0]['generated_text']
-# 6. Interface Gradio principale
-def main(file_path):
-    # Charger et prétraiter les données
-    data = preprocess_data(file_path)
-    # Générer les embeddings et créer l'index FAISS
-    embeddings, embedding_model = generate_embeddings(data)
-    index = create_faiss_index(embeddings)
-    # Charger le pipeline pour le modèle LLM
-    qa_pipeline = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-beta")
-    # Interface Gradio
-    def gradio_search(query):
-        # Rechercher des résultats pertinents dans FAISS
-        context = query_faiss_index(query, embedding_model, index, data)
         context_text = "\n".join(context)
-        # Générer une réponse à partir du modèle LLM
-        answer = generate_answer_from_pipeline(query, context_text, qa_pipeline)
         return answer
-    # Lancer l'interface
-    interface = gr.Interface(fn=gradio_search, inputs="text", outputs="text", title="Chatbot with FAISS + LLM")
     interface.launch()
-# Exemple d'utilisation
 if __name__ == "__main__":
-    file_path = "avito.xls"  # Votre fichier de données
-    main(file_path)

 import numpy as np
+import faiss
+import pandas as pd
 from transformers import pipeline
 import gradio as gr
+# Charger les embeddings et l'index FAISS
+def load_embeddings_and_index(embeddings_file, index_file):
+    embeddings = np.load(embeddings_file)
+    index = faiss.read_index(index_file)
+    return embeddings, index
+# Charger les données sources
+def load_data(file_path):
     data = pd.read_excel(file_path)
+    data['combined'] = data[['Product_name', 'price']].apply(
         lambda row: f"Product: {row['Product_name']} | Price: {row['price']}", axis=1
     )
     return data
+# Effectuer une recherche dans l'index FAISS
+def query_faiss_index(query, embeddings, index, data, embedding_model, top_k=5):
+    query_embedding = embedding_model.encode([query])
     distances, indices = index.search(query_embedding, top_k)
     results = [data['combined'].iloc[idx] for idx in indices[0]]
     return results
+# Générer une réponse avec le modèle LLM
+def generate_answer(query, context, llm_pipeline):
+    prompt = f"Given the following context, answer the question:\n\nContext:\n{context}\n\nQuestion: {query}\nAnswer:"
+    response = llm_pipeline(prompt, max_length=500, num_return_sequences=1)
     return response[0]['generated_text']
+# Interface principale
+def main(embeddings_file, index_file, data_file):
+    # Charger les données et les fichiers nécessaires
+    embeddings, index = load_embeddings_and_index(embeddings_file, index_file)
+    data = load_data(data_file)
+    # Charger le modèle LLM
+    llm_pipeline = pipeline("text-generation", model="HuggingFaceH4/zypher-llm")
+    # Interface utilisateur avec Gradio
+    def gradio_interface(query):
+        # Recherche dans FAISS
+        context = query_faiss_index(query, embeddings, index, data, embedding_model, top_k=5)
         context_text = "\n".join(context)
+        # Générer une réponse à l'aide du LLM
+        answer = generate_answer(query, context_text, llm_pipeline)
         return answer
+    # Lancer l'application Gradio
+    interface = gr.Interface(fn=gradio_interface, inputs="text", outputs="text", title="RAG Chatbot")
     interface.launch()
+# Exemple d'exécution
 if __name__ == "__main__":
+    # Fichiers nécessaires
+    embeddings_file = "embeddings.npy"
+    index_file = "faiss_index.bin"
+    data_file = "avito.xls"
+    # Charger le modèle d'embedding
+    from sentence_transformers import SentenceTransformer
+    embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
+    # Lancer le programme
+    main(embeddings_file, index_file, data_file)