Spaces:

MarcdeFalco
/

codeeducrag

Sleeping

App Files Files Community

MarcdeFalco commited on Jul 17, 2024

Commit

2920e24

1 Parent(s): 94788eb

Move to faiss

Browse files

Files changed (3) hide show

.gitattributes +1 -0
app.py +21 -34
requirements.txt +4 -2

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 *.ann filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 *.ann filter=lfs diff=lfs merge=lfs -text
+*.faiss filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,9 +1,8 @@
 import gradio as gr
 from huggingface_hub import login, InferenceClient
 import os
-import cohere
-import pickle
-from annoy import AnnoyIndex
 HF_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
@@ -24,14 +23,13 @@ Voici comment tu dois procéder :
    * Si plusieurs articles pourraient s'appliquer, présente les différentes
    interprétations possibles."""
-co = cohere.Client(os.getenv("COHERE_API_KEY"))
-articles = pickle.load(open('articles.pkl', 'rb'))
-#embeds = pickle.load(open('articles_embeds.pkl', 'rb'))
-#embeds_path = pickle.load(open('articles_path_embeds.pkl', 'rb'))
-search_index = AnnoyIndex(1024, 'angular')
-search_index.load('articles_embeds.ann')
-search_index_path = AnnoyIndex(1024, 'angular')
-search_index_path.load('articles_path_embeds.ann')
 system_prompt = """Tu es un assistant juridique spécialisé dans le Code de l'éducation français.
 Ta mission est d'aider les utilisateurs à comprendre la législation en répondant à leurs questions.
@@ -47,25 +45,15 @@ Voici comment tu dois procéder :
 * Si plusieurs articles pourraient s'appliquer, présente les différentes interprétations possibles."""
-def query_rag(query, model, with_paths=True):
-    # Get the query's embedding
-    query_embed = co.embed(texts=[query],
-                  model="embed-multilingual-v3.0",
-                  input_type="search_document").embeddings
-    # Retrieve the nearest neighbors
-    index = search_index
-    if with_paths:
-        index = search_index_path
-    similar_item_ids = index.get_nns_by_vector(query_embed[0],10,
-                include_distances=True)
     article_dict = {}
     context_list = []
-    for i in reversed(similar_item_ids[0][:5]):
-        article = articles[i]
-        context_list.append(article['path']+'\n'+article['text']+'\n---\n')
-        article_dict[article['article']] = '**' + article['path'] + '** ' + article['text']
     user = 'Question de l\'utilisateur : ' + query + '\nContexte législatif :\n' + '\n'.join(context_list)
@@ -76,17 +64,19 @@ def query_rag(query, model, with_paths=True):
         messages=messages,
         model=model,
         max_tokens=1024)
     return chat_completion.choices[0].message.content, article_dict
 def create_context_response(response, article_dict):
     response += '\n\n**Références**\n\n'
     for i, article in enumerate(article_dict):
-        response += '* ' + article_dict[article].replace('\n', '\n    ')+'\n'
     return response
-def chat_interface(query, model, with_paths):
-    response, article_dict = query_rag(query, model, with_paths)
     response_with_context = create_context_response(response, article_dict)
     return response_with_context
@@ -116,15 +106,12 @@ with gr.Blocks(title="Assistant Juridique pour le Code de l'éducation (Beta)")
             ],
         value="HuggingFaceH4/zephyr-7b-beta")
-    with_paths = gr.Checkbox(label="Utiliser les chemins d'accès aux articles dans le code pour interroger le modèle.",
-                             value=True)
     submit_button = gr.Button("Envoyer")
     response_box = gr.Markdown()
     submit_button.click(chat_interface,
-                inputs=[query_box, model, with_paths],
                 outputs=[response_box])
 demo.launch()

 import gradio as gr
 from huggingface_hub import login, InferenceClient
 import os
+from langchain_community.vectorstores import FAISS
+from langchain.embeddings.huggingface import HuggingFaceEmbeddings
 HF_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
    * Si plusieurs articles pourraient s'appliquer, présente les différentes
    interprétations possibles."""
+embeddings = HuggingFaceEmbeddings(model_name="OrdalieTech/Solon-embeddings-large-0.1")
+db_code = FAISS.load_local("faiss_code_education",
+        embeddings,
+        allow_dangerous_deserialization=True)
 system_prompt = """Tu es un assistant juridique spécialisé dans le Code de l'éducation français.
 Ta mission est d'aider les utilisateurs à comprendre la législation en répondant à leurs questions.
 * Si plusieurs articles pourraient s'appliquer, présente les différentes interprétations possibles."""
+def query_rag(query, model):
+    docs = db_code.similarity_search(query, 10)
     article_dict = {}
     context_list = []
+    for doc in docs:
+        article = doc.metadata
+        context_list.append(article['chemin']+'\n'+article['texte']+'\n---\n')
+        article_dict[article['article']] = article
     user = 'Question de l\'utilisateur : ' + query + '\nContexte législatif :\n' + '\n'.join(context_list)
         messages=messages,
         model=model,
         max_tokens=1024)
     return chat_completion.choices[0].message.content, article_dict
 def create_context_response(response, article_dict):
     response += '\n\n**Références**\n\n'
     for i, article in enumerate(article_dict):
+        art = article_dict[article]
+        response += '* **' + art['chemin'] + '** : '+ art['texte'].replace('\n', '\n    ')+'\n'
     return response
+def chat_interface(query, model):
+    response, article_dict = query_rag(query, model)
     response_with_context = create_context_response(response, article_dict)
     return response_with_context
             ],
         value="HuggingFaceH4/zephyr-7b-beta")
     submit_button = gr.Button("Envoyer")
     response_box = gr.Markdown()
     submit_button.click(chat_interface,
+                inputs=[query_box, model],
                 outputs=[response_box])
 demo.launch()

requirements.txt CHANGED Viewed

@@ -1,4 +1,6 @@
 huggingface_hub==0.22.2
 annoy
-cohere
-groq

 huggingface_hub==0.22.2
 annoy
+faiss
+langchain_community
+langchain
+sentence_transformers