Jorge Henao commited on
Commit
1e5b124
1 Parent(s): a542243

PinecodeProposalQueries was added

Browse files
__pycache__/config.cpython-38.pyc CHANGED
Binary files a/__pycache__/config.cpython-38.pyc and b/__pycache__/config.cpython-38.pyc differ
 
__pycache__/pinecode_quieries.cpython-38.pyc ADDED
Binary file (3.24 kB). View file
 
app_es.py ADDED
@@ -0,0 +1,101 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ import json
3
+ import time
4
+ from config import Config
5
+ from pinecode_quieries import PinecodeProposalQueries
6
+
7
+ extractive_query = PinecodeProposalQueries (es_host = Config.es_host, es_index = Config.proposals_index,
8
+ es_user = Config.es_user, es_password = Config.es_password,
9
+ reader_name_or_path = Config.reader_model_name_or_path,
10
+ use_gpu = Config.use_gpu)
11
+
12
+ def fake_search(question, retriever_top_k, reader_top_k):
13
+ #p1_result = query.search_by_query(query = question, retriever_top_k = retriever_top_k, reader_top_k = reader_top_k, es_index = "informecomisionverdad")
14
+ result = []
15
+ p = """
16
+ La masacre de Bojayá fue perpetrada por el Frente José María Córdoba, de las FARC-EP, al lanzar un cilindro bomba que cayó en una iglesia en la que los pobladores se refugiaban del enfrentamiento de este grupo con el Bloque Élmer Cárdenas de las AUC. Las víctimas fueron 81 personas, 47 de ellas eran niñas, niños y adolescentes
17
+ """
18
+ for i in range(0, reader_top_k):
19
+ result.append([[i+1],"81 personas", p[:250],"Las masacres","Comisión de la verdad - Informe de hallazgos y recomendaciones Junio 2022","5"])
20
+
21
+ return result
22
+
23
+ def search(question, retriever_top_k, reader_top_k):
24
+ query_result = extractive_query.search_by_query(query = question, retriever_top_k = retriever_top_k, reader_top_k = reader_top_k)
25
+ result = []
26
+ for i in range(0, len(query_result)):
27
+ item = query_result[i]
28
+ result.append([[i+1], item.answer, item.context[:200], item.meta['title'], item.meta['source'], int(item.meta['page'])])
29
+
30
+ return result
31
+
32
+ if __name__ == "__main__":
33
+ # streamlit part starts here with title
34
+ title = """
35
+ <h1 style='
36
+ text-align: center;
37
+ color: #39AA35'>
38
+ Ask2Democracy 🇨🇴 - Informe de la comisión de la verdad Junio 2022
39
+ </h1>
40
+ <p>
41
+ El 28 de junio del 2022, la Comisión de la Verdad en Colombia liberó su informe final. Fue el resultado de más de 3 años de investigación sobre el conflicto armado interno durante los últimos 60 años. Apoyándose en un modelo de inteligencia artificial. Este espacio pretende ayudar a explorar las más de 6000 páginas que conforman más de 10 libros del Informe, comenzando por el de Hallazgos y recomendaciones.
42
+ """
43
+ st.markdown(title, unsafe_allow_html=True)
44
+ # input form
45
+ with st.form("my_form"):
46
+ # here we have input space
47
+ query = st.text_input("Ingresa la pregunta, frase abierta o tema que quieres explorar",
48
+ placeholder="Escribe tu consulta aquí...")
49
+ # Every form must have a submit button.
50
+ submitted = st.form_submit_button("Buscar")
51
+
52
+ # on submit we execute search
53
+ if(submitted):
54
+ # set start time
55
+ stt = time.time()
56
+ # retrieve top 5 documents
57
+ results = search(query, retriever_top_k=5, reader_top_k=3)
58
+ # set endtime
59
+ ent = time.time()
60
+ # measure resulting time
61
+ elapsed_time = round(ent - stt, 2)
62
+
63
+ # show which query was entered, and what was searching time
64
+ st.write(f"**Resultados relacionados con:** \"{query}\" ({elapsed_time} sec.)")
65
+ # then we use loop to show results
66
+ for i, answer in enumerate(results):
67
+ # answer starts with header
68
+ st.subheader(f"{answer[1]}")
69
+ # cropped answer
70
+ doc = answer[2][:250] + "..."
71
+ # and url to the full answer
72
+ url = f"https://www.comisiondelaverdad.co/sites/default/files/descargables/2022-06/Informe%20Final%20capi%CC%81tulo%20Hallazgos%20y%20recomendaciones.pdf#page={answer[5]+1}"
73
+ # then we display it
74
+ #st.markdown(f'{doc}\n<br>Fuente: {answer[4]}\n<br>Capítulo: {answer[3]}\n<br>Página: {answer[5]}\n[**Lee más aquí**]({url})\n', unsafe_allow_html=True)
75
+ st.markdown(f"{doc}[**Lee más aquí**]({url})")
76
+ st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
77
+
78
+ st.markdown("---")
79
+ else:
80
+ st.markdown("""Cuanto más contexto le des a la pregunta, mejor funciona. puedes escribir consultas como: _**\"¿periodo con más detenciones arbitrarias registradas?\"**_,\_**\"¿cantidad de víctimas en la masacre de bojayá?\"**_,\
81
+ _**\"¿cuantas víctimas de desplazamiento en antioquia?\"**_""")
82
+ st.markdown("""
83
+ <div align="right">
84
+ Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a>
85
+ <br>Con el apoyo de Manuela Gonima en comunicaciones 🇨🇴 <a href="https://www.instagram.com/mgcomunicacionesco/" target='_blank'/>Instagram</a> <a href="https://www.linkedin.com/in/manuela-gonima-carvajal" target='_blank'/>LinkedIn</a>
86
+ </div>
87
+ """, unsafe_allow_html=True)
88
+
89
+ description = """
90
+ <p>
91
+ <h2>Sobre esta iniciativa</h2>
92
+ Se enmarca en la construcción de ciudadanía, la creación de valor público y el fortalecimiento de la democracia participativa desde la invitación a la población a informarse, conocer, compartir y dialogar en torno a la memoria histórica y a la verdad del conflicto armado colombiano, partiendo del Informe de la Comisión de la Verdad, se espera incluir varias fuentes adicionales. Hace parte de un proyecto open-source que utiliza Inteligencia Artificial para contribuir al entendimiento de temas relevantes para el país.<a href= "https://github.com/jorge-henao/ask_to_democracy"> repo en github con FastAPI</a>
93
+ </br></br>Por: Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a>, con el apoyo de Manuela Gónima 🇨🇴 <a href="https://www.instagram.com/mgcomunicacionesco/" target='_blank'/>Instagram</a> <a href="https://www.linkedin.com/in/manuela-gonima-carvajal" target='_blank'/>LinkedIn</a>
94
+ <h2>¿Cómo utilizar este espacio?</h2>
95
+ Puedes escribir oraciones abiertas como “Masacres en Antioquia”, o una pregunta concreta como “¿cantidad de víctimas en la masacre de bojayá?”. No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta, mejor funciona.
96
+ <h2>Beta disclaimer</h2>
97
+ Las respuestas que arroja el sistema no han sido pregrabadas ni basadas en opiniones. Todas son respuestas extraídas del Informe final de la CEV, por un sistema en beta. Este explorador se basa en un modelo de inteligencia artificial entrenado para entender el lenguaje español, sin embargo, necesita de un mayor entrenamiento por lo que, en ocasiones, puede ser confuso y no tan preciso.
98
+ Si quieres apoyar escríbeme a <a href="mailto:jorge.henao@diezonce.co">jorge.henao@diezonce.co</a>
99
+ </p>
100
+ """
101
+ st.markdown(description, unsafe_allow_html=True)
app.py → app_pinecode.py RENAMED
File without changes
config.py CHANGED
@@ -1,8 +1,8 @@
1
  class Config():
2
  es_host = "saimon-askwdemocracy.es.us-central1.gcp.cloud.es.io"
3
  es_user = "elastic"
4
- es_password = "NY5Gqg83peXwagrfolBFUhhy"
5
- proposals_index = "informecomisionverdad2"
6
  reader_model_name_or_path = "deepset/xlm-roberta-base-squad2-distilled"
7
  #reader_model_name_or_path = "deepset/xlm-roberta-base-squad2"
8
  use_gpu = True
 
1
  class Config():
2
  es_host = "saimon-askwdemocracy.es.us-central1.gcp.cloud.es.io"
3
  es_user = "elastic"
4
+ es_password = "53f2a7a9-ea9d-4fd2-a8bc-f471b67f0262"
5
+ proposals_index = "reforms2"
6
  reader_model_name_or_path = "deepset/xlm-roberta-base-squad2-distilled"
7
  #reader_model_name_or_path = "deepset/xlm-roberta-base-squad2"
8
  use_gpu = True
pinecode_quieries.py ADDED
@@ -0,0 +1,76 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from abc import ABC, abstractmethod
2
+ from haystack.nodes import BM25Retriever, FARMReader
3
+ from haystack.document_stores import ElasticsearchDocumentStore
4
+ from haystack.pipelines import ExtractiveQAPipeline
5
+ from haystack.document_stores import PineconeDocumentStore
6
+ from haystack.nodes import EmbeddingRetriever
7
+
8
+ import certifi
9
+ import datetime
10
+ import requests
11
+ from base64 import b64encode
12
+
13
+ ca_certs=certifi.where()
14
+
15
+ class DocumentQueries(ABC):
16
+
17
+ @abstractmethod
18
+ def search_by_query(self, query : str, retriever_top_k: int, reader_top_k: int, es_index: str):
19
+ pass
20
+
21
+ class PinecodeProposalQueries(DocumentQueries):
22
+
23
+ def __init__(self, es_host: str, es_index: str, es_user, es_password, reader_name_or_path: str, use_gpu = True) -> None:
24
+ reader = FARMReader(model_name_or_path = reader_name_or_path, use_gpu = use_gpu, num_processes=1, context_window_size=200)
25
+ self._initialize_pipeline(es_host, es_index, es_user, es_password, reader = reader)
26
+ #self.log = Log(es_host= es_host, es_index="log", es_user = es_user, es_password= es_password)
27
+
28
+ def _initialize_pipeline(self, es_host, es_index, es_user, es_password, reader = None):
29
+ if reader is not None:
30
+ self.reader = reader
31
+ self.es_host = es_host
32
+ self.es_user = es_user
33
+ self.es_password = es_password
34
+ self.document_store = PineconeDocumentStore(
35
+ api_key=es_password,
36
+ environment = "us-east1-gcp",
37
+ index=es_index,
38
+ similarity="cosine",
39
+ embedding_dim=384
40
+ )
41
+ #self.retriever = BM25Retriever(document_store = self.document_store)
42
+ self.retriever = EmbeddingRetriever(
43
+ document_store=self.document_store,
44
+ embedding_model="multi-qa-MiniLM-L6-cos-v1",
45
+ model_format="sentence_transformers"
46
+ )
47
+ self.document_store.update_embeddings(self.retriever, batch_size=16
48
+ )
49
+ #self.pipe = ExtractiveQAPipeline(self.reader, self.retriever)
50
+
51
+ def search_by_query(self, query : str, retriever_top_k: int, reader_top_k: int, es_index: str = None) :
52
+ #self.log.write_log(query, "hfspace-informecomision")
53
+ #if es_index is not None:
54
+ #self._initialize_pipeline(self.es_host, es_index, self.es_user, self.es_password)
55
+ params = {"Retriever": {"top_k": retriever_top_k}, "Reader": {"top_k": reader_top_k}}
56
+ prediction = self.pipe.run( query = query, params = params)
57
+ return prediction["answers"]
58
+
59
+ class Log():
60
+
61
+ def __init__(self, es_host: str, es_index: str, es_user, es_password) -> None:
62
+ self.elastic_endpoint = f"https://{es_host}:443/{es_index}/_doc"
63
+ self.credentials = b64encode(b"3pvrzh9tl:4yl4vk9ijr").decode("ascii")
64
+ self.auth_header = { 'Authorization' : 'Basic %s' % self.credentials }
65
+
66
+ def write_log(self, message: str, source: str) -> None:
67
+ created_date = datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%SZ')
68
+ post_data = {
69
+ "message" : message,
70
+ "createdDate": {
71
+ "date" : created_date
72
+ },
73
+ "source": source
74
+ }
75
+ r = requests.post(self.elastic_endpoint, json = post_data, headers = self.auth_header)
76
+ print(r.text)