Jorge Henao commited on
Commit
ed37333
·
1 Parent(s): be70809

page description updates

Browse files
Files changed (3) hide show
  1. about.py +3 -4
  2. hallazgos.py +5 -9
  3. reformas.py +6 -9
about.py CHANGED
@@ -23,16 +23,15 @@ def about_ask2democracy():
23
  Uno de los objetivos es contribuir a la inteligencia artificial abierta y en español, con la construcción de un dataset y el entrenamiento de un modelo de lenguaje adaptado para las discuciones ciudadanas.
24
  Algo útil para elevar la calidad del debate en todos los países de habla hispana.
25
  <h2>¿Cómo utilizar este espacio?</h2>
26
- Selecciona el texto sobre el que quieres buscar en el panel de la izquierda. Luego puedes escribir preguntas concretas como “¿cantidad de víctimas en la masacre de bojayá?”. No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta, mejor funciona.
27
  <h2>Ask2Democracy v 1.2</h2>
28
  Esta version usa sentence transformers, Cosine similarity, <a href= "https://github.com/deepset-ai/haystack">Haystack framework</a> y una base de dactos vectorial Pinecone para mejorar la precision en las respuestas.
29
  Los modelos transformers de lenguaje utilizados son:
30
  <code>
31
  sentence-transformers/multi-qa-MiniLM-L6-cos-v1
32
  deepset/xlm-roberta-base-squad2-distilled
33
- <code>
34
- <a href= "https://github.com/jorge-henao/ask_to_democracy"> repo en github con FastAPI</a>
35
- </code>
36
  <h2>Beta disclaimer</h2>
37
  Las respuestas que arroja el sistema no han sido pregrabadas ni basadas en opiniones. Todas son respuestas extraídas de fuentes oficiales, como el Informe final de la CEV.
38
  Este explorador usa modelos de lenguaje (sentence transformers, bert, otros ) para entender el lenguaje español, sin embargo, necesita de un mayor entrenamiento por lo que, en ocasiones, puede ser confuso y no tan preciso.
 
23
  Uno de los objetivos es contribuir a la inteligencia artificial abierta y en español, con la construcción de un dataset y el entrenamiento de un modelo de lenguaje adaptado para las discuciones ciudadanas.
24
  Algo útil para elevar la calidad del debate en todos los países de habla hispana.
25
  <h2>¿Cómo utilizar este espacio?</h2>
26
+ Selecciona el texto sobre el que quieres buscar en el panel de la izquierda y escribe preguntas. No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta, mejor funciona.
27
  <h2>Ask2Democracy v 1.2</h2>
28
  Esta version usa sentence transformers, Cosine similarity, <a href= "https://github.com/deepset-ai/haystack">Haystack framework</a> y una base de dactos vectorial Pinecone para mejorar la precision en las respuestas.
29
  Los modelos transformers de lenguaje utilizados son:
30
  <code>
31
  sentence-transformers/multi-qa-MiniLM-L6-cos-v1
32
  deepset/xlm-roberta-base-squad2-distilled
33
+ </code>
34
+ <a href= "https://github.com/jorge-henao/ask_to_democracy"> repo en github con FastAPI</a>
 
35
  <h2>Beta disclaimer</h2>
36
  Las respuestas que arroja el sistema no han sido pregrabadas ni basadas en opiniones. Todas son respuestas extraídas de fuentes oficiales, como el Informe final de la CEV.
37
  Este explorador usa modelos de lenguaje (sentence transformers, bert, otros ) para entender el lenguaje español, sin embargo, necesita de un mayor entrenamiento por lo que, en ocasiones, puede ser confuso y no tan preciso.
hallazgos.py CHANGED
@@ -25,7 +25,7 @@ def hallazgos_comision_verdad_2022():
25
  Ask2Democracy 🇨🇴 - Hallazgos y recomendaciones de la comisión de la verdad
26
  </h1>
27
  <p>
28
- El 28 de junio del 2022, la Comisión de la Verdad en Colombia liberó su informe final. Fue el resultado de más de 3 años de investigación sobre el conflicto armado interno durante los últimos 60 años. Apoyándose en modelos de lenguaje (sentence transformers, bert, ver más aquí). Este espacio pretende ayudar a explorar las más de 6000 páginas que conforman más de 10 libros del Informe, comenzando por el de Hallazgos y recomendaciones.
29
  """
30
  st.markdown(title, unsafe_allow_html=True)
31
  st.markdown("""<div align="right">
@@ -63,8 +63,9 @@ def hallazgos_comision_verdad_2022():
63
  result = []
64
  for i in range(0, len(query_result)):
65
  item = query_result[i]
66
- result.append([[i+1], item.answer, item.context[:200],
67
- item.meta['title'], item.meta['source_title'], int(item.meta['page'])])
 
68
  #result.append([[i+1], item.answer, item.context[:200], item.meta['title']])
69
  return result
70
 
@@ -86,12 +87,7 @@ def hallazgos_comision_verdad_2022():
86
  st.subheader(f"{answer[1]}")
87
  # cropped answer
88
  doc = answer[2][:250] + "..."
89
- # and url to the full answer
90
- #url = f"https://www.comisiondelaverdad.co/sites/default/files/descargables/2022-06/Informe%20Final%20capi%CC%81tulo%20Hallazgos%20y%20recomendaciones.pdf#page={answer[5]+1}"
91
- url = f"https://petro.presidencia.gov.co/Documents/230213-Reforma-salud.pdf"
92
- # then we display it
93
- #st.markdown(f'{doc}\n<br>Fuente: {answer[4]}\n<br>Capítulo: {answer[3]}\n<br>Página: {answer[5]}\n[**Lee más aquí**]({url})\n', unsafe_allow_html=True)
94
- st.markdown(f"{doc}[**Lee más aquí**]({url})")
95
  st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
96
 
97
  st.markdown("---")
 
25
  Ask2Democracy 🇨🇴 - Hallazgos y recomendaciones de la comisión de la verdad
26
  </h1>
27
  <p>
28
+ El 28 de junio del 2022, la Comisión de la Verdad en Colombia liberó su informe final. Fue el resultado de más de 3 años de investigación sobre el conflicto armado interno durante los últimos 60 años. Apoyándose en modelos de lenguaje, este espacio pretende ayudar a explorar las más de 6000 páginas que conforman más de 10 libros del Informe, comenzando por el de Hallazgos y recomendaciones.
29
  """
30
  st.markdown(title, unsafe_allow_html=True)
31
  st.markdown("""<div align="right">
 
63
  result = []
64
  for i in range(0, len(query_result)):
65
  item = query_result[i]
66
+ result.append([[i+1], item.answer.replace("\n",""), item.context[:200],
67
+ item.meta['title'], item.meta['source_title'],
68
+ int(item.meta['page']), item.meta['source_url']])
69
  #result.append([[i+1], item.answer, item.context[:200], item.meta['title']])
70
  return result
71
 
 
87
  st.subheader(f"{answer[1]}")
88
  # cropped answer
89
  doc = answer[2][:250] + "..."
90
+ st.markdown(f"{doc}[**Lee más aquí**]({answer[6]})")
 
 
 
 
 
91
  st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
92
 
93
  st.markdown("---")
reformas.py CHANGED
@@ -30,7 +30,8 @@ def reforma_salud_febrero_2023():
30
  Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a> </div>
31
  """, unsafe_allow_html=True)
32
 
33
- question_samples_str = """¿Cuándo se implementará el Sistema de Salud?
 
34
  ¿Cómo se implementará el Sistema de Salud?
35
  ¿Qué es principio de interpretación y fundamento de la transición en relación al Sistema de Salud?
36
  ¿Qué se garantiza en todo momento con el nuevo Sistema de Salud?
@@ -81,8 +82,9 @@ def reforma_salud_febrero_2023():
81
  result = []
82
  for i in range(0, len(query_result)):
83
  item = query_result[i]
84
- result.append([[i+1], item.answer, item.context[:200],
85
- item.meta['title'], item.meta['source_title'], int(item.meta['page'])])
 
86
  #result.append([[i+1], item.answer, item.context[:200], item.meta['title']])
87
  return result
88
 
@@ -104,12 +106,7 @@ def reforma_salud_febrero_2023():
104
  st.subheader(f"{answer[1]}")
105
  # cropped answer
106
  doc = answer[2][:250] + "..."
107
- # and url to the full answer
108
- #url = f"https://www.comisiondelaverdad.co/sites/default/files/descargables/2022-06/Informe%20Final%20capi%CC%81tulo%20Hallazgos%20y%20recomendaciones.pdf#page={answer[5]+1}"
109
- url = f"https://petro.presidencia.gov.co/Documents/230213-Reforma-salud.pdf"
110
- # then we display it
111
- #st.markdown(f'{doc}\n<br>Fuente: {answer[4]}\n<br>Capítulo: {answer[3]}\n<br>Página: {answer[5]}\n[**Lee más aquí**]({url})\n', unsafe_allow_html=True)
112
- st.markdown(f"{doc}[**Lee más aquí**]({url})")
113
  st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
114
 
115
  st.markdown("---")
 
30
  Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a> </div>
31
  """, unsafe_allow_html=True)
32
 
33
+ question_samples_str = """¿Que es el ADRES?
34
+ ¿Cuándo se implementará el Sistema de Salud?
35
  ¿Cómo se implementará el Sistema de Salud?
36
  ¿Qué es principio de interpretación y fundamento de la transición en relación al Sistema de Salud?
37
  ¿Qué se garantiza en todo momento con el nuevo Sistema de Salud?
 
82
  result = []
83
  for i in range(0, len(query_result)):
84
  item = query_result[i]
85
+ result.append([[i+1], item.answer.replace("\n",""), item.context[:200],
86
+ item.meta['title'], item.meta['source_title'],
87
+ int(item.meta['page']), item.meta['source_url']])
88
  #result.append([[i+1], item.answer, item.context[:200], item.meta['title']])
89
  return result
90
 
 
106
  st.subheader(f"{answer[1]}")
107
  # cropped answer
108
  doc = answer[2][:250] + "..."
109
+ st.markdown(f"{doc}[**Lee más aquí**]({answer[6]})")
 
 
 
 
 
110
  st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
111
 
112
  st.markdown("---")