GPalomeque
commited on
Commit
•
004d7cd
1
Parent(s):
b8f854f
Update app_details.py
Browse files- app_details.py +42 -31
app_details.py
CHANGED
@@ -6,8 +6,8 @@ description = """
|
|
6 |
<img src="https://www.pactomundial.org/wp-content/uploads/2021/10/16-paz-justicia-e-instituciones-solidas-3.jpg" width=200px>
|
7 |
</center>
|
8 |
<ul>
|
9 |
-
<li>16.3 Promover el estado de derecho en los planos nacional e internacional y garantizar la igualdad de acceso a la justicia para todos
|
10 |
-
<li>16.10 Garantizar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las leyes nacionales y los acuerdos internacionales </li>
|
11 |
</ul>
|
12 |
</div>
|
13 |
<div id="left">
|
@@ -15,8 +15,8 @@ description = """
|
|
15 |
<img src="https://www.pactomundial.org/wp-content/uploads/2021/10/4-educacion-de-calidad-3.jpg" width=200px>
|
16 |
</center>
|
17 |
<ul>
|
18 |
-
<li>4.4 De aquí a 2030, aumentar considerablemente el número de jóvenes y adultos que tienen las competencias necesarias, en particular técnicas y profesionales, para acceder al empleo, el trabajo decente y el emprendimiento
|
19 |
-
<li>4.7 De aquí a 2030, asegurar que todos los alumnos adquieran los conocimientos teóricos y prácticos necesarios para promover el desarrollo sostenible, entre otras cosas mediante la educación para el desarrollo sostenible y los estilos de vida sostenibles, los derechos humanos, la igualdad de género, la promoción de una cultura de paz y no violencia, la ciudadanía mundial y la valoración de la diversidad cultural y la contribución de la cultura al desarrollo sostenible </li>
|
20 |
</ul>
|
21 |
</div>
|
22 |
|
@@ -25,30 +25,29 @@ description = """
|
|
25 |
</div>
|
26 |
|
27 |
|
28 |
-
![alt-text](https://www.pactomundial.org/wp-content/uploads/2021/10/10-reduccion-de-las-desigualdades-3.jpg "ODS 10")
|
29 |
-
10.3 Garantizar la igualdad de oportunidades y reducir la desigualdad de resultados, incluso eliminando las leyes, políticas y prácticas discriminatorias y promoviendo legislaciones, políticas y medidas adecuadas a ese respecto
|
30 |
|
31 |
|
32 |
|
33 |
## Motivación
|
34 |
|
35 |
-
- Es difícil exigir algo que desconoces
|
36 |
-
- El trabajo se te acumula cuando tienes que leer grandes cantidades de información que además evoluciona constantemente
|
37 |
-
- Buscar información puede llevarte demasiado tiempo no tanto por la acción en si, si no por el tiempo que
|
38 |
-
- Aún el cerebro humano con una gran capacidad de almacenamiento no puede competir con la cantidad de
|
39 |
|
40 |
Por ello decidimos aventurarnos en la creación de modelos que permiten en términos generales:
|
41 |
|
42 |
-
- Extraer información
|
43 |
-
- Clasificar documentos
|
44 |
- Identificar si los documentos son tan parecidos que podrían tartar de un mismo tema o incluso se básicamente los mismos.
|
45 |
|
46 |
Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
|
47 |
|
48 |
-
- Agilizar y facilitar el trabajo de quienes imparten justicia
|
49 |
-
- Facilitar la búsqueda de los estudiantes e investigadores de derecho
|
50 |
-
- Ayudar a la ciudadanía permitiéndole identificar
|
51 |
-
- Coadyuvar en la generación de indicadores sobre violaciones a los Derechos Humanos
|
52 |
|
53 |
### Este proyecto esta compuesto por los siguientes modelos:
|
54 |
|
@@ -59,13 +58,13 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
|
|
59 |
|
60 |
### Como funciona el demo:
|
61 |
|
62 |
-
1. Requiere que se proporciones dos textos (el primero denominada texto a analizar y el segundo texto a comparar), los cuales se pueden seleccionar de la lista de ejemplos
|
63 |
|
64 |
-
2. Cada uno de estos textos pasa por cada uno de los modelos que conforman el proyecto
|
65 |
|
66 |
-
* Primero, se utiliza el modelo de reconocimiento de entidades **jurisbert-finetuning-ner**. El cual, podría encontrar alguna entidad de tipo LEY o TRAT_INTL
|
67 |
|
68 |
-
* Segundo, se utiliza el modelo de clasificación **jurisbert-class-tratados-internacionales-sistema-universal** acorde al sistema universal de **Derechos Humanos** el cual se fundamenta en convenciones o pactos para identificar si podria existir alguna violación acorde a lo definido por la **ONU
|
69 |
|
70 |
* Tercero, se utiliza el modelo de clasificación **jurisbert-clas-art-convencion-americana-dh** para identificar cual de los artículos de la **[Convención Americana de Derechos Humanos](https://www.cndh.org.mx/sites/default/files/doc/Programas/TrataPersonas/MarcoNormativoTrata/InsInternacionales/Regionales/Convencion_ADH.pdf)** se podría estar violentando.
|
71 |
|
@@ -73,9 +72,9 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
|
|
73 |
|
74 |
3. Se presentan los resultados obtenidos en el orden siguiente:
|
75 |
|
76 |
-
* Primero lo obtenido para el texto a analizar
|
77 |
-
* Segundo, el porcentaje de similitud entre ambos textos
|
78 |
-
* Tercero, lo obtenido para el texto a comparar
|
79 |
|
80 |
"""
|
81 |
|
@@ -88,10 +87,10 @@ El principal problema de entrenar modelos que pertenezcan a un dominio especiali
|
|
88 |
|
89 |
Es por ello que tuvimos que crear dos datasets:
|
90 |
|
91 |
-
- [scjnugacj/scjn_dataset_corpus_tesis] (https://huggingface.co/datasets/scjnugacj/scjn_dataset_corpus_tesis) la información base fue obtenida del **[Buscador Juridico de la SCJN de México]** (https://bj.scjn.gob.mx/) utilizando como fuente de información: Tesis y filtrando la información por décima y undécima época; sin embargo, fue necesario realizar procesos de ETL para la limpieza de información no relevante y estructuración de los campos
|
92 |
* `id`: a `string` feature.
|
93 |
* `text`: a `string` features.
|
94 |
-
- [scjnugacj/scjn_dataset_ner](https://huggingface.co/datasets/scjnugacj/scjn_dataset_ner) el primer reto para este dataset fue entender la estructura que debía tener para ser utilizado la tarea **NER** afortunadamente esto fue relativamente sencillo de encontrar y nos dimos cuenta que no éramos el único equipo con el mismo problema.
|
95 |
|
96 |
* `id`: a `string` feature.
|
97 |
* `tokens`: a `list` of `string` features.
|
@@ -99,21 +98,21 @@ Es por ello que tuvimos que crear dos datasets:
|
|
99 |
|
100 |
|
101 |
|
102 |
-
Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos
|
103 |
|
104 |
|
105 |
#### Compartir los datasets en HugginFace
|
106 |
|
107 |
Realizar la investigación de como compartir los datasets en HuggingFace represento un tiempo importante y la mejor forma que encontramos para hacerlo fue:
|
108 |
|
109 |
-
- Crear un script para utilizar la función **load_dataset** que lee desde un repositorio en github los archivos train.txt y dev.txt y los convierte en un **DatasetDict** para finalmente publicarlos con la función **push_to_hub
|
110 |
|
111 |
## Entrenamiento de los modelos
|
112 |
-
- Crear la línea base de los modelos
|
113 |
- **hackathon-pln-es/jurisbert-finetuning-ner**
|
114 |
-
* Espacio de almacenamiento para almacenar los checkpoints que
|
115 |
-
* Los resultados de F1 eran muy bajos
|
116 |
-
* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto
|
117 |
* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
|
118 |
|
119 |
| name |train|validation|test|
|
@@ -124,6 +123,18 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
|
|
124 |
|---------|----:|---------:|---:|
|
125 |
|LEY|1084|329|0|
|
126 |
|TRAT_INTL|935|161|0|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
127 |
|
128 |
### Team
|
129 |
|
6 |
<img src="https://www.pactomundial.org/wp-content/uploads/2021/10/16-paz-justicia-e-instituciones-solidas-3.jpg" width=200px>
|
7 |
</center>
|
8 |
<ul>
|
9 |
+
<li>16.3 Promover el estado de derecho en los planos nacional e internacional y garantizar la igualdad de acceso a la justicia para todos.</li>
|
10 |
+
<li>16.10 Garantizar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las leyes nacionales y los acuerdos internacionales. </li>
|
11 |
</ul>
|
12 |
</div>
|
13 |
<div id="left">
|
15 |
<img src="https://www.pactomundial.org/wp-content/uploads/2021/10/4-educacion-de-calidad-3.jpg" width=200px>
|
16 |
</center>
|
17 |
<ul>
|
18 |
+
<li>4.4 De aquí a 2030, aumentar considerablemente el número de jóvenes y adultos que tienen las competencias necesarias, en particular técnicas y profesionales, para acceder al empleo, el trabajo decente y el emprendimiento.</li>
|
19 |
+
<li>4.7 De aquí a 2030, asegurar que todos los alumnos adquieran los conocimientos teóricos y prácticos necesarios para promover el desarrollo sostenible, entre otras cosas mediante la educación para el desarrollo sostenible y los estilos de vida sostenibles, los derechos humanos, la igualdad de género, la promoción de una cultura de paz y no violencia, la ciudadanía mundial y la valoración de la diversidad cultural y la contribución de la cultura al desarrollo sostenible. </li>
|
20 |
</ul>
|
21 |
</div>
|
22 |
|
25 |
</div>
|
26 |
|
27 |
|
28 |
+
![alt-text](https://www.pactomundial.org/wp-content/uploads/2021/10/10-reduccion-de-las-desigualdades-3.jpg "ODS 10") 10.3 Garantizar la igualdad de oportunidades y reducir la desigualdad de resultados, incluso eliminando las leyes, políticas y prácticas discriminatorias y promoviendo legislaciones, políticas y medidas adecuadas a ese respecto.
|
|
|
29 |
|
30 |
|
31 |
|
32 |
## Motivación
|
33 |
|
34 |
+
- Es difícil exigir algo que desconoces.
|
35 |
+
- El trabajo se te acumula cuando tienes que leer grandes cantidades de información que además evoluciona constantemente.
|
36 |
+
- Buscar información puede llevarte demasiado tiempo no tanto por la acción en si, si no por el tiempo que inviertes en buscar la información necesaria y desechar toda aquella que no te aporta nada relacionado a tu tema de interés.
|
37 |
+
- Aún el cerebro humano con una gran capacidad de almacenamiento no puede competir con la cantidad de información que se genera día con día.
|
38 |
|
39 |
Por ello decidimos aventurarnos en la creación de modelos que permiten en términos generales:
|
40 |
|
41 |
+
- Extraer información.
|
42 |
+
- Clasificar documentos.
|
43 |
- Identificar si los documentos son tan parecidos que podrían tartar de un mismo tema o incluso se básicamente los mismos.
|
44 |
|
45 |
Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
|
46 |
|
47 |
+
- Agilizar y facilitar el trabajo de quienes imparten justicia.
|
48 |
+
- Facilitar la búsqueda de los estudiantes e investigadores de derecho.
|
49 |
+
- Ayudar a la ciudadanía permitiéndole identificar si se esta violentando alguno de los Derechos Humanos que protegen el Sistema Universal o la Convención Americana de Derechos Humanos.
|
50 |
+
- Coadyuvar en la generación de indicadores sobre violaciones a los Derechos Humanos.
|
51 |
|
52 |
### Este proyecto esta compuesto por los siguientes modelos:
|
53 |
|
58 |
|
59 |
### Como funciona el demo:
|
60 |
|
61 |
+
1. Requiere que se proporciones dos textos (el primero denominada texto a analizar y el segundo texto a comparar), los cuales se pueden seleccionar de la lista de ejemplos.
|
62 |
|
63 |
+
2. Cada uno de estos textos pasa por cada uno de los modelos que conforman el proyecto.
|
64 |
|
65 |
+
* Primero, se utiliza el modelo de reconocimiento de entidades **jurisbert-finetuning-ner**. El cual, podría encontrar alguna entidad de tipo LEY o TRAT_INTL.
|
66 |
|
67 |
+
* Segundo, se utiliza el modelo de clasificación **jurisbert-class-tratados-internacionales-sistema-universal** acorde al sistema universal de **Derechos Humanos** el cual se fundamenta en convenciones o pactos para identificar si podria existir alguna violación acorde a lo definido por la **ONU**.
|
68 |
|
69 |
* Tercero, se utiliza el modelo de clasificación **jurisbert-clas-art-convencion-americana-dh** para identificar cual de los artículos de la **[Convención Americana de Derechos Humanos](https://www.cndh.org.mx/sites/default/files/doc/Programas/TrataPersonas/MarcoNormativoTrata/InsInternacionales/Regionales/Convencion_ADH.pdf)** se podría estar violentando.
|
70 |
|
72 |
|
73 |
3. Se presentan los resultados obtenidos en el orden siguiente:
|
74 |
|
75 |
+
* Primero lo obtenido para el texto a analizar.
|
76 |
+
* Segundo, el porcentaje de similitud entre ambos textos.
|
77 |
+
* Tercero, lo obtenido para el texto a comparar.
|
78 |
|
79 |
"""
|
80 |
|
87 |
|
88 |
Es por ello que tuvimos que crear dos datasets:
|
89 |
|
90 |
+
- [scjnugacj/scjn_dataset_corpus_tesis] (https://huggingface.co/datasets/scjnugacj/scjn_dataset_corpus_tesis) la información base fue obtenida del **[Buscador Juridico de la SCJN de México]** (https://bj.scjn.gob.mx/) utilizando como fuente de información: Tesis y filtrando la información por décima y undécima época; sin embargo, fue necesario realizar procesos de ETL para la limpieza de información no relevante y estructuración de los campos:
|
91 |
* `id`: a `string` feature.
|
92 |
* `text`: a `string` features.
|
93 |
+
- [scjnugacj/scjn_dataset_ner](https://huggingface.co/datasets/scjnugacj/scjn_dataset_ner) el primer reto para este dataset fue entender la estructura que debía tener para ser utilizado la tarea **NER** afortunadamente esto fue relativamente sencillo de encontrar y nos dimos cuenta que no éramos el único equipo con el mismo problema. La estructura del dataset para esta tarea es el siguiente:
|
94 |
|
95 |
* `id`: a `string` feature.
|
96 |
* `tokens`: a `list` of `string` features.
|
98 |
|
99 |
|
100 |
|
101 |
+
Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos considerando como base los 27913 del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.
|
102 |
|
103 |
|
104 |
#### Compartir los datasets en HugginFace
|
105 |
|
106 |
Realizar la investigación de como compartir los datasets en HuggingFace represento un tiempo importante y la mejor forma que encontramos para hacerlo fue:
|
107 |
|
108 |
+
- Crear un script para utilizar la función **load_dataset** que lee desde un repositorio en github los archivos train.txt y dev.txt y los convierte en un **DatasetDict** para finalmente publicarlos con la función **push_to_hub**.
|
109 |
|
110 |
## Entrenamiento de los modelos
|
111 |
+
- Crear la línea base de los modelos.
|
112 |
- **hackathon-pln-es/jurisbert-finetuning-ner**
|
113 |
+
* Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
|
114 |
+
* Los resultados de **F1** eran muy bajos.
|
115 |
+
* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
|
116 |
* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
|
117 |
|
118 |
| name |train|validation|test|
|
123 |
|---------|----:|---------:|---:|
|
124 |
|LEY|1084|329|0|
|
125 |
|TRAT_INTL|935|161|0|
|
126 |
+
* Realizar múltiples entrenamientos hasta identificar cual era el mejor para realizar cual sería utilizado como base para el entrenamiento siguiente.
|
127 |
+
- **jurisbert-class-tratados-internacionales-sistema-unviersal**
|
128 |
+
* Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
|
129 |
+
* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
|
130 |
+
* La métrica de evaluación utilizada fue **Accuracy**.
|
131 |
+
- **jurisbert-clas-art-convencion-interamericana-dh**
|
132 |
+
* Se entrenó con un conjunto de datos que consta de 6,089 textos con su etiquetado a diferentes 30 tipos de artículos.
|
133 |
+
* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
|
134 |
+
* La métrica de evaluación utilizada fue **Accuracy**.
|
135 |
+
- **jurisbert-tsdae-sentence-transformer**
|
136 |
+
* Se entreno utilizando el dataset scjnugacj/scjn_dataset_corpus_tesis del cual se tomo una muestra de 25000 ejemplos.
|
137 |
+
|
138 |
|
139 |
### Team
|
140 |
|