GPalomeque commited on
Commit
004d7cd
1 Parent(s): b8f854f

Update app_details.py

Browse files
Files changed (1) hide show
  1. app_details.py +42 -31
app_details.py CHANGED
@@ -6,8 +6,8 @@ description = """
6
  <img src="https://www.pactomundial.org/wp-content/uploads/2021/10/16-paz-justicia-e-instituciones-solidas-3.jpg" width=200px>
7
  </center>
8
  <ul>
9
- <li>16.3 Promover el estado de derecho en los planos nacional e internacional y garantizar la igualdad de acceso a la justicia para todos</li>
10
- <li>16.10 Garantizar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las leyes nacionales y los acuerdos internacionales </li>
11
  </ul>
12
  </div>
13
  <div id="left">
@@ -15,8 +15,8 @@ description = """
15
  <img src="https://www.pactomundial.org/wp-content/uploads/2021/10/4-educacion-de-calidad-3.jpg" width=200px>
16
  </center>
17
  <ul>
18
- <li>4.4 De aquí a 2030, aumentar considerablemente el número de jóvenes y adultos que tienen las competencias necesarias, en particular técnicas y profesionales, para acceder al empleo, el trabajo decente y el emprendimiento</li>
19
- <li>4.7 De aquí a 2030, asegurar que todos los alumnos adquieran los conocimientos teóricos y prácticos necesarios para promover el desarrollo sostenible, entre otras cosas mediante la educación para el desarrollo sostenible y los estilos de vida sostenibles, los derechos humanos, la igualdad de género, la promoción de una cultura de paz y no violencia, la ciudadanía mundial y la valoración de la diversidad cultural y la contribución de la cultura al desarrollo sostenible </li>
20
  </ul>
21
  </div>
22
 
@@ -25,30 +25,29 @@ description = """
25
  </div>
26
 
27
 
28
- ![alt-text](https://www.pactomundial.org/wp-content/uploads/2021/10/10-reduccion-de-las-desigualdades-3.jpg "ODS 10")
29
- 10.3 Garantizar la igualdad de oportunidades y reducir la desigualdad de resultados, incluso eliminando las leyes, políticas y prácticas discriminatorias y promoviendo legislaciones, políticas y medidas adecuadas a ese respecto
30
 
31
 
32
 
33
  ## Motivación
34
 
35
- - Es difícil exigir algo que desconoces
36
- - El trabajo se te acumula cuando tienes que leer grandes cantidades de información que además evoluciona constantemente
37
- - Buscar información puede llevarte demasiado tiempo no tanto por la acción en si, si no por el tiempo que invertes en buscar la información necesaria y desechar toda aquella que no te aporta nada relacionado a tu tema de interés.
38
- - Aún el cerebro humano con una gran capacidad de almacenamiento no puede competir con la cantidad de informacón que se genera día con día
39
 
40
  Por ello decidimos aventurarnos en la creación de modelos que permiten en términos generales:
41
 
42
- - Extraer información
43
- - Clasificar documentos
44
  - Identificar si los documentos son tan parecidos que podrían tartar de un mismo tema o incluso se básicamente los mismos.
45
 
46
  Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
47
 
48
- - Agilizar y facilitar el trabajo de quienes imparten justicia
49
- - Facilitar la búsqueda de los estudiantes e investigadores de derecho
50
- - Ayudar a la ciudadanía permitiéndole identificar que Derechos Humanos se podrían estar violentando
51
- - Coadyuvar en la generación de indicadores sobre violaciones a los Derechos Humanos
52
 
53
  ### Este proyecto esta compuesto por los siguientes modelos:
54
 
@@ -59,13 +58,13 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
59
 
60
  ### Como funciona el demo:
61
 
62
- 1. Requiere que se proporciones dos textos (el primero denominada texto a analizar y el segundo texto a comparar), los cuales se pueden seleccionar de la lista de ejemplos
63
 
64
- 2. Cada uno de estos textos pasa por cada uno de los modelos que conforman el proyecto
65
 
66
- * Primero, se utiliza el modelo de reconocimiento de entidades **jurisbert-finetuning-ner**. El cual, podría encontrar alguna entidad de tipo LEY o TRAT_INTL
67
 
68
- * Segundo, se utiliza el modelo de clasificación **jurisbert-class-tratados-internacionales-sistema-universal** acorde al sistema universal de **Derechos Humanos** el cual se fundamenta en convenciones o pactos para identificar si podria existir alguna violación acorde a lo definido por la **ONU**
69
 
70
  * Tercero, se utiliza el modelo de clasificación **jurisbert-clas-art-convencion-americana-dh** para identificar cual de los artículos de la **[Convención Americana de Derechos Humanos](https://www.cndh.org.mx/sites/default/files/doc/Programas/TrataPersonas/MarcoNormativoTrata/InsInternacionales/Regionales/Convencion_ADH.pdf)** se podría estar violentando.
71
 
@@ -73,9 +72,9 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
73
 
74
  3. Se presentan los resultados obtenidos en el orden siguiente:
75
 
76
- * Primero lo obtenido para el texto a analizar
77
- * Segundo, el porcentaje de similitud entre ambos textos
78
- * Tercero, lo obtenido para el texto a comparar
79
 
80
  """
81
 
@@ -88,10 +87,10 @@ El principal problema de entrenar modelos que pertenezcan a un dominio especiali
88
 
89
  Es por ello que tuvimos que crear dos datasets:
90
 
91
- - [scjnugacj/scjn_dataset_corpus_tesis] (https://huggingface.co/datasets/scjnugacj/scjn_dataset_corpus_tesis) la información base fue obtenida del **[Buscador Juridico de la SCJN de México]** (https://bj.scjn.gob.mx/) utilizando como fuente de información: Tesis y filtrando la información por décima y undécima época; sin embargo, fue necesario realizar procesos de ETL para la limpieza de información no relevante y estructuración de los campos
92
  * `id`: a `string` feature.
93
  * `text`: a `string` features.
94
- - [scjnugacj/scjn_dataset_ner](https://huggingface.co/datasets/scjnugacj/scjn_dataset_ner) el primer reto para este dataset fue entender la estructura que debía tener para ser utilizado la tarea **NER** afortunadamente esto fue relativamente sencillo de encontrar y nos dimos cuenta que no éramos el único equipo con el mismo problema.
95
 
96
  * `id`: a `string` feature.
97
  * `tokens`: a `list` of `string` features.
@@ -99,21 +98,21 @@ Es por ello que tuvimos que crear dos datasets:
99
 
100
 
101
 
102
- Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos que teniamos considerando como base los 27913 ejemplos del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.
103
 
104
 
105
  #### Compartir los datasets en HugginFace
106
 
107
  Realizar la investigación de como compartir los datasets en HuggingFace represento un tiempo importante y la mejor forma que encontramos para hacerlo fue:
108
 
109
- - Crear un script para utilizar la función **load_dataset** que lee desde un repositorio en github los archivos train.txt y dev.txt y los convierte en un **DatasetDict** para finalmente publicarlos con la función **push_to_hub**
110
 
111
  ## Entrenamiento de los modelos
112
- - Crear la línea base de los modelos
113
  - **hackathon-pln-es/jurisbert-finetuning-ner**
114
- * Espacio de almacenamiento para almacenar los checkpoints que requerian 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
115
- * Los resultados de F1 eran muy bajos
116
- * La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto
117
  * Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
118
 
119
  | name |train|validation|test|
@@ -124,6 +123,18 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
124
  |---------|----:|---------:|---:|
125
  |LEY|1084|329|0|
126
  |TRAT_INTL|935|161|0|
 
 
 
 
 
 
 
 
 
 
 
 
127
 
128
  ### Team
129
 
6
  <img src="https://www.pactomundial.org/wp-content/uploads/2021/10/16-paz-justicia-e-instituciones-solidas-3.jpg" width=200px>
7
  </center>
8
  <ul>
9
+ <li>16.3 Promover el estado de derecho en los planos nacional e internacional y garantizar la igualdad de acceso a la justicia para todos.</li>
10
+ <li>16.10 Garantizar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las leyes nacionales y los acuerdos internacionales. </li>
11
  </ul>
12
  </div>
13
  <div id="left">
15
  <img src="https://www.pactomundial.org/wp-content/uploads/2021/10/4-educacion-de-calidad-3.jpg" width=200px>
16
  </center>
17
  <ul>
18
+ <li>4.4 De aquí a 2030, aumentar considerablemente el número de jóvenes y adultos que tienen las competencias necesarias, en particular técnicas y profesionales, para acceder al empleo, el trabajo decente y el emprendimiento.</li>
19
+ <li>4.7 De aquí a 2030, asegurar que todos los alumnos adquieran los conocimientos teóricos y prácticos necesarios para promover el desarrollo sostenible, entre otras cosas mediante la educación para el desarrollo sostenible y los estilos de vida sostenibles, los derechos humanos, la igualdad de género, la promoción de una cultura de paz y no violencia, la ciudadanía mundial y la valoración de la diversidad cultural y la contribución de la cultura al desarrollo sostenible. </li>
20
  </ul>
21
  </div>
22
 
25
  </div>
26
 
27
 
28
+ ![alt-text](https://www.pactomundial.org/wp-content/uploads/2021/10/10-reduccion-de-las-desigualdades-3.jpg "ODS 10") 10.3 Garantizar la igualdad de oportunidades y reducir la desigualdad de resultados, incluso eliminando las leyes, políticas y prácticas discriminatorias y promoviendo legislaciones, políticas y medidas adecuadas a ese respecto.
 
29
 
30
 
31
 
32
  ## Motivación
33
 
34
+ - Es difícil exigir algo que desconoces.
35
+ - El trabajo se te acumula cuando tienes que leer grandes cantidades de información que además evoluciona constantemente.
36
+ - Buscar información puede llevarte demasiado tiempo no tanto por la acción en si, si no por el tiempo que inviertes en buscar la información necesaria y desechar toda aquella que no te aporta nada relacionado a tu tema de interés.
37
+ - Aún el cerebro humano con una gran capacidad de almacenamiento no puede competir con la cantidad de información que se genera día con día.
38
 
39
  Por ello decidimos aventurarnos en la creación de modelos que permiten en términos generales:
40
 
41
+ - Extraer información.
42
+ - Clasificar documentos.
43
  - Identificar si los documentos son tan parecidos que podrían tartar de un mismo tema o incluso se básicamente los mismos.
44
 
45
  Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
46
 
47
+ - Agilizar y facilitar el trabajo de quienes imparten justicia.
48
+ - Facilitar la búsqueda de los estudiantes e investigadores de derecho.
49
+ - Ayudar a la ciudadanía permitiéndole identificar si se esta violentando alguno de los Derechos Humanos que protegen el Sistema Universal o la Convención Americana de Derechos Humanos.
50
+ - Coadyuvar en la generación de indicadores sobre violaciones a los Derechos Humanos.
51
 
52
  ### Este proyecto esta compuesto por los siguientes modelos:
53
 
58
 
59
  ### Como funciona el demo:
60
 
61
+ 1. Requiere que se proporciones dos textos (el primero denominada texto a analizar y el segundo texto a comparar), los cuales se pueden seleccionar de la lista de ejemplos.
62
 
63
+ 2. Cada uno de estos textos pasa por cada uno de los modelos que conforman el proyecto.
64
 
65
+ * Primero, se utiliza el modelo de reconocimiento de entidades **jurisbert-finetuning-ner**. El cual, podría encontrar alguna entidad de tipo LEY o TRAT_INTL.
66
 
67
+ * Segundo, se utiliza el modelo de clasificación **jurisbert-class-tratados-internacionales-sistema-universal** acorde al sistema universal de **Derechos Humanos** el cual se fundamenta en convenciones o pactos para identificar si podria existir alguna violación acorde a lo definido por la **ONU**.
68
 
69
  * Tercero, se utiliza el modelo de clasificación **jurisbert-clas-art-convencion-americana-dh** para identificar cual de los artículos de la **[Convención Americana de Derechos Humanos](https://www.cndh.org.mx/sites/default/files/doc/Programas/TrataPersonas/MarcoNormativoTrata/InsInternacionales/Regionales/Convencion_ADH.pdf)** se podría estar violentando.
70
 
72
 
73
  3. Se presentan los resultados obtenidos en el orden siguiente:
74
 
75
+ * Primero lo obtenido para el texto a analizar.
76
+ * Segundo, el porcentaje de similitud entre ambos textos.
77
+ * Tercero, lo obtenido para el texto a comparar.
78
 
79
  """
80
 
87
 
88
  Es por ello que tuvimos que crear dos datasets:
89
 
90
+ - [scjnugacj/scjn_dataset_corpus_tesis] (https://huggingface.co/datasets/scjnugacj/scjn_dataset_corpus_tesis) la información base fue obtenida del **[Buscador Juridico de la SCJN de México]** (https://bj.scjn.gob.mx/) utilizando como fuente de información: Tesis y filtrando la información por décima y undécima época; sin embargo, fue necesario realizar procesos de ETL para la limpieza de información no relevante y estructuración de los campos:
91
  * `id`: a `string` feature.
92
  * `text`: a `string` features.
93
+ - [scjnugacj/scjn_dataset_ner](https://huggingface.co/datasets/scjnugacj/scjn_dataset_ner) el primer reto para este dataset fue entender la estructura que debía tener para ser utilizado la tarea **NER** afortunadamente esto fue relativamente sencillo de encontrar y nos dimos cuenta que no éramos el único equipo con el mismo problema. La estructura del dataset para esta tarea es el siguiente:
94
 
95
  * `id`: a `string` feature.
96
  * `tokens`: a `list` of `string` features.
98
 
99
 
100
 
101
+ Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos considerando como base los 27913 del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.
102
 
103
 
104
  #### Compartir los datasets en HugginFace
105
 
106
  Realizar la investigación de como compartir los datasets en HuggingFace represento un tiempo importante y la mejor forma que encontramos para hacerlo fue:
107
 
108
+ - Crear un script para utilizar la función **load_dataset** que lee desde un repositorio en github los archivos train.txt y dev.txt y los convierte en un **DatasetDict** para finalmente publicarlos con la función **push_to_hub**.
109
 
110
  ## Entrenamiento de los modelos
111
+ - Crear la línea base de los modelos.
112
  - **hackathon-pln-es/jurisbert-finetuning-ner**
113
+ * Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
114
+ * Los resultados de **F1** eran muy bajos.
115
+ * La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
116
  * Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
117
 
118
  | name |train|validation|test|
123
  |---------|----:|---------:|---:|
124
  |LEY|1084|329|0|
125
  |TRAT_INTL|935|161|0|
126
+ * Realizar múltiples entrenamientos hasta identificar cual era el mejor para realizar cual sería utilizado como base para el entrenamiento siguiente.
127
+ - **jurisbert-class-tratados-internacionales-sistema-unviersal**
128
+ * Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
129
+ * Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
130
+ * La métrica de evaluación utilizada fue **Accuracy**.
131
+ - **jurisbert-clas-art-convencion-interamericana-dh**
132
+ * Se entrenó con un conjunto de datos que consta de 6,089 textos con su etiquetado a diferentes 30 tipos de artículos.
133
+ * Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
134
+ * La métrica de evaluación utilizada fue **Accuracy**.
135
+ - **jurisbert-tsdae-sentence-transformer**
136
+ * Se entreno utilizando el dataset scjnugacj/scjn_dataset_corpus_tesis del cual se tomo una muestra de 25000 ejemplos.
137
+
138
 
139
  ### Team
140