GPalomeque commited on
Commit
5ab40e5
1 Parent(s): 898d599

Update app_details.py

Browse files
Files changed (1) hide show
  1. app_details.py +3 -5
app_details.py CHANGED
@@ -70,7 +70,7 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
70
 
71
  * Cuarto, para poder ejemplificar el modelo **jurisbert-tsdae-sentence-transformer** se aprovechan el texto a analizar y el texto a comparar para calcular la similitud entre ambos.
72
 
73
- 3. Se presentan los resultados obtenidos en el orden siguiemte:
74
 
75
  * Primero lo obtenido para el texto a analizar
76
  * Segundo, el porcentaje de similitud entre ambos textos
@@ -94,11 +94,9 @@ Es por ello que tuvimos que crear dos datasets:
94
 
95
  * `id`: a `string` feature.
96
  * `tokens`: a `list` of `string` features.
97
- * `ner_tags`: a `list` of classification labels (`int`). Full tagset with indices:
98
 
99
- ```python
100
- {'O': 0, 'B-LEY': 1, 'I-LEY': 2, 'B-TRAT_INTL': 3, 'I-TRAT_INTL': 4}
101
- ```
102
 
103
  Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos que teniamos considerando como base los 27913 ejemplos del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.
104
 
70
 
71
  * Cuarto, para poder ejemplificar el modelo **jurisbert-tsdae-sentence-transformer** se aprovechan el texto a analizar y el texto a comparar para calcular la similitud entre ambos.
72
 
73
+ 3. Se presentan los resultados obtenidos en el orden siguiente:
74
 
75
  * Primero lo obtenido para el texto a analizar
76
  * Segundo, el porcentaje de similitud entre ambos textos
94
 
95
  * `id`: a `string` feature.
96
  * `tokens`: a `list` of `string` features.
97
+ * `ner_tags`: a `list` of classification labels (`int`). Full tagset with indices: {'O': 0, 'B-LEY': 1, 'I-LEY': 2, 'B-TRAT_INTL': 3, 'I-TRAT_INTL': 4}
98
 
99
+
 
 
100
 
101
  Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos que teniamos considerando como base los 27913 ejemplos del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.
102