Spaces:

somosnlp-hackathon-2022
/

modelo-juridico-mexicano

Running

GPalomeque commited on Apr 2, 2022

Commit

5ab40e5

•

1 Parent(s): 898d599

Update app_details.py

Files changed (1) hide show

app_details.py CHANGED Viewed

@@ -70,7 +70,7 @@ Estos modelos integrados en diversos sistemas se pueden obtener beneficios como:
 	* Cuarto, para poder ejemplificar el modelo **jurisbert-tsdae-sentence-transformer** se aprovechan el texto a analizar y el texto a comparar para calcular la similitud entre ambos.
-3. Se presentan los resultados obtenidos en el orden siguiemte:
 	* Primero lo obtenido para el texto a analizar
 	* Segundo, el porcentaje de similitud entre ambos textos
@@ -94,11 +94,9 @@ Es por ello que tuvimos que crear dos datasets:
 	* `id`: a `string` feature.
 	* `tokens`: a `list` of `string` features.
-	* `ner_tags`: a `list` of classification labels (`int`). Full tagset with indices:
-	```python
-{'O': 0, 'B-LEY': 1, 'I-LEY': 2, 'B-TRAT_INTL': 3, 'I-TRAT_INTL': 4}
-```
 Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos que teniamos considerando como base los 27913 ejemplos del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.

 	* Cuarto, para poder ejemplificar el modelo **jurisbert-tsdae-sentence-transformer** se aprovechan el texto a analizar y el texto a comparar para calcular la similitud entre ambos.
+3. Se presentan los resultados obtenidos en el orden siguiente:
 	* Primero lo obtenido para el texto a analizar
 	* Segundo, el porcentaje de similitud entre ambos textos
 	* `id`: a `string` feature.
 	* `tokens`: a `list` of `string` features.
+	* `ner_tags`: a `list` of classification labels (`int`). Full tagset with indices: {'O': 0, 'B-LEY': 1, 'I-LEY': 2, 'B-TRAT_INTL': 3, 'I-TRAT_INTL': 4}
 Afortunadamente, teníamos claro que entidades nos interesaba identificar pero el reto estaba en crear el corpus anotado por la cantidad de ejemplos que teniamos considerando como base los 27913 ejemplos del dataset **scjn_corpus_tesis** aún utilizando una herramienta para realizar las anotaciones de manualmente el tiempo requerido era elevado es por ello que nos dimos a la rarea de crear un notebook que recibe una lista de los nombres de las leyes y tratados internacionales y realiza el ETL necesario para las anotaciones automáticamente, para asegurarnos de que todo estaba anotado acorde a lo esperado se extrajo una muestra para su verificación manual.