Spaces:

somosnlp-hackathon-2022
/

modelo-juridico-mexicano

Running

GPalomeque commited on Apr 2, 2022

Commit

aaba24d

•

1 Parent(s): 004d7cd

Update app_details.py

Files changed (1) hide show

app_details.py CHANGED Viewed

@@ -113,6 +113,7 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
 	* Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
 	* Los resultados de **F1** eran muy bajos.
 	* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
 	* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
 |  name   |train|validation|test|
@@ -123,7 +124,7 @@ Realizar la investigación de como compartir los datasets en HuggingFace represe
 |---------|----:|---------:|---:|
 |LEY|1084|329|0|
 |TRAT_INTL|935|161|0|
-	* Realizar múltiples entrenamientos hasta identificar cual era el mejor para realizar cual sería utilizado como base para el entrenamiento siguiente.
 - **jurisbert-class-tratados-internacionales-sistema-unviersal**
 	* Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
 	* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.

 	* Espacio de almacenamiento para almacenar los checkpoints que requerían 1.4 GB de almacenamiento por lo que no podíamos entrenar de forma continua.
 	* Los resultados de **F1** eran muy bajos.
 	* La cantidad de datos en el corpus era tan elevado y disparejo que el tiempo para entrenar una época era muy alto.
+	* Realizar múltiples entrenamientos hasta identificar cual era el mejor para realizar cual sería utilizado como base para el entrenamiento siguiente.
 	* Fue necesario dar un paso atrás y revisar el dataset para realizar un análisis exploratorio e idear estrategias para balancear la muestra por lo que se acoto a:
 |  name   |train|validation|test|
 |---------|----:|---------:|---:|
 |LEY|1084|329|0|
 |TRAT_INTL|935|161|0|
 - **jurisbert-class-tratados-internacionales-sistema-unviersal**
 	* Se entrenó con un conjunto de datos que consta de 3,799 textos con su etiquetado a diferentes 8 tipos de convenios.
 	* Los textos se transforman utilizando SimpleTransformers en el que se entrenó tres épocas con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.