Edit model card

Modelo de RoBERTa para la tarea MEDDOCAN

Como parte de la iniciativa IberLEF 2019, la Oficina Técnica de Sanidad del Plan TL organiza la tarea “Medical Document Anonymization (MEDDOCAN)”, la primera campaña competitiva específicamente dedicada a la anonimización de documentos médicos en español. 1

Acerca de la tarea:

Los registros clínicos con información de salud protegida (PHI) no se pueden compartir directamente "tal cual", debido a limitaciones de privacidad, lo que hace que sea particularmente engorroso llevar a cabo investigaciones de PNL en el ámbito médico. Una condición previa necesaria para acceder a los registros clínicos fuera de los hospitales es su desidentificación, es decir, la eliminación exhaustiva o el reemplazo de todas las frases de PHI mencionadas. 2

Trabajo realizado

Se ha entrenado un modelo RoBERTa (PlanTL-GOB-ES/bsc-bio-es 3), obteniendo los siguientes resultados:

Modelo

DEV

Loss durante el entrenamiento:

Loss

F1 (Weighted) durante el entrenamiento:

F1(Weighted)

TEST

Test results

Web

Además, también se ha desarrollado una web sencilla para utilizar el modelo 4:

Web interface

Más información:

[1] https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx

[2] https://temu.bsc.es/meddocan/

[3] https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es

[4] https://github.com/Dnidof/anonimizador

Downloads last month
24
Safetensors
Model size
124M params
Tensor type
F32
·