NER-MEDDOCAN / README.md
Dnidof's picture
Fix: image size
d38b03c verified
metadata
language:
  - es

Modelo de RoBERTa para la tarea MEDDOCAN

Como parte de la iniciativa IberLEF 2019, la Oficina Técnica de Sanidad del Plan TL organiza la tarea “Medical Document Anonymization (MEDDOCAN)”, la primera campaña competitiva específicamente dedicada a la anonimización de documentos médicos en español. 1

Acerca de la tarea:

Los registros clínicos con información de salud protegida (PHI) no se pueden compartir directamente "tal cual", debido a limitaciones de privacidad, lo que hace que sea particularmente engorroso llevar a cabo investigaciones de PNL en el ámbito médico. Una condición previa necesaria para acceder a los registros clínicos fuera de los hospitales es su desidentificación, es decir, la eliminación exhaustiva o el reemplazo de todas las frases de PHI mencionadas. 2

Trabajo realizado

Se ha entrenado un modelo RoBERTa (PlanTL-GOB-ES/bsc-bio-es 3), obteniendo los siguientes resultados:

Modelo

DEV

Loss durante el entrenamiento:

Loss

F1 (Weighted) durante el entrenamiento:

F1(Weighted)

TEST

Test results

Web

Además, también se ha desarrollado una web sencilla para utilizar el modelo 4:

Web interface

Más información:

[1] https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx

[2] https://temu.bsc.es/meddocan/

[3] https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es

[4] https://github.com/Dnidof/anonimizador