File size: 2,276 Bytes
8355106
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d38b03c
8355106
 
 
d38b03c
8355106
 
 
d38b03c
8355106
 
 
 
 
d38b03c
8355106
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
language:
- es
---

# Modelo de RoBERTa para la tarea MEDDOCAN

Como parte de la iniciativa IberLEF 2019, la Oficina Técnica de Sanidad del Plan TL organiza la tarea “Medical Document Anonymization (MEDDOCAN)”, la primera campaña competitiva específicamente dedicada a la anonimización de documentos médicos en español. [1](https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx)

## Acerca de la tarea:

Los registros clínicos con información de salud protegida (PHI) no se pueden compartir directamente "tal cual", debido a limitaciones de privacidad, lo que hace que sea particularmente engorroso llevar a cabo investigaciones de PNL en el ámbito médico. Una condición previa necesaria para acceder a los registros clínicos fuera de los hospitales es su desidentificación, es decir, la eliminación exhaustiva o el reemplazo de todas las frases de PHI mencionadas. [2](https://temu.bsc.es/meddocan/)

## Trabajo realizado

Se ha entrenado un modelo RoBERTa (PlanTL-GOB-ES/bsc-bio-es [3](https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es)), obteniendo los siguientes resultados:

### Modelo

**DEV**

Loss durante el entrenamiento:

<img src="https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/5Gczv1lz91dJqDYWcgjLQ.png" alt="Loss" width="500"/>

F1 (Weighted) durante el entrenamiento:

<img src="https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/Av7v3_q7adD9w4PYlKaP4.png" alt="F1(Weighted)" width="500"/>

**TEST**

<img src="https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/OlnRfw9BTzzPdtedYV1Zn.png" alt="Test results" width="500"/>

### Web

Además, también se ha desarrollado una web sencilla para utilizar el modelo [4](https://github.com/Dnidof/anonimizador):  

<img src="https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/rK82cl69JDM3oQHr1v1-w.png" alt="Web interface" width="500"/>

## Más información:

[1] https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx

[2] https://temu.bsc.es/meddocan/

[3] https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es

[4] https://github.com/Dnidof/anonimizador