Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,48 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- es
|
4 |
+
---
|
5 |
+
|
6 |
+
# Modelo de RoBERTa para la tarea MEDDOCAN
|
7 |
+
|
8 |
+
Como parte de la iniciativa IberLEF 2019, la Oficina Técnica de Sanidad del Plan TL organiza la tarea “Medical Document Anonymization (MEDDOCAN)”, la primera campaña competitiva específicamente dedicada a la anonimización de documentos médicos en español. [1](https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx)
|
9 |
+
|
10 |
+
## Acerca de la tarea:
|
11 |
+
|
12 |
+
Los registros clínicos con información de salud protegida (PHI) no se pueden compartir directamente "tal cual", debido a limitaciones de privacidad, lo que hace que sea particularmente engorroso llevar a cabo investigaciones de PNL en el ámbito médico. Una condición previa necesaria para acceder a los registros clínicos fuera de los hospitales es su desidentificación, es decir, la eliminación exhaustiva o el reemplazo de todas las frases de PHI mencionadas. [2](https://temu.bsc.es/meddocan/)
|
13 |
+
|
14 |
+
## Trabajo realizado
|
15 |
+
|
16 |
+
Se ha entrenado un modelo RoBERTa (PlanTL-GOB-ES/bsc-bio-es [3](https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es)), obteniendo los siguientes resultados:
|
17 |
+
|
18 |
+
### Modelo
|
19 |
+
|
20 |
+
**DEV**
|
21 |
+
|
22 |
+
Loss durante el entrenamiento:
|
23 |
+
|
24 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/hB2RCPSB-g2wqTfPi7mVl.png)
|
25 |
+
|
26 |
+
F1 (Weighted) durante el entrenamiento:
|
27 |
+
|
28 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/eH9IfG5MkzqJfPLVDlY-R.png)
|
29 |
+
|
30 |
+
**TEST**
|
31 |
+
|
32 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/OlnRfw9BTzzPdtedYV1Zn.png)
|
33 |
+
|
34 |
+
### Web
|
35 |
+
|
36 |
+
Además, también se ha desarrollado una web sencilla para utilizar el modelo [4](https://github.com/Dnidof/anonimizador):
|
37 |
+
|
38 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6669cf8d4bb234acabca0e51/rK82cl69JDM3oQHr1v1-w.png)
|
39 |
+
|
40 |
+
## Más información:
|
41 |
+
|
42 |
+
[1] https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/anonimizacion-doc-medicos.aspx
|
43 |
+
|
44 |
+
[2] https://temu.bsc.es/meddocan/
|
45 |
+
|
46 |
+
[3] https://huggingface.co/PlanTL-GOB-ES/bsc-bio-es
|
47 |
+
|
48 |
+
[4] https://github.com/Dnidof/anonimizador
|