quinten-datalab
/

AliBERT-7GB

@@ -30,9 +30,17 @@ widget:
 AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
 Here are the main contributions of our work:
-  A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks.
-  A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained.
-  It is a foundation model that achieved state-of-the-art results on French biomedical text.
 The Paper can be found here: https://aclanthology.org/2023.bionlp-1.19/
@@ -147,6 +155,43 @@ The model is evaluated on two (CAS and QUAERO) publically available Frech biomed
   </tr>
 </tbody>
 </table>
-*Table 2: NER performances on CAS*
 ##AliBERT: A Pre-trained Language Model for French Biomedical Text

 AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
 Here are the main contributions of our work:
+  <ul>
+  <li>
+    A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks.
+  </li>
+  <li>
+    A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained.
+  </li>
+  <li>
+      It is a foundation model that achieved state-of-the-art results on French biomedical text.
+  </li>
+  </ul>
 The Paper can be found here: https://aclanthology.org/2023.bionlp-1.19/
   </tr>
 </tbody>
 </table>
+Table 2: NER performances on CAS dataset
+#### QUAERO dataset
+<table class="tg">
+<thead>
+  <tr>
+    <th>Models</th>
+    <th class="tg-0lax" colspan="3">CamemBERT</th>
+    <th class="tg-0lax" colspan="3">AliBERT</th>
+    <th class="tg-0lax" colspan="3">DrBERT</th>
+  </tr>
+</thead>
+<tbody>
+<tr>
+<td>Entity </td> <td>  P </td> <td> R </td> <td> F1 </td> <td> P </td> <td> R </td> <td> F1 </td> <td>  P </td> <td> R </td> <td> F1 </td>
+</tr>
+<tr>
+<td>Anatomy </td> <td>  0.649 </td> <td> 0.641 </td> <td> 0.645 </td> <td>  0.795 </td> <td> 0.811 </td> <td> 0.803 </td> <td> 0.799 </td> <td>   0.801 </td> <td> 0.800  </td>
+</tr>
+<tr>
+<td>Chemical </td> <td>  0.844 </td> <td> 0.847 </td> <td> 0.846 </td> <td>  0.878 </td> <td> 0.893 </td> <td> 0.885 </td> <td>  0.898 </td> <td>   0.818 </td> <td> 0.856  </td>
+</tr>
+<tr>
+<td>Device </td> <td>  0.000 </td> <td> 0.000 </td> <td> 0.000 </td> <td>  0.506 </td> <td> 0.356 </td> <td> 0.418 </td> <td>  0.549 </td> <td>   0.338 </td> <td> 0.419}  </td>
+</tr>
+<tr>
+<td>Disorder </td> <td>  0.772 </td> <td> 0.818 </td> <td> 0.794 </td> <td>  0.857 </td> <td> 0.843 </td> <td> 0.850 </td> <td>  0.883 </td> <td>   0.809 </td> <td> 0.845  </td>
+</tr>
+<tr>
+<td>Procedure </td> <td>  0.880 </td> <td> 0.894 </td> <td> 0.887 </td> <td>  0.969 </td> <td> 0.967 </td> <td> 0.968 </td> <td>  0.944 </td> <td>  0.976 </td> <td> 0.960  </td>
+</tr>
+<tr>
+<td>Macro Avg </td> <td>  0.655 </td> <td> 0.656 </td> <td> 0.655 </td> <td>  0.807 </td> <td> 0.783 </td> <td> 0.793 </td> <td>  0.818 </td> <td>  0.755 </td> <td> 0.782  </td>
+</tr>
+</tbody>
+</table>
+Table 3: NER performances on QUAERO dataset
 ##AliBERT: A Pre-trained Language Model for French Biomedical Text