|
--- |
|
language: |
|
- vi |
|
metrics: |
|
- f1 |
|
pipeline_tag: fill-mask |
|
license: mit |
|
datasets: |
|
- VietAI/vi_pubmed |
|
tags: |
|
- transformer |
|
- vietnamese |
|
- nlp |
|
- bert |
|
- deberta |
|
- deberta-v3 |
|
--- |
|
|
|
# ViPubMedDeBERTa: A Vietnamese pretrained biomedical language representation model |
|
|
|
|
|
## Model description |
|
|
|
## Model variations |
|
|
|
## How to use |
|
You can use this model directly with a pipeline for masked language modeling:<br> |
|
**_NOTE:_** The input text should be already word-segmented, you can use [Pyvi](https://github.com/trungtv/pyvi) (Python Vietnamese Core NLP Toolkit) to segment word before passing to the model. |
|
```python |
|
>>> from transformers import pipeline |
|
>>> model = pipeline('fill-mask', model='manhtt-079/vipubmed-deberta-xsmall') |
|
>>> text_with_mask = """Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ) . FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm . Phẫu_thuật được coi là phương_thức điều_trị tốt nhất , tiếp_theo là hóa_trị . Trong trường_hợp của chúng_tôi , [MASK] cắt bỏ không_thể thực_hiện được , do đó bệnh_nhân được hóa_trị hai dòng , sau đó là cấy_ghép tủy xương , sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên""" |
|
>>> model(text_with_mask) |
|
|
|
[{'score': 0.7800273299217224, |
|
'token': 1621, |
|
'token_str': 'phẫu_thuật', |
|
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phẫu_thuật cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}, |
|
{'score': 0.13326583802700043, |
|
'token': 83, |
|
'token_str': 'việc', |
|
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, việc cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}, |
|
{'score': 0.014797757379710674, |
|
'token': 589, |
|
'token_str': 'phương_pháp', |
|
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, phương_pháp cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}, |
|
{'score': 0.011190224438905716, |
|
'token': 23339, |
|
'token_str': 'sinh_thiết', |
|
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, sinh_thiết cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}, |
|
{'score': 0.006846326868981123, |
|
'token': 454, |
|
'token_str': 'điều_trị', |
|
'sequence': 'Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS ). FDCS là bệnh rất hiếm ảnh_hưởng đến tế_bào trình_diện kháng_nguyên đuôi gai và thường bị chẩn_đoán nhầm. Phẫu_thuật được coi là phương_thức điều_trị tốt nhất, tiếp_theo là hóa_trị. Trong trường_hợp của chúng_tôi, điều_trị cắt bỏ không_thể thực_hiện được, do đó bệnh_nhân được hóa_trị hai dòng, sau đó là cấy_ghép tủy xương, sau đó là hóa_trị ba với đáp_ứng trao_đổi chất hoàn_toàn được thấy trên'}] |
|
``` |
|
|
|
#### Get features: |
|
- With PyTorch: |
|
```python |
|
from transformers import AutoTokenizer, AutoModel |
|
tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall') |
|
model = AutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall") |
|
text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )." |
|
model_inputs = tokenizer(text, return_tensors='pt') |
|
outputs = model(**model_inputs) |
|
``` |
|
|
|
- With TensorFlow |
|
```python |
|
from transformers import AutoTokenizer, TFAutoModel |
|
tokenizer = AutoTokenizer.from_pretrained('manhtt-079/vipubmed-deberta-xsmall') |
|
model = TFAutoModel.from_pretrained("manhtt-079/vipubmed-deberta-xsmall") |
|
text = "Chúng_tôi mô_tả một trường_hợp bệnh_nhân nữ 44 tuổi được chẩn_đoán sarcoma tế_bào tua nang ( FDCS )." |
|
model_inputs = tokenizer(text, return_tensors='tf') |
|
outputs = model(**model_inputs) |
|
``` |
|
|
|
## Pre-training data |
|
The ViPubMedDeBERTa model was pre-trained on [ViPubmed](https://github.com/vietai/ViPubmed), a dataset consisting of 20M Vietnamese Biomedical abstracts generated by large scale translation. |
|
|
|
## Training procedure |
|
### Data deduplication |
|
A fuzzy deduplication, targeting documents with high overlap, was conducted at the document level to enhance quality and address overfitting. Employing Locality Sensitive Hashing (LSH) with a threshold of 0.9 ensured the removal of documents with overlap exceeding 90%. This process resulted in an average reduction of the dataset's size by 3%. |
|
### Pretraining |
|
We employ our model based on the [ViDeBERTa](https://github.com/HySonLab/ViDeBERTa) architecture and leverage its pre-trained checkpoint to continue pre-training. Our model was trained on a single A100 GPU (40GB) for 220 thousand steps, with a batch size of 24 and gradient accumulation steps set to 4 (resulting in a total of 96). The sequence length was limited to 512 tokens and the model peak learning rate of 1e-4. |
|
|
|
## Evaluation results |