File size: 3,160 Bytes
7c4963e d7081b7 7c4963e 7c07d77 1ad5c52 4225bca 7c4963e 4225bca a0726b0 4225bca 1a1a1b5 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
---
language:
- vi
license: apache-2.0
library_name: transformers
widget:
- text: "Mục 3a . Kiểm_định chất_lượng giáo_dục <mask> 110a . Nội_dung quản_lý nhà_nước về kiểm_định chất_lượng giáo_dục 1 . Ban_hành quy_định về tiêu_chuẩn đánh_giá chất_lượng giáo_dục ; quy_trình và chu_kỳ kiểm_định chất_lượng giáo_dục ở từng cấp học và trình_độ đào_tạo ; nguyên_tắc hoạt_động , điều_kiện và tiêu_chuẩn của tổ_chức , cá_nhân hoạt_động kiểm_định chất_lượng giáo_dục ; cấp phép hoạt_động kiểm_định chất_lượng giáo_dục ; cấp , thu_hồi giấy chứng_nhận kiểm_định chất_lượng giáo_dục . 2 . Quản_lý hoạt_động kiểm_định chương_trình giáo_dục và kiểm_định cơ_sở giáo_dục . 3 . Hướng_dẫn các tổ_chức , cá_nhân và cơ_sở giáo_dục thực_hiện đánh_giá , kiểm_định chất_lượng giáo_dục ."
tags:
- legal
- roberta
- phobert
datasets:
- NghiemAbe/Legal-corpus-indexing
pipeline_tag: fill-mask
---
# Phobert Base model with Legal domain
**Experiment performed with Transformers version 4.38.2**\
Vi-Legal-PhoBert model for Legal domain based on [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2), then continued MLM pretraining for 154600 steps with token-level on [Legal Corpus](https://huggingface.co/datasets/NghiemAbe/Legal-corpus-indexing) so the model can learn to legal domain.
## Usage
Fill mask example:
```python:
from transformers import RobertaForMaskedLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("NghiemAbe/Vi-Legal-PhoBert")
model = RobertaForMaskedLM.from_pretrained("NghiemAbe/Vi-Legal-PhoBert")
```
## Metric
I evaluated my [Dev-Legal-Dataset](https://huggingface.co/datasets/NghiemAbe/dev_legal) and here are the results:
| Model | Paramaters | Language Type | Length | R@1 | R@5 | R@10 | R@20 | R@100 | MRR@5 | MRR@10 | MRR@20 | MRR@100 | Accuracy Masked|
|-------------------------------|------------|---------------|--------|-------|-------|-------|-------|-------|-------|--------|--------|---------|---------|
| vinai/phobert-base-v2 | 125M | vi | 256 | 0.266 | 0.482 | 0.601 | 0.702 | 0.841 | 0.356 | 0.372 | 0.379 | 0.382 | 0.522|
| FacebookAI/xlm-roberta-base | 279M | mul | 512 | 0.012 | 0.042 | 0.064 | 0.091 | 0.207 | 0.025 | 0.028 | 0.030 | 0.033 | x|
| Geotrend/bert-base-vi-cased | 179M | vi | 512 | 0.098 | 0.175 | 0.202 | 0.241 | 0.356 | 0.131 | 0.136 | 0.139 | 0.142 | x|
| NlpHUST/roberta-base-vn | x | vi | 512 | 0.050 | 0.097 | 0.126 | 0.163 | 0.369 | 0.071 | 0.076 | 0.078 | 0.083 | x|
| aisingapore/sealion-bert-base| x | mul | 512 | 0.002 | 0.007 | 0.021 | 0.036 | 0.106 | 0.003 | 0.005 | 0.006 | 0.008 | x|
| **Vi-Legal-PhoBert** | 125M | vi | 256 | **0.290**| **0.560**| **0.707**| **0.819**| **0.935**| **0.410**| **0.430**| **0.437**| **0.440**|**0.8401**|
|