File size: 5,221 Bytes
a298916
 
 
 
 
eae2f19
 
 
 
 
ae12758
 
eae2f19
ae12758
 
eae2f19
 
 
 
 
 
 
 
 
 
 
ae12758
eae2f19
 
 
 
 
 
 
 
 
 
ae12758
 
 
 
 
 
eae2f19
 
 
 
 
ae12758
 
eae2f19
 
 
 
 
 
 
 
 
 
 
 
 
 
ae12758
eae2f19
 
 
 
 
 
 
ae12758
 
 
 
 
 
 
eae2f19
 
 
 
 
 
ae12758
eae2f19
ae12758
eae2f19
 
 
 
 
 
 
 
 
 
 
 
 
ae12758
 
 
 
eae2f19
 
 
 
 
 
 
 
 
 
 
ae12758
 
 
 
 
 
eae2f19
 
 
 
 
 
 
a298916
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
---
language:
- vi
pipeline_tag: sentence-similarity
---

#### Table of contents
1. [Introduction](#introduction)
2. [Pretrain model](#models)
3. [Using SimeCSE_Vietnamese with `sentences-transformers`](#sentences-transformers)
	- [Installation](#install1)
	- [Example usage](#usage1)
4. [Using SimeCSE_Vietnamese with `transformers`](#transformers)
	- [Installation](#install2)
	- [Example usage](#usage2)
# <a name="introduction"></a> SimeCSE_Vietnamese: Simple Contrastive Learning of Sentence Embeddings with Vietnamese

Pre-trained SimeCSE_Vietnamese models are the state-of-the-art of Sentence Embeddings with Vietnamese : 

 - SimeCSE_Vietnamese pre-training approach is based on [SimCSE](https://arxiv.org/abs/2104.08821) which optimizes the SimeCSE_Vietnamese pre-training procedure for more robust performance.
 - SimeCSE_Vietnamese encode input sentences using a pre-trained language model such as  [PhoBert](https://www.aclweb.org/anthology/2020.findings-emnlp.92/)
 - SimeCSE_Vietnamese works with both unlabeled and labeled data.

## Pre-trained models <a name="models"></a>


Model | #params | Arch.	 
---|---|---
[`VoVanPhuc/sup-SimCSE-VietNamese-phobert-base`](https://huggingface.co/VoVanPhuc/sup-SimCSE-VietNamese-phobert-base) | 135M | base 
[`VoVanPhuc/unsup-SimCSE-VietNamese-phobert-base`](https://huggingface.co/VoVanPhuc/unsup-SimCSE-VietNamese-phobert-base) | 135M | base 


## <a name="sentences-transformers"></a> Using SimeCSE_Vietnamese with `sentences-transformers` 


### Installation <a name="install1"></a>
 -  Install `sentence-transformers`:
	
	- `pip install -U sentence-transformers`
	
 - Install `pyvi` to word segment:

	- `pip install pyvi`

### Example usage <a name="usage1"></a>

```python
from sentence_transformers import SentenceTransformer
from pyvi.ViTokenizer import tokenize

model = SentenceTransformer('VoVanPhuc/sup-SimCSE-VietNamese-phobert-base')

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]
embeddings = model.encode(sentences)
```

## <a name="sentences-transformers"></a> Using SimeCSE_Vietnamese with `transformers` 

### Installation <a name="install2"></a>
 -  Install `transformers`:

	- `pip install -U transformers`

	
 - Install `pyvi` to word segment:

	- `pip install pyvi`

### Example usage <a name="usage2"></a>

```python
import torch
from transformers import AutoModel, AutoTokenizer
from pyvi.ViTokenizer import tokenize

PhobertTokenizer = AutoTokenizer.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")
model = AutoModel.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")

sentences = ['Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
          'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
          'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
          'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
          'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
          '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
          'Thái Lan thua giao hữu trước vòng loại World Cup.',
          'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
          'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
          'Bắn chết người trong cuộc rượt đuổi trên sông.'
          ]

sentences = [tokenize(sentence) for sentence in sentences]

inputs = PhobertTokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    embeddings = model(**inputs, output_hidden_states=True, return_dict=True).pooler_output
```
## Quick Start

[Open In Colab](https://colab.research.google.com/drive/12__EXJoQYHe9nhi4aXLTf9idtXT8yr7H?usp=sharing)

## Citation


	@article{gao2021simcse,
	   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
	   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
	   journal={arXiv preprint arXiv:2104.08821},
	   year={2021}
	}

    @inproceedings{phobert,
    title     = {{PhoBERT: Pre-trained language models for Vietnamese}},
    author    = {Dat Quoc Nguyen and Anh Tuan Nguyen},
    booktitle = {Findings of the Association for Computational Linguistics: EMNLP 2020},
    year      = {2020},
    pages     = {1037--1042}
    }