Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +738 -0
- added_tokens.json +3 -0
- bpe.codes +0 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer_config.json +54 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,738 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: bkai-foundation-models/vietnamese-bi-encoder
|
3 |
+
library_name: sentence-transformers
|
4 |
+
pipeline_tag: sentence-similarity
|
5 |
+
tags:
|
6 |
+
- sentence-transformers
|
7 |
+
- sentence-similarity
|
8 |
+
- feature-extraction
|
9 |
+
- generated_from_trainer
|
10 |
+
- dataset_size:120210
|
11 |
+
- loss:MultipleNegativesRankingLoss
|
12 |
+
widget:
|
13 |
+
- source_sentence: Chủ tịch Ủy ban nhân dân xã có quyền ra quyết định cưỡng chế tháo
|
14 |
+
dỡ công trình xây dựng trên đất nông nghiệp khi chưa chuyển mục đích sử dụng đất
|
15 |
+
hay không?
|
16 |
+
sentences:
|
17 |
+
- 'Đối tượng, điều kiện kéo dài tuổi phục vụ tại ngũ
|
18 |
+
|
19 |
+
1. Đối tượng:
|
20 |
+
|
21 |
+
a) Quân nhân chuyên nghiệp có trình độ cao đẳng trở lên đang đảm nhiệm các chức
|
22 |
+
danh: Kỹ thuật viên, Nhân viên Kỹ thuật, Huấn luyện viên, Nghệ sĩ, Nhạc sĩ, Diễn
|
23 |
+
viên làm việc đúng chuyên ngành đào tạo ở các cơ sở nghiên cứu, nhà trường, bệnh
|
24 |
+
viện, trung tâm thể dục thể thao, đoàn nghệ thuật, nhà máy, doanh nghiệp quốc
|
25 |
+
phòng; đơn vị đóng quân ở địa bàn vùng sâu, vùng xa, biên giới, hải đảo.
|
26 |
+
|
27 |
+
b) Quân nhân chuyên nghiệp đang làm việc thuộc các chuyên ngành hẹp được đào tạo
|
28 |
+
công phu hoặc chuyên ngành Quân đội chưa đào tạo được; thợ bậc cao.
|
29 |
+
|
30 |
+
c) Quân nhân chuyên nghiệp đang đảm nhiệm chức vụ chỉ huy, quản lý ở các nhà máy,
|
31 |
+
doanh nghiệp quốc phòng.
|
32 |
+
|
33 |
+
d) Quân nhân chuyên nghiệp không thuộc đối tượng quy định tại điểm a, điểm b,
|
34 |
+
điểm c khoản này do Bộ trưởng Bộ Quốc phòng quyết định.
|
35 |
+
|
36 |
+
2. Điều kiện:
|
37 |
+
|
38 |
+
Quân nhân chuyên nghiệp thuộc đối tượng quy định tại khoản 1 Điều này được kéo
|
39 |
+
dài tuổi phục vụ tại ngũ khi có đủ các điều kiện sau:
|
40 |
+
|
41 |
+
a) Đơn vị có biên chế và nhu cầu sử dụng;
|
42 |
+
|
43 |
+
b) Hết hạn tuổi phục vụ tại ngũ cao nhất theo cấp bậc quân hàm quy định tại khoản
|
44 |
+
2 Điều 17 Luật Quân nhân chuyên nghiệp, công nhân và viên chức quốc phòng; chưa
|
45 |
+
có người thay thế; tự nguyện tiếp tục phục vụ tại ngũ;
|
46 |
+
|
47 |
+
c) Có đủ phẩm chất chính trị, đạo đức, sức khỏe để hoàn thành nhiệm vụ được giao;
|
48 |
+
|
49 |
+
d) Có trình độ chuyên môn kỹ thuật, nghiệp vụ giỏi; tay nghề cao; chất lượng,
|
50 |
+
hiệu quả công tác tốt.'
|
51 |
+
- 'Thi hành quyết định cưỡng chế
|
52 |
+
|
53 |
+
1. Người ra quyết định cưỡng chế có trách nhiệm gửi ngay quyết định cưỡng chế
|
54 |
+
cho các cá nhân, tổ chức liên quan và tổ chức thực hiện việc cưỡng chế thi hành
|
55 |
+
quyết định xử phạt của mình và của cấp dưới.
|
56 |
+
|
57 |
+
..."'
|
58 |
+
- 'Trình tự, thủ tục đăng ký tài khoản định danh điện tử đối với công dân Việt Nam
|
59 |
+
|
60 |
+
1. Đăng ký tài khoản định danh điện tử mức độ 1 qua ứng dụng VNelD đối với công
|
61 |
+
dân đã có thẻ Căn cước công dân gắn chíp điện tử
|
62 |
+
|
63 |
+
a) Công dân sử dụng thiết bị di động tải và cài đặt ứng dụng VNelD.
|
64 |
+
|
65 |
+
b) Công dân sử dụng ứng dụng VNelD để nhập thông tin về số định danh cá nhân và
|
66 |
+
số điện thoại hoặc địa chỉ thư điện tử; cung cấp các thông tin theo hướng dẫn
|
67 |
+
trên ứng dụng VNelD; thu nhận ảnh chân dung bằng thiết bị di động và gửi yêu cầu
|
68 |
+
đề nghị cấp tài khoản định danh điện tử tới cơ quan quản lý định danh và xác thực
|
69 |
+
điện tử qua ứng dụng VNelD.
|
70 |
+
|
71 |
+
c) Cơ quan quản lý định danh điện tử thông báo kết quả đăng ký tài khoản qua ứng
|
72 |
+
dụng VNelD hoặc tin nhắn SMS hoặc địa chỉ thư điện tử.
|
73 |
+
|
74 |
+
2. Đăng ký tài khoản định danh điện tử mức độ 2
|
75 |
+
|
76 |
+
a) Đối với công dân đã được cấp thẻ Căn cước công dân gắn chíp điện tử:
|
77 |
+
|
78 |
+
Công dân đến Công an xã, phường, thị trấn hoặc nơi làm thủ tục cấp thẻ Căn cước
|
79 |
+
công dân để làm thủ tục cấp tài khoản định danh điện tử. Công dân xuất trình thẻ
|
80 |
+
Căn cước công dân gắn chíp điện tử, cung cấp thông tin về số điện thoại hoặc địa
|
81 |
+
chỉ thư điện tử và đề nghị bổ sung thông tin được tích hợp vào tài khoản định
|
82 |
+
danh điện tử.
|
83 |
+
|
84 |
+
Cán bộ tiếp nhận nhập thông tin công dân cung cấp vào hệ thống định danh và xác
|
85 |
+
thực điện tử; chụp ảnh chân dung, thu nhận vân tay của công dân đến làm thủ tục
|
86 |
+
để xác thực với Cơ sở dữ liệu căn cước công dân và khẳng định sự đồng ý đăng ký
|
87 |
+
tạo lập tài kho���n định danh điện tử.
|
88 |
+
|
89 |
+
Cơ quan quản lý định danh điện tử thông báo kết quả đăng ký tài khoản qua ứng
|
90 |
+
dụng VNelD hoặc tin nhắn SMS hoặc địa chỉ thư điện tử.
|
91 |
+
|
92 |
+
b) Cơ quan Công an tiến hành cấp tài khoản định danh điện tử mức độ 2 cùng với
|
93 |
+
cấp thẻ Căn cước công dân với trường hợp công dân chưa được cấp Căn cước công
|
94 |
+
dân gắn chíp điện tử.'
|
95 |
+
- source_sentence: Mức hưởng chế độ thai sản đối với lao động nam là người nước ngoài
|
96 |
+
được pháp luật quy định như thế nào?
|
97 |
+
sentences:
|
98 |
+
- '"Điều 21. Thông báo kết quả và xác nhận nhập học
|
99 |
+
|
100 |
+
1. Cơ sở đào tạo gửi giấy báo trúng tuyển cho những thí sinh trúng tuyển, trong
|
101 |
+
đó ghi rõ những thủ tục cần thiết đối với thí sinh khi nhập học và phương thức
|
102 |
+
nhập học của thí sinh.
|
103 |
+
|
104 |
+
2. Thí sinh xác nhận nhập học bằng hình thức trực tuyến trên hệ thống, trước khi
|
105 |
+
nhập học tại cơ sở đào tạo.
|
106 |
+
|
107 |
+
3. Đối với những thí sinh không xác nhận nhập học trong thời hạn quy định:
|
108 |
+
|
109 |
+
a) Nếu không có lý do chính đáng thì coi như thí sinh từ chối nhập học và cơ sở
|
110 |
+
đào tạo có quyền không tiếp nhận;
|
111 |
+
|
112 |
+
b) Nếu do ốm đau, tai nạn, có giấy xác nhận của bệnh viện quận, huyện trở lên
|
113 |
+
hoặc do thiên tai có xác nhận của UBND quận, huyện trở lên, cơ sở đào tạo xem
|
114 |
+
xét quyết định tiếp nhận thí sinh vào học hoặc bảo lưu kết quả tuyển sinh để thí
|
115 |
+
sinh vào học sau;
|
116 |
+
|
117 |
+
c) Nếu do sai sót, nhầm lẫn của cán bộ thực hiện công tác tuyển sinh hoặc cá nhân
|
118 |
+
thí sinh gây ra, cơ sở đào tạo chủ động phối hợp với các cá nhân, tổ chức liên
|
119 |
+
quan xem xét các minh chứng và quyết định việc tiếp nhận thí sinh vào học hoặc
|
120 |
+
bảo lưu kết quả tuyển sinh để thí sinh vào học sau.
|
121 |
+
|
122 |
+
4. Thí sinh đã xác nhận nhập học tại một cơ sở đào tạo không được tham gia xét
|
123 |
+
tuyển ở nơi khác hoặc ở các đợt xét tuyển bổ sung, trừ trường hợp được cơ sở đào
|
124 |
+
tạo cho phép."'
|
125 |
+
- 'Tổ chức, nhiệm vụ, quyền hạn của Ban Chỉ huy
|
126 |
+
|
127 |
+
...
|
128 |
+
|
129 |
+
2. Nhiệm vụ, quyền hạn của Ban Chỉ huy:
|
130 |
+
|
131 |
+
a) Chỉ đạo xây dựng, ban hành quy định về công tác bảo đảm an toàn PCCC và CNCH
|
132 |
+
tại Trụ sở cơ quan Bộ Tư pháp.
|
133 |
+
|
134 |
+
b) Hướng dẫn, phối hợp với các đơn vị thuộc Bộ và chỉ đạo Đội PCCC và CNCH cơ
|
135 |
+
sở tổ chức tuyên truyền, bồi dưỡng nghiệp vụ PCCC và CNCH.
|
136 |
+
|
137 |
+
c) Chỉ đạo Đội PCCC và CNCH cơ sở tại Trụ sở cơ quan Bộ Tư pháp xây dựng, trình
|
138 |
+
cấp có thẩm quyền phê duyệt và tổ chức thực tập phương án PCCC, phương án CNCH.
|
139 |
+
|
140 |
+
d) Chỉ đạo Đội PCCC và CNCH cơ sở tại Trụ sở cơ quan Bộ Tư pháp quản lý các trang
|
141 |
+
thiết bị PCCC và CNCH.
|
142 |
+
|
143 |
+
đ) Chỉ đạo chữa cháy, CNCH khi xảy ra cháy, sự cố, tai nạn tại Trụ sở cơ quan
|
144 |
+
Bộ Tư pháp.
|
145 |
+
|
146 |
+
e) Chỉ đạo việc tổ chức lập và lưu giữ hồ sơ quản lý, theo dõi hoạt động PCCC,
|
147 |
+
CNCH tại Trụ sở cơ quan Bộ Tư pháp.
|
148 |
+
|
149 |
+
g) Chỉ đạo việc sơ kết, tổng kết các hoạt động về PCCC và CNCH của cơ quan; kiểm
|
150 |
+
tra, đôn đốc việc chấp hành các quy định về PCCC và CNCH.
|
151 |
+
|
152 |
+
h) Đề xuất việc khen thưởng, kỷ luật các tập thể, cá nhân trong việc thực hiện
|
153 |
+
công tác PCCC, CNCH.
|
154 |
+
|
155 |
+
i) Chỉ đạo Đội PCCC và CNCH cơ sở dự trù kinh phí cho các hoạt động PCCC và CNCH
|
156 |
+
tại Trụ sở cơ quan Bộ Tư pháp.
|
157 |
+
|
158 |
+
k) Thực hiện các nhiệm vụ khác do Bộ trưởng giao và theo quy định của pháp luật.'
|
159 |
+
- 'Mức hưởng chế độ thai sản
|
160 |
+
|
161 |
+
...
|
162 |
+
|
163 |
+
b) Mức hưởng một ngày đối với trường hợp quy định tại Điều 32 và khoản 2 Điều
|
164 |
+
34 của Luật này được tính bằng mức hưởng chế độ thai sản theo tháng chia cho 24
|
165 |
+
ngày.'
|
166 |
+
- source_sentence: Doanh nghiệp được áp dụng chế độ ưu tiên không cung cấp báo cáo
|
167 |
+
kiểm toán đúng thời hạn bị phạt bao nhiêu tiền?
|
168 |
+
sentences:
|
169 |
+
- 'Thay đổi Thẩm phán, Hội thẩm
|
170 |
+
|
171 |
+
1. Thẩm phán, Hội thẩm phải từ chối tham gia xét xử hoặc bị thay đổi khi thuộc
|
172 |
+
một trong các trường hợp:
|
173 |
+
|
174 |
+
a) Trường hợp quy định tại Điều 49 của Bộ luật này;
|
175 |
+
|
176 |
+
b) Họ cùng trong một Hội đồng xét xử và là người thân thích với nhau;
|
177 |
+
|
178 |
+
c) Đã tham gia xét xử sơ thẩm hoặc phúc thẩm hoặc tiến hành tố tụng vụ án đó với
|
179 |
+
tư cách là Điều tra viên, Cán bộ điều tra, Kiểm sát viên, Kiểm tra viên, Thẩm
|
180 |
+
tra viên, Thư ký Tòa án.
|
181 |
+
|
182 |
+
2. Việc thay đổi Thẩm phán, Hội thẩm trước khi mở phiên tòa do Chánh án hoặc Phó
|
183 |
+
Chánh án Tòa án được phân công giải quyết vụ án quyết định.
|
184 |
+
|
185 |
+
Thẩm phán bị thay đổi là Chánh án Tòa án thì do Chánh án Tòa án trên một cấp quyết
|
186 |
+
định.
|
187 |
+
|
188 |
+
Việc thay đổi Thẩm phán, Hội thẩm tại phiên tòa do Hội đồng xét xử quyết định
|
189 |
+
trước khi bắt đầu xét hỏi bằng cách biểu quyết tại phòng nghị án. Khi xem xét
|
190 |
+
thay đổi thành viên nào thì thành viên đó được trình bày ý kiến của mình, Hội
|
191 |
+
đồng quyết định theo đa số.
|
192 |
+
|
193 |
+
Trường hợp phải thay đổi Thẩm phán, Hội thẩm tại phiên tòa thì Hội đồng xét xử
|
194 |
+
ra quyết định hoãn phiên tòa.'
|
195 |
+
- '“Điều 21. Chấm dứt hưởng trợ cấp thất nghiệp
|
196 |
+
|
197 |
+
1. Các trường hợp người lao động đang hưởng trợ cấp thất nghiệp bị chấm dứt hưởng
|
198 |
+
trợ cấp thất nghiệp được quy định như sau:
|
199 |
+
|
200 |
+
e) Trong thời gian hưởng trợ cấp thất nghiệp, 03 tháng liên tục không thực hiện
|
201 |
+
thông báo hằng tháng về việc tìm kiếm việc làm với trung tâm dịch vụ việc làm
|
202 |
+
theo quy định
|
203 |
+
|
204 |
+
Ngày mà người lao động được xác định bị chấm dứt hưởng trợ cấp thất nghiệp là
|
205 |
+
ngày kết thúc của thời hạn thông báo tìm kiếm việc làm của tháng thứ 3 liên tục
|
206 |
+
mà người lao động không thực hiện thông báo hằng tháng về việc tìm kiếm việc làm."'
|
207 |
+
- 'Vi phạm quy định về thời hạn làm thủ tục hải quan, nộp hồ sơ thuế
|
208 |
+
|
209 |
+
...
|
210 |
+
|
211 |
+
2. Phạt tiền từ 1.000.000 đồng đến 2.000.000 đồng đối với hành vi không thực hiện
|
212 |
+
đúng thời hạn quy định thuộc một trong các trường hợp sau:
|
213 |
+
|
214 |
+
a) Cung cấp báo cáo kiểm toán, báo cáo tài chính của doanh nghiệp được áp dụng
|
215 |
+
chế độ ưu tiên;
|
216 |
+
|
217 |
+
b) Thông báo cho cơ quan hải quan quyết định xử lý vi phạm pháp luật về quản lý
|
218 |
+
thuế, kế toán đối với doanh nghiệp được áp dụng chế độ ưu tiên;
|
219 |
+
|
220 |
+
c) Báo cáo về lượng hàng hóa nhập khẩu phục vụ xây dựng nhà xưởng, hàng hóa gửi
|
221 |
+
kho bên ngoài của doanh nghiệp chế xuất;
|
222 |
+
|
223 |
+
d) Báo cáo về lượng hàng hóa trung chuyển đưa vào, đưa ra, còn lưu tại cảng;
|
224 |
+
|
225 |
+
đ) Báo cáo thống kê thông quan hàng bưu chính đưa vào Việt Nam để chuyển tiếp
|
226 |
+
đi quốc tế.
|
227 |
+
|
228 |
+
...'
|
229 |
+
- source_sentence: Tài chính của Hội Kiểm toán viên hành nghề Việt Nam được chi cho
|
230 |
+
những khoản nào?
|
231 |
+
sentences:
|
232 |
+
- 'Giải thể và xử lý tài chính khi giải thể
|
233 |
+
|
234 |
+
1. Khi xét thấy hoạt động của Hội không có hiệu quả, không mang lại lợi ích cho
|
235 |
+
Hội viên hoặc gây phiền hà, cản trở cho Hội viên thì BCH Hội quyết định triệu
|
236 |
+
tập Đại hội để bàn biện pháp củng cố tổ chức hoặc giải thể Hội. Nếu giải thể Hội
|
237 |
+
thì do Đại hội đại biểu hoặc Đại hội toàn quốc của Hội thông qua và đề nghị cơ
|
238 |
+
quan Nhà nước có thẩm quyền xem xét, quyết định.
|
239 |
+
|
240 |
+
2. Khi Hội bị giải thể, Ban Thường trực và Ban Kiểm tra của Hội phải tiến hành
|
241 |
+
kiểm kê tài sản, kiểm quỹ và báo cáo BCH Hội quyết định việc xử lý tài sản, tiền
|
242 |
+
tồn quỹ và tiến hành thủ tục giải thể theo quy định của pháp luật.'
|
243 |
+
- '"Điều 14. Miễn trừ đối với thỏa thuận hạn chế cạnh tranh bị cấm
|
244 |
+
|
245 |
+
1. Thỏa thuận hạn chế cạnh tranh quy định tại các khoản 1, 2, 3, 7, 8, 9, 10 và
|
246 |
+
11 Điều 11 bị cấm theo quy định tại Điều 12 của Luật này được miễn trừ có thời
|
247 |
+
hạn nếu có lợi cho người tiêu dùng và đáp ứng một trong các điều kiện sau đây:
|
248 |
+
|
249 |
+
a) Tác động thúc đẩy tiến bộ kỹ thuật, công nghệ, nâng cao chất lượng hàng hóa,
|
250 |
+
dịch vụ;
|
251 |
+
|
252 |
+
b) Tăng cường sức cạnh tranh của doanh nghiệp Việt Nam trên thị trường quốc tế;
|
253 |
+
|
254 |
+
c) Thúc đẩy việc áp dụng thống nhất tiêu chuẩn chất lượng, định mức kỹ thuật của
|
255 |
+
chủng loại sản phẩm;
|
256 |
+
|
257 |
+
d) Thống nhất các điều kiện thực hiện hợp đồng, giao hàng, thanh toán nhưng không
|
258 |
+
liên quan đến giá và các yếu tố của giá.
|
259 |
+
|
260 |
+
2. Thỏa thuận lao động, thỏa thuận hợp tác trong các ngành, lĩnh vực đặc thù được
|
261 |
+
thực hiện theo quy định của luật khác thì thực hiện theo quy định của luật đó".'
|
262 |
+
- '"Điều 2. Sửa đổi, bổ sung một số điều của Nghị định số 15/2019/NĐ-CP ngày 01
|
263 |
+
tháng 02 năm 2019 của Chính phủ quy định chi tiết một số điều và biện pháp thi
|
264 |
+
hành Luật Giáo dục nghề nghiệp
|
265 |
+
|
266 |
+
...
|
267 |
+
|
268 |
+
12. Sửa đổi, bổ sung Điều 24 như sau:
|
269 |
+
|
270 |
+
Điều 24. Thẩm quyền cấp giấy chứng nhận đăng ký hoạt động liên kết đào tạo với
|
271 |
+
nước ngoài
|
272 |
+
|
273 |
+
1. Tổng cục Giáo dục nghề nghiệp cấp giấy chứng nhận đăng ký hoạt động liên kết
|
274 |
+
đào tạo với nước ngoài đối với trường cao đẳng.
|
275 |
+
|
276 |
+
2. Sở Lao động - Thương binh và Xã hội nơi trường trung cấp, trung tâm giáo dục
|
277 |
+
nghề nghiệp, trung tâm giáo dục nghề nghiệp - giáo dục thường xuyên và doanh nghiệp
|
278 |
+
tổ chức hoạt động liên kết đào tạo với nước ngoài cấp giấy chứng nhận đăng ký
|
279 |
+
hoạt động liên kết đào tạo với nước ngoài đối với trường trung cấp, trung tâm
|
280 |
+
giáo dục nghề nghiệp, trung tâm giáo dục nghề nghiệp - giáo dục thường xuyên và
|
281 |
+
doanh nghiệp."'
|
282 |
+
- source_sentence: NLĐ ký nhiều hợp đồng lao động thì đóng BHYT như thế nào?
|
283 |
+
sentences:
|
284 |
+
- 'Hồ sơ, thủ tục xác định trường hợp được bồi thường
|
285 |
+
|
286 |
+
[...]
|
287 |
+
|
288 |
+
3. Trong thời hạn 05 ngày làm việc, kể từ ngày nhận được đơn và các giấy tờ hợp
|
289 |
+
lệ, nếu xác định yêu cầu thuộc trách nhiệm giải quyết của mình thì Sở Y tế phải
|
290 |
+
thụ lý và thông báo bằng văn bản về việc thụ lý đơn cho người bị thiệt hại hoặc
|
291 |
+
thân nhân của người bị thiệt hại (sau đây gọi tắt là người bị thiệt hại). Trường
|
292 |
+
hợp hồ sơ không đầy đủ thì Sở Y tế có văn bản hướng dẫn người bị thiệt hại bổ
|
293 |
+
sung.
|
294 |
+
|
295 |
+
4. Trong thời hạn 15 ngày, kể từ ngày nhận được đơn yêu cầu của người bị thiệt
|
296 |
+
hại, Sở Y tế phải hoàn thành việc xác định nguyên nhân gây tai biến, mức độ tổn
|
297 |
+
thương và thông báo bằng văn bản cho người yêu cầu đồng thời báo cáo Bộ Y tế.'
|
298 |
+
- 'Chuyển nhượng quyền thăm dò khoáng sản
|
299 |
+
|
300 |
+
1. Tổ chức, cá nhân nhận chuyển nhượng quyền thăm dò khoáng sản phải có đủ điều
|
301 |
+
kiện để được cấp Giấy phép thăm dò khoáng sản theo quy định của Luật này.
|
302 |
+
|
303 |
+
2. Việc chuyển nhượng quyền thăm dò khoáng sản phải được cơ quan quản lý nhà nước
|
304 |
+
có thẩm quyền cấp Giấy phép thăm dò khoáng sản chấp thuận; trường hợp được chấp
|
305 |
+
thuận, tổ chức, cá nhân nhận chuyển nhượng quyền thăm dò khoáng sản được cấp Giấy
|
306 |
+
phép thăm dò khoáng sản mới.
|
307 |
+
|
308 |
+
3. Tổ chức, cá nhân chuyển nhượng quyền thăm dò khoáng sản đã thực hiện được ít
|
309 |
+
nhất 50% dự toán của đề án thăm dò khoáng sản.
|
310 |
+
|
311 |
+
4. Chính phủ quy định chi tiết việc chuyển nhượng quyền thăm dò khoáng sản.'
|
312 |
+
- '"Sửa đổi, bổ sung một số điều của Luật bảo hiểm y tế:
|
313 |
+
|
314 |
+
...
|
315 |
+
|
316 |
+
6. Sửa đổi, bổ sung Điều 12 như sau:
|
317 |
+
|
318 |
+
“Điều 12. Đối tượng tham gia bảo hiểm y tế
|
319 |
+
|
320 |
+
1. Nhóm do người lao động và người sử dụng lao động đóng, bao gồm:
|
321 |
+
|
322 |
+
a) Người lao động làm việc theo hợp đồng lao động không xác định thời hạn, hợp
|
323 |
+
đồng lao động có thời hạn từ đủ 3 tháng trở lên; người lao động là người quản
|
324 |
+
lý doanh nghiệp hưởng tiền lương; cán bộ, công chức, viên chức (sau đây gọi chung
|
325 |
+
là người lao động);
|
326 |
+
|
327 |
+
b) Người hoạt động không chuyên trách ở xã, phường, thị trấn theo quy định của
|
328 |
+
pháp luật.=
|
329 |
+
|
330 |
+
...
|
331 |
+
|
332 |
+
4. Nhóm được ngân sách nhà nước hỗ trợ mức đóng, bao gồm:
|
333 |
+
|
334 |
+
a) Người thuộc hộ gia đình cận nghèo;
|
335 |
+
|
336 |
+
b) Học sinh, sinh viên.
|
337 |
+
|
338 |
+
5. Nhóm tham gia bảo hiểm y tế theo hộ gia đình gồm những người thuộc hộ gia đình,
|
339 |
+
trừ đối tượng quy định tại các khoản 1, 2, 3 và 4 Điều này.
|
340 |
+
|
341 |
+
6. Chính phủ quy định các đối tượng khác ngoài các đối tượng quy định tại các
|
342 |
+
khoản 3, 4 và 5 Điều này; quy định việc cấp thẻ bảo hiểm y tế đối với đối tượng
|
343 |
+
do Bộ Quốc phòng, Bộ Công an quản lý và đối tượng quy định tại điểm 1 khoản 3
|
344 |
+
Điều này; quy định lộ trình thực hiện bảo hiểm y tế, phạm vi quyền lợi, mức hưởng
|
345 |
+
bảo hiểm y tế, khám bệnh, chữa bệnh bảo hiểm y tế, quản lý, sử dụng phần kinh
|
346 |
+
phí dành cho khám bệnh, chữa bệnh bảo hiểm y tế, giám định bảo hiểm y tế, thanh
|
347 |
+
toán, quyết toán bảo hiểm y tế đối với các đối tượng quy định tại điểm a khoản
|
348 |
+
3 Điều này.”'
|
349 |
+
---
|
350 |
+
|
351 |
+
# SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
|
352 |
+
|
353 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) on the csv dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
354 |
+
|
355 |
+
## Model Details
|
356 |
+
|
357 |
+
### Model Description
|
358 |
+
- **Model Type:** Sentence Transformer
|
359 |
+
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
|
360 |
+
- **Maximum Sequence Length:** 256 tokens
|
361 |
+
- **Output Dimensionality:** 768 tokens
|
362 |
+
- **Similarity Function:** Cosine Similarity
|
363 |
+
- **Training Dataset:**
|
364 |
+
- csv
|
365 |
+
<!-- - **Language:** Unknown -->
|
366 |
+
<!-- - **License:** Unknown -->
|
367 |
+
|
368 |
+
### Model Sources
|
369 |
+
|
370 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
371 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
372 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
373 |
+
|
374 |
+
### Full Model Architecture
|
375 |
+
|
376 |
+
```
|
377 |
+
SentenceTransformer(
|
378 |
+
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
|
379 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
380 |
+
)
|
381 |
+
```
|
382 |
+
|
383 |
+
## Usage
|
384 |
+
|
385 |
+
### Direct Usage (Sentence Transformers)
|
386 |
+
|
387 |
+
First install the Sentence Transformers library:
|
388 |
+
|
389 |
+
```bash
|
390 |
+
pip install -U sentence-transformers
|
391 |
+
```
|
392 |
+
|
393 |
+
Then you can load this model and run inference.
|
394 |
+
```python
|
395 |
+
from sentence_transformers import SentenceTransformer
|
396 |
+
|
397 |
+
# Download from the 🤗 Hub
|
398 |
+
model = SentenceTransformer("Cloyne/vietnamese-embedding_finetuned_pair")
|
399 |
+
# Run inference
|
400 |
+
sentences = [
|
401 |
+
'NLĐ ký nhiều hợp đồng lao động thì đóng BHYT như thế nào?',
|
402 |
+
'"Sửa đổi, bổ sung một số điều của Luật bảo hiểm y tế:\n...\n6. Sửa đổi, bổ sung Điều 12 như sau:\n“Điều 12. Đối tượng tham gia bảo hiểm y tế\n1. Nhóm do người lao động và người sử dụng lao động đóng, bao gồm:\na) Người lao động làm việc theo hợp đồng lao động không xác định thời hạn, hợp đồng lao động có thời hạn từ đủ 3 tháng trở lên; người lao động là người quản lý doanh nghiệp hưởng tiền lương; cán bộ, công chức, viên chức (sau đây gọi chung là người lao động);\nb) Người hoạt động không chuyên trách ở xã, phường, thị trấn theo quy định của pháp luật.=\n...\n4. Nhóm được ngân sách nhà nước hỗ trợ mức đóng, bao gồm:\na) Người thuộc hộ gia đình cận nghèo;\nb) Học sinh, sinh viên.\n5. Nhóm tham gia bảo hiểm y tế theo hộ gia đình gồm những người thuộc hộ gia đình, trừ đối tượng quy định tại các khoản 1, 2, 3 và 4 Điều này.\n6. Chính phủ quy định các đối tượng khác ngoài các đối tượng quy định tại các khoản 3, 4 và 5 Điều này; quy định việc cấp thẻ bảo hiểm y tế đối với đối tượng do Bộ Quốc phòng, Bộ Công an quản lý và đối tượng quy định tại điểm 1 khoản 3 Điều này; quy định lộ trình thực hiện bảo hiểm y tế, phạm vi quyền lợi, mức hưởng bảo hiểm y tế, khám bệnh, chữa bệnh bảo hiểm y tế, quản lý, sử dụng phần kinh phí dành cho khám bệnh, chữa bệnh bảo hiểm y tế, giám định bảo hiểm y tế, thanh toán, quyết toán bảo hiểm y tế đối với các đối tượng quy định tại điểm a khoản 3 Điều này.”',
|
403 |
+
'Hồ sơ, thủ tục xác định trường hợp được bồi thường\n[...]\n3. Trong thời hạn 05 ngày làm việc, kể từ ngày nhận được đơn và các giấy tờ hợp lệ, nếu xác định yêu cầu thuộc trách nhiệm giải quyết của mình thì Sở Y tế phải thụ lý và thông báo bằng văn bản về việc thụ lý đơn cho người bị thiệt hại hoặc thân nhân của người bị thiệt hại (sau đây gọi tắt là người bị thiệt hại). Trường hợp hồ sơ không đầy đủ thì Sở Y tế có văn bản hướng dẫn người bị thiệt hại bổ sung.\n4. Trong thời hạn 15 ngày, kể từ ngày nhận được đơn yêu cầu của người bị thiệt hại, Sở Y tế phải hoàn thành việc xác định nguyên nhân gây tai biến, mức độ tổn thương và thông báo bằng văn bản cho người yêu cầu đồng thời báo cáo Bộ Y tế.',
|
404 |
+
]
|
405 |
+
embeddings = model.encode(sentences)
|
406 |
+
print(embeddings.shape)
|
407 |
+
# [3, 768]
|
408 |
+
|
409 |
+
# Get the similarity scores for the embeddings
|
410 |
+
similarities = model.similarity(embeddings, embeddings)
|
411 |
+
print(similarities.shape)
|
412 |
+
# [3, 3]
|
413 |
+
```
|
414 |
+
|
415 |
+
<!--
|
416 |
+
### Direct Usage (Transformers)
|
417 |
+
|
418 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
419 |
+
|
420 |
+
</details>
|
421 |
+
-->
|
422 |
+
|
423 |
+
<!--
|
424 |
+
### Downstream Usage (Sentence Transformers)
|
425 |
+
|
426 |
+
You can finetune this model on your own dataset.
|
427 |
+
|
428 |
+
<details><summary>Click to expand</summary>
|
429 |
+
|
430 |
+
</details>
|
431 |
+
-->
|
432 |
+
|
433 |
+
<!--
|
434 |
+
### Out-of-Scope Use
|
435 |
+
|
436 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
437 |
+
-->
|
438 |
+
|
439 |
+
<!--
|
440 |
+
## Bias, Risks and Limitations
|
441 |
+
|
442 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
443 |
+
-->
|
444 |
+
|
445 |
+
<!--
|
446 |
+
### Recommendations
|
447 |
+
|
448 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
449 |
+
-->
|
450 |
+
|
451 |
+
## Training Details
|
452 |
+
|
453 |
+
### Training Dataset
|
454 |
+
|
455 |
+
#### csv
|
456 |
+
|
457 |
+
* Dataset: csv
|
458 |
+
* Size: 120,210 training samples
|
459 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
460 |
+
* Approximate statistics based on the first 1000 samples:
|
461 |
+
| | anchor | positive |
|
462 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
463 |
+
| type | string | string |
|
464 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 25.08 tokens</li><li>max: 49 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 206.98 tokens</li><li>max: 256 tokens</li></ul> |
|
465 |
+
* Samples:
|
466 |
+
| anchor | positive |
|
467 |
+
|:--------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
468 |
+
| <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào?</code> | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật<br>Trong phạm vi điều chỉnh của văn bản quy phạm pháp luật:<br>1. Xác định nội dung liên quan đến vấn đề bình đẳng giới hoặc vấn đề bất bình đẳng giới, phân biệt đối xử về giới.<br>2. Quy định các biện pháp cần thiết để thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới; dự báo tác động của các quy định đó đối với nam và nữ sau khi được ban hành.<br>3. Xác định nguồn nhân lực, tài chính cần thiết để triển khai các biện pháp thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới.</code> |
|
469 |
+
| <code>Điều kiện để giáo viên trong cơ sở giáo dục mầm non, tiểu học ngoài công lập bị ảnh hưởng bởi Covid-19 được hưởng chính sách hỗ trợ là gì?</code> | <code>Điều kiện được hưởng<br>Cán bộ quản lý, giáo viên, nhân viên được hưởng chính sách khi bảo đảm các điều kiện sau:<br>1. Là người đang làm việc tại cơ sở giáo dục ngoài công lập trước khi cơ sở phải tạm dừng hoạt động theo yêu cầu của cơ quan nhà nước có thẩm quyền để phòng, chống dịch COVID-19 tính từ ngày 01 tháng 5 năm 2021 đến hết ngày 31 tháng 12 năm 2021.<br>2. Nghỉ việc không hưởng lương từ 01 tháng trở lên tính từ ngày 01 tháng 5 năm 2021 đến hết ngày 31 tháng 12 năm 2021.<br>3. Chưa được hưởng chính sách hỗ trợ đối với người lao động tạm hoãn hợp đồng lao động, nghỉ việc không hưởng lương theo quy định tại khoản 4, khoản 5, khoản 6 Mục II Nghị quyết số 68/NQ-CP ngày 01 tháng 7 năm 2021 của Chính phủ về một số chính sách hỗ trợ người lao động và người sử dụng lao động gặp khó khăn do đại dịch COVID-19, Nghị quyết số 126/NQ-CP ngày 08 tháng 10 năm 2021 của Chính phủ sửa đổi, bổ sung Nghị quyết số 68/NQ-CP ngày 01 tháng 7 năm 2021 của Chính phủ về một số chính sách hỗ trợ người lao động và người sử dụng lao động gặp khó khăn do đại dịch COVID-19 (sau đây gọi tắt là Nghị quyết số 68/NQ-CP) do không tham gia Bảo hiểm xã hội bắt buộc.<br>4. Có xác nhận làm việc tại cơ sở giáo dục ngoài công lập ít nhất hết năm học 2021 - 2022 theo kế hoạch năm học của địa phương, bao gồm cơ sở giáo dục ngoài công lập đã làm việc trước đây hoặc cơ sở giáo dục ngoài công lập khác trong trường hợp cơ sở giáo dục ngoài công lập trước đây làm việc không hoạt động trở lại.</code> |
|
470 |
+
| <code>Nguyên tắc áp dụng phụ cấp ưu đãi nghề y tế thế nào?</code> | <code>Nguyên tắc áp dụng<br>1. Trường hợp công chức, viên chức chuyên môn y tế thuộc đối tượng được hưởng các mức phụ cấp ưu đãi theo nghề khác nhau thì đư��c hưởng một mức phụ cấp ưu đãi theo nghề cao nhất.<br>2. Công chức, viên chức đã hưởng phụ cấp ưu đãi theo nghề quy định tại Thông tư liên tịch số 06/2010/TTLT-BYT-BNV-BTC ngày 22/3/2010 của Bộ Y tế, Bộ Nội vụ, Bộ Tài chính hướng dẫn thực hiện Nghị định số 64/2009/NĐ-CP ngày 30/7/2009 của Chính phủ về chính sách đối với cán bộ, viên chức y tế công tác ở vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn thì không hưởng phụ cấp ưu đãi theo nghề quy định tại Thông tư liên tịch này.</code> |
|
471 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
472 |
+
```json
|
473 |
+
{
|
474 |
+
"scale": 20.0,
|
475 |
+
"similarity_fct": "cos_sim"
|
476 |
+
}
|
477 |
+
```
|
478 |
+
|
479 |
+
### Evaluation Dataset
|
480 |
+
|
481 |
+
#### train
|
482 |
+
|
483 |
+
* Dataset: train
|
484 |
+
* Size: 13,357 evaluation samples
|
485 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
486 |
+
* Approximate statistics based on the first 1000 samples:
|
487 |
+
| | anchor | positive |
|
488 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
489 |
+
| type | string | string |
|
490 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 24.61 tokens</li><li>max: 51 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 202.71 tokens</li><li>max: 256 tokens</li></ul> |
|
491 |
+
* Samples:
|
492 |
+
| anchor | positive |
|
493 |
+
|:-------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
494 |
+
| <code>Toà án cấp nào có thẩm quyền giải quyết việc đòi tài sản đã cho người khác vay theo hợp đồng cho vay?</code> | <code>"Điều 35. Thẩm quyền của Tòa án nhân dân cấp huyện<br>1. Tòa án nhân dân cấp huyện có thẩm quyền giải quyết theo thủ tục sơ thẩm những tranh chấp sau đây:<br>a) Tranh chấp về dân sự, hôn nhân và gia đình quy định tại Điều 26 và Điều 28 của Bộ luật này, trừ tranh chấp quy định tại khoản 7 Điều 26 của Bộ luật này;<br>b) Tranh chấp về kinh doanh, thương mại quy định tại khoản 1 Điều 30 của Bộ luật này;<br>c) Tranh chấp về lao động quy định tại Điều 32 của Bộ luật này.<br>2. Tòa án nhân dân cấp huyện có thẩm quyền giải quyết những yêu cầu sau đây:<br>a) Yêu cầu về dân sự quy định tại các khoản 1, 2, 3, 4, 6, 7, 8, 9 và 10 Điều 27 của Bộ luật này;<br>b) Yêu cầu về hôn nhân và gia đình quy định tại các khoản 1, 2, 3, 4, 5, 6, 7, 8, 10 và 11 Điều 29 của Bộ luật này;<br>c) Yêu cầu về kinh doanh, thương mại quy định tại khoản 1 và khoản 6 Điều 31 của Bộ luật này;<br>d) Yêu cầu về lao động quy định tại khoản 1 và khoản 5 Điều 33 của Bộ luật này.<br>3. Những tranh chấp, yêu cầu quy định tại khoản 1 và khoản 2 Điều này mà có đương sự hoặc tài sản ở nước ngoài hoặc cần phải ủy thác tư pháp cho cơ quan đại diện nước Cộng hòa xã hội chủ nghĩa Việt Nam ở nước ngoài, cho Tòa án, cơ quan có thẩm quyền của nước ngoài không thuộc thẩm quyền giải quyết của Tòa án nhân dân cấp huyện, trừ trường hợp quy định tại khoản 4 Điều này.<br>4. Tòa án nhân dân cấp huyện nơi cư trú của công dân Việt Nam hủy việc kết hôn trái pháp luật, giải quyết việc ly hôn, các tranh chấp về quyền và nghĩa vụ của vợ chồng, cha mẹ và con, về nhận cha, mẹ, con, nuôi con nuôi và giám hộ giữa công dân Việt Nam cư trú ở khu vực biên giới với công dân của nước láng giềng cùng cư trú ở khu vực biên giới với Việt Nam theo quy định của Bộ luật này và các quy định khác của pháp luật Việt Nam."</code> |
|
495 |
+
| <code>Những phiếu bầu nào được xem là không hợp lệ?</code> | <code>Phiếu bầu không hợp lệ<br>1. Những phiếu bầu sau đây là phiếu bầu không hợp lệ:<br>a) Phiếu không theo mẫu quy định do Tổ bầu cử phát ra;<br>b) Phiếu không có dấu của Tổ bầu cử;<br>c) Phiếu để số người được bầu nhiều hơn số lượng đại biểu được bầu đã ấn định cho đơn vị bầu cử;<br>d) Phiếu gạch xóa hết tên những người ứng cử;<br>đ) Phiếu ghi thêm tên người ngoài danh sách những người ứng cử hoặc phiếu có ghi thêm nội dung khác.<br>2. Trường hợp có phiếu bầu được cho là không hợp lệ thì Tổ trường Tổ bầu cử đưa ra để toàn Tổ xem xét, quyết định. Tổ bầu cử không được gạch xóa hoặc sửa các tên ghi trên phiếu bầu.</code> |
|
496 |
+
| <code>Đề nghị tạm đình chỉ chấp hành quyết định áp dụng biện pháp đưa vào trường giáo dưỡng cho học sinh cần đảm bảo nguyên tắc gì?</code> | <code>Nguyên tắc xét duyệt, đề nghị giảm thời hạn, tạm đình chỉ chấp hành quyết định, miễn chấp hành phần thời gian còn lại cho học sinh trường giáo dưỡng, trại viên cơ sở giáo dục bắt buộc<br>1. Tuân thủ quy định của pháp luật về thi hành biện pháp xử lý hành chính đưa vào trường giáo dưỡng, cơ sở giáo dục bắt buộc, quy định tại Thông tư này và quy định của pháp luật có liên quan.<br>2. Bảo đảm khách quan, công khai, minh bạch, đúng trình tự, thủ tục, thẩm quyền; tôn trọng và bảo vệ quyền, lợi ích hợp pháp của học sinh trường giáo dưỡng, trại viên cơ sở giáo dục bắt buộc.</code> |
|
497 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
498 |
+
```json
|
499 |
+
{
|
500 |
+
"scale": 20.0,
|
501 |
+
"similarity_fct": "cos_sim"
|
502 |
+
}
|
503 |
+
```
|
504 |
+
|
505 |
+
### Training Hyperparameters
|
506 |
+
|
507 |
+
#### All Hyperparameters
|
508 |
+
<details><summary>Click to expand</summary>
|
509 |
+
|
510 |
+
- `overwrite_output_dir`: False
|
511 |
+
- `do_predict`: False
|
512 |
+
- `eval_strategy`: no
|
513 |
+
- `prediction_loss_only`: True
|
514 |
+
- `per_device_train_batch_size`: 8
|
515 |
+
- `per_device_eval_batch_size`: 8
|
516 |
+
- `per_gpu_train_batch_size`: None
|
517 |
+
- `per_gpu_eval_batch_size`: None
|
518 |
+
- `gradient_accumulation_steps`: 1
|
519 |
+
- `eval_accumulation_steps`: None
|
520 |
+
- `torch_empty_cache_steps`: None
|
521 |
+
- `learning_rate`: 5e-05
|
522 |
+
- `weight_decay`: 0.0
|
523 |
+
- `adam_beta1`: 0.9
|
524 |
+
- `adam_beta2`: 0.999
|
525 |
+
- `adam_epsilon`: 1e-08
|
526 |
+
- `max_grad_norm`: 1.0
|
527 |
+
- `num_train_epochs`: 3.0
|
528 |
+
- `max_steps`: -1
|
529 |
+
- `lr_scheduler_type`: linear
|
530 |
+
- `lr_scheduler_kwargs`: {}
|
531 |
+
- `warmup_ratio`: 0.0
|
532 |
+
- `warmup_steps`: 0
|
533 |
+
- `log_level`: passive
|
534 |
+
- `log_level_replica`: warning
|
535 |
+
- `log_on_each_node`: True
|
536 |
+
- `logging_nan_inf_filter`: True
|
537 |
+
- `save_safetensors`: True
|
538 |
+
- `save_on_each_node`: False
|
539 |
+
- `save_only_model`: False
|
540 |
+
- `restore_callback_states_from_checkpoint`: False
|
541 |
+
- `no_cuda`: False
|
542 |
+
- `use_cpu`: False
|
543 |
+
- `use_mps_device`: False
|
544 |
+
- `seed`: 42
|
545 |
+
- `data_seed`: None
|
546 |
+
- `jit_mode_eval`: False
|
547 |
+
- `use_ipex`: False
|
548 |
+
- `bf16`: False
|
549 |
+
- `fp16`: False
|
550 |
+
- `fp16_opt_level`: O1
|
551 |
+
- `half_precision_backend`: auto
|
552 |
+
- `bf16_full_eval`: False
|
553 |
+
- `fp16_full_eval`: False
|
554 |
+
- `tf32`: None
|
555 |
+
- `local_rank`: 0
|
556 |
+
- `ddp_backend`: None
|
557 |
+
- `tpu_num_cores`: None
|
558 |
+
- `tpu_metrics_debug`: False
|
559 |
+
- `debug`: []
|
560 |
+
- `dataloader_drop_last`: False
|
561 |
+
- `dataloader_num_workers`: 0
|
562 |
+
- `dataloader_prefetch_factor`: None
|
563 |
+
- `past_index`: -1
|
564 |
+
- `disable_tqdm`: False
|
565 |
+
- `remove_unused_columns`: True
|
566 |
+
- `label_names`: None
|
567 |
+
- `load_best_model_at_end`: False
|
568 |
+
- `ignore_data_skip`: False
|
569 |
+
- `fsdp`: []
|
570 |
+
- `fsdp_min_num_params`: 0
|
571 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
572 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
573 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
574 |
+
- `deepspeed`: None
|
575 |
+
- `label_smoothing_factor`: 0.0
|
576 |
+
- `optim`: adamw_torch
|
577 |
+
- `optim_args`: None
|
578 |
+
- `adafactor`: False
|
579 |
+
- `group_by_length`: False
|
580 |
+
- `length_column_name`: length
|
581 |
+
- `ddp_find_unused_parameters`: None
|
582 |
+
- `ddp_bucket_cap_mb`: None
|
583 |
+
- `ddp_broadcast_buffers`: False
|
584 |
+
- `dataloader_pin_memory`: True
|
585 |
+
- `dataloader_persistent_workers`: False
|
586 |
+
- `skip_memory_metrics`: True
|
587 |
+
- `use_legacy_prediction_loop`: False
|
588 |
+
- `push_to_hub`: False
|
589 |
+
- `resume_from_checkpoint`: None
|
590 |
+
- `hub_model_id`: None
|
591 |
+
- `hub_strategy`: every_save
|
592 |
+
- `hub_private_repo`: False
|
593 |
+
- `hub_always_push`: False
|
594 |
+
- `gradient_checkpointing`: False
|
595 |
+
- `gradient_checkpointing_kwargs`: None
|
596 |
+
- `include_inputs_for_metrics`: False
|
597 |
+
- `eval_do_concat_batches`: True
|
598 |
+
- `fp16_backend`: auto
|
599 |
+
- `push_to_hub_model_id`: None
|
600 |
+
- `push_to_hub_organization`: None
|
601 |
+
- `mp_parameters`:
|
602 |
+
- `auto_find_batch_size`: False
|
603 |
+
- `full_determinism`: False
|
604 |
+
- `torchdynamo`: None
|
605 |
+
- `ray_scope`: last
|
606 |
+
- `ddp_timeout`: 1800
|
607 |
+
- `torch_compile`: False
|
608 |
+
- `torch_compile_backend`: None
|
609 |
+
- `torch_compile_mode`: None
|
610 |
+
- `dispatch_batches`: None
|
611 |
+
- `split_batches`: None
|
612 |
+
- `include_tokens_per_second`: False
|
613 |
+
- `include_num_input_tokens_seen`: False
|
614 |
+
- `neftune_noise_alpha`: None
|
615 |
+
- `optim_target_modules`: None
|
616 |
+
- `batch_eval_metrics`: False
|
617 |
+
- `eval_on_start`: False
|
618 |
+
- `eval_use_gather_object`: False
|
619 |
+
- `batch_sampler`: batch_sampler
|
620 |
+
- `multi_dataset_batch_sampler`: proportional
|
621 |
+
|
622 |
+
</details>
|
623 |
+
|
624 |
+
### Training Logs
|
625 |
+
| Epoch | Step | Training Loss |
|
626 |
+
|:------:|:-----:|:-------------:|
|
627 |
+
| 0.0333 | 500 | 0.0813 |
|
628 |
+
| 0.0665 | 1000 | 0.0628 |
|
629 |
+
| 0.0998 | 1500 | 0.0718 |
|
630 |
+
| 0.1331 | 2000 | 0.0522 |
|
631 |
+
| 0.1664 | 2500 | 0.0568 |
|
632 |
+
| 0.1996 | 3000 | 0.0615 |
|
633 |
+
| 0.2329 | 3500 | 0.0563 |
|
634 |
+
| 0.2662 | 4000 | 0.0418 |
|
635 |
+
| 0.2995 | 4500 | 0.0475 |
|
636 |
+
| 0.3327 | 5000 | 0.0431 |
|
637 |
+
| 0.3660 | 5500 | 0.047 |
|
638 |
+
| 0.3993 | 6000 | 0.0365 |
|
639 |
+
| 0.4326 | 6500 | 0.0508 |
|
640 |
+
| 0.4658 | 7000 | 0.0396 |
|
641 |
+
| 0.4991 | 7500 | 0.038 |
|
642 |
+
| 0.5324 | 8000 | 0.0359 |
|
643 |
+
| 0.5656 | 8500 | 0.0387 |
|
644 |
+
| 0.5989 | 9000 | 0.0396 |
|
645 |
+
| 0.6322 | 9500 | 0.0345 |
|
646 |
+
| 0.6655 | 10000 | 0.0351 |
|
647 |
+
| 0.6987 | 10500 | 0.0336 |
|
648 |
+
| 0.7320 | 11000 | 0.0339 |
|
649 |
+
| 0.7653 | 11500 | 0.0352 |
|
650 |
+
| 0.7986 | 12000 | 0.0323 |
|
651 |
+
| 0.8318 | 12500 | 0.0238 |
|
652 |
+
| 0.8651 | 13000 | 0.0286 |
|
653 |
+
| 0.8984 | 13500 | 0.0328 |
|
654 |
+
| 0.9317 | 14000 | 0.0302 |
|
655 |
+
| 0.9649 | 14500 | 0.0274 |
|
656 |
+
| 0.9982 | 15000 | 0.0272 |
|
657 |
+
| 1.0315 | 15500 | 0.0165 |
|
658 |
+
| 1.0648 | 16000 | 0.0219 |
|
659 |
+
| 1.0980 | 16500 | 0.014 |
|
660 |
+
| 1.1313 | 17000 | 0.016 |
|
661 |
+
| 1.1646 | 17500 | 0.0199 |
|
662 |
+
| 1.1978 | 18000 | 0.0238 |
|
663 |
+
| 1.2311 | 18500 | 0.0232 |
|
664 |
+
| 1.2644 | 19000 | 0.0255 |
|
665 |
+
| 1.2977 | 19500 | 0.0134 |
|
666 |
+
| 1.3309 | 20000 | 0.0206 |
|
667 |
+
| 1.3642 | 20500 | 0.0189 |
|
668 |
+
| 1.3975 | 21000 | 0.0126 |
|
669 |
+
| 1.4308 | 21500 | 0.0167 |
|
670 |
+
| 1.4640 | 22000 | 0.0121 |
|
671 |
+
| 1.4973 | 22500 | 0.0168 |
|
672 |
+
| 1.5306 | 23000 | 0.0127 |
|
673 |
+
| 1.5639 | 23500 | 0.0168 |
|
674 |
+
| 1.5971 | 24000 | 0.0182 |
|
675 |
+
| 1.6304 | 24500 | 0.0138 |
|
676 |
+
| 1.6637 | 25000 | 0.0119 |
|
677 |
+
| 1.6969 | 25500 | 0.0193 |
|
678 |
+
| 1.7302 | 26000 | 0.0184 |
|
679 |
+
| 1.7635 | 26500 | 0.011 |
|
680 |
+
| 1.7968 | 27000 | 0.018 |
|
681 |
+
| 1.8300 | 27500 | 0.0117 |
|
682 |
+
|
683 |
+
|
684 |
+
### Framework Versions
|
685 |
+
- Python: 3.10.12
|
686 |
+
- Sentence Transformers: 3.2.1
|
687 |
+
- Transformers: 4.44.2
|
688 |
+
- PyTorch: 2.5.0+cu121
|
689 |
+
- Accelerate: 0.34.2
|
690 |
+
- Datasets: 3.0.2
|
691 |
+
- Tokenizers: 0.19.1
|
692 |
+
|
693 |
+
## Citation
|
694 |
+
|
695 |
+
### BibTeX
|
696 |
+
|
697 |
+
#### Sentence Transformers
|
698 |
+
```bibtex
|
699 |
+
@inproceedings{reimers-2019-sentence-bert,
|
700 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
701 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
702 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
703 |
+
month = "11",
|
704 |
+
year = "2019",
|
705 |
+
publisher = "Association for Computational Linguistics",
|
706 |
+
url = "https://arxiv.org/abs/1908.10084",
|
707 |
+
}
|
708 |
+
```
|
709 |
+
|
710 |
+
#### MultipleNegativesRankingLoss
|
711 |
+
```bibtex
|
712 |
+
@misc{henderson2017efficient,
|
713 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
714 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
715 |
+
year={2017},
|
716 |
+
eprint={1705.00652},
|
717 |
+
archivePrefix={arXiv},
|
718 |
+
primaryClass={cs.CL}
|
719 |
+
}
|
720 |
+
```
|
721 |
+
|
722 |
+
<!--
|
723 |
+
## Glossary
|
724 |
+
|
725 |
+
*Clearly define terms in order to be accessible across audiences.*
|
726 |
+
-->
|
727 |
+
|
728 |
+
<!--
|
729 |
+
## Model Card Authors
|
730 |
+
|
731 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
732 |
+
-->
|
733 |
+
|
734 |
+
<!--
|
735 |
+
## Model Card Contact
|
736 |
+
|
737 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
738 |
+
-->
|
added_tokens.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"<mask>": 64000
|
3 |
+
}
|
bpe.codes
ADDED
The diff for this file is too large to render.
See raw diff
|
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "bkai-foundation-models/vietnamese-bi-encoder",
|
3 |
+
"architectures": [
|
4 |
+
"RobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 768,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 3072,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 258,
|
17 |
+
"model_type": "roberta",
|
18 |
+
"num_attention_heads": 12,
|
19 |
+
"num_hidden_layers": 12,
|
20 |
+
"pad_token_id": 1,
|
21 |
+
"position_embedding_type": "absolute",
|
22 |
+
"tokenizer_class": "PhobertTokenizer",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.44.2",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 64001
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.2.1",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.5.0+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:80d2af9a6c48eda63cbbb88885cc676414def3da9a10925e430104b670c98fe9
|
3 |
+
size 540015464
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 256,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer_config.json
ADDED
@@ -0,0 +1,54 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"64000": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"model_max_length": 256,
|
50 |
+
"pad_token": "<pad>",
|
51 |
+
"sep_token": "</s>",
|
52 |
+
"tokenizer_class": "PhobertTokenizer",
|
53 |
+
"unk_token": "<unk>"
|
54 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|