comet24082002 commited on
Commit
16c0dc0
·
verified ·
1 Parent(s): c837c7c

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,922 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - generated_from_trainer
9
+ - dataset_size:10524
10
+ - loss:OnlineContrastiveLoss
11
+ base_model: BAAI/bge-m3
12
+ datasets: []
13
+ widget:
14
+ - source_sentence: Thời gian cấp giấy đăng ký kết hôn là bao lâu?
15
+ sentences:
16
+ - '"Điều 4. Thủ tục, thẩm quyền giải quyết đề nghị cấp thẻ tạm trú
17
+
18
+ 1. Người nước ngoài thuộc diện được cấp thẻ tạm trú theo quy định tại khoản 2
19
+ Điều 36 của Luật phải thông qua cơ quan, tổ chức, cá nhân đã mời, bảo lãnh trực
20
+ tiếp làm thủ tục tại Cục Quản lý xuất nhập cảnh hoặc Phòng Quản lý xuất nhập cảnh
21
+ Công an tỉnh, thành phố trực thuộc trung ương nơi cơ quan, tổ chức mời, bảo lãnh
22
+ đặt trụ sở hoặc nơi cá nhân mời, bảo lãnh cư trú.
23
+
24
+ 2. Hồ sơ đề nghị cấp thẻ tạm trú theo quy định tại khoản 1 Điều 37 của Luật. Văn
25
+ bản đề nghị cấp thẻ tạm trú nêu tại điểm a khoản 1 Điều 37 của Luật theo mẫu do
26
+ Bộ Công an ban hành tại Thông tư số 04/2015/TT-BCA ngày 05/01/2015 quy định mẫu
27
+ giấy tờ liên quan đến việc nhập cảnh, xuất cảnh, cư trú của người nước ngoài tại
28
+ Việt Nam gồm:
29
+
30
+ a) Mẫu NA6 và NA8 sử dụng cho cơ quan, tổ chức;
31
+
32
+ b) Mẫu NA7 và NA8 sử dụng cho cá nhân.
33
+
34
+ 3. Giải quyết cấp thẻ tạm trú
35
+
36
+ Trong thời hạn 05 ngày làm việc kể từ ngày nhận đủ hồ sơ, Cục Quản lý xuất nhập
37
+ cảnh hoặc Phòng Quản lý xuất nhập cảnh Công an tỉnh, thành phố trực thuộc trung
38
+ ương xem xét cấp thẻ tạm trú.
39
+
40
+ 4. Thời hạn của thẻ tạm trú được cấp phù hợp với mục đích nhập cảnh và đề nghị
41
+ của cơ quan, tổ chức, cá nhân. Thẻ tạm trú có thời hạn từ 01 năm đến 05 năm nhưng
42
+ ngắn hơn thời hạn của hộ chiếu ít nhất 30 ngày."'
43
+ - 'Nội dung hợp đồng xây dựng
44
+
45
+ 1. Hợp đồng xây dựng gồm các nội dung sau:
46
+
47
+ a) Căn cứ pháp lý áp dụng;
48
+
49
+ b) Ngôn ngữ áp dụng;
50
+
51
+ c) Nội dung và khối lượng công việc;
52
+
53
+ d) Chất lượng, yêu cầu kỹ thuật của công việc, nghiệm thu và bàn giao;
54
+
55
+ đ) Thời gian và tiến độ thực hiện hợp đồng;
56
+
57
+ e) Giá hợp đồng, tạm ứng, đồng tiền sử dụng trong thanh toán và thanh toán hợp
58
+ đồng xây dựng;
59
+
60
+ g) Bảo đảm thực hiện hợp đồng, bảo lãnh tạm ứng hợp đồng;
61
+
62
+ h) Điều chỉnh hợp đồng xây dựng;
63
+
64
+ i) Quyền và nghĩa vụ của các bên tham gia hợp đồng xây dựng;
65
+
66
+ k) Trách nhiệm do vi phạm hợp đồng, thưởng và phạt vi phạm hợp đồng;
67
+
68
+ l) Tạm ngừng và chấm dứt hợp đồng xây dựng;
69
+
70
+ m) Giải quyết tranh chấp hợp đồng xây dựng;
71
+
72
+ n) Rủi ro và bất khả kháng;
73
+
74
+ o) Quyết toán và thanh lý hợp đồng xây dựng;
75
+
76
+ p) Các nội dung khác.
77
+
78
+ 2. Đối với hợp đồng tổng thầu xây dựng ngoài các nội dung quy định tại khoản 1
79
+ Điều này còn phải được bổ sung về nội dung và trách nhiệm quản lý của tổng thầu
80
+ xây dựng.
81
+
82
+ 3. Chính phủ quy định chi tiết về hợp đồng xây dựng.'
83
+ - 'Nội dung vi phạm và hình thức xử lý kỷ luật đối với đoàn viên
84
+
85
+ 1- Đoàn viên vi phạm một trong các trường hợp sau đây thì bị xử lý kỷ luật bằng
86
+ hình thức khiển trách:
87
+
88
+ a) Không chấp hành và không thực hiện Điều lệ Công đoàn Việt Nam, hoặc nghị quyết,
89
+ quyết định, quy định, kế hoạch, chương trình công tác... của công đoàn các cấp
90
+ gây hậu quả ít nghiêm trọng.
91
+
92
+ b) Không dự họp 50% trở lên số kỳ họp công đoàn trong một năm.
93
+
94
+ c) Không đóng đoàn phí liên tục 6 tháng mà không có lý do chính đáng.
95
+
96
+ 2- Đoàn viên vi phạm một trong các trường hợp sau đây thì bị xử lý kỷ luật bằng
97
+ hình thức cảnh cáo:
98
+
99
+ a) Đã bị xử lý kỷ luật theo quy định tại tiết a khoản 1 Điều này mà tái phạm hoặc
100
+ vi phạm lần đầu gây hậu quả nghiêm trọng.
101
+
102
+ b) Không dự hợp 70% trở lên số kỳ họp công đoàn trong một năm.
103
+
104
+ c) Không đóng đoàn phí liên tục 9 tháng mà không có lý do chính đáng.
105
+
106
+ 3- Đoàn viên vi phạm một trong các trường hợp sau đây thì bị xử lý kỷ luật bằng
107
+ hình thức khai trừ:
108
+
109
+ a) Đã bị xử lý kỷ luật theo quy định tại tiết a khoản 2 Điều này mà tái phạm hoặc
110
+ vi phạm lần đầu gây hậu quả rất nghiêm trọng.
111
+
112
+ b) Không dự họp 90% trở lên số kỳ họp công đoàn trong một năm.
113
+
114
+ c) Không đóng đoàn phí liên tục 12 tháng mà không có lý do chính đáng.'
115
+ - source_sentence: Hội đồng thảo luận, trao đổi và biểu quyết để tuyển chọn Thẩm phán
116
+ trung cấp Tòa án quân sự quân khu như thế nào?
117
+ sentences:
118
+ - 'Quy định về việc sử dụng phần sở hữu chung của nhà chung cư
119
+
120
+ 1. Sử dụng thang máy và các thiết bị sử dụng chung theo đúng mục đích, công năng
121
+ thiết kế sử dụng.
122
+
123
+ 2. Không được làm hư hỏng hoặc có hành vi vi phạm đến tài sản chung của nhà chung
124
+ cư.
125
+
126
+ 3. Tuân thủ đầy đủ các quy định về việc dừng, đỗ xe tại nơi được dừng, đỗ xe theo
127
+ quy định.
128
+
129
+ 4. Sử dụng nhà sinh hoạt cộng đồng vào đúng mục đích, công năng theo quy định
130
+ của pháp Luật về nhà ở.
131
+
132
+ 5. Tuân thủ đầy đủ các quy định về an toàn phòng cháy, chữa cháy của nhà chung
133
+ cư.
134
+
135
+ 6. Các quy định khác: do Hội nghị nhà chung cư quy định thêm cho phù hợp với từng
136
+ nhà chung cư (nếu có).'
137
+ - 'Tiêu chuẩn đối với kiểm toán viên hành nghề được chấp thuận
138
+
139
+ Ngoài các tiêu chuẩn quy định tại Luật kiểm toán độc lập, kiểm toán viên hành
140
+ nghề được chấp thuận phải có các tiêu chuẩn sau:
141
+
142
+ 1. Có tên trong danh sách kiểm toán viên đủ Điều kiện hành nghề kiểm toán trong
143
+ kỳ chấp thuận được Bộ Tài chính công khai tại thời Điểm nộp hồ sơ đăng ký thực
144
+ hiện kiểm toán.
145
+
146
+ 2. Có ít nhất 24 tháng thực tế hành nghề kiểm toán tại Việt Nam tính từ ngày được
147
+ cơ quan có thẩm quyền xác nhận đủ Điều kiện hành nghề kiểm toán đến ngày nộp hồ
148
+ sơ đăng ký thực hiện kiểm toán.'
149
+ - 'Việc báo cáo với Hội đồng về hồ sơ của người được đề nghị tuyển chọn và bổ nhiệm
150
+ Thẩm phán theo danh sách trích ngang đã lập được thực hiện đối với từng Tòa án
151
+ một và đối với từng người một.
152
+
153
+ Hội đồng thảo luận, trao đổi và biểu quyết đối với từng người một.'
154
+ - source_sentence: Toà án phải gửi quyết định áp dụng biện pháp xử lý hành chính đưa
155
+ vào trường giáo dưỡng cho người đề nghị trong thời gian bao lâu từ ngày ra quyết
156
+ định?
157
+ sentences:
158
+ - 'Tiêu chuẩn cá nhân biên soạn sách giáo khoa
159
+
160
+ 1. Người biên soạn sách giáo khoa phải đáp ứng các tiêu chuẩn sau:
161
+
162
+ a) Có trình độ được đào tạo từ đại học trở lên theo chuyên ngành phù hợp với môn
163
+ học, hoạt động giáo dục có sách giáo khoa được biên soạn; am hiểu về khoa học
164
+ giáo dục; có ít nhất 03 (ba) năm trực tiếp giảng dạy hoặc nghiên cứu về chuyên
165
+ môn phù hợp với môn học, hoạt động giáo dục có sách giáo khoa được biên soạn;
166
+
167
+ b) Là công dân Việt Nam, có phẩm chất đạo đức, tư tưởng tốt.
168
+
169
+ 2. Người tham gia biên soạn sách giáo khoa không tham gia thẩm định sách giáo
170
+ khoa.'
171
+ - 'Quy trình bổ nhiệm lại
172
+
173
+ 1. Chậm nhất 02 tháng trước ngày hết nhiệm kỳ, Hòa giải viên có nguyện vọng tiếp
174
+ tục làm Hòa giải viên, nộp hồ sơ đề nghị bổ nhiệm lại tại Tòa án nơi Hòa giải
175
+ viên làm việc.
176
+
177
+ 2. Căn cứ nhu cầu thực tế, trên cơ sở kết quả thực hiện nhiệm vụ của Hòa giải
178
+ viên, Tòa án nơi có Hòa giải viên làm việc có văn bản đề nghị Chánh án Tòa án
179
+ nhân dân cấp tỉnh xem xét bổ nhiệm lại theo quy định.
180
+
181
+ 3. Quy trình bổ nhiệm lại Hòa giải viên được thực hiện như quy định tại khoản
182
+ 3, khoản 4 và khoản 5 Điều 6 Thông tư này.
183
+
184
+ 4. Quyết định bổ nhiệm lại Hòa giải viên phải được ban hành trước ít nhất 01 ngày
185
+ làm việc, tính đến ngày hết nhiệm kỳ làm Hòa giải viên. Trường hợp không đáp ứng
186
+ điều kiện để bổ nhiệm lại, Chánh án Tòa án nhân dân cấp tỉnh phải thông báo bằng
187
+ văn bản và nêu rõ lý do.'
188
+ - '"Điều 13. Điều kiện cấp Chứng chỉ hành nghề dược
189
+
190
+ 1. Có văn bằng, chứng chỉ, giấy chứng nhận chuyên môn (sau đây gọi chung là văn
191
+ bằng chuyên môn) được cấp hoặc công nhận tại Việt Nam phù hợp với vị trí công
192
+ việc và cơ sở kinh doanh dược bao gồm:
193
+
194
+ a) Bằng tốt nghiệp đại học ngành dược (sau đây gọi là Bằng dược sỹ);
195
+
196
+ b) Bằng tốt nghiệp đại học ngành y đa khoa;
197
+
198
+ c) Bằng tốt nghiệp đại học ngành y học cổ truyền hoặc đại học ngành dược cổ truyền;
199
+
200
+ d) Bằng tốt nghiệp đại học ngành sinh học;
201
+
202
+ đ) Bằng tốt nghiệp đại học ngành hóa học;
203
+
204
+ e) Bằng tốt nghiệp cao đẳng ngành dược;
205
+
206
+ g) Bằng tốt nghiệp trung cấp ngành dược;
207
+
208
+ h) Bằng tốt nghiệp cao đẳng, trung cấp ngành y;
209
+
210
+ i) Bằng tốt nghiệp trung cấp y học cổ truyền hoặc dược cổ truyền;
211
+
212
+ k) Văn bằng, chứng chỉ sơ cấp dược;
213
+
214
+ l) Giấy chứng nhận về lương y, giấy chứng nhận về lương dược, giấy chứng nhận
215
+ bài thuốc gia truyền hoặc văn bằng, chứng chỉ, giấy chứng nhận khác về y dược
216
+ cổ truyền được cấp trước ngày Luật này có hiệu lực.
217
+
218
+ Việc áp dụng Điều kiện về văn bằng, chứng chỉ, giấy chứng nhận quy định tại Điểm
219
+ l Khoản này do Bộ trưởng Bộ Y tế quy định phù hợp với Điều kiện phát triển kinh
220
+ tế - xã hội và nhu cầu khám bệnh, chữa bệnh của Nhân dân ở từng địa phương trong
221
+ từng thời kỳ.
222
+
223
+ 2. Có thời gian thực hành tại cơ sở kinh doanh dược, bộ phận dược của cơ sở khám
224
+ bệnh, chữa bệnh, trường đào tạo chuyên ngành dược, cơ sở nghiên cứu dược, cơ sở
225
+ kiểm nghiệm thuốc, nguyên liệu làm thuốc, cơ quan quản lý về dược hoặc văn phòng
226
+ đại diện của thương nhân nước ngoài hoạt động trong lĩnh vực dược tại Việt Nam
227
+ (sau đây gọi chung là cơ sở dược); cơ sở khám bệnh, chữa bệnh phù hợp với chuyên
228
+ môn của người hành nghề theo quy định sau đây:
229
+
230
+ a) Đối với người bị thu hồi Chứng chỉ hành nghề dược theo quy định tại Khoản 9
231
+ Điều 28 của Luật này thì không yêu cầu thời gian thực hành nhưng phải cập nhật
232
+ kiến thức chuyên môn về dược;
233
+
234
+ b) Đối với người có trình độ chuyên khoa sau đại học phù hợp với phạm vi hành
235
+ nghề thì được giảm thời gian thực hành theo quy định của Chính phủ;
236
+
237
+ c) Đối với người có văn bằng chuyên môn quy định tại Điểm l Khoản 1 Điều 13 của
238
+ Luật này thì thời gian thực hành theo quy định của Bộ trưởng Bộ Y tế.
239
+
240
+ 3. Có giấy chứng nhận đủ sức khỏe để hành nghề dược do cơ sở y tế có thẩm quyền
241
+ cấp.
242
+
243
+ 4. Không thuộc một trong các trường hợp sau đây:
244
+
245
+ a) Đang bị truy cứu trách nhiệm hình sự, đang chấp hành bản án, quyết định của
246
+ Tòa án; trong thời gian bị cấm hành nghề, cấm làm công việc liên quan đến hoạt
247
+ động dược theo bản án, quyết định của Tòa án;
248
+
249
+ b) Bị hạn chế năng lực hành vi dân sự.
250
+
251
+ 5. Đối với người tự nguyện xin cấp Chứng chỉ hành nghề dược theo hình thức thi,
252
+ phải đáp ứng đủ Điều kiện theo quy định tại Điều này."'
253
+ - source_sentence: Doanh nghiệp nhỏ và vừa tham gia chuỗi giá trị sản xuất, chế biến
254
+ có được hỗ trợ chi phí đào tạo hay không?
255
+ sentences:
256
+ - 'Nội dung hỗ trợ doanh nghiệp nhỏ và vừa tham gia cụm liên kết ngành, chuỗi giá
257
+ trị
258
+
259
+ 1. Hỗ trợ đào tạo
260
+
261
+ a) Hỗ trợ tối đa 50% chi phí tổ chức khóa đào tạo nâng cao trình độ công nghệ,
262
+ kỹ thuật sản xuất chuyên sâu tại doanh nghiệp nhưng không quá 50 triệu đồng/khoá/năm/doanh
263
+ nghiệp;
264
+
265
+ b) Hỗ trợ tối đa 50% chi phí đào tạo cho học viên của doanh nghiệp khi tham gia
266
+ các khóa đào tạo chuyên sâu theo nhu cầu phát triển của ngành, chuỗi giá trị nhưng
267
+ không quá 10 triệu đồng/học viên/năm và không quá 03 học viên/doanh nghiệp/năm.
268
+
269
+ 2. Hỗ trợ nâng cao năng lực liên kết sản xuất và kinh doanh
270
+
271
+ a) Hỗ trợ 100% giá trị hợp đồng tư vấn đánh giá toàn diện năng lực của doanh nghiệp
272
+ nhỏ và vừa trong cụm liên kết ngành, chuỗi giá trị nhưng không quá 30 triệu đồng/hợp
273
+ đồng/năm/doanh nghiệp;
274
+
275
+ b) Hỗ trợ 100% giá trị hợp đồng tư vấn cải tiến, nâng cấp kỹ thuật chuyên sâu
276
+ cho doanh nghiệp nhỏ và vừa nhằm cải thiện năng lực sản xuất, đáp ứng yêu cầu
277
+ kết nối, trở thành nhà cung cấp của doanh nghiệp đầu chuỗi nhưng không quá 100
278
+ triệu đồng/hợp đồng/năm/doanh nghiệp.
279
+
280
+ ...'
281
+ - 'Chế độ tập sự
282
+
283
+ ...
284
+
285
+ 4. Trong thời gian thực hiện chế độ tập sự, đơn vị sự nghiệp công lập quản lý,
286
+ sử dụng viên chức phải cử viên chức tham gia khóa đào tạo, bồi dưỡng để hoàn chỉnh
287
+ tiêu chuẩn, điều kiện của chức danh nghề nghiệp trước khi bổ nhiệm. Thời gian
288
+ tham gia khóa đào tạo, bồi dưỡng được tính vào thời gian thực hiện chế độ tập
289
+ sự.
290
+
291
+ 5. Không thực hiện chế độ tập sự đối với các trường hợp đã có thời gian công tác
292
+ có đóng bảo hiểm xã hội bắt buộc theo đúng quy định của Luật Bảo hiểm xã hội,
293
+ được bố trí làm việc theo đúng ngành, nghề đào tạo hoặc theo đúng chuyên môn nghiệp
294
+ vụ trước đây đã đảm nhiệm mà thời gian công tác có đóng bảo hiểm xã hội (nếu đứt
295
+ quãng thì được cộng dồn) bằng hoặc lớn hơn thời gian tập sự tương ứng với thời
296
+ gian tập sự của chức danh nghề nghiệp được tuyển dụng quy định tại khoản 2 Điều
297
+ này. Đối với các trường hợp không thực hiện chế độ tập sự, người đứng đầu đơn
298
+ vị sự nghiệp công lập phải cử viên chức tham gia khóa bồi dưỡng để hoàn chỉnh
299
+ tiêu chuẩn, điều kiện của chức danh nghề nghiệp viên chức trước khi bổ nhiệm.
300
+
301
+ ...'
302
+ - '"Điều 6. Nguyên tắc xếp lương và phụ cấp
303
+
304
+ 1. Việc xếp lương, nâng bậc lương và áp dụng các chế độ phụ cấp thực hiện theo
305
+ quy định chung do Chính phủ ban hành.
306
+
307
+ 2. Đối với các chức danh lãnh đạo (bầu cử, bổ nhiệm) chuyên trách Hội Cựu chiến
308
+ binh Việt Nam từ Trung ương đến cấp huyện, ngoài lương hưu, hàng tháng được hưởng
309
+ 90% mức lương chuẩn và phụ cấp chức vụ (không phải đóng bảo hiểm xã hội và bảo
310
+ hiểm y tế).
311
+
312
+ Đối với cựu chiến binh thuộc chỉ tiêu biên chế được duyệt làm công tác chuyên
313
+ môn, nghiệp vụ từ Trung ương đến cấp huyện, ngoài lương hưu, hàng tháng được hưởng
314
+ cao nhất 90% mức lương chuẩn của cấp phó lãnh đạo trực tiếp cùng cấp (không phải
315
+ đóng bảo hiểm xã hội và bảo hiểm y tế)."'
316
+ - source_sentence: Tàu cá không thực hiện đánh dấu theo quy định có thể bị xử phạt
317
+ như thế nào?
318
+ sentences:
319
+ - 'Vi phạm quy định về đánh dấu tàu cá
320
+
321
+ 1. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi không đánh dấu
322
+ nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có
323
+ chiều dài lớn nhất từ 12 mét đến dưới 15 mét để khai thác thủy sản.
324
+
325
+ 2. Phạt tiền từ 5.000.000 đồng đến 7.000.000 đồng đối với hành vi không đánh dấu
326
+ nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có
327
+ chiều dài lớn nhất từ 15 mét đến dưới 24 mét để khai thác thủy sản.
328
+
329
+ 3. Phạt tiền từ 7.000.000 đồng đến 10.000.000 đồng đối với hành vi không đánh
330
+ dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá
331
+ có chiều dài lớn nhất từ 24 mét trở lên để khai thác thủy sản.'
332
+ - 'Đại hội toàn thể hội viên và Đại hội bất thường
333
+
334
+ ...
335
+
336
+ 2. Nhiệm vụ chính của Đại hội:
337
+
338
+ a) Thảo luận, thông qua các báo cáo hoạt động của nhiệm kỳ trước, đề ra phương
339
+ hướng hoạt động nhiệm kỳ mới của Hiệp hội;
340
+
341
+ b) Thông qua những điểm bổ sung hoặc sửa đổi Điều lệ của Hiệp hội;
342
+
343
+ c) Thảo luận và quyết định một số vấn đề quan trọng của Hiệp hội vượt quá thẩm
344
+ quyền giải quyết của Ban Chấp hành Hiệp hội;
345
+
346
+ d) Bầu Ban Chấp hành Hiệp hội và Ban Kiểm tra Hiệp hội;
347
+
348
+ đ) Thảo luận, phê duyệt quyết toán tài chính và thông qua kế hoạch tài chính khóa
349
+ mới;
350
+
351
+ e) Thảo luận, thông qua các vấn đề khác theo quy định của Điều lệ Hiệp hội.
352
+
353
+ ...'
354
+ - 'Đối tượng được thăm gặp phạm nhân
355
+
356
+ 1. Đối tượng được thăm gặp phạm nhân gồm: Ông, bà nội; ông, bà ngoại; bố, mẹ đẻ;
357
+ bố, mẹ vợ (hoặc chồng); bố, mẹ nuôi hợp pháp; vợ hoặc chồng; con đẻ, con dâu,
358
+ con rể, con nuôi hợp pháp; anh, chị, em ruột; anh, chị, em dâu, rể; anh, chị em
359
+ vợ (hoặc chồng); cô, dì, chú, bác, cậu, cháu ruột, số lượng thân nhân mỗi lần
360
+ đến thăm gặp phạm nhân không quá 03 người.
361
+
362
+ 2. Đại diện cơ quan, tổ chức hoặc cá nhân khác ngoài những người được quy định
363
+ tại Khoản 1 Điều này được thăm gặp phạm nhân nếu Thủ trưởng cơ sở giam giữ xét
364
+ thấy phù hợp với yêu cầu công tác phòng, chống tội phạm và công tác quản lý, giáo
365
+ dục cải tạo phạm nhân.'
366
+ pipeline_tag: sentence-similarity
367
+ ---
368
+
369
+ # SentenceTransformer based on BAAI/bge-m3
370
+
371
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
372
+
373
+ ## Model Details
374
+
375
+ ### Model Description
376
+ - **Model Type:** Sentence Transformer
377
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision babcf60cae0a1f438d7ade582983d4ba462303c2 -->
378
+ - **Maximum Sequence Length:** 512 tokens
379
+ - **Output Dimensionality:** 1024 tokens
380
+ - **Similarity Function:** Cosine Similarity
381
+ <!-- - **Training Dataset:** Unknown -->
382
+ <!-- - **Language:** Unknown -->
383
+ <!-- - **License:** Unknown -->
384
+
385
+ ### Model Sources
386
+
387
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
388
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
389
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
390
+
391
+ ### Full Model Architecture
392
+
393
+ ```
394
+ SentenceTransformer(
395
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
396
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
397
+ (2): Normalize()
398
+ )
399
+ ```
400
+
401
+ ## Usage
402
+
403
+ ### Direct Usage (Sentence Transformers)
404
+
405
+ First install the Sentence Transformers library:
406
+
407
+ ```bash
408
+ pip install -U sentence-transformers
409
+ ```
410
+
411
+ Then you can load this model and run inference.
412
+ ```python
413
+ from sentence_transformers import SentenceTransformer
414
+
415
+ # Download from the 🤗 Hub
416
+ model = SentenceTransformer("comet24082002/ft_bge_newLaw_OnlineContrastiveLoss_V1_5epochs")
417
+ # Run inference
418
+ sentences = [
419
+ 'Tàu cá không thực hiện đánh dấu theo quy định có thể bị xử phạt như thế nào?',
420
+ 'Vi phạm quy định về đánh dấu tàu cá\n1. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 12 mét đến dưới 15 mét để khai thác thủy sản.\n2. Phạt tiền từ 5.000.000 đồng đến 7.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 15 mét đến dưới 24 mét để khai thác thủy sản.\n3. Phạt tiền từ 7.000.000 đồng đến 10.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 24 mét trở lên để khai thác thủy sản.',
421
+ 'Đại hội toàn thể hội viên và Đại hội bất thường\n...\n2. Nhiệm vụ chính của Đại hội:\na) Thảo luận, thông qua các báo cáo hoạt động của nhiệm kỳ trước, đề ra phương hướng hoạt động nhiệm kỳ mới của Hiệp hội;\nb) Thông qua những điểm bổ sung hoặc sửa đổi Điều lệ của Hiệp hội;\nc) Thảo luận và quyết định một số vấn đề quan trọng của Hiệp hội vượt quá thẩm quyền giải quyết của Ban Chấp hành Hiệp hội;\nd) Bầu Ban Chấp hành Hiệp hội và Ban Kiểm tra Hiệp hội;\nđ) Thảo luận, phê duyệt quyết toán tài chính và thông qua kế hoạch tài chính khóa mới;\ne) Thảo luận, thông qua các vấn đề khác theo quy định của Điều lệ Hiệp hội.\n...',
422
+ ]
423
+ embeddings = model.encode(sentences)
424
+ print(embeddings.shape)
425
+ # [3, 1024]
426
+
427
+ # Get the similarity scores for the embeddings
428
+ similarities = model.similarity(embeddings, embeddings)
429
+ print(similarities.shape)
430
+ # [3, 3]
431
+ ```
432
+
433
+ <!--
434
+ ### Direct Usage (Transformers)
435
+
436
+ <details><summary>Click to see the direct usage in Transformers</summary>
437
+
438
+ </details>
439
+ -->
440
+
441
+ <!--
442
+ ### Downstream Usage (Sentence Transformers)
443
+
444
+ You can finetune this model on your own dataset.
445
+
446
+ <details><summary>Click to expand</summary>
447
+
448
+ </details>
449
+ -->
450
+
451
+ <!--
452
+ ### Out-of-Scope Use
453
+
454
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
455
+ -->
456
+
457
+ <!--
458
+ ## Bias, Risks and Limitations
459
+
460
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
461
+ -->
462
+
463
+ <!--
464
+ ### Recommendations
465
+
466
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
467
+ -->
468
+
469
+ ## Training Details
470
+
471
+ ### Training Dataset
472
+
473
+ #### Unnamed Dataset
474
+
475
+
476
+ * Size: 10,524 training samples
477
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
478
+ * Approximate statistics based on the first 1000 samples:
479
+ | | sentence1 | sentence2 | label |
480
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------|
481
+ | type | string | string | int |
482
+ | details | <ul><li>min: 8 tokens</li><li>mean: 24.17 tokens</li><li>max: 46 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 282.93 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~50.00%</li><li>1: ~50.00%</li></ul> |
483
+ * Samples:
484
+ | sentence1 | sentence2 | label |
485
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
486
+ | <code>Nhân viên kiểm định của tổ chức kiểm định được chỉ định có bắt buộc phải có bằng đại học mới được cấp thẻ kiểm định viên đo lường không?</code> | <code>Yêu cầu đối với nhân viên kiểm định để được chứng nhận, cấp thẻ kiểm định viên đo lường<br>Nhân viên kiểm định của tổ chức kiểm định được chỉ định đáp ứng các yêu cầu sau đây được chứng nhận, cấp thẻ kiểm định viên đo lường:<br>1. Tốt nghiệp trung cấp hoặc tương đương trở lên.<br>2. Hoàn thành khóa đào tạo về kiểm định do Tổng cục tổ chức thực hiện tương ứng với lĩnh vực được chỉ định.<br>3. Có ít nhất mười hai (12) tháng kinh nghiệm hoạt động kiểm định, hiệu chuẩn, thử nghiệm tương ứng với lĩnh vực được chỉ định.</code> | <code>1</code> |
487
+ | <code>Tái phạm hành vi công chứng, chứng thực văn bằng, chứng chỉ trái quy định thì Đảng viên sẽ bị xử lý thế nào?</code> | <code>Hết thời hạn chấp hành quyết định áp dụng các biện pháp xử lý hành chính<br>1. Khi người vi phạm đã chấp hành xong quyết định giáo dục tại xã, phường, thị trấn thì Chủ tịch Uỷ ban nhân dân cấp xã cấp giấy chứng nhận cho người đã chấp hành xong và gửi bản sao cho gia đình người đó.<br>2. Khi người vi phạm đã chấp hành xong quyết định đưa vào trường giáo dưỡng, đưa vào cơ sở giáo dục bắt buộc, đưa vào cơ sở cai nghiện bắt buộc thì Hiệu trưởng trường giáo dưỡng, Giám đốc cơ sở giáo dục bắt buộc, Giám đốc cơ sở cai nghiện bắt buộc cấp giấy chứng nhận cho người đã chấp hành xong và gửi bản sao cho gia đình người đó, Tòa án nhân dân cấp huyện nơi đã ra quyết định, cơ quan quản lý trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc, Uỷ ban nhân dân cấp xã nơi người đó cư trú.<br>3. Đối tượng không xác định được nơi cư trú là người chưa thành niên hoặc người ốm yếu không còn khả năng lao động thì sau khi hết hạn chấp hành biện pháp đưa vào trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc được đưa về cơ sở bảo trợ xã hội tại địa phương nơi trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc đóng trụ sở.</code> | <code>0</code> |
488
+ | <code>Quy định về các nguyên tắc quản lý hồ sơ vụ án trong hệ thống Tòa án nhân dân?</code> | <code>"Điều 4. Nguyên tắc quản lý <br>1. Việc quản lý hồ sơ vụ án trong hệ thống Tòa án nhân dân phải bảo đảm an toàn, nguyên vẹn và các nguyên tắc chung của hồ sơ nghiệp vụ; bảo đảm bí mật theo quy định của pháp luật và của Tòa án nhân dân tôi cao. <br>2. Việc quản lý hồ sơ vụ án được thực hiện tập trung, thông nhất, khoa học, đầy đủ, chặt chẽ, kịp thời, không để bị hư hỏng, thất lạc. 3. Việc quản lý hồ sơ vụ án được thực hiện liên tục từ khi đơn vị, cá nhân lập hô sơ, nhận bàn giao hô sơ cho đên khi chuyên giao hô sơ cho đơn vị, cá nhân khác giải quyêt hoặc nộp vào Lưu trữ cơ quan."</code> | <code>1</code> |
489
+ * Loss: [<code>OnlineContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#onlinecontrastiveloss)
490
+
491
+ ### Training Hyperparameters
492
+ #### Non-Default Hyperparameters
493
+
494
+ - `per_device_train_batch_size`: 4
495
+ - `learning_rate`: 2e-05
496
+ - `num_train_epochs`: 5
497
+ - `warmup_ratio`: 0.1
498
+
499
+ #### All Hyperparameters
500
+ <details><summary>Click to expand</summary>
501
+
502
+ - `overwrite_output_dir`: False
503
+ - `do_predict`: False
504
+ - `prediction_loss_only`: True
505
+ - `per_device_train_batch_size`: 4
506
+ - `per_device_eval_batch_size`: 8
507
+ - `per_gpu_train_batch_size`: None
508
+ - `per_gpu_eval_batch_size`: None
509
+ - `gradient_accumulation_steps`: 1
510
+ - `eval_accumulation_steps`: None
511
+ - `learning_rate`: 2e-05
512
+ - `weight_decay`: 0.0
513
+ - `adam_beta1`: 0.9
514
+ - `adam_beta2`: 0.999
515
+ - `adam_epsilon`: 1e-08
516
+ - `max_grad_norm`: 1.0
517
+ - `num_train_epochs`: 5
518
+ - `max_steps`: -1
519
+ - `lr_scheduler_type`: linear
520
+ - `lr_scheduler_kwargs`: {}
521
+ - `warmup_ratio`: 0.1
522
+ - `warmup_steps`: 0
523
+ - `log_level`: passive
524
+ - `log_level_replica`: warning
525
+ - `log_on_each_node`: True
526
+ - `logging_nan_inf_filter`: True
527
+ - `save_safetensors`: True
528
+ - `save_on_each_node`: False
529
+ - `save_only_model`: False
530
+ - `no_cuda`: False
531
+ - `use_cpu`: False
532
+ - `use_mps_device`: False
533
+ - `seed`: 42
534
+ - `data_seed`: None
535
+ - `jit_mode_eval`: False
536
+ - `use_ipex`: False
537
+ - `bf16`: False
538
+ - `fp16`: False
539
+ - `fp16_opt_level`: O1
540
+ - `half_precision_backend`: auto
541
+ - `bf16_full_eval`: False
542
+ - `fp16_full_eval`: False
543
+ - `tf32`: None
544
+ - `local_rank`: 0
545
+ - `ddp_backend`: None
546
+ - `tpu_num_cores`: None
547
+ - `tpu_metrics_debug`: False
548
+ - `debug`: []
549
+ - `dataloader_drop_last`: False
550
+ - `dataloader_num_workers`: 0
551
+ - `dataloader_prefetch_factor`: None
552
+ - `past_index`: -1
553
+ - `disable_tqdm`: False
554
+ - `remove_unused_columns`: True
555
+ - `label_names`: None
556
+ - `load_best_model_at_end`: False
557
+ - `ignore_data_skip`: False
558
+ - `fsdp`: []
559
+ - `fsdp_min_num_params`: 0
560
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
561
+ - `fsdp_transformer_layer_cls_to_wrap`: None
562
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
563
+ - `deepspeed`: None
564
+ - `label_smoothing_factor`: 0.0
565
+ - `optim`: adamw_torch
566
+ - `optim_args`: None
567
+ - `adafactor`: False
568
+ - `group_by_length`: False
569
+ - `length_column_name`: length
570
+ - `ddp_find_unused_parameters`: None
571
+ - `ddp_bucket_cap_mb`: None
572
+ - `ddp_broadcast_buffers`: False
573
+ - `dataloader_pin_memory`: True
574
+ - `dataloader_persistent_workers`: False
575
+ - `skip_memory_metrics`: True
576
+ - `use_legacy_prediction_loop`: False
577
+ - `push_to_hub`: False
578
+ - `resume_from_checkpoint`: None
579
+ - `hub_model_id`: None
580
+ - `hub_strategy`: every_save
581
+ - `hub_private_repo`: False
582
+ - `hub_always_push`: False
583
+ - `gradient_checkpointing`: False
584
+ - `gradient_checkpointing_kwargs`: None
585
+ - `include_inputs_for_metrics`: False
586
+ - `fp16_backend`: auto
587
+ - `push_to_hub_model_id`: None
588
+ - `push_to_hub_organization`: None
589
+ - `mp_parameters`:
590
+ - `auto_find_batch_size`: False
591
+ - `full_determinism`: False
592
+ - `torchdynamo`: None
593
+ - `ray_scope`: last
594
+ - `ddp_timeout`: 1800
595
+ - `torch_compile`: False
596
+ - `torch_compile_backend`: None
597
+ - `torch_compile_mode`: None
598
+ - `dispatch_batches`: None
599
+ - `split_batches`: None
600
+ - `include_tokens_per_second`: False
601
+ - `include_num_input_tokens_seen`: False
602
+ - `neftune_noise_alpha`: None
603
+ - `optim_target_modules`: None
604
+ - `batch_sampler`: batch_sampler
605
+ - `multi_dataset_batch_sampler`: proportional
606
+
607
+ </details>
608
+
609
+ ### Training Logs
610
+ <details><summary>Click to expand</summary>
611
+
612
+ | Epoch | Step | Training Loss |
613
+ |:------:|:-----:|:-------------:|
614
+ | 0.0190 | 50 | 0.1151 |
615
+ | 0.0380 | 100 | 0.0891 |
616
+ | 0.0570 | 150 | 0.0665 |
617
+ | 0.0760 | 200 | 0.074 |
618
+ | 0.0950 | 250 | 0.0431 |
619
+ | 0.1140 | 300 | 0.0578 |
620
+ | 0.1330 | 350 | 0.0851 |
621
+ | 0.1520 | 400 | 0.0569 |
622
+ | 0.1710 | 450 | 0.0648 |
623
+ | 0.1900 | 500 | 0.0678 |
624
+ | 0.2090 | 550 | 0.0484 |
625
+ | 0.2281 | 600 | 0.039 |
626
+ | 0.2471 | 650 | 0.0437 |
627
+ | 0.2661 | 700 | 0.0666 |
628
+ | 0.2851 | 750 | 0.0658 |
629
+ | 0.3041 | 800 | 0.0549 |
630
+ | 0.3231 | 850 | 0.0546 |
631
+ | 0.3421 | 900 | 0.0796 |
632
+ | 0.3611 | 950 | 0.0638 |
633
+ | 0.3801 | 1000 | 0.074 |
634
+ | 0.3991 | 1050 | 0.0838 |
635
+ | 0.4181 | 1100 | 0.0719 |
636
+ | 0.4371 | 1150 | 0.0761 |
637
+ | 0.4561 | 1200 | 0.0595 |
638
+ | 0.4751 | 1250 | 0.0803 |
639
+ | 0.4941 | 1300 | 0.0734 |
640
+ | 0.5131 | 1350 | 0.0875 |
641
+ | 0.5321 | 1400 | 0.0755 |
642
+ | 0.5511 | 1450 | 0.0694 |
643
+ | 0.5701 | 1500 | 0.079 |
644
+ | 0.5891 | 1550 | 0.0871 |
645
+ | 0.6081 | 1600 | 0.071 |
646
+ | 0.6271 | 1650 | 0.0989 |
647
+ | 0.6461 | 1700 | 0.081 |
648
+ | 0.6651 | 1750 | 0.0705 |
649
+ | 0.6842 | 1800 | 0.0861 |
650
+ | 0.7032 | 1850 | 0.0859 |
651
+ | 0.7222 | 1900 | 0.0818 |
652
+ | 0.7412 | 1950 | 0.062 |
653
+ | 0.7602 | 2000 | 0.0796 |
654
+ | 0.7792 | 2050 | 0.0996 |
655
+ | 0.7982 | 2100 | 0.0772 |
656
+ | 0.8172 | 2150 | 0.0832 |
657
+ | 0.8362 | 2200 | 0.0818 |
658
+ | 0.8552 | 2250 | 0.0961 |
659
+ | 0.8742 | 2300 | 0.0784 |
660
+ | 0.8932 | 2350 | 0.0945 |
661
+ | 0.9122 | 2400 | 0.0608 |
662
+ | 0.9312 | 2450 | 0.075 |
663
+ | 0.9502 | 2500 | 0.0867 |
664
+ | 0.9692 | 2550 | 0.0902 |
665
+ | 0.9882 | 2600 | 0.0657 |
666
+ | 1.0072 | 2650 | 0.0616 |
667
+ | 1.0262 | 2700 | 0.093 |
668
+ | 1.0452 | 2750 | 0.0684 |
669
+ | 1.0642 | 2800 | 0.0632 |
670
+ | 1.0832 | 2850 | 0.0513 |
671
+ | 1.1022 | 2900 | 0.0471 |
672
+ | 1.1212 | 2950 | 0.0815 |
673
+ | 1.1403 | 3000 | 0.051 |
674
+ | 1.1593 | 3050 | 0.0741 |
675
+ | 1.1783 | 3100 | 0.0461 |
676
+ | 1.1973 | 3150 | 0.0585 |
677
+ | 1.2163 | 3200 | 0.0592 |
678
+ | 1.2353 | 3250 | 0.0403 |
679
+ | 1.2543 | 3300 | 0.072 |
680
+ | 1.2733 | 3350 | 0.0582 |
681
+ | 1.2923 | 3400 | 0.08 |
682
+ | 1.3113 | 3450 | 0.0708 |
683
+ | 1.3303 | 3500 | 0.0447 |
684
+ | 1.3493 | 3550 | 0.0607 |
685
+ | 1.3683 | 3600 | 0.0522 |
686
+ | 1.3873 | 3650 | 0.0731 |
687
+ | 1.4063 | 3700 | 0.0992 |
688
+ | 1.4253 | 3750 | 0.0582 |
689
+ | 1.4443 | 3800 | 0.068 |
690
+ | 1.4633 | 3850 | 0.0691 |
691
+ | 1.4823 | 3900 | 0.052 |
692
+ | 1.5013 | 3950 | 0.0632 |
693
+ | 1.5203 | 4000 | 0.0616 |
694
+ | 1.5393 | 4050 | 0.0619 |
695
+ | 1.5583 | 4100 | 0.0574 |
696
+ | 1.5773 | 4150 | 0.0635 |
697
+ | 1.5964 | 4200 | 0.0638 |
698
+ | 1.6154 | 4250 | 0.0564 |
699
+ | 1.6344 | 4300 | 0.0613 |
700
+ | 1.6534 | 4350 | 0.0636 |
701
+ | 1.6724 | 4400 | 0.064 |
702
+ | 1.6914 | 4450 | 0.0919 |
703
+ | 1.7104 | 4500 | 0.0576 |
704
+ | 1.7294 | 4550 | 0.0356 |
705
+ | 1.7484 | 4600 | 0.0719 |
706
+ | 1.7674 | 4650 | 0.0633 |
707
+ | 1.7864 | 4700 | 0.0504 |
708
+ | 1.8054 | 4750 | 0.0832 |
709
+ | 1.8244 | 4800 | 0.0571 |
710
+ | 1.8434 | 4850 | 0.0491 |
711
+ | 1.8624 | 4900 | 0.0388 |
712
+ | 1.8814 | 4950 | 0.0678 |
713
+ | 1.9004 | 5000 | 0.0518 |
714
+ | 1.9194 | 5050 | 0.0847 |
715
+ | 1.9384 | 5100 | 0.0556 |
716
+ | 1.9574 | 5150 | 0.0487 |
717
+ | 1.9764 | 5200 | 0.0661 |
718
+ | 1.9954 | 5250 | 0.0602 |
719
+ | 2.0144 | 5300 | 0.0426 |
720
+ | 2.0334 | 5350 | 0.0489 |
721
+ | 2.0525 | 5400 | 0.0425 |
722
+ | 2.0715 | 5450 | 0.0425 |
723
+ | 2.0905 | 5500 | 0.0431 |
724
+ | 2.1095 | 5550 | 0.0494 |
725
+ | 2.1285 | 5600 | 0.0425 |
726
+ | 2.1475 | 5650 | 0.0426 |
727
+ | 2.1665 | 5700 | 0.0255 |
728
+ | 2.1855 | 5750 | 0.0571 |
729
+ | 2.2045 | 5800 | 0.0448 |
730
+ | 2.2235 | 5850 | 0.0448 |
731
+ | 2.2425 | 5900 | 0.0393 |
732
+ | 2.2615 | 5950 | 0.0491 |
733
+ | 2.2805 | 6000 | 0.0554 |
734
+ | 2.2995 | 6050 | 0.043 |
735
+ | 2.3185 | 6100 | 0.0455 |
736
+ | 2.3375 | 6150 | 0.0479 |
737
+ | 2.3565 | 6200 | 0.0376 |
738
+ | 2.3755 | 6250 | 0.0446 |
739
+ | 2.3945 | 6300 | 0.04 |
740
+ | 2.4135 | 6350 | 0.0456 |
741
+ | 2.4325 | 6400 | 0.033 |
742
+ | 2.4515 | 6450 | 0.0392 |
743
+ | 2.4705 | 6500 | 0.0416 |
744
+ | 2.4895 | 6550 | 0.0349 |
745
+ | 2.5086 | 6600 | 0.0358 |
746
+ | 2.5276 | 6650 | 0.039 |
747
+ | 2.5466 | 6700 | 0.0366 |
748
+ | 2.5656 | 6750 | 0.0338 |
749
+ | 2.5846 | 6800 | 0.04 |
750
+ | 2.6036 | 6850 | 0.0462 |
751
+ | 2.6226 | 6900 | 0.0356 |
752
+ | 2.6416 | 6950 | 0.0377 |
753
+ | 2.6606 | 7000 | 0.0321 |
754
+ | 2.6796 | 7050 | 0.0429 |
755
+ | 2.6986 | 7100 | 0.0313 |
756
+ | 2.7176 | 7150 | 0.0549 |
757
+ | 2.7366 | 7200 | 0.0326 |
758
+ | 2.7556 | 7250 | 0.0571 |
759
+ | 2.7746 | 7300 | 0.0366 |
760
+ | 2.7936 | 7350 | 0.0439 |
761
+ | 2.8126 | 7400 | 0.054 |
762
+ | 2.8316 | 7450 | 0.0446 |
763
+ | 2.8506 | 7500 | 0.049 |
764
+ | 2.8696 | 7550 | 0.0407 |
765
+ | 2.8886 | 7600 | 0.0268 |
766
+ | 2.9076 | 7650 | 0.0394 |
767
+ | 2.9266 | 7700 | 0.034 |
768
+ | 2.9456 | 7750 | 0.0482 |
769
+ | 2.9647 | 7800 | 0.0395 |
770
+ | 2.9837 | 7850 | 0.0437 |
771
+ | 3.0027 | 7900 | 0.0545 |
772
+ | 3.0217 | 7950 | 0.0349 |
773
+ | 3.0407 | 8000 | 0.0385 |
774
+ | 3.0597 | 8050 | 0.0186 |
775
+ | 3.0787 | 8100 | 0.0198 |
776
+ | 3.0977 | 8150 | 0.0288 |
777
+ | 3.1167 | 8200 | 0.0369 |
778
+ | 3.1357 | 8250 | 0.0287 |
779
+ | 3.1547 | 8300 | 0.0353 |
780
+ | 3.1737 | 8350 | 0.0187 |
781
+ | 3.1927 | 8400 | 0.031 |
782
+ | 3.2117 | 8450 | 0.027 |
783
+ | 3.2307 | 8500 | 0.0228 |
784
+ | 3.2497 | 8550 | 0.0247 |
785
+ | 3.2687 | 8600 | 0.0351 |
786
+ | 3.2877 | 8650 | 0.0247 |
787
+ | 3.3067 | 8700 | 0.0245 |
788
+ | 3.3257 | 8750 | 0.0232 |
789
+ | 3.3447 | 8800 | 0.028 |
790
+ | 3.3637 | 8850 | 0.038 |
791
+ | 3.3827 | 8900 | 0.0278 |
792
+ | 3.4017 | 8950 | 0.0293 |
793
+ | 3.4208 | 9000 | 0.0299 |
794
+ | 3.4398 | 9050 | 0.0267 |
795
+ | 3.4588 | 9100 | 0.0413 |
796
+ | 3.4778 | 9150 | 0.032 |
797
+ | 3.4968 | 9200 | 0.0239 |
798
+ | 3.5158 | 9250 | 0.0313 |
799
+ | 3.5348 | 9300 | 0.0211 |
800
+ | 3.5538 | 9350 | 0.0272 |
801
+ | 3.5728 | 9400 | 0.0228 |
802
+ | 3.5918 | 9450 | 0.0245 |
803
+ | 3.6108 | 9500 | 0.0332 |
804
+ | 3.6298 | 9550 | 0.032 |
805
+ | 3.6488 | 9600 | 0.0292 |
806
+ | 3.6678 | 9650 | 0.0273 |
807
+ | 3.6868 | 9700 | 0.0332 |
808
+ | 3.7058 | 9750 | 0.0287 |
809
+ | 3.7248 | 9800 | 0.0326 |
810
+ | 3.7438 | 9850 | 0.0175 |
811
+ | 3.7628 | 9900 | 0.028 |
812
+ | 3.7818 | 9950 | 0.0291 |
813
+ | 3.8008 | 10000 | 0.0272 |
814
+ | 3.8198 | 10050 | 0.0198 |
815
+ | 3.8388 | 10100 | 0.0336 |
816
+ | 3.8578 | 10150 | 0.0243 |
817
+ | 3.8769 | 10200 | 0.0265 |
818
+ | 3.8959 | 10250 | 0.0429 |
819
+ | 3.9149 | 10300 | 0.0282 |
820
+ | 3.9339 | 10350 | 0.0266 |
821
+ | 3.9529 | 10400 | 0.0235 |
822
+ | 3.9719 | 10450 | 0.02 |
823
+ | 3.9909 | 10500 | 0.0371 |
824
+ | 4.0099 | 10550 | 0.0295 |
825
+ | 4.0289 | 10600 | 0.0144 |
826
+ | 4.0479 | 10650 | 0.027 |
827
+ | 4.0669 | 10700 | 0.0154 |
828
+ | 4.0859 | 10750 | 0.0237 |
829
+ | 4.1049 | 10800 | 0.0153 |
830
+ | 4.1239 | 10850 | 0.0124 |
831
+ | 4.1429 | 10900 | 0.0261 |
832
+ | 4.1619 | 10950 | 0.0246 |
833
+ | 4.1809 | 11000 | 0.0212 |
834
+ | 4.1999 | 11050 | 0.0217 |
835
+ | 4.2189 | 11100 | 0.0207 |
836
+ | 4.2379 | 11150 | 0.0159 |
837
+ | 4.2569 | 11200 | 0.0175 |
838
+ | 4.2759 | 11250 | 0.0155 |
839
+ | 4.2949 | 11300 | 0.0113 |
840
+ | 4.3139 | 11350 | 0.0339 |
841
+ | 4.3330 | 11400 | 0.0082 |
842
+ | 4.3520 | 11450 | 0.0166 |
843
+ | 4.3710 | 11500 | 0.0151 |
844
+ | 4.3900 | 11550 | 0.0185 |
845
+ | 4.4090 | 11600 | 0.02 |
846
+ | 4.4280 | 11650 | 0.0283 |
847
+ | 4.4470 | 11700 | 0.0198 |
848
+ | 4.4660 | 11750 | 0.0168 |
849
+ | 4.4850 | 11800 | 0.0161 |
850
+ | 4.5040 | 11850 | 0.0209 |
851
+ | 4.5230 | 11900 | 0.0124 |
852
+ | 4.5420 | 11950 | 0.0359 |
853
+ | 4.5610 | 12000 | 0.0197 |
854
+ | 4.5800 | 12050 | 0.0161 |
855
+ | 4.5990 | 12100 | 0.0139 |
856
+ | 4.6180 | 12150 | 0.0168 |
857
+ | 4.6370 | 12200 | 0.0158 |
858
+ | 4.6560 | 12250 | 0.0176 |
859
+ | 4.6750 | 12300 | 0.0189 |
860
+ | 4.6940 | 12350 | 0.0196 |
861
+ | 4.7130 | 12400 | 0.0236 |
862
+ | 4.7320 | 12450 | 0.0187 |
863
+ | 4.7510 | 12500 | 0.0166 |
864
+ | 4.7700 | 12550 | 0.0212 |
865
+ | 4.7891 | 12600 | 0.0176 |
866
+ | 4.8081 | 12650 | 0.0157 |
867
+ | 4.8271 | 12700 | 0.0136 |
868
+ | 4.8461 | 12750 | 0.0176 |
869
+ | 4.8651 | 12800 | 0.0198 |
870
+ | 4.8841 | 12850 | 0.0205 |
871
+ | 4.9031 | 12900 | 0.0199 |
872
+ | 4.9221 | 12950 | 0.0165 |
873
+ | 4.9411 | 13000 | 0.02 |
874
+ | 4.9601 | 13050 | 0.0157 |
875
+ | 4.9791 | 13100 | 0.0126 |
876
+ | 4.9981 | 13150 | 0.0154 |
877
+
878
+ </details>
879
+
880
+ ### Framework Versions
881
+ - Python: 3.10.13
882
+ - Sentence Transformers: 3.0.1
883
+ - Transformers: 4.39.3
884
+ - PyTorch: 2.1.2
885
+ - Accelerate: 0.29.3
886
+ - Datasets: 2.18.0
887
+ - Tokenizers: 0.15.2
888
+
889
+ ## Citation
890
+
891
+ ### BibTeX
892
+
893
+ #### Sentence Transformers
894
+ ```bibtex
895
+ @inproceedings{reimers-2019-sentence-bert,
896
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
897
+ author = "Reimers, Nils and Gurevych, Iryna",
898
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
899
+ month = "11",
900
+ year = "2019",
901
+ publisher = "Association for Computational Linguistics",
902
+ url = "https://arxiv.org/abs/1908.10084",
903
+ }
904
+ ```
905
+
906
+ <!--
907
+ ## Glossary
908
+
909
+ *Clearly define terms in order to be accessible across audiences.*
910
+ -->
911
+
912
+ <!--
913
+ ## Model Card Authors
914
+
915
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
916
+ -->
917
+
918
+ <!--
919
+ ## Model Card Contact
920
+
921
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
922
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.39.3",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.39.3",
5
+ "pytorch": "2.1.2"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:366d1ed034950f1c8f8a982ef0f2b9d9b932d7811a9e7b7cf722d1836658b2bc
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:39feb9863a378165ab9c5c689047203d789422966c0c58721c5309fd039a8edc
3
+ size 17083074
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "sp_model_kwargs": {},
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }