dejaun commited on
Commit
4519b6f
·
verified ·
1 Parent(s): 55f73ba

Upload finetuned model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
37
+ unigram.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,806 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:651725
8
+ - loss:SoftmaxLoss
9
+ base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
10
+ widget:
11
+ - source_sentence: Nguyên tắc áp dụng phụ cấp ưu đãi nghề y tế thế nào?
12
+ sentences:
13
+ - Chu kỳ kiểm định chất lượng giáo dục nghề nghiệp\n...\n2. Trường hợp cơ sở giáo
14
+ dục nghề nghiệp có ngành, nghề trọng điểm; chương trình đào tạo ngành, nghề trọng
15
+ điểm; cơ sở giáo dục nghề nghiệp và chương trình đào tạo các ngành, nghề phục
16
+ vụ yêu cầu công tác quản lý nhà nước phải thực hiện kiểm định chất lượng giáo
17
+ dục nghề nghiệp theo quy định tại điểm d khoản 3 Điều 65 của Luật Giáo dục nghề
18
+ nghiệp số 74/2014/QH13 ngày 27 tháng 11 năm 2014 nhưng không đạt tiêu chuẩn kiểm
19
+ định chất lượng giáo dục nghề nghiệp thì trong thời hạn 03 năm phải thực hiện
20
+ kiểm định lại.
21
+ - Vệ sinh môi trường, vệ sinh tòa nhà\n1. Trách nhiệm của các đơn vị, cán bộ, công
22
+ chức, viên chức, nhân viên và người lao động trong việc giữ gìn vệ sinh tại nơi
23
+ làm việc và khu vực công cộng:\na) Hàng ngày tự vệ sinh sàn nhà, bàn ghế, tủ,
24
+ các thiết bị được trang cấp và tổng vệ sinh phòng làm việc vào chiều thứ Sáu hàng
25
+ tuần;\nb) Có trách nhiệm thu gom rác thải trong phòng chuyển ra thùng rác đặt
26
+ tại các hành lang;\nc) Không đổ nước chè, cà phê, ….. xuống sàn nhà, hành lang,
27
+ tường nhà và khu vệ sinh;\nd) Nghiêm cấp hút thuốc lá trong phòng làm việc, phòng
28
+ họp, cầu thang máy, cầu thang bộ, tầng hầm;\nđ) Không khạc nhổ, bôi bẩn lên tường,
29
+ không vứt rác thải, gạt tàn thuốc lá, đầu lọc thuốc lá xuống sàn nhà và các khu
30
+ vực công cộng;\ne) Nghiêm cấm hái hoa, bẻ cành, dẫm lên thảm cỏ, nhổ cây trong
31
+ khuôn viên cơ quan.\ng) Nghiêm cấm mang chất độc hại vào cơ quan.\n…
32
+ - Nguyên tắc áp dụng\n1. Trường hợp công chức, viên chức chuyên môn y tế thuộc đối
33
+ tượng được hưởng các mức phụ cấp ưu đãi theo nghề khác nhau thì được hưởng một
34
+ mức phụ cấp ưu đãi theo nghề cao nhất.\n2. Công chức, viên chức đã hưởng phụ cấp
35
+ ưu đãi theo nghề quy định tại Thông tư liên tịch số 06/2010/TTLT-BYT-BNV-BTC ngày
36
+ 22/3/2010 của Bộ Y tế, Bộ Nội vụ, Bộ Tài chính hướng dẫn thực hiện Nghị định số
37
+ 64/2009/NĐ-CP ngày 30/7/2009 của Chính phủ về chính sách đối với cán bộ, viên
38
+ chức y tế công tác ở vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn thì
39
+ không hưởng phụ cấp ưu đãi theo nghề quy định tại Thông tư liên tịch này.
40
+ - source_sentence: Số lượng thành viên Hội đồng khoa học và đào tạo là bao nhiêu?
41
+ sentences:
42
+ - 'Cấp Giấy chứng nhận chất lượng an toàn kỹ thuật và bảo vệ môi trường trong sản
43
+ xuất, lắp ráp ô tô, rơ moóc và sơ mi rơ moóc\n2.1. Trình tự thực hiện:\na) Nộp
44
+ hồ sơ TTHC:\n- Cơ sở sản xuất lập hồ sơ kiểm tra xe cơ giới theo quy định và nộp
45
+ đến Cục Đăng kiểm Việt Nam.\nb) Giải quyết TTHC:\n- Cục Đăng kiểm Việt Nam tiếp
46
+ nhận và kiểm tra thành phần hồ sơ kiểm tra xe cơ giới: nếu hồ sơ không đầy đủ
47
+ theo quy định thì hướng dẫn Cơ sở sản xuất hoàn thiện lại; Nếu hồ sơ đầy đủ theo
48
+ quy định thì thống nhất về thời gian và địa điểm thực hiện đánh giá điều kiện
49
+ kiểm tra chất lượng sản phẩm tại Cơ sở sản xuất;\n- Cục Đăng kiểm Việt Nam tiến
50
+ hành kiểm tra nội dung hồ sơ và thực hiện đánh giá điều kiện kiểm tra chất lượng
51
+ sản phẩm tại Cơ sở sản xuất theo quy định: Nếu chưa đạt yêu cầu thì thông báo
52
+ để Cơ sở sản xuất hoàn thiện lại; Nếu đạt yêu cầu thì cấp Giấy chứng nhận trong
53
+ thời hạn 03 ngày làm việc kể từ ngày kết thúc kiểm tra, đánh giá hồ sơ đầy đủ,
54
+ hợp lệ theo quy định và có kết quả đánh giá COP đạt yêu cầu;\n- Cơ sở sản xuất
55
+ nộp hồ sơ kiểm tra xe cơ giới và nhận kết quả trực tiếp tại trụ sở Cục Đăng kiểm
56
+ Việt Nam hoặc qua hệ thống bưu chính hoặc qua hệ thống dịch vụ công trực tuyến
57
+ hoặc qua hình thức phù hợp khác.\n...'
58
+ - Phiên họp Hội đồng khoa học\n1. Hội đồng khoa học họp định kỳ 06 tháng/01 lần.
59
+ Các phiên họp định kỳ phải có ít nhất 2/3 tổng số thành viên của Hội đồng khoa
60
+ học tham dự.\n2. Phiên họp đột xuất của Hội đồng khoa học được triệu tập theo
61
+ quyết định của Chủ tịch và phải có trên 1/2 số thành viên của Hội đồng khoa học
62
+ tham dự.\n3. Viện trưởng VKSND tối cao tham dự phiên họp của Hội đồng khoa học
63
+ khi thấy cần thiết.\n4. Tùy thuộc vào nội dung chương trình phiên họp, Chủ tịch
64
+ Hội đồng khoa học có thể quyết định mời các nhà khoa học trong và ngoài ngành
65
+ KSND tham gia phiên họp.\n5. Nội dung phiên họp, các tài liệu liên quan đến phiên
66
+ họp của Hội đồng khoa học phải được thông báo hoặc chuyển cho các Thành viên chậm
67
+ nhất là 3 ngày làm việc trước ngày họp, trừ trường hợp đột xuất.\n6. Hội đồng
68
+ khoa học thảo luận dân chủ, tập thể, công khai, quyết định theo đa số về những
69
+ vấn đề thuộc nội dung phiên họp và những vấn đề do Chủ tịch Hội đồng khoa học
70
+ nêu ra hoặc do các Thành viên đề nghị và được Chủ tịch Hội đồng khoa học chấp
71
+ thuận.\nChủ tịch Hội đồng khoa học chủ trì thảo luận và kết luận tại phiên họp.
72
+ Đối với những vấn đề phức tạp còn nhiều ý kiến khác nhau, Hội đồng khoa học tiến
73
+ hành biểu quyết. Những vấn đề được biểu quyết đạt trên 2/3 số phiếu của thành
74
+ viên có mặt hoặc trên 50% tổng số thành viên Hội đồng được coi là ý kiến chính
75
+ thức của Hội đồng khoa học. Các ý kiến khác được bảo lưu, ghi vào biên bản cuộc
76
+ họp.
77
+ - Hồ sơ, thủ tục công nhận liệt sĩ\n1. Người khi hy sinh đang thuộc quân đội, công
78
+ an quản lý thì Bộ Quốc phòng, Bộ Công an chịu trách nhiệm:\na) Hướng dẫn về quy
79
+ trình lập hồ sơ đề nghị công nhận liệt sĩ theo quy định.\nb) Có văn bản đề nghị
80
+ kèm hồ sơ gửi Bộ Lao động - Thương binh và Xã hội thẩm định trong thời gian không
81
+ quá 50 ngày kể từ ngày cơ quan, đơn vị trực tiếp quản lý người hy sinh xác lập,
82
+ hoàn thiện các giấy tờ quy định tại Điều 17 Nghị định này.
83
+ - source_sentence: Ban Tài chính Văn phòng Kiểm toán nhà nước thực hiện những chức
84
+ năng gì?
85
+ sentences:
86
+ - 'Tiếp nhận hồ sơ và trả kết quả\n...\n2.2.4. Lao động nam hoặc người chồng của
87
+ lao động nữ mang thai hộ nghỉ việc khi vợ sinh con: Bản sao giấy chứng sinh hoặc
88
+ bản sao giấy khai sinh hoặc trích lục khai sinh của con; trường hợp sinh con phải
89
+ phẫu thuật hoặc sinh con dưới 32 tuần tuổi mà giấy chứng sinh không thể hiện thì
90
+ có thêm giấy tờ của cơ sở khám bệnh, chữa bệnh thể hiện việc sinh con phải phẫu
91
+ thuật, sinh con dưới 32 tuần tuổi. Trường hợp con chết sau khi sinh mà chưa được
92
+ cấp giấy chứng sinh thì thay bằng trích sao hoặc tóm tắt hồ sơ bệnh án hoặc giấy
93
+ ra viện của người mẹ hoặc của lao động nữ mang thai hộ thể hiện con chết…'
94
+ - Việc tự giám sát chất lượng dịch vụ viễn thông của doanh nghiệp viễn thông\n1.
95
+ Các doanh nghiệp viễn thông được Bộ Thông tin và Truyền thông cấp giấy phép kinh
96
+ doanh dịch vụ viễn thông phải thường xuyên tự giám sát chất lượng dịch vụ đối
97
+ với tất cả các dịch vụ thuộc “Danh mục dịch vụ viễn thông bắt buộc quản lý chất
98
+ lượng” mà mình cung cấp.\n2. Trong trường hợp dịch vụ mà mình cung cấp có sự cố
99
+ thì doanh nghiệp viễn thông phải thực hiện báo cáo đột xuất như quy định tại Khoản
100
+ 3 Điều 8 của Thông tư này.
101
+ - Cục Quản lý, giám sát bảo hiểm; Cục Quản lý Công sản; Cục Quản lý Giá; Cục Quản
102
+ lý Nợ và Tài chính đối ngoại; Cục Quản lý, giám sát Kế toán, Kiểm toán; Cục Quản
103
+ lý Công sản; Cục Tài chính doanh nghiệp và Vụ Tài chính ngân hàng chủ trì phối
104
+ hợp với Cục Tin học & Thống kê Tài chính xây dựng quy trình điện tử từng thủ tục
105
+ hành chính theo phạm vi quản lý đối với danh mục thủ tục hành chính để thực hiện
106
+ tích hợp trên Hệ thống thông tin Một cửa điện tử của Bộ Tài chính.
107
+ - source_sentence: Điều kiện để Giám đốc Học viện An ninh nhân dân được thăng cấp
108
+ bậc hàm trước thời hạn như thế nào?
109
+ sentences:
110
+ - Mức độ tự chủ và trách nhiệm\n- Có ý thức và tác phong nghề nghiệp đúng chuẩn
111
+ mực, có năng lực thực hiện công việc được giao; phương pháp làm việc khoa học,
112
+ biết phân tích và giải quyết các vấn đề mới về lĩnh vực chuyên môn nghề;\n- Gắn
113
+ bó nghề nghiệp; nghiêm chỉnh chấp hành quy chế, quy định của cơ quan, doanh nghiệp,
114
+ nơi đang công tác với ý thức tổ chức kỉ luật và tinh thần trách nhiệm cao trong
115
+ công việc;\n- Lập được các biện pháp an toàn và đảm bảo an toàn, vệ sinh lao động
116
+ trong quá trình làm việc; có ý thức trách nhiệm công dân, thái độ và đạo đức nghề
117
+ nghiệp đúng đắn, sẵn sàng nhận nhiệm vụ; tự tin, cầu tiến trong công việc; hợp
118
+ tác, thân thiện, khiêm tốn trong các mối quan hệ;\n- Tự chịu trách nhiệm về chất
119
+ lượng đối với kết quả công việc, sản phẩm do mình đảm nhiệm theo các tiêu chuẩn
120
+ và chịu một phần trách nhiệm đối với kết quả công việc, sản phẩm của tổ, nhóm;
121
+ - Tổ chức bộ máy\n...\n5. Tổng cục Hải quan có thể biệt phái công chức từ các đơn
122
+ vị thuộc và trực thuộc Tổng cục để bổ sung cán bộ chủ chốt, cán bộ kỹ thuật có
123
+ năng lực, kinh nghiệm cho Ban Quản lý dự án đầu tư xây dựng chuyên ngành của Tổng
124
+ cục Hải quan. Thời hạn biệt phái các công chức không quá 03 năm, trường hợp quá
125
+ 03 năm mà chưa hoàn thành dự án thì Tổng cục Hải quan xem xét quyết định bổ sung
126
+ thời gian biệt phái.\nNhân sự tuyển dụng mới của Ban Quản lý dự án đầu tư xây
127
+ dựng chuyên ngành của Tổng cục Hải quan là viên chức hoặc hợp đồng lao động, thực
128
+ hiện theo quy định về chế độ tiền lương và các chế độ, chính sách đối với viên
129
+ chức và người lao động.\n...
130
+ - Biệt phái công chức\n...\n6. Không thực hiện biệt phái công chức nữ đang mang
131
+ thai hoặc nuôi con dưới 36 tháng tuổi.
132
+ - source_sentence: Thời điểm đánh giá và xếp loại chất lượng hằng năm của công chức,
133
+ viên chức thuộc Bộ Tài chính được diễn ra trong thời gian nào?
134
+ sentences:
135
+ - Nhiệm vụ của giáo viên\n1. Thực hiện nhiệm vụ tổ chức các hoạt động dạy học, giáo
136
+ dục theo kế hoạch giáo dục của nhà trường và kế hoạch giáo dục của tổ chuyên môn;
137
+ quản lý học sinh trong các hoạt động giáo dục do nhà trường tổ chức; tham gia
138
+ các hoạt động chuyên môn; chịu trách nhiệm về chất lượng, hiệu quả giáo dục.\n2.
139
+ Trau dồi đạo đức, nêu cao tinh thần trách nhiệm, giữ gìn phẩm chất, danh dự, uy
140
+ tín của nhà giáo; gương mẫu trước học sinh; thương yêu, đối xử công bằng và tôn
141
+ trọng nhân cách của học sinh; bảo vệ các quyền và lợi ích chính đáng của học sinh;
142
+ đoàn kết, giúp đỡ đồng nghiệp.\n3. Học tập, rèn luyện để nâng cao sức khỏe, trình
143
+ độ chính trị, chuyên môn, nghiệp vụ, đổi mới phương pháp dạy học, giáo dục.\n4.
144
+ Tham gia tập huấn, bồi dưỡng chuyên môn, nghiệp vụ.\n5. Tham gia công tác phổ
145
+ cập giáo dục trung học cơ sở ở địa phương.\n6. Thực hiện nghĩa vụ công dân, các
146
+ quy định của pháp luật và của ngành Giáo dục, các quyết định của hiệu trưởng;
147
+ thực hiện nhiệm vụ do hiệu trưởng phân công, chịu sự kiểm tra, đánh giá của hiệu
148
+ trưởng và các cấp quản lý giáo dục.\n7. Phối hợp với Đội Thiếu niên Tiền phong
149
+ Hồ Chí Minh, Đoàn Thanh niên Cộng sản Hồ Chí Minh, Hội Liên hiệp Thanh niên Việt
150
+ Nam, gia đình học sinh và các tổ chức xã hội liên quan để tổ chức hoạt động giáo
151
+ dục.\n8. Thực hiện các nhiệm vụ khác theo quy định của pháp luật.
152
+ - “Điều 1. Danh mục trang thiết bị y tế phục vụ phòng, chống dịch COVID-19 trong
153
+ trường hợp cấp bách theo quy định tại khoản 3 Điều 29 Nghị định số 98/2021/NĐ-CP
154
+ ngày 08 tháng 11 năm 2021 của Chính phủ về quản lý trang thiết bị y tế \n1. Máy
155
+ PCR. \n2. Hóa chất (sinh phẩm) chạy máy PCR xét nghiệm SARS-CoV-2. \n3. Test kít
156
+ xét nghiệm nhanh kháng nguyên/ kháng thể kháng SARS-CoV-2. \n4. Máy thở chức năng
157
+ cao, máy thở xâm nhập và không xâm nhập, máy thở không xâm nhập, máy oxy dòng
158
+ cao, máy th��� xách tay. \n5. Máy lọc máu liên tục. \n6. Máy X-Quang di động. \n7.
159
+ Máy đo khí máu (đo được điện giải, lactat, hematocrite). \n8. Máy theo dõi bệnh
160
+ nhân>5 thông số. \n9. Bơm tiêm điện; Bơm truyền dịch. \n10. Máy phá rung tim có
161
+ tạo nhịp. \n11. Máy đo thời gian đông máu. \n12. Máy đo huyết động.”
162
+ - Thời điểm đánh giá xếp loại chất lượng hằng năm\n...\n2. Căn cứ tình hình thực
163
+ tiễn của cơ quan, tổ chức, đơn vị, tập thể lãnh đạo cơ quan, tổ chức, đơn vị thống
164
+ nhất với cấp ủy cùng cấp về việc kết hợp tổ chức cuộc họp đánh giá, xếp loại chất
165
+ lượng công chức, viên chức và xếp loại đảng viên trong tổ chức, đơn vị mình, bảo
166
+ đảm nghiêm túc, hiệu quả, tránh hình thức, lãng phí.\n3. Tại thời điểm đánh giá,
167
+ xếp loại chất lượng, trường hợp vắng mặt có lý do chính đáng hoặc nghỉ ốm, nghỉ
168
+ chế độ thai sản theo quy định của pháp luật, công chức, viên chức có trách nhiệm
169
+ làm báo cáo tại Phiếu đánh giá, xếp loại chất lượng theo chức trách, nhiệm vụ
170
+ được giao, gửi cơ quan, tổ chức, đơn vị đang công tác để thực hiện việc đánh giá,
171
+ xếp loại chất lượng theo quy định của pháp luật và Quy chế này.
172
+ pipeline_tag: sentence-similarity
173
+ library_name: sentence-transformers
174
+ ---
175
+
176
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
177
+
178
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
179
+
180
+ ## Model Details
181
+
182
+ ### Model Description
183
+ - **Model Type:** Sentence Transformer
184
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) <!-- at revision 8d6b950845285729817bf8e1af1861502c2fed0c -->
185
+ - **Maximum Sequence Length:** 128 tokens
186
+ - **Output Dimensionality:** 384 dimensions
187
+ - **Similarity Function:** Cosine Similarity
188
+ <!-- - **Training Dataset:** Unknown -->
189
+ <!-- - **Language:** Unknown -->
190
+ <!-- - **License:** Unknown -->
191
+
192
+ ### Model Sources
193
+
194
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
195
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
196
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
197
+
198
+ ### Full Model Architecture
199
+
200
+ ```
201
+ SentenceTransformer(
202
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
203
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
204
+ )
205
+ ```
206
+
207
+ ## Usage
208
+
209
+ ### Direct Usage (Sentence Transformers)
210
+
211
+ First install the Sentence Transformers library:
212
+
213
+ ```bash
214
+ pip install -U sentence-transformers
215
+ ```
216
+
217
+ Then you can load this model and run inference.
218
+ ```python
219
+ from sentence_transformers import SentenceTransformer
220
+
221
+ # Download from the 🤗 Hub
222
+ model = SentenceTransformer("legalvn/paraphrase-multilingual-MiniLM-L12-v2-vn-169500")
223
+ # Run inference
224
+ sentences = [
225
+ 'Thời điểm đánh giá và xếp loại chất lượng hằng năm của công chức, viên chức thuộc Bộ Tài chính được diễn ra trong thời gian nào?',
226
+ 'Thời điểm đánh giá xếp loại chất lượng hằng năm\\n...\\n2. Căn cứ tình hình thực tiễn của cơ quan, tổ chức, đơn vị, tập thể lãnh đạo cơ quan, tổ chức, đơn vị thống nhất với cấp ủy cùng cấp về việc kết hợp tổ chức cuộc họp đánh giá, xếp loại chất lượng công chức, viên chức và xếp loại đảng viên trong tổ chức, đơn vị mình, bảo đảm nghiêm túc, hiệu quả, tránh hình thức, lãng phí.\\n3. Tại thời điểm đánh giá, xếp loại chất lượng, trường hợp vắng mặt có lý do chính đáng hoặc nghỉ ốm, nghỉ chế độ thai sản theo quy định của pháp luật, công chức, viên chức có trách nhiệm làm báo cáo tại Phiếu đánh giá, xếp loại chất lượng theo chức trách, nhiệm vụ được giao, gửi cơ quan, tổ chức, đơn vị đang công tác để thực hiện việc đánh giá, xếp loại chất lượng theo quy định của pháp luật và Quy chế này.',
227
+ '“Điều 1. Danh mục trang thiết bị y tế phục vụ phòng, chống dịch COVID-19 trong trường hợp cấp bách theo quy định tại khoản 3 Điều 29 Nghị định số 98/2021/NĐ-CP ngày 08 tháng 11 năm 2021 của Chính phủ về quản lý trang thiết bị y tế \\n1. Máy PCR. \\n2. Hóa chất (sinh phẩm) chạy máy PCR xét nghiệm SARS-CoV-2. \\n3. Test kít xét nghiệm nhanh kháng nguyên/ kháng thể kháng SARS-CoV-2. \\n4. Máy thở chức năng cao, máy thở xâm nhập và không xâm nhập, máy thở không xâm nhập, máy oxy dòng cao, máy thở xách tay. \\n5. Máy lọc máu liên tục. \\n6. Máy X-Quang di động. \\n7. Máy đo khí máu (đo được điện giải, lactat, hematocrite). \\n8. Máy theo dõi bệnh nhân>5 thông số. \\n9. Bơm tiêm điện; Bơm truyền dịch. \\n10. Máy phá rung tim có tạo nhịp. \\n11. Máy đo thời gian đông máu. \\n12. Máy đo huyết động.”',
228
+ ]
229
+ embeddings = model.encode(sentences)
230
+ print(embeddings.shape)
231
+ # [3, 384]
232
+
233
+ # Get the similarity scores for the embeddings
234
+ similarities = model.similarity(embeddings, embeddings)
235
+ print(similarities.shape)
236
+ # [3, 3]
237
+ ```
238
+
239
+ <!--
240
+ ### Direct Usage (Transformers)
241
+
242
+ <details><summary>Click to see the direct usage in Transformers</summary>
243
+
244
+ </details>
245
+ -->
246
+
247
+ <!--
248
+ ### Downstream Usage (Sentence Transformers)
249
+
250
+ You can finetune this model on your own dataset.
251
+
252
+ <details><summary>Click to expand</summary>
253
+
254
+ </details>
255
+ -->
256
+
257
+ <!--
258
+ ### Out-of-Scope Use
259
+
260
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
261
+ -->
262
+
263
+ <!--
264
+ ## Bias, Risks and Limitations
265
+
266
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
267
+ -->
268
+
269
+ <!--
270
+ ### Recommendations
271
+
272
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
273
+ -->
274
+
275
+ ## Training Details
276
+
277
+ ### Training Dataset
278
+
279
+ #### Unnamed Dataset
280
+
281
+
282
+ * Size: 651,725 training samples
283
+ * Columns: <code>queries</code>, <code>corpus</code>, and <code>score</code>
284
+ * Approximate statistics based on the first 1000 samples:
285
+ | | queries | corpus | score |
286
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------|
287
+ | type | string | string | int |
288
+ | details | <ul><li>min: 9 tokens</li><li>mean: 24.71 tokens</li><li>max: 43 tokens</li></ul> | <ul><li>min: 29 tokens</li><li>mean: 121.6 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>0: ~43.80%</li><li>1: ~37.00%</li><li>2: ~19.20%</li></ul> |
289
+ * Samples:
290
+ | queries | corpus | score |
291
+ |:------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
292
+ | <code>Người học ngành quản lý khai thác công trình thủy lợi trình độ cao đẳng phải có khả năng học tập và nâng cao trình độ như thế nào?</code> | <code>Khả năng học tập, nâng cao trình độ\n- Khối lượng khối lượng kiến thức tối thiểu, yêu cầu về năng lực mà người học phải đạt được sau khi tốt nghiệp ngành, nghề Dược trình độ cao đẳng có thể tiếp tục phát triển ở các trình độ cao hơn;\n- Người học sau tốt nghiệp có năng lực tự học, tự cập nhật những tiến bộ khoa học công nghệ trong phạm vi ngành, nghề để nâng cao trình độ hoặc học liên thông lên trình độ cao hơn trong cùng ngành nghề hoặc trong nhóm ngành, nghề hoặc trong cùng lĩnh vực đào tạo.</code> | <code>2</code> |
293
+ | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào?</code> | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật\nTrong phạm vi điều chỉnh của văn bản quy phạm pháp luật:\n1. Xác định nội dung liên quan đến vấn đề bình đẳng giới hoặc vấn đề bất bình đẳng giới, phân biệt đối xử về giới.\n2. Quy định các biện pháp cần thiết để thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới; dự báo tác động của các quy định đó đối với nam và nữ sau khi được ban hành.\n3. Xác định nguồn nhân lực, tài chính cần thiết để triển khai các biện pháp thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới.</code> | <code>2</code> |
294
+ | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào?</code> | <code>Mục đích lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật\nLồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật (sau đây gọi tắt là văn bản) là một biện pháp để thực hiện mục tiêu bình đẳng giới, xóa bỏ phân biệt đối xử về giới, bảo đảm quyền, lợi ích hợp pháp, phù hợp với đặc thù của mỗi giới; tạo cơ hội phát triển như nhau cho nam và nữ trong các lĩnh vực của đời sống xã hội và gia đình; bảo đảm bình đẳng giới thực chất giữa nam và nữ.</code> | <code>1</code> |
295
+ * Loss: [<code>SoftmaxLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#softmaxloss)
296
+
297
+ ### Training Hyperparameters
298
+
299
+ #### All Hyperparameters
300
+ <details><summary>Click to expand</summary>
301
+
302
+ - `overwrite_output_dir`: False
303
+ - `do_predict`: False
304
+ - `eval_strategy`: no
305
+ - `prediction_loss_only`: True
306
+ - `per_device_train_batch_size`: 8
307
+ - `per_device_eval_batch_size`: 8
308
+ - `per_gpu_train_batch_size`: None
309
+ - `per_gpu_eval_batch_size`: None
310
+ - `gradient_accumulation_steps`: 1
311
+ - `eval_accumulation_steps`: None
312
+ - `torch_empty_cache_steps`: None
313
+ - `learning_rate`: 5e-05
314
+ - `weight_decay`: 0.0
315
+ - `adam_beta1`: 0.9
316
+ - `adam_beta2`: 0.999
317
+ - `adam_epsilon`: 1e-08
318
+ - `max_grad_norm`: 1.0
319
+ - `num_train_epochs`: 3.0
320
+ - `max_steps`: -1
321
+ - `lr_scheduler_type`: linear
322
+ - `lr_scheduler_kwargs`: {}
323
+ - `warmup_ratio`: 0.0
324
+ - `warmup_steps`: 0
325
+ - `log_level`: passive
326
+ - `log_level_replica`: warning
327
+ - `log_on_each_node`: True
328
+ - `logging_nan_inf_filter`: True
329
+ - `save_safetensors`: True
330
+ - `save_on_each_node`: False
331
+ - `save_only_model`: False
332
+ - `restore_callback_states_from_checkpoint`: False
333
+ - `no_cuda`: False
334
+ - `use_cpu`: False
335
+ - `use_mps_device`: False
336
+ - `seed`: 42
337
+ - `data_seed`: None
338
+ - `jit_mode_eval`: False
339
+ - `use_ipex`: False
340
+ - `bf16`: False
341
+ - `fp16`: False
342
+ - `fp16_opt_level`: O1
343
+ - `half_precision_backend`: auto
344
+ - `bf16_full_eval`: False
345
+ - `fp16_full_eval`: False
346
+ - `tf32`: None
347
+ - `local_rank`: 0
348
+ - `ddp_backend`: None
349
+ - `tpu_num_cores`: None
350
+ - `tpu_metrics_debug`: False
351
+ - `debug`: []
352
+ - `dataloader_drop_last`: False
353
+ - `dataloader_num_workers`: 0
354
+ - `dataloader_prefetch_factor`: None
355
+ - `past_index`: -1
356
+ - `disable_tqdm`: False
357
+ - `remove_unused_columns`: True
358
+ - `label_names`: None
359
+ - `load_best_model_at_end`: False
360
+ - `ignore_data_skip`: False
361
+ - `fsdp`: []
362
+ - `fsdp_min_num_params`: 0
363
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
364
+ - `fsdp_transformer_layer_cls_to_wrap`: None
365
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
366
+ - `deepspeed`: None
367
+ - `label_smoothing_factor`: 0.0
368
+ - `optim`: adamw_torch
369
+ - `optim_args`: None
370
+ - `adafactor`: False
371
+ - `group_by_length`: False
372
+ - `length_column_name`: length
373
+ - `ddp_find_unused_parameters`: None
374
+ - `ddp_bucket_cap_mb`: None
375
+ - `ddp_broadcast_buffers`: False
376
+ - `dataloader_pin_memory`: True
377
+ - `dataloader_persistent_workers`: False
378
+ - `skip_memory_metrics`: True
379
+ - `use_legacy_prediction_loop`: False
380
+ - `push_to_hub`: False
381
+ - `resume_from_checkpoint`: None
382
+ - `hub_model_id`: None
383
+ - `hub_strategy`: every_save
384
+ - `hub_private_repo`: False
385
+ - `hub_always_push`: False
386
+ - `gradient_checkpointing`: False
387
+ - `gradient_checkpointing_kwargs`: None
388
+ - `include_inputs_for_metrics`: False
389
+ - `eval_do_concat_batches`: True
390
+ - `fp16_backend`: auto
391
+ - `push_to_hub_model_id`: None
392
+ - `push_to_hub_organization`: None
393
+ - `mp_parameters`:
394
+ - `auto_find_batch_size`: False
395
+ - `full_determinism`: False
396
+ - `torchdynamo`: None
397
+ - `ray_scope`: last
398
+ - `ddp_timeout`: 1800
399
+ - `torch_compile`: False
400
+ - `torch_compile_backend`: None
401
+ - `torch_compile_mode`: None
402
+ - `dispatch_batches`: None
403
+ - `split_batches`: None
404
+ - `include_tokens_per_second`: False
405
+ - `include_num_input_tokens_seen`: False
406
+ - `neftune_noise_alpha`: None
407
+ - `optim_target_modules`: None
408
+ - `batch_eval_metrics`: False
409
+ - `eval_on_start`: False
410
+ - `eval_use_gather_object`: False
411
+ - `prompts`: None
412
+ - `batch_sampler`: batch_sampler
413
+ - `multi_dataset_batch_sampler`: proportional
414
+
415
+ </details>
416
+
417
+ ### Training Logs
418
+ <details><summary>Click to expand</summary>
419
+
420
+ | Epoch | Step | Training Loss |
421
+ |:------:|:------:|:-------------:|
422
+ | 0.0061 | 500 | 1.0473 |
423
+ | 0.0123 | 1000 | 1.0447 |
424
+ | 0.0184 | 1500 | 1.0383 |
425
+ | 0.0246 | 2000 | 1.0395 |
426
+ | 0.0307 | 2500 | 1.0436 |
427
+ | 0.0368 | 3000 | 1.0375 |
428
+ | 0.0430 | 3500 | 1.0189 |
429
+ | 0.0491 | 4000 | 1.0282 |
430
+ | 0.0552 | 4500 | 1.0355 |
431
+ | 0.0614 | 5000 | 1.0286 |
432
+ | 0.0675 | 5500 | 1.0264 |
433
+ | 0.0737 | 6000 | 1.0174 |
434
+ | 0.0798 | 6500 | 1.0238 |
435
+ | 0.0859 | 7000 | 1.0217 |
436
+ | 0.0921 | 7500 | 1.0203 |
437
+ | 0.0982 | 8000 | 1.0201 |
438
+ | 0.1043 | 8500 | 1.0266 |
439
+ | 0.1105 | 9000 | 1.0379 |
440
+ | 0.1166 | 9500 | 1.0367 |
441
+ | 0.1228 | 10000 | 1.0384 |
442
+ | 0.1289 | 10500 | 1.0291 |
443
+ | 0.1350 | 11000 | 1.0362 |
444
+ | 0.1412 | 11500 | 1.0354 |
445
+ | 0.1473 | 12000 | 1.0204 |
446
+ | 0.1534 | 12500 | 1.0401 |
447
+ | 0.1596 | 13000 | 1.0237 |
448
+ | 0.1657 | 13500 | 1.0271 |
449
+ | 0.1719 | 14000 | 1.0235 |
450
+ | 0.1780 | 14500 | 1.0329 |
451
+ | 0.1841 | 15000 | 1.0474 |
452
+ | 0.1903 | 15500 | 1.0547 |
453
+ | 0.1964 | 16000 | 1.0557 |
454
+ | 0.2025 | 16500 | 1.0626 |
455
+ | 0.2087 | 17000 | 1.0551 |
456
+ | 0.2148 | 17500 | 1.0526 |
457
+ | 0.2210 | 18000 | 1.125 |
458
+ | 0.2271 | 18500 | 1.2996 |
459
+ | 0.2332 | 19000 | 1.0703 |
460
+ | 0.2394 | 19500 | 1.0601 |
461
+ | 0.2455 | 20000 | 1.0835 |
462
+ | 0.2516 | 20500 | 1.0583 |
463
+ | 0.2578 | 21000 | 1.141 |
464
+ | 0.2639 | 21500 | 1.0802 |
465
+ | 0.2701 | 22000 | 1.0589 |
466
+ | 0.2762 | 22500 | 1.086 |
467
+ | 0.2823 | 23000 | 1.0743 |
468
+ | 0.2885 | 23500 | 1.0605 |
469
+ | 0.2946 | 24000 | 1.0602 |
470
+ | 0.3007 | 24500 | 1.0732 |
471
+ | 0.3069 | 25000 | 1.0614 |
472
+ | 0.3130 | 25500 | 1.0666 |
473
+ | 0.3192 | 26000 | 1.0669 |
474
+ | 0.3253 | 26500 | 1.0627 |
475
+ | 0.3314 | 27000 | 1.0659 |
476
+ | 0.3376 | 27500 | 1.07 |
477
+ | 0.3437 | 28000 | 1.0783 |
478
+ | 0.3498 | 28500 | 1.078 |
479
+ | 0.3560 | 29000 | 1.0832 |
480
+ | 0.3621 | 29500 | 1.0695 |
481
+ | 0.3683 | 30000 | 1.0714 |
482
+ | 0.3744 | 30500 | 1.3794 |
483
+ | 0.3805 | 31000 | 1.0838 |
484
+ | 0.3867 | 31500 | 1.0541 |
485
+ | 0.3928 | 32000 | 1.0799 |
486
+ | 0.3989 | 32500 | 1.0622 |
487
+ | 0.4051 | 33000 | 1.0597 |
488
+ | 0.4112 | 33500 | 1.0731 |
489
+ | 0.4174 | 34000 | 1.0871 |
490
+ | 0.4235 | 34500 | 1.0535 |
491
+ | 0.4296 | 35000 | 1.3215 |
492
+ | 0.4358 | 35500 | 1.1501 |
493
+ | 0.4419 | 36000 | 1.1088 |
494
+ | 0.4480 | 36500 | 1.0844 |
495
+ | 0.4542 | 37000 | 1.0981 |
496
+ | 0.4603 | 37500 | 1.0856 |
497
+ | 0.4665 | 38000 | 1.0956 |
498
+ | 0.4726 | 38500 | 1.0813 |
499
+ | 0.4787 | 39000 | 1.0843 |
500
+ | 0.4849 | 39500 | 1.1053 |
501
+ | 0.4910 | 40000 | 1.092 |
502
+ | 0.4971 | 40500 | 1.081 |
503
+ | 0.5033 | 41000 | 1.0919 |
504
+ | 0.5094 | 41500 | 1.0681 |
505
+ | 0.5156 | 42000 | 1.0826 |
506
+ | 0.5217 | 42500 | 1.0809 |
507
+ | 0.5278 | 43000 | 1.093 |
508
+ | 0.5340 | 43500 | 1.0709 |
509
+ | 0.5401 | 44000 | 1.0623 |
510
+ | 0.5462 | 44500 | 1.0801 |
511
+ | 0.5524 | 45000 | 1.0833 |
512
+ | 0.5585 | 45500 | 1.0816 |
513
+ | 0.5647 | 46000 | 1.0697 |
514
+ | 0.5708 | 46500 | 1.0864 |
515
+ | 0.5769 | 47000 | 1.0744 |
516
+ | 0.5831 | 47500 | 1.0897 |
517
+ | 0.5892 | 48000 | 1.0727 |
518
+ | 0.5953 | 48500 | 1.0621 |
519
+ | 0.6015 | 49000 | 1.0582 |
520
+ | 0.6076 | 49500 | 1.0681 |
521
+ | 0.6138 | 50000 | 1.083 |
522
+ | 0.6199 | 50500 | 1.0632 |
523
+ | 0.6260 | 51000 | 1.0809 |
524
+ | 0.6322 | 51500 | 1.0525 |
525
+ | 0.6383 | 52000 | 1.6649 |
526
+ | 0.6444 | 52500 | 1.0873 |
527
+ | 0.6506 | 53000 | 1.0649 |
528
+ | 0.6567 | 53500 | 1.0591 |
529
+ | 0.6629 | 54000 | 1.061 |
530
+ | 0.6690 | 54500 | 1.0682 |
531
+ | 0.6751 | 55000 | 1.0616 |
532
+ | 0.6813 | 55500 | 1.0827 |
533
+ | 0.6874 | 56000 | 1.0799 |
534
+ | 0.6935 | 56500 | 1.0705 |
535
+ | 0.6997 | 57000 | 1.0821 |
536
+ | 0.7058 | 57500 | 1.0763 |
537
+ | 0.7120 | 58000 | 1.0842 |
538
+ | 0.7181 | 58500 | 1.0813 |
539
+ | 0.7242 | 59000 | 1.0678 |
540
+ | 0.7304 | 59500 | 1.0894 |
541
+ | 0.7365 | 60000 | 1.0733 |
542
+ | 0.7426 | 60500 | 1.0688 |
543
+ | 0.7488 | 61000 | 1.0665 |
544
+ | 0.7549 | 61500 | 1.0681 |
545
+ | 0.7611 | 62000 | 1.301 |
546
+ | 0.7672 | 62500 | 1.0907 |
547
+ | 0.7733 | 63000 | 1.3941 |
548
+ | 0.7795 | 63500 | 1.1355 |
549
+ | 0.7856 | 64000 | 1.2196 |
550
+ | 0.7917 | 64500 | 1.225 |
551
+ | 0.7979 | 65000 | 1.1437 |
552
+ | 0.8040 | 65500 | 1.0787 |
553
+ | 0.8102 | 66000 | 1.0686 |
554
+ | 0.8163 | 66500 | 1.1017 |
555
+ | 0.8224 | 67000 | 1.0999 |
556
+ | 0.8286 | 67500 | 1.0771 |
557
+ | 0.8347 | 68000 | 1.1015 |
558
+ | 0.8408 | 68500 | 1.0826 |
559
+ | 0.8470 | 69000 | 1.1046 |
560
+ | 0.8531 | 69500 | 1.0735 |
561
+ | 0.8593 | 70000 | 1.1056 |
562
+ | 0.8654 | 70500 | 1.1077 |
563
+ | 0.8715 | 71000 | 1.0897 |
564
+ | 0.8777 | 71500 | 1.0775 |
565
+ | 0.8838 | 72000 | 1.0907 |
566
+ | 0.8899 | 72500 | 1.0705 |
567
+ | 0.8961 | 73000 | 1.0776 |
568
+ | 0.9022 | 73500 | 1.0896 |
569
+ | 0.9084 | 74000 | 1.0889 |
570
+ | 0.9145 | 74500 | 1.0804 |
571
+ | 0.9206 | 75000 | 1.1087 |
572
+ | 0.9268 | 75500 | 1.0738 |
573
+ | 0.9329 | 76000 | 1.0806 |
574
+ | 0.9390 | 76500 | 1.0899 |
575
+ | 0.9452 | 77000 | 1.0814 |
576
+ | 0.9513 | 77500 | 1.0723 |
577
+ | 0.9575 | 78000 | 1.0923 |
578
+ | 0.9636 | 78500 | 1.0748 |
579
+ | 0.9697 | 79000 | 1.0745 |
580
+ | 0.9759 | 79500 | 1.081 |
581
+ | 0.9820 | 80000 | 1.08 |
582
+ | 0.9881 | 80500 | 1.0905 |
583
+ | 0.9943 | 81000 | 1.1064 |
584
+ | 1.0004 | 81500 | 1.0929 |
585
+ | 1.0066 | 82000 | 1.0815 |
586
+ | 1.0127 | 82500 | 1.0768 |
587
+ | 1.0188 | 83000 | 1.1004 |
588
+ | 1.0250 | 83500 | 1.0835 |
589
+ | 1.0311 | 84000 | 1.0765 |
590
+ | 1.0372 | 84500 | 1.0906 |
591
+ | 1.0434 | 85000 | 1.096 |
592
+ | 1.0495 | 85500 | 1.1085 |
593
+ | 1.0557 | 86000 | 1.0913 |
594
+ | 1.0618 | 86500 | 1.0974 |
595
+ | 1.0679 | 87000 | 1.0763 |
596
+ | 1.0741 | 87500 | 1.0894 |
597
+ | 1.0802 | 88000 | 1.1065 |
598
+ | 1.0863 | 88500 | 1.0898 |
599
+ | 1.0925 | 89000 | 1.1036 |
600
+ | 1.0986 | 89500 | 1.0825 |
601
+ | 1.1048 | 90000 | 1.1164 |
602
+ | 1.1109 | 90500 | 1.0811 |
603
+ | 1.1170 | 91000 | 1.115 |
604
+ | 1.1232 | 91500 | 1.1123 |
605
+ | 1.1293 | 92000 | 1.0846 |
606
+ | 1.1354 | 92500 | 1.0917 |
607
+ | 1.1416 | 93000 | 1.0879 |
608
+ | 1.1477 | 93500 | 1.0969 |
609
+ | 1.1539 | 94000 | 1.0849 |
610
+ | 1.1600 | 94500 | 1.0852 |
611
+ | 1.1661 | 95000 | 1.0774 |
612
+ | 1.1723 | 95500 | 1.0984 |
613
+ | 1.1784 | 96000 | 1.0936 |
614
+ | 1.1845 | 96500 | 1.0842 |
615
+ | 1.1907 | 97000 | 1.0895 |
616
+ | 1.1968 | 97500 | 1.09 |
617
+ | 1.2030 | 98000 | 1.0813 |
618
+ | 1.2091 | 98500 | 1.0965 |
619
+ | 1.2152 | 99000 | 1.1017 |
620
+ | 1.2214 | 99500 | 1.1045 |
621
+ | 1.2275 | 100000 | 1.093 |
622
+ | 1.2336 | 100500 | 1.0903 |
623
+ | 1.2398 | 101000 | 1.1133 |
624
+ | 1.2459 | 101500 | 1.0883 |
625
+ | 1.2521 | 102000 | 1.1192 |
626
+ | 1.2582 | 102500 | 1.0817 |
627
+ | 1.2643 | 103000 | 1.0822 |
628
+ | 1.2705 | 103500 | 1.0915 |
629
+ | 1.2766 | 104000 | 1.1128 |
630
+ | 1.2827 | 104500 | 1.0786 |
631
+ | 1.2889 | 105000 | 1.1101 |
632
+ | 1.2950 | 105500 | 1.097 |
633
+ | 1.3012 | 106000 | 1.095 |
634
+ | 1.3073 | 106500 | 1.0884 |
635
+ | 1.3134 | 107000 | 1.09 |
636
+ | 1.3196 | 107500 | 1.1057 |
637
+ | 1.3257 | 108000 | 1.087 |
638
+ | 1.3318 | 108500 | 1.1009 |
639
+ | 1.3380 | 109000 | 1.0849 |
640
+ | 1.3441 | 109500 | 1.0886 |
641
+ | 1.3503 | 110000 | 1.0805 |
642
+ | 1.3564 | 110500 | 1.0808 |
643
+ | 1.3625 | 111000 | 1.1025 |
644
+ | 1.3687 | 111500 | 1.0955 |
645
+ | 1.3748 | 112000 | 1.0824 |
646
+ | 1.3809 | 112500 | 1.0835 |
647
+ | 1.3871 | 113000 | 1.1168 |
648
+ | 1.3932 | 113500 | 1.0881 |
649
+ | 1.3994 | 114000 | 1.0946 |
650
+ | 1.4055 | 114500 | 1.0819 |
651
+ | 1.4116 | 115000 | 1.1155 |
652
+ | 1.4178 | 115500 | 1.1021 |
653
+ | 1.4239 | 116000 | 1.102 |
654
+ | 1.4300 | 116500 | 1.0733 |
655
+ | 1.4362 | 117000 | 1.0987 |
656
+ | 1.4423 | 117500 | 1.1103 |
657
+ | 1.4485 | 118000 | 1.1034 |
658
+ | 1.4546 | 118500 | 1.0987 |
659
+ | 1.4607 | 119000 | 1.0908 |
660
+ | 1.4669 | 119500 | 1.0986 |
661
+ | 1.4730 | 120000 | 1.0988 |
662
+ | 1.4791 | 120500 | 1.1023 |
663
+ | 1.4853 | 121000 | 1.1013 |
664
+ | 1.4914 | 121500 | 1.0896 |
665
+ | 1.4976 | 122000 | 1.8455 |
666
+ | 1.5037 | 122500 | 1.1155 |
667
+ | 1.5098 | 123000 | 1.1502 |
668
+ | 1.5160 | 123500 | 1.1183 |
669
+ | 1.5221 | 124000 | 1.0958 |
670
+ | 1.5282 | 124500 | 1.1098 |
671
+ | 1.5344 | 125000 | 1.1021 |
672
+ | 1.5405 | 125500 | 1.0912 |
673
+ | 1.5467 | 126000 | 1.0961 |
674
+ | 1.5528 | 126500 | 1.0858 |
675
+ | 1.5589 | 127000 | 1.0784 |
676
+ | 1.5651 | 127500 | 1.1112 |
677
+ | 1.5712 | 128000 | 1.1067 |
678
+ | 1.5773 | 128500 | 1.0986 |
679
+ | 1.5835 | 129000 | 1.0824 |
680
+ | 1.5896 | 129500 | 1.1072 |
681
+ | 1.5958 | 130000 | 1.1098 |
682
+ | 1.6019 | 130500 | 1.0962 |
683
+ | 1.6080 | 131000 | 1.1108 |
684
+ | 1.6142 | 131500 | 1.1187 |
685
+ | 1.6203 | 132000 | 1.0923 |
686
+ | 1.6264 | 132500 | 1.1003 |
687
+ | 1.6326 | 133000 | 1.0865 |
688
+ | 1.6387 | 133500 | 1.099 |
689
+ | 1.6449 | 134000 | 1.0838 |
690
+ | 1.6510 | 134500 | 1.0792 |
691
+ | 1.6571 | 135000 | 1.0966 |
692
+ | 1.6633 | 135500 | 1.0782 |
693
+ | 1.6694 | 136000 | 1.1123 |
694
+ | 1.6755 | 136500 | 1.0923 |
695
+ | 1.6817 | 137000 | 1.0873 |
696
+ | 1.6878 | 137500 | 1.0807 |
697
+ | 1.6940 | 138000 | 1.083 |
698
+ | 1.7001 | 138500 | 1.0864 |
699
+ | 1.7062 | 139000 | 1.0828 |
700
+ | 1.7124 | 139500 | 1.0973 |
701
+ | 1.7185 | 140000 | 1.1022 |
702
+ | 1.7246 | 140500 | 1.0837 |
703
+ | 1.7308 | 141000 | 1.0985 |
704
+ | 1.7369 | 141500 | 1.1049 |
705
+ | 1.7431 | 142000 | 1.079 |
706
+ | 1.7492 | 142500 | 1.0757 |
707
+ | 1.7553 | 143000 | 1.0808 |
708
+ | 1.7615 | 143500 | 1.0743 |
709
+ | 1.7676 | 144000 | 1.0933 |
710
+ | 1.7737 | 144500 | 1.0938 |
711
+ | 1.7799 | 145000 | 1.1121 |
712
+ | 1.7860 | 145500 | 1.1138 |
713
+ | 1.7922 | 146000 | 1.1063 |
714
+ | 1.7983 | 146500 | 1.097 |
715
+ | 1.8044 | 147000 | 1.0999 |
716
+ | 1.8106 | 147500 | 1.1035 |
717
+ | 1.8167 | 148000 | 1.0786 |
718
+ | 1.8228 | 148500 | 1.0824 |
719
+ | 1.8290 | 149000 | 1.1097 |
720
+ | 1.8351 | 149500 | 1.0744 |
721
+ | 1.8413 | 150000 | 1.0902 |
722
+ | 1.8474 | 150500 | 1.0841 |
723
+ | 1.8535 | 151000 | 1.0961 |
724
+ | 1.8597 | 151500 | 1.0778 |
725
+ | 1.8658 | 152000 | 1.0784 |
726
+ | 1.8719 | 152500 | 1.0741 |
727
+ | 1.8781 | 153000 | 1.0879 |
728
+ | 1.8842 | 153500 | 1.079 |
729
+ | 1.8904 | 154000 | 1.0967 |
730
+ | 1.8965 | 154500 | 1.0906 |
731
+ | 1.9026 | 155000 | 1.0836 |
732
+ | 1.9088 | 155500 | 1.0932 |
733
+ | 1.9149 | 156000 | 1.0823 |
734
+ | 1.9210 | 156500 | 1.087 |
735
+ | 1.9272 | 157000 | 1.0892 |
736
+ | 1.9333 | 157500 | 1.0842 |
737
+ | 1.9395 | 158000 | 1.0837 |
738
+ | 1.9456 | 158500 | 1.1001 |
739
+ | 1.9517 | 159000 | 1.0727 |
740
+ | 1.9579 | 159500 | 1.0875 |
741
+ | 1.9640 | 160000 | 1.0845 |
742
+ | 1.9701 | 160500 | 1.0805 |
743
+ | 1.9763 | 161000 | 1.0825 |
744
+ | 1.9824 | 161500 | 1.0886 |
745
+ | 1.9886 | 162000 | 1.0856 |
746
+ | 1.9947 | 162500 | 1.0816 |
747
+ | 2.0008 | 163000 | 1.1005 |
748
+ | 2.0070 | 163500 | 1.0775 |
749
+ | 2.0131 | 164000 | 1.0875 |
750
+ | 2.0192 | 164500 | 1.09 |
751
+ | 2.0254 | 165000 | 1.086 |
752
+ | 2.0315 | 165500 | 1.087 |
753
+ | 2.0377 | 166000 | 1.0815 |
754
+ | 2.0438 | 166500 | 1.0832 |
755
+ | 2.0499 | 167000 | 1.0801 |
756
+ | 2.0561 | 167500 | 1.0828 |
757
+ | 2.0622 | 168000 | 1.0819 |
758
+ | 2.0683 | 168500 | 1.0767 |
759
+ | 2.0745 | 169000 | 1.0819 |
760
+ | 2.0806 | 169500 | 1.1013 |
761
+
762
+ </details>
763
+
764
+ ### Framework Versions
765
+ - Python: 3.10.10
766
+ - Sentence Transformers: 3.3.1
767
+ - Transformers: 4.43.0
768
+ - PyTorch: 2.5.0+cu124
769
+ - Accelerate: 1.1.1
770
+ - Datasets: 3.1.0
771
+ - Tokenizers: 0.19.1
772
+
773
+ ## Citation
774
+
775
+ ### BibTeX
776
+
777
+ #### Sentence Transformers and SoftmaxLoss
778
+ ```bibtex
779
+ @inproceedings{reimers-2019-sentence-bert,
780
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
781
+ author = "Reimers, Nils and Gurevych, Iryna",
782
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
783
+ month = "11",
784
+ year = "2019",
785
+ publisher = "Association for Computational Linguistics",
786
+ url = "https://arxiv.org/abs/1908.10084",
787
+ }
788
+ ```
789
+
790
+ <!--
791
+ ## Glossary
792
+
793
+ *Clearly define terms in order to be accessible across audiences.*
794
+ -->
795
+
796
+ <!--
797
+ ## Model Card Authors
798
+
799
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
800
+ -->
801
+
802
+ <!--
803
+ ## Model Card Contact
804
+
805
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
806
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "tmp_trainer/checkpoint-169500",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 384,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 1536,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.43.0",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 250037
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.43.0",
5
+ "pytorch": "2.5.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd8747384d0c9de7fd5b6595b646f72c693e46b2579980b82ec9f9164f34dc2f
3
+ size 470637416
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "do_lower_case": true,
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "max_length": 128,
51
+ "model_max_length": 128,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "<unk>"
64
+ }
unigram.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
3
+ size 14763260