nampham1106
commited on
Commit
•
e65bc34
1
Parent(s):
91142fb
Add new SentenceTransformer model with an onnx backend
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +967 -0
- config.json +52 -0
- config_sentence_transformers.json +10 -0
- configuration.py +145 -0
- modules.json +20 -0
- onnx/model.onnx +3 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +61 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,967 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- vi
|
4 |
+
tags:
|
5 |
+
- sentence-transformers
|
6 |
+
- sentence-similarity
|
7 |
+
- feature-extraction
|
8 |
+
- generated_from_trainer
|
9 |
+
- dataset_size:114654
|
10 |
+
- loss:MatryoshkaLoss
|
11 |
+
- loss:MultipleNegativesRankingLoss
|
12 |
+
base_model: Alibaba-NLP/gte-multilingual-base
|
13 |
+
widget:
|
14 |
+
- source_sentence: 'query: Kế hoạch 504'
|
15 |
+
sentences:
|
16 |
+
- '**Viêm khớp dạng thấp** cần được chữa trị sớm, toàn diện, theo dõi chặt chẽ.
|
17 |
+
Tuy nhiên, việc điều trị thường gặp nhiều khó khăn do bệnh tiến triển khá nhanh,
|
18 |
+
rất khó điều trị dứt điểm và thường gây ra nhiều biến chứng nặng nề ở các khớp
|
19 |
+
xương cũng như nhiều cơ quan khác trên cơ thể:
|
20 |
+
|
21 |
+
|
22 |
+
* Mất khả năng lao động: Hiện tượng cứng khớp dẫn đến hạn chế khả năng vận động,
|
23 |
+
[**giảm sức đề kháng**](https://www.vinmec.com/vie/bai-viet/cac-vitamin-va-thuc-pham-tang-suc-de-khang-cho-tre-vi)
|
24 |
+
cơ thể, đau đớn kéo dài ngày càng nghiêm trọng...
|
25 |
+
|
26 |
+
* Nguy cơ tàn phế: **Viêm khớp dạng thấp** lâu ngày có thể dẫn tới teo cơ, dính
|
27 |
+
khớp, biến dạng khớp, thậm chí gây ra tàn phế. Có khoảng 89% người bệnh gặp phải
|
28 |
+
tình trạng cứng khớp, bàn tay khó cầm nắm, khó đi lại sau 10 năm khởi phát bệnh.
|
29 |
+
|
30 |
+
* Tăng nguy cơ mắc bệnh tim mạch và xảy ra biến chứng tim mạch, đe dọa tử vong
|
31 |
+
nếu không được theo dõi chặt chẽ.
|
32 |
+
|
33 |
+
* Ảnh hưởng đến khả năng mang thai: Khoảng 25% phụ nữ bị **viêm khớp dạng thấp**
|
34 |
+
gặp khó khăn trong việc thụ thai.'
|
35 |
+
- Một kế hoạch giáo dục để giúp các học sinh trường công bị khuyết tật về thể chất
|
36 |
+
hoặc tinh thần có thể sinh hoạt trong một lớp học bình thường. Kế hoạch 504 được
|
37 |
+
xây dựng theo Đạo luật Phục hồi năm 1973, một quy chế dân quyền liên bang. Những
|
38 |
+
trẻ không đủ điều kiện tham gia chương trình giáo dục cá nhân hóa (IEP) có thể
|
39 |
+
đủ điều kiện tham gia chương trình 504, được giáo viên giám sát và phụ huynh ít
|
40 |
+
tham gia hơn IEP.
|
41 |
+
- '### 4.1 Chẩn đoán lâm sàng
|
42 |
+
|
43 |
+
|
44 |
+
Biểu hiện đau, mỏi bắp chân giống với hội chứng thiếu máu mạn tính chi do [**xơ
|
45 |
+
vữa động mạch**](https://www.vinmec.com/vie/benh/xo-vua-dong-mach-ngoai-bien-4882).
|
46 |
+
|
47 |
+
|
48 |
+
### 4.2 Chẩn đoán hình ảnh
|
49 |
+
|
50 |
+
|
51 |
+
Các hình ảnh nhận được trước và sau khi làm nghiệm pháp kiễng chân, giúp cho chẩn
|
52 |
+
đoán xác định và chẩn đoán thể bệnh
|
53 |
+
|
54 |
+
|
55 |
+
* Siêu âm: Giúp đánh giá lưu lượng dòng chảy, vị trí và mức độ hẹp tắc, vữa xơ
|
56 |
+
của động mạch, lưu lượng tuần hoàn ngoại vi. Với chẩn đoán **bẫy động mạch khoeo**
|
57 |
+
siêu âm ở tư thế bình thường và tư thế bàn chân gập về phía gan chân tối đa cần
|
58 |
+
được thực hiện. Khi tốc độ dòng chảy ngoại vi bị giảm sau làm nghiệm pháp nghĩa
|
59 |
+
là có PAES. Kết hợp với lâm sàng (bắt mạch) khi bệnh nhân ở tư thế kiễng chân
|
60 |
+
để chẩn đoán chính xác hơn.
|
61 |
+
|
62 |
+
* [**Chụp cắt lớp vi tính đa dãy**](https://www.vinmec.com/vie/bai-viet/tim-hieu-phuong-phap-chup-cat-lop-dien-toan-da-lat-cat-msct-vi)
|
63 |
+
(MSCT)
|
64 |
+
|
65 |
+
* [**Chụp cộng hưởng từ**](https://www.vinmec.com/vie/bai-viet/ung-dung-chup-cong-huong-tu-mri-trong-chan-doan-chan-thuong-khop-goi-vi)
|
66 |
+
(MRI).'
|
67 |
+
- source_sentence: 'query: Triệu chứng trào ngược dạ dày thực quản ở trẻ sơ sinh'
|
68 |
+
sentences:
|
69 |
+
- '[**Trào ngược dạ dày thực quản**](https://www.vinmec.com/vie/bai-viet/dung-lo-la-voi-trao-nguoc-da-day-thuc-quan-o-tre-so-sinh-vi)
|
70 |
+
ở trẻ sơ sinh không phải là vấn đề lo ngại. Điều bất thường là dạ dày chứa acid
|
71 |
+
gây kích thích cổ họng hoặc thực quản và gây ra cảm giác đau rát khó chịu cho
|
72 |
+
trẻ với các dấu hiệu và triệu chứng của bệnh.
|
73 |
+
|
74 |
+
|
75 |
+
Trong trường hợp có những triệu chứng bất thường sau, nên đưa trẻ đi khám bác
|
76 |
+
sĩ
|
77 |
+
|
78 |
+
|
79 |
+
* Không tăng cân
|
80 |
+
|
81 |
+
* Quấy khóc thường xuyên.
|
82 |
+
|
83 |
+
* Nôn ói nhiều.
|
84 |
+
|
85 |
+
* Dịch nôn lỏng màu xanh lá cây hoặc màu vàng.
|
86 |
+
|
87 |
+
* Chất nôn có chứa máu hoặc có các thành phần khác có màu giống bã cà phê
|
88 |
+
|
89 |
+
* Có xuất hiện máu ở trong phân
|
90 |
+
|
91 |
+
* Khó thở hoặc ho mãn tính
|
92 |
+
|
93 |
+
* Kích thích bất thường sau ăn.'
|
94 |
+
- '[**Khoai lang**](https://www.vinmec.com/vie/bai-viet/luong-calo-trong-khoai-lang-vi)
|
95 |
+
chứa nhiều kali, giúp cân bằng lượng điện giải trong cơ thể khi uống rượu. Bên
|
96 |
+
cạnh đó, khoai lang còn có chứa nhiều carbs phức tạp, cơ thể sẽ tiêu hóa lâu hơn,
|
97 |
+
giúp giảm tác động tiêu cực của rượu lên cơ thể. Việc ăn khoai lang giảm thiểu
|
98 |
+
việc tăng đường trong máu đột biến, giảm cảm giác đói hay tình trạng ăn quá nhiều
|
99 |
+
do uống rượu. Người dùng nên ăn khoai lang luộc, hấp hoặc nướng trước khi uống
|
100 |
+
rượu.'
|
101 |
+
- 'Khó thở là loại cấp cứu nhi khoa phổ biến nhất và cũng là lý do phổ biến nhất
|
102 |
+
khi nhập viện. Nhiều trẻ thậm chí cần phải thở oxy.
|
103 |
+
|
104 |
+
|
105 |
+
Những năm đầu đời của trẻ là thời điểm khó thở có khả năng gây nguy hiểm nhất
|
106 |
+
vì phế quản còn nhỏ hẹp dễ bị co thắt phù nề khi xảy ra các phản ứng viêm tại
|
107 |
+
chỗ.
|
108 |
+
|
109 |
+
|
110 |
+
Khó thở xuất phát từ các vấn đề ở cổ họng, thanh quản, khí quản hoặc phổi. Dưới
|
111 |
+
đây là một số nguyên nhân phổ biến khiến **trẻ bị khó thở**:
|
112 |
+
|
113 |
+
|
114 |
+
* [**Sốc phản vệ**](https://www.vinmec.com/vie/bai-viet/soc-phan-ve-la-gi-va-thuong-xay-ra-trong-truong-hop-nao-vi)
|
115 |
+
(phản ứng dị ứng nghiêm trọng): Nghi ngờ khi **trẻ khó thở** đột ngột và [**nổi
|
116 |
+
mề đay**](https://www.vinmec.com/vie/bai-viet/cach-chua-di-ung-noi-me-day-tai-nha-vi)
|
117 |
+
lan rộng. Thường gặp tác nhân do ong đốt hoặc dị ứng thức ăn như đậu phộng.
|
118 |
+
|
119 |
+
* Bệnh hen suyễn: Các triệu chứng của cơn hen suyễn là [**thở khò khè**](https://www.vinmec.com/vie/bai-viet/tre-bi-kho-khe-nhan-dien-dau-hieu-bat-thuong-vi),
|
120 |
+
ho và khó thở.
|
121 |
+
|
122 |
+
* [**Viêm tiểu phế quản**](https://www.vinmec.com/vie/bai-viet/thu-pham-gay-viem-tieu-phe-quan-o-tre-em-vi):
|
123 |
+
Một bệnh nhiễm vi-rút ở các đường dẫn khí nhỏ nhất trong phổi. Thở khò khè trong
|
124 |
+
2 năm đầu đời thường do viêm tiểu phế quản. Các triệu chứng chính là thở nhanh
|
125 |
+
và thở khò khè.
|
126 |
+
|
127 |
+
* Croup: Nhiễm vi-rút đường hô hấp trên và đường hô hấp dưới do virus á cúm tuýp
|
128 |
+
1. Các triệu chứng chính là ho khan và khàn giọng. Một số trẻ em bị viêm phổi
|
129 |
+
nặng sẽ phát ra âm thanh gắt và căng khi thở vào. Đây được gọi là thở rít.
|
130 |
+
|
131 |
+
* Dị vật đường thở: Nghi ngờ khi trẻ đột ngột ho và sặc. Thường gặp dị vật là
|
132 |
+
lạc và các loại hạt.
|
133 |
+
|
134 |
+
* Bệnh cúm: Các triệu chứng chính là sốt, sổ mũi, đau họng và ho nhiều. Virus
|
135 |
+
cúm cũng có thể gây ra các biến chứng như viêm phổi. Vắc xin có thể ngăn ngừa
|
136 |
+
bệnh.
|
137 |
+
|
138 |
+
* Viêm phổi: Tình trạng nhiễm trùng phần phổi cung cấp oxy cho máu. Bị viêm phổi
|
139 |
+
có thể làm giảm nồng độ oxy trong máu và gây khó thở. Nhiều nguyên nhân do vi
|
140 |
+
khuẩn có thể được ngăn ngừa bằng vắc xin.
|
141 |
+
|
142 |
+
* Ho gà: Nhiễm trùng đường thở do vi khuẩn. Các triệu chứng chính là ho kéo dài
|
143 |
+
và nghẹt thở. Rất nghiêm trọng ở trẻ sơ sinh. Có thể phòng ngừa bằng vắc xin.
|
144 |
+
|
145 |
+
* Bệnh **xơ nang**(CF): Một chứng rối loạn di truyền gây ra các vấn đề về hô hấp
|
146 |
+
và tiêu hóa do làm tắc nghẽn các cơ quan trong cơ thể với một chất nhầy đặc, dính,
|
147 |
+
có khả năng đe dọa đến tính mạng trẻ. Ngoài các biểu hiện ở hệ hô hấp như **trẻ
|
148 |
+
bị khó thở**, khò khè, ho, nhiễm trùng tái phát, viêm phổi, giãn phế quản, trẻ
|
149 |
+
còn có các biểu hiện ở đường tiêu hóa và toàn thân như tắc nghẽn ruột, đau bụng,
|
150 |
+
phân có mùi bất thường, sụt cân,...
|
151 |
+
|
152 |
+
* Hút thuốc thụ động: trẻ tăng nguy cơ gặp các vấn đề sức khỏe như: ho, thở khò
|
153 |
+
khè, nhiễm trùng đường hô hấp, hen suyễn, nhiễm trùng tai,...'
|
154 |
+
- source_sentence: 'query: Virus Ebola lây qua đường nào?'
|
155 |
+
sentences:
|
156 |
+
- Đột biến trong virus có thể phát hiện bằng cách giải mã trình tự bộ gen của virus
|
157 |
+
được phân lập từ các bệnh nhân trên khắp thế giới. Các thông tin này sẽ giúp các
|
158 |
+
nhà khoa học phát hiện các biến thể mới của virus và các đột biến gen nào đã xảy
|
159 |
+
ra, từ đó tăng thêm hiểu biết về loại virus này và xác định xem liệu đột biến
|
160 |
+
có làm thay đổi tính chất của virus hay không. Các đột biến trong tương lai có
|
161 |
+
thể tác động tiêu cực (hoặc tích cực) đến tỷ lệ mắc bệnh và các hậu quả đến sức
|
162 |
+
khỏe của con người. Do đó, việc theo dõi di truyền và đặc tính sinh học của các
|
163 |
+
đột biến mới là những nghiên cứu luôn được ưu tiên cao.
|
164 |
+
- 'Các nhà nghiên cứu đã chỉ ra rằng, dơi ăn quả thuộc họ Pteropodidae là vật chủ
|
165 |
+
tự nhiên của virus Ebola. Loại virus này xâm nhập vào cơ thể con người thông qua
|
166 |
+
tiếp xúc gần gũi với máu, dịch tiết, nội tạng hoặc các chất dịch cơ thể khác của
|
167 |
+
động vật bị nhiễm bệnh như dơi ăn quả, tinh tinh, khỉ đột, linh dương rừng, nhím
|
168 |
+
bị bệnh hoặc đã chết.
|
169 |
+
|
170 |
+
|
171 |
+
**Bệnh do vi rút Ebola** không lây truyền qua không khí và không lây lan qua tiếp
|
172 |
+
xúc thông thường, chẳng hạn như ở gần người bị nhiễm bệnh. Không giống như các
|
173 |
+
bệnh về đường hô hấp, có thể lây lan bởi các hạt tồn tại trong không khí sau khi
|
174 |
+
người nhiễm bệnh ho hoặc hắt hơi, Ebola lây lan qua tiếp xúc trực tiếp với chất
|
175 |
+
dịch cơ thể của người mắc bệnh.
|
176 |
+
|
177 |
+
|
178 |
+
Ebola lây truyền từ người sang người thông qua tiếp xúc trực tiếp (qua da trầy
|
179 |
+
xước hoặc niêm mạc ở mắt, mũi, miệng) với:
|
180 |
+
|
181 |
+
|
182 |
+
* Máu hoặc dịch cơ thể của người bị bệnh hoặc đã chết vì Ebola
|
183 |
+
|
184 |
+
* Các đối tượng đã bị nhiễm chất dịch cơ thể (như máu, phân, chất nôn) từ một
|
185 |
+
người mắc bệnh Ebola hoặc cơ thể của một người chết vì Ebola.
|
186 |
+
|
187 |
+
* Các vật thể (như quần áo, khăn trải giường, kim tiêm và thiết bị y tế) bị nhiễm
|
188 |
+
chất dịch cơ thể từ một người bị bệnh hoặc đã chết vì EVD.
|
189 |
+
|
190 |
+
* Tinh dịch từ một người đàn ông đã hồi phục từ EVD (thông qua quan hệ tình dục
|
191 |
+
bằng miệng, âm đạo hoặc hậu môn). Virus có thể tồn tại trong một số chất dịch
|
192 |
+
cơ thể (bao gồm cả tinh dịch) của một bệnh nhân đã khỏi bệnh EVD, ngay cả khi
|
193 |
+
họ không còn có triệu chứng bệnh nặng.
|
194 |
+
|
195 |
+
|
196 |
+
Những nhân viên y tế trong quá trình điều trị cho các bệnh nhân bị nghi ngờ hoặc
|
197 |
+
đã nhiễm Ebola cũng có thể bị lây nhiễm thông qua tiếp xúc gần gũi với bệnh nhân,
|
198 |
+
đặc biệt, khả năng bị lây nhiễm sẽ rất cao nếu các biện pháp phòng ngừa và kiểm
|
199 |
+
soát nhiễm trùng không được thực hiện nghiêm ngặt.
|
200 |
+
|
201 |
+
|
202 |
+
Hơn thế nữa, Ebola có thể lây truyền thông qua các nghi lễ chôn cất liên quan
|
203 |
+
trực tiếp đến cơ thể của người đã chết do dịch bệnh.
|
204 |
+
|
205 |
+
|
206 |
+
Hãy nhớ rằng, bệnh có thể truyền nhiễm bất cứ lúc nào từ người sang người miễn
|
207 |
+
là trong máu của họ có chứa **virus Ebola**. Phụ nữ mang thai bị nhiễm Ebola cấp
|
208 |
+
tính và đã được điều trị khỏi bệnh vẫn có thể mang vi-rút trong sữa mẹ, hoặc trong
|
209 |
+
các chất lỏng và mô liên quan đến thai kỳ. Điều này có nguy cơ lây truyền sang
|
210 |
+
cho con và cho những người xung quanh.'
|
211 |
+
- 'Theo một số nghiên cứu, **liệu pháp thay thế hormone** có thể làm tăng nhẹ nguy
|
212 |
+
cơ mắc bệnh tim mạch, ung thư vú và đột quỵ ở những phụ nữ [**mãn kinh**](https://www.vinmec.com/vie/bai-viet/lieu-phap-hormone-thay-hrt-thoi-ky-man-kinh-vi)
|
213 |
+
đang sử dụng kết hợp [**estrogen**](https://www.vinmec.com/vie/bai-viet/estrogen-la-gi-va-co-vai-tro-gi-vi)
|
214 |
+
và progestin (một dạng progesterone). Tuy nhiên, đối tượng phần lớn đã ngoài 60
|
215 |
+
tuổi có thể làm giảm tính thuyết phục của kết quả nghiên cứu.
|
216 |
+
|
217 |
+
|
218 |
+
Lợi ích có thể nhiều hơn rủi ro nhưng **liệu pháp thay thế hormone** vẫn có thể
|
219 |
+
làm tăng nguy cơ mắc các bệnh lý:
|
220 |
+
|
221 |
+
|
222 |
+
* [**Ung thư nội mạc tử cung**](https://www.vinmec.com/vie/bai-viet/ung-thu-noi-mac-tu-cung-trieu-chung-nguyen-nhan-va-tam-soat-benh-vi)
|
223 |
+
(dùng estrogen không có proestin)
|
224 |
+
|
225 |
+
* Các **cục máu đông**
|
226 |
+
|
227 |
+
* [**Đột quỵ**](https://www.vinmec.com/vie/bai-viet/dot-quy-nguyen-nhan-dau-hieu-nhan-biet-cach-phong-tranh-vi)
|
228 |
+
|
229 |
+
* [**Ung thư vú**](https://www.vinmec.com/vie/bai-viet/ung-thu-vu-dau-hieu-nguyen-nhan-cach-phong-tranh-va-dieu-tri-vi)'
|
230 |
+
- source_sentence: 'query: Bạn cần thảo luận về kế hoạch mang thai với bác sĩ'
|
231 |
+
sentences:
|
232 |
+
- 'Chế phẩm sinh học tương đối mới. Do đó, những ảnh hưởng lâu dài đối với trẻ sơ
|
233 |
+
sinh tiếp xúc với chế phẩm sinh học trong [**thời kỳ mang thai**](https://www.vinmec.com/vie/bai-viet/qua-trinh-thai-nhi-hinh-thanh-va-phat-trien-theo-tung-tuan-vi)
|
234 |
+
chưa được nghiên cứu. Các chuyên gia tin rằng nguy cơ này thấp và kết luận rằng,
|
235 |
+
khả năng [**dị tật thai nhi**](https://www.vinmec.com/vie/bai-viet/cac-di-tat-thai-nhi-thuong-gap-vi)
|
236 |
+
khi sử dụng sinh phẩm trong thời kỳ mang thai là gần với tỷ lệ của những người
|
237 |
+
mang thai không sử dụng sinh phẩm.
|
238 |
+
|
239 |
+
|
240 |
+
Bạn và bác sĩ sẽ cần thảo luận về rủi ro của việc sử dụng thuốc chế phẩm sinh
|
241 |
+
học trong thai kỳ so với rủi ro có thể xảy ra đối với em bé của bạn. Bạn có thể
|
242 |
+
phải tạm ngưng thuốc trong thời gian mang thai tùy thuộc vào loại chế phẩm sinh
|
243 |
+
học bạn đang sử dụng.'
|
244 |
+
- '[**Hội chứng Sjögren**](https://www.vinmec.com/vie/benh/hoi-chung-sjogren-4810)
|
245 |
+
là một bệnh tự miễn không rõ nguyên nhân, ảnh hưởng đến mô liên kết và các tuyến
|
246 |
+
gần miệng và mắt. Khô miệng là một trong các triệu chứng đặc trưng của hội chứng
|
247 |
+
này. Các [**bệnh tự miễn**](https://www.vinmec.com/vie/bai-viet/cach-tang-cuong-mien-dich-cho-nguoi-mac-benh-tu-mien-vi)
|
248 |
+
khác, chẳng hạn như [**viêm khớp dạng thấp**](https://www.vinmec.com/vie/bai-viet/viem-khop-dang-thap-nguyen-nhan-trieu-chung-chan-doan-va-dieu-tri-vi)
|
249 |
+
hoặc lupus, có thể xuất hiện cùng với bệnh Sjögren.
|
250 |
+
|
251 |
+
|
252 |
+
Hiện chưa có cách chữa khỏi bệnh hoàn toàn, việc điều trị chủ yếu là kiểm soát
|
253 |
+
các triệu chứng, giúp người bệnh cảm thấy dễ chịu hơn.'
|
254 |
+
- '[**Nang thận**](https://www.vinmec.com/vie/benh/nang-than-4914) được phân loại
|
255 |
+
thành 4 loại gồm:
|
256 |
+
|
257 |
+
|
258 |
+
* Loại 1: Thành nang mỏng, đơn giản.
|
259 |
+
|
260 |
+
* Loại 2: Thành nang vôi hóa nhẹ. Vách giữa mỏng không tăng đậm.
|
261 |
+
|
262 |
+
* Loại 3: Thành nang vôi hóa dày, không đều nhiều ngăn.
|
263 |
+
|
264 |
+
* Loại 4: Thành dày, vôi hóa nhiều, thành phần đặc bên trong có thành phần tăng
|
265 |
+
đậm.
|
266 |
+
|
267 |
+
|
268 |
+
Tình trạng **nang thận** ở hầu hết bệnh nhân đều do vô tình thực hiện các cận
|
269 |
+
lâm sàng mà phát hiện ra như [**siêu âm bụng**](https://www.vinmec.com/vie/bai-viet/sieu-am-o-bung-la-sieu-am-nhung-bo-phan-nao-vi)
|
270 |
+
cho hình ảnh nang dịch liên tục với nhu mô thận. Chụp CT cho hình ảnh chẩn đoán
|
271 |
+
chính xác rõ nhất về phân độ nguy cơ ung thư hóa của nang thận.'
|
272 |
+
- source_sentence: 'query: Những công dụng cụ thể của pectin trong thực phẩm và làm
|
273 |
+
đẹp là gì?
|
274 |
+
|
275 |
+
'
|
276 |
+
sentences:
|
277 |
+
- 'Nhiều nghiên cứu về thần kinh cho biết khi chúng ta bước vào độ tuổi từ 20 -
|
278 |
+
25, tế bào thần kinh sẽ bắt đầu thoái hóa, cụ thể có đến 3000 [**tế bào não**](https://www.vinmec.com/vie/co-the-nguoi/te-bao-than-kinh-165)
|
279 |
+
chết đi mỗi ngày. Tế bào não là tế bào không sản sinh thêm. Thêm vào đó các gốc
|
280 |
+
tự do bên trong cùng với các yếu tố ngoại cảnh khác sẽ khiến sự thoái hóa diễn
|
281 |
+
ra nghiêm trọng, ảnh hưởng rất lớn đến các hoạt động thường ngày.
|
282 |
+
|
283 |
+
|
284 |
+
### 3.1. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến công việc
|
285 |
+
|
286 |
+
|
287 |
+
Người bị **suy giảm trí nhớ ở người trẻ** thường sẽ luôn trong trạng thái thiếu
|
288 |
+
tập trung, lơ đãng khi học tập hoặc khi làm việc. Khi trí nhớ bị suy giảm kéo
|
289 |
+
theo nhận thức và tư duy giải quyết vấn đề bị sa sút theo, bệnh nhân phản ứng
|
290 |
+
với mọi thứ xung quanh một cách chậm chạp, khả năng đáp ứng công việc hay bài
|
291 |
+
học không được như trước.
|
292 |
+
|
293 |
+
|
294 |
+
### 3.2. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến cuộc sống
|
295 |
+
|
296 |
+
|
297 |
+
**Suy giảm trí nhớ ở người trẻ** gây nhiều bất tiện trong sinh hoạt hằng ngày
|
298 |
+
của người bệnh. Ví dụ như: bệnh nhân thường xuyên quên khóa cửa khi ra ngoài,
|
299 |
+
đi chợ quên mang ví... **Suy giảm trí nhớ ở người trẻ** dẫn đến tâm trạng và hành
|
300 |
+
vi của bệnh nhân thay đổi thất thường, dễ cáu gắt hơn và còn ảnh hưởng đến các
|
301 |
+
mối quan hệ xung quanh.
|
302 |
+
|
303 |
+
|
304 |
+
### 3.3. Suy giảm trí nhớ ở người trẻ ảnh hưởng đến sức khỏe
|
305 |
+
|
306 |
+
|
307 |
+
Nếu bệnh nhân không khắc phục chứng **suy giảm trí nhớ ở người trẻ** kịp thời
|
308 |
+
thì bệnh tình sẽ dễ chuyển sang giai đoạn sa sút trí tuệ trong 3 năm sau đó. Lúc
|
309 |
+
này não bộ sẽ dần mất đi quyền điều khiển cơ quan, khiến sức khỏe của bệnh nhân
|
310 |
+
bị ảnh hưởng nghiêm trọng, thường không phục hồi được. Cụ thể, bệnh nhân **suy
|
311 |
+
giảm trí nhớ ở người trẻ** có thể sẽ phải gặp một trong các trường hợp sau: teo
|
312 |
+
não, chết tế bào não, tổn thương chất trắng, [**tổn thương mạch máu não**](https://www.vinmec.com/vie/bai-viet/ton-thuong-nao-nguyen-nhan-trieu-chung-phuong-phap-dieu-tri-vi)**...**'
|
313 |
+
- 'Núm phụ răng (Dens evaginatus) là thuật ngữ được dùng để chỉ những bất thường
|
314 |
+
của răng có hình dạng giống như núm, múi dư trên bề mặt răng. Tình trạng này thường
|
315 |
+
xuất hiện ở mặt trong của răng hàm trên (Còn gọi là múi Talon) hoặc mặt nhai của
|
316 |
+
răng cối nhỏ hàm dưới.
|
317 |
+
|
318 |
+
|
319 |
+
Nguyên nhân của tình trạng răng có núm phụ này đến nay vẫn chưa được xác định.
|
320 |
+
Một số giả thuyết đặt ra là do di truyền hoặc do chấn thương cục bộ tác động lên
|
321 |
+
mầm răng.
|
322 |
+
|
323 |
+
|
324 |
+
Trong giai đoạn phôi thai, sự bất thường về tăng sinh và gấp lại 1 phần biểu mô
|
325 |
+
men ở bên trong và các tế bào ngoại bào phía dưới của nhú răng và diễn ra trong
|
326 |
+
suốt giai đoạn chuông của quá trình hình thành răng.'
|
327 |
+
- 'Chất **xơ** **tan trong nước** (pectin) là một phụ gia thực phẩm được sử dụng
|
328 |
+
như chất nhũ hóa, chất ổn định và chất làm đặc. Bên cạnh đó, nó còn có những công
|
329 |
+
dụng sau đây:
|
330 |
+
|
331 |
+
|
332 |
+
* Pectin được sử dụng làm chất tạo gel.
|
333 |
+
|
334 |
+
* Sử dụng làm chất làm đặc và ổn định.
|
335 |
+
|
336 |
+
* Pectin được sử dụng trong mứt để có vẻ ngoài giống như thạch.
|
337 |
+
|
338 |
+
* Dùng để chống lại [**táo bón**](https://www.vinmec.com/vie/benh/tao-bon-3001)
|
339 |
+
và [**tiêu chảy**](https://www.vinmec.com/vie/benh/tieu-chay-3002) bằng cách tăng
|
340 |
+
độ nhớt và khối lượng của phân. Đặc biệt, **chất xơ** này còn có thể giúp giảm
|
341 |
+
buồn nôn.
|
342 |
+
|
343 |
+
* Nó còn được sử dụng trong các sản phẩm mỹ phẩm như một chất ổn định.'
|
344 |
+
datasets:
|
345 |
+
- BookingCare/ViHealthQA
|
346 |
+
pipeline_tag: sentence-similarity
|
347 |
+
library_name: sentence-transformers
|
348 |
+
metrics:
|
349 |
+
- cosine_accuracy@1
|
350 |
+
- cosine_accuracy@3
|
351 |
+
- cosine_accuracy@5
|
352 |
+
- cosine_accuracy@10
|
353 |
+
- cosine_precision@1
|
354 |
+
- cosine_precision@3
|
355 |
+
- cosine_precision@5
|
356 |
+
- cosine_precision@10
|
357 |
+
- cosine_recall@1
|
358 |
+
- cosine_recall@3
|
359 |
+
- cosine_recall@5
|
360 |
+
- cosine_recall@10
|
361 |
+
- cosine_ndcg@10
|
362 |
+
- cosine_mrr@10
|
363 |
+
- cosine_map@100
|
364 |
+
model-index:
|
365 |
+
- name: Gte mulitilingual base trained on Vietnamese Health Question Answering pairs
|
366 |
+
results:
|
367 |
+
- task:
|
368 |
+
type: information-retrieval
|
369 |
+
name: Information Retrieval
|
370 |
+
dataset:
|
371 |
+
name: Unknown
|
372 |
+
type: unknown
|
373 |
+
metrics:
|
374 |
+
- type: cosine_accuracy@1
|
375 |
+
value: 0.917
|
376 |
+
name: Cosine Accuracy@1
|
377 |
+
- type: cosine_accuracy@3
|
378 |
+
value: 0.964
|
379 |
+
name: Cosine Accuracy@3
|
380 |
+
- type: cosine_accuracy@5
|
381 |
+
value: 0.972
|
382 |
+
name: Cosine Accuracy@5
|
383 |
+
- type: cosine_accuracy@10
|
384 |
+
value: 0.984
|
385 |
+
name: Cosine Accuracy@10
|
386 |
+
- type: cosine_precision@1
|
387 |
+
value: 0.917
|
388 |
+
name: Cosine Precision@1
|
389 |
+
- type: cosine_precision@3
|
390 |
+
value: 0.32133333333333325
|
391 |
+
name: Cosine Precision@3
|
392 |
+
- type: cosine_precision@5
|
393 |
+
value: 0.19440000000000004
|
394 |
+
name: Cosine Precision@5
|
395 |
+
- type: cosine_precision@10
|
396 |
+
value: 0.0984
|
397 |
+
name: Cosine Precision@10
|
398 |
+
- type: cosine_recall@1
|
399 |
+
value: 0.917
|
400 |
+
name: Cosine Recall@1
|
401 |
+
- type: cosine_recall@3
|
402 |
+
value: 0.964
|
403 |
+
name: Cosine Recall@3
|
404 |
+
- type: cosine_recall@5
|
405 |
+
value: 0.972
|
406 |
+
name: Cosine Recall@5
|
407 |
+
- type: cosine_recall@10
|
408 |
+
value: 0.984
|
409 |
+
name: Cosine Recall@10
|
410 |
+
- type: cosine_ndcg@10
|
411 |
+
value: 0.9525409048997587
|
412 |
+
name: Cosine Ndcg@10
|
413 |
+
- type: cosine_mrr@10
|
414 |
+
value: 0.9422825396825398
|
415 |
+
name: Cosine Mrr@10
|
416 |
+
- type: cosine_map@100
|
417 |
+
value: 0.9427159209536504
|
418 |
+
name: Cosine Map@100
|
419 |
+
- type: cosine_accuracy@1
|
420 |
+
value: 0.896
|
421 |
+
name: Cosine Accuracy@1
|
422 |
+
- type: cosine_accuracy@3
|
423 |
+
value: 0.961
|
424 |
+
name: Cosine Accuracy@3
|
425 |
+
- type: cosine_accuracy@5
|
426 |
+
value: 0.974
|
427 |
+
name: Cosine Accuracy@5
|
428 |
+
- type: cosine_accuracy@10
|
429 |
+
value: 0.985
|
430 |
+
name: Cosine Accuracy@10
|
431 |
+
- type: cosine_precision@1
|
432 |
+
value: 0.896
|
433 |
+
name: Cosine Precision@1
|
434 |
+
- type: cosine_precision@3
|
435 |
+
value: 0.32033333333333325
|
436 |
+
name: Cosine Precision@3
|
437 |
+
- type: cosine_precision@5
|
438 |
+
value: 0.1948
|
439 |
+
name: Cosine Precision@5
|
440 |
+
- type: cosine_precision@10
|
441 |
+
value: 0.09850000000000002
|
442 |
+
name: Cosine Precision@10
|
443 |
+
- type: cosine_recall@1
|
444 |
+
value: 0.896
|
445 |
+
name: Cosine Recall@1
|
446 |
+
- type: cosine_recall@3
|
447 |
+
value: 0.961
|
448 |
+
name: Cosine Recall@3
|
449 |
+
- type: cosine_recall@5
|
450 |
+
value: 0.974
|
451 |
+
name: Cosine Recall@5
|
452 |
+
- type: cosine_recall@10
|
453 |
+
value: 0.985
|
454 |
+
name: Cosine Recall@10
|
455 |
+
- type: cosine_ndcg@10
|
456 |
+
value: 0.9442222949139711
|
457 |
+
name: Cosine Ndcg@10
|
458 |
+
- type: cosine_mrr@10
|
459 |
+
value: 0.9307456349206351
|
460 |
+
name: Cosine Mrr@10
|
461 |
+
- type: cosine_map@100
|
462 |
+
value: 0.9313462146962764
|
463 |
+
name: Cosine Map@100
|
464 |
+
---
|
465 |
+
|
466 |
+
# Gte mulitilingual base trained on Vietnamese Health Question Answering pairs
|
467 |
+
|
468 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) on the [vi_health_qa](https://huggingface.co/datasets/BookingCare/ViHealthQA) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
469 |
+
|
470 |
+
## Model Details
|
471 |
+
|
472 |
+
### Model Description
|
473 |
+
- **Model Type:** Sentence Transformer
|
474 |
+
- **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) <!-- at revision ade1467d6266ae07e6f74aae34d56bf3b8acf3f7 -->
|
475 |
+
- **Maximum Sequence Length:** 8192 tokens
|
476 |
+
- **Output Dimensionality:** 768 dimensions
|
477 |
+
- **Similarity Function:** Cosine Similarity
|
478 |
+
- **Training Dataset:**
|
479 |
+
- [vi_health_qa](https://huggingface.co/datasets/BookingCare/ViHealthQA)
|
480 |
+
- **Language:** vi
|
481 |
+
<!-- - **License:** Unknown -->
|
482 |
+
|
483 |
+
### Model Sources
|
484 |
+
|
485 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
486 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
487 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
488 |
+
|
489 |
+
### Full Model Architecture
|
490 |
+
|
491 |
+
```
|
492 |
+
SentenceTransformer(
|
493 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
|
494 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
495 |
+
(2): Normalize()
|
496 |
+
)
|
497 |
+
```
|
498 |
+
|
499 |
+
## Usage
|
500 |
+
|
501 |
+
### Direct Usage (Sentence Transformers)
|
502 |
+
|
503 |
+
First install the Sentence Transformers library:
|
504 |
+
|
505 |
+
```bash
|
506 |
+
pip install -U sentence-transformers
|
507 |
+
```
|
508 |
+
|
509 |
+
Then you can load this model and run inference.
|
510 |
+
```python
|
511 |
+
from sentence_transformers import SentenceTransformer
|
512 |
+
|
513 |
+
# Download from the 🤗 Hub
|
514 |
+
model = SentenceTransformer("BookingCare/gte-multilingual-base-v2.1")
|
515 |
+
# Run inference
|
516 |
+
sentences = [
|
517 |
+
'query: Những công dụng cụ thể của pectin trong thực phẩm và làm đẹp là gì?\n',
|
518 |
+
'Chất **xơ** **tan trong nước** (pectin) là một phụ gia thực phẩm được sử dụng như chất nhũ hóa, chất ổn định và chất làm đặc. Bên cạnh đó, nó còn có những công dụng sau đây:\n\n* Pectin được sử dụng làm chất tạo gel.\n* Sử dụng làm chất làm đặc và ổn định.\n* Pectin được sử dụng trong mứt để có vẻ ngoài giống như thạch.\n* Dùng để chống lại [**táo bón**](https://www.vinmec.com/vie/benh/tao-bon-3001) và [**tiêu chảy**](https://www.vinmec.com/vie/benh/tieu-chay-3002) bằng cách tăng độ nhớt và khối lượng của phân. Đặc biệt, **chất xơ** này còn có thể giúp giảm buồn nôn.\n* Nó còn được sử dụng trong các sản phẩm mỹ phẩm như một chất ổn định.',
|
519 |
+
'Núm phụ răng (Dens evaginatus) là thuật ngữ được dùng để chỉ những bất thường của răng có hình dạng giống như núm, múi dư trên bề mặt răng. Tình trạng này thường xuất hiện ở mặt trong của răng hàm trên (Còn gọi là múi Talon) hoặc mặt nhai của răng cối nhỏ hàm dưới.\n\nNguyên nhân của tình trạng răng có núm phụ này đến nay vẫn chưa được xác định. Một số giả thuyết đặt ra là do di truyền hoặc do chấn thương cục bộ tác động lên mầm răng.\n\nTrong giai đoạn phôi thai, sự bất thường về tăng sinh và gấp lại 1 phần biểu mô men ở bên trong và các tế bào ngoại bào phía dưới của nhú răng và diễn ra trong suốt giai đoạn chuông của quá trình hình thành răng.',
|
520 |
+
]
|
521 |
+
embeddings = model.encode(sentences)
|
522 |
+
print(embeddings.shape)
|
523 |
+
# [3, 768]
|
524 |
+
|
525 |
+
# Get the similarity scores for the embeddings
|
526 |
+
similarities = model.similarity(embeddings, embeddings)
|
527 |
+
print(similarities.shape)
|
528 |
+
# [3, 3]
|
529 |
+
```
|
530 |
+
|
531 |
+
<!--
|
532 |
+
### Direct Usage (Transformers)
|
533 |
+
|
534 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
535 |
+
|
536 |
+
</details>
|
537 |
+
-->
|
538 |
+
|
539 |
+
<!--
|
540 |
+
### Downstream Usage (Sentence Transformers)
|
541 |
+
|
542 |
+
You can finetune this model on your own dataset.
|
543 |
+
|
544 |
+
<details><summary>Click to expand</summary>
|
545 |
+
|
546 |
+
</details>
|
547 |
+
-->
|
548 |
+
|
549 |
+
<!--
|
550 |
+
### Out-of-Scope Use
|
551 |
+
|
552 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
553 |
+
-->
|
554 |
+
|
555 |
+
## Evaluation
|
556 |
+
|
557 |
+
### Metrics
|
558 |
+
|
559 |
+
#### Information Retrieval
|
560 |
+
|
561 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
562 |
+
|
563 |
+
| Metric | Value |
|
564 |
+
|:--------------------|:-----------|
|
565 |
+
| cosine_accuracy@1 | 0.917 |
|
566 |
+
| cosine_accuracy@3 | 0.964 |
|
567 |
+
| cosine_accuracy@5 | 0.972 |
|
568 |
+
| cosine_accuracy@10 | 0.984 |
|
569 |
+
| cosine_precision@1 | 0.917 |
|
570 |
+
| cosine_precision@3 | 0.3213 |
|
571 |
+
| cosine_precision@5 | 0.1944 |
|
572 |
+
| cosine_precision@10 | 0.0984 |
|
573 |
+
| cosine_recall@1 | 0.917 |
|
574 |
+
| cosine_recall@3 | 0.964 |
|
575 |
+
| cosine_recall@5 | 0.972 |
|
576 |
+
| cosine_recall@10 | 0.984 |
|
577 |
+
| **cosine_ndcg@10** | **0.9525** |
|
578 |
+
| cosine_mrr@10 | 0.9423 |
|
579 |
+
| cosine_map@100 | 0.9427 |
|
580 |
+
|
581 |
+
#### Information Retrieval
|
582 |
+
|
583 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
584 |
+
|
585 |
+
| Metric | Value |
|
586 |
+
|:--------------------|:-----------|
|
587 |
+
| cosine_accuracy@1 | 0.896 |
|
588 |
+
| cosine_accuracy@3 | 0.961 |
|
589 |
+
| cosine_accuracy@5 | 0.974 |
|
590 |
+
| cosine_accuracy@10 | 0.985 |
|
591 |
+
| cosine_precision@1 | 0.896 |
|
592 |
+
| cosine_precision@3 | 0.3203 |
|
593 |
+
| cosine_precision@5 | 0.1948 |
|
594 |
+
| cosine_precision@10 | 0.0985 |
|
595 |
+
| cosine_recall@1 | 0.896 |
|
596 |
+
| cosine_recall@3 | 0.961 |
|
597 |
+
| cosine_recall@5 | 0.974 |
|
598 |
+
| cosine_recall@10 | 0.985 |
|
599 |
+
| **cosine_ndcg@10** | **0.9442** |
|
600 |
+
| cosine_mrr@10 | 0.9307 |
|
601 |
+
| cosine_map@100 | 0.9313 |
|
602 |
+
|
603 |
+
<!--
|
604 |
+
## Bias, Risks and Limitations
|
605 |
+
|
606 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
607 |
+
-->
|
608 |
+
|
609 |
+
<!--
|
610 |
+
### Recommendations
|
611 |
+
|
612 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
613 |
+
-->
|
614 |
+
|
615 |
+
## Training Details
|
616 |
+
|
617 |
+
### Training Dataset
|
618 |
+
|
619 |
+
#### vi_health_qa
|
620 |
+
|
621 |
+
* Dataset: [vi_health_qa](https://huggingface.co/datasets/BookingCare/ViHealthQA) at [e2b7864](https://huggingface.co/datasets/BookingCare/ViHealthQA/tree/e2b78649b44d30b5975008d13e9e7a6fd1b0bc0a)
|
622 |
+
* Size: 114,654 training samples
|
623 |
+
* Columns: <code>query</code> and <code>document</code>
|
624 |
+
* Approximate statistics based on the first 1000 samples:
|
625 |
+
| | query | document |
|
626 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
627 |
+
| type | string | string |
|
628 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 16.99 tokens</li><li>max: 59 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 374.24 tokens</li><li>max: 998 tokens</li></ul> |
|
629 |
+
* Samples:
|
630 |
+
| query | document |
|
631 |
+
|:---------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
632 |
+
| <code>query: Điều chỉnh lại liều lượng sử dụng collagen</code> | <code>Theo nhiều nghiên cứu khoa học, với 1000 – 2000mg collagen là liều lượng phù hợp nhất để cơ thể hấp thu, giúp phát huy tác dụng từ collagen. Đặc biệt, để tốt cho xương khớp, tóc, móng và da ở độ tuổi 30, bạn cần dùng ít nhất 3000mg collagen mỗi ngày, tuy nhiên cũng không nên dùng v��ợt qua 5000mg/ ngày.</code> |
|
633 |
+
| <code>query: Sử dụng một số loại thuốc trị mụn tại chỗ</code> | <code>Một số loại [**thuốc trị mụn**](https://www.vinmec.com/vie/bai-viet/co-dung-thuoc-khang-sinh-de-dieu-tri-mun-khong-vi) tại chỗ dạng gel như Differin, Retin-A, Nexon... có thể vừa giúp làm giảm lượng bã nhờn trên da vừa hỗ trợ điều trị tình trạng mụn trứng cá.</code> |
|
634 |
+
| <code>query: Hội chứng suy nút xoang là gì?</code> | <code>**Hội chứng suy nút xoang** là một dạng [rối loạn nhịp tim](https://www.vinmec.com/vie/bai-viet/roi-loan-nhip-tim-nhung-dieu-ban-can-biet-vi) đặc biệt, gây ảnh hưởng đến nút xoang, là bộ phận tạo nhịp tim tự nhiên của cơ thể. Nó có thể gây chậm nhịp tim hoặc tạo ra những khoảng thời gian ngưng tim kéo dài giữa những lần tim đập. Nguy hiểm hơn là khiến cho nhịp tim không đều, dẫn tới [suy tim](https://www.vinmec.com/vie/bai-viet/suy-tim-co-may-cap-do-phan-biet-cac-cap-do-cua-suy-tim-nhu-nao-vi).<br><br>Hội chứng này có thể phát sinh từ nhiều nguyên nhân khác nhau, bao gồm tự nhiên hoặc do các yếu tố bên ngoài như căng thẳng, thay đổi hormone, hoặc các vấn đề về hệ thống dẫn truyền tín hiệu điện trong tim. Tuy khá hiếm gặp, nhưng càng lớn tuổi càng có nguy cơ mắc phải hội chứng này. Nhiều trường hợp đã phải gắn thêm máy tạo nhịp để tim đập ổn định hơn. Hội chứng này còn được gọi là rối loạn chức năng nút xoang, hoặc bệnh nút xoang.</code> |
|
635 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
636 |
+
```json
|
637 |
+
{
|
638 |
+
"loss": "MultipleNegativesRankingLoss",
|
639 |
+
"matryoshka_dims": [
|
640 |
+
768,
|
641 |
+
512,
|
642 |
+
256
|
643 |
+
],
|
644 |
+
"matryoshka_weights": [
|
645 |
+
1,
|
646 |
+
1,
|
647 |
+
1
|
648 |
+
],
|
649 |
+
"n_dims_per_step": -1
|
650 |
+
}
|
651 |
+
```
|
652 |
+
|
653 |
+
### Evaluation Dataset
|
654 |
+
|
655 |
+
#### vi_health_qa
|
656 |
+
|
657 |
+
* Dataset: [vi_health_qa](https://huggingface.co/datasets/BookingCare/ViHealthQA) at [e2b7864](https://huggingface.co/datasets/BookingCare/ViHealthQA/tree/e2b78649b44d30b5975008d13e9e7a6fd1b0bc0a)
|
658 |
+
* Size: 114,654 evaluation samples
|
659 |
+
* Columns: <code>query</code> and <code>document</code>
|
660 |
+
* Approximate statistics based on the first 1000 samples:
|
661 |
+
| | query | document |
|
662 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
663 |
+
| type | string | string |
|
664 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 16.77 tokens</li><li>max: 52 tokens</li></ul> | <ul><li>min: 2 tokens</li><li>mean: 358.34 tokens</li><li>max: 1021 tokens</li></ul> |
|
665 |
+
* Samples:
|
666 |
+
| query | document |
|
667 |
+
|:---------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
668 |
+
| <code>query: Biến chứng của hội chứng vành cấp: SCA</code> | <code>Một số biến chứng nghiêm trọng đe dọa bệnh nhân trong những ngày sau SCA, đặc biệt là loại STEMI.<br><br>* *Sốc tim và suy thất*: đặt bóng đối xung động mạch chủ là biện pháp được lựa chọn để làm giảm công thất (T) và cải thiện tưới máu mạch vành mà không làm tăng mVO2;<br>* *Rối loạn nhịp tim*: rung nhĩ ,bloc dẫn truyền nhĩ-thất, nhịp tim nhanh hoặc rung tâm thất;<br>* [***Hở van hai lá***](https://www.vinmec.com/vie/bai-viet/benh-ho-van-hai-la-vi) *do giãn thất (T*): thiếu máu cục bộ xuyên thành hoặc đứt cơ nhú; trong trường hợp hở van hai lá nặng, đặt bóng đối xung có hiệu quả trong việc chờ sửa chữa phẫu thuật;<br>* [***Thông liên thất***](https://www.vinmec.com/vie/bai-viet/cac-loai-benh-thong-lien-thuong-gap-o-tre-vi)*:* cần đóng thông liên thất bằng phẫu thuật;<br>* *Vỡ thất (T):* thường gây chết người nhất bởi chèn ép tim cấp tính;<br>* *Chứng phình vách thất (T):* Thuốc ức chế men chuyển ức chế tái định dạng thất (T), nhưng phẫu thuật cắt bỏ chỗ phình thường là cần thiết;<br>* *Huyết khối trong buồng...</code> |
|
669 |
+
| <code>query: Ưu và nhược điểm của thuốc tránh thai chỉ có progestin</code> | <code>### 3.1. Ưu điểm của thuốc tránh thai chỉ có progestin<br><br>**Viên tránh thai chỉ có progestin** tốt hơn các loại thuốc tránh thai bình thường khác nếu sử dụng trong những trường hợp đang cho con bú vì loại thuốc này sẽ không ảnh hưởng đến quá trình sản xuất sữa (estrogen làm giảm chất lượng và số lượng sữa).<br><br>### <br><br>Loại này cũng an toàn hơn các loại thuốc tránh thai bình thường trong một số trường hợp như ở phụ nữ trên 35 tuổi, những trường hợp hút thuốc lá, tăng huyết áp, béo phì và có tiền sử các bệnh về đông máu.<br><br>Viên tránh thai thông thường làm cho một vài phụ nữ bị đau dạ dày hay đau đầu nhiều. Trong khi đó, **thuốc tránh thai chứa progestin** thường không gây ra các tác dụng phụ này.<br><br>### 3.2. Nhược điểm của thuốc tránh thai chỉ có progestin<br><br>Nhược điểm của thuốc ngừa thai chỉ có progestin là:<br><br>**Phải uống liên tục mỗi ngày**, không có ngày nghỉ, và đặc biệt phải uống đúng giờ trong ngày. Nếu quên uống một ngày, phải sử dụng phương pháp tránh thai thứ 2 cho hết chu kỳ đó (cho đến c...</code> |
|
670 |
+
| <code>query: Có cái nhìn thực tế về giảm cân sau sinh</code> | <code>Hãy nhớ rằng bạn rất khó trở lại cân nặng hoặc hình dạng chính xác như trước khi mang thai. Đối với nhiều phụ nữ, mang thai sẽ gây ra những thay đổi vĩnh viễn. Bụng của họ sẽ mềm hơn, hông rộng hơn một chút và vòng eo lớn hơn. Vì vậy, bạn nên điều chỉnh mục tiêu của mình sao cho g���n với thực tế nhất, tránh gây áp lực cho bản thân.</code> |
|
671 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
672 |
+
```json
|
673 |
+
{
|
674 |
+
"loss": "MultipleNegativesRankingLoss",
|
675 |
+
"matryoshka_dims": [
|
676 |
+
768,
|
677 |
+
512,
|
678 |
+
256
|
679 |
+
],
|
680 |
+
"matryoshka_weights": [
|
681 |
+
1,
|
682 |
+
1,
|
683 |
+
1
|
684 |
+
],
|
685 |
+
"n_dims_per_step": -1
|
686 |
+
}
|
687 |
+
```
|
688 |
+
|
689 |
+
### Training Hyperparameters
|
690 |
+
#### Non-Default Hyperparameters
|
691 |
+
|
692 |
+
- `eval_strategy`: steps
|
693 |
+
- `per_device_eval_batch_size`: 16
|
694 |
+
- `per_gpu_eval_batch_size`: 16
|
695 |
+
- `learning_rate`: 2e-05
|
696 |
+
- `num_train_epochs`: 1
|
697 |
+
- `warmup_ratio`: 0.1
|
698 |
+
- `bf16`: True
|
699 |
+
- `prompts`: {'query': 'query: '}
|
700 |
+
- `batch_sampler`: no_duplicates
|
701 |
+
|
702 |
+
#### All Hyperparameters
|
703 |
+
<details><summary>Click to expand</summary>
|
704 |
+
|
705 |
+
- `overwrite_output_dir`: False
|
706 |
+
- `do_predict`: False
|
707 |
+
- `eval_strategy`: steps
|
708 |
+
- `prediction_loss_only`: True
|
709 |
+
- `per_device_train_batch_size`: 8
|
710 |
+
- `per_device_eval_batch_size`: 16
|
711 |
+
- `per_gpu_train_batch_size`: None
|
712 |
+
- `per_gpu_eval_batch_size`: 16
|
713 |
+
- `gradient_accumulation_steps`: 1
|
714 |
+
- `eval_accumulation_steps`: None
|
715 |
+
- `torch_empty_cache_steps`: None
|
716 |
+
- `learning_rate`: 2e-05
|
717 |
+
- `weight_decay`: 0.0
|
718 |
+
- `adam_beta1`: 0.9
|
719 |
+
- `adam_beta2`: 0.999
|
720 |
+
- `adam_epsilon`: 1e-08
|
721 |
+
- `max_grad_norm`: 1.0
|
722 |
+
- `num_train_epochs`: 1
|
723 |
+
- `max_steps`: -1
|
724 |
+
- `lr_scheduler_type`: linear
|
725 |
+
- `lr_scheduler_kwargs`: {}
|
726 |
+
- `warmup_ratio`: 0.1
|
727 |
+
- `warmup_steps`: 0
|
728 |
+
- `log_level`: passive
|
729 |
+
- `log_level_replica`: warning
|
730 |
+
- `log_on_each_node`: True
|
731 |
+
- `logging_nan_inf_filter`: True
|
732 |
+
- `save_safetensors`: True
|
733 |
+
- `save_on_each_node`: False
|
734 |
+
- `save_only_model`: False
|
735 |
+
- `restore_callback_states_from_checkpoint`: False
|
736 |
+
- `no_cuda`: False
|
737 |
+
- `use_cpu`: False
|
738 |
+
- `use_mps_device`: False
|
739 |
+
- `seed`: 42
|
740 |
+
- `data_seed`: None
|
741 |
+
- `jit_mode_eval`: False
|
742 |
+
- `use_ipex`: False
|
743 |
+
- `bf16`: True
|
744 |
+
- `fp16`: False
|
745 |
+
- `fp16_opt_level`: O1
|
746 |
+
- `half_precision_backend`: auto
|
747 |
+
- `bf16_full_eval`: False
|
748 |
+
- `fp16_full_eval`: False
|
749 |
+
- `tf32`: None
|
750 |
+
- `local_rank`: 0
|
751 |
+
- `ddp_backend`: None
|
752 |
+
- `tpu_num_cores`: None
|
753 |
+
- `tpu_metrics_debug`: False
|
754 |
+
- `debug`: []
|
755 |
+
- `dataloader_drop_last`: False
|
756 |
+
- `dataloader_num_workers`: 0
|
757 |
+
- `dataloader_prefetch_factor`: None
|
758 |
+
- `past_index`: -1
|
759 |
+
- `disable_tqdm`: False
|
760 |
+
- `remove_unused_columns`: True
|
761 |
+
- `label_names`: None
|
762 |
+
- `load_best_model_at_end`: False
|
763 |
+
- `ignore_data_skip`: False
|
764 |
+
- `fsdp`: []
|
765 |
+
- `fsdp_min_num_params`: 0
|
766 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
767 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
768 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
769 |
+
- `deepspeed`: None
|
770 |
+
- `label_smoothing_factor`: 0.0
|
771 |
+
- `optim`: adamw_torch
|
772 |
+
- `optim_args`: None
|
773 |
+
- `adafactor`: False
|
774 |
+
- `group_by_length`: False
|
775 |
+
- `length_column_name`: length
|
776 |
+
- `ddp_find_unused_parameters`: None
|
777 |
+
- `ddp_bucket_cap_mb`: None
|
778 |
+
- `ddp_broadcast_buffers`: False
|
779 |
+
- `dataloader_pin_memory`: True
|
780 |
+
- `dataloader_persistent_workers`: False
|
781 |
+
- `skip_memory_metrics`: True
|
782 |
+
- `use_legacy_prediction_loop`: False
|
783 |
+
- `push_to_hub`: False
|
784 |
+
- `resume_from_checkpoint`: None
|
785 |
+
- `hub_model_id`: None
|
786 |
+
- `hub_strategy`: every_save
|
787 |
+
- `hub_private_repo`: False
|
788 |
+
- `hub_always_push`: False
|
789 |
+
- `gradient_checkpointing`: False
|
790 |
+
- `gradient_checkpointing_kwargs`: None
|
791 |
+
- `include_inputs_for_metrics`: False
|
792 |
+
- `include_for_metrics`: []
|
793 |
+
- `eval_do_concat_batches`: True
|
794 |
+
- `fp16_backend`: auto
|
795 |
+
- `push_to_hub_model_id`: None
|
796 |
+
- `push_to_hub_organization`: None
|
797 |
+
- `mp_parameters`:
|
798 |
+
- `auto_find_batch_size`: False
|
799 |
+
- `full_determinism`: False
|
800 |
+
- `torchdynamo`: None
|
801 |
+
- `ray_scope`: last
|
802 |
+
- `ddp_timeout`: 1800
|
803 |
+
- `torch_compile`: False
|
804 |
+
- `torch_compile_backend`: None
|
805 |
+
- `torch_compile_mode`: None
|
806 |
+
- `dispatch_batches`: None
|
807 |
+
- `split_batches`: None
|
808 |
+
- `include_tokens_per_second`: False
|
809 |
+
- `include_num_input_tokens_seen`: False
|
810 |
+
- `neftune_noise_alpha`: None
|
811 |
+
- `optim_target_modules`: None
|
812 |
+
- `batch_eval_metrics`: False
|
813 |
+
- `eval_on_start`: False
|
814 |
+
- `use_liger_kernel`: False
|
815 |
+
- `eval_use_gather_object`: False
|
816 |
+
- `average_tokens_across_devices`: False
|
817 |
+
- `prompts`: {'query': 'query: '}
|
818 |
+
- `batch_sampler`: no_duplicates
|
819 |
+
- `multi_dataset_batch_sampler`: proportional
|
820 |
+
|
821 |
+
</details>
|
822 |
+
|
823 |
+
### Training Logs
|
824 |
+
| Epoch | Step | Training Loss | Validation Loss | cosine_ndcg@10 |
|
825 |
+
|:------:|:----:|:-------------:|:---------------:|:--------------:|
|
826 |
+
| 0 | 0 | - | - | 0.8843 |
|
827 |
+
| 0.0001 | 1 | 0.456 | - | - |
|
828 |
+
| 0.0142 | 100 | - | 0.5898 | 0.9111 |
|
829 |
+
| 0.0284 | 200 | - | 0.4075 | 0.9196 |
|
830 |
+
| 0.0426 | 300 | - | 0.3532 | 0.9181 |
|
831 |
+
| 0.0568 | 400 | - | 0.3171 | 0.9228 |
|
832 |
+
| 0.0710 | 500 | 0.3184 | 0.2899 | 0.9293 |
|
833 |
+
| 0.0852 | 600 | - | 0.3014 | 0.9260 |
|
834 |
+
| 0.0994 | 700 | - | 0.2637 | 0.9278 |
|
835 |
+
| 0.1136 | 800 | - | 0.2716 | 0.9284 |
|
836 |
+
| 0.1278 | 900 | - | 0.2485 | 0.9342 |
|
837 |
+
| 0.1420 | 1000 | 0.1511 | 0.2655 | 0.9339 |
|
838 |
+
| 0.1562 | 1100 | - | 0.2524 | 0.9381 |
|
839 |
+
| 0.1704 | 1200 | - | 0.2727 | 0.9334 |
|
840 |
+
| 0.1846 | 1300 | - | 0.2613 | 0.9397 |
|
841 |
+
| 0.1988 | 1400 | - | 0.2356 | 0.9426 |
|
842 |
+
| 0.2130 | 1500 | 0.1638 | 0.2365 | 0.9381 |
|
843 |
+
| 0.2272 | 1600 | - | 0.2646 | 0.9373 |
|
844 |
+
| 0.2414 | 1700 | - | 0.2542 | 0.9390 |
|
845 |
+
| 0.2556 | 1800 | - | 0.2648 | 0.9388 |
|
846 |
+
| 0.2698 | 1900 | - | 0.2660 | 0.9385 |
|
847 |
+
| 0.2841 | 2000 | 0.1197 | 0.2547 | 0.9413 |
|
848 |
+
| 0.2983 | 2100 | - | 0.2566 | 0.9417 |
|
849 |
+
| 0.3125 | 2200 | - | 0.2615 | 0.9375 |
|
850 |
+
| 0.3267 | 2300 | - | 0.2421 | 0.9432 |
|
851 |
+
| 0.3409 | 2400 | - | 0.2606 | 0.9419 |
|
852 |
+
| 0.3551 | 2500 | 0.1195 | 0.2593 | 0.9438 |
|
853 |
+
| 0.3693 | 2600 | - | 0.2663 | 0.9426 |
|
854 |
+
| 0.3835 | 2700 | - | 0.2720 | 0.9405 |
|
855 |
+
| 0.3977 | 2800 | - | 0.2614 | 0.9419 |
|
856 |
+
| 0.4119 | 2900 | - | 0.2568 | 0.9474 |
|
857 |
+
| 0.4261 | 3000 | 0.1113 | 0.2506 | 0.9469 |
|
858 |
+
| 0.4403 | 3100 | - | 0.2406 | 0.9461 |
|
859 |
+
| 0.4545 | 3200 | - | 0.2326 | 0.9483 |
|
860 |
+
| 0.4687 | 3300 | - | 0.2348 | 0.9469 |
|
861 |
+
| 0.4829 | 3400 | - | 0.2410 | 0.9435 |
|
862 |
+
| 0.4971 | 3500 | 0.119 | 0.2326 | 0.9456 |
|
863 |
+
| 0.5113 | 3600 | - | 0.2239 | 0.9481 |
|
864 |
+
| 0.5255 | 3700 | - | 0.2217 | 0.9474 |
|
865 |
+
| 0.5397 | 3800 | - | 0.2208 | 0.9457 |
|
866 |
+
| 0.5539 | 3900 | - | 0.2166 | 0.9467 |
|
867 |
+
| 0.5681 | 4000 | 0.1037 | 0.2154 | 0.9484 |
|
868 |
+
| 0.5823 | 4100 | - | 0.2100 | 0.9509 |
|
869 |
+
| 0.5965 | 4200 | - | 0.2144 | 0.9485 |
|
870 |
+
| 0.6107 | 4300 | - | 0.2081 | 0.9482 |
|
871 |
+
| 0.6249 | 4400 | - | 0.2050 | 0.9485 |
|
872 |
+
| 0.6391 | 4500 | 0.1253 | 0.2030 | 0.9480 |
|
873 |
+
| 0.6533 | 4600 | - | 0.1994 | 0.9485 |
|
874 |
+
| 0.6675 | 4700 | - | 0.2005 | 0.9498 |
|
875 |
+
| 0.6817 | 4800 | - | 0.1965 | 0.9503 |
|
876 |
+
| 0.6959 | 4900 | - | 0.1959 | 0.9518 |
|
877 |
+
| 0.7101 | 5000 | 0.1074 | 0.1931 | 0.9526 |
|
878 |
+
| 0.7243 | 5100 | - | 0.1907 | 0.9523 |
|
879 |
+
| 0.7385 | 5200 | - | 0.1921 | 0.9535 |
|
880 |
+
| 0.7527 | 5300 | - | 0.1932 | 0.9533 |
|
881 |
+
| 0.7669 | 5400 | - | 0.1989 | 0.9515 |
|
882 |
+
| 0.7811 | 5500 | 0.109 | 0.2031 | 0.9505 |
|
883 |
+
| 0.7953 | 5600 | - | 0.2066 | 0.9494 |
|
884 |
+
| 0.8095 | 5700 | - | 0.2083 | 0.9503 |
|
885 |
+
| 0.8237 | 5800 | - | 0.2066 | 0.9507 |
|
886 |
+
| 0.8379 | 5900 | - | 0.2081 | 0.9506 |
|
887 |
+
| 0.8522 | 6000 | 0.0963 | 0.2073 | 0.9509 |
|
888 |
+
| 0.8664 | 6100 | - | 0.2113 | 0.9512 |
|
889 |
+
| 0.8806 | 6200 | - | 0.2083 | 0.9517 |
|
890 |
+
| 0.8948 | 6300 | - | 0.2073 | 0.9516 |
|
891 |
+
| 0.9090 | 6400 | - | 0.2043 | 0.9518 |
|
892 |
+
| 0.9232 | 6500 | 0.0901 | 0.2017 | 0.9527 |
|
893 |
+
| 0.9374 | 6600 | - | 0.2007 | 0.9529 |
|
894 |
+
| 0.9516 | 6700 | - | 0.2002 | 0.9529 |
|
895 |
+
| 0.9658 | 6800 | - | 0.2009 | 0.9522 |
|
896 |
+
| 0.9800 | 6900 | - | 0.2004 | 0.9524 |
|
897 |
+
| 0.9942 | 7000 | 0.081 | 0.2003 | 0.9525 |
|
898 |
+
| 1.0 | 7041 | - | - | 0.9442 |
|
899 |
+
|
900 |
+
|
901 |
+
### Framework Versions
|
902 |
+
- Python: 3.10.14
|
903 |
+
- Sentence Transformers: 3.3.1
|
904 |
+
- Transformers: 4.46.3
|
905 |
+
- PyTorch: 2.4.0
|
906 |
+
- Accelerate: 1.1.1
|
907 |
+
- Datasets: 3.1.0
|
908 |
+
- Tokenizers: 0.20.3
|
909 |
+
|
910 |
+
## Citation
|
911 |
+
|
912 |
+
### BibTeX
|
913 |
+
|
914 |
+
#### Sentence Transformers
|
915 |
+
```bibtex
|
916 |
+
@inproceedings{reimers-2019-sentence-bert,
|
917 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
918 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
919 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
920 |
+
month = "11",
|
921 |
+
year = "2019",
|
922 |
+
publisher = "Association for Computational Linguistics",
|
923 |
+
url = "https://arxiv.org/abs/1908.10084",
|
924 |
+
}
|
925 |
+
```
|
926 |
+
|
927 |
+
#### MatryoshkaLoss
|
928 |
+
```bibtex
|
929 |
+
@misc{kusupati2024matryoshka,
|
930 |
+
title={Matryoshka Representation Learning},
|
931 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
932 |
+
year={2024},
|
933 |
+
eprint={2205.13147},
|
934 |
+
archivePrefix={arXiv},
|
935 |
+
primaryClass={cs.LG}
|
936 |
+
}
|
937 |
+
```
|
938 |
+
|
939 |
+
#### MultipleNegativesRankingLoss
|
940 |
+
```bibtex
|
941 |
+
@misc{henderson2017efficient,
|
942 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
943 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
944 |
+
year={2017},
|
945 |
+
eprint={1705.00652},
|
946 |
+
archivePrefix={arXiv},
|
947 |
+
primaryClass={cs.CL}
|
948 |
+
}
|
949 |
+
```
|
950 |
+
|
951 |
+
<!--
|
952 |
+
## Glossary
|
953 |
+
|
954 |
+
*Clearly define terms in order to be accessible across audiences.*
|
955 |
+
-->
|
956 |
+
|
957 |
+
<!--
|
958 |
+
## Model Card Authors
|
959 |
+
|
960 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
961 |
+
-->
|
962 |
+
|
963 |
+
<!--
|
964 |
+
## Model Card Contact
|
965 |
+
|
966 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
967 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,52 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_attn_implementation_autoset": true,
|
3 |
+
"_name_or_path": "../data/BookingCare/gte-multilingual-base-v2.1",
|
4 |
+
"architectures": [
|
5 |
+
"NewModel"
|
6 |
+
],
|
7 |
+
"attention_probs_dropout_prob": 0.0,
|
8 |
+
"auto_map": {
|
9 |
+
"AutoConfig": "configuration.NewConfig",
|
10 |
+
"AutoModel": "Alibaba-NLP/new-impl--modeling.NewModel",
|
11 |
+
"AutoModelForMaskedLM": "Alibaba-NLP/new-impl--modeling.NewForMaskedLM",
|
12 |
+
"AutoModelForMultipleChoice": "Alibaba-NLP/new-impl--modeling.NewForMultipleChoice",
|
13 |
+
"AutoModelForQuestionAnswering": "Alibaba-NLP/new-impl--modeling.NewForQuestionAnswering",
|
14 |
+
"AutoModelForSequenceClassification": "Alibaba-NLP/new-impl--modeling.NewForSequenceClassification",
|
15 |
+
"AutoModelForTokenClassification": "Alibaba-NLP/new-impl--modeling.NewForTokenClassification"
|
16 |
+
},
|
17 |
+
"classifier_dropout": 0.0,
|
18 |
+
"export_model_type": "transformer",
|
19 |
+
"hidden_act": "gelu",
|
20 |
+
"hidden_dropout_prob": 0.1,
|
21 |
+
"hidden_size": 768,
|
22 |
+
"id2label": {
|
23 |
+
"0": "LABEL_0"
|
24 |
+
},
|
25 |
+
"initializer_range": 0.02,
|
26 |
+
"intermediate_size": 3072,
|
27 |
+
"label2id": {
|
28 |
+
"LABEL_0": 0
|
29 |
+
},
|
30 |
+
"layer_norm_eps": 1e-12,
|
31 |
+
"layer_norm_type": "layer_norm",
|
32 |
+
"logn_attention_clip1": false,
|
33 |
+
"logn_attention_scale": false,
|
34 |
+
"max_position_embeddings": 8192,
|
35 |
+
"model_type": "new",
|
36 |
+
"num_attention_heads": 12,
|
37 |
+
"num_hidden_layers": 12,
|
38 |
+
"pack_qkv": true,
|
39 |
+
"pad_token_id": 1,
|
40 |
+
"position_embedding_type": "rope",
|
41 |
+
"rope_scaling": {
|
42 |
+
"factor": 8.0,
|
43 |
+
"type": "ntk"
|
44 |
+
},
|
45 |
+
"rope_theta": 20000,
|
46 |
+
"torch_dtype": "float32",
|
47 |
+
"transformers_version": "4.46.3",
|
48 |
+
"type_vocab_size": 1,
|
49 |
+
"unpad_inputs": false,
|
50 |
+
"use_memory_efficient_attention": false,
|
51 |
+
"vocab_size": 250048
|
52 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.3.1",
|
4 |
+
"transformers": "4.46.3",
|
5 |
+
"pytorch": "2.1.2+cpu"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
configuration.py
ADDED
@@ -0,0 +1,145 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# coding=utf-8
|
2 |
+
# Copyright 2024 The GTE Team Authors and Alibaba Group.
|
3 |
+
# Copyright (c) 2018, NVIDIA CORPORATION. All rights reserved.
|
4 |
+
#
|
5 |
+
# Licensed under the Apache License, Version 2.0 (the "License");
|
6 |
+
# you may not use this file except in compliance with the License.
|
7 |
+
# You may obtain a copy of the License at
|
8 |
+
#
|
9 |
+
# http://www.apache.org/licenses/LICENSE-2.0
|
10 |
+
#
|
11 |
+
# Unless required by applicable law or agreed to in writing, software
|
12 |
+
# distributed under the License is distributed on an "AS IS" BASIS,
|
13 |
+
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
|
14 |
+
# See the License for the specific language governing permissions and
|
15 |
+
# limitations under the License.
|
16 |
+
""" NEW model configuration"""
|
17 |
+
from transformers.configuration_utils import PretrainedConfig
|
18 |
+
from transformers.utils import logging
|
19 |
+
|
20 |
+
logger = logging.get_logger(__name__)
|
21 |
+
|
22 |
+
|
23 |
+
class NewConfig(PretrainedConfig):
|
24 |
+
r"""
|
25 |
+
This is the configuration class to store the configuration of a [`NewModel`] or a [`TFNewModel`]. It is used to
|
26 |
+
instantiate a NEW model according to the specified arguments, defining the model architecture. Instantiating a
|
27 |
+
configuration with the defaults will yield a similar configuration to that of the NEW
|
28 |
+
[izhx/new-base-en](https://huggingface.co/izhx/new-base-en) architecture.
|
29 |
+
|
30 |
+
Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
|
31 |
+
documentation from [`PretrainedConfig`] for more information.
|
32 |
+
|
33 |
+
|
34 |
+
Args:
|
35 |
+
vocab_size (`int`, *optional*, defaults to 30522):
|
36 |
+
Vocabulary size of the NEW model. Defines the number of different tokens that can be represented by the
|
37 |
+
`inputs_ids` passed when calling [`NewModel`] or [`TFNewModel`].
|
38 |
+
hidden_size (`int`, *optional*, defaults to 768):
|
39 |
+
Dimensionality of the encoder layers and the pooler layer.
|
40 |
+
num_hidden_layers (`int`, *optional*, defaults to 12):
|
41 |
+
Number of hidden layers in the Transformer encoder.
|
42 |
+
num_attention_heads (`int`, *optional*, defaults to 12):
|
43 |
+
Number of attention heads for each attention layer in the Transformer encoder.
|
44 |
+
intermediate_size (`int`, *optional*, defaults to 3072):
|
45 |
+
Dimensionality of the "intermediate" (often named feed-forward) layer in the Transformer encoder.
|
46 |
+
hidden_act (`str` or `Callable`, *optional*, defaults to `"gelu"`):
|
47 |
+
The non-linear activation function (function or string) in the encoder and pooler. If string, `"gelu"`,
|
48 |
+
`"relu"`, `"silu"` and `"gelu_new"` are supported.
|
49 |
+
hidden_dropout_prob (`float`, *optional*, defaults to 0.1):
|
50 |
+
The dropout probability for all fully connected layers in the embeddings, encoder, and pooler.
|
51 |
+
attention_probs_dropout_prob (`float`, *optional*, defaults to 0.1):
|
52 |
+
The dropout ratio for the attention probabilities.
|
53 |
+
max_position_embeddings (`int`, *optional*, defaults to 512):
|
54 |
+
The maximum sequence length that this model might ever be used with. Typically set this to something large
|
55 |
+
just in case (e.g., 512 or 1024 or 2048).
|
56 |
+
type_vocab_size (`int`, *optional*, defaults to 2):
|
57 |
+
The vocabulary size of the `token_type_ids` passed when calling [`NewModel`] or [`TFNewModel`].
|
58 |
+
initializer_range (`float`, *optional*, defaults to 0.02):
|
59 |
+
The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
|
60 |
+
layer_norm_eps (`float`, *optional*, defaults to 1e-12):
|
61 |
+
The epsilon used by the layer normalization layers.
|
62 |
+
position_embedding_type (`str`, *optional*, defaults to `"rope"`):
|
63 |
+
Type of position embedding. Choose one of `"absolute"`, `"rope"`.
|
64 |
+
rope_theta (`float`, *optional*, defaults to 10000.0):
|
65 |
+
The base period of the RoPE embeddings.
|
66 |
+
rope_scaling (`Dict`, *optional*):
|
67 |
+
Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
|
68 |
+
strategies: linear and dynamic. Their scaling factor must be a float greater than 1. The expected format is
|
69 |
+
`{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
|
70 |
+
`max_position_embeddings` to the expected new maximum. See the following thread for more information on how
|
71 |
+
these scaling strategies behave:
|
72 |
+
https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This is an
|
73 |
+
experimental feature, subject to breaking API changes in future versions.
|
74 |
+
classifier_dropout (`float`, *optional*):
|
75 |
+
The dropout ratio for the classification head.
|
76 |
+
|
77 |
+
Examples:
|
78 |
+
|
79 |
+
```python
|
80 |
+
>>> from transformers import NewConfig, NewModel
|
81 |
+
|
82 |
+
>>> # Initializing a NEW izhx/new-base-en style configuration
|
83 |
+
>>> configuration = NewConfig()
|
84 |
+
|
85 |
+
>>> # Initializing a model (with random weights) from the izhx/new-base-en style configuration
|
86 |
+
>>> model = NewModel(configuration)
|
87 |
+
|
88 |
+
>>> # Accessing the model configuration
|
89 |
+
>>> configuration = model.config
|
90 |
+
```"""
|
91 |
+
|
92 |
+
model_type = "new"
|
93 |
+
|
94 |
+
def __init__(
|
95 |
+
self,
|
96 |
+
vocab_size=30528,
|
97 |
+
hidden_size=768,
|
98 |
+
num_hidden_layers=12,
|
99 |
+
num_attention_heads=12,
|
100 |
+
intermediate_size=3072,
|
101 |
+
hidden_act="gelu",
|
102 |
+
hidden_dropout_prob=0.1,
|
103 |
+
attention_probs_dropout_prob=0.0,
|
104 |
+
max_position_embeddings=2048,
|
105 |
+
type_vocab_size=1,
|
106 |
+
initializer_range=0.02,
|
107 |
+
layer_norm_type='layer_norm',
|
108 |
+
layer_norm_eps=1e-12,
|
109 |
+
# pad_token_id=0,
|
110 |
+
position_embedding_type="rope",
|
111 |
+
rope_theta=10000.0,
|
112 |
+
rope_scaling=None,
|
113 |
+
classifier_dropout=None,
|
114 |
+
pack_qkv=True,
|
115 |
+
unpad_inputs=False,
|
116 |
+
use_memory_efficient_attention=False,
|
117 |
+
logn_attention_scale=False,
|
118 |
+
logn_attention_clip1=False,
|
119 |
+
**kwargs,
|
120 |
+
):
|
121 |
+
super().__init__(**kwargs)
|
122 |
+
|
123 |
+
self.vocab_size = vocab_size
|
124 |
+
self.hidden_size = hidden_size
|
125 |
+
self.num_hidden_layers = num_hidden_layers
|
126 |
+
self.num_attention_heads = num_attention_heads
|
127 |
+
self.hidden_act = hidden_act
|
128 |
+
self.intermediate_size = intermediate_size
|
129 |
+
self.hidden_dropout_prob = hidden_dropout_prob
|
130 |
+
self.attention_probs_dropout_prob = attention_probs_dropout_prob
|
131 |
+
self.max_position_embeddings = max_position_embeddings
|
132 |
+
self.type_vocab_size = type_vocab_size
|
133 |
+
self.initializer_range = initializer_range
|
134 |
+
self.layer_norm_type = layer_norm_type
|
135 |
+
self.layer_norm_eps = layer_norm_eps
|
136 |
+
self.position_embedding_type = position_embedding_type
|
137 |
+
self.rope_theta = rope_theta
|
138 |
+
self.rope_scaling = rope_scaling
|
139 |
+
self.classifier_dropout = classifier_dropout
|
140 |
+
|
141 |
+
self.pack_qkv = pack_qkv
|
142 |
+
self.unpad_inputs = unpad_inputs
|
143 |
+
self.use_memory_efficient_attention = use_memory_efficient_attention
|
144 |
+
self.logn_attention_scale = logn_attention_scale
|
145 |
+
self.logn_attention_clip1 = logn_attention_clip1
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
onnx/model.onnx
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:abd9bb24eb1f6295d64fa9b7f4f1193a53ed58d4e43d7ce00bd09a7ba9618d5f
|
3 |
+
size 465296928
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 8192,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:aa7a6ad87a7ce8fe196787355f6af7d03aee94d19c54a5eb1392ed18c8ef451a
|
3 |
+
size 17082988
|
tokenizer_config.json
ADDED
@@ -0,0 +1,61 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"max_length": 8192,
|
50 |
+
"model_max_length": 8192,
|
51 |
+
"pad_to_multiple_of": null,
|
52 |
+
"pad_token": "<pad>",
|
53 |
+
"pad_token_type_id": 0,
|
54 |
+
"padding_side": "right",
|
55 |
+
"sep_token": "</s>",
|
56 |
+
"stride": 0,
|
57 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
58 |
+
"truncation_side": "right",
|
59 |
+
"truncation_strategy": "longest_first",
|
60 |
+
"unk_token": "<unk>"
|
61 |
+
}
|