nampham1106
commited on
Commit
•
389d5c3
1
Parent(s):
817e81f
BookingCare/bkcare-text-emeb-v1.0
Browse files- 1_Pooling/config.json +10 -0
- README.md +646 -0
- config.json +26 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- runs/Jul19_04-23-14_388a0a0ccdab/events.out.tfevents.1721362996.388a0a0ccdab.15252.0 +3 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +55 -0
- training_args.bin +3 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,646 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- ar
|
4 |
+
- bg
|
5 |
+
- de
|
6 |
+
- el
|
7 |
+
- en
|
8 |
+
- es
|
9 |
+
- fr
|
10 |
+
- hi
|
11 |
+
- ru
|
12 |
+
- sw
|
13 |
+
- th
|
14 |
+
- tr
|
15 |
+
- ur
|
16 |
+
- vi
|
17 |
+
- zh
|
18 |
+
library_name: sentence-transformers
|
19 |
+
tags:
|
20 |
+
- sentence-transformers
|
21 |
+
- sentence-similarity
|
22 |
+
- feature-extraction
|
23 |
+
- generated_from_trainer
|
24 |
+
- dataset_size:388774
|
25 |
+
- loss:MatryoshkaLoss
|
26 |
+
- loss:MultipleNegativesRankingLoss
|
27 |
+
base_model: BookingCare/bkcare-bert-pretrained
|
28 |
+
datasets:
|
29 |
+
- facebook/xnli
|
30 |
+
metrics:
|
31 |
+
- pearson_cosine
|
32 |
+
- spearman_cosine
|
33 |
+
- pearson_manhattan
|
34 |
+
- spearman_manhattan
|
35 |
+
- pearson_euclidean
|
36 |
+
- spearman_euclidean
|
37 |
+
- pearson_dot
|
38 |
+
- spearman_dot
|
39 |
+
- pearson_max
|
40 |
+
- spearman_max
|
41 |
+
widget:
|
42 |
+
- source_sentence: Như bằng chứng về việc này , cô ta đã chi tiết các tài sản bầu
|
43 |
+
cử của clinton theo tiểu bang , ở phía đông bắc , Trung Tây , và tây .
|
44 |
+
sentences:
|
45 |
+
- Bộ chọn ứng cử viên không vui chơi ở các bữa tiệc .
|
46 |
+
- Sử dụng công nghệ thông tin cho phép sử dụng các nguồn tài nguyên liên lạc lớn
|
47 |
+
hơn .
|
48 |
+
- Không bao giờ có một tài khoản kỹ lưỡng của các cuộc bầu cử của clinton .
|
49 |
+
- source_sentence: Sau một thời gian , ông ấy ngừng bò và ngồi lên .
|
50 |
+
sentences:
|
51 |
+
- Jon muốn có một trận đấu lớn để bắt đầu .
|
52 |
+
- Tất cả mọi người đều được đưa ra một tách trung quốc vào đầu năm .
|
53 |
+
- Anh ta bị thương nghiêm trọng .
|
54 |
+
- source_sentence: Arras đã nổi tiếng trong thời trung cổ cho tác phẩm của vải và
|
55 |
+
những tấm thảm treo cổ , loại thông qua mà polonius gặp phải cái chết của ông
|
56 |
+
ta ở hamlet .
|
57 |
+
sentences:
|
58 |
+
- Lũ lụt đang dự kiến đã gây ra 1.5 tỷ đô la trong thiệt hại .
|
59 |
+
- Nó sẽ là bắt buộc cho những người nghèo khổ vì những quy định .
|
60 |
+
- Arras chỉ làm đồ gốm thôi .
|
61 |
+
- source_sentence: Lehrer là người về sự giao tiếp này với gió và quyền lực , và nó
|
62 |
+
đã biến anh ta thành một trong số họ .
|
63 |
+
sentences:
|
64 |
+
- Người đã làm julius cảm thấy lo lắng .
|
65 |
+
- Họ có thể mất 36 tháng để hoàn thành .
|
66 |
+
- Leher không thích giao tiếp với các chính trị gia .
|
67 |
+
- source_sentence: Tôi sẽ làm tất cả những gì ông muốn. julius hạ khẩu súng lục .
|
68 |
+
sentences:
|
69 |
+
- Tôi sẽ ban cho anh những lời chúc của anh , julius bỏ súng xuống .
|
70 |
+
- Bạn có thể được đề nghị giả ngọc , điều đó rất tương tự với các đối tác cao hơn
|
71 |
+
của nó .
|
72 |
+
- Nó đến trong túi 400 pound .
|
73 |
+
pipeline_tag: sentence-similarity
|
74 |
+
model-index:
|
75 |
+
- name: SentenceTransformer based on BookingCare/bkcare-bert-pretrained
|
76 |
+
results:
|
77 |
+
- task:
|
78 |
+
type: semantic-similarity
|
79 |
+
name: Semantic Similarity
|
80 |
+
dataset:
|
81 |
+
name: sts dev 768
|
82 |
+
type: sts-dev-768
|
83 |
+
metrics:
|
84 |
+
- type: pearson_cosine
|
85 |
+
value: 0.6867482534374487
|
86 |
+
name: Pearson Cosine
|
87 |
+
- type: spearman_cosine
|
88 |
+
value: 0.6700553964995389
|
89 |
+
name: Spearman Cosine
|
90 |
+
- type: pearson_manhattan
|
91 |
+
value: 0.6734129943367082
|
92 |
+
name: Pearson Manhattan
|
93 |
+
- type: spearman_manhattan
|
94 |
+
value: 0.6689701652447698
|
95 |
+
name: Spearman Manhattan
|
96 |
+
- type: pearson_euclidean
|
97 |
+
value: 0.6743893025028618
|
98 |
+
name: Pearson Euclidean
|
99 |
+
- type: spearman_euclidean
|
100 |
+
value: 0.6700560677966448
|
101 |
+
name: Spearman Euclidean
|
102 |
+
- type: pearson_dot
|
103 |
+
value: 0.6867482521687218
|
104 |
+
name: Pearson Dot
|
105 |
+
- type: spearman_dot
|
106 |
+
value: 0.6700558146434896
|
107 |
+
name: Spearman Dot
|
108 |
+
- type: pearson_max
|
109 |
+
value: 0.6867482534374487
|
110 |
+
name: Pearson Max
|
111 |
+
- type: spearman_max
|
112 |
+
value: 0.6700560677966448
|
113 |
+
name: Spearman Max
|
114 |
+
- task:
|
115 |
+
type: semantic-similarity
|
116 |
+
name: Semantic Similarity
|
117 |
+
dataset:
|
118 |
+
name: sts dev 512
|
119 |
+
type: sts-dev-512
|
120 |
+
metrics:
|
121 |
+
- type: pearson_cosine
|
122 |
+
value: 0.6850905517919458
|
123 |
+
name: Pearson Cosine
|
124 |
+
- type: spearman_cosine
|
125 |
+
value: 0.6685671393301956
|
126 |
+
name: Spearman Cosine
|
127 |
+
- type: pearson_manhattan
|
128 |
+
value: 0.6726989775543833
|
129 |
+
name: Pearson Manhattan
|
130 |
+
- type: spearman_manhattan
|
131 |
+
value: 0.6682515030981849
|
132 |
+
name: Spearman Manhattan
|
133 |
+
- type: pearson_euclidean
|
134 |
+
value: 0.6739395873419184
|
135 |
+
name: Pearson Euclidean
|
136 |
+
- type: spearman_euclidean
|
137 |
+
value: 0.6695224924884773
|
138 |
+
name: Spearman Euclidean
|
139 |
+
- type: pearson_dot
|
140 |
+
value: 0.6802500913119895
|
141 |
+
name: Pearson Dot
|
142 |
+
- type: spearman_dot
|
143 |
+
value: 0.6631065723741826
|
144 |
+
name: Spearman Dot
|
145 |
+
- type: pearson_max
|
146 |
+
value: 0.6850905517919458
|
147 |
+
name: Pearson Max
|
148 |
+
- type: spearman_max
|
149 |
+
value: 0.6695224924884773
|
150 |
+
name: Spearman Max
|
151 |
+
- task:
|
152 |
+
type: semantic-similarity
|
153 |
+
name: Semantic Similarity
|
154 |
+
dataset:
|
155 |
+
name: sts dev 256
|
156 |
+
type: sts-dev-256
|
157 |
+
metrics:
|
158 |
+
- type: pearson_cosine
|
159 |
+
value: 0.6725154983351178
|
160 |
+
name: Pearson Cosine
|
161 |
+
- type: spearman_cosine
|
162 |
+
value: 0.6575647130100782
|
163 |
+
name: Spearman Cosine
|
164 |
+
- type: pearson_manhattan
|
165 |
+
value: 0.6697743652714089
|
166 |
+
name: Pearson Manhattan
|
167 |
+
- type: spearman_manhattan
|
168 |
+
value: 0.6645201863227755
|
169 |
+
name: Spearman Manhattan
|
170 |
+
- type: pearson_euclidean
|
171 |
+
value: 0.6719730940115203
|
172 |
+
name: Pearson Euclidean
|
173 |
+
- type: spearman_euclidean
|
174 |
+
value: 0.6669909427123673
|
175 |
+
name: Spearman Euclidean
|
176 |
+
- type: pearson_dot
|
177 |
+
value: 0.6475732494643994
|
178 |
+
name: Pearson Dot
|
179 |
+
- type: spearman_dot
|
180 |
+
value: 0.6294359395183124
|
181 |
+
name: Spearman Dot
|
182 |
+
- type: pearson_max
|
183 |
+
value: 0.6725154983351178
|
184 |
+
name: Pearson Max
|
185 |
+
- type: spearman_max
|
186 |
+
value: 0.6669909427123673
|
187 |
+
name: Spearman Max
|
188 |
+
---
|
189 |
+
|
190 |
+
# SentenceTransformer based on BookingCare/bkcare-bert-pretrained
|
191 |
+
|
192 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BookingCare/bkcare-bert-pretrained](https://huggingface.co/BookingCare/bkcare-bert-pretrained) on the [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
193 |
+
|
194 |
+
## Model Details
|
195 |
+
|
196 |
+
### Model Description
|
197 |
+
- **Model Type:** Sentence Transformer
|
198 |
+
- **Base model:** [BookingCare/bkcare-bert-pretrained](https://huggingface.co/BookingCare/bkcare-bert-pretrained) <!-- at revision f869851286af65b3dbe0541a14fc5d3d2bb6c95d -->
|
199 |
+
- **Maximum Sequence Length:** 512 tokens
|
200 |
+
- **Output Dimensionality:** 768 tokens
|
201 |
+
- **Similarity Function:** Cosine Similarity
|
202 |
+
- **Training Dataset:**
|
203 |
+
- [facebook/xnli](https://huggingface.co/datasets/facebook/xnli)
|
204 |
+
- **Languages:** ar, bg, de, el, en, es, fr, hi, ru, sw, th, tr, ur, vi, zh
|
205 |
+
<!-- - **License:** Unknown -->
|
206 |
+
|
207 |
+
### Model Sources
|
208 |
+
|
209 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
210 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
211 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
212 |
+
|
213 |
+
### Full Model Architecture
|
214 |
+
|
215 |
+
```
|
216 |
+
SentenceTransformer(
|
217 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
218 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
219 |
+
(2): Normalize()
|
220 |
+
)
|
221 |
+
```
|
222 |
+
|
223 |
+
## Usage
|
224 |
+
|
225 |
+
### Direct Usage (Sentence Transformers)
|
226 |
+
|
227 |
+
First install the Sentence Transformers library:
|
228 |
+
|
229 |
+
```bash
|
230 |
+
pip install -U sentence-transformers
|
231 |
+
```
|
232 |
+
|
233 |
+
Then you can load this model and run inference.
|
234 |
+
```python
|
235 |
+
from sentence_transformers import SentenceTransformer
|
236 |
+
|
237 |
+
# Download from the 🤗 Hub
|
238 |
+
model = SentenceTransformer("matryoshka_nli_BookingCare-bkcare-bert-pretrained-2024-07-19_04-21-48")
|
239 |
+
# Run inference
|
240 |
+
sentences = [
|
241 |
+
'Tôi sẽ làm tất cả những gì ông muốn. julius hạ khẩu súng lục .',
|
242 |
+
'Tôi sẽ ban cho anh những lời chúc của anh , julius bỏ súng xuống .',
|
243 |
+
'Nó đến trong túi 400 pound .',
|
244 |
+
]
|
245 |
+
embeddings = model.encode(sentences)
|
246 |
+
print(embeddings.shape)
|
247 |
+
# [3, 768]
|
248 |
+
|
249 |
+
# Get the similarity scores for the embeddings
|
250 |
+
similarities = model.similarity(embeddings, embeddings)
|
251 |
+
print(similarities.shape)
|
252 |
+
# [3, 3]
|
253 |
+
```
|
254 |
+
|
255 |
+
<!--
|
256 |
+
### Direct Usage (Transformers)
|
257 |
+
|
258 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
259 |
+
|
260 |
+
</details>
|
261 |
+
-->
|
262 |
+
|
263 |
+
<!--
|
264 |
+
### Downstream Usage (Sentence Transformers)
|
265 |
+
|
266 |
+
You can finetune this model on your own dataset.
|
267 |
+
|
268 |
+
<details><summary>Click to expand</summary>
|
269 |
+
|
270 |
+
</details>
|
271 |
+
-->
|
272 |
+
|
273 |
+
<!--
|
274 |
+
### Out-of-Scope Use
|
275 |
+
|
276 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
277 |
+
-->
|
278 |
+
|
279 |
+
## Evaluation
|
280 |
+
|
281 |
+
### Metrics
|
282 |
+
|
283 |
+
#### Semantic Similarity
|
284 |
+
* Dataset: `sts-dev-768`
|
285 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
286 |
+
|
287 |
+
| Metric | Value |
|
288 |
+
|:--------------------|:-----------|
|
289 |
+
| pearson_cosine | 0.6867 |
|
290 |
+
| **spearman_cosine** | **0.6701** |
|
291 |
+
| pearson_manhattan | 0.6734 |
|
292 |
+
| spearman_manhattan | 0.669 |
|
293 |
+
| pearson_euclidean | 0.6744 |
|
294 |
+
| spearman_euclidean | 0.6701 |
|
295 |
+
| pearson_dot | 0.6867 |
|
296 |
+
| spearman_dot | 0.6701 |
|
297 |
+
| pearson_max | 0.6867 |
|
298 |
+
| spearman_max | 0.6701 |
|
299 |
+
|
300 |
+
#### Semantic Similarity
|
301 |
+
* Dataset: `sts-dev-512`
|
302 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
303 |
+
|
304 |
+
| Metric | Value |
|
305 |
+
|:--------------------|:-----------|
|
306 |
+
| pearson_cosine | 0.6851 |
|
307 |
+
| **spearman_cosine** | **0.6686** |
|
308 |
+
| pearson_manhattan | 0.6727 |
|
309 |
+
| spearman_manhattan | 0.6683 |
|
310 |
+
| pearson_euclidean | 0.6739 |
|
311 |
+
| spearman_euclidean | 0.6695 |
|
312 |
+
| pearson_dot | 0.6803 |
|
313 |
+
| spearman_dot | 0.6631 |
|
314 |
+
| pearson_max | 0.6851 |
|
315 |
+
| spearman_max | 0.6695 |
|
316 |
+
|
317 |
+
#### Semantic Similarity
|
318 |
+
* Dataset: `sts-dev-256`
|
319 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
320 |
+
|
321 |
+
| Metric | Value |
|
322 |
+
|:--------------------|:-----------|
|
323 |
+
| pearson_cosine | 0.6725 |
|
324 |
+
| **spearman_cosine** | **0.6576** |
|
325 |
+
| pearson_manhattan | 0.6698 |
|
326 |
+
| spearman_manhattan | 0.6645 |
|
327 |
+
| pearson_euclidean | 0.672 |
|
328 |
+
| spearman_euclidean | 0.667 |
|
329 |
+
| pearson_dot | 0.6476 |
|
330 |
+
| spearman_dot | 0.6294 |
|
331 |
+
| pearson_max | 0.6725 |
|
332 |
+
| spearman_max | 0.667 |
|
333 |
+
|
334 |
+
<!--
|
335 |
+
## Bias, Risks and Limitations
|
336 |
+
|
337 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
338 |
+
-->
|
339 |
+
|
340 |
+
<!--
|
341 |
+
### Recommendations
|
342 |
+
|
343 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
344 |
+
-->
|
345 |
+
|
346 |
+
## Training Details
|
347 |
+
|
348 |
+
### Training Dataset
|
349 |
+
|
350 |
+
#### facebook/xnli
|
351 |
+
|
352 |
+
* Dataset: [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) at [b8dd5d7](https://huggingface.co/datasets/facebook/xnli/tree/b8dd5d7af51114dbda02c0e3f6133f332186418e)
|
353 |
+
* Size: 388,774 training samples
|
354 |
+
* Columns: <code>premise</code>, <code>hypothesis</code>, and <code>label</code>
|
355 |
+
* Approximate statistics based on the first 1000 samples:
|
356 |
+
| | premise | hypothesis | label |
|
357 |
+
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
|
358 |
+
| type | string | string | int |
|
359 |
+
| details | <ul><li>min: 3 tokens</li><li>mean: 29.98 tokens</li><li>max: 309 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 15.64 tokens</li><li>max: 61 tokens</li></ul> | <ul><li>0: ~33.10%</li><li>1: ~35.60%</li><li>2: ~31.30%</li></ul> |
|
360 |
+
* Samples:
|
361 |
+
| premise | hypothesis | label |
|
362 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
|
363 |
+
| <code>Những rắc rối với loại phân tích chi tiết này có nghĩa là bất kỳ nghệ nhân nào có thể nghiên cứu kỹ thuật của người nghệ thuật và tái tạo chúng -- sự chuẩn bị của hoffman .</code> | <code>Sự tái tạo là một quá trình dễ dàng .</code> | <code>2</code> |
|
364 |
+
| <code>Đó là một sự quan sát tỉnh rượu , để nhận ra rằng 80 phần trăm của những người cần sự giúp đỡ pháp lý bị từ chối những hướng dẫn và luật sự .</code> | <code>80 % những người cần sự trợ giúp pháp lý bị từ chối những hướng dẫn mà họ đang tìm kiếm , và đây là một suy nghĩ tỉnh rượu .</code> | <code>0</code> |
|
365 |
+
| <code>Đi qua cái để tìm nhà thờ của những hình xăm egios .</code> | <code>Nếu anh đi qua cái , anh sẽ tìm thấy mình ở bờ vực của thị trấn , không có gì ngoài nông thôn bên kia .</code> | <code>2</code> |
|
366 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
367 |
+
```json
|
368 |
+
{
|
369 |
+
"loss": "MultipleNegativesRankingLoss",
|
370 |
+
"matryoshka_dims": [
|
371 |
+
768,
|
372 |
+
512,
|
373 |
+
256
|
374 |
+
],
|
375 |
+
"matryoshka_weights": [
|
376 |
+
1,
|
377 |
+
1,
|
378 |
+
1
|
379 |
+
],
|
380 |
+
"n_dims_per_step": -1
|
381 |
+
}
|
382 |
+
```
|
383 |
+
|
384 |
+
### Evaluation Dataset
|
385 |
+
|
386 |
+
#### facebook/xnli
|
387 |
+
|
388 |
+
* Dataset: [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) at [b8dd5d7](https://huggingface.co/datasets/facebook/xnli/tree/b8dd5d7af51114dbda02c0e3f6133f332186418e)
|
389 |
+
* Size: 3,928 evaluation samples
|
390 |
+
* Columns: <code>premise</code>, <code>hypothesis</code>, and <code>label</code>
|
391 |
+
* Approximate statistics based on the first 1000 samples:
|
392 |
+
| | premise | hypothesis | label |
|
393 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
|
394 |
+
| type | string | string | int |
|
395 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 32.3 tokens</li><li>max: 163 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 15.73 tokens</li><li>max: 53 tokens</li></ul> | <ul><li>0: ~32.40%</li><li>1: ~33.50%</li><li>2: ~34.10%</li></ul> |
|
396 |
+
* Samples:
|
397 |
+
| premise | hypothesis | label |
|
398 |
+
|:---------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------|:---------------|
|
399 |
+
| <code>Hai xu mắt anh ta warily .</code> | <code>Hai xu không nhìn anh ta .</code> | <code>2</code> |
|
400 |
+
| <code>Một không khí chung của glee permeated tất cả mọi người .</code> | <code>Mọi thứ đều cảm thấy hạnh phúc .</code> | <code>0</code> |
|
401 |
+
| <code>Tuy nhiên , một sự chắc chắn là dân số hoa kỳ đã bị lão hóa và sẽ có ít công nhân hỗ trợ mỗi người nghỉ hưu .</code> | <code>Trạng Thái lão hóa của dân số hoa kỳ được coi là một sự không chắc chắn .</code> | <code>2</code> |
|
402 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
403 |
+
```json
|
404 |
+
{
|
405 |
+
"loss": "MultipleNegativesRankingLoss",
|
406 |
+
"matryoshka_dims": [
|
407 |
+
768,
|
408 |
+
512,
|
409 |
+
256
|
410 |
+
],
|
411 |
+
"matryoshka_weights": [
|
412 |
+
1,
|
413 |
+
1,
|
414 |
+
1
|
415 |
+
],
|
416 |
+
"n_dims_per_step": -1
|
417 |
+
}
|
418 |
+
```
|
419 |
+
|
420 |
+
### Training Hyperparameters
|
421 |
+
#### Non-Default Hyperparameters
|
422 |
+
|
423 |
+
- `eval_strategy`: steps
|
424 |
+
- `per_device_train_batch_size`: 32
|
425 |
+
- `per_device_eval_batch_size`: 32
|
426 |
+
- `learning_rate`: 2e-05
|
427 |
+
- `num_train_epochs`: 1
|
428 |
+
- `warmup_ratio`: 0.1
|
429 |
+
- `fp16`: True
|
430 |
+
- `batch_sampler`: no_duplicates
|
431 |
+
|
432 |
+
#### All Hyperparameters
|
433 |
+
<details><summary>Click to expand</summary>
|
434 |
+
|
435 |
+
- `overwrite_output_dir`: False
|
436 |
+
- `do_predict`: False
|
437 |
+
- `eval_strategy`: steps
|
438 |
+
- `prediction_loss_only`: True
|
439 |
+
- `per_device_train_batch_size`: 32
|
440 |
+
- `per_device_eval_batch_size`: 32
|
441 |
+
- `per_gpu_train_batch_size`: None
|
442 |
+
- `per_gpu_eval_batch_size`: None
|
443 |
+
- `gradient_accumulation_steps`: 1
|
444 |
+
- `eval_accumulation_steps`: None
|
445 |
+
- `learning_rate`: 2e-05
|
446 |
+
- `weight_decay`: 0.0
|
447 |
+
- `adam_beta1`: 0.9
|
448 |
+
- `adam_beta2`: 0.999
|
449 |
+
- `adam_epsilon`: 1e-08
|
450 |
+
- `max_grad_norm`: 1.0
|
451 |
+
- `num_train_epochs`: 1
|
452 |
+
- `max_steps`: -1
|
453 |
+
- `lr_scheduler_type`: linear
|
454 |
+
- `lr_scheduler_kwargs`: {}
|
455 |
+
- `warmup_ratio`: 0.1
|
456 |
+
- `warmup_steps`: 0
|
457 |
+
- `log_level`: passive
|
458 |
+
- `log_level_replica`: warning
|
459 |
+
- `log_on_each_node`: True
|
460 |
+
- `logging_nan_inf_filter`: True
|
461 |
+
- `save_safetensors`: True
|
462 |
+
- `save_on_each_node`: False
|
463 |
+
- `save_only_model`: False
|
464 |
+
- `restore_callback_states_from_checkpoint`: False
|
465 |
+
- `no_cuda`: False
|
466 |
+
- `use_cpu`: False
|
467 |
+
- `use_mps_device`: False
|
468 |
+
- `seed`: 42
|
469 |
+
- `data_seed`: None
|
470 |
+
- `jit_mode_eval`: False
|
471 |
+
- `use_ipex`: False
|
472 |
+
- `bf16`: False
|
473 |
+
- `fp16`: True
|
474 |
+
- `fp16_opt_level`: O1
|
475 |
+
- `half_precision_backend`: auto
|
476 |
+
- `bf16_full_eval`: False
|
477 |
+
- `fp16_full_eval`: False
|
478 |
+
- `tf32`: None
|
479 |
+
- `local_rank`: 0
|
480 |
+
- `ddp_backend`: None
|
481 |
+
- `tpu_num_cores`: None
|
482 |
+
- `tpu_metrics_debug`: False
|
483 |
+
- `debug`: []
|
484 |
+
- `dataloader_drop_last`: False
|
485 |
+
- `dataloader_num_workers`: 0
|
486 |
+
- `dataloader_prefetch_factor`: None
|
487 |
+
- `past_index`: -1
|
488 |
+
- `disable_tqdm`: False
|
489 |
+
- `remove_unused_columns`: True
|
490 |
+
- `label_names`: None
|
491 |
+
- `load_best_model_at_end`: False
|
492 |
+
- `ignore_data_skip`: False
|
493 |
+
- `fsdp`: []
|
494 |
+
- `fsdp_min_num_params`: 0
|
495 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
496 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
497 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
498 |
+
- `deepspeed`: None
|
499 |
+
- `label_smoothing_factor`: 0.0
|
500 |
+
- `optim`: adamw_torch
|
501 |
+
- `optim_args`: None
|
502 |
+
- `adafactor`: False
|
503 |
+
- `group_by_length`: False
|
504 |
+
- `length_column_name`: length
|
505 |
+
- `ddp_find_unused_parameters`: None
|
506 |
+
- `ddp_bucket_cap_mb`: None
|
507 |
+
- `ddp_broadcast_buffers`: False
|
508 |
+
- `dataloader_pin_memory`: True
|
509 |
+
- `dataloader_persistent_workers`: False
|
510 |
+
- `skip_memory_metrics`: True
|
511 |
+
- `use_legacy_prediction_loop`: False
|
512 |
+
- `push_to_hub`: False
|
513 |
+
- `resume_from_checkpoint`: None
|
514 |
+
- `hub_model_id`: None
|
515 |
+
- `hub_strategy`: every_save
|
516 |
+
- `hub_private_repo`: False
|
517 |
+
- `hub_always_push`: False
|
518 |
+
- `gradient_checkpointing`: False
|
519 |
+
- `gradient_checkpointing_kwargs`: None
|
520 |
+
- `include_inputs_for_metrics`: False
|
521 |
+
- `eval_do_concat_batches`: True
|
522 |
+
- `fp16_backend`: auto
|
523 |
+
- `push_to_hub_model_id`: None
|
524 |
+
- `push_to_hub_organization`: None
|
525 |
+
- `mp_parameters`:
|
526 |
+
- `auto_find_batch_size`: False
|
527 |
+
- `full_determinism`: False
|
528 |
+
- `torchdynamo`: None
|
529 |
+
- `ray_scope`: last
|
530 |
+
- `ddp_timeout`: 1800
|
531 |
+
- `torch_compile`: False
|
532 |
+
- `torch_compile_backend`: None
|
533 |
+
- `torch_compile_mode`: None
|
534 |
+
- `dispatch_batches`: None
|
535 |
+
- `split_batches`: None
|
536 |
+
- `include_tokens_per_second`: False
|
537 |
+
- `include_num_input_tokens_seen`: False
|
538 |
+
- `neftune_noise_alpha`: None
|
539 |
+
- `optim_target_modules`: None
|
540 |
+
- `batch_eval_metrics`: False
|
541 |
+
- `batch_sampler`: no_duplicates
|
542 |
+
- `multi_dataset_batch_sampler`: proportional
|
543 |
+
|
544 |
+
</details>
|
545 |
+
|
546 |
+
### Training Logs
|
547 |
+
| Epoch | Step | Training Loss | loss | sts-dev-256_spearman_cosine | sts-dev-512_spearman_cosine | sts-dev-768_spearman_cosine |
|
548 |
+
|:------:|:----:|:-------------:|:------:|:---------------------------:|:---------------------------:|:---------------------------:|
|
549 |
+
| 0 | 0 | - | - | 0.5425 | 0.5569 | 0.5593 |
|
550 |
+
| 0.0494 | 300 | 5.6741 | - | - | - | - |
|
551 |
+
| 0.0823 | 500 | - | 2.9876 | 0.6417 | 0.6479 | 0.6502 |
|
552 |
+
| 0.0988 | 600 | 3.5541 | - | - | - | - |
|
553 |
+
| 0.1481 | 900 | 2.9032 | - | - | - | - |
|
554 |
+
| 0.1646 | 1000 | - | 2.3400 | 0.6526 | 0.6565 | 0.6591 |
|
555 |
+
| 0.1975 | 1200 | 2.6495 | - | - | - | - |
|
556 |
+
| 0.2469 | 1500 | 2.426 | 2.1092 | 0.6359 | 0.6466 | 0.6501 |
|
557 |
+
| 0.2963 | 1800 | 2.2969 | - | - | - | - |
|
558 |
+
| 0.3292 | 2000 | - | 1.9556 | 0.6390 | 0.6491 | 0.6516 |
|
559 |
+
| 0.3457 | 2100 | 2.1003 | - | - | - | - |
|
560 |
+
| 0.3951 | 2400 | 2.0975 | - | - | - | - |
|
561 |
+
| 0.4115 | 2500 | - | 1.8133 | 0.6585 | 0.6681 | 0.6709 |
|
562 |
+
| 0.4444 | 2700 | 2.0403 | - | - | - | - |
|
563 |
+
| 0.4938 | 3000 | 1.9421 | 1.7629 | 0.6415 | 0.6515 | 0.6540 |
|
564 |
+
| 0.5432 | 3300 | 1.9313 | - | - | - | - |
|
565 |
+
| 0.5761 | 3500 | - | 1.6924 | 0.6577 | 0.6660 | 0.6673 |
|
566 |
+
| 0.5926 | 3600 | 1.8582 | - | - | - | - |
|
567 |
+
| 0.6420 | 3900 | 1.8203 | - | - | - | - |
|
568 |
+
| 0.6584 | 4000 | - | 1.6263 | 0.6527 | 0.6620 | 0.6635 |
|
569 |
+
| 0.6914 | 4200 | 1.8281 | - | - | - | - |
|
570 |
+
| 0.7407 | 4500 | 1.8037 | 1.5776 | 0.6572 | 0.6677 | 0.6685 |
|
571 |
+
| 0.7901 | 4800 | 1.7771 | - | - | - | - |
|
572 |
+
| 0.8230 | 5000 | - | 1.5571 | 0.6548 | 0.6652 | 0.6665 |
|
573 |
+
| 0.8395 | 5100 | 1.7427 | - | - | - | - |
|
574 |
+
| 0.8889 | 5400 | 1.6901 | - | - | - | - |
|
575 |
+
| 0.9053 | 5500 | - | 1.5385 | 0.6604 | 0.6707 | 0.6717 |
|
576 |
+
| 0.9383 | 5700 | 1.7977 | - | - | - | - |
|
577 |
+
| 0.9877 | 6000 | 1.6838 | 1.5279 | 0.6576 | 0.6686 | 0.6701 |
|
578 |
+
|
579 |
+
|
580 |
+
### Framework Versions
|
581 |
+
- Python: 3.10.13
|
582 |
+
- Sentence Transformers: 3.0.1
|
583 |
+
- Transformers: 4.41.2
|
584 |
+
- PyTorch: 2.1.2
|
585 |
+
- Accelerate: 0.30.1
|
586 |
+
- Datasets: 2.19.2
|
587 |
+
- Tokenizers: 0.19.1
|
588 |
+
|
589 |
+
## Citation
|
590 |
+
|
591 |
+
### BibTeX
|
592 |
+
|
593 |
+
#### Sentence Transformers
|
594 |
+
```bibtex
|
595 |
+
@inproceedings{reimers-2019-sentence-bert,
|
596 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
597 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
598 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
599 |
+
month = "11",
|
600 |
+
year = "2019",
|
601 |
+
publisher = "Association for Computational Linguistics",
|
602 |
+
url = "https://arxiv.org/abs/1908.10084",
|
603 |
+
}
|
604 |
+
```
|
605 |
+
|
606 |
+
#### MatryoshkaLoss
|
607 |
+
```bibtex
|
608 |
+
@misc{kusupati2024matryoshka,
|
609 |
+
title={Matryoshka Representation Learning},
|
610 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
611 |
+
year={2024},
|
612 |
+
eprint={2205.13147},
|
613 |
+
archivePrefix={arXiv},
|
614 |
+
primaryClass={cs.LG}
|
615 |
+
}
|
616 |
+
```
|
617 |
+
|
618 |
+
#### MultipleNegativesRankingLoss
|
619 |
+
```bibtex
|
620 |
+
@misc{henderson2017efficient,
|
621 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
622 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
623 |
+
year={2017},
|
624 |
+
eprint={1705.00652},
|
625 |
+
archivePrefix={arXiv},
|
626 |
+
primaryClass={cs.CL}
|
627 |
+
}
|
628 |
+
```
|
629 |
+
|
630 |
+
<!--
|
631 |
+
## Glossary
|
632 |
+
|
633 |
+
*Clearly define terms in order to be accessible across audiences.*
|
634 |
+
-->
|
635 |
+
|
636 |
+
<!--
|
637 |
+
## Model Card Authors
|
638 |
+
|
639 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
640 |
+
-->
|
641 |
+
|
642 |
+
<!--
|
643 |
+
## Model Card Contact
|
644 |
+
|
645 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
646 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "BookingCare/bkcare-bert-pretrained",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"gradient_checkpointing": false,
|
9 |
+
"hidden_act": "gelu",
|
10 |
+
"hidden_dropout_prob": 0.1,
|
11 |
+
"hidden_size": 768,
|
12 |
+
"initializer_range": 0.02,
|
13 |
+
"intermediate_size": 3072,
|
14 |
+
"layer_norm_eps": 1e-12,
|
15 |
+
"max_position_embeddings": 512,
|
16 |
+
"model_type": "bert",
|
17 |
+
"num_attention_heads": 12,
|
18 |
+
"num_hidden_layers": 12,
|
19 |
+
"pad_token_id": 0,
|
20 |
+
"position_embedding_type": "absolute",
|
21 |
+
"torch_dtype": "float32",
|
22 |
+
"transformers_version": "4.41.2",
|
23 |
+
"type_vocab_size": 2,
|
24 |
+
"use_cache": true,
|
25 |
+
"vocab_size": 30522
|
26 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.41.2",
|
5 |
+
"pytorch": "2.1.2"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:16e273b1856896eba596641e3a621df37e66242c602b97c447110debb2d53924
|
3 |
+
size 437951328
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
runs/Jul19_04-23-14_388a0a0ccdab/events.out.tfevents.1721362996.388a0a0ccdab.15252.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:f8689b581956e19945358d3174b86c5e46d31af2d26abd668581f1edeb89cac0
|
3 |
+
size 38219
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[UNK]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[PAD]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"clean_up_tokenization_spaces": true,
|
45 |
+
"cls_token": "[CLS]",
|
46 |
+
"do_lower_case": true,
|
47 |
+
"mask_token": "[MASK]",
|
48 |
+
"model_max_length": 512,
|
49 |
+
"pad_token": "[PAD]",
|
50 |
+
"sep_token": "[SEP]",
|
51 |
+
"strip_accents": null,
|
52 |
+
"tokenize_chinese_chars": true,
|
53 |
+
"tokenizer_class": "BertTokenizer",
|
54 |
+
"unk_token": "[UNK]"
|
55 |
+
}
|
training_args.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:d90ab57f5923b864b65e551bb3124d2c9579ccb096ba64f7f05be8dfc462fe3c
|
3 |
+
size 5496
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|