nampham1106 commited on
Commit
389d5c3
1 Parent(s): 817e81f

BookingCare/bkcare-text-emeb-v1.0

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,646 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ar
4
+ - bg
5
+ - de
6
+ - el
7
+ - en
8
+ - es
9
+ - fr
10
+ - hi
11
+ - ru
12
+ - sw
13
+ - th
14
+ - tr
15
+ - ur
16
+ - vi
17
+ - zh
18
+ library_name: sentence-transformers
19
+ tags:
20
+ - sentence-transformers
21
+ - sentence-similarity
22
+ - feature-extraction
23
+ - generated_from_trainer
24
+ - dataset_size:388774
25
+ - loss:MatryoshkaLoss
26
+ - loss:MultipleNegativesRankingLoss
27
+ base_model: BookingCare/bkcare-bert-pretrained
28
+ datasets:
29
+ - facebook/xnli
30
+ metrics:
31
+ - pearson_cosine
32
+ - spearman_cosine
33
+ - pearson_manhattan
34
+ - spearman_manhattan
35
+ - pearson_euclidean
36
+ - spearman_euclidean
37
+ - pearson_dot
38
+ - spearman_dot
39
+ - pearson_max
40
+ - spearman_max
41
+ widget:
42
+ - source_sentence: Như bằng chứng về việc này , cô ta đã chi tiết các tài sản bầu
43
+ cử của clinton theo tiểu bang , ở phía đông bắc , Trung Tây , và tây .
44
+ sentences:
45
+ - Bộ chọn ứng cử viên không vui chơi ở các bữa tiệc .
46
+ - Sử dụng công nghệ thông tin cho phép sử dụng các nguồn tài nguyên liên lạc lớn
47
+ hơn .
48
+ - Không bao giờ có một tài khoản kỹ lưỡng của các cuộc bầu cử của clinton .
49
+ - source_sentence: Sau một thời gian , ông ấy ngừng bò và ngồi lên .
50
+ sentences:
51
+ - Jon muốn có một trận đấu lớn để bắt đầu .
52
+ - Tất cả mọi người đều được đưa ra một tách trung quốc vào đầu năm .
53
+ - Anh ta bị thương nghiêm trọng .
54
+ - source_sentence: Arras đã nổi tiếng trong thời trung cổ cho tác phẩm của vải và
55
+ những tấm thảm treo cổ , loại thông qua mà polonius gặp phải cái chết của ông
56
+ ta ở hamlet .
57
+ sentences:
58
+ - Lũ lụt đang dự kiến đã gây ra 1.5 tỷ đô la trong thiệt hại .
59
+ - Nó sẽ là bắt buộc cho những người nghèo khổ vì những quy định .
60
+ - Arras chỉ làm đồ gốm thôi .
61
+ - source_sentence: Lehrer là người về sự giao tiếp này với gió và quyền lực , và nó
62
+ đã biến anh ta thành một trong số họ .
63
+ sentences:
64
+ - Người đã làm julius cảm thấy lo lắng .
65
+ - Họ có thể mất 36 tháng để hoàn thành .
66
+ - Leher không thích giao tiếp với các chính trị gia .
67
+ - source_sentence: Tôi sẽ làm tất cả những gì ông muốn. julius hạ khẩu súng lục .
68
+ sentences:
69
+ - Tôi sẽ ban cho anh những lời chúc của anh , julius bỏ súng xuống .
70
+ - Bạn có thể được đề nghị giả ngọc , điều đó rất tương tự với các đối tác cao hơn
71
+ của nó .
72
+ - Nó đến trong túi 400 pound .
73
+ pipeline_tag: sentence-similarity
74
+ model-index:
75
+ - name: SentenceTransformer based on BookingCare/bkcare-bert-pretrained
76
+ results:
77
+ - task:
78
+ type: semantic-similarity
79
+ name: Semantic Similarity
80
+ dataset:
81
+ name: sts dev 768
82
+ type: sts-dev-768
83
+ metrics:
84
+ - type: pearson_cosine
85
+ value: 0.6867482534374487
86
+ name: Pearson Cosine
87
+ - type: spearman_cosine
88
+ value: 0.6700553964995389
89
+ name: Spearman Cosine
90
+ - type: pearson_manhattan
91
+ value: 0.6734129943367082
92
+ name: Pearson Manhattan
93
+ - type: spearman_manhattan
94
+ value: 0.6689701652447698
95
+ name: Spearman Manhattan
96
+ - type: pearson_euclidean
97
+ value: 0.6743893025028618
98
+ name: Pearson Euclidean
99
+ - type: spearman_euclidean
100
+ value: 0.6700560677966448
101
+ name: Spearman Euclidean
102
+ - type: pearson_dot
103
+ value: 0.6867482521687218
104
+ name: Pearson Dot
105
+ - type: spearman_dot
106
+ value: 0.6700558146434896
107
+ name: Spearman Dot
108
+ - type: pearson_max
109
+ value: 0.6867482534374487
110
+ name: Pearson Max
111
+ - type: spearman_max
112
+ value: 0.6700560677966448
113
+ name: Spearman Max
114
+ - task:
115
+ type: semantic-similarity
116
+ name: Semantic Similarity
117
+ dataset:
118
+ name: sts dev 512
119
+ type: sts-dev-512
120
+ metrics:
121
+ - type: pearson_cosine
122
+ value: 0.6850905517919458
123
+ name: Pearson Cosine
124
+ - type: spearman_cosine
125
+ value: 0.6685671393301956
126
+ name: Spearman Cosine
127
+ - type: pearson_manhattan
128
+ value: 0.6726989775543833
129
+ name: Pearson Manhattan
130
+ - type: spearman_manhattan
131
+ value: 0.6682515030981849
132
+ name: Spearman Manhattan
133
+ - type: pearson_euclidean
134
+ value: 0.6739395873419184
135
+ name: Pearson Euclidean
136
+ - type: spearman_euclidean
137
+ value: 0.6695224924884773
138
+ name: Spearman Euclidean
139
+ - type: pearson_dot
140
+ value: 0.6802500913119895
141
+ name: Pearson Dot
142
+ - type: spearman_dot
143
+ value: 0.6631065723741826
144
+ name: Spearman Dot
145
+ - type: pearson_max
146
+ value: 0.6850905517919458
147
+ name: Pearson Max
148
+ - type: spearman_max
149
+ value: 0.6695224924884773
150
+ name: Spearman Max
151
+ - task:
152
+ type: semantic-similarity
153
+ name: Semantic Similarity
154
+ dataset:
155
+ name: sts dev 256
156
+ type: sts-dev-256
157
+ metrics:
158
+ - type: pearson_cosine
159
+ value: 0.6725154983351178
160
+ name: Pearson Cosine
161
+ - type: spearman_cosine
162
+ value: 0.6575647130100782
163
+ name: Spearman Cosine
164
+ - type: pearson_manhattan
165
+ value: 0.6697743652714089
166
+ name: Pearson Manhattan
167
+ - type: spearman_manhattan
168
+ value: 0.6645201863227755
169
+ name: Spearman Manhattan
170
+ - type: pearson_euclidean
171
+ value: 0.6719730940115203
172
+ name: Pearson Euclidean
173
+ - type: spearman_euclidean
174
+ value: 0.6669909427123673
175
+ name: Spearman Euclidean
176
+ - type: pearson_dot
177
+ value: 0.6475732494643994
178
+ name: Pearson Dot
179
+ - type: spearman_dot
180
+ value: 0.6294359395183124
181
+ name: Spearman Dot
182
+ - type: pearson_max
183
+ value: 0.6725154983351178
184
+ name: Pearson Max
185
+ - type: spearman_max
186
+ value: 0.6669909427123673
187
+ name: Spearman Max
188
+ ---
189
+
190
+ # SentenceTransformer based on BookingCare/bkcare-bert-pretrained
191
+
192
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BookingCare/bkcare-bert-pretrained](https://huggingface.co/BookingCare/bkcare-bert-pretrained) on the [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
193
+
194
+ ## Model Details
195
+
196
+ ### Model Description
197
+ - **Model Type:** Sentence Transformer
198
+ - **Base model:** [BookingCare/bkcare-bert-pretrained](https://huggingface.co/BookingCare/bkcare-bert-pretrained) <!-- at revision f869851286af65b3dbe0541a14fc5d3d2bb6c95d -->
199
+ - **Maximum Sequence Length:** 512 tokens
200
+ - **Output Dimensionality:** 768 tokens
201
+ - **Similarity Function:** Cosine Similarity
202
+ - **Training Dataset:**
203
+ - [facebook/xnli](https://huggingface.co/datasets/facebook/xnli)
204
+ - **Languages:** ar, bg, de, el, en, es, fr, hi, ru, sw, th, tr, ur, vi, zh
205
+ <!-- - **License:** Unknown -->
206
+
207
+ ### Model Sources
208
+
209
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
210
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
211
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
212
+
213
+ ### Full Model Architecture
214
+
215
+ ```
216
+ SentenceTransformer(
217
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
218
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
219
+ (2): Normalize()
220
+ )
221
+ ```
222
+
223
+ ## Usage
224
+
225
+ ### Direct Usage (Sentence Transformers)
226
+
227
+ First install the Sentence Transformers library:
228
+
229
+ ```bash
230
+ pip install -U sentence-transformers
231
+ ```
232
+
233
+ Then you can load this model and run inference.
234
+ ```python
235
+ from sentence_transformers import SentenceTransformer
236
+
237
+ # Download from the 🤗 Hub
238
+ model = SentenceTransformer("matryoshka_nli_BookingCare-bkcare-bert-pretrained-2024-07-19_04-21-48")
239
+ # Run inference
240
+ sentences = [
241
+ 'Tôi sẽ làm tất cả những gì ông muốn. julius hạ khẩu súng lục .',
242
+ 'Tôi sẽ ban cho anh những lời chúc của anh , julius bỏ súng xuống .',
243
+ 'Nó đến trong túi 400 pound .',
244
+ ]
245
+ embeddings = model.encode(sentences)
246
+ print(embeddings.shape)
247
+ # [3, 768]
248
+
249
+ # Get the similarity scores for the embeddings
250
+ similarities = model.similarity(embeddings, embeddings)
251
+ print(similarities.shape)
252
+ # [3, 3]
253
+ ```
254
+
255
+ <!--
256
+ ### Direct Usage (Transformers)
257
+
258
+ <details><summary>Click to see the direct usage in Transformers</summary>
259
+
260
+ </details>
261
+ -->
262
+
263
+ <!--
264
+ ### Downstream Usage (Sentence Transformers)
265
+
266
+ You can finetune this model on your own dataset.
267
+
268
+ <details><summary>Click to expand</summary>
269
+
270
+ </details>
271
+ -->
272
+
273
+ <!--
274
+ ### Out-of-Scope Use
275
+
276
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
277
+ -->
278
+
279
+ ## Evaluation
280
+
281
+ ### Metrics
282
+
283
+ #### Semantic Similarity
284
+ * Dataset: `sts-dev-768`
285
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
286
+
287
+ | Metric | Value |
288
+ |:--------------------|:-----------|
289
+ | pearson_cosine | 0.6867 |
290
+ | **spearman_cosine** | **0.6701** |
291
+ | pearson_manhattan | 0.6734 |
292
+ | spearman_manhattan | 0.669 |
293
+ | pearson_euclidean | 0.6744 |
294
+ | spearman_euclidean | 0.6701 |
295
+ | pearson_dot | 0.6867 |
296
+ | spearman_dot | 0.6701 |
297
+ | pearson_max | 0.6867 |
298
+ | spearman_max | 0.6701 |
299
+
300
+ #### Semantic Similarity
301
+ * Dataset: `sts-dev-512`
302
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
303
+
304
+ | Metric | Value |
305
+ |:--------------------|:-----------|
306
+ | pearson_cosine | 0.6851 |
307
+ | **spearman_cosine** | **0.6686** |
308
+ | pearson_manhattan | 0.6727 |
309
+ | spearman_manhattan | 0.6683 |
310
+ | pearson_euclidean | 0.6739 |
311
+ | spearman_euclidean | 0.6695 |
312
+ | pearson_dot | 0.6803 |
313
+ | spearman_dot | 0.6631 |
314
+ | pearson_max | 0.6851 |
315
+ | spearman_max | 0.6695 |
316
+
317
+ #### Semantic Similarity
318
+ * Dataset: `sts-dev-256`
319
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
320
+
321
+ | Metric | Value |
322
+ |:--------------------|:-----------|
323
+ | pearson_cosine | 0.6725 |
324
+ | **spearman_cosine** | **0.6576** |
325
+ | pearson_manhattan | 0.6698 |
326
+ | spearman_manhattan | 0.6645 |
327
+ | pearson_euclidean | 0.672 |
328
+ | spearman_euclidean | 0.667 |
329
+ | pearson_dot | 0.6476 |
330
+ | spearman_dot | 0.6294 |
331
+ | pearson_max | 0.6725 |
332
+ | spearman_max | 0.667 |
333
+
334
+ <!--
335
+ ## Bias, Risks and Limitations
336
+
337
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
338
+ -->
339
+
340
+ <!--
341
+ ### Recommendations
342
+
343
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
344
+ -->
345
+
346
+ ## Training Details
347
+
348
+ ### Training Dataset
349
+
350
+ #### facebook/xnli
351
+
352
+ * Dataset: [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) at [b8dd5d7](https://huggingface.co/datasets/facebook/xnli/tree/b8dd5d7af51114dbda02c0e3f6133f332186418e)
353
+ * Size: 388,774 training samples
354
+ * Columns: <code>premise</code>, <code>hypothesis</code>, and <code>label</code>
355
+ * Approximate statistics based on the first 1000 samples:
356
+ | | premise | hypothesis | label |
357
+ |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
358
+ | type | string | string | int |
359
+ | details | <ul><li>min: 3 tokens</li><li>mean: 29.98 tokens</li><li>max: 309 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 15.64 tokens</li><li>max: 61 tokens</li></ul> | <ul><li>0: ~33.10%</li><li>1: ~35.60%</li><li>2: ~31.30%</li></ul> |
360
+ * Samples:
361
+ | premise | hypothesis | label |
362
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
363
+ | <code>Những rắc rối với loại phân tích chi tiết này có nghĩa là bất kỳ nghệ nhân nào có thể nghiên cứu kỹ thuật của người nghệ thuật và tái tạo chúng -- sự chuẩn bị của hoffman .</code> | <code>Sự tái tạo là một quá trình dễ dàng .</code> | <code>2</code> |
364
+ | <code>Đó là một sự quan sát tỉnh rượu , để nhận ra rằng 80 phần trăm của những người cần sự giúp đỡ pháp lý bị từ chối những hướng dẫn và luật sự .</code> | <code>80 % những người cần sự trợ giúp pháp lý bị từ chối những hướng dẫn mà họ đang tìm kiếm , và đây là một suy nghĩ tỉnh rượu .</code> | <code>0</code> |
365
+ | <code>Đi qua cái để tìm nhà thờ của những hình xăm egios .</code> | <code>Nếu anh đi qua cái , anh sẽ tìm thấy mình ở bờ vực của thị trấn , không có gì ngoài nông thôn bên kia .</code> | <code>2</code> |
366
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
367
+ ```json
368
+ {
369
+ "loss": "MultipleNegativesRankingLoss",
370
+ "matryoshka_dims": [
371
+ 768,
372
+ 512,
373
+ 256
374
+ ],
375
+ "matryoshka_weights": [
376
+ 1,
377
+ 1,
378
+ 1
379
+ ],
380
+ "n_dims_per_step": -1
381
+ }
382
+ ```
383
+
384
+ ### Evaluation Dataset
385
+
386
+ #### facebook/xnli
387
+
388
+ * Dataset: [facebook/xnli](https://huggingface.co/datasets/facebook/xnli) at [b8dd5d7](https://huggingface.co/datasets/facebook/xnli/tree/b8dd5d7af51114dbda02c0e3f6133f332186418e)
389
+ * Size: 3,928 evaluation samples
390
+ * Columns: <code>premise</code>, <code>hypothesis</code>, and <code>label</code>
391
+ * Approximate statistics based on the first 1000 samples:
392
+ | | premise | hypothesis | label |
393
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------|
394
+ | type | string | string | int |
395
+ | details | <ul><li>min: 4 tokens</li><li>mean: 32.3 tokens</li><li>max: 163 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 15.73 tokens</li><li>max: 53 tokens</li></ul> | <ul><li>0: ~32.40%</li><li>1: ~33.50%</li><li>2: ~34.10%</li></ul> |
396
+ * Samples:
397
+ | premise | hypothesis | label |
398
+ |:---------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------|:---------------|
399
+ | <code>Hai xu mắt anh ta warily .</code> | <code>Hai xu không nhìn anh ta .</code> | <code>2</code> |
400
+ | <code>Một không khí chung của glee permeated tất cả mọi người .</code> | <code>Mọi thứ đều cảm thấy hạnh phúc .</code> | <code>0</code> |
401
+ | <code>Tuy nhiên , một sự chắc chắn là dân số hoa kỳ đã bị lão hóa và sẽ có ít công nhân hỗ trợ mỗi người nghỉ hưu .</code> | <code>Trạng Thái lão hóa của dân số hoa kỳ được coi là một sự không chắc chắn .</code> | <code>2</code> |
402
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
403
+ ```json
404
+ {
405
+ "loss": "MultipleNegativesRankingLoss",
406
+ "matryoshka_dims": [
407
+ 768,
408
+ 512,
409
+ 256
410
+ ],
411
+ "matryoshka_weights": [
412
+ 1,
413
+ 1,
414
+ 1
415
+ ],
416
+ "n_dims_per_step": -1
417
+ }
418
+ ```
419
+
420
+ ### Training Hyperparameters
421
+ #### Non-Default Hyperparameters
422
+
423
+ - `eval_strategy`: steps
424
+ - `per_device_train_batch_size`: 32
425
+ - `per_device_eval_batch_size`: 32
426
+ - `learning_rate`: 2e-05
427
+ - `num_train_epochs`: 1
428
+ - `warmup_ratio`: 0.1
429
+ - `fp16`: True
430
+ - `batch_sampler`: no_duplicates
431
+
432
+ #### All Hyperparameters
433
+ <details><summary>Click to expand</summary>
434
+
435
+ - `overwrite_output_dir`: False
436
+ - `do_predict`: False
437
+ - `eval_strategy`: steps
438
+ - `prediction_loss_only`: True
439
+ - `per_device_train_batch_size`: 32
440
+ - `per_device_eval_batch_size`: 32
441
+ - `per_gpu_train_batch_size`: None
442
+ - `per_gpu_eval_batch_size`: None
443
+ - `gradient_accumulation_steps`: 1
444
+ - `eval_accumulation_steps`: None
445
+ - `learning_rate`: 2e-05
446
+ - `weight_decay`: 0.0
447
+ - `adam_beta1`: 0.9
448
+ - `adam_beta2`: 0.999
449
+ - `adam_epsilon`: 1e-08
450
+ - `max_grad_norm`: 1.0
451
+ - `num_train_epochs`: 1
452
+ - `max_steps`: -1
453
+ - `lr_scheduler_type`: linear
454
+ - `lr_scheduler_kwargs`: {}
455
+ - `warmup_ratio`: 0.1
456
+ - `warmup_steps`: 0
457
+ - `log_level`: passive
458
+ - `log_level_replica`: warning
459
+ - `log_on_each_node`: True
460
+ - `logging_nan_inf_filter`: True
461
+ - `save_safetensors`: True
462
+ - `save_on_each_node`: False
463
+ - `save_only_model`: False
464
+ - `restore_callback_states_from_checkpoint`: False
465
+ - `no_cuda`: False
466
+ - `use_cpu`: False
467
+ - `use_mps_device`: False
468
+ - `seed`: 42
469
+ - `data_seed`: None
470
+ - `jit_mode_eval`: False
471
+ - `use_ipex`: False
472
+ - `bf16`: False
473
+ - `fp16`: True
474
+ - `fp16_opt_level`: O1
475
+ - `half_precision_backend`: auto
476
+ - `bf16_full_eval`: False
477
+ - `fp16_full_eval`: False
478
+ - `tf32`: None
479
+ - `local_rank`: 0
480
+ - `ddp_backend`: None
481
+ - `tpu_num_cores`: None
482
+ - `tpu_metrics_debug`: False
483
+ - `debug`: []
484
+ - `dataloader_drop_last`: False
485
+ - `dataloader_num_workers`: 0
486
+ - `dataloader_prefetch_factor`: None
487
+ - `past_index`: -1
488
+ - `disable_tqdm`: False
489
+ - `remove_unused_columns`: True
490
+ - `label_names`: None
491
+ - `load_best_model_at_end`: False
492
+ - `ignore_data_skip`: False
493
+ - `fsdp`: []
494
+ - `fsdp_min_num_params`: 0
495
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
496
+ - `fsdp_transformer_layer_cls_to_wrap`: None
497
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
498
+ - `deepspeed`: None
499
+ - `label_smoothing_factor`: 0.0
500
+ - `optim`: adamw_torch
501
+ - `optim_args`: None
502
+ - `adafactor`: False
503
+ - `group_by_length`: False
504
+ - `length_column_name`: length
505
+ - `ddp_find_unused_parameters`: None
506
+ - `ddp_bucket_cap_mb`: None
507
+ - `ddp_broadcast_buffers`: False
508
+ - `dataloader_pin_memory`: True
509
+ - `dataloader_persistent_workers`: False
510
+ - `skip_memory_metrics`: True
511
+ - `use_legacy_prediction_loop`: False
512
+ - `push_to_hub`: False
513
+ - `resume_from_checkpoint`: None
514
+ - `hub_model_id`: None
515
+ - `hub_strategy`: every_save
516
+ - `hub_private_repo`: False
517
+ - `hub_always_push`: False
518
+ - `gradient_checkpointing`: False
519
+ - `gradient_checkpointing_kwargs`: None
520
+ - `include_inputs_for_metrics`: False
521
+ - `eval_do_concat_batches`: True
522
+ - `fp16_backend`: auto
523
+ - `push_to_hub_model_id`: None
524
+ - `push_to_hub_organization`: None
525
+ - `mp_parameters`:
526
+ - `auto_find_batch_size`: False
527
+ - `full_determinism`: False
528
+ - `torchdynamo`: None
529
+ - `ray_scope`: last
530
+ - `ddp_timeout`: 1800
531
+ - `torch_compile`: False
532
+ - `torch_compile_backend`: None
533
+ - `torch_compile_mode`: None
534
+ - `dispatch_batches`: None
535
+ - `split_batches`: None
536
+ - `include_tokens_per_second`: False
537
+ - `include_num_input_tokens_seen`: False
538
+ - `neftune_noise_alpha`: None
539
+ - `optim_target_modules`: None
540
+ - `batch_eval_metrics`: False
541
+ - `batch_sampler`: no_duplicates
542
+ - `multi_dataset_batch_sampler`: proportional
543
+
544
+ </details>
545
+
546
+ ### Training Logs
547
+ | Epoch | Step | Training Loss | loss | sts-dev-256_spearman_cosine | sts-dev-512_spearman_cosine | sts-dev-768_spearman_cosine |
548
+ |:------:|:----:|:-------------:|:------:|:---------------------------:|:---------------------------:|:---------------------------:|
549
+ | 0 | 0 | - | - | 0.5425 | 0.5569 | 0.5593 |
550
+ | 0.0494 | 300 | 5.6741 | - | - | - | - |
551
+ | 0.0823 | 500 | - | 2.9876 | 0.6417 | 0.6479 | 0.6502 |
552
+ | 0.0988 | 600 | 3.5541 | - | - | - | - |
553
+ | 0.1481 | 900 | 2.9032 | - | - | - | - |
554
+ | 0.1646 | 1000 | - | 2.3400 | 0.6526 | 0.6565 | 0.6591 |
555
+ | 0.1975 | 1200 | 2.6495 | - | - | - | - |
556
+ | 0.2469 | 1500 | 2.426 | 2.1092 | 0.6359 | 0.6466 | 0.6501 |
557
+ | 0.2963 | 1800 | 2.2969 | - | - | - | - |
558
+ | 0.3292 | 2000 | - | 1.9556 | 0.6390 | 0.6491 | 0.6516 |
559
+ | 0.3457 | 2100 | 2.1003 | - | - | - | - |
560
+ | 0.3951 | 2400 | 2.0975 | - | - | - | - |
561
+ | 0.4115 | 2500 | - | 1.8133 | 0.6585 | 0.6681 | 0.6709 |
562
+ | 0.4444 | 2700 | 2.0403 | - | - | - | - |
563
+ | 0.4938 | 3000 | 1.9421 | 1.7629 | 0.6415 | 0.6515 | 0.6540 |
564
+ | 0.5432 | 3300 | 1.9313 | - | - | - | - |
565
+ | 0.5761 | 3500 | - | 1.6924 | 0.6577 | 0.6660 | 0.6673 |
566
+ | 0.5926 | 3600 | 1.8582 | - | - | - | - |
567
+ | 0.6420 | 3900 | 1.8203 | - | - | - | - |
568
+ | 0.6584 | 4000 | - | 1.6263 | 0.6527 | 0.6620 | 0.6635 |
569
+ | 0.6914 | 4200 | 1.8281 | - | - | - | - |
570
+ | 0.7407 | 4500 | 1.8037 | 1.5776 | 0.6572 | 0.6677 | 0.6685 |
571
+ | 0.7901 | 4800 | 1.7771 | - | - | - | - |
572
+ | 0.8230 | 5000 | - | 1.5571 | 0.6548 | 0.6652 | 0.6665 |
573
+ | 0.8395 | 5100 | 1.7427 | - | - | - | - |
574
+ | 0.8889 | 5400 | 1.6901 | - | - | - | - |
575
+ | 0.9053 | 5500 | - | 1.5385 | 0.6604 | 0.6707 | 0.6717 |
576
+ | 0.9383 | 5700 | 1.7977 | - | - | - | - |
577
+ | 0.9877 | 6000 | 1.6838 | 1.5279 | 0.6576 | 0.6686 | 0.6701 |
578
+
579
+
580
+ ### Framework Versions
581
+ - Python: 3.10.13
582
+ - Sentence Transformers: 3.0.1
583
+ - Transformers: 4.41.2
584
+ - PyTorch: 2.1.2
585
+ - Accelerate: 0.30.1
586
+ - Datasets: 2.19.2
587
+ - Tokenizers: 0.19.1
588
+
589
+ ## Citation
590
+
591
+ ### BibTeX
592
+
593
+ #### Sentence Transformers
594
+ ```bibtex
595
+ @inproceedings{reimers-2019-sentence-bert,
596
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
597
+ author = "Reimers, Nils and Gurevych, Iryna",
598
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
599
+ month = "11",
600
+ year = "2019",
601
+ publisher = "Association for Computational Linguistics",
602
+ url = "https://arxiv.org/abs/1908.10084",
603
+ }
604
+ ```
605
+
606
+ #### MatryoshkaLoss
607
+ ```bibtex
608
+ @misc{kusupati2024matryoshka,
609
+ title={Matryoshka Representation Learning},
610
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
611
+ year={2024},
612
+ eprint={2205.13147},
613
+ archivePrefix={arXiv},
614
+ primaryClass={cs.LG}
615
+ }
616
+ ```
617
+
618
+ #### MultipleNegativesRankingLoss
619
+ ```bibtex
620
+ @misc{henderson2017efficient,
621
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
622
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
623
+ year={2017},
624
+ eprint={1705.00652},
625
+ archivePrefix={arXiv},
626
+ primaryClass={cs.CL}
627
+ }
628
+ ```
629
+
630
+ <!--
631
+ ## Glossary
632
+
633
+ *Clearly define terms in order to be accessible across audiences.*
634
+ -->
635
+
636
+ <!--
637
+ ## Model Card Authors
638
+
639
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
640
+ -->
641
+
642
+ <!--
643
+ ## Model Card Contact
644
+
645
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
646
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BookingCare/bkcare-bert-pretrained",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.41.2",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 30522
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.41.2",
5
+ "pytorch": "2.1.2"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:16e273b1856896eba596641e3a621df37e66242c602b97c447110debb2d53924
3
+ size 437951328
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
runs/Jul19_04-23-14_388a0a0ccdab/events.out.tfevents.1721362996.388a0a0ccdab.15252.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f8689b581956e19945358d3174b86c5e46d31af2d26abd668581f1edeb89cac0
3
+ size 38219
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[UNK]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[PAD]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_lower_case": true,
47
+ "mask_token": "[MASK]",
48
+ "model_max_length": 512,
49
+ "pad_token": "[PAD]",
50
+ "sep_token": "[SEP]",
51
+ "strip_accents": null,
52
+ "tokenize_chinese_chars": true,
53
+ "tokenizer_class": "BertTokenizer",
54
+ "unk_token": "[UNK]"
55
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d90ab57f5923b864b65e551bb3124d2c9579ccb096ba64f7f05be8dfc462fe3c
3
+ size 5496
vocab.txt ADDED
The diff for this file is too large to render. See raw diff