HZeroxium commited on
Commit
ea93cb8
1 Parent(s): 4dbedd8

End of training

Browse files
README.md CHANGED
@@ -4,41 +4,45 @@ tags:
4
  - sentence-similarity
5
  - feature-extraction
6
  - generated_from_trainer
7
- - dataset_size:2461
8
  - loss:ContrastiveLoss
9
  - loss:TripletLoss
 
 
10
  base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
11
  widget:
12
- - source_sentence: Kỹ tự động hóa, 3 năm kinh nghiệm lập trình robot công nghiệp.
13
  sentences:
14
- - Customer Service Specialist với kỹ năng giải quyết vấn đề khách hàng.
15
- - Tuyển chuyên viên marketing xây dựng chiến lược thương hiệu.
16
- - Automation Engineer yêu cầu kinh nghiệm với robot công nghiệp.
17
- - source_sentence: Chuyên viên pháp lý, tư vấn luật hợp đồng doanh nghiệp.
 
18
  sentences:
19
- - Tuyển nhân viên QA kiểm thử phần mềm tự động.
20
- - Legal Consultant chuyên về hợp đồng doanh nghiệp.
21
- - Tuyển Web Developer với kỹ năng lập trình web cơ bản.
22
- - source_sentence: Chuyên viên SEO với 3 năm kinh nghiệm tối ưu hóa công cụ tìm kiếm.
23
  sentences:
24
- - Tuyển Data Scientist có kinh nghiệm Machine Learning.
25
- - Tuyển kỹ thuật viên xét nghiệm kinh nghiệm làm việc trong phòng thí nghiệm
26
- y tế.
27
- - Tuyển Mechanical Engineer kinh nghiệm thiết kế hệ thống khí.
28
- - source_sentence: DevOps Engineer, kinh nghiệm 4 năm sử dụng Docker, Kubernetes.
29
  sentences:
30
- - Operation Specialist với kỹ năng cải thiện hiệu suất sản xuất.
31
- - Tuyển Finance Analyst.
32
- - Tuyển DevOps Engineer với kinh nghiệm containerization.
33
- - source_sentence: Tôi lập trình viên Android, kinh nghiệm với Kotlin và hệ
34
- thống thanh toán.
35
  sentences:
36
- - Tuyển Android Developer, yêu cầu kinh nghiệm tích hợp thanh toán.
37
- - Tuyển dụng Mobile Developer kinh nghiệm đa nền tảng.
38
- - Tuyển Software Engineer thành thạo Java và Spring Boot.
39
  datasets:
40
- - HZeroxium/cv-job-binary
41
  - HZeroxium/cv-job-triplet
 
 
 
42
  pipeline_tag: sentence-similarity
43
  library_name: sentence-transformers
44
  metrics:
@@ -49,6 +53,8 @@ metrics:
49
  - cosine_precision
50
  - cosine_recall
51
  - cosine_ap
 
 
52
  model-index:
53
  - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
54
  results:
@@ -60,25 +66,67 @@ model-index:
60
  type: unknown
61
  metrics:
62
  - type: cosine_accuracy
63
- value: 0.9767441860465116
64
  name: Cosine Accuracy
65
  - type: cosine_accuracy_threshold
66
- value: 0.7162894010543823
67
  name: Cosine Accuracy Threshold
68
  - type: cosine_f1
69
- value: 0.9782608695652174
70
  name: Cosine F1
71
  - type: cosine_f1_threshold
72
- value: 0.7162894010543823
73
  name: Cosine F1 Threshold
74
  - type: cosine_precision
75
- value: 0.967741935483871
76
  name: Cosine Precision
77
  - type: cosine_recall
78
- value: 0.989010989010989
79
  name: Cosine Recall
80
  - type: cosine_ap
81
- value: 0.9802797763086614
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
82
  name: Cosine Ap
83
  - task:
84
  type: triplet
@@ -90,11 +138,24 @@ model-index:
90
  - type: cosine_accuracy
91
  value: 1.0
92
  name: Cosine Accuracy
 
 
 
 
 
 
 
 
 
 
 
 
 
93
  ---
94
 
95
  # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
96
 
97
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/cv-job-binary) and [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
98
 
99
  ## Model Details
100
 
@@ -105,8 +166,11 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [s
105
  - **Output Dimensionality:** 384 dimensions
106
  - **Similarity Function:** Cosine Similarity
107
  - **Training Datasets:**
108
- - [binary](https://huggingface.co/datasets/HZeroxium/cv-job-binary)
109
  - [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
 
 
 
110
  <!-- - **Language:** Unknown -->
111
  <!-- - **License:** Unknown -->
112
 
@@ -140,12 +204,12 @@ Then you can load this model and run inference.
140
  from sentence_transformers import SentenceTransformer
141
 
142
  # Download from the 🤗 Hub
143
- model = SentenceTransformer("HZeroxium/paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
144
  # Run inference
145
  sentences = [
146
- 'Tôi là lập trình viên Android, kinh nghiệm với Kotlin hệ thống thanh toán.',
147
- 'Tuyển Android Developer, yêu cầu kinh nghiệm tích hợp thanh toán.',
148
- 'Tuyển Software Engineer thành thạo Java Spring Boot.',
149
  ]
150
  embeddings = model.encode(sentences)
151
  print(embeddings.shape)
@@ -191,13 +255,13 @@ You can finetune this model on your own dataset.
191
 
192
  | Metric | Value |
193
  |:--------------------------|:-----------|
194
- | cosine_accuracy | 0.9767 |
195
- | cosine_accuracy_threshold | 0.7163 |
196
- | cosine_f1 | 0.9783 |
197
- | cosine_f1_threshold | 0.7163 |
198
- | cosine_precision | 0.9677 |
199
- | cosine_recall | 0.989 |
200
- | **cosine_ap** | **0.9803** |
201
 
202
  #### Triplet
203
 
@@ -207,6 +271,43 @@ You can finetune this model on your own dataset.
207
  |:--------------------|:--------|
208
  | **cosine_accuracy** | **1.0** |
209
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
210
  <!--
211
  ## Bias, Risks and Limitations
212
 
@@ -225,20 +326,20 @@ You can finetune this model on your own dataset.
225
 
226
  #### binary
227
 
228
- * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-job-binary) at [07e2530](https://huggingface.co/datasets/HZeroxium/cv-job-binary/tree/07e2530d65574aec0375699117d9cac8cf38986e)
229
- * Size: 1,543 training samples
230
- * Columns: <code>cv</code>, <code>job</code>, and <code>label</code>
231
  * Approximate statistics based on the first 1000 samples:
232
- | | cv | job | label |
233
- |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
234
- | type | string | string | int |
235
- | details | <ul><li>min: 12 tokens</li><li>mean: 21.22 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.56 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>0: ~38.20%</li><li>1: ~61.80%</li></ul> |
236
  * Samples:
237
- | cv | job | label |
238
- |:-----------------------------------------------------------------------------------------|:-------------------------------------------------------------------|:---------------|
239
- | <code>Giáo viên mầm non với kỹ năng giảng dạy trẻ em.</code> | <code>Tuyển Kindergarten Teacher có kinh nghiệm mầm non.</code> | <code>1</code> |
240
- | <code>Nhân viên kế toán với kinh nghiệm làm việc trong các doanh nghiệp sản xuất.</code> | <code>Tuyển Data Engineer kinh nghiệm xửdữ liệu lớn.</code> | <code>0</code> |
241
- | <code>Chuyên viên nhân sự, kinh nghiệm quản đào tạo nhân viên.</code> | <code>Tuyển Embedded Systems Developer.</code> | <code>0</code> |
242
  * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
243
  ```json
244
  {
@@ -250,20 +351,20 @@ You can finetune this model on your own dataset.
250
 
251
  #### triplet
252
 
253
- * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [c8215b6](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/c8215b694523650ad1d37b0ee2d182978c42094d)
254
- * Size: 918 training samples
255
  * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
256
- * Approximate statistics based on the first 918 samples:
257
- | | anchor | positive | negative |
258
- |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
259
- | type | string | string | string |
260
- | details | <ul><li>min: 12 tokens</li><li>mean: 18.79 tokens</li><li>max: 30 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 15.09 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 13.68 tokens</li><li>max: 20 tokens</li></ul> |
261
  * Samples:
262
- | anchor | positive | negative |
263
- |:---------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------------|
264
- | <code>Graphic Designer, chuyên thiết kế logobộ nhận diện thương hiệu.</code> | <code>Tuyển dụng Graphic Designer thành thạo Adobe Illustrator.</code> | <code>Tuyển kỹ điện làm việc trong nhà máy sản xuất.</code> |
265
- | <code>Kỹ xây dựng, 5 năm kinh nghiệm thiết kế quản lý dự án xây dựng.</code> | <code>Tuyển dụng Construction Manager có kinh nghiệm quản dự án xây dựng.</code> | <code>Tuyển nhân viên bán hàng cho các sản phẩm thời trang.</code> |
266
- | <code>Software Engineer, 2 năm kinh nghiệm phát triển ứng dụng web với Node.js.</code> | <code>Tuyển dụng Backend Developer thành thạo Node.js.</code> | <code>Tuyển nhân viên hỗ trợ kỹ thuật trong ngành viễn thông.</code> |
267
  * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
268
  ```json
269
  {
@@ -272,24 +373,96 @@ You can finetune this model on your own dataset.
272
  }
273
  ```
274
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
275
  ### Evaluation Datasets
276
 
277
  #### binary
278
 
279
- * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-job-binary) at [07e2530](https://huggingface.co/datasets/HZeroxium/cv-job-binary/tree/07e2530d65574aec0375699117d9cac8cf38986e)
280
- * Size: 172 evaluation samples
281
- * Columns: <code>cv</code>, <code>job</code>, and <code>label</code>
282
- * Approximate statistics based on the first 172 samples:
283
- | | cv | job | label |
284
  |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
285
  | type | string | string | int |
286
- | details | <ul><li>min: 16 tokens</li><li>mean: 21.28 tokens</li><li>max: 33 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.24 tokens</li><li>max: 22 tokens</li></ul> | <ul><li>0: ~47.09%</li><li>1: ~52.91%</li></ul> |
287
  * Samples:
288
- | cv | job | label |
289
- |:---------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------|
290
- | <code>Lập trình viên PHP, có kinh nghiệm phát triển các ứng dụng web sử dụng Laravel.</code> | <code>Tuyển Supply Chain Manager, yêu cầu kinh nghiệm quản chuỗi cung ứng.</code> | <code>0</code> |
291
- | <code>Tôi nhà thiết kế thời trang, kinh nghiệm trong thiết kế trang phục nữ.</code> | <code>Cần tuyển kỹ điện tử, yêu cầu kinh nghiệm lập trình PLC.</code> | <code>0</code> |
292
- | <code>Software Engineer, kinh nghiệm lập trình Python và Golang, đã triển khai hệ thống phân tán.</code> | <code>Tuyển Software Engineer kinh nghiệm Python và Golang.</code> | <code>1</code> |
293
  * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
294
  ```json
295
  {
@@ -301,20 +474,20 @@ You can finetune this model on your own dataset.
301
 
302
  #### triplet
303
 
304
- * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [c8215b6](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/c8215b694523650ad1d37b0ee2d182978c42094d)
305
- * Size: 102 evaluation samples
306
  * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
307
- * Approximate statistics based on the first 102 samples:
308
- | | anchor | positive | negative |
309
- |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
310
- | type | string | string | string |
311
- | details | <ul><li>min: 13 tokens</li><li>mean: 18.74 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 14.78 tokens</li><li>max: 20 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 13.42 tokens</li><li>max: 18 tokens</li></ul> |
312
  * Samples:
313
- | anchor | positive | negative |
314
- |:--------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------|
315
- | <code>Graphic Designer, chuyên thiết kế UI/UX cho ứng dụng di động.</code> | <code>UI/UX Designer cần kinh nghiệm trong thiết kế giao diện người dùng.</code> | <code>Tuyển chuyên viên tài chính vấn đầu tư.</code> |
316
- | <code>Product Manager, 4 năm kinh nghiệm quản sản phẩm công nghệ.</code> | <code>Tuyển Product Manager có kinh nghiệm phát triển sản phẩm công nghệ.</code> | <code>Tuyển chuyên viên nhân sự quản đào tạo và tuyển dụng.</code> |
317
- | <code>Chuyên viên quản tài chính, lập kế hoạch theo dõi dòng tiền.</code> | <code>Finance Manager cần kinh nghiệm trong quản tài chính doanh nghiệp.</code> | <code>Tuyển chuyên viên phân tích dữ liệu y tế.</code> |
318
  * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
319
  ```json
320
  {
@@ -323,6 +496,78 @@ You can finetune this model on your own dataset.
323
  }
324
  ```
325
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
326
  ### Training Hyperparameters
327
  #### Non-Default Hyperparameters
328
 
@@ -457,48 +702,31 @@ You can finetune this model on your own dataset.
457
  </details>
458
 
459
  ### Training Logs
460
- | Epoch | Step | Training Loss | binary loss | triplet loss | cosine_ap | cosine_accuracy |
461
- |:------:|:----:|:-------------:|:-----------:|:------------:|:---------:|:---------------:|
462
- | 0 | 0 | - | - | - | 0.9849 | 1.0 |
463
- | 0.1282 | 10 | 1.391 | - | - | - | - |
464
- | 0.2564 | 20 | 0.5121 | - | - | - | - |
465
- | 0.3846 | 30 | 0.634 | - | - | - | - |
466
- | 0.5128 | 40 | 0.2135 | - | - | - | - |
467
- | 0.6410 | 50 | 0.0371 | - | - | - | - |
468
- | 0.7692 | 60 | 0.0413 | - | - | - | - |
469
- | 0.8974 | 70 | 0.0556 | - | - | - | - |
470
- | 1.0256 | 80 | 0.0051 | - | - | - | - |
471
- | 1.1538 | 90 | 0.0301 | - | - | - | - |
472
- | 1.2821 | 100 | 0.0104 | 0.0049 | 0.0252 | 0.9882 | 1.0 |
473
- | 1.4103 | 110 | 0.0168 | - | - | - | - |
474
- | 1.5385 | 120 | 0.012 | - | - | - | - |
475
- | 1.6667 | 130 | 0.0042 | - | - | - | - |
476
- | 1.7949 | 140 | 0.0071 | - | - | - | - |
477
- | 1.9231 | 150 | 0.007 | - | - | - | - |
478
- | 2.0513 | 160 | 0.0022 | - | - | - | - |
479
- | 2.1795 | 170 | 0.0043 | - | - | - | - |
480
- | 2.3077 | 180 | 0.0025 | - | - | - | - |
481
- | 2.4359 | 190 | 0.0038 | - | - | - | - |
482
- | 2.5641 | 200 | 0.006 | 0.0043 | 0.0142 | 0.9761 | 1.0 |
483
- | 2.6923 | 210 | 0.002 | - | - | - | - |
484
- | 2.8205 | 220 | 0.0043 | - | - | - | - |
485
- | 2.9487 | 230 | 0.003 | - | - | - | - |
486
- | 3.0769 | 240 | 0.0019 | - | - | - | - |
487
- | 3.2051 | 250 | 0.0024 | - | - | - | - |
488
- | 3.3333 | 260 | 0.002 | - | - | - | - |
489
- | 3.4615 | 270 | 0.0025 | - | - | - | - |
490
- | 3.5897 | 280 | 0.0022 | - | - | - | - |
491
- | 3.7179 | 290 | 0.0021 | - | - | - | - |
492
- | 3.8462 | 300 | 0.0017 | 0.0037 | 0.0162 | 0.9803 | 1.0 |
493
- | 3.9744 | 310 | 0.0023 | - | - | - | - |
494
- | 4.1026 | 320 | 0.0017 | - | - | - | - |
495
- | 4.2308 | 330 | 0.002 | - | - | - | - |
496
- | 4.3590 | 340 | 0.0022 | - | - | - | - |
497
- | 4.4872 | 350 | 0.0015 | - | - | - | - |
498
- | 4.6154 | 360 | 0.0018 | - | - | - | - |
499
- | 4.7436 | 370 | 0.0021 | - | - | - | - |
500
- | 4.8718 | 380 | 0.0014 | - | - | - | - |
501
- | 5.0 | 390 | 0.0022 | - | - | 0.9803 | 1.0 |
502
 
503
 
504
  ### Framework Versions
@@ -553,6 +781,29 @@ You can finetune this model on your own dataset.
553
  }
554
  ```
555
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
556
  <!--
557
  ## Glossary
558
 
 
4
  - sentence-similarity
5
  - feature-extraction
6
  - generated_from_trainer
7
+ - dataset_size:22654
8
  - loss:ContrastiveLoss
9
  - loss:TripletLoss
10
+ - loss:CoSENTLoss
11
+ - loss:MultipleNegativesRankingLoss
12
  base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
13
  widget:
14
+ - source_sentence: Network Operations Specialist yêu cầu tối ưu hóa mạng.
15
  sentences:
16
+ - Actor cần kỹ năng biểu diễn sân khấu hóa thân vào nhiều loại nhân vật.
17
+ - Network Operations Specialist cần tối ưu hóa mạng.
18
+ - Nhà vấn PR hỗ trợ doanh nghiệp trong việc phát triển hình ảnh công chúng và
19
+ xử khủng hoảng.
20
+ - source_sentence: Cybersecurity Specialist với kinh nghiệm bảo mật hệ thống 5 năm.
21
  sentences:
22
+ - Kỹ khí cần phát triển hệ thống sản xuất tự động hóa.
23
+ - Cybersecurity Engineer, yêu cầu tối thiểu 5 năm trong bảo mật.
24
+ - Data Scientist cần kỹ năng Machine Learning Python.
25
+ - source_sentence: vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.
26
  sentences:
27
+ - Quản chất thải có kinh nghiệm xử lý và tái chế nước.
28
+ - vấn môi trường quản chất lượng môi trường đô thị.
29
+ - Illustrator cần có khả năng minh họa cho sách giáo dục và tài liệu học tập.
30
+ - source_sentence: Mobile Developer với kinh nghiệm phát triển ứng dụng iOS và Swift.
 
31
  sentences:
32
+ - Tuyển iOS Developer kỹ năng làm việc với Swift.
33
+ - Tuyển chuyên viên QA kiểm tra chất lượng phần mềm.
34
+ - Mobile Developer cần biết phát triển ứng dụng đa nền tảng.
35
+ - source_sentence: Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.
 
36
  sentences:
37
+ - Tuyển kỹ khí giám sát dây chuyền sản xuất.
38
+ - Công ty XYZ tuyển Data Scientist với tối thiểu 2 năm kinh nghiệm học máy.
39
+ - Tuyển iOS Developer thành thạo Swift.
40
  datasets:
41
+ - HZeroxium/job-cv-binary
42
  - HZeroxium/cv-job-triplet
43
+ - HZeroxium/cv-job-similarity
44
+ - HZeroxium/job-paraphrase
45
+ - HZeroxium/cv-paraphrase
46
  pipeline_tag: sentence-similarity
47
  library_name: sentence-transformers
48
  metrics:
 
53
  - cosine_precision
54
  - cosine_recall
55
  - cosine_ap
56
+ - pearson_cosine
57
+ - spearman_cosine
58
  model-index:
59
  - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
60
  results:
 
66
  type: unknown
67
  metrics:
68
  - type: cosine_accuracy
69
+ value: 0.9755351681957186
70
  name: Cosine Accuracy
71
  - type: cosine_accuracy_threshold
72
+ value: 0.5808850526809692
73
  name: Cosine Accuracy Threshold
74
  - type: cosine_f1
75
+ value: 0.9779005524861878
76
  name: Cosine F1
77
  - type: cosine_f1_threshold
78
+ value: 0.5644330978393555
79
  name: Cosine F1 Threshold
80
  - type: cosine_precision
81
+ value: 0.9833333333333333
82
  name: Cosine Precision
83
  - type: cosine_recall
84
+ value: 0.9725274725274725
85
  name: Cosine Recall
86
  - type: cosine_ap
87
+ value: 0.9956042554162885
88
+ name: Cosine Ap
89
+ - type: cosine_accuracy
90
+ value: 0.9968051118210862
91
+ name: Cosine Accuracy
92
+ - type: cosine_accuracy_threshold
93
+ value: 0.7650139331817627
94
+ name: Cosine Accuracy Threshold
95
+ - type: cosine_f1
96
+ value: 0.9984
97
+ name: Cosine F1
98
+ - type: cosine_f1_threshold
99
+ value: 0.7650139331817627
100
+ name: Cosine F1 Threshold
101
+ - type: cosine_precision
102
+ value: 1.0
103
+ name: Cosine Precision
104
+ - type: cosine_recall
105
+ value: 0.9968051118210862
106
+ name: Cosine Recall
107
+ - type: cosine_ap
108
+ value: 0.9999999999999999
109
+ name: Cosine Ap
110
+ - type: cosine_accuracy
111
+ value: 0.9936305732484076
112
+ name: Cosine Accuracy
113
+ - type: cosine_accuracy_threshold
114
+ value: 0.8211346864700317
115
+ name: Cosine Accuracy Threshold
116
+ - type: cosine_f1
117
+ value: 0.9968051118210862
118
+ name: Cosine F1
119
+ - type: cosine_f1_threshold
120
+ value: 0.8211346864700317
121
+ name: Cosine F1 Threshold
122
+ - type: cosine_precision
123
+ value: 1.0
124
+ name: Cosine Precision
125
+ - type: cosine_recall
126
+ value: 0.9936305732484076
127
+ name: Cosine Recall
128
+ - type: cosine_ap
129
+ value: 1.0
130
  name: Cosine Ap
131
  - task:
132
  type: triplet
 
138
  - type: cosine_accuracy
139
  value: 1.0
140
  name: Cosine Accuracy
141
+ - task:
142
+ type: semantic-similarity
143
+ name: Semantic Similarity
144
+ dataset:
145
+ name: Unknown
146
+ type: unknown
147
+ metrics:
148
+ - type: pearson_cosine
149
+ value: 0.970012297655986
150
+ name: Pearson Cosine
151
+ - type: spearman_cosine
152
+ value: 0.9430534588122865
153
+ name: Spearman Cosine
154
  ---
155
 
156
  # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
157
 
158
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary), [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet), [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity), [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) and [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
159
 
160
  ## Model Details
161
 
 
166
  - **Output Dimensionality:** 384 dimensions
167
  - **Similarity Function:** Cosine Similarity
168
  - **Training Datasets:**
169
+ - [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary)
170
  - [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
171
+ - [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity)
172
+ - [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase)
173
+ - [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase)
174
  <!-- - **Language:** Unknown -->
175
  <!-- - **License:** Unknown -->
176
 
 
204
  from sentence_transformers import SentenceTransformer
205
 
206
  # Download from the 🤗 Hub
207
+ model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
208
  # Run inference
209
  sentences = [
210
+ 'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.',
211
+ 'Tuyển iOS Developer thành thạo Swift.',
212
+ 'Tuyển kỹ khí giám sát dây chuyền sản xuất.',
213
  ]
214
  embeddings = model.encode(sentences)
215
  print(embeddings.shape)
 
255
 
256
  | Metric | Value |
257
  |:--------------------------|:-----------|
258
+ | cosine_accuracy | 0.9755 |
259
+ | cosine_accuracy_threshold | 0.5809 |
260
+ | cosine_f1 | 0.9779 |
261
+ | cosine_f1_threshold | 0.5644 |
262
+ | cosine_precision | 0.9833 |
263
+ | cosine_recall | 0.9725 |
264
+ | **cosine_ap** | **0.9956** |
265
 
266
  #### Triplet
267
 
 
271
  |:--------------------|:--------|
272
  | **cosine_accuracy** | **1.0** |
273
 
274
+ #### Semantic Similarity
275
+
276
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
277
+
278
+ | Metric | Value |
279
+ |:--------------------|:-----------|
280
+ | pearson_cosine | 0.97 |
281
+ | **spearman_cosine** | **0.9431** |
282
+
283
+ #### Binary Classification
284
+
285
+ * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
286
+
287
+ | Metric | Value |
288
+ |:--------------------------|:--------|
289
+ | cosine_accuracy | 0.9968 |
290
+ | cosine_accuracy_threshold | 0.765 |
291
+ | cosine_f1 | 0.9984 |
292
+ | cosine_f1_threshold | 0.765 |
293
+ | cosine_precision | 1.0 |
294
+ | cosine_recall | 0.9968 |
295
+ | **cosine_ap** | **1.0** |
296
+
297
+ #### Binary Classification
298
+
299
+ * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
300
+
301
+ | Metric | Value |
302
+ |:--------------------------|:--------|
303
+ | cosine_accuracy | 0.9936 |
304
+ | cosine_accuracy_threshold | 0.8211 |
305
+ | cosine_f1 | 0.9968 |
306
+ | cosine_f1_threshold | 0.8211 |
307
+ | cosine_precision | 1.0 |
308
+ | cosine_recall | 0.9936 |
309
+ | **cosine_ap** | **1.0** |
310
+
311
  <!--
312
  ## Bias, Risks and Limitations
313
 
 
326
 
327
  #### binary
328
 
329
+ * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
330
+ * Size: 6,197 training samples
331
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
332
  * Approximate statistics based on the first 1000 samples:
333
+ | | text1 | text2 | label |
334
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
335
+ | type | string | string | int |
336
+ | details | <ul><li>min: 10 tokens</li><li>mean: 19.5 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.91 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>0: ~43.70%</li><li>1: ~56.30%</li></ul> |
337
  * Samples:
338
+ | text1 | text2 | label |
339
+ |:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------|:---------------|
340
+ | <code>Lập trình viên backend, 3 năm kinh nghiệm với Node.js xây dựng API.</code> | <code>Tuyển Backend Developer có kinh nghiệm với Node.js.</code> | <code>1</code> |
341
+ | <code>Kỹ mạng với 6 năm kinh nghiệm quản hệ thống mạng lớn.</code> | <code>Cần System Administrator với kinh nghiệm quảnhệ thống.</code> | <code>0</code> |
342
+ | <code>Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js Express.</code> | <code>Cần tuyển Backend Developer biết sử dụng PHP và Laravel.</code> | <code>0</code> |
343
  * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
344
  ```json
345
  {
 
351
 
352
  #### triplet
353
 
354
+ * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
355
+ * Size: 2,981 training samples
356
  * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
357
+ * Approximate statistics based on the first 1000 samples:
358
+ | | anchor | positive | negative |
359
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
360
+ | type | string | string | string |
361
+ | details | <ul><li>min: 10 tokens</li><li>mean: 19.51 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.88 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 14.47 tokens</li><li>max: 22 tokens</li></ul> |
362
  * Samples:
363
+ | anchor | positive | negative |
364
+ |:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
365
+ | <code>Account Manager, chuyên quản khách hàng B2B xây dựng mối quan hệ lâu dài.</code> | <code>Tuyển Account Manager kinh nghiệm quản lý khách hàng doanh nghiệp.</code> | <code>Tuyển chuyên viên pháp vấn doanh nghiệp.</code> |
366
+ | <code>Chuyên viên vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp.</code> | <code>Cần chuyên viên vấn giáo dục có kinh nghiệm định hướng nghề nghiệp.</code> | <code>Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo.</code> |
367
+ | <code>Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu phim truyền hình.</code> | <code>Diễn viên cần khả năng hóa thân vào các vai diễn phức tạp.</code> | <code>Nhà sản xuất phim cần quản tổ chức các dự án phim tài liệu.</code> |
368
  * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
369
  ```json
370
  {
 
373
  }
374
  ```
375
 
376
+ #### similarity
377
+
378
+ * Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
379
+ * Size: 4,568 training samples
380
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
381
+ * Approximate statistics based on the first 1000 samples:
382
+ | | text1 | text2 | score |
383
+ |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------|
384
+ | type | string | string | float |
385
+ | details | <ul><li>min: 10 tokens</li><li>mean: 18.86 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.12 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>min: 0.19</li><li>mean: 0.68</li><li>max: 0.96</li></ul> |
386
+ * Samples:
387
+ | text1 | text2 | score |
388
+ |:-----------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:------------------|
389
+ | <code>Hardware Engineer có khả năng thiết kế hệ thống nhúng.</code> | <code>Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng.</code> | <code>0.74</code> |
390
+ | <code>Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm.</code> | <code>Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm.</code> | <code>0.88</code> |
391
+ | <code>Cần Software Engineer với kinh nghiệm phát triển web.</code> | <code>Frontend Developer cần thành thạo React và JavaScript.</code> | <code>0.34</code> |
392
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
393
+ ```json
394
+ {
395
+ "scale": 20.0,
396
+ "similarity_fct": "pairwise_cos_sim"
397
+ }
398
+ ```
399
+
400
+ #### job_paraphrase
401
+
402
+ * Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
403
+ * Size: 5,939 training samples
404
+ * Columns: <code>text1</code> and <code>text2</code>
405
+ * Approximate statistics based on the first 1000 samples:
406
+ | | text1 | text2 |
407
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
408
+ | type | string | string |
409
+ | details | <ul><li>min: 6 tokens</li><li>mean: 16.25 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.78 tokens</li><li>max: 25 tokens</li></ul> |
410
+ * Samples:
411
+ | text1 | text2 |
412
+ |:------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
413
+ | <code>Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý.</code> | <code>Nhân viên kho thuốc cần kỹ năng kiểm kê.</code> |
414
+ | <code>Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống.</code> | <code>Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng.</code> |
415
+ | <code>Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp.</code> | <code>Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến.</code> |
416
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
417
+ ```json
418
+ {
419
+ "scale": 20.0,
420
+ "similarity_fct": "cos_sim"
421
+ }
422
+ ```
423
+
424
+ #### cv_paraphrase
425
+
426
+ * Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
427
+ * Size: 2,969 training samples
428
+ * Columns: <code>text1</code> and <code>text2</code>
429
+ * Approximate statistics based on the first 1000 samples:
430
+ | | text1 | text2 |
431
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
432
+ | type | string | string |
433
+ | details | <ul><li>min: 10 tokens</li><li>mean: 20.6 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 19.52 tokens</li><li>max: 32 tokens</li></ul> |
434
+ * Samples:
435
+ | text1 | text2 |
436
+ |:------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
437
+ | <code>Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận.</code> | <code>8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính.</code> |
438
+ | <code>Hotel Manager with strong leadership skills and 5 years of experience.</code> | <code>Hotel manager skilled in optimizing hotel operations and guest services.</code> |
439
+ | <code>7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu.</code> | <code>Backend Developer chuyên về API và cơ sở dữ liệu.</code> |
440
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
441
+ ```json
442
+ {
443
+ "scale": 20.0,
444
+ "similarity_fct": "cos_sim"
445
+ }
446
+ ```
447
+
448
  ### Evaluation Datasets
449
 
450
  #### binary
451
 
452
+ * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
453
+ * Size: 327 evaluation samples
454
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
455
+ * Approximate statistics based on the first 327 samples:
456
+ | | text1 | text2 | label |
457
  |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
458
  | type | string | string | int |
459
+ | details | <ul><li>min: 11 tokens</li><li>mean: 19.36 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.01 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>0: ~44.34%</li><li>1: ~55.66%</li></ul> |
460
  * Samples:
461
+ | text1 | text2 | label |
462
+ |:---------------------------------------------------------------------------|:----------------------------------------------------------------------|:---------------|
463
+ | <code>Tuyển kỹ phần mềm nhúng có kinh nghiệm 3 năm trở lên.</code> | <code>Software Developer, yêu cầu hiểu biết về hệ thống nhúng.</code> | <code>0</code> |
464
+ | <code> vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.</code> | <code>Quản chất thải kinh nghiệm xử tái chế nước.</code> | <code>1</code> |
465
+ | <code>DevOps Engineer với khả năng triển khai trên AWS, Azure.</code> | <code>Cloud Engineer cần quản hạ tầng.</code> | <code>1</code> |
466
  * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
467
  ```json
468
  {
 
474
 
475
  #### triplet
476
 
477
+ * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
478
+ * Size: 157 evaluation samples
479
  * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
480
+ * Approximate statistics based on the first 157 samples:
481
+ | | anchor | positive | negative |
482
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
483
+ | type | string | string | string |
484
+ | details | <ul><li>min: 13 tokens</li><li>mean: 19.6 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.66 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 14.06 tokens</li><li>max: 20 tokens</li></ul> |
485
  * Samples:
486
+ | anchor | positive | negative |
487
+ |:---------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------|:----------------------------------------------------------------|
488
+ | <code>Quản danh mục đầu tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư.</code> | <code>Investment Analyst cần kinh nghiệm quản danh mục đầu tư.</code> | <code>Kế toán chi phí phụ trách kiểm soát chi phí.</code> |
489
+ | <code>Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP tối ưu hóa quy trình.</code> | <code>Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng.</code> | <code>Tuyển lập trình viên Unity phát triển trò chơi 3D.</code> |
490
+ | <code>Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học.</code> | <code>Data Analyst cần kỹ năng phân tích dữ liệu y tế.</code> | <code>Tuyển nhân viên kinh doanh bất động sản.</code> |
491
  * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
492
  ```json
493
  {
 
496
  }
497
  ```
498
 
499
+ #### similarity
500
+
501
+ * Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
502
+ * Size: 241 evaluation samples
503
+ * Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
504
+ * Approximate statistics based on the first 241 samples:
505
+ | | text1 | text2 | score |
506
+ |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------|
507
+ | type | string | string | float |
508
+ | details | <ul><li>min: 11 tokens</li><li>mean: 18.69 tokens</li><li>max: 28 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 15.93 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 0.2</li><li>mean: 0.67</li><li>max: 0.95</li></ul> |
509
+ * Samples:
510
+ | text1 | text2 | score |
511
+ |:-----------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------|
512
+ | <code>Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành.</code> | <code>Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải.</code> | <code>0.83</code> |
513
+ | <code>Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend.</code> | <code>Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng.</code> | <code>0.29</code> |
514
+ | <code>Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại.</code> | <code>Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano.</code> | <code>0.74</code> |
515
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
516
+ ```json
517
+ {
518
+ "scale": 20.0,
519
+ "similarity_fct": "pairwise_cos_sim"
520
+ }
521
+ ```
522
+
523
+ #### job_paraphrase
524
+
525
+ * Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
526
+ * Size: 313 evaluation samples
527
+ * Columns: <code>text1</code> and <code>text2</code>
528
+ * Approximate statistics based on the first 313 samples:
529
+ | | text1 | text2 |
530
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
531
+ | type | string | string |
532
+ | details | <ul><li>min: 10 tokens</li><li>mean: 16.32 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.74 tokens</li><li>max: 25 tokens</li></ul> |
533
+ * Samples:
534
+ | text1 | text2 |
535
+ |:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
536
+ | <code>Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ.</code> | <code>Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống.</code> |
537
+ | <code>Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng.</code> | <code>Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành.</code> |
538
+ | <code>Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất.</code> | <code>Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất.</code> |
539
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
540
+ ```json
541
+ {
542
+ "scale": 20.0,
543
+ "similarity_fct": "cos_sim"
544
+ }
545
+ ```
546
+
547
+ #### cv_paraphrase
548
+
549
+ * Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
550
+ * Size: 157 evaluation samples
551
+ * Columns: <code>text1</code> and <code>text2</code>
552
+ * Approximate statistics based on the first 157 samples:
553
+ | | text1 | text2 |
554
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
555
+ | type | string | string |
556
+ | details | <ul><li>min: 12 tokens</li><li>mean: 20.28 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 19.34 tokens</li><li>max: 28 tokens</li></ul> |
557
+ * Samples:
558
+ | text1 | text2 |
559
+ |:-----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------|
560
+ | <code>Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu.</code> | <code>Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn.</code> |
561
+ | <code>Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm.</code> | <code>Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải.</code> |
562
+ | <code>Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm.</code> | <code>Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống.</code> |
563
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
564
+ ```json
565
+ {
566
+ "scale": 20.0,
567
+ "similarity_fct": "cos_sim"
568
+ }
569
+ ```
570
+
571
  ### Training Hyperparameters
572
  #### Non-Default Hyperparameters
573
 
 
702
  </details>
703
 
704
  ### Training Logs
705
+ | Epoch | Step | Training Loss | binary loss | triplet loss | similarity loss | job paraphrase loss | cv paraphrase loss | cosine_ap | cosine_accuracy | spearman_cosine |
706
+ |:------:|:----:|:-------------:|:-----------:|:------------:|:---------------:|:-------------------:|:------------------:|:---------:|:---------------:|:---------------:|
707
+ | 0 | 0 | - | - | - | - | - | - | 1.0 | 0.9682 | 0.5468 |
708
+ | 0.2817 | 200 | 2.401 | - | - | - | - | - | - | - | - |
709
+ | 0.5634 | 400 | 1.5659 | - | - | - | - | - | - | - | - |
710
+ | 0.7042 | 500 | - | 0.0088 | 0.2391 | 6.9067 | 0.1746 | 0.2689 | 1.0 | 0.9936 | 0.9123 |
711
+ | 0.8451 | 600 | 1.8501 | - | - | - | - | - | - | - | - |
712
+ | 1.1268 | 800 | 1.7318 | - | - | - | - | - | - | - | - |
713
+ | 1.4085 | 1000 | 1.3758 | 0.0079 | 0.0367 | 6.2019 | 0.1665 | 0.2657 | 1.0 | 1.0 | 0.9238 |
714
+ | 1.6901 | 1200 | 1.3554 | - | - | - | - | - | - | - | - |
715
+ | 1.9718 | 1400 | 1.5119 | - | - | - | - | - | - | - | - |
716
+ | 2.1127 | 1500 | - | 0.0081 | 0.0144 | 5.7135 | 0.1633 | 0.2295 | 1.0 | 1.0 | 0.9341 |
717
+ | 2.2535 | 1600 | 1.2886 | - | - | - | - | - | - | - | - |
718
+ | 2.5352 | 1800 | 1.1131 | - | - | - | - | - | - | - | - |
719
+ | 2.8169 | 2000 | 1.3962 | 0.0108 | 0.0191 | 6.0231 | 0.1540 | 0.2342 | 1.0 | 1.0 | 0.9396 |
720
+ | 3.0986 | 2200 | 1.2394 | - | - | - | - | - | - | - | - |
721
+ | 3.3803 | 2400 | 1.1392 | - | - | - | - | - | - | - | - |
722
+ | 3.5211 | 2500 | - | 0.0097 | 0.0025 | 5.6361 | 0.1580 | 0.2212 | 1.0 | 1.0 | 0.9410 |
723
+ | 3.6620 | 2600 | 1.1614 | - | - | - | - | - | - | - | - |
724
+ | 3.9437 | 2800 | 1.2351 | - | - | - | - | - | - | - | - |
725
+ | 4.2254 | 3000 | 1.1862 | 0.0100 | 0.0107 | 5.5943 | 0.1517 | 0.2158 | 1.0 | 1.0 | 0.9420 |
726
+ | 4.5070 | 3200 | 0.9371 | - | - | - | - | - | - | - | - |
727
+ | 4.7887 | 3400 | 1.3572 | - | - | - | - | - | - | - | - |
728
+ | 4.9296 | 3500 | - | 0.0104 | 0.0057 | 5.6213 | 0.1539 | 0.2141 | 1.0 | 1.0 | 0.9429 |
729
+ | 5.0 | 3550 | - | - | - | - | - | - | 1.0 | 1.0 | 0.9431 |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
730
 
731
 
732
  ### Framework Versions
 
781
  }
782
  ```
783
 
784
+ #### CoSENTLoss
785
+ ```bibtex
786
+ @online{kexuefm-8847,
787
+ title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
788
+ author={Su Jianlin},
789
+ year={2022},
790
+ month={Jan},
791
+ url={https://kexue.fm/archives/8847},
792
+ }
793
+ ```
794
+
795
+ #### MultipleNegativesRankingLoss
796
+ ```bibtex
797
+ @misc{henderson2017efficient,
798
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
799
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
800
+ year={2017},
801
+ eprint={1705.00652},
802
+ archivePrefix={arXiv},
803
+ primaryClass={cs.CL}
804
+ }
805
+ ```
806
+
807
  <!--
808
  ## Glossary
809
 
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:91264ff498242e97ca4fc6e8ecc2f4ff2a58184da00679f1d11ffb271f8478af
3
  size 470637416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:06de7179a076ef54737d05a716f4e621e3078a7b83a92970e3eaf55dab0ed0a4
3
  size 470637416
runs/Nov18_22-34-49_DESKTOP-T51O3H3/events.out.tfevents.1731944093.DESKTOP-T51O3H3.12064.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:917f900e27a1ccca362cf5f9d02606c0f793ff29960421ca5414fddc246f0340
3
+ size 14276
runs/Nov18_22-37-55_DESKTOP-T51O3H3/events.out.tfevents.1731944278.DESKTOP-T51O3H3.22016.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:188f029ba96424339a3f086e26e9e3b147445a60ad049cdc0829e3c1461cd5af
3
+ size 22673
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d11f9ab3a3250493b2dbb54720bf0584090d555d37c3fdb130ce4fefcaaea6f6
3
- size 5624
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e7411dec48308d116a10ef6fbd6f62c73bce2ff79de0fb9a3d0033f372d3c79c
3
+ size 5688