End of training
Browse files
README.md
CHANGED
@@ -4,41 +4,45 @@ tags:
|
|
4 |
- sentence-similarity
|
5 |
- feature-extraction
|
6 |
- generated_from_trainer
|
7 |
-
- dataset_size:
|
8 |
- loss:ContrastiveLoss
|
9 |
- loss:TripletLoss
|
|
|
|
|
10 |
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
11 |
widget:
|
12 |
-
- source_sentence:
|
13 |
sentences:
|
14 |
-
-
|
15 |
-
-
|
16 |
-
-
|
17 |
-
|
|
|
18 |
sentences:
|
19 |
-
-
|
20 |
-
-
|
21 |
-
-
|
22 |
-
- source_sentence:
|
23 |
sentences:
|
24 |
-
-
|
25 |
-
-
|
26 |
-
|
27 |
-
|
28 |
-
- source_sentence: DevOps Engineer, kinh nghiệm 4 năm sử dụng Docker, Kubernetes.
|
29 |
sentences:
|
30 |
-
-
|
31 |
-
- Tuyển
|
32 |
-
-
|
33 |
-
- source_sentence:
|
34 |
-
thống thanh toán.
|
35 |
sentences:
|
36 |
-
- Tuyển
|
37 |
-
-
|
38 |
-
- Tuyển
|
39 |
datasets:
|
40 |
-
- HZeroxium/cv-
|
41 |
- HZeroxium/cv-job-triplet
|
|
|
|
|
|
|
42 |
pipeline_tag: sentence-similarity
|
43 |
library_name: sentence-transformers
|
44 |
metrics:
|
@@ -49,6 +53,8 @@ metrics:
|
|
49 |
- cosine_precision
|
50 |
- cosine_recall
|
51 |
- cosine_ap
|
|
|
|
|
52 |
model-index:
|
53 |
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
54 |
results:
|
@@ -60,25 +66,67 @@ model-index:
|
|
60 |
type: unknown
|
61 |
metrics:
|
62 |
- type: cosine_accuracy
|
63 |
-
value: 0.
|
64 |
name: Cosine Accuracy
|
65 |
- type: cosine_accuracy_threshold
|
66 |
-
value: 0.
|
67 |
name: Cosine Accuracy Threshold
|
68 |
- type: cosine_f1
|
69 |
-
value: 0.
|
70 |
name: Cosine F1
|
71 |
- type: cosine_f1_threshold
|
72 |
-
value: 0.
|
73 |
name: Cosine F1 Threshold
|
74 |
- type: cosine_precision
|
75 |
-
value: 0.
|
76 |
name: Cosine Precision
|
77 |
- type: cosine_recall
|
78 |
-
value: 0.
|
79 |
name: Cosine Recall
|
80 |
- type: cosine_ap
|
81 |
-
value: 0.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
82 |
name: Cosine Ap
|
83 |
- task:
|
84 |
type: triplet
|
@@ -90,11 +138,24 @@ model-index:
|
|
90 |
- type: cosine_accuracy
|
91 |
value: 1.0
|
92 |
name: Cosine Accuracy
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
93 |
---
|
94 |
|
95 |
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
96 |
|
97 |
-
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
98 |
|
99 |
## Model Details
|
100 |
|
@@ -105,8 +166,11 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [s
|
|
105 |
- **Output Dimensionality:** 384 dimensions
|
106 |
- **Similarity Function:** Cosine Similarity
|
107 |
- **Training Datasets:**
|
108 |
-
- [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
109 |
- [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
|
|
|
|
|
|
|
110 |
<!-- - **Language:** Unknown -->
|
111 |
<!-- - **License:** Unknown -->
|
112 |
|
@@ -140,12 +204,12 @@ Then you can load this model and run inference.
|
|
140 |
from sentence_transformers import SentenceTransformer
|
141 |
|
142 |
# Download from the 🤗 Hub
|
143 |
-
model = SentenceTransformer("
|
144 |
# Run inference
|
145 |
sentences = [
|
146 |
-
'
|
147 |
-
'Tuyển
|
148 |
-
'Tuyển
|
149 |
]
|
150 |
embeddings = model.encode(sentences)
|
151 |
print(embeddings.shape)
|
@@ -191,13 +255,13 @@ You can finetune this model on your own dataset.
|
|
191 |
|
192 |
| Metric | Value |
|
193 |
|:--------------------------|:-----------|
|
194 |
-
| cosine_accuracy | 0.
|
195 |
-
| cosine_accuracy_threshold | 0.
|
196 |
-
| cosine_f1 | 0.
|
197 |
-
| cosine_f1_threshold | 0.
|
198 |
-
| cosine_precision | 0.
|
199 |
-
| cosine_recall | 0.
|
200 |
-
| **cosine_ap** | **0.
|
201 |
|
202 |
#### Triplet
|
203 |
|
@@ -207,6 +271,43 @@ You can finetune this model on your own dataset.
|
|
207 |
|:--------------------|:--------|
|
208 |
| **cosine_accuracy** | **1.0** |
|
209 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
210 |
<!--
|
211 |
## Bias, Risks and Limitations
|
212 |
|
@@ -225,20 +326,20 @@ You can finetune this model on your own dataset.
|
|
225 |
|
226 |
#### binary
|
227 |
|
228 |
-
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
229 |
-
* Size:
|
230 |
-
* Columns: <code>
|
231 |
* Approximate statistics based on the first 1000 samples:
|
232 |
-
| |
|
233 |
-
|
234 |
-
| type | string
|
235 |
-
| details | <ul><li>min:
|
236 |
* Samples:
|
237 |
-
|
|
238 |
-
|
239 |
-
| <code>
|
240 |
-
| <code>
|
241 |
-
| <code>
|
242 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
243 |
```json
|
244 |
{
|
@@ -250,20 +351,20 @@ You can finetune this model on your own dataset.
|
|
250 |
|
251 |
#### triplet
|
252 |
|
253 |
-
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [
|
254 |
-
* Size:
|
255 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
256 |
-
* Approximate statistics based on the first
|
257 |
-
| | anchor | positive
|
258 |
-
|
259 |
-
| type | string | string
|
260 |
-
| details | <ul><li>min:
|
261 |
* Samples:
|
262 |
-
| anchor
|
263 |
-
|
264 |
-
| <code>
|
265 |
-
| <code>
|
266 |
-
| <code>
|
267 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
268 |
```json
|
269 |
{
|
@@ -272,24 +373,96 @@ You can finetune this model on your own dataset.
|
|
272 |
}
|
273 |
```
|
274 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
275 |
### Evaluation Datasets
|
276 |
|
277 |
#### binary
|
278 |
|
279 |
-
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/cv-
|
280 |
-
* Size:
|
281 |
-
* Columns: <code>
|
282 |
-
* Approximate statistics based on the first
|
283 |
-
| |
|
284 |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
285 |
| type | string | string | int |
|
286 |
-
| details | <ul><li>min:
|
287 |
* Samples:
|
288 |
-
|
|
289 |
-
|
290 |
-
| <code>
|
291 |
-
| <code>
|
292 |
-
| <code>
|
293 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
294 |
```json
|
295 |
{
|
@@ -301,20 +474,20 @@ You can finetune this model on your own dataset.
|
|
301 |
|
302 |
#### triplet
|
303 |
|
304 |
-
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [
|
305 |
-
* Size:
|
306 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
307 |
-
* Approximate statistics based on the first
|
308 |
-
| | anchor
|
309 |
-
|
310 |
-
| type | string
|
311 |
-
| details | <ul><li>min: 13 tokens</li><li>mean:
|
312 |
* Samples:
|
313 |
-
| anchor
|
314 |
-
|
315 |
-
| <code>
|
316 |
-
| <code>
|
317 |
-
| <code>
|
318 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
319 |
```json
|
320 |
{
|
@@ -323,6 +496,78 @@ You can finetune this model on your own dataset.
|
|
323 |
}
|
324 |
```
|
325 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
326 |
### Training Hyperparameters
|
327 |
#### Non-Default Hyperparameters
|
328 |
|
@@ -457,48 +702,31 @@ You can finetune this model on your own dataset.
|
|
457 |
</details>
|
458 |
|
459 |
### Training Logs
|
460 |
-
| Epoch | Step | Training Loss | binary loss | triplet loss | cosine_ap | cosine_accuracy |
|
461 |
-
|
462 |
-
| 0 | 0 | - | - | - |
|
463 |
-
| 0.
|
464 |
-
| 0.
|
465 |
-
| 0.
|
466 |
-
| 0.
|
467 |
-
|
|
468 |
-
| 0.
|
469 |
-
|
|
470 |
-
| 1.
|
471 |
-
|
|
472 |
-
|
|
473 |
-
|
|
474 |
-
| 1.
|
475 |
-
|
|
476 |
-
|
|
477 |
-
|
|
478 |
-
|
|
479 |
-
|
|
480 |
-
|
|
481 |
-
|
|
482 |
-
|
|
483 |
-
|
|
484 |
-
|
|
485 |
-
| 2.9487 | 230 | 0.003 | - | - | - | - |
|
486 |
-
| 3.0769 | 240 | 0.0019 | - | - | - | - |
|
487 |
-
| 3.2051 | 250 | 0.0024 | - | - | - | - |
|
488 |
-
| 3.3333 | 260 | 0.002 | - | - | - | - |
|
489 |
-
| 3.4615 | 270 | 0.0025 | - | - | - | - |
|
490 |
-
| 3.5897 | 280 | 0.0022 | - | - | - | - |
|
491 |
-
| 3.7179 | 290 | 0.0021 | - | - | - | - |
|
492 |
-
| 3.8462 | 300 | 0.0017 | 0.0037 | 0.0162 | 0.9803 | 1.0 |
|
493 |
-
| 3.9744 | 310 | 0.0023 | - | - | - | - |
|
494 |
-
| 4.1026 | 320 | 0.0017 | - | - | - | - |
|
495 |
-
| 4.2308 | 330 | 0.002 | - | - | - | - |
|
496 |
-
| 4.3590 | 340 | 0.0022 | - | - | - | - |
|
497 |
-
| 4.4872 | 350 | 0.0015 | - | - | - | - |
|
498 |
-
| 4.6154 | 360 | 0.0018 | - | - | - | - |
|
499 |
-
| 4.7436 | 370 | 0.0021 | - | - | - | - |
|
500 |
-
| 4.8718 | 380 | 0.0014 | - | - | - | - |
|
501 |
-
| 5.0 | 390 | 0.0022 | - | - | 0.9803 | 1.0 |
|
502 |
|
503 |
|
504 |
### Framework Versions
|
@@ -553,6 +781,29 @@ You can finetune this model on your own dataset.
|
|
553 |
}
|
554 |
```
|
555 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
556 |
<!--
|
557 |
## Glossary
|
558 |
|
|
|
4 |
- sentence-similarity
|
5 |
- feature-extraction
|
6 |
- generated_from_trainer
|
7 |
+
- dataset_size:22654
|
8 |
- loss:ContrastiveLoss
|
9 |
- loss:TripletLoss
|
10 |
+
- loss:CoSENTLoss
|
11 |
+
- loss:MultipleNegativesRankingLoss
|
12 |
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
13 |
widget:
|
14 |
+
- source_sentence: Network Operations Specialist yêu cầu tối ưu hóa mạng.
|
15 |
sentences:
|
16 |
+
- Actor cần có kỹ năng biểu diễn sân khấu và hóa thân vào nhiều loại nhân vật.
|
17 |
+
- Network Operations Specialist cần tối ưu hóa mạng.
|
18 |
+
- Nhà tư vấn PR hỗ trợ doanh nghiệp trong việc phát triển hình ảnh công chúng và
|
19 |
+
xử lý khủng hoảng.
|
20 |
+
- source_sentence: Cybersecurity Specialist với kinh nghiệm bảo mật hệ thống 5 năm.
|
21 |
sentences:
|
22 |
+
- Kỹ sư cơ khí cần phát triển hệ thống sản xuất tự động hóa.
|
23 |
+
- Cybersecurity Engineer, yêu cầu tối thiểu 5 năm trong bảo mật.
|
24 |
+
- Data Scientist cần kỹ năng Machine Learning và Python.
|
25 |
+
- source_sentence: Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.
|
26 |
sentences:
|
27 |
+
- Quản lý chất thải có kinh nghiệm xử lý và tái chế nước.
|
28 |
+
- Tư vấn môi trường quản lý chất lượng môi trường đô thị.
|
29 |
+
- Illustrator cần có khả năng minh họa cho sách giáo dục và tài liệu học tập.
|
30 |
+
- source_sentence: Mobile Developer với kinh nghiệm phát triển ứng dụng iOS và Swift.
|
|
|
31 |
sentences:
|
32 |
+
- Tuyển iOS Developer có kỹ năng làm việc với Swift.
|
33 |
+
- Tuyển chuyên viên QA kiểm tra chất lượng phần mềm.
|
34 |
+
- Mobile Developer cần biết phát triển ứng dụng đa nền tảng.
|
35 |
+
- source_sentence: Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.
|
|
|
36 |
sentences:
|
37 |
+
- Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.
|
38 |
+
- Công ty XYZ tuyển Data Scientist với tối thiểu 2 năm kinh nghiệm học máy.
|
39 |
+
- Tuyển iOS Developer thành thạo Swift.
|
40 |
datasets:
|
41 |
+
- HZeroxium/job-cv-binary
|
42 |
- HZeroxium/cv-job-triplet
|
43 |
+
- HZeroxium/cv-job-similarity
|
44 |
+
- HZeroxium/job-paraphrase
|
45 |
+
- HZeroxium/cv-paraphrase
|
46 |
pipeline_tag: sentence-similarity
|
47 |
library_name: sentence-transformers
|
48 |
metrics:
|
|
|
53 |
- cosine_precision
|
54 |
- cosine_recall
|
55 |
- cosine_ap
|
56 |
+
- pearson_cosine
|
57 |
+
- spearman_cosine
|
58 |
model-index:
|
59 |
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
60 |
results:
|
|
|
66 |
type: unknown
|
67 |
metrics:
|
68 |
- type: cosine_accuracy
|
69 |
+
value: 0.9755351681957186
|
70 |
name: Cosine Accuracy
|
71 |
- type: cosine_accuracy_threshold
|
72 |
+
value: 0.5808850526809692
|
73 |
name: Cosine Accuracy Threshold
|
74 |
- type: cosine_f1
|
75 |
+
value: 0.9779005524861878
|
76 |
name: Cosine F1
|
77 |
- type: cosine_f1_threshold
|
78 |
+
value: 0.5644330978393555
|
79 |
name: Cosine F1 Threshold
|
80 |
- type: cosine_precision
|
81 |
+
value: 0.9833333333333333
|
82 |
name: Cosine Precision
|
83 |
- type: cosine_recall
|
84 |
+
value: 0.9725274725274725
|
85 |
name: Cosine Recall
|
86 |
- type: cosine_ap
|
87 |
+
value: 0.9956042554162885
|
88 |
+
name: Cosine Ap
|
89 |
+
- type: cosine_accuracy
|
90 |
+
value: 0.9968051118210862
|
91 |
+
name: Cosine Accuracy
|
92 |
+
- type: cosine_accuracy_threshold
|
93 |
+
value: 0.7650139331817627
|
94 |
+
name: Cosine Accuracy Threshold
|
95 |
+
- type: cosine_f1
|
96 |
+
value: 0.9984
|
97 |
+
name: Cosine F1
|
98 |
+
- type: cosine_f1_threshold
|
99 |
+
value: 0.7650139331817627
|
100 |
+
name: Cosine F1 Threshold
|
101 |
+
- type: cosine_precision
|
102 |
+
value: 1.0
|
103 |
+
name: Cosine Precision
|
104 |
+
- type: cosine_recall
|
105 |
+
value: 0.9968051118210862
|
106 |
+
name: Cosine Recall
|
107 |
+
- type: cosine_ap
|
108 |
+
value: 0.9999999999999999
|
109 |
+
name: Cosine Ap
|
110 |
+
- type: cosine_accuracy
|
111 |
+
value: 0.9936305732484076
|
112 |
+
name: Cosine Accuracy
|
113 |
+
- type: cosine_accuracy_threshold
|
114 |
+
value: 0.8211346864700317
|
115 |
+
name: Cosine Accuracy Threshold
|
116 |
+
- type: cosine_f1
|
117 |
+
value: 0.9968051118210862
|
118 |
+
name: Cosine F1
|
119 |
+
- type: cosine_f1_threshold
|
120 |
+
value: 0.8211346864700317
|
121 |
+
name: Cosine F1 Threshold
|
122 |
+
- type: cosine_precision
|
123 |
+
value: 1.0
|
124 |
+
name: Cosine Precision
|
125 |
+
- type: cosine_recall
|
126 |
+
value: 0.9936305732484076
|
127 |
+
name: Cosine Recall
|
128 |
+
- type: cosine_ap
|
129 |
+
value: 1.0
|
130 |
name: Cosine Ap
|
131 |
- task:
|
132 |
type: triplet
|
|
|
138 |
- type: cosine_accuracy
|
139 |
value: 1.0
|
140 |
name: Cosine Accuracy
|
141 |
+
- task:
|
142 |
+
type: semantic-similarity
|
143 |
+
name: Semantic Similarity
|
144 |
+
dataset:
|
145 |
+
name: Unknown
|
146 |
+
type: unknown
|
147 |
+
metrics:
|
148 |
+
- type: pearson_cosine
|
149 |
+
value: 0.970012297655986
|
150 |
+
name: Pearson Cosine
|
151 |
+
- type: spearman_cosine
|
152 |
+
value: 0.9430534588122865
|
153 |
+
name: Spearman Cosine
|
154 |
---
|
155 |
|
156 |
# SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
|
157 |
|
158 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary), [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet), [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity), [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) and [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
159 |
|
160 |
## Model Details
|
161 |
|
|
|
166 |
- **Output Dimensionality:** 384 dimensions
|
167 |
- **Similarity Function:** Cosine Similarity
|
168 |
- **Training Datasets:**
|
169 |
+
- [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary)
|
170 |
- [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet)
|
171 |
+
- [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity)
|
172 |
+
- [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase)
|
173 |
+
- [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase)
|
174 |
<!-- - **Language:** Unknown -->
|
175 |
<!-- - **License:** Unknown -->
|
176 |
|
|
|
204 |
from sentence_transformers import SentenceTransformer
|
205 |
|
206 |
# Download from the 🤗 Hub
|
207 |
+
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
|
208 |
# Run inference
|
209 |
sentences = [
|
210 |
+
'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.',
|
211 |
+
'Tuyển iOS Developer thành thạo Swift.',
|
212 |
+
'Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.',
|
213 |
]
|
214 |
embeddings = model.encode(sentences)
|
215 |
print(embeddings.shape)
|
|
|
255 |
|
256 |
| Metric | Value |
|
257 |
|:--------------------------|:-----------|
|
258 |
+
| cosine_accuracy | 0.9755 |
|
259 |
+
| cosine_accuracy_threshold | 0.5809 |
|
260 |
+
| cosine_f1 | 0.9779 |
|
261 |
+
| cosine_f1_threshold | 0.5644 |
|
262 |
+
| cosine_precision | 0.9833 |
|
263 |
+
| cosine_recall | 0.9725 |
|
264 |
+
| **cosine_ap** | **0.9956** |
|
265 |
|
266 |
#### Triplet
|
267 |
|
|
|
271 |
|:--------------------|:--------|
|
272 |
| **cosine_accuracy** | **1.0** |
|
273 |
|
274 |
+
#### Semantic Similarity
|
275 |
+
|
276 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
277 |
+
|
278 |
+
| Metric | Value |
|
279 |
+
|:--------------------|:-----------|
|
280 |
+
| pearson_cosine | 0.97 |
|
281 |
+
| **spearman_cosine** | **0.9431** |
|
282 |
+
|
283 |
+
#### Binary Classification
|
284 |
+
|
285 |
+
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
|
286 |
+
|
287 |
+
| Metric | Value |
|
288 |
+
|:--------------------------|:--------|
|
289 |
+
| cosine_accuracy | 0.9968 |
|
290 |
+
| cosine_accuracy_threshold | 0.765 |
|
291 |
+
| cosine_f1 | 0.9984 |
|
292 |
+
| cosine_f1_threshold | 0.765 |
|
293 |
+
| cosine_precision | 1.0 |
|
294 |
+
| cosine_recall | 0.9968 |
|
295 |
+
| **cosine_ap** | **1.0** |
|
296 |
+
|
297 |
+
#### Binary Classification
|
298 |
+
|
299 |
+
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
|
300 |
+
|
301 |
+
| Metric | Value |
|
302 |
+
|:--------------------------|:--------|
|
303 |
+
| cosine_accuracy | 0.9936 |
|
304 |
+
| cosine_accuracy_threshold | 0.8211 |
|
305 |
+
| cosine_f1 | 0.9968 |
|
306 |
+
| cosine_f1_threshold | 0.8211 |
|
307 |
+
| cosine_precision | 1.0 |
|
308 |
+
| cosine_recall | 0.9936 |
|
309 |
+
| **cosine_ap** | **1.0** |
|
310 |
+
|
311 |
<!--
|
312 |
## Bias, Risks and Limitations
|
313 |
|
|
|
326 |
|
327 |
#### binary
|
328 |
|
329 |
+
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
|
330 |
+
* Size: 6,197 training samples
|
331 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
|
332 |
* Approximate statistics based on the first 1000 samples:
|
333 |
+
| | text1 | text2 | label |
|
334 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
335 |
+
| type | string | string | int |
|
336 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 19.5 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.91 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>0: ~43.70%</li><li>1: ~56.30%</li></ul> |
|
337 |
* Samples:
|
338 |
+
| text1 | text2 | label |
|
339 |
+
|:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------|:---------------|
|
340 |
+
| <code>Lập trình viên backend, 3 năm kinh nghiệm với Node.js và xây dựng API.</code> | <code>Tuyển Backend Developer có kinh nghiệm với Node.js.</code> | <code>1</code> |
|
341 |
+
| <code>Kỹ sư mạng với 6 năm kinh nghiệm quản lý hệ thống mạng lớn.</code> | <code>Cần System Administrator với kinh nghiệm quản lý hệ thống.</code> | <code>0</code> |
|
342 |
+
| <code>Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js và Express.</code> | <code>Cần tuyển Backend Developer biết sử dụng PHP và Laravel.</code> | <code>0</code> |
|
343 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
344 |
```json
|
345 |
{
|
|
|
351 |
|
352 |
#### triplet
|
353 |
|
354 |
+
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
|
355 |
+
* Size: 2,981 training samples
|
356 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
357 |
+
* Approximate statistics based on the first 1000 samples:
|
358 |
+
| | anchor | positive | negative |
|
359 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
360 |
+
| type | string | string | string |
|
361 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 19.51 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.88 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 14.47 tokens</li><li>max: 22 tokens</li></ul> |
|
362 |
* Samples:
|
363 |
+
| anchor | positive | negative |
|
364 |
+
|:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
|
365 |
+
| <code>Account Manager, chuyên quản lý khách hàng B2B và xây dựng mối quan hệ lâu dài.</code> | <code>Tuyển Account Manager có kinh nghiệm quản lý khách hàng doanh nghiệp.</code> | <code>Tuyển chuyên viên pháp lý tư vấn doanh nghiệp.</code> |
|
366 |
+
| <code>Chuyên viên tư vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp.</code> | <code>Cần chuyên viên tư vấn giáo dục có kinh nghiệm định hướng nghề nghiệp.</code> | <code>Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo.</code> |
|
367 |
+
| <code>Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu và phim truyền hình.</code> | <code>Diễn viên cần có khả năng hóa thân vào các vai diễn phức tạp.</code> | <code>Nhà sản xuất phim cần quản lý và tổ chức các dự án phim tài liệu.</code> |
|
368 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
369 |
```json
|
370 |
{
|
|
|
373 |
}
|
374 |
```
|
375 |
|
376 |
+
#### similarity
|
377 |
+
|
378 |
+
* Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
|
379 |
+
* Size: 4,568 training samples
|
380 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
|
381 |
+
* Approximate statistics based on the first 1000 samples:
|
382 |
+
| | text1 | text2 | score |
|
383 |
+
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------|
|
384 |
+
| type | string | string | float |
|
385 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 18.86 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.12 tokens</li><li>max: 27 tokens</li></ul> | <ul><li>min: 0.19</li><li>mean: 0.68</li><li>max: 0.96</li></ul> |
|
386 |
+
* Samples:
|
387 |
+
| text1 | text2 | score |
|
388 |
+
|:-----------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:------------------|
|
389 |
+
| <code>Hardware Engineer có khả năng thiết kế hệ thống nhúng.</code> | <code>Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng.</code> | <code>0.74</code> |
|
390 |
+
| <code>Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm.</code> | <code>Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm.</code> | <code>0.88</code> |
|
391 |
+
| <code>Cần Software Engineer với kinh nghiệm phát triển web.</code> | <code>Frontend Developer cần thành thạo React và JavaScript.</code> | <code>0.34</code> |
|
392 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
393 |
+
```json
|
394 |
+
{
|
395 |
+
"scale": 20.0,
|
396 |
+
"similarity_fct": "pairwise_cos_sim"
|
397 |
+
}
|
398 |
+
```
|
399 |
+
|
400 |
+
#### job_paraphrase
|
401 |
+
|
402 |
+
* Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
|
403 |
+
* Size: 5,939 training samples
|
404 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
405 |
+
* Approximate statistics based on the first 1000 samples:
|
406 |
+
| | text1 | text2 |
|
407 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
408 |
+
| type | string | string |
|
409 |
+
| details | <ul><li>min: 6 tokens</li><li>mean: 16.25 tokens</li><li>max: 25 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 15.78 tokens</li><li>max: 25 tokens</li></ul> |
|
410 |
+
* Samples:
|
411 |
+
| text1 | text2 |
|
412 |
+
|:------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
413 |
+
| <code>Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý.</code> | <code>Nhân viên kho thuốc cần kỹ năng kiểm kê.</code> |
|
414 |
+
| <code>Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống.</code> | <code>Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng.</code> |
|
415 |
+
| <code>Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp.</code> | <code>Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến.</code> |
|
416 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
417 |
+
```json
|
418 |
+
{
|
419 |
+
"scale": 20.0,
|
420 |
+
"similarity_fct": "cos_sim"
|
421 |
+
}
|
422 |
+
```
|
423 |
+
|
424 |
+
#### cv_paraphrase
|
425 |
+
|
426 |
+
* Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
|
427 |
+
* Size: 2,969 training samples
|
428 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
429 |
+
* Approximate statistics based on the first 1000 samples:
|
430 |
+
| | text1 | text2 |
|
431 |
+
|:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
432 |
+
| type | string | string |
|
433 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 20.6 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 19.52 tokens</li><li>max: 32 tokens</li></ul> |
|
434 |
+
* Samples:
|
435 |
+
| text1 | text2 |
|
436 |
+
|:------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
437 |
+
| <code>Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận.</code> | <code>8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính.</code> |
|
438 |
+
| <code>Hotel Manager with strong leadership skills and 5 years of experience.</code> | <code>Hotel manager skilled in optimizing hotel operations and guest services.</code> |
|
439 |
+
| <code>7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu.</code> | <code>Backend Developer chuyên về API và cơ sở dữ liệu.</code> |
|
440 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
441 |
+
```json
|
442 |
+
{
|
443 |
+
"scale": 20.0,
|
444 |
+
"similarity_fct": "cos_sim"
|
445 |
+
}
|
446 |
+
```
|
447 |
+
|
448 |
### Evaluation Datasets
|
449 |
|
450 |
#### binary
|
451 |
|
452 |
+
* Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead)
|
453 |
+
* Size: 327 evaluation samples
|
454 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>label</code>
|
455 |
+
* Approximate statistics based on the first 327 samples:
|
456 |
+
| | text1 | text2 | label |
|
457 |
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
458 |
| type | string | string | int |
|
459 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 19.36 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.01 tokens</li><li>max: 26 tokens</li></ul> | <ul><li>0: ~44.34%</li><li>1: ~55.66%</li></ul> |
|
460 |
* Samples:
|
461 |
+
| text1 | text2 | label |
|
462 |
+
|:---------------------------------------------------------------------------|:----------------------------------------------------------------------|:---------------|
|
463 |
+
| <code>Tuyển kỹ sư phần mềm nhúng có kinh nghiệm 3 năm trở lên.</code> | <code>Software Developer, yêu cầu hiểu biết về hệ thống nhúng.</code> | <code>0</code> |
|
464 |
+
| <code>Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.</code> | <code>Quản lý chất thải có kinh nghiệm xử lý và tái chế nước.</code> | <code>1</code> |
|
465 |
+
| <code>DevOps Engineer với khả năng triển khai trên AWS, Azure.</code> | <code>Cloud Engineer cần quản lý hạ tầng.</code> | <code>1</code> |
|
466 |
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
467 |
```json
|
468 |
{
|
|
|
474 |
|
475 |
#### triplet
|
476 |
|
477 |
+
* Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0)
|
478 |
+
* Size: 157 evaluation samples
|
479 |
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
480 |
+
* Approximate statistics based on the first 157 samples:
|
481 |
+
| | anchor | positive | negative |
|
482 |
+
|:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
483 |
+
| type | string | string | string |
|
484 |
+
| details | <ul><li>min: 13 tokens</li><li>mean: 19.6 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.66 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 14.06 tokens</li><li>max: 20 tokens</li></ul> |
|
485 |
* Samples:
|
486 |
+
| anchor | positive | negative |
|
487 |
+
|:---------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------|:----------------------------------------------------------------|
|
488 |
+
| <code>Quản lý danh mục đầu tư tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư.</code> | <code>Investment Analyst cần kinh nghiệm quản lý danh mục đầu tư.</code> | <code>Kế toán chi phí phụ trách kiểm soát chi phí.</code> |
|
489 |
+
| <code>Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP và tối ưu hóa quy trình.</code> | <code>Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng.</code> | <code>Tuyển lập trình viên Unity phát triển trò chơi 3D.</code> |
|
490 |
+
| <code>Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học.</code> | <code>Data Analyst cần kỹ năng phân tích dữ liệu y tế.</code> | <code>Tuyển nhân viên kinh doanh bất động sản.</code> |
|
491 |
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
|
492 |
```json
|
493 |
{
|
|
|
496 |
}
|
497 |
```
|
498 |
|
499 |
+
#### similarity
|
500 |
+
|
501 |
+
* Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9)
|
502 |
+
* Size: 241 evaluation samples
|
503 |
+
* Columns: <code>text1</code>, <code>text2</code>, and <code>score</code>
|
504 |
+
* Approximate statistics based on the first 241 samples:
|
505 |
+
| | text1 | text2 | score |
|
506 |
+
|:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------|
|
507 |
+
| type | string | string | float |
|
508 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 18.69 tokens</li><li>max: 28 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 15.93 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 0.2</li><li>mean: 0.67</li><li>max: 0.95</li></ul> |
|
509 |
+
* Samples:
|
510 |
+
| text1 | text2 | score |
|
511 |
+
|:-----------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------|
|
512 |
+
| <code>Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành.</code> | <code>Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải.</code> | <code>0.83</code> |
|
513 |
+
| <code>Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend.</code> | <code>Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng.</code> | <code>0.29</code> |
|
514 |
+
| <code>Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại.</code> | <code>Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano.</code> | <code>0.74</code> |
|
515 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
516 |
+
```json
|
517 |
+
{
|
518 |
+
"scale": 20.0,
|
519 |
+
"similarity_fct": "pairwise_cos_sim"
|
520 |
+
}
|
521 |
+
```
|
522 |
+
|
523 |
+
#### job_paraphrase
|
524 |
+
|
525 |
+
* Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42)
|
526 |
+
* Size: 313 evaluation samples
|
527 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
528 |
+
* Approximate statistics based on the first 313 samples:
|
529 |
+
| | text1 | text2 |
|
530 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
531 |
+
| type | string | string |
|
532 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 16.32 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 15.74 tokens</li><li>max: 25 tokens</li></ul> |
|
533 |
+
* Samples:
|
534 |
+
| text1 | text2 |
|
535 |
+
|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
536 |
+
| <code>Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ.</code> | <code>Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống.</code> |
|
537 |
+
| <code>Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng.</code> | <code>Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành.</code> |
|
538 |
+
| <code>Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất.</code> | <code>Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất.</code> |
|
539 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
540 |
+
```json
|
541 |
+
{
|
542 |
+
"scale": 20.0,
|
543 |
+
"similarity_fct": "cos_sim"
|
544 |
+
}
|
545 |
+
```
|
546 |
+
|
547 |
+
#### cv_paraphrase
|
548 |
+
|
549 |
+
* Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2)
|
550 |
+
* Size: 157 evaluation samples
|
551 |
+
* Columns: <code>text1</code> and <code>text2</code>
|
552 |
+
* Approximate statistics based on the first 157 samples:
|
553 |
+
| | text1 | text2 |
|
554 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
555 |
+
| type | string | string |
|
556 |
+
| details | <ul><li>min: 12 tokens</li><li>mean: 20.28 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 19.34 tokens</li><li>max: 28 tokens</li></ul> |
|
557 |
+
* Samples:
|
558 |
+
| text1 | text2 |
|
559 |
+
|:-----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------|
|
560 |
+
| <code>Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu.</code> | <code>Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn.</code> |
|
561 |
+
| <code>Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm.</code> | <code>Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải.</code> |
|
562 |
+
| <code>Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm.</code> | <code>Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống.</code> |
|
563 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
564 |
+
```json
|
565 |
+
{
|
566 |
+
"scale": 20.0,
|
567 |
+
"similarity_fct": "cos_sim"
|
568 |
+
}
|
569 |
+
```
|
570 |
+
|
571 |
### Training Hyperparameters
|
572 |
#### Non-Default Hyperparameters
|
573 |
|
|
|
702 |
</details>
|
703 |
|
704 |
### Training Logs
|
705 |
+
| Epoch | Step | Training Loss | binary loss | triplet loss | similarity loss | job paraphrase loss | cv paraphrase loss | cosine_ap | cosine_accuracy | spearman_cosine |
|
706 |
+
|:------:|:----:|:-------------:|:-----------:|:------------:|:---------------:|:-------------------:|:------------------:|:---------:|:---------------:|:---------------:|
|
707 |
+
| 0 | 0 | - | - | - | - | - | - | 1.0 | 0.9682 | 0.5468 |
|
708 |
+
| 0.2817 | 200 | 2.401 | - | - | - | - | - | - | - | - |
|
709 |
+
| 0.5634 | 400 | 1.5659 | - | - | - | - | - | - | - | - |
|
710 |
+
| 0.7042 | 500 | - | 0.0088 | 0.2391 | 6.9067 | 0.1746 | 0.2689 | 1.0 | 0.9936 | 0.9123 |
|
711 |
+
| 0.8451 | 600 | 1.8501 | - | - | - | - | - | - | - | - |
|
712 |
+
| 1.1268 | 800 | 1.7318 | - | - | - | - | - | - | - | - |
|
713 |
+
| 1.4085 | 1000 | 1.3758 | 0.0079 | 0.0367 | 6.2019 | 0.1665 | 0.2657 | 1.0 | 1.0 | 0.9238 |
|
714 |
+
| 1.6901 | 1200 | 1.3554 | - | - | - | - | - | - | - | - |
|
715 |
+
| 1.9718 | 1400 | 1.5119 | - | - | - | - | - | - | - | - |
|
716 |
+
| 2.1127 | 1500 | - | 0.0081 | 0.0144 | 5.7135 | 0.1633 | 0.2295 | 1.0 | 1.0 | 0.9341 |
|
717 |
+
| 2.2535 | 1600 | 1.2886 | - | - | - | - | - | - | - | - |
|
718 |
+
| 2.5352 | 1800 | 1.1131 | - | - | - | - | - | - | - | - |
|
719 |
+
| 2.8169 | 2000 | 1.3962 | 0.0108 | 0.0191 | 6.0231 | 0.1540 | 0.2342 | 1.0 | 1.0 | 0.9396 |
|
720 |
+
| 3.0986 | 2200 | 1.2394 | - | - | - | - | - | - | - | - |
|
721 |
+
| 3.3803 | 2400 | 1.1392 | - | - | - | - | - | - | - | - |
|
722 |
+
| 3.5211 | 2500 | - | 0.0097 | 0.0025 | 5.6361 | 0.1580 | 0.2212 | 1.0 | 1.0 | 0.9410 |
|
723 |
+
| 3.6620 | 2600 | 1.1614 | - | - | - | - | - | - | - | - |
|
724 |
+
| 3.9437 | 2800 | 1.2351 | - | - | - | - | - | - | - | - |
|
725 |
+
| 4.2254 | 3000 | 1.1862 | 0.0100 | 0.0107 | 5.5943 | 0.1517 | 0.2158 | 1.0 | 1.0 | 0.9420 |
|
726 |
+
| 4.5070 | 3200 | 0.9371 | - | - | - | - | - | - | - | - |
|
727 |
+
| 4.7887 | 3400 | 1.3572 | - | - | - | - | - | - | - | - |
|
728 |
+
| 4.9296 | 3500 | - | 0.0104 | 0.0057 | 5.6213 | 0.1539 | 0.2141 | 1.0 | 1.0 | 0.9429 |
|
729 |
+
| 5.0 | 3550 | - | - | - | - | - | - | 1.0 | 1.0 | 0.9431 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
730 |
|
731 |
|
732 |
### Framework Versions
|
|
|
781 |
}
|
782 |
```
|
783 |
|
784 |
+
#### CoSENTLoss
|
785 |
+
```bibtex
|
786 |
+
@online{kexuefm-8847,
|
787 |
+
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
|
788 |
+
author={Su Jianlin},
|
789 |
+
year={2022},
|
790 |
+
month={Jan},
|
791 |
+
url={https://kexue.fm/archives/8847},
|
792 |
+
}
|
793 |
+
```
|
794 |
+
|
795 |
+
#### MultipleNegativesRankingLoss
|
796 |
+
```bibtex
|
797 |
+
@misc{henderson2017efficient,
|
798 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
799 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
800 |
+
year={2017},
|
801 |
+
eprint={1705.00652},
|
802 |
+
archivePrefix={arXiv},
|
803 |
+
primaryClass={cs.CL}
|
804 |
+
}
|
805 |
+
```
|
806 |
+
|
807 |
<!--
|
808 |
## Glossary
|
809 |
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 470637416
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:06de7179a076ef54737d05a716f4e621e3078a7b83a92970e3eaf55dab0ed0a4
|
3 |
size 470637416
|
runs/Nov18_22-34-49_DESKTOP-T51O3H3/events.out.tfevents.1731944093.DESKTOP-T51O3H3.12064.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:917f900e27a1ccca362cf5f9d02606c0f793ff29960421ca5414fddc246f0340
|
3 |
+
size 14276
|
runs/Nov18_22-37-55_DESKTOP-T51O3H3/events.out.tfevents.1731944278.DESKTOP-T51O3H3.22016.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:188f029ba96424339a3f086e26e9e3b147445a60ad049cdc0829e3c1461cd5af
|
3 |
+
size 22673
|
training_args.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:e7411dec48308d116a10ef6fbd6f62c73bce2ff79de0fb9a3d0033f372d3c79c
|
3 |
+
size 5688
|